JP2005209115A - Log summarization device, log summarization program and recording medium - Google Patents
Log summarization device, log summarization program and recording medium Download PDFInfo
- Publication number
- JP2005209115A JP2005209115A JP2004017589A JP2004017589A JP2005209115A JP 2005209115 A JP2005209115 A JP 2005209115A JP 2004017589 A JP2004017589 A JP 2004017589A JP 2004017589 A JP2004017589 A JP 2004017589A JP 2005209115 A JP2005209115 A JP 2005209115A
- Authority
- JP
- Japan
- Prior art keywords
- attribute data
- log
- data
- item
- summarization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
Description
本発明は、ルータ、ファイアウォール、IDS(Intrusion Detection System:侵入検知システム)等のネットワーク機器(通信機器、セキュリティ機器)のログを自動要約するログ要約装置、ログ要約プログラムおよび記録媒体に関する。 The present invention relates to a log summarization device, a log summarization program, and a recording medium that automatically summarize logs of network devices (communication devices, security devices) such as routers, firewalls, IDS (Intrusion Detection System).
ネットワークにおいて、ルータ、ファイアウォール、パケットフィルター、IDS等の機器を設置する場合、これらの装置では膨大な記録(ログ)が発生する。この膨大なログを全て確認することは困難であり、ログを要約あるいは解析する手法が提案されている。 When devices such as routers, firewalls, packet filters, and IDSs are installed in the network, a huge amount of records (logs) are generated in these devices. It is difficult to confirm all of these enormous logs, and methods for summarizing or analyzing the logs have been proposed.
特許文献1には、プログラムの実行トレースなどのログから制御構造を抽出し、その情報を用いてログを整形する制御構造抽出方法が記載されている。また、特許文献2には、アクセスログの中から実質的に意味を有するアクセスログを抽出するアクセスログの縮約方法が記載されている。また、特許文献3には、単語あるいは二単語連結句の出現頻度を考慮してログ情報を抽出するログ情報解析装置が記載されている。
ネットワーク機器において出力されるログは非常に膨大であり、その全てをユーザが確認することは困難であった。また、有益な情報が他の重要でない情報に埋もれてしまっており、有益な情報のみを確認することが困難であった。 The log output in the network device is very large, and it is difficult for the user to confirm all of the logs. In addition, useful information is buried in other unimportant information, and it is difficult to confirm only useful information.
本発明は、上述した問題点に鑑みてなされたものであって、膨大なログを見易く整形し、有益な情報をユーザに提示することができるログ要約装置、ログ要約プログラムおよび記録媒体を提供することを目的とする。 The present invention has been made in view of the above-described problems, and provides a log summarization apparatus, a log summarization program, and a recording medium that can easily format a huge log and present useful information to a user. For the purpose.
本発明は上記の課題を解決するためになされたもので、請求項1に記載の発明は、ネットワーク機器において出力されるログを要約するログ要約装置において、前記ログに記録されている属性データに出現する項目データごとの出現頻度に基づいて、前記属性データの出現項目の偏在度に関する値を算出する算出手段と、前記偏在度に関する値の算出結果に基づいて、集約対象の属性データを選択する選択手段と、選択された前記属性データ中に出現する項目データの出現頻度に基づいて、複数の項目データを同一の数値または文字列に置き換える置換手段と、前記置換手段による項目データの置き換えによって生じた重複行を同一の行に集約する集約手段とを具備することを特徴とするログ要約装置である。
The present invention has been made to solve the above-described problems, and the invention according to
属性データとは、ログに記録されているファイルサイズやファイル名、IPアドレス等のデータ種別を表す。項目データとは、属性データの具体的内容(数値や文字列)を表す。出現頻度とは、同一の項目データがログ中に出現する頻度を表し、出現回数や出現確率等である。偏在度に関する値の算出においては、情報エントロピーやgini係数等を用いる。項目データが特定のデータに集中するほど偏在度は高くなり、逆に特定のデータに集中せずにばらつくほど偏在度は低くなる。 The attribute data represents a data type such as a file size, a file name, and an IP address recorded in the log. Item data represents specific contents (numerical values or character strings) of attribute data. The appearance frequency represents the frequency at which the same item data appears in the log, such as the number of appearances and the appearance probability. Information entropy, a gini coefficient, etc. are used in the calculation of the value regarding the degree of uneven distribution. The uneven distribution degree increases as the item data concentrates on specific data, and conversely, the uneven distribution degree decreases as the item data varies without concentrating on specific data.
請求項2に記載の発明は、請求項1に記載のログ要約装置において、前記属性データは、連続属性データ、離散属性データ、および階層構造属性データのいずれかであり、前記置換手段は、選択された前記属性データに出現する項目データの出現頻度に基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換えることを特徴とする。 According to a second aspect of the present invention, in the log summarizing apparatus according to the first aspect, the attribute data is any one of continuous attribute data, discrete attribute data, and hierarchical structure attribute data, and the replacement means selects The plurality of item data is replaced with the same numerical value or character string so that the degree of uneven distribution of the attribute data is increased based on the appearance frequency of the item data appearing in the attribute data.
連続属性データは、項目データ間に大小関係があり、その大小関係に意味があるものである。離散属性データは、項目データ間に大小関係がないか、あったとしても大小関係に特に意味がないものである。階層構造属性データは、項目データが階層構造で表されるものである。IPアドレス、ディレクトリ構造、ディクレトリパス、URL(Uniform Resource Locator)、URI(Uniform Resource Identifier)、メールアドレス、Xpath等を階層構造属性データに含めることができる。 The continuous attribute data has a magnitude relationship between item data, and the magnitude relationship is meaningful. In the discrete attribute data, there is no size relationship between item data, or even if there is a size relationship, there is no particular meaning in the size relationship. In the hierarchical structure attribute data, item data is represented by a hierarchical structure. An IP address, directory structure, directory path, URL (Uniform Resource Locator), URI (Uniform Resource Identifier), mail address, Xpath, and the like can be included in the hierarchical structure attribute data.
請求項3に記載の発明は、請求項2に記載のログ要約装置において、前記属性データが前記連続属性データである場合、前記置換手段は、前記属性データに出現する複数の項目データ間の差と該項目データの出現頻度とに基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換えることを特徴とする。 According to a third aspect of the present invention, in the log summarizing apparatus according to the second aspect, when the attribute data is the continuous attribute data, the replacement means includes a difference between a plurality of item data appearing in the attribute data. A plurality of item data is replaced with the same numerical value or character string so that the degree of uneven distribution of the attribute data is increased based on the appearance frequency of the item data.
請求項4に記載の発明は、請求項2に記載のログ要約装置において、前記属性データが前記離散属性データである場合、前記置換手段は、前記属性データに出現する複数の項目データ間のハミング距離と該項目データの出現頻度とに基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換えることを特徴とする。 According to a fourth aspect of the present invention, in the log summarizing apparatus according to the second aspect, when the attribute data is the discrete attribute data, the replacing means hums between a plurality of item data appearing in the attribute data. A plurality of item data is replaced with the same numerical value or character string so that the degree of uneven distribution of the attribute data is increased based on the distance and the appearance frequency of the item data.
ハミング距離とは、比較対象の複数の文字列の同一位置における文字がいくつ異なるかを示す値である。比較対象の複数の文字列の文字列長が異なる場合は、文字列長の差をハミング距離に加算するなどとすればよい。 The Hamming distance is a value indicating how many characters at the same position of a plurality of character strings to be compared are different. If the character string lengths of the plurality of character strings to be compared are different, the difference between the character string lengths may be added to the Hamming distance.
請求項5に記載の発明は、請求項2に記載のログ要約装置において、前記属性データが前記階層構造属性データである場合、前記置換手段は、前記属性データに出現する項目データを木構造の節点に割り当て、前記属性データの偏在度が上がるように、出現頻度の小さな項目データを同一の数値または文字列に置き換えることを特徴とする。 According to a fifth aspect of the present invention, in the log summarizing apparatus according to the second aspect, when the attribute data is the hierarchical structure attribute data, the replacement unit converts the item data appearing in the attribute data into a tree structure. Item data having a low appearance frequency is replaced with the same numerical value or character string so that the attribute data is allocated to nodes and the degree of uneven distribution of the attribute data is increased.
請求項6に記載の発明は、請求項1〜請求項5のいずれかの項に記載のログ要約装置において、前記ログを複数のログに分割する分割手段と、分割された個々のログの要約後のログを連結する連結手段とをさらに具備することを特徴とする。 According to a sixth aspect of the present invention, there is provided the log summarizing apparatus according to any one of the first to fifth aspects, wherein the log is divided into a plurality of logs, and the divided individual logs are summarized. It further comprises connecting means for connecting subsequent logs.
分割手段によって分割されたログは、算出手段、選択手段、置換手段、および集約手段の処理によって要約される。連結手段は、分割後の個々のログが要約されたものを連結する。この場合、連結手段は個々のログを所定数ごとに連結し、複数のログを生成してもよい。複数のログが生成された場合、それぞれのログは算出手段、選択手段、置換手段、および集約手段の処理によって再び要約される。連結手段は要約後のログを連結する。上記の処理を繰り返し行うようにしてもよい。 The logs divided by the dividing unit are summarized by the processing of the calculating unit, selecting unit, replacing unit, and aggregating unit. The concatenation means concatenates the summarized individual logs after the division. In this case, the concatenation unit may concatenate individual logs every predetermined number to generate a plurality of logs. When a plurality of logs are generated, each log is summarized again by the processing of the calculation means, selection means, replacement means, and aggregation means. The connecting means connects the logs after summarization. The above processing may be repeated.
請求項7に記載の発明は、ネットワーク機器において出力されるログの要約処理をコンピュータに実行させるログ要約プログラムにおいて、前記ログに記録されている属性データ中に出現する項目データごとの出現頻度に基づいて、前記属性データの出現項目の偏在度に関する値を算出するステップと、前記偏在度に関する値の算出結果に基づいて、集約対象の属性データを選択するステップと、選択された前記属性データに出現する項目データの出現頻度に基づいて、複数の項目データを同一の数値または文字列に置き換えるステップと、前記置換手段による項目データの置き換えによって生じた重複行を同一の行に集約するステップとをコンピュータに実行させるためのログ要約プログラムである。 The invention according to claim 7 is a log summarization program that causes a computer to execute a log summarization process of a log output in a network device, based on the appearance frequency for each item data appearing in the attribute data recorded in the log Calculating a value related to the uneven distribution degree of the appearance items of the attribute data, selecting attribute data to be aggregated based on a calculation result of the value related to the uneven distribution degree, and appearing in the selected attribute data A step of replacing a plurality of item data with the same numerical value or character string, and a step of consolidating duplicate rows generated by the replacement of the item data by the replacement means into the same row based on the appearance frequency of the item data to be performed This is a log summarization program to be executed.
請求項8に記載の発明は、請求項7に記載のログ要約プログラムにおいて、前記属性データは、連続属性データ、離散属性データ、および階層構造属性データのいずれかであり、前記選択された前記属性データ中に出現する項目データの出現頻度に基づいて、複数の前記項目データを同一の数値または文字列に置き換えるステップにおいては、選択された前記属性データに出現する項目データの出現頻度に基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換えることを特徴とする。 The invention according to claim 8 is the log summarization program according to claim 7, wherein the attribute data is any one of continuous attribute data, discrete attribute data, and hierarchical structure attribute data, and the selected attribute is selected. In the step of replacing the plurality of item data with the same numerical value or character string based on the appearance frequency of item data appearing in the data, based on the appearance frequency of the item data appearing in the selected attribute data, A plurality of item data is replaced with the same numerical value or character string so that the degree of uneven distribution of the attribute data is increased.
請求項9に記載の発明は、請求項8に記載のログ要約プログラムにおいて、前記属性データが前記連続属性データである場合、前記属性データに出現する複数の項目データ間の差と該項目データの出現頻度とに基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換えることを特徴とする。
The invention according to
請求項10に記載の発明は、請求項8に記載のログ要約プログラムにおいて、前記属性データが前記離散属性データである場合、前記属性データに出現する複数の項目データ間のハミング距離と該項目データの出現頻度とに基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換えることを特徴とする。 In the log summarizing program according to claim 8, when the attribute data is the discrete attribute data, the Hamming distance between a plurality of item data appearing in the attribute data and the item data The plurality of item data is replaced with the same numerical value or character string so that the degree of uneven distribution of the attribute data is increased based on the appearance frequency of.
請求項11に記載の発明は、請求項8に記載のログ要約プログラムにおいて、前記属性データが前記階層構造属性データである場合、前記属性データに出現する項目データを木構造の節点に割り当て、前記属性データの偏在度が上がるように、出現頻度の小さな項目データを同一の数値または文字列に置き換えることを特徴とする。
The invention according to
請求項12に記載の発明は、請求項7〜請求項11のいずれかの項に記載のログ要約プログラムにおいて、前記偏在度を算出するステップの前に、前記ログを複数のログに分割するステップと、前記重複行を集約するステップの後に、分割された個々のログの要約後のログを連結するステップとをさらに具備することを特徴とする。
The invention according to
請求項13に記載の発明は、請求項7〜請求項12のいずれかの項に記載のログ要約プログラムを記録したコンピュータ読み取り可能な記録媒体である。 A thirteenth aspect of the present invention is a computer-readable recording medium on which the log summarizing program according to any one of the seventh to twelfth aspects is recorded.
本発明によれば、ログ中の属性ごとの項目の出現頻度を考慮してログの要約を行うようにしたので、膨大なログを見易く整形し、有益な情報をユーザに提示することができるという効果が得られる。 According to the present invention, since log summarization is performed in consideration of the appearance frequency of items for each attribute in the log, it is possible to easily format a huge log and present useful information to the user. An effect is obtained.
以下、図面を参照し、本発明を実施するための最良の形態について説明する。図1は、本発明の一実施形態によるログ要約装置の構成を示すブロック図である。本実施形態によるログ要約装置は、ネットワークに接続されており、各種ネットワーク機器から出力されるログの要約を行う。ネットワーク機器としては、ルータ、ファイアウォール、IDS等が想定される。 The best mode for carrying out the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a log summarizing apparatus according to an embodiment of the present invention. The log summarization apparatus according to the present embodiment is connected to a network and summarizes logs output from various network devices. As the network device, a router, a firewall, an IDS, or the like is assumed.
図1において、10はログ収集部であり、ネットワーク機器から、ネットワークを介してログを収集する。11は操作部であり、ユーザによって操作されるキーボード等を備えている。ユーザによって操作部11が操作されると、操作部11はユーザによる操作を示す信号を制御部15へ出力する。制御部15はこの信号に基づいてユーザによる操作の内容を判断する。
In FIG. 1,
12は記憶部であり、ログ収集部10によって収集されたログや、制御部15の動作用のプログラム、ログ形式等の設定に関する設定情報等を記憶する。13は表示部であり、例えば液晶ディスプレイ等を備えている。表示部13は、制御部15によって出力される表示データに基づいて、ユーザによる操作の結果やログの要約の結果等を表示する。14はログ要約部であり、後述する処理に従って、ログの要約を行う。ログ要約部14は要約処理を行う要約処理部141と、処理用データを一時記憶するメモリ等の処理用領域142とを備える。制御部15は各部を制御する。
上記の構成を備えたログ要約装置は、例えば汎用のパーソナルコンピュータによって実現される。ログ要約装置は外部の通信機器から出力されるログを、ネットワークを介して収集し、収集したログを要約するものであってもよいし、各種ネットワーク機器の機能がソフトウェアとして実現されている場合、そのソフトウェアがインストールされているパーソナルコンピュータがログ要約装置の機能を備えていてもよい。 The log summarizing apparatus having the above configuration is realized by, for example, a general-purpose personal computer. The log summarization device may collect logs output from an external communication device via a network and summarize the collected logs. If the functions of various network devices are realized as software, A personal computer in which the software is installed may have the function of a log summarizing device.
次に、本実施形態におけるログについて説明する。一般的に、ログは予め形式が定義されており、記録が時系列順に発生する構造を有している。ログの形式は、ネットワーク機器ごとに定義されているが、機器が異なるログ間においても、汎用的な形式は定義されている。ログは複数行からなり、一行当たりのログデータは、時間データおよび複数の属性データからなる。本実施形態における属性とは、値が連続的に変化する属性(連続属性)、値が離散的に変化する属性(離散属性)、および値が階層構造の関係で表される属性(階層構造属性)のいずれかの属性である。 Next, the log in this embodiment will be described. In general, a log has a format defined in advance, and has a structure in which recording occurs in time series. The log format is defined for each network device, but a general-purpose format is also defined between logs with different devices. The log is composed of a plurality of lines, and the log data per line is composed of time data and a plurality of attribute data. The attributes in the present embodiment are attributes whose values change continuously (continuous attributes), attributes whose values change discretely (discrete attributes), and attributes whose values are represented by a hierarchical structure (hierarchical structure attributes) ) Is one of the attributes.
図2は本実施形態におけるログの一般形式を示す参考図である。本実施形態におけるログデータは、先頭の時間データが示す時刻順に並んでおり、各ログデータは連続属性・離散属性・階層構造属性のいずれかに属する属性データを有している。連続属性に属する属性データは数値で表され、項目ごとの大小関係に意味があるものである。離散属性に属する属性データは文字列または数値で表されるものであり、項目ごとの大小関係がないか、もしあったとしても大小関係に特に意味がないものである。階層構造属性に属する属性データは、項目が階層構造で表されるものである。なお、本実施形態における属性データとは、ファイルサイズやファイル名、IPアドレス等を示すものとする。また、属性データは複数の項目からなり、項目の具体的内容(数値や文字列)を項目値(項目データ)と定義することにする。 FIG. 2 is a reference diagram showing the general format of the log in this embodiment. The log data in this embodiment is arranged in the order of time indicated by the first time data, and each log data has attribute data belonging to any of continuous attributes, discrete attributes, and hierarchical structure attributes. The attribute data belonging to the continuous attribute is represented by a numerical value, and the magnitude relationship for each item is meaningful. The attribute data belonging to the discrete attribute is represented by a character string or a numerical value, and does not have a magnitude relationship for each item, or if there is any, the magnitude relationship has no particular meaning. In the attribute data belonging to the hierarchical structure attribute, items are represented in a hierarchical structure. Note that attribute data in the present embodiment indicates a file size, a file name, an IP address, and the like. The attribute data is composed of a plurality of items, and the specific contents (numerical values and character strings) of the items are defined as item values (item data).
図3はftp(file transfer protocol)サーバにおいて生成されるログの例を示す参考図である。図において、各行によってイベントが構成されている。図4はこのログの形式を示す参考図である。以下、図3のログの1行目のデータを用いてログの形式を説明する。図4には、ログが「current−time」、「transfer−time」、「remote−host」、「file−size」、および「filename」の5つの属性データからなることが示されている。図3における「Mon Sep 1 04:48:02 2003」は、図4における「current−time」に相当する。「current−time」の一般形式は「DDD MMM ddhh:mm:ss YYYY」のように表され、各変数の意味は図4に記載されているとおりである。
FIG. 3 is a reference diagram illustrating an example of a log generated in an ftp (file transfer protocol) server. In the figure, each row constitutes an event. FIG. 4 is a reference diagram showing the format of this log. Hereinafter, the log format will be described using the data in the first line of the log in FIG. FIG. 4 shows that the log includes five attribute data of “current-time”, “transfer-time”, “remote-host”, “file-size”, and “filename”. “
図3における「9」は、図4における「transfer−time」に相当し、秒単位での転送の総合時間を表す。図3における「192.168.80.19」は図4における「remote−host」に相当し、IPアドレスで表されたリモートホスト名である。図3における「61687」は図4における「file−size」に相当し、転送されたファイルのサイズをバイト単位で表したものである。図3における「/tm/packages/miktex−metafont−misc.cab」は図4における「filename」に相当し、転送されたファイル名を表す。この「filename」には、転送されたファイルの階層構造が示されている。 “9” in FIG. 3 corresponds to “transfer-time” in FIG. 4 and represents the total transfer time in seconds. “192.168.80.19” in FIG. 3 corresponds to “remote-host” in FIG. 4, and is a remote host name represented by an IP address. “61687” in FIG. 3 corresponds to “file-size” in FIG. 4 and represents the size of the transferred file in bytes. “/Tm/packages/mictex-metafont-misc.cab” in FIG. 3 corresponds to “filename” in FIG. 4 and represents the transferred file name. This “filename” indicates the hierarchical structure of the transferred file.
時系列データの順序の基準となるcurrent−timeを除く以上の項目のうち、「transfer−time」および「file−size」は連続属性に属し、「filename」および「remote−host」は階層構造属性に属する。「filename」および「remote−host」は、離散属性として扱うこともできるが、本実施形態においては、後述するように階層構造属性として扱うことにする。 Among the above items excluding current-time which is the order of time-series data, “transfer-time” and “file-size” belong to continuous attributes, and “filename” and “remote-host” are hierarchical structure attributes. Belonging to. “Filename” and “remote-host” can be handled as discrete attributes, but in the present embodiment, they are handled as hierarchical structure attributes as described later.
次に、本実施形態によるログ要約装置の動作を説明する。図5は本実施形態におけるログの要約の様子を示す概略参考図である。本実施形態において、ログ要約装置は膨大なログの中から任意の長さN行のログを切り出し、予め定義された長さM行未満のログに要約する。なお、MおよびNは正の整数であり、M≦Nである。 Next, the operation of the log summarizing apparatus according to the present embodiment will be described. FIG. 5 is a schematic reference diagram showing a state of log summarization in the present embodiment. In the present embodiment, the log summarization apparatus cuts out a log having an arbitrary length of N lines from a vast number of logs, and summarizes it into a log having a length less than a predetermined length of M lines. M and N are positive integers, and M ≦ N.
ログ収集部10は、ネットワーク機器から出力されたログを収集し、制御部15へ出力する。制御部15はログ収集部10によって出力されたログを記憶部12へ格納する。ユーザによって操作部11が操作され、ログの要約の開始が指示されると、操作部11はユーザによる開始指示を示す信号を制御部15へ出力する。制御部15はこの信号に基づいて、記憶部12からログおよび設定情報を読み出し、ログ要約部14へ出力する。ログ要約部14はログの要約を行い、要約後のログを制御部15へ出力する。制御部15はこのログを表示するための表示データを表示部13へ出力する。表示部13は表示データに基づいた表示を行う。ネットワーク管理者等のユーザは表示部13の表示によって、ログの要約結果を確認することができる。
The
以下、ログ要約部14によるログの要約手法の詳細について説明する。設定情報には、前述したログの形式を示す情報や、ログの切り出しの長さを示す行数N、要約処理終了の基準となるログの長さを示す行数M等が記録されている。これらの情報はユーザによる任意の変更が可能である。ログおよび設定情報は要約処理部141によって処理用領域142へ格納され、要約処理部141によって適宜読み出される。要約処理部141は設定情報に基づいて、ログを集約可能な形式に変換する。すなわち、ログに記録された情報のうち、設定情報によって規定された形式に従わない属性データを取り除くと共に、ログ中の各イベントにカウンタという属性データを付加する。このカウンタが示す値は、イベント中の全属性データの値が同一の値であるイベントの数を示すものであり、カウンタの初期値は1である。
Details of the log summarization method performed by the
続いて、要約処理部141は設定情報中の、ログの切り出しの長さを示す行数Nを参照し、膨大なログの中からN行のデータ(処理用データ)を切り出す。処理用データの切り出しにおいては、ログに記録されている時間データの参照により、任意の時間範囲内でN行のデータを切り出すことができる。
Subsequently, the
続いて、要約処理部141は集約を行う属性データの選択を行う。この選択は以下のように行われる。要約処理部141は各属性データについて特定の項目値ごとの出現率(出現確率)を求め、求めた出現率と不純度関数とを用いて不純度を求める。そして、不純度が最も高い属性データを選択して集約を行う。ある一つの属性(ファイルサイズ、ファイル名等)に注目した場合の、その属性データの総イベント数(処理用データの行数と同じ)を|S|、その属性データに出現する項目値(数値または文字列)をCi(i=0,1,2,・・・)、その属性データにおけるCiの出現回数を|Ci|とする。Ciの出現率piは以下の[数1]で表される。
Subsequently, the
不純度関数としては、情報量(情報エントロピー)またはgini係数を用いる。不純度関数を情報量とする場合、不純度fは[数2]で表され、不純度関数をgini係数とする場合、不純度fは[数3]で表される。 As the impurity function, an information amount (information entropy) or a gini coefficient is used. When the impurity function is an information amount, the impurity f is expressed by [Equation 2], and when the impurity function is a gini coefficient, the impurity f is expressed by [Equation 3].
不純度fは、特定の属性データについて、項目値が特定の値にどの程度集中しているのかという偏在度を示す指標となる。例えば、値が大きくばらつくほどfの値は大きく(偏在度は小さく)、値が特定の値に集中するほどfの値は小さく(偏在度は大きく)なる。fの値が小さな属性はログの分析を行う上で、重要なデータを含んでいる可能性が高い。例えば、ネットワーク上に攻撃が急激に蔓延した場合、項目値が特定の値に集中しやすくなるのでfの値は小さくなり、そのような属性を分析することは、攻撃の分析を行う上で重要である。したがって、fの値が大きな属性はあまり重要でないデータを含んでいることが多く、要約処理部141はそのようなデータを要約することによって、ユーザにとって見易いログを生成する。
The impurity f is an index indicating the degree of uneven distribution of how much the item values are concentrated on a specific value for specific attribute data. For example, the larger the value, the larger the value of f (the degree of uneven distribution) becomes smaller, and the more the value concentrates on a specific value, the smaller the value of f (the degree of uneven distribution) becomes. An attribute with a small value of f is likely to contain important data for log analysis. For example, when an attack spreads rapidly on the network, the value of f becomes small because the item value tends to concentrate on a specific value, and analyzing such attributes is important for analyzing the attack It is. Therefore, an attribute having a large value of f often includes data that is not very important, and the
要約処理部141は各属性データについて不純度fを求め、最もfの大きな属性データを要約対象の属性データとして選択する。選択された属性データの種類によって要約処理部141の動作は異なり、以下、各属性データごとに要約処理部141の動作を説明する。
The
選択された属性データが連続属性である場合、要約処理部141は属性データの項目値とその値の出現度数とを処理用領域142に格納する。続いて、要約処理部141は、[数4]で表される値d1を求める。[数4]において、Djは属性データにおけるj番目(j=0,1,2,・・・)の項目値であり、|Dj|はその出現率(Djの出現度数を全出現度数すなわちログの行数で割ったもの)を示す。|Dj|+|Dj+1|は隣り合う項目値の出現度数の和であり、|Dj+1−Dj|は隣り合う項目値の距離(差)を示す。
When the selected attribute data is a continuous attribute, the
[数4]におけるd1は密度に相当する値である。d1が大きいほど特定の値への集中の度合が大きく、そのようなデータはログの分析を行う上では重要なデータである。したがって、要約処理部141はd1が小さい区間から順番に集約を行う。すなわち、要約処理部141は、d1が最小となる隣り合う項目値DjとDj+1とを同一の値に置き換えることを置換情報として処理用領域142に格納する。要約処理部141は上述した処理を所定回数繰り返す。あるいは、要約処理部141は項目値の種類の数が所定数になるまで上述した処理を繰り返す。この所定回数または所定数は設定情報に予め記録されている。以上のように、重要でないデータを集約することにより、要約処理部141はこの属性データの不純度fを下げる(偏在度を上げる)。
D 1 in [Expression 4] is a value corresponding to the density. As d 1 is larger, the degree of concentration to a specific value is larger, and such data is important data for log analysis. Thus,
要約処理部141によって選択された属性データが離散属性である場合、要約処理部141は属性データの項目値とその値の出現度数とを処理用領域142に格納する。続いて、要約処理部141は[数5]で表される値d2を求める。[数5]において、Ekは属性データにおけるk番目(k=0,1,2,・・・)の項目値であり、|Ek|はその出現率(Ekの出現度数を全出現度数で割ったもの)を示す。dhum(k,k+1)はEkとEk+1とのハミング距離(EkとEk+1の同一位置における文字がいくつ異なるかを示す値)である。比較対象のEkとEk+1との文字列長が異なる場合は、文字列長の差をハミング距離に加算する等とする。
When the attribute data selected by the
[数5]におけるd2もd1と同様に、密度に相当する値である。要約処理部141はd2が小さい区間から順番に集約を行う。すなわち、要約処理部141は、d2が最小となる隣り合う項目値EjとEj+1とを同一の値に置き換えることを置換情報として処理用領域142に格納する。要約処理部141は上述した処理を所定回数繰り返すか、項目数の種類の数が所定数になるまで繰り返す。以上のように、重要でないデータを集約することにより、要約処理部141はこの属性データの不純度fを下げる(偏在度を上げる)。
D 2 in [Equation 5] is also a value corresponding to the density, similarly to d 1 .
要約処理部141によって選択された属性データが階層構造属性である場合、要約処理部141は属性データの項目値とその値の出現度数とを処理用領域142に格納する。続いて、要約処理部141は属性データの全ての項目値を木構造の節点に割り当てる。図6はディレクトリ構造を例とした場合の、属性データの項目値を木構造の節点に割り当てる手法を示す概略参考図である。図において、601〜604は節点である。要約処理部141は属性データの項目値を読み込み、文字「/」の出現によって木構造の節点を認識する。
When the attribute data selected by the
例えば、最初に読み込んだ値が「/usr/」という値の場合、要約処理部141は、先頭の「/」に関連付けられた節点601を作成する。続いて、要約処理部141は「usr/」に関連付けられた節点602を節点601の下の階層に作成し、節点602にこの値を割り当てる。次に読み込んだ値が「/home/yamada/」という値の場合、要約処理部141は、先頭の「/」によって節点601を認識し、続く「home/」に関連付けられた節点603を節点601の下の階層に作成する。続いて、要約処理部141は「yamada/」に関連付けられた節点604を節点603の下の階層に作成し、読み込んだ値を節点604に割り当てる。同様に、「/home/miyake/」という値によって節点605が作成され、この値が節点605に割り当てられる。
For example, when the first read value is “/ usr /”, the
図7および図8は階層構造属性における項目の集約化の様子を示す概略参考図である。図7(a)は集約前の木構造を示している。木構造の節点に付与された丸印は、その節点に割り当てられた項目値を示しており、丸印の大きさはその項目値の出現数を模式的に示している。各階層構造には節点701〜715が予め割り当てられているものとする。また、各節点における項目値の出現数は図9の左側に示されているとおりとする。例えば、節点708に割り当てられている項目値(「/usr/src/a/」)の出現数は1である。
7 and 8 are schematic reference diagrams showing how items in the hierarchical structure attribute are aggregated. FIG. 7A shows a tree structure before aggregation. Circles attached to the nodes of the tree structure indicate item values assigned to the nodes, and the size of the circles schematically indicates the number of occurrences of the item values. Assume that
要約処理部141は各項目値を上記のような木構造の節点に割り当て、以下の[数6]で表されるThを算出する。[数6]において、Sは各節点に属する項目値の出現数の和(全項目数)であり、ログの行数と等しい。図7〜図9の例においては、Sは図9で示される各出現数の和の14となる。Oは出力する項目値の数であり、この例では4とする。SおよびOは記憶部12中の設定情報に予め記録されている。この例においては、項目数14の出現項目の項目値を4個の項目値に集約する(14個の項目を4つの節点に割り当てる)とする。
The
要約処理部141は上記のThを算出する。S=14、O=4であるから、Th=3.5となる。このThは集約後の1節点当たりの平均項目数を示している。要約処理部141は出現数の小さい項目値から順に以下の処理を行う。
(1)一つ上の階層の節点に集約した場合に、その節点における項目値の出現数がTh以下である場合、集約可能であると判断する。
(2)(1)において一つ上の階層の節点に集約することができる場合、その節点の下の階層に属する項目値をその節点に集約する。
(3)(1)において、一つ上に階層の節点に集約することができない場合、さらに一つ上の階層の節点について再び(1)を考慮する。
The
(1) When aggregation is performed at a node in the next higher hierarchy, if the number of occurrences of item values at that node is equal to or less than Th, it is determined that aggregation is possible.
(2) In the case of (1), when it is possible to consolidate to the node of the hierarchy one level above, the item values belonging to the hierarchy below the node are consolidated to the node.
(3) In (1), when it is not possible to consolidate the nodes one level above, (1) is considered again for the nodes one level higher.
要約処理部141は以上の(1)〜(3)を繰り返し、出力する項目値の数がOとなるまで項目値の集約を行う。割り当て可能な節点が見つからず、最上位の節点まで探索が進んだ場合には、最上位の節点に割り当てられる。以下、具体例を挙げて説明する。図7(a)の状態において、要約処理部141は最も出現数の小さい項目値である、節点708に属する項目値を選択する。上記の(1)に従い、要約処理部141は節点704への割り当てを試みる(図7(b)参照)。節点708に属する項目値を節点704へ割り当てたとすると、節点704に属する項目数は1となり、Th以下である。また、節点704の下の階層に属する節点709に属する項目値も節点704へ割り当てたとすると、節点704に属する項目数は合計3となり、Th以下である。したがって、上記の(2)により、節点708および709に属する項目値は節点704へ割り当てられる(図7(c)参照)。
The
続いて、要約処理部141は節点711に属する項目値を選択し、上記の(1)に従い、節点705への割り当てを試みる(図7(d)参照)。節点711に属する項目値を節点711に割り当て、節点710に属する項目値も節点711に割り当てたとすると、節点711に属する項目数の合計は4となり、Thを超えるので、前記の(3)に従った割り当てが行われる。要約処理部141は節点711に属する項目値をさらに上の階層の節点702へ割り当てようとする(図7(e)参照)。前記の(2)に従い、節点702の下の階層の節点704および節点711に属する項目値も節点702へ割り当てた場合、項目数の合計はThを超えるので、要約処理部141は最上位の節点701へ項目値を割り当てる(図7(f))。
Subsequently, the
続いて、要約処理部141は節点714に属する項目値を選択し、前記の(1)に従い、節点707への割り当てを試みる(図8(a)参照)。節点707以下の階層に属する項目値を全て節点707へ割り当てたとすると、項目数はTh以下なので、節点714および715に属する項目値は節点707へ割り当てられる(図8(b)参照)。続いて、要約処理部141は節点713に属する項目値を選択し、節点705への割り当てを試みる(図8(c)参照)。前記の(2)に従い、節点705の下の階層の節点710に属する項目値も節点705へ割り当てた場合、項目数の合計はThを超えるので、要約処理部141は節点703への割り当てを試みる(図8(d)参照)。この場合も、前記の(3)により、要約処理部141は最上位の階層の節点701へ割り当てる(図8(e)参照)。
Subsequently, the
続いて、要約処理部141は出現数の最も少ない項目値として節点707(出現数2)に属する項目値を選択し、節点703への割り当てを試みる(図8(f)参照)。前記の(3)により、要約処理部141はこの項目値を最上位の階層の節点701へ割り当てる(図8(g)参照)。ここまでで、項目値の数は所定の4となったので、要約処理部141は項目の集約を終了する。集約後の各項目値とその項目数は図9の右側のようになる。要約処理部141は以上のような集約化に基づいて、各項目の項目値がどのような項目値に置き換わるかを置換情報として処理用領域142へ格納する。以上のように、重要でない項目値(出現数の少ない項目値)を同一の節点に集約することにより、要約処理部141はこの属性データの不純度fを下げる(偏在度を上げる)。
Subsequently, the
上述したような各属性データごとの項目集約に続いて、要約処理部141はログの各項目値の置き換えを行う。すなわち、要約処理部141は処理用領域142から置換情報を読み出し、置換情報に基づいて、集約によって同一の項目値となった項目の項目値を同一の値で置き換える。例えば、上記の階層構造属性の場合を挙げると、項目値「/usr/src/a/」(節点708の項目値)および「/usr/src/b」(節点709の項目値)は「/usr/src/」(節点704の項目値)で置き換えられる。
Following the item aggregation for each attribute data as described above, the
続いて、要約処理部141は上記の置き換えによって生じた重複行(各属性データの項目値が全て一致する行)の数を数え、その数をカウンタに保存し、一行だけを残して他の重複行を削除する。この場合、「current−time」は上記の重複行の数え上げには関与しない。すなわち、要約処理部141は「current−time」を除いた属性データに関して重複しているか否かの判定を行う。あるいは、要約処理部141は全イベントに対して「current−time」を同一の値に置き換えてから上記の重複行の数え上げを行う。
Subsequently, the
要約処理部141は設定情報を処理用領域142から読み出して参照し、以上の重複行の削除の結果、残ったログの行数がM未満であれば要約処理を終了し、M以上であれば、要約処理部141は不純度fに基づいた属性データの選択を行い、その属性データに関して上記の項目集約処理を行う。
The
なお、階層構造属性の項目集約化に関しては、ディレクトリ構造を例として説明したが、IPアドレスの場合も同様である。図10はIPアドレスの木構造への割り当て手法を示す概略参考図である。図で示されるように、要約処理部141は、ピリオドで区切られたIPアドレスの各数値を32ビットの2進数へ変換する。続いて、要約処理部141は、各ビット間にデリミタを挿入し、デリミタで区切られた1または0を左から上位の階層に割り当てていく。例えば、「1100」で表される2進数の場合、図10のように、各ビットの数値が最上位の節点1101の下に属する節点1102〜1105に割り当てられる。以上のようにして構築された木構造に対して、要約処理部141は項目の集約化を行う。
In addition, regarding the item aggregation of hierarchical structure attributes, the directory structure has been described as an example, but the same applies to IP addresses. FIG. 10 is a schematic reference diagram showing a method for assigning IP addresses to a tree structure. As shown in the figure, the
図11は上述したログ要約装置の動作を示すフローチャートである。ユーザによって操作部11が操作され、ログの要約の開始が指示されると、操作部11はユーザによる開始指示を示す信号を制御部15へ出力する。制御部15はこの信号に基づいて、記憶部12からログおよび設定情報を読み出し、ログ要約部14へ出力する。ログおよび設定情報はログ要約部14へ入力される(ステップS1101)。続いて、ログ要約部14中の要約処理部141は設定情報に基づいて、ログを集約可能な形式に変換する(ステップS1102)。
FIG. 11 is a flowchart showing the operation of the log summarization apparatus described above. When the
続いて、要約処理部141は設定情報中の、ログの切り出しの長さを示す行数Nを参照し、ログの中からN行の処理用データを切り出す(ステップS1103)。要約処理部141は不純度関数を用いて各属性データについて不純度fを求め、最もfの大きな属性データを要約対象の属性データとして選択する(ステップS1104)。要約処理部141は選択された属性データが連続属性、離散属性、および階層構造属性のいずれに属するかを判定する(ステップS1105)。
Subsequently, the
選択された属性データが連続属性である場合、要約処理部141は[数4]で示されるd1が小さい区間から順番に集約を行う(ステップS1106)。また、選択された属性データが離散属性である場合、要約処理部141は[数5]で示されるd2が小さい区間から順番に集約を行う(ステップS1107)。また、選択された属性データが階層構造属性である場合、要約処理部141は、各項目を木構造の節点に割り当て、出現数の小さい項目値から順に集約を行う(ステップS1108)。
When selected attribute data is continuous attribute,
続いて、要約処理部141は、集約によって同一となった項目の項目値を同一の値で置き換える(ステップS1109)。要約処理部141は、置き換えによって生じた重複行の数を数え、その数をカウンタに保存し、一行だけを残して残りの重複行を削除する(ステップS1110)。続いて、要約処理部141は設定情報を処理用領域142から読み出して参照し、残ったログの行数がM未満であるかどうか判定する(ステップS1111)。残ったログの行数がM未満であれば処理が終了する。一方、残ったログの行数がM以上であれば、ステップS1104に戻る。ログの行数がM未満となるまで以上の処理が繰り返される。
Subsequently, the
なお、大きなログを要約する場合に、まずログを複数に分割し、分割後のログに対して要約を行うことを繰り返してもよい。例えば、図12において、ログ1000をログ20に要約するとする。要約処理部141はログ1000を所定の長さの複数のログ500、510、520、530・・・に分割する。続いて、要約処理部141は前述した要約手法によって個々のログを要約し、ログ400、410、420、430・・・を生成する。要約処理部141は要約した個々のログを所定数ごとに連結し、ログ300〜330を生成する。続いて、要約処理部141は連結した個々のログを要約し、ログ200〜230を生成する。要約処理部141はこれを再び連結してログ100を生成し、このログを要約して所定行数未満のログ20を生成する。
When summarizing a large log, it may be repeated that the log is first divided into a plurality of logs and summarization is performed on the divided logs. For example, in FIG. The
以上説明したように、本実施形態によれば、IDS、ファイアウォール、ルータ、Webサーバ、ftpサーバ、各種syslog、peer to peerシステム等において出力される膨大なログを所定行数未満(あるいは以下)に要約することができる。これにより、膨大なログを見易く整形し、ログ中の有益な情報をネットワークの管理者等に提示することができる。また、本実施形態によれば、出力するログの規模(行数)を指定して要約を行うことができる。これにより、ネットワークの概要を知りたい場合には出力するログの規模を小さくして要約を行い、ネットワークの詳細を知りたい場合には出力するログの規模をもう少し大きくして要約を行うなどの柔軟な要約を行うことができる。 As described above, according to the present embodiment, an enormous log output in an IDS, firewall, router, Web server, ftp server, various syslogs, peer-to-peer systems, etc. is less than a predetermined number of lines (or below). Can be summarized. As a result, it is possible to easily format an enormous log and present useful information in the log to a network administrator or the like. Further, according to the present embodiment, summarization can be performed by specifying the scale (number of lines) of the log to be output. This makes it possible to reduce the size of the log to be output when you want to get an overview of the network, and to summarize by reducing the size of the log to be output when you want to know the details of the network. Summary can be made.
また、ログとして出力される属性の中で、特にIPアドレス、ディレクトリ構造、ディクレトリパス、URL(Uniform Resource Locator)、URI(Uniform Resource Identifier)、メールアドレス、Xpath等を木構造に割り当てることにより、有益な要約を行うことができる。階層構造の場合、各階層が意味のある情報を持っており、項目の集約先の階層は意味のある情報を持っている。例えば、「/home/a/」というディレクトリ構造の場合、集約先の候補となる「/」、「/home/」、および「/home/a」のいずれもが意味のある情報である。本実施形態による階層属性の要約手法によれば、階層構造をより細かい粒度で、意味のある情報に集約することができる。通信ログにはIPアドレス、URI、Xpath等の階層構造属性を有しているものが多く、本実施形態によれば、これらの集約をより細かく行うことができる。 Among the attributes output as logs, in particular, by assigning an IP address, directory structure, directory path, URL (Uniform Resource Locator), URI (Uniform Resource Identifier), mail address, Xpath, etc. to the tree structure, Useful summaries can be made. In the case of a hierarchical structure, each hierarchy has meaningful information, and the hierarchy of items to be aggregated has meaningful information. For example, in the case of a directory structure of “/ home / a /”, all of “/”, “/ home /”, and “/ home / a” that are candidates for aggregation are meaningful information. According to the hierarchical attribute summarization method according to the present embodiment, the hierarchical structure can be aggregated into meaningful information with a finer granularity. Many communication logs have hierarchical structure attributes such as an IP address, URI, and Xpath, and according to the present embodiment, these can be aggregated more finely.
また、段階的にログの要約を繰り返し行うことにより、一度の要約で所定行数未満のログを生成するよりも処理を高速に行うことができる。さらに、この要約の結果を保存しておくことにより、新しいログが出力された場合に、新しいログだけを要約すればよい。 In addition, by repeating log summarization step by step, processing can be performed at a higher speed than generating a log with less than a predetermined number of lines in one summary. Furthermore, by storing the summary results, when a new log is output, only the new log needs to be summarized.
以上、図面を参照して本発明の実施形態について詳述してきたが、具体的な構成はこれらの実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、上述した実施形態におけるログ要約装置は、その動作および機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行させることにより実現してもよい。 As described above, the embodiments of the present invention have been described in detail with reference to the drawings, but the specific configuration is not limited to these embodiments, and includes design changes and the like within a scope not departing from the gist of the present invention. It is. For example, the log summarization apparatus in the above-described embodiment records a program for realizing the operation and function on a computer-readable recording medium, and causes the computer to read and execute the program recorded on the recording medium. May be realized.
ここで、「コンピュータ」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 Here, the “computer” includes a homepage providing environment (or display environment) if the WWW system is used. The “computer-readable recording medium” refers to a storage device such as a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a hard disk built in the computer. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
また、上述したログ要約プログラムは、このプログラムを記憶装置等に格納したコンピュータから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上述したログ要約プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータにすでに記録されているプログラムとの組合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The log summarization program described above may be transmitted from a computer storing the program in a storage device or the like to another computer via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Further, the log summarization program described above may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer, what is called a difference file (difference program) may be sufficient.
10・・・ログ収集部、11・・・操作部、12・・・記憶部、13・・・表示部、14・・・ログ要約部、15・・・制御部、141・・・要約処理部、142・・・処理用領域。
DESCRIPTION OF
Claims (13)
前記ログに記録されている属性データに出現する項目データごとの出現頻度に基づいて、前記属性データの出現項目の偏在度に関する値を算出する算出手段と、
前記偏在度に関する値の算出結果に基づいて、集約対象の属性データを選択する選択手段と、
選択された前記属性データ中に出現する項目データの出現頻度に基づいて、複数の項目データを同一の数値または文字列に置き換える置換手段と、
前記置換手段による項目データの置き換えによって生じた重複行を同一の行に集約する集約手段と、
を具備することを特徴とするログ要約装置。 In a log summarization device that summarizes logs output in network devices,
Calculation means for calculating a value related to the uneven distribution degree of the appearance items of the attribute data based on the appearance frequency for each item data appearing in the attribute data recorded in the log;
Selection means for selecting attribute data to be aggregated based on a calculation result of a value regarding the uneven distribution degree;
Replacement means for replacing a plurality of item data with the same numerical value or character string based on the appearance frequency of item data appearing in the selected attribute data;
Aggregating means for aggregating duplicate lines generated by replacement of item data by the replacing means into the same line;
A log summarizing apparatus comprising:
前記置換手段は、選択された前記属性データに出現する項目データの出現頻度に基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換える
ことを特徴とする請求項1に記載のログ要約装置。 The attribute data is any one of continuous attribute data, discrete attribute data, and hierarchical structure attribute data,
The replacement means replaces a plurality of item data with the same numerical value or character string so that the uneven distribution degree of the attribute data is increased based on the appearance frequency of the item data appearing in the selected attribute data. The log summarizing apparatus according to claim 1.
ことを特徴とする請求項2に記載のログ要約装置。 When the attribute data is the continuous attribute data, the replacement unit increases the degree of uneven distribution of the attribute data based on the difference between the plurality of item data appearing in the attribute data and the appearance frequency of the item data. As described above, the log summarizing apparatus according to claim 2, wherein a plurality of item data is replaced with the same numerical value or character string.
ことを特徴とする請求項2に記載のログ要約装置。 In the case where the attribute data is the discrete attribute data, the replacement means determines the degree of uneven distribution of the attribute data based on the Hamming distance between a plurality of item data appearing in the attribute data and the appearance frequency of the item data. The log summarizing apparatus according to claim 2, wherein a plurality of item data is replaced with the same numerical value or character string so as to increase.
ことを特徴とする請求項2に記載のログ要約装置。 When the attribute data is the hierarchical structure attribute data, the replacement means assigns item data appearing in the attribute data to nodes of a tree structure, and an item with a low appearance frequency so that the degree of uneven distribution of the attribute data increases. The log summarizing apparatus according to claim 2, wherein the data is replaced with the same numerical value or character string.
分割された個々のログの要約後のログを連結する連結手段と、
をさらに具備することを特徴とする請求項1〜請求項5のいずれかの項に記載のログ要約装置。 Dividing means for dividing the log into a plurality of logs;
A concatenation means for concatenating logs after the summarization of each divided log;
The log summarizing apparatus according to claim 1, further comprising:
前記ログに記録されている属性データ中に出現する項目データごとの出現頻度に基づいて、前記属性データの出現項目の偏在度に関する値を算出するステップと、
前記偏在度に関する値の算出結果に基づいて、集約対象の属性データを選択するステップと、
選択された前記属性データに出現する項目データの出現頻度に基づいて、複数の項目データを同一の数値または文字列に置き換えるステップと、
前記置換手段による項目データの置き換えによって生じた重複行を同一の行に集約するステップと、
をコンピュータに実行させるためのログ要約プログラム。 In a log summarization program that causes a computer to execute log summarization processing that is output in a network device,
Calculating a value related to the degree of uneven distribution of the appearance items of the attribute data based on the appearance frequency for each item data appearing in the attribute data recorded in the log;
Selecting attribute data to be aggregated based on a calculation result of a value regarding the uneven distribution degree;
Replacing a plurality of item data with the same numerical value or character string based on the appearance frequency of the item data appearing in the selected attribute data;
Aggregating duplicate lines generated by the replacement of item data by the replacement means into the same line;
Log summarization program to make the computer run.
前記選択された前記属性データ中に出現する項目データの出現頻度に基づいて、複数の前記項目データを同一の数値または文字列に置き換えるステップにおいては、選択された前記属性データに出現する項目データの出現頻度に基づいて、前記属性データの偏在度が上がるように、複数の項目データを同一の数値または文字列に置き換える
ことを特徴とする請求項7に記載のログ要約プログラム。 The attribute data is any one of continuous attribute data, discrete attribute data, and hierarchical structure attribute data,
In the step of replacing the plurality of item data with the same numerical value or character string based on the appearance frequency of the item data appearing in the selected attribute data, the item data appearing in the selected attribute data The log summarization program according to claim 7, wherein a plurality of item data is replaced with the same numerical value or character string so that the degree of uneven distribution of the attribute data is increased based on the appearance frequency.
ことを特徴とする請求項8に記載のログ要約プログラム。 When the attribute data is the continuous attribute data, based on the difference between the plurality of item data appearing in the attribute data and the appearance frequency of the item data, a plurality of uneven distribution levels of the attribute data are increased. 9. The log summarization program according to claim 8, wherein item data is replaced with the same numerical value or character string.
ことを特徴とする請求項8に記載のログ要約プログラム。 In a case where the attribute data is the discrete attribute data, a plurality of the attribute data is increased based on the Hamming distance between the item data appearing in the attribute data and the appearance frequency of the item data. The log summarization program according to claim 8, wherein the item data is replaced with the same numerical value or character string.
ことを特徴とする請求項8に記載のログ要約プログラム。 When the attribute data is the hierarchical structure attribute data, item data that appears in the attribute data is assigned to nodes of a tree structure, and the item data with a low appearance frequency is assigned the same numerical value so that the degree of uneven distribution of the attribute data increases. The log summarization program according to claim 8, wherein the log summarization program is replaced with a character string.
前記重複行を集約するステップの後に、分割された個々のログの要約後のログを連結するステップと、
をさらに具備することを特徴とする請求項7〜請求項11のいずれかの項に記載のログ要約プログラム。 Dividing the log into a plurality of logs before calculating the uneven distribution;
Concatenating the logs after summarizing the individual divided logs after the step of aggregating the duplicate rows;
The log summarization program according to any one of claims 7 to 11, further comprising:
A computer-readable recording medium on which the log summarizing program according to any one of claims 7 to 12 is recorded.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004017589A JP4491577B2 (en) | 2004-01-26 | 2004-01-26 | Log summarization device, log summarization program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004017589A JP4491577B2 (en) | 2004-01-26 | 2004-01-26 | Log summarization device, log summarization program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005209115A true JP2005209115A (en) | 2005-08-04 |
JP4491577B2 JP4491577B2 (en) | 2010-06-30 |
Family
ID=34902360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004017589A Expired - Fee Related JP4491577B2 (en) | 2004-01-26 | 2004-01-26 | Log summarization device, log summarization program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4491577B2 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304647A (en) * | 2006-05-08 | 2007-11-22 | Fujitsu Ltd | Request classification program, request classification device and request classification method |
JP2008083751A (en) * | 2006-09-25 | 2008-04-10 | Hitachi Information Systems Ltd | Network system coping with unauthorized access |
JP2009169474A (en) * | 2008-01-10 | 2009-07-30 | Mitsubishi Electric Corp | System log management support device and system log management support method |
JP2009271796A (en) * | 2008-05-08 | 2009-11-19 | Nomura Research Institute Ltd | Noise removal system for document data |
JP2011113443A (en) * | 2009-11-30 | 2011-06-09 | Mitsubishi Electric Corp | Log compression device, log collection system, computer program, and log compression method |
US8301601B2 (en) | 2010-11-09 | 2012-10-30 | Fuji Xerox Co., Ltd. | Log consolidation device, log consolidation method, and computer-readable medium |
JP2016504687A (en) * | 2012-12-19 | 2016-02-12 | アップランゴ・システムズ・リミテッドApplango Systems Ltd | Management of information technology services |
WO2017085921A1 (en) * | 2015-11-17 | 2017-05-26 | 日本電気株式会社 | Log analysis system, method, and program |
JP2017228245A (en) * | 2016-06-24 | 2017-12-28 | 蛇の目ミシン工業株式会社 | Log collection device, industrial robot, and electrically driven press |
WO2020012579A1 (en) * | 2018-07-11 | 2020-01-16 | 日本電気株式会社 | Log analysis device, log analysis method, and program |
WO2020017037A1 (en) * | 2018-07-20 | 2020-01-23 | 日本電気株式会社 | Log analysis device, log analysis method, and program |
-
2004
- 2004-01-26 JP JP2004017589A patent/JP4491577B2/en not_active Expired - Fee Related
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007304647A (en) * | 2006-05-08 | 2007-11-22 | Fujitsu Ltd | Request classification program, request classification device and request classification method |
JP4616791B2 (en) * | 2006-05-08 | 2011-01-19 | 富士通株式会社 | Request type program, request type device, and request type method |
JP2008083751A (en) * | 2006-09-25 | 2008-04-10 | Hitachi Information Systems Ltd | Network system coping with unauthorized access |
JP2009169474A (en) * | 2008-01-10 | 2009-07-30 | Mitsubishi Electric Corp | System log management support device and system log management support method |
JP2009271796A (en) * | 2008-05-08 | 2009-11-19 | Nomura Research Institute Ltd | Noise removal system for document data |
JP2011113443A (en) * | 2009-11-30 | 2011-06-09 | Mitsubishi Electric Corp | Log compression device, log collection system, computer program, and log compression method |
US8301601B2 (en) | 2010-11-09 | 2012-10-30 | Fuji Xerox Co., Ltd. | Log consolidation device, log consolidation method, and computer-readable medium |
JP2016504687A (en) * | 2012-12-19 | 2016-02-12 | アップランゴ・システムズ・リミテッドApplango Systems Ltd | Management of information technology services |
JPWO2017085921A1 (en) * | 2015-11-17 | 2018-09-06 | 日本電気株式会社 | Log analysis system, method and program |
WO2017085921A1 (en) * | 2015-11-17 | 2017-05-26 | 日本電気株式会社 | Log analysis system, method, and program |
JP2017228245A (en) * | 2016-06-24 | 2017-12-28 | 蛇の目ミシン工業株式会社 | Log collection device, industrial robot, and electrically driven press |
KR20190003599A (en) * | 2016-06-24 | 2019-01-09 | 자노메 미싱 고교가부시키가이샤 | Log collecting devices, industrial robots and electric presses |
KR102195548B1 (en) * | 2016-06-24 | 2020-12-28 | 자노메 미싱 고교가부시키가이샤 | Log collecting device, industrial robot and electric press |
US10921776B2 (en) | 2016-06-24 | 2021-02-16 | Janome Sewing Machine Co., Ltd. | Log collecting device, industrial robot, and electric-powered press |
WO2020012579A1 (en) * | 2018-07-11 | 2020-01-16 | 日本電気株式会社 | Log analysis device, log analysis method, and program |
JPWO2020012579A1 (en) * | 2018-07-11 | 2021-07-08 | 日本電気株式会社 | Log analyzer, log analysis method, program |
JP7078114B2 (en) | 2018-07-11 | 2022-05-31 | 日本電気株式会社 | Log analyzer, log analysis method, program |
WO2020017037A1 (en) * | 2018-07-20 | 2020-01-23 | 日本電気株式会社 | Log analysis device, log analysis method, and program |
JPWO2020017037A1 (en) * | 2018-07-20 | 2021-07-15 | 日本電気株式会社 | Log analyzer, log analysis method, program |
JP7160097B2 (en) | 2018-07-20 | 2022-10-25 | 日本電気株式会社 | LOG ANALYSIS DEVICE, LOG ANALYSIS METHOD, AND PROGRAM |
Also Published As
Publication number | Publication date |
---|---|
JP4491577B2 (en) | 2010-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11036566B2 (en) | Analyzing machine data based on relationships between log data and network traffic data | |
JP4489994B2 (en) | Topic extraction apparatus, method, program, and recording medium for recording the program | |
JP4491577B2 (en) | Log summarization device, log summarization program, and recording medium | |
KR102670058B1 (en) | Method for providing user interface for collection of log | |
Vemulapalli et al. | Design and Implementation of an Effective Web Server Log Preprocessing System | |
CN111177522B (en) | Page aggregation method, device, computer equipment and storage medium | |
Hernández-Campos et al. | Variable heavy tailed durations in Internet traffic, part II: Theoretical implications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100216 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4491577 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130416 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130416 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140416 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |