JP6630840B2 - ログ分析のためのランドマークデリミタを推定するシステムおよび方法 - Google Patents

ログ分析のためのランドマークデリミタを推定するシステムおよび方法 Download PDF

Info

Publication number
JP6630840B2
JP6630840B2 JP2018543265A JP2018543265A JP6630840B2 JP 6630840 B2 JP6630840 B2 JP 6630840B2 JP 2018543265 A JP2018543265 A JP 2018543265A JP 2018543265 A JP2018543265 A JP 2018543265A JP 6630840 B2 JP6630840 B2 JP 6630840B2
Authority
JP
Japan
Prior art keywords
log
ald
tokenized
token
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018543265A
Other languages
English (en)
Other versions
JP2018538646A (ja
Inventor
ジュンワン リー、
ジュンワン リー、
ジアンウ ジュ、
ジアンウ ジュ、
ホイ ジャン、
ホイ ジャン、
グオフェイ ジアン、
グオフェイ ジアン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2018538646A publication Critical patent/JP2018538646A/ja
Application granted granted Critical
Publication of JP6630840B2 publication Critical patent/JP6630840B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Debugging And Monitoring (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Description

本発明は、データの機械ロギングおよびその分析に関する。
多くのシステムおよびプログラムは、ログを使用して、エラー、デバッギングの内部状態、またはそれらの動作を記録する。ログ情報を理解するために、セパレータ(すなわち、デリミタ)を使用して入力ログデータを一連のより小さなデータチャンク(すなわち、トークン)に分けることは、必須ステップである。この処理はトークン化と呼ばれる。しかし、このログフォーマットは標準化されておらず、プログラムは、それ自体のカスタマイズされたフォーマットおよびデリミタを使用する。したがって、特に、プログラムコードが利用可能ではなく、したがってログに関して利用可能な領域知識がないときに、可能なフォーマットおよびデリミタを決定することが、ログ分析にとって重大な課題となる。
ログ情報のトークン化に関して、デリミタの選択肢は重要である。例えば、CSVフォーマットで書かれたいくつかのログは、デリミタとしてコンマを使用する十分に確立されたフォーマット標準に従う。しかし、このようなフォーマットに従わないログは、決定するのが簡単でないカスタムのデリミタを使用する。やみくもにデリミタを選択することは、トークン化されたログに混乱を引き起こすことがある。例えば、いくつかのパスワードまたはハッシュ値は、コンマ、$、*、#などの、非数字及び非アルファベットの文字を意味する特殊文字を含んでいることがある。a$j,s&*,sf2といった文字列の例において、コンマはデリミタとして使用されない。それどころか、コンマは、$、&、および*と同様の特殊文字の1つにすぎない。しかし、コンマをデリミタとして使用することは、この例の文字列を3つのトークン(例えば、a$j s&* sf2)にトークン化し、混乱を引き起こす。このトークンの不正確な決定は、異常検出、障害診断、およびパフォーマンスなどのログを使用するアプリケーションの品質に影響を及ぼすことがある。
ログ分析におけるLogstashおよびSplunkなどの従来のアプローチは、デリミタを含むログフォーマットを明示する手動のアプローチを主に適用している。そのようなアプローチにおいて、人間は、所与のログフォーマットに対する解析ルールを定義する必要がある。未知のフォーマットに対して、解析ルールを正確に決定できない。
1つの態様において、ログを分析し、ログのトークン化のためのデリミタを表す1つまたは複数の抽象的なランドマークデリミタ(ALD:abstract landmark delimiter)を識別することで、機械によって生成されたログを分析し;ログおよびALDから、ログをトークン化し、ALDでパターンを分離して中間のトークン化されたログを形成することによって次第にトークン化されたフォーマットを生成し;最後の中間のトークン化されたログが最終的なトークン化されたログとして処理されるまで、ログをトークン化することを反復して繰り返し;アプリケーションにトークン化されたログを適用する、システムおよび方法が開示される。
別の態様において、ログを処理するシステムは、ログを分析し、ログのトークン化のためのデリミタを表す1つまたは複数の抽象的なランドマークデリミタを識別し;ログおよびALDから、ログをトークン化し、かつ、ALDでパターンを分離して中間のトークン化されたログを形成することによって次第にトークン化されたフォーマットを生成し;最後の中間のトークン化されたログが最終的なトークン化されたログとして処理されるまで、ログをトークン化することを反復して繰り返し;アプリケーションにトークン化されたログを適用するために、コードでログを処理するモジュールを含む。
別の態様において、自動の方法は、信頼できるデリミタとして使用されるパターンを、全ログファイルにおけるそれらの一貫した、かつ信頼できる出現に基づいて推定するために、開示される。これらのデリミタは、3つの異なるタイプのパターンで決定され、抽象的なランドマークデリミタ(ALD)と呼ばれる。用語「ランドマーク」は、ログの全体を通じて一貫して現れるデリミタの特徴を指す。さらに我々は、複数回反復させる中で段階的に、選択的かつ保守的に、ログをよりトークン化されたフォーマットに次第にトークン化させるALDを使用する方法を提示する。この方法は、これ以上のさらなる変化がトークン化に起こりえない場合に停止する。
本システムの利点は、以下の1つまたは複数を含んでよい。本方法は、信頼できるデリミタを選択することによって、より高い品質のログのトークン化を可能にする。このように、ログの理解を改善し、ソフトウェアの異常検出、障害診断、およびパフォーマンス診断などのログ分析に基づく高品質ソリューションを提供する。
図1は、ランドマークログ処理システムの例示的なアーキテクチャを示す。 図2は、例示的なランドマーク分析モジュールを示す。 図3は、例示的な特殊文字パターン分析モジュールを示す。 図4は、例示的な単語のパターン分析モジュールを示す。 図5は、例示的なコンスタントのパターン分析モジュールを示す。 図6は、例示的な増分トークン化モジュールを示す。 図7は、モノのインターネットシステムなどの、アクチュエータ/センサを有する例示的なハードウェアを示す。
図1は、例示的なランドマークログ処理システムのアーキテクチャを提示する。その入力、出力、および処理ユニットまたはモジュールは、番号でラベル付けされている。
このシステム(1とラベル付けされている)に入力ログファイルを与え、ランドマーク分析(2とラベル付けされている)は、ログを分析し、ログのトークン化でデリミタとして使用されるログパターンである、モジュール3として示された抽象的なランドマークデリミタ(ALD)を計算する。
モジュール4(増加トークン化)は、2つの入力、つまりオリジナルログと、ランドマーク分析から計算された抽象的なランドマークデリミタを取得する。モジュール4は、入力ログをトークン化し、ALDを使用してパターンを分離することによって次第にトークン化されたフォーマットを生成する。トークン化された出力ログは、中間のトークン化されたログ(モジュール5)として示されている。
ランドマークログ処理は、反復的であり、さらなる処理が必要なくなるまで、上記の処理を繰り返すことを意味する。上記の処理は1回目の反復であった。その後、中間のトークン化は、ALDのさらなる識別および変換のためにモジュール2に供給される。
モジュール2、3、4、5を通過する処理は、新しいALDが発見される限り、繰り返される。これ以上利用可能な新しいALDがないとき、最後の中間のトークン化されたログは、モジュール6として示される最終的なトークン化されたログとしてラベル付けされ、ログ処理は終了する。
これらのトークン化されたログは、モジュール7として示されたアプリケーションに使用される。我々が構築するこれらのアプリケーションは、異常検出、障害診断、およびパフォーマンス診断を含む。作業の範囲のために、これらのデザインは本発明において提示されない。本発明は、データの品質を向上させることによってアプリケーションの利益になるであろう。本発明は、他のタイプのアプリケーションにも適用可能である。
図2は、本発明が抽象的なランドマークデリミタ(ALD)を決定する方法に関する手順であるランドマーク分析を提示する。用語ランドマークは、ログに一貫して現れるALDの特徴を参照する。このランドマーク分析(モジュール2)は、次に1つずつ解説される、3つのサブモジュール21、22、および23からなる。これらの3つのサブモジュールは、ALDを生成する。
図3は、特殊文字パターン分析の機能図を提示する。ここで、4つステップので機能の簡単な説明をする。特殊文字は、#、$、@、!、“、”などの、非数字および非アルファベットの文字として定義される。
ステップ1:トークン化およびフィルタリング:この機能は、特殊文字だけが分析に使用されるようにアルファベットまたは数字の文字を除去する。
ステップ2:空白の抽象化:結合されたスペース文字は、これらの長さに応じて様々に処理される。このようにスペース文字は、長さXのスペースを表す特殊なメタ文字「スペース_X」に変換される。
ステップ3:頻度分析:方法は、各ラインにおける特殊文字の頻度を計算し、その分布を算出し、それらがログに現れるラインの数も計算する。
ステップ4:候補選択:頻度分析において計算されたデータに基づいて、ALDになるべき候補が選択される。選択のための特定の条件に関するポリシは、データ品質に応じて変わる。我々が使用する1つの厳格なポリシは、以下のようなものである。すなわち、特殊文字が1ライン毎に現れ、かつ特殊文字が1ライン毎に同じ回数現れる場合、それは候補として選択される。
具体的な方法は、擬似コードとして以下に提示される。
・Function Mainは、全体的な処理を表す。
・Function TokenAndFilterは、ステップ1である。
・Function WhiteSpaceAbstractionは、ステップ2である。
・Function FrequencyAnalysisは、ステップ3である。
・Function CandidateSelectionは、ステップ4である。
Figure 0006630840
Figure 0006630840
Figure 0006630840
図4は、単語のパターン分析の機能図を提示する。ここで、4つのステップとして、それぞれの機能を簡単に解説する。
ステップ1:トークン化:ログステートメントは、この分析においてスペースでトークン化される。
ステップ2:単語の抽象化:同様の単語のパターンを認識するために、この機能は、それぞれのトークンを抽象的な形式に変換する。ここで、具体的な変換ルールを挙げる。
)1つ以上の隣接アルファベットは1文字のアルファベット「A」に置換する。
)1つ以上の隣接する数は1文字のアルファベット「D」に置換する。
3)アルファベットおよびディジット以外の特殊文字は直接に使用されるが、2つ以上の隣接する文字は、単一の文字に変換される。
例えば、「Albert0234−Number$32」は、これらのルールに関連して「AD−A$D」になる。
ステップ3:頻度分析:その方法は、抽象的な形式のトークンの頻度を計算する。各変換されたトークンに対して、その方法は、どれだけのラインがトークンを含んでいるかを追跡する。
ステップ4:候補選択:頻度分析で計算されたデータに基づいて、ALDになるべき候補が選択される。選択のための具体的な条件に関するポリシは、データ品質に応じて可変である。我々が使用する1つの厳格なポリシは、以下のようなものである。すなわち、単語のパターンが1ライン毎に現れる場合、候補として選択される。
具体的な方法は、擬似コードとして以下に提示される。
・Function Mainは、全体的な処理を表す。
・Function Tokenizeは、ステップ1である。
・Function WordAbstractionは、ステップ2である。
・Function FrequencyAnalysisは、ステップ3である。
・Function CandidateSelectionは、ステップである。
Figure 0006630840
Figure 0006630840
Figure 0006630840
図5は、コンスタントのパターン分析の機能図を提示する。ここに、3つのステップとして、それぞれの機能の簡単な解説がある。
ステップ1:トークン化:ログステートメントは、この分析においてスペースでトークン化される。
ステップ2:頻度分析:その方法はトークンの頻度を計算する。それぞれのトークンに対して、本方法は、どれだけのラインがトークンを含んでいるかを追跡する。
ステップ3:候補選択:頻度分析で計算されたデータに基づいて、ALDになるべき候補が選択される。選択のための具体的な条件に関するポリシは、データ品質に応じて変わり得る。我々が使用する1つの厳格なポリシは、以下のようなものである。すなわち、コンスタントのパターンが1ライン毎にに現れる場合、これは候補として選択される。
具体的な方法は、擬似コードとして以下に提示される。
・Function Mainは、全体的な処理を表す。
・Function Tokenizeは、ステップ1である。
・Function FrequencyAnalysisは、ステップ2である。
・Function CandidateSelectionは、ステップ3である。
Figure 0006630840
Figure 0006630840
図6は、増分トークン化処理の機能図を提示する。このモジュールは、2つの入力を得る:一方は、(入力ログまたは中間のトークン化されたログのどちらかである)ログであり、他方は、ランドマーク分析において生み出される抽象的なランドマークデリミタ(ALD)である。ALDが空である場合、増分トークン化処理は終了し、最終的なトークン化されたログとしてログを返す。本質的に、図1に示された反復処理において、最後の変換されたログは、最終的な変換されたログになる。
ALDが空でないとき、各ログは、ALDを使用することによって、トークン化され、別のログに変換される。ALDは、特殊文字のALD、単語のALD、およびコンスタントのALDの、3つの結果のセットをもたらす、異なる3つの分析から生み出される。これらのALDは、相応して、図6のモジュール43、42、および41に示された3つの変換で使用される。
ここで、3つのALDのセットは、変換におけるトークンのカバレッジ内で重複してよい。例えば、コンスタントのALD「A@B」および特殊文字のALD「@」には、共通の特殊文字「@」がある。混乱を回避するために、変換処理は、異なる優先度でALDを適用する。
一般に、3つのALDには、それぞれのパターンがどれほど具体的であってよいかという程度に相違がある。典型的には、コンスタントのALDは、通常使用されるオリジナルトークンを表すが、単語のALDは抽象的な形式であり、特殊文字のALDを任意のトークンで使用できる。この相違のために、我々は、単語のALDおよび特殊キャラクタのALDに続くコンスタントのALDを使用する変換に、より高い優先度を与える。
具体的には、入力ログからのそれぞれのトークンに関して、トークンは、任意のコンスタントのALDに最初に一致する場合、モジュール41(コンスタントのALD変換)で変換される。一致しない場合、トークンは、任意の単語のALDに一致するかどうかをチェックし、モジュール42(単語のALD変換)で変換される。ALDのどちらも所与のトークンに一致しない場合、特殊文字のALDがチェックされる。いずれかの一致がある場合、トークンは、モジュール43(特殊文字のALD変換)で変換される。一致が発見されない場合、方法は、オリジナルトークンを使用し、次のトークンの処理を継続する。
具体的な方法は、擬似コードとして以下に提示される。
・関数ConstantALDConversionは、モジュール41を表す。トークンがコンスタントのALDの1つに一致する場合、ConversionFullによって処理された、変換されたトークンが返される。
・関数WordALDConversionは、モジュール42を表す。入力トークンは、最初に、抽象的なトークンATokenに変換される。これが、任意の単語のALDに一致する場合、ConversionFullによって処理された、変換されたトークンが返される。
・関数SpecialCharALDConversionは、モジュール43を表す。トークン内の各文字は、それが特殊文字のALDに属すかどうかをチェックされる。属す場合、変換されたトークンが返される。
Figure 0006630840
Figure 0006630840
Figure 0006630840
類似の数字が同じまたは同様の要素を表す図面を参照し、初めに図7を参照すると、本原理の実施形態による、本原理が適用されることがある例示的な処理システム100を説明するブロック図が示される。処理システム100は、システムバス102を介して他の構成要素に動作可能なように連結された、少なくとも1つのプロセッサ(CPU)104を含む。キャッシュ106、リードオンリメモリ(ROM)108、ランダムアクセスメモリ(RAM)110、入力/出力(I/O)アダプタ120、サウンドアダプタ130、ネットワークアダプタ140、ユーザインターフェースアダプタ150、およびディスプレイアダプタ160は、システムバス102に動作可能なように連結されている。
第1のストレージデバイス122および第2のストレージデバイス124は、I/Oアダプタ120によってシステムバス102に動作可能なように連結されている。ストレージデバイス122および124は、ディスクストレージデバイス(例えば、磁気または光ディスクストレージデバイス)、ソリッドステートの磁気デバイス、などのいずれかであってよい。ストレージデバイス122および124は、同じタイプのストレージデバイスまたは異なるタイプのストレージデバイスであってよい。
スピーカ132は、サウンドアダプタ130によって本システムバス102に動作可能なように連結されている。送受信機142は、ネットワークアダプタ140によってシステムバス102に動作可能なように連結されている。ディスプレイデバイス162は、ディスプレイアダプタ160によってシステムバス102に動作可能なように連結されている。第1のユーザ入力デバイス152、第2のユーザ入力デバイス154、および第3のユーザ入力デバイス156は、ユーザインターフェースアダプタ150によってシステムバス102に動作可能なように連結されている。ユーザ入力デバイス152、154、および156は、キーボード、マウス、キーパッド、画像キャプチャデバイス、動作検知デバイス、マイクロフォン、先述のデバイスの少なくとも2つの機能性を組み込んでいるデバイス、などのいずれかであってよい。当然、他のタイプの入力デバイスが、本原理の趣旨を維持しながら使用されてもよい。ユーザ入力デバイス152、154、および156は、同じタイプのユーザ入力デバイス、または、異なるタイプのユーザ入力デバイスであってよい。ユーザ入力デバイス152、154、および156は、システム100に情報を入力し、システム100から情報を出力するために使用される。
当然、処理システム100は、当業者によって容易に想定されるように、他の要素(図示せず)を含んでもよく、一定の要素を省略してもよい。例えば、他の様々な入力デバイスおよび/または出力デバイスは、当業者によって容易に理解されるように、同じものの特定の実装形態に依存する、処理システム100に含まれてよい。例えば、様々なタイプのワイヤレスおよび/または有線の入力および/または出力デバイスが使用されてよい。また、様々な構成における、追加のプロセッサ、コントローラ、メモリ、などが、当業者によって容易に理解できるように利用されてもよい。処理システム100のこれらおよび他の変形形態は、本明細書で提供された本原理の教示を与えられる当業者によって容易に想定される。
本明細書で説明された実施形態は、全面的にハードウェアであってよく、またはハードウェア要素と、ファームウェア、常駐ソフトウェアおよびマイクロコードなどを含むが、これらに限定されない、ソフトウェア要素との両方を含んでよいことを理解されたい。
実施形態は、コンピュータまたは任意の命令実行システムによる、または関連する、使用のためにプログラムコードを提供する、コンピュータ使用可能媒体またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含んでよい。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによる、または関連した、使用のためにプログラムを格納、通信、伝搬、または運搬する、任意の装置を含んでよい。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体のシステム(もしくは装置もしくはデバイス)または伝搬媒体であってよい。媒体は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、固定磁気ディスク、および光ディスク、他などの、コンピュータ可読ストレージ媒体を含んでよい。
プログラムコードを格納および/または実行するのに適切なデータ処理システムは、システムバスを通じてメモリ要素に直接的または間接的に連結されている少なくとも1つのプロセッサ、例えば、ハードウェアプロセッサを含んでよい。メモリ要素は、プログラムコードの実際の実行中に用いられるローカルメモリ、大容量ストレージ、および実行中にコードが大容量ストレージから取り出される回数を減らすために、少なくともいくつかのプログラムコードの一時的なストレージを提供するキャッシュメモリを含んでよい。(キーボード、ディスプレイ、ポインティングデバイス、他を含むが、これらに限定されない)入力/出力、すなわち、I/Oデバイスは、直接に、または、介在するI/Oコントローラを通じて、システムに連結されていてよい。
上記は、あらゆる点で例証的かつ例示的なものとして理解されることになるが、限定的ではなく、本明細書で開示された本発明の範囲は、詳細な説明から決定されるべきではなく、むしろ特許法によって許可された十分な広がりに従って解釈されるものとして、特許請求の範囲から決定されるべきである。本明細書で示され、説明された本実施形態は、本発明の諸原理に関する単に例証的なものであること、および当業者は、本発明の範囲および趣旨から逸脱することなく、様々な変更形態を実装してよいことを理解されたい。当業者は、本発明の範囲および趣旨から逸脱することなく、他の様々な特性の組合せを実装してよい。

Claims (20)

  1. 機械によって生成されたログを分析する方法であって、
    ログを分析し、ログのトークン化のためのデリミタを表す1つまたは複数の抽象的なランドマークデリミタ(ALD)を識別し、
    前記ログおよびALDから、前記ログをトークン化し、前記ALDで前記パターンを分離して中間のトークン化されたログを形成することによって次第にトークン化されたフォーマットを生成し、
    最後の中間のトークン化されたログが最終的なトークン化されたログとして処理されるまで、前記ログのトークン化を反復して繰り返し、
    アプリケーションに前記トークン化されたログを適用する、方法。
  2. それぞれのトークンを抽象的な表現に変換することを含む、請求項1に記載の方法。
  3. つまたは複数の隣接するアルファベットは1文字のアルファベット「A」に置換し、1つまたは複数の隣接する数は1文字のアルファベット「D」に置換する、請求項2に記載の方法。
  4. アルファベットおよびディジット以外の特殊文字が使用され、隣接する文字が単一の文字に変換される、請求項2に記載の方法。
  5. 抽象的な形式のトークンの頻度を決定することを含み、それぞれの変換されたトークンに対して、どれだけのラインが前記トークンを含んでいるかを追跡する、請求項1に記載の方法。
  6. 前記ALDの候補を選択することを含む、請求項5に記載の方法。
  7. データ品質に応じて、特定の条件に関するポリシをALDの選択に可変的に適用することを含む、請求項5に記載の方法。
  8. 単語のパターンが1ライン毎に現れる場合、前記単語のパターンが候補として選択される、請求項5に記載の方法。
  9. コンスタントのパターンを決定することを含み、前記ALDが空でないとき、それぞれのログは、前記ALDを使用することによって、トークン化され、別のログに変換される、請求項1に記載の方法。
  10. 異なる3つの分析でALDを生成し、特殊文字のALD、単語のALD、およびコンスタントのALDの3つの結果のセットを生成することを含む、請求項1に記載の方法。
  11. ログを取り扱うシステムであって、
    プロセッサと、
    前記ログを分析し、ログのトークン化のためのデリミタを表す1つまたは複数の抽象的なランドマークデリミタ(ALD)を識別し、
    前記ログおよびALDから、前記ログをトークン化し、前記ALDで前記パターンを分離して中間のトークン化されたログを形成することによって次第にトークン化されたフォーマットを生成し、
    最後の中間のトークン化されたログが最終的なトークン化されたログとして処理されるまで、前記ログのトークン化を反復して繰り返し、
    アプリケーションに前記トークン化されたログを適用する
    コードで前記ログを処理するモジュールと、
    を含む、システム。
  12. それぞれのトークンを抽象的な表現に変換するコードを含む、請求項11に記載のシステム。
  13. つまたは複数の隣接するアルファベットは1文字のアルファベット「A」に置換し、1つまたは複数の隣接する数は1文字のアルファベット「D」に置換する、請求項12に記載のシステム。
  14. アルファベットおよびディジット以外の特殊文字が使用され、隣接する文字が単一の文字に変換される、請求項12に記載のシステム。
  15. 抽象的な形式のトークンの頻度を決定するコードを含み、それぞれの変換されたトークンに対して、どれだけのラインが前記トークンを含んでいるかを追跡する、請求項11に記載のシステム。
  16. 抽象的なランドマークデリミタ(ALD)になるべき候補を選択するコードを含む、請求項15に記載のシステム。
  17. データ品質に応じて、特定の条件に関するポリシをALDの選択に可変的に適用するコードを含む、請求項15に記載のシステム。
  18. 単語のパターンが1ライン毎に現れる場合、前記単語のパターンが候補として選択される、請求項15に記載のシステム。
  19. コンスタントのパターンを決定するコードを含み、前記ALDが空でないとき、それぞれのログは、前記ALDを使用することによって、トークン化され、別のログに変換される、請求項11に記載のシステム。
  20. 異なる3つの分析でALDを生成し、特殊文字のALD、単語のALD、およびコンスタントのALDの3つの結果のセットを生成するコードを含む、請求項11に記載のシステム。
JP2018543265A 2015-11-09 2016-11-02 ログ分析のためのランドマークデリミタを推定するシステムおよび方法 Active JP6630840B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562252683P 2015-11-09 2015-11-09
US62/252,683 2015-11-09
US15/340,341 US20170132278A1 (en) 2015-11-09 2016-11-01 Systems and Methods for Inferring Landmark Delimiters for Log Analysis
US15/340,341 2016-11-01
PCT/US2016/060139 WO2017083149A1 (en) 2015-11-09 2016-11-02 Systems and methods for inferring landmark delimiters for log analysis

Publications (2)

Publication Number Publication Date
JP2018538646A JP2018538646A (ja) 2018-12-27
JP6630840B2 true JP6630840B2 (ja) 2020-01-15

Family

ID=58667776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018543265A Active JP6630840B2 (ja) 2015-11-09 2016-11-02 ログ分析のためのランドマークデリミタを推定するシステムおよび方法

Country Status (4)

Country Link
US (1) US20170132278A1 (ja)
JP (1) JP6630840B2 (ja)
DE (1) DE112016005141T5 (ja)
WO (1) WO2017083149A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113138B2 (en) * 2018-01-02 2021-09-07 Carrier Corporation System and method for analyzing and responding to errors within a log file

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000224705A (ja) * 1999-01-29 2000-08-11 East Japan Railway Co 車輌用パンタグラフ
US6738767B1 (en) * 2000-03-20 2004-05-18 International Business Machines Corporation System and method for discovering schematic structure in hypertext documents
US20050138542A1 (en) * 2003-12-18 2005-06-23 Roe Bryan Y. Efficient small footprint XML parsing
US7665015B2 (en) * 2005-11-14 2010-02-16 Sun Microsystems, Inc. Hardware unit for parsing an XML document
US8782061B2 (en) * 2008-06-24 2014-07-15 Microsoft Corporation Scalable lookup-driven entity extraction from indexed document collections
US8301437B2 (en) * 2008-07-24 2012-10-30 Yahoo! Inc. Tokenization platform
US20120239667A1 (en) * 2011-03-15 2012-09-20 Microsoft Corporation Keyword extraction from uniform resource locators (urls)
US8620928B1 (en) * 2012-07-16 2013-12-31 International Business Machines Corporation Automatically generating a log parser given a sample log
US9753928B1 (en) * 2013-09-19 2017-09-05 Trifacta, Inc. System and method for identifying delimiters in a computer file
US9607059B2 (en) * 2014-01-31 2017-03-28 Sap Se Intelligent data mining and processing of machine generated logs
US9626414B2 (en) * 2014-04-14 2017-04-18 International Business Machines Corporation Automatic log record segmentation
US10346358B2 (en) * 2014-06-04 2019-07-09 Waterline Data Science, Inc. Systems and methods for management of data platforms
US10585908B2 (en) * 2015-04-03 2020-03-10 Oracle International Corporation Method and system for parameterizing log file location assignments for a log analytics system

Also Published As

Publication number Publication date
WO2017083149A1 (en) 2017-05-18
JP2018538646A (ja) 2018-12-27
US20170132278A1 (en) 2017-05-11
DE112016005141T5 (de) 2018-07-26

Similar Documents

Publication Publication Date Title
US20150310335A1 (en) Determining a performance prediction model for a target data analytics application
JP6620241B2 (ja) ログ解析のための高速パターン発見
JP6111543B2 (ja) 類似サブ時系列の抽出方法及び装置
US9389852B2 (en) Technique for plagiarism detection in program source code files based on design pattern
Paffrath et al. Adapted polynomial chaos expansion for failure detection
CN113162794B (zh) 下一步攻击事件预测方法及相关设备
US10255046B2 (en) Source code analysis and adjustment system
JP6419667B2 (ja) テストdbデータ生成方法及び装置
KR102327026B1 (ko) Gcn 기반의 어셈블리 코드 학습 장치 및 방법과 이를 이용한 보안 약점 탐지 장치 및 방법
US9563635B2 (en) Automated recognition of patterns in a log file having unknown grammar
US20130007529A1 (en) Static analysis based on observed string values during execution of a computer-based software application
JP6630840B2 (ja) ログ分析のためのランドマークデリミタを推定するシステムおよび方法
JP6662637B2 (ja) 情報処理システム、情報処理方法およびプログラムを記憶する記録媒体
CN110175128A (zh) 一种相似代码案例获取方法、装置、设备和存储介质
JP2016149123A (ja) 未知のバイナリモジュールのための有効な入力を決定する方法及び非一時的なコンピュータ可読媒体
Deest et al. Toward scalable source level accuracy analysis for floating-point to fixed-point conversion
US10666255B1 (en) System and method for compacting X-pessimism fixes for gate-level logic simulation
JP6261669B2 (ja) クエリ校正システムおよび方法
WO2020008632A1 (ja) 仮説推論装置、仮説推論方法、及びコンピュータ読み取り可能な記録媒体
US11803768B2 (en) Hypothesis verification apparatus, hypothesis verification method, and computer-readable recording medium
JP6547345B2 (ja) テストケース生成プログラム、テストケース生成方法およびテストケース生成装置
JP5093508B2 (ja) ループ最適化システム、ループ最適化方法、及びループ最適化用プログラム
JP7156376B2 (ja) 観測事象判定装置、観測事象判定方法、及びプログラム
Duy et al. VulnSense: Efficient Vulnerability Detection in Ethereum Smart Contracts by Multimodal Learning with Graph Neural Network and Language Model
KR102557800B1 (ko) 차분 프라이버시 기반 의사결정 트리 생성 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191209

R150 Certificate of patent or registration of utility model

Ref document number: 6630840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350