JP2020135772A - ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体 - Google Patents

ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2020135772A
JP2020135772A JP2019032124A JP2019032124A JP2020135772A JP 2020135772 A JP2020135772 A JP 2020135772A JP 2019032124 A JP2019032124 A JP 2019032124A JP 2019032124 A JP2019032124 A JP 2019032124A JP 2020135772 A JP2020135772 A JP 2020135772A
Authority
JP
Japan
Prior art keywords
pattern
text data
log
unit
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019032124A
Other languages
English (en)
Inventor
賢児 宮澤
Kenji Miyazawa
賢児 宮澤
裕一 佐川
Yuichi Sagawa
裕一 佐川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2019032124A priority Critical patent/JP2020135772A/ja
Publication of JP2020135772A publication Critical patent/JP2020135772A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 圧縮したファイルの復元のスピードが速く、全体復元と部分復元の双方が可能なログのテキストデータの圧縮復元装置、および圧縮復元方法を提供する。【解決手段】 圧縮復元装置1は、パターン当てはめ部10と圧縮部20と復元部30とを含み、パターン当てはめ部10は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、前記パターンは、固定部分および可変部分を含み、圧縮部20は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、復元部30は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する。【選択図】 図1

Description

本発明は、ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体に関する。
装置やソフトウェア等が出力するログの蓄積および保管にともない、ディスク装置の使用量が増加する。
ログの容量を削減する方法として、zip形式等で圧縮する方法があげられる。
しかし、従来の圧縮方法では、圧縮したファイルの全てを解凍しないと必要なログが抽出できないため、解凍のために一時的にディスク使用量が増える、必要なログの抽出に時間がかかる等の問題があった。
そこで、本発明は、圧縮したファイルの復元のスピードが速く、全体復元と部分復元の双方が可能なログのテキストデータの圧縮復元装置、および圧縮復元方法を提供することを目的とする。
前記目的を達成するために、本発明のログのテキストデータの圧縮復元装置は、
パターン当てはめ部、圧縮部、および復元部を含み、
前記パターン当てはめ部は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
前記パターンは、固定部分および可変部分を含み、
前記圧縮部は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
前記復元部は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する。
本発明のログのテキストデータの圧縮復元方法は、
パターン当てはめ工程、圧縮工程、および復元工程を含み、
前記パターン当てはめ工程は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
前記パターンは、固定部分および可変部分を含み、
前記圧縮工程は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
前記復元工程は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する。
本発明のログのテキストデータの送信装置は、
パターン当てはめ部、圧縮部、および送信部を含み、
前記パターン当てはめ部は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
前記パターンは、固定部分および可変部分を含み、
前記圧縮部は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
前記送信部は、前記圧縮データを送信する。
本発明のログのテキストデータの受信装置は、
受信部、記憶部、および復元部を含み、
前記受信部は、圧縮データを受信し、
前記圧縮データは、ログのテキストデータについて、単位毎に、パターン、および、前記パターンの可変部分に対応するテキストデータ、を含むデータであり、
前記パターンは、固定部分および前記可変部分を含み、
前記記憶部は、前記モデルを記憶し、
前記復元部は、前記記憶部に記憶された前記モデルに基づき、前記決定されたパターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する。
本発明のプログラムは、前記本発明のログのテキストデータの圧縮復元方法をコンピュータに実行させることを特徴とする。
本発明の記録媒体は、前記本発明のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、圧縮したファイルの復元のスピードが速く、全体復元と部分復元の双方が可能なログのテキストデータの圧縮復元装置、および圧縮復元方法を提供できる。
図1は、実施形態1のログのテキストデータの圧縮復元装置の一例の構成を示すブロック図である。 図2は、実施形態1のログのテキストデータの圧縮復元装置のハードウェア構成の一例を示すブロック図である。 図3は、実施形態1のログのテキストデータおよびモデルの一例を示す表である。 図4は、実施形態1のログのテキストデータが、パターンに適合するか否かを判定する場合の一例を示す表である。 図5は、実施形態1の可変部分のテキストデータが、変数情報に適合するかを分析する場合の一例を示す表である。 図6は、実施形態1の分析結果を出力する場合の一例を示す表である。 図7は、実施形態1の圧縮データの一例を示す表である。 図8は、実施形態1の圧縮データから、前記ログのテキストデータの一部を復元する場合の一例を示す表である。 図9は、実施形態1のログのテキストデータの圧縮復元装置における処理の一例を示すフローチャートである。 図10は、実施形態2のログのテキストデータの分析により、モデルを作成する場合の一例を示す表である。 図11は、実施形態2の可変部分のテキストデータの分析の一例を示す表である。 図12は、実施形態2の作成したモデルを出力する場合の一例を示す表である。 図13は、実施形態2のログのテキストデータの圧縮復元装置における処理の一例を示すフローチャートである。 図14は、実施形態3のログのテキストデータの圧縮復元装置の一例の構成を示すブロック図である。
次に、本発明の実施形態について、図1から図14を用いて説明する。本発明は、下記の実施形態によって何ら限定および制限されない。なお、図1から図14において、同一部分には、同一符号を付している。各実施形態における説明は、それぞれ、互いを援用できる。
[実施形態1]
図1は、本実施形態のログのテキストデータの圧縮復元装置の一例の構成を示すブロック図である。図1に示すように、圧縮復元装置1は、パターン当てはめ部10と圧縮部20と復元部30とを含む。圧縮復元装置1は、例えば、システムとしてサーバーに組み込まれてもよいし、本発明のプログラムがインストールされたパーソナルコンピューター(PC)でもよい。
圧縮復元装置1は、例えば、前記各部を含む1つの装置でもよいし、複数の装置を含むシステムでもよい。後者の場合、例えば、後述するように、パターン当てはめ部10および圧縮部20を含む送信装置100と復元部30を含む受信装置200とが、通信回線網300を介して接続されていてもよい。通信回線網300は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網300は、例えば、インターネット回線、電話回線、LAN(Local Area Network)、WiFi(Wireless Fidelity)等があげられる。
図2に、圧縮復元装置1のハードウェア構成のブロック図を例示する。以下において、圧縮復元装置1が、前記各部を含む1つの装置として示すが、前述したように、これには限定されない。圧縮復元装置1は、例えば、CPU(中央処理装置)101、メモリ102、記憶装置104、入力装置105、ディスプレイ106、通信デバイス107等を有する。圧縮復元装置1の各部は、例えば、バス103を介して、相互に接続されている。
CPU101は、圧縮復元装置1の全体の制御を担う。圧縮復元装置1において、CPU101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的に、圧縮復元装置1は、例えば、CPU101が、パターン当てはめ部10、圧縮部20および復元部30として機能する。
バス103は、例えば、外部機器とも接続できる。前記外部機器は、例えば、外部記憶装置(外部データベース等)、プリンター等があげられる。圧縮復元装置1は、例えば、バス103に接続された通信デバイス107により、通信回線網(図示せず)に接続でき、前記通信回線網を介して、前記外部機器と接続することもできる。
メモリ102は、例えば、メインメモリを含み、前記メインメモリは、主記憶装置ともいう。CPU101が処理を行う際には、例えば、後述する記憶装置104に記憶されている、本発明のプログラム等の種々の動作プログラムを、メモリ102が読み込み、CPU101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。メモリ102は、例えば、さらに、ROM(読み出し専用メモリ)を含む。
記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置104は、例えば、記憶媒体と、前記記憶媒体に読み書きするドライブとを含む。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、FD(フロッピー(登録商標)ディスク)、CD−ROM、CD−R、CD−RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられ、前記ドライブは、特に制限されない。記憶装置104は、例えば、記憶媒体とドライブとが一体化されたハードディスクドライブ(HDD)であってもよい。
圧縮復元装置1は、例えば、さらに、入力装置105、ディスプレイ106を有する。入力装置105は、例えば、タッチパネル、キーボード、マウス等である。ディスプレイ106は、例えば、LEDディスプレイ、液晶ディスプレイ等が挙げられる。
圧縮復元装置1において、メモリ102および記憶装置104は、ログのテキストデータ、パターンおよびモデルのデータ、ならびに圧縮データを記憶することも可能である。
次に、圧縮復元装置1の各部について説明する。
パターン当てはめ部10は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行う。前記ログは、テキスト形式のデータであればよく、特に制限されず、例えば、操作ログ、アクセスログ、認証ログ、イベントログ、通信ログ、エラーログ等があげられる。前記単位は、例えば、前記ログのテキストデータにおける、行、および、所定の文字列で区切られる範囲等があげられる。前記行は、1行でもよいし、複数行でもよい。
前記パターンは、前記ログのテキストデータのパターンであり、固定部分および可変部分を含む。前記固定部分は、例えば、前記ログのテキストデータにおける、前記単位毎に共通する(変化しない)部分である。一方、前記可変部分は、例えば、前記ログのテキストデータにおける、前記単位毎に変化する部分である。なお、前記可変部分は、例えば、前記単位毎に変化し得る部分であればよく、例えば、所定の前記ログのテキストデータにおいて、前記単位毎に変化しない場合があってもよい。
パターン当てはめ部10において、前記パターンを当てはめる方法は、特に制限されず、例えば、既知の解析手法を用いることができる。
前記パターンへの当てはめにより、前記ログのテキストデータについて、前記固定部分および前記可変部分への対応づけを行うことができる。
パターン当てはめ部10は、さらに、ログのテキストデータについて、前記単位毎に、モデルに含まれるパターンのうちのいずれの前記パターンであるかを決定してもよい。
パターン当てはめ部10による前記パターンの決定および前記当てはめについて、以下に、図3(A)〜(C)を用いて説明する。図3(A)は、前記ログのテキストデータの一例を示す表である。図3の表において、前記ログのテキストデータとして、8行のデータが示されている。
図3(B)に、前記モデルの一例を示す。図3(B)の表において、パターン1およびパターン2を含む前記モデルが示されている。図3(B)において、黒枠で囲んだ部分が、前記可変部分であり、黒枠で囲んだ以外の部分が、前記固定部分である。
パターン当てはめ部10は、例えば、図3(A)に示す前記ログのテキストデータについて、1行毎に、図3(B)に示す前記モデルに含まれる前記複数のパターンのうちのいずれの前記パターンであるかを決定する。具体的には、例えば、パターン当てはめ部10は、前記ログのテキストデータについて、奇数行目がパターン1であり、偶数行目がパターン2であると決定する。前記パターンの決定方法は、特に制限されず、例えば、既知のログ構造解析手法、パターンマッチング手法等を用いることができる。
そして、パターン当てはめ部10は、前記ログのテキストデータについて、1行毎に、前記決定されたパターン1またはパターン2への当てはめを行う。図3(C)は、図3(A)に示す前記ログのテキストデータに、前記固定部分および可変部分の情報を追加した表である。図3(C)において、黒枠で囲んだ前記テキストデータが、前記可変部分であり、黒枠で囲んだ以外の前記テキストデータが、前記固定部分である。
パターン当てはめ部10は、例えば、前記パターンへの当てはめを行い、前記ログのテキストデータが、前記パターンに適合するか否かを判定してもよい。そして、パターン当てはめ部10は、例えば、さらに、前記パターンに適合すると判定された前記ログのテキストデータを出力してもよい。そして、例えば、後述する圧縮部30において、圧縮対象の前記ログのテキストデータとして、前記パターンに適合すると判定された前記ログのテキストデータを使用してもよい。
図4に、前記ログのテキストデータが、前記パターンに適合するか否かを判定する場合の一例を示す。図4に示すように、パターン当てはめ部10は、1から4の行番号のテキストデータを含む入力テキスト(ログのテキストデータ)について、1行毎に、前記パターンへの当てはめを行う。そして、行番号2から4については、前記パターンに適合し、行番号1については、前記パターンに適合しないと判定する。
パターン当てはめ部10は、例えば、可変部分分析部を含んでもよい。前記可変部分分析部は、例えば、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータを分析する。前記分析は、例えば、前記可変部分の性質(タイプ)の分析があげられる。前記可変部分の性質は、例えば、タイムスタンプ、数値、IPアドレス、ユーザID、エラーコード、その他等があげられる。
前記可変部分分析部は、例えば、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータが、変数情報に適合するかを分析してもよい。前記変数情報は、例えば、前記可変部分のテキストデータとして適合する変数の情報であり、例えば、値の集合(リスト)でもよいし、数値範囲の情報でもよい。前記変数情報は、例えば、前記パターンに紐づけて、圧縮復元装置1の記憶装置104等の記憶部に記憶されてもよい。
図5に、前記可変部分のテキストデータが、前記変数情報に適合するかを分析する場合の一例を示す。図5に示すように、前記可変部分分析部は、2から4の行番号のテキストデータを含む入力テキスト(ログのテキストデータ)について、1行毎に、前記可変部分(図中、黒枠で示す部分)のテキストデータが、「最小値24000、最大値26619」という前記変数情報に適合するかを分析する。そして、行番号2および3については、前記変数情報に適合し、行番号4については、前記変数情報に適合しないという分析結果を得ることができる。
前記可変部分分析部は、例えば、前記分析結果を出力してもよい。図6に、前記分析結果を出力する場合の一例を示す。図6の例において、1行目の前記分析結果が出力された状態を示す。図6に示すように、前記可変部分分析部は、分析データ(ログのテキストデータ)について、1行毎に、前記可変部分のテキストデータを分析する。そして、前記ログのテキストデータについて、前記可変部分毎に、前記分析結果として、“field_num”(可変部分の番号(可変部分のタイプ毎の出現順))、“field_type”(可変部分のタイプ)、“variable_value”(可変部分のテキストデータ)、“analyzing_result”(前記変数情報への適合・不適合)を出力する。具体的には、図6の例において、前記分析結果として、前記ログのテキストデータの1行目について、「11001」が、タイプ2(数値)の1番目の前記可変部分であり、「user00x000083」が、タイプ4(ユーザID)の1番目の前記可変部分であり、「192.168.12.01」が、タイプ1(IPアドレス)の1番目の前記可変部分であり、「230086」が、タイプ2の2番目の前記可変部分であることが示されている。
圧縮部20は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮する。前記圧縮データは、例えば、テキストデータである。前記パターンの情報は、例えば、前記パターンのテキストデータでもよいし、前記モデルに含まれるパターンの番号等でもよい。また、前記パターンの前記可変部分に対応するテキストデータの情報は、前記パターンの前記可変部分に対応するテキストデータでもよいし、前記変数情報のリストにおける番号等でもよい。
図7に、前記圧縮データの一例を示す。図7は、図6に示す前記ログのテキストデータを1行毎に圧縮した場合の前記圧縮データであり、図中、左から順に、前記パターンの情報(「1」または「2」)、および、前記パターンの前記可変部分に対応するテキストデータを示す。
ここで、例えば、図6に示す前記ログのテキストデータのファイルサイズは10,100,000バイトであるのに対し、図7に示す前記圧縮データのファイルサイズは5,200,000バイトである。そして、前記パターンのテキストデータのサイズは、例えば、5,886バイトである。このため、前記ログのテキストデータを、前記圧縮データと前記パターンのテキストデータとの組合せに圧縮した場合、前記圧縮により、例えば、4,894,114バイトの削減をすることができる。なお、前記削減量は一例であり、例えば、前記ログのテキストデータにおいて、前記固定部分が多いほど、データ削減量を多くすることができる。また、前記圧縮において、前記パターンのテキストデータを含めなくてもよい。
復元部30は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する。前記パターン、前記可変部分に対応する前記テキストデータ、前記圧縮データ等は、例えば、前述の通りである。
具体的には、復元部30は、例えば、前記圧縮データについて、1行毎に、前記パターンの情報を読込み、これに対応する前記パターンのテキストデータを取得する。前記パターンのテキストデータの取得は、前述のように、前記圧縮において、前記圧縮データと前記パターンのテキストデータとの組合せに圧縮した場合、このデータから取得できる。また、前記パターンのテキストデータを、圧縮復元装置1の記憶装置104等の記憶部に記憶させておき、前記記憶部から取得してもよい。
次に、取得した前記パターンのテキストデータに、前記圧縮データに含まれる、前記パターンの前記可変部分に対応するテキストデータを当てはめる。これを、前記圧縮データの全ての行について繰り返す。これにより、前記圧縮データの全ての行を復元することができる。
復元部30は、例えば、前記圧縮データから、前記ログのテキストデータの一部を復元してもよい。前記一部は、例えば、前記単位毎である。
図8は、前記圧縮データから、前記ログのテキストデータの一部を復元する場合の一例を示し、具体的には、3行目の前記ログのテキストデータを復元する場合の一例を示す。図8に示すように、復元部30は、まず、前記圧縮データにおける、1および2行目に対応するデータについてはスキップ(空読み)し、3行目に対応する前記データ(図中、黒枠で囲んだ部分)を取得する(処理1)。そして、復元部30は、前記3行目に対応する前記データにおいて、対応する前記パターンが「1」であることから、前記モデルを参照し、パターン番号1の前記パターンのテキストデータを取得する(処理2)。そして、前記取得したパターンのテキストデータに、前記パターンの前記可変部分に対応するテキストデータを当てはめて、前記ログのテキストデータを復元する(処理3)。このようにして、3行目の前記ログのテキストデータのみを復元することができる。復元した前記3行目の前記ログのテキストデータを、図8中、一番下の行に示す。
次に、本実施形態のログのテキストデータの圧縮復元方法の一例を、図9(A)および(B)のフローチャートに基づき説明する。図9(A)における工程(A0)〜(A2)、および図9(B)における工程(B0)〜(B1)は、例えば、それぞれ独立して行うこともできるし、工程(A2)において出力した前記圧縮データを、工程(B0)において取得することにより、連続して行うこともできる。
まず、工程(A1)に先立って、圧縮復元装置1が、前記ログのテキストデータを取得する(A0)。前記ログのテキストデータの取得は、特に制限されず、例えば、圧縮復元装置1の記憶装置104等の記憶部から取得してもよいし、外部データベース等にアクセスして取得してもよい。
次に、パターン当てはめ部10により、前記ログのテキストデータについて、単位毎に、パターンへの当てはめを行う(A1)。
次に、圧縮部20により、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し(A2)、終了する(END)。前記工程(A2)において、例えば、前記圧縮データを出力してもよい。前記出力は、特に制限されず、例えば、ファイルへの出力である。
一方、工程(B1)に先立って、圧縮復元装置1が、前記圧縮データを取得する(B0)。前記圧縮データの取得は、特に制限されず、例えば、圧縮復元装置1の記憶装置104等の記憶部から取得してもよいし、外部データベース等にアクセスして取得してもよい。
次に、復元部30により、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元し(B1)、終了する(END)。前記工程(B1)において、例えば、前記ログのテキストデータを出力してもよい。前記出力は、特に制限されず、例えば、ファイルへの出力である。
[実施形態2]
本実施形態の圧縮復元装置1は、パターン当てはめ部10が、さらに、パターン作成部を含み、前記パターン作成部が、前記ログのテキストデータを分析することにより、前記パターンを作成する点以外、実施形態1の圧縮復元装置1と同様である。
前記ログのテキストデータの分析は、特に制限されず、既知の手法を用いて行うことができ、例えば、前記ログのテキストデータについて、フォーマットを学習し、パターンを抽出することができる。前記フォーマットの学習は、例えば、前記ログのテキストデータに含まれる、変化する文字列と変化しない文字列とを分離して、学習を行うことができる。
前記ログのテキストデータの分析において用いられる前記ログのテキストデータは、例えば、圧縮対象の前記ログのテキストデータと同じでもよいし、異なっていてもよい。後者の場合、例えば、前記圧縮対象の前記ログのテキストデータに含まれる全てのパターンを含む前記ログのテキストデータを用いることができる。
図10に、前記ログのテキストデータの分析により、前記パターンを含む前記モデルを作成する場合の一例を示す。図10において、前記パターン作成部により、1から8の行番号のテキストデータを含む入力テキスト(ログのテキストデータ)を分析し、パターン1からパターン4を含むモデルが作成されたことが示されている。
前記パターン作成部は、前記ログのテキストデータの分析において、さらに、前記ログのテキストデータにおける前記可変部分のテキストデータについて、分析を行ってもよい。前記可変部分のテキストデータの分析は、例えば、要素数、要素リスト、各要素の出現数(全体、要素毎)、および、変化度(1−(要素数/全体の出現数))等があげられる。前記可変部分のテキストデータの分析の一例を、図11に示す。図11の例では、前記ログのテキストデータ(入力データ)における、黒枠で囲んだ部分の可変部分の「server001、server002、server003」の要素について、前記要素数が3であり、前記要素リストが「server001、server002、server003」であり、前記出現数(全体)が6であり、前記出現数(要素毎)が「server001:2」、「server002:2」、「server003:2」であり、前記変化度が0.5であることが示されている。
前記作成されたモデルは、前記可変部分のテキストデータの前記分析結果を含んでもよい。
前記パターン作成部は、前記作成したモデルを出力してもよい。図12に、前記作成したモデルを出力する場合の一例を示す。図12の例において、前記モデルに含まれるパターン1、およびパターン2のパターンのテキストデータ、ならびに前記可変部分のテキストデータの前記分析結果が出力された状態を示す。前記分析結果としては、パターン1における、前記可変部分を示す「%{NUMBER:P1N1}」の変数についての前記分析結果が示されている。図12の例において、前記分析結果は、“pattern_num”(変数が含まれるパターンの番号)、“field_num”(変数の番号(変数のタイプ毎の出現順))、“field_type”(変数のタイプ)、“element_count”(要素数)、“appear_count”(出現数(全体))、“importance”(変化度)、“element_map”(要素情報(各要素についての情報))等を含む。
次に、本実施形態の圧縮復元装置1における処理の一例を、図13のフローチャートに基づき説明する。
まず、実施形態1と同様にして、前記ログのテキストデータを取得する(A0)。
次に、前記パターン作成部は、前記取得した前記ログのテキストデータを分析することにより、前記パターンを作成する(A3)。そして、パターン当てはめ部10は、前記ログのテキストデータについて、単位毎に、前記作成した前記パターンへの当てはめを行う(A1)。
次に、実施形態1と同様にして、圧縮部20により、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し(A2)、終了する(END)。
本実施形態によれば、前記ログのテキストデータを分析することにより得られた前記パターンを用いて、前記ログのテキストデータを圧縮および復元できる。
[実施形態3]
図14に示すように、本実施形態の圧縮復元装置1は、パターン当てはめ部10および圧縮部20を含む送信装置100と復元部30を含む受信装置200とが、通信回線網300を介して接続されている以外は、実施形態1および実施形態2の圧縮復元装置1と同様である。
送信装置100は、例えば、パターン当てはめ部10、圧縮部20、および送信部110を含み、送信部110は、通信回線網300を介して、前記圧縮データを送信する。受信装置200は、例えば、受信部210、記憶部220、および復元部30を含み、受信部210は、圧縮データを受信し、記憶部220は、前記モデルを記憶する。送信部110および受信部210は、例えば、それぞれ、CPUである。記憶部220は、例えば、記憶装置104と同様である。
送信装置100において、パターン当てはめ部10は、例えば、送信対象の前記ログのテキストデータが、送信装置100の記憶部等に記憶された前記パターンに適合するか否かを判定してもよい。そして、前記パターンに適合する場合、送信部110は、パターン番号と前記パターンの前記可変部分に対応するテキストデータとを送信する。これにより、パターンそのもののデータを送信する必要がないため、送受信のデータ量を削減することができる。一方、前記パターンに適合しない場合、パターン当てはめ部10は、例えば、前記記憶部等に記憶された前記モデルを更新し、新たな前記パターンを記憶させる。その後、送信部110は、新たな前記パターンと、これに対応するパターン番号と、前記パターンの前記可変部分に対応するテキストデータとを送信する。
受信装置200において、受信部210は、例えば、前記受信するパターン番号に対応する前記パターンが、記憶部等に記憶された前記モデルに含まれる場合、パターン番号と前記パターンの前記可変部分に対応するテキストデータとを受信する。そして、復元部30は、前記受信したパターン番号に対応する前記パターンのテキストデータを、記憶部220に記憶された前記モデルから取得し、データを復元する。一方、前記受信するパターン番号に対応する前記パターンが、記憶部220に記憶された前記モデルに含まれない場合、受信部210は、例えば、新たなパターンと、パターン番号と、前記パターンの前記可変部分に対応するテキストデータとを受信する。そして、受信装置200は、記憶部220に記憶された前記モデルを更新し、新たな前記パターンを記憶させる。その後、復元部30は、前記新たなパターンと、前記パターンの前記可変部分に対応するテキストデータとから、データを復元する。
[実施形態4]
本実施形態のプログラムは、前記実施形態の圧縮復元方法を、コンピュータ上で実行可能なプログラムである。または、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体としては、特に限定されず、例えば、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。
本発明によれば、圧縮したファイルの復元のスピードが速く、全体復元と部分復元の双方が可能なログのテキストデータの圧縮復元装置、および圧縮復元方法を提供可能となる。
上記の実施形態の一部または全部は、以下の付記のようにも記載しうるが、以下には限定されない。
(付記1)
パターン当てはめ部、圧縮部、および復元部を含み、
前記パターン当てはめ部は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
前記パターンは、固定部分および可変部分を含み、
前記圧縮部は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
前記復元部は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する、ログのテキストデータの圧縮復元装置。
(付記2)
前記パターン当てはめ部は、さらに、前記ログのテキストデータについて、前記単位毎に、モデルに含まれる前記パターンのうちのいずれの前記パターンであるかを決定し、前記パターンへの当てはめを行う、付記1記載の圧縮復元装置。
(付記3)
前記パターン当てはめ部は、さらに、パターン作成部を含み、
前記パターン作成部は、前記ログのテキストデータを分析することにより、前記パターンを作成する、付記2記載の圧縮復元装置。
(付記4)
前記パターン当てはめ部は、可変部分分析部を含み、
前記可変部分分析部は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータを分析する、付記1から3のいずれかに記載の圧縮復元装置。
(付記5)
前記可変部分分析部は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータが、変数情報に適合するかを分析する、付記4記載の圧縮復元装置。
(付記6)
パターン当てはめ工程、圧縮工程、および復元工程を含み、
前記パターン当てはめ工程は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
前記パターンは、固定部分および可変部分を含み、
前記圧縮工程は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
前記復元工程は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する、ログのテキストデータの圧縮復元方法。
(付記7)
前記パターン当てはめ工程は、さらに、前記ログのテキストデータについて、前記単位毎に、モデルに含まれる前記パターンのうちのいずれの前記パターンであるかを決定し、前記パターンへの当てはめを行う、付記6記載の圧縮復元方法。
(付記8)
前記パターン当てはめ工程は、さらに、パターン作成工程を含み、
前記パターン作成工程は、前記ログのテキストデータを分析することにより、前記パターンを作成する、付記7記載の圧縮復元方法。
(付記9)
前記パターン当てはめ工程は、可変部分分析工程を含み、
前記可変部分分析工程は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータを分析する、付記6から8のいずれかに記載の圧縮復元方法。
(付記10)
前記可変部分分析工程は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータが、変数情報に適合するかを分析する、付記9記載の圧縮復元方法。
(付記11)
パターン当てはめ部、圧縮部、および送信部を含み、
前記パターン当てはめ部は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
前記パターンは、固定部分および可変部分を含み、
前記圧縮部は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
前記送信部は、前記圧縮データを送信する、ログのテキストデータの送信装置。
(付記12)
前記パターン当てはめ部は、さらに、前記ログのテキストデータについて、前記単位毎に、モデルに含まれる前記パターンのうちのいずれの前記パターンであるかを決定し、前記パターンへの当てはめを行う、付記11記載の送信装置。
(付記13)
前記パターン当てはめ部は、さらに、パターン作成部を含み、
前記パターン作成部は、前記ログのテキストデータを分析することにより、前記パターンを作成する、付記12記載の送信装置。
(付記14)
前記パターン当てはめ部は、可変部分分析部を含み、
前記可変部分分析部は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータを分析する、付記11から13のいずれかに記載の送信装置。
(付記15)
前記可変部分分析部は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータが、変数情報に適合するかを分析する、付記14記載の送信装置。
(付記16)
受信部、記憶部、および復元部を含み、
前記受信部は、圧縮データを受信し、
前記圧縮データは、ログのテキストデータについて、単位毎に、パターン、および、前記パターンの可変部分に対応するテキストデータ、を含むデータであり、
前記パターンは、固定部分および前記可変部分を含み、
前記記憶部は、前記モデルを記憶し、
前記復元部は、前記記憶部に記憶された前記モデルに基づき、前記決定されたパターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する、ログのテキストデータの受信装置。
(付記17)
付記6から10のいずれかに記載の方法をコンピュータ上で実行可能なプログラム。
(付記18)
付記17記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。
1 圧縮復元装置
10 パターン当てはめ部
20 圧縮部
30 復元部

Claims (14)

  1. パターン当てはめ部、圧縮部、および復元部を含み、
    前記パターン当てはめ部は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
    前記パターンは、固定部分および可変部分を含み、
    前記圧縮部は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
    前記復元部は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する、ログのテキストデータの圧縮復元装置。
  2. 前記パターン当てはめ部は、さらに、前記ログのテキストデータについて、前記単位毎に、モデルに含まれる前記パターンのうちのいずれの前記パターンであるかを決定し、前記パターンへの当てはめを行う、請求項1記載の圧縮復元装置。
  3. 前記パターン当てはめ部は、さらに、パターン作成部を含み、
    前記パターン作成部は、前記ログのテキストデータを分析することにより、前記パターンを作成する、請求項2記載の圧縮復元装置。
  4. 前記パターン当てはめ部は、可変部分分析部を含み、
    前記可変部分分析部は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータを分析する、請求項1から3のいずれか一項に記載の圧縮復元装置。
  5. 前記可変部分分析部は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータが、変数情報に適合するかを分析する、請求項4記載の圧縮復元装置。
  6. パターン当てはめ工程、圧縮工程、および復元工程を含み、
    前記パターン当てはめ工程は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
    前記パターンは、固定部分および可変部分を含み、
    前記圧縮工程は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
    前記復元工程は、前記パターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する、ログのテキストデータの圧縮復元方法。
  7. 前記パターン当てはめ工程は、さらに、前記ログのテキストデータについて、前記単位毎に、モデルに含まれる前記パターンのうちのいずれの前記パターンであるかを決定し、前記パターンへの当てはめを行う、請求項6記載の圧縮復元方法。
  8. 前記パターン当てはめ工程は、さらに、パターン作成工程を含み、
    前記パターン作成工程は、前記ログのテキストデータを分析することにより、前記パターンを作成する、請求項7記載の圧縮復元方法。
  9. 前記パターン当てはめ工程は、可変部分分析工程を含み、
    前記可変部分分析工程は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータを分析する、請求項6から8のいずれか一項に記載の圧縮復元方法。
  10. 前記可変部分分析工程は、前記ログのテキストデータについて、前記単位毎に、前記可変部分のテキストデータが、変数情報に適合するかを分析する、請求項9記載の圧縮復元方法。
  11. パターン当てはめ部、圧縮部、および送信部を含み、
    前記パターン当てはめ部は、ログのテキストデータについて、単位毎に、パターンへの当てはめを行い、
    前記パターンは、固定部分および可変部分を含み、
    前記圧縮部は、前記ログのテキストデータについて、前記単位毎に、前記パターン、および、前記パターンの前記可変部分に対応するテキストデータ、の情報を含む圧縮データに圧縮し、
    前記送信部は、前記圧縮データを送信する、ログのテキストデータの送信装置。
  12. 受信部、記憶部、および復元部を含み、
    前記受信部は、圧縮データを受信し、
    前記圧縮データは、ログのテキストデータについて、単位毎に、パターン、および、前記パターンの可変部分に対応するテキストデータ、を含むデータであり、
    前記パターンは、固定部分および前記可変部分を含み、
    前記記憶部は、前記モデルを記憶し、
    前記復元部は、前記記憶部に記憶された前記モデルに基づき、前記決定されたパターンに、前記可変部分に対応する前記テキストデータを当てはめて、前記圧縮データから前記ログのテキストデータを復元する、ログのテキストデータの受信装置。
  13. 請求項6から10のいずれか一項に記載の方法をコンピュータ上で実行可能なプログラム。
  14. 請求項13記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。

JP2019032124A 2019-02-25 2019-02-25 ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体 Pending JP2020135772A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019032124A JP2020135772A (ja) 2019-02-25 2019-02-25 ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019032124A JP2020135772A (ja) 2019-02-25 2019-02-25 ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2020135772A true JP2020135772A (ja) 2020-08-31

Family

ID=72278821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019032124A Pending JP2020135772A (ja) 2019-02-25 2019-02-25 ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2020135772A (ja)

Similar Documents

Publication Publication Date Title
CN106940679B (zh) 数据处理方法及装置
US8700803B2 (en) Web page optimization
CN105740707B (zh) 恶意文件的识别方法和装置
US20100050089A1 (en) Web browser system of mobile communication terminal, using proxy server
CN105846825A (zh) 压缩方法、解压缩方法、压缩装置以及解压缩装置
CN110995273B (zh) 电力数据库的数据压缩方法、装置、设备及介质
WO2012049863A1 (ja) 操作ログ格納システム、装置、およびプログラム
CN104246767A (zh) 用于云同步系统的遥测系统
US7965841B2 (en) Method and apparatus for compressing and decompressing data, and computer product
CN110008192A (zh) 一种数据文件压缩方法、装置、设备及可读存储介质
CN112115042A (zh) 一种基于采集回放的软件测试方法和系统
CN107589910A (zh) 用户定制策略的云端数据管理的方法及系统
US9201754B2 (en) Recording application consumption details
US11017155B2 (en) Method and system for compressing data
JP2020135772A (ja) ログのテキストデータの圧縮復元装置、ログのテキストデータの圧縮復元方法、ログのテキストデータの送信装置、ログのテキストデータの受信装置、プログラムおよび記録媒体
CN112506869A (zh) 文件处理方法、装置及系统
US8463759B2 (en) Method and system for compressing data
JP6931442B2 (ja) 符号化プログラム、インデックス生成プログラム、検索プログラム、符号化装置、インデックス生成装置、検索装置、符号化方法、インデックス生成方法および検索方法
WO2021087662A1 (zh) 内存分配方法、装置、终端及计算机可读存储介质
JP7135955B2 (ja) データ圧縮方法、データ圧縮装置
US10841405B1 (en) Data compression of table rows
US20150249581A1 (en) Information collection system, server apparatus, edge apparatus, control method, and program
WO2023242927A1 (ja) データ管理装置、データ管理方法、及びプログラム
CN111935237B (zh) 日志处理方法及系统、电子设备及存储介质
CN113468125B (zh) 一种文件服务方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191025