JP5094487B2 - 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 - Google Patents
情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 Download PDFInfo
- Publication number
- JP5094487B2 JP5094487B2 JP2008067052A JP2008067052A JP5094487B2 JP 5094487 B2 JP5094487 B2 JP 5094487B2 JP 2008067052 A JP2008067052 A JP 2008067052A JP 2008067052 A JP2008067052 A JP 2008067052A JP 5094487 B2 JP5094487 B2 JP 5094487B2
- Authority
- JP
- Japan
- Prior art keywords
- communication
- word list
- data
- information leakage
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Computer And Data Communications (AREA)
Description
情報が漏洩した場合、この事実を速やかに把握する必要がある。また漏洩元を特定すること、高い証拠能力を確保することが必要である。漏洩発生時の事実の特定のみならず、疑いが無実である際にも、無実であることをいかに証明するかもまた重要である。
このため、あとでネットワークの状況を再現して、漏洩元の特定などができるよう、ネットワークを流れるすべてのデータを保存しておく装置(ネットワークフォレンジック装置)がある。
ネットワークフォレンジック装置が保存するデータは、膨大であり、そのなかから目的とするデータを探し出す必要がある。
特に、パケット通信などの通信方式では、一つのデータを複数のパケットに分割して送信する。このため、従来は、分割されたパケットから元のデータを再構成し、再構成したデータと、漏洩したデータを比較することにより、漏洩元の特定などをしている。
また、膨大なパケットデータからもとのデータを再構成する処理には、多くの時間がかかる。
この発明は、例えば、上記のような課題を解決するためになされたものであり、漏洩した情報が複数のパケットに分割されている場合や、漏洩した正確なデータがわからない場合であっても、情報漏洩を検出することを目的とする。
データを処理する処理装置と、通信データ取得部と、類似度算出部と、漏洩判定部とを有し、
上記通信データ取得部は、上記処理装置を用いて、所定の通信路を介して通信される通信データを取得し、
上記類似度算出部は、上記処理装置を用いて、上記通信データ取得部が取得した通信データと、所定の比較データとの間の類似度を算出し、
上記漏洩判定部は、上記処理装置を用いて、上記類似度算出部が算出した類似度が所定の閾値より高い場合に、情報漏洩と判定することを特徴とする。
実施の形態1について、図1〜図8を用いて説明する。
ネットワークシステム800は、複数のコンピュータ装置811,812,821〜823がLAN810やインターネット820を介して互いに接続し、データを送受信するシステムである。
コンピュータ装置811,812は、データを記憶し、LAN810を介してデータを送受信する。コンピュータ装置811,812が記憶しているデータのなかには、秘密情報を含むデータ(以下「秘密データ」と呼ぶ。)がある。
インターネット820は、社外のネットワークなど、開いたネットワークの一例である。
コンピュータ装置821〜823は、データを記憶し、インターネット820を介してデータを送受信する。
ゲートウェイ装置830は、LAN810及びインターネット820の双方に接続し、LAN810に接続したコンピュータ装置811,812と、インターネット820に接続したインターネット820との間の通信を中継する。
情報漏洩判定装置850(情報漏洩検査装置100の一部)は、秘密情報の漏洩が発覚した場合において、フォレンジック装置840が記憶した通信データを検査することにより、その秘密情報がLAN810を介して漏洩したのか否か、あるいは、LAN810を介して漏洩した場合には、その秘密情報を含む秘密データの漏洩経路(送信元や送信先)など、その秘密情報がどのようにして漏洩したかを判定する。
情報漏洩判定装置850は、システムユニット910、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置901、キーボード902(Key・Board:K/B)、マウス903、FDD904(Flexible・Disk・Drive)、コンパクトディスク装置905(CDD)、プリンタ装置906、スキャナ装置907などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
システムユニット910は、コンピュータであり、ファクシミリ機932、電話器931とケーブルで接続され、また、ローカルエリアネットワーク942(LAN)、ゲートウェイ941を介してインターネット940に接続されている。
情報漏洩判定装置850は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信装置915、表示装置901、キーボード902、マウス903、FDD904、CDD905、プリンタ装置906、スキャナ装置907、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置あるいは記憶部の一例である。
通信装置915、キーボード902、スキャナ装置907、FDD904などは、入力部、入力装置の一例である。
また、通信装置915、表示装置901、プリンタ装置906などは、出力部、出力装置の一例である。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
ファイル群924には、以下に述べる実施の形態の説明において、「〜の判定結果」、「〜の計算結果」、「〜の処理結果」として説明する情報やデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリになどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、以下に述べる実施の形態の説明において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disk)等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
フォレンジック装置840は、通信データ取得部111、通信データ記憶部112を有する。
情報漏洩判定装置850は、比較データ入力部121、比較データ記憶部122、単語リスト生成部123、単語リスト記憶部124、通信単語リスト生成部131、類似度算出部132、漏洩判定部133、判定結果出力部140を有する。
LAN810に接続したコンピュータ装置811,812は、通信装置915を用いて、LAN810を流れている通信データをすべて受信し、CPU911を用いて、受信した通信データの宛先を判定し、自分宛でない通信データを破棄し、自分宛の通信データだけを取得する。また、ゲートウェイ装置830は、通信装置915を用いて、LAN810を流れている通信データをすべて受信し、CPU911を用いて、受信した通信データの宛先を判定し、宛先がLAN810内である通信データを破棄し、宛先がLAN810外である通信データだけを取得して転送する。
これに対し、フォレンジック装置840の通信データ取得部111は、通信装置915を用いて、LAN810を流れている通信データをすべて受信し、通信データの宛先に関わらず、受信したすべての通信データを取得する。
例えば、M=1、N=3の場合において、比較データが「ABCDEFG」であれば、単語リスト生成部123は、五つの単語「ABC」「BCD」「CDE」「DEF」「EFG」からなる比較単語リストを生成する。
しかし、通信データ記憶部112が記憶した通信データは膨大である場合があり、すべての通信データからもとのデータを復元した上で比較データと比較するには、多くの時間が必要となる。
類似度が漏洩判定基準閾値より高い場合、漏洩判定部133は情報漏洩と判定し、判定結果出力工程S719へ進む。
類似度が漏洩判定基準閾値以下である場合、漏洩判定部133は情報漏洩でないと判定し、繰り返し工程S720へ進む。
未処理の通信データがあると判定した場合、通信データ入力工程S715に戻る。
すべての通信データについて処理が終了したと判定した場合、情報漏洩判定処理を終了する。
比較データ611は、比較データ入力部121が入力し、比較データ記憶部122が記憶した比較データである。
比較単語リスト621は、比較データ611に基づいて単語リスト生成部123が生成し、単語リスト記憶部124が記憶したデータが表わす比較単語リストである。
元のデータ631は、LAN810を介して通信されたデータである。元のデータ631は、二つのパケットに分割されたため、通信データ取得部111が取得し、通信データ記憶部112が記憶した複数の通信データ640のなかには、元のデータ631に対応する二つの通信データ641,642が存在する。
通信単語リスト651は、通信データ641に基づいて通信単語リスト生成部131が生成した通信単語リストである。
類似度661は、通信単語リスト651と比較単語リスト621とに基づいて、類似度算出部132が算出した類似度である。この例において、通信単語リスト651に含まれる七つの単語のうち、すべての単語が比較単語リスト621に含まれるので、類似度661は「100%」となる。
通信単語リスト652は、通信データ642に基づいて通信単語リスト生成部131が生成した通信単語リストである。
類似度662は、通信単語リスト652と比較単語リスト621とに基づいて、類似度算出部132が算出した類似度である。この例において、通信単語リスト652に含まれる八つの単語のうち、すべての単語が比較単語リスト621に含まれるので、類似度662も「100%」となる。
このように、漏洩したデータと比較データとが完全に一致する場合、類似度算出部132が算出する類似度は100%になり、情報漏洩を判定できる。
比較データ611及び比較単語リスト621は、図6と同じである。
元のデータ633は、LAN810を介して通信されたデータである。元のデータ633は、二つのパケットに分割されたため、通信データ取得部111が取得し、通信データ記憶部112が記憶した複数の通信データ640のなかには、元のデータ633に対応する二つの通信データ643,644が存在する。
この例において、比較データ611と元のデータ633とは、わずかに異なっている。例えば、秘密データが毎日少しずつ更新されるものである場合、秘密データが漏洩したことがわかっていても、何月何日の版が漏洩したのかはわからない場合がある。また、バックアップ用の記憶装置の記憶容量の制限により、すべての版をバックアップせず、大きな更新があった場合や、所定の期間(例えば一週間)に一回などの頻度でしかバックアップを取っていないため、漏洩したデータと完全に一致するデータが保存されていない場合がある。
通信単語リスト653は、通信データ643に基づいて通信単語リスト生成部131が生成した通信単語リストである。
類似度663は、通信単語リスト653と比較単語リスト621とに基づいて、類似度算出部132が算出した類似度である。この例において、通信単語リスト653に含まれる十個の単語のうち、六つの単語が比較単語リスト621に含まれるので、類似度663は「60.0%」となる。
通信単語リスト654は、通信データ644に基づいて通信単語リスト生成部131が生成した通信単語リストである。
類似度664は、通信単語リスト654と比較単語リスト621とに基づいて、類似度算出部132が算出した類似度である。この例において、通信単語リスト654に含まれる九つの単語のうち、六つの単語が比較単語リスト621に含まれるので、類似度664は「66.7%」となる。
このように、漏洩したデータと比較データとが完全には一致しない場合、類似度算出部132が算出する類似度は100%にはならないが、高い値となる。
比較データ611及び比較単語リスト621は、図6と同じである。
元のデータ635は、LAN810を介して通信されたデータである。元のデータ635は、二つのパケットに分割されたため、通信データ取得部111が取得し、通信データ記憶部112が記憶した複数の通信データ640のなかには、元のデータ635に対応する二つの通信データ645,646が存在する。
この例において、元のデータ635は、漏洩した秘密データとはまったく関係のないデータである。
通信単語リスト655は、通信データ645に基づいて通信単語リスト生成部131が生成した通信単語リストである。
類似度665は、通信単語リスト655と比較単語リスト621とに基づいて、類似度算出部132が算出した類似度である。この例において、通信単語リスト655に含まれる七つの単語のうち、二つの単語が比較単語リスト621に含まれるので、類似度665は「28.6%」となる。
通信単語リスト656は、通信データ646に基づいて通信単語リスト生成部131が生成した通信単語リストである。
類似度666は、通信単語リスト656と比較単語リスト621とに基づいて、類似度算出部132が算出した類似度である。この例において、通信単語リスト656に含まれる八つの単語のうち、二つの単語が比較単語リスト621に含まれるので、類似度666は「25.0%」となる。
このように、元のデータ635がまったく関係のないデータである場合であっても、偶然一致する単語が少なからず存在するので、類似度は0%にはならないが、低い値となる。
その場合、二段目の判定でゴミを取り除くことができるので、漏洩判定部133では漏洩判定基準閾値を低め(例えば30%)に設定することができる。これにより、情報漏洩を見逃す可能性が低くなる。
上記通信データ取得部111は、上記処理装置(CPU911)を用いて、所定の通信路(LAN810)を介して通信される通信データを取得する。
上記類似度算出部132は、上記処理装置(CPU911)を用いて、上記通信データ取得部111が取得した通信データと、所定の比較データとの間の類似度を算出する。
上記漏洩判定部133は、上記処理装置(CPU911)を用いて、上記類似度算出部132が算出した類似度が所定の閾値(漏洩判定基準閾値)より高い場合に、情報漏洩と判定する。
上記処理装置(CPU911)が、所定の通信路(LAN810)を介して通信される通信データを取得する。
上記処理装置(CPU911)が、取得した通信データと、所定の比較データとの間の類似度を算出する。
上記処理装置(CPU911)が、算出した類似度が所定の閾値より高い場合に、情報漏洩と判定する。
まず、上記説明した方式と同様、比較データに基づいて比較単語リストを作成し、通信データに基づいて通信単語リストを作成する。
次に、1単語と見なすバイト長(=M×Nバイト)の区間に対して、一致する比率を類似度とみなす。
例えば、比較データ「ABCDEF・・・XYZ」と通信データ「DEFGHI」とを比較する場合、類似度算出部132は、比較単語リストの最初の単語「ABC」と通信単語リストの最初の単語「DEF」を比較し、一致する文字がないので、最初の単語の類似度を0とする。次に、類似度算出部132は、比較単語リストの二番目の単語「BCD」と通信単語リストの二番目の単語「EFG」とを比較し、やはり一致する文字がないので、二番目の単語の類似度も0とする。これを、通信単語リストの最後の単語「GHI」まで繰り返したのち、類似度算出部132は、各単語の類似度を平均して、比較データの一番目のインデックスにおける通信データとの類似度を算出する。
次に、類似度算出部132は、比較対象を一つずつずらし、比較単語リストの二番目の単語「BCD」と通信単語リストの最初の単語「DEF」とを比較する。一致する文字が三文字中一文字あるので、類似度算出部132は、最初の単語の類似度を1/3とする。以下同様に、類似度算出部132は、比較単語リストの三番目の単語「CDE」と通信単語リストの二番目の単語「EFG」とを比較し、二番目の単語の類似度を1/3とする。類似度算出部132は、各単語の類似度を平均して、比較データの二番目のインデックスにおける類似度を1/3と算出する。
類似度算出部132は、これを比較データのすべてのインデックスについて繰り返す。この例において、類似度算出部132は、三番目のインデックスにおける類似度を2/3、四番目のインデックスにおける類似度を1、五番目のインデックスにおける類似度を2/3、六番目のインデックスにおける類似度を1/3、七番目以降のインデックスにおける類似度を0と算出する。
すなわち、この例における類似度は、比較データと通信データとの相関を計算する。
最後に、類似度算出部132は、算出した類似度のうち、最も大きい類似度を、比較データと通信データとの類似度とする。この例において、比較データと通信データとの類似度は1である。
この類似度計算方式を用いると、類似度だけでなく、比較データのうちどの部分と、通信データとが類似しているかも求めることができる。この例では、比較データの四番目のデータ区間と、通信データとが類似していることがわかる。
なお、この場合、漏洩判定基準閾値は、(N−1)/Nと1との間程度に設定することが好ましい。
類似度計算技術とは、予め定めた比較データと入力データ(通信データ)との類似度を計算する技術である。フォレンジック装置840のデータを検索する部分に類似度計算を用いることで、検索の効率化を実現できる。
データ再構築を要することなく秘密情報が含まれているかどうかを判断できるので、秘密情報が含まれていると判断されたパケットデータについてのみデータの再構築を行なえば済み、効率的である。
通常、秘密情報は、作業を行なう部署により日々改定される。しかしながら企業が管理対象として保持する秘密情報は、期日の節目や改定版番号の節目などである場合が多い。情報の漏洩が生じるのは作業を行なう部署からである場合が多く、したがって、漏洩する秘密データと、漏洩の検査に用いられる秘密データの間には若干の改定の差異が生じると想定される。そのような場合であっても、以上説明した情報漏洩検査方式によれば、情報漏洩を検出可能である。
したがって、幾度かの改変された経緯のある秘密情報を特定するために、漏洩する可能性のある全ての版の秘密情報をマッチング用データ(比較データ)として用意する必要がなく、更に、どのマッチング用データよりも新しい版が流出しても、漏洩を検出することができる。
パターンマッチングではなく類似度に基づく検索であるため、漏洩したファイルが改変されていた場合でも、漏洩を検出することが可能となる。
この実施の形態で説明したように、分割された通信データを再構築せず、そのまま比較する場合だけでなく、保存したパケットをTCP/IPプロトコルにしたがってデータを再構築する構成であっても、この利点は存在する。すなわち、文書が改定されて漏洩した場合でも漏洩の事実を検出できる。
実施の形態2について、図9を用いて説明する。
更に、類似度算出部132は、CPU911を用いて、通信単語リスト生成部131が生成した通信単語リスト651または通信単語リスト652と、単語リスト生成部123が生成した比較単語リスト622とに基づいて、通信単語リスト651または通信単語リスト652に含まれる単語が、比較データ612のなかに表れる位置のリスト671,672(以下「出現位置リスト」と呼ぶ。)を生成する。
これにより、利用者は、秘密データのうちどの部分が漏洩したかを知ることができる。
秘密情報は、通常、文書や画像データなど、機密情報を含むデータファイルとして存在する。データファイルの中でも、漏洩した部位によって重要度は異なる。ゆえに、秘密情報の漏洩が発生した場合、どの部位が漏洩したのかまで具体的に知ることが重要である。
次に、通信単語リスト生成部131が、フォレンジックサーバ(フォレンジック装置840)に蓄積されたトラヒックデータ(通信データ)の1つからデータ部分を抜き出し、単語リスト(通信単語リスト)を生成する。
類似度算出部132は、両者の単語リストを用いて類似度計算を行う。
トラヒックデータ(通信データ)のすべてについて、同様の処理を順次行う。
他方、類似すると判断する基準として閾値(漏洩判定基準閾値)を定めておき、漏洩判定部133が、閾値を超えた場合について、秘密文書のどの部分が、どの程度漏洩したかを、データが断片のままで判断する。
実施の形態3について、図10〜図12を用いて説明する。
なお、実施の形態1で説明したネットワークシステム800と共通する部分については、ここでは説明を省略する。
情報漏洩判定装置850は、フォレンジック装置840が通信データを取得した場合、フォレンジック装置840が取得した通信データに基づいて、情報漏洩の可能性があるか否かを判定する。
フォレンジック装置840は、情報漏洩判定装置850が情報漏洩の可能性があると判定した通信データを記憶し、それ以外の通信データは記憶せず破棄する。
なお、実施の形態1で説明したブロックと共通する部分については、同一の符号を付し、ここでは説明を省略する。
比較データ記憶部122は、RAM914を用いて、比較データ入力部121が入力した比較データを記憶する。単語リスト生成部123が比較単語リストを生成したのち、比較データ記憶部122は、CPU911を用いて、記憶した比較データを削除する。
すなわち、情報漏洩判定装置850は、比較データを保持せず、比較データから生成した比較単語リストのみを保持する。これにより、まだ漏洩していない秘密データが、情報漏洩判定装置850から漏洩するのを防ぐことができる。
なお、実施の形態1で説明した情報漏洩判定処理と共通する部分については、同一の符号を付し、ここでは説明を省略する。
通信単語リスト生成工程S716において、通信単語リスト生成部131は、CPU911を用いて、通信データ取得工程S715’で通信データ取得部111が出力した通信データを入力する。通信単語リスト生成部131は、CPU911を用いて、入力した通信データに基づいて、通信単語リストを生成する。
通信データ記憶工程S721において、通信データ記憶部112は、CPU911を用いて、通信データ取得工程S715’で通信データ取得部111が出力した通信データを入力する。通信データ記憶部112は、磁気ディスク装置920を用いて、入力した通信データを記憶する。
その後、判定結果出力工程S719へ進む。
上記通信データ記憶部112は、上記記憶装置(磁気ディスク装置920)を用いて、上記漏洩判定部133が情報漏洩と判定した場合に、上記通信データ取得部111が取得した通信データを記憶する。
上記単語リスト生成部123は、上記処理装置(CPU911)を用いて、上記所定の比較データに基づいて、上記所定の比較データに含まれる単語を抽出して、抽出した単語のリスト(比較単語リスト)を生成する。
上記類似度算出部132は、上記処理装置(CPU911)を用いて、上記単語リスト生成部123が生成した単語のリスト(比較単語リスト)に基づいて、上記類似度を算出する。
秘密情報が含まれていないかどうかを判断するための判断材料として、秘密情報そのものを用いないので、新たな漏洩の可能性を増やすことがない。
トラヒックデータ(通信データ)を保存するストレージ(記憶装置)の容量が問題となる場合、保存するトラヒックデータ(通信データ)を取捨選択する必要が生じる。類似度計算において、全く関係の無いデータを含むパケットは、どの部分とも類似しない。この性質を利用すれば、保存するトラヒックデータの取捨選択に類似度計算を用いることで、必要なデータのみを保存することが可能となる。
漏洩を検出すべき秘密情報が複数存在する場合であっても、1つの断片データ(通信データ)と、各々の秘密情報(比較データ)との類似度計算を並列に実施することができるので、高速な情報漏洩の検出が可能である。
実施の形態4について、図13〜図15を用いて説明する。
なお、実施の形態1で説明したネットワークシステム800と共通する部分については、同一の符号を付し、ここでは説明を省略する。
情報漏洩判定装置850は、ゲートウェイ装置830がLAN810からインターネット820へ中継しようとしている通信データについて、情報漏洩か否かを判定する。
ゲートウェイ装置830は、情報漏洩判定装置850が情報漏洩でないと判定した通信データをLAN810からインターネット820へ中継し、情報漏洩判定装置850が情報漏洩であると判定した通信データは中継しない。
なお、実施の形態1で説明したブロックと共通する部分については、同一の符号を付し、ここでは説明を省略する。
通信データ受信部113は、通信装置915を用いて、LAN810を流れている通信データをすべて受信する。通信データ受信部113は、CPU911を用いて、受信した通信データの宛先がLAN810内であるかLAN810外であるかを判定する。通信データ受信部113は、CPU911を用いて、通信データの宛先がLAN810外であると判定した場合、受信した通信データを取得し、通信データの宛先がLAN810内であると判定した場合、受信した通信データを破棄する。
なお、実施の形態1で説明した情報漏洩判定処理と共通する部分については、同一の符号を付し、ここでは説明を省略する。
ここで、情報漏洩判定装置850は、秘密データが複数の通信データに分割されている場合であっても、元のデータを復元せずに、情報漏洩であるかを判定できるので、分割された通信データがすべて揃うのを待つ必要はない。このため、ゲートウェイ装置830が中継する通信の速度をあまり低下させずに、情報漏洩を防ぐことができる。
上記通信遮断部(通信データ送信部114)は、上記処理装置(CPU911)を用いて、上記漏洩判定部133が情報漏洩と判定した場合に、上記所定の通信路における通信(LAN810からインターネット820への中継)を遮断する。
秘密文書ファイルは事前に用意されたものであるため、秘密文書ファイルに関する単語リストを事前に作成しておくことが可能である。そして、ネットワーク上の装置にて、パケットが到達するたびに、パケットのデータ部分から単語リスト(通信単語リスト)を作成し、秘密文書ファイル(比較データ)との類似度検索を行う。
実施の形態5について、図16〜図17を用いて説明する。
なお、実施の形態1で説明したネットワークシステム800と共通する部分については、同一の符号を付し、ここでは説明を省略する。
情報漏洩判定装置850は、ゲートウェイ装置830がLAN810からインターネット820へ中継しようとしている通信データについて、情報漏洩か否かを判定する。ゲートウェイ装置830は、情報漏洩判定装置850が情報漏洩でないと判定した場合、通信データを中継し、情報漏洩判定装置850が情報漏洩であると判定した場合、通信データを中継しない。
また、フォレンジック装置840は、情報漏洩の可能性があると情報漏洩判定装置850が判定した通信データを記憶する。なお、情報漏洩であると情報漏洩判定装置850が判定してゲートウェイ装置830が中継しなかった通信データについては、フォレンジック装置840が記憶してもよいし、記憶しなくてもよい。
なお、実施の形態1及び実施の形態4で説明したブロックと共通する部分については、同一の符号を付し、ここでは説明を省略する。
実施の形態6について、図18を用いて説明する。
この実施の形態におけるネットワークシステム800の全体構成は、実施の形態1で説明したものと同様なので、ここでは説明を省略する。
なお、実施の形態1で説明したブロックと共通する部分については、同一の符号を付し、ここでは説明を省略する。
単語リスト生成部123は、CPU911を用いて、比較データ形式変換部125がデータ形式を変換した比較データに基づいて、比較単語リストを生成する。
通信単語リスト生成部131は、CPU911を用いて、通信データ形式変換部135がデータ形式を変換した通信データに基づいて、通信単語リストを生成する。
動画データの場合も、同様に、動画データを構成する個々の静止画像を、ビットマップ形式など所定の形式に変換することにより、動画データであっても情報漏洩を検出することが可能となる。
また、音声データの場合も、同様に、RAWデータなど所定の形式に変換することにより、音声データであっても情報漏洩の検出が可能となる。
Claims (9)
- データを処理する処理装置と、単語リスト生成部と、通信データ取得部と、通信単語リスト生成部と、類似度算出部と、漏洩判定部とを有し、
上記単語リスト生成部は、上記処理装置を用いて、複数の開始位置から始まる所定の文字数Nの文字列を所定の比較データから抽出し、抽出した複数の文字列からなる比較単語リストを生成し、
上記通信データ取得部は、上記処理装置を用いて、所定の通信路を介して通信される通信データを取得し、
上記通信単語リスト生成部は、上記処理装置を用いて、複数の開始位置から始まる上記所定の文字数Nの文字列を、上記通信データ取得部が取得した通信データから抽出し、抽出した複数の文字列からなる通信単語リストを生成し、
上記類似度算出部は、上記処理装置を用いて、上記通信単語リスト生成部が生成した通信単語リストに含まれる複数の文字列のうち、上記単語リスト生成部が生成した比較単語リストにも含まれる文字列の割合を算出して類似度とし、
上記漏洩判定部は、上記処理装置を用いて、上記類似度算出部が算出した類似度が所定の閾値より高い場合に、情報漏洩と判定する
ことを特徴とする情報漏洩検査装置。 - データを処理する処理装置と、単語リスト生成部と、通信データ取得部と、通信単語リスト生成部と、類似度算出部と、漏洩判定部とを有し、
上記単語リスト生成部は、上記処理装置を用いて、複数の開始位置から始まる所定の文字数Nの文字列を所定の比較データから抽出し、抽出した複数の文字列からなる比較単語リストを生成し、
上記通信データ取得部は、上記処理装置を用いて、所定の通信路を介して通信される通信データを取得し、
上記通信単語リスト生成部は、上記処理装置を用いて、複数の開始位置から始まる上記所定の文字数Nの文字列を、上記通信データ取得部が取得した通信データから抽出し、抽出した複数の文字列からなる通信単語リストを生成し、
上記類似度算出部は、上記処理装置を用いて、上記通信単語リスト生成部が生成した通信単語リストに含まれる複数の文字列のそれぞれに対して、上記単語リスト生成部が生成した比較単語リストに含まれる複数の文字列のうち、上記通信単語リストに含まれる文字列の開始位置に対応する位置を開始位置とする文字列を対応づけ、上記通信単語リストに含まれる複数の文字列のそれぞれについて、上記文字列に含まれる文字のうち、上記文字列に対して対応づけた上記比較単語リストに含まれる文字列にも含まれる文字の割合を算出し、上記複数の文字列のそれぞれについて算出した割合の平均を算出して類似度とし、
上記漏洩判定部は、上記処理装置を用いて、上記類似度算出部が算出した類似度が所定の閾値より高い場合に、情報漏洩と判定する
ことを特徴とする情報漏洩検査装置。 - 上記類似度算出部は、複数のインデックスのそれぞれについて、上記通信単語リストに含まれる複数の文字列のそれぞれに対して、上記単語リスト生成部が生成した比較単語リストに含まれる複数の文字列のうち、上記通信単語リストに含まれる文字列の開始位置に上記インデックスを加えた値を開始位置とする文字列を対応づけ、上記複数の文字列のそれぞれについて算出した割合の平均を、上記複数のインデックスのそれぞれについて算出し、上記複数のインデックスのそれぞれについて算出した平均のうちの最大値を類似度とすることを特徴とする請求項2に記載の情報漏洩検査装置。
- 上記漏洩判定部は、上記閾値として、(N−1)/Nより大きく1より小さい値を用いることを特徴とする請求項3に記載の情報漏洩検査装置。
- 上記情報漏洩検査装置は、更に、通信遮断部を有し、
上記通信遮断部は、上記処理装置を用いて、上記漏洩判定部が情報漏洩と判定した場合に、上記所定の通信路における通信を遮断する
ことを特徴とする請求項1乃至請求項4のいずれかに記載の情報漏洩検査装置。 - 上記情報漏洩検査装置は、更に、データを記憶する記憶装置と、通信データ記憶部とを有し、
上記通信データ記憶部は、上記記憶装置を用いて、上記漏洩判定部が情報漏洩と判定した場合に、上記通信データ取得部が取得した通信データを記憶する
ことを特徴とする請求項1乃至請求項5のいずれかに記載の情報漏洩検査装置。 - 請求項1乃至請求項6のいずれかに記載の情報漏洩検査装置としてコンピュータを機能させることを特徴とするコンピュータプログラム。
- データを処理する処理装置を有する情報漏洩検査装置が、情報の漏洩を検査する情報漏洩検査方法において、
上記処理装置が、複数の開始位置から始まる所定の文字数Nの文字列を所定の比較データから抽出し、抽出した複数の文字列からなる比較単語リストを生成し、
上記処理装置が、所定の通信路を介して通信される通信データを取得し、
上記処理装置が、複数の開始位置から始まる上記所定の文字数Nの文字列を、取得した上記通信データから抽出し、抽出した複数の文字列からなる通信単語リストを生成し、
上記処理装置が、生成した上記通信単語リストに含まれる複数の文字列のうち、生成した上記比較単語リストにも含まれる文字列の割合を算出して類似度とし、
上記処理装置が、算出した類似度が所定の閾値より高い場合に、情報漏洩と判定する
ことを特徴とする情報漏洩検査方法。 - データを処理する処理装置を有する情報漏洩検査装置が、情報の漏洩を検査する情報漏洩検査方法において、
上記処理装置が、複数の開始位置から始まる所定の文字数Nの文字列を所定の比較データから抽出し、抽出した複数の文字列からなる比較単語リストを生成し、
上記処理装置が、所定の通信路を介して通信される通信データを取得し、
上記処理装置が、複数の開始位置から始まる上記所定の文字数Nの文字列を、取得した上記通信データから抽出し、抽出した複数の文字列からなる通信単語リストを生成し、
上記処理装置が、生成した上記通信単語リストに含まれる複数の文字列のそれぞれに対して、生成した上記比較単語リストに含まれる文字列のうち、上記通信単語リストに含まれる文字列の開始位置に対応する位置を開始位置とする文字列を対応づけ、
上記処理装置が、上記通信単語リストに含まれる複数の文字列のそれぞれについて、上記文字列に含まれる文字のうち、上記文字列に対して対応づけた文字列にも含まれる文字の割合を算出し、
上記処理装置が、上記複数の文字列のそれぞれについて算出した割合の平均を算出して類似度とし、
上記処理装置が、算出した類似度が所定の閾値より高い場合に、情報漏洩と判定する
ことを特徴とする情報漏洩検査方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008067052A JP5094487B2 (ja) | 2008-03-17 | 2008-03-17 | 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008067052A JP5094487B2 (ja) | 2008-03-17 | 2008-03-17 | 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009225084A JP2009225084A (ja) | 2009-10-01 |
JP5094487B2 true JP5094487B2 (ja) | 2012-12-12 |
Family
ID=41241420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008067052A Expired - Fee Related JP5094487B2 (ja) | 2008-03-17 | 2008-03-17 | 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5094487B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8805925B2 (en) * | 2009-11-20 | 2014-08-12 | Nbrella, Inc. | Method and apparatus for maintaining high data integrity and for providing a secure audit for fraud prevention and detection |
JP5471414B2 (ja) * | 2009-12-21 | 2014-04-16 | 日本電気株式会社 | 情報漏洩防止システム、情報漏洩防止方法及び情報漏洩防止プログラム |
JP6167485B2 (ja) * | 2011-09-29 | 2017-07-26 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、及びプログラム |
AU2013312742B2 (en) * | 2012-09-07 | 2018-08-02 | Kroll Information Assurance, Llc | Snippet matching in file sharing networks |
US9081968B2 (en) | 2013-12-11 | 2015-07-14 | International Business Machines Corporation | Quantitative analysis of information leakage vulnerabilities |
JP6984147B2 (ja) * | 2017-03-22 | 2021-12-17 | 日本電気株式会社 | 情報管理装置、情報管理方法、及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6732149B1 (en) * | 1999-04-09 | 2004-05-04 | International Business Machines Corporation | System and method for hindering undesired transmission or receipt of electronic messages |
US20070192863A1 (en) * | 2005-07-01 | 2007-08-16 | Harsh Kapoor | Systems and methods for processing data flows |
US7903549B2 (en) * | 2002-03-08 | 2011-03-08 | Secure Computing Corporation | Content-based policy compliance systems and methods |
JP4534666B2 (ja) * | 2004-08-24 | 2010-09-01 | 富士ゼロックス株式会社 | テキスト文検索装置及びテキスト文検索プログラム |
EP1963959A2 (en) * | 2005-12-09 | 2008-09-03 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | A method and apparatus for automatic comparison of data sequences |
-
2008
- 2008-03-17 JP JP2008067052A patent/JP5094487B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009225084A (ja) | 2009-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5094487B2 (ja) | 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法 | |
US8453040B2 (en) | Obscuring information in messages using compression with site-specific prebuilt dictionary | |
US10778246B2 (en) | Managing compression and storage of genomic data | |
US10318484B2 (en) | Scan optimization using bloom filter synopsis | |
US8804852B2 (en) | High bandwidth decompression of variable length encoded data streams | |
US8874932B2 (en) | Method for order invariant correlated encrypting of data and SQL queries for maintaining data privacy and securely resolving customer defects | |
US20130254197A1 (en) | Method and system for decompression-free inspection of shared dictionary compressed traffic over http | |
US9002806B1 (en) | Compression of data transmitted over a network | |
Davis et al. | Internet | |
US11989161B2 (en) | Generating readable, compressed event trace logs from raw event trace logs | |
Yao et al. | A study of the performance of general compressors on log files | |
Aronson et al. | Towards an engineering approach to file carver construction | |
JP2023534696A (ja) | ネットワークトポロジーにおけるアノマリー検知 | |
CN113656825B (zh) | 文本水印嵌入方法、文本篡改检测方法、装置和电子设备 | |
CN110888791A (zh) | 一种日志处理方法、装置、设备和存储介质 | |
EP2365635A1 (en) | System for storing and transmitting compressed integer data | |
JP2008210073A (ja) | ログデータサイズ削減装置及びログデータサイズ削減装置のログデータサイズ削減方法 | |
CN112182112A (zh) | 基于区块链的分布式数据动态存储方法和电子设备 | |
JP3713666B2 (ja) | ファイルシステムイメージの圧縮方法及びプログラム | |
US8578220B2 (en) | Electronic device, information processing system, method of notification of a fault of an electronic device, and fault notification program | |
CN112800006A (zh) | 用于网络设备的日志存储方法及装置 | |
CN113362318B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112486940A (zh) | 用于事件排序的方法、设备和计算机程序产品 | |
US20100023479A1 (en) | Hexadecimal file fast decompression method | |
CN116561817B (zh) | 一种目标对象的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |