JP4158927B2 - 情報提示装置、情報提示方法、プログラム - Google Patents

情報提示装置、情報提示方法、プログラム Download PDF

Info

Publication number
JP4158927B2
JP4158927B2 JP2005089579A JP2005089579A JP4158927B2 JP 4158927 B2 JP4158927 B2 JP 4158927B2 JP 2005089579 A JP2005089579 A JP 2005089579A JP 2005089579 A JP2005089579 A JP 2005089579A JP 4158927 B2 JP4158927 B2 JP 4158927B2
Authority
JP
Japan
Prior art keywords
file
information
data
original data
prevented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005089579A
Other languages
English (en)
Other versions
JP2006268751A (ja
Inventor
宏 丸山
雅晴 糸井
浩 野美山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2005089579A priority Critical patent/JP4158927B2/ja
Priority to US11/364,445 priority patent/US7739743B2/en
Publication of JP2006268751A publication Critical patent/JP2006268751A/ja
Application granted granted Critical
Publication of JP4158927B2 publication Critical patent/JP4158927B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報提示装置、情報提示方法、プログラムに関し、特に、漏洩を防止すべき情報に関連した情報を提示する情報提示装置、情報提示方法、プログラムに関する。
近年、第三者が所定の情報を漏洩、盗難、不正利用することを、どのように防止するかが課題となっている。また、仮に所定の情報が漏洩してしまった場合に、情報処理システムの管理者が、所定の情報が漏洩した原因の追跡を行えることが望ましい。
そこで、漏洩を防止すべき情報に対して、アクセスのあった履歴を残して、漏洩した後に、このアクセスした履歴を参照することで、漏洩した原因を追跡する方法が知られている(例えば、特許文献1、2)。この方法によれば、一度、漏洩した後に、このアクセスした履歴を参照することで、アクセス履歴のユーザ名により、漏洩した原因を特定することが可能である。
特開2004−118243号公報 特開2003−076662号公報
しかしながら、特許文献1、2の方法では、情報処理システムの管理者は、情報が漏洩した原因を追究することに留まり、この漏洩した情報から派生した情報を把握することはできない。すなわち、一度、情報が漏洩した場合には、この漏洩した情報に基づいて、新たなファイルが作成され、さらに、この新たなファイルから情報が漏洩する。したがって、漏洩した情報に基づいて、2次的、3次的に派生して漏洩した情報の有無や、これらが記録されている場所やファイル名を、管理者が把握できることが望ましい。
加えて、特許文献1、2では、通信回線ネットワークでアクセス可能なコンピュータに記録された漏洩を防止すべき情報について管理者は把握することができない。
本発明の目的は、漏洩したファイルから2次的、3次的に派生して作成されたファイルを検索し、この派生して作成されたファイルに関する情報を管理者に提示すること、及び、通信回線ネットワークでアクセス可能なコンピュータに記録された漏洩を防止すべき情報についての情報を管理者に提示することが可能な情報提示装置、情報提示方法、プログラムを提示することを目的とする。
本発明の第1の実施形態によると、漏洩したファイルのオリジナル・データを記録する記録部と、前記オリジナル・データと、調査対象の記録領域に存在するファイルに含まれる漏洩を防止すべき情報に該当する表現を抽出する抽出部と、前記抽出した表現に基づいて、調査対象の記録領域に存在するファイルと、前記オリジナル・データとの関連度を調査する調査部と、前記関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示する提示部と、を備えた装置、方法及びプログラムを提供する。
本発明によれば、漏洩を防止すべき情報に関連した情報を提示する情報提示装置、情報提示方法、プログラムを提供することが可能である。
以下に、本発明の好適な実施形態を図面に基づいて説明する。
図1は、漏洩情報提示装置10の構成を示すブロック図である。漏洩情報提示装置10は、漏洩を防止すべき情報に関連した情報を提示する情報提示装置である。例えば、漏洩情報提示装置10は、既に漏洩したファイルのオリジナル・データに基づいて作成されたファイルに関する情報をユーザに提示する装置である。漏洩情報提示装置10は、通常のコンピュータ装置、携帯情報端末、携帯電話等であってよい。漏洩情報提示装置10は、制御部100と、記録部160、記録領域170a、個人情報データ辞書135、単語辞書136とから構成される。
制御部100は、漏洩情報提示装置10の情報を制御する。制御部100は、中央処理演算装置であってよい。制御部100は、漏洩を防止すべき情報に該当する表現を抽出する抽出部と、抽出した表現から、調査対象の記録領域に存在するファイルとオリジナル・データとの関連度を調査する調査部と、この関連度に基づいてオリジナル・データに基づいて作成されたファイルに関する情報を提示する提示部とから構成される。ここで、漏洩を防止すべき情報とは、ユーザが外部(企業外、家庭外等)に流出させたくない情報であり、ユーザが漏洩を防止したいと望む情報である。漏洩を防止すべき情報は、個人情報であってもよい。
抽出部110は、漏洩を防止すべき情報に該当する表現を抽出する。すなわち、抽出部110は、特定のアプリケーション・プログラムの形式に従うデータをテキスト形式に変換するフィルター120と、このテキスト形式に変換されたデータに形態素解析を行う解析部130と、形態素解析を行った結果から、漏洩を防止すべき情報に該当する表現を抽出する表現抽出部132とから構成される。
フィルター120は、特定のアプリケーション・プログラムの形式に従うファイルを、テキスト形式に変換する。すなわち、フィルター120は、編集プログラム、表計算プログラム等のアプリケーション・ソフトウェアで使用される書式のファイルや、HTML書式のファイル等のデータを、特定の書式を含まない形式(テキスト形式)のファイルに変換する。ここで、テキスト形式のファイルとは、人間が読み書きする文字で構成されているファイルのことである。また、フィルター120は、ファイルの中のテキストだけ抽出するプログラムとして動作する、テキストコンバータであってよい。
解析部130は、フィルター120により抽出されたデータに対して、形態素解析を行う。ここで、形態素解析とは、文章を形態素に分割し、分割した形態素の品詞分けを行うことである。解析部130は、テキスト形式のファイルに対して単語辞書136(単語の意味と品詞等がデータとして記録された電子辞書)を参照して、単語や文字列で分離し、品詞コードを付与する。ここで、品詞コードとは、単に品詞に関する情報に限らず、品詞のうちどのような種類の単語かに関する情報を含む。例えば、「田中一郎、日本アイ・ビー・エム、東京都港区六本木x−x−x、tanaka@ibm.xxx」というテキスト文章が入力されると、表1のように形態素解析される。
Figure 0004158927
表現抽出部132は、解析部130が解析した結果を用いて、テキスト形式のファイルの中から固有表現の抽出を行う。ここで、固有表現とは、漏洩を防止すべき情報である可能性の高い表現のことである。ここでの固有表現は、姓、名(人名、法人名、社名を含む)、郵便番号、住所、電話番号、所属組織、メールアドレス、ホームページアドレス、生年月日についての情報である。その他の固有表現として、カードの会員番号、口座番号等であってもよい。表現抽出部132は、解析部130の結果から、これらの固有表現のうち何れか一つでも検出した場合には、この検出した単語、文字列を固有表現として抽出する。
表現抽出部132が、固有表現として、郵便番号を抽出する一例について説明する。表現抽出部132は、テキスト形式のファイルから7桁の数字あるいは、「XXX−XXXX」(Xは数字)の形式の数字の中で、郵便番号として存在するものを郵便番号辞書より検出し、条件にあった数字列を検出できた場合には、これを郵便番号の固有情報として抽出する。
表現抽出部132が、固有表現として、電話番号を抽出する一例について説明する。表現抽出部132は、テキスト形式のファイルから4桁の数字であり、その4桁の数字の前に、ハイフン(−)もしくは半角空白があるかを判断し、かつ、このハイフン(−)もしくは半角空白の前に市外局番がある数字列を、電話番号の固有情報として抽出する。
表現抽出部132が、固有表現として、メールアドレスを抽出する一例について説明する。表現抽出部132は、テキスト形式のファイルから“@”の前に英数字列があり、“@”の後に、“.”を含む英数字列があるかを判断して、この文字列を、メールアドレスの固有情報として抽出する。
固有表現として、その他のカードの会員番号、口座番号等を抽出させる場合であっても、表現抽出部132は、各々の英数字や記号特有の書式に対応して、固有表現として、抽出することができる。
表現抽出部132は、抽出された固有表現から、固有表現データを生成する。表現抽出部132は、一の固有表現を抽出した段階で、この固有表現を、表2のフレーム内の該当する値に入力する。表現抽出部132は、次に抽出した固有表現に対しても、表2のフレーム内の該当する値に入力する。
Figure 0004158927
ここで、表現抽出部132が一のフレームを生成した後に、表現抽出部132がこのフレームを処理して、フレームの値を空にしてから、次の値をスロットに入力してもよい。例えば、表現抽出部132が、人名として(姓、名)の双方を抽出して、表現抽出部132がフレームを生成した場合に、このフレームを表現抽出部132が、個人情報と判断して、(姓、名)の値を記録部160に記録する。そして、空になったフレームに対して、表現抽出部132が次の固有表現の値を入力する態様であってよい。
あるいは他の態様として、表現抽出部132は、フレーム内の同一のスロットに入力する必要が生じた場合には、次のフレームを生成してもよい。例えば、表現抽出部132が、人名として(姓、名)の双方を抽出した後に、さらに、他の人名(姓、名)を抽出した場合には、次のフレームを生成して、他の人名(姓、名)を値としてスロットに入力してもよい。
表現抽出部132が、一のスロットに値を入力するか、新たなスロットを生成して、そのスロットに値を入力するかは、スロットごとに、値の寿命等の条件を設けてよい。例えば、スロット、“姓”が値として入力された後に“名”が値として入力されることは、“姓”が入力された後、3語以内程度であることが通常である。また、電話番号は、姓の出現から10語以内といった条件を設けてよい。したがって、このように予め設定した語数を越えた場合には、フレーム内の値を全てクリアにするような、値の寿命を設けてもよい。
他のスロットも同様に、郵便番号のスロットの入力から、3語以内程度に、住所、電話番号が入力されれば、同じフレームに表現抽出部132が値を入力するように設定してもよい。
表現抽出部132は、固有表現を抽出する前に、解析部130が解析した文字列もしくは単語に対して、正規化を行ってもよい。ここで、正規化とは、所定の規則に基づいて処理を行うことであり、例えば、検出した単語、文字列に対して、余分な空白やノイズを削除することである。表現抽出部132は、解析部130が解析した文字列もしくは単語に対して、個人情報データ辞書135(住所辞書、メールアドレス辞書、市外局番辞書などの電子辞書)を参考にすることで、意味的な要素の分析を行ってもよい。例えば、表1のような連続した地名から導かれる地名が、実在する地名であるかを、住所が登録された住所辞書等により分析してもよいし、メールアドレスの連続した英数字や記号の連続が、実際に存在するかを分析してもよい。
さらに、表現抽出部132は、生成した固有表現が記載されたフレームから、“漏洩を防止すべき情報”を抽出する。表現抽出部132が、“漏洩を防止すべき情報”を判断する判断基準は、システムを利用するユーザの任意であってよく、調整可能であってよい。例えば、一つのフレーム内のスロット“姓”、“名”の双方に値が入力されていることを条件に、表現抽出部132が“漏洩を防止すべき情報”と判断してもよい。また、一つのフレーム内のスロット“姓”、“名”のどちらにも値が入力されていることに加えて、郵便番号、住所、電話番号、メールアドレス等の、コンタクト先のどれか一つに値が付与されていることを条件に、表現抽出部132が、このフレームを“漏洩を防止すべき情報”と判断してもよい。
表現抽出部132が、固有表現を、該当するスロットの値に入力する際に、厳密に正しいスロットに値を入力しなくても、複数の固有表現が近接して抽出された場合には、これらの固有表現を“漏洩を防止すべき情報”であると判断させてもよい。
表現抽出部132は、“漏洩を防止すべき情報”が記載されていると判断したフレームから値を抽出して、個人情報データとして記録部160に記録する。
調査部140は、表現抽出部132が抽出した個人情報データから、調査対象の記録領域に存在する各々のファイルと、オリジナル・データとの関連度を調査する。ここで、関連度とは、オリジナル・データに記載されている“漏洩を防止すべき情報”と、調査対象の記録領域に存在するファイル(すなわち、2次ファイルの疑いがあるファイル)に記載されている“漏洩を防止すべき情報”との関連している度合いである。例えば、関連度とは、一致度であってよい。ここで、一致度とは、同一の“漏洩を防止すべき情報”がどの程度存在するかの度合いであってよい。
提示部150は、調査部140が調査した関連度に基づいて、前記漏洩したファイルに基づいて作成されたファイルに関する情報を提示する。すなわち、提示部150は、検知した“漏洩を防止すべき情報”に基づいて、2次的、3次的、それ以降に作成されたファイルに関する情報を提示する。
記録部160は、オリジナル・データを記録する。すなわち、記録部160は、ハードディスク、半導体メモリであってもよいし、外部記録装置(フレキシブル・ディスク、CD、DVD、テープ等)であってよい。また、記録部160は、漏洩情報提示装置10にて扱うデータ(フレームや個人情報データ)を記録してよい。
記録領域170aは、オリジナル・データから作成された2次ファイル、3次ファイルが記録されている可能性がある記録領域である。すなわち、記録領域170aは、オリジナル・データに基づいて作成されたファイルが記録されていると、ユーザが考えている領域である。したがって、記録領域170aには、“漏洩を防止すべき情報”を含むファイル、データ、文章と、“漏洩を防止すべき情報”を含まないファイル、データ、文章との両方が記録されていてよい。ユーザが“漏洩を防止すべき情報”が、バックアップのテープや、共有フォルダ内のファイル、サーバのログファイル等に含まれていると想定している場合には、これらのテープやフォルダ内の保存場所が、記録領域170aとなってよい。記録領域170aは、ハードディスク、半導体メモリ等であってよい。また、記録領域170b(図5参照)のように、漏洩情報提示装置10の外部に接続される記録装置であってもよいし、通信回線ネットワークで接続された他のコンピュータ内の記録装置であってもよい。
図2は、漏洩情報提示装置10のメイン動作フローを示す。最初に、抽出部110が、オリジナル・データに対して、“漏洩を防止すべき情報”に該当する表現を抽出する(ステップS01)。次に、抽出部110が、ユーザから指定された特定の記録領域に対してファイルのクロールを行う(ステップS02)。ここで、ファイルのクロールとは、所定の範囲内に記録されたデータから所定のファイルのみを取り出すことである。すなわち、抽出部110は、記録領域170a、bに記録されているファイルのうち、“漏洩を防止すべき情報”が記載されている可能性があるファイルを取り出す。ここで、抽出部110が、フィルター120によりテキスト形式に変換することが可能なファイルのみを取り出すことにより、結果的に“漏洩を防止すべき情報”が記載されている可能性があるファイルを取り出してもよい。
次に、クロールした各々のファイルに対しても同様に、“漏洩を防止すべき情報”に該当する表現を抽出する(ステップS03)。次に、調査部140が、オリジナル・データから抽出した表現と、クロールして取り出したファイルから抽出した表現との一致度を調査する(ステップS04)。この調査結果から、提示部150が、オリジナル・データから2次的に作成されたファイルに関する情報を提示する(ステップS05)。結果として、ユーザは、オリジナル・データから2次的に作成されたファイルに関する情報を得ることが可能である。すなわち、ユーザは、記録領域170a、bの中に記録されていると考えているが、実際にはどのファイルが2次ファイルか特定できない場合に、漏洩情報提示装置10を用いることで、この2次ファイルに関する情報を得ることが可能である。
図3は、抽出部110が、所定のファイルに対して“漏洩を防止すべき情報”に該当する表現を抽出するフローを示した図である。
最初に、フィルター120が、オリジナル・データをテキスト形式に変換する(ステップS10)。次に、解析部130が、テキスト形式に変換したファイルに対して、形態素解析を行う(ステップS11)。すなわち、解析部130が、表1のようにテキスト形式のファイルの、各々の文字に対して品詞コードを付与して、単語、文字を分類する。次に、抽出部110が、形態素解析した結果に基づいて、固有表現を抽出し、固有表現データを作成する(ステップS12)。
一例として、表現抽出部132が、固有表現に対して、フレームを生成した例を表3に示す。
Figure 0004158927
次に、固有表現データから、表現抽出部132が“漏洩を防止すべき情報”を抽出する(ステップS13)。表現抽出部132が、“漏洩を防止すべき情報”であると認定したフレームにより個人情報データを生成する。
上述の表3の例から、“漏洩を防止すべき情報”と検知された個人情報データを表4に示す。この例では、固有表現データ(漏洩を防止すべき情報である可能性の高い表現のデータ)から“漏洩を防止すべき情報”を抽出するための判断条件としては、姓、名が値として存在し、かつ住所、電話番号、メールアドレスのいずれかに値が入力されている場合である。
Figure 0004158927
このように、抽出部110は、所定のファイルに対しての“漏洩を防止すべき情報”に該当する表現である個人情報データを抽出する。抽出部110は、オリジナル・データと、クロールしたファイルとの双方に対して、個人情報データを抽出する。そして、調査部140が、各々の個人情報データを比較し、一致度を調査する。この調査結果から、提示部150が、2次ファイルの情報の提示を行う。
図4は、2次ファイルに関する情報の一例である。提示部150は、このような2次ファイルに関する情報(ファイル名、ファイルの記録場所、このファイルとオリジナル・データとの“漏洩を防止すべき情報”の関係)を提供する。この例では、“漏洩を防止すべき情報”の検索対象の記録領域170a、bは、“C:\My Documents”であり、ここに挙げられている、address.docのファイルは、漏洩したオリジナル・データから2次的に作成された可能性が高いファイルである。“個人情報”の項目は、このファイル内に個人情報と特定された個人情報データの数であり、“個人情報[要素数]”の項目は、このファイル内に個人情報と特定された個人情報データの、この個人情報データ内の値の数である。人名(diff)、住所(diff)とは、オリジナル・データに記載された人名、住所と異なる人名、住所の数である。一致数とは、オリジナル・データとこのファイルとで一致した個人情報(個人情報であると判断された個人情報データ)の数である。
個人情報の一致数により、address.docのファイルが一次ファイルから2次的に作成されたファイルであるとユーザは判断することができる。また、Manager_address.txtのファイルが、address.docの次に、個人情報の一致数が多いため、これが3次ファイルである可能性が高いと判断することができる。
漏洩情報提示装置10が通信回線ネットワーク30に接続されて、この通信回線ネットワーク30に接続された対象サーバ200内に記録領域170a、bが存在する場合について、図5を用いて説明する。対象サーバ200は、通常のコンピュータ装置である。この対象サーバ200の記録領域170a、bに“漏洩を防止すべき情報”が記載されたファイルが記録されている場合には、漏洩情報提示装置10の抽出部110は、通信回線ネットワーク30を介して、クロールを行い、“漏洩を防止すべき情報”に該当する表現(個人情報データ)を抽出する。
次に、図5を用いて、漏洩情報提示装置10が、通信回線ネットワーク30に接続されたコンピュータ内に記録された“漏洩を防止すべき情報”であり、記録領域170a、bをユーザが特定できない場合に、“漏洩を防止すべき情報”を検知する方法について説明する。すなわち、前述では、ユーザが記録領域170a、bの場所(ファイルが保存されていると想定されるパス名やフォルダ名)を把握しており、この記録領域を特定できる場合に、この記録領域内の“漏洩を防止すべき情報”を検知する方法について説明した。以下では、この記録領域170a、bが、どこであるか不明であるときに、“漏洩を防止すべき情報”を検知する方法について説明する。
漏洩情報提示装置10が、通信回線ネットワーク30に接続され、“漏洩を防止すべき情報”が記載されたファイルが対象サーバ200に記録されている場合に、このファイルに関する情報を、漏洩情報提示装置10が提示する(図5参照)。漏洩情報提示装置10と検索サーバ210と対象サーバ200とは、通信回線ネットワーク30に接続されており、これらのコンピュータは、互いに通信可能である。通信回線ネットワーク30は、インターネット、LANのいずれかであってもよいし、これらの組合せからなるネットワークであってよい。ここで、検索サーバ210は、ユーザからの情報の入力を受けて、通信回線ネットワーク30上でアクセス可能なコンピュータ装置(対象サーバ200等)に記録されたファイルへのリンク情報を提示するサーバである。
漏洩情報提示装置10は、通信回線ネットワーク30に接続して通信を行う通信部と、検索サーバ210に“漏洩を防止すべき情報”についての検索を要求する検索要求部と、検索した結果を取得する取得部とを、さらに備えてよい。
漏洩情報提示装置10を構成する各部について、図6に基づいて説明する。漏洩情報提示装置10は、“漏洩を防止すべき情報”の入力をユーザより受信する(ステップS20)。“漏洩を防止すべき情報”の入力は、単に、キーワードとして姓名や住所等の個人に関する情報の入力を受けてもよいし、“漏洩を防止すべき情報”が一覧となっているファイルの入力を受けてもよい。次に、検索要求部が、通信回線ネットワーク30を介して、検索サーバ210に、この“漏洩を防止すべき情報”についての検索を要求する(ステップS21)。検索サーバ210は、通信回線ネットワーク30に接続された対象サーバ200のうち、指定された“漏洩を防止すべき情報”が記載されているファイルを検索する。検索サーバ210は、検索した結果を、このファイルに対するリンク(このファイルへのアドレス・ロケーションを示したファイル)を含めた、リンクデータを作成する。このリンクデータを、取得部が受領する(ステップS22)。
次に、取得部が取得したリンクデータのリンク先(対象サーバ200)にアクセスすることで、提示部150が、“漏洩を防止すべき情報”が記載されたファイルを受信する(ステップS23)。例えば、インターネットで公開されているファイルに対して、このファイルが記録されている対象サーバ200に対してアクセスして、このファイルを取得する。提示部150が、全てのリンク先に対して、このファイルを取得して、これらのファイルと、ユーザから入力を受け、検索要求した“漏洩を防止すべき情報”との関係についての情報を提示する(ステップS24)。例えば、提示部150は、ユーザが入力した“漏洩を防止すべき情報”と一致して記載されている“漏洩を防止すべき情報”の数を提示する。
ユーザから受信を受けた“漏洩を防止すべき情報”が、例えば、「田中 一郎」といったように、姓、名として一つのスロットに対応する文字列である場合には、提示部150が、この「田中 一郎」に関する情報が記載されたファイルのアドレス・ロケーション(URL等)と、この「田中 一郎」が記載されているファイル内の場所や、記載されている数等の情報を提示する。検索要求部は、リンクデータに記載されたアドレス・ロケーションのファイルから、さらにリンクされるファイルに対して、入力された“漏洩を防止すべき情報”の検索を検索サーバ210に要求してもよい。
ユーザから受信を受けた“漏洩を防止すべき情報”が、例えば、複数の姓名、電話番号等が記載されたファイルであり、このファイル(オリジナル・データ)に基づいて、作成されたと考えられるファイル(2次ファイル)を通信回線ネットワーク30から検索する場合には、この2次ファイルが記録されたアドレス・ロケーション(URL等)を提示することに加えて、オリジナル・データとの関係を示す情報を提示してもよい。すなわち、漏洩情報提示装置10が、オリジナル・データに対して、フィルター120、解析部130、表現抽出部132の各々の部が、各々の処理を行い“漏洩を防止すべき情報”となる個人情報データを生成する。この個人情報データに基づいて、取得部が検索サーバ210に“漏洩を防止すべき情報”の検索要求を行う。
取得部は、検索サーバ210からリンクデータを受信した後に、2次ファイルを受信する。この2次ファイルに対して、フィルター120、漏洩防止情報抽出部130、表現抽出部132、表現抽出部132の各々の部が、各々の処理を行う。結果として、表現抽出部132が、“漏洩を防止すべき情報”となる個人情報データを、個々の2次ファイルに対して生成する。そして、調査部140が、オリジナル・データの個人情報データと、個々の2次ファイルの個人情報データを比較して、提示部150が、オリジナル・データから漏洩したと想定される2次ファイルあるいは3次ファイルに関する情報を提示する。つまり、調査部140が、オリジナル・データの個人情報データと個々のファイルから取得された個人情報データのうち、一致する“漏洩を防止すべき情報”の有無の数を計測する。その結果から、提示部150が、最も数が多い個人情報データを含むファイルを、オリジナル・データに基づいて作成された可能性が高いファイルとしてユーザに提示する。
図7では、所定のオリジナル・データに基づいて生成されたと想定される2次ファイルの情報(アドレス・ロケーション(URL)や、一致した“漏洩を防止すべき情報”の数等)を提示部150が、ユーザに提示した一例を示した。http://www.aaa.xxx/1/2/abc/data.htmlのアドレスに記録されたファイルは、オリジナル・データと一致した“漏洩を防止すべき情報”の数が多いため、オリジナル・データに基づいて生成されたファイルである可能性が高い。また、http://www.gro.xx/aa/bb/DATA.html、http://www.bb.xx/qq/ss/data05.pdfであっても、一致した“漏洩を防止すべき情報”が1つ記載されているため、オリジナル・データから漏洩して生成されたファイルである可能性がある。
以上の説明から明らかなように、本発明に係る情報提示装置、方法、プログラムによれば、一度、漏洩したファイルから2次的、3次的に派生して作成された文章を、最初に漏洩したファイルに基づいて、検索を行い、この派生して作成されたファイルに関する情報を提示することが可能である。加えて、広域ネットワークを介してアクセス可能なコンピュータに記録された“漏洩を防止すべき情報”に関する情報を提示し、かつ、一度、漏洩したファイルに基づいて、作成され、広域ネットワーク内で公開されているファイルを検索することが可能な装置、方法、プログラムを提供することができる。
図8は、漏洩情報提示装置10のハードウェア構成の一例を示した図である。CPU500は、ハードディスク540や記録媒体読出装置560から漏洩情報提示方法を実現するプログラムを、ホストコントローラ510、I/Oコントローラ520を介して、読み込み、読み込んだプログラムをRAM550に記録して、プログラムを実行する。このプログラムを構成する各ステップを実行することにより、CPU500が、抽出部110、フィルター120、解析部130、表現抽出部132、調査部140、提示部150として機能してもよい。また、このプログラムを実行する際に、ハードディスク540や記録媒体読出装置560に記録されたデータを読み出してもよい。CPU500は、情報を判断した結果もしくは演算した結果を、ホストコントローラ510を介してモニタ590に表示する。CPU500は、ネットワークボード570とI/Oコントローラ520を介して、通信ネットワークに接続された検索サーバ210もしくは対象サーバ200から、データを取得する。CPU500は、グラフィックボード580を介して、モニタ590に、結果を表示してよい。
このような実施形態を実現する方法を、コンピュータやサーバにて実行するためのプログラムにより実現することができる。このプログラムのための記録媒体としては、光学記録媒体、テープ媒体、半導体メモリ等が挙げられる。また、専用通信ネットワークやインターネットに接続されたサーバ・システムに設けられたハードディスク又はRAM等の記録装置を記録媒体として使用し、ネットワークを介してプログラムを提供してもよい。
以上、本発明の実施形態を説明したが、具体例を例示したに過ぎず、特に本発明を限定しない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載された効果に限定されない。
図1は、漏洩情報提示装置10の機能ブロック図である。 図2は、漏洩情報提示装置10のメイン動作フローを示す図である。 図3は、抽出部110の動作フローを示す図である。 図4は、2次ファイルに関する情報の一例を示す図である。 図5は、漏洩情報提示装置10に検索サーバ210を含んだシステムの構成を示す図である。 図6は、記録領域170a、bが特定できない場合の漏洩情報提示装置10のメイン動作フローを示す図である。 図7は、2次ファイルに関する情報の一例を示す図である。 図8は、漏洩情報提示装置10のハードウェア構成の一例を示す図である。
符号の説明
10 漏洩情報提示装置
30 通信回線ネットワーク
100 制御部
110 抽出部
120 フィルター
130 解析部
132 表現抽出部
135 個人情報データ辞書
136 単語辞書
140 調査部
150 提示部
160 記録部
170a、b 記録領域
200 対象サーバ
210 検索サーバ
500 CPU
510 ホストコントローラ
520 I/Oコントローラ
530 ROM
540 ハードディスク
550 RAM
560 記録媒体読出装置
570 ネットワークボード
580 グラフィックボード
590 モニタ

Claims (15)

  1. 漏洩したファイルのオリジナル・データを記録する記録部と、
    前記オリジナル・データおよび、調査対象の記録領域に存在するファイルの双方から、漏洩を防止すべき情報に該当する、複数種類の固有表現の文字列を示すデータの組み合わせを抽出する抽出部と、
    前記調査対象の記録領域に存在するファイルから抽出された1以上の前記組み合わせと、前記オリジナル・データから抽出された1以上の前記組み合わせとの一致度を調査する調査部と
    備えた装置。
  2. 前記抽出部は、特定のアプリケーション・プログラムの形式に従う前記オリジナル・データまたは前記調査対象の記憶領域に存在するファイルをテキスト形式に変換するフィルターを含む、請求項1に記載の装置。
  3. 前記抽出部は、前記固有表現の文字列を示すデータを抽出するための形態素解析を、テキスト形式に変換された前記オリジナル・データまたは前記調査対象の記憶領域に存在するファイルに対して実行する解析部を含む、請求項に記載の装置。
  4. 単語と当該単語の種類を記録した電子辞書をさらに備え、
    前記解析部は、テキスト形式に変換された前記オリジナル・データまたは前記調査対象の記憶領域に存在するファイルを単語に分解し、分解された単語のそれぞれに対して、前記電子辞書に記録された当該単語の種類を付与する、請求項に記載の装置。
  5. 前記漏洩を防止すべき情報は、個人情報であり、
    前記抽出部は、前記オリジナル・データまたは前記調査対象の記憶領域に存在するファイルに含まれる姓、名、住所、電話番号、所属組織、メールアドレス、ホームページアドレス、生年月日の情報のうち少なくとも1つを前記固有表現の文字列を示すデータとして抽出する、請求項1に記載の装置。
  6. 前記調査対象の記録領域は、前記装置が接続されたネットワーク上のコンピュータ装置の記録領域である、請求項1に記載の装置。
  7. 前記ネットワークが、インターネットである、請求項に記載の装置。
  8. 1以上のキーワードを検索条件として、前記1以上のコンピュータ装置に記録されたファイルの検索を要求する検索要求部と、
    検索された前記検索条件に合致するファイルへのアドレス・ロケーションを受領する取得部をさらに備え、
    前記調査対象の記録領域が、前記アドレス・ロケーションによりアクセスされるコンピュータ装置内である請求項に記載の装置。
  9. 前記漏洩を防止すべき情報は、個人情報であり、前記1以上のキーワードが、特定の個人に関するキーワードである、請求項に記載の装置。
  10. 前記抽出部は、姓および名の双方を検知したことを条件に、漏洩を防止すべき情報であると判断する、請求項に記載の装置。
  11. 前記調査対象の記憶領域に存在するファイルの、ファイル名、記録場所に関する情報の少なくともつを提示する提示部をさらに備えた、請求項1に記載の装置。
  12. 前記提示部は、前記調査対象の記憶領域に存在するファイルに関して、前記一致度を提示する、請求項11に記載の装置。
  13. 漏洩したファイルのオリジナル・データを記録する記録部と、
    単語と当該単語の種類を記録した電子辞書と、
    前記オリジナル・データおよび、調査対象の記録領域に存在するファイルの双方から、漏洩を防止すべき情報に該当する複数種類の固有表現の文字列を示すデータの組み合わせを、1以上含む漏洩防止データを抽出する抽出部と、
    前記調査対象の記録領域に存在するファイルから抽出された漏洩防止データが含む組み合わせと、前記オリジナル・データから抽出された漏洩防止データが含む組み合わせとの一致度を調査する調査部と、
    前記調査対象の記憶領域に存在するファイルが、前記漏洩したファイルから派生して作成された可能性を示すデータとして、前記一致度を提示する提示部と、
    を備え、
    前記抽出部は、前記オリジナル・データまたは前記調査対象の記憶領域に存在するファイルをテキスト形式に変換するフィルターと、
    前記テキスト形式に変換された前記オリジナル・データまたは前記調査対象の記憶領域に存在するファイルを単語に分解し、分解された単語のそれぞれに対して、前記電子辞書に記録された当該単語の種類を付与する解析部と、
    所定の種類を付与された第1の単語の出現箇所と、当該所定の種類とは別の種類を付与された第2の単語の出現箇所と、が当該第1の単語の種類および当該第2の単語の種類に応じて設定された所定の語数以内にある場合に、当該第1の単語と当該第2の単語とを、前記固有表現の文字列を示すデータの組み合わせとして前記漏洩防止データに含めて抽出する表現抽出部と、をさらに備える装置。
  14. 漏洩を防止すべき情報に関連した情報をコンピュータ装置が提供する方法であって、
    漏洩したファイルのオリジナル・データを記録するステップと、
    前記オリジナル・データおよび、調査対象の記録領域に存在するファイルの双方から、漏洩を防止すべき情報に該当する複数種類の固有表現の文字列を示すデータの組み合わせを、1以上含む漏洩防止データを抽出するステップと、
    記調査対象の記録領域に存在するファイルから抽出された漏洩防止データが含む組み合わせと、前記オリジナル・データから抽出された漏洩防止データが含む組み合わせとの一致度を調査するステップと
    を含む方法。
  15. 漏洩を防止すべき情報に関連した情報を提供させるプログラムであって、
    漏洩したファイルのオリジナル・データを記録するステップと、
    前記オリジナル・データおよび、調査対象の記録領域に存在するファイルの双方から、漏洩を防止すべき情報に該当する複数種類の固有表現の文字列を示すデータの組み合わせを、1以上含む漏洩防止データを抽出するステップと、
    記調査対象の記録領域に存在するファイルから抽出された漏洩防止データが含む組み合わせと、前記オリジナル・データから抽出された漏洩防止データが含む組み合わせとの一致度を調査するステップと
    をコンピュータ装置に実行させるプログラム。
JP2005089579A 2005-03-25 2005-03-25 情報提示装置、情報提示方法、プログラム Expired - Fee Related JP4158927B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005089579A JP4158927B2 (ja) 2005-03-25 2005-03-25 情報提示装置、情報提示方法、プログラム
US11/364,445 US7739743B2 (en) 2005-03-25 2006-02-28 Information presentation apparatus, and information presentation method and program for use therein

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005089579A JP4158927B2 (ja) 2005-03-25 2005-03-25 情報提示装置、情報提示方法、プログラム

Publications (2)

Publication Number Publication Date
JP2006268751A JP2006268751A (ja) 2006-10-05
JP4158927B2 true JP4158927B2 (ja) 2008-10-01

Family

ID=37034880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005089579A Expired - Fee Related JP4158927B2 (ja) 2005-03-25 2005-03-25 情報提示装置、情報提示方法、プログラム

Country Status (2)

Country Link
US (1) US7739743B2 (ja)
JP (1) JP4158927B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5057916B2 (ja) * 2007-09-28 2012-10-24 日本電信電話株式会社 固有表現抽出装置、その方法、プログラム及び記録媒体
JP4807364B2 (ja) * 2008-02-22 2011-11-02 日本電気株式会社 情報管理装置
US9569528B2 (en) 2008-10-03 2017-02-14 Ab Initio Technology Llc Detection of confidential information
US8495384B1 (en) * 2009-03-10 2013-07-23 James DeLuccia Data comparison system
KR20130049111A (ko) * 2011-11-03 2013-05-13 한국전자통신연구원 분산 처리를 이용한 포렌식 인덱스 방법 및 장치
JP2013114383A (ja) * 2011-11-28 2013-06-10 Denso Corp プライバシー保護方法、車両用装置、車両用通信システムおよび携帯端末
JP6198708B2 (ja) * 2014-11-13 2017-09-20 富士通クラウドテクノロジーズ株式会社 評価生成装置、評価生成方法および評価生成プログラム
US10043038B2 (en) * 2015-01-08 2018-08-07 Jumpshot, Inc. Identifying private information from data streams
JP6811639B2 (ja) * 2017-02-20 2021-01-13 三菱スペース・ソフトウエア株式会社 ファイル監視装置およびファイル監視プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282698B1 (en) * 1998-02-09 2001-08-28 Lucent Technologies Inc. Detecting similarities in Java sources from bytecodes
JP3648101B2 (ja) * 1999-09-09 2005-05-18 日本電信電話株式会社 コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法
GB0027280D0 (en) * 2000-11-08 2000-12-27 Malcolm Peter An information management system
JP2003036208A (ja) 2001-07-25 2003-02-07 Mitsubishi Electric Corp 情報漏洩検出防止装置及び情報漏洩検出防止方法
JP2003076662A (ja) 2001-09-05 2003-03-14 Mitsubishi Electric Corp 情報漏洩追跡システム
JP3886362B2 (ja) * 2001-11-13 2007-02-28 富士通株式会社 コンテンツフィルタリング方法、コンテンツフィルタリング装置およびコンテンツフィルタリングプログラム
JP4051670B2 (ja) * 2002-08-01 2008-02-27 ソニー株式会社 コンテンツ配信システム及びコンテンツ配信方法並びに端末装置
US7472114B1 (en) * 2002-09-18 2008-12-30 Symantec Corporation Method and apparatus to define the scope of a search for information from a tabular data source
JP2004118243A (ja) 2002-09-20 2004-04-15 Ricoh Co Ltd ネットワーク印刷システム
US7539725B2 (en) * 2003-04-03 2009-05-26 Zix Corporation Auditor system
US7503035B2 (en) * 2003-11-25 2009-03-10 Software Analysis And Forensic Engineering Corp. Software tool for detecting plagiarism in computer source code
US20050154601A1 (en) * 2004-01-09 2005-07-14 Halpern Joshua I. Information security threat identification, analysis, and management
US7647321B2 (en) * 2004-04-26 2010-01-12 Google Inc. System and method for filtering electronic messages using business heuristics
US7975256B2 (en) * 2004-06-30 2011-07-05 International Business Machines Corporation Optimizing application performance through data mining
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US20060129523A1 (en) * 2004-12-10 2006-06-15 Roman Kendyl A Detection of obscured copying using known translations files and other operational data
JP4695388B2 (ja) * 2004-12-27 2011-06-08 株式会社リコー セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体

Also Published As

Publication number Publication date
US7739743B2 (en) 2010-06-15
US20060215298A1 (en) 2006-09-28
JP2006268751A (ja) 2006-10-05

Similar Documents

Publication Publication Date Title
JP4158927B2 (ja) 情報提示装置、情報提示方法、プログラム
US7043690B1 (en) Method, system, and program for checking contact information
US9489450B2 (en) Method and apparatus for responding to an inquiry
CN102831107B (zh) 选择用于文本分割的语言的方法和系统
US7096214B1 (en) System and method for supporting editorial opinion in the ranking of search results
US6446035B1 (en) Finding groups of people based on linguistically analyzable content of resources accessed
Kestemont et al. Cross-genre authorship verification using unmasking
US8782061B2 (en) Scalable lookup-driven entity extraction from indexed document collections
EP1429258A1 (en) DATA PROCESSING METHOD, DATA PROCESSING SYSTEM, AND PROGRAM
US20090265304A1 (en) Method and system for retrieving statements of information sources and associating a factuality assessment to the statements
US11361036B2 (en) Using historical information to improve search across heterogeneous indices
JP2007122732A (ja) ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム、およびサービス方法(ウェブドキュメントの集合において効率的に日付を検索するシステムおよび方法)
US9219746B2 (en) Risk identification based on identified parts of speech of terms in a string of terms
US20110023122A1 (en) Information providing support device and information providing support method
GB2401972A (en) Identifying special word usage in a document
US20090313536A1 (en) Dynamically Providing Relevant Browser Content
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
JP2006073012A (ja) 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法
US20090259622A1 (en) Classification of Data Based on Previously Classified Data
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP2009037420A (ja) 有害コンテンツの評価付与装置、プログラム及び方法
US7756894B2 (en) Use of keyword or access log information to assist a user with information search and retrieval
US20050102280A1 (en) Search system, search program, and personal computer
US7730062B2 (en) Cap-sensitive text search for documents
CN110888894A (zh) 专利搜索的方法、服务器及计算机可读介质

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20071029

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071204

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071217

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20071217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20071218

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080709

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130725

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees