JP2009277183A - 情報識別装置及び情報識別システム - Google Patents

情報識別装置及び情報識別システム Download PDF

Info

Publication number
JP2009277183A
JP2009277183A JP2008130588A JP2008130588A JP2009277183A JP 2009277183 A JP2009277183 A JP 2009277183A JP 2008130588 A JP2008130588 A JP 2008130588A JP 2008130588 A JP2008130588 A JP 2008130588A JP 2009277183 A JP2009277183 A JP 2009277183A
Authority
JP
Japan
Prior art keywords
electronic file
identifier
content identifier
information identification
electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008130588A
Other languages
English (en)
Inventor
Yoshinori Sato
嘉則 佐藤
Akihiko Kawasaki
明彦 川崎
Masaru Kai
賢 甲斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008130588A priority Critical patent/JP2009277183A/ja
Priority to US12/379,716 priority patent/US20090287654A1/en
Publication of JP2009277183A publication Critical patent/JP2009277183A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/606Protecting data by securing the transmission between two devices or processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

【課題】組織内を流通する電子ファイルを確実に把握し、組織内のシステム利用者が所持している電子ファイルを追跡する。
【解決手段】ネットワークに接続されるインタフェースと、前記インタフェースに接続されるプロセッサと、前記プロセッサに接続されるメモリと、を備え、電子ファイルに格納されるデータに基づいて、前記電子ファイルに識別子を付与する情報識別装置において、前記電子ファイルに格納されるデータから、テキストデータを抽出し、前記抽出されたテキストデータに含まれる単語を抽出し、前記抽出された単語が、前記テキストデータに出現する頻度を算出し、算出された出現頻度と前記単語とを対応付けて索引情報として保持し、前記保持された索引情報を参照し、前記電子ファイルを一意に特定可能な少なくとも一つの単語から構成される識別子を抽出し、前記抽出された識別子を前記電子ファイルに付与する。
【選択図】図1

Description

本発明は、情報識別装置に関し、特に、テキスト情報を含む電子データを追跡する情報識別装置に関する。
現在、電子データが格納される媒体の紛失及び電子メールの誤送信等、組織内部から電子データが漏えいする事故が問題となっている。情報漏えいを防止又は抑止するための情報セキュリティ技術として、アクセス制御及び暗号化等を用いた情報セキュリティが実用化されているが、組織内部の正当な電子データ利用者を不正又は過失の主体として考慮していないため、組織内部からの情報漏えい対策として不十分である。例えば、機密情報が格納された電子データにアクセス制御がかかっている場合に、アクセス権限を正当に保有した利用者が、当該電子データを電子メールで誤って外部に送信される事故が起こる可能性がある。
このため、近年では、組織内で生成及び通信される電子ファイルを監視することによって、組織内でいつ、誰が、どの電子ファイルを扱っているかを把握し、さらに、機密情報が格納された電子ファイルが組織外に送信される場合に、送信を遮断する情報漏えい対策が新たに提案されている。
このような情報漏えい対策の一つに、Data Leakage Prevention(DLP)がある。DLPは、パーソナルコンピュータ等の情報機器が生成及び通信する電子ファイルを監視し、組織外部に送信される電子ファイルが、予め登録されている機密情報と一致する場合に、遮断及び警告等によって送信を制御するものである。
DLPを実現するために、機密情報と一致する電子ファイルを検出する技術が、特許文献1に開示されている。特許文献1に開示された技術は、機密情報が格納された電子ファイルが有するテキストから単語を抽出し、抽出された単語の出現頻度及び分布に基づいて、電子ファイルを識別する単語の集合を決定し、決定された単語の集合を電子ファイルのfingerprintとする。fingerprintは、機密情報が格納された電子ファイル(機密情報格納電子ファイル)毎に算出され、機密情報と対応付けて登録される。組織外部に送信される電子ファイル(送信電子ファイル)からも同様にfingerprintを算出し、算出されたfingerprintに基づいて、送信電子ファイルが機密情報格納電子ファイルと一致するか否かを判定する。
電子ファイルが一致するか否かを判定する処理に用いられる技術として、類似文書検索技術がある。類似文書検索技術は、例えば、ベクトル空間法及びTF−IDF(Term Frequency and Inverse Document Frequency)法が知られている。ベクトル空間法とは、検索キーとなる文書が有する単語集合から質問ベクトルを構成し、検索対象文書から文書ベクトルを構成する。そして、質問ベクトルに近い文書ベクトルを有する文書を検索結果として提示する。検索キーは、検索者が明示的に与える単語集合であり、既知の文書から抽出された単語集合である。
TF−IDF法は、ベクトルを構成する単語tの重要さを決定する方法である。一般的なTF−IDF法では、検索キーとなる文書における単語tの出現頻度(TF)と、単語tを有する検索対象文書の出現頻度の逆数(IFF)とを用いて、TFとIDFとの積を算出することによって、単語tの重要さを求める。特許文献2には、TF−IDF法及びTF−IDFの改良手法の一つが類似文書検索装置として開示されている。
国際公開第2006/122086号パンフレット 特許第3573688号
前述した特許文献1では、送信電子ファイル及び機密情報格納電子ファイルから、それぞれ独立に特徴的な単語集合を決定し、fingerprintを算出するため、TF−IDF法におけるTFに相当する量にのみ基づいてfingerprintを決定している。従って、いずれの機密情報格納電子ファイルにも出現する単語集合がfingerprintの算出に用いられる可能性がある。よって、一つのfingerprintが複数の機密情報格納電子ファイルに一致する状況が起こる。このため、組織内の電子ファイルの利用状況を監視するために特許文献1を用いても、正確に電子ファイルを追跡することができない課題がある。同様に、電子ファイルの送信を制御する場合にも、本来は一致してない電子ファイルの送信が誤って遮断される問題が生じる。
特許文献2の類似文書検索技術は、TF及びIDFがそれぞれ大きい単語が比較のために用いられる。特許文献2を電子ファイルの追跡に用いる場合、電子ファイルを一意に定める単語集合、すなわち、IDFが1である単語を用いるとよいが、TFが大きく、IDFが2以上の単語が比較に用いられる可能性がある。よって、特許文献1と同様の課題がある。これは、TFを全ての文書に共通の定数とする場合でも同様である。特許文献2におけるIDFは、それぞれの単語について値を算出しているため、異なる電子ファイルであっても、格納されるテキストが類似した電子ファイルが検索対象に存在する場合、TFを定数にした場合でも、IDFが2以上の単語が比較のために選択される可能性がある。
本発明は、組織内を流通する電子ファイルを確実に把握し、組織内のシステム利用者が所持している電子ファイルを追跡することを目的とする。
また、電子メールサーバにおいて、送信メールに添付される電子ファイルの識別子を、登録された機密情報格納電子ファイルと比較することによって、電子メールによる機密情報の漏えいを防止することを目的とする。
本発明の代表的な一例を示せば以下の通りである。すなわち、ネットワークに接続されるインタフェースと、前記インタフェースに接続されるプロセッサと、前記プロセッサに接続されるメモリと、を備え、電子ファイルに格納されるデータに基づいて、前記電子ファイルに識別子を付与する情報識別装置において、前記電子ファイルに格納されるデータから、テキストデータを抽出し、前記抽出されたテキストデータに含まれる単語を抽出し、前記抽出された単語が、前記テキストデータに出現する頻度を算出し、算出された出現頻度と前記単語とを対応付けて索引情報として保持し、前記保持された索引情報を参照し、前記電子ファイルを一意に特定可能な少なくとも一つの単語から構成される識別子を抽出し、前記抽出された識別子を前記電子ファイルに付与する。
本発明の一実施形態によれば、電子ファイルに含まれるテキストデータを用いて、電子ファイルを一意に定める識別子を付与することができる。
以下、本発明の実施の形態について、図面を参照して説明する。
本実施の形態では、多数のクライアントPCがネットワークに接続されたシステムにおいて、システムの利用者が所持している電子ファイルを追跡する例を説明する。複数の電子ファイルの同一性は、電子ファイルのテキストデータに含まれるトークン(単語)によって識別される。ここでは、電子ファイルの識別に用いるトークンの集合を、コンテンツ識別子と呼ぶ。一つのコンテンツ識別子は、少なくとも一つのトークンから構成される。
<実施形態1>
図1を参照し、本発明の第1の実施形態のシステムの構成を説明する。
図1は、本発明の第1の実施の形態のシステムの構成を示すブロック図である。図1に示すシステムは、文書利用証跡管理サーバ101、コンテンツ識別子付与サーバ102、クライアントPC103A、及びクライアントPC103Bを備える。
なお、以下の説明でクライアントPC103A及びクライアントPC103Bを総称してクライアントPC103と説明する場合もある。また、証跡取得部114A及び証跡取得部114Bを総称して証跡取得部114と説明する場合もある。なお、クライアントPC103A及びクライアントPC103Bは、同じハードウェアで構成される。
文書利用証跡管理サーバ101、コンテンツ識別子付与サーバ102、クライアントPC103A、及びクライアントPC103Bは、それぞれ通信ネットワーク104に接続される。
文書利用証跡管理サーバ101、コンテンツ識別子付与サーバ102、及びクライアントPC103は、例えば、パーソナルコンピュータ、サーバ装置、又はワークステーション等の任意の計算機によって実現することができる。
通信ネットワーク104は、例えば、LAN(Local Area Network)及びインターネット上に構成されたVPN(Virtual Private Network)等、特定の組織の利用者を対象として運用される任意のネットワークによって実現することができる。
文書利用証跡管理サーバ101は、文書利用証跡テーブル105及び証跡解析部107を含む。
文書利用証跡テーブル105は、後述するストレージ202に格納され、電子ファイルが利用された証跡(履歴)を管理する。文書利用証跡テーブル105については、図4を用いて後述する。
証跡解析部107は、コンテンツ識別子テーブル106に格納されているデータを解析し、特定の電子ファイルを所持していた利用者を判別し、文書利用証跡管理サーバ101の出力装置205から結果を出力する。
証跡解析部107は、後述するCPU201がメモリ203に読み出したプログラム(図示省略)を実行することによって実現される。
コンテンツ識別子付与サーバ102は、テキスト抽出部108、形態素解析部109、索引情報取得部110、コンテンツ識別子抽出部111、索引情報テーブル112、DF格納テーブル113、及びコンテンツ識別子テーブル106を含む。
テキスト抽出部108は、後述する通信インタフェース206を介して受信した電子ファイルから、テキストデータを抽出する。受信した電子ファイルが図データ、音声データ、及びテキストデータを含む場合、受信した電子ファイルから図データ及び音声データが取り除かれ、テキストデータのみが抽出される。
形態素解析部109は、テキスト抽出部108が抽出したテキストデータに対して形態素解析を行い、テキストデータ中に出現するトークン(単語)を抽出する。形態素解析については、図8を用いて後述する。
索引情報取得部110は、形態素解析部109によって抽出されたトークンが、テキストデータ中に出現する回数(出現頻度)を算出し、算出された結果を索引情報テーブル112に格納する。
コンテンツ識別子抽出部111は、索引情報テーブル112及びDF格納テーブル113を参照し、電子ファイルの識別に用いられるトークンの集合をコンテンツ識別子として決定する。そして、通信インタフェース206を介して、決定したコンテンツ識別子を送信する。
テキスト抽出部108、形態素解析部109、索引情報取得部110、及びコンテンツ識別子抽出部111は、後述するCPU201が、メモリ203に読み出されたプログラム(図示省略)を実行することによって実現される。
索引情報テーブル112は、後述するストレージ202に格納され、トークンがテキストデータに出現する回数を管理する。なお、索引情報テーブル112については、図3Aを用いて後述する。
DF格納テーブル113は、後述するストレージ202に格納され、各トークンが出現する電子ファイルの数を管理する。なお、DF格納テーブル113については、図3Bを用いて後述する。
コンテンツ識別子テーブル106は、後述するストレージ202に格納され、電子ファイルを識別するコンテンツ識別子の情報を管理する。なお、コンテンツ識別子テーブル106については、図4を用いて後述する。
クライアントPC103は、電子ファイルの利用者が使用する計算機であり、証跡取得部114を含む。
証跡取得部114は、クライアントPC103がストレージ202に電子ファイルを格納した場合、クライアントPC103の利用者ID、電子ファイルID、及び格納日時等を利用証跡データとして取得し、格納された電子ファイルと取得した利用証跡データとを通信インタフェース206を介して文書利用証跡管理サーバ101に送信する。文書利用証跡管理サーバ101は、クライアントPC103の証跡取得部114から受信した利用証跡データを文書利用証跡テーブル105に格納する。
証跡取得部114は、後述するCPU201が、メモリ203に読み出されたプログラム(図示省略)を実行することによって実現される。
図1に示す例では、クライアントPC103は、システムに2台備わっているが、3台以上備わってもよい。
また、文書利用証跡管理サーバ101、コンテンツ識別子付与サーバ102、及びクライアントPC103は、それぞれ別の装置として記載したが、一つのハードウェアに実装されてもよい。
次に、図2を参照して、コンテンツ識別子付与サーバ102のハードウェア構成を説明する。
図2は、本発明の第1の実施の形態のコンテンツ識別子付与サーバ102のハードウェアの構成を示すブロック図である。
コンテンツ識別子付与サーバ102は、CPU(Central Processing Unit)201、ストレージ202、メモリ203、入力装置204、出力装置205、及び通信インタフェース206を備える。CPU201、ストレージ202、メモリ203、入力装置204、出力装置205、及び通信インタフェース206はそれぞれバス207に接続される。
CPU201は、メモリ203に格納されているプログラムを実行し、ハードウェア全体を制御するプロセッサである。
メモリ203は、CPU201によって実行されるプログラムを格納する。メモリ203は、例えば、Random Access Memory(RAM)のような半導体メモリで構成することができる。また、ストレージ202に格納されたプログラム及びデータが必要に応じて読み出され、メモリ203に格納される。
ストレージ202は、プログラム及びデータ等を格納し、例えば、CD−R(Compact Disc)、DVD−RAM(Digital Versatile Disk−Random Access Memory)、シリコンディスク等の記憶メディア及び当該記憶メディアの駆動装置、及び、HDD(Hard Disk Drive)等によって構成することができる。
入力装置204は、ユーザによる情報の入力を受け付ける装置であり、例えば、キーボード、マウス、スキャナ、及びマイクによって構成することができる。
出力装置205は、ユーザへの情報を表示する装置であり、例えば、ディスプレイ装置、スピーカ、及びプリンタ等によって構成することができる。
通信インタフェース206は、通信ネットワーク104に接続するインタフェースであり、例えば、LAN(Local Area Network)ボード等によって構成することができる。
なお、文書利用証跡管理サーバ101及びクライアントPC103も、図2に示すハードウェアの構成と同じ構成を備える。
図3Aは、本発明の第1の実施の形態の索引情報テーブル112の説明図である。
索引情報テーブル112は、電子ファイルID301、X社302、製品A303、情報漏えい304、プロジェクト305、及び導入306を含む。なお、索引情報テーブル112の1行分のデータを一つのレコードとする。
電子ファイルID301は、電子ファイルに付与された識別子である。なお、電子ファイルに付与される識別子は、図1に示すシステム内で一意に特定可能な識別子が付与される。
フィールドには、図3Aに示すように、X社302、製品A303、情報漏えい304、プロジェクト305、及び導入306のトークンが格納されている。索引情報テーブル112に新たに電子ファイルを登録する場合には、フィールドを追加し、他のトークンの情報を格納することができる。
索引情報テーブル112の各電子ファイルに対応するフィールドの値は、各電子ファイルに含まれるトークンを示す。具体的には、値が「1」の場合、電子ファイルにトークンが1個以上含まれることを示す。また、値が「0」の場合、電子ファイルにトークンが含まれていないことを表している。
図3Bは、本発明の第1の実施の形態のDF格納テーブル113の説明図である。
DF格納テーブル113は、トークン番号307及びDF308を含む。
トークン番号307は、各トークンに付与された管理番号である。例えば、図3Aに示す索引情報テーブル112に格納されているトークンの順に、0、1、2…と付与することができる。DF308は、各トークンが出現する電子ファイルの数(DF:Document Frequency)である。例えば、図3Aに示す索引情報テーブル112の各電子ファイルについて、X社302のフィールドの値を全て合計した値が、トークン「X社」が出現する電子ファイルの数である。
図3Bに示す例では、トークン「X社」の管理番号は「0」であり、トークン「X社」が出現する電子ファイルの個数が「2」である。
図3Cは、本発明の第1の実施の形態の電子ファイル309の例を示す説明図である。
図3Cに示す電子ファイル309は、例えば、クライアントPC103のストレージ202に格納される電子ファイル309である。クライアントPC103のストレージ202に電子ファイル309が格納されると、証跡取得部114は、格納された電子ファイル309及び利用証跡データを文書利用証跡管理サーバ101に送信する。
図4は、本発明の第1の実施の文書利用証跡テーブル105の説明図である。
文書利用証跡テーブル105は、利用者401、クライアント402、電子ファイルID403、及び作成日時404を含む。なお、文書利用証跡テーブル105の1行分のデータを一つのレコードとする。各レコードは、クライアントPC103から受信した電子ファイルの利用証跡データである。
利用者401は、クライアントPC103の利用者を識別する識別子である。クライアント402は、クライアントPC103を識別する識別子である。
電子ファイルID403は、電子ファイルに付与される識別子である。電子ファイルID403は、例えば、図4に示すように、電子ファイルを格納したクライアント402と、各クライアントに割り振られた電子ファイルの通し番号とを連結した識別子とすることができる。
作成日時404は、電子ファイルが作成された日時である。作成日時602は、例えば、入力装置204を介して複製された電子ファイル(複製ファイル)が格納された日時、及び、通信インタフェース206を介して複製ファイルを受信した日時等、利用者が作業中のクライアントPC103で電子ファイルを保存した日時である。図4に示す例では、年月日を表す8桁の整数値が格納され、時刻は省略される。
図4に示す文書利用証跡テーブル105は、テーブル形式であるが、例えば、XML(eXtensible Markup Language)等の任意のデータ形式であってもよい。
また、利用証跡データとして、図4に示すデータ以外のデータ(例えば、IPアドレス等)が文書利用証跡テーブル105に格納されてもよい。
図5は、本発明の第1の実施の形態のコンテンツ識別子テーブル106の説明図である。
コンテンツ識別子テーブル106は、電子ファイルID501及びコンテンツ識別子502を含む。
電子ファイルID501は、電子ファイルに付与される識別子であり、図4に示す文書利用証跡テーブル105に格納されている電子ファイルID403に対応する。
コンテンツ識別子502は、テキストデータから電子ファイルを一意に識別するトークンである。
図5に示す例では、トークンの集合{X社、製品A、(公序良俗違反につき、不掲載)}は、電子ファイル「A001」を識別するコンテンツ識別子である。また、トークンの集合{Y社、(公序良俗違反につき、不掲載)}は、電子ファイル「B001」を識別するコンテンツ識別子である。また、トークンの集合{X社、製品A、(公序良俗違反につき、不掲載)}は、電子ファイル「B002」を識別するコンテンツ識別子である。
なお、電子ファイル「B002」は、電子ファイル「A001」と同じコンテンツ識別子である。この場合、電子ファイル「A001」と電子ファイル「B002」とは異なる電子ファイルであるが、コンテンツ(テキストデータの内容)が同じであることを示す。
図6は、本発明の第1の実施の形態の証跡解析部107の出力データ600の説明図である。
図6に示す出力データ600は、利用者601及び作成日時602を含む。
利用者601は、クライアントPC103の利用者を識別する識別子であり、図4に示す文書利用証跡テーブル105に格納されている利用者301に対応する。作成日時602は、電子ファイルが作成された日時であり、図4に示す文書利用証跡テーブル105に格納されている作成日時304に対応する。
証跡解析部107は、文書利用証跡管理サーバ101の管理者が一つの電子ファイルを指定した場合に、指定された電子ファイルに付与されているコンテンツ識別子を検索キーとしてコンテンツ識別子付与サーバ102に問い合わせる。検索キーとして指定されたコンテンツ識別子と一致するコンテンツ識別子が存在する場合、それぞれの電子ファイルを所有している利用者及び各電子ファイルが利用された日時の一覧を出力する。なお、出力データ600を出力する処理については、図7を用いて後述する。
図6に示す例は、『電子ファイル「A001」及び電子ファイル「A001」の複製ファイル(B001)を所有しているクライアントPC103の利用者(U002)」を解析した結果であり、利用者「U001」及び利用者「U002」が電子ファイル「A001」又は電子ファイル「A001」と同一の内容の電子ファイルを所有していることを示す。
図7は、本発明の第1の実施の形態の処理シーケンスの説明図である。
図7に示す処理は、各装置に備わるCPU201が、メモリ203に格納されているプログラムを実行することによって実行される。
まず、クライアントPC103は、テキストデータを作成し、作成されたテキストデータを電子ファイルとしてストレージ202に格納する(S701)。
次に、クライアントPC103の証跡取得部114は、ステップS701で格納された電子ファイルの利用証跡データを取得する(S702)。
ステップS702では、図3Cに示す電子ファイル309及び文書利用証跡テーブル105に格納される利用証跡データの値が取得される。文書利用証跡テーブル105に格納される値は、利用者401として、電子ファイルが格納される時にクライアントPC103を利用していた利用者を識別する識別子(例えば、ログオン名)が取得される。
また、クライアント402として、クライアントPC103を識別する識別子(例えば、ホスト名)が取得される。また、電子ファイルID403として、電子ファイルに付与される識別子(例えば、クライアントPC103を識別する識別子と、証跡取得部114が管理する電子ファイルの通し番番号とを連結した識別子)が取得される。また、作成日時404として、クライアントPC103に電子ファイルが作成(格納)された日時が取得される。
なお、ステップS702では、作成日時404に対応する利用証跡データを取得しなくてもよい。この場合、後述するように、文書利用証跡管理サーバ101が利用証跡データを受信した後に作成日時404の値が文書利用証跡テーブル105に格納される。
次に、クライアントPC103の証跡取得部114は、ステップS701で格納された電子ファイルと、ステップS702で取得した利用証跡データとを文書利用証跡管理サーバ101に送信する(S703)。
次に、文書利用証跡管理サーバ101は、ステップS703で受信した利用証跡データを文書利用証跡テーブル105に格納する(S704)。
ステップS704では、まず、受信した利用証跡データに含まれる電子ファイルの識別子と、文書利用証跡テーブル105に格納されている電子ファイルID403とを比較する。同じ電子ファイルID403が存在する場合には、該当するレコードに利用証跡データを上書きする。一方、同じ電子ファイルID403が存在しない場合には、新規のレコードとして、利用証跡データを文書利用証跡テーブル105に追加する。なお、作成日時404のデータが受信した利用証跡データに含まれていない場合、文書利用証跡管理サーバ101が利用証跡データを受信した日時を作成日時404に格納する。
次に、文書利用証跡管理サーバ101は、ステップS703で受信した電子ファイルをコンテンツ識別子付与サーバ102に送信する(S705)。
次に、コンテンツ識別子付与サーバ102は、ステップS705で受信した電子ファイルのコンテンツ識別子を生成する(S706)。前述したように、コンテンツ識別子は、電子ファイルを一意に特定可能なトークンの集合である。なお、ステップS706の処理については、図8を用いて後述する。
次に、コンテンツ識別子付与サーバ102は、ステップS705で受信した利用証跡データに含まれる電子ファイルの識別子と、ステップS706で生成されたコンテンツ識別子とを、コンテンツ識別子テーブル106に格納する(S707)。
ステップS707では、受信した電子ファイルの識別子がコンテンツ識別子テーブル106に存在する場合、該当するコンテンツ識別子テーブル106のコンテンツ識別子502を削除し、ステップ706で生成されたコンテンツ識別子を追加する。一方、格納される電子ファイルの識別子がコンテンツ識別子テーブル106に存在しない場合、新規のレコードとして、受信した電子ファイルの識別子及びステップ706で生成されたコンテンツ識別子を、コンテンツ識別子テーブル106に追加する。
次に、コンテンツ識別子付与サーバ102は、コンテンツ識別子テーブル106を参照し、ステップS707で格納されたコンテンツ識別子の一部と衝突する(一致する)他のコンテンツ識別子を更新する(S708)。なお、ステップS708の処理については、図9を用いて後述する。
以上説明したステップS701からS708までの動作は、S701が実行された後に、一連の動作として連続して実行される。すなわち、クライアントPC103が電子ファイルをストレージ202に格納する度に、文書利用証跡管理サーバ101の文書利用証跡テーブル105及びコンテンツ識別子付与サーバ102のコンテンツ識別子テーブル106が更新される。
次に、ステップS709からS712の処理について説明する。ステップS709からS712は、文書利用証跡管理サーバ101の管理者によって、任意のタイミングで実行される。
まず、管理者が、利用状況を把握したい電子ファイルの識別子を、入力装置204を介して証跡解析部107に入力すると、文書利用証跡管理サーバ101は、入力された電子ファイルの識別子をコンテンツ識別子付与サーバ102に送信し、入力された電子ファイルの識別子と一致する他の電子ファイルの識別子が存在するか否かをコンテンツ識別子付与サーバ102に問い合わせる(S709)。
次に、コンテンツ識別子付与サーバ102は、コンテンツ識別子テーブル106を参照し、ステップS709で受信した電子ファイルのコンテンツ識別子と同一のコンテンツ識別子が付与されている他の電子ファイルを抽出する(S710)。
ステップS710では、まず、コンテンツ識別子テーブル106の電子ファイルID501を参照し、ステップS709で受信した電子ファイルの識別子に対応するコンテンツ識別子502を特定する。次に、コンテンツ識別子付与サーバ102は、コンテンツ識別子502を参照し、特定されたコンテンツ識別子502が全て一致する他の電子ファイルID501を抽出する。
次に、コンテンツ識別子付与サーバ102は、ステップS710で抽出された電子ファイルID501を、文書利用証跡管理サーバ101に送信する(S711)。
次に、文書利用証跡管理サーバ101の証跡解析部107は、文書利用証跡テーブル105を参照し、ステップS709で入力された電子ファイルの識別子とステップS710で抽出された電子ファイルID501とが一致するレコードをそれぞれ特定し、特定されたレコードから利用者401及び作成日時404を取得する。取得した利用者401及び作成日時404に基づいて作成される一覧を、図6に示す出力データ600の形式で出力する(S712)。
このように、図7のステップS706及びS708の処理を実行することによって、後述するように、DFが「1」となるトークン集合をコンテンツの識別子として付与することができる。また、付与されたトークン集合を用いてコンテンツを識別することによって、図7のステップS709からS712の処理に示すように、異なるクライアントPC103に存在する同一内容のファイルを追跡することが容易になる。
図8は、本発明の第1の実施の形態のコンテンツ識別子を生成する処理を示すフローチャートである。
まず、テキスト抽出部108は、電子ファイルに格納されたデータから、テキストデータを抽出する(S801)。テキストデータの抽出処理は、従来技術を用いて実現することができる。例えば、電子ファイルを作成するアプリケーションのエクスポート機能又は電子ファイルを作成するアプリケーションのSDK(Software Development Kit)が提供するするインタフェースを用いて実現することができる。
次に、形態素解析部109は、ステップS801で抽出されたテキストデータの形態素解析処理を行う(S802)。形態素解析とは、テキストデータに含まれる文章を、文字列の最小単位である素(形態素)に分解し、分解された形態素の品詞をそれぞれ判別する処理である。日本語の場合、形態素解析によって判別される品詞は、例えば、「名詞」、「動詞」、及び「助詞」等であってもよい。また、「動詞−自立語」及び「助詞−接続助詞」等の詳細な品詞に判別されてもよい。
なお、ステップS802では、形態素解析処理を実行しているが、テキストデータの部分集合をランダムにトークンとして抽出してもよい。
なお、形態素解析は、従来技術を用いて実現することができる。例えば、隠れマルコフモデル(HMM:Hidden Markov Model)、及び、松本裕治他によるNAIST Technical Report、NAIST-IS-TR97007、February 1997に開示されているツール等を用いて実現することができる。
次に、索引情報取得部110は、ステップS802判別された形態素のうち、少なくとも一部の形態素を「トークン」に指定し、指定された各トークンの出現頻度をカウントする。そして、カウントした結果を索引情報テーブル112に格納する(S803)。
ステップS803では、索引情報取得部110は、まず、索引情報テーブル112に新たなフィールドを追加し、追加されたフィールドに指定されたトークンを格納する。なお、新たに追加されるフィールドには、前述した形態素解析によって判別されたトークンのうち、索引情報テーブル112に格納されていないトークンが格納される。索引情報テーブル112の各レコードにおいて、追加された新たなフィールドの値は「0」である。
次に、索引情報取得部110は、電子ファイルの識別子に対応するレコードを索引情報テーブル112に新たに追加する。次に、索引情報取得部110は、電子ファイルから抽出されたトークンを対象として、索引情報テーブル112に登録されているトークンの出現頻度をカウントし、新たに追加されたレコードの各フィールドに値を格納する。次に、索引情報取得部110は、各フィールドの索引情報テーブル112の値を合計し、合計した値をDF格納テーブル113のDF308に格納する。
なお、トークンに指定される形態素は特に限定されないが、本実施の形態では、品詞が「名詞」である形態素がトークンとして指定される。
また、ステップS803の処理は、従来技術を用いて実現することができる。例えば、高野明彦他による「汎用連想計算エンジンの開発と大規模文書分析への応用」、情報処理振興事業協会、独創的情報技術育成事業、2001年度成果報告論文に開示されているツール等を用いて実現することができる。
次に、コンテンツ識別子抽出部111は、DF格納テーブル113を参照し、トークンをDF308の昇順にトークンを並べ替える。並べ替えられた各トークンのトークン番号307を、順にサイズM’の配列TOKEN[ ]に格納する(S804)。ここで、サイズM’は、トークンの集合(トークン集合)を構成する要素の数、すなわち、索引情報テーブル112に格納されているトークンの数である。配列TOKEN[ ]に格納される値は、索引情報テーブル112のトークン番号307の値である。なお、DF308の昇順にトークンを並べ替えることによって、DFが「1」となるトークンの組み合わせを早く抽出することができるため、処理効率を高めることができる。
次に、コンテンツ識別子抽出部111は、処理中のトークン集合の数を示すカウンタ変数jを「0」に初期化し、コンテンツ識別子を構成するトークンの数を示す変数sを「0」に初期化し、処理途中のDFを記憶する変数mindfを符号無し整数型の定数UMAXINTに初期化する(S805)。定数UMAXINTは、変数mindfが取り得る最大値を表し、図8に示すシーケンス処理を実行するCPU201の仕様によって値が予め定められている。例えば、C言語等の一般的な計算機の言語を用いて図8に示すシーケンス処理を実装する場合、定数UMAXINTは、システム定数として与えられる。
次に、コンテンツ識別子抽出部111は、配列TOKEN[ ]の全ての要素について処理が終了したか否か(j<M’であるか否か)を判定し、かつ、DFが1であるトークン集合が存在するか否か(mindf>1であるか否か)を判定する(S806)。
カウンタ変数jがサイズM’より小さい、かつ、変数mindfが「1」より小さい場合、処理はステップS807に進む。一方、カウンタ変数jがサイズM’以上又は変数mindfが「1」以下である場合、処理はステップS819に進む。
ステップS806からステップS818までの処理では、配列TOKEN[j]に対応するトークンと他のトークンとの組み合わせについて、DFをカウントする。
次に、コンテンツ識別子抽出部111は、トークン集合のDFを格納する変数dfを「0」に初期化し(S807)、索引情報テーブル112のレコードを参照するカウンタ変数iを「0」に初期化する(S808)。
次に、コンテンツ識別子抽出部111は、カウンタ変数iが索引情報テーブル112に格納されているレコード数Nより小さいか否かを判定する(S809)。カウンタ変数iがレコード数Nより小さい場合、処理はステップS810に進む。一方、カウンタ変数iがレコード数N以上である場合、処理はステップS816に進む。
次に、コンテンツ識別子抽出部111は、コンテンツ識別子の候補となるトークン集合の要素を一つずつ参照するカウンタ変数kを「0」に初期化する(S810)。
次に、コンテンツ識別子抽出部111は、処理中の索引情報テーブル112のレコードを参照し、カウンタ変数kがカウンタ変数j以下であるか否かを判定し、かつ、配列F[i][TOKEN[k]]が「0」より大きいか否かを判定する(S811)。すなわち、ステップS811では、コンテンツ識別子の候補となるトークンの出現頻度が全て計算されたか否かが判定され、かつ、コンテンツ識別子の候補となるトークンが、索引情報テーブル112のi番目のレコードに存在するか否かが判定される。ここで、F[X][Y]は、索引情報テーブル112のX行目Y列のフィールドに格納されている値を示す。
カウンタ変数kがカウンタ変数j以下であり、かつ、配列F[i][TOKEN[k]]が「0」より大きい場合、処理はステップS812に進む。一方、カウンタ変数kがカウンタ変数jより大きい、又は、配列F[i][TOKEN[k]]が「0」以下である場合、処理はステップS813に進む。
次に、コンテンツ識別子抽出部111は、カウンタ変数kを1増やす(k=k+1)(S812)。そして、処理は、ステップS811に戻る。
ステップS813では、コンテンツ識別子抽出部111は、カウンタ変数kがカウンタ変数jに等しいか否かを判定する。すなわち、ステップS813では、コンテンツ識別子の候補となる全てのトークンが、索引情報テーブル112のi番目のレコードに存在しているか否かが判定される。
カウンタ変数kがカウンタ変数jに等しい場合、処理はステップS814に進む。一方、カウンタ変数kがカウンタ変数jに等しくない場合、処理はステップS815に進む。
次に、コンテンツ識別子抽出部111は、索引情報テーブル112のi番目のレコードにおいて、F[i][TOKEN[0]]、F[i][TOKEN[1]]、…、F[i][TOKEN[j]]がそれぞれ0より大きいため、トークン集合のDFを示す変数dfを1増やす(df=df+1)(S814)。
次に、コンテンツ識別子抽出部111は、処理中の索引情報テーブル112のレコードを示すカウンタ変数iを1増やす(i=i+1)(S815)。そして、処理はステップS809に戻る。
ステップS816では、コンテンツ識別子抽出部111は、変数dfが変数mindfより小さいか否かを判定する(S816)。すなわち、処理中のトークン集合について、全てのレコードを参照して計算された変数dfが、処理が既に終わっているトークン集合について計算された変数dfの最小値より小さいか否かが判定される。
変数dfが変数mindfより小さい場合、処理はステップS817に進む。一方、変数dfが変数mindf以上である場合、処理はステップS818に進む。
次に、コンテンツ識別子抽出部111は、変数dfの値を変数mindfに格納し、かつ、カウンタ変数jの値を変数sに格納する(S817)。
次に、コンテンツ識別子抽出部111は、カウンタ変数jを1増やす(j=j+1)(S818)。そして、処理はステップS806に戻る。
ステップS819では、コンテンツ識別子抽出部111は、TOKEN[0]、TOKEN[1]、…、TOKEN[s]を、コンテンツ識別子として出力する(S819)。なお、ステップS819の処理を実行する時の変数sの値は、(1)変数df=1となったときのカウンタ変数jの値、又は、(2)変数dfが「1」より大きい最小値に最初に到達したときのカウンタ変数jの値のいずれかである。変数sが(2)の値を記憶する処理は、テキストデータが全く同じ電子ファイル、例えば、複製ファイルが存在する場合に必要な処理である。変数sに(2)の値が格納されると、テキストデータが全く同じ電子ファイルが存在する場合でも、全てのトークンをコンテンツ識別子として出力する必要がない。具体的には、変数mindf=同じ電子ファイルの個数、となったときのカウンタ変数jが変数sに格納される。
以上、図7のステップS706で実行される処理について説明したが、ステップS706でコンテンツ識別子を新たに生成すると、コンテンツ識別子テーブル106に既に格納されているコンテンツ識別子502のDFが2以上となる場合がある。
図5に示す例を用いて説明すると、電子ファイル「A002」の新たなコンテンツ識別子502として、トークン集合{X社、製品A、(公序良俗違反につき、不掲載)、競合Y社}が追加される場合、トークン集合の一部{X社、製品A、(公序良俗違反につき、不掲載)}が、電子ファイル「A001」のコンテンツ識別子502と一致する。よって、後でコンテンツ識別子{X社、製品A、(公序良俗違反につき、不掲載)}を用いて電子ファイルを識別する場合、電子ファイル「A001」及び電子ファイル「A002」が検出される。
本実施の形態では、この状態を回避するため、図7のステップS708で、コンテンツ識別子テーブル106に既に格納されているコンテンツ識別子を参照し、新たに追加する電子ファイルのコンテンツ識別子と、コンテンツ識別子テーブル106に既に格納されているコンテンツ識別子とが重複する場合に、コンテンツ識別子を更新する。
図9は、本発明の第1の実施の形態のコンテンツ識別子を更新する処理を示すフローチャートである。
まず、コンテンツ識別子付与サーバ102は、コンテンツ識別子テーブル106を参照し、図7のステップS707で新たに追加されたコンテンツ識別子502の一部と一致する他のコンテンツ識別子502(重複コンテンツ識別子)及び重複コンテンツ識別子の電子ファイルID501を抽出する(S1101)。前述した例では、新たにコンテンツ識別子{X社、製品A、(公序良俗違反につき、不掲載)、競合Y社}が追加された場合、コンテンツ識別子{X社、製品A、(公序良俗違反につき、不掲載)}及び電子ファイルID「A001」が抽出される。
次に、コンテンツ識別子付与サーバ102は、ステップS1101で抽出されたコンテンツ識別子を順に参照するカウンタ変数uを「0」に初期化する(S1102)。
次に、コンテンツ識別子付与サーバ102は、カウンタ変数uが変数Cより小さいか否かを判定する。ここで、変数Cは、ステップS1101で抽出されたコンテンツ識別子の数を示す。
カウンタ変数uが変数Cより小さい場合、処理はステップS1004に進む。一方、カウンタ変数uが変数C以上である場合、処理は終了する。
次に、コンテンツ識別子付与サーバ102は、u番目の重複コンテンツ識別子と対応する電子ファイルに含まれるトークンと、各トークンのDF308とを用いて、配列TOKEN[ ]にトークンを格納する(S1104)。ステップS1104は、図8のステップS804と同じ処理である。
前述した例では、まず、電子ファイル「A001」に含まれるコンテンツ識別子(「X社」、「製品A」、及び「(公序良俗違反につき、不掲載)」)のトークン番号307が、配列TOKEN[ ]に格納される。すなわち、TOKEN[0]には「X社」のトークン番号0、TOKEN[1]には「製品A」のトークン番号1、TOKEN[2]には「(公序良俗違反につき、不掲載)」のトークン番号4が格納される。次に、電子ファイル「A001」に含まれる他のトークンをDF308の昇順に並べ替え、並べ替えられた各トークンのトークン番号307がTOKEN[3]以降の配列に順に格納される。
次に、コンテンツ識別子付与サーバ102は、コンテンツ識別子に新たに追加されるトークンを探すために、配列TOKEN[ ]を順に参照するカウンタ変数jを初期化し、処理途中のトークン集合のDFを格納する変数mindfをUMAXINTに初期化する(S1105)。
なお、以降の処理で、既にコンテンツ識別子として決定されているトークン集合に追加する形でTOKEN[ ]を参照するため、カウンタ変数jの初期値には、u番目の重複コンテンツ識別子に含まれるトークンの数が格納される。前述した例では、コンテンツ識別子{X社、製品A、(公序良俗違反につき、不掲載)}には三つのトークンが含まれているため、カウンタ変数jに「3」が格納され、以降の処理ではTOKEN[3]に対する処理から開始する状態にカウンタ変数jが初期化される。
次に、コンテンツ識別子付与サーバ102は、ステップS1104で配列TOKEN[ ]に新たなトークンを追加する形でコンテンツ識別子を更新する(S1106)。なお、ステップS1106の処理は、図8のステップS806からステップS818の処理と同じである。前述した例では、トークン集合{X社、製品A、(公序良俗違反につき、不掲載)}に対して、TOKEN[3]、TOKEN[4]、…と順にトークンを追加し、DF=1になった時点で取得したトークン集合を新たなコンテンツ識別子とする。
次に、コンテンツ識別子付与サーバ102は、カウンタ変数uを1増やす(u=u+1)(S1107)。そして、処理はステップ1103に戻る。
以上、本発明の第1の実施の形態の説明である。
なお、本実施の形態では、図7のステップS706の処理で、一つの電子ファイルに、一つのコンテンツ識別子、すなわち、1組のトークン集合を付与しているが、図8のステップS804において、ランダムにトークンを選択してからステップS805からステップS818までの処理を繰り返すことによって、一つの電子ファイルに2個以上のコンテンツ識別子を付与してもよい。
このように、コンテンツ識別子を冗長に付与することによって、他のコンテンツ識別子と一致する可能性が低くなるため、図7のステップS708において、重複コンテンツ識別子を更新する処理量を減らすことが可能になる。また、コンテンツ識別子を冗長に付与するため、電子ファイルの耐性を向上させることができる。
本発明の第1の実施の形態では、電子ファイルに格納されるテキスト情報を用いて、電子ファイルを一意に定める識別子を付与することができる。
また、組織内を流通する電子ファイルを確実に把握し、組織内のシステム利用者が所持している電子ファイルを追跡することが可能になる。
また、本実施の形態は、情報漏えい防止を目的とした、Data Leakage Prevention(DLP)及びセキュリティ監視等の情報セキュリティ製品に応用することが可能である。
<実施形態2>
本発明の第2の実施の形態では、電子メールの送信時に、予め登録されている機密情報と比較し、電子メールの送信を制御することによって、機密情報の漏えいを防止する。
なお、説明の簡略化するために、以下に説明する第2の実施の形態は、前述した第1の実施の形態と同じ構成には同じ符号を付与し、説明を省略する。
まず、図10を参照し、第2の実施の形態のシステムの構成を説明する。
図10は、本発明の第2の実施の形態のシステムの構成を示すブロック図である。
図10に示すように、第2の実施の形態のシステムは、コンテンツ識別子付与サーバ908、クライアントPC901、メールサーバ902、及び機密文書管理サーバ903を備える。コンテンツ識別子付与サーバ908、クライアントPC901、メールサーバ902、及び機密文書管理サーバ903は、それぞれ通信ネットワーク104に接続される。なお、メールサーバ902は、外部ネットワーク907に接続される。
外部ネットワーク907は、例えば、拠点間を結ぶWAN、地域IP網、及びインターネット等である。
コンテンツ識別子付与サーバ908、クライアントPC901、メールサーバ902、及び機密文書管理サーバ903は、図2に示すハードウェアの構成と同じ構成を備える。
クライアントPC901は、メール送信部905を含む。メール送信部905は、電子ファイル等を電子メールに添付することによって送信する。なお、プログラム(図示省略)をメモリ203に読み出して実行することによって、メール送信部905が実現される。
メールサーバ902は、送信制御部906を含む。送信制御部906は、クライアントPC901から送信される電子メールを制御する。なお、プログラム(図示省略)をメモリ203に読み出して実行することによって、送信制御部906が実現される。
機密文書管理サーバ903は、機密情報判定部904及びコンテンツ識別子テーブル106を含む。
機密情報判定部904は、クライアントPC901から送信されるメールに含まれるデータが機密情報であるか否かを判定する。なお、プログラム(図示省略)をメモリ203に読み出して実行することによって、機密情報判定部904が実現される。
コンテンツ識別子テーブル106は、図1のコンテンツ識別子テーブル106と同じであるため、説明を省略する。
コンテンツ識別子付与サーバ908は、第1の実施の形態のコンテンツ識別子付与サーバ102と比較して、コンテンツ識別子テーブル106が省略される点が異なる。その他の構成は、図1に示すコンテンツ識別子付与サーバ102と同じ構成である。
図11は、本発明の第2の実施の形態の処理シーケンスの説明図である。
図11に示す処理は、各装置に備わるCPU201が、メモリ203に格納されているプログラムを実行することによって実行される。
まず、ステップS1001からステップS1005までの処理によって、事前に、機密文書管理サーバ903に機密情報が登録される。機密情報の登録処理は、システムの利用者が手作業で起動する、又は、機密文書が含まれた電子ファイルを格納する文書管理サーバ及びクライアントPC901から起動することによって実行される。
まず、機密文書管理サーバ903は、機密文書が格納されている電子ファイルを受信する(S1001)。
次に、機密文書管理サーバ903は、ステップS1001で受信した電子ファイルにコンテンツ識別子を付与するため、受信した電子ファイルをコンテンツ識別子付与サーバ908に送信する(S1002)。
次に、コンテンツ識別子付与サーバ908は、ステップS1002で受信した電子ファイルからコンテンツ識別子を生成する(S1003)。ステップS1003の処理は、前述した図7のステップS706と同じであり、すなわち、図8のステップS801からS818までの処理と同じである。
次に、コンテンツ識別子付与サーバ908は、ステップS1003で生成されたコンテンツ識別子を、機密文書管理サーバ903に送信する(S1004)。
次に、機密文書管理サーバ903は、ステップS1004で受信したコンテンツ識別子を、コンテンツ識別子テーブル106に格納する(S1005)。本実施の形態では、コンテンツ識別子テーブル106の電子ファイルID501に格納される値は、機密文書管理サーバ903が電子ファイルに割り当てる通し番号である。
次に、ステップS1006からS1013の処理によって、電子メール送信時の機密情報の判定処理を説明する。
まず、クライアントPC901は、電子メールをメールサーバ902に送信する(S1006)。電子メールの送信は、例えば、SMTP(Simple Mail Transfer Protcol)等の従来技術を用いることによって実現することができる。
次に、メールサーバ902の送信制御部906は、ステップS1006で受信した電子メールの送信の可否を判定するため、受信した電子メールをコンテンツ識別子付与サーバ908に転送する(S1007)。
次に、コンテンツ識別子付与サーバ908は、ステップS1007で受信した電子メールからトークンを抽出する(S1008)。ステップS1008の処理は、図8のステップS801からS803と同じである。なお、本実施の形態では、ステップS803の処理結果は、索引情報テーブル112には格納されずに、ステップS1009以降の処理で用いられる。また、電子メールからトークンを抽出する場所は、メールヘッダの件名、メール本文、及び添付ファイル等である。トークンを抽出する場所は、予めコンテンツ識別子付与サーバ908の管理者によって設定される。
また、ステップS1008で抽出されるトークンは、前述した形態素解析によって抽出されるトークンのうち、「名詞」のトークンのみであってもよい。また、形態素解析によって抽出されるトークンのうち、ランダムに選択されたトークンであってもよい。また、形態素解析によって抽出されるトークンのうち、DFが所定の値より大きいトークンのみであってもよい。
次に、コンテンツ識別子付与サーバ908は、ステップS1008で抽出されたトークンを、機密文書管理サーバ903に送信する(S1009)。
次に、機密文書管理サーバ903は、ステップS1009で受信したトークンと、コンテンツ識別子テーブル106とを比較し、ステップS1008でトークンが抽出された電子メールが機密情報を含むか否かを判定する(S1010)。具体的には、コンテンツ識別子テーブル106に格納されたコンテンツ識別子502を一つずつ取り出し、取り出されたコンテンツ識別子502に含まれるトークン集合が、ステップS1009で受信したトークンに含まれている場合には、「機密情報である」と判定する。いずれのコンテンツ識別子502も含まれていない場合には、「機密情報でない」と判定する。
次に、機密文書管理サーバ903は、コンテンツ識別子付与サーバ908にステップS1010の判定結果を送信する。コンテンツ識別子付与サーバ908は、受信した判定結果をメールサーバ902の送信制御部906に送信する(S1011)。
次に、メールサーバ902の送信制御部906は、ステップS1011で受信した判定結果が「機密情報でない」の場合には、ステップS1006で受信した電子メールを、電子メールが指定する宛先に送信する(S1012)。一方、判定結果が「機密情報である」の場合には、メールサーバ902の送信制御部906は、電子メールは送信を中止し、クライアントPC901に機密情報の判定結果を通知する(S1013)。
本発明の第2の実施の形態のシステムは、図11のステップS1003の処理によって、DFが「1」となるコンテンツ識別子を予め機密文書から抽出し、ステップS1010の機密情報の判定に用いることができる。また、コンテンツ識別子を用いることによって、機密情報が含まれる電子ファイルの名前が変更された場合でも、電子ファイルの内容から同一性を判断することが可能となる。また、DFが「1」のコンテンツ識別子を用いることによって、登録された機密情報の個数が大きい場合でも、一致する機密情報のみを判定することができるため、従来技術と比較して、クライアントPCに通知する誤判定を削減すること可能となる。
本発明の第2の実施の形態では、電子メールサーバにおいて、送信メールに付与された電子ファイルの識別子を、登録された機密情報格納電子ファイルと比較することによって、電子メールにおける機密情報の漏えいを防止することが可能となる。
本発明の第1の実施の形態のシステムの構成を示すブロック図である。 本発明の第1の実施の形態のコンテンツ識別子付与サーバのハードウェアの構成を示すブロック図である。 本発明の第1の実施の形態の索引情報テーブルの説明図である。 本発明の第1の実施の形態のDF格納テーブルの説明図である。 本発明の第1の実施の形態の電子ファイルの例を示す説明図である。 本発明の第1の実施の文書利用証跡テーブルの説明図である。 本発明の第1の実施の形態のコンテンツ識別子テーブルの説明図である。 本発明の第1の実施の形態の証跡解析部の出力データの説明図である。 本発明の第1の実施の形態の処理シーケンスの説明図である。 本発明の第1の実施の形態のコンテンツ識別子を生成する処理を示すフローチャートである。 本発明の第1の実施の形態のコンテンツ識別子を更新する処理を示すフローチャートである。 本発明の第2の実施の形態のシステムの構成を示すブロック図である。 本発明の第2の実施の形態の処理シーケンスの説明図である。
符号の説明
101 文書利用証跡管理サーバ
102 コンテンツ識別子付与サーバ
103 クライアントPC
104 通信ネットワーク
105 文書利用証跡テーブル
106 コンテンツ識別子テーブル
107 証跡解析部
108 テキスト抽出部
109 形態素解析部
110 索引情報取得部
111 コンテンツ識別子抽出部
112 索引情報テーブル
113 DF格納テーブル
901 クライアントPC
902 メールサーバ
903 機密文書管理サーバ
904 機密情報判定部
905 メール送信部
906 送信制御部
907 外部ネットワーク

Claims (9)

  1. ネットワークに接続されるインタフェースと、前記インタフェースに接続されるプロセッサと、前記プロセッサに接続されるメモリと、を備え、電子ファイルに格納されるデータに基づいて前記電子ファイルに識別子を付与する情報識別装置において、
    前記電子ファイルに含まれるテキストデータ中に単語が出現する頻度を算出し、
    前記算出された出現頻度に基づいて、前記電子ファイルを一意に特定可能な識別子を定め、
    前記定められた識別子を前記電子ファイルに付与することを特徴とする情報識別装置。
  2. 前記電子ファイルに含まれるデータから、テキストデータを抽出し、
    前記抽出されたテキストデータに含まれる単語を抽出し、
    前記抽出された単語が、前記テキストデータに出現する頻度を算出し、
    前記電子ファイルに含まれる単語を、前記索引情報に保持されている単語の出現頻度の昇順に並び替え、
    前記並び替えられた順に前記単語を選択し、
    前記選択された少なくとも一つの単語から単語集合を生成し、
    前記生成された単語集合が、他の電子ファイルに付与された識別子と一致するか否かによって、前記電子ファイルを一意に特定可能であるか否かを判定し、
    前記生成された単語集合が前記電子ファイルを一意に特定可能である場合、前記単語集合を識別子と定めることを特徴とする請求項1に記載の情報識別装置。
  3. 前記生成された単語集合が前記電子ファイルを一意に特定可能であるか否かを判定する場合に、
    前記生成された単語集合を含む前記電子ファイルの数を算出し、
    前記算出された電子ファイルの数が1であるか否かを判定し、
    前記算出された電子ファイルの数が1である場合、前記構成された単語集合を、前記電子ファイルを一意に特定可能な識別子とし、
    前記識別子に含まれる単語の部分集合と、他の電子ファイルに付与されている識別子とが一致するか否かを判定し、
    前記抽出された識別子に含まれる単語の部分集合と、前記他の電子ファイルに付与されている識別子とが一致する場合、前記他の電子ファイルに付与されている識別子に、前記他の電子ファイルのテキストデータに含まれる単語を追加することによって、前記他の電子ファイルに付与されている識別子を更新することを特徴とする請求項2に記載の情報識別装置。
  4. 前記電子ファイルを一意に特定可能な少なくとも一つの単語から構成される識別子を二つ以上抽出することを特徴とする請求項2に記載の情報識別装置。
  5. 前記定められた識別子を検索キーとして、複数の電子ファイルから、前記識別子と一致する電子ファイルの識別子を検索し、
    前記検索された識別子と、前記検索キーとして用いられた識別子とを対応させて出力することを特徴とする請求項1に記載の情報識別装置。
  6. 電子ファイルに格納されるデータに基づいて、前記電子ファイルに第1の識別子を付与する情報識別装置と、管理サーバと、を備える情報識別システムにおいて、
    前記情報識別装置は、
    ネットワークに接続されるインタフェースと、前記インタフェースに接続されるプロセッサと、前記プロセッサに接続されるメモリと、を備え、
    前記電子ファイルに含まれるテキストデータ中に単語が出現する頻度を算出し、
    前記算出された出現頻度に基づいて、前記電子ファイルを一意に特定可能な少なくとも一つの単語から構成される第1の識別子を定め、
    前記定められた第1の識別子を前記電子ファイルに付与し、
    前記管理サーバは、前記電子ファイルに付与された第1の識別子を保持することを特徴とする情報識別システム。
  7. 前記情報識別システムは、さらに、メールサーバを備え、
    前記情報識別装置は、
    送信が要求される電子メールに含まれる電子ファイルから単語を抽出し、
    前記抽出された単語を管理サーバに送信し、
    前記管理サーバは、
    前記受信した単語と前記保持されている第1の識別子とを比較し、
    前記比較結果を前記メールサーバに送信し、
    前記メールサーバは、前記抽出された単語と前記保持されている第1の識別子とが一致する場合、前記電子メールの送信を停止することを特徴とする請求項6に記載の情報識別システム。
  8. 前記メールサーバは、前記電子メールの送信を停止する場合に、前記電子メールの送信の要求元に前記電子メールの送信の停止を通知することを特徴とする請求項7に記載の情報識別システム。
  9. 前記電子ファイルには、前記情報識別システム内で一意に特定可能な第2の識別子が付与されることを特徴とする請求項6に記載の情報識別システム。
JP2008130588A 2008-05-19 2008-05-19 情報識別装置及び情報識別システム Pending JP2009277183A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008130588A JP2009277183A (ja) 2008-05-19 2008-05-19 情報識別装置及び情報識別システム
US12/379,716 US20090287654A1 (en) 2008-05-19 2009-02-27 Device for identifying electronic file based on assigned identifier

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008130588A JP2009277183A (ja) 2008-05-19 2008-05-19 情報識別装置及び情報識別システム

Publications (1)

Publication Number Publication Date
JP2009277183A true JP2009277183A (ja) 2009-11-26

Family

ID=41317103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008130588A Pending JP2009277183A (ja) 2008-05-19 2008-05-19 情報識別装置及び情報識別システム

Country Status (2)

Country Link
US (1) US20090287654A1 (ja)
JP (1) JP2009277183A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782084B2 (en) * 2009-03-31 2014-07-15 Mcafee, Inc. System, method, and computer program product for conditionally allowing access to data on a device based on a location of the device
US20120084868A1 (en) * 2010-09-30 2012-04-05 International Business Machines Corporation Locating documents for providing data leakage prevention within an information security management system
US8887291B1 (en) * 2013-03-01 2014-11-11 Symantec Corporation Systems and methods for data loss prevention for text fields
CN110855611B (zh) * 2019-10-10 2021-11-09 平安科技(深圳)有限公司 一种数据外发方法、装置以及相关设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
JP3597697B2 (ja) * 1998-03-20 2004-12-08 富士通株式会社 文書要約装置およびその方法
JP3791879B2 (ja) * 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
US6941513B2 (en) * 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
JP3600611B2 (ja) * 2002-12-12 2004-12-15 本田技研工業株式会社 情報処理装置および情報処理方法、並びに情報処理プログラム
US7765212B2 (en) * 2005-12-29 2010-07-27 Microsoft Corporation Automatic organization of documents through email clustering
US8990225B2 (en) * 2007-12-17 2015-03-24 Palo Alto Research Center Incorporated Outbound content filtering via automated inference detection
US7949654B2 (en) * 2008-03-31 2011-05-24 International Business Machines Corporation Supporting unified querying over autonomous unstructured and structured databases

Also Published As

Publication number Publication date
US20090287654A1 (en) 2009-11-19

Similar Documents

Publication Publication Date Title
JP2022527511A (ja) サイバーセキュリティ・イベントについての時間関係を推測すること
US8606795B2 (en) Frequency based keyword extraction method and system using a statistical measure
US11347891B2 (en) Detecting and obfuscating sensitive data in unstructured text
US11483319B2 (en) Security model
US20100017850A1 (en) Methods and systems to fingerprint textual information using word runs
KR101893090B1 (ko) 취약점 정보 관리 방법 및 그 장치
US20080027915A1 (en) Search query generator apparatus
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
US20190005120A1 (en) System for determination of automated response follow-up
US20170116330A1 (en) Generating Important Values from a Variety of Server Log Files
Alzhrani et al. Automated big text security classification
US20220309167A1 (en) Cluster security based on virtual machine content
US8386475B2 (en) Attribution analysis and correlation
JP2009277183A (ja) 情報識別装置及び情報識別システム
US20240095289A1 (en) Data enrichment systems and methods for abbreviated domain name classification
KR20170109404A (ko) IoT 서비스 상호 연동을 위한 온톨로지 관리 방법 및 시스템
Alhijawi et al. Text-based authorship identification-a survey
JP7492088B2 (ja) 重み付き知識移転装置、方法、及びシステム
KR102269652B1 (ko) 보안관제 데이터 분석을 위한 머신러닝 기반의 학습 벡터 생성 장치 및 방법
Alhindi et al. Data Loss Prevention using document semantic signature
KR20210024748A (ko) Gan을 이용한 문서형 악성코드 탐지 장치 및 방법
Vanamala Machine Learning Based Approach to Recommend Attack Patterns for Software Requirements Specifications
KR102640194B1 (ko) 딥러닝 분석으로 연관 키워드의 대표 단어를 치환하여문서의 현황 정보를 제공하는 방법
JP6131646B2 (ja) 検索システム、プログラム、記憶媒体及び検索方法
KR100479360B1 (ko) 명령어의 유효성 판단 방법 및 그 시스템