JP4824750B2

JP4824750B2 - 機密情報管理プログラム、方法及び装置

Info

Publication number: JP4824750B2
Application number: JP2008504927A
Authority: JP
Inventors: 太郎藤本; 文人西野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-03-10
Filing date: 2006-03-10
Publication date: 2011-11-30
Anticipated expiration: 2026-03-10
Also published as: WO2007105273A1; JPWO2007105273A1

Description

本発明は、企業や各種団体等の組織内の機密情報が外部に漏洩しないように管理する機密情報管理プログラム、方法及び装置に関し、特に、電子メール等の電子文書に機密情報が含まれるか否かリアルタイムで判定して情報セキュリティを図る機密情報管理プログラム、方法及び装置に関する。

従来、企業のイントラネット上のサーバやデータベースで管理している文書情報には、外部に漏洩してはならない機密情報を含む機密文書が多数存在しており、このような機密情報については、例えば機密文書を管理する専用の機密情報管理サーバとデータベースを配置し、機密文書を一元的に管理することで、機密情報のセキュリティを確立している。

このような機密文書の管理システムにあっては、機密文書毎に閲覧する権限を設定し、データベースの機密文書にアクセスした際に、ユーザＩＤとパスワードによる認証に加え、閲覧権限の有無をチェックし、閲覧権限を有する端末からのアクセスに対してのみ機密文書の利用を許可している。

しかしながら、企業内にあっては、必ずしもデータベースにアクセスしなくとも閲覧権限のない担当者が機密文書の内容を知ったり、閲覧権限のある担当者から機密文書を資料として入手することで知る機会がある。このため機密文書であることを意識せずに、機密文書そのものや、機密文書の中の一部の文書をメールに添付して外部に送るようなことがあり、専用サーバによる機密文書の一元管理だけでは十分なセキュリティを確保することが困難である。

そのため人的管理を通じて担当者に機密文書の管理意識を徹底させる努力を続けているが、機密文書に関連する機密情報の漏洩は完全に防止するには至っていない。

このため電子メールなど電子文書を外部に送信するネットワーク系統に、転送情報を抜き出して機密文書か否か判定する機密情報管理装置を配置し、電子メールの添付などで転送される情報に機密情報が含まれるか否か判定することが考えられる。

このように機密情報管理装置としては、専用のデータベースで管理している機密文書毎に機密文書の特徴を表すキーワードや文字パターンを抽出して辞書を作成し、転送文書と辞書の登録内容を照合して機密文書か否か判定している。
特開２００３−２８８３６６号公報Ｗ００４／０３４２８２

しかしながら、従来の辞書を使用した機密文書の判定にあっては、特定の機密文書につき抽出したキーワードや文字パターンの全てを含む文書を機密文書と判定しており、そのため適合率が低いという問題がある。

この問題を解決するためキーワードや文字パタンとの一致割合に閾値設け、閾値以上の一致割合をもつ文書を機密文書としているが、一般文書を機密文書と誤判定する比率が高くなる。判定精度を高めるためには人的な判断が必要となり、手間と工数がかかり、日常的に送受信される膨大な数のメールやファイルを判定対象とした機密文書の管理は運用が難しいという問題がある。

更に、機密文書そのものではなく、機密文書に含まれる一部の文書を含むファイルがメール添付されているような場合には、機械判定でも人手による判定でも発見することが困難な場合が多い。

このように従来システムでは、組織内の機密文書および同等の情報がネットワークを通して組織外に持ち出される際に、内容を全てチェックすることが困難であり、特に、本人が意図しないミスなどで持ち出される場合は防ぎようがなく、組織外に流出する文書全てを判定することで機密文書が出ていかないようにする必要があったが、精度と処理速度とも低いという問題がある。

本発明は、組織外に持ち出される電子的な機密文書の判定を高精度且つ高速に処理可能とする機密情報管理プログラム、方法及び装置を提供する。

（プログラム）
本発明は、コンピュータにより実行される機密情報管理プログラムを提供する。本発明の機密情報管理プログラムは，コンピュータに、
機密文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して判定対象文書か機密情報を含むか否か判定する機密情報判定ステップと、
を実行させることを特徴とする。

ここで、特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長ｎを、特徴抽出ステップにより文字列長を１文字ずつ増加させながら作成したハッシュテーブルを使用して機密情報判定ステップで機密文書を判定した際の、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長とする。

本発明の機密情報管理プログラムは、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを実行させ、
特徴情報抽出ステップは機密対照文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長ｎの文字列を切り出す。

特徴抽出ステップは、
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、
機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、
機密部分文書から頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、
機密部分文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録ステップと、
を備える。

機密情報判定ステップは、
判定対象文書を取得する文書取得ステップと、
判定対象文書に文書識別子を付与する識別子付与ステップと、
判定対象文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をハッシュテーブルのキーである登録文字列と照合し、照合一致の場合に対応する機密情報識別子を取得するテーブル照合ステップと、
テーブル照合ステップから１又は複数の機密文書識別子が取得された場合に判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、
を備える。

頻出表現抽出ステップは、
機密文書及び一般文書を収集する文書収集ステップと、
収集文書から文字列長を順次増加させながら各文字列長の文字列を切出す文字列切出しステップと、
各文字列長毎に出現頻度を検出する頻度検出ステップと、
各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、
頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、
候補除去ステップによる候補除去で残った候補を頻出表現として頻出表現テーブルに登録する登録ステップと、
を備える。

機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットワークにより転送する転送ファイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含む。

機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、判定対象文書の処理を禁止させる。

機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、機密文書の処理権限を確認して処理を許可する。

機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、管理者端末に判定結果を通知して許可応答を受けた場合、判定対象文書の処理を許可する。

（方法）
本発明は機密情報管理方法を提供する。本発明の機密情報管理方法は、
機密文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定ステップと、
を備えたことを特徴とする。

本発明の機密情報管理方法は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを備え、特徴情報抽出ステップは判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。

（装置）
本発明は、機密情報管理装置を提供する。本発明の機密情報管理装置は、
機密文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽部と、
判定対象文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定部と、
を備えたことを特徴とする。

本発明の機密情報管理装置は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を備え、特徴情報抽出部は判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。

本発明によれば、機密文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を特徴情報として切り出し、切り出した文字列をキーとしてハッシュテーブルに機密文書ＩＤを登録し、企業などの組織から外部に送ろうとしている文書につき、先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出してハッシュテーブルと照合してマッチングし、機密情報ＩＤが１つでも得られたら機密文書と機械的に判定し、送信禁止などの対応処理を実行することで、機密文書あるいは同等の情報が漏洩することを確実に防止する。

この場合、機密文書の特徴抽出及び機密情報の判定で文字列を切出すための一定文字列長ｎを、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率との関係が一致する文字列長またはその付近の文字列長に最適化することで、機密文書を高精度に判定することができる。

また機密情報の特徴情報である切り出し文字列をキーとして機密文書ＩＤをハッシュテーブルに登録して判定対象文書から切出した文字列との照合を行っているため、高速の比較照合が可能となり、組織外に出て行く全ての情報につき機密文書か否かの機械判定ができる。

また機密文書の特徴情報を登録するハッシュテーブルを生成する際に、機密文書に頻出するけれども文書の本質的な部分でなく、機密文書においても複製されても問題がない表現である頻出表現を除去しておくことで、機密情報の特徴とはならない不必要な切出し文字列をキーとした機密文書ＩＤの登録を回避し、機密情報の判定精度と処理速度を高めることができる。

本発明の機密情報管理装置の実施形態を示した機能構成のブロック図図１の実施形態の詳細な機能構成のブロック図本実施形態が適用されるコンピュータのハードウェア環境のブロック図本実施形態による機密情報管理の全体処理のフローチャート図４のステップＳ１における頻出表現抽出処理の詳細を示したフローチャート本実施形態による頻出表現抽出処理の処理内容の説明図図４のステップＳ２における機密情報特徴抽出処理の詳細を示したフローチャート本実施形態による機密情報特徴抽出処理の処理内容の説明図本実施形態で文字切出しの一定文字列長ｎを決定するための特性図本実施形態における一定文字列長ｎによる文字列切出し処理の説明図図４のステップＳ４における機密情報判定処理の詳細を示したフローチャート本実施形態による機密情報判定処理の処理内容の説明図

図１は本発明の機密情報管理装置の実施形態を示した機能構成のブロック図である。図１において、本実施形態の機密情報管理装置１０は、企業などの組織内のネットワーク２４に接続されており、頻出表現抽出部１２、機密情報特徴抽出部１４、機密情報判定部１６、頻出表現テーブル１８、ハッシュテーブル２０及び判定ログファイル２２を備えている。

本実施形態の機密情報管理装置１０を接続した組織内のネットワーク２４に対しては、機密文書管理サーバ２６を介して機密文書データベース２８が接続され、機密文書データベース２８で、組織内で取り扱っている全ての機密文書を保存管理している。もちろん、機密文書管理サーバ２６による集中管理によらず、他の複数のサーバに分散する分散的な機密文書であってもよい。

またネットワーク２４には組織内の担当者が使用する複数のクライアント３０−１〜３０−３が接続され、それぞれディスプレイ３２−１〜３２−３を備えている。またネットワーク２４には共用装置としてプリンタ３４が接続される。

更にネットワーク２４は、インターネットなどの外部のネットワーク４４を介して外部装置４６−１〜４６−４に接続される。内部のネットワーク２４から外部のネットワーク４４に対する出入口に相当する位置には、本実施形態にあっては、電子メールを集中的に処理するプロキシサーバ３６、ＦＴＰなどのファイル転送を行うゲートウェイサーバ３８、ファクシミリ電文の処理を行うファクシミリサーバ４０が設けられている。

更にネットワーク２４にはスキャンステーション４２が設置されている。スキャンステーション４２は企業の出入口などに設置されており、企業の担当者が携帯しているパーソナルコンピュータなどの携帯情報機器４５に保存されている電子的な文書に対するアクセスを可能としている。

機密情報管理装置１０の機密情報特徴抽出部１４は、機密文書データベース２８に保存している機密文書を対象に、機密文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を特徴情報として切り出し、各切出し文字列に対応する機密文書ＩＤを付与し、各切出し文字列をキーとしてハッシュテーブル２０に登録する。

機密情報判定部１６はネットワーク２４を経由して、判定要求のあった文書、例えばプロキシサーバ３６から外部に送信する電子メールの本文や添付ファイルを判定対象文書として取得し、判定対象文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出し、各切出し文字列をハッシュテーブル２０と照合し、判定対象文書が機密情報を含むか否か判定する。

頻出表現抽出部１２は、収集された機密文書及び一般文書を対象に、出現頻度の高い頻出表現を抽出して頻出表現テーブル１８に登録する。機密情報特徴抽出部１４において、判定対象文書から頻出表現テーブル１８に登録されている頻出表現を除去した後に、一定文字列長ｎの文字切出しに基づくハッシュテーブル２０の登録を行う。

このようにハッシュテーブル２０を作成する際に機密対象文書に含まれる頻繁に出現する出現頻度の高い頻出情報となる文字列、即ち機密文書に限らず一般文書において行われている一般的な言い回しや当然書かなければならない内容、例えば「このロゴは○○社の登録商標です」といったような表現につき、これを頻出表現として抽出し、機密文書を判定するに除外することで、機密文書の判定精度を高めるようにしている。

図２は図１の機密情報管理装置１０に設けている頻出表現抽出部１２、機密情報特徴抽出部１４及び機密情報判定部１６の詳細な機能構成のブロック図である。図２において、頻出表現抽出部１２は、文書収集部４８、文字列切出し部５０、頻度検出部５２、候補抽出部５４、包含候補除去部５６及びテーブル登録部５８で構成されている。

文書収集部４８は、企業内のネットワーク上から機密文書及び一般文書を収集する。文字列切出し部５０は、収集文書から文字列長を順次増加させながら各文字列長毎に文字列を切り出す。頻度検出部５２は、各文字列長毎に文字列の出現頻度を検出する。

候補抽出部５４は、各文字列長毎に決定した所定の閾値以上の出現頻度をもつ文字列を頻出表現候補として抽出する。包含候補除去部５６は、頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する。テーブル登録部５８は、包含候補除去部５６による候補除去で残った候補を頻出表現として頻出表現テーブル１８に登録する。

機密情報特徴抽出部１４には、部分文書切出し部６０、ＩＤ付与部６２、頻出表現除去部６４、文字列切出し部６６及びテーブル登録部６８が設けられる。部分文書切出し部６０は、特徴情報抽出のために準備された複数の機密文書からファイル単位などの意味的なまとまりを持つ機密部分文書を取り出す。

ＩＤ付与部６２は、部分文書切出し部６０で取り出された機密部分文書に対応する機密文書の機密文書ＩＤを付与する。頻出表現除去部６４は、機密部分文書から頻出表現テーブル１８に登録されている頻出表現を検出して除去する。

文字列切出し部６６は、機密部分文書の先頭から文字ずつずらしながら一定文字列長ｎの文字列を切り出す。例えば切出し対象となる機密部分文書の文字列長をｍとすると、一定文字列長ｎの文字列の切出しにより、（ｍ−ｎ）個の文字列が切り出されることになる。テーブル登録部６８は、全ての切出し文字列をキーとして、対応する機密文書ＩＤをハッシュテーブル２０に登録する。

機密情報判定部１６には、文書取得部７０、識別子付与部７２、文字列切出し部７４、照合部７６及び判定出力部７８が設けられる。文書取得部７０は、ネットワーク上の機器装置などから判定要求があった判定対象文書を取得する。識別子付与部７２は、判定対象文書に文書ＩＤを付与する。

文字列切出し部７４は、判定対象文書の先頭から１文字ずつずらしながら一定文字列長ｎの文字列を切り出す。照合部７６は、全ての切出し文字列をハッシュテーブル２０のキーである登録文字列と照合し、照合一致の場合に対応する機密文書ＩＤを取得する。判定出力部７８は、照合部７６から１または複数の機密文書ＩＤが取得された場合に、判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書ＩＤが取得されなかった場合には判定対象文書は機密文書を含まないことを示す判定結果を出力する。

判定出力部７８から機密文書の判定結果が得られた場合には、機密文書の判定結果に対応したセキュリティ対応処理が行われ、この機密文書に対するセキュリティ対応処理は原則的には機密文書に対するアクセスを一切禁止する処理となるが、処理を行っている端末の担当者が閲覧権限を有する場合には機密文書であってもその処理を許可する。また機密文書につき、機密文書を管理している管理端末に判定結果を通知し、管理者端末から許可応答を受けた場合にのみ機密文書に対するアクセスを許可するようにしてもよい。

図３は本実施形態が適用されるコンピュータのハードウェア環境のブロック図である。図３において、ＣＰＵ８０のバス８２に対しては、ＲＡＭ８４、ＲＯＭ８６、ハードディスクドライブ８８、キーボード９２，マウス９４，ディスプレイ９６を接続するデバイスインタフェース９０、及びネットワークアダプタ９８が設けられている。

ハードディスクドライブ８８には、本実施形態の機密情報管理装置１０としての機能を実現する機密情報管理プログラムが格納されており、コンピュータを起動した際のブートアップ後にＲＡＭ８４にＯＳを展開した状態で、ハードディスクドライブ８８からＲＡＭ８４に読み出され、ＣＰＵ８０により実行されることになる。

図４は本実施形態による機密情報管理の全体処理のフローチャートであり、図１を参照して説明すると次のようになる。図４において、機密情報管理処理は、まずステップＳ１で頻出表現抽出部１２による頻出表現抽出処理を実行し、抽出した頻出表現を頻出表現テーブル１８に格納する。

続いてステップＳ２で、機密情報特徴抽出部１４により機密情報特徴抽出処理が実行され、抽出された特徴情報、具体的には一定文字列長ｎの文字列をキーとして機密情報ＩＤをハッシュテーブル２０に登録する処理が行われる。

続いてステップＳ３で文書判定要求の有無をチェックしており、判定要求を受けるとステップＳ４に進み、機密情報判定部１６による判定処理を実行する。この判定結果につき、ステップＳ５で機密情報の判定を認識した場合には、ステップＳ７に進み、機密文書対応処理として例えば判定対象文書のアクセスを禁止する処理などを行う。ステップＳ５で機密情報でないことが判定された場合には、ステップＳ６で文書処理を許可することになる。

続いてステップＳ８で機密情報判定処理の処理結果を判定ログファイル２２に記録する。次にステップＳ９で機密情報の追加更新などがあることを判定した場合には、ステップＳ２に戻り、追加更新された機密文書を対象に機密情報特徴抽出処理を行ってハッシュテーブル２０を追加更新する。このようなステップＳ２〜Ｓ９の処理を、ステップＳ１０で停止指示があるまで繰り返すことになる。

図５は図４のステップＳ１の頻出表現抽出処理の詳細を示したフローチャートである。図５において、頻出表現抽出処理は、ステップＳ１で機密文書及び一般文書をネットワーク上から収集し、ステップＳ２で、収集した文書から例えば数十文字から数百文字程度の文字列長の単位で文字列を切り出す。

続いてステップＳ３で、切出し文字列を対象に文字列長を順次増加させた各文字列長ごとに出現頻度を求め、同時に出現頻度の判定閾値を決定する。次にステップＳ４で各文字列長ごとに閾値以上の頻度を持つ文字列を頻出表現候補として抽出する。続いてステップＳ５で、抽出された頻出表現候補の間で包含関係を調査し、包含される候補を除去する。最終的にステップＳ６で、包含される候補の除去により残った候補を頻出表現として頻出表現テーブル１８に登録する。

図６は本実施形態による頻出表現抽出処理の処理内容を具体的に示している。図６において、まず機密文書及び一般文書の文書収集処理１００が行われ、文書ファイル１０２に示すように、ファイルＩＤ、ファイル名及びファイルデータからなる複数文書が収集される。

次に、文書ファイル１０２の各文書を対象に数十文字から数百文字程度の範囲で文字列を切り出し、切り出した文字列を対象に各文字列長ごとに統計的な出現頻度を検出する頻度検出処理１０４を実行する。この頻度検出処理１０４により、ワークテーブル１０６−１に示すように、文字列１１２、文字列長１１４及び出現頻度１１６に示す内容が得られる。

次に頻出表現候補抽出処理１０８を実行する。頻出表現候補抽出処理１０８にあっては、ワークテーブル１０６−２に示すように、所定の閾値を超える出現頻度の文字列に対し、頻出表現候補１１８に示すように「１」をセットし、閾値未満の文字列については候補でないことを示す「０」をセットする。

次に包含候補除去処理１１０を実行し、ワークテーブル１０６−３のように包含関係１２０に、もし包含候補であった場合には「１」をセットし、包含関係がなければ「０」をセットする。この包含候補除去処理１１０により、ワークテーブル１０６−３の例えば文字列「□○△■」が頻出表現として抽出されて頻出表現テーブル１８に登録されることになる。

図７は図４のステップＳ２の機密情報特徴抽出処理の詳細を示したフローチャートである。図７において、機密情報特徴抽出処理は、ステップＳ１で機密文書群を読み込み、ステップＳ２で、機密文書群から例えば１つの意味的まとまりを持つ部分文書として、例えばファイル単位に文書を切り出す。

次にステップＳ３で切り出した文書に文書ＩＤを付与する。次にステップＳ４で図５の頻出情報抽出処理で得られている頻出表現テーブル１８の登録内容に基づき、頻出表現を機密文書から除去する。続いてステップＳ５で、機密文書につき先頭から１文字ずつずらしながら一定文字列長ｎで文字切出しを行う。

続いてステップＳ６で、切り出した全ての文字列をキーとして文書ＩＤをハッシュテーブル２０に登録する。このようなステップＳ２〜Ｓ６の処理を、ステップＳ７でファイル単位の切出しが終了するまで繰り返す。

図８は本実施形態による機密情報抽出処理の処理内容に説明図である。図８において、複数の文書情報１２２−１〜１２２−３を読み込んだ後、切り出し処理１２４により例えばファイル単位に機密文書を切り出す。続いて文書ＩＤ付与処理１２６により、切り出した機密文書に対し、切出し元の切出し文書に設定されている機密文書ＩＤを付与する。これにより、文書ファイル１２８に示すようにファイルＩＤとファイル名が付与されたファイルデータが作成される。

次にテキスト情報抽出処理１３０により、文書ファイル１２８の特定のファイルを取り出して、その中からテキスト情報を抽出する。次に頻出表現除去処理１３０により頻出情報テーブル１８に登録されている頻出表現をテキスト情報から除去する。続いて一定文字列切り出し処理１３４を実行し、一定文字列長ｎの文字列をテキスト文書の先頭から１文字ずつずらしながら切り出す。最終的に、ハッシュ登録処理１３６により全文字列をキーとして機密文書ＩＤをハッシュテーブル２０に登録する。

ここで、本実施形態の機密情報特徴抽出処理で機密文書から文字列を切り出すための一定文字列長ｎの最適値について説明する。図９は本実施形態で機密文書の特徴抽出のための文字列切出しを行う一定文字列長ｎを決定するための特性図である。

図９において、横軸は機密文書の判定に使用する文字列長であり、１文字から文書サイズで決まる最大文字数までの値をとる。縦軸はパーセント表示となる。特性曲線１３８は文字列長を１文字から順次増加させていったときの機密文書発見率であり、文字列長が増加するに従って機密文書発見率は減少する特性となる。

特性曲線１４０は、文字列長の変化に対し判定した機密文書の中の文字列の一致割合であり、文字列長が増加するほど、発見した機密文書中における文字列長の一致する割合は増大する。究極的には、機密文書の全文字列を文字列長とした場合には特性曲線１４０の値は１００％、即ち機密文書と文字列長は完全に一致することになる。

このような機密文書発見率の特性曲線１３８と、発見した機密文書における一致文字列長の一致率の特性曲線１４０につき、両者が交差する交点１４２の文字列長ｎを、本実施形態にあっては最適な文字列切出しのための文字列長としている。

日本語文書の場合、図９の特性曲線１３８，１４０の交点１４２で与えられる文字列長ｎはｎ＝２０文字であることが、本願発明者らの考察を通じて取得されている。この最適文字列長ｎ＝２０文字は日本語の場合であるが、英語や他の言語にあっても同様な手法により、図９の交点１４２の一致文字列長ｎを求めることで、２０文字の前後の値が得られる。

図１０は本実施形態における一定文字列長ｎによる文字列切出し処理の説明図である。図１０において、切出し対象となるファイル文字列１５０に対し、図９により決定した文字列長ｎの一定文字列を、ファイル文字列１５０の先頭から１文字ずつずらしながら、文字列１５２−１，１５２−２，１５２−３，・・・のように、一定文字列ｎの末尾がファイル文字列１５０の最後に達するまで切り出す。この文字列切出しは、ファイル文字列１５０の文字数をｍとすると（ｍ−ｎ）個の文字列が切り出されることになる。

図１１は図４のステップＳ４の機密情報判定処理の詳細を示したフローチャートである。図１１において、機密情報判定処理は、ステップＳ１で要求のあった判定対象文書を読み込み、ステップＳ２で文書ＩＤを付与した後、ステップＳ３で判定対象文書からテキスト情報を抽出する。

続いてステップＳ４で、テキスト情報の先頭から１文字ずつずらしながら、一定文字列長ｎで文字列の切出しを行う。次にステップＳ５で、切り出した全ての文字列によりハッシュテーブル２０を検索して、マッチングした機密文書ＩＤを取得する。

ステップＳ６で機密文書ＩＤの取得を判別すると、ステップＳ７で重複する機密文書ＩＤを１つにまとめるマージ処理を行った後、ステップＳ８で機密文書ＩＤを判定結果にセットして出力する。ステップＳ６で機密文書ＩＤの取得がなければ、ステップＳ９で機密文書該当なしの判定結果をセットして出力する。

図１２は本実施形態による機密情報判定処理の処理内容の説明図である。図１２にあっては、判定対象文書として電子メール１５４を対象文書取得処理１５６により取得した場合であり、取得した電子メール１５４に文書ＩＤ付与処理１５８により文書ＩＤを付与し、メールファイル１６０を作成する。

このメールファイル１６０のメールデータを対象に、テキスト情報抽出処理１６２によりテキスト情報を抽出する。テキスト情報はメール本文及びメールの添付ファイルから抽出されることになる。

次に一定文字列長切出し処理１６４により、テキスト情報の先頭から１文字ずつずらしながら、一定文字列長ｎで文字列を切り出す。次にハッシュ検索処理１６６によりハッシュテーブル２０を全切出し文字により検索し、マッチングした登録文字列に対応した機密文書ＩＤを取得する。

ワークテーブル１６８はハッシュ検索処理の処理結果であり、文字列１７０、文字列長１７２に対応して検索された機密文書のファイルＩＤ１７４が格納されている。次に重複ＩＤマージ処理１７６を実行し、判定結果出力処理１７８により判定出力ファイル１８０に示すように、検索された複数の機密文書ＩＤを出力し、この場合には処理要求のあった電子メール１５４が機密文書を含んでいることの判定結果が出力されることになる。

次に本実施形態の機密情報判定部１６で対象文書から機密情報を判定した場合のセキュリティ対応処理を説明する。図１に示したように、本実施形態の機密情報管理装置１０に設けた機密情報判定部１６は、内部のネットワーク２４に接続しているクライアント３０−１〜３０−３で処理する文書、プロキシサーバ３６で外部に送信する電子メール、ゲートウェイサーバ３８で外部に転送するＦＴＰファイルなどの転送ファイル、ファクシミリサーバ４０で送信するファクシミリファイル、スキャンステーション４２で検出する携帯情報機器４５の文書ファイル、更にネットワーク２４に接続されているプリンタ３４に対する印刷文書ファイル等を、機密情報の判定対象としている。

更にクライアント３０−１〜３０−３にあっては、機密文書を担当者がディスプレイ３２−１〜３２−３に表示する際に、機密情報判定部１６に判定要求を行い、判定結果に基づいた機密文書の表示の有無が制御されることになる。

機密情報判定部１６で判定対象文書に機密情報が含まれることが判定された場合、判定要求元におけるアクセスや出力処理は全て禁止することが原則となる。しかしながら、機密文書については、機密文書に対しアクセスの権限のある担当者が利用する場合もあることから、機密情報と判定した場合には送信元に閲覧権限があるか否か判定し、閲覧権限があれば機密文書であってもアクセスを許可する。

また機密文書については、その利用を管理者が管理している場合があり、閲覧権限がなかった場合に、管理者端末に機密文書の判定結果を通知し、管理者端末からの許可応答を待って、機密文書を含む文書のアクセスを許可するようにしてもよい。

また機密情報判定部１６で判定された対象ファイルの機密情報を含むことの判定結果は全て判定ログファイル２２に記録されており、機密情報の漏洩問題などが発生した場合に、漏洩経路を後から探索することができるようにしている。

本実施形態における機密情報判定部１６は、企業内から外部に機密情報が無断もしくは不注意に持ち出されることを阻止するものであるが、外部装置４６−１〜４６−４との間で機密情報をやり取りするような場合にも、送受信される文書ファイルから機密情報を判定してセキュリティを管理することができる。

例えば本実施形態の機密情報管理装置１０を設置している企業と機密情報開示先である例えば個人事業者間に設けている外部装置４６−１との間の送受信される文書ファイルにつき、機密情報判定部１６で機密情報を判定した場合、機密情報の送信記録と受信記録を作成して照合しながら文書管理を行い、外部装置４６−１から受信したメール文書についても機密情報判定部１６で判定処理を行い、もし機密情報が含まれていたような場合には、外部装置４６−１を取り扱っている事業者に対し機密情報が誤って流出していることを通知して対応を促すことが可能となる。

また図１の機密情報をやり取りする外部装置４６−１側にも本実施形態の機密情報管理装置１０における対象となる機密文書について特定的に作成されたハッシュテーブル２０と機密情報判定部１６及び判定ログファイル２２を組み込んでおくことで、送信元及び送信先のそれぞれで機密情報のやり取りにつき機密文書ＩＤを判定して記録しておき、送信した機密情報ＩＤと受信した機密情報ＩＤをリアルタイムで照合することで全ての機密情報が正しく送受信され、送受信漏れによる機密情報の漏洩がないことを確認するセキュリティ管理が可能となる。

本実施形態は更にコンピュータで実行される機密情報管理プログラムを提供するものであり、本実施形態の機密情報管理プログラムは、図４、図５、図７、図１１のフローチャートに示した処理内容を持つことになる。

また本発明は機密情報管理処理プログラムを記録したコンピュータ可読の記録媒体を提供するものであり、この記録媒体はＣＤ−ＲＯＭ、フロッピィ（Ｒ）ディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの可搬型記憶媒体や、コンピュータシステムの内外に備えられたハードディスクなどの記憶装置の他、回線を介してプログラムを保持するデータベース、あるいは他のコンピュータシステム並びにそのデータベース、更には回線上の伝送媒体を含むものである。

また上記の実施形態は、機密情報特徴抽出部及び機密情報判定処理における文字列の切出しに図９の特性関係から設定した一定文字列長ｎの文字列を切り出す場合を例にとっているが、この文字列の切出しは最適な一定文字列長ｎに加え、１文字多い（ｎ＋１）または１文字少ない（ｎ−１）のそれぞれにつき文字列切出しを行ってハッシュテーブル２０を作成し、この場合には機密情報判定処理につき、一定文字列長ｎ，（ｎ＋１），（ｎ−１）の順番で機密ＩＤを検索するまで処理を繰り返すことで、更に機密情報の判定精度を高めることができる。

また本発明は、その目的と利点を損なうことのない適宜の変形を含み、上記の実施形態に示した数値による限定は受けない。

Claims

コンピュータを、
機密文書の先頭から１文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
判定対象文書の先頭から１文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定部と、
して機能させるための機密文書管理プログラムであって、
前記特徴情報抽出部及び機密情報判定部が文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を１文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理プログラム。
請求項１記載の機密文書管理プログラムに於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部としてコンピュータを機能させ、
前記特徴情報抽出部は機密文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理プログラム。
請求項２記載の機密文書管理プログラムに於いて、前記特徴抽出部は、
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出し処理と、
前記機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与処理と、
前記機密部分文書から前記頻出表現テーブルの頻出表現を除去する頻出表現除去処理と、
前記機密部分文書の先頭から１文字ずつずらしながら一定文字列長の文字列を切り出す文字列切出し処理と、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録処理と、
を実行することを特徴とする機密文書管理プログラム。
請求項１記載の機密文書管理プログラムに於いて、
前記機密情報判定部は、
判定対象文書を取得する文書取得処理と、
前記判定対象文書に文書識別子を付与する識別子付与処理と、
前記判定対象文書の先頭から１文字ずつずらしながら前記一定文字列長の文字列を切り出す文字列切出し処理と、
全ての切出し文字列を前記ハッシュテーブルのキーである登録文字列と照合し，照合一致の場合に対応する機密文書識別子を取得するテーブル照合処理と、
前記テーブル照合ステップから１又は複数の機密文書識別子が取得された場合に前記判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に前記判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力処理と、
を実行することを特徴とする機密文書管理プログラム。
コンピュータを、
機密文書の先頭から１文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
判定対象文書の先頭から１文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定部と、
して機能させるための機密文書管理方法であって、
前記特徴情報抽出部及び機密情報判定部が文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を１文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理方法。
請求項５記載の機密文書管理方法に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部としてコンピュータを機能させ、
前記特徴情報抽出部は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理方法。
機密文書の先頭から１文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
判定対象文書の先頭から１文字ずつずらしながら前記一定文字列長の同じ文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定部と、
を備え、
前記特徴情報抽出部及び機密情報判定部で文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を１文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理装置。
請求項７記載の機密文書管理装置に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を設け、
前記特徴情報抽出部は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理装置。