JP4824750B2 - 機密情報管理プログラム、方法及び装置 - Google Patents

機密情報管理プログラム、方法及び装置 Download PDF

Info

Publication number
JP4824750B2
JP4824750B2 JP2008504927A JP2008504927A JP4824750B2 JP 4824750 B2 JP4824750 B2 JP 4824750B2 JP 2008504927 A JP2008504927 A JP 2008504927A JP 2008504927 A JP2008504927 A JP 2008504927A JP 4824750 B2 JP4824750 B2 JP 4824750B2
Authority
JP
Japan
Prior art keywords
character string
confidential
document
character
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008504927A
Other languages
English (en)
Other versions
JPWO2007105273A1 (ja
Inventor
太郎 藤本
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007105273A1 publication Critical patent/JPWO2007105273A1/ja
Application granted granted Critical
Publication of JP4824750B2 publication Critical patent/JP4824750B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、企業や各種団体等の組織内の機密情報が外部に漏洩しないように管理する機密情報管理プログラム、方法及び装置に関し、特に、電子メール等の電子文書に機密情報が含まれるか否かリアルタイムで判定して情報セキュリティを図る機密情報管理プログラム、方法及び装置に関する。
従来、企業のイントラネット上のサーバやデータベースで管理している文書情報には、外部に漏洩してはならない機密情報を含む機密文書が多数存在しており、このような機密情報については、例えば機密文書を管理する専用の機密情報管理サーバとデータベースを配置し、機密文書を一元的に管理することで、機密情報のセキュリティを確立している。
このような機密文書の管理システムにあっては、機密文書毎に閲覧する権限を設定し、データベースの機密文書にアクセスした際に、ユーザIDとパスワードによる認証に加え、閲覧権限の有無をチェックし、閲覧権限を有する端末からのアクセスに対してのみ機密文書の利用を許可している。
しかしながら、企業内にあっては、必ずしもデータベースにアクセスしなくとも閲覧権限のない担当者が機密文書の内容を知ったり、閲覧権限のある担当者から機密文書を資料として入手することで知る機会がある。このため機密文書であることを意識せずに、機密文書そのものや、機密文書の中の一部の文書をメールに添付して外部に送るようなことがあり、専用サーバによる機密文書の一元管理だけでは十分なセキュリティを確保することが困難である。
そのため人的管理を通じて担当者に機密文書の管理意識を徹底させる努力を続けているが、機密文書に関連する機密情報の漏洩は完全に防止するには至っていない。
このため電子メールなど電子文書を外部に送信するネットワーク系統に、転送情報を抜き出して機密文書か否か判定する機密情報管理装置を配置し、電子メールの添付などで転送される情報に機密情報が含まれるか否か判定することが考えられる。
このように機密情報管理装置としては、専用のデータベースで管理している機密文書毎に機密文書の特徴を表すキーワードや文字パターンを抽出して辞書を作成し、転送文書と辞書の登録内容を照合して機密文書か否か判定している。
特開2003−288366号公報 W004/034282
しかしながら、従来の辞書を使用した機密文書の判定にあっては、特定の機密文書につき抽出したキーワードや文字パターンの全てを含む文書を機密文書と判定しており、そのため適合率が低いという問題がある。
この問題を解決するためキーワードや文字パタンとの一致割合に閾値設け、閾値以上の一致割合をもつ文書を機密文書としているが、一般文書を機密文書と誤判定する比率が高くなる。判定精度を高めるためには人的な判断が必要となり、手間と工数がかかり、日常的に送受信される膨大な数のメールやファイルを判定対象とした機密文書の管理は運用が難しいという問題がある。
更に、機密文書そのものではなく、機密文書に含まれる一部の文書を含むファイルがメール添付されているような場合には、機械判定でも人手による判定でも発見することが困難な場合が多い。
このように従来システムでは、組織内の機密文書および同等の情報がネットワークを通して組織外に持ち出される際に、内容を全てチェックすることが困難であり、特に、本人が意図しないミスなどで持ち出される場合は防ぎようがなく、組織外に流出する文書全てを判定することで機密文書が出ていかないようにする必要があったが、精度と処理速度とも低いという問題がある。
本発明は、組織外に持ち出される電子的な機密文書の判定を高精度且つ高速に処理可能とする機密情報管理プログラム、方法及び装置を提供する。
(プログラム)
本発明は、コンピュータにより実行される機密情報管理プログラムを提供する。本発明の機密情報管理プログラムは,コンピュータに、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して判定対象文書か機密情報を含むか否か判定する機密情報判定ステップと、
を実行させることを特徴とする。
ここで、特徴情報抽出ステップ及び機密情報判定ステップで文字列を切出すための一定文字列長nを、特徴抽出ステップにより文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して機密情報判定ステップで機密文書を判定した際の、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長とする。
本発明の機密情報管理プログラムは、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを実行させ、
特徴情報抽出ステップは機密対照文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長nの文字列を切り出す。
特徴抽出ステップは、
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、
機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、
機密部分文書から頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、
機密部分文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録ステップと、
を備える。
機密情報判定ステップは、
判定対象文書を取得する文書取得ステップと、
判定対象文書に文書識別子を付与する識別子付与ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をハッシュテーブルのキーである登録文字列と照合し、照合一致の場合に対応する機密情報識別子を取得するテーブル照合ステップと、
テーブル照合ステップから1又は複数の機密文書識別子が取得された場合に判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、
を備える。
頻出表現抽出ステップは、
機密文書及び一般文書を収集する文書収集ステップと、
収集文書から文字列長を順次増加させながら各文字列長の文字列を切出す文字列切出しステップと、
各文字列長毎に出現頻度を検出する頻度検出ステップと、
各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、
頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、
候補除去ステップによる候補除去で残った候補を頻出表現として頻出表現テーブルに登録する登録ステップと、
を備える。
機密情報判定ステップの判定対象文書は、電子メールの本文と添付文書、ネットワークにより転送する転送ファイル文書、表示デバイスに転送して表示する表示文書、プリンタに転送して印刷する印刷文書、及び情報機器のメモリに保存した文書を含む。
機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、判定対象文書の処理を禁止させる。
機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、機密文書の処理権限を確認して処理を許可する。
機密情報判定ステップは、判定対象文書が機密情報を含むことを判定した場合、管理者端末に判定結果を通知して許可応答を受けた場合、判定対象文書の処理を許可する。
(方法)
本発明は機密情報管理方法を提供する。本発明の機密情報管理方法は、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定ステップと、
を備えたことを特徴とする。
本発明の機密情報管理方法は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出ステップを備え、特徴情報抽出ステップは判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。
(装置)
本発明は、機密情報管理装置を提供する。本発明の機密情報管理装置は、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽部と、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定部と、
を備えたことを特徴とする。
本発明の機密情報管理装置は、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を備え、特徴情報抽出部は判定対象文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出す。
本発明によれば、機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、切り出した文字列をキーとしてハッシュテーブルに機密文書IDを登録し、企業などの組織から外部に送ろうとしている文書につき、先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出してハッシュテーブルと照合してマッチングし、機密情報IDが1つでも得られたら機密文書と機械的に判定し、送信禁止などの対応処理を実行することで、機密文書あるいは同等の情報が漏洩することを確実に防止する。
この場合、機密文書の特徴抽出及び機密情報の判定で文字列を切出すための一定文字列長nを、文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率との関係が一致する文字列長またはその付近の文字列長に最適化することで、機密文書を高精度に判定することができる。
また機密情報の特徴情報である切り出し文字列をキーとして機密文書IDをハッシュテーブルに登録して判定対象文書から切出した文字列との照合を行っているため、高速の比較照合が可能となり、組織外に出て行く全ての情報につき機密文書か否かの機械判定ができる。
また機密文書の特徴情報を登録するハッシュテーブルを生成する際に、機密文書に頻出するけれども文書の本質的な部分でなく、機密文書においても複製されても問題がない表現である頻出表現を除去しておくことで、機密情報の特徴とはならない不必要な切出し文字列をキーとした機密文書IDの登録を回避し、機密情報の判定精度と処理速度を高めることができる。
本発明の機密情報管理装置の実施形態を示した機能構成のブロック図 図1の実施形態の詳細な機能構成のブロック図 本実施形態が適用されるコンピュータのハードウェア環境のブロック図 本実施形態による機密情報管理の全体処理のフローチャート 図4のステップS1における頻出表現抽出処理の詳細を示したフローチャート 本実施形態による頻出表現抽出処理の処理内容の説明図 図4のステップS2における機密情報特徴抽出処理の詳細を示したフローチャート 本実施形態による機密情報特徴抽出処理の処理内容の説明図 本実施形態で文字切出しの一定文字列長nを決定するための特性図 本実施形態における一定文字列長nによる文字列切出し処理の説明図 図4のステップS4における機密情報判定処理の詳細を示したフローチャート 本実施形態による機密情報判定処理の処理内容の説明図
図1は本発明の機密情報管理装置の実施形態を示した機能構成のブロック図である。図1において、本実施形態の機密情報管理装置10は、企業などの組織内のネットワーク24に接続されており、頻出表現抽出部12、機密情報特徴抽出部14、機密情報判定部16、頻出表現テーブル18、ハッシュテーブル20及び判定ログファイル22を備えている。
本実施形態の機密情報管理装置10を接続した組織内のネットワーク24に対しては、機密文書管理サーバ26を介して機密文書データベース28が接続され、機密文書データベース28で、組織内で取り扱っている全ての機密文書を保存管理している。もちろん、機密文書管理サーバ26による集中管理によらず、他の複数のサーバに分散する分散的な機密文書であってもよい。
またネットワーク24には組織内の担当者が使用する複数のクライアント30−1〜30−3が接続され、それぞれディスプレイ32−1〜32−3を備えている。またネットワーク24には共用装置としてプリンタ34が接続される。
更にネットワーク24は、インターネットなどの外部のネットワーク44を介して外部装置46−1〜46−4に接続される。内部のネットワーク24から外部のネットワーク44に対する出入口に相当する位置には、本実施形態にあっては、電子メールを集中的に処理するプロキシサーバ36、FTPなどのファイル転送を行うゲートウェイサーバ38、ファクシミリ電文の処理を行うファクシミリサーバ40が設けられている。
更にネットワーク24にはスキャンステーション42が設置されている。スキャンステーション42は企業の出入口などに設置されており、企業の担当者が携帯しているパーソナルコンピュータなどの携帯情報機器45に保存されている電子的な文書に対するアクセスを可能としている。
機密情報管理装置10の機密情報特徴抽出部14は、機密文書データベース28に保存している機密文書を対象に、機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切出し文字列に対応する機密文書IDを付与し、各切出し文字列をキーとしてハッシュテーブル20に登録する。
機密情報判定部16はネットワーク24を経由して、判定要求のあった文書、例えばプロキシサーバ36から外部に送信する電子メールの本文や添付ファイルを判定対象文書として取得し、判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切出し文字列をハッシュテーブル20と照合し、判定対象文書が機密情報を含むか否か判定する。
頻出表現抽出部12は、収集された機密文書及び一般文書を対象に、出現頻度の高い頻出表現を抽出して頻出表現テーブル18に登録する。機密情報特徴抽出部14において、判定対象文書から頻出表現テーブル18に登録されている頻出表現を除去した後に、一定文字列長nの文字切出しに基づくハッシュテーブル20の登録を行う。
このようにハッシュテーブル20を作成する際に機密対象文書に含まれる頻繁に出現する出現頻度の高い頻出情報となる文字列、即ち機密文書に限らず一般文書において行われている一般的な言い回しや当然書かなければならない内容、例えば「このロゴは○○社の登録商標です」といったような表現につき、これを頻出表現として抽出し、機密文書を判定するに除外することで、機密文書の判定精度を高めるようにしている。
図2は図1の機密情報管理装置10に設けている頻出表現抽出部12、機密情報特徴抽出部14及び機密情報判定部16の詳細な機能構成のブロック図である。図2において、頻出表現抽出部12は、文書収集部48、文字列切出し部50、頻度検出部52、候補抽出部54、包含候補除去部56及びテーブル登録部58で構成されている。
文書収集部48は、企業内のネットワーク上から機密文書及び一般文書を収集する。文字列切出し部50は、収集文書から文字列長を順次増加させながら各文字列長毎に文字列を切り出す。頻度検出部52は、各文字列長毎に文字列の出現頻度を検出する。
候補抽出部54は、各文字列長毎に決定した所定の閾値以上の出現頻度をもつ文字列を頻出表現候補として抽出する。包含候補除去部56は、頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する。テーブル登録部58は、包含候補除去部56による候補除去で残った候補を頻出表現として頻出表現テーブル18に登録する。
機密情報特徴抽出部14には、部分文書切出し部60、ID付与部62、頻出表現除去部64、文字列切出し部66及びテーブル登録部68が設けられる。部分文書切出し部60は、特徴情報抽出のために準備された複数の機密文書からファイル単位などの意味的なまとまりを持つ機密部分文書を取り出す。
ID付与部62は、部分文書切出し部60で取り出された機密部分文書に対応する機密文書の機密文書IDを付与する。頻出表現除去部64は、機密部分文書から頻出表現テーブル18に登録されている頻出表現を検出して除去する。
文字列切出し部66は、機密部分文書の先頭から文字ずつずらしながら一定文字列長nの文字列を切り出す。例えば切出し対象となる機密部分文書の文字列長をmとすると、一定文字列長nの文字列の切出しにより、(m−n)個の文字列が切り出されることになる。テーブル登録部68は、全ての切出し文字列をキーとして、対応する機密文書IDをハッシュテーブル20に登録する。
機密情報判定部16には、文書取得部70、識別子付与部72、文字列切出し部74、照合部76及び判定出力部78が設けられる。文書取得部70は、ネットワーク上の機器装置などから判定要求があった判定対象文書を取得する。識別子付与部72は、判定対象文書に文書IDを付与する。
文字列切出し部74は、判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す。照合部76は、全ての切出し文字列をハッシュテーブル20のキーである登録文字列と照合し、照合一致の場合に対応する機密文書IDを取得する。判定出力部78は、照合部76から1または複数の機密文書IDが取得された場合に、判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書IDが取得されなかった場合には判定対象文書は機密文書を含まないことを示す判定結果を出力する。
判定出力部78から機密文書の判定結果が得られた場合には、機密文書の判定結果に対応したセキュリティ対応処理が行われ、この機密文書に対するセキュリティ対応処理は原則的には機密文書に対するアクセスを一切禁止する処理となるが、処理を行っている端末の担当者が閲覧権限を有する場合には機密文書であってもその処理を許可する。また機密文書につき、機密文書を管理している管理端末に判定結果を通知し、管理者端末から許可応答を受けた場合にのみ機密文書に対するアクセスを許可するようにしてもよい。
図3は本実施形態が適用されるコンピュータのハードウェア環境のブロック図である。図3において、CPU80のバス82に対しては、RAM84、ROM86、ハードディスクドライブ88、キーボード92,マウス94,ディスプレイ96を接続するデバイスインタフェース90、及びネットワークアダプタ98が設けられている。
ハードディスクドライブ88には、本実施形態の機密情報管理装置10としての機能を実現する機密情報管理プログラムが格納されており、コンピュータを起動した際のブートアップ後にRAM84にOSを展開した状態で、ハードディスクドライブ88からRAM84に読み出され、CPU80により実行されることになる。
図4は本実施形態による機密情報管理の全体処理のフローチャートであり、図1を参照して説明すると次のようになる。図4において、機密情報管理処理は、まずステップS1で頻出表現抽出部12による頻出表現抽出処理を実行し、抽出した頻出表現を頻出表現テーブル18に格納する。
続いてステップS2で、機密情報特徴抽出部14により機密情報特徴抽出処理が実行され、抽出された特徴情報、具体的には一定文字列長nの文字列をキーとして機密情報IDをハッシュテーブル20に登録する処理が行われる。
続いてステップS3で文書判定要求の有無をチェックしており、判定要求を受けるとステップS4に進み、機密情報判定部16による判定処理を実行する。この判定結果につき、ステップS5で機密情報の判定を認識した場合には、ステップS7に進み、機密文書対応処理として例えば判定対象文書のアクセスを禁止する処理などを行う。ステップS5で機密情報でないことが判定された場合には、ステップS6で文書処理を許可することになる。
続いてステップS8で機密情報判定処理の処理結果を判定ログファイル22に記録する。次にステップS9で機密情報の追加更新などがあることを判定した場合には、ステップS2に戻り、追加更新された機密文書を対象に機密情報特徴抽出処理を行ってハッシュテーブル20を追加更新する。このようなステップS2〜S9の処理を、ステップS10で停止指示があるまで繰り返すことになる。
図5は図4のステップS1の頻出表現抽出処理の詳細を示したフローチャートである。図5において、頻出表現抽出処理は、ステップS1で機密文書及び一般文書をネットワーク上から収集し、ステップS2で、収集した文書から例えば数十文字から数百文字程度の文字列長の単位で文字列を切り出す。
続いてステップS3で、切出し文字列を対象に文字列長を順次増加させた各文字列長ごとに出現頻度を求め、同時に出現頻度の判定閾値を決定する。次にステップS4で各文字列長ごとに閾値以上の頻度を持つ文字列を頻出表現候補として抽出する。続いてステップS5で、抽出された頻出表現候補の間で包含関係を調査し、包含される候補を除去する。最終的にステップS6で、包含される候補の除去により残った候補を頻出表現として頻出表現テーブル18に登録する。
図6は本実施形態による頻出表現抽出処理の処理内容を具体的に示している。図6において、まず機密文書及び一般文書の文書収集処理100が行われ、文書ファイル102に示すように、ファイルID、ファイル名及びファイルデータからなる複数文書が収集される。
次に、文書ファイル102の各文書を対象に数十文字から数百文字程度の範囲で文字列を切り出し、切り出した文字列を対象に各文字列長ごとに統計的な出現頻度を検出する頻度検出処理104を実行する。この頻度検出処理104により、ワークテーブル106−1に示すように、文字列112、文字列長114及び出現頻度116に示す内容が得られる。
次に頻出表現候補抽出処理108を実行する。頻出表現候補抽出処理108にあっては、ワークテーブル106−2に示すように、所定の閾値を超える出現頻度の文字列に対し、頻出表現候補118に示すように「1」をセットし、閾値未満の文字列については候補でないことを示す「0」をセットする。
次に包含候補除去処理110を実行し、ワークテーブル106−3のように包含関係120に、もし包含候補であった場合には「1」をセットし、包含関係がなければ「0」をセットする。この包含候補除去処理110により、ワークテーブル106−3の例えば文字列「□○△■」が頻出表現として抽出されて頻出表現テーブル18に登録されることになる。
図7は図4のステップS2の機密情報特徴抽出処理の詳細を示したフローチャートである。図7において、機密情報特徴抽出処理は、ステップS1で機密文書群を読み込み、ステップS2で、機密文書群から例えば1つの意味的まとまりを持つ部分文書として、例えばファイル単位に文書を切り出す。
次にステップS3で切り出した文書に文書IDを付与する。次にステップS4で図5の頻出情報抽出処理で得られている頻出表現テーブル18の登録内容に基づき、頻出表現を機密文書から除去する。続いてステップS5で、機密文書につき先頭から1文字ずつずらしながら一定文字列長nで文字切出しを行う。
続いてステップS6で、切り出した全ての文字列をキーとして文書IDをハッシュテーブル20に登録する。このようなステップS2〜S6の処理を、ステップS7でファイル単位の切出しが終了するまで繰り返す。
図8は本実施形態による機密情報抽出処理の処理内容に説明図である。図8において、複数の文書情報122−1〜122−3を読み込んだ後、切り出し処理124により例えばファイル単位に機密文書を切り出す。続いて文書ID付与処理126により、切り出した機密文書に対し、切出し元の切出し文書に設定されている機密文書IDを付与する。これにより、文書ファイル128に示すようにファイルIDとファイル名が付与されたファイルデータが作成される。
次にテキスト情報抽出処理130により、文書ファイル128の特定のファイルを取り出して、その中からテキスト情報を抽出する。次に頻出表現除去処理130により頻出情報テーブル18に登録されている頻出表現をテキスト情報から除去する。続いて一定文字列切り出し処理134を実行し、一定文字列長nの文字列をテキスト文書の先頭から1文字ずつずらしながら切り出す。最終的に、ハッシュ登録処理136により全文字列をキーとして機密文書IDをハッシュテーブル20に登録する。
ここで、本実施形態の機密情報特徴抽出処理で機密文書から文字列を切り出すための一定文字列長nの最適値について説明する。図9は本実施形態で機密文書の特徴抽出のための文字列切出しを行う一定文字列長nを決定するための特性図である。
図9において、横軸は機密文書の判定に使用する文字列長であり、1文字から文書サイズで決まる最大文字数までの値をとる。縦軸はパーセント表示となる。特性曲線138は文字列長を1文字から順次増加させていったときの機密文書発見率であり、文字列長が増加するに従って機密文書発見率は減少する特性となる。
特性曲線140は、文字列長の変化に対し判定した機密文書の中の文字列の一致割合であり、文字列長が増加するほど、発見した機密文書中における文字列長の一致する割合は増大する。究極的には、機密文書の全文字列を文字列長とした場合には特性曲線140の値は100%、即ち機密文書と文字列長は完全に一致することになる。
このような機密文書発見率の特性曲線138と、発見した機密文書における一致文字列長の一致率の特性曲線140につき、両者が交差する交点142の文字列長nを、本実施形態にあっては最適な文字列切出しのための文字列長としている。
日本語文書の場合、図9の特性曲線138,140の交点142で与えられる文字列長nはn=20文字であることが、本願発明者らの考察を通じて取得されている。この最適文字列長n=20文字は日本語の場合であるが、英語や他の言語にあっても同様な手法により、図9の交点142の一致文字列長nを求めることで、20文字の前後の値が得られる。
図10は本実施形態における一定文字列長nによる文字列切出し処理の説明図である。図10において、切出し対象となるファイル文字列150に対し、図9により決定した文字列長nの一定文字列を、ファイル文字列150の先頭から1文字ずつずらしながら、文字列152−1,152−2,152−3,・・・のように、一定文字列nの末尾がファイル文字列150の最後に達するまで切り出す。この文字列切出しは、ファイル文字列150の文字数をmとすると(m−n)個の文字列が切り出されることになる。
図11は図4のステップS4の機密情報判定処理の詳細を示したフローチャートである。図11において、機密情報判定処理は、ステップS1で要求のあった判定対象文書を読み込み、ステップS2で文書IDを付与した後、ステップS3で判定対象文書からテキスト情報を抽出する。
続いてステップS4で、テキスト情報の先頭から1文字ずつずらしながら、一定文字列長nで文字列の切出しを行う。次にステップS5で、切り出した全ての文字列によりハッシュテーブル20を検索して、マッチングした機密文書IDを取得する。
ステップS6で機密文書IDの取得を判別すると、ステップS7で重複する機密文書IDを1つにまとめるマージ処理を行った後、ステップS8で機密文書IDを判定結果にセットして出力する。ステップS6で機密文書IDの取得がなければ、ステップS9で機密文書該当なしの判定結果をセットして出力する。
図12は本実施形態による機密情報判定処理の処理内容の説明図である。図12にあっては、判定対象文書として電子メール154を対象文書取得処理156により取得した場合であり、取得した電子メール154に文書ID付与処理158により文書IDを付与し、メールファイル160を作成する。
このメールファイル160のメールデータを対象に、テキスト情報抽出処理162によりテキスト情報を抽出する。テキスト情報はメール本文及びメールの添付ファイルから抽出されることになる。
次に一定文字列長切出し処理164により、テキスト情報の先頭から1文字ずつずらしながら、一定文字列長nで文字列を切り出す。次にハッシュ検索処理166によりハッシュテーブル20を全切出し文字により検索し、マッチングした登録文字列に対応した機密文書IDを取得する。
ワークテーブル168はハッシュ検索処理の処理結果であり、文字列170、文字列長172に対応して検索された機密文書のファイルID174が格納されている。次に重複IDマージ処理176を実行し、判定結果出力処理178により判定出力ファイル180に示すように、検索された複数の機密文書IDを出力し、この場合には処理要求のあった電子メール154が機密文書を含んでいることの判定結果が出力されることになる。
次に本実施形態の機密情報判定部16で対象文書から機密情報を判定した場合のセキュリティ対応処理を説明する。図1に示したように、本実施形態の機密情報管理装置10に設けた機密情報判定部16は、内部のネットワーク24に接続しているクライアント30−1〜30−3で処理する文書、プロキシサーバ36で外部に送信する電子メール、ゲートウェイサーバ38で外部に転送するFTPファイルなどの転送ファイル、ファクシミリサーバ40で送信するファクシミリファイル、スキャンステーション42で検出する携帯情報機器45の文書ファイル、更にネットワーク24に接続されているプリンタ34に対する印刷文書ファイル等を、機密情報の判定対象としている。
更にクライアント30−1〜30−3にあっては、機密文書を担当者がディスプレイ32−1〜32−3に表示する際に、機密情報判定部16に判定要求を行い、判定結果に基づいた機密文書の表示の有無が制御されることになる。
機密情報判定部16で判定対象文書に機密情報が含まれることが判定された場合、判定要求元におけるアクセスや出力処理は全て禁止することが原則となる。しかしながら、機密文書については、機密文書に対しアクセスの権限のある担当者が利用する場合もあることから、機密情報と判定した場合には送信元に閲覧権限があるか否か判定し、閲覧権限があれば機密文書であってもアクセスを許可する。
また機密文書については、その利用を管理者が管理している場合があり、閲覧権限がなかった場合に、管理者端末に機密文書の判定結果を通知し、管理者端末からの許可応答を待って、機密文書を含む文書のアクセスを許可するようにしてもよい。
また機密情報判定部16で判定された対象ファイルの機密情報を含むことの判定結果は全て判定ログファイル22に記録されており、機密情報の漏洩問題などが発生した場合に、漏洩経路を後から探索することができるようにしている。
本実施形態における機密情報判定部16は、企業内から外部に機密情報が無断もしくは不注意に持ち出されることを阻止するものであるが、外部装置46−1〜46−4との間で機密情報をやり取りするような場合にも、送受信される文書ファイルから機密情報を判定してセキュリティを管理することができる。
例えば本実施形態の機密情報管理装置10を設置している企業と機密情報開示先である例えば個人事業者間に設けている外部装置46−1との間の送受信される文書ファイルにつき、機密情報判定部16で機密情報を判定した場合、機密情報の送信記録と受信記録を作成して照合しながら文書管理を行い、外部装置46−1から受信したメール文書についても機密情報判定部16で判定処理を行い、もし機密情報が含まれていたような場合には、外部装置46−1を取り扱っている事業者に対し機密情報が誤って流出していることを通知して対応を促すことが可能となる。
また図1の機密情報をやり取りする外部装置46−1側にも本実施形態の機密情報管理装置10における対象となる機密文書について特定的に作成されたハッシュテーブル20と機密情報判定部16及び判定ログファイル22を組み込んでおくことで、送信元及び送信先のそれぞれで機密情報のやり取りにつき機密文書IDを判定して記録しておき、送信した機密情報IDと受信した機密情報IDをリアルタイムで照合することで全ての機密情報が正しく送受信され、送受信漏れによる機密情報の漏洩がないことを確認するセキュリティ管理が可能となる。
本実施形態は更にコンピュータで実行される機密情報管理プログラムを提供するものであり、本実施形態の機密情報管理プログラムは、図4、図5、図7、図11のフローチャートに示した処理内容を持つことになる。
また本発明は機密情報管理処理プログラムを記録したコンピュータ可読の記録媒体を提供するものであり、この記録媒体はCD−ROM、フロッピィ(R)ディスク、DVDディスク、光磁気ディスク、ICカードなどの可搬型記憶媒体や、コンピュータシステムの内外に備えられたハードディスクなどの記憶装置の他、回線を介してプログラムを保持するデータベース、あるいは他のコンピュータシステム並びにそのデータベース、更には回線上の伝送媒体を含むものである。
また上記の実施形態は、機密情報特徴抽出部及び機密情報判定処理における文字列の切出しに図9の特性関係から設定した一定文字列長nの文字列を切り出す場合を例にとっているが、この文字列の切出しは最適な一定文字列長nに加え、1文字多い(n+1)または1文字少ない(n−1)のそれぞれにつき文字列切出しを行ってハッシュテーブル20を作成し、この場合には機密情報判定処理につき、一定文字列長n,(n+1),(n−1)の順番で機密IDを検索するまで処理を繰り返すことで、更に機密情報の判定精度を高めることができる。
また本発明は、その目的と利点を損なうことのない適宜の変形を含み、上記の実施形態に示した数値による限定は受けない。

Claims (8)

  1. コンピュータ
    機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
    判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定と、
    して機能させるための機密文書管理プログラムであって、
    前記特徴情報抽出部及び機密情報判定部が文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理プログラム。
  2. 請求項1記載の機密文書管理プログラムに於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部としてコンピュータを機能させ、
    前記特徴情報抽出は機密文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理プログラム。
  3. 請求項記載の機密文書管理プログラムに於いて、前記特徴抽出は、
    複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出し処理と、
    前記機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与処理と、
    前記機密部分文書から前記頻出表現テーブルの頻出表現を除去する頻出表現除去処理と、
    前記機密部分文書の先頭から1文字ずつずらしながら一定文字列長の文字列を切り出す文字列切出し処理と、
    全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録処理と、
    実行することを特徴とする機密文書管理プログラム。
  4. 請求項1記載の機密文書管理プログラムに於いて、
    前記機密情報判定は、
    判定対象文書を取得する文書取得処理と、
    前記判定対象文書に文書識別子を付与する識別子付与処理と、
    前記判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長の文字列を切り出す文字列切出し処理と、
    全ての切出し文字列を前記ハッシュテーブルのキーである登録文字列と照合し,照合一致の場合に対応する機密文書識別子を取得するテーブル照合処理と、
    前記テーブル照合ステップから1又は複数の機密文書識別子が取得された場合に前記判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に前記判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力処理と、
    実行することを特徴とする機密文書管理プログラム。
  5. コンピュータを、
    機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報出部と、
    判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定と、
    して機能させるための機密文書管理方法であって、
    前記特徴情報抽出部及び機密情報判定部が文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理方法。
  6. 請求項記載の機密文書管理方法に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部としてコンピュータを機能させ
    前記特徴情報抽出は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理方法。
  7. 機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽部と、
    判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長の同じ文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定部と、
    を備え、
    前記特徴情報抽出部及び機密情報判定部で文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理装置。
  8. 請求項記載の機密文書管理装置に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を設け、
    前記特徴情報抽出部は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理装置。
JP2008504927A 2006-03-10 2006-03-10 機密情報管理プログラム、方法及び装置 Expired - Fee Related JP4824750B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/304740 WO2007105273A1 (ja) 2006-03-10 2006-03-10 機密情報管理プログラム、方法及び装置

Publications (2)

Publication Number Publication Date
JPWO2007105273A1 JPWO2007105273A1 (ja) 2009-07-23
JP4824750B2 true JP4824750B2 (ja) 2011-11-30

Family

ID=38509123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008504927A Expired - Fee Related JP4824750B2 (ja) 2006-03-10 2006-03-10 機密情報管理プログラム、方法及び装置

Country Status (2)

Country Link
JP (1) JP4824750B2 (ja)
WO (1) WO2007105273A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5456425B2 (ja) * 2008-10-22 2014-03-26 株式会社日立ソリューションズ コンテンツ認可装置
JP5471415B2 (ja) * 2009-12-21 2014-04-16 日本電気株式会社 情報漏洩防止システム、情報漏洩防止方法及び情報漏洩防止プログラム
JP2011170509A (ja) * 2010-02-17 2011-09-01 Nec Corp 機密度学習装置、機密度学習システム、機密度学習方法および機密度学習プログラム
JP2011170510A (ja) * 2010-02-17 2011-09-01 Nec Corp 自動ファイル管理装置、自動ファイル管理システム、自動ファイル管理方法及び自動ファイル管理プログラム
WO2014039620A1 (en) * 2012-09-07 2014-03-13 Tiversa Ip, Inc. Snippet matching in file sharing networks
KR101459676B1 (ko) * 2013-01-25 2014-11-12 킹스정보통신(주) 사용자 단말기를 이용한 인쇄 문서상의 기밀정보 보안 장치 및 그 방법
JP5906229B2 (ja) * 2013-11-05 2016-04-20 日本電信電話株式会社 連続引用判定装置及び方法
JP6045533B2 (ja) * 2014-05-26 2016-12-14 京セラドキュメントソリューションズ株式会社 文書管理装置及び文書管理プログラム
WO2023132046A1 (ja) * 2022-01-07 2023-07-13 富士通株式会社 判定方法、情報処理装置および判定プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288366A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 類似テキスト検索装置
JP2004240517A (ja) * 2003-02-03 2004-08-26 Toshiba Corp テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288366A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 類似テキスト検索装置
JP2004240517A (ja) * 2003-02-03 2004-08-26 Toshiba Corp テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置

Also Published As

Publication number Publication date
WO2007105273A1 (ja) 2007-09-20
JPWO2007105273A1 (ja) 2009-07-23

Similar Documents

Publication Publication Date Title
JP4824750B2 (ja) 機密情報管理プログラム、方法及び装置
US8254698B2 (en) Methods for document-to-template matching for data-leak prevention
US11188657B2 (en) Method and system for managing electronic documents based on sensitivity of information
US8606795B2 (en) Frequency based keyword extraction method and system using a statistical measure
US9215197B2 (en) System, method, and computer program product for preventing image-related data loss
JP4995950B2 (ja) フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
CN112262388A (zh) 使用个人身份信息(pii)的标记和持久性来保护pii
WO2004040464B1 (en) A method and system for managing confidential information
JP2006209649A (ja) 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
US20140324416A1 (en) Method of automated analysis of text documents
US20060277169A1 (en) Using the quantity of electronically readable text to generate a derivative attribute for an electronic file
US8365247B1 (en) Identifying whether electronic data under test includes particular information from a database
US20120254166A1 (en) Signature Detection in E-Mails
JP2007004645A (ja) 個人情報管理システム
US20240095289A1 (en) Data enrichment systems and methods for abbreviated domain name classification
CN109918638B (zh) 一种网络数据监测方法
US20090287654A1 (en) Device for identifying electronic file based on assigned identifier
CN116055067A (zh) 一种弱口令检测的方法、装置、电子设备及介质
JP2007102685A (ja) 個人情報探索プログラム
US20060277177A1 (en) Identifying electronic files in accordance with a derivative attribute based upon a predetermined relevance criterion
JP5062134B2 (ja) 情報拡散システム、情報拡散装置、情報拡散方法、および情報拡散プログラム
JP5690301B2 (ja) フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
WO2022185576A1 (ja) 不正侵害分析支援装置、及び不正侵害分析支援方法
JP4139919B2 (ja) 個人情報探索プログラム
KR100525617B1 (ko) 연관 검색 쿼리 추출 방법 및 시스템

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees