JP4823022B2 - 情報処理装置、情報処理方法、及びコンピュータプログラム - Google Patents

情報処理装置、情報処理方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP4823022B2
JP4823022B2 JP2006301760A JP2006301760A JP4823022B2 JP 4823022 B2 JP4823022 B2 JP 4823022B2 JP 2006301760 A JP2006301760 A JP 2006301760A JP 2006301760 A JP2006301760 A JP 2006301760A JP 4823022 B2 JP4823022 B2 JP 4823022B2
Authority
JP
Japan
Prior art keywords
information
personal information
keyword
personal
formation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006301760A
Other languages
English (en)
Other versions
JP2008117287A5 (ja
JP2008117287A (ja
Inventor
靖大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon IT Solutions Inc
Original Assignee
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon IT Solutions Inc filed Critical Canon IT Solutions Inc
Priority to JP2006301760A priority Critical patent/JP4823022B2/ja
Publication of JP2008117287A publication Critical patent/JP2008117287A/ja
Publication of JP2008117287A5 publication Critical patent/JP2008117287A5/ja
Application granted granted Critical
Publication of JP4823022B2 publication Critical patent/JP4823022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、情報処理装置、情報処理方法、該方法を実行するためのプログラム及び記憶媒体に関し、特に、電子メール等により電気通信回線を通じて個人情報が漏洩することを防止する機能を有する情報処理装置に関する。
近年、ネットワーク技術の発達によって、情報の授受を非常に簡便且つ効率良く行うことが可能になっている。例えば、会議に使用する資料を電子メールに添付して参加者に事前に送付することが、手間も煩わしさもなく行うことが可能になっている。ただ、このようにネットワーク技術が発達し、情報の授受が容易に行われるようになった反面、機密情報等の重要な情報が簡単に外部に流れてしまうという危険性の度合いも増加している。
情報漏洩の防止という観点に立った場合、1)外部からの不正アクセスに対しての対策を講じること、2)内部からの不用意な重要データの送信について対策を行うこと等が重要である。情報漏洩の原因としては、不正アクセスにより情報が盗まれてしまうことよりもむしろ、内部の人間の不注意若しくは不正な動作によって情報が流出してしまうことのほうが多いのが現状である。
そこで、例えば、企業において情報漏洩への対策として、社内から外部へ送信される電子メールの内容(例えば、宛先や本文のテキスト情報、添付ファイルの内容)をチェックし、所定の条件に合致した場合にはその電子メールを社外に送信することを禁止するシステムが導入されている。
このような背景に加えて、近年の個人情報保護法の施行により、企業には特に個人情報のきちんとした取り扱いが求められるようになった。そのため、上記のようなシステムにおいて、電子メールの内容に個人情報が含まれるか否かをチェックする技術が必要となっている。
ここで、電子メール等の電子データに個人情報が含まれるか否かをチェックする技術として、例えば、特許文献1のデータ検査装置では、個人情報を形成するキーワードをキーワード記憶部に記憶し、検査対象データを記憶したデータファイルから検査対象データを読み込んだ後、キーワード記憶部に記憶されたキーワードを用いて検査対象データをサーチして検査対象データ内にあるキーワードを検出し、該検出された複数種類のキーワードの検出場所が近接しており且つ該検出された少なくとも1つのキーワードの検出件数が所定の数以上の場合は、当該データファイルに個人情報が含まれていると判定し、警告信号を出力する。これにより、検索対象となる電子メールを社外に送信することを禁止することが可能となる。
特開2006−023865号公報
しかしながら、電子メール等で取り交わされる電子データは、平文や一般文書のみならず、履歴書や名簿等、様々な様式のものがある。そのため、上記のようなデータ検知装置では、多数の苗字を含む名簿からは多数のキーワードを検出できるために個人情報が含まれると判断できるが、苗字が1つとなるような履歴書からはキーワードを1つしか検出できないため、電子データに個人情報が含まれるか否かを判定することができないという問題がある。
また、上記データ検知装置では、苗字に続く位置に住所がある履歴書や名簿からはキーワードの検出場所が接近しているため、個人情報が含まれると判断できるが、苗字と住所の間に会社や部署名等が記入されているような履歴書や名簿からはキーワードの検出場所が離れているため、個人情報が含まれるか否かを判定することができない。一方、上記のような場合においても個人情報が含まれると判定できるようにするために単に検出件数の閾値を小さくしたり、近接判断の閾値を大きくしたりすると、平文などを誤判定してしまう可能性がある。
本発明の目的は、様々な様式の電子データに対して個人情報が含まれるか否かを判定し、個人情報の漏洩を防止することができる情報処理装置、情報処理方法、該方法を実行するためのプログラム及び記憶媒体を提供することにある。
上記目的を達成するために、請求項1記載の情報処理装置は、個人情報を形成し得る個人情報形成情報を検出するための個人情報検出情報と、当該個人情報検出情報により検出される個人情報形成情報の属性情報と、を対応付けて記憶する記憶手段と、前記記憶手段に記憶された個人情報検出情報を用いて、検査対象データから個人情報形成情報を検出する検出手段と、前記検出手段で検出した個人情報形成情報それぞれの属性情報、及び個人情報形成情報の前記検査対象データ中の位置関係に従って、前記個人情報形成情報の集合を生成する生成手段と、前記集合中の個人情報形成情報の数を用いて計測情報を作成する作成手段と、前記集合のそれぞれについて作成された前記計測情報を用いて、前記検査対象データが個人情報を含む度合いを示す指標値を算出する算出手段と、を備えることを特徴とする。
本発明によれば、検査対象データからキーワード記憶部に記憶されるキーワードと合致するキーワードが検出され、該検出されたキーワードから、キーワードの属性及び該キーワードの前後のキーワードとの位置関係に基づいてキーワード包含領域が生成され、生成されたキーワード包含領域が個人情報を含む領域として適正であるか否かが評価され、評価されたキーワード包含領域に含まれるキーワードの計測情報が作成され、作成された計測情報に基づいて検査対象データが個人情報を含むか否かの判定が行われるので、様々な様式の電子データに対して個人情報が含まれるか否かを判定し、個人情報の漏洩を防止することができる。
以下、本発明の実施の形態を図面を参照しながら詳述する。
図1は、本発明の実施の形態に係る情報処理装置のハードウェア構成を概略的に示すブロック図である。
図1に示すように、情報処理装置10は、CPU101と、RAM102と、ROM103と、LANアダプタ104と、ビデオアダプタ105と、キーボード106と、ポインティングデバイスとしてのマウス107と、ハードディスク108と、記憶媒体ドライブ109とを備え、これらがシステムバス100を介して互いに接続されている。CPU101とシステムバス100との間、及び記憶媒体ドライブ109とシステムバス100との間には、不図示のインタフェース回路やチップセット等が設けられている。
システムバス100は、PCIバスやAGPバス等の各種システムバスで構成され、各システムバスは、通常いわゆるチップセットを介して互いに接続される。
CPU101は、ROM103、ハードディスク108又は記憶媒体ドライブ109に挿入されているCD−ROM等の記憶媒体に記憶されたプログラムをRAM102に一時的に記憶し、その後RAM102に記憶されたプログラムを順次読み出して後述する各種制御処理を実行する。
RAM102は、OSの一部及びアプリケーションプログラムをロードすると共にCPU101の制御の下でアプリケーションプログラムを実行する際に使用される配列や変数を含む各種データ等を一時的に記憶させるためのメモリである。
ROM103には各ハードウェアの制御プログラム(いわゆるBIOS)等が記憶されている。なお、ROM103は、オペレーティングシステム(OS)の一部を記憶することも可能である。
LANアダプタ(ネットワークインタフェースカード)104は、外部ネットワークに接続するための通信インタフェースである。
ビデオアダプタ105はいわゆるビデオグラフィックアダプタ(VGA)であり、液晶ディスプレイ等の各種ディスプレイが接続される。
ハードディスク108は、オペレーティングシステムや、画面情報(htmlやCGI等で記述された、ディスプレイに画面を表示させるための情報)を含む各種アプリケーションプログラムを記憶する。また、ハードディスク108には、後述する各種処理を実行するためのプログラムや、プリンタドライバ等が記憶されている。さらに、ハードディスク108は、検査対象となる入力文書に含まれるキーワードを検出するためのキーワード群や、電話番号や電子メールアドレス等の個人情報を形成する情報の文字パターン等を記憶する。
記憶媒体ドライブ109は、CD−ROMドライブ、DVD−ROMドライブ、DVD−Rドライブ等、記憶媒体のデータを読み出し可能な駆動装置である。
図2は、図1の情報処理装置10の機能を模式的に示すブロック図である。
図2において、情報処理装置10は、個人情報を形成する氏名(姓・名)や住所等のキーワードを記憶すると共に、個人情報を形成する項目のラベルとして機能する「氏名」や「住所」等のキーワードやその他、敬称に使用される語句(「様」、「さん」、役職等に用いられる語句)を記憶するキーワード記憶部201と、電話番号や電子メールアドレス等の一般的なパターンによって形成される文字パターンを記憶するパターン記憶部202と、検査対象となる入力文書200(検査対象データ)から、キーワード記憶部201に記憶されるキーワード及びパターン記憶部202に記憶される文字パターンと合致するキーワードを検出するキーワード検出部203と、キーワード検出部203により検出された複数のキーワードから、当該キーワードの属性及び当該キーワードの前後のキーワードとの位置関係に基づいてキーワード包含領域を生成する包含領域生成部204と、包含領域生成部204により生成されたキーワード包含領域が個人情報を含む領域として適正であるか否かを評価する包含領域評価部205と、包含領域評価部205により評価されたキーワード包含領域に含まれるキーワードの計測情報を作成する計測情報作成部206と、計測情報作成部206で作成された計測情報に基づいて、入力文書200が個人情報を含むか否かの判定を行う入力文書判定部207(検査対象データ判定部)とを備える。
入力文書200は、例えば電子メール等の電子テキストからなり、特定のアプリケーション用のデータから抽出されたテキストを含む。さらに画像データにOCR処理をすることにより抽出されたテキストも含む。
キーワード記憶部201には、「姓」、「名」、「地名」(都道府県名、市町村名、市町村名以下の地名)等を示すキーワードと、各キーワードを定義する属性情報が記憶される。1つのキーワードが複数の属性を有する場合は、1つのキーワードについて複数の属性情報が記憶される。例えば、キーワードが「東京」である場合、「東京」の属性情報として「地名」が記憶され、キーワードが「鹿嶋」である場合は、「鹿嶋」の属性情報として「姓」及び「地名」が記憶される。「鹿嶋」は「姓」にも「地名」にも使用されているので、両方の属性を持つことになる。「堺」や「千葉」なども同様の扱いになる。1つのキーワードについて複数の属性があり、キーワードの前後の単語などから当該キーワードの属性を1つに決定することが難しい場合には、例えば、それら属性の適用優先順位を予め決めておき、その優先順位に基づいて属性を決定するなどを行うことも可能である。
パターン記憶部202は、例えば電話番号の文字パターン「××−××××−××××」や、電子メールアドレスの文字パターン「×××@×××××.jp」を記憶すると共に、夫々の属性を「電話番号」及び「電子メールアドレス」として記憶する。
キーワード検出部203は、入力文書200を構成する文字列から、キーワード記憶部201に記憶されたキーワード又はパターン記憶部202に記憶された文字パターンと合致するキーワードを検出する。キーワード検出部203による検出結果のリストの一例を図3に示す。
また、キーワード検出部203は、検出された各キーワードに対して、検出位置、文字パターンの長さ、及びキーワードの属性を検出する。複数の属性を有するキーワードが検出された場合は、該検出されたキーワードに対して複数の属性を付与する。
包含領域生成部204は、キーワード検出部203により検出されたキーワードのうち複数の属性を有するキーワードを選択して該キーワードの属性を1つに決定する属性決定部210と、属性決定部210により決定されたキーワードに基づいてキーワード包含領域を決定するキーワード包含領域決定部220とを備える。キーワード包含領域決定部220は、個人情報の一部となる可能性が低いキーワード及び/又は署名情報についてのキーワードをキーワード包含領域から除去するキーワード除去部221と、該キーワード包含領域に含まれるキーワードに基づいて当該キーワード包含領域の範囲を変更する包含領域変更部222とを備える。キーワード包含領域は、所定の個人情報、例えば氏名(姓・名)毎に生成される。
計測情報作成部206は、キーワード包含領域決定部220で決定されたキーワード包含領域に含まれる各キーワードの各種計測値、例えばキーワードの個数、キーワード属性数、キーワード間の平均距離を計測する。
入力文書判定部207は、計測情報作成部206で作成された計測情報に基づいて個人情報を含む度合いを示す個人情報指標値Piを算出し、個人情報指標値Piを所定値(あらかじめ設定された閾値)と比較することにより、入力文書200が個人情報を含むか否かの判定を行う。
図4は、図2における包含領域生成部204により実行される属性決定処理を示すフローチャートである。以下、キーワード記憶部201にキーワード「姓」、「名」及び「地名」が記憶され、パターン記憶部202に「電話番号」及び「電子メールアドレス」の文字パターンが記憶されている場合について述べる。
図4において、まず、キーワード検出部203で検出されたキーワードを取得し(ステップS401)、そのキーワードが属性として「姓」又は「名」を有するものであるか否かを判別し(ステップS402)、キーワードが「姓」又は「名」を有さない場合は(ステップS402でNO)、当該キーワードの属性をキーワード記憶部201又はパターン記憶部に記憶されている属性に対し、属性が複数ある場合は、予め定められた優先順位に基づいて属性を決定し(ステップS407)、ステップS411に進む。キーワードが「姓」又は「名」を有する場合は(ステップS402でYES)、該キーワードが属性に「地名」を有するか否かを判別する(ステップS403)。キーワードが他の属性を有しない場合は(ステップS403でNO)、ステップS407に進み、当該キーワードの属性をキーワード記憶部201又はパターン記憶部に記憶されている属性に対し、属性が複数ある場合は、予め定められた優先順位に従い基づいて属性を決定する。「地名」の属性を有する場合は(ステップS403でYES)、当該キーワードの属性が「姓」を有するか否かを判別する(ステップS404)。キーワードの属性が「姓」を有する場合は(ステップS404でYES)、当該キーワードの直後に「名」の属性を有するキーワードが存在するかを判別し(ステップS405)、当該キーワードの直後に「名」の属性を有するキーワードが存在する場合は(ステップS405でYES:敬称を登録している場合は、直後に敬称が存在する場合もYESと判別)、当該キーワードの属性を「姓」と決定し(ステップS408)、「名」の属性を有するキーワードが存在しない場合は(ステップS405でNO)、そのキーワードの属性を「地名」とする(ステップS410)。
キーワードの属性が「姓」でない場合、すなわちキーワードの属性が「名」である場合は(ステップS404でNO)、当該キーワードの直前に「姓」の属性を有するキーワードが存在するかを判別する(ステップS406)。当該キーワードの直前に「姓」の属性を有するキーワードが存在する場合は(ステップS406でYES:敬称を登録している場合は直後に敬称が存在する場合もYESと判別)、当該キーワードの属性を「名」と決定し(ステップS409)、当該キーワードの直前に「姓」の属性を有するキーワードが存在しない場合は(ステップS406でNO)、ステップS410に進み、当該キーワードの属性を「地名」にする。
次に、ステップS407,S408,S409,S410で決定された属性に基づいてキーワード包含領域を画定する(ステップS411)。既に作成されているキーワード包含領域に「姓」の属性と決定されたキーワードがあった場合に新たに「姓」の属性と決定されたキーワード、「名」の属性と決定されたキーワードがあった場合に新たに「名」の属性と決定されたキーワードを取得した場合は、既に作成されているキーワード包含領域とは別の新たなキーワード包含領域を設定することになる。それ以外の場合は、属性が決定されたキーワードがある領域を既存のキーワード包含領域に追加する。この結果として、図5(a)に示すように、属性が「姓」又は「名」と決定されたキーワード毎にキーワード包含領域1〜2が画定される。このキーワード包含領域は、個人情報を含むと推測される領域である。
その後、キーワード検出部203による検出結果のリストに次のキーワードが有るか否かを判別し(ステップS412)、次のキーワードが有る場合は(ステップS412でYES)ステップS401に戻り、次のキーワードが無い場合(ステップS412でNO)は本処理を終了する。
図6は、図2におけるキーワード包含領域決定部220により実行される領域決定処理を示すフローチャートである。
図6において、まず、ステップS410により画定されたキーワード包含領域の末尾のキーワードが「姓」又は「名」であるか否かを判別し(ステップS601)、末尾のキーワードが「姓」又は「名」であるときはステップS607に進み、末尾のキーワードが「姓」又は「名」でないときは、末尾のキーワードとその直前のキーワードとの距離(以下、単に「直前距離」という)及び末尾のキーワードとその直後のキーワードとの距離(以下、単に「直後距離」という)をバイト数に基づいて計測する(ステップS602)。
次に、直前距離が直後距離より小さいか否かを比較する(ステップS603)。直前距離が直後距離以下である場合(ステップS603でYES)はステップS605に進み、直前距離が直後距離より大きい場合は(ステップS603でNO)、末尾のキーワードを次のキーワード包含領域に移動し(ステップS604)、ステップS605に進む。例えば、キーワード包含領域1における末尾のキーワードが「03−5678−××××」である場合において(図5(a))、本キーワードと直前のキーワード「東京都××市」との距離(直前距離)が、本キーワードと直後のキーワード「佐藤○男」との距離(直後距離)より大きいときは、末尾のキーワード「03−5678−××××」は、キーワード包含領域2に移動される(図5(b))。
その後、直前距離及び直後距離の少なくとも一方が所定値未満であるか否かを判別し(ステップS605)、直前距離及び直後距離の少なくとも一方が所定値未満である場合は(ステップS605でYES)、ステップS607に進み、直前距離及び直後距離が所定値以上である場合は(ステップS605でNO)、末尾のキーワードをキーワード包含領域から除外し(ステップS606)、ステップS607に進む。例えば、図5(b)に示すように、キーワード包含領域1における末尾のキーワードが「東京都××市」である場合において、本キーワードと直前のキーワード「埼玉県××市」との距離(直前距離)及び本キーワードと直後のキーワード「03−5678−××××」との距離(直前距離)が所定値以上であるときは、末尾のキーワードが「東京都××市」は、キーワード包含領域1から除外される(図5(c))。
次いで、キーワード包含領域の末尾のキーワードが新たなキーワードに変更されたか否かを判別し(ステップS607)、新たなキーワードに変更された(ステップS604若しくはステップS606の処理が行われた)場合は(ステップS607でYES)、ステップS601に戻り新たな末尾のキーワードについて上記ステップS601からステップS606に示す処理を行う。新たなキーワードに変更されていない場合は(ステップS607でNO)、次の包含領域が存在するか否かを判別する(ステップS608)。次の包含領域が存在する場合は(ステップS608でYES)ステップS601に戻り、次のキーワード包含領域について上記ステップS601からステップS607に示す処理を行う。次の包含領域が存在しない場合は(ステップS608でNO)本処理を終了する。
図7は、図2における包含領域評価部205により実行される包含領域評価処理を示すフローチャートである。
図7において、まず、図6の処理で決定されたキーワード包含領域を先頭から取得する(ステップS701)。そして、ステップS701で取得したキーワード包含領域に含まれる複数のキーワードのうち隣接するキーワードの距離を算出すると共に、該算出された距離の平均を算出する(ステップS702)。なお、算出される平均距離の値は、バイト数でもよいし、文字数であってもよい。その後、当該キーワード包含領域中に「姓」の属性を持つキーワード及び「名」の属性を持つキーワードの両方が含まれるか否かを判別し(ステップS703)、「姓」及び「名」の両方が含まれる場合は(ステップS703でYES)、ステップS702で算出した平均距離が所定値未満であるかを判別する(ステップS704)。平均距離が所定値未満であると判断した場合には(ステップS704でYES)、ステップS709に進み、当該キーワード包含領域は個人情報を含むと判定する。そしてステップS711に進む。各キーワード間の平均距離が所定値以上であると判断した場合には(ステップS704でNO)、当該キーワード包含領域から「姓」および「名」以外の属性を持つ項目の領域を除外し(ステップS705)、除外した結果のキーワード包含領域に個人情報が含まれると判定し(ステップS709)、ステップS711に進む。一方、「姓」及び「名」のそれぞれの属性を持つキーワードが当該キーワード包含領域に含まれない場合は(ステップS703でNO)、キーワード包含領域に「姓」又は「名」の属性を持つキーワードが含まれるか否かを判別する(ステップS706)。「姓」又は「名」の属性を持つキーワードが含まれる場合は(ステップS706でYES)、「姓」又は「名」以外のキーワードの属性が2種類以上(なお、種類数についてはこれに限定されず、1種類以上で判別することも勿論可能)有るか否かを判別する(ステップS707)。「姓」又は「名」以外のキーワードの属性が2種類未満である場合は(ステップS707でNO)、当該キーワード包含領域は個人情報を含まないと評価し(ステップS710)、ステップS711に進む。「姓」又は「名」以外のキーワードの属性の種類が2種類以上である場合は(ステップS707でYES)、ステップS702で算出した平均距離が所定値未満であるかを判定する(ステップS708)。算出された平均距離が所定値未満である場合は(ステップS708でYES)、当該キーワード包含領域は個人情報を含むと評価して(ステップS709)、ステップS711に進み、算出された平均距離が所定値以上である場合は、当該キーワード包含領域は個人情報を含まないと評価して(ステップS710)ステップS711に進む。なお、ここでは平均距離が所定値未満の場合という指標で個人情報を含む/含まないを判別しているが、それ以外の例えば「姓」、「名」以外の属性で、「姓」、「名」属性との距離が所定値以下のものが所定数以上あるといった指標で個人情報を含む/含まないを判別することも勿論可能である。
次いで、キーワード包含領域が最後の包含領域であるか否かを判別し(ステップS711)、最後の包含領域でなければ(ステップS711でYES)ステップS701に戻り、最後の包含領域であれば(ステップS711でNO)本処理を終了する。
図8は、図2における計測情報作成部206及び入力文書判定部207により実行される入力文書判定処理を示すフローチャートである。
図8において、先ず、入力文書200全体の計測情報、すなわちN(キーワード包含領域の数)、TK(キーワード数の合計)、TD(キーワード間の距離の合計)及びND(キーワード間隔数の合計(=TK−1))を計測する(ステップS801)。次に、計測された計測情報から、1つのキーワード包含領域に含まれるキーワードの平均個数(T=TK/N)と、キーワードの平均距離(D=TD/ND)とが算出される(ステップS802)。
図9は、図7の包含領域評価処理が実行された場合の一例を示す図である。
入力文書200から得られた情報が図9に示すような情報であって、N,TK,TD,NDが、夫々、N=4、TK=10、TD=72及びND=9と算出される場合、T,Dは、夫々、D=8、T=2.5と算出される。
次に、N,D,Tの3つの値から、入力文書200全体が個人情報を含むか否かを判断する指標となる個人情報指標値Piを計算する(ステップS803)。個人情報指標値をPi、個人情報指標値の計算式をFとすると、Pi=F(N,D,T)の関係が成り立つ。
ここで、N,D,Tの3つの値は互いに比較できない値であるから、人間の感覚に合致するように正規化する。正規化の方法は、例えば、実際に個人情報を含む文書に対する人間の評価などから求める。具体的には、正規化するために以下に示す式(1)を用いる。
Figure 0004823022
N、D、Tの3つの値からなる数式(1)はNR、DR、TRの3つの値からなる計算式に変換可能であり、その式をF’とすると、Piは以下に示す式(2)のように表される。
Figure 0004823022
ここでは、F’として以下の式(3)が用いられる。
Figure 0004823022
上記の式(1)〜(3)を用いて個人情報指標値Piを算出し、算出された個人情報指標値Piが所定値、例えば0.5以上であるか否かを判別する(ステップS804)。なお、この所定値は0.5以外の値であってもよく、使用目的、管理レベル等に応じて任意の値に変更しうる。個人情報指標値Piが所定値以上である場合は、入力文書200は個人情報を含むと判定され(ステップS805)、個人情報指標値Piが所定値未満である場合は、入力文書200は個人情報を含まないと判定され(ステップS806)、本処理を終了する。
ここで、図9に示す例を用いてPiを算出すると、NR=log(4)≒0.6、DR=5/8 =0.625、TR=2.5/8 =0.312であるから、Pi=√(0.36+0.40+0.09)≒0.92となる。したがって、ステップS804で用いられる所定値が0.5である場合、Pi≧0.5となるので、この入力文書は個人情報を含むと判定される。
図10は、他の入力文書に対して図7の包含領域評価処理が実行された場合を説明する図である。
図10において、本入力文書のN,D,Tの3つが以下のような値であるとする。
Figure 0004823022
この場合、NR=log(2)≒0.3、DR=5/103 =0.048、TR=2.5/8 =0.312となるから、個人情報指標値Piは、以下のように算出される。
Figure 0004823022
したがって、図8のステップS804で用いられる所定値が0.5である場合、Pi<0.5となるので、本入力文書は個人情報を含まないと判定される。
本実施の形態によれば、入力文書200からキーワード記憶部201に記憶されるキーワードと合致するキーワードが検出され、該検出されたキーワードから、キーワードの属性及び該キーワードの前後のキーワードとの位置関係に基づいてキーワード包含領域が生成され、生成されたキーワード包含領域が個人情報を含む領域として適正であるか否かが評価され、評価されたキーワード包含領域に含まれるキーワードの計測情報が作成され、作成された計測情報に基づいて入力文書200が個人情報を含むか否かの判定が行われるので、様々な様式の電子データに対して個人情報が含まれるか否かを判定し、個人情報の漏洩を防止することができる。これにより、例えば、電子メール等のテキスト形式データだけでなく、履歴書のような表形式データに対しても個人情報が含まれるか否かを判定することができる。
また、計測情報作成部206で作成された計測情報に基づいて個人情報を含む度合いを示す個人情報指標値Piが算出されるので、入力文書200の判定を行う際の判定基準が容易に設定でき、もって個人情報の漏洩を容易に防止することができる。
なお、本実施の形態では、図7の包含領域評価処理によりキーワードの数及び平均距離に基づいてキーワード包含領域を評価しているが、例えば入力文書が電子メールである場合は、末尾に付されるシグネチャをキーワードとして検出するために、入力文書を正確に評価できない可能性がある。その場合、以下に示すようなキーワード除去処理を実行する。なお、キーワード除去処理は、図1のCPU101により実行される。
図11は、電子メールの末尾に付されるシグネチャについてのキーワード除去処理を示すフローチャートである。
図11において、まず、入力文書200が電子メールデータであるか否かを判別し(ステップS1101)、電子メールのデータでないときは(ステップS1101でNO)本処理を終了し、電子メールデータであるときは(ステップS1101でYES)、キーワード包含領域に含まれるキーワードの位置が、キーワード検出部203による検出結果のリストの末尾から指定行数以内であるか否かを判別する(ステップS1102)。キーワードの位置がリストの末尾から指定行数以内であるときは(ステップS1102でYES)、キーワードを電子メールのシグネチャであるとして、当該キーワードを検出されたキーワードから除外して(ステップS1103)、本処理を終了する。キーワードの位置がリストの末尾から指定行数より大きいときは、当該キーワードが引用符(例えば「>>」等)の末尾から指定行数以内であるか否かを判別する(ステップS1104)。当該キーワードが引用符の末尾から指定行数以内であるときは(ステップS1104でYES)、キーワードを電子メールのシグネチャであるとして、当該キーワードを検出されたキーワードから除外して(ステップS1103)、本処理を終了し、当該キーワードが引用符の末尾から指定行数より大きいときは(ステップS1104でNO)、そのまま本処理を終了する。
本キーワード除去処理によれば、電子メールの末尾等に付されるシグネチャをキーワードから除外することにより、シグネチャのような本来外部に発信するための個人情報を個人情報の判定の材料として含めずに、電子メールに個人情報が含まれるか否かを評価することができる。
本実施の形態では、情報処理装置10は、情報処理装置10に入力される入力文書200を評価するべく上記各処理を実行するが、これに限るものではなく、情報処理装置10の記憶媒体ドライブ109でのメディアへの書き込み時に上記各処理を実行するものであってもよい。また、情報処理装置10は、ハードディスク108への書き込み時に上記各処理を実行してもよく、また、情報処理装置10に接続される不図示の印刷装置を用いてデータ出力を行う際に上記各処理を実行するものであってもよい。
また、本実施の形態では、情報処理装置10は、個人情報指標値Piが所定値以上である場合に入力文書200は個人情報を含むと判定するが、この場合に、情報処理装置10に接続される表示装置や音声出力装置を用いて警告を発してもよい。
また、本実施の形態では、個人情報は姓名、住所、電話番号、電子メールを例に説明したが性別や生年月日、あるいは社員コードや住民票コードをはじめとする個人を識別する情報であればこれらに限らないことは言うまでもない。
また、本発明の目的は、上述した実施の形態の機能を実現するソフトウェアのプログラムを記憶した記憶媒体を画像処理装置に供給し、その画像処理装置のコンピュータ(又はCPUやMPU等)が記憶媒体に格納されたプログラムコードを読出して実行することによっても、達成される。
この場合、記憶媒体から読出されたプログラムコード自体が上述した実施の形態の機能を実現することとなり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成する。
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW等の光ディスク、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。
コンピュータから読出されたプログラムコードを実行することにより、上述した上記実施の形態の機能が実現されだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動するOS(オペレーティングシステム)等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
本発明の実施の形態に係る情報処理装置のハードウェア構成を概略的に示すブロック図である。 図1の情報処理装置の機能を模式的に示すブロック図である。 キーワード検出部による検出結果のリストの一例を示す図である。 図2における属性決定部により実行される属性決定処理を示すフローチャートである。 図4のステップS410におけるキーワード包含領域を画定する処理を説明する図である。 図2におけるキーワード包含領域決定部により実行される領域決定処理を示すフローチャートである。 図2における包含領域評価部により実行される包含領域評価処理を示すフローチャートである。 図2における計測情報作成部及び入力文書判定部により実行される入力文書判定処理を示すフローチャートである。 図7の包含領域評価処理が実行された場合の一例を示す図である。 他の入力文書に対して図7の包含領域評価処理が実行された場合を説明する図である。 電子メールの末尾に付されるシグネチャについてのキーワード除去処理を示すフローチャートである。
符号の説明
10 情報処理装置
200 入力文書
201 キーワード記憶部
203 キーワード検出部
204 包含領域生成部
205 包含領域評価部
206 計測情報作成部
207 入力文書判定部

Claims (9)

  1. 個人情報を形成し得る個人情報形成情報を検出するための個人情報検出情報と、当該個人情報検出情報により検出される個人情報形成情報の属性情報と、を対応付けて記憶する記憶手段と、
    前記記憶手段に記憶された個人情報検出情報を用いて、検査対象データから個人情報形成情報を検出する検出手段と、
    前記検出手段で検出した個人情報形成情報それぞれの属性情報、及び個人情報形成情報の前記検査対象データ中の位置関係に従って、前記個人情報形成情報の集合を生成する生成手段と、
    前記集合中の個人情報形成情報の数を用いて計測情報を作成する作成手段と、
    前記集合のそれぞれについて作成された前記計測情報を用いて、前記検査対象データが個人情報を含む度合いを示す指標値を算出する算出手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記作成手段はさらに、前記集合中の個人情報形成情報の前記検査対象データにおける距離に基づいて前記計測情報を作成すること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記属性情報には、氏名に関する属性情報が含まれ、
    前記生成手段は、各集合に氏名に関する属性情報を有する個人情報形成情報が含まれるよう前記集合を生成すること
    を特徴とする請求項1または2に記載の情報処理装置。
  4. 前記検出手段により検出された個人情報形成情報の検出に用いられた前記個人情報検出情報に複数の属性情報が対応付けられている場合に、前記複数の属性情報の中から当該個人情報形成情報の属性情報を決定する属性決定手段をさらに備え、
    前記生成手段は、前記属性決定手段で決定された属性情報に従って前記集合を生成すること
    を特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記検査対象データが個人情報を含むデータであることを判定するための所定の閾値を設定する第2の設定手段と、
    前記指標値と前記所定の閾値とを用いて、前記検査対象データが個人情報を有するデータであるかを判定する判定手段と
    をさらに備えることを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
  6. 前記生成手段により生成された前記集合中の一の個人情報形成情報が、当該集合に含まれる他の個人情報形成情報と予め設定された値よりも距離が離れている場合に、前記一の個人情報形成情報を前記集合から除去する除去手段
    をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記検査対象データは電子メールデータであり、
    前記検出手段で検出された個人情報形成情報が、電子メールデータの末尾から指定行以内または引用符の末尾から指定行以内にあるかを判定する第2の判定手段と、
    前記第2の判定手段で指定行以内にあると判定された個人情報形成情報を、前記生成手段が前記個人情報形成情報の集合の生成に用いる個人情報形成情報から除外する除外手段と
    をさらに備えることを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 個人情報を形成し得る個人情報形成情報を検出するための個人情報検出情報と、当該個人情報検出情報により検出される個人情報形成情報の属性情報と、を対応付けて記憶する記憶装置を備える情報処理装置によって行われる情報処理方法であって、
    前記記憶装置に記憶された個人情報検出情報を用いて、検査対象データから前記個人情報形成情報を検出する検出工程と、
    前記検出工程で検出した個人情報形成情報それぞれの属性情報、及び個人情報形成情報の前記検査対象データ中の位置関係に従って、前記個人情報形成情報の集合を生成する生成工程と、
    前記集合中の個人情報形成情報の数を用いて計測情報を作成する作成工程と、
    前記集合のそれぞれについて作成された前記計測情報を用いて、前記検査対象データが個人情報を含む度合いを示す指標値を算出する算出工程と、
    を備えることを特徴とする情報処理方法。
  9. 個人情報を形成し得る個人情報形成情報を検出するための個人情報検出情報と、当該個人情報検出情報により検出される当該個人情報形成情報の属性情報と、を対応付けて記憶する記憶装置を備えるコンピュータを、
    前記記憶装置に記憶された個人情報検出情報を用いて、検査対象データから前記個人情報形成情報を検出する検出手段と、
    前記検出手段で検出した個人情報形成情報それぞれの属性情報、及び個人情報形成情報の前記検査対象データ中の位置関係に従って、前記個人情報形成情報の集合を生成する生成手段と、
    前記集合中の個人情報形成情報の数を用いて計測情報を作成する作成手段と、
    前記集合のそれぞれについて作成された前記計測情報を用いて、前記検査対象データが個人情報を含む度合いを示す指標値を算出する算出手段と、
    して機能させることを特徴とするコンピュータプログラム。
JP2006301760A 2006-11-07 2006-11-07 情報処理装置、情報処理方法、及びコンピュータプログラム Active JP4823022B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006301760A JP4823022B2 (ja) 2006-11-07 2006-11-07 情報処理装置、情報処理方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006301760A JP4823022B2 (ja) 2006-11-07 2006-11-07 情報処理装置、情報処理方法、及びコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2008117287A JP2008117287A (ja) 2008-05-22
JP2008117287A5 JP2008117287A5 (ja) 2009-12-03
JP4823022B2 true JP4823022B2 (ja) 2011-11-24

Family

ID=39503133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006301760A Active JP4823022B2 (ja) 2006-11-07 2006-11-07 情報処理装置、情報処理方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4823022B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569528B2 (en) * 2008-10-03 2017-02-14 Ab Initio Technology Llc Detection of confidential information
JP2010134848A (ja) * 2008-12-08 2010-06-17 Nomura Research Institute Ltd メール監査システム及び方法
JP5146886B2 (ja) * 2010-04-30 2013-02-20 Necフィールディング株式会社 個人関連情報有無表示システム
US9087039B2 (en) * 2012-02-07 2015-07-21 Microsoft Technology Licensing, Llc Language independent probabilistic content matching
JP2017162138A (ja) 2016-03-09 2017-09-14 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4648657B2 (ja) * 2004-07-06 2011-03-09 三菱スペース・ソフトウエア株式会社 データ検査装置、データ検査方法
JP2006178603A (ja) * 2004-12-21 2006-07-06 Fujitsu Social Science Laboratory Ltd 個人情報検索プログラム、処理方法および処理装置、個人情報管理プログラム、ならびに個人情報管理システム
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム

Also Published As

Publication number Publication date
JP2008117287A (ja) 2008-05-22

Similar Documents

Publication Publication Date Title
US10089287B2 (en) Redaction with classification and archiving for format independence
JP6077472B2 (ja) 機械学習を行うためのユーザインターフェース及びワークフロー
US20170316066A1 (en) Concept-based analysis of structured and unstructured data using concept inheritance
US9600134B2 (en) Selecting portions of computer-accessible documents for post-selection processing
Chow et al. Increased rates of authorship in radiology publications: a bibliometric analysis of 142,576 articles published worldwide by radiologists between 1991 and 2012
US7739289B2 (en) Reviewing user-created content before website presentation
JP4823022B2 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
CN105683948A (zh) 翻译辅助系统
CN104094250B (zh) 语言无关的概率内容匹配
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
US11245809B2 (en) Information processing apparatus and computer readable medium for changing document display modes
JP6056489B2 (ja) 翻訳支援プログラム、方法、および装置
EP1153352B1 (en) Method of hidden text detection and use in electronic document approval
JP2007011521A (ja) 情報漏洩防止システム、情報漏洩防止サーバ、情報漏洩防止端末及び情報漏洩防止方法
JP6631091B2 (ja) 情報処理装置及び情報処理プログラム
JP2006023865A (ja) データ検査装置、データ検査方法
JP2018185601A (ja) 情報処理装置及び情報処理プログラム
JP2006079233A (ja) 個人情報漏洩監視システム、個人情報漏洩監視方法、個人情報漏洩監視プログラムおよびそのプログラムを記録した記録媒体
JP2013191122A (ja) 情報処理装置及び情報処理プログラム
JP2014081867A (ja) 情報処理装置及び情報処理プログラム
JP2004206468A (ja) 文書管理システム及び文書管理プログラム
JP6065657B2 (ja) 電子データ承認方法、及び電子データ承認サーバ
JP2006338114A (ja) データ管理装置およびデータ管理方法
CN112698821A (zh) 代码标注方法、装置、计算机设备、介质和系统
CN116599924A (zh) 一种邮件发送方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110822

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110906

R150 Certificate of patent or registration of utility model

Ref document number: 4823022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250