JP2017157023A - 情報処理装置、及び、情報処理システム - Google Patents

情報処理装置、及び、情報処理システム Download PDF

Info

Publication number
JP2017157023A
JP2017157023A JP2016040097A JP2016040097A JP2017157023A JP 2017157023 A JP2017157023 A JP 2017157023A JP 2016040097 A JP2016040097 A JP 2016040097A JP 2016040097 A JP2016040097 A JP 2016040097A JP 2017157023 A JP2017157023 A JP 2017157023A
Authority
JP
Japan
Prior art keywords
information
character string
target data
personal information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016040097A
Other languages
English (en)
Inventor
昌幸 加納
Masayuki Kano
昌幸 加納
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Machinery Ltd
Original Assignee
Murata Machinery Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Machinery Ltd filed Critical Murata Machinery Ltd
Priority to JP2016040097A priority Critical patent/JP2017157023A/ja
Publication of JP2017157023A publication Critical patent/JP2017157023A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】未知である個人情報を電子情報中から検知可能とする情報処理装置及び情報処理システムを提供する。【解決手段】情報処理装置1は、記憶部15と、取得部111と、文字列抽出部113と、判定部115と、通知部117と、を備える。記憶部15は、特定フォーマット情報FIを記憶する。取得部111は、個人情報が含まれているか否かを判定する対象である対象データDを取得する。文字列抽出部113は、対象データDから文字列を抽出する。判定部115は、抽出された文字列に含まれる複数の文字及び/又は記号の配置と一致する文字及び/又は記号の配置に関する情報を、特定フォーマット情報FIが含んでいれば、当該対象データDには個人情報が存在すると判定する。通知部117は、判定部115で判定された結果を通知する。【選択図】図2

Description

本発明は、電子情報中に含まれる個人情報を検出する情報処理装置、及び、当該情報処理装置により構成される情報処理システムに関する。
従来、パーソナルコンピュータなどにて入力された電子情報に個人情報が含まれているか否かを判定するコンピュータシステムが知られている。例えば、特許文献1には、文字列データに含まれる個人情報文字列を他の文字列に置き換える(マスキングする)、文字列変換装置が開示されている。
当該装置は、過去に閲覧された個人情報の項目を表す重点マスク情報が存在していれば、当該重点マスク情報に基づくあいまい検索を実行することで、電子情報に含まれる個人情報文字列を検出する。その一方、当該装置は、重点マスク情報が存在していなければ、個人情報辞書に記憶された個人情報文字列に基づいて、電子情報に含まれる個人情報文字列を検出する。
特開2013−105274号公報
上記のように、特許文献1の装置では、過去に閲覧されたことがある情報、又は、既知の個人情報を用いて、電子情報に含まれる個人情報文字列を検出している。従って、当該装置では、電子情報がこれまで閲覧されたことがない個人情報や未知の個人情報を含んでいる場合には、これらの個人情報を電子情報から検出できない。
本発明の目的は、電子情報に含まれる個人情報を検出する情報処理装置において、未知である個人情報を電子情報から検知可能とすることにある。
以下に、課題を解決するための手段として複数の態様を説明する。これら態様は、必要に応じて任意に組み合せることができる。
本発明の一見地に係る情報処理装置は、記憶部と、取得部と、文字列抽出部と、判定部と、通知部と、を備える。
記憶部は、特定フォーマット情報を記憶する。特定フォーマット情報は、特定の文字列にて示される個人情報における、当該特定の文字列中の文字及び/又は記号の配置に関する情報を含む。
取得部は、個人情報が含まれているか否かを判定する対象である対象データを取得する。
文字列抽出部は、対象データから文字列を抽出する。
判定部は、抽出された文字列に含まれる文字及び/又は記号の配置と一致する文字及び/又は記号の配置に関する情報を、特定フォーマット情報が含んでいれば、当該対象データには個人情報が存在すると判定する。
通知部は、判定部で判定された結果を通知する。
上記の情報処理装置においては、まず、文字列抽出部が、取得部にて取得された対象データから、文字列を抽出する。次に、判定部が、抽出された文字列に含まれる文字及び/又は記号の配置と、特定フォーマット情報に含まれる文字及び/又は記号の配置に関する情報とを比較する。当該比較の結果、抽出された文字列に含まれる文字及び/又は記号の配置と、特定フォーマット情報に含まれる文字及び/又は記号の配置とが一致すれば、判定部は、対象データ中には、特定の文字列にて示される個人情報が存在すると判定する。その後、通知部は、判定部における判定結果(対象データに個人情報が含まれるか否か)を通知する。
上記の情報処理装置では、既知の個人情報の文字列と完全一致する文字列が対象データに含まれているか否かではなく、対象データに含まれる文字列中の文字及び/又は記号の配置が、個人情報が有する特有の文字及び/又は記号の配置と一致するか否かにより、対象データに個人情報が含まれているか否かを判定している。
これにより、これまで検出された既知の個人情報だけでなく、今まで検出されたことがない未知の個人情報についても、対象データに存在するか否かを判定できる。
判定部は、対象データから抽出された文字列に含まれる文字及び/又は記号の配置と一致する、文字及び/又は記号の配置を有する個人情報を特定し、当該特定した個人情報を記憶部に記憶してもよい。これにより、これまでに特定できた個人情報を記憶部に記憶できる。
対象データが画像データを含んでいれば、文字列抽出部は、画像認識により当該画像データから文字列を抽出してもよい。これにより、文字列抽出部は、画像中に含まれる文字列を抽出できる。その結果、判定部は、画像中に個人情報が含まれているか否かを判定できる。
文字列抽出部は、自然言語処理により対象データから文字列を抽出してもよい。これにより、意味のある適切な文字列を、対象データから効率的に抽出できる。
本発明の他の見地に係る情報処理システムは、上記の情報処理装置と、通信端末と、を備える。通信端末は、対象データを情報処理装置に送信する送信部と、情報処理装置からの通知を受信する受信部と、を有する。情報処理システムでは、通信端末の通信部が、当該通信端末が有する対象データを情報処理装置に送信している。また、受信部が情報処理装置からの通知を受信している。
これにより、情報処理システムの情報処理装置は、通信端末が保有する対象データに対して個人情報が含まれているか否かを判定できる。また、通信端末は、自身が保有していた対象データに個人情報が含まれているか否かの判定結果を、情報処理装置から受信できる。
本発明に係る情報処理装置及び情報処理システムでは、既知の個人情報だけでなく、未知の個人情報も含めて対象データに存在するか否かを判定できる。
情報処理システムの構成を示す図。 情報処理装置の構成を示す図。 特定フォーマット情報の一例を示す図。 通信端末の構成の一例を示す図。 情報処理システムの動作を示すフローチャート。 情報処理装置の設定画面の一例を示す図。 個人情報の検出方法を示すフローチャート。 対象データに含まれるテキストデータの一例を示す図。 テキストデータから形態素を抽出した一例を示す図。
1.第1実施形態
(1)情報処理システムの構成
以下、第1実施形態に係る情報処理システム100の構成について、図1を用いて説明する。図1は、情報処理システムの構成を示す図である。
情報処理システム100は、情報処理装置1を備える。情報処理装置1は、CPU(Central Processing Unit)、記憶装置(RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、SSD(Solid State Drive)など)、各種インターフェース、などにて構成されるサーバーである。
情報処理装置1は、通信端末3−1〜3−n(後述)において作成された、例えば、文書ファイルや画像ファイルなどの電子ファイルを保存するためのファイルサーバーである。また、情報処理装置1は、通信端末3−1〜3−nから送信されて、情報処理装置1に記憶された文書ファイルや画像ファイルに、個人情報が含まれているか否かを判定する。
情報処理装置1に記憶されている個人情報が含まれている場合には、情報処理装置1は、当該個人情報を含むファイルを送信してきた通信端末3−1〜3−nに対して、送付されたファイルに個人情報が含まれていることを通知する。情報処理装置1の構成については、後ほど詳しく説明する。
情報処理システム100は、通信端末3−1〜3−nを備える。通信端末3−1〜3−nは、それぞれ、例えば、CPU、記憶装置(RAM、ROM、ハードディスク装置、SSD)、各種インターフェースなどにて構成されるパーソナルコンピュータ(PC)などの汎用コンピュータである、また、通信端末3−1〜3−nは、スマートフォンなどの情報通信機器であってもよい。
通信端末3−1〜3−nは、ネットワークNWを介して上記の情報処理装置1と接続されている。通信端末3−1〜3−nは、所定の時間毎、ユーザによる指令、又は、情報処理装置1からの要求により、保存されている文書ファイルや画像ファイル、又は、外部装置(例えば、デジタルカメラなど)から通信端末3−1〜3−nに入力された画像ファイルなどを、情報処理装置1に送信する。
また、通信端末3−1〜3−nは、情報処理装置1に保存した電子ファイルに個人情報が含まれていることの通知を、情報処理装置1から受信する。これにより、通信端末3−1〜3−nは、作成した電子ファイルに個人情報が含まれているか否かを知ることができる。そして、必要に応じて、ユーザは、個人情報を電子ファイルから削除するなどの対策を講じることができる。なお、通信端末3−1〜3−nの構成については、後ほど詳しく説明する。
上記の構成を有することにより、情報処理システム100では、複数の通信端末3−1〜3−nにて生成又は取得された電子ファイルを、情報処理装置1が一括して管理できる。
(2)情報処理装置の構成
次に、情報処理システム100に備わる情報処理装置1の構成について、図2を用いて説明する。図2は、情報処理装置の構成を示す図である。以下に示す情報処理装置1の各構成要素の機能の一部又は全部は、情報処理装置1を構成するサーバーにおいて実行可能なプログラムとして実現されていてもよい。また、当該プログラムは、情報処理装置1の記憶装置に記憶されていてもよい。
情報処理装置1は、サーバー制御部11を有する。サーバー制御部11は、情報処理装置1に対して、本実施形態におけるファイルサーバーとしての機能を実現する。
具体的には、サーバー制御部11は、取得部111を有する。取得部111は、通信端末3−1〜3−nから、ネットワーク・インターフェース13(後述)を介して、個人情報が含まれているか否かを判定する対象である対象データDを取得し、記憶部15(後述)に記憶する。
取得部111は、所定の時間毎に、通信端末3−1〜3−nに対して対象データD(文書ファイルなど)を送信するよう指令して、通信端末3−1〜3−nから対象データDを受信してもよい。または、取得部111は、上記の指令などをすることなく、通信端末3−1〜3−nから対象データDを受信し、当該対象データDを記憶部15に記憶してもよい。
サーバー制御部11は、文字列抽出部113を有する。文字列抽出部113は、記憶部15に記憶された対象データDから、文字列を抽出する。本実施形態において、文字列抽出部113は、対象データDとして、テキストデータを含む文書ファイル、又は、バイナリデータにて構成される画像データを含む画像ファイルから、当該文書ファイルや画像ファイルに含まれる文字列を抽出する。
対象データDが画像データである場合には、文字列抽出部113は、光学文字認識(Optical Character Recognition、OCR)などの画像認識により、画像データに含まれる文字列を抽出する。これにより、情報処理装置1は、画像中に含まれる個人情報の有無についても判定できる。
文字列抽出部113は、対象データDから抽出された文字列により構成される文章を、単語や助詞などの単位毎に分節することにより、当該文章から何らかの意味を持つ文字列を抽出する。本実施形態において、文字列抽出部113は、「形態素解析」などの自然言語処理を実行することにより、対象データDから意味のある文字列を抽出している。これにより、文字列抽出部113は、対象データDから、個人情報の有無に最適な意味のある適切な文字列を抽出できる。
サーバー制御部11は、判定部115を有する。判定部115は、対象データDに個人情報が含まれているか否かを判定する。判定部115は、対象データDから抽出された意味のある文字列に含まれる文字及び/又は記号の配置と一致する文字及び/又は記号の配置に関する情報を、特定フォーマット情報FI(後述)が含んでいれば、個人情報の有無を判定している対象データDに、個人情報が存在すると判定する。
判定部115において実行される、対象データDに個人情報が含まれるか否かの判定処理については、後ほど詳しく説明する。
判定部115は、対象データDに個人情報が含まれていると判定した場合、当該個人情報を特定し、特定した具体的な個人情報を個人情報検出ログL(後述)に記憶する。これにより、これまでに特定できた個人情報を記憶部15に記憶できる。
サーバー制御部11は、通知部117を有する。通知部117は、判定部115で判定された結果を通知する。具体的には、例えば、判定部115において対象データDに個人情報が含まれると判定された場合に、通知部117は、当該対象データDを送信した通信端末に対して、「送信した対象データ(のファイル名など)には個人情報が含まれています」とのメッセージを送信する。これにより、個人情報を含んだ対象データDを送信した通信端末のユーザは、送信した対象データDに個人情報が含まれていたことを視覚的に認識できる。
その他、通知部117は、通信端末において音を鳴らす、及び/又は、通信端末の画面に表示されているアイコン(通信端末から対象データDを送信するためのソフトウェアのアイコン)の表示状態を変化させることによっても、対象データDに個人情報が含まれることを、通信端末に3−1〜3−nに通知できる。
上記の構成を有することにより、サーバー制御部11は、対象データDを記憶部15に記憶するファイルサーバーとしての機能だけでなく、対象データDに個人情報が含まれているか否かの判定を行う機能も実現できる。
情報処理装置1は、ネットワーク・インターフェース13を有する。ネットワーク・インターフェース13は、特定の通信プロトコル(例えば、TCP/IPプロトコルなど)を用いて、ネットワークNWを介して通信端末3−1〜3−nと通信するインターフェースである。ネットワーク・インターフェース13は、例えば、Ethernet(登録商標)カードである。
情報処理装置1は、記憶部15を有する。記憶部15は、情報処理装置1を構成するサーバーの記憶装置の記憶領域の一部又は全部である。記憶部15は、情報処理装置1にて用いる各種データを記憶する。
具体的には、記憶部15は、通信端末3−1〜3−nから送信されてきた対象データDを記憶する。これにより、情報処理装置1は、ファイルサーバーとして機能できる。
記憶部15は、個人情報検出ログLを記憶する。個人情報検出ログLには、判定部115にて検出され特定された個人情報が記憶される。
具体的には、個人情報検出ログLは、例えば、特定した具体的な個人情報と、当該個人情報を特定した時刻、当該個人情報が含まれていた対象データDと、当該対象データDを送信した通信端末を識別する情報(例えば、コンピュータ名、IPアドレスなど)と、を記憶する。これにより、情報処理装置1は、例えば、どの通信端末において個人情報を含む対象データDが生成されているかなどを知ることができる。
その他、個人情報検出ログLは、本来個人情報として検出されるべきであったが、判定部115において検出されなかった個人情報についての情報(当該個人情報のフォーマット、当該フォーマットに配置された具体的な文字など)を記憶してもよい。
例えば、情報処理装置1の管理者が、記憶部15に記憶されている対象データDの内容と、個人情報検出ログLの内容とを比較することで、対象データDに含まれる個人情報のうち、個人情報検出ログLに記憶されていない個人情報を、判定部115にて判定できなかった個人情報と判定できる。
記憶部15は、特定フォーマット情報FIを記憶する。特定フォーマット情報FIは、図3に示すように、特定の文字列にて示される個人情報における、当該特定の文字列中の文字及び/又は記号の配置に関する情報を含む情報である。図3は、特定フォーマット情報の一例を示す図である。
図3に示す特定フォーマット情報においては、例えば、それぞれが特定の文字列として記憶されている「姓」と「名」とにより構成されている文字列(「姓」と「名」との間には「スペース」が挿入されていてもよい)を、個人情報である「氏名」を表す文字列と定義している。
一方、個人情報である「会社名」については、実在する会社名を表す文字列と定義する。その他、会社名に「新聞」、「ホールディングス」などの末尾語を含む文字列や、会社名の前後に「株式会社」、「有限会社」、「銀行」、「合同会社」の文字列を有する文字列も、「会社名」を表すものと定義している。
その他の個人情報を示す特定の文字列についても、上記と同様にして、図3に示すように特定フォーマット情報FIにて定義されている。なお、図3には示していないが、特定フォーマット情報FIは、マイナンバーのフォーマットに関する情報、クレジットカード番号のフォーマットに関する情報、及び/又は銀行口座のフォーマットに関する情報も含んでいてもよい。
図3に示すように、特定フォーマット情報FIにおいては、氏名、会社名、住所などは、具体的な文字列で定義されている。なぜなら、氏名、会社名、住所といった情報は、よく知られた特定の文字列の組み合わせとして表されることが多いからである(例えば、氏名ならば「姓」と「名」との組み合わせ、会社名なら「株式会社」などと「会社名」との組み合わせ、住所なら「県名」と「市名」と「町名」との組み合わせにて表される)。
一方、特定フォーマット情報FIは、英数字や記号で表される情報については、それらの情報が有する特定のフォーマットを定義している。なぜなら、英数字や記号の組み合わせはほぼ無限に考えられる一方、英数字や記号で表される個人情報のフォーマット(文字及び/又は記号の配置)は、予め決められた特定のものだからである。例えば、郵便番号(日本)なら、「3桁の数字」+「−(又はスペース)」+「4桁の数字」とのフォーマットを有する。
このように、特に英数字と記号にて表される情報をフォーマットとして定義することにより、完全一致する個人情報が予め分かっていない場合でも、フォーマットが分かっている情報(ほとんどの情報はこれに当てはまる)を適切に個人情報として抽出できる。
上記の構成を有することにより、情報処理装置1は、対象データDを記憶するファイルサーバーとしての機能のみでなく、対象データDに個人情報か含まれているか否かの判定をして判定結果を通知する機能も備えることができる。
なお、情報処理装置1は、図3には図示されていないが、HTTP(HyperText Transfer Protocol)サーバー機能を有している。これにより、情報処理装置1の管理者は、外部の端末(例えば、通信端末3−1〜3−n)を用いて、情報処理装置1の各種設定を行える。
(3)通信端末の構成
次に、情報処理システム100に備わる通信端末3−1〜3−nの構成について説明する。以下においては、汎用コンピュータである通信端末3−1の構成について、図4を用いて説明する。なぜなら、他の通信端末3−2〜3−nも、基本的には、通信端末3−1と同様の構成を示すからである。図4は、通信端末の構成の一例を示す図である。
以下に説明する通信端末3−1の各構成要素の機能の一部又は全部は、情報処理装置1と通信を行うソフトウェア(あるいは、アプリケーション)にて実現されていてもよい。また、当該プログラムは、通信端末3−1の記憶装置に記憶されていてもよい。
通信端末3−1は、端末制御部31を有する。端末制御部31は、情報処理システム100において、情報処理装置1と所定の通信を行う。
具体的には、端末制御部31は、送信部311を有する。送信部311は、ネットワーク・インターフェース35(後述)を介して、所定の時間毎、入力装置371(後述)を介したユーザによる指令、及び/又は、情報処理装置1からの要求にて、記憶部33(後述)に記憶されている対象データDを、情報処理装置1へ送信する。
なお、送信部311は、記憶部33に記憶されているデータのうち、テキストデータを含む文書ファイル、及び、画像データを含む画像ファイルを、対象データDとして自ら選択して送信する。なお、文書ファイルや画像ファイルは、例えば、特定のフォルダ内に格納されているファイル、あるいは、ファイルの拡張子を指定することにより、選択できる。
または、送信部311は、記憶部33に記憶されているデータを、全て送信してもよい。つまり、実行ファイルなどの個人情報が含まれている可能性がないファイルも含めて送信されてもよい。全てのファイルを送信した場合には、情報処理装置1の取得部111が、送信されたファイルの中から対象データDを選択して、情報処理装置1の記憶部15に記憶してもよい。
端末制御部31は、受信部313を有する。受信部313は、ネットワーク・インターフェース35(後述)を介して、対象データDに個人情報が含まれていたか否かの検出結果を、情報処理装置1から受信する。
通信端末3−1は、記憶部33を有する。記憶部33は、通信端末3−1を構成する汎用コンピュータの記憶装置の記憶領域の一部又は全部である。記憶部33は、通信端末3−1にて作成された文書ファイル、及び/又は、外部装置から取得した画像ファイルなどを対象データDとして記憶する。また、記憶部33は、その他、端末制御部31にて用いる各種パラメータを記憶してもよい。
通信端末3−1は、ネットワーク・インターフェース35を有する。ネットワーク・インターフェース35は、特定の通信プロトコル(例えば、TCP/IPプロトコルなど)を用いて、ネットワークNWを介して情報処理装置1と通信するインターフェースである。ネットワーク・インターフェース35は、例えば、Ethernet(登録商標)カードである。
通信端末3−1は、入出力インターフェース37を有する。入出力インターフェース37は、通信端末3−1と外部装置との間のデータの送受信を制御する。入出力インターフェース37には、例えば、USB(Universal Serial Bus)ポートなどを介して、キーボードやマウスなどにて構成される入力装置371が接続されている。入力装置371は、ユーザによる指令を通信端末3−1に入力するための装置である。
デジタルカメラなどの画像データを含む画像ファイルを生成した外部装置を、入力装置371として、入出力インターフェース37に接続してもよい。これにより、当該デジタルカメラにて生成された画像ファイルに個人情報が含まれているか否かを確認できる。
また、入出力インターフェース37には、例えば、映像入力インターフェースなどを介して、液晶ディスプレイなどのディスプレイ373が接続されている。ディスプレイ373は、情報処理装置1から個人情報の検出結果が通信端末3−1に送信されてきた場合に、当該検出結果を表示する。
上記の構成を有することにより、通信端末3−1〜3−nは、ユーザにより作成された文書ファイル、又は、外部装置(例えば、デジタルカメラなど)から入力された画像ファイルなどを、対象データDとして情報処理装置1に送信できる。また、通信端末3−1〜3−nのユーザは、記憶部33に記憶されていた、又は、外部装置から入力した対象データDに、個人情報が含まれているか否かを視覚的に知ることができる。
(4)情報処理システムの動作
以下、本実施形態に係る情報処理システム100の動作について、図5を用いて説明する。図5は、情報処理システムの動作を示すフローチャートである。
情報処理システム100においては、まず、情報処理装置1にて対象データDの個人情報の抽出を行う際の条件を設定する(ステップS1)。具体的には、例えば、情報処理装置1の管理者が、通信端末3−1〜3−nのいずれかを用いて、例えばWebブラウザにて、HTTPサーバー機能を有する情報処理装置1にアクセスする。
通信端末3−1〜3−nのいずれかのWebブラウザにて情報処理装置1にアクセスすると、例えば、図6に示すような設定画面表示が、Webブラウザ上になされる。図6は、情報処理装置の設定画面の一例を示す図である。
当該設定画面において、例えば、各個人情報に対応するチェックボックスに「チェック」を入力することにより、検出する対象としたい個人情報を選択できる。図6に示す例では、「氏名」、「会社名」、「住所」が、検出したい個人情報として選択されている。
また、図6に示す設定画面において、「フリーワード」に対応するチェックボックスに「チェック」を入力した上で、当該「フリーワード」の下のテキスト入力領域にテキストを入力することにより(図6の例では、「極秘」と入力されている)、特定フォーマット情報FIに予め記憶されていない個人情報なども、検出することができる。
図6に示すような設定画面にて検出する個人情報を設定後、例えば、当該設定画面の「保存」と記載されたボタンを押すことにより、当該設定画面上の設定が情報処理装置1にWebブラウザを介して送信され、情報処理装置1において当該送信された設定が反映される。
検出したい個人情報を設定後、通信端末3−1〜3−nの送信部311が、所定の時間毎、ユーザによる指令、又は情報処理装置1からの要求により、記憶部33に記憶されている対象データDを送信する。
具体的には、送信部311は、記憶部33に記憶されているデータ(ファイル)のうち、対象データDとして送信するデータ(ファイル)を検索し抽出する(ステップS2)。例えば、送信部311は、記憶部33に記憶されている各ファイルの拡張子を参照し、文書ファイル(例えば、「doc」、「ppt」、「xls」などを拡張子として有するファイル)、又は、画像ファイル(例えば、「bmp」、「jpg」などを拡張子として有するファイル)を、対象データDとして抽出する。一方、記憶部33に記憶されているデータを全て情報処理装置1に送信するとした場合には、送信部311は、全てのデータを情報処理装置1へ送信する。
なお、通信端末側において、どの拡張子を有するファイルを対象データDとして送信するかを設定可能となっていてもよい。
その後、送信部311は、上記のステップS2にて抽出した対象データDを、情報処理装置1へ送信する(ステップS3)。
対象データDが情報処理装置1に送信され、当該対象データDが記憶部15に記憶されると、情報処理装置1のサーバー制御部11が、当該対象データDに個人情報が含まれているか否かを判定(個人情報を検出)する(ステップS4)。ステップS4における、個人情報が含まれているか否かの判定方法(個人情報の検出方法)については、後ほど詳しく説明する。
ステップS4において、対象データDに個人情報が含まれていると判定された場合(ステップS5において「Yes」の場合)、情報処理装置1の通知部117は、個人情報が含まれている対象データDを送信してきた通信端末の受信部313に、個人情報が検出された旨の検出結果を送信する(ステップS6)。
具体的には、例えば、まず、通知部117が、個人情報検出ログLを参照して、個人情報を含む対象データDを送信した通信端末のコンピュータ名やIPアドレスなどを特定する。次に、通知部117は、当該特定された通信端末に、対象データDのファイル名と、(必要に応じて)当該対象データDに含まれていた個人情報に関する情報と、を個人情報が検出された旨の検出結果として送信する。
個人情報が検出された旨の検出結果を受信した通信端末の受信部313は、入出力インターフェース37を介して、ディスプレイ373に対して、例えば、「対象ファイル名「○○」に個人情報(△△)が含まれています」とのメッセージを表示するよう指令する(ステップS7)。当該メッセージを見た通信端末のユーザは、例えば、当該対象データDからの個人情報の削除などを実行できる。
一方、対象データDに個人情報が含まれていないと判定された場合(ステップS5において「No」の場合)、通知部117は、個人情報が含まれていない旨を送信しない。なぜなら、通信端末のユーザは、個人情報が検出された旨の検出結果を認識できれば、個人情報が含まれる対象データDに対して何らかの対策を実行できるからである。
しかし、これに限られず、通信端末のユーザや情報処理装置1の管理者による設定により、通知部117は、個人情報が検出されなかった旨を通信端末に通信可能となっていてもよい。
その後、情報処理装置1のサーバー制御部11は、例えば、情報処理装置1の管理者によるファイルサーバー機能及び個人情報検出機能の停止がなされない限り(ステップS8において「No」の場合)、上記の対象データDの受信と、個人情報の検出と、(必要に応じて、個人情報の検出条件の設定)を継続する。
一方、ファイルサーバー機能及び個人情報検出機能の停止がなされた場合(ステップS8において「Yes」の場合)、ファイルサーバー機能及び個人情報検出機能は停止する。
一方、通信端末3−1〜3−nは、その後、通信端末のユーザにより、情報処理装置1との通信を行うプログラム(アプリケーション)の実行停止を指令されない限り(ステップS9において「No」の場合)、所定の条件に従って、対象データDの情報処理装置1への送信を継続する。
一方、情報処理装置1との通信を行うプログラム(アプリケーション)の実行停止の指令がなされた場合(ステップS9において「Yes」の場合)、対象データDの情報処理装置1への送信を停止する。
上記のステップS1〜S9が実行されることにより、情報処理システム100は、情報処理装置1の管理者、又は、通信端末3−1〜3−nのユーザにより、情報処理システム100の停止が実行されない限り、通信端末3−1〜3−nの記憶部33に記憶されている対象データDの情報処理装置1への送信と、情報処理装置1における対象データDに個人情報が含まれているか否かの判定処理と、必要に応じて検出結果の通知処理と、を継続的に実行できる。
(5)個人情報の検出処理
次に、上記のステップS4にて情報処理装置1が実行する、対象データDに個人情報が含まれるか否かの判定(個人情報の検出)処理について、図7を用いて説明する。図7は、個人情報の検出方法を示すフローチャートである。
対象データDが通信端末3−1〜3−nから送付されてくると、情報処理装置1の取得部111が、送付されてきた対象データDを取得し、記憶部15に記憶する(ステップS401)。
なお、通信端末3−1〜3−nの記憶部33に記憶されている全てのファイルが送信されてくる場合、取得部111は、例えば、送付されてきたファイルの拡張子を識別して、対象データDとして情報処理装置1の記憶部15に記憶するデータを選択してもよい。または、取得部111は、送付されてきた全てのファイルを無条件に記憶部15に記憶してもよい。
通信端末3−1〜3−nからの対象データD(全てのファイル)を取得し、記憶部15に記憶した後、サーバー制御部11は、当該対象データDに個人情報が含まれているか否かの判定を実行する。
まず、サーバー制御部11の文字列抽出部113が、記憶部15に記憶されている(典型的には複数の)対象データD(ファイル)から、個人情報が含まれているか否かの判定を実行する1つの対象データDを選択する。その後、文字列抽出部113は、文字列の抽出を行う前に、当該選択した1つの対象データDがそもそも個人情報を含む可能性があるか否かを判定する(ステップS402)。
例えば、文字列抽出部113は、選択した1つの対象データDが、通信端末3−1〜3−nにて実行される実行ファイル、又は、当該実行ファイルを実行するために必要な補助的なファイルであれば、選択した対象データDは個人情報をそもそも含まないと判定する。
例えば、選択した対象データDの拡張子が、「exe」(実行ファイルを表す拡張子)であるか、または、「dll」(補助的なファイルを表す拡張子)などの個人情報を含まないファイルの拡張子である場合(ステップS402において「Yes」の場合)、文字列抽出部113は、選択した対象データDは個人情報を含まないと判定して、個人情報の検出処理を終了する。
なお、送信部311及び/又は取得部111が、文書ファイルや画像ファイルを対象データDとして選択している場合には、上記のステップS402は特に必要ない。
一方、例えば、選択した対象データDの拡張子が、「doc」、「ppt」、「xls」などの文書ファイルを表す拡張子、または、「bmp」、「jpg」などの画像ファイルを表す拡張子であり、対象データDが個人情報を含む可能性がある場合(ステップS402において「No」の場合)、文字列抽出部113は、対象データDから文字列を抽出する(ステップS403)。文字列抽出部113は、対象データDが画像データを含むか否かにより、文字列の抽出方法を適宜選択する。
具体的には、選択した対象データDの拡張子が、「doc」、「ppt」、「xls」などの文書ファイルを表す拡張子であり、かつ、対象データDが主にテキストデータで構成されている場合(ステップS403において「No」の場合)、文字列抽出部113は、対象データDから、当該対象データDに含まれるテキストデータを、そのまま抽出する。このとき、文字列抽出部113は、対象データDの本体部分からだけでなく、対象データDの「メタ情報」部分(対象データDに関する情報を記載する部分)からも、テキストデータを抽出する。
これにより、文書ファイルの本体に含まれるテキストデータだけでなく、「メタ情報」に含まれるテキストデータ(例えば、ファイルの作成者の氏名や所属が含まれる場合がある)に対しても、個人情報が含まれているか否かの判定(個人情報の検出)を実行できる。
一方、対象データDが画像データを含んでいる場合(ステップS403において「Yes」の場合)、文字列抽出部113は、画像データを含む対象データにOCR処理を実行して、当該画像データに示されている文字列を、テキストデータとして抽出する(ステップS404)。これにより、文字列抽出部113は、画像データ中に含まれる文字列を抽出できる。その結果、判定部115は、画像データ中に個人情報が含まれているか否かを判定できる。
また、文字列抽出部113は、文書ファイルである対象データDと同様に、画像ファイル又は画像データに「メタ情報」が含まれていれば、当該「メタ情報」部分からも、テキストデータを抽出する。
なお、文字列抽出部113は、対象データDが画像ファイルである場合だけでなく、対象データDが画像データを含む文書ファイルである場合も、対象データDに含まれる画像データに対してOCR処理を実行し、当該画像データに含まれる文字列をテキストデータとして抽出してもよい。
テキストデータを対象データDから抽出後、文字列抽出部113は、抽出したテキストデータに対して「形態素解析」を実行することにより、当該テキストデータから、意味のある文字列を抽出する(ステップS405)。以下、上記の「意味のある文字列」のことを、「形態素」と呼ぶことにする。例えば、対象データDに、図8Aに示すような記載がテキストデータとして含まれていたとする。図8Aは、対象データに含まれるテキストデータの一例を示す図である。
図8Aに示すテキストデータに対して、改行やスペースを取り除いて「形態素解析」を実行すると、文字列抽出部113は、例えば、図8Aに示すテキストデータから、図8Bに示すような形態素を抽出できる。図8Bは、テキストデータから形態素を抽出した一例を示す図である。図8Bにおいては、「[」と「]」とにより囲まれた文字列が、形態素を構成している。
テキストデータから形態素を抽出後、判定部115は、抽出した形態素のいずれかが、個人情報を示す形態素であるか否かを判定する(ステップS406)。抽出した形態素が個人情報を示すものか否かを判定するため、判定部115は、抽出された各形態素に対して、特定フォーマット情報FIに含まれている各個人情報のフォーマットの「定義」及び/又は「条件」を当てはめる。
図8Bに示す例において、判定部115は、特定フォーマット情報FIを参照して、「○○県」、「△△市」、「□□町」との形態素が、特定フォーマット情報FIの「住所」に対応するものと判定できる。なぜなら、「○○県」、「△△市」、「□□町」は、それぞれ、県名、市名、町名を表すからである。
また、「株式会社△○□」との形態素が、特定フォーマット情報FIの「会社名」に対応していると判定できる。なぜなら、特定の名前「△○□」の前に「株式会社」との語が存在するからである。
さらに、図8Bの「担当」との形態素の直後にある「□○」との形態素は、「□」「○」がそれぞれ姓名として特定フォーマット情報FIに記録されているため、判定部115は、当該「□○」を「氏名」を表すものと判定できる。
また、判定部115は、特定フォーマット情報FIを参照して、英数字と記号の文字列である形態素が、英数字と記号とからなる個人情報のフォーマットと一致するか否かを判定する。この際、判定部115は、英数字と記号とからなる文字列である形態素から、ハイフン(−)やスペースなどの不要なテキストを取り除いた後に、特定フォーマット情報FIとの比較を行う。
図8Bに示した例においては、「123−4567」との数字とハイフンとの文字列にて構成される形態素は、当該形態素からハイフンを取り除くと、「1234567」と7桁の数字の文字列となる。特定フォーマット情報FIによると、7桁の数字の文字列は郵便番号の定義とされているので、判定部115は、「123−4567」との形態素が「郵便番号」を示していると判定できる。
この際、判定部115は、上記の7桁の数字の文字列が郵便番号として実在するものであるかを、例えば、郵便番号から住所を調べることが可能なデータベースなどにアクセスして確認してもよい。7桁の数字の文字列が郵便番号として実在していることが確認されれば、特定フォーマット情報FIの郵便番号の「条件」と一致することとなるので、判定部115は、「123−4567」との形態素が、「郵便番号」を示すことをより確実に判定できる。
上記と同様にして、「0●△−□○×−◎◎△□」との数字とハイフンとの文字列にて構成される形態素は、文字列の先頭に存在する「0」(発信元国際プレフィックス)とハイフンとを除くと9桁の数字の文字列となるので、当該形態素が電話番号(固定電話)を表すものと判定できる。また、「090−○◎■△−□○△◎」との形態素は、ハイフンを除くと11桁の数字の文字列であり、かつ、先頭が「090」となっているので、当該形態素が電話番号(その他)を表すものと判定できる。
このように、文字列抽出部113が「形態素解析」により対象データDから文字列を抽出することにより、意味のある適切な文字列を、対象データDから効率的に抽出できる。
抽出された形態素中の文字や記号の配置が、特定フォーマット情報FIに示された文字や記号の配置のいずれかと一致すると判定された場合(ステップS406において「Yes」の場合)、判定部115は、上記のようにして特定した個人情報を、当該個人情報が含まれていた対象データDのファイル名と、当該対象データDを送信した通信端末の識別情報(コンピュータ名、IPアドレスなど)と、ともに個人情報検出ログLに記憶する(ステップS407)。これにより、判定部115は、これまでに特定できた個人情報を記憶部15に記憶できる。
特定した個人情報を個人情報検出ログLに記憶後、又は、抽出された形態素中の文字や記号の配置が、特定フォーマット情報FIに示された全ての個人情報の文字や記号の配置と一致しなかった場合(ステップS406において「No」の場合)、判定部115は、個人情報が含まれるか否かを判定すべき他の形態素が存在するか否かを確認する(ステップS408)。
個人情報を示すか否かの判定をすべき形態素が残っている場合(ステップS408において「No」の場合)、個人情報を検出するプロセスはS406に戻り、残りの形態素に対して個人情報を示すか否かの判定(個人情報の検出)を実行する。
一方、個人情報を示すか否かの判定をすべき形態素が残っていない場合(ステップS408において「Yes」の場合)、個人情報を検出するプロセスは終了する。
上記のステップS401〜S408を実行することにより、本実施形態に係る情報処理装置1は、既知の個人情報の文字列と完全一致する文字列が対象データDに含まれているか否かではなく、対象データDに含まれる文字列中の文字及び/又は記号の配置が、個人情報が有する特有の文字及び/又は記号の配置と一致するか否かにより、対象データDに個人情報が含まれているか否かを判定できる。
その結果、情報処理装置1は、これまで検出された既知の個人情報だけでなく、いままで検出されたことがない未知の個人情報も含めて、対象データDに存在するか否かを判定できる。
2.他の実施形態
以上、本発明の一実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、発明の要旨を逸脱しない範囲で種々の変更が可能である。特に、本明細書に書かれた複数の実施形態及び変形例は必要に応じて任意に組み合せ可能である。
(A)形態素の抽出についての他の実施形態
上記の第1実施形態において、文字列抽出部113が「形態素解析」より形態素を一旦決定すると、当該決定した形態素は固定とされていた。しかし、これに限られず、より意味のある形態素を抽出するために、文字列抽出部113は、一度決定した形態素を変更して、新たに形態素を抽出し直してもよい。
例えば、「鳥取県境港市***」とのテキストデータを、文字列抽出部113が「形態素解析」により、「鳥取県境」、「港市」、「***」を形態素と決定した場合に、当該テキストデータから「鳥取県」、「境港市」、「***」を新たな形態素として抽出してもよい。
上記のような形態素の変更は、例えば、以下のようにして実行できる。文字列抽出部113は、まず、不適切な形態素を用いて、当該形態素の文字列の文字や記号の配置が、特定フォーマット情報FIに示されたいずれかの個人情報の文字や記号の配置と一致するか否かを判定する。
このとき、文字列抽出部113は、形態素中の文字や記号の配置と個人情報中の文字や記号の配置との一致度を算出する。例えば、「鳥取県境」との形態素に対しては、県名を表す「鳥取県」までは個人情報の文字列と一致しているので、判定部115は、「鳥取県境」との形態素の個人情報との一致度を75%(形態素に含まれる4文字のうち、3文字までが個人情報の定義と一致しているから)とする。
文字列抽出部113は、上記のように高い一致度を有する形態素に対しては、形態素を変更することにより個人情報の文字列との一致度を100%(すなわち、個人情報の定義と完全一致)とすることができると判断して、当該形態素の文字列の長さを調節する。
例えば、「鳥取県境」との形態素の文字列を「鳥取県」と短くすることにより、当該形態素の文字列と県名を示す文字列との一致度を100%と向上できるので、文字列抽出部113は、上記のテキストデータから、「鳥取県」、「境港市」、「***」を新たな形態素として抽出できる。
なお、上記の例においては、「鳥取県境」との形態素を「鳥取県境港」と長くしても、個人情報の文字列(県名+市区郡名、県名には「県」を含んでいる)との一致度を向上できるので、文字列抽出部113は、「鳥取県境港市***」とのテキストデータから、「鳥取県境港」、「市」、「***」を新たな形態素として抽出してもよい。
上記のように、文字列抽出部113が、特定フォーマット情報FIに示されている個人情報の定義との一致度をより高くするように、形態素の抽出の仕方を調節することにより、判定部115は、より精度よく個人情報を検出できる。
(B)情報処理装置の他の実施形態(その1)
上記の第1実施形態において、情報処理装置1は、ファイルサーバー(及びHTTPサーバー)としての機能を有していた。しかし、これに限られず、情報処理装置1は、メールサーバー機能を有していてもよい。この場合、第1実施形態の通知部117の機能を、メールサーバー機能によって実現してもよい。これにより、通知部117は、個人情報の検出結果を、メールメッセージとして通信端末3−1〜3−nに送信できる。
また、情報処理装置1は、メールサーバー機能と、上記の第1実施形態にて説明した個人情報の検出機能と、のみを有していてもよい。この場合、情報処理装置1は、例えば、通信端末3−1〜3−nから、SMTP(Simple Mail Transfer Protocol)プロトコル、又は、IMAP(Internet Message Access Protocol)プロトコルなどのメールを送信するプロトコルにて送信されたデータを、対象データDとして記憶部15に記憶してもよい。
メールメッセージである対象データDに個人情報が含まれていた場合、情報処理装置1は、例えば、通信端末3−1〜3−nから個人情報を含むメッセージを送信してもよいとの指令を受けた場合に、当該対象データDをメールメッセージとして宛先のメールサーバーに送信してもよい。
その他、情報処理装置1は、例えば、SMTPSやIMAP4Sなどのセキュアなプロトコルにより当該対象データDを自動的に暗号化した上で、メールメッセージとして宛先のメールサーバーに送信してもよい。
上記のように、上記の第1実施形態にて説明した個人情報の検出機能を、メールサーバー機能と組み合わせることにより、よりセキュアなメールサーバーを構築することができる。
(C)情報処理装置の他の実施形態(その2)
情報処理装置1は、上記の第1実施形態にて説明した個人情報の検出機能と、プロキシサーバー機能とを組み合わせたものであってもよい。この場合、例えば、通信端末3−1〜3−nにインストールされているメッセージングソフトウェア(例えば、LINE(登録商標)アプリケーション、ツイッター(登録商標)投稿アプリケーションなど)にて入力された文字列が、対象データDとして記憶部15に記憶される。
プロキシサーバーである情報処理装置1は、対象データDに個人情報が含まれていない場合、又は、個人情報を含む対象データDを送信することについてユーザから許可を得た場合に、当該対象データDを、他のメッセージングクライアント(通信端末)に送付する。
上記の情報処理装置1をプロキシサーバーとして指定することにより、メッセージングソフトウェアを介して知らない間に個人情報が送信されてしまうことを回避できる。
本発明は、電子情報中に含まれる個人情報を検出する情報処理装置、及び、当該情報処理装置により構成される情報処理システムに広く適用できる。
100 情報処理システム
1 情報処理装置
11 サーバー制御部
111 取得部
113 文字列抽出部
115 判定部
117 通知部
13 ネットワーク・インターフェース
15 記憶部
3−1、3−2、3−n 通信端末
31 端末制御部
311 送信部
313 受信部
33 記憶部
35 ネットワーク・インターフェース
37 入出力インターフェース
371 入力装置
373 ディスプレイ
NW ネットワーク
D 対象データ
FI 特定フォーマット情報
L 個人情報検出ログ

Claims (5)

  1. 特定の文字列にて示される個人情報における、当該特定の文字列中の文字及び/又は記号の配置に関する情報を含む特定フォーマット情報を記憶する記憶部と、
    前記個人情報が含まれているか否かを判定する対象である対象データを取得する取得部と、
    前記対象データから文字列を抽出する文字列抽出部と、
    抽出された前記文字列に含まれる文字及び/又は記号の配置と、前記特定フォーマット情報に含まれる文字及び/又は記号の配置とが一致すれば、当該対象データには前記個人情報が存在すると判定する判定部と、
    前記判定部で判定された結果を通知する通知部と、
    を備える、情報処理装置。
  2. 前記判定部は、前記対象データから抽出された文字列に含まれる文字及び/又は記号の配置と一致する、文字及び/又は記号の配置を有する個人情報を特定し、当該特定した個人情報を前記記憶部に記憶する、請求項1に記載の情報処理装置。
  3. 前記対象データが画像データを含んでいれば、前記文字列抽出部は、画像認識により当該画像データから文字列を抽出する、請求項1又は2に記載の情報処理装置。
  4. 前記文字列抽出部は、自然言語処理により前記対象データから文字列を抽出する、請求項1〜3のいずれかに記載の情報処理装置。
  5. 請求項1〜4のいずれかに記載の情報処理装置と、通信端末と、を備える情報処理システムであって、
    前記通信端末は、前記対象データを前記情報処理装置に送信する送信部と、前記情報処理装置からの通知を受信する受信部と、を有する情報処理システム。
JP2016040097A 2016-03-02 2016-03-02 情報処理装置、及び、情報処理システム Pending JP2017157023A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016040097A JP2017157023A (ja) 2016-03-02 2016-03-02 情報処理装置、及び、情報処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016040097A JP2017157023A (ja) 2016-03-02 2016-03-02 情報処理装置、及び、情報処理システム

Publications (1)

Publication Number Publication Date
JP2017157023A true JP2017157023A (ja) 2017-09-07

Family

ID=59810716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016040097A Pending JP2017157023A (ja) 2016-03-02 2016-03-02 情報処理装置、及び、情報処理システム

Country Status (1)

Country Link
JP (1) JP2017157023A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220126234A (ko) * 2021-03-08 2022-09-15 주식회사 프리요 전송 금지된 정보를 포함하는 문서의 ocr 프로세싱 방법 및 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220126234A (ko) * 2021-03-08 2022-09-15 주식회사 프리요 전송 금지된 정보를 포함하는 문서의 ocr 프로세싱 방법 및 시스템
KR102629560B1 (ko) 2021-03-08 2024-01-25 주식회사 프리요 전송 금지된 정보를 포함하는 문서의 ocr 프로세싱 방법 및 시스템

Similar Documents

Publication Publication Date Title
US10298654B2 (en) Automatic uniform resource locator construction
JP6922538B2 (ja) Api学習
US20180300351A1 (en) System and Method for Display of Document Comparisons on a Remote Device
US10025545B2 (en) Printing server configured to communicate with social networking service, printing system, and printing method
US11743216B2 (en) Digital file recognition and deposit system
US11431749B2 (en) Method and computing device for generating indication of malicious web resources
CN108804487A (zh) 一种提取目标字符的方法及装置
CN103678704A (zh) 一种基于图片信息的识图方法、系统、设备及装置
CN105138579A (zh) 获取关键词和基于该关键词进行信息推荐的方法及装置
CN113382083A (zh) 一种网页截图方法和装置
KR101730339B1 (ko) 정보 처리 단말 및 제어 방법
CN103793495A (zh) 应用信息检索方法及系统和应用信息获取方法及系统
WO2015043532A1 (en) Information processing method, apparatus, and system
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN109791563B (zh) 信息收集系统、信息收集方法和记录介质
US9898463B2 (en) Document management server, document management method, and non-transitory storage medium storing program
US9584537B2 (en) System and method for detecting mobile cyber incident
AU2018100463A4 (en) A computer implemented method and a computer system for presenting information on a user device in a presentation language
JP2017157023A (ja) 情報処理装置、及び、情報処理システム
CN116015777A (zh) 一种文档检测方法、装置、设备及存储介质
JP5931015B2 (ja) 情報処理装置、システム、サーバ装置、端末及び情報処理方法
CN115686229A (zh) 表情输入方法、装置及计算机程序存储介质
JP2011186639A (ja) コンテンツ関係管理システム、コンテンツ関係管理装置、コンテンツ関係管理方法およびプログラム
US9584695B2 (en) Information processing apparatus and information processing system
CN103164411A (zh) 浏览器的网页加载方法