JP2016099717A - 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム - Google Patents

秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム Download PDF

Info

Publication number
JP2016099717A
JP2016099717A JP2014234620A JP2014234620A JP2016099717A JP 2016099717 A JP2016099717 A JP 2016099717A JP 2014234620 A JP2014234620 A JP 2014234620A JP 2014234620 A JP2014234620 A JP 2014234620A JP 2016099717 A JP2016099717 A JP 2016099717A
Authority
JP
Japan
Prior art keywords
character string
concealed
concealment
information
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014234620A
Other languages
English (en)
Inventor
定政 邦彦
Kunihiko Sadamasa
邦彦 定政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014234620A priority Critical patent/JP2016099717A/ja
Publication of JP2016099717A publication Critical patent/JP2016099717A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 秘匿対象の文字列を精度良く抽出することによって、情報秘匿に対する信頼性を高める。【解決手段】 秘匿化装置1の対象決定部21は、差出人が同じである予め定められた数以上の調査対象の電子メールを比較することによって、当該調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出する。そして、対象決定部21は、その抽出した署名情報に基づいて秘匿対象の文字列を決定する。秘匿部22は、秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する前記文字列を秘匿する。【選択図】 図1

Description

本発明は、電子メールにおける個人情報を秘匿する技術に関する。
電子メールには、様々な情報が記述されている。このため、例えば、開発プロジェクトの進捗を監視する等の特定の目的を達成するために、例えばプロジェクトリーダー等の監督者が、そのプロジェクトに関わる多数の電子メールを閲覧したいという要求が有る。
一方で、電子メールには、閲覧対象の情報には関係無いプライバシー情報(個人情報)が含まれる。このため、プライバシー情報(個人情報)を保護する観点では、プロジェクトの監督者が閲覧する電子メールにおいて、人名、組織名やメールアドレスなどの個人を特定し得る情報(個人情報)をマスク(秘匿)することが望ましい。
このようなことを考慮した次のような技術が有る。すなわち、その技術では、人名や組織名等の秘匿対象の文字列が集められている辞書が作成される。そして、電子メールにおいて、その辞書に含まれている文字列と合致する文字列がある場合には、その文字列がマスクされる。また、次のような技術もある。この技術では、固有表現抽出手法等の機械学習の手法を利用することによって、電子メール中の人名、組織名等の個人情報が特定され、当該特定した情報がマスク(秘匿)される。
なお、特許文献1には、電子メールに記載されている差出人の署名から、差出人の人名、組織名、メールアドレス、電話番号等の情報を抽出し、当該抽出した情報に基づいて、電子的な名刺やアドレス帳を作成する技術が開示されている。この特許文献1では、予め用意されている辞書やルールを利用することによって、電子メールにおける署名が抽出されている。また、特許文献2には、電子メールに記載されている署名等の情報を抽出し、当該抽出した情報に基づいて、住所録に新たな情報を登録することや変更されている情報を更新することが開示されている。この特許文献2では、電子メールにおいて署名が記載されている部分を抽出する技術として、例えば、所定の記号が連続して使用されている部分を利用して抽出している。
特開平9−244969号公報 特開2000−172587号公報
前述したような秘匿対象の文字列を辞書を利用して抽出し当該抽出した文字列を秘匿する技術では、辞書を作成するために、費用が掛かるという問題が有る。また、固有表現抽出手法を利用して秘匿対象の文字列を特定し当該特定した文字列を秘匿する技術では、固有表現抽出手法に起因した抽出漏れが発生する虞がある。つまり、固有表現抽出手法では、マイナーな人名や組織名や、ひらがなで記述された人名などを抽出しないことが多く、抽出されなかった文字列は秘匿されない。このため、この技術では、プライバシー保護に対する信頼性を低下させてしまう虞がある。
さらに、特許文献1に記載されている技術では、抽出対象を人名や組織名等に区分し、区分毎に辞書やルールを用意しておく必要がある。この技術では、その辞書やルールに合致しない例えばマイナーな人名等は抽出することができず、秘匿することができないため、プライバシー保護に対する信頼性を低下させてしまう虞がある。
本発明は上記課題を解決するために考え出された。すなわち、本発明の主な目的は、秘匿対象の文字列を精度良く抽出することによって、情報秘匿に対する信頼性を高めることができる技術を提供することにある。
上記目的を達成するために、本発明の秘匿化装置は、
差出人が同じである予め定められた数以上の調査対象の電子メールを比較することによって、当該調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出し、当該署名情報に基づいて秘匿対象の文字列を決定する対象決定部と、
秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する前記文字列を秘匿する秘匿部と
を備える。
さらに、本発明の情報処理装置は、
本発明の秘匿化装置と、
電子メールの作成と、電子メールの通信とを行うメール部と
を備えている。
さらに、本発明の秘匿方法は、
コンピュータによって、
差出人が同じである予め定められた数以上の調査対象の電子メールを比較することによって、当該調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出し、
当該署名情報に基づいて秘匿対象の文字列を決定し、
秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する前記文字列を秘匿する。
さらにまた、本発明のコンピュータプログラムは、
コンピュータによって、
差出人が同じである予め定められた数以上の調査対象の電子メールを比較することによって、当該調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出する処理手順と、
当該署名情報に基づいて秘匿対象の文字列を決定する処理手順と、
秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する前記文字列を秘匿する処理手順と
を実行させる。
なお、本発明の主な目的は、本発明の秘匿化装置に対応する本発明の秘匿方法によっても達成される。さらに、本発明の主な目的は、本発明の秘匿化装置、秘匿方法に対応するコンピュータプログラム、それを記録したプログラム記憶媒体によっても達成される。
本発明によれば、秘匿対象の文字列を精度良く抽出することによって、情報秘匿に対する信頼性を高めることができる。
本発明に係る第1実施形態の秘匿化装置の構成を簡略化して表すブロック図である。 図1に表される秘匿化装置を含む情報処理装置の構成を簡略化して表すブロック図である。 本発明に係る第2実施形態の秘匿化装置の構成を簡略化して表すブロック図である。 電子メールの一般的な形式の一例を表す図である。 第2実施形態の秘匿化装置における対象決定部の機能を説明する図である。 引用文や転送文が含まれている電子メールの一般的な形式の一例を表す図である。 電子メールに記載されている署名欄の一例を表す図である。 秘匿化された電子メールの一例を表す図である。 第2実施形態の秘匿化装置における動作の一例を説明するフローチャートである。
以下に、本発明に係る実施形態を図面を参照しつつ説明する。
<第1実施形態>
図1は、本発明に係る第1実施形態の秘匿化装置の構成を簡略化して表すブロック図である。この第1実施形態の秘匿化装置1は、例えば図2に表されるような情報処理装置10に組み込まれる。この情報処理装置10は、例えばCPU(Central Processing Unit)を有する制御装置(図示せず)を備えている。この制御装置は、情報処理装置10に外付け又は内蔵されている記憶装置(記憶媒体)5から読み出したコンピュータプログラム(以下、略してプログラムとも記載する)6を実行することによって、プログラム6に応じた機能を持つことができる。例えば、情報処理装置10は、機能部として、メール部11を備えている。メール部11は、電子メールの作成と通信(送受信)と管理等というような電子メールに関わる機能を備えている。なお、電子メールの作成、通信および管理等の手法には様々な手法が有り、ここでは、使用形態等を考慮した適宜な手法が採用される。当該電子メールに関わる手法の説明は省略する。
秘匿化装置1は、例えば情報処理装置10のメール部11により管理されている複数の電子メールの中から選択された電子メールが例えばディスプレイに表示される場合に、当該電子メールに含まれている個人情報(個人を特定できる情報)を秘匿する装置である。当該秘匿化装置1は、例えばCPUを備えた制御装置により構成される。この秘匿化装置1は、記憶装置5から読み出したコンピュータプログラム6を実行することにより、次のような機能を持つことができる。すなわち、秘匿化装置1は、機能部として、対象決定部2と、秘匿部3とを有している。
対象決定部2は、差出人が同じである予め定められた数以上の調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出し、当該署名情報に基づいて秘匿対象の文字列を決定する機能を備えている。つまり、対象決定部2は、情報処理装置10が例えば記憶装置5に保存している複数の電子メールの中から、差出人が同じ電子メールを読み出す。そして、対象決定部2は、それら読み出した電子メールの末尾領域を比較する。これにより、対象決定部2は、予め定められた数以上の電子メールの末尾領域において共通の記載部分が有ることを検知した場合には、その共通の記載部分を署名情報として抽出する。すなわち、電子メールの作成者は、電子メールの末尾に、予め定めた形式でもって自分の氏名や所属している組織名等の個人情報を署名として記載することが多い。ここでは、このことに着目し、対象決定部2は、差出人(つまり、メール作成者)が同じ複数の電子メールにおける末尾領域に表されている共通の記載部分を検知し、当該共通の記載部分を差出人(メール作成者)の署名として抽出している。
この第1実施形態では、個人情報が秘匿対象である。署名には、その秘匿対象である個人情報を表す文字列が記載されていることから、対象決定部2は、抽出した署名情報に基づいて秘匿対象の文字列を決定している。このように決定された秘匿対象の文字列の情報は、例えば、記憶装置5に保存される。なお、個人情報である姓名には、漢字一文字で表される姓名が有る。このことを考慮し、この明細書において表されている文字列には、漢字一文字をも含まれるとする。
秘匿部3は、秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する文字列を秘匿する機能を備えている。
この第1実施形態の秘匿化装置1は、複数の電子メールの末尾領域に記載されている共通の記載部分を署名情報として抽出し、この署名情報に基づいて決定された秘匿対象の文字列を秘匿している。この秘匿化装置1は、予め定められた辞書や、署名フォーマット情報を利用せずに、電子メールに含まれている情報に基づいて秘匿対象の文字列を決定している。このため、第1実施形態の秘匿化装置1は、個人情報を秘匿する処理に対する信頼性を高めることができる。つまり、第1実施形態の秘匿化装置1は、辞書に秘匿対象の文字列として含まれていない、あるいは、署名フォーマットから外れた署名である等の原因によって、秘匿しなければならない文字列を秘匿できないという問題を防止できる。
<第2実施形態>
以下に、本発明に係る第2実施形態を説明する。
図3は、第2実施形態の秘匿化装置を備えた情報処理装置の構成を簡略化して表すブロック図である。この情報処理装置20は、例えばCPUを備えた制御装置を有している。また、情報処理装置20は、外付けの記憶装置30に接続されているか、あるいは、記憶装置30を内蔵している。記憶装置30は、各種データや、情報処理装置20の動作を制御する手順が表されているコンピュータプログラム31を記憶する記憶媒体である。さらに、情報処理装置20は、外付けの表示装置(ディスプレイ装置)32に接続されているか、あるいは、表示装置32を備えている。表示装置32は、画面(ディスプレイ)を有し、当該画面に画像を表示することによって、様々な情報を表示できる構成を備えている。
情報処理装置20は、記憶装置30から読み出したコンピュータプログラム31をCPUが実行することにより、コンピュータプログラム31に応じた機能を持つことができる。この第2実施形態では、情報処理装置20は、閲覧対象の電子メールに含まれている個人情報を秘匿した後に当該電子メールを閲覧可能にする(表示する)機能を備えている。この情報処理装置20は、その機能を実現するために、機能部として、対象決定部21と、秘匿部22と、メール部23と、表示制御部24とを有している。この第2実施形態では、対象決定部21と秘匿部22を実現するCPUによって、秘匿化装置25が構成されている。
メール部23は、電子メールの作成に関わる機能と、電子メールを送信する機能と、電子メールを受信する機能と、電子メールを管理する機能とを含む電子メールに関わる各種機能を備えている。その電子メールに関わる各種機能には、様々な手法が提案されており、ここでは、何れの手法を採用してよく、その説明は省略する。
表示制御部24は、表示装置32における画面の表示動作を制御する機能を備えている。その表示動作の制御手法は、表示装置32の構成や仕様等に応じたものであり、多種多様な制御手法が有ることから、ここでは、その説明は省略する。
対象決定部21は、秘匿する文字列(以下、秘匿対象文字列とも記載する)を次のような処理手順により決定する機能を備えている。例えば、対象決定部21は、予め定められたタイミングでもって、差出人が同じ、かつ、予め定められた数(例えば1000)以上の電子メールを調査対象の電子メールとして取得する。これら電子メールには、秘匿後に例えばメール閲覧者によって閲覧されることが想定される電子メールが含まれている。
この第2実施形態では、秘匿対象文字列は個人情報であり、個人情報は、電子メールの署名欄に多く含まれていることに着目し、当該署名欄から抽出することとする。図4は、一般的な形式でもって記載された電子メールの一例を表す図である。この図4に表されているように、電子メール35は、文頭から、宛先36、書き出し37、本文38、結び39および署名欄40の順に記載されることが多い。このように、署名欄40は電子メールの末尾領域に記載されることが多く、かつ、その記載内容は差出人が同じであれば同様となっている。このようなことを考慮し、この第2実施形態では、対象決定部21は、差出人が同じ複数の電子メールの末尾領域を互いに比較し、予め定められた数(例えば500)以上の電子メールに共通の記載部分を署名情報として抽出する機能を備えている。
具体的には、例えば、対象決定部21は、全ての調査対象の電子メールにおける末尾の行を比較し、当該末尾の行に記載されている同じ文字列の出現数あるいは出現頻度を調査する。次に、対象決定部21は、全ての調査対象の電子メールにおける末尾の行と末尾から文頭方向に2行目の行との文字列の組を比較し、同じ文字列の組の出現数あるいは出現頻度を調査する。このように、対象決定部21は、比較する行を1行ずつ増加していき、同じ文字列又は同じ文字列の組の出現数あるいは出現頻度を調査する。図5には、そのような調査結果の具体例が表されている。この図5によれば、末尾の行に文字列“αα_γγγ@dolphon.abc.jp”が出現する電子メールの数(換言すれば、文字列“αα_γγγ@dolphon.abc.jp”の出現数)は、3280である。また、末尾から文頭方向に3行目までの文字列の組である“αααα γγγ、ABC YYY研究所、αα_γγγ@dolphon.abc.jp”が出現する電子メールの数は、2388である。
さらに、対象決定部21は、そのような調査結果に基づいて、予め定めた出現数あるいは出現頻度よりも多く出現した文字列又は文字列の組を署名情報として抽出する。具体的には、例えば、出現数が700よりも多い文字列の組を署名情報とすると定められているとする。この場合には、図5の例では、共通記載の欄に記載されている全ての共通記載の文字列が署名情報として、対象決定部21によって抽出される。
なお、図5の例では、電子メール35における結び39の文字列(つまり、“以上、宜しくお願い致します。”)をも署名情報として抽出される。結び39の文字列は、一般的には署名に含まれないものであるが、署名欄40の中に結び39が記載されている場合もあることを考慮し、ここでは、対象決定部21が、結び39の文字列を署名情報として抽出してもよいとする。
ところで、電子メール35には、図6に表されているように、署名欄40よりも後ろに、引用文(具体的には、転送文(転送メール)や、当該メールの差出人が受信して当該メールを返信する基となった返信元メール)が含まれている場合がある。この場合には、前述したような、電子メールの末尾領域の比較によって署名欄40を抽出する手法では、引用文に起因して署名欄40を正確に抽出できないという問題が発生する虞がある。このような問題を防止するために、この第2実施形態では、対象決定部21は、前述したように署名欄40を抽出する前に、電子メール35から引用文を取り除く処理を実行する機能を備えている。具体的には、対象決定部21は、図6に表されるような、引用文が開始される前に挿入される定型文43や、引用文が記載されていることを表す引用マーク44を利用して、引用文を取り除く。すなわち、図6に表されるような引用文が開始される位置を表す定型文43の情報が予め情報処理装置20に格納される。対象決定部21は、その情報に基づいて、電子メール35に、引用文の開始位置を表す定型文43が含まれていることを検知した場合には、その定型文43以降の文章を除去する。また、対象決定部21は、例えば、電子メール35における行頭の文字(記号文字を含む)を抽出し、同じ文字が予め定められた数値以上の連続している行頭に出現する場合には、その同じ文字が行頭に出現する領域は引用文であると判断する。そして、対象決定部21は、その判断した引用文を電子メール35から取り除く。
対象決定部21は、そのように引用文を取り除く処理を行った電子メール35を利用して、前述したように署名情報を抽出する。
対象決定部21は、さらに、抽出した署名情報に基づいて秘匿対象文字列を決定する機能を備えている。例えば、対象決定部21は、まず、署名情報に含まれている文字列を、スペースや改行や記号文字等に基づいて区切り(分け)、秘匿対象文字列の候補を挙げる。具体的には、図5の例では、対象決定部21は、“以上、宜しくお願い致します。”、“αααα”、“γγγ”、“ABC”、“YYY研究所”、“αα_γγγ@dolphon.abc.jp”を秘匿対象文字列の候補として挙げる。また、例えば、対象決定部21が、図6に表されるような電子メールの記載部分を署名情報として抽出したとする。この場合には、対象決定部21は、“TAROH”、“YAMADA”、“/”、“山田”、 “太郎”、“ABCシステムズ”、“開発グループ”、“yamada@dolphon.abc.jp”、“*”、“:”、“TEL”、“FAX”、“03−1234−5678”、“03−1234−6789”、“*******************” を秘匿対象文字列の候補として挙げる。
署名情報には、秘匿しなくともよい文字列(秘匿非対象文字列)が含まれている場合が有る。このことを考慮し、ここでは、対象決定部21は、そのような秘匿非対象文字列を秘匿対象文字列の候補から外す処理を行う。例えば、電子メールにおける結び39の定型文(文字列)の情報が予め与えられており、対象決定部21は、その情報を利用して、結び39の定型文を秘匿非対象文字列として秘匿対象文字列の候補から外す。また、例えば記号のみからなる文字列や平仮名一文字やカタカナ一文字や記号一文字などが秘匿非対象文字列として予め定められ、その秘匿非対象文字列の情報が情報処理装置20に与えられている。対象決定部21は、その秘匿非対象文字列の情報に基づいて当該秘匿非対象文字列を秘匿対象文字列の候補から外す。
対象決定部21は、そのような処理によって除去されなかった秘匿対象文字列の候補を秘匿対象文字列として確定する。例えば、対象決定部21は、前述した秘匿対象文字列の候補のうち、“αααα”、“γγγ”、“ABC”、“YYY研究所”、“αα_γγγ@dolphon.abc.jp”、“TAROH”、“YAMADA”、“山田”、“太郎”、“ABCシステムズ”、“開発グループ”、“yamada@dolphon.abc.jp”、“03−1234−5678”、“03−1234−6789”を秘匿対象文字列として決定する。
さらに、対象決定部21は、そのように決定した秘匿対象文字列の情報を記憶装置30に格納する機能を備えている。この第2実施形態では、上記のような対象決定部21の機能によって、差出人が異なる複数種の電子メールに基づいた秘匿対象文字列の情報が記憶装置30に蓄積されていく。換言すれば、記憶装置30には、秘匿対象文字列の辞書が生成される。
記憶装置30には、上記のように、電子メール35に基づき対象決定部21によって決定された秘匿対象文字列の情報が格納されている。さらに、この第2実施形態では、記憶装置30には、秘匿の対象となる個人情報を表す予め定められた文字列の情報(例えば、姓名や地名等の固有名詞である文字列や、電子メールアドレスのドメイン名など)をも秘匿対象文字列の情報として格納されている。
秘匿部22は、例えばユーザによる操作手段(図示せず)の操作によって電子メールの閲覧要求が情報処理装置20に入力され、かつ、その閲覧対象の電子メールが秘匿化対象である場合には、当該電子メールをメール部23から取得する機能を備えている。さらに、秘匿部22は、その電子メールに記載されている文字列を例えば形態素解析等の手法によって単語毎に区切る機能を備えている。さらに、秘匿部22は、それら単語を、記憶装置30に格納されている秘匿対象文字列の情報に照合し、秘匿対象文字列に合致する単語を秘匿対象として決定する機能を備えている。さらにまた、秘匿部22は、閲覧が要求されている電子メールにおいて、上記の如く決定した秘匿対象の単語を予め定められた文字列に置換し、当該秘匿化後の電子メールを表示制御部24に出力する機能を備えている。なお、秘匿対象の単語に置換される文字列は適宜設定してよい。具体例を挙げると、例えば、置換される文字列としては、“ANONYMOUS”や“■■■”などがある。
上記のように秘匿化された電子メールが、表示制御部24による表示制御によって、表示装置32に表示される。図8は、その秘匿化された電子メールの一具体例を表している。なお、電子メールに引用文が含まれている場合には、それら引用文における秘匿対象文字列も秘匿される。
この第2実施形態における秘匿化装置25を備えた情報処理装置20は上記のように構成されている。図9は、秘匿化装置25における動作の一例を表すフローチャートである。この図9のフローチャートは、秘匿化装置25が実行するコンピュータプログラムにおける制御手順を表している。
なお、ここでは、秘匿化装置25が、閲覧が要求されている電子メールと差出人が同じ複数の電子メールに基づいて秘匿対象文字列を決定する動作から、その電子メールにおける個人情報を秘匿して出力する動作までの一連の動作を説明する。なお、秘匿化装置25が実行する別の動作として、例えば、電子メールの閲覧要求とは関係無くユーザの指令に基づいて、対象決定部21が、前述したような複数の電子メールに基づいて秘匿対象文字列の情報を記憶装置30に蓄積していく動作がある。ここでは、この動作のフローの説明は省略する。
まず、対象決定部21が、情報処理装置20に備えられている操作手段の操作状況情報およびメール部23の動作情報に基づいて、秘匿化が望まれる電子メールに対して閲覧が要求されていることを検知したとする。これにより、対象決定部21は、その閲覧が要求されている電子メールと差出人が同じ多数の電子メールを例えば記憶装置30から取得する(図9におけるステップS101)。その後、対象決定部21は、取得した電子メールから前記の如く引用文を除去する(ステップS102)。
然る後に、対象決定部21は、差出人が同じ多数の電子メールを比較することによって、前述したように署名情報を抽出する(ステップS103)。そして、対象決定部21は、抽出した署名情報に含まれている文字列をスペースや改行等により区切ることによって、秘匿対象文字列の候補を挙げる。さらに、対象決定部21は、それら秘匿対象文字列の候補の中から、予め定められている秘匿対象外の文字や文字列を取り除き、残った文字列を秘匿対象文字列として決定する(ステップS104)。対象決定部21は、その決定した秘匿対象文字列を記憶装置30に格納する。
然る後に、秘匿部22は、閲覧対象かつ秘匿化対象の電子メールを取得する。そして、秘匿部22は、その電子メールに記載されている文字列を形態素解析等によって単語毎に区切り、各単語を記憶装置30に格納されている秘匿対象文字列に照合する。この照合により、秘匿部22は、記憶装置30における秘匿対象文字列に合致する単語を秘匿する文字列として確定する。さらに、秘匿部22は、そのように確定した秘匿対象の単語(文字列)を秘匿することによって、電子メールを秘匿化する(ステップS105)。その後、秘匿部22は、その秘匿化した電子メールを表示制御部24に出力する(ステップS106)。
この第2実施形態の情報処理装置20における秘匿化装置25は、上記のように、電子メールに記載されている署名欄40の情報を利用して、秘匿対象の文字列(例えば個人情報を表す文字列)を抽出する。これにより、情報処理装置20(秘匿化装置25)は、電子メールにおいて、秘匿することが望まれる文字列を精度良く秘匿でき、電子メールの秘匿化に対する信頼性を高めることができる。すなわち、この第2実施形態の情報処理装置20(秘匿化装置25)は、電子メールに記載されている署名欄の情報に基づいて秘匿対象文字列を決定している。このため、情報処理装置20(秘匿化装置25)は、マイナーな固有名詞や、会社名に特有な文字列(例えば“株式会社”)を含まない会社名などの、署名欄に記載されている個人情報を抜けなく、電子メールにおいて秘匿できる。
また、この第2実施形態では、情報処理装置20(秘匿化装置25)は、差出人が同じ多数の電子メールを比較し、電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出する。このため、情報処理装置20(秘匿化装置25)は、例えば、署名欄の特定フォーマットを利用して署名欄を電子メールから抽出することに起因した問題の発生を防止できる。つまり、情報処理装置20(秘匿化装置25)は、署名欄の特定フォーマットの情報を持たなくて済むし、特定フォーマットに基づかない形態の署名欄の情報をも抽出できる。
<その他の実施形態>
なお、本発明は第1や第2の実施形態に限定されず、様々な実施の形態を採り得る。例えば、対象決定部21は、第2実施形態で述べた機能に加えて、次のような機能をも備えていてもよい。例えば、対象決定部21は、本文38の一部が署名情報として抽出されることを防止する機能を備えていてもよい。具体的には、対象決定部21は、署名情報を抽出するために電子メールの末尾領域における文字列を1行ずつ比較している際に、予め与えられている結び39の文字列に合致する文字列が署名情報として抽出されたことを検知したとする。この場合には、対象決定部21は、署名情報の抽出動作を、その結び39の文字列を含む署名情報を抽出したことにより、終了する。
また、第2実施形態では、秘匿部22は、秘匿化対象の電子メールに記載されている文字列を形態素解析等により単語毎に区切り、この単語毎に記憶装置30における秘匿対象文字列に照合している。これに代えて、秘匿部22は、電子メールに記載されている文字列を単語毎に区切らずに、記憶装置30における秘匿対象文字列を、電子メールに記載されている文字列の中から検索することによって、秘匿する文字列を決定してもよい。
1,25 秘匿化装置
2,21 対象決定部
3,22 秘匿部
10,20 情報処理装置

Claims (7)

  1. 差出人が同じである予め定められた数以上の調査対象の電子メールを比較することによって、当該調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出し、当該署名情報に基づいて秘匿対象の文字列を決定する対象決定部と、
    秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する前記文字列を秘匿する秘匿部と
    を備える秘匿化装置。
  2. 前記調査対象の電子メールの末尾領域に記載されている引用文と転送文を判定する情報が予め与えられており、前記対象決定部は、その情報に基づいて前記調査対象の電子メールの末尾領域に前記引用文あるいは前記転送文が含まれていることを検知した場合には、前記引用文あるいは前記転送文を前記調査対象の電子メールの末尾領域から除去し、当該電子メールを利用して前記署名情報を抽出する請求項1に記載の秘匿化装置。
  3. 前記対象決定部は、前記署名情報に含まれている文字列を、予め与えられた区切り位置条件に従って区切ることにより複数の文字列に区分し、それら文字列の中から、予め与えられた対象外情報に基づいて秘匿対象とはしないと判定した文字列を除去し、残った文字列を前記秘匿対象の文字列として決定する請求項1又は請求項2に記載の秘匿化装置。
  4. 前記秘匿部は、前記対象決定部により決定した秘匿対象の文字列だけでなく、予め与えられた秘匿対象の文字列の情報を持つ辞書を利用して、前記電子メールにおける秘匿対象の文字列を確定し、当該文字列を秘匿する請求項1又は請求項2に記載の秘匿化装置。
  5. 請求項1乃至請求項4の何れか一つに記載の秘匿化装置と、
    電子メールの作成と、電子メールの通信とを行うメール部と
    を備えている情報処理装置。
  6. コンピュータによって、
    差出人が同じである予め定められた数以上の調査対象の電子メールを比較することによって、当該調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出し、
    当該署名情報に基づいて秘匿対象の文字列を決定し、
    秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する前記文字列を秘匿する
    秘匿方法。
  7. コンピュータによって、
    差出人が同じである予め定められた数以上の調査対象の電子メールを比較することによって、当該調査対象の電子メールの末尾領域に表されている共通の記載部分を署名情報として抽出する処理手順と、
    当該署名情報に基づいて秘匿対象の文字列を決定する処理手順と、
    秘匿化対象の電子メールに記載されている文字列のうち、前記決定した秘匿対象の文字列に合致する前記文字列を秘匿する処理手順と
    を実行させるコンピュータプログラム。
JP2014234620A 2014-11-19 2014-11-19 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム Pending JP2016099717A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014234620A JP2016099717A (ja) 2014-11-19 2014-11-19 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014234620A JP2016099717A (ja) 2014-11-19 2014-11-19 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2016099717A true JP2016099717A (ja) 2016-05-30

Family

ID=56077131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014234620A Pending JP2016099717A (ja) 2014-11-19 2014-11-19 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2016099717A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023074008A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023074008A1 (ja) * 2021-10-28 2023-05-04 日本電気株式会社 文書マスキング装置、文書マスキング方法およびプログラム記憶媒体

Similar Documents

Publication Publication Date Title
US20190114446A1 (en) Method for Saving, Sending and Recollection of Confidential User Data
KR102282487B1 (ko) 애플리케이션 실행 장치 및 방법
Kestemont et al. Cross-genre authorship verification using unmasking
US20180192275A1 (en) Notification of potentially problematic textual messages
US10839153B2 (en) Unconscious bias detection
US10747797B2 (en) Automated removal of private information
KR20190102308A (ko) 데이터 콘텐츠 필터
US20170177180A1 (en) Dynamic Highlighting of Text in Electronic Documents
KR102008466B1 (ko) 검색 질의들 중 질의 패턴 및 관련된 합계 통계의 식별
EP2447861A1 (en) File management apparatus and file management method
JP5751253B2 (ja) 情報抽出システム、方法及びプログラム
US20120192066A1 (en) Selecting portions of computer-accessible documents for post-selection processing
US9633001B2 (en) Language independent probabilistic content matching
NL2024377B1 (en) Method and System for Intelligently Detecting and Modifying Unoriginal Content
CN113692597A (zh) 电子邮件内容修改系统
JP4281561B2 (ja) 文書公開方法
JP2016099717A (ja) 秘匿化装置、情報処理装置、秘匿方法およびコンピュータプログラム
JP6194180B2 (ja) 文章マスク装置及び文章マスクプログラム
JP2010134848A (ja) メール監査システム及び方法
CN109409031B (zh) 一种pdf文档隐私泄露防御方法及系统
JP6279354B2 (ja) 話題特定装置、および話題特定方法
US20200065506A1 (en) Autonomous hint generator
JP5931015B2 (ja) 情報処理装置、システム、サーバ装置、端末及び情報処理方法
CN110858252A (zh) 一种文本保护方法及相关装置
JP7392452B2 (ja) ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム