JP2013242782A - 文字列変換方法及びプログラム - Google Patents

文字列変換方法及びプログラム Download PDF

Info

Publication number
JP2013242782A
JP2013242782A JP2012116668A JP2012116668A JP2013242782A JP 2013242782 A JP2013242782 A JP 2013242782A JP 2012116668 A JP2012116668 A JP 2012116668A JP 2012116668 A JP2012116668 A JP 2012116668A JP 2013242782 A JP2013242782 A JP 2013242782A
Authority
JP
Japan
Prior art keywords
character string
personal information
candidate
mask
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012116668A
Other languages
English (en)
Other versions
JP5676522B2 (ja
Inventor
Masahiro Yuguchi
昌宏 湯口
Masakatsu Aoki
政勝 青木
Akimichi Tanaka
明通 田中
Masashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012116668A priority Critical patent/JP5676522B2/ja
Publication of JP2013242782A publication Critical patent/JP2013242782A/ja
Application granted granted Critical
Publication of JP5676522B2 publication Critical patent/JP5676522B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】不必要なマスク処理を行うことなく電子文書に含まれる個人情報を適切にマスク処理することができるようにする。
【解決手段】個人情報検出部40によって、個人情報辞書30に含まれる各構成要素項目の文字列を、電子文書から文字列変換の候補文字列として検出し、マスク対象判定部50によって、電子文書のドキュメントツリーを生成し、検出された文字列変換の候補文字列に対して、ドキュメントツリーにおける候補文字列に対応するノードと同一レベルのノードまたは子ノードの範囲に、組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列が含まれる場合、検出された文字列変換の候補文字列と、組み合わせ対象の構成要素項目に対応する文字列変換の候補文字列との組み合わせを、文字列変換の対象として判定する。マスク置換部60によって、文字列変換の対象と判定された候補文字列の組み合わせをマスク文字列に置き換える。
【選択図】図1

Description

本発明は電子文書に含まれる個人情報を保護するための文字列変換技術に関する。
個人情報保護の重要性が増すなか、姓名、住所等の個人情報を含む電子文書に対して個人情報部分をマスクして読めなくする技術への期待が高まっている。電子文書に含まれる個人情報部分をマスキングする既存技術としては文字列変換を実施する手法等が知られている(特許文献1等)。また、個人情報部分を検出する方法としては、入力データ全体に対して個人情報と一致する文字列を検索する方法が知られている(特許文献2)。
特開2007−102540号公報 特開2009−199385号公報
しかしながら、既存技術では、マスキングしようとする個人情報の文字列と一致した文字列が入力データに含まれていると全てマスキングが行われてしまい、余計なマスキングが行われてしまう問題があった。
誤ったマスキング箇所が多数発生すると、マスクされた文字列から元の個人情報文字列の推測可能性が増加するなど、個人情報保護の点で問題が発生する。
特に、HTMLタグ等を含むWebページ閲覧履歴データを入力データとして扱う場合、Webページの本文だけでなく、HTMLの要素や属性情報の値に、個人情報辞書に含まれる文字列とマッチするものが存在することがあり、該当箇所がマスク対象候補の文字列として検出されることがある。例えば、個人情報辞書に「田中太郎」や「0123」という文字列が含まれるとしたとき、HTMLタグ中の属性情報として「value=“田中太郎”」や「width=“10123”」などが記載されている場合は、「田中太郎」「0123」の該当箇所がマスク対象候補の文字列として検出される。このとき、「width=“10123”」に含まれる「0123」の文字列は個人情報ではないため、本来マスクすべきではない箇所である。
このように、HTMLタグ等を含むWebページ閲覧履歴データを入力データとする場合、誤マスク箇所が多数発生する可能性が高く、個人情報の漏洩リスクを低下させることができない。
本発明は上記の問題を解決するためになされたものであり、不必要なマスク処理を行うことなく電子文書に含まれる個人情報を適切にマスク処理することができる文字列変換方法及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の文字列変換方法は、個人情報検出手段によって、保護対象の個人情報文字列データを少なくとも1つ以上の構成要素項目に分けて格納した個人情報辞書に含まれる各構成要素項目の文字列を、電子文書から文字列変換の候補文字列として検出し、ツリー生成手段によって、前記電子文書のドキュメントツリーを生成し、マスク対象判定手段によって、前記検出された文字列変換の候補文字列に対して、前記ドキュメントツリーにおける前記候補文字列に対応するノードと同一レベルのノードまたは子ノードの範囲に、組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列が含まれる場合、検出された文字列変換の候補文字列と、前記組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列との組み合わせを、文字列変換の対象として判定し、マスク置換手段によって、前記文字列変換の対象と判定された候補文字列の組み合わせを他の文字列に置き換える。
また、本発明のプログラムは、コンピュータを、保護対象の個人情報文字列データを少なくとも1つ以上の構成要素項目に分けて格納した個人情報辞書に含まれる各構成要素項目の文字列を、電子文書から文字列変換の候補文字列として検出する個人情報検出手段、前記電子文書のドキュメントツリーを生成するツリー生成手段、前記検出された文字列変換の候補文字列に対して、前記ドキュメントツリーにおける前記候補文字列に対応するノードと同一レベルのノードまたは子ノードの範囲に、組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列が含まれる場合、検出された文字列変換の候補文字列と、前記組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列との組み合わせを、文字列変換の対象として判定するマスク対象判定手段、及び前記文字列変換の対象と判定された候補文字列の組み合わせを他の文字列に置き換えるマスク置換手段として機能させるためのプログラムである。
以上説明したように、本発明の文字列変換方法及びプログラムによれば、電子文書のドキュメントツリーにおける同一レベルのノードまたは子ノードの範囲に含まれる、文字列変換の候補文字列と、組み合わせ対象の構成要素項目に対応する文字列変換の候補文字列との組み合わせを、文字列変換の対象として、他の文字列に置き換えることにより、不必要なマスク処理を行うことなく電子文書に含まれる個人情報を適切にマスク処理することができる、という効果が得られる。
本発明の第1の実施の形態に係る文字列変換装置の構成を示すブロック図である。 (a)個人情報の一例を示す図、及び(b)個人情報辞書の一例を示す図である。 ドキュメントツリーの一例を示す図である。 文字列変換の対象であるか否かの判定方法を説明するための図である。 本発明の第1の実施の形態に係る文字列変換装置におけるマスク置換処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る文字列変換装置における文字列変換の対象であるか否かを判定する処理の流れを示すフローチャートである。 本発明の第2の実施の形態に係るネットワークシステムの構成を示したブロック図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の概要>
図1に示された本発明の第1の実施の形態に係る文字列変換装置1は、マスク処理対象の電子文書(HTMLデータ)をDOM(Document Object Model)で扱い、電子文書の文書構造を元に、ブロックレベル要素のHTMLタグであるか否かを判断した上で、各ノードの末端側のブロックレベル要素を探し、当該ブロックレベル要素の配下から候補文字列の組み合わせを選定する。
本来、電話番号やクレジットカード番号などがWebページ上で表示される場合、H1タグなどによる見出しなどが電話番号の表記中に挟まれることは少ない。例えば、電話番号:AAA-BBB-CCCCの場合、AAAとBBB、BBBとCCCCの間に ブロックレベル要素のh1タグやformタグが挟まれることはほとんどない。
また、本発明の第1の実施の形態に係る文字列変換装置1は、HTMLタグの種類情報を活用するため、ペアとなる対象を選出するための処理時間・処理負荷を軽減することができる。また、ブロックレベル要素以下のノードの末端側からペアを選定するため、Webページの表記上、近い位置からペアを探すことが可能となり、誤ったマスク対象ペアを選定することが減少する。
[第1の実施の形態]
<システム構成>
図1に示すように、本発明の実施の形態に係る文字列変換装置1は、少なくとも入力データ読込部20、個人情報辞書30、個人情報検出部40、マスク対象判定部50、及びマスク置換部60を備える。文字列変換装置1の各機能部20〜60はサーバ(コンピュータ)のハードウェアリソースによって実現される。すなわち、文字列変換装置1は少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部20〜60が実装される。なお、マスク対象判定部50が、ツリー生成手段及びマスク対象判定手段の一例である。
入力データ読込部20は個人情報を含む入力データ10(電子文書)を読み込み、メモリの内部データとして保存する。入力データとしては、個人情報文字列を含む可能性のある電子文書を入力データとするものとし、HTML形式やXML形式の電子ファイルが例示される。
個人情報辞書30は保護対象の個人情報文字列データを個人情報の項目毎に格納している。個人情報辞書30は例えば文字列変換装置1を所有するクライアントの個人情報の項目毎に個人情報文字列を格納している。
個人情報辞書30は、図2(a)に例示したように、個人情報として、氏名、電話番号、携帯電話番号、クレジットカード番号、郵便番号、メールアドレス、住所等のような個人を特定可能な情報を格納している。また、複数の個人の個人情報を格納した場合、図2(b)に例示したように、各個人の氏名に対応付けられてその個人情報が記録されている。これらの個人情報の文字列は複数の構成要素項目に分解できるものが多く、氏名であれば「姓」「名」、電話番号であれば「市外局番」「市内局番」「加入者番号」によって構成される。例えば、電話番号「046‐123‐4567」であれば、数値文字列「046」「123」「4567」の3つの構成要素項目の組み合わせで構成されているとして扱うことができる。個人情報辞書30は、これらの個人情報を構成する構成要素項目単位に辞書情報として登録したものであり、データベースシステムで管理されるものであってもよい。なお、個人を特定可能な情報以外にも、間接的に個人を特定可能な情報である「ハンドル名」や「ユーザID」、「パスワード」などの文字列についても、個人情報辞書に登録してマスク処理対象の文字列として扱うものとしても良い。
個人情報検出部40は、入力データ10から個人情報辞書30に含まれる個人情報の文字列を文字列変換の候補文字列として検出する。具体的には個人情報辞書30に保存された個人情報文字列をキーとして、入力データ10中に個人情報文字列に一致する文字列が存在するか検索を行い、検索された文字列を文字列変換の候補文字列として検出する。この際、個人情報辞書30において、文字列長が長い個人情報文字列から検出を行うものとしても良い。例えば、メールアドレスが「tarou.tanaka@sample.co.jp」であり、他の個人情報文字列よりもメールアドレスの文字列長が長い場合、メールアドレスから優先的に検出を行うものとしても良い。このとき、個人情報辞書にて構成要素項目ごとに保存されている場合、各構成要素項目で入力データに対し検索を行う。例えば図2(b)に示された個人情報辞書30にて、氏名が「姓」「名」として分割された構成要素項目の組み合わせとして保存されている場合、「姓」、「名」それぞれの構成要素項目の文字列をキーとして入力データ10全体を対象に検索を行い、検索された文字列を文字列変換の候補文字列として検出する。また、個々の構成要素項目単位で検索を行うだけでなく、各構成要素項目の構成単位を結合した個人情報文字列で検索を行うとしても良い。
マスク対象判定部50は、個人情報検出部40によって検出された候補文字列を文字列変換の対象とするか否かを判定する。
ここで、文字列変換の対象とするか否かを判定する原理について説明する。
個人情報辞書30に登録されている個人情報文字列の各構成要素項目単位で検出を行うため、個人情報文字列の構成要素項目に一致する文字列は、全て文字列変換の候補文字列として検出される。
例えば、個人情報辞書30に電話番号「046‐123‐4567」が「046」、「123」、「4567」として項目に分解されて登録されている場合、入力データ10に含まれる「046」、「123」、「4567」の文字列が文字列変換の候補となる。このとき、入力データ10中に「ID:046」や「width=“123”」、「人口4567人」といった文字列を含んだ箇所が存在する場合、本来個人情報ではないこれらの箇所についても文字列変換の候補として検出されてしまうことになる。
そこで、個人情報検出部40にて検出された候補文字列をもとに、誤検出された候補文字列であるか、個人情報としてマスクすべき候補文字列であるか判定を行う。
入力データである電子文書がHTMLの形式である場合、マスク対象判定部50は図3のようなドキュメントツリーを生成する。なお、図3では、HTMLの一部の箇所を表示している。
ドキュメントツリーは、トップノード、HTMLタグに対応する要素ノード、HTML中のテキストに対応するテキストノード、及びHTMLタグ中の属性に対応する属性ノードから構成される。
このうち、個人情報などのWebサイトを閲覧するユーザによって変動する情報は、テキストノード、または、属性ノードの属性値中に記述される。
なお、要素ノードは、HTMLタグの種類により2種類に大別できる。見出し、段落などの文書を構成するタグとして「ブロックレベル要素」のHTMLタグと、ブロックレベル要素内の特定部分に何らかの役割を与えるタグとしての「インライン要素」のHTMLタグである。
通常、「電話番号」などの複数の構成要素項目に分割できるものは、各構成要素項目の間に多数のブロックレベル要素のHTMLタグが挟まれることは少ない。
例えば、上記図3の例のように、電話番号「046-123-4567」がページ中に記載される際、「046」と「123」、「123」と「4567」との間には、インライン要素のHTMLタグが存在することはあっても、多数のブロックレベル要素のHTMLタグが含まれることは少ない。
また、ドキュメントツリーに展開したとき、ブロックレベル要素の要素ノードの子ノード群に複数の構成要素項目が含まれ、組み合わせが成立している可能性が高い。
よって、候補文字列の判定の際、ブロックレベル要素の要素ノードの配下に注目し、該ノード配下の範囲に含まれる候補文字列によって、構成要素項目の組み合わせが成立する場合、当該候補文字列の組み合わせを文字列変換の対象として判定することで、正しくマスク処理を行うことが可能となる。
図4を用いて判定処理の具体例を説明する。
図4は、入力データであるHTMLデータをドキュメントツリーに展開した際の一部であり、該個人情報検出部40にて候補文字列が検出された箇所が記録されている。
一部の構成要素項目である候補文字列が、ブロックレベル要素の要素ノードの配下の範囲に含まれる場合、構成要素項目の組み合わせ対象も含まれるかを判定する。
各ノードの先端側に近いブロックレベル要素の要素ノードの配下(図4の対象範囲:(1)−1参照)に、構成要素項目である候補文字列が含まれている場合、当該構成要素項目が含まれるノードと同一レベルのノード、または、子ノードの範囲に組み合わせ対象の構成要素項目の候補文字列が含まれるかを判定し、含まれる場合は、同一種類のノードに含まれる構成要素項目を優先し、構成要素項目の組み合わせを成立させて、文字列変換の対象とする。
該ブロックレベル要素の要素ノードの配下にて、構成要素項目のペアが成立しない場合は、さらに上層(親ノード)側にあるブロックレベル要素の要素ノード範囲(図4の対象範囲:(2)−1参照)にて、組み合わせ対象の構成要素項目の候補文字列を検出する。このとき、対象範囲(1)−1にて構成要素項目の組み合わせを成立させることができなかった構成要素項目が存在する場合は、対象範囲(1)−2を含めた範囲から組み合わせ対象となる構成要素項目を検出するものとする。
このようにして、ブロックレベル要素の要素ノード範囲を、末端側から上層側に向かって徐々に広げて、組み合わせ対象の構成要素項目の検出を行い、構成要素項目の組み合わせを成立させるものとする。
なお、図4の対象範囲(3)−1のように、子ノードの範囲の全てが組み合わせ判定済みである範囲については、組み合わせ判定をスキップし、さらに上層側にあるブロックレベル要素の要素ノード配下の範囲について、構成要素項目の組み合わせが成立するか判定し、組み合わせが成立したものをマスク対象(文字列変換の対象)とする。
マスク置換部60は、マスク対象判定部50によって文字列変換の対象と判定された候補文字列の組み合わせを他の文字列に置き換える。これにより入力データ10に含まれる個人情報を特定できないようになる。このように個人情報がマスクされた入力データ10は出力データ70として出力される。
前記他の文字列は、事前に規定された文字列を用いて置き換えるとしても良いものとする。例えば、「*」などの記号で置き換えても良い。また、文字列変換の対象の文字列を活用した他の文字列の例として、文字列変換の対象の文字列長と文字列変換の対象の文字列のハッシュ値、個人情報種類の識別文字列を用いた文字列でも良い。
例えば、電話番号を表す文字列「0461234567」が文字列変換の対象である場合、文字列長は「6」であり、ハッシュ値の先頭4文字は「AB1B」となる。電話番号の識別文字列として、「telephone」のハッシュ値の先頭4文字を使うとした場合、これらから生成される「*6:AB1B*b9bb*」を、前記他の文字列として使うとしても良い。
なお、ハッシュ値を用いることで、該他の文字列に置換後、該当箇所の文字列が元々どのような文字列であったか、第3者が推察することが困難となる。
<文字列変換装置の作用>
第1の実施の形態の文字列変換装置1に、入力データとしての電子文書(HTMLデータ)が入力されると、文字列変換装置1において、図5に示す、マスク置換処理ルーチンが実行される。
まず、ステップS1において、入力データ読込部20は、入力データ10(例えば個人情報を含むWebページ閲覧履歴データ)を受け付けると、このデータを読み込み、メモリの内部データとして保存する。
そして、ステップS2において、個人情報検出部40は上記ステップS1で保存された入力データ10から個人情報辞書30に含まれる個人情報の各構成要素項目の文字列と一致する文字列を、文字列変換の候補文字列として各々検出する。
ステップS3では、マスク対象判定部50は上記ステップS1で保存された入力データを展開したドキュメントツリーを生成する。
ステップS4では、マスク対象判定部50は、上記ステップS3で生成したドキュメントツリーに基づいて、上記ステップS2で検出された候補文字列の各々を文字列変換の対象とするかを判定する。
図6を参照しながら上記ステップS4を実現する処理ルーチンについて説明する。個人情報の項目毎に、以下の処理ルーチンが繰り返し実行される。ここでは入力データ10がHTML文書であり、この文書から検出された個人情報の項目「電話番号」に対して処理ルーチンが実行される場合について説明する。
ステップS41において、入力データ10であるHTML文書から、上記ステップS2によって検出された候補文字列のうち、ある一つの項目に対応する候補文字列を読み込む。例えば上記ステップS2で検出された電話番号「046‐123‐4567」を構成する構成要素項目の文字列「046」、「123」、「4567」をそれぞれp1、p2、p3としたとき、これらを文字列変換の候補文字列として読み込む。例えば、p1として検出された文字列変換の候補をmaskTargetP1と定義すると、前記HTML文書におけるp1の記載箇所を例えば登場順にmaskTargetP1(1),maskTargetP1(2),…,maskTargetP1(n)と定義して読み込む。また、読み込んだ候補文字列の記載箇所を、上記ステップS3で生成したドキュメントツリーにおいて記録する。
そして、ステップS42において、上記ステップS41で読み込んだ候補文字列の項目が、複数の構成要素項目で構成される個人情報の項目であるか否かを判定する。一つの構成要素項目で構成される個人情報の項目である場合には、当該候補文字列が、文字列変換の対象であると判断し、後述するステップS48へ移行する。一方、複数の構成要素項目で構成される個人情報の項目である場合には、ステップS43へ移行する。
ステップS43では、ドキュメントツリーにおいて、上記ステップS41で読み込んだ候補文字列が含まれる、各ノードの先端側に近いブロックレベル要素の要素ノードの配下のそれぞれから、当該候補文字列の構成要素項目に対して組み合わせ対象となる構成要素項目の候補文字列を求める。すなわち、候補文字列が検出されたノードと同一レベルのノード又は子ノードの範囲から、組み合わせ対象の構成要素項目の候補文字列を求める。
そして、ステップS44において、上記ステップS43で構成要素項目の組み合わせが成立したか否かを判定する。構成要素項目の組み合わせが成立した候補文字列の組み合わせについては、文字列変換の対象であると判断し、ステップS48へ移行する。一方、構成要素項目の組み合わせが成立していない候補文字列が存在する場合については、ステップS45へ移行する。
ステップS45では、構成要素項目の組み合わせが成立していない候補文字列が含まれる、各ノードの先端側に近いブロックレベル要素の要素ノードより、更に上層(親ノード)側にあるブロックレベル要素の要素ノードの配下の範囲から、組み合わせ対象の構成要素項目の候補文字列を求める。また、組み合わせ対象の構成要素項目の候補文字列が見つからない場合には、更に上層側にあるブロックレベル要素の要素ノードの配下の範囲から、組み合わせ対象の構成要素項目の候補文字列を求める。このように、組み合わせ対象の構成要素項目の候補文字列が見つかるまで、検出範囲を、徐々に上層側のブロックレベル要素の要素ノードの配下の範囲に広げ、組み合わせ対象の構成要素項目の候補文字列が見つからない場合には、ドキュメントツリーのトップノードの配下の範囲に広げるまで繰り返す。
そして、ステップS46において、上記ステップS45で構成要素項目の組み合わせが成立したか否かを判定する。構成要素項目の組み合わせが成立した候補文字列の組み合わせについては、文字列変換の対象であると判断し、ステップS48へ移行する。一方、構成要素項目の組み合わせが成立していない候補文字列が存在する場合については、ステップS47において、当該候補文字列を、文字列変換の対象外(マスク対象外)とする。
ステップS48では、文字列変換の対象であると判断された候補文字列、あるいは候補文字列の組み合わせを出力し、処理ルーチンを終了する。
そして、図5のマスク置換処理ルーチンにおけるステップS5において、マスク置換部60は、上記ステップS4で文字列変換の対象と判定された候補文字列あるいは候補文字列の組み合わせを、所定の他の文字列に置き換え、マスク置換処理ルーチンを終了する。これにより入力データ10に含まれる個人情報を特定できないようになる。このように個人情報がマスクされた入力データ10は出力データ70として出力される。
以上説明したように、本発明の第1の実施の形態に係る文字列変換装置によれば、電子文書のドキュメントツリーにおける同一レベルのノードまたは子ノードの範囲に含まれる、文字列変換の候補文字列と、組み合わせ対象の構成要素項目に対応する文字列変換の候補文字列との組み合わせを、文字列変換の対象として、マスク文字列に置き換えることにより、不必要なマスク処理を行うことなく電子文書に含まれる個人情報を適切にマスク処理することができる。
また、入力されたWeb閲覧履歴データにおけるデータ構成内容をもとに、個人情報文字列を検出し、文字列変換の対象とするか否かの判定を行うことで、誤マスクを減らし、適切にマスク処理を行うことを可能とする。これにより、個人情報保護を実現しつつ、ユーザのWeb閲覧履歴収集を可能とする。
[第2の実施の形態]
<システム構成>
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
一般的に、E-コマースサイトなどのWebサイトを閲覧する場合、個人情報が表示されるページの構成パターンは限定的なパターン数となり、そのページ内で必要とされる個人情報種類も限定される。
そこで、第2の実施の形態では、あるユーザが文字列変換装置を用いてWeb閲覧履歴に含まれる個人情報をマスク処理する際、ページ内に含まれる個人情報の種類情報を事前に取得することにより、マスク処理漏れを防ぐことを可能とする。
図7に示された第2の実施の形態に係るネットワークシステム200はシステム内に存在する全てのユーザPC2において文字列変換装置1を実装させている。個々のユーザPC2はそのハードウェアリソースがソフトウェアリソースと協働することにより図1に示された文字列変換装置1の機能部20〜60を実装している。ユーザPC2を所有するクライアントの個人情報は、予め個人情報辞書30に項目毎(例えば「氏名」「電話番号」「携帯電話番号」「クレジットカード番号」「郵便番号」「メールアドレス」「住所」)に格納される。
ユーザPC2はインターネット4を介して重点マスク情報蓄積サーバ3と通信可能となっている。サイト毎に含まれる個人情報の種類が、重点マスク個人情報301として、予め重点マスク情報データベース302に格納される。
あるユーザがユーザPC2にてWebサイトのあるページを閲覧した際に個人情報が含まれる場合、ユーザPC2は、当該WebサイトのURLを含む閲覧ページ情報201を送信して、該URLについて重点マスク情報蓄積サーバ3に問い合わせを行い、該URL中に含まれる可能性がある個人情報種類を含む重点マスク情報202を取得する。
ユーザPC2上では、該URLのページ中に含まれる個人情報文字列を、上記の第1の実施の形態と同様に検出する。その際、重点マスク情報蓄積サーバ3から得た重点マスク情報202を用いることで、重点マスク情報202に含まれる種類の個人情報が、個人情報辞書30に登録されていない場合は、ユーザに注意を促し、マスク処理漏れを防ぐことが可能となる。
また、本ネットワークシステム200においてはWeb閲覧履歴収集サーバ5がインターネット4を介してユーザPC2からWeb閲覧履歴データ203を取得できるようになっている。Web閲覧履歴データ203に含まれる個人情報はユーザPC2が実行する上記図5のマスク置換処理ルーチンによりマスク処理されている。
マスク処理が完了した時点で、ユーザPC2は、Web閲覧履歴収集サーバ5にマスキング処理後のWeb閲覧履歴データ203を送付する。
この際、ユーザPC2は、Web閲覧履歴収集サーバ5に送信するWeb閲覧履歴データ203に含まれるマスク文字列(上記の他の文字列)に、マスク処理を行った個人情報の種類情報を識別可能とする識別情報を組み込む。これによって、Web閲覧履歴収集サーバ5に蓄積されたデータをもとに、重点マスク情報を解析することが可能となる。例えば、文字列変換の対象であると判定された候補文字列が、個人情報の項目「電話番号」の文字列と一致する場合には、前述のマスク文字列に対し、個人情報種類識別子としてtelephoneのハッシュ値の一部「b9bb」を組み込み、「*b9bb*6:AB1B*」等としても良い。
図7のマスク情報解析サーバ6では、Web閲覧履歴収集サーバ5に蓄積される複数ユーザのマスク処理後のWeb閲覧履歴データ203について該マスク文字列を検出し、検出頻度の高いURLを求めることで、個人情報が多数含まれるWebページのURL情報を求めることが可能となる。このURL情報と、検出されたマスク文字列から求められる個人情報種類情報とを重点マスク情報蓄積サーバ3に蓄積し、ユーザからのアクセス時に重点マスク情報202として配布することで、マスク漏れを減少させることが可能となる。
なお、マスク情報解析サーバ6において、マスク情報が検出される頻度の高いURLでの、マスク文字列が含まれるドキュメントツリーのノード情報を解析し、出現頻度の高いノード情報を求めることで、該URLにおける個人情報を含む可能性の高いノード情報を求めるようにしてもよい。この場合には、該URLとノード情報とを重点マスク情報蓄積サーバ3に蓄積し、重点ノード情報として配布するようにしても良い。
また、ユーザPC2からURL情報とマスク処理した個人情報の種類情報とを重点マスク情報蓄積サーバ3に送付するようにしても良い。この場合、重点マスク情報蓄積サーバ3にて、複数のユーザからのマスク処理結果データから該URL中に含まれる可能性の高い個人情報種類を算出し、重点マスク情報202として蓄積することが可能となる。
本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、組み合わせが成立した候補文字列の組み合わせから、最終的にペアを決定する際、当該候補文字列の組み合わせの間に含まれるブロックレベル要素のHTMLタグ数を用いて、ペア間の近さの評価を行うようにしてもよい。この場合には、ブロックレベル要素のHTMLタグ数が多いときに、Webページ表記上、遠いペアの組み合わせを選択していると評価することができる。よって、あるページについて複数ユーザのWeb閲覧履歴データが取得できる場合、該当ページにおいて組み合わせが成立した候補文字列のペア間のブロックレベル要素のHTMLタグ数の平均値を求めることで、該当ページのあるユーザのマスク処理において、候補文字列の組み合わせの間のブロックレベル要素のHTMLタグ数が平均値以上となる、候補文字列の組み合わせが存在する場合は、マスク対象外として判定することで、誤マスクを軽減することが可能となる。
また、本発明の実施の際、全ての処理をローカルPC上で実施するとしても良いし、ネットワークを介したサーバ上に個人情報辞書を配置するとしても良い。
また、ネットワークを介したサーバ上に個人情報辞書を配置することで、複数のクライアントPC上からネットワークを介して個人情報のパターン情報を参照することが可能となる。
また、マスク処理後のデータをローカルPC上に保存するとしても良いし、またネットワークを介してWeb閲覧履歴収集サーバに蓄積するとしても良い。
[本発明のプログラムとしての態様]
本発明は文字列変換装置1を構成する上記の機能部20〜60の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。または、文字列変換装置1が実行する上記のステップS1〜S5の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることで実現できる。そして、前記プログラムをそのコンピュータが読み取り可能な記録媒体、例えば、FD(Floppy(登録商標)Disk)や、MO(Magneto‐Opticaldisk)、ROM(ReadOnlyMemory)、メモリカード、CD(CompactDisk)‐ROM、DVD(DigitalVersatileDisk)‐ROM、CD‐R、CD‐RW、HDD、SSD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。さらに、上記のプログラムをインターネットや電子メールなど、ネットワークを介して提供することも可能である。
1 文字列変換装置
2 ユーザPC
3 重点マスク情報蓄積サーバ
4 インターネット
5 閲覧履歴収集サーバ
6 マスク情報解析サーバ
10 入力データ
20 入力データ読込部
30 個人情報辞書
40 個人情報検出部
50 マスク対象判定部
60 マスク置換部
200 ネットワークシステム

Claims (2)

  1. 個人情報検出手段によって、保護対象の個人情報文字列データを少なくとも1つ以上の構成要素項目に分けて格納した個人情報辞書に含まれる各構成要素項目の文字列を、電子文書から文字列変換の候補文字列として検出し、
    ツリー生成手段によって、前記電子文書のドキュメントツリーを生成し、
    マスク対象判定手段によって、前記検出された文字列変換の候補文字列に対して、前記ドキュメントツリーにおける前記候補文字列に対応するノードと同一レベルのノードまたは子ノードの範囲に、組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列が含まれる場合、検出された文字列変換の候補文字列と、前記組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列との組み合わせを、文字列変換の対象として判定し、
    マスク置換手段によって、前記文字列変換の対象と判定された候補文字列の組み合わせを他の文字列に置き換える
    文字列変換方法。
  2. コンピュータを、
    保護対象の個人情報文字列データを少なくとも1つ以上の構成要素項目に分けて格納した個人情報辞書に含まれる各構成要素項目の文字列を、電子文書から文字列変換の候補文字列として検出する個人情報検出手段、
    前記電子文書のドキュメントツリーを生成するツリー生成手段、
    前記検出された文字列変換の候補文字列に対して、前記ドキュメントツリーにおける前記候補文字列に対応するノードと同一レベルのノードまたは子ノードの範囲に、組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列が含まれる場合、検出された文字列変換の候補文字列と、前記組み合わせ対象の構成要素項目に対応する前記文字列変換の候補文字列との組み合わせを、文字列変換の対象として判定するマスク対象判定手段、及び
    前記文字列変換の対象と判定された候補文字列の組み合わせを他の文字列に置き換えるマスク置換手段
    として機能させるためのプログラム。
JP2012116668A 2012-05-22 2012-05-22 文字列変換方法及びプログラム Expired - Fee Related JP5676522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012116668A JP5676522B2 (ja) 2012-05-22 2012-05-22 文字列変換方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012116668A JP5676522B2 (ja) 2012-05-22 2012-05-22 文字列変換方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013242782A true JP2013242782A (ja) 2013-12-05
JP5676522B2 JP5676522B2 (ja) 2015-02-25

Family

ID=49843595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012116668A Expired - Fee Related JP5676522B2 (ja) 2012-05-22 2012-05-22 文字列変換方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5676522B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186425A (ja) * 2013-03-22 2014-10-02 Mitsubishi Denki Information Technology Corp 文章マスク装置及び文章マスクプログラム
JP2016218738A (ja) * 2015-05-20 2016-12-22 株式会社野村総合研究所 データマスキング装置、データマスキング方法およびコンピュータプログラム
JP2017068677A (ja) * 2015-09-30 2017-04-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2018036845A (ja) * 2016-08-31 2018-03-08 シャープ株式会社 情報処理装置
WO2018179222A1 (ja) * 2017-03-30 2018-10-04 株式会社オプティム コンピュータシステム、画面共有方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149638A (ja) * 2000-11-07 2002-05-24 Oki Electric Ind Co Ltd 電子文書編集装置及び電子メール装置
JP2013114287A (ja) * 2011-11-25 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 文字列変換装置、文字列変換方法及び文字列変換プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002149638A (ja) * 2000-11-07 2002-05-24 Oki Electric Ind Co Ltd 電子文書編集装置及び電子メール装置
JP2013114287A (ja) * 2011-11-25 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> 文字列変換装置、文字列変換方法及び文字列変換プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186425A (ja) * 2013-03-22 2014-10-02 Mitsubishi Denki Information Technology Corp 文章マスク装置及び文章マスクプログラム
JP2016218738A (ja) * 2015-05-20 2016-12-22 株式会社野村総合研究所 データマスキング装置、データマスキング方法およびコンピュータプログラム
JP2017068677A (ja) * 2015-09-30 2017-04-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2018036845A (ja) * 2016-08-31 2018-03-08 シャープ株式会社 情報処理装置
WO2018179222A1 (ja) * 2017-03-30 2018-10-04 株式会社オプティム コンピュータシステム、画面共有方法及びプログラム
US10789914B2 (en) 2017-03-30 2020-09-29 Optim Corporation Computer system, screen sharing method, and program

Also Published As

Publication number Publication date
JP5676522B2 (ja) 2015-02-25

Similar Documents

Publication Publication Date Title
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
Laclavík et al. Email analysis and information extraction for enterprise benefit
JP5126541B2 (ja) 情報分類装置、情報分類方法、及び情報分類プログラム
US20060271859A1 (en) Method and system for visualizing Weblog social network communities
JP5676522B2 (ja) 文字列変換方法及びプログラム
WO2015047920A1 (en) Title and body extraction from web page
JP5358549B2 (ja) 保護対象情報マスキング装置、保護対象情報マスキング方法および保護対象情報マスキングプログラム
US20090083266A1 (en) Techniques for tokenizing urls
JP4636473B2 (ja) リンク情報抽出装置、リンク情報抽出方法およびプログラム
JP4430598B2 (ja) 情報共有システムおよび情報共有方法
JP5731361B2 (ja) 文字列変換方法及び文字列変換プログラム
JP5103051B2 (ja) 情報処理システム及び情報処理方法
JP2012123681A (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
CN110719344B (zh) 域名获取方法、装置、电子设备及存储介质
Alim et al. Online social network profile data extraction for vulnerability analysis
JPWO2018056299A1 (ja) 情報収集システム、情報収集方法、及び、プログラム
JP2006243832A (ja) ワークフロー検索システム
JP5379627B2 (ja) 検索制御装置、検索制御方法、及びプログラム
US20180046656A1 (en) Constructing filterable hierarchy based on multidimensional key
JP5331084B2 (ja) 特定情報抽出装置および特定情報抽出プログラム
JP2015103101A (ja) テキスト要約装置、方法、及びプログラム
JP2015225446A (ja) 個人情報処理装置、受託サービス提供装置、個人情報処理方法、および個人情報処理プログラム
CN110750739B (zh) 一种页面类型确定方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141225

R150 Certificate of patent or registration of utility model

Ref document number: 5676522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees