JP4261099B2 - 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム - Google Patents
文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム Download PDFInfo
- Publication number
- JP4261099B2 JP4261099B2 JP2001365607A JP2001365607A JP4261099B2 JP 4261099 B2 JP4261099 B2 JP 4261099B2 JP 2001365607 A JP2001365607 A JP 2001365607A JP 2001365607 A JP2001365607 A JP 2001365607A JP 4261099 B2 JP4261099 B2 JP 4261099B2
- Authority
- JP
- Japan
- Prior art keywords
- anonymization
- document
- specificity
- notation
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明は、文書内の個人を特定するような表現を匿名化する文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体,及びプログラムに関し、特に、個人を特定する表現がどの程度の強さで個人を特定できるかを評価して匿名化する文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体、及びプログラムに関する。
【0002】
【従来の技術】
近年、コンピュータを利用したデータ解析の傾向として、顧客からのアンケート回答、苦情、電子メール等の電子化された文書データから事業に役立つ情報を抽出しようとする機運が高まっている。しかし、これらの文書データには個人情報を含まれていることが多く、取扱を間違えると企業の存立に関わる問題となり得る。そこで、文書データを解析する前に、個人情報に関わる情報を適切に隠蔽することが必要となる。
【0003】
従来、文書データ等に含まれる個人情報は人手により隠蔽化するか、あるいは機械処理が可能な個人名等の直接に個人を特定する表現を隠蔽化する等が行われている。
【0004】
【発明が解決しようとする課題】
しかしながら、このような従来の個人情報の隠蔽化にあっては、記述されている個人名や個人に関連する周辺表記が、個人情報として保護される情報に属するものか、公的な人物に関する情報のように保護の必要がない情報なのかの区別が作業者にとって判別しづらいため、作業者によって個人情報隠蔽化の適切さが変化するという問題がある。
【0005】
このため個人情報の隠蔽化を行う作業者の技能と知識は、ある水準を越えている必要があるため、人手による個人情報の隠蔽化は高コストになりやすい。
【0006】
本発明は、個人情報の隠蔽化を機械化して作業コストを低減し、更に、必要に応じて隠蔽化の度合を調整可能とする文書匿名化装置、方法及び匿名化プログラムを記録したコンピュータ読取り可能な記録媒体、及びプログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
図1は本発明の概略説明図である。本発明は、文書匿名化装置であり、図1(A)のように、文書を入力する文書入力部10と、入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算部12と、所定の閾値より大きい特定度を持つ入力文書中の表記を匿名化する匿名化処理部18とを備えたことを特徴とする。
【0008】
このため本発明は、文書中の個人を特定するような表現に対して、それがどの程度の強さで個人を特定できるのかを匿名化を行う前に評価しておき、要求される匿名化の水準(閾値)に応じて情報を隠蔽化する。この結果、文書を必要な度合いで自動ないし半自動で匿名化でき、匿名化作業を効率化し作業コストを下げることができる。
【0009】
ここで特定度計算部18は、入力文書から人名を抽出し、抽出した人名がどの程度の強さで個人を特定できるかを評価する特定度を算出し、匿名化処理部18は、所定の閾値よりも大きい特定度をもつ人名を匿名化する。
【0010】
また特定度計算部12は、入力文書から人名の周辺表記、すなわち人名を示す表記を抽出し、抽出された周辺表記がどの程度の強さで個人を特定できるかを評価する特定度、すなわち後述する所定の基準で数値化した特定度を算出し、このとき匿名化処理部16は、所定の閾値よりも大きい特定度をもつ周辺表記を匿名化することを特徴とする。ここで周辺表記とは、例えば「大手A社の社長」のように個人名を強く示唆する表記のことである。
【0011】
特定度算出部12は、例えば入力文書から文を切出す文切出し部と、切出した文を品詞毎に分解する品詞解析部と、品詞解析結果から人名抽出ルールに基づいて人名を抽出する人名抽出部と、統計情報に基づいて抽出した人名の特定度を計算する人名特定度計算部とを備える。
【0012】
更に、特定度算出部12は、品詞解析結果から構文解析ルールに基づいて文節間の係り受け関係を示す構文木を作成する構文解析部と、構文解析部で得られた構文木に対し個人特定木抽出ルールに基づいて個人特定木を周辺表記として抽出する個人特定木抽出部と、統計情報に基づいて抽出した個人特定木(周辺表記)の特定度を計算する木構造特定度計算部とを備える。
【0013】
特定度算出部12は、例えば入力文書から文を切出す文切出し部と、切出した文を品詞毎に分解する品詞分解部と、品詞分解部から人名抽出ルールに基づいて人名を抽出する人名抽出部と、品詞解析部から構文解析ルールに基づいて人名に係る文節間の係り受け関係を示す構文木を作成する構文木解析部と、構文解析結果で得られた構文木に対し、個人特定木抽出ルールに基づいて構文特定木を周辺表記として取り出す個人特定木抽出部と、基準文書内での周辺表記と人名の組み合わせを持つ統計情報から、以下の方法で人名や周辺表記が個人を特定する度合である特定度を計算する特定度計算部を備える。
【0014】
ここで、周辺表記とは、構文解析の結果、人名と係り受け関係を持つ構文木のことであり、例えば「大手A社の○○社長」には○○社長という人名があって、それに係る修飾句である「大手A社の」が周辺表記である。
【0015】
特定度算出部12は、匿名化対象文書に含まれる人名や周辺表記の組み合わせに対して、基準特定度データベース14中の人名や周辺表記か特定の個人を指す確率を読み出して、基準特定度データベース14内の全ての個人識別IDについて匿名化対象文書中の人名や周辺表記の組み合わせが持つ個人情報を特定する強さである特定度の計算を行う。基準特定度データベース14には、個人識別するIDと共に人名や周辺表記がその個人を指す確率が登録されている。
【0016】
基準特定度データベース中で、個人識別IDがpである表記全てのうちで表記数最大のものを表記数Nとしたとき、匿名化対象の文書中の人名や人名を表す表記の組み合わせがpであることを特定する度合いである特定度K(p)の計算は次式で行う。
【0017】
K(p)=(入力文書中の人名又は周辺表記がpを指す確率の総和)/N・・・(1)
ただし、特定度K(p)の計算方法は、これに限定されるものではなく、入力文書の人名や周辺表記と一致しない人名や周辺表記を持つ個人識別IDについては特定度が低くなり、一致する人名や周辺表記が多い程、表記が表わす個人識別IDの特定度が高くなる性質を持つ計算方法であればよい。
【0018】
基準特定度データベスー中で全てのpについて特定度K(p)を計算しているので、特定度K(p)を最大にするpを求めることができ、入力文書や人名や周辺表記の組み合わせはそのpを越えている可能性が最も高いことになり、最大の特定度K(p)がある基準値を越えている場合に、入力文書の人名や周辺表記に対し隠蔽化を行うことになる。
【0019】
ここで特定度の計算に使用する基準特定度データベース14の作成方法を説明する。基準特定度データベース14の作成は、データベース作成部15により行われる。データベース作成部15は、既存文書の集合である文書データベース72から文書切出し部によって文書を切り出し、次に文切り出し部によって文単位に分解し、品詞解析部、人名処理部および周辺表記処理部で人名や周辺表記を抽出し、それらがある個人を指す確率を計算し、基準特定度データベース14に、表記が指す個人を識別するID、表記の種類、表記、表記が個人を指す確率の4つの組でなる基準特定度データを登録する。
【0020】
確率計算のためには表記が指す個人を特定する必要があり、そのため電子メールアドレスや住所といった個人を特定する表記を使用する。これらは、以下のような表記の特徴を持っており、その表記の特徴を利用して文書中から取り出す。
【0021】
(1)電子メールアドレス:abcd@xxx.yyyy.com
(2)住所:○○県○○市○○△丁目△△−△△
これらの個人を特定する表記を個人識別IDに変換する。ある個人識別IDであるpを使って、ある特定の個人を指す確率P(a→p)や、人名を示す表記sが、特定の個人を指す確率P(s→p)を以下の式で近似する。文書データベース中で個人を特定する表記を持ち、それがpを指している文書の集合をMとすると、
P(a→p)=(Mにおけるaの個数)/(既存文書データベースの全てのaの数)
・・・(2)
P(s→p)=(Mにおけるaの個数)/(既存文書データベースの全てのsの数)
・・・(3)
となる。この近似は一例であり近似の方法はこの例に限定されるものではない。
【0022】
この計算結果から、個人識別ID、表記の種類、表記、表記が個人を指す確率の4つの組のデータが基準特定度データベースに基準特定度データとして登録される。
【0023】
基準特定度データベース14から個人を特定する確率を読み出して、特定度計算部で特定度を計算する。計算された特定度を基準値と比較することで、匿名化処理を行うかどうか判別する。
【0024】
特定度算出部12は、文書データベースの既存文書から文書毎に人名や周辺表記を抽出して特定度を計算し、匿名対象表記、人名又は周辺表記の種類及び特定度の組にした特定度データを登録した基準特定度データベース14を作成するデータベース作成部15を備えるようにしても良い。
【0025】
本発明の匿名化装置は、更に、匿名化処理部18で使用する閾値を設定変更する匿名化指示部20を設ける。このため作業者は、閾値を設定変更しながら匿名化された文書をチェックすることで、個人情報に対する隠蔽化度合を簡単に調整でき、最適な隠蔽化ができる。
【0026】
匿名化指示部20は、処理文書毎に匿名化処理に使用した閾値データベース26に保存し、新たな入力文書の匿名化処理の際に直前の閾値をデフォルトとして設定する。このため検属して文書の匿名化処理をおこなう場合には、一度、最適な閾値の設定調整が済めば、その後は最適化された閾値がデフォルト設定さることで、特に閾値を指示する必要なく処理を進めることができる。
【0027】
匿名化処理部18は、匿名化不要表記を登録した匿名化不要データベース22を持ち、入力文書から抽出された匿名化表記の内、匿名化不要データベースに登録されている表記は匿名化しない。例えば首相や大臣のように公的な人物については、匿名化データベースに登録することで、匿名化の対象から除外する。
【0028】
匿名化処理部18は、必ず匿名化する表記を登録した匿名化データベース24を持ち、この匿名化データベース26に登録されている入力文書中の表記は全て匿名化する。例えば企業名、クレジットカードの番号を表す規則、電話番号を表す規則、電子メールのアドレスを表す規則等については、匿名化データベース26に登録しておくことで、閾値の如何に関わらず確実に匿名化する。
【0029】
匿名化処理部18は匿名化処理として次の処理を選択的に行うことができる。
(1)入力文書から抽出された匿名化対象表記を伏せ字にする。
(2)入力文書から抽出された匿名化対象表記を、個人を特定しない一般化された表記に置き換える。
(3)入力文書から抽出された匿名化対象表記を、匿名化対象表記の匿名化に使用する閾値以下の特定度を持つ低特定度表記で置き換える。
(4)入力文書から抽出された匿名化対象表記を暗号化することで匿名化する。ここで、匿名化処理部18により暗号化により匿名化された匿名化文書を閲覧する際に、暗号化された匿名化表記を復号化して表示させる復号化指示部32を設けるようにしても良い。
【0030】
また本発明は、文書匿名化方法を提供するものであり、図1(B)のように、文書を入力する文書入力ステップと;
入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算ステップと;
所定の閾値より大きい特定度を持つ入力文書中の表記を匿名化する匿名化処理ステップと;
を備えたことを特徴とする。この文書匿名化方法の詳細は装置構成の場合と同じになる。
【0031】
また本発明は、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体を提供するものであり、記録媒体に記録された匿名化プログラムは、
コンピュータに、文書を入力する文書入力ステップと、
入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算ステップと、
所定の閾値より大きい特定度を持つ入力文書中の表記を匿名化する匿名化処理ステップと、
を実行させる。この記録媒体における匿名化プログラムの詳細も装置構成の場合と同じになる。
【0032】
更に本発明は、匿名化のためのプログラムをを提供するものであり、このプログラムは、コンピュータに、
文書を入力する文書入力ステップと、
入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算ステップと、
所定の閾値より大きい特定度を持つ入力文書中の表記を匿名化する匿名化処理ステップと、
を実行させる。このプログラムの詳細も装置構成の場合と同じになる。
【0033】
【発明の実施の形態】
図2は、本発明による文書匿名化装置の機能構成を示したブロック図であり、コンピュータ装置のプログラム制御により実現される。
【0034】
図2において、本発明の文書匿名化装置は、文書入力部10、特定度計算部12、基準特定度データベース14、特定度正規化部16、匿名化処理部18、匿名化指示部20、匿名化不要データベース22、匿名化データベース24、閾値データベース26、作業表示部28及び匿名化文書記憶部30で構成される。更に匿名化文書記憶部30に格納された匿名化文書を閲覧するため、復号化指示部32、判定部34、閲覧データ作成部36及び閲覧表示部38が必要に応じて設けられる。
【0035】
このような機能構成を持つ本発明の文書匿名化装置につき、各処理部の詳細を説明すると次のようになる。文書入力部10は匿名化対象文書を入力する。匿名化文書としては、例えはデータ解析対象となる文書が含まれ、例えば顧客からのアンケート回答、苦情、電子メールなどの文書情報を含んでいる。
【0036】
文書入力部10で入力した匿名化対象文書は特定度計算部12に与えられ、特定度が計算される。ここで特定度とは、個人を特定するような表現、即ち人名やその周辺表記に対して、どの程度の強さで個人を特定できるかを評価する値である。
【0037】
本発明にあっては、特定度算出部12は、匿名化対象文書から人名や周辺表記を抽出し、抽出した人名や周辺表記が個人を指す確率を文書データベース72から前記(2)式や(3)式に基づいて算出するか、もしくは、基準特定度データベースから表記が個人を指し示す確率を読み出して特定度を計算し、匿名化状態部18は、所定の閾値よりも大きい特定度を持つ神明や周辺表記を隠蔽化する。基準特定度データベース14には、データベース作成部15により、後の説明で明らかにするように、十分な量の文書データベース72を使用して、そこに存在している人名や周辺表記について、前記(2)式や(3)式から表記が個人を指す確率を算出して登録している。
【0038】
ここで基準特定度データベース14からは、図9に示すような
(1)個人識別ID
(2)個人識別IDを示す表記の種別(人名もしくは周辺表記)
(3)個人識別IDを指す表記
(4)表記が個人識別IDを指す確率
の4つを組としたデータが出力される。特定度計算部12は、基準特定度データベース14の出力から、(1)式に基づいてある個人識別IDについて特定度を算出する。
【0039】
図9に示した基準特定度データベース14の例に従って説明する。この例では前記(1)式で使用するNは4であったとする。そしてP001の個人を特定する度合である特定度は、(1)式から
(0.3+0.9+1.0+0.2)/4=0.6となる。P003については、人名「松岡」のみが一致したとすると、(1)式から0.2/4=0.05 がP003についての特定度となる。全ての個人識別IDについて計算した特定度の中でP001の0.6が最大だったとすると、この0.6と基準値を比較して隠蔽化するかどうかの判定を行う。
【0040】
特定度算出部12は、
(1)匿名化表記
(2)特定度
2つの組となる特定度データの形式で匿名化処理部18に出力する。
【0041】
匿名化処理部18は特定度正規化部16より出力された特定度データを使用して、文書入力部10より得られた匿名化対象文書について人名や周辺表記を隠蔽化する匿名化処理を行う。
【0042】
匿名化処理部18に対しては、匿名化指示部20より
(1)閾値
(2)使用匿名化方法
(3)処理文書分類
の3つの指示値が与えられる。
【0043】
匿名化指示部20による閾値は、作業者がキーボードやマウスなどの入力デバイスを使用して設定変更できる値であり、人名閾値と周辺表記を対象とした個人特定木閾値を個別に設定することができる。この匿名化指示部20から設定された閾値は特定度正規化部16から得られた特定度データの特定度と比較され、閾値以上の特定度をもつ人名及び周辺表記について隠蔽するための匿名化処理が行われる。
【0044】
匿名化指示部20による閾値の設定は、直接閾値の数値を入力させる方法以外に、特定度に対応したスライドバーをマウスで操作する方法、閾値の設定ウィンドウを開いてウィンドウ項目の中から閾値を選択する方法など、適宜の視覚的な操作を含む。
【0045】
匿名化指示部20による使用匿名化方法の指示に対応して、匿名化処理部18には次の匿名化方法が設けられている。
(1)伏せ字化
(2)一般化
(3)低特定度化
(4)暗号化
まず伏せ字化は、匿名化対象とする人名や周辺表記を伏せ字に使用する記号を選択し、選択した記号で匿名化対象を全て置き換える。例えば「佐藤」といった人名を「××」とする。
【0046】
一般化は匿名化対象中の固有名詞を一般的な表記で置き換える。このため、一般的な表記で置き換えるための一般化ルールを匿名化処理部18は備えている。この一般化ルールには例えば
ルール1:人名は「A」に置き換える。
【0047】
ルール2:企業名は「A」に置き換える。
などが記述されている。
【0048】
低特定度化は、匿名化の対象をより特定度の低い表記で置き換える。この低特定度化のため、人名と特定度の組及び個人特定木と特定度の組について、小さい特定度のものを基準特定度データベース14から検索し、このとき匿名化対象となっている特定度より低い特定度の検索した表記を用いて匿名化対象を置き換える。具体的には、人名の場合には基準特定度データベース14から小さい特定度を持つ人名を検索し、検索結果で匿名化対象の人名を置き換えることで匿名化する。
【0049】
また周辺表記となる個人特定木の場合には、基準特定度データベース14から匿名化対象の個人特定木と共通する分節を含む個人特定木で特定木が小さい個人特定木を検索し、この検索した個人特定木で匿名化対象を置き換える。もし基準特定度データベース14から検索した結果が匿名化対象の特定度以下でない場合には、低特定度化による匿名化はできないことから、処理の失敗を作業者に知らせることになる。更に、暗号化は、匿名化の対象を所定の暗号規則に従って暗号化する。
【0050】
匿名化処理部18に対しては、匿名化不要データベース22と匿名化データベース24が設けられている。匿名化不要データベース22には匿名化を行う表記や識別するための規則が登録されている。匿名化不要データベース22に登録されている例としては例えば次のものがある。
(1)首相、大臣などの公人の人名
(2)芸能人の人名
(3)首相、大臣のような、公の人物であることを示す周辺表記を持つ人物を識別する規則
このため、匿名化処理部18で文書入力部10より入力した匿名化対象文書を匿名化する際に、匿名化不要データベース22を参照し、そこに登録している人名や表記については匿名化を一切行わないことになる。
【0051】
匿名化データベース24には匿名化処理の際に必ず匿名化を行う表記や、これを識別するための規則が登録されている。例えば匿名化データベース24には次の表記や規則が登録されている。
(1)企業名
(2)クレジットカードの番号を表わす規則
(3)電話番号を表す規則
(4)電子メールのアドレスを表わす規則
このため匿名化処理部18にあっては、文書入力部10から入力した匿名化対象文書の中に匿名化データベース24に登録している表記や識別規則に該当する表記がある場合には、特定度計算部12及び特定度正規化部16で求められた特定度の如何に関わらず強制的に匿名化を行って認定することになる。
【0052】
匿名化処理部18で匿名化された文書は作業表示部28に表示され、作業者は匿名化の結果を確認しながら匿名化指示部20により閾値や使用匿名化方法を変更し、必要とする隠蔽化が行われた匿名化文書を作成することができる。匿名化処理部18で作成された匿名化文書は匿名化文書記憶部30に保存される。
【0053】
匿名化文書記憶部30のレコード形式としては、文書コードなどを使用した処理文書分類、匿名化処理情報、匿名化文書の形式をもって保存する。もちろん指示情報には、文書匿名化処理の際に匿名化指示部24で指示された閾値使用匿名化方法が含まれている。
【0054】
閾値データベース26には匿名化文書記憶部30に記憶された匿名化文書レコードより得た閾値と匿名化方法が処理文書分類である分類コードによって登録されている。特に閾値データベース26の先頭位置には、最新の匿名化文書に関する閾値により匿名化方法が格納されており、匿名化処理部18にあっては、この閾値データベース26の先頭位置の閾値及び匿名化方法を匿名化指示部20によるデフォルトの設定内容としている。
【0055】
このため作業者にあっては、匿名化指示部20により閾値や使用匿名化方法の指示を行わなくても、直前に行われた匿名化文書における閾値及び匿名化方法が自動的に匿名化処理部18に設定されることになる。
【0056】
匿名化文書記憶部30に保存されている匿名化文書は、閲覧データ作成部36により読み出して閲覧表示部38に表示して閲覧することができる。このうち暗号化による匿名化文書については、復号化指示部32からの暗号化方法に対応したパスワードの入力で匿名化文書中の暗号化部分を元の人名や周辺表記に復号化して閲覧することができる。
【0057】
復号化指示部32からのパスワードは判定部34で判定され、パスワードに対応した復号化方法が閲覧データ作成部36に指示され、暗号化された表記を復号して閲覧することができる。この匿名化処理部18における暗号化と閲覧時の復号化については、後の説明で更に明らかにされる。
【0058】
図3は、図2における本発明の文書匿名化処理のフローチャートである。図3において、ステップS1で匿名化処理要求の有無をチェックしており、作業者による匿名化処理要求を判別すると、ステップS2に進み、文書入力部10より匿名化対象文書を入力する。続いてステップS3で特定度計算部12により匿名化対象文書に含まれる人名やその周辺表記である匿名化対象について特定度を計算する。具体的には、基準特定度データベース14の参照で個人名の指す確率を取得する。続いてステップS4で特定度に基づいて匿名化処理を行う。
【0059】
ステップS4で匿名化処理が済むと、ステップS5で匿名化文書を保存する。続いてステップS6で閲覧要求をチェックしており、閲覧要求があればステップS7に進み、保存している匿名化文書の閲覧データを作成して表示する。そしてステップS8で終了指示があれば、一連の処理を終了する。
【0060】
図4は、図2の特定度計算部12の詳細を示した機能構成のブロック図である。特定度計算部12は、文切出部40、品詞解析部42、人名処理部44及び周辺表記処理部46で構成される。人名処理部44には人名抽出部48、人名特定度計算部50及び人名抽出ルール52が設けられている。
【0061】
また周辺表記処理部46には構文解析部54、個人特定木抽出部56、木構造特定度計算部58、構文解析ルール60及び個人特定木抽出ルール62が設けられている。
【0062】
図2の文書入力部10で入力された匿名化文書は、図4の特定度計算部12における文切出部40に与えられ、文単位に分解して切り出した文を品詞解析部42に入力する。品詞解析部42は形態素解析などを利用して切り出した文を品詞情報付きの品詞に分解し、人名処理部44と周辺表記処理部46のそれぞれに出力して人名処理及び周辺表記処理をそれぞれ独立に行わせる。
【0063】
まず人名処理部44を説明すると、品詞解析部42から文を品詞ごとに分解して受けた人名抽出部48は、人名抽出ルール52を用いて人名を抽出し、人名特定度計算部50に出力する。人名抽出ルール52としては「if〜then〜」形式によって次の規則が登録されている。
規則521: if[姓],[名]then人名として抽出
規則522: if[姓]then人名として抽出
規則523: if[名]then人名として抽出
この「if〜then」の規則において、ifの次の条件部では品詞名を[]で表わす。また、この条件部で「,」で繋がった品詞は連続しているものを表わしている。
【0064】
このような人名抽出ルール60の規則521,522,523によって、規則に一致する品詞パターンを持った文字列として人名が抽出される。例えば規則521により連続した姓名から人名が抽出される。また規則522により姓から人名が抽出される。更に規則523により名から人名が抽出される。
【0065】
人名特定度計算部50は、匿名化対象となる表記により、基準特定度データベース14を参照し、表記が個人を指す確率を取得する。
【0066】
次に周辺表記処理部46に説明する。周辺表記処理部46の構文解析部56は、品詞解析部42から得られた品詞ごとに分解した文を対象に、構文解析を利用して分節間の係り受け関係を示す木構造、即ち構文木を作成する。このとき構文解析部54は構文解析ルール60を使用する。構文解析ルール60には「if〜then」形式で次の規則が記述されている。
規則601: if[名詞句],[助詞「の」],[人名]then
[人名名詞句]([名詞句]→<修飾>→[人名])
規則602: if[名詞句],[助詞「の」],[人名名詞句]then
[人名名詞句]([名詞句]→<修飾>→[人名名詞句])
この規則601,602において、ifの後ろの条件部は品詞間に複数の要素が入っている条件を表している。またthenの直後には、条件部が成立した場合にひとまとめにした品詞を記述し、( )内に生成する要素間の関係を記述する。更に< >の中には生成される関係に付けられた名前を表わしている。
【0067】
この構文解析による構文木の生成を具体的に説明すると次のようになる。いま次のような文があったとする。
「△△社の社長でピアニストの○○は××ホールで演奏した」
規則601は名詞句と名詞句の間に助詞の「の」が入っているときに全体を名詞句とし、
[名詞句]→<修飾>→[人名]
の修飾関係を生成し、これは例文の「ピアニストの」が「○○」を修飾している木構造に対応している。したがって、この場合の木構造として図6が得られる。
【0068】
図6のように得られた構文木に対し、次の個人特定木抽出部56は、個人特定木抽出ルール62を適用して、個人を特定する部分木を個人特定木として抽出し、木構造特定度計算部58に出力する。
【0069】
個人特定木抽出ルール62には次のような規則が登録されている。
規則621: if[名詞句]→<修飾>→[人名]then
個人特定木として抽出
規則622: if[名詞句]→<修飾>→[人名名詞句]then
個人特定木として抽出
即ち規則621は、人名などを修飾する名詞句を個人特定木として抽出することに対応する。例えば「ピアニスト」が「○○」を修飾している木構造から
「ピアニストの」→<修飾>→「○○」
を個人特定木として抽出することができる。この例では、これ以外に図6のような木構造がそれぞれ個人特定木として抽出される。
【0070】
木構造特定度計算部58は人名特定度計算部50と同様、基準特定度データベース14の参照により、木構造が個人を指す確率を取得し、特定度を計算する。
【0071】
図7は、図4の特定度計算部12における処理のフローチャートである。この特定度計算処理にあっては、ステップS1で匿名化対象文書から文を切り出し、ステップS2で品詞ごとに分解する品詞解析を行い、人名処理及び周辺表記処理のそれぞれに供給する。
【0072】
人名処理にあっては、ステップS3で人名抽出を行い、ステップS4で人名特定度を計算し、併せて基準特定度データベース14の参照で得られた特定度と共に出力する。また周辺表記処理にあっては、ステップS5で構文解析を行った後、ステップS6で個人特定木抽出処理を行い、ステップS7で木構造特定度計算を行うと共に、基準特定度データベース14から基準特定度を取得し、正規化処理に出力する。
【0073】
図8は、図1の特定度計算部12に設けているデータベース作成部15の機能を取り出している。このデータベース作成部15は、文書データベース72に格納されている十分な量の文書を対象に基準特定度データベース14を作成する。
【0074】
このためデータベース作成部15にあっては、文書データベース72から対象文書を切り出す文切出部40が設けられ、切り出した文書は文切出部40に与えられる。
【0075】
データベース作成部15の文切出部40と品詞解析部42は、図4の特定度算出部12のブロックのものと同一のものが使用される。周辺表記処理部46−1は、個人を特定する周辺表記である電子メールアドレスや住所等を抽出し、それを個人識別IDに置き換える。
【0076】
電子メールアドレスや住所は、以下のような表記の特徴をもっており、この表記を使って本分から取り出す。
【0077】
電子メールアドレス:abcd@xxx.yyyy.com
住所:○○県○○市○○△丁目△△−△△
人名処理部44−1及び周辺表記処理部46−1では、図4の人名処理部44及び周辺表記処理部46と同じ機構で人名や周辺表記を抽出する。抽出した人名や周辺表記については、前記(2)式や(3)式に従って、人名や周辺表記が個人を指す確率が計算される。
【0078】
そして人名処理部44−1および周辺表記処理部46−1で作成された、個人識別ID、表記の種類、表記、及び表記が個人を指す確率の4つの組となる特定度データは、例えば図9のように、基準特定度データベース14に基準特定度データとして登録される。
【0079】
データベース作成部15の処理の流れを図10に示す。既存文書を厚めた文書データベース72から文書を切り出し、その文書を文に分解して人名と周辺表記である個人特定木を取り出すところまでは、図5の特定度計算部と同様である。周辺表記の中で個人を特定する電子メールアドレスや住所等の表記の特徴から判別して個人識別IDを作成し、個人識別ID毎に、人名や周辺表記が個人を指す確率を(2)式もしくは(3)式から計算し。図9のような4つの組のデータとして基準特定度データベースに登録する。
【0080】
図9は、基準特定度データベース14の登録内容の例であり、種別、表記、基準特定度の項目によって基準特定度データが登録され、種別としては人名及び周辺表記を表す構文木が格納されている。
【0081】
図10は、図8のデータベース作成部15の処理のフローチャートである。この基準特定度データベースの作成処理にあっては、ステップS1で文書データベース72から文書を切り出して標準文書を作成し、ステップS3で品詞ごとに分解する品詞解析を行う。
【0082】
この品詞解析結果はステップS4,S5の人名処理及びステップS6〜S9の周辺表記処理のそれぞれに与えられ、独立に人名抽出と人名特定度の計算、及び構文解析、個人特定木抽出に基づく木構造特定度、個人識別IDの作成が行われる。そしてステップS10で最終的に、基準特定度データベース14に図9のように基準特定度データを登録する。
【0083】
この基準特定度データベースの作成処理は、本発明の匿名化装置を使用する前の準備段階で基本的に行うが、運用中においても必要に応じて適宜に文書データベース72を更新して、新たな文書データを対象に基準特定度データベース14の再構築を行うことが望ましい。
【0084】
図11は、図3のステップS5における匿名化処理の詳細のフローチャートである。この匿名化処理にあっては、ステップS1で匿名化指示部20からの指示に基づき、匿名化処理部18で使用する匿名化情報を決定する。匿名化条件は匿名化指示部20からの指示がないときは、閾値データベース26に基づいて行う。
【0085】
図12は、図2の閾値データベース26の登録内容であり、処理文書分類となる分類コード、閾値及び匿名化方法の項目で構成されている。この内、処理文書分類の分類コード00となる先頭位置には、直前の匿名化処理で使用した直前閾値とその匿名化方法が登録されている。この分類コード00の先頭位置の閾値及び匿名化方法は、図11の匿名化処理における匿名化指示のデフォルト条件として設定される。
【0086】
このためステップS1の匿名化条件決定の際に匿名化指示部20による作業者の指示がなければ、図12の閾値データベース26の先頭位置となる分類コード00の匿名化方法、この場合には「伏せ字化」と「直前閾値」が匿名化条件として設定される。
【0087】
ステップS2で匿名化条件が承認されると、ステップS3で匿名化条件を決定した条件に変更する。そしてステップS4で匿名化対象文書について匿名化表記である人名や周辺表記を検索し、ステップS5で匿名化表記があれば、ステップS6で匿名化不要データベース22の参照により匿名化不要表記を検索する。
【0088】
ステップS7で匿名化不要表記があれば、それ以降の処理をスキップする。匿名化不要表記がなければ、ステップS8で匿名化表記について求められている特定度を匿名化条件として設定した閾値と比較し、閾値以上であればステップS9の置換処理に入る。
【0089】
この置換処理は、伏せ字化、一般化、低特定度化、暗号化のいずれかの処理となる。そしてステップS10で全ての匿名化表記検索が終了したか否かチェックし、終了していなければ再びステップS4に戻り、同様な処理を繰り返し、全ての匿名化表記の処理が済めば一連の処理を終了する。
【0090】
図13は、図11のステップS9における置換処理の詳細のフローチャートである。図13において、まずステップS1で匿名化条件として伏せ字化の指示の有無をチェックしており、伏せ字化の指示であればステップS2に進み、予め準備された伏せ字に使用する記号を選択し、ステップS3で閾値以上の特定度を持つ匿名化対象表記を対象に伏せ字への置き換えを行う。
【0091】
一方、ステップS4で匿名化条件として一般化の指示が判別された場合には、予め準備している一般化ルールを参照して、ステップS5で一般表記を選択し、ステップS6で閾値以上の特定度を持っている匿名化対象表記について、選択した一般表記への置き換えを行う。
【0092】
またステップS7で匿名化条件として低匿名化の指示を判別した場合には、ステップS10に進み、基準特定度データベース14より小さい特定度を持つ人名または周辺表記としての個人特定木をステップS10で検索する。
【0093】
このデータベース検索に対し、ステップS11で低特定度表記があれば、ステップS12で検索した特定度表記への置き換えを行う。一方、ステップS11で低特定度表記がデータベースから検索できなかった場合には、ステップS14で作業者に対し失敗を通知して処理を終了する。
【0094】
一方、ステップS7で低特定度化でなかった場合には、この場合は暗号化であることからステップS8に進み、暗号化表記を生成し、ステップS9で匿名化対象表記を暗号化表記に置き換える。
【0095】
そしてステップS3,ステップS6,ステップS9またはステップS12のいずれかの置き換えが済むと、ステップS13で匿名化文書と表記データを出力し、必要があれば再度、匿名化条件の設定を行って匿名化処理を繰り返し、匿名化終了であれば匿名化文書記憶部30に匿名化文書を保存するようになる。
【0096】
ここでステップS8,S9における復号化による匿名化処理を説明すると次のようになる。暗号化表記による置き換えとしては、例えば暗号化によって匿名化した箇所の開始位置に暗号化したことを示すコード<CRYPT>を埋め込み、終了位置に暗号化の範囲が終了したことを示すコード</CRYPT>を埋め込む。また復号化方法を示す場合には開始コード<CRYPT>の部分を<CRYPT METHOD=”復号化方法”>として復号化方法を記述する。
【0097】
例えば「△△さんはプログラムの解析を行った」を暗号化により匿名化すると、次のようになる。
「<CRYPT METHOD="METHOD1">%abc$12DE;KsrBX </CRYPT>さんはプログラムの解析を行った。」
この暗号化は匿名化対象文書の「△△」を暗号化した結果が「%abc$12DE;KsrBX」、復号化の方法が「METHOD1」の場合に、匿名化対象の表記「△△」を暗号化表記で置き換えたものである。
【0098】
この例では「METHOD1」で指定された復号化方法の中にパスワードや公開範囲を指定しておき、暗号化後のデータが外部に流出したとしても、匿名化対象「△△」という人名は復号化しない限り読み取ることができないようにする。
【0099】
また暗号化と復号化の方法を何通りか用意しておき、それぞれの方法ごとに対応するパスワードを変えておくことで、暗号化した表記ごとに復号化される部分とそうでない部分とを区別できるようにし、閲覧者ごとに読取り可能な範囲を変化させることもできる。更に暗号化の方法を記述する方法として、暗号化された匿名化文書に暗号化部分を示す情報を埋め込む方法以外に、暗号化した表記の位置情報や暗号化方法を匿名化文書、本文とは別文書で記憶させてもよい。
【0100】
このような暗号化による置換処理で得られた匿名化文書については、図2の復号化指示部32、判定部34、閲覧データ作成部36に示すように、暗号化方法と復号化方法に対応して定められたパスワードを使用した復号化指示部32からの指示を判定部34に対し行うことで、パスワードに基づいた復号化方法より匿名化文書記憶部30に格納されている暗号化表記で置換した匿名化文書を読み出し、暗号化表記の部分を元の人名や周辺表記に復号して閲覧表示部38で見ることができる。
【0101】
図14は、図2の作業表示部28に表示された匿名化作業画面88であり、文書入力部10より入力された匿名化対象文書として電子メール90が表示されている。この匿名化作業画面88の右側には匿名化条件を設定するウィンドウ92が設けられ、ウィンドウを開くことで原文92−1が表示されていることを示している。
【0102】
このような原文の匿名化作業画面88について、図15のようにウィンドウ92を開いて、その選択内容から閾値として低レベル92−2を指示し、この状態で実行キー94をマウスクリックすると、閾値レベルを低レベルとした本発明による文書匿名化処理が実行され、匿名化文書96の表示が行われる。
【0103】
この低レベルの閾値を設定した匿名化文書96を図14の原文である電子メール90と対比すると、企業名「情報媒体」、所属名「情報機器」、名「英達」が、それぞれ「○○○○」、「××××」「△△」に置換されている。また原文の電子メール90におけるメールアドレス、電話番号、ファックス番号及び住所についても、それぞれ匿名化の表記での置換が行われている。
【0104】
図16は、ウィンドウ92の閾値レベルを高レベル92−3に設定した場合の実行キー94のマウスクリックによる処理結果としての匿名化文書96を表示した匿名化作業画面88である。
【0105】
このように閾値レベルを高レベルとした場合には、図15の閾値レベルを低レベルとしたい場合には匿名化されていなかった人名「佐藤」「松岡」についても、「▽▽」「△△」のように匿名化表記への置換が行われ、個人情報に対する隠蔽度が更に高められる。
【0106】
次に本発明による文書匿名化プログラムを記録したコンピュータ読取り可能な記録媒体の実施形態を説明する。本発明による文書匿名化プログラムは、図3のフローチャートに示した処理ステップを備えている。
【0107】
即ち本発明の記録媒体に格納された匿名化プログラムは、コンピュータに文書を入力する文書入力ステップと、入力文書から匿名化対象表記を抽出し、抽出した匿名化対象表記がどの程度の強さで個人を特定するかを評価する特定度を参照する特定度計算ステップと、所定の閾値より大きい特定度を持つ入力文書中の表記を匿名化する匿名化処理ステップとを実行させる。
【0108】
この記憶媒体には、CD−ROMやフロッピィディスクなどのリムーバブルな可搬型記録媒体、回線によりプログラムを提供するプログラム提供者の記憶装置、更にはプログラムをインストールした処理装置のRAMやハードディスクなどのメモリ装置がある。また記録媒体によって提供された文書匿名化プログラムは処理装置にローディングされ、その主メモリ上で実行される。
【0109】
また本発明により提供される記録媒体に格納された文書匿名化プログラムは、図2における文書入力部10、特定度計算部12、基準特定度データベース14、特定度正規化部16、匿名化処理部18、匿名化指示部20、匿名化不要データベース22、匿名化データベース24及び閾値データベース26、更に匿名化文書記憶部30の処理機能を備えればよい。
【0110】
なお上記の実施形態にあっては、図2のように特定度計算部12で匿名化対象表記について特定度を計算と基準特定度データベース14の両方から求め、特定度正規化部16で正規化する場合を例にとっているが、特定度計算部12で匿名化表記について基準特定度データベース14から取得し、基準特定度データベース14にない場合に計算により特定度を求めるようにしてもよい。この場合には計算または基準特定度データベース14のいずれかから特定度が求まることから、特定度正規化部16による正規化は行わない。
【0111】
また本発明は、その目的と利点を損なわない適宜の変形を含む。更に本発明は上記の実施形態に示した数値による限定は受けない。
【0112】
(付記)
(付記1)
文書を入力する文書入力部と、
前記入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算部と、
所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化する匿名化処理部と、
を備えたことを特徴とする文書匿名化装置。(1)
【0113】
(付記2)
付記1記載の文書匿名化装置に於いて、
前記特定度計算部は、前記入力文書から人名を抽出し、抽出した人名がどの程度の強さで個人を特定できるかを評価する特定度を算出し、
前記匿名化処理部は、所定の閾値よりも大きい特定度をもつ人名を匿名化することを特徴とする文書匿名化装置。(2)
【0114】
(付記3)
付記1記載の文書匿名化装置に於いて、
前記特定度計算部は、前記入力文書から人名の周辺表記を抽出し、抽出された周辺表記がどの程度の強さで個人を特定できるかを評価する特定度を算出し、
前記匿名化処理部は、所定の閾値よりも大きい特定度をもつ周辺表記を匿名化することを特徴とする文書匿名化装置。(3)
【0115】
(付記4)
付記1記載の文書匿名化装置に於いて、前記特定度算出部は、
入力文書から文を切出す文切出し部と、
切出した文を品詞毎に分解する品詞解析部と、
前記品詞解析結果から人名抽出ルールに基づいて人名を抽出する人名抽出部と、
統計情報に基づいて抽出した人名の特定度を計算する人名特定度計算部と、
を備えたことを特徴とする文書匿名化装置。(4)
【0116】
(付記5)
付記1記載の文書匿名化装置に於いて、前記特定度算出部は、更に、
前記品詞解析結果から構文解析ルールに基づいて文節間の係り受け関係を示す構文木を作成する構文解析部と、
前記構文解析部で得られた構文木に対し個人特定木抽出ルールに基づいて個人特定木を個人周辺表記として抽出する個人特定木抽出部と、
統計情報に基づいて抽出した個人特定木の特定度を計算する木構造特定度計算部と、
を備えたことを特徴とする文書匿名化装置。(5)
【0117】
(付記6)
付記4又は5記載の文書匿名化装置に於いて、前記特定度算出部は、既存文書に基づいて作成した匿名対象表記、人名か周辺表記かの種別及び特定度を組にした特定度データを登録した基準特定度データベースを備え、前記入力文書から抽出した匿名化表記の計算により求めた特定度を、前記基準匿名度データベースに登録している特定度との重み平均をとって正規化することを特徴とする文書匿名化装置。(6)
【0118】
(付記7)
付記4又は5記載の文書匿名化装置に於いて、前記特定度算出部は、文書データベースの既存文書から文書毎に人名や周辺表記を抽出して特定度を計算し、匿名対象表記、人名又は周辺表記の種類及び特定度の組にした特定度データを登録した前記基準特定度データベースを作成するデータベース作成部を備えたことをことを特徴とする文書匿名化装置。(7)
【0119】
(付記8)
付記1記載の文書匿名化装置に於いて、更に、前記匿名化処理部で使用する閾値を設定変更する匿名化指示部を設けたことを特徴とする文書匿名化装置。(8)
【0120】
(付記9)
付記1記載の文書匿名化装置に於いて、前記匿名化指示部は、処理文書毎に匿名化処理に使用した閾値を閾値データベースに保存し、新たな入力文書の匿名化処理の際に直前の閾値をデフォルトとして設定することを特徴とする文書匿名化装置。(9)
【0121】
(付記10)
付記1記載の文書匿名化装置に於いて、前記匿名化処理部は、匿名化不要表記を登録して匿名化不要データベースを持ち、入力文書から抽出された匿名化表記の内、前記匿名化不要データベースに登録されている表記は匿名化しないことを特徴とする文書匿名化装置。(10)
【0122】
(付記11)
付記1記載の文書匿名化装置に於いて、前記匿名化処理部は、必ず匿名化する表記を登録した匿名化データベースを持ち、該匿名化データベースに登録されている入力文書中の表記は全て匿名化することを特徴とする文書匿名化装置。(11)
【0123】
(付記12)
付記1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を伏せ字にすることを特徴とする文書匿名化装置。(12)
【0124】
(付記13)
付記1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を、個人を特定しない一般化された表記に置き換えることを特徴とする文書匿名化装置。(13)
【0125】
(付記14)
付記1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を、該匿名化対象表記の匿名化に使用する閾値以下の特定度を持つ低特定度表記で置き換えることを特徴とする文書匿名化装置。(14)
【0126】
(付記15)
付記1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を暗号化することで匿名化することを特徴とする文書匿名化装置。(15)
【0127】
(付記16)
付記15記載の文書匿名化装置に於いて、更に、前記匿名化処理部により暗号化により匿名化された匿名化文書を閲覧する際に、暗号化された匿名化表記を復号化して表示させる復号化指示部を設けたことを特徴とする文書匿名化装置。(16)
【0128】
(付記17)
文書を入力する文書入力ステップと、
前記入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算ステップと、
所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化する匿名化処理ステップと、
を備えたことを特徴とする文書匿名化方法。(17)
【0129】
(付記18)
付記17記載の文書匿名化方法に於いて、
前記特定度計算ステップは、前記入力文書から人名を抽出し、抽出した人名がどの程度の強さで個人を特定できるかを評価する特定度を算出し、
前記匿名化処理ステップは、所定の閾値よりも大きい特定度をもつ人名を匿名化することを特徴とする文書匿名化方法。
【0130】
(付記19)
付記17記載の文書匿名化方法に於いて、
前記特定度計算ステップは、前記入力文書から人名の周辺表記抽出し、抽出された周辺表記がどの程度の強さで個人を特定できるかを評価する特定度を算出し、前記匿名化処理ステップは、所定の閾値よりも大きい特定度をもつ周辺表記を匿名化することを特徴とする文書匿名化方法。
【0131】
(付記20)
付記17記載の文書匿名化方法に於いて、前記特定度算出ステップは、
入力文書から文を切出す文切出しステップと、
切出した文を品詞毎に分解する品詞解析ステップと、
前記品詞解析結果から人名抽出ルールに基づいて人名を抽出する人名抽出ステップと、
統計情報に基づいて抽出した人名の特定度を計算する人名特定度計算ステップと、
を備えたことを特徴とする文書匿名化方法。
【0132】
(付記21)
付記17記載の文書匿名化方法に於いて、前記特定度算出ステップは、更に、前記品詞解析結果から構文解析ルールに基づいて文節間の係り受け関係を示す構文木を作成する構文解析ステップと。
前記構文解析ステップで得られた構文木に対し個人特定木抽出ルールに基づいて個人特定木を個人周辺表記として抽出する個人特定木抽出ステップと、
統計情報に基づいて抽出した個人特定木の特定度を計算する木構造特定度計算ステップと、
を備えたことを特徴とする文書匿名化方法。
【0133】
(付記22)
付記20又は21記載の文書匿名化方法に於いて、前記特定度算出ステップは、前記入力文書から抽出した匿名化表記の計算により求めた特定度を、既存文書に基づいて作成した匿名対象表記、人名か周辺表記かの種別及び特定度を組にした特定度データを、登録した基準特定度データベースに登録している特定度との麻績み平均をとって正規化することを特徴とする文書匿名化方法。
【0134】
(付記23)
付記20又は21記載の文書匿名化方法に於いて、前記特定度算出ステップは、文書データベースの既存文書から文書毎に人名や周辺表記を抽出して特定度を計算し、匿名対象表記、人名又は周辺表記の種類及び特定度の組にした特定度データを登録した前記基準特定度データベースを作成するデータベース作成ステップを備えたことをことを特徴とする文書匿名化方法。
【0135】
(付記24)
付記17記載の文書匿名化方法に於いて、更に、前記匿名化処理ステップで使用する閾値を設定変更する匿名化指示ステップを設けたことを特徴とする文書匿名化方法。
【0136】
(付記25)
付記17記載の文書匿名化方法に於いて、前記匿名化指示ステップは、処理文書毎に匿名化処理に使用した閾値を閾値データベースに保存し、新たな入力文書の匿名化処理の際に直前の閾値をデフォルトとして設定することを特徴とする文書匿名化方法。
【0137】
(付記26)
付記17記載の文書匿名化方法に於いて、前記匿名化処理ステップは、入力文書から抽出された匿名化表記の内、匿名化不要データベースを参照して登録されている表記は匿名化しないことを特徴とする文書匿名化方法。
【0138】
(付記27)
付記17記載の文書匿名化方法に於いて、前記匿名化処理ステップは、必ず匿名化する表記を登録した匿名化データベースに登録されている入力文書中の表記は全て匿名化することを特徴とする文書匿名化方法。
【0139】
(付記28)
付記17記載の文書匿名化方法に於いて、前記匿名化処理ステップは、入力文書から抽出された匿名化対象表記を伏せ字にすることを特徴とする文書匿名化方法。
【0140】
(付記29)
付記17記載の文書匿名化方法に於いて、前記匿名化処理ステップは、入力文書から抽出された匿名化対象表記を、個人を特定しない一般化された表記に置き換えることを特徴とする文書匿名化方法。
【0141】
(付記30)
付記17記載の文書匿名化方法に於いて、前記匿名化処理ステップは、入力文書から抽出された匿名化対象表記を、該匿名化対象表記の匿名化に使用する閾値以下の特定度を持つ低特定度表記で置き換えることを特徴とする文書匿名化方法。
【0142】
(付記31)
付記17記載の文書匿名化方法に於いて、前記匿名化処理ステップは、入力文書から抽出された匿名化対象表記を暗号化することで匿名化することを特徴とする文書匿名化方法。
【0143】
(付記32)
付記32記載の文書匿名化方法に於いて、更に、前記匿名化処理ステップにより暗号化により匿名化された匿名化文書を閲覧する際に、暗号化された匿名化表記を復号化して表示させる復号化指示ステップを設けたことを特徴とする文書匿名化方法。
【0144】
(付記33)
コンピュータに、
文書を入力する文書入力ステップと、
前記入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算ステップと、
所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化する匿名化処理ステップと、
を実行させるための匿名化プログラムを記録したコンピュータ読取り可能な記録媒体。(18)
【0145】
(付記34)
コンピュータに、
文書を入力する文書入力ステップと、
前記入力文書から匿名対象表記を抽出し、抽出した匿名対象表記がどの程度の強さで個人を特定できるかを評価する特定度を算出する特定度計算ステップと、
所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化する匿名化処理ステップと、
を実行させることをと特徴とするプログラム。(19)
【0146】
【発明の効果】
以上説明してきたように本発明によれば、文書中の個人を特定するような表現に対し、それがどの程度の強さで個人を特定できるのかを、匿名化を行う前に評価しつつ、要求される匿名化の水準(閾値)に応じて対象となる表記を匿名化して適切に隠蔽化でき、これによって文書を必要な度合いで自動ないし半自動で匿名化でき、匿名化作業を効率化し、作業コストを大幅に低減することができる。
【図面の簡単な説明】
【図1】本発明の概略説明図
【図2】本発明の機能構成のブロック図
【図3】本発明による文書匿名化処理のフローチャート
【図4】図2の特定度計算部の機能構成のブロック図
【図5】構文解析で得られた周辺表記の構文木の説明図
【図6】図5の構文木から抽出された個人特定木の説明図
【図7】図4の特定度計算処理のフローチャート
【図8】図2の特定度計算部に設けているデータベース作成部の機能構成のブロック図
【図9】基準特定度データベースの説明図
【図10】図8の基準特定度データベース作成処理のフローチャート
【図11】本発明における匿名化処理のフローチャート
【図12】図2の閾値データベースの説明図
【図13】図11の置換処理のフローチャート
【図14】本発明で処理する原文作業画面の説明図
【図15】低レベルの閾値を指示した場合の本発明による匿名化文書の画面説明図
【図16】高レベルの閾値を指示した場合の本発明による匿名化文書の画面説明図
【符号の説明】
10:文書入力部
12:特定度計算部
14:基準特定度データベース
15:データベース作成部
18:匿名化処理部
20:匿名化指示部
22:匿名化不要データベース
24:匿名化データベース
26:閾値データベース
28:作業表示部
30:匿名化文書記憶部
32:復号化指示部
34:判定部
36:閲覧データ作成部
38:閲覧表示部
40:文切出部
42:品詞解析部
44:人名処理部
44−1:人名処理部(データベース作成部内)
46:周辺表記処理部
46−1:周辺表記処理部(データベース作成部内)
48:人名抽出部
50:人名抽出ルール
52:人名特定度計算部
54:構文解析部
56:個人特定木抽出部(周辺表記抽出部)
58:木構造特定度計算部(周辺表記特定度計算部)
60:構文解析ルール
62,86:個人特定木抽出ルール
72:文書データベース
74:文書切出部
Claims (17)
- 文書を入力する文書入力部と、前記入力文書から匿名対象表記を抽出し、抽出した匿名対象表記の特定度を算出する特定度計算部と、所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化する匿名化処理部とを備え、
前記特定度計算部は、
入力文書から文を切出す文切出し部と、切出した文を品詞毎に分解する品詞解析部と、前記品詞解析結果から人名抽出ルールに基づいて人名を抽出する人名抽出部と、前記品詞解析結果から構文解析ルールに基づいて文節間の係り受け関係を示す構文木を作成する構文解析部と、前記構文解析部で得られた構文木に対し個人特定木抽出ルールに基づいて個人特定木を抽出する個人特定木抽出部と、統計情報に基づいて抽出した人名の特定度を計算する人名特定度計算部と、統計情報に基づいて抽出した個人特定木の特定度を計算する木構造特定度計算部と、
を備えたことを特徴とする文書匿名化装置。 - 請求項1記載の文書匿名化装置に於いて、前記匿名化処理部は、前記特定度計算部で計算した特定度が所定の閾値よりも大きい特定度をもつ人名を所定表示に置き換えることを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記特定度計算部は、前記入力文書から人名と係り受けを持つ構文木を抽出し、抽出された前記人名と係り受けを持つ構文木を数値化した特定度を算出し、前記匿名化処理部は、所定の閾値よりも大きい特定度をもつ人名を示す表記を所定表示に置き換えることを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記特定度算出部は、既存文書に基づいて作成した匿名対象表記、人名か人名と係り受けを持つ構文木かの種別及び特定度を組にした特定度データを登録した基準特定度データベースを備え、前記入力文書から抽出した匿名化表記の計算により求めた特定度を、前記基準匿名度データベースに登録している特定度との重み平均をとって正規化することを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記特定度算出部は、文書データベースの既存文書から文書毎に人名や人名と係り受けを持つ構文木を抽出して特定度を計算し、匿名対象表記、人名又は人名と係り受けを持つ構文木の種類及び特定度の組にした特定度データを登録した前記基準特定度データベースを作成するデータベース作成部を備えたことを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、更に、前記匿名化処理部で使用する閾値を設定変更する匿名化指示部を設けたことを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記匿名化指示部は、処理文書毎に匿名化処理に使用した閾値を閾値データベースに保存し、新たな入力文書の匿名化処理の際に直前の閾値をデフォルトとして設定することを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記匿名化処理部は、匿名化不要表記を登録して匿名化不要データベースを持ち、入力文書から抽出された匿名化表記の内、前記匿名化不要データベースに登録されている表記は匿名化しないことを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記匿名化処理部は、必ず匿名化する表記を登録した匿名化データベースを持ち、該匿名化データベースに登録されている入力文書中の表記は全て匿名化することを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を伏せ字にすることを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を、個人を特定しない一般化された表記に置き換えることを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を、該匿名化対象表記の匿名化に使用する閾値以下の特定度を持つ低特定度表記で置き換えることを特徴とする文書匿名化装置。
- 請求項1記載の文書匿名化装置に於いて、前記匿名化処理部は、入力文書から抽出された匿名化対象表記を暗号化することで匿名化することを特徴とする文書匿名化装置。
- 請求項13記載の文書匿名化装置に於いて、更に、前記匿名化処理部により暗号化により匿名化された匿名化文書を閲覧する際に、暗号化された匿名化表記を復号化して表示させる復号化指示部を設けたことを特徴とする文書匿名化装置。
- 入力装置を介して文書を読み取り、前記読取結果から所定の匿名対象表記を抽出し、抽出した匿名対象表記を特定度算出装置によって数値化した特定度を算出し、前記算出結果が所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化することを特徴とする文書匿名化方法に於いて、
前記特定度算出装置は、
文切出し部によって入力文書から文を切出し、切出した文を品詞解析部によって品詞毎に分解し、前記品詞解析結果から人名抽出部によって人名抽出ルールに基づいて人名を抽出し、前記品詞解析結果から構文解析ルールに基づいて構文解析部により文節間の係り受け関係を示す構文木を作成し、前記構文解析部で得られた構文木に対し個人特定木抽出ルールに基づいて個人特定木抽出部により個人特定木を抽出し、統計情報に基づいて人名特定度計算部により抽出した人名の特定度を計算し、統計情報に基づいて木構造特定度計算部により抽出した個人特定木の特定度を計算することを特徴とする文書匿名化方法。 - コンピュータに、
文書入力装置を介して文書を読み取る文書手段と、
前記読取結果から所定の匿名対象表記を抽出し、抽出した匿名対象表記を特定度算出装置によって数値化した特定度を算出する特定度計算手段と、
前記算出結果が所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化処理装置によって匿名化する匿名化処理手段と、
を実行させるための匿名化プログラムを記録し、
前記特定度計算手段は、
入力文書から文を切出す文切出し手段と、切出した文を品詞毎に分解する品詞解析手段と、前記品詞解析結果から人名抽出ルールに基づいて人名を抽出する人名抽出手段と、前記品詞解析結果から構文解析ルールに基づいて文節間の係り受け関係を示す構文木を作成する構文解析手段と、前記構文解析部で得られた構文木に対し個人特定木抽出ルールに基づいて個人特定木を抽出する個人特定木抽出手段と、統計情報に基づいて抽出した人名の特定度を計算する人名特定度計算手段と、統計情報に基づいて抽出した個人特定木の特定 度を計算する木構造特定度計算手段と、からなることを特徴とするコンピュータ読取り可能な記録媒体。 - コンピュータに、
文書入力装置を介して文書を読み取る文書手段と、
前記読取結果から所定の匿名対象表記を抽出し、抽出した匿名対象表記を特定度算出装置によって数値化した特定度を算出する特定度計算手段と、
前記算出結果が所定の閾値より大きい特定度を持つ前記入力文書中の表記を匿名化処理装置によって匿名化する匿名化処理手段と、
を実行させ、
前記特定度計算手段は、
入力文書から文を切出す文切出し手段と、切出した文を品詞毎に分解する品詞解析手段と、前記品詞解析結果から人名抽出ルールに基づいて人名を抽出する人名抽出手段と、前記品詞解析結果から構文解析ルールに基づいて文節間の係り受け関係を示す構文木を作成する構文解析手段と、前記構文解析部で得られた構文木に対し個人特定木抽出ルールに基づいて個人特定木を抽出する個人特定木抽出手段と、統計情報に基づいて抽出した人名の特定度を計算する人名特定度計算手段と、統計情報に基づいて抽出した個人特定木の特定度を計算する木構造特定度計算手段と、を実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001365607A JP4261099B2 (ja) | 2001-01-05 | 2001-11-30 | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001000641 | 2001-01-05 | ||
JP2001-641 | 2001-01-05 | ||
JP2001365607A JP4261099B2 (ja) | 2001-01-05 | 2001-11-30 | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002269081A JP2002269081A (ja) | 2002-09-20 |
JP4261099B2 true JP4261099B2 (ja) | 2009-04-30 |
Family
ID=26607360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001365607A Expired - Fee Related JP4261099B2 (ja) | 2001-01-05 | 2001-11-30 | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4261099B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259368A (ja) * | 2001-03-01 | 2002-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体 |
JP4328477B2 (ja) * | 2001-08-22 | 2009-09-09 | 日本電気株式会社 | 情報変換装置及びその情報変換方法並びにそのプログラム |
JP2004151882A (ja) * | 2002-10-29 | 2004-05-27 | Fuji Xerox Co Ltd | 情報出力制御方法、情報出力処理システム、プログラム |
JP4622514B2 (ja) * | 2004-12-28 | 2011-02-02 | 日本電気株式会社 | 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム |
JP2006221560A (ja) * | 2005-02-14 | 2006-08-24 | Nomura Research Institute Ltd | データ置換装置、データ置換方法およびデータ置換プログラム |
JP2006309406A (ja) * | 2005-04-27 | 2006-11-09 | Fuji Xerox Co Ltd | 情報秘匿化装置、秘匿化システム、秘匿化方法および秘匿化プログラム |
JP2008077225A (ja) * | 2006-09-19 | 2008-04-03 | Ricoh Co Ltd | 情報入力用端末装置及び隠蔽データ内容確認方法及び隠蔽データ内容確認を実行するプログラム |
JP5337020B2 (ja) * | 2007-03-27 | 2013-11-06 | 富士通株式会社 | 電子文書の秘匿化プログラム |
JP5095281B2 (ja) * | 2007-07-11 | 2012-12-12 | 株式会社日立製作所 | 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム |
JP5381048B2 (ja) * | 2008-11-28 | 2014-01-08 | 日本電気株式会社 | 情報管理装置、そのデータ処理方法、情報管理システム、およびコンピュータプログラム |
JP5574526B2 (ja) * | 2009-11-21 | 2014-08-20 | 株式会社Kddi研究所 | 伏せ字を含む文章を修正するための伏せ字修正プログラム、方法及び文章解析サーバ |
JP5348010B2 (ja) * | 2010-02-18 | 2013-11-20 | 株式会社ニコン | 情報処理装置 |
US20160148018A1 (en) * | 2013-06-21 | 2016-05-26 | Rakuten, Inc. | Information providing device, information providing method, and program |
JP6281560B2 (ja) * | 2014-12-25 | 2018-02-21 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、処理方法、およびプログラム |
EP4027674A1 (en) * | 2021-01-11 | 2022-07-13 | Ricoh Company, Ltd. | Method and apparatus for document processing |
-
2001
- 2001-11-30 JP JP2001365607A patent/JP4261099B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002269081A (ja) | 2002-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4261099B2 (ja) | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム | |
US7386550B2 (en) | Document anonymization apparatus and method | |
US8285540B2 (en) | Character string anonymizing apparatus, character string anonymizing method, and character string anonymizing program | |
US7831571B2 (en) | Anonymizing selected content in a document | |
US20080222319A1 (en) | Apparatus, method, and program for outputting information | |
US9892278B2 (en) | Focused personal identifying information redaction | |
US8001389B2 (en) | Secure database access through partial encryption | |
CN108171073B (zh) | 一种基于代码层语义解析驱动的隐私数据识别方法 | |
US9886159B2 (en) | Selecting portions of computer-accessible documents for post-selection processing | |
US20060005017A1 (en) | Method and apparatus for recognition and real time encryption of sensitive terms in documents | |
US7184947B2 (en) | Document anonymity setting device, method and computer readable recording medium recording anonymity setting program | |
US20120303365A1 (en) | Audio Signal De-Identification | |
JP2006221560A (ja) | データ置換装置、データ置換方法およびデータ置換プログラム | |
JP2003016064A (ja) | 電子文書の実名語/匿名語マップ作成装置、作成方法、及び作成プログラム、並びに電子文書の匿名化装置、並びに電子文書の実名化装置 | |
US8190586B2 (en) | Method and system for determining whether an entered character string corresponds to terminology utilized in a database | |
US7058652B2 (en) | Method and system for event phrase identification | |
WO2017079024A1 (en) | Dynamic De-Identification of Healthcare Data | |
JP2005284353A (ja) | 個人情報利用システム、個人情報利用システムの制御方法、マップファイル生成装置、及びアクセス制御ポリシファイル生成装置 | |
Heurix et al. | Recognition and pseudonymisation of medical records for secondary use | |
JP5017405B2 (ja) | 規程管理装置及びプログラム | |
US20230040974A1 (en) | Data obfuscation | |
JP7265199B2 (ja) | 支援装置、支援方法、プログラム、及び支援システム | |
WO2023074010A1 (ja) | 開示資料秘匿化装置、開示資料秘匿化方法、及び、開示資料秘匿化プログラムが格納された記録媒体 | |
JP2010079859A (ja) | アンケート管理システム | |
JP5337020B2 (ja) | 電子文書の秘匿化プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040524 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060210 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060330 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060404 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060630 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |