JP2002269081A - 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム - Google Patents
文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラムInfo
- Publication number
- JP2002269081A JP2002269081A JP2001365607A JP2001365607A JP2002269081A JP 2002269081 A JP2002269081 A JP 2002269081A JP 2001365607 A JP2001365607 A JP 2001365607A JP 2001365607 A JP2001365607 A JP 2001365607A JP 2002269081 A JP2002269081 A JP 2002269081A
- Authority
- JP
- Japan
- Prior art keywords
- document
- anonymization
- specificity
- notation
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
減し、必要応じて隠蔽化の度合を調整可能とする。 【解決手段】文書匿名化装置は文書を入力する文書入力
部10と、入力文書から匿名対象表記を抽出し、抽出し
た匿名対象表記がどの程度の強さで個人を特定できるか
を評価する特定度を算出する特定度計算部12と、所定
の閾値より大きい特定度を持つ入力文書中の表記を匿名
化する匿名化処理部18とを備える。特定度計算部18
は、入力文書から人名と周辺表記を抽出し、抽出した人
名と周辺表記がどの程度の強さで個人を特定できるかを
評価する特定度を算出し、匿名化処理部18は、所定の
閾値よりも大きい特定度をもつ人名と周辺表記を、伏せ
字化、一般化、低特程度化、暗号化等により匿名化す
る。
Description
定するような表現を匿名化する文書匿名化装置、方法、
匿名化プログラムを記録したコンピュータ読取り可能な
記録媒体,及びプログラムに関し、特に、個人を特定す
る表現がどの程度の強さで個人を特定できるかを評価し
て匿名化する文書匿名化装置、方法、匿名化プログラム
を記録したコンピュータ読取り可能な記録媒体、及びプ
ログラムに関する。
析の傾向として、顧客からのアンケート回答、苦情、電
子メール等の電子化された文書データから事業に役立つ
情報を抽出しようとする機運が高まっている。しかし、
これらの文書データには個人情報を含まれていることが
多く、取扱を間違えると企業の存立に関わる問題となり
得る。そこで、文書データを解析する前に、個人情報に
関わる情報を適切に隠蔽することが必要となる。
人手により隠蔽化するか、あるいは機械処理が可能な個
人名等の直接に個人を特定する表現を隠蔽化する等が行
われている。
うな従来の個人情報の隠蔽化にあっては、記述されてい
る個人名や個人に関連する周辺表記が、個人情報として
保護される情報に属するものか、公的な人物に関する情
報のように保護の必要がない情報なのかの区別が作業者
にとって判別しづらいため、作業者によって個人情報隠
蔽化の適切さが変化するという問題がある。
技能と知識は、ある水準を越えている必要があるため、
人手による個人情報の隠蔽化は高コストになりやすい。
作業コストを低減し、更に、必要に応じて隠蔽化の度合
を調整可能とする文書匿名化装置、方法及び匿名化プロ
グラムを記録したコンピュータ読取り可能な記録媒体、
及びプログラムを提供することを目的とする。
図である。本発明は、文書匿名化装置であり、図1
(A)のように、文書を入力する文書入力部10と、入
力文書から匿名対象表記を抽出し、抽出した匿名対象表
記がどの程度の強さで個人を特定できるかを評価する特
定度を算出する特定度計算部12と、所定の閾値より大
きい特定度を持つ入力文書中の表記を匿名化する匿名化
処理部18とを備えたことを特徴とする。
るような表現に対して、それがどの程度の強さで個人を
特定できるのかを匿名化を行う前に評価しておき、要求
される匿名化の水準(閾値)に応じて情報を隠蔽化す
る。この結果、文書を必要な度合いで自動ないし半自動
で匿名化でき、匿名化作業を効率化し作業コストを下げ
ることができる。
人名を抽出し、抽出した人名がどの程度の強さで個人を
特定できるかを評価する特定度を算出し、匿名化処理部
18は、所定の閾値よりも大きい特定度をもつ人名を匿
名化する。
名の周辺表記抽出し、抽出された周辺表記がどの程度の
強さで個人を特定できるかを評価する特定度を算出し、
このとき匿名化処理部16は、所定の閾値よりも大きい
特定度をもつ周辺表記を匿名化することを特徴とする。
ここで周辺表記とは、例えば「大手A社の社長」のよう
に個人名を強く示唆する表記のことである。
文を切出す文切出し部と、切出した文を品詞毎に分解す
る品詞解析部と、品詞解析結果から人名抽出ルールに基
づいて人名を抽出する人名抽出部と、統計情報に基づい
て抽出した人名の特定度を計算する人名特定度計算部と
を備える。
から構文解析ルールに基づいて文節間の係り受け関係を
示す構文木を作成する構文解析部と、構文解析部で得ら
れた構文木に対し個人特定木抽出ルールに基づいて個人
特定木を周辺表記として抽出する個人特定木抽出部と、
統計情報に基づいて抽出した個人特定木(周辺表記)の
特定度を計算する木構造特定度計算部とを備える。
文を切出す文切出し部と、切出した文を品詞毎に分解す
る品詞分解部と、品詞分解部から人名抽出ルールに基づ
いて人名を抽出する人名抽出部と、品詞解析部から構文
解析ルールに基づいて人名に係る文節間の係り受け関係
を示す構文木を作成する構文木解析部と、構文解析結果
で得られた構文木に対し、個人特定木抽出ルールに基づ
いて構文特定木を周辺表記として取り出す個人特定木抽
出部と、基準文書内での周辺表記と人名の組み合わせを
持つ統計情報から、以下の方法で人名や周辺表記が個人
を特定する度合である特定度を計算する特定度計算部を
備える。
人名と係り受け関係を持つ構文木のことであり、例えば
「大手A社の○○社長」には○○社長という人名があっ
て、それに係る修飾句である「大手A社の」が周辺表記
である。
まれる人名や周辺表記の組み合わせに対して、基準特定
度データベース14中の人名や周辺表記か特定の個人を
指す確率を読み出して、基準特定度データベース14内
の全ての個人識別IDについて匿名化対象文書中の人名
や周辺表記の組み合わせが持つ個人情報を特定する強さ
である特定度の計算を行う。基準特定度データベース1
4には、個人識別するIDと共に人名や周辺表記がその
個人を指す確率が登録されている。
としたとき、匿名化対象の文書中の人名や周辺表記の組
合わせがpを特定する度合である特定度K(p)の計算
は、ここでは次式で行う。
るものではなく、入力文書の人名や周辺表記と一致しな
い人名や周辺表記を持つ個人識別IDについては特定度
が低くなり、一致する人名や周辺表記が多い程、表記が
表わす個人識別IDの特定度が高くなる性質を持つ計算
方法であればよい。
いて特定度K(p)を計算しているので、特定度K
(p)を最大にするpを求めることができ、入力文書や
人名や周辺表記の組み合わせはそのpを越えている可能
性が最も高いことになり、最大の特定度K(p)がある
基準値を越えている場合に、入力文書の人名や周辺表記
に対し隠蔽化を行うことになる。
データベース14の作成方法を説明する。基準特定度デ
ータベース14の作成は、データベース作成部15によ
り行われる。データベース作成部15は、既存文書の集
合である文書データベース72から文書切出し部によっ
て文書を切り出し、次に文切り出し部によって文単位に
分解し、品詞解析部、人名処理部および周辺表記処理部
で人名や周辺表記を抽出し、それらがある個人を指す確
率を計算し、基準特定度データベース14に、表記が指
す個人を識別するID、表記の種類、表記、表記が個人
を指す確率の4つの組でなる基準特定度データを登録す
る。
する必要があり、そのため電子メールアドレスや住所と
いった個人を特定する表記を使用する。これらは、以下
のような表記の特徴を持っており、その表記の特徴を利
用して文書中から取り出す。
る。ある個人識別IDであるpを使って、ある特定の個
人を指す確率P(a→p)や、人名の周辺表記sが、特
定の個人を指す確率P(s→p)を以下の式で近似す
る。文書データベース中で個人を特定する表記を持ち、
それがpを指している文書の集合をMとすると、 P(a→p)=(Mにおけるあるaの個数)/(Mにおける全てのaの数) ・・・(2) P(s→p)=(Mにおけるあるaの個数)/(Mにおける全てのaの数) ・・・(3) となる。近似の方法は常識に限定されるものではない。
種類、表記、表記が個人を指す確率の4つの組のデータ
が基準特定度データベースに基準特定度データとして登
録される。
定する確率を読み出して、特定度計算部で特定度を計算
する。計算された特定度を基準値と比較することで、匿
名化処理を行うかどうか判別する。
既存文書から文書毎に人名や周辺表記を抽出して特定度
を計算し、匿名対象表記、人名又は周辺表記の種類及び
特定度の組にした特定度データを登録した基準特定度デ
ータベース14を作成するデータベース作成部15を備
えるようにしても良い。
部18で使用する閾値を設定変更する匿名化指示部20
を設ける。このため作業者は、閾値を設定変更しながら
匿名化された文書をチェックすることで、個人情報に対
する隠蔽化度合を簡単に調整でき、最適な隠蔽化ができ
る。
処理に使用した閾値データベース26に保存し、新たな
入力文書の匿名化処理の際に直前の閾値をデフォルトと
して設定する。このため検属して文書の匿名化処理をお
こなう場合には、一度、最適な閾値の設定調整が済め
ば、その後は最適化された閾値がデフォルト設定さるこ
とで、特に閾値を指示する必要なく処理を進めることが
できる。
録した匿名化不要データベース22を持ち、入力文書か
ら抽出された匿名化表記の内、匿名化不要データベース
に登録されている表記は匿名化しない。例えば首相や大
臣のように公的な人物については、匿名化データベース
に登録することで、匿名化の対象から除外する。
を登録した匿名化データベース24を持ち、この匿名化
データベース26に登録されている入力文書中の表記は
全て匿名化する。例えば企業名、クレジットカードの番
号を表す規則、電話番号を表す規則、電子メールのアド
レスを表す規則等については、匿名化データベース26
に登録しておくことで、閾値の如何に関わらず確実に匿
名化する。
処理を選択的に行うことができる。 (1)入力文書から抽出された匿名化対象表記を伏せ字
にする。 (2)入力文書から抽出された匿名化対象表記を、個人
を特定しない一般化された表記に置き換える。 (3)入力文書から抽出された匿名化対象表記を、匿名
化対象表記の匿名化に使用する閾値以下の特定度を持つ
低特定度表記で置き換える。 (4)入力文書から抽出された匿名化対象表記を暗号化
することで匿名化する。ここで、匿名化処理部18によ
り暗号化により匿名化された匿名化文書を閲覧する際
に、暗号化された匿名化表記を復号化して表示させる復
号化指示部32を設けるようにしても良い。
ものであり、図1(B)のように、文書を入力する文書
入力ステップと;入力文書から匿名対象表記を抽出し、
抽出した匿名対象表記がどの程度の強さで個人を特定で
きるかを評価する特定度を算出する特定度計算ステップ
と;所定の閾値より大きい特定度を持つ入力文書中の表
記を匿名化する匿名化処理ステップと;を備えたことを
特徴とする。この文書匿名化方法の詳細は装置構成の場
合と同じになる。
たコンピュータ読取り可能な記録媒体を提供するもので
あり、記録媒体に記録された匿名化プログラムは、コン
ピュータに、文書を入力する文書入力ステップと、入力
文書から匿名対象表記を抽出し、抽出した匿名対象表記
がどの程度の強さで個人を特定できるかを評価する特定
度を算出する特定度計算ステップと、所定の閾値より大
きい特定度を持つ入力文書中の表記を匿名化する匿名化
処理ステップと、を実行させる。この記録媒体における
匿名化プログラムの詳細も装置構成の場合と同じにな
る。
をを提供するものであり、このプログラムは、コンピュ
ータに、文書を入力する文書入力ステップと、入力文書
から匿名対象表記を抽出し、抽出した匿名対象表記がど
の程度の強さで個人を特定できるかを評価する特定度を
算出する特定度計算ステップと、所定の閾値より大きい
特定度を持つ入力文書中の表記を匿名化する匿名化処理
ステップと、を実行させる。このプログラムの詳細も装
置構成の場合と同じになる。
装置の機能構成を示したブロック図であり、コンピュー
タ装置のプログラム制御により実現される。
は、文書入力部10、特定度計算部12、基準特定度デ
ータベース14、特定度正規化部16、匿名化処理部1
8、匿名化指示部20、匿名化不要データベース22、
匿名化データベース24、閾値データベース26、作業
表示部28及び匿名化文書記憶部30で構成される。更
に匿名化文書記憶部30に格納された匿名化文書を閲覧
するため、復号化指示部32、判定部34、閲覧データ
作成部36及び閲覧表示部38が必要に応じて設けられ
る。
名化装置につき、各処理部の詳細を説明すると次のよう
になる。文書入力部10は匿名化対象文書を入力する。
匿名化文書としては、例えはデータ解析対象となる文書
が含まれ、例えば顧客からのアンケート回答、苦情、電
子メールなどの文書情報を含んでいる。
は特定度計算部12に与えられ、特定度が計算される。
ここで特定度とは、個人を特定するような表現、即ち人
名やその周辺表記に対して、どの程度の強さで個人を特
定できるかを評価する値である。
匿名化対象文書から人名や周辺表記を抽出し、抽出した
人名や周辺表記が個人を指す確率を文書データベース7
2から前記(2)式や(3)式に基づいて算出するか、
もしくは、基準特定度データベースから表記が個人を指
し示す確率を読み出して特定度を計算し、匿名化状態部
18は、所定の閾値よりも大きい特定度を持つ神明や周
辺表記を隠蔽化する。基準特定度データベース14に
は、データベース作成部15により、後の説明で明らか
にするように、十分な量の文書データベース72を使用
して、そこに存在している人名や周辺表記について、前
記(2)式や(3)式から表記が個人を指す確率を算出
して登録している。
は、図9に示すような (1)個人識別ID (2)個人識別IDを示す表記の種別(人名もしくは周
辺表記) (3)個人識別IDを指す表記 (4)表記が個人識別IDを指す確率 の4つを組としたデータが出力される。特定度計算部1
2は、基準特定度データベース14の出力から、(1)
式に基づいてある個人識別IDについて特定度を算出す
る。
の例に従って説明する。この例では前記(1)式で使用
するNは4であったとする。そしてP001の個人を特
定する度合である特定度は、(1)式から (0.+0.9+1.0+0.2)/4=0.6 となる。P003については、人名「松岡」のみが一致
したとすると、(1)式から0.2/4=0.05 が
P003についての特定度となる。全ての個人識別ID
について計算した特定度の中でP001の0.6が最大
だったとすると、この0.6と基準値を比較して隠蔽化
するかどうかの判定を行う。
に出力する。
り出力された特定度データを使用して、文書入力部10
より得られた匿名化対象文書について人名や周辺表記を
隠蔽化する匿名化処理を行う。
部20より (1)閾値 (2)使用匿名化方法 (3)処理文書分類 の3つの指示値が与えられる。
キーボードやマウスなどの入力デバイスを使用して設定
変更できる値であり、人名閾値と周辺表記を対象とした
個人特定木閾値を個別に設定することができる。この匿
名化指示部20から設定された閾値は特定度正規化部1
6から得られた特定度データの特定度と比較され、閾値
以上の特定度をもつ人名及び周辺表記について隠蔽する
ための匿名化処理が行われる。
接閾値の数値を入力させる方法以外に、特定度に対応し
たスライドバーをマウスで操作する方法、閾値の設定ウ
ィンドウを開いてウィンドウ項目の中から閾値を選択す
る方法など、適宜の視覚的な操作を含む。
指示に対応して、匿名化処理部18には次の匿名化方法
が設けられている。 (1)伏せ字化 (2)一般化 (3)低特定度化 (4)暗号化 まず伏せ字化は、匿名化対象とする人名や周辺表記を伏
せ字に使用する記号を選択し、選択した記号で匿名化対
象を全て置き換える。例えば「佐藤」といった人名を
「××」とする。
な表記で置き換える。このため、一般的な表記で置き換
えるための一般化ルールを匿名化処理部18は備えてい
る。この一般化ルールには例えば ルール1:人名は「A」に置き換える。
などが記述されている。
の低い表記で置き換える。この低特定度化のため、人名
と特定度の組及び個人特定木と特定度の組について、小
さい特定度のものを基準特定度データベース14から検
索し、このとき匿名化対象となっている特定度より低い
特定度の検索した表記を用いて匿名化対象を置き換え
る。具体的には、人名の場合には基準特定度データベー
ス14から小さい特定度を持つ人名を検索し、検索結果
で匿名化対象の人名を置き換えることで匿名化する。
は、基準特定度データベース14から匿名化対象の個人
特定木と共通する分節を含む個人特定木で特定木が小さ
い個人特定木を検索し、この検索した個人特定木で匿名
化対象を置き換える。もし基準特定度データベース14
から検索した結果が匿名化対象の特定度以下でない場合
には、低特定度化による匿名化はできないことから、処
理の失敗を作業者に知らせることになる。更に、暗号化
は、匿名化の対象を所定の暗号規則に従って暗号化す
る。
データベース22と匿名化データベース24が設けられ
ている。匿名化不要データベース22には匿名化を行う
表記や識別するための規則が登録されている。匿名化不
要データベース22に登録されている例としては例えば
次のものがある。 (1)首相、大臣などの公人の人名 (2)芸能人の人名 (3)首相、大臣のような、公の人物であることを示す
周辺表記を持つ人物を識別する規則 このため、匿名化処理部18で文書入力部10より入力
した匿名化対象文書を匿名化する際に、匿名化不要デー
タベース22を参照し、そこに登録している人名や表記
については匿名化を一切行わないことになる。
際に必ず匿名化を行う表記や、これを識別するための規
則が登録されている。例えば匿名化データベース24に
は次の表記や規則が登録されている。 (1)企業名 (2)クレジットカードの番号を表わす規則 (3)電話番号を表す規則 (4)電子メールのアドレスを表わす規則 このため匿名化処理部18にあっては、文書入力部10
から入力した匿名化対象文書の中に匿名化データベース
24に登録している表記や識別規則に該当する表記があ
る場合には、特定度計算部12及び特定度正規化部16
で求められた特定度の如何に関わらず強制的に匿名化を
行って認定することになる。
業表示部28に表示され、作業者は匿名化の結果を確認
しながら匿名化指示部20により閾値や使用匿名化方法
を変更し、必要とする隠蔽化が行われた匿名化文書を作
成することができる。匿名化処理部18で作成された匿
名化文書は匿名化文書記憶部30に保存される。
ては、文書コードなどを使用した処理文書分類、匿名化
処理情報、匿名化文書の形式をもって保存する。もちろ
ん指示情報には、文書匿名化処理の際に匿名化指示部2
4で指示された閾値使用匿名化方法が含まれている。
部30に記憶された匿名化文書レコードより得た閾値と
匿名化方法が処理文書分類である分類コードによって登
録されている。特に閾値データベース26の先頭位置に
は、最新の匿名化文書に関する閾値により匿名化方法が
格納されており、匿名化処理部18にあっては、この閾
値データベース26の先頭位置の閾値及び匿名化方法を
匿名化指示部20によるデフォルトの設定内容としてい
る。
20により閾値や使用匿名化方法の指示を行わなくて
も、直前に行われた匿名化文書における閾値及び匿名化
方法が自動的に匿名化処理部18に設定されることにな
る。
名化文書は、閲覧データ作成部36により読み出して閲
覧表示部38に表示して閲覧することができる。このう
ち暗号化による匿名化文書については、復号化指示部3
2からの暗号化方法に対応したパスワードの入力で匿名
化文書中の暗号化部分を元の人名や周辺表記に復号化し
て閲覧することができる。
部34で判定され、パスワードに対応した復号化方法が
閲覧データ作成部36に指示され、暗号化された表記を
復号して閲覧することができる。この匿名化処理部18
における暗号化と閲覧時の復号化については、後の説明
で更に明らかにされる。
処理のフローチャートである。図3において、ステップ
S1で匿名化処理要求の有無をチェックしており、作業
者による匿名化処理要求を判別すると、ステップS2に
進み、文書入力部10より匿名化対象文書を入力する。
続いてステップS3で特定度計算部12により匿名化対
象文書に含まれる人名やその周辺表記である匿名化対象
について特定度を計算する。具体的には、基準特定度デ
ータベース14の参照で個人名の指す確率を取得する。
続いてステップS4で特定度に基づいて匿名化処理を行
う。
ップS5で匿名化文書を保存する。続いてステップS6
で閲覧要求をチェックしており、閲覧要求があればステ
ップS7に進み、保存している匿名化文書の閲覧データ
を作成して表示する。そしてステップS8で終了指示が
あれば、一連の処理を終了する。
示した機能構成のブロック図である。特定度計算部12
は、文切出部40、品詞解析部42、人名処理部44及
び周辺表記処理部46で構成される。人名処理部44に
は人名抽出部48、人名特定度計算部50及び人名抽出
ルール52が設けられている。
4、個人特定木抽出部56、木構造特定度計算部58、
構文解析ルール60及び個人特定木抽出ルール62が設
けられている。
文書は、図4の特定度計算部12における文切出部40
に与えられ、文単位に分解して切り出した文を品詞解析
部42に入力する。品詞解析部42は形態素解析などを
利用して切り出した文を品詞情報付きの品詞に分解し、
人名処理部44と周辺表記処理部46のそれぞれに出力
して人名処理及び周辺表記処理をそれぞれ独立に行わせ
る。
析部42から文を品詞ごとに分解して受けた人名抽出部
48は、人名抽出ルール52を用いて人名を抽出し、人
名特定度計算部50に出力する。人名抽出ルール52と
しては「if〜then〜」形式によって次の規則が登
録されている。 規則521: if[姓],[名]then人名として
抽出 規則522: if[姓]then人名として抽出 規則523: if[名]then人名として抽出 この「if〜then」の規則において、ifの次の条
件部では品詞名を[]で表わす。また、この条件部
で「,」で繋がった品詞は連続しているものを表わして
いる。
1,522,523によって、規則に一致する品詞パタ
ーンを持った文字列として人名が抽出される。例えば規
則521により連続した姓名から人名が抽出される。ま
た規則522により姓から人名が抽出される。更に規則
523により名から人名が抽出される。
る表記により、基準特定度データベース14を参照し、
表記が個人を指す確率を取得する。
表記処理部46の構文解析部56は、品詞解析部42か
ら得られた品詞ごとに分解した文を対象に、構文解析を
利用して分節間の係り受け関係を示す木構造、即ち構文
木を作成する。このとき構文解析部54は構文解析ルー
ル60を使用する。構文解析ルール60には「if〜t
hen」形式で次の規則が記述されている。 規則601: if[名詞句],[助詞「の」],[人名]then [人名名詞句]([名詞句]→<修飾>→[人名]) 規則602: if[名詞句],[助詞「の」],[人名名詞句]then [人名名詞句]([名詞句]→<修飾>→[人名名詞句]) この規則601,602において、ifの後ろの条件部
は品詞間に複数の要素が入っている条件を表している。
またthenの直後には、条件部が成立した場合にひと
まとめにした品詞を記述し、( )内に生成する要素間
の関係を記述する。更に< >の中には生成される関係
に付けられた名前を表わしている。
に説明すると次のようになる。いま次のような文があっ
たとする。「△△社の社長でピアニストの○○は××ホ
ールで演奏した」規則601は名詞句と名詞句の間に助
詞の「の」が入っているときに全体を名詞句とし、 [名詞句]→<修飾>→[人名] の修飾関係を生成し、これは例文の「ピアニストの」が
「○○」を修飾している木構造に対応している。したが
って、この場合の木構造として図6が得られる。
個人特定木抽出部56は、個人特定木抽出ルール62を
適用して、個人を特定する部分木を個人特定木として抽
出し、木構造特定度計算部58に出力する。
規則が登録されている。 規則621: if[名詞句]→<修飾>→<人名>then 個人特定木として抽出 規則622: if[名詞句]→<修飾>→[人名名詞句]then 個人特定木として抽出 即ち規則621は、人名などを修飾する名詞句を個人特
定木として抽出することに対応する。例えば「ピアニス
ト」が「○○」を修飾している木構造から 「ピアニストの」→<修飾>→「○○」 を個人特定木として抽出することができる。この例で
は、これ以外に図7のような木構造がそれぞれ個人特定
木として抽出される。
部50と同様、基準特定度データベース14の参照によ
り、木構造が個人を指す確率を取得し、特定度を計算す
る。
処理のフローチャートである。この特定度計算処理にあ
っては、ステップS1で匿名化対象文書から文を切り出
し、ステップS2で品詞ごとに分解する品詞解析を行
い、人名処理及び周辺表記処理のそれぞれに供給する。
抽出を行い、ステップS4で人名特定度を計算し、併せ
て基準特定度データベース14の参照で得られた特定度
と共に出力する。また周辺表記処理にあっては、ステッ
プS5で構文解析を行った後、ステップS6で個人特定
木抽出処理を行い、ステップS7で木構造特定度計算を
行うと共に、基準特定度データベース14から基準特定
度を取得し、正規化処理に出力する。
いるデータベース作成部15の機能を取り出している。
このデータベース作成部15は、文書データベース72
に格納されている十分な量の文書を対象に基準特定度デ
ータベース14を作成する。
は、文書データベース72から対象文書を切り出す文切
出部40が設けられ、切り出した文書は文切出部40に
与えられる。
品詞解析部42は、図4の特定度算出部12のブロック
のものと同一のものが使用される。周辺表記処理部46
−1は、個人を特定する周辺表記である電子メールアド
レスや住所等を抽出し、それを個人識別IDに置き換え
る。
な表記の特徴をもっており、この表記を使って本分から
取り出す。
図4の人名処理部44及び周辺表記処理部46と同じ機
構で人名や周辺表記を抽出する。抽出した人名や周辺表
記については、前記(2)式や(3)式に従って、人名
や周辺表記が個人を指す確率が計算される。
処理部46−1で作成された、個人識別ID、表記の種
類、表記、及び表記が個人を指す確率の4つの組となる
特定度データは、例えば図9のように、基準特定度デー
タベース14に基準特定度データとして登録される。
10に示す。既存文書を厚めた文書データベース72か
ら文書を切り出し、その文書を文に分解して人名と周辺
表記である個人特定木を取り出すところまでは、図5の
特定度計算部と同様である。周辺表記の中で個人を特定
する電子メールアドレスや住所等の表記の特徴から判別
して個人識別IDを作成し、個人識別ID毎に、人名や
周辺表記が個人を指す確率を(2)式もしくは(3)式
から計算し。図9のような4つの組のデータとして基準
特定度データベースに登録する。
録内容の例であり、種別、表記、基準特定度の項目によ
って基準特定度データが登録され、種別としては人名及
び周辺表記を表す構文木が格納されている。
の処理のフローチャートである。この基準特定度データ
ベースの作成処理にあっては、ステップS1で文書デー
タベース72から文書を切り出して標準文書を作成し、
ステップS3で品詞ごとに分解する品詞解析を行う。
人名処理及びステップS6〜S9の周辺表記処理のそれ
ぞれに与えられ、独立に人名抽出と人名特定度の計算、
及び構文解析、個人特定木抽出に基づく木構造特定度、
個人識別IDの作成が行われる。そしてステップS10
で最終的に、基準特定度データベース14に図9のよう
に基準特定度データを登録する。
は、本発明の匿名化装置を使用する前の準備段階で基本
的に行うが、運用中においても必要に応じて適宜に文書
データベース72を更新して、新たな文書データを対象
に基準特定度データベース14の再構築を行うことが望
ましい。
名化処理の詳細のフローチャートである。この匿名化処
理にあっては、ステップS1で匿名化指示部20からの
指示に基づき、匿名化処理部18で使用する匿名化情報
を決定する。匿名化条件は匿名化指示部20からの指示
がないときは、閾値データベース26に基づいて行う。
登録内容であり、処理文書分類となる分類コード、閾値
及び匿名化方法の項目で構成されている。この内、処理
文書分類の分類コード00となる先頭位置には、直前の
匿名化処理で使用した直前閾値とその匿名化方法が登録
されている。この分類コード00の先頭位置の閾値及び
匿名化方法は、図11の匿名化処理における匿名化指示
のデフォルト条件として設定される。
際に匿名化指示部20による作業者の指示がなければ、
図12の閾値データベース26の先頭位置となる分類コ
ード00の匿名化方法、この場合には「伏せ字化」と
「直前閾値」が匿名化条件として設定される。
と、ステップS3で匿名化条件を決定した条件に変更す
る。そしてステップS4で匿名化対象文書について匿名
化表記である人名や周辺表記を検索し、ステップS5で
匿名化表記があれば、ステップS6で匿名化不要データ
ベース22の参照により匿名化不要表記を検索する。
それ以降の処理をスキップする。匿名化不要表記がなけ
れば、ステップS8で匿名化表記について求められてい
る特定度を匿名化条件として設定した閾値と比較し、閾
値以上であればステップS9の置換処理に入る。
定度化、暗号化のいずれかの処理となる。そしてステッ
プS10で全ての匿名化表記検索が終了したか否かチェ
ックし、終了していなければ再びステップS4に戻り、
同様な処理を繰り返し、全ての匿名化表記の処理が済め
ば一連の処理を終了する。
置換処理の詳細のフローチャートである。図13におい
て、まずステップS1で匿名化条件として伏せ字化の指
示の有無をチェックしており、伏せ字化の指示であれば
ステップS2に進み、予め準備された伏せ字に使用する
記号を選択し、ステップS3で閾値以上の特定度を持つ
匿名化対象表記を対象に伏せ字への置き換えを行う。
般化の指示が判別された場合には、予め準備している一
般化ルールを参照して、ステップS5で一般表記を選択
し、ステップS6で閾値以上の特定度を持っている匿名
化対象表記について、選択した一般表記への置き換えを
行う。
名化の指示を判別した場合には、ステップS10に進
み、基準特定度データベース14より小さい特定度を持
つ人名または周辺表記としての個人特定木をステップS
10で検索する。
11で低特定度表記があれば、ステップS12で検索し
た特定度表記への置き換えを行う。一方、ステップS1
1で低特定度表記がデータベースから検索できなかった
場合には、ステップS14で作業者に対し失敗を通知し
て処理を終了する。
た場合には、この場合は暗号化であることからステップ
S8に進み、暗号化表記を生成し、ステップS9で匿名
化対象表記を暗号化表記に置き換える。
ップS9またはステップS12のいずれかの置き換えが
済むと、ステップS13で匿名化文書と表記データを出
力し、必要があれば再度、匿名化条件の設定を行って匿
名化処理を繰り返し、匿名化終了であれば匿名化文書記
憶部30に匿名化文書を保存するようになる。
による匿名化処理を説明すると次のようになる。暗号化
表記による置き換えとしては、例えば暗号化によって匿
名化した箇所の開始位置に暗号化したことを示すコード
<CRYPT>を埋め込み、終了位置に暗号化の範囲が
終了したことを示すコード</CRYPT>を埋め込
む。また復号化方法を示す場合には開始コード<CRY
PT>の部分を<CRYPT METHOD=”復号化
方法”>として復号化方法を記述する。
った」を暗号化により匿名化すると、次のようになる。
「<CRYPT METHOD="METHOD1">%abc$12DE;KsrBX </CRYPT>
さんはプログラムの解析を行った。」この暗号化は匿名
化対象文書の「△△」を暗号化した結果が「%abc$12DE;
KsrBX」、復号化の方法が「METHOD1」の場合
に、匿名化対象の表記「△△」を暗号化表記で置き換え
たものである。
た復号化方法の中にパスワードや公開範囲を指定してお
き、暗号化後のデータが外部に流出したとしても、匿名
化対象「△△」という人名は復号化しない限り読み取る
ことができないようにする。
しておき、それぞれの方法ごとに対応するパスワードを
変えておくことで、暗号化した表記ごとに復号化される
部分とそうでない部分とを区別できるようにし、閲覧者
ごとに読取り可能な範囲を変化させることもできる。更
に暗号化の方法を記述する方法として、暗号化された匿
名化文書に暗号化部分を示す情報を埋め込む方法以外
に、暗号化した表記の位置情報や暗号化方法を匿名化文
書、本文とは別文書で記憶させてもよい。
た匿名化文書については、図2の復号化指示部32、判
定部34、閲覧データ作成部36に示すように、暗号化
方法と復号化方法に対応して定められたパスワードを使
用した復号化指示部32からの指示を判定部34に対し
行うことで、パスワードに基づいた復号化方法より匿名
化文書記憶部30に格納されている暗号化表記で置換し
た匿名化文書を読み出し、暗号化表記の部分を元の人名
や周辺表記に復号して閲覧表示部38で見ることができ
る。
れた匿名化作業画面88であり、文書入力部10より入
力された匿名化対象文書として電子メール90が表示さ
れている。この匿名化作業画面88の右側には匿名化条
件を設定するウィンドウ92が設けられ、ウィンドウを
開くことで原文92−1が表示されていることを示して
いる。
いて、図15のようにウィンドウ92を開いて、その選
択内容から閾値として低レベル92−2を指示し、この
状態で実行キー94をマウスクリックすると、閾値レベ
ルを低レベルとした本発明による文書匿名化処理が実行
され、匿名化文書96の表示が行われる。
96を図14の原文である電子メール90と対比する
と、企業名「情報媒体」、所属名「情報機器」、名「英
達」が、それぞれ「○○○○」、「××××」「△△」
に置換されている。また原文の電子メール90における
メールアドレス、電話番号、ファックス番号及び住所に
ついても、それぞれ匿名化の表記での置換が行われてい
る。
高レベル92−3に設定した場合の実行キー94のマウ
スクリックによる処理結果としての匿名化文書96を表
示した匿名化作業画面88である。
合には、図15の閾値レベルを低レベルとしたい場合に
は匿名化されていなかった人名「佐藤」「松岡」につい
ても、「▽▽」「△△」のように匿名化表記への置換が
行われ、個人情報に対する隠蔽度が更に高められる。
記録したコンピュータ読取り可能な記録媒体の実施形態
を説明する。本発明による文書匿名化プログラムは、図
3のフローチャートに示した処理ステップを備えてい
る。
プログラムは、コンピュータに文書を入力する文書入力
ステップと、入力文書から匿名化対象表記を抽出し、抽
出した匿名化対象表記がどの程度の強さで個人を特定す
るかを評価する特定度を参照する特定度計算ステップ
と、所定の閾値より大きい特定度を持つ入力文書中の表
記を匿名化する匿名化処理ステップとを実行させる。
ピィディスクなどのリムーバブルな可搬型記録媒体、回
線によりプログラムを提供するプログラム提供者の記憶
装置、更にはプログラムをインストールした処理装置の
RAMやハードディスクなどのメモリ装置がある。また
記録媒体によって提供された文書匿名化プログラムは処
理装置にローディングされ、その主メモリ上で実行され
る。
納された文書匿名化プログラムは、図2における文書入
力部10、特定度計算部12、基準特定度データベース
14、特定度正規化部16、匿名化処理部18、匿名化
指示部20、匿名化不要データベース22、匿名化デー
タベース24及び閾値データベース26、更に匿名化文
書記憶部30の処理機能を備えればよい。
うに特定度計算部12で匿名化対象表記について特定度
を計算と基準特定度データベース14の両方から求め、
特定度正規化部16で正規化する場合を例にとっている
が、特定度計算部12で匿名化表記について基準特定度
データベース14から取得し、基準特定度データベース
14にない場合に計算により特定度を求めるようにして
もよい。この場合には計算または基準特定度データベー
ス14のいずれかから特定度が求まることから、特定度
正規化部16による正規化は行わない。
い適宜の変形を含む。更に本発明は上記の実施形態に示
した数値による限定は受けない。
から匿名対象表記を抽出し、抽出した匿名対象表記がど
の程度の強さで個人を特定できるかを評価する特定度を
算出する特定度計算部と、所定の閾値より大きい特定度
を持つ前記入力文書中の表記を匿名化する匿名化処理部
と、を備えたことを特徴とする文書匿名化装置。(1)
於いて、前記特定度計算部は、前記入力文書から人名を
抽出し、抽出した人名がどの程度の強さで個人を特定で
きるかを評価する特定度を算出し、前記匿名化処理部
は、所定の閾値よりも大きい特定度をもつ人名を匿名化
することを特徴とする文書匿名化装置。(2)
於いて、前記特定度計算部は、前記入力文書から人名の
周辺表記を抽出し、抽出された周辺表記がどの程度の強
さで個人を特定できるかを評価する特定度を算出し、前
記匿名化処理部は、所定の閾値よりも大きい特定度をも
つ周辺表記を匿名化することを特徴とする文書匿名化装
置。(3)
於いて、前記特定度算出部は、入力文書から文を切出す
文切出し部と、切出した文を品詞毎に分解する品詞解析
部と、前記品詞解析結果から人名抽出ルールに基づいて
人名を抽出する人名抽出部と、統計情報に基づいて抽出
した人名の特定度を計算する人名特定度計算部と、を備
えたことを特徴とする文書匿名化装置。(4)
於いて、前記特定度算出部は、更に、前記品詞解析結果
から構文解析ルールに基づいて文節間の係り受け関係を
示す構文木を作成する構文解析部と、前記構文解析部で
得られた構文木に対し個人特定木抽出ルールに基づいて
個人特定木を個人周辺表記として抽出する個人特定木抽
出部と、統計情報に基づいて抽出した個人特定木の特定
度を計算する木構造特定度計算部と、を備えたことを特
徴とする文書匿名化装置。(5)
装置に於いて、前記特定度算出部は、既存文書に基づい
て作成した匿名対象表記、人名か周辺表記かの種別及び
特定度を組にした特定度データを登録した基準特定度デ
ータベースを備え、前記入力文書から抽出した匿名化表
記の計算により求めた特定度を、前記基準匿名度データ
ベースに登録している特定度との重み平均をとって正規
化することを特徴とする文書匿名化装置。(6)
装置に於いて、前記特定度算出部は、文書データベース
の既存文書から文書毎に人名や周辺表記を抽出して特定
度を計算し、匿名対象表記、人名又は周辺表記の種類及
び特定度の組にした特定度データを登録した前記基準特
定度データベースを作成するデータベース作成部を備え
たことをことを特徴とする文書匿名化装置。(7)
於いて、更に、前記匿名化処理部で使用する閾値を設定
変更する匿名化指示部を設けたことを特徴とする文書匿
名化装置。(8)
於いて、前記匿名化指示部は、処理文書毎に匿名化処理
に使用した閾値を閾値データベースに保存し、新たな入
力文書の匿名化処理の際に直前の閾値をデフォルトとし
て設定することを特徴とする文書匿名化装置。(9)
に於いて、前記匿名化処理部は、匿名化不要表記を登録
して匿名化不要データベースを持ち、入力文書から抽出
された匿名化表記の内、前記匿名化不要データベースに
登録されている表記は匿名化しないことを特徴とする文
書匿名化装置。(10)
に於いて、前記匿名化処理部は、必ず匿名化する表記を
登録した匿名化データベースを持ち、該匿名化データベ
ースに登録されている入力文書中の表記は全て匿名化す
ることを特徴とする文書匿名化装置。(11)
に於いて、前記匿名化処理部は、入力文書から抽出され
た匿名化対象表記を伏せ字にすることを特徴とする文書
匿名化装置。(12)
に於いて、前記匿名化処理部は、入力文書から抽出され
た匿名化対象表記を、個人を特定しない一般化された表
記に置き換えることを特徴とする文書匿名化装置。(1
3)
に於いて、前記匿名化処理部は、入力文書から抽出され
た匿名化対象表記を、該匿名化対象表記の匿名化に使用
する閾値以下の特定度を持つ低特定度表記で置き換える
ことを特徴とする文書匿名化装置。(14)
に於いて、前記匿名化処理部は、入力文書から抽出され
た匿名化対象表記を暗号化することで匿名化することを
特徴とする文書匿名化装置。(15)
置に於いて、更に、前記匿名化処理部により暗号化によ
り匿名化された匿名化文書を閲覧する際に、暗号化され
た匿名化表記を復号化して表示させる復号化指示部を設
けたことを特徴とする文書匿名化装置。(16)
ップと、前記入力文書から匿名対象表記を抽出し、抽出
した匿名対象表記がどの程度の強さで個人を特定できる
かを評価する特定度を算出する特定度計算ステップと、
所定の閾値より大きい特定度を持つ前記入力文書中の表
記を匿名化する匿名化処理ステップと、を備えたことを
特徴とする文書匿名化方法。(17)
法に於いて、前記特定度計算ステップは、前記入力文書
から人名を抽出し、抽出した人名がどの程度の強さで個
人を特定できるかを評価する特定度を算出し、前記匿名
化処理ステップは、所定の閾値よりも大きい特定度をも
つ人名を匿名化することを特徴とする文書匿名化方法。
法に於いて、前記特定度計算ステップは、前記入力文書
から人名の周辺表記抽出し、抽出された周辺表記がどの
程度の強さで個人を特定できるかを評価する特定度を算
出し、前記匿名化処理ステップは、所定の閾値よりも大
きい特定度をもつ周辺表記を匿名化することを特徴とす
る文書匿名化方法。
法に於いて、前記特定度算出ステップは、入力文書から
文を切出す文切出しステップと、切出した文を品詞毎に
分解する品詞解析ステップと、前記品詞解析結果から人
名抽出ルールに基づいて人名を抽出する人名抽出ステッ
プと、統計情報に基づいて抽出した人名の特定度を計算
する人名特定度計算ステップと、を備えたことを特徴と
する文書匿名化方法。
法に於いて、前記特定度算出ステップは、更に、前記品
詞解析結果から構文解析ルールに基づいて文節間の係り
受け関係を示す構文木を作成する構文解析ステップと。
前記構文解析ステップで得られた構文木に対し個人特定
木抽出ルールに基づいて個人特定木を個人周辺表記とし
て抽出する個人特定木抽出ステップと、統計情報に基づ
いて抽出した個人特定木の特定度を計算する木構造特定
度計算ステップと、を備えたことを特徴とする文書匿名
化方法。
匿名化方法に於いて、前記特定度算出ステップは、前記
入力文書から抽出した匿名化表記の計算により求めた特
定度を、既存文書に基づいて作成した匿名対象表記、人
名か周辺表記かの種別及び特定度を組にした特定度デー
タを、登録した基準特定度データベースに登録している
特定度との麻績み平均をとって正規化することを特徴と
する文書匿名化方法。
匿名化方法に於いて、前記特定度算出ステップは、文書
データベースの既存文書から文書毎に人名や周辺表記を
抽出して特定度を計算し、匿名対象表記、人名又は周辺
表記の種類及び特定度の組にした特定度データを登録し
た前記基準特定度データベースを作成するデータベース
作成ステップを備えたことをことを特徴とする文書匿名
化方法。
法に於いて、更に、前記匿名化処理ステップで使用する
閾値を設定変更する匿名化指示ステップを設けたことを
特徴とする文書匿名化方法。
法に於いて、前記匿名化指示ステップは、処理文書毎に
匿名化処理に使用した閾値を閾値データベースに保存
し、新たな入力文書の匿名化処理の際に直前の閾値をデ
フォルトとして設定することを特徴とする文書匿名化方
法。
法に於いて、前記匿名化処理ステップは、入力文書から
抽出された匿名化表記の内、匿名化不要データベースを
参照して登録されている表記は匿名化しないことを特徴
とする文書匿名化方法。
法に於いて、前記匿名化処理ステップは、必ず匿名化す
る表記を登録した匿名化データベースに登録されている
入力文書中の表記は全て匿名化することを特徴とする文
書匿名化方法。
法に於いて、前記匿名化処理ステップは、入力文書から
抽出された匿名化対象表記を伏せ字にすることを特徴と
する文書匿名化方法。
法に於いて、前記匿名化処理ステップは、入力文書から
抽出された匿名化対象表記を、個人を特定しない一般化
された表記に置き換えることを特徴とする文書匿名化方
法。
法に於いて、前記匿名化処理ステップは、入力文書から
抽出された匿名化対象表記を、該匿名化対象表記の匿名
化に使用する閾値以下の特定度を持つ低特定度表記で置
き換えることを特徴とする文書匿名化方法。
法に於いて、前記匿名化処理ステップは、入力文書から
抽出された匿名化対象表記を暗号化することで匿名化す
ることを特徴とする文書匿名化方法。
法に於いて、更に、前記匿名化処理ステップにより暗号
化により匿名化された匿名化文書を閲覧する際に、暗号
化された匿名化表記を復号化して表示させる復号化指示
ステップを設けたことを特徴とする文書匿名化方法。
する文書入力ステップと、前記入力文書から匿名対象表
記を抽出し、抽出した匿名対象表記がどの程度の強さで
個人を特定できるかを評価する特定度を算出する特定度
計算ステップと、所定の閾値より大きい特定度を持つ前
記入力文書中の表記を匿名化する匿名化処理ステップ
と、を実行させるための匿名化プログラムを記録したコ
ンピュータ読取り可能な記録媒体。(18)
する文書入力ステップと、前記入力文書から匿名対象表
記を抽出し、抽出した匿名対象表記がどの程度の強さで
個人を特定できるかを評価する特定度を算出する特定度
計算ステップと、所定の閾値より大きい特定度を持つ前
記入力文書中の表記を匿名化する匿名化処理ステップ
と、を実行させることをと特徴とするプログラム。(1
9)
ば、文書中の個人を特定するような表現に対し、それが
どの程度の強さで個人を特定できるのかを、匿名化を行
う前に評価しつつ、要求される匿名化の水準(閾値)に
応じて対象となる表記を匿名化して適切に隠蔽化でき、
これによって文書を必要な度合いで自動ないし半自動で
匿名化でき、匿名化作業を効率化し、作業コストを大幅
に低減することができる。
図
作成部の機能構成のブロック図
ローチャート
る匿名化文書の画面説明図
る匿名化文書の画面説明図
Claims (19)
- 【請求項1】文書を入力する文書入力部と、 前記入力文書から匿名対象表記を抽出し、抽出した匿名
対象表記がどの程度の強さで個人を特定できるかを評価
する特定度を算出する特定度計算部と、 所定の閾値より大きい特定度を持つ前記入力文書中の表
記を匿名化する匿名化処理部と、を備えたことを特徴と
する文書匿名化装置。 - 【請求項2】請求項1記載の文書匿名化装置に於いて、 前記特定度計算部は、前記入力文書から人名を抽出し、
抽出した人名がどの程度の強さで個人を特定できるかを
評価する特定度を算出し、 前記匿名化処理部は、所定の閾値よりも大きい特定度を
もつ人名を匿名化することを特徴とする文書匿名化装
置。 - 【請求項3】請求項1記載の文書匿名化装置に於いて、 前記特定度計算部は、前記入力文書から人名の周辺表記
を抽出し、抽出された周辺表記がどの程度の強さで個人
を特定できるかを評価する特定度を算出し、 前記匿名化処理部は、所定の閾値よりも大きい特定度を
もつ周辺表記を匿名化することを特徴とする文書匿名化
装置。 - 【請求項4】請求項1記載の文書匿名化装置に於いて、
前記特定度算出部は、 入力文書から文を切出す文切出し部と、 切出した文を品詞毎に分解する品詞解析部と、 前記品詞解析結果から人名抽出ルールに基づいて人名を
抽出する人名抽出部と統計情報に基づいて抽出した人名
の特定度を計算する人名特定度計算部と、を備えたこと
を特徴とする文書匿名化装置。 - 【請求項5】請求項1記載の文書匿名化装置に於いて、
前記特定度算出部は、更に、 前記品詞解析結果から構文解析ルールに基づいて文節間
の係り受け関係を示す構文木を作成する構文解析部と、 前記構文解析部で得られた構文木に対し個人特定木抽出
ルールに基づいて個人特定木を個人周辺表記として抽出
する個人特定木抽出部と、 統計情報に基づいて抽出した個人特定木の特定度を計算
する木構造特定度計算部と、を備えたことを特徴とする
文書匿名化装置。 - 【請求項6】請求項4又は5記載の文書匿名化装置に於
いて、前記特定度算出部は、既存文書に基づいて作成し
た匿名対象表記、人名か周辺表記かの種別及び特定度を
組にした特定度データを登録した基準特定度データベー
スを備え、前記入力文書から抽出した匿名化表記の計算
により求めた特定度を、前記基準匿名度データベースに
登録している特定度との重み平均をとって正規化するこ
とを特徴とする文書匿名化装置。 - 【請求項7】請求項4又は5記載の文書匿名化装置に於
いて、前記特定度算出部は、文書データベースの既存文
書から文書毎に人名や周辺表記を抽出して特定度を計算
し、匿名対象表記、人名又は周辺表記の種類及び特定度
の組にした特定度データを登録した前記基準特定度デー
タベースを作成するデータベース作成部を備えたことを
ことを特徴とする文書匿名化装置。 - 【請求項8】請求項1記載の文書匿名化装置に於いて、
更に、前記匿名化処理部で使用する閾値を設定変更する
匿名化指示部を設けたことを特徴とする文書匿名化装
置。 - 【請求項9】請求項1記載の文書匿名化装置に於いて、
前記匿名化指示部は、処理文書毎に匿名化処理に使用し
た閾値を閾値データベースに保存し、新たな入力文書の
匿名化処理の際に直前の閾値をデフォルトとして設定す
ることを特徴とする文書匿名化装置。 - 【請求項10】請求項1記載の文書匿名化装置に於い
て、前記匿名化処理部は、匿名化不要表記を登録して匿
名化不要データベースを持ち、入力文書から抽出された
匿名化表記の内、前記匿名化不要データベースに登録さ
れている表記は匿名化しないことを特徴とする文書匿名
化装置。 - 【請求項11】請求項1記載の文書匿名化装置に於い
て、前記匿名化処理部は、必ず匿名化する表記を登録し
た匿名化データベースを持ち、該匿名化データベースに
登録されている入力文書中の表記は全て匿名化すること
を特徴とする文書匿名化装置。 - 【請求項12】請求項1記載の文書匿名化装置に於い
て、前記匿名化処理部は、入力文書から抽出された匿名
化対象表記を伏せ字にすることを特徴とする文書匿名化
装置。 - 【請求項13】請求項1記載の文書匿名化装置に於い
て、前記匿名化処理部は、入力文書から抽出された匿名
化対象表記を、個人を特定しない一般化された表記に置
き換えることを特徴とする文書匿名化装置。 - 【請求項14】請求項1記載の文書匿名化装置に於い
て、前記匿名化処理部は、入力文書から抽出された匿名
化対象表記を、該匿名化対象表記の匿名化に使用する閾
値以下の特定度を持つ低特定度表記で置き換えることを
特徴とする文書匿名化装置。 - 【請求項15】請求項1記載の文書匿名化装置に於い
て、前記匿名化処理部は、入力文書から抽出された匿名
化対象表記を暗号化することで匿名化することを特徴と
する文書匿名化装置。 - 【請求項16】請求項16記載の文書匿名化装置に於い
て、更に、前記匿名化処理部により暗号化により匿名化
された匿名化文書を閲覧する際に、暗号化された匿名化
表記を復号化して表示させる復号化指示部を設けたこと
を特徴とする文書匿名化装置。 - 【請求項17】文書を入力する文書入力ステップと、 前記入力文書から匿名対象表記を抽出し、抽出した匿名
対象表記がどの程度の強さで個人を特定かを評価する特
定度を算出する特定度計算ステップと、 所定の閾値より大きい特定度を持つ前記入力文書中の表
記を匿名化する匿名化処理ステップと、を備えたことを
特徴とする文書匿名化方法。 - 【請求項18】コンピュータに、 文書を入力する文書入力ステップと、 前記入力文書から匿名対象表記を抽出し、抽出した匿名
対象表記がどの程度の強さで個人を特定かを評価する特
定度を算出する特定度計算ステップと、 所定の閾値より大きい特定度を持つ前記入力文書中の表
記を匿名化する匿名化処理ステップと、を実行させるた
めの匿名化プログラムを記録したコンピュータ読取り可
能な記録媒体。 - 【請求項19】コンピュータに、 文書を入力する文書入力ステップと、 前記入力文書から匿名対象表記を抽出し、抽出した匿名
対象表記がどの程度の強さで個人を特定かを評価する特
定度を算出する特定度計算ステップと、 所定の閾値より大きい特定度を持つ前記入力文書中の表
記を匿名化する匿名化処理ステップと、を実行させるこ
とを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001365607A JP4261099B2 (ja) | 2001-01-05 | 2001-11-30 | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001000641 | 2001-01-05 | ||
JP2001-641 | 2001-01-05 | ||
JP2001365607A JP4261099B2 (ja) | 2001-01-05 | 2001-11-30 | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002269081A true JP2002269081A (ja) | 2002-09-20 |
JP4261099B2 JP4261099B2 (ja) | 2009-04-30 |
Family
ID=26607360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001365607A Expired - Fee Related JP4261099B2 (ja) | 2001-01-05 | 2001-11-30 | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4261099B2 (ja) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259368A (ja) * | 2001-03-01 | 2002-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体 |
JP2003058531A (ja) * | 2001-08-22 | 2003-02-28 | Nec Corp | 情報変換装置及びその情報変換方法並びにそのプログラム |
JP2004151882A (ja) * | 2002-10-29 | 2004-05-27 | Fuji Xerox Co Ltd | 情報出力制御方法、情報出力処理システム、プログラム |
JP2006185311A (ja) * | 2004-12-28 | 2006-07-13 | Nec Corp | 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム |
JP2006221560A (ja) * | 2005-02-14 | 2006-08-24 | Nomura Research Institute Ltd | データ置換装置、データ置換方法およびデータ置換プログラム |
JP2006309406A (ja) * | 2005-04-27 | 2006-11-09 | Fuji Xerox Co Ltd | 情報秘匿化装置、秘匿化システム、秘匿化方法および秘匿化プログラム |
JP2008077225A (ja) * | 2006-09-19 | 2008-04-03 | Ricoh Co Ltd | 情報入力用端末装置及び隠蔽データ内容確認方法及び隠蔽データ内容確認を実行するプログラム |
JP2009020646A (ja) * | 2007-07-11 | 2009-01-29 | Hitachi Ltd | 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム |
JP2010128995A (ja) * | 2008-11-28 | 2010-06-10 | Nec Corp | 情報管理装置、そのデータ処理方法、情報管理システム、およびコンピュータプログラム |
JP2011113098A (ja) * | 2009-11-21 | 2011-06-09 | Kddi R & D Laboratories Inc | 伏せ字を含む文章を修正するための伏せ字修正プログラム、方法及び文章解析サーバ |
JP2011170108A (ja) * | 2010-02-18 | 2011-09-01 | Nikon Corp | 情報処理装置 |
JP5337020B2 (ja) * | 2007-03-27 | 2013-11-06 | 富士通株式会社 | 電子文書の秘匿化プログラム |
JPWO2014203402A1 (ja) * | 2013-06-21 | 2017-02-23 | 楽天株式会社 | 情報提供装置、情報提供方法及びプログラム |
JP2018113043A (ja) * | 2014-12-25 | 2018-07-19 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、処理方法、およびプログラム |
JP2022107588A (ja) * | 2021-01-11 | 2022-07-22 | 株式会社リコー | 文書処理のための方法及び装置 |
-
2001
- 2001-11-30 JP JP2001365607A patent/JP4261099B2/ja not_active Expired - Fee Related
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259368A (ja) * | 2001-03-01 | 2002-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 文書伏字加工方法、文書伏字加工装置、文書伏字加工処理プログラム及びその記録媒体 |
JP2003058531A (ja) * | 2001-08-22 | 2003-02-28 | Nec Corp | 情報変換装置及びその情報変換方法並びにそのプログラム |
JP2004151882A (ja) * | 2002-10-29 | 2004-05-27 | Fuji Xerox Co Ltd | 情報出力制御方法、情報出力処理システム、プログラム |
JP4622514B2 (ja) * | 2004-12-28 | 2011-02-02 | 日本電気株式会社 | 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム |
JP2006185311A (ja) * | 2004-12-28 | 2006-07-13 | Nec Corp | 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム |
JP2006221560A (ja) * | 2005-02-14 | 2006-08-24 | Nomura Research Institute Ltd | データ置換装置、データ置換方法およびデータ置換プログラム |
JP2006309406A (ja) * | 2005-04-27 | 2006-11-09 | Fuji Xerox Co Ltd | 情報秘匿化装置、秘匿化システム、秘匿化方法および秘匿化プログラム |
JP2008077225A (ja) * | 2006-09-19 | 2008-04-03 | Ricoh Co Ltd | 情報入力用端末装置及び隠蔽データ内容確認方法及び隠蔽データ内容確認を実行するプログラム |
JP5337020B2 (ja) * | 2007-03-27 | 2013-11-06 | 富士通株式会社 | 電子文書の秘匿化プログラム |
US8285540B2 (en) | 2007-07-11 | 2012-10-09 | Hitachi, Ltd. | Character string anonymizing apparatus, character string anonymizing method, and character string anonymizing program |
JP2009020646A (ja) * | 2007-07-11 | 2009-01-29 | Hitachi Ltd | 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム |
JP2010128995A (ja) * | 2008-11-28 | 2010-06-10 | Nec Corp | 情報管理装置、そのデータ処理方法、情報管理システム、およびコンピュータプログラム |
JP2011113098A (ja) * | 2009-11-21 | 2011-06-09 | Kddi R & D Laboratories Inc | 伏せ字を含む文章を修正するための伏せ字修正プログラム、方法及び文章解析サーバ |
JP2011170108A (ja) * | 2010-02-18 | 2011-09-01 | Nikon Corp | 情報処理装置 |
JPWO2014203402A1 (ja) * | 2013-06-21 | 2017-02-23 | 楽天株式会社 | 情報提供装置、情報提供方法及びプログラム |
JP2018113043A (ja) * | 2014-12-25 | 2018-07-19 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、処理方法、およびプログラム |
JP2022107588A (ja) * | 2021-01-11 | 2022-07-22 | 株式会社リコー | 文書処理のための方法及び装置 |
JP7287510B2 (ja) | 2021-01-11 | 2023-06-06 | 株式会社リコー | 文書処理のための方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4261099B2 (ja) | 2009-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4261099B2 (ja) | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム | |
US8285540B2 (en) | Character string anonymizing apparatus, character string anonymizing method, and character string anonymizing program | |
US8649552B2 (en) | Data obfuscation of text data using entity detection and replacement | |
US7386550B2 (en) | Document anonymization apparatus and method | |
US7184947B2 (en) | Document anonymity setting device, method and computer readable recording medium recording anonymity setting program | |
CN108171073B (zh) | 一种基于代码层语义解析驱动的隐私数据识别方法 | |
US7831571B2 (en) | Anonymizing selected content in a document | |
US20140317758A1 (en) | Focused personal identifying information redaction | |
JP3578450B2 (ja) | 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム | |
US20080222319A1 (en) | Apparatus, method, and program for outputting information | |
JPH10326255A (ja) | 言語から独立したメッセージの操作方法 | |
US8000957B2 (en) | English-language translation of exact interpretations of keyword queries | |
WO2004081816A1 (en) | Secure database access through partial encryption | |
US20080162528A1 (en) | Content Management System and Method | |
JP2006221560A (ja) | データ置換装置、データ置換方法およびデータ置換プログラム | |
WO2022064348A1 (en) | Protecting sensitive data in documents | |
US20170344625A1 (en) | Obtaining of candidates for a relationship type and its label | |
KR101507637B1 (ko) | 오역의 검출을 지원하는 장치 및 방법 | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
JP2007537515A (ja) | 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法 | |
EP4070218A1 (en) | Systems and methods for using natural pseudonymized text | |
JP5438603B2 (ja) | 感性辞書編集支援システム及びプログラム | |
JP4460248B2 (ja) | 翻訳支援プログラム、翻訳支援装置および翻訳支援方法 | |
JP2006331001A (ja) | 専門家抽出装置および辞書提供装置 | |
JP2006260241A (ja) | 個人情報保護対応入力指示作成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040524 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20051007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060210 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060330 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060404 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060630 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060330 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |