JP3578450B2 - 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム - Google Patents
電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム Download PDFInfo
- Publication number
- JP3578450B2 JP3578450B2 JP2001198325A JP2001198325A JP3578450B2 JP 3578450 B2 JP3578450 B2 JP 3578450B2 JP 2001198325 A JP2001198325 A JP 2001198325A JP 2001198325 A JP2001198325 A JP 2001198325A JP 3578450 B2 JP3578450 B2 JP 3578450B2
- Authority
- JP
- Japan
- Prior art keywords
- real name
- word
- anonymous
- electronic document
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013500 data storage Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 description 25
- 238000000605 extraction Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012950 reanalysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の属する技術分野】
本発明は、電子文書の匿名化方法に関し、特に、他人に匿名化した電子文書を分析依頼し、その分析レポートの実名化を考慮に入れた匿名化方法に関する。
【0002】
【従来の技術】
インターネットに代表される情報通信技術の発達により、異なる組織に属する人間が協力して業務を遂行することが容易になった。例えば、多くの顧客データを持つ企業Aが、データ分析ノウハウを持つ企業Bに対して、インターネットを通じてデータベースのデータを渡したり、このデータの分析レポートを受け取ったり、E−mailを使って分析に関する指示を出すなど、インターネットを介して様々な電子文書をやりとりすることにより業務を遂行することが可能になった。
【0003】
そのような異なる組織間の電子文書のやりとりでは、電子文書中に含まれる顧客情報や企業秘密情報などの重要情報の管理が課題となる。上の例では、企業Aが企業Bに渡すデータベースのデータの中に、企業Bには知られたくない情報が含まれる場合がある。
そのような場合、従来は人の手や計算機プログラムがデータを削除したり、人間には意味不明になるように暗号化していた。しかし、削除されたり暗号化されたデータに重要な情報が含まれる場合には、その情報は分析に利用できなかったり、著しく人間の理解を妨げる文字列に暗号化してしまうと、企業Aおよび企業Bの業務に支障が出てしまうという問題点がある。
【0004】
また、インターネット上の情報伝達で、送信者が知られたくない情報を隠す方法としては、名前などの個人情報を隠すための方法(特開2000−324094)が知られるが、電子文書の内容全体を扱った方法は知られていない。さらに、一度匿名化した電子文書を実名に戻す方法についても知られていない。
【0005】
【発明が解決しようとする課題】
上記のように、自社の重要情報を含む電子文書を他社に分析してもらう場合の情報セキュリティを考慮した情報伝達方法に対するニーズがあり、データを削除したり暗号化するという従来方法は、人間の理解を不可能にしたり妨げたりするという問題点があった。
【0006】
本発明は、上記の事情を考慮してなされたもので、電子文書のなかの知られたくない情報のセキュリティと業務遂行への弊害を考慮した、電子文書を介した情報伝達方法、つまり、電子文書の概要は理解できる程度に、かつその詳細は理解不能に秘匿化するための電子文書秘匿化方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
第1の発明は、電子文章中の実名語を所定の抽象度に匿名化させる匿名化レベルを匿名化レベルデータ記憶部に格納する匿名化レベル決定手段と、前記電子文書の提供を受ける者の識別番号に応じた付加ラベルを生成する付加ラベル生成手段と、前記実名語と前記実名語の抽象的な概念である匿名単語と匿名化レベルとの対応関係を記憶している実名語/匿名単語辞書と、前記実名語の匿名化レベル及び前記実名語/匿名単語辞書より、前記実名語に対応する匿名単語を選び、この匿名単語に前記付加ラベルを付加することによって前記実名語と一対一の関係を有する匿名語を生成し、前記匿名語と実名語との一対一の関係を記憶する前記識別番号専用の実名語/匿名語マップを生成する実名語/匿名語マップ生成手段を備える電子文書の実名語/匿名語マップ作成装置である。
【0008】
第2の発明は、前記匿名化レベルは、前記実名語/匿名単語辞書を参照しながら、ユーザが個別に入力することにより決定されることを特徴とする第1の発明に記載の電子文書の実名語/匿名語マップ作成装置である。
【0009】
第3の発明は、前記実名語/匿名語マップは、前記実名語が数値データの場合には、前記数値の倍率を指定するものであることを特徴とする第1の発明に記載の電子文書の実名語/匿名語マップ作成装置である。
【0010】
第4の発明は、前記実名語/匿名語マップは、前記実名語と匿名語との一対一の対応関係に加えて、前記匿名語を生成するのに用いた匿名単語と付加ラベルのデータも有していることを特徴とする第1の発明に記載の電子文書の実名語/匿名語マップ作成装置である。
【0011】
第5の発明は、第1の発明に記載の電子文書の実名語/匿名語マップ作成装置で作成された実名語/匿名語マップ(107)と、前記実名語/匿名語マップを用いて、電子文書中の実名語を抽出する手段(202)と、前記実名語/匿名語マップを用いて、前記抽出された実名語を匿名語に変換する手段(205)を備えることを特徴とする電子文書の匿名化装置である。
【0012】
第6の発明は、第1の発明に記載の電子文書の実名語/匿名語マップ作成装置で作成された実名語/匿名語マップ(107)と、匿名化された電子文書に関連して新たに作成された文書を入力して、前記実名語/匿名語マップを用いて、前記新たに作成された文書から匿名語を抽出する手段(302)と、前記新たに作成された文書に、抽出された匿名語に対応する実名語を加える手段(305)を備えることを特徴とする電子文書の実名化装置である。
【0013】
第7の発明は、前記実名語を加える手段で加えた実名語に対応する匿名語を削除する手段をさらに備えることを特徴とする第6の発明に記載の電子文書の実名化装置である。
【0014】
第8の発明は、コンピュータを、電子文章中の実名語を所定の抽象度に匿名化させる匿名化レベルを匿名化レベル記憶部に格納する手段、前記電子文書の提供を受ける者の識別番号に応じた付加ラベルを生成する手段、前記匿名化レベルを用いて、前記実名語と前記実名語の抽象的な概念である匿名単語と匿名化レベルとの対応関係を記憶している実名語/匿名単語辞書より、前記実名語に対応する匿名単語を選ぶ手段、前記匿名単語に前記付加ラベルを付加することによって前記実名語と一対一の関係を有する匿名語を生成する手段、前記匿名語と実名語との一対一の関係を記憶する前記識別番号専用の実名語/匿名語マップを生成する手段、として機能させる電子文書の実名語/匿名語マップ作成プログラムである。
【0015】
第9の発明は、コンピュータを、第8の発明に記載の電子文書の実名語/匿名語マップ作成プログラムを実行して作成された実名語/匿名語マップを記憶する手段、前記実名語/匿名語マップを用いて、電子文書中の実名語を抽出する手段、前記実名語/匿名語マップを用いて、前記抽出された実名語を匿名語に変換する手段として機能させる電子文書の匿名化プログラムである。
【0016】
第10の発明は、コンピュータを、第8の発明に記載の電子文書の実名語/匿名語マップ作成プログラムを実行して作成された実名語/匿名語マップを記憶する手段、匿名化された電子文書に関連して新たに作成された文書を入力して、前記実名語/匿名語マップを用いて、前記新たに作成された文書から匿名語を抽出する手段、前記新たに作成された文書に、抽出された匿名語に対応する実名語を加える手段、として機能させる電子文書の実名化プログラムである。第11の発明は、コンピュータを、さらに、前記実名語を加える手段で加えた実名語に対応する匿名語を削除する手段、として機能させる第10の発明に記載の電子文書の実名化プログラムである。
【0017】
本発明では、まず、所定の名詞と特定の単位を表す言葉を実名語と定義する。実名語の例としては、東京タワーなどの固有名詞やMbyte(メガバイト)などの単位が選ばれる。そして、実名語を抽象的な概念であいまいに表現したり、特定の単位に基づく数値を変換して実際の数字を分析に支障が出ない程度のあいまいな数字に変換したりする(例えば、実際の数字同士の比例関係などは残しておく)際に用いる情報を匿名単語と呼ぶ。匿名単語の例を挙げると、先の例の実名語:東京タワーに対応する匿名単語は、ランドマーク建造物、または建造物などであり、抽象度に応じて幾つか用意される。また、実名語:MByteに対応する匿名単語は1/100倍、12倍などランダムに生成された倍率である。
【0018】
次に、以下のように匿名語を定義する。匿名語は、実名語が所定の名詞の場合は、匿名単語に[A,B,C],[甲,乙,丙]などの各所定の名詞に一意となるような付加ラベルをつけたものを指し、実名語が特定の単位の場合には、数値に匿名単語を掛け合わせた値に各単位に一意となるような付加ラベルをつけたものを指す。匿名語の例を挙げると、ランドマーク建造物A、建造物丙、10単位などがある。尚、単位が複数ある場合は、台数を表す時は単位(1)を、重さを表す時は単位(2)などと使い分けてもよい。
【0019】
本発明は、電子文書中に含まれるこのような実名語と匿名語の一貫した関係を、各分析業者などの文書処理者に応じた対応表(マップ)として保存しておき、文書処理者に応じて置き換えることにより、人間に理解しやすい表現で文書を変換する事を特徴とする。
【0020】
ここで、前記実名語を知る権利のある者を利用者と呼び、前記実名語を知る権利のない者を文書処理者と呼ぶ。
【0021】
また電子文書の中で、実名語を含む文書を実名文書と呼び、実名語を含まない文書を匿名文書と呼ぶ。
【0022】
本発明によれば、秘密情報を含む電子文書を持つ者(利用者)は、この電子文書の読者(文書処理者)に対して具体的に知られたくない所定の名詞や実際の数値を、削除したり暗号化せずに、日常使われている表現で匿名化(抽象化)するので、文書処理者の理解を妨げることなく、電子文書を渡すことが可能になる。
【0023】
また、匿名化した際に用いた実名語と匿名語の関係を、実名語/匿名語マップとして利用者側で保存し、このなかには実名語と匿名語の一対一の関係を保つように付加ラベルが含まれているので、利用者は、匿名化された電子文書に関連して文書処理者が新たに作成した匿名文書(分析結果レポートなど)を実名文書に変換して読むことが可能になる。
【0024】
また、分析後の匿名文書を実名文書に変換する際に実名語と匿名語を同時に挿入すれば、前記利用者は、文書の内容は実名語で理解し、電話や口頭などで前記文書処理者(分析業者)と会話をする際には、匿名語を用いることにより、重要情報を隠した上で言語によるコミュニケーションを取ることが可能になり、重要情報の漏洩を防ぎながら、再分析依頼などの業務遂行を行うことができる。
【0025】
また、固有化/実名化マップを作成する際に乱数を用いれば、例えば、文書処理者Aと文書処理者Bに全く同じ実名文書を、異なる匿名化を行った文書として渡すことができるので、文書が流出した場合にどの文書処理者に渡したものなのか特定できる。
【0026】
また、ユーザからの直接指示によって実名語毎に匿名化レベルを決める方法によって匿名化レベルデータを生成すると、ユーザの意図を反映させた実名語/匿名語マップを生成できる。
【0027】
また、サンプルとなる電子文書に基づいて、サンプル文書中で頻繁に用いられている実名語の抽象度を低くするように、前記匿名化レベルを決める方法によって前記匿名化レベルデータを生成すると、サンプル文書中で頻繁に用いられている実名語は文章の主題にとって重要と解釈できるので、ユーザの手を煩わせることなく、自動的に最適な(人間の理解を妨げずに他人に秘密が洩れないような)実名語/匿名語マップを生成できる。
【0028】
【発明の実施の形態】
以下、図面を参照しながら発明の実施の形態を説明する。
【0029】
(電子文書の実名語/匿名語マップ作成装置)
図1は、本発明の一実施形態に関わる電子文書の実名語/匿名語マップ作成装置の構成図である。図1に示されるように、この実名語/匿名語マップ作成装置は、匿名化レベル決定部101,文書処理者ID(識別番号)記憶部102、匿名化レベルデータ記憶部103,乱数発生部104、実名語/匿名語マップ生成部105,実名語/匿名単語辞書記憶部106、および、実名語/匿名語マップ記憶部107を備えている。
【0030】
匿名化レベル決定部101では、電子文書中の各実名語についてどの程度の抽象度で変換するかを意味する匿名化レベルを決定し、それらを集めた匿名化レベルデータを匿名化レベルデータ記憶部103に格納する。
【0031】
匿名化レベルの決定方法としては、例えば、各実名語にあらかじめ与えられた匿名化レベルを採用する方法や、あらかじめ与えられた匿名化レベルをユーザである文書処理者が実名語/匿名単語辞書記憶部106を参照しながらGUI(Graphical User Interface)を用いて修正する方法、あるいは、サンプル文書を分析し、使用頻度が多い実名語の匿名化レベルを低くする方法などによって行うことができる。
【0032】
図2は、文書処理者が後述する実名語/匿名単語辞書を参照しながら適当に設定した場合の匿名化レベルデータの例である。図2の様に各実名語に関して匿名化レベルを決定する。この図の場合、電子文書の分析依頼をする分析業者に知られたくない度合いに応じて抽象度が高くなるように匿名化レベルも高くしている。例えば、商品名「Tynabook」が何の商品の名前なのかは絶対に知られたくない場合は最も高い匿名化レベルであるレベル4にしている。
【0033】
文書処理者ID記憶部102には、匿名化した電子文書を扱う相手を識別するための文書処理者IDが格納される。
【0034】
実名語/匿名単語辞書記憶部106には、各実名語について、各匿名化レベルに対応した抽象的な概念を表す匿名単語を集めた実名語/匿名単語辞書が格納されている。
【0035】
実名語/匿名単語辞書では、実名語のカテゴリーが狭いほど、その抽象的な概念の数を多くしておいた方が良い。これは、カテゴリーが狭い言葉ほど具体的であり、重要情報だからである。一方、実名語が普通名詞などカテゴリーが広い場合は、抽象的な概念の数は少なくてもかまわない。もともと抽象的であり、重要度もそれほど高くないからである。
【0036】
図3は実名語/匿名単語辞書の例である。この例の場合、実名語のカテゴリーが狭いほど、匿名化レベルの数も多くなる。例えば、カテゴリーの広い“ノートパソコン”等の普通名詞の場合は匿名化レベルを1つしか用意しなかったのに対して、カテゴリーの狭い“Tynabook”等の商品名の場合は匿名化レベルを4つ用意している。なお、実名語が台数などの単位を表す場合には、抽象的な概念は用意せずに、倍率などの正規化数値を用意すればよい。
【0037】
実名語/匿名語マップ生成部105では、文書処理者ID記憶部102から文書処理者IDを読み込み、匿名化レベルデータ記憶部103から匿名化レベルデータを読み込み、乱数発生部104で発生した乱数を利用して、実名語と匿名単語の一意性を保つために付加する付加ラベルを生成する。その後、匿名単語に付加ラベルをつけたもの匿名語とすることによって、実名語と匿名語とが一対一の関係を有する実名語/匿名語マップを生成し、実名語/匿名語マップ記憶部107に格納する。
【0038】
なお、この乱数を利用した付加ラベルの生成は、文書処理者が複数いる場合や付加ラベルの数が多い場合には、手動で付加ラベルを決めるよりも、有効である。しかし、付加ラベルの数が少ない場合には、手動で決めても良い。
【0039】
図4は図2の匿名化レベルデータと図3の実名語/匿名単語辞書を用いた場合の実名語/匿名語マップの例である。このような実名語/匿名語マップに格納された対応関係をもとに、電子文書の匿名化や実名化を行う。この場合、実名語である「Tynabook」、「Waio」、「ThinkQad」の匿名単語は「ブランド」になってしまい、このままでは実名語と匿名語の一対一の関係が保てない。そこで、同じ名前の匿名単語の数だけ乱数を生成し、その乱数に対応する付加ラベルを各匿名単語につける。ここでは乱数「1,2,3」に対する付加ラベルを「A,B,C」とした。これによって、例えば実名語「Tynabook」に対応する匿名語は「ブランドA」などと一対一の関係になるようできる。
【0040】
また、実名語が単位を表す場合には、乱数によって発生させた正規化数値(倍率)を匿名単語として格納する。図4の場合は、1/100倍である。
【0041】
図5は、上述した電子文書の実名語/匿名語マップ作成方法のフローチャートである。
【0042】
まず、匿名化レベル決定部101では、電子文書中の各実名語の匿名化レベルを決定し、匿名化レベルデータ記憶部103に格納させる(ステップ101)。
【0043】
次に、実名語/匿名語マップ生成部105では、文書処理者ID記憶部102から文書処理者IDを読み込み、この文書処理者ID毎に、乱数発生部104で生成した乱数を用いて、付加ラベルを生成する(ステップ102)。さらに、匿名化レベルデータ記憶部103に格納されている匿名化レベル決定済の各実名語について、実名語/匿名単語辞書記憶部106に格納された実名語/匿名単語辞書から対応する匿名化レベルの匿名単語を検索し、付加ラベルを付加することで匿名語を生成する(ステップ103)。
【0044】
最後に、実名語/匿名語マップ記憶部107に、文書処理者ID毎に、各実名語と一対一の関係を有する匿名語を表した実名語/匿名語マップを保存する(ステップ104)。
【0045】
(電子文書の匿名化装置)
図6は、本発明の一実施形態に関わる電子文書の匿名化装置のブロック図である。また、図7は、電子文書の匿名化方法のフローチャートである。この電子文書の匿名化装置は、実名文書記憶部201、実名語抽出部202、実名語抽出実名文書記憶部203、文書処理者ID記憶部102,実名語匿名変換部205、実名語/匿名語マップ記憶部107、匿名文書記憶部206を備えている。
【0046】
実名文書記憶部201には、内容を抽象化しようとしている電子文書である実名文書が格納されている。
【0047】
実名語抽出部202では、実名文書記憶部201に格納された実名文書を読み込み、実名語/匿名語マップ記憶部107に格納された実名語/匿名語マップを読み込み、実名文書中実名語/匿名語マップに登録されている各実名語のみを抽出した実名語抽出実名文書を生成し、実名語抽出実名文書記憶部203に格納する(ステップ201)。図8は実名語抽出の例であり、表形式データの実名文書から実名語が抽出されている。この図では、実名語抽出実名文書中の抽出した実名語に[]をつけている。
【0048】
文書処理者ID記憶部102には、対象とした実名文書を匿名化した文書を扱う(分析する)者の識別情報が記録されている。
【0049】
実名語匿名変換部205では、実名語抽出実名文書記憶部203に格納された実名語抽出実名文書を読み込み、文書処理者ID記憶部102から読み込んだ文書処理者IDに基づいて、実名語/匿名語マップ記憶部107に格納された実名語/匿名語マップから対応する匿名語を決定する(ステップ202)。さらに、実名語抽出実名文書中で抽出された実名語を決定した匿名語に変換することで匿名文書を作成し、匿名文書記憶部206に格納する(ステップ203)。
【0050】
通常の実名語を匿名語に変換する際には、対応する匿名単語と付加ラベルを加えた語を匿名語とする。特定の単位を表す数値などの実名語を匿名語に変換する際には、対応する匿名単語に格納された数値を掛け合わせ、付加ラベルを加えた語を匿名語とする。図9に実名語匿名変換の例を示す。図9では、図8で生成された表形式データの実名語抽出実名文書の実名語が匿名変換されている。
【0051】
以降では、図9に挙げた匿名文書は、各支店毎における製品カテゴリAの売上げ台数データの4月分であり、同様なデータが1〜3月分についてもある。この1〜4月分のデータ(匿名文書)を文書処理者に分析してもらい、その分析結果(新たに作成した匿名文書)を実名化する方法について説明する。
【0052】
(電子文書の実名化装置)
図10は、本発明の一実施形態に関わる電子文書の実名化装置のブロック図である。また、図11は、電子文書の実名化方法のフローチャートである。この電子文書の実名化装置は、匿名文書記憶部301、匿名語抽出部302、匿名語抽出匿名文書記憶部303、文書処理者ID記憶部102、匿名語実名変換部305、実名語/匿名語マップ記憶部107、実名文書記憶部306を備えている。
【0053】
文書処理者(レポート作成者)から送られてきたレポート文書(匿名文書)を実名文書に変換する場合、利用者は、まずレポート文書を例えば電子ファイルで匿名文書記憶部301に読み込み、また、レポート作成者のIDを例えばキーボードから入力してID記憶部102に読み込んでおく。
【0054】
匿名文書記憶部301には、内容を実名化しようとしている匿名文書が格納されており、文書処理者ID記憶部102には、その匿名文書を作成した文書処理者IDが格納されている。
【0055】
匿名語抽出部302では、匿名文書記憶部301に格納された匿名文書を読み込み、実名語/匿名語マップ記憶部107から実名語/匿名語マップを読み込み、匿名文書を分解して発見された匿名語のうち実名語/匿名語マップに登録されているもののみを抽出した匿名語抽出匿名文書を生成し、匿名語抽出匿名文書記憶部303に格納する(ステップ301)。図12は匿名語抽出の例であり、文書処理者が作成したレポート文書の匿名語が抽出されている。この図では、匿名語抽出匿名文書から抽出された匿名語を||で囲んでいる。
【0056】
匿名語実名変換部305では、匿名語抽出匿名文書記憶部303に格納された匿名語抽出匿名文書を読み込み、文書処理者ID記憶部102から読み込んだ文書処理者IDに基づいて、実名語/匿名語マップ記憶部107に格納された実名語/匿名語マップから対応する匿名語を決定する(ステップ302)。さらに、匿名語抽出匿名文書中で抽出された匿名語を対応する実名語に変換するか、対応する実名語を加えることで実名文書を作成し、実名文書記憶部306に格納する(ステップ303)。
【0057】
通常の匿名語を実名語に変換する際には、匿名語に対応する実名語を選択することにより実名語を生成する。特定の単位を表す数値などの匿名語を実名語に変換する際には、対応する正規化数値(倍率)で割り、単位を実名語に変更することによって実名語を生成する。図13に匿名語実名変換の例を示す。図13では、図12で生成されたレポート文書の匿名語抽出匿名文書の匿名語が固有語に変換された実名文書と、匿名語と実名語の両方を採用した実名文書が示されている。
【0058】
以上説明したように、本実施形態によれば、文書中の重要情報を必要に応じて抽象的な概念で変換するので、従来の方法のように実名文書の秘密情報を削除したり暗号化することで文書の情報量を必要以上に落とすことなく、重要文書を扱うことが可能になる。
【0059】
(記録媒体への適用)
また、本実施形態における処理をコンピュータで実行可能なプログラムで実現し、このプログラムをコンピュータで読み取り可能な記憶媒体として実現することも可能である。
【0060】
なお、上記記憶媒体としては、磁気ディスク、フロッピーディスク、ハードディスク、光ディスク(CD−ROM,CD−R,DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0061】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼動しているOS(オペレーションシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
【0062】
さらに、上記記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
【0063】
また、記憶媒体は1つに限らず、複数の媒体から本実施形態における処理が実行される場合も、本発明における記憶媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0064】
なお、上記コンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
【0065】
また、上記コンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態の機能を実現することが可能な機器、装置を総称している。
【0066】
【発明の効果】
本発明により、電子文書のなかの知られたくない情報のセキュリティと業務遂行への弊害を考慮した、電子文書を介した情報伝達方法が実現できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係わる電子文書の実名語/匿名語マップ作成装置のブロック図。
【図2】匿名化レベルデータの例を示す図。
【図3】固有語/概念辞書例を示す図。
【図4】実名語/匿名語マップ例を示す図。
【図5】実名語/匿名語マップの生成方法のフローチャート。
【図6】本発明の一実施形態に係わる電子文書の匿名化装置のブロック図。
【図7】電子文書の匿名化方法のフローチャート。
【図8】実名語抽出について説明するための図。
【図9】固有語匿名変換について説明するための図。
【図10】本発明の一実施形態に係わる電子文書自動実名化装置のブロック図。
【図11】電子文書の実名化方法のフローチャート。
【図12】匿名語抽出について説明するための図。
【図13】匿名語実名変換について説明するための図。
【符号の説明】
101 匿名化レベル決定部
102 文書処理者ID記憶部
103 匿名化レベルデータ記憶部
104 乱数発生部
105 実名語/匿名語マップ生成部
106 実名語/匿名単語辞書記憶部
107 実名語/匿名語マップ記憶部
201 実名文書記憶部
202 実名語抽出部
203 実名語抽出実名文書記憶部
204 文書処理者ID記憶部
205 実名語匿名変換部
206 匿名文書記憶部
301 匿名文書記憶部
302 匿名語抽出部
303 匿名語抽出匿名文書記憶部
305 匿名語実名変換部
306 実名文書記憶部
Claims (11)
- 電子文章中の実名語を所定の抽象度に匿名化させる匿名化レベルを匿名化レベルデータ記憶部に格納する匿名化レベル決定手段と、
前記電子文書の提供を受ける者の識別番号に応じた付加ラベルを生成する付加ラベル生成手段と、
前記実名語と前記実名語の抽象的な概念である匿名単語と匿名化レベルとの対応関係を記憶している実名語/匿名単語辞書と、
前記実名語の匿名化レベル及び前記実名語/匿名単語辞書より、前記実名語に対応する匿名単語を選び、この匿名単語に前記付加ラベルを付加することによって前記実名語と一対一の関係を有する匿名語を生成し、前記匿名語と実名語との一対一の関係を記憶する前記識別番号専用の実名語/匿名語マップを生成する実名語/匿名語マップ生成手段を備える
電子文書の実名語/匿名語マップ作成装置。 - 前記匿名化レベルは、前記実名語/匿名単語辞書を参照しながら、ユーザが個別に入力することにより決定されることを特徴とする
請求項1記載の電子文書の実名語/匿名語マップ作成装置。 - 前記実名語/匿名語マップは、前記実名語が数値データの場合には、前記数値の倍率を指定するものであることを特徴とする
請求項1記載の電子文書の実名語/匿名語マップ作成装置。 - 前記実名語/匿名語マップは、前記実名語と匿名語との一対一の対応関係に加えて、前記匿名語を生成するのに用いた匿名単語と付加ラベルのデータも有していることを特徴とする
請求項1記載の電子文書の実名語/匿名語マップ作成装置。 - 請求項1記載の電子文書の実名語/匿名語マップ作成装置で作成された実名語/匿名語マップ(107)と、
前記実名語/匿名語マップを用いて、電子文書中の実名語を抽出する手段(202)と、
前記実名語/匿名語マップを用いて、前記抽出された実名語を匿名語に変換する手段(205)を備えることを特徴とする
電子文書の匿名化装置。 - 請求項1記載の電子文書の実名語/匿名語マップ作成装置で作成された実名語/匿名語マップ(107)と、
匿名化された電子文書に関連して新たに作成された文書を入力して、前記実名語/匿名語マップを用いて、前記新たに作成された文書から匿名語を抽出する手段(302)と、
前記新たに作成された文書に、抽出された匿名語に対応する実名語を加える手段(305)を備えることを特徴とする
電子文書の実名化装置。 - 前記実名語を加える手段で加えた実名語に対応する匿名語を削除する手段をさらに備えることを特徴とする
請求項6記載の電子文書の実名化装置。 - コンピュータを、
電子文章中の実名語を所定の抽象度に匿名化させる匿名化レベルを匿名化レベル記憶部 に格納する手段、
前記電子文書の提供を受ける者の識別番号に応じた付加ラベルを生成する手段、
前記匿名化レベルを用いて、前記実名語と前記実名語の抽象的な概念である匿名単語と匿名化レベルとの対応関係を記憶している実名語/匿名単語辞書より、前記実名語に対応する匿名単語を選ぶ手段、
前記匿名単語に前記付加ラベルを付加することによって前記実名語と一対一の関係を有する匿名語を生成する手段、
前記匿名語と実名語との一対一の関係を記憶する前記識別番号専用の実名語/匿名語マップを生成する手段、
として機能させる
電子文書の実名語/匿名語マップ作成プログラム。 - コンピュータを、
請求項8記載の電子文書の実名語/匿名語マップ作成プログラムを実行して作成された実名語/匿名語マップを記憶する手段、
前記実名語/匿名語マップを用いて、電子文書中の実名語を抽出する手段、
前記実名語/匿名語マップを用いて、前記抽出された実名語を匿名語に変換する手段
として機能させる
電子文書の匿名化プログラム。 - コンピュータを、
請求項8記載の電子文書の実名語/匿名語マップ作成プログラムを実行して作成された実名語/匿名語マップを記憶する手段、
匿名化された電子文書に関連して新たに作成された文書を入力して、前記実名語/匿名語マップを用いて、前記新たに作成された文書から匿名語を抽出する手段、
前記新たに作成された文書に、抽出された匿名語に対応する実名語を加える手段、
として機能させる
電子文書の実名化プログラム。 - コンピュータを、さらに、
前記実名語を加える手段で加えた実名語に対応する匿名語を削除する手段、
として機能させる
請求項10記載の電子文書の実名化プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001198325A JP3578450B2 (ja) | 2001-06-29 | 2001-06-29 | 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム |
US10/183,873 US7243304B2 (en) | 2001-06-29 | 2002-06-28 | Apparatus and method for creating a map of a real name word to an anonymous word for an electronic document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001198325A JP3578450B2 (ja) | 2001-06-29 | 2001-06-29 | 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003016064A JP2003016064A (ja) | 2003-01-17 |
JP3578450B2 true JP3578450B2 (ja) | 2004-10-20 |
Family
ID=19035792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001198325A Expired - Fee Related JP3578450B2 (ja) | 2001-06-29 | 2001-06-29 | 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7243304B2 (ja) |
JP (1) | JP3578450B2 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101076708B (zh) * | 2004-07-23 | 2012-05-09 | 德卡尔塔公司 | 地图目标的自动优先化 |
JP4622514B2 (ja) * | 2004-12-28 | 2011-02-02 | 日本電気株式会社 | 文書匿名化装置、文書管理装置、文書匿名化方法及び文書匿名化プログラム |
JP2006221560A (ja) * | 2005-02-14 | 2006-08-24 | Nomura Research Institute Ltd | データ置換装置、データ置換方法およびデータ置換プログラム |
JP4419871B2 (ja) | 2005-03-02 | 2010-02-24 | 富士ゼロックス株式会社 | 翻訳依頼装置およびプログラム |
JP4325577B2 (ja) * | 2005-03-25 | 2009-09-02 | 富士ゼロックス株式会社 | 翻訳装置およびプログラム |
JP4892478B2 (ja) * | 2005-06-10 | 2012-03-07 | パナソニック株式会社 | 認証システム、認証装置、端末装置及び検証装置 |
US20070038674A1 (en) * | 2005-08-12 | 2007-02-15 | Arturo Bejar | System and method for securely analyzing data and controlling its release |
US20070255704A1 (en) * | 2006-04-26 | 2007-11-01 | Baek Ock K | Method and system of de-identification of a record |
JP5042667B2 (ja) * | 2007-03-05 | 2012-10-03 | 株式会社日立製作所 | 情報出力装置、情報出力方法、及び、情報出力プログラム |
WO2008114316A1 (ja) * | 2007-03-19 | 2008-09-25 | Fujitsu Limited | 電子文書管理装置及び電子文書管理プログラム |
JP5095281B2 (ja) | 2007-07-11 | 2012-12-12 | 株式会社日立製作所 | 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム |
JP2009276854A (ja) * | 2008-05-12 | 2009-11-26 | Canon Inc | 情報処理装置、その制御方法及びプログラム |
JP5381048B2 (ja) * | 2008-11-28 | 2014-01-08 | 日本電気株式会社 | 情報管理装置、そのデータ処理方法、情報管理システム、およびコンピュータプログラム |
JP5796574B2 (ja) * | 2010-05-10 | 2015-10-21 | 日本電気株式会社 | 情報処理装置、制御方法及びプログラム |
WO2013011730A1 (ja) * | 2011-07-21 | 2013-01-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書を処理する装置及び方法 |
EP2752786A4 (en) * | 2011-09-02 | 2015-04-08 | Nec Corp | DEVICE AND METHOD FOR DISASSENTING |
JP5469645B2 (ja) * | 2011-09-17 | 2014-04-16 | 信吉 姫野 | 文書管理サーバーシステム |
US8978152B1 (en) | 2012-03-30 | 2015-03-10 | Protegrity Corporation | Decentralized token table generation |
WO2014203402A1 (ja) * | 2013-06-21 | 2014-12-24 | 楽天株式会社 | 情報提供装置、情報提供方法及びプログラム |
US8978153B1 (en) * | 2014-08-01 | 2015-03-10 | Datalogix, Inc. | Apparatus and method for data matching and anonymization |
JP6437842B2 (ja) * | 2015-02-18 | 2018-12-12 | Kddi株式会社 | プライバシー保護装置、方法及びプログラム |
JP6528536B2 (ja) * | 2015-05-18 | 2019-06-12 | 株式会社リコー | 情報処理装置、プログラムおよび情報処理システム |
US10360404B2 (en) * | 2016-02-25 | 2019-07-23 | International Business Machines Corporation | Author anonymization |
WO2018042798A1 (ja) * | 2016-09-02 | 2018-03-08 | シャープ株式会社 | 応答装置およびその制御方法、ならびに制御プログラム |
RU2703953C1 (ru) * | 2018-06-14 | 2019-10-22 | Мастеркард Интернэшнл Инкорпорейтед | Система и компьютерно-реализуемый способ для обезличивания данных при коммутации между юрисдикциями в системах платежей |
EP3987527A4 (en) | 2019-06-19 | 2023-08-16 | Electronic Health Record Data, Inc. | BLOCKCHAIN SYSTEM FOR ELECTRONIC HEALTH RECORDS DATA AND PROCEDURES |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5907677A (en) * | 1996-08-23 | 1999-05-25 | Ecall Inc. | Method for establishing anonymous communication links |
US6226745B1 (en) * | 1997-03-21 | 2001-05-01 | Gio Wiederhold | Information sharing system and method with requester dependent sharing and security rules |
US6061448A (en) * | 1997-04-01 | 2000-05-09 | Tumbleweed Communications Corp. | Method and system for dynamic server document encryption |
JP2001512867A (ja) * | 1997-08-05 | 2001-08-28 | ヴィットケーター・エアラント | 電子的に伝送・格納された文書の出力を保護する装置と方法 |
US6275824B1 (en) | 1998-10-02 | 2001-08-14 | Ncr Corporation | System and method for managing data privacy in a database management system |
US6981217B1 (en) * | 1998-12-08 | 2005-12-27 | Inceptor, Inc. | System and method of obfuscating data |
US6643686B1 (en) * | 1998-12-18 | 2003-11-04 | At&T Corp. | System and method for counteracting message filtering |
US6449718B1 (en) * | 1999-04-09 | 2002-09-10 | Xerox Corporation | Methods and apparatus for partial encryption of tokenized documents |
US6631482B1 (en) * | 2000-01-11 | 2003-10-07 | International Business Machines Corporation | Method and system for providing data output for analysis |
US6785812B1 (en) * | 2000-01-14 | 2004-08-31 | Avaya Technology Corp. | Secure and controlled electronic document distribution arrangement |
AUPR439501A0 (en) * | 2001-04-12 | 2001-05-17 | Set for Study Pty Ltd. | System and method for preventing unauthorised copying of electronic document |
US20030177378A1 (en) * | 2001-06-01 | 2003-09-18 | Erland Wittkotter | Apparatus and method for the decryption of an encrypted electronic document |
US7007025B1 (en) * | 2001-06-08 | 2006-02-28 | Xsides Corporation | Method and system for maintaining secure data input and output |
US7456983B2 (en) * | 2003-07-02 | 2008-11-25 | Hewlett-Packard Development Company, L.P. | System and method for preventing comprehension of a printed document |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US7257225B2 (en) * | 2003-12-29 | 2007-08-14 | American Express Travel Related Services Company, Inc. | System and method for high speed reversible data encryption |
US20060005017A1 (en) * | 2004-06-22 | 2006-01-05 | Black Alistair D | Method and apparatus for recognition and real time encryption of sensitive terms in documents |
-
2001
- 2001-06-29 JP JP2001198325A patent/JP3578450B2/ja not_active Expired - Fee Related
-
2002
- 2002-06-28 US US10/183,873 patent/US7243304B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7243304B2 (en) | 2007-07-10 |
US20030005312A1 (en) | 2003-01-02 |
JP2003016064A (ja) | 2003-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3578450B2 (ja) | 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム | |
JP4747591B2 (ja) | 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム | |
JP4936028B2 (ja) | 情報提供支援装置および情報提供支援方法 | |
US9223987B2 (en) | Confidential information identifying method, information processing apparatus, and program | |
US20050289134A1 (en) | Apparatus, computer system, and data processing method for using ontology | |
US6405199B1 (en) | Method and apparatus for semantic token generation based on marked phrases in a content stream | |
JPH10326255A (ja) | 言語から独立したメッセージの操作方法 | |
JP2000089988A (ja) | 文書プロパティに基づく自己管理型文書の文書管理方法 | |
CN1625179B (zh) | 按可定制的、基于标签协议中的引用发送 | |
US10552781B2 (en) | Task transformation responsive to confidentiality assessments | |
JP3733715B2 (ja) | 文書開示装置、文書開示プログラムを格納した媒体および文書開示方法 | |
US20030182262A1 (en) | Apparatus, system, method and computer program product | |
JP2006277732A (ja) | データベースのクローリングによる情報検索 | |
JP2002269081A (ja) | 文書匿名化装置、方法、匿名化プログラムを記録したコンピュータ読取り可能な記録媒体及びプログラム | |
US20040122772A1 (en) | Method, system and program product for protecting privacy | |
KR102244622B1 (ko) | 데이터 관리 시스템 및 데이터 관리 방법 | |
JP7408277B2 (ja) | データ管理システム | |
US20050114523A1 (en) | Computer-implemented method, system and program product for providing real-time access to information on a computer system over a network | |
JP4461034B2 (ja) | 利用権発行方法、利用権発行装置、および利用権システム | |
JP2006243832A (ja) | ワークフロー検索システム | |
US20010051899A1 (en) | Document managing apparatus for managing transaction slip data in electronic commerce | |
US20090265311A1 (en) | Intellectual Property Subscribe And Publish Notification Service | |
JP6083101B1 (ja) | 情報処理装置、方法およびプログラム | |
Fugkeaw et al. | Enabling Efficient Personally Identifiable Information Detection with Automatic Consent Discovery | |
KR102640194B1 (ko) | 딥러닝 분석으로 연관 키워드의 대표 단어를 치환하여문서의 현황 정보를 제공하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040712 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080723 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090723 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |