JP7017531B2

JP7017531B2 - リスク判定装置、リスク判定方法及びリスク判定プログラム

Info

Publication number: JP7017531B2
Application number: JP2019022609A
Authority: JP
Inventors: 知明三本; 晋作清本
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2022-02-08
Anticipated expiration: 2039-02-12
Also published as: JP2020129339A

Description

本発明は、文書を公開する際のプライバシに関するリスクを判定する装置に関する。

従来、データセットのプライバシに関するリスクを低減するための匿名化の技術として、例えばｋ－匿名化等の手法が提案されてきた。
また、文書データの匿名化に関して、文書中の単語の出現頻度等から、個人を特定するための情報量を算出し、リスクを評価する手法が提案されている（例えば、非特許文献１及び２参照）。

ＤａｖｉｄＳａｎｃｈｅｚａｎｄＭｏｎｔｓｅｒｒａｔＢａｔｅｔ， "Ｃ－ｓａｎｉｔｉｚｅｄ：Ａｐｒｉｖａｃｙｍｏｄｅｌｆｏｒｄｏｃｕｍｅｎｔｒｅｄａｃｔｉｏｎａｎｄｓａｎｉｔｉｚａｔｉｏｎ，" ＪｏｕｒｎａｌｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，１４８－１６３，２０１６，ＷｉｌｅｙＯｎｌｉｎｅＬｉｂｒａｒｙ．ＶｅｎｋａｔｅｓａｎＴＣｈａｋａｒａｖａｒｔｈｙ，ＨｉｍａｎｓｈｕＧｕｐｔａ，ＰｒａｓａｎＲｏｙ，ａｎｄＭｕｋｅｓｈＫＭｏｈａｎｉａ， "Ｅｆｆｉｃｉｅｎｔｔｅｃｈｎｉｑｕｅｓｆｏｒｄｏｃｕｍｅｎｔｓａｎｉｔｉｚａｔｉｏｎ，" Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭｃｏｎｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄｋｎｏｗｌｅｄｇｅｍａｎａｇｅｍｅｎｔ，８４３－８５２，２００８．

しかしながら、文書データのリスクを評価する際に、母集団となる文書の集合によって、同一の単語であっても出現頻度は変わるため、リスクのある単語が適切に評価されない場合があった。

本発明は、文書データから、プライバシに関するリスクのある語句を精度良く抽出できるリスク判定装置、リスク判定方法及びリスク判定プログラムを提供することを目的とする。

本発明に係るリスク判定装置は、公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続され、新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力部と、前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得部と、前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得部により取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出部と、前記抽出部により抽出された語句を出力する出力部と、を備える。

前記取得部は、前記文書データを分類する上での影響度の大きさに基づいて、前記属性を選択してもよい。

前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、前記リスク判定装置は、前記入力文書データから前記抽出部により抽出された語句を匿名化するための修正データを生成し、当該修正データを、前記入力文書データに対応付けて前記データベースに格納する匿名化部を備えてもよい。

前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、前記リスク判定装置は、前記入力文書データから前記抽出部により抽出された語句を匿名化し、前記データベースに格納されている前記入力文書データを更新する匿名化部を備えてもよい。

前記リスク判定装置は、前記入力部が新たに受け付けた前記入力文書データの修正入力を受け付け、前記入力属性データと対応付けて前記データベースに格納する格納部を備え、前記取得部は、修正前の前記入力文書データと、前記データベースに格納された修正後の入力文書データとで、異なる前記属性を選択し前記抽出部へ提供してもよい。

本発明に係るリスク判定方法は、公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータが、新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行する。

本発明に係るリスク判定プログラムは、公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータに、新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行させるためのものである。

本発明によれば、文書データから、プライバシに関するリスクのある語句を精度良く抽出できる。

実施形態に係る文書管理システムの全体構成を示す図である。実施形態に係る管理サーバの機能構成を示す図である。実施形態に係る属性データの入力画面例を示す図である。実施形態に係る文書データの入力画面例を示す図である。実施形態に係る文書データの登録時におけるリスク判定処理を示すフローチャートである。実施形態に係る文書データの公開前におけるリスク判定処理を示すフローチャートである。

以下、本発明の実施形態の一例について説明する。
本実施形態では、文書データとして、例えば、学校の事故レポート等、同種の文書が多数蓄積され公開されるものを想定している。これらの文書データは、管理機関のデータベースに登録する際に、人名又は地名等の個人を特定されるリスクのある語句が匿名化又は削除されることが望まれる。

本実施形態のリスク判定方法により、従来は公開時に人手で探し加工していたリスクの高い語句が文書データの入力時に可視化される。
また、本実施形態のリスク判定方法では、文書データの登録時に加えて、登録された文書データの公開前にも同様のリスク判定が実施され、公開情報の匿名化が行われる。

ここで、文書データには、データを分類するための属性データが付加されているものとする。例えば、前述の事故レポートの場合、学校名、生徒の学年、性別、事故発生場所、事故発生時刻、怪我の部位等が文書データに対応付けて登録される。

図１は、本実施形態に係る文書管理システム１の全体構成を示す図である。
文書管理システム１は、リスク判定装置としての管理サーバ１０と、文書データベース（ＤＢ）２０と、ユーザ端末３０とを備える。文書データベース２０は、管理サーバ１０に配置されてもよいし、通信接続された外部のデータベース管理装置に配置されてもよい。複数のユーザ端末３０は、ネットワークを介して管理サーバ１０と通信接続されている。

ユーザ端末３０は、パーソナルコンピュータ、タブレット端末又はスマートフォン等の情報処理装置であり、管理サーバ１０にアクセスして管理サーバ１０が提供する文書管理機能を利用することにより、文書データベース２０に文書データを登録する。
管理サーバ１０は、要求に応じて、文書データベース２０に蓄積されている文書データを公開する。

図２は、本実施形態に係る管理サーバ１０の機能構成を示す図である。
管理サーバ１０は、管理機関にて運用管理される情報処理装置である。記憶部に格納されたソフトウェア（リスク判定プログラム）を制御部が実行することにより、制御部は、本実施形態の各種機能部として動作する。
具体的には、管理サーバ１０は、各種機能部として、入力部１１と、取得部１２と、抽出部１３と、出力部１４と、格納部１５と、匿名化部１６とを備える。

入力部１１は、新たに文書データ及びこの文書データを分類するための属性データを、リスク判定のための入力文書データ及び入力属性データとして受け付ける。
また、入力部１１は、文書データベース２０に既に格納されている文書データ及び属性データを、入力文書データ及び入力属性データとして受け付けてもよい。

取得部１２は、複数の属性を含む入力属性データのうち、選択された属性の値が一致又は類似する文書データを文書データベース２０から取得する。
ここで、属性の選択は、ユーザにより行われてよい。あるいは、取得部１２は、文書データを分類する上での影響度の大きさに基づいて、属性を選択してもよい。具体的には、例えば、主成分分析等の既存の手法が適用可能である。
また、取得部１２は、修正前の入力文書データと、実際に文書データベース２０に格納された修正後の入力文書データとで、異なる属性を選択し抽出部１３へ提供してもよい。

図３は、本実施形態に係る属性データの入力画面例を示す図である。
この画面例は、新たに入力される報告書（文書データ）に付随して、複数の属性名と値（内容）とがユーザにより入力される。なお、属性の値は、直接入力されてもよいし、プルダウンリスト等から選択入力されてもよい。
また、各属性には、検索対象のチェックボックスが設けられ、ユーザは、取得部１２が取得する文書データの属性を選択してもよい。

抽出部１３は、入力文書データに含まれる語句のうち、この入力文書データ及び取得部１２により取得された文書データの中での出現回数又は共起回数等を含む出現頻度の情報に基づいて、プライバシに関するリスクが基準を超える語句を抽出する。
ここで、リスクの度合いは、例えばＴＦ－ＩＤＦ等の語句の重要度を評価する指標に基づいて算出されてよい。これにより、入力文書データ内でのみ頻出する語句、すなわち文書を特徴付ける語句は、リスクが高いと判定される。

出力部１４は、抽出部１３により抽出された語句を出力する。例えば、入力文書データからリスクが基準を超える語句が抽出されると、出力部１４は、これらの語句を強調した画面表示を行い、入力文書データの修正を促す。

格納部１５は、入力部１１が新たに受け付けた入力文書データの修正入力を受け付け、入力属性データと対応付けて文書データベース２０に格納する。

図４は、本実施形態に係る文書データの入力画面例を示す図である。
この画面例では、入力フォームに文書データが入力された後、評価開始ボタンが押下されると、抽出部１３により抽出されたリスクの高い語句について、フォント、サイズ、色、飾り等を変更したリスク判定結果が表示される。
また、リスク判定結果の総合評価として、例えば、リスクが最大の語句の評価値又はリスクの合計値等に基づいて、危険度が出力されてもよい。

リスク判定結果の出力に応じて、ユーザは、入力した文書データに対して、リスクの高い語句の汎化又は削除といった修正を行う。そして、必要に応じて再度リスク評価を行った後、登録ボタンの押下により、修正後の文書データが文書データベース２０に格納される。

なお、この例では、評価開始ボタンの押下により取得部１２、抽出部１３及び出力部１４の処理が実行される場合を示したが、文書データの入力中にリアルタイムで処理が実行されてもよい。

匿名化部１６は、入力文書データから抽出部１３により抽出された語句を匿名化するための修正データを生成し、この修正データを、入力文書データに対応付けて文書データベース２０に格納する。
修正データは、例えば、格納されている入力文書データ内の語句と、匿名化のために置換する語句又は墨塗り用の記号等とを対応付けたデータであり、匿名化前の入力文書データを公開する際に、この修正データに基づいて対象の語句が置換される。
また、匿名化部１６は、入力文書データから抽出部１３により抽出された語句を匿名化し、文書データベース２０に格納されている入力文書データを更新してもよい。

なお、匿名化の手法としては、例えば、一般化階層木及び人名辞典等を利用する既存の手法が適用されてよく、抽出された語句それぞれのリスクの度合いに応じて、汎化のレベル又は黒塗り等が決定される。

図５は、本実施形態に係る文書データの登録時におけるリスク判定処理を示すフローチャートである。
このリスク判定処理では、ユーザが入力した文書データに含まれるリスクの高い語句を提示することで、文書データの修正を促し、修正後の文書データを文書データベース２０に格納する。

ステップＳ１において、入力部１１は、ユーザから新たに文書データベース２０に格納するための文書データと、この文書データに付加する属性データの入力を受け付ける。

ステップＳ２において、取得部１２は、ステップＳ１で入力された属性データのうち、文書データの母集団を絞り込むための属性を、ユーザの指定により、又は文書データベース２０を対象として主成分分析等の手法により選択する。

ステップＳ３において、取得部１２は、ステップＳ２で選択された属性データと一致又は類似する属性データが対応付けられている文書データを、文書データベース２０から取得する。

ステップＳ４において、抽出部１３は、ステップＳ３で取得された文書データを母集団として、ステップＳ１で入力された文書データに含まれる語句のうち、個人を特定する情報量が多くリスクが高い語句を抽出する。

ステップＳ５において、出力部１４は、ステップＳ４で抽出された語句をユーザに提示し、ステップＳ１で入力された文書データの修正を促す。

ステップＳ６において、入力部１１は、ユーザからの入力を待機し、文書データの登録が要求されたか、登録せず修正入力が開始されたかを判定する。登録が要求された（ＹＥＳの）場合、処理はステップＳ７に移り、修正入力が開始された（ＮＯの）場合、処理はステップＳ１に戻る。

ステップＳ７において、格納部１５は、入力された文書データを属性データと対応付けて、文書データベース２０に格納する。

図６は、本実施形態に係る文書データの公開前におけるリスク判定処理を示すフローチャートである。
このリスク判定処理では、文書データベース２０に格納済みの文書データから、リスクの高い語句を抽出し、自動で匿名化の処理を施す。

ステップＳ１１において、入力部１１は、定期的に、又は文書データの公開時等の所定のタイミングで、文書データベース２０に格納されている文書データと、この文書データに対応する属性データを抽出する。

ステップＳ１２において、取得部１２は、ステップＳ１１で抽出された文書データに対応する属性データのうち、文書データの母集団を絞り込むための属性を、予め指定された条件により、又は文書データベース２０を対象とした主成分分析等の手法により選択する。

ステップＳ１３において、取得部１２は、ステップＳ１２で選択された属性データと一致又は類似する属性データが対応付けられている他の文書データを、文書データベース２０から取得する。

ステップＳ１４において、抽出部１３は、ステップＳ１３で取得された文書データを母集団として、ステップＳ１１で抽出された文書データに含まれる語句のうち、個人を特定する情報量が多くリスクが高い語句を抽出する。

ステップＳ１５において、匿名化部１６は、ステップＳ１４で抽出された語句を匿名化するための修正データを生成して文書データベース２０に格納、又は文書データベース２０に格納されている対象の文書データを匿名化して更新する。

本実施形態によれば、管理サーバ１０は、入力文書データに付加された属性データと一致又は類似する文書データを母集団とし、入力文書データに含まれる語句の出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する。
これにより、管理サーバ１０は、リスク評価のための母集団を適切に選択できるので、入力文書データから、プライバシに関するリスクのある語句を精度良く抽出できる。
さらに、管理サーバ１０は、抽出した語句をユーザに提示することにより、ユーザが文書データを入力する時点でリスクを容易に把握し語句を修正できるので、文書データベース２０に格納する前にリスクを低減できる。

管理サーバ１０は、文書データを分類する上での影響度の大きさに基づいて、例えば主成分分析等の手法を用いて属性を選択する。
これにより、管理サーバ１０は、適切な属性を用いて、リスク評価のための母集団となる文書データを取得できるので、リスクの高い語句を精度良く抽出できる。

管理サーバ１０は、文書データベース２０に格納されている文書データを入力文書データとして、プライバシに関するリスクが基準を超える語句を抽出する。そして、管理サーバ１０は、抽出された語句を匿名化するための修正データを生成して文書データと対応付けて格納、又は格納されている文書データを匿名化して更新する。
これにより、管理サーバ１０は、文書データの登録時だけでなく、登録後に再度リスクを判定し、文書データの公開前に匿名化を実施できる。

管理サーバ１０は、リスクの高い語句を提示した後、文書データの修正入力を受け付けて文書データベース２０に格納する。そして、管理サーバ１０は、修正後の文書データに対しても、入力時とは異なる属性の組み合わせを選択することで、再度リスクの判定を行う。
これにより、管理サーバ１０は、複数の異なる視点から文書データのリスクを判定し、適切な匿名化を実施できる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

管理サーバ１０によるリスク判定方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

１文書管理システム
１０管理サーバ（リスク判定装置）
１１入力部
１２取得部
１３抽出部
１４出力部
１５格納部
１６匿名化部
２０文書データベース
３０ユーザ端末

Claims

公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続され、
新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力部と、
前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得部と、
前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得部により取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出部と、
前記抽出部により抽出された語句を出力する出力部と、を備えるリスク判定装置。
前記取得部は、前記文書データを分類する上での影響度の大きさに基づいて、前記属性を選択する請求項１に記載のリスク判定装置。
前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、
前記入力文書データから前記抽出部により抽出された語句を匿名化するための修正データを生成し、当該修正データを、前記入力文書データに対応付けて前記データベースに格納する匿名化部を備える請求項１又は請求項２に記載のリスク判定装置。
前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、
前記入力文書データから前記抽出部により抽出された語句を匿名化し、前記データベースに格納されている前記入力文書データを更新する匿名化部を備える請求項１又は請求項２に記載のリスク判定装置。
前記入力部が新たに受け付けた前記入力文書データの修正入力を受け付け、前記入力属性データと対応付けて前記データベースに格納する格納部を備え、
前記取得部は、修正前の前記入力文書データと、前記データベースに格納された修正後の入力文書データとで、異なる前記属性を選択し前記抽出部へ提供する請求項３又は請求項４に記載のリスク判定装置。
公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータが、
新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、
前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、
前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行するリスク判定方法。
公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータに、
新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、
前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、
前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行させるためのリスク判定プログラム。