JP7392452B2 - ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム - Google Patents

ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP7392452B2
JP7392452B2 JP2019230363A JP2019230363A JP7392452B2 JP 7392452 B2 JP7392452 B2 JP 7392452B2 JP 2019230363 A JP2019230363 A JP 2019230363A JP 2019230363 A JP2019230363 A JP 2019230363A JP 7392452 B2 JP7392452 B2 JP 7392452B2
Authority
JP
Japan
Prior art keywords
processing
personal information
rule
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019230363A
Other languages
English (en)
Other versions
JP2021099592A (ja
Inventor
正裕 ▲高▼屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2019230363A priority Critical patent/JP7392452B2/ja
Publication of JP2021099592A publication Critical patent/JP2021099592A/ja
Application granted granted Critical
Publication of JP7392452B2 publication Critical patent/JP7392452B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本開示は、情報を加工する技術に関する。
人物の行動や嗜好等の分析のために、大量の個人情報の利活用が行われている。一方で、個人情報は特定の個人を識別可能な情報であり、利活用の際には個人情報の保護、すなわちプライバシーの侵害を考慮することが要求される。これに対して、ユーザが個人情報の保護を図りつつ個人情報を利活用するために、個人情報を加工し匿名化する技術が存在する。
特許文献1には、複数の個人情報が含まれるデータベースから、個人情報が有する属性値の出現頻度に応じて、匿名化する属性を選択する技術が開示されている。
ここで、個人情報を匿名化する際には、どのように個人情報に対して加工を行うかを示すルールが予め作成される。
例えば、ルールの作成に関して、特許文献2には、個人情報に含まれる属性間の関係性を保持したまま匿名化を行うためのルールを作成することが開示されている。
また、ルールの作成に関連する文献として、特許文献3には、作業ガイドラインに記載された作業のルールをリスト化する技術が開示されている。
特開2013-200659号公報 特開2015-079403号公報 特開2016-009290号公報
ところで、個人情報の保護に関しては、法令等に基づく取り決めがまとめられたガイドラインが発行される場合がある。そのため、個人情報の匿名化を行うためのルールを作成する際に、そのようなガイドラインに応じてルールを作成していないと、法違反のリスクが高まる虞がある。
特許文献1、2及び3には、個人情報の取り扱いにおいて、上記のようなガイドラインに応じたルールを作成することは開示されていない。
本開示は、上記課題を鑑みてなされたものであり、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能な技術を提供することを主要な目的とする。
本開示の一態様にかかるルール生成装置は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う検索手段と、前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する抽出手段と、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する更新手段と、を備える。
本開示の一態様にかかるルール生成方法は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出し、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する。
本開示の一態様にかかる情報処理方法は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、前記検索がヒットした箇所を含む所定の文章を、前記ドキュメントから抽出し、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新し、前記個人情報を取得し、当該取得した個人情報に含まれる前記属性を検出し、前記検出された属性に対応する、前記加工ルールを特定し、前記特定された加工ルールに従って、前記個人情報を加工する。
本開示の一態様にかかるプログラムは、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う処理と、前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する処理と、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する処理と、をコンピュータに実行させる。
本開示によれば、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になるという効果が得られる。
第1の実施形態にかかる情報処理システムの構成の一例を示すブロック図である。 第1の実施形態にかかるルール生成装置の機能構成の一例を示すブロック図である。 第1の実施形態にかかるルール生成装置の動作を説明するフローチャートである。 第2の実施形態にかかる情報処理システムの構成の一例を示すブロック図である。 第2の実施形態にかかる情報処理システムの機能構成の一例を示すブロック図である。 第2の実施形態にかかる加工ルールの一例を示す図である。 第2の実施形態にかかるドキュメントの一例を示す図である。 第2の実施形態にかかる個人情報の一例を示す図である。 第2の実施形態にかかるセマンティック辞書の一例を模式的に示す図である。 第2の実施形態にかかる情報処理システム1001の動作を説明するシーケンス図である。 第2の実施形態にかかるルール生成装置のルール更新処理の動作を説明するフローチャートである。 第2の実施形態にかかる更新された加工ルールの一例を示す図である。 第2の実施形態にかかる情報加工装置の情報加工処理の動作を説明するフローチャートである。 第2の実施形態にかかる加工後個人情報の一例を示す図である。 第3の実施形態にかかる情報処理システムの機能構成の一例を示す図である。 第3の実施形態にかかるルール生成装置の動作を説明するフローチャートである。 第1、第2及び第3の実施形態におけるルール生成装置を実現するコンピュータ装置のハードウェア構成の一例を示すブロック図である。
以下に、本発明に係る実施形態を、図面を参照しつつ説明する。
<第1の実施形態>
第1の実施形態にかかるルール生成装置を含む情報処理システムについて説明する。
図1は、第1の実施形態にかかる情報処理システム1000の構成の一例を示すブロック図である。図1に示すように、情報処理システム1000は、ルール生成装置100と、情報加工装置200と、記憶装置300と、を備える。情報処理システム1000は、記憶装置300に格納された個人情報を、ルール生成装置100が生成したルールに従って、情報加工装置200において加工するシステムである。
記憶装置300は、加工前個人情報と、加工後個人情報と、ルール生成装置100が生成したルールを示す情報と、を格納する。加工前個人情報は、個人情報を含むデータである。個人情報は、1つあるいは複数の要素の組み合わせにより、特定の個人を識別可能な情報である。具体例を挙げると、情報「神奈川県川崎市に住む山田太郎27歳会社員」は、「神奈川県川崎市」、「山田太郎」、「27歳」、「会社員」という複数の要素により構成される個人情報である。ここでは、個人情報の要素には、当該要素の種別を表す属性の情報が関連付けられている。属性には、例えば、個人の氏名、年齢、性別、生年月日、住所、職業、電話番号、及びメールアドレスがある。個人情報は、図示しない装置によって取得され、加工前個人情報として記憶装置300に格納されてもよいし、ルール生成装置100または情報加工装置200によって取得され、加工前個人情報として記憶装置300に格納されてもよい。加工後個人情報は、加工前個人情報が、ルール生成装置100が生成したルールにしたがって加工された情報である。
ルール生成装置100が生成したルールは、個人情報を加工する規則を示す。以下、本明細書において、ルール生成装置100が生成したルールを「加工ルール」とも称する。加工ルールは、個人情報の属性ごとに定められる。例えば、属性が「年齢」である情報に対しては「一の位を切り捨てる」といったルールが定められている。
[ルール生成装置100の詳細]
図2は、第1の実施形態にかかるルール生成装置100の機能構成の一例を示すブロック図である。図2に示すように、ルール生成装置100は、検索部110と、抽出部120と、更新部130とを備える。ルール生成装置100は、情報加工装置200と記憶装置300と通信可能に接続されている。ルール生成装置100は、加工ルールを生成する装置である。
検索部110は、個人情報を加工するルールに関わる文章を含むドキュメント(以降、本明細書において、単に「ドキュメント」とも称する)に対して検索を行う。具体的には、検索部110は、個人情報の属性を表す、「氏名」、「年齢」、「性別」、「生年月日」、「住所」、「職業」、「電話番号」、及び「メールアドレス」等の言葉を検索キーとして、ドキュメント中の文章を検索する。ドキュメントは、例えば、個人情報の保護に関する法令等に基づく取り決めがまとめられたガイドライン等のテキストデータである。なお、ドキュメントは、記憶装置300に格納されていてもよいし、ルール生成装置100と通信可能に接続される、図示しない装置に格納されていてもよい。このように、検索部110は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う。検索部110は、検索手段の一例である。
抽出部120は、検索部110による検索においてヒットした箇所に基づいて、所定の範囲内の文章をドキュメントから抽出する。所定の範囲とは、例えば、検索がヒットした箇所を含む文章である。このとき、抽出部120は、検索がヒットした箇所を含む文章のうち、所定の条件を満たす文章を抽出してもよい。例えば、抽出部120は、検索にヒットした言葉を含む文章に、個人情報の加工手法を表す言葉が含まれていた場合、その検索がヒットした箇所を含む文章を抽出してもよい。このように、抽出部120は、検索がヒットした箇所を含む所定の範囲の文章を、ドキュメントから抽出する。抽出部120は、抽出手段の一例である。
更新部130は、抽出部120によって抽出された文章に基づいて、記憶装置300に格納される加工ルールを更新する。例えば、抽出部120によって抽出された文章が「氏名を削除する」であった場合、属性が「氏名」である情報に対して削除を行うことを示す加工ルールを記憶装置300に上書きすることによって、加工ルールを更新する。このとき、属性が「氏名」である情報に関連付けられた加工ルールが記憶装置300に格納されていなかった場合、更新部130は、属性が「氏名」である情報に対して削除を行うことを示す加工ルールを新しく追加してもよい。このように、更新部130は、抽出された文章に基づいて、個人情報を加工する処理において参照する加工ルールを更新する。更新部130は、更新手段の一例を示す。
[ルール生成装置100の動作]
次に、ルール生成装置100の動作を説明する。以下に、ルール生成装置100の動作を、図3のフローチャートを用いて説明する。なお、本明細書において、フローチャート及びシーケンス図の各ステップを「S101」のように、それぞれのステップに付した番号を用いて表現する。
検索部110は、予め定めたタイミングごとに、ドキュメントに対して、個人情報の属性を表す言葉を検索キーとして検索を行う(S101)。
抽出部120は、検索がヒットした箇所を含む所定の範囲の文章を、ドキュメントから抽出する(S102)。
更新部130は、抽出された文章に基づいて、加工ルールを更新する(S103)。
以上のように、第1の実施形態にかかるルール生成装置100は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う。そして、ルール生成装置100は、検索がヒットした箇所を含む所定の範囲の文章を、ドキュメントから抽出し、抽出された文章に基づいて、個人情報を加工する処理において参照する加工ルールを更新する。この構成により、ルール生成装置100は、例えば、個人情報の保護に関する法令等に基づく取り決めがまとめられたドキュメントに応じて、個人情報を加工するルールを更新することができる。そのため、ユーザが個人情報を利活用する際には、更新されたルールに従って加工された個人情報を用いればよく、ユーザは適切に個人情報を取り扱うことができる。すなわち、第1の実施形態にかかるルール生成装置100は、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になるという効果が得られる。
<第2の実施形態>
次に、第2の実施形態にかかるルール生成装置を含む情報処理システムについて説明する。
図4は、第2の実施形態にかかる情報処理システム1001の構成の一例を示すブロック図である。図4に示す通り、情報処理システム1001は、ルール生成装置101と、情報加工装置201と、記憶装置301とを備える。また、情報処理システム1001は、ネットワークを介して、外部サーバ装置400と情報処理装置500と通信可能に接続される。情報処理システム1001は、外部サーバ装置400に格納されるドキュメントに基づいてルール生成装置101が加工ルールを生成し、情報処理装置500から取得した個人情報を、情報加工装置201が加工ルールにしたがって加工するシステムである。
図5は、第2の実施形態にかかる情報処理システム1001の機能構成の一例を示すブロック図である。図5に示すように、ルール生成装置101は、検索部111と、抽出部121と、更新部131とを備える。ルール生成装置101は、加工ルールを生成する装置である。
情報加工装置201は、属性検出部210と、ルール特定部220と、加工部230とを備える。情報加工装置201は、ルール生成装置101が生成した加工ルールに従って情報を加工する装置である。
記憶装置301は、加工前個人情報データベース310、加工ルールデータベース320、加工後個人情報データベース330、及びセマンティック辞書340を有する(詳細は後述する)。なお、本明細書において、データベース(DataBase)を「DB」とも称する。また、図4において、記憶装置301は、情報処理システム1001外の装置に対して情報のやり取りを行う際、ルール生成装置101または情報加工装置201を介してもよいし、直接ネットワークを介してもよい。また、図5では、記憶装置301と、ルール生成装置101及び情報加工装置201とは、別個の装置である。これに代えて、記憶装置301は、ルール生成装置101と情報加工装置201との一方または両方が備えていてもよい。
図4に示す外部サーバ装置400は、ネットワークを介して情報処理システム1001と通信可能に接続される。外部サーバ装置400は、ドキュメントを保持している。
情報処理装置500は、ネットワークを介して情報処理システム1001と通信可能に接続される。情報処理装置500は、情報処理システム1001と通信するための入出力手段を備えた装置である。例えば、情報処理装置500は、パーソナルコンピュータであってもよい。情報処理装置500は、個人情報を情報処理システム1001に送信する。このとき、個人情報は、情報処理装置500のユーザによって入力された情報であってもよいし、図示しない装置から情報処理装置500が取得した情報であってもよい。送信された個人情報は、情報加工装置201を介して、記憶装置301に格納される。
[ルール生成装置101の詳細]
検索部111は、個人情報を加工するルールに関わる文章を含むドキュメントに対して検索を行う。検索部111は、ユーザからの指示に応じて検索を行ってもよいし、予めルール生成装置101に設定された機能に従って一定期間ごとに検索を行ってもよい。また、検索部111は、対象のドキュメント全体を検索範囲として検索を行ってもよいし、ドキュメントの一部の予め定められている検索範囲を検索してもよい。
検索部111は、検索する際に用いられる検索キーとなる言葉を、加工ルールDB320から取得する。図6は、加工ルールDB320に含まれる加工ルールの一例を示す図である。一行目には、個人情報の属性が表され、二行目には、一行目の属性の情報を加工する手法が表されている。例えば、図6の例では、属性が「氏名」である場合、「削除する」という加工ルールが定められている。検索部111は、加工ルールDB320から、属性を表す言葉である「氏名」、「年齢」、「住所」及び「職業」を検索キーとして取得する。
検索部111は、検索キーを取得すると、取得した検索キーを用いて、外部サーバ装置400が有するドキュメントを検索する。図7は、ドキュメントの一例を示す図である。図7の例では、ドキュメントは、個人情報の加工手法に関する記載を含む、個人情報保護のためのガイドラインである。検索部111は、例えば、「氏名」を検索キーとして、ドキュメントを検索する。
抽出部121は、検索がヒットした場合、検索がヒットした箇所を含む所定の範囲の文章を抽出する。このとき、抽出部121は、検索がヒットした箇所を含む文章のうち、所定の条件を満たす文章をドキュメントから抽出する。所定の条件の具体例を挙げると、例えば、検索部111によって「氏名」を検索キーとした検索が行われ、検索がヒットした場合、抽出部121は、「氏名」と、個人情報の加工手法を表す言葉とが含まれている一文をドキュメントから抽出する。個人情報の加工手法を表す言葉は、例えば、「削除する」、「置き換える」、「残す」及び「切り捨てる」等であり、これらの情報は抽出部121において予め与えられている。また、個人情報の加工手法を表す言葉は、属性ごとに定められていてもよい。また、個人情報の加工手法を表す言葉は、1つの属性について1つ定められてもよいし、複数定められてもよい。例えば、「年齢」に対しては、「一桁目を切り上げる」、「一桁目を切り捨てる」及び「一の位を四捨五入する」等が加工手法を表す言葉として定められる。「住所」に対しては、例えば「都道府県のみ残す」及び「都道府県と市区町村とを残す」等が加工手法を表す言葉として定められる。なお、本明細書において、個人情報の加工手法を表す言葉を、「特徴語」とも称する。
更新部131は、抽出部121によって抽出された文章に基づいて、加工ルールDB320の加工ルールを更新する。具体的には、抽出部121によって抽出された文章が、属性「住所」を含む「住所を削除する」であった場合、更新部131は、属性「住所」に対応する加工ルールが「削除する」となるように、加工ルールDB320の加工ルールを更新する。図6の例では、属性「住所」に対応する加工ルールが既に定められている。この場合、更新部131は、既に定められていた加工ルールに対して、属性が「住所」である情報を「削除する」という加工ルールで上書きして加工ルールDB320に登録することによって、加工ルールを更新する。
[情報加工装置201の詳細]
属性検出部210は、加工する対象の情報から個人情報の属性を検出する。具体的には、個人情報を加工する指示を受けると、属性検出部210は、加工前個人情報DB310から、加工する対象の情報を読み出す。属性検出部210は、読み出した個人情報の属性を検出する。図8は、加工前個人情報DB310に含まれる個人情報の一例である。図8の例では、一行目には、個人情報の属性が表され、二行目には、属性に対応する情報の実データが表される。属性検出部210は、属性として「名前」、「年齢」、「住所」及び「職業」を検出する。このように、属性検出部210は、個人情報を取得し、取得した個人情報に含まれる要素の属性を検出する。属性検出部210は、属性検出手段の一例である。
ルール特定部220は、属性検出部210によって検出された属性に対応する加工ルールを、セマンティック辞書340を用いて特定する。図9は、セマンティック辞書340の一例を模式的に示す図である。セマンティック辞書340には、加工ルールDB320に含まれる加工ルールに関連付けられている属性ごとに、セマンティック領域が定められる。セマンティック領域は、特定の属性と同様の概念を持つ言葉をグループ化したまとまりを指す。セマンティック領域には、それぞれ代表属性が設定される。代表属性は、加工ルールDB320に含まれる加工ルールに関連付けられている属性である。図9の例では、代表属性として「氏名」が設定されたセマンティック領域には、「氏名」、「名前」、「人名」、「名」及び「姓名」を示す言葉のデータ群が含まれる。なお、セマンティック領域に含まれる言葉はこの例に限らない。
ルール特定部220は、属性検出部210によって検出された属性を示す言葉をセマンティック辞書340から探し、検出された属性を示す言葉を含むセマンティック領域を検出する。そして、ルール特定部220は、検出したセマンティック領域に対応する属性に定められた加工ルールを、加工ルールDB320から特定する。このように、ルール特定部220は、加工ルールに関連付けられている属性に基づいて、検出された属性に対応する加工ルールを特定する。ルール特定部220は、ルール特定手段の一例である。
加工部230は、ルール特定部220において特定された加工ルールに従って、加工対象の個人情報を加工する。例えば、ルール特定部220において特定された加工ルールが、属性「年齢」の情報に対して「一の位を切り捨てる」という加工ルールであるとする。このとき、加工部230は、加工前個人情報DB310に存在する「年齢」の情報に対して一の位を切り捨てる処理を行うことで、個人情報の加工を行う。加工部230は、加工した個人情報を、加工後個人情報DB330に格納する。このように、加工部230は、加工手段の一例である。なお、加工後個人情報DB330に格納された情報は、ユーザが個人情報を利活用する際に用いられる。
[情報処理システム1001の動作]
次に、第2の実施形態にかかる情報処理システム1001の動作を図10、図11及び図13を用いて説明する。なお、以下に説明する動作において、加工前個人情報DB310には、図8に示す個人情報が格納され、加工ルールDB320には、図6に示す加工ルールが格納され、セマンティック辞書340は、図9に示すセマンティック辞書であるとする。また、外部サーバ装置400には、図7に示すドキュメントが格納されているとする。
図10は、情報処理システム1001の動作を説明するシーケンス図である。情報加工装置201が個人情報を加工する指示を受けると(S201)、情報加工装置201が、指示を受けた旨をルール生成装置101に通知する。なお、個人情報を加工する指示は、例えば情報処理システム1001のユーザが、図示しない入力手段を介して情報処理システム1001に入力した指示であるが、この例に限らない。例えば、情報処理装置500から記憶装置301に個人情報が格納されたときに、指示を受けた旨をルール生成装置101に通知するという設定が、情報加工装置201に予めなされていてもよい。
ルール生成装置101は、情報加工装置201から通知を受け取ると、加工ルールを更新する処理(ルール更新処理)を行う(S202)。
図11は、ルール生成装置101のルール更新処理の動作を説明するフローチャートである。ルール生成装置101の検索部111は、記憶装置301から検索キーを取得する(S301)。ここで、検索部111は、加工ルールDB320から、検索キーとなる属性を表す言葉を取得する。この例では、検索部111は、検索キーとして、属性を表す「氏名」、「年齢」、「住所」及び「職業」を取得する。そして、検索部111は、検索キーを用いてドキュメント中の文章を検索する(S302)。例えば、外部サーバ装置400に格納されたドキュメントに対して、「氏名」を含む文章を検索する。
検索部111による検索がヒットした場合(S303の「Yes」)、抽出部121は、検索がヒットした箇所を含む所定の範囲に特徴語があるか否か判別する。検索がヒットした箇所を含む所定の範囲に特徴語がある場合(S304の「Yes」)、抽出部121は、検索キー及び特徴語を含む文章を抽出する(S305)。図7に示すドキュメントでは、抽出部121は「氏名を削除する」という文章を抽出する。
更新部131は、抽出部121によって抽出された文章に基づいて、加工ルールを更新する(S306)。具体的には、更新部131は、S305の処理において抽出された「氏名を削除する」という文章に基づいて、属性「氏名」の情報は「削除する」という加工ルールを、加工ルールDB320に登録することにより、加工ルールDB320を更新する。ここで、図6に示す加工ルールには、属性「氏名」の情報は「削除する」という加工ルールが既に登録されている。この場合、S306において、加工ルールを登録しなくてもよいし、改めて加工ルールを登録し直してもよい。
なお、ルール生成装置101は、検索部111による検索がヒットしない場合(S303のNo)、S304からS306の処理を行わない。また、ルール生成装置101は、検索がヒットした箇所を含む所定の範囲に特徴語がなかった場合(S304の「No」)、S305及びS306の処理を行わない。
ルール生成装置101は、S301において取得したすべての検索キーを用いて検索するまで(S307の「No」)、S302からS306の処理を繰り返す。例えば、「年齢」を含む文章を検索していない場合、検索部111は、ドキュメントに対して「年齢」を検索キーとした検索を行う。この場合、抽出部121は、図7に示すドキュメントから、「年齢の一桁目を四捨五入する」という文章を抽出する。そして、更新部131は、属性「年齢」の情報は「一桁目を四捨五入する」という加工ルールを、加工ルールDB320に登録する。この例では、加工ルールDB320に格納された図6に示す加工ルールが、図12に示す加工ルールに更新されたとする。
S301において取得したすべての検索キーを用いて検索を行った場合、ルール生成装置101は、検索が終了した旨を情報加工装置201に通知し、図11のフローを終了する。
図13は、情報加工装置201の情報加工処理の動作を説明するフローチャートである。
属性検出部210は、記憶装置301の加工前個人情報DB310から、加工対象の情報を読み出す(S401)。そして、属性検出部210は、読み出した個人情報に含まれる属性を検出する(S402)。この例では、属性検出部210は、属性を表す「名前」、「年齢」、「住所」及び「職業」を検出する。
ルール特定部220は、セマンティック辞書340を用いて、属性検出部210によって検出された属性を表す言葉を含むセマンティック領域を特定する(S403)。そして、ルール特定部220は、特定されたセマンティック領域に対応する加工ルールを特定する(S404)。例えば、ルール特定部220は、セマンティック辞書340において、属性検出部210によって検出された属性を表す言葉である「名前」を含むセマンティック領域を探す。図9に示す例では、「氏名」が代表属性として設定されたセマンティック領域に「名前」が含まれている。そのため、ルール特定部220は、代表属性として「氏名」が設定されたセマンティック領域を特定する。代表属性として「氏名」が設定されたセマンティック領域が特定された場合、ルール特定部220は、加工ルールDB320に格納された加工ルールのうち、属性「氏名」の加工ルールを特定する。図12の例では、ルール特定部220は、属性「氏名」の情報は「削除する」という加工ルールを特定する。
ルール特定部220によって加工ルールが特定されると、加工部230は、特定された加工ルールに基づいて、加工対象の個人情報を加工する。この例では、加工部230は、図8に示す個人情報を、図12に示す加工ルールに従って加工する。図14は、加工後の個人情報の一例を示す図である。図14に示すように、加工部230は、図8に示す個人情報に対して、属性が「名前」である情報を削除し、属性が「年齢」である情報は一桁目を四捨五入し、属性が「住所」である情報は都道府県のみを残し、属性が「職業」である情報は残すよう加工している。そして加工部230は、加工した個人情報を加工後個人情報DB330に格納する。
以上のように、第2の実施形態にかかる情報処理システム1001は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う。そして、情報処理システム1001は、所定の条件に基づいて、検索がヒットした箇所を含む所定の範囲の文章を抽出し、抽出された文章に基づいて、加工ルールを更新する。さらに、情報処理システム1001は、取得した個人情報に含まれる要素の属性を検出し、検出された属性に対応する、加工ルールを特定し、特定された加工ルールに従って個人情報を加工する。この構成により、情報処理システム1001は、例えば、個人情報の保護に関する法令等に基づく取り決めがまとめられたドキュメントに応じて、個人情報を加工するルールを更新し、更新されたルールに基づいて、個人情報を加工することができる。そのため、ユーザが個人情報を利活用する際には、更新されたルールに従って加工された個人情報を用いればよく、ユーザは適切に個人情報を取り扱うことができる。すなわち、第2の実施形態にかかる情報処理システム1001は、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になるという効果が得られる。
また、第2の実施形態において、加工ルールには、加工ルールに関連付けられている属性を表す言葉と、当該属性と同様の概念を示す言葉と、をグループ化したまとまりであるセマンティック領域のデータ群が対応付けられている。そして、情報処理システム1001は、個人情報に含まれる要素の属性を表す言葉を含むセマンティック領域に対応する加工ルールを特定する。これにより、個人情報に含まれる要素の属性を表す言葉が、加工ルールに関連付けられている属性を表す言葉と異なっていても、双方の言葉の概念が同一である場合に、適切に個人情報を加工することができる。すなわち、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になる。
また、第2の実施形態にかかる情報処理システム1001は、ドキュメントに応じて加工ルールを更新することができる。そのため、情報処理システム1001の管理者は、更新が必要な加工ルールを目視で探す必要がなくなるので、管理者の作業負担を軽減することができる。
<第3の実施形態>
次に、第3の実施形態にかかるルール生成装置を含む情報処理システムについて説明する。
法令等に基づく取り決めがまとめられたガイドライン等のドキュメントは、法令の改正等に伴って更新される場合がある。そこで、第3の実施形態では、加工ルールを更新するタイミングを、個人情報を加工する指示を受けた場合に代わり、ドキュメントが更新された場合とする例について説明する。
図15は、第3の実施形態にかかる情報処理システム1002の構成の一例を示すブロック図である。図15に示すように、情報処理システム1002は、第2の実施形態におけるルール生成装置101に代わり、ルール生成装置102を備え、それ以外については、第2の実施形態で説明した情報処理システム1001と同様である。すなわち、情報処理システム1002は、ルール生成装置102と、情報加工装置201と、記憶装置301とを備える。なお、第3の実施形態の説明では、図15に示す情報処理システムの構成及び動作が、第2の実施形態の説明と重複する内容については説明を省略する。
第3の実施形態において、ルール生成装置102は、検索部111と、抽出部121と、更新部131と、更新情報取得部140とを備える。
更新情報取得部140は、外部サーバ装置400からドキュメントの更新情報を取得し、図示しない記憶部に格納する。ドキュメントの更新情報は、例えば、ドキュメントが更新された時刻、または日付を含む更新時間である。更新情報取得部140は、更新情報を、所定の時刻において取得するよう設定されてもよいし、一定間隔で取得するよう設定されてもよい。この例に限らず、更新情報取得部140は、情報処理システム1002の管理者が指示したタイミングで更新情報を取得してもよい。また、取得された更新情報が格納される記憶部は、ルール生成装置102内にあってもよいし、記憶装置301内にあってもよい。このように、更新情報取得部140は、ドキュメントが更新された時間を示す更新情報を、所定のタイミングで取得する。更新情報取得部140は、更新手段の一例である。
更新情報取得部140は、所定のタイミングで更新情報を取得すると、取得した更新情報が示す時間と、当該取得した更新情報より前に取得された更新情報が示す時間とを比較する。これにより、更新情報取得部140は、所定のタイミングで取得した更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されていたかどうかを判別する。所定のタイミングで取得した更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されていなかった場合、ドキュメントが更新されていると判別する。
検索部111は、更新情報取得部140において、ドキュメントが更新されていると判別された場合、ドキュメントに対して検索を行う。
情報加工装置201は、個人情報を加工する指示を受けると、ルール生成装置102に指示を受けた旨を通知せず、情報加工処理を行う。
[情報処理システム1002の動作]
次に、第3の実施形態にかかる情報処理システム1002の動作を説明する。
図16は、ルール生成装置102の動作を説明するフローチャートである。更新情報取得部140は、所定のタイミングで外部サーバ装置400から更新情報を取得する(S501)。所定のタイミングで取得された更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されている場合(S502の「Yes」)、S501の処理を行う。所定のタイミングで取得された更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されていない場合(S502の「No」)、ルール更新処理を行う(S202)。
このように、第3の実施形態では、ルール生成装置102におけるルール更新処理の動作は、更新情報取得部140の処理結果に応じて開始される。
情報加工装置201は、個人情報を加工する指示を受けると(S201)、ルール生成装置102に通知をすることなく情報加工処理(S203)を行う。
以上のように第3の実施形態にかかる情報処理システム1002は、ドキュメントが更新された時間を示す更新情報を、所定のタイミングで取得し、当該所定のタイミングで取得された更新情報が示す時間と同じ時間を示す更新情報が、当該所定のタイミングより前に取得されている場合、ルール更新処理を開始する。これにより、更新されたドキュメントに基づく加工ルールを、迅速に生成することができる。
<変形例1>
情報加工処理が行われた後、加工部230は、加工対象の個人情報を記憶装置300及び301から削除してもよい。これにより、情報加工処理が施される前の個人情報が流出するリスクを軽減することができる。
<変形例2>
検索部110、111は、ドキュメントを検索する範囲を予め定めてもよい。例えば、個人情報の属性及びその加工手法に関する記載が、ドキュメントの特定の範囲に記載されることが予め決まっている場合、検索部110、111は、その特定の範囲に対して検索を行ってもよい。また、ドキュメントに、個人情報の属性及びその加工手法に関して記載された範囲を示す目次の情報が付加されている場合、検索部110、111は、目次の情報を用いて当該範囲を特定し、当該範囲に検索を行ってもよい。これにより、検索部110、111の検索にかかる時間を低減することができる。
<変形例3>
抽出部120、121は、検索部110、111による検索がヒットした箇所以降の所定の範囲において、特徴語が含まれる文章を抽出してもよい。
特徴語は、特定の属性の情報に対する加工手法を表す言葉である。そのため、属性を表す言葉が記載されている箇所、すなわち検索がヒットした箇所以前よりも、検索がヒットした箇所以降の方が、特徴語の出現可能性が高い。
したがって、変形例3における抽出部120、121は、検索部110、111による検索がヒットした箇所を含む所定の範囲全体に対して、特徴語が含まれているか否かを判別する必要がない。すなわち、変形例3における抽出部120、121は、特徴語が含まれているか否かを判別するために参照する範囲が狭いので、抽出部120、121の処理速度を高めることができる。
<ルール生成装置のハードウェアの構成例>
上述した第1、第2及び第3の実施形態にかかるルール生成装置を構成するハードウェアについて説明する。図17は、各実施形態におけるルール生成装置を実現するコンピュータ装置のハードウェア構成の一例を示すブロック図である。図17が示す各ブロックは、各実施形態におけるルール生成装置及びルール生成方法を実現するコンピュータ装置10と、ソフトウェアとの組み合わせにより実現できる。
図17に示すように、コンピュータ装置10は、プロセッサ11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、記憶装置14、入出力インタフェース15、バス16、及びドライブ装置17を備える。
記憶装置14は、プログラム(コンピュータプログラム)18を格納する。プロセッサ11は、RAM12を用いて本ルール生成装置にかかるプログラム18を実行する。具体的には、例えば、プログラム18は、図3、図10、図11及び図16に示す処理をコンピュータに実行させるプログラムを含む。プロセッサ11が、プログラム18を実行することに応じて、本ルール生成装置の各構成要素(上述した、検索部110、111、抽出部120、121、更新部130、131、及び更新情報取得部140等)の機能が実現される。プログラム18は、ROM13に記憶されていてもよい。また、プログラム18は、記録媒体20に記録され、ドライブ装置17を用いて読み出されてもよいし、図示しない外部装置から図示しないネットワークを介してコンピュータ装置10に送信されてもよい。
入出力インタフェース15は、周辺機器(キーボード、マウス、表示装置など)19とデータをやり取りする。入出力インタフェース15は、データを取得または出力する手段として機能する。バス16は、各構成要素を接続する。
なお、ルール生成装置の実現方法には様々な変形例がある。例えば、ルール生成装置は、専用の装置として実現することができる。また、ルール生成装置は、複数の装置の組み合わせに基づいて実現することができる。
各実施形態の機能における各構成要素を実現するためのプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体、及びそのプログラム自体も各実施形態に含まれる。
該記録媒体は、例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disc)-ROM、磁気テープ、不揮発性メモリカード、またはROMであるが、この例に限らない。また該記録媒体に記録されたプログラムは、単体で処理を実行しているプログラムに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するプログラムも各実施形態の範疇に含まれる。
以上、上述した実施形態を参照して本開示を説明した。しかしながら、本開示は、上述した実施形態には限定されない。即ち、本開示は、本開示のスコープ内において、種々の上記開示要素の多様な組み合わせ乃至選択等、当業者が理解し得る様々な態様を適用することができる。
10 コンピュータ装置
11 プロセッサ
12 RAM
13 ROM
14、300、301 記憶装置
15 入出力インタフェース
16 バス
17 ドライブ装置
18 プログラム
19 周辺機器
20 記録媒体
100、101、102 ルール生成装置
110、111 検索部
120、121 抽出部
130、131 更新部
200、201 情報加工装置
210 属性検出部
220 ルール特定部
230 加工部
310 加工前個人情報データベース
320 加工ルールデータベース
330 加工後個人情報データベース
340 セマンティック辞書
1000、1001、1002 情報処理システム

Claims (9)

  1. 個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う検索手段と、
    前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する抽出手段と、
    前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する更新手段と、を備える、
    ルール生成装置。
  2. 前記抽出手段は、前記検索がヒットした箇所を含む前記所定の範囲に、前記個人情報を加工する手法を表す言葉である特徴語がある場合、当該検索がヒットした箇所の言葉と当該特徴語とを含む文章を、前記所定の範囲から抽出する、
    請求項1に記載のルール生成装置。
  3. 前記ドキュメントが更新された時間を示す更新情報を、所定のタイミングで取得する更新情報取得手段をさらに備え、
    前記検索手段は、前記所定のタイミングで取得された更新情報が示す時間と同じ時間を示す前記更新情報が、当該タイミングより前に取得されていなかった場合、前記検索を行う、
    請求項1または2に記載のルール生成装置。
  4. 前記個人情報を取得し、当該取得した個人情報に含まれる前記要素の前記属性を検出する属性検出手段と、
    前記加工ルールに関連付けられている前記属性に基づいて、前記検出された属性に対応する前記加工ルールを特定するルール特定手段と、
    前記特定された加工ルールに従って、前記取得した個人情報を加工する加工手段と、を備える、
    情報加工装置と、
    請求項1乃至3のいずれか一項に記載のルール生成装置と、を備える、
    情報処理システム。
  5. 前記加工ルールには、当該加工ルールに関連付けられている前記属性を表す言葉と、当該属性と同様の概念を表す言葉と、をグループ化したまとまりであるセマンティック領域のデータ群が対応付けられ、
    前記ルール特定手段は、前記検出された属性を表す言葉を含む前記セマンティック領域のデータ群に対応する前記加工ルールを特定する、
    請求項4に記載の情報処理システム。
  6. 前記加工手段は、前記個人情報を加工した後に、加工する前の前記個人情報を削除する、
    請求項4または5に記載の情報処理システム。
  7. コンピュータが、
    個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、
    前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出し、
    前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する、
    ルール生成方法。
  8. コンピュータが、
    個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、
    前記検索がヒットした箇所を含む所定の文章を、前記ドキュメントから抽出し、
    前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新し、
    前記個人情報を取得し、当該取得した個人情報に含まれる前記属性を検出し、
    前記検出された属性に対応する、前記加工ルールを特定し、
    前記特定された加工ルールに従って、前記個人情報を加工する、
    情報処理方法。
  9. 個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う処理と、
    前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する処理と、
    前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する処理と、をコンピュータに実行させる
    プログラム。
JP2019230363A 2019-12-20 2019-12-20 ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム Active JP7392452B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019230363A JP7392452B2 (ja) 2019-12-20 2019-12-20 ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019230363A JP7392452B2 (ja) 2019-12-20 2019-12-20 ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021099592A JP2021099592A (ja) 2021-07-01
JP7392452B2 true JP7392452B2 (ja) 2023-12-06

Family

ID=76541210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019230363A Active JP7392452B2 (ja) 2019-12-20 2019-12-20 ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP7392452B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014241098A (ja) 2013-06-12 2014-12-25 株式会社日立ソリューションズ センサデータ管理システム
JP2017162114A (ja) 2016-03-08 2017-09-14 富士通株式会社 プログラム、情報処理方法および情報処理装置
JP2019046488A (ja) 2012-09-28 2019-03-22 パナソニックIpマネジメント株式会社 情報管理方法および情報管理システム
WO2019155887A1 (ja) 2018-02-07 2019-08-15 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2019144723A (ja) 2018-02-19 2019-08-29 日本電気株式会社 匿名加工装置、情報匿名化方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046488A (ja) 2012-09-28 2019-03-22 パナソニックIpマネジメント株式会社 情報管理方法および情報管理システム
JP2014241098A (ja) 2013-06-12 2014-12-25 株式会社日立ソリューションズ センサデータ管理システム
JP2017162114A (ja) 2016-03-08 2017-09-14 富士通株式会社 プログラム、情報処理方法および情報処理装置
WO2019155887A1 (ja) 2018-02-07 2019-08-15 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
JP2019144723A (ja) 2018-02-19 2019-08-29 日本電気株式会社 匿名加工装置、情報匿名化方法、およびプログラム

Also Published As

Publication number Publication date
JP2021099592A (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
US9892278B2 (en) Focused personal identifying information redaction
US20120192066A1 (en) Selecting portions of computer-accessible documents for post-selection processing
CN103631904B (zh) 反病毒分析期间选择同或异步文件访问方法的系统和方法
US20220286478A1 (en) Methods and systems for honeyfile creation, deployment, and management
JP7390071B2 (ja) 書類処理装置、書類処理方法、およびプログラム
KR101742041B1 (ko) 개인정보를 보호하는 장치, 개인정보를 보호하는 방법 및 개인정보를 보호하는 프로그램을 저장하는 저장매체
CN114641771A (zh) 基于虚拟机内容的集群安全性
JP7054555B2 (ja) 個人情報保護基盤のクエリ処理サービス提供システム
JP7392452B2 (ja) ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム
JP2008226133A (ja) 個人情報管理システム
CN114925373B (zh) 基于用户评语的移动应用隐私保护政策漏洞自动识别的方法
JP2006244177A (ja) データベース装置
US11868412B1 (en) Data enrichment systems and methods for abbreviated domain name classification
CN110059480A (zh) 网络攻击行为监控方法、装置、计算机设备及存储介质
CN107729518A (zh) 一种关系型数据库的全文检索方法及装置
KR102113680B1 (ko) 빅 데이터 비식별화 처리 시스템 및 방법
JP2017215845A (ja) 読解支援装置、読解支援プログラムおよび読解支援方法
JP3902188B2 (ja) データベースセキュリティシステム
CN110069903B (zh) 一种确定查阅文本数据的用户的方法及装置
US20240362350A1 (en) Method, device, and non-transitory computer readable medium for obfuscating data
JP2007179130A (ja) 分類管理装置及びそのプログラム
JP5334214B2 (ja) 組織内ソーシャルマップ作成システム及び組織内ソーシャルマップ作成方法
JP3734391B2 (ja) 個体名の抽出装置、抽出方法、並びに記録媒体
KR100898475B1 (ko) 디렉터리 태깅 서비스를 제공하는 방법 및 상기 방법을수행하는 시스템
JP5324500B2 (ja) ファイル共有装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211019

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231106

R151 Written notification of patent or utility model registration

Ref document number: 7392452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151