JP7322544B2

JP7322544B2 - データ処理装置、データ処理方法及びプログラム

Info

Publication number: JP7322544B2
Application number: JP2019116675A
Authority: JP
Inventors: 秀暢小栗
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2023-08-08
Anticipated expiration: 2039-06-24
Also published as: JP2021002292A

Description

本発明は、データ処理装置、データ処理方法及びプログラムに関する。

近年、企業や行政機関、医療施設などにおいて、パーソナルデータは業務の遂行に欠かせないものとなっている。多くのパーソナルデータには、機微情報や金融情報など、漏洩すると個人に対して大きな影響を与えるデータから、性別や年齢など、比較的どのような人に対しても提供するデータが混在している。そのような機微性が混在しているデータは扱いが難しく、企業の現場などでは使用しにくい。

そこで、多くの企業では、例えばクレジットカード等の金融情報はＰＣＩＤＳＳ（Payment Card Industry Data Security Standard）などの厳重に管理された区間の中に保存し、分析データや売上集計データなどは別個に抽出、加工した「派生データ（Derived data）」として利用されている。

この方式は、機微性の高い個人情報を安全に保管し、各個別のデータ利用を可能とする優れた方式であるが、多くの派生データが社内に散在してしまい、管理が困難である。

派生データの課題としては、（１）保管場所が一般事業領域であるため安全性が低い、（２）派生データの再結合により元データの復元が可能となる、という問題がある。この２点の問題はセキュリティだけでなく、企業の法令対応として大きな課題である。

２０１８年のＥＵＧＤＰＲ（General Data Protection Regulation）の施行に伴い、企業やサービスが保持するパーソナルデータには、削除の要件が明確化された。具体的にはパーソナルデータの削除権、または忘れられる権利（Right to erasure, or right to be forgotten）。又はデータの同意期限の終了による削除などが存在する。

これらの法令では、個人が自らに関するデータの削除を要求した場合、自らに関する個人データを削除させる権利、当該データのさらなる拡散を停止させる権利、及び、第三者に対し、当該データのあらゆるリンク、コピー又は複製を削除させる権利などが認められている。また、削除要求に応じないと法律違反となり、多額の制裁金が課される可能性がある。

本法令は、当該データのコピーや複製も対象であり、「あらゆる合理的措置」を採用してデータの削除が行われなければならない。しかし、「法によって取扱いが要求されている法的義務を遵守するのに必要な場合」は、データが保持されても良い。すなわち、決済報告書や事後安全性確保や追跡のためのデータ保持は可能とされている。

特開２０１６－４５５３５号公報国際公開第２０１６／０６７５６６号特開２０１１－１００１１６号公報

通常の企業では、１次的なデータであるマスタデータのみを削除し、派生データを削除しないことでリスクを残し、業務を継続するが、その場合ではデータの削除が不完全であると認識され、状況が外部に伝えられた場合には、当局から指導・制裁等が与えられる可能性がある。

一方、データを徹底的に削除した場合は、他の業務との関連性の問題が発生する。例えば、販売商品を機械学習にかけている場合、複数人に関する派生データを削除することで精度が低下する、または、業務ソフトウェアの不整合が発生する可能性がある。

したがって、データの削除を要求された側にとって、どの範囲まで保護の対象（すなわち、削除の対象）とすべきかを判断するのが困難な状況にある。

そこで、一側面では、本発明は、データに関する保護範囲の特定を支援することを目的とする。

一つの態様では、データ処理装置は、複数のデータベースのそれぞれを構成する属性項目のうちの２つの属性項目の組ごとに、当該２つの属性項目に関してデータベースに記憶されている値の集合に基づいて、当該２つの属性項目の関連性の強さを示す指標の値を計算する計算部と、前記各属性項目をノードとし、前記指標の値に基づいて関連が有ると判定される属性項目間が当該値を重みとするエッジによって接続されるグラフ構造を表現する情報を生成する生成部と、を有する。

一側面として、データに関する保護範囲の特定を支援することができる。

本発明の実施の形態の概要を説明するための図である。本発明の実施の形態におけるデータ処理装置１０のハードウェア構成例を示す図である。本発明の実施の形態におけるデータ処理装置１０の機能構成例を示す図である。データ処理装置１０が実行する処理手順の一例を説明するためのフローチャートである。接続可能性配列Ｌの構成例を示す図である。接続可能性配列Ｌが表現するグラフ構造の例を示す図である。グラフ構造が示す属性項目間の関係を説明するための図である。ノイズ量の範囲を調整するための実験を説明するための図である。ノイズ量の範囲を調整するための実験の結果を示す図である。グラフ構造の経路の探索処理の処理手順の一例を説明するためのフローチャートである。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態の概要を説明するための図である。図１に示されるように、本実施の形態では、企業Ｅの商品の購入者（以下、「顧客」という。）のうちの或る顧客からの個人情報の削除要求に対し、データ処理装置１０は、当該顧客に関する個人情報を含みうるデータベースＡ_１、データベースＡ_２、データベースＡ_３の中から、当該顧客に関するデータ（レコード）について削除と同等の加工処理を実行する。この際、データ処理装置１０は、加工処理の対象とされるデータについて業務上の有用性がなるべく損なわれないように加工を行う。なお、削除と同等の加工処理とは、各データベースの属性項目の結合等により、削除要求元の個人情報が復元できない状態にすることをいう。

本実施の形態において、データベースＡ_１は、顧客の購入履歴を記憶するデータベースである。したがって、データベースＡ_１のレコードは、顧客による１回の買い物ごとに増加する。データベースＡ_１の各レコードは、「ＩＤ」、「Ｎａｍｅ」、「Ｐｒｉｃｅ」及び「Ｉｔｅｍ」等の属性項目を有する。「ＩＤ」は、顧客の識別情報である。「Ｎａｍｅ」は、顧客の氏名である。「Ｐｒｉｃｅ」は、顧客が購入した商品の価格（合計値）である。「Ｉｔｅｍ」は、顧客が購入した商品の名前及び個数である。すなわち、「Ｉｔｅｍ」には、顧客が購入した商品の名前が列記される。なお、３番目のレコードの「Ｉｔｅｍ」の値である「Ｃｈｏｃｏ×６」は、６個の「Ｃｈｏｃｏ」が購入されたことを示す。

データベースＡ_２は、顧客ごとに購入金額の集計結果を記憶するデータベースであり、例えば、企業Ｅの経理部において管理される。したがって、データベースＡ_２のレコード数は、顧客数に一致する。データベースＡ_２の各レコードは、「ＰｕｓＩＤ」及び「Ｓｕｍ」等の属性項目を含む。「ＰｕｓＩＤ」は、「ＩＤ」が仮名（かめい）化されたＩＤである。「Ｓｕｍ」は、購入金額の集計結果である。

データベースＡ_３は、顧客ごとに購入した商品の個数の集計結果を記憶するデータベースであり、例えば、企業Ｅの企画部において管理される。したがって、データベースＡ_３のレコード数は、顧客数に一致する。データベースＡ_３の各レコードは、「ＰｕｓＩＤ」及び「ＩｔｅｍＮｕｍ」等の属性項目を含む。「ＰｕｓＩＤ」は、データベースＡ_２の「ＰｕｓＩＤ」に一致する。「ＩｔｅｍＮｕｍ」は、購入した商品の個数の集計結果である。

なお、図１において、データベースＡ_２及びＡ_３のデータ（レコード）は、データベースＡ_１のデータ（レコード）から派生したデータである。すなわち、データベースＡ_２及びＡ_３のデータ（レコード）は、データベースＡ_１のデータを集計又は分析することにより得られるデータである。斯かる相対的な関係において、データベースＡ_１のデータは、顧客の購入行為に応じて直接的に発生するマスタデータ（１次データ）に相当し、データベースＡ_２及びＡ_３のデータは、派生データ（２次データ）に相当する。なお、派生データからさらに派生するデータ（３次以降のデータ）が存在してもよい。

なお、顧客からの削除要求は散発的に発生することを想定する。一人の顧客からの削除要求のたびにデータ処理装置１０がデータの加工処理を実行するのは非効率なので、本実施の形態のデータ処理装置１０は、周期的なタイミング又は削除要求が所定数に達したタイミング（以下、「加工タイミング」という。）の到来に応じて、複数の削除要求に対する加工処理をまとめて実行するとする。但し、削除要求のたびに加工処理が実行されてもよい。

図２は、本発明の実施の形態におけるデータ処理装置１０のハードウェア構成例を示す図である。図２のデータ処理装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

データ処理装置１０での処理を実現するプログラムは、記録媒体１０１によって提供される。プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってデータ処理装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

なお、記録媒体１０１の一例としては、ＣＤ－ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

図３は、本発明の実施の形態におけるデータ処理装置１０の機能構成例を示す図である。図３において、データ処理装置１０は、設定情報入力部１１、接続可能性計算部１２、グラフ構造生成部１３、経路探索部１４及びデータ加工部１５等を有する。これら各部は、データ処理装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。

設定情報入力部１１は、予め設定されている情報（以下、「設定情報」という。）を入力する。例えば、設定情報は、補助記憶装置１０２等に記憶されていてもよい。

接続可能性計算部１２は、各データベースの属性項目のうちの相互に属するデータベースが異なる２つの属性項目の組ごとに、当該組に係る２つの属性項目について、一方から他方を復元できる可能性の強さ（すなわち、関連性の強さ）を示す指標の値（以下、「接続可能性」という。）を計算する。接続可能性は、２つの属性項目のそれぞれについてデータベースに記憶されている値に基づいて計算される。

グラフ構造生成部１３は、各属性項目間の接続可能性を示す２次元配列（以下、「接続可能性配列Ｌ」という。）を生成する。接続可能性配列Ｌは、行方向及び列方向のそれぞれに各属性項目が割り当てられた表形式の情報であり、各行及び各列の値（すなわち、接続可能性配列Ｌの要素の値）が当該行に係る属性項目と当該列に属性項目との接続可能性を示す。なお、接続可能性配列Ｌは、属性項目をノードとし、接続可能性を重みとするエッジを含むグラフ構造を表現する情報であるといえる。

経路探索部１４は、接続可能性配列Ｌが表現するグラフ構造について１以上の経路を探索する。

データ加工部１５は、経路探索部１４によって探索された各経路について、当該経路が含むエッジの接続可能性の総和（合計値）を計算し、当該合計値が相対的に大きい経路から順に、当該経路の中で接続可能性が大きいエッジに接続しているノードに対応する属性項目について、データベースに記憶されている値を加工（変更）する。

以下、データ処理装置１０が実行する処理手順について説明する。図４は、データ処理装置１０が実行する処理手順の一例を説明するためのフローチャートである。

加工タイミングが到来すると、設定情報入力部１１は、設定情報を入力する（Ｓ１０１）。設定情報とは、加工対象の派生データ群の属性項目の中で、個人の特定性が有り、かつ、加工できない（削除できない）属性項目（以下、「削除不可属性」という。）を示す情報である。削除不可属性は、例えば、予め運用者によって選択される。なお、削除不可属性は、複数選択されてもよい。以下、削除不可属性のリストを「削除不可属性リストＳ」という。例えば、本実施の形態では、削除不可属性リストＳ＝｛ａ_{（１，１）}｝であるとする。すなわち、１つの属性項目ａ_{（１，１）}が、削除不可属性として設定されていることとする。

続いて、接続可能性計算部１２は、相互に属するデータベースが異なる全ての２つの属性項目の組ごとに、当該組に係る２つの属性項目について接続可能性を計算する（Ｓ１０２）。

接続可能性としては、２つの属性項目のそれぞれに関してデータベースに記憶されている値の集合の一致率（部分一致率）、例えば、集合同士のＪａｃｃａｒｄ係数などが用いられる。したがって、或る属性項目ａ_{（ｎ，ｍ）}∈Ａ_ｎに含まれる値がｖ_{（ｎ，ｍ）}であり、異なる属性項目ａ’_{（ｎ’，ｍ’）}に含まれる値がｖ’_{（ｎ’，ｍ’）}とであるとすると、属性項目ａ_{（ｎ，ｍ）}と属性項目ａ’_{（ｎ’，ｍ’）}との接続可能性Ｒ（ａ_{（ｎ，ｍ）}，ａ’_{（ｎ’，ｍ’）}）は、以下の式で表される。

本実施の形態では、接続可能性Ｒ（ａ_{（ｎ，ｍ）}，ａ’_{（ｎ’，ｍ’）}）＞０である状態を２つの属性項目が接続可能な状況であると定義する。

なお、上記は、２つの属性項目の双方の値が数値である場合に有効である。２つの属性項目の双方の値がＩＤや名称等のカテゴリ（数値によってカテゴリが表現される場合も含む）である場合、或る属性項目ａ_{（ｎ，ｍ）}∈Ａ_ｎに含まれる値の集合がs_{（ｎ，ｍ）}であり、異なる属性項目ａ’_{（ｎ’，ｍ’）}に含まれる値の集合がs’_{（ｎ’，ｍ’）}とであるとすると、属性項目ａ_{（ｎ，ｍ）}と属性項目ａ’_{（ｎ’，ｍ’）}との接続可能性Ｒ（ａ_{（ｎ，ｍ）}，ａ’_{（ｎ’，ｍ’）}）は、以下の式で表される。

但し、数値の属性項目同士及びカテゴリの属性項目同士のいずれの場合においても、ａ_{（ｎ，ｍ）}とａ’_{（ｎ’，ｍ’）}が、同じ元Ｇ＝｛Ａ_１，Ａ_２，Ａ_３｝に含まれる場合（すなわち、同じデータの属性項目である場合）、Ｒ（ａ_{（ｎ，ｍ）}，ａ’_{（ｎ’，ｍ’）}）＝ｎｕｌｌとする。したがって、実質の計算回数の最大長は｜Ｇ｜である。

また、Ａ_１とＡ_２、又はＡ_１とＡ_３との間で関連が有りそうな２つの属性項目であって、一方がカテゴリであり他方が数値である場合には、Ａ_１について変換データを作成した上で、当該２つの属性項目について式（１）に基づいて接続可能性が計算されてもよい。本実施の形態は、Ａ_１の「Ｉｔｅｍ」をＩＤごとの「Ｉｔｅｍ」の個数に変換し、変換後の値の集合と、Ａ_３の「ＩｔｅｍＮｕｍ」とについて、式（１）が用いられて「Ｉｔｅｍ」と「ＩｔｅｍＮｕｍ」との接続可能性が計算されてもよい。

続いて、グラフ構造生成部１３は、接続可能性計算部１２による計算結果に基づき接続可能性配列Ｌを生成する（Ｓ１０３）。

図５は、接続可能性配列Ｌの構成例を示す図である。図５に示されるように、接続可能性配列Ｌは、各行及び各列に、本実施の形態における複数の全てのデータベースの全ての属性項目が割り当てられている。或る行及び或る列に対する要素の値は、当該行の属性項目と当該列の属性項目との間の接続可能性を示す数値である。但し、双方が同じ要素に対しては「－」が設定される。なお、上記したように同じデータ（同じデータベース）を構成する属性項目間の接続可能性は「ｎｕｌｌ」とされる。したがって、接続可能性配列Ｌにおいて、同じデータ（同じデータベース）を構成する属性項目間の要素に対しては「ｎｕｌｌ」が設定される。当該要素に対して接続可能性がｎｕｌｌとされることにより、接続可能性配列Ｌは、単に、属性項目間の接続可能性を表現するだけでなく、同じデータ（同じデータベース）に含まれる属性項目の集合を区別可能な情報となる。換言すれば、「ｎｕｌｌ」は、同じデータ（同じデータベース）に属する属性項目の集合を区別するための符号である。

なお、接続可能性配列Ｌは、各属性項目をノードとし、接続可能性が０より大きい又はｎｕｌｌであるノード間がエッジで接続されたグラフ構造を表現する。

図６は、接続可能性配列Ｌが表現するグラフ構造の例を示す図である。図６に示されるように、各エッジは、当該エッジによって接続される属性項目間の接続可能性を重みとして有する。なお、図６において、接続可能性がｎｕｌｌであるエッジ（すなわち、同じ元に含まれる属性項目間のエッジ）は破線によって示されている。

図６において、「Ｐｒｉｃｅ」と「Ｓｕｍ」との関係、及び「Ｉｔｅｍ」と「ＩｔｅｍＮｕｍ」との関係は、図７に示されるように、「Ｓｕｍ」が「Ｐｒｉｃｅ」から派生した属性項目（「Ｓｕｍ」は、「Ｐｒｉｃｅ」のＩＤごとの集計結果）であり、「ＩｔｅｍＮｕｍ」が「Ｉｔｅｍ」から派生した属性項目（「ＩｔｅｍＮｕｍ」は、「Ｉｔｅｍ」の個数のＩＤごとの集計結果）であることを示す。

なお、グラフ構造生成部１３は、接続可能性配列Ｌをユーザが参照可能なように出力（表示装置への表示、又は補助記憶装置１０２への保存等）してもよい。又は、グラフ構造生成部１３は、接続可能性配列Ｌに基づいて図６に示されるグラフを示す図形を生成し、当該図形を出力してもよい。いずれの場合であっても、ユーザは、削除と同様の加工を行うべき範囲を把握することができる。すなわち、データに関する保護範囲の特定を支援することができる。具体的には、図６の例では、「Ｉｔｅｍ」と「Ｓｕｍ」、「Ｐｒｉｃｅ」と「ＩｔｅｍＮｕｍ」、及びデータベースＡ２の「ＰｓｕＩＤ」とデータベースＡ３の「ＰｓｕＩＤ」との接続可能性が高いことが分かる。すなわち、これら各２つの属性項目の少なくともいずれか一方の値を加工しないと、元のデータが復元される可能性が高いことが分かる。そこで、ユーザは、例えば、データベースＡ１の「Ｉｔｅｍ」及び「Ｐｒｉｃｅ」と、データベースＡ２の「ＰｕｓＩＤ」とについて、個人情報の削除要求元の各顧客に対する値を加工すべきことを判断してもよい。

続いて、経路探索部１４は、接続可能性配列Ｌが表現するグラフ構造について、削除不可リストＳに含まれる各削除不可属性を始点とした場合の経路の探索処理を実行する（Ｓ１０４）。

ステップＳ１０４では、探索された経路ごとに、当該経路が通るノードの履歴（以下、「ノード履歴ｈ」という。）と、当該経路が通る各エッジの重み（接続可能性）の履歴（以下、「探索済みエッジｐ」という。）とが得られる。以下、経路ごとのノード履歴ｈの集合を「ノード履歴集合Ｈ」といい、経路ごとの探索済みエッジｐの集合を「探索済みエッジ集合Ｐ」という。本実施の形態では、例えば、以下のようなノード履歴集合Ｈ及び探索済みエッジ集合Ｐが得られる。
ノード履歴集合Ｈ＝（ｈ_１，．．．，ｈ_ｌ）＝［｛ａ（１，１），ａ（１，２），ａ（１，３），ａ（２，２），ａ（２，１），ａ（３，１），ａ（３，２），ａ（１，４）｝，．．．］
探索済みエッジ集合Ｐ＝（ｐ１，．．．，ｐｌ）＝［｛ｎｕｌｌ，ｎｕｌｌ，１．０，ｎｕｌｌ，１．０，ｎｕｌｌ，１．０｝，．．．］
なお、ノード履歴集合Ｈ内の１つの｛｝が、１つのノード履歴ｈに対応する。同様に、探索済みエッジ集合Ｐ内の１つの｛｝が、１つの探索済みエッジｐに対応する。

続いて、データ加工部１５は、探索済みエッジ集合Ｐに含まれる、未処理の探索済みエッジｐの中で、要素の合計値が最大である探索済みエッジｐを特定する（Ｓ１０５）。以下、特定された探索済みエッジｐを「探索済みエッジｐＭａｘ」という。なお、未処理の探索済みエッジｐとは、ステップＳ１０６以降について未処理の探索済みエッジｐをいう。したがって、要素の合計値が大きい探索済みエッジｐから順に、ステップＳ１０６以降が実行される。これは、データ接続可能性の合計値が大きい経路の方がプライバシー侵害が大きく発生すると考え、データ接続可能性の合計値が大きい経路について、プライバシー保護処理の優先度を高めるためである。

続いて、データ加工部１５は、探索済みエッジｐＭａｘに含まれる未処理の要素（エッジ）の中で、値（接続可能性）が最大である要素（エッジ）を特定する（Ｓ１０６）。同じ最大値が複数有る場合には、いずれかの最大値がランダムに選択されればよい。以下、特定された要素に係るエッジを「対象エッジ」という。

続いて、データ加工部１５は、対象エッジに対応する属性項目を特定する（Ｓ１０７）。対象エッジに対応する属性項目とは、対象エッジによって接続される２つの属性項目のうち、探索済みエッジｐＭａｘに係る経路において始点に近い方の属性項目をいう。当該属性項目は、ノード履歴集合Ｈにおいて、「対象エッジの順番－１」番目のノードを探索することで特定可能である。以下、特定された属性項目を「対象属性項目」という。

続いて、データ加工部１５は、対象属性項目に関して、データベースに記憶されている値であって、個人情報の削除要求元の各顧客に対する値について、対象エッジの接続可能性に応じた加工処理（プライバシー保護処理）を実行する（Ｓ１０８）。例えば、削除要求元の顧客が１０人であれば、当該１０人分のデータについて加工が行われる。対象エッジの接続可能性に応じた加工処理とは、当該接続可能性に応じて加工レベル又は保護レベル（値の変化の度合い（変化量））を変更した加工処理をいう。

ここで加工処理とは、データを削除した処理と同様に、元データに復元できないレベルまでデータの値を変化させることで、データの削除と同様の効果を得ることができる処理をいう。斯かる加工処理の主な一例として、削除、仮名化、匿名化、ノイズ付与がある。したがって、ステップＳ１０８では、削除、仮名化、匿名化及びノイズ付与のいずれかによって、対象属性項目の値が加工（変更）されてもよい。

削除は、値そのものを削除してしまう処理をいう。

仮名化とは、復元不能なＳＨＡ１やＭＤ５ハッシュ関数等を用いて元データを書き換える手法である。例えば、仮名化によれば、“山田太郎”→“ＤＥＦＡＢ５３ＥＦ９１８Ｂ８４ＦＦ”等に変換される。この場合、“ＤＥＦＡＢ５３ＥＦ９１８Ｂ８４ＦＦ”から“山田太郎”に復元できないため、データ（“山田太郎”）を削除したことと同様の効果を得ることができる。

匿名化とは、例えばｋ－匿名化など、個人を一意に絞り込めなくなるまで属性項目の値を加工する手法である。元データに特徴的な値がある場合、元データを残したままだと個人が再識別できる可能性がある。そのため、一般化処理などを行って個人を識別不能な状態とする。例えば（山田太郎，男，３０才），（山田次郎，男，２０才）とういうデータを、（－，男，２５才），（－，男，２５才）に変換することで、変換後のデータは、個人を特定できないデータとなる。また、数値の属性項目については、平均値に加工されることで、全体のデータの整合性を確保（全体のデータの平均値の変化を回避）することができる。なお、ｋ－匿名化を採用する場合には、ｋの大きさが、対象エッジの接続可能性に応じて定められればよい。例えば、当該接続可能性が大きいほど、ｋの値が大きくされてもよい。

ノイズ付与について説明する。上記のような匿名化は単純な属性項目については利用できるが、トランザクションデータのような複雑な属性項目を持つデータについては不向きであることが知られている。例えば、Ｓｕｉｃａ（登録商標）の履歴データを用いた調査によると２駅程度の利用状況が判明することで個人が再識別されることが知られている。そのような場合にはノイズ付与が好適である。

属性項目の値に対するノイズ付与の方式としては、Ｐｋ－匿名化や差分プライバシー（局所差分プライバシー）などの手法が知られている。特に、ε－差分プライバシーは、計算式におけるεの値を小さくすることによって、ノイズ量（値の変化の度合い又は変化量）が大きくなるという性質を有する。また、局所差分プライバシーという技術によって、散発的に削除権の実行依頼者が現れた場合においても、長期間においては有用性を保つ手法が提案されている。

そこで、本実施の形態では、加工処理としてノイズ付与を採用する場合、属性項目同士の接続可能性を用いてノイズ量を調整する（例えば、ε－差分プライバシーにおけるεを調整する。）。本実施の形態における接続可能性は、或る属性項目同士のそれぞれの値群が、どれだけ部分一致しているのかを示す指標である。そのため、同じ値が含まれている量が多い属性項目同士の方が、接続できるリスクが大きくなる。

本実施の形態では、以下の式によってεの値（すなわち、ひいてはノイズ量）を調整する。
ε＝ｎ（１－ｒ_ｘ）
但し、ｒ_ｘ＝１の場合、ε＝ｚ
但し、ｒ_ｘは、対象エッジの接続可能性である。また、ｎは、ノイズ量の範囲を調整する調整係数である。更に、ｚは、最もノイズ付与量が大きくなる値である。すなわち、接続可能性ｒ_ｘが１の場合には、εが０となってしまう。そこで、上記では、接続可能性ｒ_ｘが１の場合には、最もノイズ付与量が多くなる値がεに設定されることを示す。

ここで、ノイズの範囲について、本願発明者が行った実験について説明する。図８は、ノイズ量の範囲を調整するための実験を説明するための図である。実験では、ある属性項目（「Ｓｕｍ」）について２人分のデータｘ，ｙを取り出し、その関係性がｘ＞ｙであった場合に、ノイズを付与した後の関係性がｘ＜ｙになれば、元データに復元できないと考える。この関係性が変化する割合を示したのがＰｒ［ｘ’≦ｙ’］、１００００回の施行を行った際に、１万回の中でＰｒ［ｘ≦ｙ］が一回でも発生した率が、Ｐｒ［∀（ｘ’≦ｙ’）］である。

図９は、ノイズ量の範囲を調整するための実験の結果を示す図である。図９には、ｘ，ｙに対して差分プライバシーノイズを付与した際に、有意なレベルのノイズが付与されたレベルを検証した例である。

図９によると、ε＝１では有意なノイズは付与されず、ε＝１０＾－２～１０＾－５程度のノイズを付与することで、元データに復元できないレベルのノイズが付与されていることが分かる。すなわち、実験においては、１０＾－５以下にεを設定した場合、ある値の区別がつく可能性が完全にランダムになることが分かる。そこで、接続可能性＝１の場合はε＝１０＾－５（すなわち、ｚ＝１０＾－５）と設定されてもよい。

続いて、データ加工部１５は、探索済みエッジｐＭａｘについて、未処理の要素の有無を判定する（Ｓ１０９）。未処理の要素が有る場合（Ｓ１０９でＹｅｓ）、ステップＳ１０６以降が繰り返される。すなわち、加工は、対象エッジによって接続される２つのノードに対応する２つの属性項目の双方ではなく、始点に近い一方に対してのみ行われる。一方のみに対して行われれば、当該２つの属性項目の接続可能性を復元不能な程度に低下させつつ、他方の属性項目の値の有用性が損なわれるのを回避できると考えられるからである。具体的には、図６の例では、ａ_{（１，３）}の「Ｉｔｅｍ」とａ_{（２，２）}の「Ｓｕｍ」との接続可能性が１．０であるが、ａ_{（１，１）}の「ＩＤ」を始点とした場合、「Ｉｔｅｍ」の値のみが加工対象とされる。同様に、ａ_{（１，４）}の「Ｐｒｉｃｅ」とａ_{（３，２）}の「ＩｔｅｍＮｕｍ」とについては、「Ｐｒｉｃｅ」の値のみが加工対象とされる。同様に、ａ_{（２，１）}の「ＰｓｕＩＤ」とａ_{（３，１）}の「ＰｓｕＩＤ」とについては、ａ_{（２，１）}の値のみが加工対象とされる。

なお、本実施の形態では、当該２つの属性項目のうち、始点から近い方が加工対象とされる例を説明したが、始点から遠い方が加工対象とされてもよい。また、当該２つの属性項目の双方が加工対象とされてもよい。

一方、未処理の要素が無い場合（Ｓ１０９でＮｏ）、データ加工部１５は、探索済みエッジ集合Ｐの中に、ステップＳ１０６以降について未処理の探索済みエッジｐが有るか否かを判定する（Ｓ１１０）。未処理の探索済みエッジｐが有る場合（Ｓ１１０でＹｅｓ）、ステップＳ１０５以降が繰り返される。未処理の探索済みエッジｐが無い場合（Ｓ１１０でＮｏ）、図４の処理手順が終了する。

続いて、ステップＳ１０４の詳細について説明する。図１０は、グラフ構造の経路の探索処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ２０１において、経路探索部１４は、変数ｉに１を代入する。変数ｉは、探索中の経路の順番を示す変数である。ここで、経路ごとにノード履歴ｈ及び探索済みエッジｐが生成（探索）されるため、変数ｉは、生成対象のノード履歴ｈ（以下、「ノード履歴ｈ_ｉ」という。）の順番及び生成対象の探索済みエッジｐ（以下、「探索済みエッジｐ_ｉ」という。）の順番を示す変数であるともいえる。

続いて、経路探索部１４は、削除不可属性リストＳからランダムに一つの要素（属性項目）を取得する。ランダムであるため、過去に取得された要素と同じ要素が取得されてもよい。取得された要素は、ａに代入される。

続いて、経路探索部１４は、ａをノード履歴ｈ_ｉの最後尾に追加する（Ｓ２０２）。なお、ノード履歴ｈ_ｉに関して初めてステップＳ２０２が実行される場合（すなわち、ａが始点の場合）、ａが追加される前のノード履歴ｈ_ｉは空である。

続いて、経路探索部１４は、接続可能性配列Ｌを参照して、ａの横探索リスト及び縦探索リストを取得する（Ｓ２０４）。ａの横探索リストとは、接続可能性配列Ｌ（図５）におけるａの行において、値が空以外の要素を図５における左から右へ探索することで得られるリストをいう。ａの横探索リストとは、接続可能性配列Ｌ（図５）におけるａの列において、値が空以外の要素を図５における下から上に探索することで得られるリストをいう。

例えば、ａが、始点としての属性項目ａ_{（１，１）}であれば、横探索リスト及び縦探索リストは、以下の通りである。
横探索リスト＝（－，ｎｕｌｌ，ｎｕｌｌ，ｎｕｌｌ，０，０，０，０）
縦探索リスト＝（－）
また、ａが、属性項目ａ_{（１，４）}であれば、横探索リスト及び縦探索リストは、以下の通りである。
横探索リスト＝（－，０，０，０，０）
縦探索リスト＝（－，ｎｕｌｌ，ｎｕｌｌ，ｎｕｌｌ）
続いて、経路探索部１４は、取得された横探索リスト及び縦探索リストの組の中から、ノード履歴ｈ_ｉに存在しない属性項目であって、有効な値（ｎｕｌｌ又は０より大きい値）に対応する属性項目をランダムに選択する（Ｓ２０５）。ここで、横探索リストの中から該当する属性項目が選択される場合、当該属性項目は、ランダムに選択された有効な値が属する列に対応する属性項目である。一方、縦探索リストの中から該当する属性項目が選択される場合、当該属性項目は、ランダムに選択された有効な値が属する行に対応する属性項目である。

該当する値が選択された場合（該当する値が存在した場合）（Ｓ２０６でＹｅｓ）、経路探索部１４は、当該値を探索済みエッジｐ_ｉの末尾に追加する（Ｓ２０７）。なお、探索済みエッジｐ_ｉについて初めてステップＳ２０７が実行される場合、当該値が追加される前の探索済みエッジｐ_ｉは、空である。

続いて、経路探索部１４は、当該値に対応する属性項目をａに代入する（Ｓ２０８）。すなわち、当該属性項目によってａが書き換えられる。なお、当該値に対応する属性項目とは、当該値が横探索リストから選択された場合には、当該値の列に対応する属性項目をいい、当該値が縦探索リストから選択された場合には、当該値の行に対応する属性項目をいう。続いて、新たなａについてステップＳ２０３以降が実行される。

一方、該当する値が選択されなかった場合（該当する値が存在しない場合）（Ｓ２０６でＮｏ）、経路探索部１４は、ｉが所定回数に達したか否かを判定する（Ｓ２０９）。所定回数とは、予め設定された経路の探索回数をいう。ｉが所定回数未満である場合（Ｓ２０９でＮｏ）、経路探索部１４は、ｉに１を加算して（Ｓ２１０）、ステップＳ２０２以降を繰り返す。ｉが所定回数に達した場合（Ｓ２０９でＹｅｓ）、経路探索部１４は、図１０の処理手順を終了する。

なお、図１０の処理手順は、他の公知の経路探索アルゴリズムによって代替されてもよい。

上述したように、本実施の形態によれば、属性項目間の接続可能性を示す接続可能性配列Ｌによって、加工すべき範囲を明確化することができる。したがって、データに関する保護範囲の特定を支援することができる。

また、差分プライバシーによって加工が行われる場合、接続可能性に応じてノイズ量が変えられるため、データの有用性が維持される可能性を高めることができる。

また、本実施の形態によれば、グラフ構造の経路探索によって個人特定性の高い経路が抽出され、個人特定性の高い経路が優先的に処理されるため、作業効率を高めることができる。

なお、本実施の形態では、２つの属性項目の組について片方向の（１つの）接続可能性が計算される例について説明したが、両方向の接続可能性が計算されるようにしてもよい。すなわち、２つの属性項目について一方の属性項目から他方の属性項目への接続可能性と、他方の属性項目から一方の属性項目への接続可能性が異なる場合が考慮されてもよい。

なお、本実施の形態において、接続可能性計算部１２は、計算部の一例である。グラフ構造生成部１３は、生成部の一例である。経路探索部１４は探索部の一例である。データ加工部１５は、変更部の一例である。

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

以上の説明に関し、更に以下の項を開示する。
（付記１）
複数のデータベースのそれぞれを構成する属性項目のうちの２つの属性項目の組ごとに、当該２つの属性項目に関してデータベースに記憶されている値の集合に基づいて、当該２つの属性項目の関連性の強さを示す指標の値を計算する計算部と、
前記各属性項目をノードとし、前記指標の値に基づいて関連が有ると判定される属性項目間が当該値を重みとするエッジによって接続されるグラフ構造を表現する情報を生成する生成部と、
を有することを特徴とするデータ処理装置。
（付記２）
前記生成部は、同じデータベースを構成する２つの属性項目に対しては、当該２つの属性項目が同じデータベースに属することを示すエッジによって接続される前記グラフ構造を表現する情報を生成する、
ことを特徴とする付記１記載のデータ処理装置。
（付記３）
前記グラフ構造において特定の属性項目に係るノードを始点とする１以上の経路を探索する探索部と、
前記経路に含まれるエッジの重みの総和が大きい経路から順に、当該経路に含まれるノードに対応する属性項目に関して記憶されている値を変更する変更部と、
を有することを特徴とする付記１又は２記載のデータ処理装置。
（付記４）
前記変更部は、前記エッジの重みの大きさに応じて、当該エッジに接続されるノードに係る属性項目に関してデータベースに記憶されている値の変化の度合いを変える、
ことを特徴とする付記３記載のデータ処理装置。
（付記５）
前記変更部は、差分プライバシーによって前記値を変更し、前記エッジの重みの大きさに応じて差分プライバシーによるノイズ量を変える、
ことを特徴とする付記４記載のデータ処理装置。
（付記６）
複数のデータベースのそれぞれを構成する属性項目のうちの２つの属性項目の組ごとに、当該２つの属性項目に関してデータベースに記憶されている値の集合に基づいて、当該２つの属性項目の関連性の強さを示す指標の値を計算し、
前記各属性項目をノードとし、前記指標の値に基づいて関連が有ると判定される属性項目間が当該値を重みとするエッジによって接続されるグラフ構造を表現する情報を生成する、
処理をコンピュータが実行することを特徴とするデータ処理方法。
（付記７）
前記生成する処理は、同じデータベースを構成する２つの属性項目に対しては、当該２つの属性項目が同じデータベースに属することを示すエッジによって接続される前記グラフ構造を表現する情報を生成する、
ことを特徴とする付記６記載のデータ処理方法。
（付記８）
前記グラフ構造において特定の属性項目に係るノードを始点とする１以上の経路を探索し、
前記経路に含まれるエッジの重みの総和が大きい経路から順に、当該経路に含まれるノードに対応する属性項目に関して記憶されている値を変更する、
を処理を前記コンピュータが実行することを特徴とする付記６又は７記載のデータ処理方法。
（付記９）
前記変更する処理は、前記エッジの重みの大きさに応じて、当該エッジに接続されるノードに係る属性項目に関してデータベースに記憶されている値の変化の度合いを変える、
ことを特徴とする付記８記載のデータ処理方法。
（付記１０）
前記変更する処理は、差分プライバシーによって前記値を変更し、前記エッジの重みの大きさに応じて差分プライバシーによるノイズ量を変える、
ことを特徴とする付記９記載のデータ処理方法。
（付記１１）
複数のデータベースのそれぞれを構成する属性項目のうちの２つの属性項目の組ごとに、当該２つの属性項目に関してデータベースに記憶されている値の集合に基づいて、当該２つの属性項目の関連性の強さを示す指標の値を計算し、
前記各属性項目をノードとし、前記指標の値に基づいて関連が有ると判定される属性項目間が当該値を重みとするエッジによって接続されるグラフ構造を表現する情報を生成する、
処理をコンピュータに実行させることを特徴とするプログラム。
（付記１２）
前記生成する処理は、同じデータベースを構成する２つの属性項目に対しては、当該２つの属性項目が同じデータベースに属することを示すエッジによって接続される前記グラフ構造を表現する情報を生成する、
ことを特徴とする付記１１記載のプログラム。
（付記１３）
前記グラフ構造において特定の属性項目に係るノードを始点とする１以上の経路を探索し、
前記経路に含まれるエッジの重みの総和が大きい経路から順に、当該経路に含まれるノードに対応する属性項目に関して記憶されている値を変更する、
を処理を前記コンピュータに実行させることを特徴とする付記１１又は１２記載のプログラム。
（付記１４）
前記変更する処理は、前記エッジの重みの大きさに応じて、当該エッジに接続されるノードに係る属性項目に関してデータベースに記憶されている値の変化の度合いを変える、
ことを特徴とする付記１３記載のプログラム。
（付記１５）
前記変更する処理は、差分プライバシーによって前記値を変更し、前記エッジの重みの大きさに応じて差分プライバシーによるノイズ量を変える、
ことを特徴とする付記１４記載のプログラム。

１０データ処理装置
１１設定情報入力部
１２接続可能性計算部
１３グラフ構造生成部
１４経路探索部
１５データ加工部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
Ｂバス

Claims

複数のデータベースのそれぞれを構成する属性項目のうちの２つの属性項目の組ごとに、当該２つの属性項目に関してデータベースに記憶されている値の集合に基づいて、当該２つの属性項目の関連性の強さを示す指標の値を計算する計算部と、
前記各属性項目をノードとし、前記指標の値に基づいて関連が有ると判定される属性項目間が当該値を重みとするエッジによって接続されるグラフ構造を表現する情報を生成する生成部と、
前記グラフ構造において特定の属性項目に係るノードを始点とする１以上の経路を探索する探索部と、
前記経路に含まれるノードに対応する属性項目に関して記憶されている値を変更する変更部と、
を有することを特徴とするデータ処理装置。
前記生成部は、同じデータベースを構成する２つの属性項目に対しては、当該２つの属性項目が同じデータベースに属することを示すエッジによって接続される前記グラフ構造を表現する情報を生成する、
ことを特徴とする請求項１記載のデータ処理装置。
前記変更部は、前記経路に含まれるエッジの重みの総和が大きい経路から順に、当該経路に含まれるノードに対応する属性項目に関して記憶されている値を変更する、
ことを特徴とする請求項１又は２記載のデータ処理装置。
前記変更部は、前記エッジの重みの大きさに応じて、当該エッジに接続されるノードに係る属性項目に関してデータベースに記憶されている値の変化の度合いを変える、
ことを特徴とする請求項３記載のデータ処理装置。
前記変更部は、差分プライバシーによって前記値を変更し、前記エッジの重みの大きさに応じて差分プライバシーによるノイズ量を変える、
ことを特徴とする請求項４記載のデータ処理装置。
複数のデータベースのそれぞれを構成する属性項目のうちの２つの属性項目の組ごとに、当該２つの属性項目に関してデータベースに記憶されている値の集合に基づいて、当該２つの属性項目の関連性の強さを示す指標の値を計算し、
前記各属性項目をノードとし、前記指標の値に基づいて関連が有ると判定される属性項目間が当該値を重みとするエッジによって接続されるグラフ構造を表現する情報を生成し、
前記グラフ構造において特定の属性項目に係るノードを始点とする１以上の経路を探索し、
前記経路に含まれるノードに対応する属性項目に関して記憶されている値を変更する、
処理をコンピュータが実行することを特徴とするデータ処理方法。
複数のデータベースのそれぞれを構成する属性項目のうちの２つの属性項目の組ごとに、当該２つの属性項目に関してデータベースに記憶されている値の集合に基づいて、当該２つの属性項目の関連性の強さを示す指標の値を計算し、
前記各属性項目をノードとし、前記指標の値に基づいて関連が有ると判定される属性項目間が当該値を重みとするエッジによって接続されるグラフ構造を表現する情報を生成し、
前記グラフ構造において特定の属性項目に係るノードを始点とする１以上の経路を探索し、
前記経路に含まれるノードに対応する属性項目に関して記憶されている値を変更する、
処理をコンピュータに実行させることを特徴とするプログラム。