JP2014170369A - Information processor, information processing system, and information anonymization method - Google Patents
Information processor, information processing system, and information anonymization method Download PDFInfo
- Publication number
- JP2014170369A JP2014170369A JP2013041743A JP2013041743A JP2014170369A JP 2014170369 A JP2014170369 A JP 2014170369A JP 2013041743 A JP2013041743 A JP 2013041743A JP 2013041743 A JP2013041743 A JP 2013041743A JP 2014170369 A JP2014170369 A JP 2014170369A
- Authority
- JP
- Japan
- Prior art keywords
- data
- policy
- information processing
- processing apparatus
- anonymization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理に関し、特に、匿名化に関する。 The present invention relates to information processing, and more particularly to anonymization.
近年、多くの個人データが、電子データ化されている。 In recent years, much personal data has been converted to electronic data.
データの電子データ化に伴い、個人データの2次利用が、拡大している。 Secondary use of personal data is expanding with the conversion of data into electronic data.
しかし、個人データは、個人に関連した公開したくないデータ(センシティブデータ)を含むため、公開に際して、プライバシー保護が必要である。 However, since personal data includes data (sensitive data) that is not related to an individual and that is not desired to be disclosed, privacy protection is required for disclosure.
匿名化技術は、プライバシーを保護する技術の1つである。 Anonymization technology is one of technologies for protecting privacy.
本発明に関連する匿名化技術は、例えば、個人データから、個人を一意に識別する識別子を削除して、データを公開する。 The anonymization technology related to the present invention, for example, deletes an identifier that uniquely identifies an individual from personal data and publishes the data.
しかし、個人データは、他のデータとの組み合わせると、個人を特定できるデータを含む場合もある。 However, personal data may include data that can identify an individual when combined with other data.
「準識別子」とは、このように、他のデータと組み合わせると個人を特定できるデータである。 The “quasi-identifier” is data that can identify an individual when combined with other data.
そのため、本発明に関連する匿名化技術は、個人データを保護するための所定の方針を満たすように、準識別子を匿名化する。匿名化の方針は、幾つか提案されている。 Therefore, the anonymization technique related to the present invention anonymizes the quasi-identifier so as to satisfy a predetermined policy for protecting personal data. Several anonymization policies have been proposed.
例えば、「k−匿名性」及び「l−多様性」は、広く用いられている。 For example, “k-anonymity” and “l-diversity” are widely used.
「k−匿名性」は、データの各グループにおいて、同じ準識別子又は準識別子の組を含むデータが、「k」個以上含まれる匿名化を保証する方針である。 “K-anonymity” is a policy that guarantees anonymization in which “k” or more data including the same quasi-identifier or quasi-identifier pair is included in each group of data.
「l−多様性」は、データの各グループにおいて、センシティブデータの種類が、「l」個以上含まれる匿名化を保証する方針である。 The “l-diversity” is a policy that guarantees anonymization including “l” or more types of sensitive data in each group of data.
なお、「k−匿名化」は、「k−匿名性」を満足たすような匿名化である。また、「l−多様化」は、「l−匿名性」を満足するような匿名化である。 Note that “k-anonymization” is anonymization that satisfies “k-anonymity”. Further, “l-diversification” is anonymization that satisfies “l-anonymity”.
その他、例えば、「t−近接性」、「m−不変性」といった方針も、提案されている。 Other policies such as “t-proximity” and “m-invariance” have also been proposed.
「t−近接性」は、グループ間のセンシティブ情報の分布のおける距離と、全属性の分布における距離とが、「t」以下であることを保証する方針である。 The “t-proximity” is a policy that guarantees that the distance in the distribution of sensitive information between groups and the distance in the distribution of all attributes are “t” or less.
「m−不変性」は、データの逐次開示において、準識別情報の組合せが同じレコードが「m」個以上あり、全てのレコードで違うセンシティブデータを持つことを保証する方針である。 “M-invariance” is a policy for guaranteeing that there are “m” or more records having the same combination of quasi-identification information in the sequential disclosure of data, and that all records have different sensitive data.
また、匿名化の手法は、多く提案されている(例えば、非特許文献1を参照)。 Many anonymization techniques have been proposed (see, for example, Non-Patent Document 1).
非特許文献1に記載の「Mondrian Multidimensional」は、準識別子を1つのグループにまとめた後、k−匿名性を満足するように、そのグループを分割する手法である。
“Mondrian Multidimensional” described in
さらに、データの提供者(提供元)は、1つに限らず、複数の場合がある。 Furthermore, the number of data providers (providers) is not limited to one, and there may be a plurality of cases.
データの匿名化の方針は、複数の提供元のデータを集約(結合)したデータ(結合データ)において満足する必要がある。従って、提供元が複数の場合、提供元のデータは、匿名化の前に、集約が必要である。しかし、各提供元にとってデータは、財産である。そのため、提供元は、他の提供元に、匿名化していないデータを提供したくない。 The data anonymization policy needs to be satisfied in data (combined data) obtained by aggregating (combining) data from a plurality of providers. Therefore, when there are a plurality of providers, the data of the providers needs to be aggregated before anonymization. However, for each provider, data is a property. Therefore, the provider does not want to provide data that has not been anonymized to other providers.
すべての提供元が信頼する仲介者が存在する場合、提供元は、その仲介者に、データの集約と匿名化を依頼すればよい。 When there is an intermediary trusted by all providers, the provider may request the intermediary to aggregate and anonymize data.
しかし、常に、すべての提供元が信頼できる仲介者が、存在するとは限らない。 However, there are not always intermediaries that all providers can trust.
そこで、仲介者を必要としない手法が、提案されている(例えば、非特許文献2を参照)。 Therefore, a method that does not require an intermediary has been proposed (see, for example, Non-Patent Document 2).
非特許文献2に記載の匿名化手法は、複数の「データの提供者」のデータを集約する際に、「Secure Multi-Party Computation(MPC)」を用いる。そして、非特許文献2に記載の匿名化手法は、次のような手法でデータを匿名化する。
The anonymization method described in Non-Patent
各提供者は、それぞれ保持するデータを抽象化してグループを作成する。そして、各提供者は、MPCを用いて、相互のデータを開示しないまま、データをグループに分割し、抽象化されたデータを詳細化する。提供者は、匿名性を満たす間、この処理を繰り返し、データを匿名化する。 Each provider creates a group by abstracting the data held therein. Each provider uses the MPC to divide the data into groups without disclosing each other's data and to refine the abstracted data. While satisfying anonymity, the provider repeats this process to anonymize the data.
つまり、各提供者は、MPCを用いることで、相互のデータを開示しないで、データを匿名化できる。そして、データの受け取る利用者は、匿名化後のデータを受け取る。 That is, each provider can anonymize data by using MPC without disclosing each other's data. And the user who receives data receives the data after anonymization.
非特許文献2に記載のMPCは、データの提供元間の相互の通信と、通信したデータの提供元での処理が必要である。そのため、MPCの通信量は、データの提供元の数をNとし、O記法を用いて記載すると、おおよそ次のようになる。なお、この通信量は、データの提供元が1つのデータを持っている場合の例である。
The MPC described in Non-Patent
通信量:O(N・logN)
つまり、非特許文献2に記載の手法は、提供元の数とその対数との積に比例して通信量が増加する。
Traffic volume: O (N · logN)
That is, according to the method described in
このように、非特許文献2に記載の技術は、データの提供元が多くなると、通信量が多くなるため、実用化が困難となる問題点があった。
As described above, the technique described in Non-Patent
本発明の目的は、上記問題点を解決し、信頼できる仲介者が存在しない場合でも、装置通信量を低減した匿名化を実現する情報処理装置、情報処理システム、及び、情報匿名化方法を提供することにある。 An object of the present invention is to provide an information processing apparatus, an information processing system, and an information anonymization method that solves the above-described problems and realizes anonymization with reduced apparatus communication volume even when there is no reliable mediator There is to do.
本発明の情報処理装置は、方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置のデータの汎化に用いる方針を算出する方針決定手段と、前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する匿名化データ作成手段とを含む。 The information processing apparatus according to the present invention calculates a policy to be used for generalizing the data of the providing source device based on the data for policy calculation, which is data that obfuscates the data of the providing source device to the extent that the policy can be calculated. Determining means and anonymized data creating means for creating anonymized data based on data generalized by the provider device based on the policy.
本発明の情報処理システムは、方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置がデータの汎化に用いる方針を算出する方針算出手段と、前記提供元装置が前記方針を基に汎化したデータを基に匿名化データを作成する匿名化データ作成手段とを含む情報処理装置と、前記提供元装置のデータを保存するデータ保存手段と、前記保存するデータを基に前記方針算出用データを作成する方針算出用データ作成手段と、前記情報処理装置が算出した前記方針を保存する方針保存手段と、前記方針を基に前記保存するデータを汎化する汎化手段とを含む提供元装置とを含む。 The information processing system of the present invention calculates a policy used by the provider device for data generalization based on policy calculation data that is data that obfuscates the data of the provider device to the extent that the policy can be calculated. Information processing apparatus including calculation means, anonymized data creating means for creating anonymized data based on data generalized by the provider apparatus based on the policy, and data for storing data of the provider apparatus Saving means, policy calculation data creation means for creating the policy calculation data based on the data to be saved, policy saving means for saving the policy calculated by the information processing device, and the policy based on the policy A provider apparatus including generalization means for generalizing data to be stored.
本発明の情報匿名化方法は、方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置のデータの汎化に用いる方針を算出し、前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する。 The information anonymization method of the present invention calculates a policy used for generalizing the data of the providing source device based on the data for policy calculation, which is data that obfuscates the data of the providing source device to such an extent that the policy can be calculated. The anonymization data is created based on the data generalized by the provider device based on the policy.
本発明のプログラムは、方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置のデータの汎化に用いる方針を算出する処理と、前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する処理とをコンピュータに実行させる。 The program of the present invention calculates a policy used for generalization of the data of the providing source device based on the data for policy calculation that is data that obfuscates the data of the providing source device to the extent that the policy can be calculated; The provider apparatus causes the computer to execute processing for creating anonymized data based on data generalized based on the policy.
本発明によれば、提供元が信頼できる仲介者を必要としないで、通信量を削減した複数の提供元のデータを用いた匿名化を実現できる。 ADVANTAGE OF THE INVENTION According to this invention, the anonymization using the data of the several provider which reduced the communication volume is realizable, without requiring the broker whose provider is reliable.
次に、本発明の実施形態について図面を参照して説明する。 Next, embodiments of the present invention will be described with reference to the drawings.
なお、各図面は、本発明の実施形態を説明するものである。そのため、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明は、省略する場合がある。 Each drawing explains an embodiment of the present invention. Therefore, the present invention is not limited to the description of each drawing. Moreover, the same number is attached | subjected to the same structure of each drawing, and the repeated description may be abbreviate | omitted.
なお、本発明に係る情報処理装置が匿名化する準識別子は、特に制限はない。また、発明に係る情報処理装置は、匿名化する準識別子の数に、特に制限はない。ただし、以下の説明では、準識別子の一例として、「年齢」を用いて説明する。 The quasi-identifier made anonymous by the information processing apparatus according to the present invention is not particularly limited. Further, the information processing apparatus according to the invention has no particular limitation on the number of quasi-identifiers to be anonymized. However, in the following description, “age” is used as an example of a quasi-identifier.
また、本発明に係る情報処理装置が取り扱うセンシティブ情報は、特に制限はない。ただし、以下の説明では、センシティブ情報の一例として、「疾病」を用いて説明する。 Further, the sensitive information handled by the information processing apparatus according to the present invention is not particularly limited. However, in the following description, “disease” is used as an example of sensitive information.
(第1の実施形態)
図1は、本発明における第1の実施形態に係る情報処理装置20を含む情報処理システム10の構成の一例を示すブロック図である。
(First embodiment)
FIG. 1 is a block diagram illustrating an example of a configuration of an
情報処理システム10は、情報処理装置20と、提供元装置30と、利用者装置40と、ネットワーク50とを含む。
The
第1の実施形態に係る情報処理装置20は、提供元装置30が提供するデータを匿名化し、利用者装置40に送信する。また、情報処理装置20は、提供元装置30が提供するデータを集約してもよい。情報処理装置20については、後ほど詳細に説明する。
The
提供元装置30は、汎化済みデータを情報処理装置20に提供する装置である。情報処理装置20は、汎化済みデータを用いて作成した匿名化済みデータを、利用者装置40に提供する。
The providing
提供元装置30は、データを汎化して提供する装置であれば、特に制限はない。そのため、提供元装置30の詳細な説明を省略する。ただし、後ほどの情報処理装置20の説明において、情報処理装置20の動作に関連する提供元装置30の構成及び動作については、詳細に説明する。
The
なお、本実施形態の情報処理装置20は、匿名化のための汎化データを提供する提供元装置30の数に、特に制限はない。情報処理装置20は、複数の提供元装置30からの汎化データを匿名化しても良い。あるいは、情報処理装置20は、1つの提供元装置30の汎化データを匿名化しても良い。
In addition, the
利用者装置40は、情報処理装置20から、匿名化されたデータを受け取る。利用者装置40は、受け取ったデータを基に、例えば、所定のデータ解析を実施する装置である。利用者装置40は、一般的なコンピュータや端末装置でも良く、特に限定はない。そのため、利用者装置40の詳細な説明を省略する。
The
ネットワーク50は、情報処理装置20と各装置を接続する通信路又は通信網である。ネットワーク50は、各装置が接続できれば、特に制限はない。そのため、ネットワーク50の詳細な説明を省略する。
The
次に、情報処理装置20について、図面を参照して、さらに説明する。
Next, the
まず、情報処理装置20に構成について説明する。
First, the configuration of the
図2は、第1の実施形態に係る情報処理装置20の構成の一例を示すブロック図である。
FIG. 2 is a block diagram illustrating an example of the configuration of the
情報処理装置20は、提供元装置30が提供するデータを汎化するための方針の決定と、提供元装置30が提供する汎化データを基に利用者装置40に提供する匿名化済み結合データを作成する。
The
そのため、情報処理装置20は、方針決定部201と匿名化データ作成部202とを含む。
Therefore, the
方針決定部201は、提供元装置30が作成した方針算出用データを受信する。さらに、方針決定部201は、方針算出用データを基に、提供元装置30が汎化で使用する方針を決定する。
The
ここで、「方針」とは、提供元装置30が利用者装置40に提供するために、元のデータを汎化するときに用いる汎化の方針である。情報処理装置20は、利用者装置40に提供するデータに用いる匿名化に基づいて、方針を算出する。例えば、方針は、提供元装置30の汎化処理のための汎化幅、境界、又は、レベルである。
Here, the “policy” is a generalization policy used when the original data is generalized so that the providing
また、「方針算出用データ」とは、情報処理装置20が方針を算出するために、提供元装置30が、情報処理装置20に提供するデータである。
The “policy calculation data” is data provided by the providing
匿名化データ作成部202は、提供元装置30から受け取った汎化データを基に、利用者装置40に提供する匿名化済み結合データを作成する。後ほど説明するが、匿名化データ作成部202は、必要に応じ、汎化データを集約し、サプレッションを実施する。
The anonymized
図面を参照し、情報処理装置20の各構成の詳細について更に説明する。
Details of each component of the
図3は、第1の実施形態に係る情報処理装置20の構成の一例を示すブロック図である。
FIG. 3 is a block diagram illustrating an example of the configuration of the
図3に示すように、情報処理装置20の方針決定部201は、方針算出用データ集約部210と、匿名化部220と、方針算出部230とを含む。また、匿名化データ作成部202は、汎化データ集約部240と、匿名性検査部250と、サプレッション部260とを含む。
As illustrated in FIG. 3, the
方針算出用データ集約部210は、提供元装置30から受信した方針算出用データを集約する。なお、ここでの集約とは、次に説明する匿名化部220が匿名化するためにデータをまとめることである。
The policy calculation
また、方針算出用データ集約部210は、提供元装置30から、連続的に方針算出用データを受信しても良い。あるいは、方針算出用データ集約部210は、提供元装置30から、複数回に分けて方針算出用データを受信しても良い。
Further, the policy calculation
なお、後ほど説明するように、情報処理装置20は、提供元装置30から受信する汎化済みデータの匿名性を検査し、必要な場合、データをサプレッションする。そのため、提供元装置30は、データを、最終的に利用者装置40に提供する状態まで汎化する必要はない。また、提供元装置30は、できる限り保存する元のデータをそのままの状態で、情報処理装置20に公開したくない。
As will be described later, the
そこで、本実施形態の情報処理装置20は、方針算出用データとして、提供元装置30から、方針を算出できる程度に曖昧化したデータを基に方針を算出する。
Therefore, the
つまり、提供元装置30は、元のデータではなく、曖昧化したデータ(方針算出用データ)を情報処理装置20に送信する。そして、提供元装置30は、その応答として、情報処理装置20から汎化の方針を受信できる。
That is, the providing
例えば、提供元装置30は、情報処理装置20に、利用者装置40に提供するためのデータにノイズを入れた「ノイズ付加データ」を送信しても良い。あるいは、提供元装置30は、利用者装置40に提供するためのデータと同様の構成の準識別子を含むデータ、例えば、開示済みの過去のデータを送信しても良い。方針算出用データについては、後ほど、さらに説明する。
For example, the providing
方針算出用データ集約部210は、集約後の方針算出用データを、匿名化部220に送る。
The policy calculation
匿名化部220は、方針算出用データ集約部210が集約した方針算出用データを匿名化する。後ほど説明するように、方針算出部230は、匿名化後のデータを用いて、方針を算出する。つまり、匿名化部220は、方針を算出するために、方針算出用データを匿名化する。
The
そのため、匿名化部220は、情報処理装置20が利用者装置40に提供するデータに必要な匿名性と同程度の匿名性を満足するように、集約したデータを匿名化する。
Therefore, the
なお、本実施形態の匿名化部220の匿名化は、特に制限はない。例えば、匿名化部220は、所定の準識別子に対してk−匿名化を実施しても良い。匿名化部220は、k-匿名性に加え、l−多様化やt−近接性を満たすように匿名化しても良い。
In addition, there is no restriction | limiting in particular in the anonymization of the
匿名化部220は、匿名化後のデータを方針算出部230に送る。
The
方針算出部230は、匿名化部220が匿名化したデータを基に、提供元装置30がデータを汎化するための方針を算出する。
The
そして、方針算出部230は、算出した方針を、提供元装置30に送信する。
Then, the
提供元装置30は、方針を基にデータを汎化し、汎化データを情報処理装置20に送付する。
The
汎化データ集約部240は、提供元装置30から受け取った汎化データを集約、つまり結合し、結合データを作成する。
The generalized
そして、汎化データ集約部240は、結合データを匿名性検査部250に送る。
Then, the generalized
匿名性検査部250は、汎化データ集約部240から受け取った結合データが、所定の匿名性を満足するか否か検査する。
The
ここで、情報処理装置20が匿名性検査部250を含むのは、次に示す理由のためである。
Here, the reason why the
既に説明したとおり、情報処理装置20が方針の算出に使用する方針算出用データと、提供元装置30が汎化する元のデータとは、異なる。そのため、情報処理装置20が算出した方針は、提供元装置30におけるデータの汎化を方針として、最適でない可能性がある。つまり、情報処理装置20が受け取った汎化後のデータは、所定の匿名性を満足しない可能性がある。そこで、情報処理装置20は、匿名性検査部250を用いて、結合データの匿名性を検査する。
As already described, the policy calculation data used by the
結合データが匿名性を満足しない場合、匿名性検査部250は、結合データをサプレッション部260に送り、結合データのサプレッションを依頼する。
If the combined data does not satisfy the anonymity, the
サプレッション部260は、受け取った結合データの匿名性を確保するため、結合データを、サプレッションする。
The
ここで、サプレッションとは、データの匿名性を確保するための処理である。サプレッションは、匿名性を確保する処理であれば、特に制限はない。サプレッションは、例えば、所定の匿名性を満たしていないデータを削除する、又は、所定の匿名性を満たしていないデータをさらに汎化するなどである。 Here, the suppression is a process for ensuring the anonymity of data. The suppression is not particularly limited as long as it is a process that ensures anonymity. The suppression is, for example, deleting data that does not satisfy the predetermined anonymity, or further generalizing data that does not satisfy the predetermined anonymity.
サプレッション後、サプレッション部260は、処理済み結合データを、匿名性検査部250に戻す。
After the suppression, the
匿名性検査部250は、サプレッション部260から受け取った結合データの匿名性を検査し、匿名性を満足しない場合、サプレッション部260に結合データを送る。
The
匿名性検査部250は、結合データが所定の匿名性を確保するまで、サプレッション部260への結合データの送信を繰り返す。
The
なお、サプレッション部260は、所定の匿名性を満足するまでデータを処理し、匿名性を満足後、匿名性検査部250に結合データを戻しても良い。
The
結合データが匿名性を満足する場合、匿名性検査部250は、結合データを、匿名化後データして、利用者装置40に送信する。
When combined data satisfies anonymity, the anonymity test |
次に、具体的にデータを用いて、本実施形態の情報処理装置20について、さらに説明する。
Next, the
なお、以下の説明において、提供元装置30は、曖昧化としてノイズ付加を用いるとする。つまり、提供元装置30は、方針算出用データの一例として、「ノイズ付加データ」を送信する。
In the following description, it is assumed that the providing
また、情報処理装置20は、方針の一例として「汎化幅」を算出するとする。
The
準識別子は、「年齢」とする。また、センシティブ情報は、「疾病」とする。 The quasi-identifier is “age”. Sensitive information is “disease”.
なお、「ノイズ付加データ」及び「汎化幅」は、後ほど、図面を参照して、詳細に説明する。 The “noise addition data” and the “generalization width” will be described in detail later with reference to the drawings.
図4は、本実施形態の情報処理装置21と提供元装置30との構成の一例を示すブロック図である。図4の提供元装置30は、例示として、1台としている。ただし、これは、図面の明確にするためである。情報処理装置21は、情報処理装置20と同様に、複数の提供元装置30と接続しても良い。
FIG. 4 is a block diagram illustrating an example of the configuration of the
また、図4において、図3の同じ構成には同じ番号を付し、その詳細な説明を省略する。 Also, in FIG. 4, the same components as those in FIG.
情報処理装置21は、方針決定部203と匿名化データ作成部202とを含む。
The
方針決定部203は、ノイズ付加データ集約部211と、匿名化部220と、汎化幅算出部231とを含む。
The
ノイズ付加データ集約部211は、図3の方針算出用データ集約部210に相当し、ノイズ付加データを集約する。
The noise addition
匿名化部220は、図3の匿名化部220と同様に、集約後のノイズ付加データを匿名化する。
The
汎化幅算出部231は、図3の方針算出部230に相当し、方針として汎化幅を算出する。
The generalization
匿名化データ作成部202は、図3と同様に、汎化データ集約部240と、匿名性検査部250と、サプレッション部260とを含む。各構成は、図3と同様のため、構成の説明は、省略する。
The anonymized
提供元装置30は、データ保存部310と、ノイズ付加部320と、汎化幅保存部330と、汎化部340とを含む。
The providing
データ保存部310は、情報処理装置21を介して、利用者装置40に提供する元のデータを保存する。つまり、データ保存部310が保存する元のデータは、汎化後、情報処理装置21で集約され、利用者装置40に提供される。
The
ノイズ付加部320は、方針算出用データとして、データ保存部310が保存する元のデータに所定のノイズを付加した「ノイズ付加データ」を、作成する。つまり、ノイズ付加部320は、「方針算出用データ作成部」とも言える。ノイズ付加部320は、作成したノイズ付加データを情報処理装置21に送信する。
The
汎化幅保存部330は、情報処理装置21から受け取った方針である汎化幅を保存する。つまり、汎化幅保存部330は、「方針保存部」とも言える。汎化幅保存部330は、保存した方針を、汎化部340に送る。
The generalization
汎化部340は、汎化幅を用いて、データ保存部310が保存する元のデータを汎化する。そして、汎化部340は、汎化後のデータを、情報処理装置21に送信する。
The
次に、図4に示す情報処理装置21と提供元装置30とを合わせた動作を説明する。
Next, the combined operation of the
まず、ノイズ付加部320は、方針算出用データとして、データ保存部310が保存する元のデータに所定のノイズを付加した「ノイズ付加データ」を作成し、情報処理装置21に送信する。
First, the
ここで、ノイズは、その平均が「0」となるように、所定の分布に従ってランダムに発生された値である。つまり、ノイズの付加は、データの数が多くなると、付加の影響が少なくなる(0に近づく)値の付加である。ノイズのデータの分布は、特に制限はない。例えば、ノイズの発生の分布は、0を中心とした所定の範囲おいて、発生確率が均等(ホワイトノイズ)でも良い。あるいは、ノイズの発生の分布は、「0」を中心とする正規分布でも良い。 Here, the noise is a value randomly generated according to a predetermined distribution so that the average is “0”. That is, the addition of noise is the addition of a value that reduces the influence of addition (approaches 0) as the number of data increases. The distribution of the noise data is not particularly limited. For example, the distribution of noise generation may be uniform (white noise) in a predetermined range centered at 0. Alternatively, the distribution of noise generation may be a normal distribution centered on “0”.
具体的な値を用いて説明する。 This will be described using specific values.
図5は、説明に用いるデータ保存部310が保存する元のデータの一例を示す図である。
FIG. 5 is a diagram illustrating an example of original data stored by the
つまり、データ保存部310は、図5に示す元のデータを保存する。
That is, the
図6は、図5に示すデータにノイズを付加した「ノイズ付加データ」の一例を示す図である。 FIG. 6 is a diagram illustrating an example of “noise-added data” obtained by adding noise to the data illustrated in FIG. 5.
ノイズ付加部320は、例えば、図5に示すデータの準識別子の年齢に、図6に示すノイズを付加し、識別子を削除し、ノイズ付加データを算出する(図6を参照)。このノイズ付加データは、方針算出用データに相当する。
For example, the
図4を用いた説明に戻る。 Returning to the description using FIG.
ノイズ付加部320は、ノイズ付加データを情報処理装置21に送信する。
The
ノイズ付加データ集約部211は、ノイズ付加データを提供元装置30から受け取り、ノイズ付加データを集約し、匿名化部220に送る。
The noise addition
匿名化部220は、集約後のノイズ付加データを、予め指定された匿名性を満たすように、匿名化する。
The
具体的な値を用いて説明する。 This will be described using specific values.
図7は、図6に示すノイズ付加データを匿名化した匿名化後データの一例を示す図である。 FIG. 7 is a diagram illustrating an example of anonymized data obtained by anonymizing the noise-added data illustrated in FIG.
例えば、匿名化部220は、図6に示すデータの年齢を、最も汎化した状態(図7の左の図)に汎化する。そして、匿名化部220は、データの年齢の中央値「26」を境界として、年齢を2グループに分割し、図7の右に示すように、ノイズ付加データを匿名化する。なお、図7において、匿名化部220は、「2−匿名性」を満たすように、データを匿名化している。
For example, the
図4の用いた説明に戻る。 Returning to the description of FIG.
匿名化部220は、匿名化後のデータを汎化幅算出部231に送る。
The
汎化幅算出部231は、匿名化後のデータを基に、「汎化幅」を算出する。
The generalization
ここで「汎化幅」とは、匿名化後のデータにおける、匿名化した値の範囲である。 Here, the “generalization width” is a range of anonymized values in the data after anonymization.
例えば、図7の右に示す匿名化後ノイズ付加データは、年齢が「20−25」と「26−30」との2つのグループに分かれている。この場合、年齢の「20−25」及び「26−30」が、汎化幅である。 For example, the anonymized post-anonymization data shown on the right in FIG. 7 is divided into two groups of “20-25” and “26-30”. In this case, “20-25” and “26-30” of ages are generalization widths.
汎化幅算出部231は、匿名化後のデータを基に、汎化幅(図7では、「年齢:20−25」と「年齢:26−30」)を算出する。
The generalization
なお、汎化幅算出部231が算出する汎化幅は、ノイズ付加データを基にした汎化幅である。そのため、汎化幅算出部231が算出した汎化幅は、提供元装置30が保持する元のデータを基にした汎化幅と異なる可能性がある。しかし、既に説明したとおり、提供元装置30が加算するノイズは、平均が0となる値の付加である。そのため、ノイズ付加データを基にした汎化幅は、元のデータを基に算出した汎化幅から大きくずれる可能性(確率)が低い。つまり、汎化幅算出部231が算出する汎化幅は、提供元装置30のデータに対して、ある程度の妥当性を備えた汎化幅である。
The generalization width calculated by the generalization
汎化幅算出部231は、提供元装置30に、汎化幅を送信する。
The generalization
なお、汎化幅算出部231は、汎化幅として、年齢の範囲とは異なる値を送信しても良い。例えば、汎化幅算出部231は、汎化の境界(例えば、図7に示すデータの「年齢の26」)を送信しても良い。
Note that the generalization
汎化幅保存部330は、情報処理装置20から受け取った汎化幅を保存する。そして、汎化幅保存部330は、汎化幅を汎化部340に送る。
The generalization
汎化部340は、情報処理装置20から受け取った汎化幅を用いて、データ保存部310が保存する元のデータを汎化する。
The
具体的な値を用いて説明する。 This will be described using specific values.
図8は、提供元装置30が汎化した、汎化後のデータの一例を示す図である。
FIG. 8 is a diagram illustrating an example of data after generalization that has been generalized by the providing
例えば、汎化部340は、図5に示す元のデータを、受け取った汎化幅(「年齢:20−25」と「年齢:26−30」)を基に、図8に示すデータに汎化する。
For example, the
図4の用いた説明に戻る。 Returning to the description of FIG.
汎化部340は、汎化したデータを、情報処理装置21に送信する。
The
汎化データ集約部240と、匿名性検査部250と、サプレッション部260は、図3の用いた説明と同様に動作する。繰り返しとなるが、各部について説明すると、次のようになる。
The generalized
汎化データ集約部240は、提供元装置30から受け取った汎化後のデータを集約、つまり結合し、結合データを匿名性検査部250に送る。
The generalized
匿名性検査部250は、汎化データ集約部240から受け取った結合データの匿名性を検査する。
The
結合データが匿名性を満足しない場合、匿名性検査部250は、結合データをサプレッション部260に送り、データのサプレッションを依頼する。
If the combined data does not satisfy the anonymity, the
サプレッション部260は、受け取った結合データをサプレッションし、匿名性検査部250に戻す。
The
匿名性検査部250は、サプレッション部260から受け取った結合データの匿名性を検査し、匿名性を満足しない場合、サプレッション部260に結合データを送る。
The
匿名性検査部250は、結合データが匿名性を確保するまで、サプレッション部260への結合データの送信を繰り返す。
The
結合データが匿名性を満足する場合、匿名性検査部250は、結合データを、匿名化後データとして、利用者装置40に送る。
When combined data satisfies anonymity, the anonymity test |
なお、既に説明したとおり、汎化幅算出部231が算出する汎化幅は、ある程度の妥当性を備えている。そのため、提供元装置30が汎化したデータは、適切な汎化に近い汎化である。そのため、情報処理装置21のサプレッション部260の処理は、大きな処理量とはならない。
As already described, the generalization width calculated by the generalization
ここで、本実施形態の情報処理装置20及び情報処理装置21(以下、まとめて情報処理装置20と言う)の効果について説明する。
Here, the effects of the
本実施形態の情報処理装置20は、提供元装置30が保存する元のデータを受信しなくても、提供元装置30が保存する元のデータを匿名化して、利用者装置40に提供する効果を実施できる。つまり、本実施形態の情報処理装置20を用いて情報を匿名化する提供元装置30は、情報処理装置20を信頼しない場合でも、元のデータを汎化して集約し、匿名化できる効果を得ることができる。
The
その理由は、次のとおりである。 The reason is as follows.
本実施形態の情報処理装置20は、提供元装置30から、元のデータを受信するのではなく、方針算出用データ(例えば、ノイズ付加データ)を受信し、汎化のための方針を算出し、提供元装置30に送信する。そして、情報処理装置20は、提供元装置30が方針を基に汎化した汎化後のデータを受信する。
The
つまり、情報処理装置20は、提供元装置30が保存する元のデータを受信しなくても、提供元装置30から汎化したデータを受信できるためである。
That is, the
さらに、本実施形態の情報処理装置20は、情報処理システム10の通信量を削減する効果を得ることができる。
Furthermore, the
その理由は、次のとおりである。 The reason is as follows.
本実施形態の情報処理装置20を用いてデータを匿名化する提供元装置30は、他の提供元装置30と通信する必要がない。
The
提供元装置30の送信は、情報処理装置20に対する、ノイズ付加データと汎化後のデータとの送信である。
The transmission of the providing
情報処理装置20の送信は、提供元装置30への、方針の送信である。方針の送信は、データの送信に比べると、十分小さな通信量である。
Transmission of the
つまり、情報処理装置20を含む情報処理システム10の通信量は、各提供元装置30の2回のデータ(ノイズ付加データと匿名化後のデータ)を送信となる。このように、情報処理装置20を含む情報処理システム10の通信量は、各提供元装置30のデータの2倍である。つまり、提供元装置30の数をNとする、通信量は、「O(N)」のレベルとなるためである。
That is, the amount of communication of the
また、本実施形態の情報処理装置20は、提供元装置30の処理量を削減する効果を得ることができる。
Further, the
その理由は、次のとおりである。 The reason is as follows.
例えば、提供元装置30が、本発明に関連する「Mondrian Multidimensional」と「MPC」を用いる場合、計算量は、「O(N2・log2N)」となる。
For example, when the
一方、本実施形態の情報処理装置20を用いる提供元装置30は、他の提供元装置30のデータを処理する必要がない。
On the other hand, the
提供元装置30の処理は、保存する元のデータにノイズを入れる処理、及び、保存する元のデータを汎化する処理となる。つまり、提供元装置30の処理量は、「O(N)」のレベルとなる。このように、本実施形態の情報処理装置20は、提供元装置30の処理量を削減できる。
The processing of the providing
<変形例1>
本実施形態の情報処理装置20は、準識別子として、年齢のような数値に限る必要はない。例えば、情報処理装置20は、準識別子の一部又は全てに、性別や病気名のような分類名(カテゴリー)を用いても良い。
<
The
分類名を使用する場合、情報処理装置20は、分類名を数値に置き換えて処理しても良い。分類名を数値に置き換えれば、情報処理装置20は、第1の実施形態と同様の構成及び処理を用いて、処理を実現できる。
When using a classification name, the
また、情報処理装置20は、分類に木構造を適用し、一般的な木構造の処理を用いて、分類名の準識別子を処理しても良い。
In addition, the
本変形例の情報処理装置20は、数値以外の準識別子を取り扱う効果を得ることができる。
The
その理由は、次のとおりである。 The reason is as follows.
本変形例の情報処理装置20は、数値以外の順識別子を数値に変換する、又は、木構造を用いて、数値以外の準識別子を処理できるためである。
This is because the
<変形例2>
情報処理装置20は、提供元装置30に、方針算出用データの算出について、指示しても良い。
<
The
例えば、提供元装置30が、データにノイズを加える場合を用いて説明する。
For example, the case where the providing
情報処理装置20の匿名性検査部250の検査に結果において、集約後のデータの匿名性を満たすデータの比率が、所定の値より低い場合、情報処理装置20は、ノイズ付加データを基にした方針の算出が、適切でないと判断する。
When the ratio of the data satisfying the anonymity of the aggregated data is lower than a predetermined value in the result of the inspection of the
そこで、情報処理装置20は、提供元装置30にノイズ幅の調整を依頼する。
Therefore, the
そして、情報処理装置20は、提供元装置30からノイズ幅の調整後のノイズ付加データを受信し、新たな方針を算出する。そして、情報処理装置20は、算出した方針を、提供元装置30に送信する。
Then, the
なお、情報処理装置20は、新に算出した方針が、前回の方針と変化したか否かを判断しても良い。そして、変化しない場合、情報処理装置20は、方針を送信せず、さらにノイズ幅の変更を依頼しても良い。
The
提供元装置30は、新たな方針を基にデータを汎化し、情報処理装置20に送信する。
The
情報処理装置20は、修正した方針を基に汎化したデータを集約し、匿名性を検査する。
The
情報処理装置20は、所定の匿名性を満たすまで、この処理を繰り返しても良い。
The
なお、情報処理装置20が提供元装置30に指示する構成は、特に制限はない。
Note that the configuration instructed by the
例えば、情報処理装置20の匿名性検査部250が、提供元装置30にノイズの修正を指示してもよい。
For example, the
あるいは、情報処理装置20が、図示しないノイズ修正指示部を含み、匿名性検査部250が、ノイズ修正指示部に提供元装置30への通知を依頼してもよい。
Alternatively, the
あるいは、匿名性検査部250が、提供元装置30に汎化幅を送信する方針算出部230に指示し、方針算出部230が、提供元装置30にノイズの変更を指示してもよい。
Alternatively, the
本変形例に係る情報処理装置20は、より適切な匿名性を実現する効果を得ることできる。
The
その理由は、次のとおりである。 The reason is as follows.
本変形例の情報処理装置20は、集約した汎化データの匿名性の検査結果を基に、提供元装置30から受け取る方針算出用データを修正できるためである。
This is because the
<変形例3>
情報処理装置20は、提供元装置30から、各提供元装置30が必要とするデータの匿名性を受け取っても良い。
<
The
この場合、情報処理装置20は、受け取ったデータの匿名性を満たすように、利用者装置40に提供する結合データの匿名性を決定する。
In this case, the
例えば、情報処理装置20は、提供元装置30から受け取った最も高い匿名性を満たすように、汎化の方針を決定し、データを匿名化しても良い。
For example, the
あるいは、情報処理装置20は、提供元装置30から受け取ったデータが含まれる各グループにおいて、受け取った匿名性を満足するように、各提供元装置30の汎化の方針を決定し、データを匿名化しても良い。
Alternatively, the
本変形例に係る情報処理装置20は、提供元装置30にとって、より適切な匿名性を実現する効果を得ることができる。
The
その理由は、次のとおりである。 The reason is as follows.
本変形例の情報処理装置20は、提供元装置30が必要とするデータの匿名性を受け取り、その匿名性を満たすように、データを匿名化するためである。
This is because the
<変形例4>
情報処理装置20の構成は、これまでの説明に限らない。
<
The configuration of the
情報処理装置20は、各構成を複数の構成に分けても良い。
The
例えば、情報処理装置20の方針算出部230は、方針を算出する構成と、方針を送信する構成とに分かれても良い。
For example, the
あるいは、情報処理装置20は、1つの装置で構成される必要はない。例えば、情報処理装置20は、ネットワーク50を介して接続した方針決定部201を含む装置と、匿名化データ作成部202を含む装置とを用いて構成されても良い。
Or the
また、情報処理装置20は、複数の構成を1つの構成としても良い。
Further, the
例えば、情報処理装置20は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)と、入出力接続回路(IOC:Input/Output Circuit)と、ネットワークインターフェース回路(NIC:Network Interface Circuit)とを含むコンピュータ装置として実現しても良い。
For example, the
図9は、本実施形態の情報処理装置20の変形例である情報処理装置60の構成の一例を示すブロック図である。
FIG. 9 is a block diagram illustrating an example of a configuration of an
情報処理装置60は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータを構成している。
The
CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610は、これらの構成を制御し、図2に示す、方針決定部201と匿名化データ作成部202としての各機能を実現する。CPU610は、各機能を実現する際に、RAM630をプログラムの一時記憶として使用しても良い。
The
また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでも良い。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取っても良い。
In addition, the
ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P−ROM(Programable-ROM)やフラッシュROMである。
The
RAM630は、CPU610が実行するプログラムやデータを一時的に記憶する。RAM630は、例えば、D−RAM(Dynamic-RAM)である。
The
内部記憶装置640は、情報処理装置60が長期的に保存するデータやプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作しても良い。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
The
IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカードである。
The
入力機器660は、情報処理装置60の操作者からの入力指示を受け取る機器である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
The
表示機器670は、情報処理装置60の操作者に情報を表示する機器である。表示機器670は、例えば、液晶ディスプレイである。
The
NIC680は、ネットワークを介した外部の装置とのデータのやり取りを中継する。NIC680は、例えば、LANカードである。
The
このように構成された情報処理装置60は、情報処理装置20と同様の効果を得ることができる。
The
その理由は、次のとおりである。 The reason is as follows.
情報処理装置60のCPU610は、プログラムに基づいて情報処理装置20と同様の機能を実現できるためである。
This is because the
なお、提供元装置30も、情報処理装置20の同様に、図9で示すコンピュータを用いて実現されても良い。
The
(第2の実施形態)
第1の実施形態の情報処理装置20は、匿名性検査部250とサプレッション部260とを用いて、適切な匿名化を実現する。
(Second Embodiment)
The
また、情報処理装置20が匿名性を検査する汎化後の結合データは、提供元装置30において、方針を基に匿名化されている。情報処理装置20が算出する方針は、既に説明のとおり、汎化としてかなり妥当な値である。そのため、提供元装置30は、ある程度適切にデータを汎化できる。従って、サプレッション部260の処理は、大きな処理量とはならない。
Further, the generalized combined data that the
しかし、サプレッション部260の処理は、できる限り少ない方が、望ましい。サプレッション部260の処理を削減するために、情報処理装置20において、より適切な方針(例えば、汎化幅又は境界)の算出が、望ましい。
However, it is desirable that the processing of the
そこで、第2の実施形態の情報処理装置20は、方針の算出を改善し、より適切な方針(例えば、汎化幅又は境界)を算出する。
Therefore, the
第2の実施形態の情報処理装置20の構成は、第1の実施形態と同様のため、構成の説明を省略する。また、第2の実施形態の情報処理装置20の動作は、匿名化部220の動作を除き、第1に実施形態と同様である。そのため、第1の実施形態と同じ動作の説明は省略し、第2の実施形態に特有の動作について説明する。
Since the configuration of the
第1の実施形態の匿名化部220は、受け取った方針算出用データを基に、匿名化を進めた。
The
これに対し、第2の実施形態の匿名化部220は、受け取った方針算出用データを、方針算出用データの作成方法のデータへの影響を考慮して、匿名化する。つまり、第2の実施形態の匿名化部220は、提供元装置30の方針算出用データの作成手法を参照し、匿名化を実施する。
In contrast, the
以下の匿名化部220の動作の説明は、図5に示すデータに、ノイズを入れる場合を用いて説明する。
The following description of the operation of the
第2の実施形態の匿名化部220の動作について、図10−13を参照して説明する。
Operation | movement of the
図10は、第1の実施形態の説明に用いた図6に示すノイズ付加データを示す図である。 FIG. 10 is a diagram showing the noise addition data shown in FIG. 6 used for the description of the first embodiment.
図中の黒丸が、ノイズ付加データを示す。また、各黒丸の上下の範囲が、ノイズの範囲である。ここで、ノイズの最大は、「2」としている。つまり、各ノイズ付加データに対応する元のデータは、この範囲に入る。 Black circles in the figure indicate noise added data. The range above and below each black circle is the range of noise. Here, the maximum noise is “2”. That is, the original data corresponding to each noise addition data falls within this range.
図10の右に示す表は、図5に示す「元のデータ」と、図10に示す「ノイズ付加データ」と、ノイズ付加データを基に匿名化部220が匿名化した「匿名化データ」とを対応させた表である。
The table shown on the right side of FIG. 10 includes “original data” shown in FIG. 5, “noise addition data” shown in FIG. 10, and “anonymization data” anonymized by the
また、図10に示す「境界」は、匿名化後データの境界である。 Further, the “boundary” shown in FIG. 10 is the boundary of the anonymized data.
図11は、図5のデータに、図10とは異なるノイズを加算したノイズ付加データを示す図である。 FIG. 11 is a diagram showing noise-added data obtained by adding noise different from that in FIG. 10 to the data in FIG.
第1の実施形態の匿名化部220は、受信したデータを基に、境界(例えば、ノイズ付加データの中央値)を算出した。
The
第1の実施形態と同様に動作すると、匿名化部220は、図11に示すように、ノイズ付加データの中央値である「22」を境界として用いて、データを匿名化する。その結果、情報処理装置20は、汎化幅として、「年齢:20−21」と「年齢:22−30」を、提供元装置30に送信する。図11の右の表は、この汎化幅に対応するデータのである。
When operating in the same manner as in the first embodiment, the
図11に示す匿名化の場合、汎化幅は、「年齢:20−21」と「年齢:22−30」となる。 In the case of anonymization illustrated in FIG. 11, the generalization width is “age: 20-21” and “age: 22-30”.
図12は、提供元装置30が、図11に示す匿名化を基に算出される汎化幅を基に汎化した場合のデータを示す図である。
FIG. 12 is a diagram illustrating data when the providing
図12から明らかなように、この匿名化は、適切ではない。例えば、年齢20−21のグループは、データ数が「1」であり、「2−匿名性」を満足しない。そのため、この汎化データを受け取った情報処理装置20は、サプレッション部260でのサプレッション処理が必要となる。
As is apparent from FIG. 12, this anonymization is not appropriate. For example, the group of ages 20-21 has a data count of “1” and does not satisfy “2-anonymity”. Therefore, the
そこで、本実施形態の匿名化部220は、各点における「分割の不均等性」及び「匿名性を満たさないリスク」を用いて境界を選択する。
Therefore, the
「分割の不均等性」とは、その点を境界とした場合における、分割後のデータの不均等さである。例えば、「中央値からの距離」は、「分割の不均等性」の一例である。中央値から遠い点での分割は、中央値に近い点での分割に比べ、分割後のグループに含まれるデータの数の差が大きくなる。 “Division non-uniformity” is non-uniformity of data after division when the point is a boundary. For example, “distance from median” is an example of “unevenness of division”. The division at a point far from the median value has a larger difference in the number of data included in the group after the division than the division at a point near the median value.
「匿名性を満たさないリスク」は、その点を境界とした場合における、方針算出用データの曖昧さに基づく分割の不適正さである。例えば、「ノイズ範囲を考慮した分割点に含まれるデータの数」は、「匿名性を満たさないリスク」の一例である。ノイズ範囲を考慮したデータが多く含まれる境界は、その境界で分割した場合の元のデータの分割後の分布の変動が大きいと想定できる。 “Risk that does not satisfy anonymity” is improper division based on the ambiguity of the policy calculation data when that point is the boundary. For example, “the number of data included in the division points in consideration of the noise range” is an example of “risk that does not satisfy anonymity”. It can be assumed that a boundary including a lot of data in consideration of the noise range has a large variation in distribution after the original data is divided when the boundary is divided.
そこで、本実施形態の匿名化部220は、例えば、次に示す「数式1」を用いて計算した値(スコア)が小さい点を境界(分割点)とする。
Therefore, for example, the
(数1)
スコア=「中央値からの距離」+「ノイズ範囲を考慮したデータの数」 … (1)
図13は、各データに「数式1」のスコアを記載したデータを示す図である。
(Equation 1)
Score = “Distance from median” + “Number of data considering noise range” (1)
FIG. 13 is a diagram illustrating data in which the score of “
年齢のデータの括弧の中が、「数式1」を用いたスコアである。右辺の第1項が、「中央値からの距離」である。第2項が、「ノイズ範囲を考慮したデータの数」である。
The score in the parentheses of the age data is the score using “
例えば、年齢「25」のスコアの「4」は、「中央値からの距離」の「3」と「ノイズ範囲を考慮したデータの数」の「1」との和である。 For example, the score “4” of the age “25” is the sum of “3” of “distance from the median” and “1” of “number of data considering noise range”.
なお、ノイズ付加データのデータ範囲でない年齢(例えば、図11の20未満、及び、28を超える範囲)は、境界となる可能性がないため、考慮しなくても良い。 It should be noted that an age that is not in the data range of the noise-added data (for example, a range less than 20 and more than 28 in FIG. 11) does not need to be considered because there is no possibility of becoming a boundary.
図11の各データで上記スコアを計算すると、年齢「22」、「23」、及び、「24」のスコアが、最も小さい値(3)である。 When the above score is calculated for each data in FIG. 11, the scores of the ages “22”, “23”, and “24” are the smallest value (3).
同じスコアの準識別子(今の場合、年齢)が複数ある場合、本実施形態の匿名化部220は、いずれの準識別子を境界として採用してもよく、特に制限はない。
When there are a plurality of quasi-identifiers with the same score (in this case, age), the
ただし、本実施形態の情報処理装置20は、匿名化を満たさない可能性の低減を、目的の1つとしている。そこで、以下、本実施形態の匿名化部220は、最も「匿名性を満たさないリスク」である「ノイズ範囲を考慮したデータの数」が小さい準識別子を採用するとして説明する。
However, the
今の場合、年齢「24」の「ノイズ範囲を考慮したデータの数」の値「1」が、最も小さい値である。そのため、匿名化部220は、年齢「24」を境界として、ノイズ付加データを匿名化する(図13に示す境界を参照)。
In this case, the value “1” of the “number of data considering the noise range” of the age “24” is the smallest value. Therefore, the
なお、図13に示すように、年齢「24」は、ノイズ付加データのノイズを考慮した場合の、データの重なりの少ない、つまり、「匿名性を満たさないリスク」が低い年齢の中で、最も中央値に近い値である。 As shown in FIG. 13, the age “24” is the smallest among the ages with little data overlap, that is, the “risk of not satisfying anonymity” when the noise of the noise-added data is considered. The value is close to the median.
図14は、年齢「24」を境界とした場合の提供元装置30の汎化後のデータを示す図である。
FIG. 14 is a diagram illustrating data after generalization of the
図14に示すデータは、図12に示すデータと比べ、適切な匿名化が実施されている。例えば、図14に示すデータは、「2−匿名性」を満足する。 The data shown in FIG. 14 is appropriately anonymized compared to the data shown in FIG. For example, the data shown in FIG. 14 satisfies “2-anonymity”.
なお、本実施形態の情報処理装置20が使用するスコアは、「数式1」に限る必要はない。
Note that the score used by the
例えば、情報処理装置20は、「分割の不均等性」又は「匿名性を満たさないリスク」の影響を修正するための「重み」を用いても良い。
For example, the
そのため、情報処理装置20は、「数式1」の代わりに、次に示す「数式2」を用いて、スコアを算出しても良い。
Therefore, the
(数2)
スコア=「中央値からの距離」+「重み」×「ノイズ範囲を考慮したデータの数」…(2)
「数式2」の「重み」は、「ノイズ範囲を考慮したデータの数」がスコアに与える影響を調整するためのパラメータである。
(Equation 2)
Score = “distance from median” + “weight” × “number of data considering noise range” (2)
“Weight” in “
「重み」に「1」より大きな値を設定した場合、スコアは、「ノイズ範囲を考慮したデータの数」の影響を大きく受ける。その結果、「ノイズ範囲を考慮したデータの数」の値が大きな境界は、選択されにくくなる。反対に、「中央値からの距離」の値が大きな境界は、相対的に、選択され易くなる。 When a value greater than “1” is set for “weight”, the score is greatly affected by “the number of data considering the noise range”. As a result, a boundary having a large value of “the number of data considering the noise range” becomes difficult to be selected. On the other hand, a boundary having a large “distance from the median” value is relatively easily selected.
一方、「重み」に「1」より小さな値を設定した場合、スコアは、「ノイズ範囲を考慮したデータの数」の影響を受けにくくなる。その結果、「ノイズ範囲を考慮したデータの数」の値が大きな境界は、選択され易くなる。反対に、「中央時からの距離」が大きな境界は、相対的に、選択されにくくなる。 On the other hand, when a value smaller than “1” is set for “weight”, the score is less susceptible to the “number of data considering the noise range”. As a result, a boundary having a large value of “the number of data considering the noise range” is easily selected. Conversely, a boundary having a large “distance from the central time” is relatively difficult to be selected.
なお、「重み」は、「中央値からの距離」に乗じても良い。その場合、「重み」と「境界としての選択され易さ」とは、上記の反対となる。 The “weight” may be multiplied by “distance from the median”. In this case, “weight” and “ease of being selected as a boundary” are opposite to the above.
さらに、情報処理装置20は、「重み」を、準識別子の属性に応じて変更しても良い。例えば、事前に、分割に対する準識別子の属性の影響の良否が分かっている場合、情報処理装置20は、準識別子の属性に異なる重みを設定しても良い。
Furthermore, the
例えば、準識別子の属性「年齢」が、属性「身長」と比べ、分割に対して良い影響を与えることが分かっている場合、情報処理装置20は、属性「年齢」に大きなの「重み」(例えば「2」)を用い、属性「身長」に小さな「重み」(例えば「1」)を用いても良い。情報処理装置20は、このような「重み」の設定を基に、更に、良い分割を実現できる。
For example, when it is known that the attribute “age” of the quasi-identifier has a better influence on the division than the attribute “height”, the
このように、第2の実施形態に係る情報処理装置20は、第1の実施形態の効果に加え、より適切な汎化幅を算出する効果を得ることができる。
Thus, the
その理由は、次のとおりである。 The reason is as follows.
第2の実施形態に係る匿名化部220は、「分割の不均等性」及び「匿名性を満たさないリスク」を用いて、提供元装置30での汎化の方針を選択する。そのため、本実施形態の情報処理装置20は、提供元装置30において、より適切な汎化を指示できるためである。
The
さらに、第2の実施形態に係る情報処理装置20は、サプレッション部260の処理を低減する効果を得ることができる。
Furthermore, the
その理由は、次のとおりである。 The reason is as follows.
匿名化部220は、提供元装置30での汎化を改善できる。そのため、サプレッション部260で必要となる処理の回数が少なくなるためである。
The
(第3の実施形態)
提供元装置30は、情報処理装置20に、できる限りデータを提供したくない。
(Third embodiment)
The
また、情報処理装置20は、提供元装置30の一部のデータを基に、所定の適応度を持った方針を算出できる。
Further, the
そのため、本実施形態の情報処理装置20は、方針算出用データとして、提供元装置30から、利用者装置40に提供するためのデータの一部又は属性の一部を受信する。
Therefore, the
なお、ここに記載の「一部」は、提供元装置30が、保持するデータの一部を方針算出用データとして提供する場合と、一部の提供元装置30が、方針算出用データを提供する場合とを含む。
Note that the “part” described here refers to the case where the providing
情報処理装置20の構成は、第1及び第2の実施形態と同様で良い。そのため、本実施形態の情報処理装置20の構成の説明を省略する。
The configuration of the
また、情報処理装置20の動作は、第1の実施形態及び第2の実施形態と同様でも良い。
Further, the operation of the
ただし、方針算出用データが、提供元装置30が提供するデータの一部の場合、情報処理装置20の匿名化部220は、利用者装置40に提供するデータの匿名性とは異なる匿名性を満足するように、方針算出用データを匿名化しても良い。この場合でも、方針算出部230は、匿名化部220が匿名化したデータを基に方針を算出する。
However, when the policy calculation data is a part of the data provided by the providing
以下、第1及び第2の実施形態と同様の動作の説明を省略し、本実施形態に特有の動作について説明する。 Hereinafter, description of operations similar to those in the first and second embodiments will be omitted, and operations unique to the present embodiment will be described.
データ量が多い結合データは、データ量が少ない結合データに比べ、匿名性を満たしやすい。例えば、10000人の結合データは、3000人の結合データに比べ、所定の「k−匿名性」を容易に満たせる。 Combined data with a large amount of data is more likely to satisfy anonymity than combined data with a small amount of data. For example, the combined data of 10,000 people can easily satisfy the predetermined “k-anonymity” compared to the combined data of 3000 people.
そこで、本実施形態の匿名化部220は、データの量に比例してデータを匿名化する。
Therefore, the
具体的な数値を用いて説明する。 This will be described using specific numerical values.
例えば、情報処理装置20は、匿名化済みデータとして、「10−匿名性」を満足した10000人のデータを利用者装置40に提供するとする。そして、情報処理装置20は、方針算出用データとして、提供元装置30から30%の確率、つまり、3000人のデータを受信するとする。
For example, it is assumed that the
この場合、情報処理装置20の匿名化部220は、匿名化として、匿名化済み結合データの匿名化より低い匿名化、具体的には、「10―匿名化」の「10」の値を30%に削減した「3−匿名化」を実現しても良い。
In this case, the
これは、既に説明したとおり、情報処理装置20において、データ量が少ないほど、「k−匿名性」を満たしにくいためである。
This is because, as already described, in the
例えば、3000人のデータを基に「10−匿名性」を満足する方針は、10000人のデータに対して、必要以上に高い匿名性を実現する方針となる可能性が高い。 For example, a policy that satisfies “10-anonymity” based on data of 3000 people is likely to be a policy that realizes anonymity higher than necessary for data of 10,000 people.
一方、3000人のデータにおいて「3−匿名性」を満足する方針は、10000人のデータにおいて「10−匿名性」を満足する方針に相当する可能性が高いと想定できる。 On the other hand, it can be assumed that a policy satisfying “3-anonymity” in data of 3000 people is highly likely to correspond to a policy satisfying “10-anonymity” in data of 10,000 people.
このように、本実施形態の情報処理装置20は、利用者装置40に提供するデータの量に対する方針算出用データのデータ量を基に、匿名化部220の匿名化を選択する。方針算出部230は、匿名化部220が匿名化しデータを基に方針を算出する。その結果、情報処理装置20は、方針算出用データのデータ量を基に、算出する方針を変更する。
As described above, the
なお、匿名化部220は、データの比率ではなく、他の指標を基に、匿名性を変更しても良い。
Note that the
本実施形態の情報処理装置20は、第1の及び第2の実施形態の効果に加え、通信量及び処理量を、低減する効果を得ることができる。
In addition to the effects of the first and second embodiments, the
その理由は、次のとおりである。 The reason is as follows.
情報処理装置20の方針算出用データ集約部210は、提供元装置30の保存する元のデータの一部を受信する。そのため、情報処理装置20が受信するデータの通信量は、低減する。
The policy calculation
また、提供元装置30は、方針算出用データの作成処理が少なくなる。さらに、情報処理装置20の匿名化部220の匿名化処理は、処理するデータ量が少なくなるためである。
Further, the
<変形例1>
情報処理装置20は、階層化された複数の装置で構成されても良い。
<
The
情報処理装置20が階層構造を構成する場合、階層構造の下位の情報処理装置20は、必要に応じて、上位に情報処理装置20に匿名化したデータを送信する。上位の情報処理装置20は、受け取った匿名化後のデータを集約し、必要な匿名化を実施する。
When the
そして、本変形例に係る情報処理装置20は、取扱いデータ量を基に、データが満足する匿名性を変更する。
And the
具体的な数値を用いて説明する。 This will be described using specific numerical values.
X市は、A町とB町とを含むとする。そして、情報処理装置20は、X市と、A町と、B町とに備えられるとする。そして、情報処理装置20は、人口に比例した匿名化を実施するとする。例えば、情報処理装置20は、「[人口/1000]−匿名性」を実施するとする。そして、A町の人口が4000人、B町の人口が6000人とする。つまり、X市の人口は、10000人とする。
X city includes A town and B town. The
この場合、A町の情報処理装置20は、A町のデータを「4(=4000/1000)−匿名化」する。
In this case, the
同様に、B町の情報処理装置20は、B町のデータを「6(=6000/1000)−匿名化」する。
Similarly, the
さらに、X市の情報処理装置20は、A町の情報処理装置20からA町の匿名化後のデータを受信し、B町の情報処理装置20からB町の匿名化後のデータ受信し、データを集約し、「10(=10000/1000)−匿名化」する。
Furthermore, the
本変形例の情報処理装置20は、適切な処理量と匿名化を実現できる効果を得ることができる。
The
その理由は、次のとおりである。 The reason is as follows.
本変形例の情報処理装置20は、必要なデータの範囲を匿名化するためである。
This is because the
また、本実施形態の上位の情報処理装置20は、下位の情報処理装置20から匿名化後のデータを受信し、匿名化するためである。
Moreover, the upper
以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。 A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(付記1)
方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置のデータの汎化に用いる方針を算出する方針決定手段と、
前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する匿名化データ作成手段と
を含む情報処理装置。
(Appendix 1)
Policy determining means for calculating a policy to be used for generalization of the data of the providing source device, based on the data for policy calculation that is data that obfuscates the data of the providing source device to the extent that the policy can be calculated;
An anonymized data creating means for creating anonymized data based on data generalized based on the policy by the provider device.
(付記2)
前記方針決定手段が、
前記方針算出用データを集約する方針算出用データ集約手段と、
前記集約された方針算出用データを匿名化する匿名化手段と、
前記匿名化されたデータを基に前記方針を算出する方針算出手段と
を含む付記1に記載の情報処理装置。
(Appendix 2)
The policy determining means is
Policy calculation data aggregating means for aggregating the policy calculation data;
Anonymization means for anonymizing the aggregated policy calculation data;
The information processing apparatus according to
(付記3)
前記方針算出用データ集約手段が、
前記方針算出用データとして、前記提供元装置のデータに所定のノイズを加算したデータを集約する
付記2に記載の情報処理装置。
(Appendix 3)
The policy calculation data aggregation means includes:
The information processing apparatus according to
(付記4)
前記方針算出手段が、
前記方針として、前記提供元装置の汎化における汎化幅又は汎化の境界を算出する
付記2又は付記3に記載の情報処理装置。
(Appendix 4)
The policy calculation means is
The information processing apparatus according to
(付記5)
前記匿名化手段が、
準識別子を匿名化する
付記2乃至付記4のいずれか1項に記載の情報処理装置。
(Appendix 5)
The anonymization means is
The information processing apparatus according to any one of
(付記6)
前記匿名化手段が、
匿名化における「分割の不均等性」及び「匿名性を満たさないリスク」を考慮して匿名化する
付記2乃至付記5のいずれか1項に記載の情報処理装置。
(Appendix 6)
The anonymization means is
The information processing apparatus according to any one of
(付記7)
前記方針算出用データが、前記提供元装置のデータの一部を曖昧化したデータであり、
前記匿名化手段が、前記提供元装置のデータに対する前記方針算出用データのデータ量を基に、前記方針算出用データを匿名化する
付記2乃至付記6のいずれか1項に記載の情報処理装置。
(Appendix 7)
The policy calculation data is data obtained by obscuring a part of the data of the provider device,
The information processing apparatus according to any one of
(付記8)
前記匿名化データ作成手段が、
前記提供元装置が前記方針を基に汎化したデータを集約する汎化データ集約手段と、
前記集約された汎化データの匿名性を検査する匿名性検査手段と、
前記検査の結果、前記集約された汎化データが匿名性を満たさない場合、前記集約された汎化データをサプレッションするサプレッション手段と
を含む付記1乃至付記7のいずれか1項に記載の情報処理装置。
(Appendix 8)
The anonymized data creating means is
Generalized data aggregating means for aggregating data generalized based on the policy by the provider device;
Anonymity checking means for checking anonymity of the aggregated generalized data;
The information processing according to any one of
(付記9)
前記匿名性検査手段が、
前記集約された汎化データの匿名性の検査を基に、前記提供元装置に方針算出用データの修正を指示する
付記8に記載の情報処理装置。
(Appendix 9)
The anonymity inspection means is
The information processing apparatus according to
(付記10)
前記サプレッション手段が、
準識別子をサプレッションする
付記8又は付記9に記載の情報処理装置。
(Appendix 10)
The suppression means is
The information processing apparatus according to
(付記11)
前記準識別子が、
数値データ又は分類名データである
付記5又は付記10に記載の情報処理装置。
(Appendix 11)
The quasi-identifier is
The information processing apparatus according to
(付記12)
方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置がデータの汎化に用いる方針を算出する方針算出手段と、
前記提供元装置が前記方針を基に汎化したデータを基に匿名化データを作成する匿名化データ作成手段と
を含む情報処理装置と、
前記提供元装置のデータを保存するデータ保存手段と、
前記保存するデータを基に前記方針算出用データを作成する方針算出用データ作成手段と、
前記情報処理装置が算出した前記方針を保存する方針保存手段と、
前記方針を基に前記保存するデータを汎化する汎化手段と
を含む提供元装置と
を含む情報処理システム。
(Appendix 12)
Policy calculation means for calculating a policy used by the provider device for data generalization based on policy calculation data that is data that obfuscates the data of the provider device to such an extent that a policy can be calculated;
An information processing apparatus including anonymized data creating means for creating anonymized data based on data generalized based on the policy by the provider device;
Data storage means for storing data of the provider device;
Policy calculation data creating means for creating the policy calculation data based on the stored data;
Policy storage means for storing the policy calculated by the information processing apparatus;
An information processing system including: a generalization unit that generalizes the data to be stored based on the policy.
(付記13)
階層構造で接続された複数の前記情報処理装置を含む
付記8に記載の情報処理システム。
(Appendix 13)
The information processing system according to
(付記14)
方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置のデータの汎化に用いる方針を算出し、
前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する
情報匿名化方法。
(Appendix 14)
Based on the data for policy calculation, which is data that obfuscates the data of the providing source device to the extent that the policy can be calculated, calculates the policy used for generalization of the data of the providing source device,
An information anonymization method for creating anonymized data based on data generalized by the provider device based on the policy.
(付記15)
方針を算出できる程度に提供元装置のデータを曖昧化したデータである方針算出用データを基に、前記提供元装置のデータの汎化に用いる方針を算出する処理と、
前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する処理と
をコンピュータに実行させるプログラム。
(Appendix 15)
Based on policy calculation data that is data that obfuscates the data of the providing source device to such an extent that the policy can be calculated, a process of calculating a policy used for generalization of the data of the providing source device;
A program that causes a computer to execute processing for creating anonymized data based on data generalized by the provider device based on the policy.
10 情報処理システム
20 情報処理装置
21 情報処理装置
30 提供元装置
40 利用者装置
50 ネットワーク
60 情報処理装置
201 方針決定部
202 匿名化データ作成部
203 方針決定部
210 方針算出用データ集約部
211 ノイズ付加データ集約部
220 匿名化部
230 方針算出部
231 汎化幅算出部
240 汎化データ集約部
250 匿名性検査部
260 サプレッション部
310 データ保存部
320 ノイズ付加部
330 汎化幅保存部
340 汎化部
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力機器
670 表示機器
680 NIC
700 記憶媒体
DESCRIPTION OF
620 ROM
630 RAM
640
660
700 storage media
Claims (15)
前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する匿名化データ作成手段と
を含む情報処理装置。 Policy determining means for calculating a policy to be used for generalization of the data of the providing source device, based on the data for policy calculation that is data that obfuscates the data of the providing source device to the extent that the policy can be calculated;
An anonymized data creating means for creating anonymized data based on data generalized based on the policy by the provider device.
前記方針算出用データを集約する方針算出用データ集約手段と、
前記集約された方針算出用データを匿名化する匿名化手段と、
前記匿名化されたデータを基に前記方針を算出する方針算出手段と
を含む請求項1に記載の情報処理装置。 The policy determining means is
Policy calculation data aggregating means for aggregating the policy calculation data;
Anonymization means for anonymizing the aggregated policy calculation data;
The information processing apparatus according to claim 1, further comprising: policy calculation means for calculating the policy based on the anonymized data.
前記方針算出用データとして、前記提供元装置のデータに所定のノイズを加算したデータを集約する
請求項2に記載の情報処理装置。 The policy calculation data aggregation means includes:
The information processing apparatus according to claim 2, wherein the policy calculation data includes data obtained by adding predetermined noise to the data of the providing source apparatus.
前記方針として、前記提供元装置の汎化における汎化幅又は汎化の境界を算出する
請求項2又は請求項3に記載の情報処理装置。 The policy calculation means is
The information processing apparatus according to claim 2, wherein a generalization width or a generalization boundary in the generalization of the providing apparatus is calculated as the policy.
準識別子を匿名化する
請求項2乃至請求項4のいずれか1項に記載の情報処理装置。 The anonymization means is
The information processing apparatus according to any one of claims 2 to 4, wherein the quasi-identifier is anonymized.
匿名化における「分割の不均等性」及び「匿名性を満たさないリスク」を考慮して匿名化する
請求項2乃至請求項5のいずれか1項に記載の情報処理装置。 The anonymization means is
The information processing apparatus according to any one of claims 2 to 5, wherein anonymization is performed in consideration of "unevenness of division" and "risk that does not satisfy anonymity" in anonymization.
前記匿名化手段が、前記提供元装置のデータに対する前記方針算出用データのデータ量を基に、前記方針算出用データを匿名化する
請求項2乃至請求項6のいずれか1項に記載の情報処理装置。 The policy calculation data is data obtained by obscuring a part of the data of the provider device,
The information according to any one of claims 2 to 6, wherein the anonymization means anonymizes the policy calculation data based on a data amount of the policy calculation data with respect to data of the providing source device. Processing equipment.
前記提供元装置が前記方針を基に汎化したデータを集約する汎化データ集約手段と、
前記集約された汎化データの匿名性を検査する匿名性検査手段と、
前記検査の結果、前記集約された汎化データが匿名性を満たさない場合、前記集約された汎化データをサプレッションするサプレッション手段と
を含む請求項1乃至請求項7のいずれか1項に記載の情報処理装置。 The anonymized data creating means is
Generalized data aggregating means for aggregating data generalized based on the policy by the provider device;
Anonymity checking means for checking anonymity of the aggregated generalized data;
The suppression method according to any one of claims 1 to 7, further comprising: suppression means that suppresses the aggregated generalized data when the aggregated generalized data does not satisfy anonymity as a result of the inspection. Information processing device.
前記集約された汎化データの匿名性の検査を基に、前記提供元装置に方針算出用データの修正を指示する
請求項8に記載の情報処理装置。 The anonymity inspection means is
The information processing apparatus according to claim 8, wherein the provider apparatus is instructed to modify the policy calculation data based on anonymity inspection of the aggregated generalized data.
準識別子をサプレッションする
請求項8又は請求項9に記載の情報処理装置。 The suppression means is
The information processing apparatus according to claim 8 or 9, wherein the quasi-identifier is suppressed.
数値データ又は分類名データである
請求項5又は請求項10に記載の情報処理装置。 The quasi-identifier is
The information processing apparatus according to claim 5, wherein the information processing apparatus is numerical data or classification name data.
前記提供元装置が前記方針を基に汎化したデータを基に匿名化データを作成する匿名化データ作成手段と
を含む情報処理装置と、
前記提供元装置のデータを保存するデータ保存手段と、
前記保存するデータを基に前記方針算出用データを作成する方針算出用データ作成手段と、
前記情報処理装置が算出した前記方針を保存する方針保存手段と、
前記方針を基に前記保存するデータを汎化する汎化手段と
を含む提供元装置と
を含む情報処理システム。 Policy calculation means for calculating a policy used by the provider device for data generalization based on policy calculation data that is data that obfuscates the data of the provider device to such an extent that a policy can be calculated;
An information processing apparatus including anonymized data creating means for creating anonymized data based on data generalized based on the policy by the provider device;
Data storage means for storing data of the provider device;
Policy calculation data creating means for creating the policy calculation data based on the stored data;
Policy storage means for storing the policy calculated by the information processing apparatus;
An information processing system including: a generalization unit that generalizes the data to be stored based on the policy.
請求項8に記載の情報処理システム。 The information processing system according to claim 8, comprising a plurality of the information processing devices connected in a hierarchical structure.
前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する
情報匿名化方法。 Based on the data for policy calculation, which is data that obfuscates the data of the providing source device to the extent that the policy can be calculated, calculates the policy used for generalization of the data of the providing source device,
An information anonymization method for creating anonymized data based on data generalized by the provider device based on the policy.
前記提供元装置が前記方針を基に汎化したデータを基に、匿名化データを作成する処理と
をコンピュータに実行させるプログラム。 Based on policy calculation data that is data that obfuscates the data of the providing source device to such an extent that the policy can be calculated, a process of calculating a policy used for generalization of the data of the providing source device;
A program that causes a computer to execute processing for creating anonymized data based on data generalized by the provider device based on the policy.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013041743A JP2014170369A (en) | 2013-03-04 | 2013-03-04 | Information processor, information processing system, and information anonymization method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013041743A JP2014170369A (en) | 2013-03-04 | 2013-03-04 | Information processor, information processing system, and information anonymization method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014170369A true JP2014170369A (en) | 2014-09-18 |
Family
ID=51692724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013041743A Pending JP2014170369A (en) | 2013-03-04 | 2013-03-04 | Information processor, information processing system, and information anonymization method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014170369A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021092854A (en) * | 2019-12-06 | 2021-06-17 | Kddi株式会社 | Anonymization device, anonymization method, and anonymization program |
JP7380183B2 (en) | 2019-12-23 | 2023-11-15 | 日本電気株式会社 | Anonymity-degraded information output prevention device, anonymity-degraded information output prevention method, and anonymity-degraded information output prevention program |
JP7475492B2 (en) | 2020-08-02 | 2024-04-26 | グーグル エルエルシー | USING MULTI-PARTY COMPUTATION AND K-ANONNYMY TECHNIQUES TO PROTECT SENSITIVE INFORMATION |
-
2013
- 2013-03-04 JP JP2013041743A patent/JP2014170369A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021092854A (en) * | 2019-12-06 | 2021-06-17 | Kddi株式会社 | Anonymization device, anonymization method, and anonymization program |
JP7175255B2 (en) | 2019-12-06 | 2022-11-18 | Kddi株式会社 | Anonymization device, anonymization method and anonymization program |
JP7380183B2 (en) | 2019-12-23 | 2023-11-15 | 日本電気株式会社 | Anonymity-degraded information output prevention device, anonymity-degraded information output prevention method, and anonymity-degraded information output prevention program |
JP7475492B2 (en) | 2020-08-02 | 2024-04-26 | グーグル エルエルシー | USING MULTI-PARTY COMPUTATION AND K-ANONNYMY TECHNIQUES TO PROTECT SENSITIVE INFORMATION |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Krieger et al. | Metrics for monitoring cancer inequities: residential segregation, the Index of Concentration at the Extremes (ICE), and breast cancer estrogen receptor status (USA, 1992–2012) | |
Fisher et al. | Short paper: location privacy: user behavior in the field | |
US9111035B2 (en) | Methods, systems, and computer program products for analyzing an occurrence of an error in a computer program by restricting access to data identified as being sensitive information | |
Kombe et al. | A review on healthcare information systems and consensus protocols in blockchain technology | |
US11914738B2 (en) | Categorizing a sensitive data field in a dataset | |
JP2014170369A (en) | Information processor, information processing system, and information anonymization method | |
Xu et al. | The impact of the global and local awareness diffusion on epidemic transmission considering the heterogeneity of individual influences | |
Niu et al. | A framework for personalized location privacy | |
WO2014061275A1 (en) | Information processing device and information processing method | |
Urovi et al. | Luce: A blockchain-based data sharing platform for monitoring data license accountability and compliance | |
Clarke et al. | A smartphone-based system for population-scale anonymized public health data collection and intervention | |
Guo et al. | Dynamic analysis of rumor propagation model with media report and time delay on social networks | |
Bazai et al. | A privacy preserving platform for MapReduce | |
Prasser et al. | An open source tool for game theoretic health data de-identification | |
Naz et al. | First integrals and exact solutions of the SIRI and tuberculosis models | |
Xu et al. | Agent-Based Virtual Machine Migration for Load Balancing and Co-Resident Attack in Cloud Computing | |
US10482279B2 (en) | Pattern-less private data detection on data sets | |
EP3901808B1 (en) | Analysis query response system, analysis query execution device, analysis query verification device, analysis query response method, and program | |
WO2014185043A1 (en) | Information processing device, information anonymization method, and recording medium | |
Qu et al. | A heterogeneous network structure publishing security framework based on cloud-edge collaboration | |
Mitra et al. | An Approach to Detect Fake Profiles in Social Networks Using Cellular Automata-Based PageRank Validation Model Involving Energy Transfer | |
Liu et al. | Performance bounds with curvature for batched greedy optimization | |
JPWO2016092830A1 (en) | Information processing apparatus, information processing method, and recording medium | |
Aruna | Survey on use of blockchain technology in cloud storage for the security of healthcare systems | |
JP2015232863A (en) | Information processing device, anonymization method, and program |