JP7151759B2 - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP7151759B2 JP7151759B2 JP2020503639A JP2020503639A JP7151759B2 JP 7151759 B2 JP7151759 B2 JP 7151759B2 JP 2020503639 A JP2020503639 A JP 2020503639A JP 2020503639 A JP2020503639 A JP 2020503639A JP 7151759 B2 JP7151759 B2 JP 7151759B2
- Authority
- JP
- Japan
- Prior art keywords
- anonymization
- data
- confidence
- evaluation value
- strength
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、情報の処理に関し、特に、情報の匿名化に関する。 The present invention relates to information processing, and in particular to anonymization of information.
機械学習又はディープラーニングなどの技術を用いてビックデータなどの大量の個人情報の解析(ビックデータ解析)を基に、多数の人々の行動及び嗜好などを精緻に分析することができる。このような分析を基に、大量の個人情報を用いた新たな製品又はサービスの開発が、求められている。このような、所定のコンテンツを処理する技術が、提案されている(例えば、特許文献1を参照)。
Based on the analysis of a large amount of personal information such as big data (big data analysis) using techniques such as machine learning or deep learning, it is possible to precisely analyze the behavior and preferences of many people. Based on such analysis, development of new products or services using a large amount of personal information is desired. Techniques for processing such predetermined content have been proposed (see
ただし、個人情報の扱いにおいては、機微情報(センシティブ情報)の保護を考慮する必要がある。例えば、分析などのために個人情報を第三者に提供する場合、その個人(本人)からの同意が必要である。大量の個人情報を分析するためには、多数の個人から同意を得ることが必要である。その工数は膨大であり、費用は非常に高くなる。あるいは、本人が承諾しない、又は、本人を所在地が不明であるなど、本人の同意を得ることができない場合もある。そのため、個人情報の第三者での利用は、容易ではなかった。 However, when handling personal information, it is necessary to consider the protection of sensitive information. For example, when personal information is provided to a third party for analysis, etc., consent from the individual (the principal) is required. In order to analyze a large amount of personal information, it is necessary to obtain consent from many individuals. The man-hours are enormous and the cost is very high. Alternatively, there may be cases where it is not possible to obtain the consent of the person, such as the person not consenting or the location of the person being unknown. Therefore, it was not easy for a third party to use personal information.
そこで、個人情報の利用を促進するような法令が制定されてきている。例えば、個人を識別することができないように加工された個人情報は、本人の同意なしに第三者が利用できるようになってきている。そこで、個人が識別することができないように個人情報を加工する技術が、提案されている。 Therefore, laws and regulations have been enacted to promote the use of personal information. For example, personal information that has been processed so that individuals cannot be identified can be used by third parties without the consent of the individual. Therefore, techniques for processing personal information so that individuals cannot be identified have been proposed.
個人を識別することができないように個人情報を加工する技術の一つして、匿名化がある(例えば、特許文献2ないし4を参照)。匿名化の処理は、まず、単独で個人を特定できる属性(「識別子」と呼ばれる)を削除する。さらに、匿名化の処理は、組み合わせると個人を特定できる属性(「準識別子」と呼ばれている)を所定の匿名化の強度を満足するように匿名化する。
Anonymization is one of techniques for processing personal information so that individuals cannot be identified (for example, see
匿名化のやり方(匿名化手法)としては、様々なやり方(手法)が存在している。ここで、匿名化のやり方とは、匿名化の種類に限らず、データをどの程度まで匿名化するか(匿名化強度)の違いを含む。 There are various methods (methods) for anonymization methods (anonymization methods). Here, the method of anonymization is not limited to the type of anonymization, and includes differences in the extent to which data is anonymized (anonymization strength).
最も多く用いられている匿名化手法として、「k-匿名化」がある。k-匿名化とは、全てのレコードをデータセットに分割し、各データセットの中に同じ準識別子(又は準識別子の組)を有するレコードが、少なくともk個以上存在するように、匿名化することである。k-匿名化における「k」が、k-匿名化における指標である。 One of the most commonly used anonymization techniques is "k-anonymization." K-anonymization divides all records into datasets and anonymizes them so that there are at least k records with the same quasi-identifier (or a set of quasi-identifiers) in each dataset. That is. “k” in k-anonymization is an index in k-anonymization.
「k」の値を大きくすると、匿名化後のデータにおいて個人を特定するのが難しくなる。つまり、個人のプライバシイの保護の観点からは、匿名化の指標を大きくすることが望ましい。 If the value of "k" is increased, it becomes difficult to identify individuals in the anonymized data. In other words, from the viewpoint of protecting individual privacy, it is desirable to increase the index of anonymization.
一方、匿名化の指標を大きくすると、匿名化後のデータにおける情報量の損失が大きくなる。 On the other hand, if the anonymization index is increased, the amount of information lost in the anonymized data increases.
そこで、個人情報を匿名化する場合、匿名化の指標を適切に決めることが必要である。 Therefore, when anonymizing personal information, it is necessary to appropriately determine an index for anonymization.
一般的な匿名化では、匿名化を実施する担当者(実施者)が、匿名化の対象となる個人情報と、データを利用する第三者などとを基に、準識別子における匿名化の指標を、匿名化が要求される場面ごとに、決めている。より詳細には、匿名化の実施者が、複数の匿名化を用いてデータを匿名化し、匿名化後のデータを確認して、匿名化を選択している。そのため、匿名化を決めるための作業に多くの工数が、必要となっている。さらに、必ずしも複数の実施者の判断が同じとなるとは限られない。そのため、実施者に依存した匿名化が実施されている。 In general anonymization, the person in charge of anonymization (implementer) determines the anonymization index for the quasi-identifier based on the personal information to be anonymized and the third party who uses the data. is determined for each scene where anonymization is required. More specifically, the anonymization implementer anonymizes data using multiple anonymization methods, checks the data after anonymization, and selects anonymization. Therefore, many man-hours are required for the work for deciding on anonymization. Furthermore, the judgments of multiple practitioners are not necessarily the same. Therefore, anonymization is implemented depending on the implementer.
さらに、個人情報に複数の準識別子が含まれる場合、各準識別子に対して匿名化の指標を決める必要がある。この場合、実施者は、複数の準識別子それぞれに対する指標(指標の組合せ)を決める必要がある。 Furthermore, when personal information includes multiple quasi-identifiers, it is necessary to determine an anonymization index for each quasi-identifier. In this case, the implementer needs to determine an index (combination of indices) for each of the multiple quasi-identifiers.
この場合、多くの選択肢があるため、多くの匿名化後のデータを確認して匿名化を決める必要があった。その結果、匿名化後のデータの確認のための、多くの作業が必要とされている。 In this case, since there are many options, it was necessary to check a lot of data after anonymization and decide on anonymization. As a result, much work is needed to verify data after anonymization.
匿名化手法に対して他の匿名化手法と比較するための指標又は評価値を算出できると、実施者は、その値を比較することで、匿名化手法を選択できる。そこで、匿名化を比較するための値の算出が望まれている。 If an index or an evaluation value for comparing an anonymization method with other anonymization methods can be calculated, the implementer can select an anonymization method by comparing the values. Therefore, calculation of a value for comparing anonymization is desired.
特許文献1に記載の発明は、コンテンツにおける同義語を処理するものであり、匿名化に関するものではない。
The invention described in
特許文献2ないし4に記載の発明は、匿名化に関するものであるが、複数の匿名化を比較するものではない。
The inventions described in
特許文献1ないし4に記載の発明は、匿名化を比較できないという問題点があった。
The inventions described in
本発明の目的は、上記問題点を解決し、匿名化の比較に用いるための値を算出する情報処理装置などを提供することにある。 An object of the present invention is to solve the above problems and to provide an information processing apparatus or the like that calculates a value for use in anonymization comparison.
本発明の一形態における情報処理装置は、確信度を算出するモデルを用いて匿名化前データにおける確信度である匿名化前確信度を算出する匿名化前確信度算出手段と、匿名化前データに匿名化手法を適用して匿名化後データを作成する匿名化手段と、匿名化手法の匿名化強度を算出する匿名化強度算出手段と、モデルを用いて、匿名化後データにおける確信度である匿名化後確信度を算出する匿名化後確信度算出手段と、匿名化前確信度と匿名化後確信度との差と、匿名化強度とを基に匿名化手法の評価値を算出する評価値算出手段とを含む。 An information processing apparatus according to one embodiment of the present invention includes pre-anonymization certainty calculation means for calculating pre-anonymization certainty, which is the certainty in pre-anonymized data using a model for calculating certainty, and pre-anonymization data An anonymization method that creates anonymized data by applying an anonymization method to the anonymization method, and an anonymization strength calculation method that calculates the anonymization strength of the anonymization method An anonymization method evaluation value is calculated based on a post-anonymization confidence calculation means for calculating a certain post-anonymization confidence, the difference between the pre-anonymization confidence and the post-anonymization confidence, and the anonymization strength. and evaluation value calculation means.
本発明の一形態における情報処理方法は、確信度を算出するモデルを用いて匿名化前データにおける確信度である匿名化前確信度を算出し、匿名化前データに匿名化手法を適用して匿名化後データを作成し、匿名化手法の匿名化強度を算出し、モデルを用いて、匿名化後データにおける確信度である匿名化後確信度を算出し、匿名化前確信度と匿名化後確信度との差と、匿名化強度とを基に匿名化手法の評価値を算出する。 An information processing method according to one embodiment of the present invention calculates a pre-anonymization confidence that is a confidence in pre-anonymization data using a model for calculating confidence, and applies an anonymization method to the pre-anonymization data. Create post-anonymization data, calculate the anonymization strength of the anonymization method, use the model to calculate the post-anonymization confidence that is the confidence in the anonymization data, and compare the confidence before anonymization and anonymization An evaluation value of the anonymization method is calculated based on the difference from the posterior confidence and the anonymization strength.
本発明の一形態におけるプログラムは、確信度を算出するモデルを用いて匿名化前データにおける確信度である匿名化前確信度を算出する処理と、匿名化前データに匿名化手法を適用して匿名化後データを作成する処理と、匿名化手法の匿名化強度を算出する処理と、モデルを用いて、匿名化後データにおける確信度である匿名化後確信度を算出する処理と、匿名化前確信度と匿名化後確信度との差と、匿名化強度とを基に匿名化手法の評価値を算出する処理とをコンピュータに実行させる。
A program in one embodiment of the present invention includes a process of calculating pre-anonymization confidence, which is confidence in pre-anonymized data, using a confidence calculation model, and applying an anonymization method to pre-anonymization data. Processing to create data after anonymization, processing to calculate the anonymization strength of the anonymization method, processing to calculate the degree of confidence after anonymization, which is the degree of confidence in the data after anonymization, using a model, and anonymization A computer is caused to execute a process of calculating an evaluation value of an anonymization method based on the difference between the pre-confidence and the post-anonymization confidence and the anonymization strength.
本発明に基づけば、匿名化の比較に用いるための値を算出するとの効果を奏することができる。 According to the present invention, it is possible to obtain an effect of calculating a value to be used for anonymization comparison.
次に、本発明の実施形態について図面を参照して説明する。 Next, embodiments of the present invention will be described with reference to the drawings.
なお、各図面は、本発明の実施形態を説明するためのものである。ただし、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明を、省略する場合がある。また、以下の説明に用いる図面において、本発明の説明に関係しない部分の構成については、記載を省略し、図示しない場合もある。 In addition, each drawing is for demonstrating embodiment of this invention. However, the present invention is not limited to the description of each drawing. In addition, the same numbers are assigned to the same configurations in each drawing, and repeated descriptions thereof may be omitted. In addition, in the drawings used for the following description, the description of the configuration of the portion that is not related to the description of the present invention may be omitted and may not be illustrated.
<第1の実施形態>
以下、図面を参照して、第1の実施形態について説明する。<First embodiment>
A first embodiment will be described below with reference to the drawings.
本発明における第1の実施形態に係る情報処理装置10は、データの匿名化に関連する。
The
そこで、まず、データの匿名化について説明する。 Therefore, first, the anonymization of data will be explained.
図6は、データの匿名化を説明するための図である。 FIG. 6 is a diagram for explaining anonymization of data.
図6の上部が、匿名化前のデータである。図6の下部が、匿名化後のデータである。図6において、例えば、属性「年齢」は、20歳の幅のデータに変換されている。そのため、匿名化後データの利用者が匿名化後データを用いて個人の年齢を特定しようとしても、利用者は、年齢幅20歳の範囲までしか、個人を限定できない。あるいは、属性「市区町村」は、削除されている。そのため、利用者が、個人の住所を特定しようとしても、都道府県までしか特定できない。 The upper part of FIG. 6 is the data before anonymization. The lower part of FIG. 6 is the data after anonymization. In FIG. 6, for example, the attribute "age" is converted into data with a width of 20 years. Therefore, even if the user of the anonymized data tries to specify the age of the individual using the anonymized data, the user can only limit the individual to an age range of 20 years old. Alternatively, the attribute "city" is deleted. Therefore, even if a user tries to identify an individual's address, it can only identify up to the prefecture.
ただし、匿名化手法は、一つではない。図面を参照して、匿名化手法の例を説明する。 However, there is more than one anonymization method. An example of an anonymization method will be described with reference to the drawings.
図2は、匿名化の対象データの一例を示す図である。図2の上部は、顧客の個人情報の一例である。図2の下部は、購入履歴に関する情報の一例である。 FIG. 2 is a diagram showing an example of anonymization target data. The upper part of FIG. 2 is an example of a customer's personal information. The lower part of FIG. 2 is an example of information about purchase history.
例えば、図2のデータが利用者に提供された場合、データの利用者は、図2の情報から、「千葉県市原市に住む15歳の男子学生である山田太郎が、2017年9月19日12時30分に、千葉店でAパンを購入したこと」が分かる。 For example, when the data in FIG. 2 is provided to the user, the user of the data can read from the information in FIG. At 12:30 on the day, you can see that A bread was purchased at the Chiba store.
図3は、匿名化手法の一例の匿名化後のデータを示す図である。図3に示されている匿名化後データは、会員ID(Identifier)及び名前など、個人を特定できる属性(識別子)を削除し、残り属性を匿名化している。 FIG. 3 is a diagram showing data after anonymization as an example of an anonymization method. In the anonymized data shown in FIG. 3, attributes (identifiers) that can identify an individual, such as a member ID (Identifier) and name, are deleted, and the remaining attributes are anonymized.
図3のデータが利用者に提供された場合、データ利用者は、図3の情報から、「千葉県市原市に住む10代の男子学生が、12時台に千葉店でAパンを購入したこと」が分かる。 When the data in Fig. 3 is provided to the user, the data user can read from the information in Fig. 3, "A male student in his teens who lives in Ichihara City, Chiba Prefecture purchased bread A at the Chiba store around 12:00. I understand that.
図4は、匿名化手法の別の例の匿名化後のデータを示す図である。図4に示されている匿名化手法は、図3に示されている匿名化手法と比べ、データをより汎化している。 FIG. 4 is a diagram showing data after anonymization by another example of anonymization method. The anonymization technique shown in FIG. 4 generalizes the data more than the anonymization technique shown in FIG.
図4のデータが利用者に提供された場合、データの利用者は、図4の情報から、「千葉県に住む19歳以下の男子学生が、12時から14時の間に千葉でパンを購入したこと」が分かる。 When the data in Fig. 4 is provided to the user, the user of the data can read from the information in Fig. 4, "A male student aged 19 or younger living in Chiba purchased bread in Chiba between 12:00 and 14:00. I understand that.
図4に示されている匿名化手法の方が、より情報が汎化されている。しかし、図4に示されている匿名化手法は、利用可能な情報量が少ない。 The anonymization technique shown in FIG. 4 generalizes the information more. However, the anonymization approach shown in FIG. 4 has a low amount of information available.
実際の匿名化においては、複数の匿名化の中から適切な匿名化を選択する必要がある。一般的な匿名化において、匿名化の実施者が、複数の匿名化の結果を基に、恣意的に匿名化を選択していた。しかし、この場合、匿名化は、実施者ごとに、異なる可能性があった。 In actual anonymization, it is necessary to select appropriate anonymization from multiple anonymization methods. In general anonymization, the anonymizer arbitrarily selected anonymization based on multiple anonymization results. However, in this case, anonymization could be different for each practitioner.
第1の実施形態に係る情報処理装置10は、匿名化手法を評価するための指標(評価値)を算出する。
The
[構成の説明]
まず、図面を参照して、本発明における第1の実施形態に係る情報処理装置10の構成について説明する。[Description of configuration]
First, the configuration of an
図1は、第1の実施形態に係る情報処理装置10の構成の一例を示すブロック図である。
FIG. 1 is a block diagram showing an example configuration of an
情報処理装置10は、匿名化部201と、匿名化前確信度算出部202と、匿名化後確信度算出部203と、評価値算出部204と、匿名化強度算出部211とを含む。情報処理装置10は、さらに、学習用特徴量算出部103と、学習部104とを含む。情報処理装置10は、さらに、匿名化手法選択部205を含む。
情報処理装置10は、匿名化手法の評価として、確信度を用いる。情報処理装置10は、確信度の算出に所定のモデルを用いる。
The
「確信度」とは、データを用いた判定結果に対して、どのくらいの確信が持てるかの度合い(確からしさ)を表す値である。確信度は、限定されない。確信度は、利用が想定される場面(想定ユースケース)と、確信度の算出に用いられるデータとを基に決定される。例えば、利用者の情報から飲料の購入を予測する場合、モデルは、入力された利用者の情報に対して、その利用者が飲料を購買する確率(判定に対する正解の程度(正解率))を出力する。この確率が、確信度の一例である。なお、確信度は、確率のような0から1までの範囲の数値に限定されない。確信度は、他の範囲の数値でもよい。 The “certainty degree” is a value that indicates the degree of certainty (likelihood) with respect to the determination result using data. Confidence is not limited. The degree of certainty is determined based on the scene in which use is assumed (assumed use case) and the data used to calculate the degree of certainty. For example, when predicting the purchase of a drink from user information, the model calculates the probability that the user will purchase a drink (the degree of correctness for the judgment (correct answer rate)) for the input user information. Output. This probability is an example of confidence. Note that the degree of certainty is not limited to a numerical value ranging from 0 to 1 like the probability. Confidence may have other ranges of values.
「モデル」は、想定ユースケースに沿って選定される。例えば、モデルは、過去において想定ユースケースに近いケースに用いられたモデルの中から選定される。後ほど説明するように、情報処理装置10は、モデルを学習する。そのため、モデルは、想定ユースケースとは異なるケースに適用されたモデルでもよい。ただし、想定ユースケースに近いケースに用いられたモデルを用いると、学習における収束が早くなる。
The “model” is selected according to the assumed use case. For example, the model is selected from models that have been used in the past for cases close to the assumed use case. As will be described later, the
学習用特徴量算出部103は、学習部104がモデルの学習に用いる教師データを、取得する。そして、学習用特徴量算出部103は、教師データを基に、学習部104がモデルの学習に用いる特徴量(学習用特徴量)を算出する。
The learning feature
情報処理装置10が取得する教師データは、限定されない。例えば、教師データは、情報処理装置10の利用者が、匿名化の対象となるデータ(対象データ)の一部に対して、想定される利用ケースにおける正誤の値を設定したデータでもよい。
The teacher data acquired by the
利用者における対象データの作成の一例を説明する。まず、利用者は、匿名化後のデータの想定ユースケースを基に、対象データの中から、正誤を判定できる一部のデータを抽出する。そして、利用者は、抽出した対象データにおいて、識別子など単独で個人を特定できる属性を削除する。さらに、利用者は、想定利用ユースケースを基に、不要な属性を削除する。そして、利用者は、想定ユースケースを基に、抽出した対象データに正誤の判定結果を設定する。この結果が、教師データとなる。 An example of creating target data by a user will be described. First, the user extracts a portion of the target data that can be judged correct or incorrect based on the assumed use case of the anonymized data. Then, the user deletes an attribute such as an identifier that can identify an individual alone from the extracted target data. Furthermore, the user deletes unnecessary attributes based on the assumed usage use case. Based on the assumed use case, the user sets the correctness/incorrectness judgment result for the extracted target data. This result becomes teacher data.
なお、情報処理装置10は、ディープラーニングなどを用いて所定のデータの集合(例えば、対象データ)から教師データを作成又は抽出する構成を含み、その構成を用いて教師データを作成又は抽出してもよい。
The
なお、教師データは、対象データの一部に限定されない。教師データは、所定の知見を基に作成されたデータでもよい。教師データは、対象データの一部と、他のデータとを含んでいてもよい。 Note that the teacher data is not limited to part of the target data. The teacher data may be data created based on predetermined knowledge. The teacher data may include part of the target data and other data.
学習用特徴量算出部103が算出する特徴量は、限定されない。特徴量は、学習部104におけるモデルの学習に合わせて決定される。
The feature amount calculated by the learning feature
特徴量の一例は、スカラ値である。例えば、対象データが属性として「性別」を含む場合、学習用特徴量算出部103は、性別を二値(例えば、男性を「0」、女性を「1」)に変換してもよい。特徴量は、二値に限られず、二を超える複数の値を取ってもよい。特徴量は、整数に限られず、小数又は分数など有理数でもよい。
An example of a feature quantity is a scalar value. For example, when the target data includes "gender" as an attribute, the learning feature
あるいは、特徴量は、ベクトルでもよい。例えば、対象データが属性として複数の職業を含む場合、学習用特徴量算出部103は、職業の特徴量として、ベクトルを算出してもよい。例えば、属性「職業」が4種類(学生、会社員、主婦、及び、公務員)の属性値を含むとする。この場合、例えば、学習用特徴量算出部103は、属性「職業」の属性値が「会社員」の対象データの特徴量として、ベクトル(0,1,0,0)を算出する。
Alternatively, the feature quantity may be a vector. For example, when the target data includes a plurality of occupations as attributes, the learning feature
図5は、第1の実施形態に係る学習用特徴量算出部103が算出する特徴量の一例を示す図である。学習用特徴量算出部103は、図5の上部に示されている教師データを、下部に示されている特徴量のデータに変換する。図5に示されている特徴量を説明する。
FIG. 5 is a diagram showing an example of feature amounts calculated by the learning feature
属性「性別」は、二値(男が「0」、女が「1」)に変換されている。属性「年齢」は、文字データから整数に変換されている。属性「職業」は、「ベクトル(学生、会社員、主婦、公務員)」における対応する要素を「1」、その他の要素を「0」としたベクトルに変換されている。属性「都道府県」は、都道府県に割り振った数値(整数)に変換されている。属性「購入時間」は、小数2位までの数値(有理数)に変換されている。属性「店舗エリア」は、店舗エリアを示す数値(整数)に変換されている。属性「数(購入数)」は、元のデータが数値(整数)のため、そのまま整数の値となっている。属性「正誤」は、二値(正が「1」、誤が「0」)に変換されている。 The attribute "gender" is converted to binary values ("0" for male and "1" for female). The attribute "age" is converted from character data to an integer. The attribute "occupation" is converted into a vector in which the corresponding element in the "vector (student, office worker, housewife, civil servant)" is "1" and the other elements are "0". The attribute "prefecture" is converted into a numerical value (integer) assigned to each prefecture. The attribute "purchase time" is converted into a numerical value (rational number) with two decimal places. The attribute "store area" is converted into a numerical value (integer) indicating the store area. The attribute "number (number of purchases)" is an integer value as it is because the original data is a numerical value (integer). The attribute "correct/incorrect" is converted to a binary value (correct is "1" and incorrect is "0").
ただし、情報処理装置10が用いる特徴量は、図5に限定されない。情報処理装置10は、図5と異なる特徴量を用いてもよい。
However, the feature amount used by the
図1を参照した説明に戻る。 Returning to the description with reference to FIG.
学習部104は、学習用特徴量算出部103が算出した特徴量を用いて、データにおける「確信度」を算出するモデルを作成及び学習する。学習部104における機械学習は、限定されない。学習部104は、例えば、使用する機械学習として、サポートベクタマシン、ニューラルネット、又は、ベイズ分類器を用いればよい。なお、教師データを用いているため、学習部104における学習は、教師あり学習である。
The
また、学習部104は、学習対象のモデルとして、予め保持するモデルを用いてもよい。あるいは、学習部104は、学習の際に、図示しない外部の装置からモデルを取得してもよい。
In addition, the
なお、情報処理装置10は、教師データとして特徴量を取得してもよい。この場合、学習部104が教師データを受信して学習を実行すればよい。そのため、この場合、情報処理装置10は、学習用特徴量算出部103を含まなくてもよい。
Note that the
モデルの学習が終了すると、情報処理装置10は、対象データの匿名化を開始する。なお、教師データが対象データの一部を用いている場合、情報処理装置10は、以下の説明において、教師データに用いたデータを除いた対象データを用いる。
When model learning ends, the
なお、対象データは、一般的な匿名化における前処理(例えば、識別子と不要な属性の削除)が終了したデータである。 Note that the target data is data that has undergone general anonymization preprocessing (for example, deletion of identifiers and unnecessary attributes).
匿名化前確信度算出部202は、匿名化の対象である対象データ(匿名化前データ)をモデルに適用して確信度(匿名化前確信度)を算出する。匿名化前確信度算出部202は、必要に応じて、学習用特徴量算出部103と同様のやり方を用いて、対象データの特徴量を算出する。
The pre-anonymization
匿名化部201は、匿名化手法を取得する。そして、匿名化部201は、取得した匿名化手法を用いて、対象データを匿名化する。匿名化部201が用いる匿名化手法は、限定されない。例えば、匿名化部201は、「k-匿名化」、「l-多様化」及び/又は「t-近接化」などを用いてもよい。「l-多様化」は、「l」種類以上の属性を含むように、データを匿名化することである。「t-近接化」は、k-匿名化前後におけるデータの分布を近づけるように、データを匿名化することである。
The
匿名化部201が取得する匿名化手法の取得元は、限定されない。例えば、匿名化部201は、利用者の端末装置から評価対象となる匿名化手法を受信してもよい。あるいは、匿名化部201は、図示しない記憶装置に予め保存されている複数の匿名化から所定の選択規則に沿って、匿名化手法を選択してもよい。
The acquisition source of the anonymization method acquired by the
匿名化強度算出部211は、匿名化部201が用いた匿名化手法に対する匿名化強度を算出する。
The anonymization
第1の実施形態に係る匿名化強度は、限定されない。匿名化強度は、匿名化手法及び想定ユースケースを基に決定されればよい。次に示す「数1」は、k-匿名化を用いた場合の匿名化強度Zの一例である。
The anonymization strength according to the first embodiment is not limited. The anonymization strength should be determined based on an anonymization method and an assumed use case. The following “
[数1]
Z=(a・K)+b・(1/L)+(c・T)
数1において、「a」、「b」、及び「c」は、それぞれ、所定の重みである。「K」は、k-匿名化における「k(指標値)」である。「K」の値が多いほど(つまり、同じ値の属性の数が多いほど)、匿名化強度Zは、高くなる。「L」は、属性の数である。「L」の値の少ないほど(つまり、個人を特定するために組み合わせることができる属性が少ないほど)、匿名化強度Zは、高くなる。Tは、匿名化における汎化の程度を示す値である。例えば、Tは、時間を匿名化する場合における時間幅に対応した値である。具体的に例示すると、時間幅が1時間の場合にTを「1」とし、時間幅が2時間の場合にTを「2」とする。「T」の値が大きいほど(つまり、より範囲が広く匿名化されるほど)、匿名化強度Zは、高くなる。なお、匿名化強度Zは、正の値である。[Number 1]
Z=(a*K)+b*(1/L)+(c*T)
In
ここまでの説明では、k-匿名化を用いて説明しているが、本実施形態は、k-匿名化に限定されない。例えば、情報処理装置10は、k-匿名化に加え、l-多様化及び/又はt-近接化を用いてもよい。この場合、情報処理装置10は、匿名化強度にこれらの匿名化の指標を追加してもよい。
Although k-anonymization has been used in the description so far, this embodiment is not limited to k-anonymization. For example, the
匿名化後確信度算出部203は、匿名化部201において匿名化された匿名化後データをモデルに適用して確信度(匿名化後確信度)を算出する。匿名化後確信度算出部203は、匿名化前確信度算出部202と同様に、必要に応じて、学習用特徴量算出部103と同様のやり方を用いて、匿名化後のデータの特徴量を算出する。
The post-anonymization
評価値算出部204は、匿名化前確信度と、匿名化後確信度と、匿名化強度とを用いて、匿名化手法に対する評価値を算出する。
The evaluation
望ましい匿名化手法は、匿名化前確信度と匿名化後確信度のとの差が小さく(つまり、匿名化の前後で確信度の変化が少ない)、かつ、匿名化強度が大きい(つまり、個人が特定されにくい)匿名化手法である。そこで、評価値算出部204は、匿名化手法の評価値として、匿名化前確信度と匿名化後確信度との差が小さいと値が大きくなり、かつ、匿名化強度が高いと値が大きくなる評価値を算出する。
A desirable anonymization method has a small difference between pre-anonymization confidence and post-anonymization confidence (that is, little change in confidence before and after anonymization) and a high anonymization strength (that is, individual is difficult to identify) is an anonymization method. Therefore, as the evaluation value of the anonymization method, the evaluation
評価値Aの計算式の一例を、「数2」に示す。
An example of the formula for calculating the evaluation value A is shown in "
[数2]
[Number 2]
数2において、右辺の第1項が、確信度の差の項である。第2項が、匿名化強度の項である。「d」及び「e」は、確信度の差と匿名化強度との比率を決める所定の重みである。「n」は、対象データの数である。「xi」は、匿名化前確信度(つまり、対象データの確信度)である。「yi」は、匿名化後確信度(つまり、匿名化後データの確信度)である。右辺の第1項は、匿名化の前後における確信度の変化の絶対値の平均値である。第2項のZは、上記で説明した匿名化強度である。In
第1項は、匿名化前後の確信度の差が小さいほど0に近い負の値となり、確信度の差が大きいほど絶対値が大きな負の値となる。第2項は、匿名化強度が大きいほど大きな正の値となり、匿名化強度が小さいほど小さな正の値となる。 The first term has a negative value close to 0 when the difference in confidence before and after anonymization is small, and a negative value with a large absolute value when the difference in confidence is large. The second term takes a larger positive value as the anonymization strength increases, and takes a smaller positive value as the anonymization strength decreases.
評価値算出部204は、算出した評価値を所定の装置(例えば、匿名化手法の評価を依頼した装置)に出力する。評価値算出部204は、図示しない表示装置に評価値を表示してもよい。
The evaluation
情報処理装置10は、一つに限られず、複数の匿名化手法の評価値を算出してもよい。
The
匿名化手法選択部205は、複数の匿名化手法の中から、評価値が最大となる匿名化手法、評価値が所定の閾値より大きい匿名化手法、又は、評価値が大きい方から所定の数の匿名化手法を選択する。そして、匿名化手法選択部205は、選択した匿名化手法を所定の装置に出力する。
The anonymization
あるいは、匿名化手法選択部205は、次のように動作してもよい。
Alternatively, the anonymization
匿名化手法選択部205は、評価値が所定の条件を満たすか否かを判定する。例えば、匿名化手法選択部205は、評価値が所定の閾値を越えているか否かを判定する。
The anonymization
評価値が所定の条件を満たさない場合、匿名化手法選択部205は、複数の匿名化手法の中から選択していない別の匿名化手法を選択する。そして、匿名化手法選択部205は、選択した匿名化手法を用いて、匿名化部201、匿名化後確信度算出部203、匿名化強度算出部211、及び評価値算出部204に同様動作を実行させ、選択した匿名化手法の評価値を取得する。匿名化手法選択部205は、評価値が所定の条件を満足するまで、匿名化手法を選択して各構成に同様の動作を繰り返させる。
If the evaluation value does not satisfy the predetermined condition, the anonymization
評価値が所定の閾値を越えた場合、匿名化手法選択部205は、その匿名化手法を出力する。
When the evaluation value exceeds a predetermined threshold, the anonymization
このような動作を基に、情報処理装置10は、評価値が所定の条件を満足する匿名化手法を選択できる。
Based on such operations, the
なお、情報処理装置10は、他の装置で学習したモデルを取得してもよい。この場合、情報処理装置10は、学習用特徴量算出部103と学習部104とを含まなくてもよい。
Note that the
[動作の説明]
次に、図面を参照して、第1の実施形態に係る情報処理装置10の動作について説明する。[Explanation of operation]
Next, operation of the
まず、図面を参照して、教師データを用いてモデルを学習するまでの動作を説明する。 First, referring to the drawings, the operation up to learning a model using teacher data will be described.
図7は、第1の実施形態に係る情報処理装置10におけるモデルを作成する動作の一例を示すフロー図である。
FIG. 7 is a flowchart showing an example of the operation of creating a model in the
学習用特徴量算出部103は、所定の記憶装置又は処理装置から教師データを取得する(ステップA301)。
The learning feature
学習用特徴量算出部103は、教師データから、確信度を算出するためのモデルの学習に用いる特徴量(学習用特徴量)を算出する(ステップA302)。
The learning feature
学習部104は、学習用特徴量を用いて、モデルを学習する(ステップA303)。
The
想定ユースケースが複数ある場合、学習用特徴量算出部103及び学習部104は、それぞれの想定ユースケースに対する教師データとモデルとを用いて、上記の動作を実行する。
When there are a plurality of assumed use cases, the learning feature
次に、図面を参照して、匿名化手法の評価値を算出する動作を説明する。 Next, the operation of calculating the evaluation value of the anonymization method will be described with reference to the drawings.
図8は、第1の実施形態に係る情報処理装置10における匿名化手法の評価値を算出する動作の一例を示すフロー図である。
FIG. 8 is a flowchart showing an example of the operation of calculating the evaluation value of the anonymization method in the
匿名化前確信度算出部202は、対象データ(匿名化前データ)をモデルに適用して匿名化前確信度を算出する(ステップB301)。
The pre-anonymization
匿名化部201は、匿名化手法を用いて、対象データを匿名化する(ステップB304)。
The
匿名化強度算出部211は、匿名化手法の匿名化強度を算出する(ステップB305)。
The
匿名化後確信度算出部203は、匿名化された対象データ(匿名化後データ)をモデルに適用して、匿名化後データに対する確信度(匿名化後確信度)を算出する(ステップB306)。
The post-anonymization
評価値算出部204は、匿名化強度と、匿名化前確信度と、匿名化後確信度とを用いて、匿名化手法の評価値を算出する(ステップB307)。
The evaluation
評価値算出部204は、算出した評価値を出力する(ステップB309)。
The evaluation
このような動作を基に、情報処理装置10は、匿名化手法に対する評価値を出力する。
Based on such operations, the
なお、情報処理装置10は、匿名化手法選択部205を用いて、複数の匿名化手法から、評価値が特定の条件(例えば、評価値が閾値より大きい)を満足する匿名化手法を選択してもよい。
Note that the
図9は、第1の実施形態に係る匿名化手法選択部205の動作を含む情報処理装置10の動作の一例を示すフロー図である。図9において、図8と同様の動作の説明については、適宜省略する。
FIG. 9 is a flowchart showing an example of operations of the
匿名化前確信度を算出後、匿名化手法選択部205は、匿名化手法を選択し、匿名化部201に渡す(ステップB303)。
After calculating the pre-anonymization certainty factor, the anonymization
匿名化手法選択部205のおける上記の動作の一例を説明する。匿名化前確信度算出部202は、匿名化前確信度を算出すると、匿名化手法選択部205に算出の終了を通知する。通知を受けると、匿名化手法選択部205は、複数の匿名化手法の中から、所定に規則に沿って最初に使用する匿名化手法を選択する。なお、2回目以降においては、匿名化手法選択部205は、取得した評価値を用いて、匿名化手法を選択する。そして、匿名化手法選択部205は、選択した匿名化手法を匿名化部201に渡す。そして、匿名化手法選択部205は、匿名化部201、匿名化後確信度算出部203、匿名化強度算出部211、及び評価値算出部204に既に説明した動作と同様動作を実行させ、選択した匿名化手法の評価値を取得する。ただし、上記の説明は、匿名化手法選択部205の動作の一例である。匿名化手法選択部205は、上記と異なるように動作してもよい。
An example of the above operation in the anonymization
情報処理装置10は、ステップB307までは、図8の同様に動作する。
The
匿名化手法選択部205は、評価値が所定の条件を満足するか否かを判定する(ステップB308)。
The anonymization
条件を満たさない場合(ステップB308でNo)、情報処理装置10は、ステップB303に戻る。そして、匿名化手法選択部205は、次の匿名化手法を選択する。以降、情報処理装置10は、条件を満足するまで動作を繰り返す。
If the condition is not satisfied (No in step B308), the
条件を満たす場合(ステップB308でYes)、情報処理装置10は、評価手法を出力する(ステップB310)。なお、この場合、匿名化手法選択部205は、匿名化手法に合わせて評価値を出力してもよい。あるいは、匿名化手法選択部205は、評価値算出部204に評価値の出力を依頼してもよい。
If the condition is satisfied (Yes in step B308), the
[効果の説明]
次に、第1の実施形態に係る情報処理装置10の効果を説明する。[Explanation of effect]
Next, effects of the
このように、第1の実施形態に係る情報処理装置10は、匿名化の比較に用いるための値を算出するとの効果を得ることができる。
In this way, the
その理由は、次のとおりである。 The reason is as follows.
情報処理装置10は、匿名化前確信度算出部202と、匿名化部201と、匿名化後確信度算出部203と、匿名化強度算出部211と、評価値算出部204とを含む。匿名化前確信度算出部202は、確信度を算出するモデルを用いて匿名化前データにおける確信度である匿名化前確信度を算出する。匿名化部201は、匿名化前データに匿名化手法を適用して匿名化後データを作成する。匿名化強度算出部211は、匿名化手法の匿名化強度を算出する。匿名化後確信度算出部203は、モデルを用いて、匿名化後データにおける確信度である匿名化後確信度を算出する。評価値算出部204は、匿名化前確信度と匿名化後確信度との差と、匿名化強度とを基に匿名化手法の評価値を算出する。
上記構成は、モデルと、匿名化手法と、対象データとが決まると、自動的に評価値を算出する。そのため、情報処理装置10の利用者は、情報処理装置10が算出した評価値を用いて、匿名化手法を判定することができる。例えば、利用者が複数の匿名化手法の中から適切な匿名化手法を選択する場合、利用者は、情報処理装置10を用いて全ての匿名化手法の評価値を算出し、最も評価値が高い匿名化手法を選択すればよい。
The above configuration automatically calculates the evaluation value when the model, the anonymization method, and the target data are determined. Therefore, the user of the
さらに、情報処理装置10は、評価値を所定の条件を満たす匿名化手法を提供するとの効果を奏することができる。
Furthermore, the
その理由は、情報処理装置10が、匿名化手法選択部205の動作を基に、評価値が所定の条件を満足するまで、匿名化手法の選択と、選択した匿名化手法の評価値の算出を繰り返し、所定の条件を満足する匿名化手法を出力するためである。
The reason is that the
さらに、情報処理装置10は、確信度の精度を向上するとの効果を奏することができる。
Furthermore, the
その理由は、情報処理装置10が、教師データを基に確信度を算出するモデルを学習する学習部104を含むためである。
The reason for this is that the
[実施形態の概要]
次に、図面を参照して、第1の実施形態に係る情報処理装置10の概要を説明する。[Overview of embodiment]
Next, an overview of the
図10は、第1の実施形態に係る情報処理装置10の概要である情報処理装置15の構成の一例を示すブロック図である。
FIG. 10 is a block diagram showing an example of a configuration of an
情報処理装置15は、匿名化前確信度算出部202と、匿名化部201と、匿名化後確信度算出部203と、匿名化強度算出部211と、評価値算出部204とを含む。匿名化前確信度算出部202は、確信度を算出するモデルを用いて匿名化前データにおける確信度である匿名化前確信度を算出する。匿名化部201は、匿名化前データに匿名化手法を適用して匿名化後データを作成する。匿名化強度算出部211は、匿名化手法の匿名化強度を算出する。匿名化後確信度算出部203は、モデルを用いて、匿名化後データにおける確信度である匿名化後確信度を算出する。評価値算出部204は、匿名化前確信度と匿名化後確信度との差と、匿名化強度とを基に匿名化手法の評価値を算出する。
上記構成は、モデルと、匿名化手法と、対象データとが決まると、自動的に評価値を算出する。そのため、情報処理装置15の利用者は、評価値を用いて、匿名化手法を比較することができる。
The above configuration automatically calculates the evaluation value when the model, the anonymization method, and the target data are determined. Therefore, the user of the
情報処理装置15は、情報処理装置10と同様の効果を奏することができる。
The
その理由は、上記の情報処理装置15の構成が、対応する情報処理装置10の構成と同様に動作するためである。
The reason is that the configuration of the
なお、情報処理装置15は、第1の実施形態の最小構成である。
The
[ハードウェア構成]
図面を参照して、第1の実施形態に係る情報処理装置10のハードウェアを説明する。[Hardware configuration]
Hardware of the
例えば、情報処理装置10の各構成部は、ハードウェア回路で構成されてもよい。
For example, each component of the
あるいは、情報処理装置10において、各構成部は、ネットワークを介して接続した複数の装置を用いて、構成されてもよい。
Alternatively, in the
あるいは、情報処理装置10において、複数の構成部は、1つのハードウェアで構成されてもよい。
Alternatively, in the
あるいは、情報処理装置100は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータ装置として実現されてもよい。情報処理装置100は、上記構成に加え、さらに、入出力接続回路(IOC:Input and Output Circuit)を含むコンピュータ装置として実現されてもよい。情報処理装置100は、上記構成に加え、さらに、ネットワークインターフェース回路(NIC:Network Interface Circuit)を含むコンピュータ装置として実現されてもよい。 Alternatively, the information processing apparatus 100 may be realized as a computer device including a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory). The information processing device 100 may be implemented as a computer device that further includes an input/output connection circuit (IOC: Input and Output Circuit) in addition to the above configuration. The information processing apparatus 100 may be realized as a computer apparatus that further includes a network interface circuit (NIC: Network Interface Circuit) in addition to the above configuration.
図11は、第1の実施形態に係る情報処理装置100のハードウェア構成の一例である情報処理装置600の構成を示すブロック図である。
FIG. 11 is a block diagram showing the configuration of an
情報処理装置600は、CPU610と、ROM620と、RAM630と、内部記憶装置640と、IOC650と、NIC680とを含み、コンピュータ装置を構成している。
The
CPU610は、ROM620からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、RAM630と、内部記憶装置640と、IOC650と、NIC680とを制御する。そして、CPU610を含むコンピュータは、これらの構成を制御し、図1に示されている各構成の機能を実現する。各構成とは、学習用特徴量算出部103、学習部104、匿名化前確信度算出部202と、匿名化部201と、匿名化後確信度算出部203と、評価値算出部204と、匿名化手法選択部205とである。
The
CPU610は、各機能を実現する際に、RAM630又は内部記憶装置640を、プログラムの一時記憶媒体として使用してもよい。
When implementing each function, the
また、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでもよい。あるいは、CPU610は、NIC680を介して、図示しない外部の装置からプログラムを受け取り、RAM630又は内部記憶装置640に保存して、保存したプログラムを基に動作してもよい。
Further, the
ROM620は、CPU610が実行するプログラム及び固定的なデータを記憶する。ROM620は、例えば、P-ROM(Programmable-ROM)又はフラッシュROMである。
The
RAM630は、CPU610が実行するプログラム及びデータを一時的に記憶する。RAM630は、例えば、D-RAM(Dynamic-RAM)である。
内部記憶装置640は、情報処理装置600が長期的に保存するデータ及びプログラムを記憶する。また、内部記憶装置640は、CPU610の一時記憶装置として動作してもよい。内部記憶装置640は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)又はディスクアレイ装置である。
The
ここで、ROM620と内部記憶装置640は、不揮発性(non-transitory)の記憶媒体である。一方、RAM630は、揮発性(transitory)の記憶媒体である。そして、CPU610は、ROM620、内部記憶装置640、又は、RAM630に記憶されているプログラムを基に動作可能である。つまり、CPU610は、不揮発性記憶媒体又は揮発性記憶媒体を用いて動作可能である。
Here, the
IOC650は、CPU610と、入力機器660及び表示機器670とのデータを仲介する。IOC650は、例えば、IOインターフェースカード又はUSB(Universal Serial Bus)カードである。さらに、IOC650は、USBのような有線に限らず、無線を用いてもよい。
入力機器660は、情報処理装置600の操作者からの入力指示を受け取る機器である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
The
表示機器670は、情報処理装置600の操作者に情報を表示する機器である。表示機器670は、例えば、液晶ディスプレイである。
The
NIC680は、図示しない外部の装置とのネットワークを介したデータのやり取りを中継する。NIC680は、例えば、LAN(Local Area Network)カードである。さらに、NIC680は、有線に限らず、無線を用いてもよい。NIC680は、モデル、対象データ、及び匿名化手法を受信する。さらに、NIC680は、教師データを受信する。
The
このように構成された情報処理装置600は、情報処理装置10と同様の効果を得ることができる。
The
その理由は、情報処理装置600のCPU610が、プログラムに基づいて情報処理装置10と同様の機能を実現できるためである。
The reason is that the
[情報処理システム]
図面を参照して、情報処理装置10を含む情報処理システム50の一例を説明する。[Information processing system]
An example of an
図12は、第1の実施形態に係る情報処理装置10を含む情報処理システム50の構成の一例を示すブロック図である。情報処理システム50は、情報処理装置10と、データ格納装置30と、表示装置40とを含む。
FIG. 12 is a block diagram showing an example configuration of an
各装置は、所定の通信網を用いて接続されている。 Each device is connected using a predetermined communication network.
データ格納装置30は、匿名化の対象となるデータ(対象データ)を格納する。さらに、データ格納装置30は、教師データを格納する。なお、情報処理装置10が、教師データとして、匿名化の対象となるデータの一部を用いる場合、データ格納装置30は、匿名化の対象となるデータとは別に教師データを保持せず、教師データとして用いるデータの範囲を保持してもよい。さらに、データ格納装置30は、匿名化手法を保持してもよい。
The
データ格納装置30は、さらにモデル(学習前のモデル)を保持してもよい。この場合、情報処理装置10は、データ格納装置30からモデルを取得する。
The
情報処理装置10は、データ格納装置30から、教師データと、匿名化の対象となるデータと、匿名化手法とを取得する。
The
そして、情報処理装置10は、上記の動作を基に匿名化手法の評価値を算出し、算出した評価値を表示装置40に送信する。情報処理装置10は、評価値に合わせて、匿名化手法及び/又は匿名化後データを送信してもよい。
Then, the
表示装置40は、受信した評価値を表示する。表示装置40は、他の情報(匿名化手法など)を表示してもよい。
The
情報処理システム50の利用者は、表示された評価値などを基に、匿名化手法を判定すればよい。
The user of the
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成及び詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
この出願は、2018年 3月 2日に出願された日本出願特願2018-037117を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority based on Japanese Patent Application No. 2018-037117 filed on March 2, 2018, and the entire disclosure thereof is incorporated herein.
本発明は、所定の解析等に利用するために、データ内に含まれる個人情報を匿名化する際に利用可能である。 INDUSTRIAL APPLICABILITY The present invention can be used when anonymizing personal information contained in data for use in predetermined analysis or the like.
10 情報処理装置
15 情報処理装置
30 データ格納装置
40 表示装置
50 情報処理システム
103 学習用特徴量算出部
104 学習部
201 匿名化部
202 匿名化前確信度算出部
203 匿名化後確信度算出部
204 評価値算出部
205 匿名化手法選択部
211 匿名化強度算出部
600 情報処理装置
610 CPU
620 ROM
630 RAM
640 内部記憶装置
650 IOC
660 入力機器
670 表示機器
680 NIC
700 記憶媒体10
620 ROMs
630 RAM
640
660
700 storage medium
Claims (5)
前記匿名化前データに匿名化手法を適用して匿名化後データを作成する匿名化手段と、
前記匿名化手法の匿名化強度を算出する匿名化強度算出手段と、
前記モデルを用いて、前記匿名化後データにおける前記確信度である匿名化後確信度を算出する匿名化後確信度算出手段と、
前記匿名化前確信度と前記匿名化後確信度との差と、前記匿名化強度とを基に前記匿名化手法の評価値を算出する評価値算出手段と
を含み、
前記匿名化強度算出手段が、前記匿名化手法の指標値、属性の数、及び、時間幅を用いて前記匿名化強度を算出し、
前記評価値が所定の条件を満たすか否かを判定し、
前記評価値が前記条件を満たさない場合に、前記評価値が前記条件を満たすまで、別の前記匿名化手法を選択して、前記匿名化手段、前記匿名化強度算出手段、前記匿名化後確信度算出手段、及び、前記評価値算出手段に、同様の動作を繰り返させる
匿名化選択手段をさらに含み、
前記匿名化選択手段は、前記評価値が大きい方から所定の数の前記匿名化手法を選択し、前記匿名化手法に合わせて前記評価値を出力する
情報処理装置。 Confidence before anonymization that calculates the pre-anonymization confidence that is the confidence in pre-anonymization data using a model that calculates the confidence that is the degree of correctness for the judgment result using data degree calculating means;
Anonymization means for applying an anonymization method to the data before anonymization to create data after anonymization;
Anonymization strength calculation means for calculating the anonymization strength of the anonymization method;
Post-anonymization confidence calculation means for calculating a post-anonymization confidence, which is the confidence in the anonymized data, using the model;
Evaluation value calculation means for calculating an evaluation value of the anonymization method based on the difference between the pre-anonymization confidence factor and the post-anonymization confidence factor and the anonymization strength,
The anonymization strength calculation means calculates the anonymization strength using the index value of the anonymization method, the number of attributes, and the time span ,
determining whether the evaluation value satisfies a predetermined condition;
If the evaluation value does not satisfy the condition, another anonymization method is selected until the evaluation value satisfies the condition, and the anonymization means, the anonymization strength calculation means, and the post-anonymization confidence are selected. causing the degree calculation means and the evaluation value calculation means to repeat the same operation
further comprising an anonymization option;
The anonymization selection means selects a predetermined number of the anonymization methods in descending order of the evaluation values, and outputs the evaluation values according to the anonymization methods.
Information processing equipment.
をさらに含む請求項1に記載の情報処理装置。 2. The information processing apparatus according to claim 1 , further comprising learning means for learning said model using teacher data.
をさらに含む請求項2に記載の情報処理装置。 learning feature quantity calculation means for acquiring the training data and calculating the feature quantity used by the model based on the training data;
3. The information processing apparatus according to claim 2, further comprising:
データを用いた判定結果に対して、前記判定結果に対する正解の程度である確信度を算出するモデルを用いて匿名化前データにおける前記確信度である匿名化前確信度を算出し、
前記匿名化前データに匿名化手法を適用して匿名化後データを作成し、
前記匿名化手法の匿名化強度を算出し、
前記モデルを用いて、前記匿名化後データにおける前記確信度である匿名化後確信度を算出し、
前記匿名化前確信度と前記匿名化後確信度との差と、前記匿名化強度とを基に前記匿名化手法の評価値を算出し、
前記匿名化強度の算出は、前記匿名化手法の指標値、属性の数、及び、時間幅を用いた前記匿名化強度の算出であり、
前記評価値が所定の条件を満たすか否かを判定し、
前記評価値が前記条件を満たさない場合に、前記評価値が前記条件を満たすまで、別の前記匿名化手法を選択して、前記匿名化後データの作成、前記匿名化強度の算出、前記匿名化後確信度の算出、及び、前記匿名化手法の前記評価値の算出の動作を繰り返させ、
前記評価値が大きい方から所定の数の前記匿名化手法を選択し、前記匿名化手法に合わせて前記評価値を出力する
情報処理方法。 the computer
Calculate the pre-anonymization confidence that is the confidence in the pre-anonymized data using a model that calculates the confidence that is the degree of correctness for the judgment result using the data,
creating post-anonymization data by applying an anonymization method to the pre-anonymization data;
Calculate the anonymization strength of the anonymization method,
Using the model, calculate the post-anonymization confidence that is the confidence in the anonymized data,
calculating an evaluation value of the anonymization method based on the difference between the pre-anonymization confidence factor and the post-anonymization confidence factor and the anonymization strength;
The calculation of the anonymization strength is calculation of the anonymization strength using the index value of the anonymization method, the number of attributes, and the time span ,
determining whether the evaluation value satisfies a predetermined condition;
If the evaluation value does not satisfy the condition, another anonymization method is selected until the evaluation value satisfies the condition, creating the anonymized data, calculating the anonymization strength, and anonymizing the data. Repeating the operation of calculating the confidence factor after anonymization and calculating the evaluation value of the anonymization method,
A predetermined number of the anonymization methods are selected in descending order of the evaluation values, and the evaluation values are output according to the anonymization methods.
Information processing methods.
前記匿名化前データに匿名化手法を適用して匿名化後データを作成する処理と、
前記匿名化手法の匿名化強度を算出する処理と、
前記モデルを用いて、前記匿名化後データにおける前記確信度である匿名化後確信度を算出する処理と、
前記匿名化前確信度と前記匿名化後確信度との差と、前記匿名化強度とを基に前記匿名化手法の評価値を算出する処理と
をコンピュータに実行させ、
前記匿名化強度を算出する処理が、前記匿名化手法の指標値、属性の数、及び、時間幅を用いて前記匿名化強度を算出する処理であり、
前記評価値が所定の条件を満たすか否かを判定し、
前記評価値が前記条件を満たさない場合に、前記評価値が前記条件を満たすまで、別の前記匿名化手法を選択して、前記匿名化後データの作成する処理、前記匿名化強度の算出する処理、前記匿名化後確信度の算出する処理、及び、前記匿名化手法の前記評価値の算出する処理を繰り返させる処理と、
前記評価値が大きい方から所定の数の前記匿名化手法を選択し、前記匿名化手法に合わせて前記評価値を出力する処理とをコンピュータに実行させる
プログラム。 A process of calculating the pre-anonymization confidence that is the confidence in pre-anonymization data using a model that calculates the confidence that is the degree of correctness for the judgment result using data;
A process of applying an anonymization method to the pre-anonymized data to create anonymized data;
A process of calculating the anonymization strength of the anonymization method;
A process of calculating the post-anonymization confidence level, which is the confidence level in the post-anonymization data, using the model;
causing a computer to perform a process of calculating an evaluation value of the anonymization method based on the difference between the pre-anonymization confidence factor and the post-anonymization confidence factor and the anonymization strength,
The process of calculating the anonymization strength is a process of calculating the anonymization strength using the index value of the anonymization method, the number of attributes, and the time span ,
determining whether the evaluation value satisfies a predetermined condition;
If the evaluation value does not satisfy the condition, another anonymization method is selected until the evaluation value satisfies the condition, processing to create the anonymized data, and calculation of the anonymization strength. processing, processing for calculating the degree of confidence after anonymization, and processing for repeating the processing for calculating the evaluation value of the anonymization method;
causing a computer to execute a process of selecting a predetermined number of the anonymization methods in descending order of the evaluation values and outputting the evaluation values in accordance with the anonymization methods;
program.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037117 | 2018-03-02 | ||
JP2018037117 | 2018-03-02 | ||
PCT/JP2019/008017 WO2019168144A1 (en) | 2018-03-02 | 2019-03-01 | Information processing device, information processing system, information processing method, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019168144A1 JPWO2019168144A1 (en) | 2020-12-10 |
JP7151759B2 true JP7151759B2 (en) | 2022-10-12 |
Family
ID=67805479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020503639A Active JP7151759B2 (en) | 2018-03-02 | 2019-03-01 | Information processing device, information processing method, and program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7151759B2 (en) |
WO (1) | WO2019168144A1 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112020005679T5 (en) * | 2020-01-14 | 2022-09-29 | Mitsubishi Electric Corporation | ANONYMOUS PROCESSING EVALUATION SYSTEM, ANONYMOUS PROCESSING EVALUATION PROCEDURE AND ANONYMOUS PROCESSING EVALUATION PROGRAM |
JP7219734B2 (en) * | 2020-03-25 | 2023-02-08 | Kddi株式会社 | Evaluation device, evaluation method and evaluation program |
JP7359063B2 (en) * | 2020-03-31 | 2023-10-11 | 富士通株式会社 | Generation method, generation program, and generation device |
US20220083822A1 (en) * | 2020-09-11 | 2022-03-17 | Actapio, Inc. | Classification apparatus, classification method, a non-transitory computer-readable storage medium |
JP7453707B2 (en) | 2022-07-27 | 2024-03-21 | Aicro株式会社 | Personal information anonymization system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013088681A1 (en) | 2011-12-15 | 2013-06-20 | 日本電気株式会社 | Anonymization device, anonymization method, and computer program |
JP2016095641A (en) | 2014-11-13 | 2016-05-26 | ニフティ株式会社 | Evaluation creation device, evaluation creation method, and evaluation creation program |
JP2016139261A (en) | 2015-01-27 | 2016-08-04 | 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ | Anonymization processor, anonymization processing method, and program |
JP2016181196A (en) | 2015-03-25 | 2016-10-13 | 日本電気株式会社 | Information processing apparatus, information processing method, and program |
JP2017027137A (en) | 2015-07-16 | 2017-02-02 | 日本電気株式会社 | Information processing device, information processing method, and program |
US20170221081A1 (en) | 2014-09-30 | 2017-08-03 | Pcms Holdings, Inc. | System and method for use in a secure personal data marketplace |
-
2019
- 2019-03-01 WO PCT/JP2019/008017 patent/WO2019168144A1/en active Application Filing
- 2019-03-01 JP JP2020503639A patent/JP7151759B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013088681A1 (en) | 2011-12-15 | 2013-06-20 | 日本電気株式会社 | Anonymization device, anonymization method, and computer program |
US20170221081A1 (en) | 2014-09-30 | 2017-08-03 | Pcms Holdings, Inc. | System and method for use in a secure personal data marketplace |
JP2016095641A (en) | 2014-11-13 | 2016-05-26 | ニフティ株式会社 | Evaluation creation device, evaluation creation method, and evaluation creation program |
JP2016139261A (en) | 2015-01-27 | 2016-08-04 | 株式会社エヌ・ティ・ティ ピー・シー コミュニケーションズ | Anonymization processor, anonymization processing method, and program |
JP2016181196A (en) | 2015-03-25 | 2016-10-13 | 日本電気株式会社 | Information processing apparatus, information processing method, and program |
JP2017027137A (en) | 2015-07-16 | 2017-02-02 | 日本電気株式会社 | Information processing device, information processing method, and program |
Non-Patent Citations (3)
Title |
---|
小栗 秀暢,匿名加工・再識別コンテストを通じた情報流通プラットフォームの検討,情報処理学会 研究報告 マルチメディア通信と分散処理(DPS) 2016-DPS-166 [onli,日本,情報処理学会,2016年02月25日,pp.1-8 |
山口 高康,差分プライバシに基づく一括開示と対話開示のデータ有用性の評価,電子情報通信学会技術研究報告 Vol.116 No.131,日本,一般社団法人電子情報通信学会,2016年07月07日,第116巻,pp.209-216 |
福嶋 雄也,匿名化に用いられる安全性指標の比較評価,2017年 暗号と情報セキュリティシンポジウム(SCIS2017)予稿集 [USB] 2017年 暗,2017年01月24日,pp.1-5 |
Also Published As
Publication number | Publication date |
---|---|
WO2019168144A1 (en) | 2019-09-06 |
JPWO2019168144A1 (en) | 2020-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7151759B2 (en) | Information processing device, information processing method, and program | |
CN111316273B (en) | Cognitive data anonymization | |
US10289869B2 (en) | Personal information anonymization method, recording medium, and information processing apparatus | |
Tervonen | JSMAA: open source software for SMAA computations | |
CN111417954B (en) | Data de-identification based on detection of allowable configurations of data de-identification process | |
WO2019061994A1 (en) | Electronic device, insurance product recommendation method and system, and computer readable storage medium | |
US20180114037A1 (en) | Re-identification risk measurement estimation of a dataset | |
KR102490529B1 (en) | Total periodic non-identification management apparatus and method | |
JP2019527409A (en) | Method and apparatus for deidentifying personal information | |
KR102345142B1 (en) | De-identification Method for Personal Information Protecting and Equipment Thereof | |
WO2011133551A2 (en) | Reducing the dissimilarity between a first multivariate data set and a second multivariate data set | |
Hund et al. | Choosing a cluster sampling design for lot quality assurance sampling surveys | |
Olofsen et al. | Using Akaike's information theoretic criterion in mixed-effects modeling of pharmacokinetic data: a simulation study | |
Park et al. | Model selection and diagnostics for joint modeling of survival and longitudinal data with crossing hazard rate functions | |
CN109325868B (en) | Questionnaire data processing method, device, computer equipment and storage medium | |
van Soest et al. | Testing the specification of parametric models by using anchoring vignettes | |
CN108449311A (en) | A kind of social networks hiding method based on attack node similitude | |
CA2913561A1 (en) | Determining journalist risk of a dataset using population equivalence class distribution estimation | |
KR102218374B1 (en) | Method and Apparatus for Measuring Quality of De-identified Data for Unstructured Transaction | |
CN117540390A (en) | Data evaluation method, device and server | |
JP6747438B2 (en) | Information processing apparatus, information processing method, and program | |
Sattar et al. | Frailty models for pneumonia to death with a left‐censored covariate | |
De Neve et al. | Goodness-of-fit methods for probabilistic index models | |
US11194829B2 (en) | Methods and system for entity matching | |
US20140324523A1 (en) | Missing String Compensation In Capped Customer Linkage Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200611 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210715 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211021 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220830 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220912 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7151759 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |