JP2015176496A - Risk analysis device, method and program in anonymous data - Google Patents
Risk analysis device, method and program in anonymous data Download PDFInfo
- Publication number
- JP2015176496A JP2015176496A JP2014054142A JP2014054142A JP2015176496A JP 2015176496 A JP2015176496 A JP 2015176496A JP 2014054142 A JP2014054142 A JP 2014054142A JP 2014054142 A JP2014054142 A JP 2014054142A JP 2015176496 A JP2015176496 A JP 2015176496A
- Authority
- JP
- Japan
- Prior art keywords
- risk
- risk level
- data
- risk analysis
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000011002 quantification Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241001425930 Latina Species 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、匿名化データにおけるリスク分析装置、方法及びプログラムに関する。 The present invention relates to a risk analysis apparatus, method, and program for anonymized data.
従来より、データを統計処理することによって、データの有効活用が図られている。例えば、特定の病気にかかりやすい年代、性別、地域、人種といった情報を含む大量のデータが広く公開され、統計処理されて、その傾向分析や予防対策に用いられている。 Conventionally, effective use of data has been attempted by statistically processing the data. For example, a large amount of data including information such as age, sex, region, and race that are likely to cause a specific disease is widely released, statistically processed, and used for trend analysis and preventive measures.
このようなデータを公開する場合には、プライバシーを慎重に保護する必要があるため、そのデータの所有者が特定されないように、データの変形処理を行う必要がある。そのため、今までにも、プライバシーを保護するためのデータの変形処理に関する技術が多く開示されている。例えば、データの一部を一般化やあいまい化することにより、データを組み合わせても個人が特定されないようにする技術(例えば、k‐匿名化処理等)が開示されている(例えば、非特許文献1参照)。 When such data is disclosed, it is necessary to carefully protect the privacy, and therefore it is necessary to perform data transformation processing so that the owner of the data is not specified. Therefore, many techniques related to data transformation processing for protecting privacy have been disclosed so far. For example, a technique (for example, k-anonymization processing) is disclosed in which a part of data is generalized or ambiguous so that an individual is not specified even if data is combined (for example, non-patent literature) 1).
また、データセット全体における個人特定の確率の低下を可能とする技術が、非特許文献2に開示されている。非特許文献2では、履歴データの一種である移動データに対し、履歴に含まれる地点に対し、事例数の逆数を個人特定の確率とし、値が1/kに近い履歴データの事例を削減するリスク分析手法を開示している。
Further, Non-Patent
従来のリスク分析の事例としては、例えばk−匿名化を挙げることができる。これは、ワーストケースを考慮したリスク分析であり、最適化という視点に立てば必ずしも適した手法ではなかった。
従来手法では個人特定を試みる攻撃者の予備知識をモデルに加味していないため、個人特定の確率が実利用時の値より不当に高くなる可能性がある。
また、従来手法が用いる評価尺度では元データに実在しないデータ(ノイズ)を加える手法を正しく評価できない。具体的には、ノイズの量が反映されないため、同一の手法でもノイズの量が多い場合と少ない場合では評価手法の結果では区別がつかない(特定リスクが同一の場合はノイズがより少ない方がデータセットが良いと言える)。
Examples of conventional risk analysis include, for example, k-anonymization. This is a risk analysis considering the worst case, and is not always a suitable method from the viewpoint of optimization.
In the conventional method, since the prior knowledge of the attacker who tries to identify the individual is not taken into consideration in the model, the probability of identifying the individual may be unreasonably higher than the value at the time of actual use.
In addition, the evaluation scale used by the conventional method cannot correctly evaluate the method of adding data (noise) that does not exist in the original data. Specifically, since the amount of noise is not reflected, the result of the evaluation method cannot distinguish between cases where the amount of noise is large and small even if the same method is used (if the specific risk is the same, the noise is less. The dataset is good).
本発明における課題は、匿名化されたデータが開示された場合において、当該データに含まれる個人が一意に特定されるリスクをより現実的なモデルにおいて定量的に分析する手法並びに定量化されたリスクを尺度として匿名化に使用するパラメータを最適化する手法を考案することにある。 The problem in the present invention is that when anonymized data is disclosed, a method for quantitatively analyzing the risk of uniquely identifying an individual included in the data in a more realistic model and the quantified risk The idea is to devise a method for optimizing the parameters used for anonymization on the basis of.
本発明は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを定量的に分析し、定量化されたリスクレベルを尺度として匿名化に使用するパラメータを最適化するリスク分析装置、方法及びプログラムを提供することを目的とする。 The present invention quantitatively analyzes a risk level in which an individual included in the data is uniquely identified in anonymized data, and optimizes parameters used for anonymization using the quantified risk level as a measure An object of the present invention is to provide a risk analysis apparatus, method and program.
匿名化されたデータは、そのデータを構成する個人がそれぞれ1つのレコードに割り当てられているものとする。本手法は、匿名化されたデータから個人が一意に特定されるリスクレベルを定量的に評価する手法であって、まず、それぞれのレコードの個人特定リスクを定量的に評価し、定量化されたリスクに応じて、リスクの低いものからレコードを並べていき、ある尺度に従ってリスクレベルを定量化する手法である。 In the anonymized data, it is assumed that individuals constituting the data are each assigned to one record. This method quantitatively evaluates the risk level at which individuals are uniquely identified from anonymized data. First, the individual specific risk of each record was quantitatively evaluated and quantified. This is a technique that arranges records from the lowest risk according to the risk and quantifies the risk level according to a certain scale.
また、上記のようなリスクレベル定量化の手法であって、それぞれのレコードのリスクを評価する場合において、個人を特定しようとする攻撃者の予備知識の量に応じてリスクを算定し、ワーストケースをリスクの上限とする手法である。 In addition, the risk level quantification method as described above, and when assessing the risk of each record, the risk is calculated according to the amount of prior knowledge of the attacker who tries to identify the individual, and the worst case This is a method with an upper limit of risk.
また、上記のようなリスクレベル定量化手法であって、移動軌跡のデータに対して、その一部分、あるいは全部を知っていることを攻撃者の予備知識とし、既知である軌跡のノード数を予備知識の量として定量化する手法である。 In addition, the risk level quantification method as described above is based on the fact that the attacker knows part or all of the movement trajectory data, and reserves the number of nodes in the known trajectory. It is a technique for quantifying the amount of knowledge.
又は、上記のようなリスクレベル定量化の手法であって、地点の匿名化処理に対し、元データに含まれる地点数の含有率を算出すると共に、匿名化処理において元データに実在しないデータの含有率を表わす数値を算出するリスクレベル定量化手法である。 Or, it is a risk level quantification method as described above, and for the point anonymization process, the content rate of the number of points included in the original data is calculated, and the data that does not exist in the original data in the anonymization process This is a risk level quantification method for calculating a numerical value representing the content rate.
また、上記のようなリスクレベル定量化手法であって、匿名化処理で用いたパラメータに基づいて算出された出力結果の件数に従い、前記の再現性(リコール)や含有率と比較し、パラメータを自動決定する匿名化パラメータ決定手法である。 Further, in the risk level quantification method as described above, according to the number of output results calculated based on the parameters used in the anonymization process, the parameters are compared with the reproducibility (recall) and content rate. This is an anonymization parameter determination method for automatic determination.
さらに、以上のリスクレベル定量化手法を用いてリスクモデルを構築し、そのモデルにおいて利得が最大となる匿名化のためのパラメータを選択することによって、最適なパラメータを得る手法である。 Furthermore, a risk model is constructed using the above risk level quantification technique, and an optimal parameter is obtained by selecting a parameter for anonymization that maximizes the gain in the model.
具体的には、以下のような解決手段を提供する。
(1) 個人に関する情報を含む匿名化データから前記個人が一意に特定されるリスクレベルを分析するリスク分析装置であって、前記匿名化データを構成するレコードごとに、リスクを定量的に分析するリスク分析手段と、前記リスク分析手段によって分析された前記レコードごとの前記リスクに基づいて、特定の尺度に従って前記匿名化データのリスクレベルを定量化して算出するリスクレベル算出手段と、前記リスクレベル算出手段によって算出された前記リスクレベルを出力するリスクレベル出力手段と、を備えるリスク分析装置。
Specifically, the following solutions are provided.
(1) A risk analysis device that analyzes a risk level in which the individual is uniquely identified from anonymized data including information related to the individual, and quantitatively analyzes the risk for each record constituting the anonymized data Risk analysis means, risk level calculation means for quantifying and calculating the risk level of the anonymized data according to a specific scale based on the risk for each record analyzed by the risk analysis means, and the risk level calculation And a risk level output means for outputting the risk level calculated by the means.
(1)の構成によれば、リスク分析装置は、匿名化データを構成するレコードごとに、リスクを定量的に分析し、分析したレコードごとのリスクに基づいて、特定の尺度(例えば、攻撃者の予備知識、含有率(再現率及び適合率のF−尺度))に従って匿名化データのリスクレベルを定量化して算出し、算出したリスクレベル(匿名化に使用するパラメータに対応する)を出力する。 According to the configuration of (1), the risk analysis apparatus quantitatively analyzes the risk for each record constituting the anonymized data, and based on the risk for each analyzed record (for example, an attacker) Quantified and calculated risk level of anonymized data according to prior knowledge and content rate (F-scale of recall and relevance rate)), and outputs the calculated risk level (corresponding to parameters used for anonymization) .
したがって、(1)に係るリスク分析装置は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを定量的に分析し、定量化されたリスクレベルを尺度として匿名化に使用するパラメータを最適化することができる。 Therefore, the risk analysis apparatus according to (1) quantitatively analyzes the anonymized data for the risk level at which an individual included in the data is uniquely identified, and anonymized using the quantified risk level as a scale. The parameters used for the optimization can be optimized.
(2) 前記リスク分析手段は、それぞれのレコードの前記リスクを評価する場合において、個人を特定しようとする攻撃者の予備知識の量に応じて前記リスクを算定する、(1)に記載のリスクレベル分析装置。 (2) The risk according to (1), wherein the risk analysis means calculates the risk according to an amount of prior knowledge of an attacker who attempts to identify an individual when evaluating the risk of each record. Level analyzer.
したがって、(2)に係るリスク分析装置は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを攻撃者の予備知識を含めて定量的に分析することができる。 Therefore, the risk analysis apparatus according to (2) can quantitatively analyze the anonymized data, including the attacker's prior knowledge, the risk level that uniquely identifies the individual included in the data. .
(3) 前記リスク分析手段は、移動軌跡のデータに対して、その一部分、あるいは全部を知っていることを前記攻撃者の予備知識とし、既知である軌跡のノード数を予備知識の量として定量化する、(2)に記載のリスクレベル分析装置。 (3) The risk analysis means quantifies the number of nodes of the known trajectory as the amount of prior knowledge, with knowledge of a part or all of the movement trajectory data as the prior knowledge of the attacker. The risk level analysis device according to (2).
したがって、(3)に係るリスク分析装置は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを、攻撃者の予備知識の量に応じて定量的に分析することができる。 Therefore, the risk analysis apparatus according to (3) quantitatively analyzes the risk level in which the individual included in the data is uniquely specified in the anonymized data according to the amount of the attacker's prior knowledge. be able to.
(4) 前記リスクレベル算出手段は、前記リスク分析手段によって定量化された前記リスクと閾値とを比較し、前記リスクが前記閾値以下である前記レコードの数が、前記匿名化データの前記レコードの総数に占める割合をリスクレベルとして算出する、(1)に記載のリスク分析装置。 (4) The risk level calculation means compares the risk quantified by the risk analysis means with a threshold value, and the number of the records whose risk is equal to or less than the threshold value is the number of the records of the anonymized data. The risk analyzer according to (1), wherein a ratio of the total number is calculated as a risk level.
したがって、(4)に係るリスク分析装置は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを定量的に分析することができる。 Therefore, the risk analysis apparatus according to (4) can quantitatively analyze the risk level in which the individual included in the data is uniquely specified in the anonymized data.
(5) 前記リスクレベル算出手段は、匿名化される前の元データに含まれる属性であって前記匿名化データにも含まれる前記属性の個数が、前記元データに含まれる前記属性の総数に対する比率である再現率を算出する再現率算出手段と、前記元データに含まれる前記属性であって前記匿名化データにも含まれる前記属性の個数が、前記匿名化データに含まれる前記属性の総数に対する比率である適合率を算出する適合率算出手段と、前記再現率算出手段によって算出された前記再現率と、前記適合率算出手段によって算出された前記適合率とに基づいて特定の尺度を算出する尺度算出手段と、をさらに備え、前記リスクレベル算出手段は、前記尺度算出手段によって算出された前記特定の尺度に基づいて、匿名化のためのパラメータを算出する(4)に記載のリスク分析装置。 (5) The risk level calculation means is an attribute included in the original data before being anonymized, and the number of attributes included in the anonymized data corresponds to a total number of the attributes included in the original data. Recall rate calculating means for calculating a recall rate that is a ratio, and the number of the attributes that are included in the original data and also included in the anonymized data are the total number of the attributes included in the anonymized data A specific scale is calculated based on the relevance ratio calculating means for calculating the relevance ratio, which is a ratio to the ratio, the recall ratio calculated by the recall ratio calculation means, and the relevance ratio calculated by the precision ratio calculation means And a risk level calculating means for calculating a parameter for anonymization based on the specific scale calculated by the scale calculating means. Risk analysis apparatus according to (4).
したがって、(5)に係るリスク分析装置は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを、ノイズが加えられた匿名化データについて定量的に分析することができる。 Therefore, the risk analysis apparatus according to (5) quantitatively analyzes the anonymized data in which noise is added to the risk level in which the individual included in the data is uniquely specified in the anonymized data. Can do.
(6) (1)に記載のリスク分析装置が実行する方法であって、前記リスク分析手段が、前記匿名化データを構成するレコードごとに、リスクを定量的に分析するリスク分析ステップと、前記リスクレベル算出手段が、前記リスク分析ステップによって分析された前記レコードごとの前記リスクに基づいて、特定の尺度に従って前記匿名化データのリスクレベルを定量化して算出するリスクレベル算出ステップと、前記リスクレベル出力手段が、前記リスクレベル算出ステップによって算出された前記リスクレベルを出力するリスクレベル出力ステップと、を備える方法。 (6) A method executed by the risk analysis apparatus according to (1), in which the risk analysis unit quantitatively analyzes a risk for each record constituting the anonymized data; A risk level calculating step for quantifying and calculating a risk level of the anonymized data according to a specific scale based on the risk for each of the records analyzed by the risk analysis step; and the risk level A method comprising: a risk level output step in which the output means outputs the risk level calculated by the risk level calculation step.
したがって、(6)に係る方法は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを定量的に分析し、定量化されたリスクレベルを尺度として匿名化に使用するパラメータを最適化することができる。 Therefore, in the method according to (6), in the anonymized data, the risk level in which the individual included in the data is uniquely identified is quantitatively analyzed, and the anonymization is performed using the quantified risk level as a scale. The parameters used can be optimized.
(7) コンピュータに、(6)に記載の方法の各ステップを実行させるためのプログラム。 (7) A program for causing a computer to execute each step of the method according to (6).
したがって、(7)に係るプログラムは、コンピュータに、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを定量的に分析させ、定量化されたリスクレベルを尺度として匿名化に使用するパラメータを最適化させることができる。 Therefore, the program according to (7) causes the computer to quantitatively analyze the risk level in which the individual included in the data is uniquely identified in the anonymized data, and the quantified risk level as a scale. Parameters used for anonymization can be optimized.
本発明によれば、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを定量的に分析することができる。
さらに、本発明によれば、ノイズを加える匿名化手法を評価することが可能になり、滞在を表す地点の情報から個人が特定されるリスクを定量化でき、地点の匿名化パラメータを自動決定できる。
According to the present invention, in the anonymized data, it is possible to quantitatively analyze a risk level at which an individual included in the data is uniquely specified.
Furthermore, according to the present invention, it becomes possible to evaluate an anonymization method for adding noise, and it is possible to quantify the risk of identifying an individual from information on a point representing stay, and to automatically determine an anonymization parameter of the point. .
本実施形態において、個人に関する情報を含むデータ(元データと言う。)は、個人が一意に特定されないように、匿名化データ作成装置(図示せず)によって匿名化される。
リスク分析装置10は、匿名化されたデータ(匿名化データと言う。)について、個人が一意に特定されるリスクレベルを分析する。
リスク分析装置10によって分析されたリスクレベルに基づいて、個人が特定される可能性の小さい匿名化データが匿名化データ作成装置によって作成されることが可能となる。
以下、本発明の実施形態について、図を参照しながら説明する。
In the present embodiment, data including information about an individual (referred to as original data) is anonymized by an anonymized data creation device (not shown) so that the individual is not uniquely identified.
The
Based on the risk level analyzed by the
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[実施形態1]
実施形態1のリスク分析装置10は、個人を特定しようとする攻撃者の予備知識の量に応じてリスクを算定し、ワーストケースをリスクの上限とする。
[Embodiment 1]
The
具体的には、移動軌跡のデータに対して、その一部分、あるいは全部を知っていることを攻撃者の予備知識とし、既知である軌跡のノード数(例えば、軌跡を示す地点の数の割合)を予備知識の量として定量化する。 Specifically, it is assumed that the attacker knows part or all of the movement trajectory data, and the number of nodes of the known trajectory (for example, the ratio of the number of points indicating the trajectory). Is quantified as the amount of prior knowledge.
リスク分析装置10は、匿名化データについて、(1)から(3)の手順によってリスク分析する。
(1)まず、匿名化データを構成するそれぞれのレコードについて、個人が特定されるリスクを定量的に評価する。
(2)レコードごとの定量化されたリスクに基づいて、リスクの低いものからレコードを並べる。
(3)攻撃者の予備知識を定めた場合において、匿名化データについてのリスクレベルを定量的に算出する。
The
(1) First, the risk that an individual is specified is quantitatively evaluated for each record constituting anonymized data.
(2) Based on the quantified risk for each record, the records are arranged from the lowest risk.
(3) When the attacker's prior knowledge is determined, the risk level for the anonymized data is quantitatively calculated.
具体的には、リスク分析装置10は、リスク分析手段11と、リスクレベル算出手段12と、リスクレベル出力手段13と、を備える。
Specifically, the
リスク分析手段11は、匿名化データを構成するレコードごとに、リスクを定量的に分析する。リスク分析手段11は、それぞれのレコードのリスクを評価する場合において、個人を特定しようとする攻撃者の予備知識の量に応じてリスクを算定する。リスク分析手段11は、移動軌跡のデータに対して、その一部分、あるいは全部を知っていることを攻撃者の予備知識とし、既知である軌跡のノード数(例えば、移動した軌跡を示す位置情報の数)を予備知識の量として定量化する。 The risk analysis means 11 quantitatively analyzes the risk for each record constituting the anonymized data. When the risk analysis means 11 evaluates the risk of each record, the risk analysis means 11 calculates the risk in accordance with the amount of prior knowledge of the attacker who intends to identify an individual. The risk analysis means 11 uses the knowledge of a part or all of the movement trajectory data as prior knowledge of the attacker, and uses the number of nodes of the known trajectory (for example, position information indicating the moved trajectory). Number) as the amount of prior knowledge.
リスクレベル算出手段12は、リスク分析手段11によって分析されたレコードごとのリスクに基づいて、特定の尺度(例えば、攻撃者の予備知識)に従って匿名化データのリスクレベルを定量化して算出する。具体的には、リスクレベル算出手段12は、リスク分析手段11によって定量化されたリスクと閾値とを比較し、リスクが閾値以下であるレコードの数が、匿名化データのレコードの総数に占める割合をリスクレベルとして算出する。 The risk level calculation means 12 quantifies and calculates the risk level of the anonymized data according to a specific scale (for example, preliminary knowledge of the attacker) based on the risk for each record analyzed by the risk analysis means 11. Specifically, the risk level calculation means 12 compares the risk quantified by the risk analysis means 11 with a threshold value, and the ratio of the number of records whose risk is equal to or less than the threshold value to the total number of anonymized data records Is calculated as a risk level.
リスクレベル出力手段13は、リスクレベル算出手段12によって算出されたリスクレベルを出力する。具体的には、リスクレベル出力手段13は、攻撃者の予備知識の量であってユーザによって指定された予備知識の量を受け付け、受け付けた予備知識の量に対応するパラメータkの値を算出し、算出したパラメータkの値をリスクレベルとして出力する。
The risk
上述の内容を、各個人の軌跡データを例として、以下に示す。例えば、各個人の軌跡が、数1のように表わされる場合について説明する。
ここで、A〜Sは位置を示し、A→Bにより個人が移動した軌跡を示している。
The above-described contents are shown below by taking the trajectory data of each individual as an example. For example, a case where the trajectory of each individual is expressed as in
Here, A to S indicate positions, and indicate a trajectory in which an individual has moved by A → B.
数1で表わされる元データについて、匿名化データは、数2で表わされるようなデータである。
数2によって表わされるように、匿名化データは、個人が特定されないように、t1〜t6やt8、t9のように属性(例えば、軌跡を示す地点)が加工されている。また、t7は直前のデータt6により、t10は直前のデータt9により、それぞれ匿名化のパラメータkの条件を満たすように加工されている。
As represented by
このとき、リスクはそれぞれ数3のように評価される。
At this time, each risk is evaluated as shown in
すなわち、軌跡を表わす位置の頻度の逆数を定量的な評価とする。例えば、位置「A」は7つのレコードに出現するので、Aを含むレコードのリスクは1/7になる。
次に、リスクが同一の値を持つ地点ごとにまとめ、匿名化データに対するまとめた地点の割合を求める。
That is, the reciprocal of the frequency of the position representing the trajectory is used as a quantitative evaluation. For example, since the position “A” appears in seven records, the risk of the record including A is 1/7.
Next, the risk is summarized for each point having the same value, and the ratio of the collected points to the anonymized data is obtained.
図2は、リスクが同一の値を持つ地点ごとにまとめた場合の例を示す図である。図2の例は、リスク分析装置10が分析した結果、匿名化されたデータのうち、リスクが0であるレコードが50%、リスクが1/7であるレコードが20%、リスクが1/6であるレコードが10%、リスクが1/3であるレコードが15%であることを示す例である。
FIG. 2 is a diagram illustrating an example when the risks are grouped for each point having the same value. In the example of FIG. 2, as a result of analysis by the
このようなリスクの値を積算すると、例えば、リスクの値が閾値以下である地点の割合が求められ、図3の様なグラフとなる。
図3は、閾値以下のリスクの値を有するレコードの総数が、全体のレコードの総数に占める割合の例を示す図である。図3において、横軸はリスクの閾値、縦軸は攻撃者の予備知識レベルを示している。
図2のようなリスク分析結果から、リスクの閾値が0.01以下が50%、0.15以下が70%(50%+20%)、0.17以下が80%(50%+20%+10%)、0.35以下が95%(50%+20%+10%+15%)というような値になり、レコードの割合を攻撃者の予備知識に対応させて、図3のようなグラフに表現することができる。
なお、図3は、属性(例えば、地点数)が3つの場合(h=3)のグラフと、属性(例えば、地点数)が5つの場合(h=5)のグラフとの例を示している。
When such risk values are integrated, for example, the ratio of points where the risk value is equal to or less than the threshold value is obtained, and a graph as shown in FIG. 3 is obtained.
FIG. 3 is a diagram illustrating an example of a ratio of the total number of records having a risk value equal to or less than the threshold to the total number of records. In FIG. 3, the horizontal axis indicates the risk threshold, and the vertical axis indicates the attacker's prior knowledge level.
From the risk analysis results shown in FIG. 2, the risk threshold is 0.01% or less at 50%, 0.15 or less at 70% (50% + 20%), and 0.17 or less at 80% (50% + 20% + 10%). ), 0.35 or less becomes 95% (50% + 20% + 10% + 15%), and the ratio of records corresponds to the attacker's prior knowledge and is expressed in the graph as shown in FIG. Can do.
FIG. 3 shows an example of a graph with three attributes (for example, the number of points) (h = 3) and a graph with five attributes (for example, the number of points) (h = 5). Yes.
したがって、攻撃者の知識レベルを固定すれば、選択すべきパラメータkの値を求めることができる。
例えば、攻撃者の知識レベルを95%とし、属性が3つの場合(h=3)とすると、選択すべきパラメータkの値は、例えば、10000となる。
Therefore, if the attacker's knowledge level is fixed, the value of the parameter k to be selected can be obtained.
For example, assuming that the attacker's knowledge level is 95% and there are three attributes (h = 3), the value of the parameter k to be selected is 10,000, for example.
図4は、本発明の実施形態1に係るリスク分析装置10の処理を示すフローチャートである。リスク分析装置10は、コンピュータ及びその周辺装置が備えるハードウェア並びに該ハードウェアを制御するソフトウェアによって構成され、以下の処理は、制御部(例えば、リスク分析装置10のCPU)が所定のソフトウェアに従い実行する処理である。
FIG. 4 is a flowchart showing processing of the
ステップS101において、CPU(リスク分析手段11)は、匿名化データを取得する。より具体的には、CPUは、匿名化パラメータkの匿名化データを取得する。 In step S101, the CPU (risk analysis means 11) acquires anonymized data. More specifically, the CPU acquires anonymization data of the anonymization parameter k.
ステップS102において、CPU(リスク分析手段11)は、レコードごとのリスクを算出する。より具体的には、CPUは、匿名化データを構成するレコードにおいて個人を特定する属性が出現する頻度を算出し、算出した頻度の逆数を求める。 In step S102, the CPU (risk analysis means 11) calculates the risk for each record. More specifically, the CPU calculates the frequency at which an attribute that specifies an individual appears in a record constituting anonymized data, and obtains the reciprocal of the calculated frequency.
ステップS103において、CPU(リスクレベル算出手段12)は、算出したリスクに基づいて匿名化データのリスクレベルを攻撃者の予備知識に応じて算出する。より具体的には、CPUは、ステップS102において算出されたリスクと閾値とを比較し、リスクが閾値以下であるレコードの数が、匿名化データのレコードの総数に占める割合をリスクレベルとして算出する。 In step S103, the CPU (risk level calculation means 12) calculates the risk level of the anonymized data according to the prior knowledge of the attacker based on the calculated risk. More specifically, the CPU compares the risk calculated in step S102 with a threshold value, and calculates, as a risk level, the ratio of the number of records whose risk is equal to or less than the threshold value to the total number of anonymized data records. .
ステップS104において、CPU(リスクレベル出力手段13)は、算出したリスクレベルを出力する。 In step S104, the CPU (risk level output means 13) outputs the calculated risk level.
[実施形態2]
実施形態2では、それぞれのレコードのリスクを評価する場合において、元データに含まれる属性(例えば、滞在した地点を表わすデータ)が匿名化データに含まれる率である含有率を算出し、算出した含有率に応じてリスクを算定する。
前提として、匿名化パラメータkによって匿名化データを作成する装置があり、地点を含む移動データを入力することで、匿名化された地点の集合(例えば、匿名化された移動データ)が得られるものとする。
[Embodiment 2]
In the second embodiment, when evaluating the risk of each record, the content rate, which is the rate at which the attribute included in the original data (for example, data representing the place where the user stayed) is included in the anonymized data, is calculated and calculated. The risk is calculated according to the content rate.
As a premise, there is a device that creates anonymized data with an anonymization parameter k, and a set of anonymized points (for example, anonymized moving data) can be obtained by inputting movement data including the points And
リスク分析装置10は、リスク分析手段11と、リスクレベル算出手段12と、リスクレベル出力手段13と、を備え、リスクレベル算出手段12は、再現率算出手段121と、適合率算出手段122と、尺度算出手段123と、をさらに備える。リスク分析手段11及びリスクレベル出力手段13は、実施形態1と同様である。
The
再現率算出手段121は、匿名化される前の元データに含まれる属性であって匿名化データにも含まれる属性の個数が、元データに含まれる属性の総数に対する比率である再現率を算出する。
適合率算出手段122は、元データに含まれる属性であって匿名化データにも含まれる属性の個数が、匿名化データに含まれる属性の総数に対する比率である適合率を算出する。
尺度算出手段123は、再現率算出手段121によって算出された再現率と、適合率算出手段122によって算出された適合率とに基づいて特定の尺度(例えば、F−尺度)を算出する。
The recall
The relevance
The
個人に関する情報として個人が滞在した地点の情報を含む移動データを例として、上述の内容を説明する。 The above-described content will be described by taking movement data including information on a place where an individual stays as information related to an individual as an example.
リスクレベル算出手段12は、以下の3つの評価値(再現率、適合率、F−尺度)を算出する。3つの評価値は、次のように定義される。
再現率(Recall):(NoP(B)∧NoP(A))/NoP(B)
適合率(Precision):(NoP(B)∧NoP(A))/NoP(A)
F−尺度(F−Measure):適合率と再現率の調和平均
The risk level calculation means 12 calculates the following three evaluation values (recall rate, relevance rate, F-scale). The three evaluation values are defined as follows.
Recall rate (Recall): (NoP (B) ∧NoP (A)) / NoP (B)
Precision (Precision): (NoP (B) ∧NoP (A)) / NoP (A)
F-Measure: Harmonic average of precision and recall
ここで、NoP(A)、NoP(B)、NoP(B)∧NoP(A)は、それぞれ次のように定義される。
NoP(A):匿名化処理をした後の匿名化データに含まれる属性(例えば、地点)の集合
NoP(B):匿名化処理をする前の元データに含まれる属性(例えば、地点)の集合
NoP(B)∧NoP(A):元データにも、匿名化データにも含まれる属性(例えば、地点)の集合
Here, NoP (A), NoP (B), NoP (B) ∧NoP (A) are defined as follows.
NoP (A): Set of attributes (eg, points) included in anonymized data after anonymization processing NoP (B): Attributes (eg, points) included in original data before anonymization processing Set NoP (B) ∧ NoP (A): Set of attributes (for example, points) included in both original data and anonymized data
リスク分析装置10は、以下の(1)〜(4)の処理を匿名化パラメータkを2,3,・・・と増やしながら実施する。
(1)匿名化データを構成するレコードに含まれる地点を、同じ地点ごとに数えて地点の頻度を算出し、算出した頻度(n)の逆数を求め、その地点のリスク(1/n)とする。
(2)同一のリスクを持つ地点ごとにまとめる。
例えば、リスクが0.33である地点同士、リスクが0.02である地点同士、リスクが0.01である地点同士をまとめる。
(3)リスクの値が小さい地点の集合から順に、それらの集合に含まれる地点に基づいて、それらの地点の集合における再現率を求める。
(4)このとき、n番目に小さいエリアの集合から再現率を求める際に、1,2,・・・n番目までの小さいエリアの集合を累積した結果から再現率を求める。
例えば、リスクが0.01である地点同士の集合において、再現率を算出する。次に、リスクが0.02である地点同士の集合において再現率を算出する際に、リスクが0.01である地点同士の集合を累積した結果から再現率を算出する。同様に、リスクが0.33である地点同士の集合において再現率を算出する際に、リスクが0.01から0.33までの地点同士の集合を累積した結果から再現率を算出する。
このように算出して結果をグラフに表わすと、図6のようなグラフに表現される。
図6は、パラメータkにおける再現率と個人が特定されるリスクとの関係の例を示す図である。図6において、縦軸は再現率、横軸は個人が特定されるリスク(確率)である。
The
(1) Count the points included in the records that make up the anonymized data for each same point, calculate the frequency of the points, find the reciprocal of the calculated frequency (n), and calculate the risk (1 / n) at that point To do.
(2) Summarize each spot with the same risk.
For example, points where the risk is 0.33, points where the risk is 0.02, and points where the risk is 0.01 are collected.
(3) In order from the set of points with the smallest risk value, the recall rate in the set of points is obtained based on the points included in the set.
(4) At this time, when the recall is obtained from the nth smallest area set, the recall is obtained from the result of accumulating the 1,2,... Nth smaller area sets.
For example, the recall is calculated for a set of points with a risk of 0.01. Next, when calculating the recall for a set of points with a risk of 0.02, the recall is calculated from the result of accumulating the set of points with a risk of 0.01. Similarly, when calculating the recall rate for a set of points with a risk of 0.33, the recall rate is calculated from the result of accumulating a set of points with a risk of 0.01 to 0.33.
When the calculation is made in this way and the result is represented in a graph, it is represented in a graph as shown in FIG.
FIG. 6 is a diagram illustrating an example of the relationship between the recall rate in parameter k and the risk of identifying an individual. In FIG. 6, the vertical axis represents the recall rate, and the horizontal axis represents the risk (probability) of identifying an individual.
再現率と同様に、適合率でも同様に計算する。
すなわち、リスクの値が小さい地点の集合から順に、それらの集合に含まれる地点に基づいて、それらの地点の集合における適合率を求める。
このとき、n番目に小さいエリアの集合から適合率を求める際に、1,2,・・・n番目までの小さいエリアの集合を累積した結果から適合率を求める。
このように算出して結果をグラフに表わすと、図7のようなグラフに表現される。
図7は、パラメータkにおける適合率と個人が特定されるリスクとの関係の例を示す図である。図7において、縦軸は再現率、横軸は個人が特定されるリスク(確率)である。
Similar to the recall, the precision is calculated in the same way.
That is, in accordance with the points included in the set in order from the set of points with the smallest risk value, the relevance ratio in the set of those points is obtained.
At this time, when obtaining the relevance ratio from the nth smallest area set, the relevance ratio is obtained from the result of accumulating the 1,2,... Nth small area sets.
When the calculation is performed as described above and the result is represented in a graph, the graph is represented as shown in FIG.
FIG. 7 is a diagram illustrating an example of the relationship between the relevance ratio in the parameter k and the risk of identifying an individual. In FIG. 7, the vertical axis represents the recall rate, and the horizontal axis represents the risk (probability) for identifying an individual.
最後に横軸の各項目に対し、適合率と再現率との調和平均であるF−尺度を求め、最大となる点を選択する。
すなわち、リスク値についての閾値tを設定する(0<t<1/k)。
横軸の各項目に対し、適合率と再現率との調和平均であるF−尺度を求める。F−尺度(F−Measure)は一般に以下の公式で求められる:
F−Measure=(2*Recall*Precision)/(Recall+Precision)
Finally, for each item on the horizontal axis, the F-scale that is the harmonic average of the precision and recall is obtained, and the point that maximizes is selected.
That is, the threshold value t for the risk value is set (0 <t <1 / k).
For each item on the horizontal axis, an F-scale that is a harmonic average of the precision and recall is obtained. The F-Measure is generally determined by the following formula:
F-Measure = (2 * Recall * Precision) / (Recall + Precision)
図8は、リスクの閾値とF−尺度との関係の例を示す図である。図8(1)の例は、匿名化パラメータkが3の場合の例であり、図8(2)の例は、匿名化パラメータkが4の場合の例であり、図8(3)の例は、匿名化パラメータkが5の場合の例である。
この例ではk=3,t=0.15のときのF−尺度が最大となったため、これらのパラメータを確定させ、k=3のときにリスクが0.15以下に該当する地点のみを含むデータを出力結果とする。
FIG. 8 is a diagram illustrating an example of the relationship between the risk threshold and the F-scale. The example of FIG. 8 (1) is an example when the anonymization parameter k is 3, and the example of FIG. 8 (2) is an example when the anonymization parameter k is 4, as shown in FIG. 8 (3). An example is an example when the anonymization parameter k is 5.
In this example, since the F-scale when k = 3 and t = 0.15 is maximized, these parameters are determined, and only points where the risk falls below 0.15 are included when k = 3. Use the data as the output result.
なお、匿名化データの用途によって、適合率や再現率のどちらかをより重視する可能性があるため、そのときは代わりにE−尺度(E−measure)を用いても良い。
E−Measure=(1−(1+b2))/((b2/Recall)+(1/Precision))
ここで、bは重み係数であり、0から1の間の値を取る。出力結果に応じてbの値を調整しても良い。
Note that, depending on the use of the anonymized data, there is a possibility that either the precision or the recall is more important, and in that case, an E-measure may be used instead.
E-Measure = (1- (1 + b 2 )) / ((b 2 / Recall) + (1 / Precision))
Here, b is a weighting coefficient and takes a value between 0 and 1. The value of b may be adjusted according to the output result.
図9は、本発明の実施形態2に係るリスク分析装置10の処理を示すフローチャートである。
FIG. 9 is a flowchart showing processing of the
ステップS201において、CPU(リスク分析手段11)は、匿名化データを取得する。より具体的には、CPUは、匿名化パラメータk(初期値を2とする)の匿名化データを取得する。 In step S201, the CPU (risk analysis means 11) acquires anonymized data. More specifically, the CPU acquires anonymization data of anonymization parameter k (initial value is 2).
ステップS202において、CPU(リスク分析手段11)は、レコードごとのリスクを算出する。より具体的には、CPUは、匿名化データを構成するレコードにおいて個人を特定する属性が出現する頻度を算出し、算出した頻度の逆数を求める。 In step S202, the CPU (risk analysis means 11) calculates the risk for each record. More specifically, the CPU calculates the frequency at which an attribute that specifies an individual appears in a record constituting anonymized data, and obtains the reciprocal of the calculated frequency.
ステップS203において、CPU(リスクレベル算出手段12)は、算出したリスク値ごとにまとめる。より具体的には、CPUは、同一のリスク値である属性(例えば、地点)ごとにまとめる。 In step S203, the CPU (risk level calculation means 12) collects the calculated risk values. More specifically, the CPU collects each attribute (for example, point) that is the same risk value.
ステップS204において、CPU(リスクレベル算出手段12、再現率算出手段121、適合率算出手段122)は、まとめたリスク値ごとの再現率及び適合率を、リスク値ごとを累積しながら求める。より具体的には、CPUは、リスクの値が小さい属性(例えば、地点)の集合から順に、それらの集合に含まれる属性(例えば、地点)に基づいて、それらの属性(例えば、地点)の集合における再現率及び適合率を求める。このとき、CPUは、n番目に小さいエリアの集合から再現率及び適合率を求める際に、1,2,・・・n番目までの小さいエリアの集合を累積した結果から再現率及び適合率を求める。 In step S <b> 204, the CPU (risk level calculation means 12, reproduction rate calculation means 121, relevance rate calculation means 122) obtains the reproducibility and relevance rate for each collected risk value while accumulating each risk value. More specifically, the CPU sequentially sets the attributes (for example, points) of the attributes (for example, points) based on the attributes (for example, points) included in the set in order from the set of attributes (for example, points) having a small risk value. Find the recall and precision of the set. At this time, when the CPU obtains the recall rate and the matching rate from the nth smallest area set, the CPU calculates the recall rate and the matching rate from the result of accumulating the first, 2,. Ask.
ステップS205において、CPU(尺度算出手段123)は、再現率と適合率とのF−尺度を算出する。 In step S205, the CPU (scale calculation means 123) calculates an F-scale of the recall rate and the matching rate.
ステップS206において、CPU(リスクレベル算出手段12)は、終了か否かを判断する。具体的には、CPUは、匿名化パラメータkが所定の値(例えば、ユーザによって指定された値)以上か否かを判断する。この判断がYESの場合、CPUは、処理をステップS207に移し、この判断がNOの場合、CPUは、処理をステップS208に移す。 In step S206, the CPU (risk level calculation means 12) determines whether or not the process is finished. Specifically, the CPU determines whether or not the anonymization parameter k is equal to or greater than a predetermined value (for example, a value specified by the user). If this determination is YES, the CPU moves the process to step S207, and if this determination is NO, the CPU moves the process to step S208.
ステップS207において、CPU(リスクレベル算出手段12、リスクレベル出力手段)は、最大のF−尺度に対するリスク値の閾値を求め、出力する。その後、CPUは、処理を終了する。 In step S207, the CPU (risk level calculation means 12, risk level output means) obtains and outputs a risk value threshold for the maximum F-scale. Thereafter, the CPU ends the process.
ステップS208において、CPU(リスクレベル算出手段12)は、匿名化パラメータkを増加(+1)させる。その後、CPUは、処理をステップS201に移す。 In step S208, the CPU (risk level calculation means 12) increases (+1) the anonymization parameter k. Thereafter, the CPU moves the process to step S201.
本実施形態1によれば、リスク分析装置10は、匿名化データを構成するレコードごとに、リスクを定量的に分析し、分析したレコードごとのリスクに基づいて、攻撃者の予備知識に従って匿名化データのリスクレベルを定量化して算出し、算出したリスクレベル(匿名化に使用するパラメータに対応する)を出力する。
本実施形態2によれば、リスク分析装置10は、匿名化データを構成するレコードごとに、リスクを定量的に分析し、分析したレコードごとのリスクに基づいて、特定の尺度(例えば、含有率(再現率及び適合率のF−尺度))に従って匿名化データのリスクレベルを定量化して算出し、算出したリスクレベル(匿名化に使用するパラメータに対応する)を出力する。
したがって、リスク分析装置10は、匿名化されたデータにおいて、当該データに含まれる個人が一意に特定されるリスクレベルを定量的に分析することができる。さらに、本発明によれば、ノイズを加える匿名化手法を評価することが可能になり、滞在を表す地点の情報から個人が特定されるリスクを定量化でき、地点の匿名化パラメータを自動決定できる。
According to the first embodiment, the
According to the second embodiment, the
Therefore, the
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
10 リスク分析装置
11 リスク分析手段
12 リスクレベル算出手段
121 再現率算出手段
122 適合率算出手段
123 尺度算出手段
13 リスクレベル出力手段
DESCRIPTION OF
Claims (7)
前記匿名化データを構成するレコードごとに、リスクを定量的に分析するリスク分析手段と、
前記リスク分析手段によって分析された前記レコードごとの前記リスクに基づいて、特定の尺度に従って前記匿名化データのリスクレベルを定量化して算出するリスクレベル算出手段と、
前記リスクレベル算出手段によって算出された前記リスクレベルを出力するリスクレベル出力手段と、
を備えるリスク分析装置。 A risk analysis device that analyzes a risk level for uniquely identifying the individual from anonymized data including information about the individual,
Risk analysis means for quantitatively analyzing risk for each record constituting the anonymized data;
Risk level calculation means for quantifying and calculating the risk level of the anonymized data according to a specific scale based on the risk for each record analyzed by the risk analysis means;
A risk level output means for outputting the risk level calculated by the risk level calculation means;
A risk analysis apparatus comprising:
匿名化される前の元データに含まれる属性であって前記匿名化データにも含まれる前記属性の個数が、前記元データに含まれる前記属性の総数に対する比率である再現率を算出する再現率算出手段と、
前記元データに含まれる前記属性であって前記匿名化データにも含まれる前記属性の個数が、前記匿名化データに含まれる前記属性の総数に対する比率である適合率を算出する適合率算出手段と、
前記再現率算出手段によって算出された前記再現率と、前記適合率算出手段によって算出された前記適合率とに基づいて特定の尺度を算出する尺度算出手段と、
をさらに備え、
前記リスクレベル算出手段は、前記尺度算出手段によって算出された前記特定の尺度に基づいて、匿名化のためのパラメータを算出する請求項4に記載のリスク分析装置。 The risk level calculation means includes
A recall that calculates the recall that is the ratio of the number of attributes included in the original data before being anonymized and included in the anonymized data to the total number of the attributes included in the original data A calculation means;
Relevance ratio calculating means for calculating a relevance ratio, wherein the number of the attributes included in the original data and included in the anonymized data is a ratio to the total number of the attributes included in the anonymized data; ,
Scale calculating means for calculating a specific scale based on the recall calculated by the recall calculating means and the precision calculated by the precision calculating means;
Further comprising
The risk analysis apparatus according to claim 4, wherein the risk level calculation unit calculates a parameter for anonymization based on the specific scale calculated by the scale calculation unit.
前記リスク分析手段が、前記匿名化データを構成するレコードごとに、リスクを定量的に分析するリスク分析ステップと、
前記リスクレベル算出手段が、前記リスク分析ステップによって分析された前記レコードごとの前記リスクに基づいて、特定の尺度に従って前記匿名化データのリスクレベルを定量化して算出するリスクレベル算出ステップと、
前記リスクレベル出力手段が、前記リスクレベル算出ステップによって算出された前記リスクレベルを出力するリスクレベル出力ステップと、
を備える方法。 A method executed by the risk analysis apparatus according to claim 1,
A risk analysis step in which the risk analysis means quantitatively analyzes the risk for each record constituting the anonymized data;
A risk level calculating step in which the risk level calculating means quantifies and calculates the risk level of the anonymized data according to a specific measure based on the risk for each of the records analyzed by the risk analyzing step;
A risk level output step in which the risk level output means outputs the risk level calculated by the risk level calculation step;
A method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014054142A JP6300588B2 (en) | 2014-03-17 | 2014-03-17 | Risk analysis apparatus, method and program for anonymized data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014054142A JP6300588B2 (en) | 2014-03-17 | 2014-03-17 | Risk analysis apparatus, method and program for anonymized data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015176496A true JP2015176496A (en) | 2015-10-05 |
JP6300588B2 JP6300588B2 (en) | 2018-03-28 |
Family
ID=54255602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014054142A Active JP6300588B2 (en) | 2014-03-17 | 2014-03-17 | Risk analysis apparatus, method and program for anonymized data |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6300588B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041048A (en) * | 2015-08-19 | 2017-02-23 | Kddi株式会社 | Privacy protection device, method, and program |
KR101859636B1 (en) | 2017-07-19 | 2018-05-21 | 주식회사 디지털즈 | Personal information de-identification system with security function and method thereof |
JP2018533087A (en) * | 2016-09-22 | 2018-11-08 | 三菱電機株式会社 | Data disturbance device and data disturbance system |
JP2019211899A (en) * | 2018-06-01 | 2019-12-12 | 日本電気株式会社 | Processing apparatus, processing method and program |
WO2020175306A1 (en) * | 2019-02-26 | 2020-09-03 | 日本電信電話株式会社 | Anonymizing device, anonymizing method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079205A (en) * | 2010-10-05 | 2012-04-19 | Hitachi Ltd | Personal information anonymizing device and method |
JP2012176923A (en) * | 2011-02-28 | 2012-09-13 | Kose Corp | Antioxidant, tenseness- and slack-ameliorating agent, radical scavenger, elastase activity inhibitor and antiaging agent |
-
2014
- 2014-03-17 JP JP2014054142A patent/JP6300588B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012079205A (en) * | 2010-10-05 | 2012-04-19 | Hitachi Ltd | Personal information anonymizing device and method |
JP2012176923A (en) * | 2011-02-28 | 2012-09-13 | Kose Corp | Antioxidant, tenseness- and slack-ameliorating agent, radical scavenger, elastase activity inhibitor and antiaging agent |
Non-Patent Citations (2)
Title |
---|
寺田努 他: "位置に基づく会話のデータベース化による状況依存情報提示システムの設計と実装", マルチメディア,分散,協調とモバイル(DICOMO2011)シンポジウム論文集, vol. Vol.2011,No.1, JPN6017022384, 29 June 2011 (2011-06-29), pages p.1580〜1587 * |
鈴木諒子 他: "外部知識の影響を考慮した匿名化データベースの安全性の分析", コンピュータセキュリティシンポジウム2012論文集, vol. Vol.2012,No.3, JPN6017022383, 23 October 2012 (2012-10-23), pages p.517〜524 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041048A (en) * | 2015-08-19 | 2017-02-23 | Kddi株式会社 | Privacy protection device, method, and program |
JP2018533087A (en) * | 2016-09-22 | 2018-11-08 | 三菱電機株式会社 | Data disturbance device and data disturbance system |
KR101859636B1 (en) | 2017-07-19 | 2018-05-21 | 주식회사 디지털즈 | Personal information de-identification system with security function and method thereof |
JP2019211899A (en) * | 2018-06-01 | 2019-12-12 | 日本電気株式会社 | Processing apparatus, processing method and program |
JP7070994B2 (en) | 2018-06-01 | 2022-05-18 | 日本電気株式会社 | Processing equipment, processing methods and programs |
WO2020175306A1 (en) * | 2019-02-26 | 2020-09-03 | 日本電信電話株式会社 | Anonymizing device, anonymizing method, and program |
JPWO2020175306A1 (en) * | 2019-02-26 | 2021-09-30 | 日本電信電話株式会社 | Anonymization device, anonymization method, program |
CN113474778A (en) * | 2019-02-26 | 2021-10-01 | 日本电信电话株式会社 | Anonymization apparatus, anonymization method, and program |
JP7088405B2 (en) | 2019-02-26 | 2022-06-21 | 日本電信電話株式会社 | Anonymization device, anonymization method, program |
CN113474778B (en) * | 2019-02-26 | 2024-02-20 | 日本电信电话株式会社 | Anonymizing apparatus, anonymizing method, and computer-readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP6300588B2 (en) | 2018-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6300588B2 (en) | Risk analysis apparatus, method and program for anonymized data | |
TWI684151B (en) | Method and device for detecting illegal transaction | |
US11144817B2 (en) | Device and method for determining convolutional neural network model for database | |
US20170116530A1 (en) | Generating prediction models in accordance with any specific data sets | |
TW201734837A (en) | Multi-sampling model training method and device | |
TW201443811A (en) | Social media impact assessment (1) | |
US10423803B2 (en) | Smart suppression using re-identification risk measurement | |
KR101524971B1 (en) | Personality traits prediction method and apparatus based on consumer psychology | |
JP2008536218A (en) | Computer system for creating probabilistic models | |
KR102227593B1 (en) | System and method for learning-based group tagging | |
Ma et al. | Selection of the maximum spatial cluster size of the spatial scan statistic by using the maximum clustering set-proportion statistic | |
WO2023029065A1 (en) | Method and apparatus for evaluating data set quality, computer device, and storage medium | |
WO2016006042A1 (en) | Data analysis device, control method for data analysis device, and control program for data analysis device | |
JP2018530093A (en) | Credit score model training method, credit score calculation method, apparatus and server | |
JP6711519B2 (en) | Evaluation device, evaluation method and program | |
CN112732690B (en) | Stabilizing system and method for chronic disease detection and risk assessment | |
JP2014160456A (en) | Sparse variable optimization device, sparse variable optimization method, and sparse variable optimization program | |
CN110968802B (en) | Analysis method and analysis device for user characteristics and readable storage medium | |
Yan et al. | Functional principal components analysis on moving time windows of longitudinal data: dynamic prediction of times to event | |
JP2017041048A (en) | Privacy protection device, method, and program | |
TWI677830B (en) | Method and device for detecting key variables in a model | |
De Vries et al. | Forecasting human African trypanosomiasis prevalences from population screening data using continuous time models | |
CN111161884A (en) | Disease prediction method, device, equipment and medium for unbalanced data | |
CN110990834A (en) | Static detection method, system and medium for android malicious software | |
WO2021139255A1 (en) | Model based method and apparatus for predicting data change frequency, and computer device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6300588 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |