JP2018097467A - Privacy protection data providing system and privacy protection data providing method - Google Patents

Privacy protection data providing system and privacy protection data providing method Download PDF

Info

Publication number
JP2018097467A
JP2018097467A JP2016239460A JP2016239460A JP2018097467A JP 2018097467 A JP2018097467 A JP 2018097467A JP 2016239460 A JP2016239460 A JP 2016239460A JP 2016239460 A JP2016239460 A JP 2016239460A JP 2018097467 A JP2018097467 A JP 2018097467A
Authority
JP
Japan
Prior art keywords
deep learning
parameter
value
laplace distribution
anonymization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016239460A
Other languages
Japanese (ja)
Other versions
JP6835559B2 (en
Inventor
雄一 清
Yuichi Sei
雄一 清
拓史 奥村
Takushi Okumura
拓史 奥村
大須賀 昭彦
Akihiko Osuga
昭彦 大須賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Research Institute Inc
University of Electro Communications NUC
Original Assignee
Mitsubishi Research Institute Inc
University of Electro Communications NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Research Institute Inc, University of Electro Communications NUC filed Critical Mitsubishi Research Institute Inc
Priority to JP2016239460A priority Critical patent/JP6835559B2/en
Publication of JP2018097467A publication Critical patent/JP2018097467A/en
Application granted granted Critical
Publication of JP6835559B2 publication Critical patent/JP6835559B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To acquire an accurate, suitable and anonymous deep layer learning model, regardless of types of data, when acquiring the anonymous deep layer learning model.SOLUTION: An error based on a Laplace distribution is given to a parameter value in a deep layer learning model in which a deep layer learning has been performed and when each parameter to which the error has been given on the basis of the Laplace distribution exceeds a range of thresholds indicated as a maximum value and a minimum value, each parameter is caused to be limited within the range of the thresholds for anonymization. Or an error based on the Laplace distribution is given to a parameter value used in a calculation at the time of the calculation to obtain the deep layer learning model, and when each parameter to which the error has been given on the basis of the Laplace distribution exceeds the range of the thresholds indicated as the maximum value and the minimum value, it is caused to be limited within the range of the thresholds for anonymization.SELECTED DRAWING: Figure 3

Description

本発明は、プライバシ保護データ提供システム及びプライバシ保護データ提供方法に関する。   The present invention relates to a privacy protection data providing system and a privacy protection data providing method.

近年、個人データなどのプライバシ保護が必要なデータを公開する際に、差分プライバシと称される処理を施して、個々のデータのプライバシを確保した上で、適正なデータ解析が実行できるようにしたものが提案されている。   In recent years, when publishing data that requires privacy protection, such as personal data, a process called differential privacy has been applied to ensure the privacy of individual data and to enable appropriate data analysis. Things have been proposed.

データに対して差分プライバシの処理を施す際には、プライバシの保護レベルが、「ε」で示されるプライバシ指標で示される。プライバシ指標「ε」の値が0に近づくほど、データの保護レベルが高く、プライバシ指標「ε」の値が大きいほど、データの保護レベルが低くなる。   When differential privacy processing is performed on data, the privacy protection level is indicated by a privacy index indicated by “ε”. The closer the value of the privacy index “ε” is to 0, the higher the data protection level is. The larger the value of the privacy index “ε” is, the lower the data protection level is.

具体的には、あるデータベースDを匿名化して差分プライバシの処理を施す匿名学習アルゴリズムAが存在するとき、この匿名学習アルゴリズムAは、確率的要素を含むアルゴリズムになる。すなわち、データベースDを、確率的要素を含む匿名学習アルゴリズムAで匿名化したときには、確率的要素を含むために、処理を施す毎に異なる匿名化済データs1,s2,・・・,snが得られる。ここで、データベースDと、そのデータベースDから1レコードだけ異なるデータとしたデータベースD′とを用意し、それぞれのデータベースD,D′の集合Sの特定のデータsi(データsiはデータs1〜snのいずれか)になる確率の比が、プライバシ指標「ε」を使ったexp(ε)以下になるとき、この匿名学習アルゴリズムAは、差分プライバシを満たすアルゴリズムになる。   Specifically, when there is an anonymous learning algorithm A that anonymizes a certain database D and performs differential privacy processing, the anonymous learning algorithm A is an algorithm including a stochastic element. That is, when the database D is anonymized by the anonymous learning algorithm A including the probabilistic element, the anonymized data s1, s2,. It is done. Here, a database D and a database D ′ that is different from the database D by one record are prepared, and specific data si of the set S of the databases D and D ′ (the data si is the data s1 to sn). The anonymous learning algorithm A is an algorithm that satisfies the difference privacy when the ratio of the probability of becoming any one is equal to or less than exp (ε) using the privacy index “ε”.

この差分プライバシを満たす点を、より分かりやすく述べると、例えば、多数の個人情報からなる特定のデータベースDに、ある任意の一人のデータを追加(又は削除)したものを、データベースD′とする。ここで、データベースDを匿名学習アルゴリズムAで差分プライバシの処理を施して匿名化した結果と、データベースD′を匿名学習アルゴリズムAで差分プライバシの処理を施して匿名化した結果とが、ほとんど変わらないとき(つまり上述した閾値exp(ε)を超えないとき)、プライバシが守られた状態で、データベースDが公開されたと言える。   The points satisfying this differential privacy will be described in a more easy-to-understand manner. For example, a database D ′ is obtained by adding (or deleting) data of an arbitrary person to a specific database D composed of a large number of personal information. Here, the result of anonymizing the database D with the anonymous learning algorithm A and the anonymization of the database D is almost the same as the result of anonymizing the database D ′ with the anonymous learning algorithm A and the difference privacy processing. Sometimes (that is, when the above-described threshold exp (ε) is not exceeded), it can be said that the database D has been released in a state where privacy is protected.

これは、データベースDを構成する各データで特定される個人から見たとき、一人一人のデータの有無に関わらず、結果がほぼ同じであるため、プライバシが守られた状態と見なせることになる。言い換えると、データベースDとデータベースD′のいずれであっても、結果が同じになることを意味している。
特許文献1には、差分プライバシを満たして、データを集計する手法の一例についての記載がある。
This can be regarded as a state in which privacy is protected because the results are almost the same regardless of the presence or absence of each person's data when viewed from the individual specified by each data constituting the database D. In other words, it means that the result is the same for either database D or database D ′.
Patent Document 1 describes an example of a method for totaling data while satisfying differential privacy.

特開2016−12074号公報Japanese Patent Laid-Open No. 2006-12074

上述したように、差分プライバシの処理を施す匿名学習アルゴリズムを作成することで、データの匿名化が可能であるが、実際には、どのようなデータベース構成であっても、確率の比がexp(ε)以下になる条件を満たして、かつニューラルモデルの精度が高くなるような機械学習を行う匿名学習アルゴリズムの作成は難しいという問題があった。   As described above, it is possible to anonymize data by creating an anonymous learning algorithm that performs differential privacy processing. Actually, however, the ratio of probabilities is exp ( There is a problem that it is difficult to create an anonymous learning algorithm that performs machine learning that satisfies the condition of [epsilon]) and that increases the accuracy of the neural model.

本発明は、匿名化された深層学習モデルを形成する際に、どのようなデータであっても、精度の高い好適な匿名化された深層学習モデルが得られるプライバシ保護データ提供システム及びプライバシ保護データ提供方法を提供することを目的とする。   The present invention provides a privacy protection data providing system and privacy protection data that can provide a highly accurate and suitable anonymized deep learning model for any data when forming an anonymized deep learning model An object is to provide a providing method.

本発明の一側面のプライバシ保護データ提供システムは、データベース内の生データに対して、深層学習アルゴリズムを適用して深層学習モデルを得る深層学習処理部と、深層学習処理部で得られた深層学習モデルに対して、差分プライバシに基づく匿名化処理を施して、匿名モデルを得る匿名化処理部とを備えたプライバシ保護データ提供システムである。
ここで、匿名化処理部は、深層学習モデルに含まれる重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、閾値の範囲に制限するようにしたことを特徴とする。
A privacy protection data providing system according to an aspect of the present invention includes a deep learning processing unit that obtains a deep learning model by applying a deep learning algorithm to raw data in a database, and deep learning obtained by the deep learning processing unit. A privacy protection data providing system including an anonymization processing unit that obtains an anonymous model by performing anonymization processing based on differential privacy for a model.
Here, the anonymization processing unit gives an error based on the Laplace distribution to each parameter value for the weight parameter and the bias parameter included in the deep learning model, and each parameter that gives an error based on the Laplace distribution. However, when the threshold value range indicated by the maximum value and the minimum value is exceeded, the threshold value range is limited.

また、本発明の他の側面のプライバシ保護データ提供システムは、データベース内の生データに対して、差分プライバシに基づく匿名化処理を施しながら、深層学習アルゴリズムを適用して深層学習済の匿名モデルを得る深層学習処理部を備えたプライバシ保護データ提供システムである。
ここで、深層学習処理部は、深層学習モデルを得る演算時に使用する重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、閾値の範囲に制限するようにしたことを特徴とする。
In addition, the privacy protection data providing system according to another aspect of the present invention applies a deep learning algorithm to a deeply learned anonymous model while performing anonymization processing based on differential privacy for raw data in a database. A privacy protection data providing system including a deep learning processing unit.
Here, the deep learning processing unit gives an error based on the Laplace distribution to each parameter value and gives an error based on the Laplace distribution to the weight parameter and the bias parameter used in the calculation for obtaining the deep learning model. When each parameter exceeds the threshold range indicated by the maximum value and the minimum value, the parameter is limited to the threshold range.

本発明の一側面のプライバシ保護データ提供方法は、データベース内の生データに対して、深層学習アルゴリズムを適用して深層学習モデルを得る深層学習処理手順と、記深層学習処理手順で得られた深層学習モデルに対して、差分プライバシに基づく匿名化処理を施す匿名化処理手順と、を含む。
ここで、匿名化処理手順は、深層学習モデルに含まれる重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、閾値の範囲に制限するようにしたことを特徴とする。
The privacy protection data providing method according to one aspect of the present invention includes a deep learning processing procedure for obtaining a deep learning model by applying a deep learning algorithm to raw data in a database, and a deep layer obtained by the deep learning processing procedure. An anonymization processing procedure for performing an anonymization processing based on differential privacy for the learning model.
Here, the anonymization processing procedure gives each parameter value an error based on the Laplace distribution for each of the weight parameter and the bias parameter included in the deep learning model, and each parameter that gives the error based on the Laplace distribution. However, when the threshold value range indicated by the maximum value and the minimum value is exceeded, the threshold value range is limited.

本発明の他の側面のプライバシ保護データ提供方法は、データベース内の生データに対して、差分プライバシに基づく匿名化処理を施しながら、深層学習アルゴリズムを適用して深層学習済の匿名モデルを得る深層学習処理手順を含む。
ここで、深層学習処理手順は、深層学習モデルを得る演算時に使用する重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、閾値の範囲に制限するようにしたことを特徴とする。
The privacy protection data providing method according to another aspect of the present invention provides a deep learning anonymous model by applying a deep learning algorithm to a raw data in a database while applying anonymization processing based on differential privacy. Includes a learning procedure.
Here, in the deep learning processing procedure, an error based on the Laplace distribution is given to each parameter value and an error is given based on the Laplace distribution to the weight parameter and the bias parameter used at the time of obtaining the deep learning model. When each parameter exceeds the threshold range indicated by the maximum value and the minimum value, the parameter is limited to the threshold range.

本発明によれば、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、閾値の範囲に制限するようにしたことで、誤差を与えてデータの匿名化を行っても、データの変動範囲を適正な範囲に制限することができ、適切な匿名化ができるようになる。その結果、匿名化による深層学習モデルの精度低下を軽減できるようになる。   According to the present invention, when each parameter that gives an error based on the Laplace distribution exceeds the threshold range indicated by the maximum value and the minimum value, the error is given by limiting to the threshold range. Even if data anonymization is performed, the data fluctuation range can be limited to an appropriate range, and appropriate anonymization can be performed. As a result, the accuracy degradation of the deep learning model due to anonymization can be reduced.

本発明の第1の実施の形態例による処理システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the processing system by the 1st Example of this invention. 本発明の第1の実施の形態例による匿名化処理部内で、ラプラス分布に基づいた誤差を与える構成例を示すブロック図である。It is a block diagram which shows the structural example which gives the error based on the Laplace distribution within the anonymization process part by the 1st Example of this invention. 本発明の第1の実施の形態例による処理の流れの例を示すフローチャートである。It is a flowchart which shows the example of the flow of the process by the 1st Example of this invention. 本発明の第1の実施の形態例による深層学習の概要を示す説明図である。It is explanatory drawing which shows the outline | summary of the deep learning by the 1st Example of this invention. 本発明の第1の実施の形態例による実験例を示す説明図である。It is explanatory drawing which shows the experiment example by the 1st Example of this invention. 本発明の第2の実施の形態例による処理システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the processing system by the 2nd Example of this invention. 本発明の第2の実施の形態例による処理の流れの例を示すフローチャートである。It is a flowchart which shows the example of the flow of the process by the 2nd Example of this invention. 本発明の第2の実施の形態例による実験例を示す説明図である。It is explanatory drawing which shows the experiment example by the 2nd Embodiment of this invention. 本発明の各実施の形態例による誤差の付与と閾値への制限例(例1)の概略を示す説明図である。It is explanatory drawing which shows the outline of the example (Example 1) of the provision of the error by each Example of this invention, and the restriction | limiting to a threshold value. 本発明の各実施の形態例による誤差の付与と閾値への制限例(例2)の概略を示す説明図である。It is explanatory drawing which shows the outline of the restriction | limiting example (Example 2) of the provision of the error by each embodiment of this invention, and a threshold value.

<1.第1の実施の形態例>
以下、本発明の第1の実施の形態例を、図1〜図5を参照して説明する。
<1. First Embodiment>
Hereinafter, a first embodiment of the present invention will be described with reference to FIGS.

[システム全体の構成]
図1は、第1の実施の形態例のプライバシ保護データ提供システムの構成を示す。
データベース1には、個人情報が含まれる多数の生データが蓄積され、データベース1に蓄積された生データが、深層学習処理部2に供給される。深層学習処理部2は、予め用意された深層学習アルゴリズムを適用した演算を行い、生データを深層学習した深層学習モデル3を得る。
[Entire system configuration]
FIG. 1 shows a configuration of a privacy protection data providing system according to the first embodiment.
A large amount of raw data including personal information is stored in the database 1, and the raw data stored in the database 1 is supplied to the deep learning processing unit 2. The deep learning processing unit 2 performs a calculation using a deep learning algorithm prepared in advance, and obtains a deep learning model 3 obtained by deep learning of raw data.

そして、深層学習処理部2で得た深層学習モデル3が、匿名化処理部10に供給される。匿名化処理部10は、供給された深層学習モデル3に対して、差分プライバシに基づく匿名化処理を施して、匿名化済みの深層学習モデル4(以下、「匿名化モデル4」と称する)を得る。   Then, the deep learning model 3 obtained by the deep learning processing unit 2 is supplied to the anonymization processing unit 10. The anonymization processing unit 10 performs anonymization processing based on differential privacy on the supplied deep learning model 3 and anonymized deep learning model 4 (hereinafter referred to as “anonymization model 4”). obtain.

匿名化処理部10が、差分プライバシに基づいて匿名化モデル4を得る際には、深層学習モデル3に含まれる重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいて誤差を与えて、差分プライバシの処理を施す。但し、それぞれのパラメータ値にラプラス分布に基づいた誤差を与える際には、その誤差として、最大値及び最小値を示す閾値で制限するようにした。
ラプラス分布に基づいた誤差を与えるということは、誤差を与えたパラメータ値が、確率的要素を含む値になり、結果的に匿名化が行われた匿名化モデル4が得られることになる。
When the anonymization processing unit 10 obtains the anonymization model 4 based on differential privacy, an error based on the Laplace distribution is added to each parameter value for the weight parameter and the bias parameter included in the deep learning model 3. Given, the processing of differential privacy is performed. However, when an error based on the Laplace distribution is given to each parameter value, the error is limited by a threshold value indicating the maximum value and the minimum value.
Giving an error based on the Laplace distribution means that the parameter value giving the error becomes a value including a stochastic element, and as a result, the anonymization model 4 in which anonymization is performed is obtained.

[ε−差分プライバシの処理構成]
図2は、匿名化処理部10の機能を示すブロック図である。
図2に示すように、匿名化処理部10は、データ入力部11、ε入力部12、パラメータ構造決定部13、パラメータ初期値決定部14、閾値決定部15、閾値超え判定部16及び閾値計算部17を備える。更に、匿名化処理部10は、匿名化演算部18及びデータ出力部19を備える。
[Ε-differential privacy processing configuration]
FIG. 2 is a block diagram illustrating functions of the anonymization processing unit 10.
As shown in FIG. 2, the anonymization processing unit 10 includes a data input unit 11, an ε input unit 12, a parameter structure determination unit 13, a parameter initial value determination unit 14, a threshold value determination unit 15, a threshold value excess determination unit 16, and a threshold value calculation. The unit 17 is provided. Furthermore, the anonymization processing unit 10 includes an anonymization calculation unit 18 and a data output unit 19.

データ入力部11には、深層学習モデルのデータが入力され、このデータが匿名化演算部18に供給される。ε入力部12には、差分プライバシの処理を行う際の指標「ε」が入力され、指標「ε」が、匿名化演算部18に供給される。   Data of the deep learning model is input to the data input unit 11, and this data is supplied to the anonymization calculation unit 18. The index “ε” used when the differential privacy processing is performed is input to the ε input unit 12, and the index “ε” is supplied to the anonymization calculation unit 18.

パラメータ構造決定部13は、深層学習モデル3のパラメータ構造を決める機能を有し、このパラメータ構造決定部13で決定された深層学習モデル3のパラメータ構造が、匿名化演算部18に供給される。なお、パラメータ構造決定部13で決定されるパラメータ構造には、少なくとも重みパラメータとバイアスパラメータが含まれる。そして、匿名化演算部18は、これら重みパラメータとバイアスパラメータに誤差を与える処理を行う。   The parameter structure determination unit 13 has a function of determining the parameter structure of the deep learning model 3, and the parameter structure of the deep learning model 3 determined by the parameter structure determination unit 13 is supplied to the anonymization calculation unit 18. The parameter structure determined by the parameter structure determination unit 13 includes at least a weight parameter and a bias parameter. Then, the anonymization calculation unit 18 performs a process of giving an error to these weight parameters and bias parameters.

パラメータ初期値決定部14は、上述した重みパラメータとバイアスパラメータのパラメータ初期値を決定する。このパラメータ初期値は、匿名化演算部18に供給され、匿名化演算部18は、このパラメータ初期値を用いて、パラメータ構造決定部13で決定されるパラメータ構造の初期値を決定する。   The parameter initial value determination unit 14 determines parameter initial values of the above-described weight parameter and bias parameter. The parameter initial value is supplied to the anonymization calculation unit 18, and the anonymization calculation unit 18 determines the initial value of the parameter structure determined by the parameter structure determination unit 13 using the parameter initial value.

閾値決定部15は、ラプラス分布に基づいて得た誤差を設定する際の最大値と最小値を制限するための閾値を決定する。この閾値決定部15における閾値の決定の際には、後述する閾値計算部17での計算結果が利用される。
閾値超え判定部16は、匿名化演算部18が演算を行う際に、パラメータ構造決定部13で決定した誤差値が、閾値決定部15で決定した閾値(最大値又は最小値)を超えたか否かを判定する。
The threshold value determination unit 15 determines a threshold value for limiting the maximum value and the minimum value when setting the error obtained based on the Laplace distribution. When the threshold value is determined by the threshold value determination unit 15, the calculation result of the threshold value calculation unit 17 described later is used.
Whether the error value determined by the parameter structure determination unit 13 exceeds the threshold (maximum value or minimum value) determined by the threshold determination unit 15 when the anonymization calculation unit 18 performs the calculation. Determine whether.

閾値計算部17は、閾値を設定するための計算を行い、計算結果を匿名化演算部18に供給する。
匿名化演算部18は、閾値超え判定部16での判定結果が、閾値を超えていた場合には閾値を誤差値とする処理を行う。匿名化演算部18で演算した結果は、データ出力部19から出力される。
The threshold calculation unit 17 performs calculation for setting the threshold and supplies the calculation result to the anonymization calculation unit 18.
The anonymization calculation unit 18 performs processing using the threshold value as an error value when the determination result in the threshold value excess determination unit 16 exceeds the threshold value. The result calculated by the anonymization calculation unit 18 is output from the data output unit 19.

[全体の処理の流れ]
図3は、第1の実施の形態例のプライバシ保護データ提供システムでの処理の流れを示すフローチャートである。
まず、深層学習処理部2は、データベース1から生データを取得する(ステップS11)。そして、深層学習処理部2は、取得した生データに対して、予め用意された深層学習アルゴリズムを適用して深層学習を行い(ステップS12)、深層学習処理の結果として、深層学習済モデルを取得する(ステップS13)。
[Overall process flow]
FIG. 3 is a flowchart showing a flow of processing in the privacy protection data providing system of the first exemplary embodiment.
First, the deep learning processing unit 2 acquires raw data from the database 1 (step S11). Then, the deep learning processing unit 2 performs deep learning on the acquired raw data by applying a deep learning algorithm prepared in advance (step S12), and acquires a deep learned model as a result of the deep learning processing. (Step S13).

次に、ステップS13で取得した深層学習済モデルに対して、匿名化処理部10が、匿名化処理を行う(ステップS14)。この匿名化処理を行う際には、閾値による制限を設定した上で、ラプラス分布に基づく誤差の付与を行う。
なお、ステップS14において、匿名化処理の制限に使用される閾値は、匿名化処理部10における、重みパラメータの変動量の最大値及び最小値を示す閾値と、バイアスパラメータの変動量の最大値及び最小値を示す閾値である。これらの閾値の生成処理(ステップS20)の詳細については数式を用いて後述する。
そして、匿名化処理部10によるステップS14での匿名化処理の実行で、匿名化モデルを取得し(ステップS15)、得られた匿名化モデルをデータ出力部19から出力する。
Next, the anonymization processing unit 10 performs anonymization processing on the deeply learned model acquired in step S13 (step S14). When this anonymization process is performed, an error is given based on the Laplace distribution after setting a limit based on a threshold.
In step S14, the threshold value used for the restriction of the anonymization process is the threshold value indicating the maximum value and the minimum value of the variation amount of the weight parameter in the anonymization processing unit 10, the maximum value of the variation amount of the bias parameter, and This is a threshold value indicating the minimum value. Details of the threshold generation processing (step S20) will be described later using mathematical expressions.
And anonymization model is acquired by execution of the anonymization process by step S14 by the anonymization process part 10 (step S15), and the obtained anonymization model is output from the data output part 19. FIG.

[深層学習の詳細]
次に、ここまで説明したステップS12〜S15の各処理の詳細について説明する。
まず、図4を参照して、深層学習が行われる例について説明する。
図4において、H(l)は、深層学習の1番目の層を示す。図4はL=3の例であり、全体でL+1個の層を持っている。入力層はH(0)、出力層はH(L)である。それぞれの層は、複数(又は1つ)のノードを有する。ノードN (l)は、層H(l)のi番目のノードを表し、n(l)は層H(l)におけるノードの個数を表す。層H(l)には、ノードN (l),N (l),・・・,Nn(l) (l)がある。
[Details of deep learning]
Next, details of each processing of steps S12 to S15 described so far will be described.
First, an example in which deep learning is performed will be described with reference to FIG.
In FIG. 4, H (l) indicates the first layer of deep learning. FIG. 4 shows an example of L = 3, and has L + 1 layers as a whole. The input layer is H (0) and the output layer is H (L) . Each layer has a plurality (or one) of nodes. Node N i (l) represents the i-th node in layer H (l), n (l ) is the number of nodes in layer H (l). In the layer H (l), there are nodes N 1 (l) , N 2 (l) ,..., N n (l) (l) .

また、図4において、wij (l)は、ノードN (l−1)とノードN (l)の間の重みパラメータを表す。b (l)は、ノードN (l)へのバイアスパラメータを表す。F(l)は、層H(l)の活性化関数を表す。x (l)はノードN (l)への入力を表し、y (l)はノードN (l)からの出力を表す。
これらの入出力の値は、以下の式で計算される。
In FIG. 4, w ij (l) represents a weight parameter between the node N i (l−1) and the node N j (l) . b j (l) represents a bias parameter to the node N j (l) . F (l) represents the activation function of the layer H (l) . x i (l) represents the input to node N i (l) and y i (l) represents the output from node N i (l) .
These input / output values are calculated by the following equations.

Figure 2018097467
Figure 2018097467

ここで、tは、ノードN (L)の目標出力値を表し、Mは誤差関数を表す。誤差関数Mは、入力としてy (L)及びtを取り、その誤差の値を返す。
学習データは、いくつかのバッチと呼ばれるまとまりに分割される。以下のプロセスは各バッチに対して行われる。
Here, t i represents a target output value of the node N i (L) , and M represents an error function. The error function M takes y i (L) and t i as inputs and returns the error value.
The learning data is divided into batches called batches. The following process is performed for each batch.

バッチ内の各レコードに対して、深層学習アルゴリズムにより、y (L)を計算する(i=1,・・・,n(L))。
次に、深層学習アルゴリズムにより、各ノードN (l)における誤差信号(δ (l)とおく)を計算する。l=Lのとき、δ (L)は以下の[数2]式のように計算される。
For each record in the batch, y i (L) is calculated by a deep learning algorithm (i = 1,..., N (L) ).
Next, an error signal (denoted as δ i (l) ) at each node N i (l ) is calculated by a deep learning algorithm. When l = L, δ i (L) is calculated as in the following [Equation 2].

Figure 2018097467
Figure 2018097467

l=1,・・・・,L−1に対しては、δ (l)は以下の[数3]式のように計算される。 For l = 1,..., L−1, δ i (l) is calculated as in the following [Equation 3].

Figure 2018097467
Figure 2018097467

そして、深層学習アルゴリズムにより、δ (l)をバッチ内の各レコードに対して計算し、その総和を新たにδ (l)とおく。
次に、変動量Δwij (l)を、以下のように定義する。
Then, δ i (l) is calculated for each record in the batch by the deep learning algorithm, and the sum is newly set as δ i (l) .
Next, the fluctuation amount Δw ij (l) is defined as follows.

Figure 2018097467
Figure 2018097467

最後に、深層学習アルゴリズムにより、各重みパラメータwij (l) for l=1,・・・,L,i=1,・・・,n(l−1), and j=1,・・・,n(l)を、以下の[数5]式のように更新する。 Finally, each weight parameter w ij (l) for l = 1,..., L, i = 1,..., N (l−1) , and j = 1,. , N (l) is updated as in the following [Equation 5].

Figure 2018097467
Figure 2018097467

ここで、学習率α、正則項λは、事前に決定しておく。
バイアスパラメータに関しては、以下のように更新する。
Here, the learning rate α and the regular term λ are determined in advance.
The bias parameter is updated as follows.

Figure 2018097467
Figure 2018097467

ここで、Δb (l)=δ (l)である。
この[数1]式から[数6]式のプロセスを、全てのバッチに対して行う。
また、このプロセスを複数回繰り返す。この繰り返し回数をエポック数と呼ぶ。エポック数は、深層学習を行う前に事前引用文献、又は学習を進めながら決定する。
Here, Δb j (l) = δ j (l) .
The processes of [Expression 1] to [Expression 6] are performed for all batches.
This process is repeated several times. This number of repetitions is called the epoch number. The number of epochs is determined prior to deep learning, with prior citations or while learning is in progress.

[ε−差分プライバシの詳細]
次に、ε−差分プライバシについて説明する。
例えば、データベースDとデータベースD′は、最大で1レコードだけ異なるとする。ランダム機構Aは、出力の全ての集合Yについて、以下の[数7]式の条件が成り立つとき、ε−差分プライバシを実現する。
[Details of ε-differential privacy]
Next, ε-differential privacy will be described.
For example, it is assumed that the database D and the database D ′ differ by a maximum of one record. The random mechanism A realizes ε-difference privacy for all sets Y of outputs when the condition of the following [Equation 7] is satisfied.

Figure 2018097467
Figure 2018097467

データベースDとデータベースD′とを、1レコードだけ異なるデータベースであると考える。入力のデータベースとして理論上可能性のある全てのデータベースの集合をQとおく。このとき、fを、f:Q→Rである関数とする。ここで、全てのデータベースD及びデータベースD′に対して以下の[数8]式が成立するとき、Δfをfのグローバルセンシティビティ(global sensitivity)、つまりfの値が取り得る範囲と定義する。   The database D and the database D ′ are considered to be different databases by one record. Let Q be the set of all theoretically possible databases as the input database. At this time, let f be a function of f: Q → R. Here, when the following [Equation 8] is established for all the databases D and D ′, Δf is defined as the global sensitivity of f, that is, the range that the value of f can take.

Figure 2018097467
Figure 2018097467

次に、ラプラスメカニズムと呼ばれる、ε−差分プライバシを満たす匿名化のメカニズムを説明する。
Lap(v)を、平均0、スケールがvであるラプラス分布に基づいてランダムな誤差を出力する関数であるとする。このとき、ある関数fに対して、ランダムメカニズムAが、f(D)+Lap(Δf/ε)を出力するとき、ランダムメカニズムAは、ε−差分プライバシを満たす。
Next, an anonymization mechanism that satisfies the ε-differential privacy, called a Laplace mechanism, will be described.
Let Lap (v) be a function that outputs a random error based on a Laplace distribution with an average of 0 and a scale of v. At this time, when the random mechanism A outputs f (D) + Lap (Δf / ε) for a certain function f, the random mechanism A satisfies ε−differential privacy.

ここでは、誤差bを与える対象の変数が、1つのデータの有無によって変動し得る値の幅の最大値をdとおく。ここでの最大値dは、実際の値ではなく、匿名化前のデータベースとして想定し得る値の幅から算出する。そして、誤差b=d/εとする。つまり、最大値dの値が大きく、εが小さいほど、誤差bの値が大きくなり、与えられる誤差が大きくなる。   Here, the maximum value of the range of values that can vary depending on the presence or absence of one piece of data for the error b is set as d. The maximum value d here is not an actual value, but is calculated from a range of values that can be assumed as a database before anonymization. Then, an error b = d / ε is set. That is, the larger the maximum value d and the smaller ε, the larger the error b and the larger the given error.

なお、深層学習の重みパラメータやバイアスパラメータは複数存在する。これらパラメータの集合に対してε−差分プライバシを満たすこともできるが、本実施の形態では、個々のパラメータに対して個別にε−差分プライバシを満たすようにする。
このように個々のパラメータに対して個別にε−差分プライバシを満たすようにする場合には、ランダム機構Aは、各パラメータにおける出力の全ての集合Yについて、以下の式が成り立ち、個々のパラメータに対して個別にε−差分プライバシを満たすことになる。なお、データベースDとデータベースD′は、最大で1レコードだけ異なる。
There are a plurality of deep learning weight parameters and bias parameters. Although the ε-differential privacy can be satisfied for the set of parameters, in the present embodiment, the ε-differential privacy is individually satisfied for each parameter.
In this way, when satisfying ε-difference privacy individually for each parameter, the random mechanism A has the following formula for all sets Y of outputs in each parameter, and On the other hand, ε-differential privacy is satisfied individually. Note that the database D and the database D ′ differ by a maximum of one record.

Figure 2018097467
Figure 2018097467

[各パラメータの閾値設定例]
次に、重みパラメータwij (l)とバイアスパラメータb (l)に対して値の閾値を設定する処理について説明する。なお、この処理は、図3のステップS20の処理に相当する。
この処理は、1レコードだけ異なるときに変わりうる値の、理論上の最大値(グローバルセンシティビティ)を減少させることで、パラメータに与える誤差を減少させるために行われる。これにより、深層学習モデルの精度低下を軽減させる、つまり精度の向上を図ることができる。
[Threshold setting example for each parameter]
Next, processing for setting a threshold value for the weight parameter w ij (l) and the bias parameter b j (l) will be described. This process corresponds to the process of step S20 in FIG.
This processing is performed in order to reduce the error given to the parameter by reducing the theoretical maximum value (global sensitivity) of the value that can change when only one record differs. As a result, it is possible to reduce a decrease in accuracy of the deep learning model, that is, to improve accuracy.

ここでは、重みパラメータwij (l)の最大値をwmax、最小値をwminとする。また、バイアスパラメータb (l)の最大値をbmax、最小値をbminとする。
また、本実施の形態では、深層学習への入力値(学習データ)にも閾値を設定する。この入力値の閾値は、ここでは[0,1]とする。ここでの閾値[0,1]とは、最小値を“0”とし、最大値を“1”として、“0”以上“1”以下に制限することを意味する。
Here, the maximum value of the weight parameter w ij (l) is set to w max and the minimum value is set to w min . In addition, the maximum value of the bias parameter b j (l) is b max , and the minimum value is b min .
In this embodiment, a threshold is also set for an input value (learning data) for deep learning. Here, the threshold value of the input value is [0, 1]. Here, the threshold value [0, 1] means that the minimum value is “0” and the maximum value is “1”, so that the threshold value is limited to “0” or more and “1” or less.

本実施の形態では、匿名化処理部10は、深層学習を行った後、学習済重みパラメータwij (l)に対して誤差を与える。つまり、深層学習時の全てのi,j,l(図3参照)に対して、wij (l)+Lap(wmax−wmin/ε)を計算する。この計算結果を、rij (l)とおく。もし、計算結果rij (l)の値が、最大値wmaxを超えた場合、重みパラメータwij (l)の値を最大値(閾値)wmaxに修正する。
同様に、もし計算結果rij (l)の値が、最小値wminを下回った場合、重みパラメータwij (l)の値を最小値(閾値)wminに修正する。
In the present embodiment, the anonymization processing unit 10 gives an error to the learned weight parameter w ij (l) after performing deep learning. That is, w ij (l) + Lap (w max −w min / ε) is calculated for all i, j, and l (see FIG. 3) during deep learning. Let this calculation result be r ij (l) . If the value of the calculation result r ij (l) exceeds the maximum value w max , the value of the weight parameter w ij (l) is corrected to the maximum value (threshold value) w max .
Similarly, if the value of the calculation result r ij (l) falls below the minimum value w min , the value of the weight parameter w ij (l) is corrected to the minimum value (threshold value) w min .

また、この最大値及び最小値で制限する処理を、バイアスパラメータb (l)に対しても行う。つまり、バイアスパラメータb (l)の計算結果を、min(bmax,max(bmin,b (l)+Lap((bmax−bmin)/ε)))に設定する。 Further, the process of limiting the maximum value and the minimum value is also performed on the bias parameter b j (l) . That is, the calculation result of the bias parameter b j (l) is set to min (b max , max (b min , b j (l) + Lap ((b max −b min ) / ε))).

[閾値を設定したときにε−差分プライバシを満たすことの説明]
次に、閾値(最大値、最小値)で誤差を制限したときのパラメータが、ε−差分プライバシを満たしたものであることを説明する。
上述したように、本実施の形態では、深層学習時の重みパラメータwij (l)やバイアスパラメータb (l)(図4参照)として、重みパラメータwij (l)の理論上の最大幅(グローバルセンシティビティ)は(wmax−wmin)であり、バイアスパラメータb (l)の理論上の最大幅(グローバルセンシティビティ)は(bmax−bmin)である。次に説明するように、学習済み重みパラメータw (l)の計算結果を、min(wmax,max(wmin,b (l)+Lap((wmax−wmin)/ε)))に設定し、学習済みバイアスパラメータb (l)の計算結果を、min(bmax,max(bmin,b (l)+Lap((bmax−bmin)/ε)))に設定することで、ε−差分プライバシを満たすことができる。
[Explanation of satisfying ε-differential privacy when a threshold is set]
Next, it will be described that the parameter when the error is limited by the threshold (maximum value, minimum value) satisfies ε-difference privacy.
As described above, in the present embodiment, the theoretical maximum width of the weight parameter w ij (l) is used as the weight parameter w ij (l) and the bias parameter b j (l) (see FIG. 4 ) during deep learning. (Global sensitivity) is (w max −w min ), and the theoretical maximum width (global sensitivity ) of the bias parameter b j (l ) is (b max −b min ). As will be described next, the calculation result of the learned weight parameter w j (l) is expressed as min (w max , max (w min , b j (l) + Lap ((w max −w min ) / ε))). And the calculation result of the learned bias parameter b j (l) is set to min (b max , max (b min , b j (l) + Lap ((b max −b min ) / ε))). Thus, ε-differential privacy can be satisfied.

ランダムメカニズムAが、min(fmin, max(fmax,f(D)+Lap(Δf/ε)))を出力するとき、ランダムメカニズムAはε−差分プライバシを実現する。ここで、fmax及びfminは、f(D)が取り得る理論上の最大値と最小値である。
ここで、データベースDと、そのデータベースDに対して1レコードだけ異なるデータベースD′をおく。
また、F(D)=f(D)+Lap(Δf/ε)とおく。F(D)の値が[fmin,fmax]の範囲に入るとき、[数7]式が成立する。
When the random mechanism A outputs min (f min , max (f max , f (D) + Lap (Δf / ε))), the random mechanism A realizes ε-differential privacy. Here, f max and f min are the theoretical maximum and minimum values that f (D) can take.
Here, a database D and a database D ′ different from the database D by one record are set.
Further, F (D) = f (D) + Lap (Δf / ε) is set. When the value of F (D) falls within the range of [f min , f max ], [Formula 7] is established.

次に、F(D)の値がfminを下回る場合を考える。このとき、A(D)の出力値はfminになる。A(D)の出力がfminになる確率は、次の[数9]式で表される。 Next, consider a case where the value of F (D) is less than f min . At this time, the output value of A (D) is f min . The probability that the output of A (D) will be f min is expressed by the following [Equation 9].

Figure 2018097467
Figure 2018097467

[数9]式において、Lap(v,u)は、スケールパラメータがvであり、平均との差がuである、ラプラス分布の確率密度関数の値を表す。
同様に、A(D′)の出力値がfminとなる確率は、次の[数10]式で表される。
In the formula [9], Lap (v, u) represents the value of the probability density function of the Laplace distribution in which the scale parameter is v and the difference from the average is u.
Similarly, the probability that the output value of A (D ′) is f min is expressed by the following [Equation 10].

Figure 2018097467
Figure 2018097467

[数9]式の値と、[数10]式の値の比は、最大で[数11]式で表される。   The ratio of the value of [Formula 9] and the value of [Formula 10] is represented by [Formula 11] at the maximum.

Figure 2018097467
Figure 2018097467

ここで、|f(D)−f(D′)|≦Δfであるから、[数11]式の値は、exp(ε)以下である。したがって、ε−差分プライバシを満たす。   Here, since | f (D) −f (D ′) | ≦ Δf, the value of the equation [11] is not more than exp (ε). Therefore, ε-differential privacy is satisfied.

次に、F(D)の値がfmax以上となる場合を考える。このとき、A(D)の出力値はfmaxに制限される。A(D)の出力がfmaxとなる確率は、次の[数12]式で表される。 Next, consider a case where the value of F (D) is greater than or equal to f max . At this time, the output value of A (D) is limited to f max . The probability that the output of A (D) will be f max is expressed by the following [Equation 12].

Figure 2018097467
Figure 2018097467

同様に、A(D′)の出力値がfmaxとなる確率は、次の[数13]式で表される。 Similarly, the probability that the output value of A (D ′) is f max is expressed by the following [Equation 13].

Figure 2018097467
Figure 2018097467

[数12]式の値と、[数13]式の値の比は、最大で[数14]式で表される。 The ratio of the value of [Expression 12] and the value of [Expression 13] is expressed by [Expression 14] at the maximum.

Figure 2018097467
Figure 2018097467

ここで、|f(D)−f(D′)|≦Δfであるから、[数14]式の値は、exp(ε)以下である。したがって、ε−差分プライバシを満たす。
このように誤差を最大値と最小値の閾値に制限することがε−差分プライバシを満たすことは、全てのパラメータについて成立する。したがって、本実施の形態のように各パラメータの誤差を閾値で制限することで、ε−差分プライバシが成り立つ。
Here, since | f (D) −f (D ′) | ≦ Δf, the value of the equation (14) is not more than exp (ε). Therefore, ε-differential privacy is satisfied.
In this way, limiting the error to the threshold value of the maximum value and the minimum value satisfies the ε-difference privacy for all parameters. Therefore, ε-difference privacy is established by limiting the error of each parameter with a threshold as in the present embodiment.

図9は、ここまで数式を用いて説明した、誤差を最大値と最小値の閾値に制限する処理の概略を示すものである。図9に示すように、例えばあるパラメータが取り得る値の範囲が“0”以上“1”以下であり、ある時点でのパラメータ値が0.8であるとする(グローバルセンシティビティは、最大値“1”と最小値“0”の差)。そして、このパラメータ値“0.8”に誤差を付与して、誤差付与済のパラメータ値が“1.1”になったとき、パラメータ値を閾値の範囲の上限値である“1”に制限する処理が行われる。
なお、この図9に示す例は、パラメータを閾値で制限する概略を非常に簡略化して示すものであり、実際の閾値に制限する処理は、ここまで数式を参照して説明した様々な条件を考慮して行われるものである。
FIG. 9 shows an outline of the processing for limiting the error to the threshold value of the maximum value and the minimum value, which has been described so far by using mathematical expressions. As shown in FIG. 9, for example, it is assumed that the range of values that a certain parameter can take is “0” or more and “1” or less, and the parameter value at a certain time point is 0.8 (the global sensitivity is the maximum value). Difference between “1” and minimum value “0”). When an error is given to the parameter value “0.8” and the parameter value with the error given becomes “1.1”, the parameter value is limited to “1” which is the upper limit value of the threshold range. Processing is performed.
Note that the example shown in FIG. 9 shows a very simplified outline of limiting parameters with thresholds, and the process of limiting to actual thresholds is based on the various conditions described above with reference to mathematical expressions. It is done with consideration.

[実データで評価した例]
図5は、本実施の形態の処理を、評価用のデータセットに対して実行した場合の例を示す。ここでは、評価用のデータセットとして、プライバシ保護データマイニングの分野で広く利用されている、[アダルトデータセット(Adult data set)]を利用する。[アダルトデータセット]は、15種類の属性(年齢、性別、人種、年収、など)から構成されており、欠損値を含むレコードを除外して、45,222レコードから成る。年収の属性は、各レコードの人物の年収が、5万ドルを超えているか否かの2値を取る。
そして、年収を除く14の属性から、年収が5万ドルを超えているか否かを予測する深層学習システムを構築する。
[Examples evaluated with actual data]
FIG. 5 shows an example when the processing of the present embodiment is performed on a data set for evaluation. Here, as an evaluation data set, [Adult data set], which is widely used in the field of privacy protection data mining, is used. [Adult data set] is composed of 15 types of attributes (age, gender, race, annual income, etc.), and is composed of 45,222 records excluding records containing missing values. The attribute of annual income takes a binary value indicating whether the annual income of the person in each record exceeds 50,000 dollars.
Then, a deep learning system that predicts whether the annual income exceeds $ 50,000 is constructed from the 14 attributes excluding the annual income.

まず、差分プライバシを満たすような匿名化を行わない、生データに対して事前実験を行い、深層学習モデルの精度が高くなるような深層学習アルゴリズムの構造を決定した。学習率は0.01、バッチサイズは50、エポック数は500、正則項は0.001、中間層の数は4(入力層、出力層を含めると、全部で5層)が良い結果を出した。   First, a preliminary experiment was performed on the raw data without anonymization satisfying the differential privacy, and the structure of the deep learning algorithm was determined so that the accuracy of the deep learning model was increased. The learning rate is 0.01, the batch size is 50, the epoch number is 500, the regular term is 0.001, and the number of intermediate layers is 4 (5 layers in total including the input and output layers). did.

ここでは、10分割交差検定を行って、差分プライバシを満たす匿名化を行うと共に、その匿名化を行う際に、誤差の最大値と最小値を閾値に制限する処理を行った場合の匿名化モデルの精度を計測した。この例では、精度を評価する手法として、手法[accuracy]と手法[f−measure]を用いた。10分割交差検定は、データセットを9:1の比率で2つに分け、比率9の方のデータをトレーニングデータとし、比率1のデータをテストデータとする。すなわち、比率9のトレーニングデータを使って学習を行い、比率1のテストデータから、給料を除く14種類の属性を入力として学習済みの深層学習モデルに投入して、給料を予測する処理を行う。そして、その予測結果と、実際の値を比較して評価を行う。この評価を10回行うようにして、各レコードが一度ずつテストデータに含まれるようにする。   Here, an anonymization model in the case of performing an anonymization satisfying the difference privacy by performing a 10-fold cross-validation and performing a process of limiting the maximum value and the minimum value of the error to a threshold value when performing the anonymization. The accuracy of was measured. In this example, the method [accuracy] and the method [f-measure] are used as methods for evaluating accuracy. In the 10-fold cross-validation, the data set is divided into two at a ratio of 9: 1, the data of the ratio 9 is used as training data, and the data of ratio 1 is used as test data. That is, learning is performed using the training data of the ratio 9, and 14 types of attributes excluding the salary are input to the learned deep learning model from the test data of the ratio 1, and the salary is predicted. Then, the evaluation result is compared with the actual value for evaluation. This evaluation is performed 10 times so that each record is included in the test data once.

手法[accuracy]と手法[f−measure]の2つの評価指標の値(図5の縦軸)は、いずれも0から1までの値であり、1に近いほど精度が高いことを示す。図5の横軸はデータセットの数(バッチサイズ)を示し、図5A、図5B、図5Cは、それぞれε=1、ε=10、ε=100の場合を示す。
例えば、図5Cに示す例では、手法[accuracy]での評価指標値が0.85、手法[f−measure]の評価指標値が0.79となり、いずれも良好な精度が確保されていることが分かる。
The two evaluation index values (the vertical axis in FIG. 5) of the method [accuracy] and the method [f-measure] are values from 0 to 1, and the closer to 1, the higher the accuracy. The horizontal axis of FIG. 5 shows the number of data sets (batch size), and FIGS. 5A, 5B, and 5C show cases where ε = 1, ε = 10, and ε = 100, respectively.
For example, in the example illustrated in FIG. 5C, the evaluation index value in the method [accuracy] is 0.85, and the evaluation index value in the method [f-measure] is 0.79, both of which ensure good accuracy. I understand.

<2.第2の実施の形態例>
次に、本発明の第2の実施の形態例を、図6〜図8を参照して説明する。この第2の実施の形態例を説明する図6〜図8において、第1の実施の形態例で説明した図1〜図5と同一の構成及び処理については同一符号を付し、詳細な説明を省略する。
<2. Second Embodiment>
Next, a second embodiment of the present invention will be described with reference to FIGS. 6 to 8 for explaining the second embodiment, the same components and processes as those in FIGS. 1 to 5 explained in the first embodiment are denoted by the same reference numerals, and detailed description will be given. Is omitted.

[システム全体の構成]
図6は、第2の実施の形態例のプライバシ保護データ提供システムの構成を示す。
データベース1には、個人情報が含まれる多数の生データが蓄積され、データベース1に蓄積された生データが、深層学習処理部20に供給される。深層学習処理部20は、予め用意された深層学習アルゴリズムを適用した演算を行うと同時に、深層学習の演算時に、差分プライバシに基づく匿名化処理を施して、匿名化済みの深層学習モデルである、匿名化モデル4を得る。
[Entire system configuration]
FIG. 6 shows the configuration of a privacy protection data providing system according to the second embodiment.
A large amount of raw data including personal information is stored in the database 1, and the raw data stored in the database 1 is supplied to the deep learning processing unit 20. The deep learning processing unit 20 is a deep learning model that has been anonymized by performing an operation applying a deep learning algorithm prepared in advance and performing anonymization processing based on differential privacy at the time of deep learning operation. Anonymization model 4 is obtained.

深層学習処理部20が、差分プライバシに基づいて匿名化モデル4を得る際には、深層学習アルゴリズムで使用する重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値の変動量にラプラス分布に基づいて誤差を与えて、差分プライバシの処理を施す。但し、それぞれのパラメータ値の変動量にラプラス分布に基づいた誤差を与える際には、その誤差として、最大値及び最小値を示す閾値で制限するようにした。
ラプラス分布に基づいた誤差を与えるということは、誤差を与えたパラメータ値が、確率的要素を含む値になり、結果的に匿名化が行われた匿名化モデル4が得られることになる。
深層学習処理部20が深層学習時に差分プライバシに基づいて匿名化モデル4を得るための誤差の生成は、図2に示した匿名化処理部10での処理と同様の構成で実現される。
When the deep learning processing unit 20 obtains the anonymization model 4 based on differential privacy, the variation amount of each parameter value is based on the Laplace distribution for the weight parameter and bias parameter used in the deep learning algorithm. An error is given and differential privacy processing is performed. However, when an error based on the Laplace distribution is given to the fluctuation amount of each parameter value, the error is limited by a threshold value indicating the maximum value and the minimum value.
Giving an error based on the Laplace distribution means that the parameter value giving the error becomes a value including a stochastic element, and as a result, the anonymization model 4 in which anonymization is performed is obtained.
The generation of an error for the deep learning processing unit 20 to obtain the anonymization model 4 based on differential privacy during deep learning is realized with the same configuration as the processing in the anonymization processing unit 10 shown in FIG.

[全体の処理の流れ]
図7は、第2の実施の形態例のプライバシ保護データ提供システムでの処理の流れを示すフローチャートである。
まず、深層学習処理部20は、データベース1から生データを取得する(ステップS31)。そして、深層学習処理部20は、取得した生データのパラメータの変動量に対して、グローバルセンシティビティによる制限を設定したラプラス分布に基づく誤差の付与を行いながら、予め用意された深層学習アルゴリズムを適用して深層学習を行う(ステップS32)。このときには、深層学習を行いながら逐次的に、パラメータの変動量のグローバルセンシティビティを計算する。パラメータの変動量のグローバルセンシティビティを計算することで、グローバルセンシティビティとプライバシ指標「ε」からラプラス分布が決まり、ラプラス分布で誤差を与えることで、匿名化が行われる。そして、深層学習処理の結果として、匿名化モデルを取得し(ステップS33)、得られた匿名化モデルをデータ出力部19から出力する。
[Overall process flow]
FIG. 7 is a flowchart showing a flow of processing in the privacy protection data providing system of the second exemplary embodiment.
First, the deep learning processing unit 20 acquires raw data from the database 1 (step S31). Then, the deep learning processing unit 20 applies a deep learning algorithm prepared in advance while assigning an error based on a Laplace distribution in which a restriction by global sensitivity is set to the fluctuation amount of the parameter of the acquired raw data. Then, deep learning is performed (step S32). At this time, the global sensitivity of the parameter variation is calculated sequentially while performing deep learning. By calculating the global sensitivity of the parameter variation, the Laplace distribution is determined from the global sensitivity and the privacy index “ε”, and anonymization is performed by giving an error in the Laplace distribution. Then, an anonymization model is acquired as a result of the deep learning process (step S33), and the obtained anonymization model is output from the data output unit 19.

ステップS32において、匿名化処理の制限に使用される閾値は、深層学習処理部20における、重みパラメータの変動量の最大値及び最小値を示す閾値と、バイアスパラメータの変動量の最大値及び最小値を示す閾値である。   In step S32, the threshold values used for the restriction of the anonymization process are the threshold value indicating the maximum value and the minimum value of the variation amount of the weight parameter in the deep learning processing unit 20, and the maximum value and minimum value of the variation amount of the bias parameter It is a threshold which shows.

[深層学習の詳細]
次に、ここまで説明したステップS31〜S33の各処理の詳細について説明する。
本実施の形態例では、活性化関数と誤差関数を事前に決めて、匿名化された深層学習を行う。
例えば、f(x)=max(0;x)で定義されるReLUが、深層学習の最終層を除く活性化関数として広く利用されている。
深層学習の利用目的として、カテゴリ分類の場合、最終層の活性化関数(F(L))
としてソフトマックス関数が、また、誤差関数としてクロスエントロピー誤差関数が広く利用されている。
ソフトマックス関数は、次の[数15]式のように定義される。
[Details of deep learning]
Next, details of each processing of steps S31 to S33 described so far will be described.
In the present embodiment, an activation function and an error function are determined in advance, and anonymized deep learning is performed.
For example, ReLU defined by f (x) = max (0; x) is widely used as an activation function excluding the final layer of deep learning.
For the purpose of using deep learning, in the case of category classification, the activation function (F (L)) of the final layer
A softmax function is widely used, and a cross-entropy error function is widely used as an error function.
The softmax function is defined as in the following [Equation 15].

Figure 2018097467
Figure 2018097467

また、クロスエントロピー誤差関数は、次の[数16]式のように定義される。   The cross entropy error function is defined as the following [Equation 16].

Figure 2018097467
Figure 2018097467

ここでは、匿名化された深層学習を行う場合、深層学習を行う最終層を除く各層は、活性化関数ReLUを、最終層の活性化関数としてソフトマックス関数を、誤差関数としてクロスエントロピー誤差関数を利用する。
最終層の活性化関数がソフトマックス関数であり、かつ、誤差関数がクロスエントロピー誤差関数の場合、誤差信号δ(L) for j=1,・・・,n(L)の値は、次の[数17]式に示すように計算される。
Here, when anonymized deep learning is performed, each layer except the final layer that performs deep learning has an activation function ReLU, a softmax function as an activation function of the final layer, and a cross-entropy error function as an error function. Use.
When the activation function of the final layer is a softmax function and the error function is a cross-entropy error function, the value of the error signal δ j (L) for j = 1,..., N (L) is This is calculated as shown in [Equation 17].

Figure 2018097467
Figure 2018097467

[数17]式において、y (L)はノードN (L)の出力値を表し、t (L)はノードNj (L)の目標出力値を表す。
最終層以外の層において活性化関数ReLUを使った場合、最終層以外の各ノードの誤差信号δ (l)=1,・・・,L−1は次の[数18]式で計算される。
In Equation 17, y j (L) represents the output value of the node N j (L) , and t j (L) represents the target output value of the node N j (L) .
When the activation function ReLU is used in a layer other than the final layer, error signals δ j (l) = 1,..., L−1 of each node other than the final layer are calculated by the following [Equation 18]. The

Figure 2018097467
Figure 2018097467

(1)の値として取り得る範囲は、[b (1)+Σmin(wi,j (1),0), b (1)+Σmax(wi,j (1),0)]である。また、x (2)の値として取り得る範囲は、[b (2)+Σ(b (1)+Σmax(wk,i (1),0))min(wi,j (2),0), b (2)+Σ(b (1)+Σmax(wk,i (1),0))max(wi,j (2),0)]となる。深層学習では、x (l) for l=1,・・・,Lは、次の[数19]式で計算される。 The possible range for the value of x j (1) is [b j (1) + Σ i min (wi , j (1) , 0), b j (1) + Σ i max (wi , j (1) , 0)]. Further, the range that can be taken as the value of x j (2) is [b j (2) + Σ i (b i (1) + Σ k max (w k, i (1) , 0)) min (w i, j (2) , 0), b j (2) + Σ i (b i (1) + Σ k max (w k, i (1) , 0)) max (w i, j (2) , 0)] . In deep learning, x j (l) for l = 1,..., L is calculated by the following [Equation 19].

Figure 2018097467
Figure 2018097467

ここで、min(y (0))=0であり、max(y (0))=1である。これは、深層学習の第1層目への入力値を0以上1以下の範囲に正規化しているためである。また、最終層以外の層では、活性化関数ReLUを使っているので、l=1,・・・,L−1において、y (l)は、次の[数20]式によって計算される。 Here, min (y i (0) ) = 0 and max (y i (0) ) = 1. This is because the input value to the first layer of deep learning is normalized to a range of 0 or more and 1 or less. In addition, since the activation function ReLU is used in the layers other than the final layer, y j (l) is calculated by the following [Equation 20] at l = 1,..., L−1. .

Figure 2018097467
Figure 2018097467

これによって、max(y (l))の値は、常に0以上であることがわかる。
次に、誤差信号δ (l)の取り得る値の範囲を計算する。深層学習モデルの出力値の範囲は、−1から1までであるので、次の[数21]式のように定義される。
This shows that the value of max (y j (l) ) is always 0 or more.
Next, a range of possible values of the error signal δ j (l) is calculated. Since the range of the output value of the deep learning model is from −1 to 1, it is defined as the following [Expression 21].

Figure 2018097467
Figure 2018097467

また、l=1,・・・,L−1について、次の[数22]式で示される。ここで、全てのjとlについて、min(δ (l))であり、max(δ (l))≧0である。 Further, l = 1,..., L−1 is expressed by the following [Equation 22]. Here, for all j and l, min (δ j (l) ) and max (δ j (l) ) ≧ 0.

Figure 2018097467
Figure 2018097467

最終的には、次の[数23]式が得られる。   Ultimately, the following [Equation 23] is obtained.

Figure 2018097467
Figure 2018097467

(l)については、次の[数24]式で示される。 b j (l) is expressed by the following [Equation 24].

Figure 2018097467
Figure 2018097467

また、l=1,・・・,L−1について、次の[数25]式で示される。   Further, l = 1,..., L−1 is expressed by the following [Equation 25].

Figure 2018097467
Figure 2018097467

既に述べたように、重みパラメータの変動量Δwij (l)と、バイアスパラメータの変動量Δb (l)に基づいて、重みパラメータとバイアスパラメータを、[数5]式と[数6]式により更新する。つまり、データ入力ごとに毎回、重みパラメータとバイアスパラメータを更新する。
ここで本実施の形態例では、このときの変動量にラプラス分布に基づく誤差を与える。重みパラメータの変動量Δwij (l)と、バイアスパラメータの変動量Δb (l)についても、値の閾値を設定する。
As already described, the weighting parameter and the biasing parameter are expressed by the following [Equation 5] and [Equation 6] based on the weighting parameter variation Δw ij (l) and the bias parameter variation Δb j (l) . Update with That is, the weight parameter and the bias parameter are updated every time data is input.
Here, in the present embodiment, an error based on the Laplace distribution is given to the fluctuation amount at this time. A threshold value is also set for the fluctuation amount Δw ij (l) of the weight parameter and the fluctuation amount Δb j (l) of the bias parameter.

ここでは、ΔwmaxとΔwminを、重みパラメータの変動量Δwij (l)の最大値と最小値とする。また、ΔbmaxとΔbminを、バイアスパラメータΔb (l)の最大値と最小値とする。 Here, Δw max and Δw min are the maximum value and the minimum value of the variation amount Δw ij (l) of the weight parameter. Also, Δb max and Δb min are the maximum and minimum values of the bias parameter Δb j (l) .

また、深層学習のエポック数をEとおく。各バッチに対して学習を行う際に、それぞれのwij (l)とb (l)に対して、重みパラメータの変動量Δwij (l)を、min(Δwmax, min(Δwmax,wij (l)+Lap((Δwmax−Δwmin)・E/ε)))に設定する。また、バイアスパラメータの変動量Δb (l)をmin(Δbmax, max(Δbmin,b (l)+Lap((Δbmax−Δbmin)・E/ε)))に設定する。 Also, let E be the epoch number for deep learning. When learning is performed for each batch, the weight parameter fluctuation amount Δw ij (l) is set to min (Δw max , min (Δw max , ) for each w ij (l) and b j (l) . w ij (l) + Lap ((Δw max −Δw min ) · E / ε))). The bias parameter variation Δb j (l) is set to min (Δb max , max (Δb min , b j (l) + Lap ((Δb max −Δb min ) · E / ε))).

[閾値を設定したときにε−差分プライバシを満たすことの説明]
次に、深層学習を行う際に、パラメータを閾値(最大値,最小値)で誤差を制限した匿名モデルが、ε−差分プライバシを満たしたものであることを説明する。
各重みパラメータとバイアスパラメータは、[数5]式と[数6]式に基づいて更新される。[数5]式と[数6]式において、重みパラメータの変動量Δwij (l)とバイアスパラメータの変動量Δb (l)は学習の入力値に依存して変わるが、それ以外の値は入力値に依存しない。したがって、第1の実施の形態で、閾値を設定したときにε−差分プライバシを満たすことを証明した場合と同様に、Δwij (l)をmin(Δwmax, max(Δwmin,wij (l)+Lap((Δwmax−Δwmin)・E/ε)))に設定し、また、Δb (l)をmin(Δbmax, max(Δbmin,b (l)+Lap((Δbmax−Δbmin)・E/ε)))に設定することで、各エポックのイテレーションは、パラメータベース(ε/E)−差分プライバシを満たす。
全体でEエポックあるので、次に説明する証明より、最終的にε−差分プライバシを満たす。
[Explanation of satisfying ε-differential privacy when a threshold is set]
Next, it will be described that the anonymous model in which the error is limited by the threshold value (maximum value, minimum value) when the deep learning is performed satisfies the ε-difference privacy.
Each weight parameter and bias parameter are updated based on [Formula 5] and [Formula 6]. In [Expression 5] and [Expression 6], the weight parameter variation Δw ij (l) and the bias parameter variation Δb j (l) vary depending on the learning input value, but other values are used. Does not depend on the input value. Accordingly, in the first embodiment, Δw ij (l) is changed to min (Δw max , max (Δw min , w ij ( ) , as in the case where it is proved that ε-differential privacy is satisfied when the threshold is set. l) + Lap ((Δw max −Δw min ) · E / ε))), and Δb j (l) is set to min (Δb max , max (Δb min , b j (l) + Lap ((Δb max) −Δb min ) · E / ε))), each epoch iteration satisfies the parameter base (ε / E) −differential privacy.
Since there are E epochs as a whole, the ε-differential privacy is finally satisfied from the proof described below.

ランダムメカニズムAが、d個のランダムメカニズムA,・・・,Aから成り立っており、これを1回ずつ続けて実施するものとする。ここでは、i≧2において、Aは入力としてAi−1の出力値を取る。Aの出力値が、Aの出力値となる。
各Aは、パラメータベースε−差分プライバシを満たすものとする。このとき、Aはパラメータベース(Σi=1 ε)の差分プライバシを実現する。
The random mechanism A is composed of d random mechanisms A 1 ,..., A d , and this is performed continuously once. Here, when i ≧ 2, A i takes an output value of A i−1 as an input. The output value of Ad becomes the output value of A.
Each A i shall satisfy the parameter base ε i -differential privacy. At this time, A realizes a parameter-based (Σ i = 1 d ε i ) differential privacy.

ランダムメカニズムAは、d個のランダムメカニズムA,・・・,Aから成り立っており、これを1回ずつ続けて実施するものとする。i≧2において、Aは入力としてAi−1の出力値を取る。Aの出力値が、Aの出力値となる。ここで、各Aは、ε−差分プライバシを満たすものとする。このとき、ランダムメカニズムAは(Σi=1 ε)−差分プライバシを実現する。
この処理は各パラメータに対して実行されるので、ここでのランダムメカニズムAは、パラメータベース(Σi=1 ε)−差分プライバシを実現する。
The random mechanism A is composed of d random mechanisms A 1 ,..., A d , and this is performed continuously once. For i ≧ 2, A i takes the output value of A i−1 as an input. The output value of Ad becomes the output value of A. Here, it is assumed that each A i satisfies ε i -difference privacy. At this time, the random mechanism A realizes (Σ i = 1 d ε i ) −differential privacy.
Since this process is executed for each parameter, the random mechanism A here realizes a parameter base (Σ i = 1 d ε i ) -differential privacy.

図10は、第2の実施の形態例での、誤差を最大値と最小値の閾値に制限する処理の概略を示すものである。図10に示すように、例えばあるパラメータの変動量として取り得る最大の範囲が“0”以上“1”以下であり、ある時点での変動量が0.6であるとする。そして、学習しながら逐次的に算出された閾値の範囲が、“0.3”以上“0.7”以下であるとする(この場合のグローバルセンシティビティは、0.7―0.3=0.4)。この閾値の範囲(グローバルセンシティビティ)とプライバシ指標「ε」からラプラス分布が決まる。ラプラス分布で誤差を与える処理が行われる。なお、グローバルセンシティビティ(Δf)は、既に説明した[数8]式で計算されるものである。
ここで、図10に示すように、パラメータの変動量“0.5”に誤差を付与して、誤差付与済のパラメータの変動量が“0.1”になったとき、その時点での閾値の範囲の下限値である“0.3”に制限する処理が行われる。ラプラス分布はグローバルセンシティビティとプライバシ指標「ε」から計算されるため、グローバルセンシティビティの値を小さく(つまり閾値の幅を小さく)することで、ラプラス分布の誤差を小さくすることができ、深層学習の精度の向上につながる。
この図10に示す例についても、図9の例と同様に、パラメータの変動量を閾値で制限する概略を非常に簡略化して示すものであり、実際の閾値に制限する処理は、ここまで数式を参照して説明した様々な条件を考慮して行われるものである。
また、第2の実施の形態例の場合でも、グローバルセンシティビティ(Δf)が、パラメータの変動量として取り得る最大の範囲と一致する場合には、図9に示す状態で閾値の制限が行われることになる。
FIG. 10 shows an outline of the process for limiting the error to the threshold values of the maximum value and the minimum value in the second embodiment. As shown in FIG. 10, for example, it is assumed that the maximum range that can be taken as a variation amount of a certain parameter is “0” or more and “1” or less, and the variation amount at a certain time is 0.6. Then, it is assumed that the range of threshold values sequentially calculated while learning is “0.3” or more and “0.7” or less (the global sensitivity in this case is 0.7−0.3 = 0). .4). The Laplace distribution is determined from this threshold range (global sensitivity) and the privacy index “ε”. A process of giving an error with a Laplace distribution is performed. Note that the global sensitivity (Δf) is calculated by the equation [8] already described.
Here, as shown in FIG. 10, when an error is given to the parameter variation “0.5” and the parameter variation with the error added becomes “0.1”, the threshold value at that time The process of limiting to “0.3” which is the lower limit value of the range is performed. Since the Laplace distribution is calculated from the global sensitivity and the privacy index “ε”, the error of the Laplace distribution can be reduced by reducing the global sensitivity value (that is, the threshold width), and deep learning Leads to improved accuracy.
As in the example of FIG. 9, the example shown in FIG. 10 also shows a very simplified outline of limiting the amount of parameter fluctuation with a threshold value. This is performed in consideration of various conditions described with reference to FIG.
Even in the case of the second embodiment, when the global sensitivity (Δf) matches the maximum range that can be taken as the amount of parameter fluctuation, the threshold is limited in the state shown in FIG. It will be.

[実データで評価した例]
図8は、本実施の形態の処理を、評価用のデータセットに対して実行した場合の例を示す。この図8の例は、第1の実施の形態で説明した図5での評価と同じ条件で行ったものである。
図8の横軸はデータセットの数(バッチサイズ)を示し、図8A、図8B、図8Cは、それぞれε=1、ε=10、ε=100の場合を示す。
図8A、図8B、図8Cに示すように、いずれの場合でも良好な精度が確保されていることが分かる。ここで、図5(第1の実施の形態例)と、図8(第2の実施の形態例)とを比較すると分かるように、εの値が小さいときは、第1の実施の形態例の方が、高い精度が得られる。一方、εの値が大きいときは、第2の実施の形態例の方が、高い精度が得られる。但し、この結果は使用するデータセットによって変わるものであり、いずれの実施の形態を適用するのが好ましいかは、使用するデータセットによって異なる。
[Examples evaluated with actual data]
FIG. 8 shows an example when the processing of the present embodiment is performed on a data set for evaluation. The example of FIG. 8 is performed under the same conditions as the evaluation in FIG. 5 described in the first embodiment.
The horizontal axis of FIG. 8 shows the number of data sets (batch size), and FIGS. 8A, 8B, and 8C show cases where ε = 1, ε = 10, and ε = 100, respectively.
As shown in FIGS. 8A, 8B, and 8C, it can be seen that good accuracy is ensured in any case. Here, as can be seen by comparing FIG. 5 (first embodiment) and FIG. 8 (second embodiment), when the value of ε is small, the first embodiment. The higher accuracy is obtained. On the other hand, when the value of ε is large, the second embodiment can obtain higher accuracy. However, this result varies depending on the data set to be used, and which embodiment is preferably applied differs depending on the data set to be used.

なお、図5及び図8に示す評価例では、予測した年収が5万ドル以下で、実際の年収が5万ドル以下である場合の回数をTN、予測した年収が5万ドル以下で、実際の年収が5万ドルを超えている場合の回数をFNとした。また、予測した年収が5万ドルを超えていて、実際に5万ドルを超えている場合の回数をTP、予測した年収が5万ドルを超えていて、実際の年収が5万ドル以下である場合の回数をFPとした。
このとき、手法[accuracy]では、[数26]式での評価を行う。また、手法[f−measure]では、[数27]式での評価を行う。
In the evaluation examples shown in FIGS. 5 and 8, the number of times when the predicted annual income is less than $ 50,000 and the actual annual income is less than $ 50,000 is TN, and the predicted annual income is less than $ 50,000 and is actually FN is the number of times that the annual income exceeds $ 50,000. Also, if the predicted annual income is over 50,000 dollars and the actual annual income is over 50,000 dollars, TP, the predicted annual income is over 50,000 dollars, and the actual annual income is under 50,000 dollars The number of times in some cases was defined as FP.
At this time, in the method [accuracy], evaluation is performed using the formula [26]. In the method [f-measure], the evaluation is performed using the equation [27].

Figure 2018097467
Figure 2018097467

Figure 2018097467
Figure 2018097467

以上説明したように、本発明の各実施の形態によると、ラプラス分布に基づいた誤差を与えて匿名化を行う際に、その誤差の最大値と最小値を閾値で制限するようにしたことで、匿名化を行う際に与える誤差を一定の範囲に制限することができ、誤差が少ない適切な匿名化を行うことができる。その結果、深層学習モデルの精度低下を軽減できるようになる。   As described above, according to each embodiment of the present invention, when anonymization is performed by giving an error based on the Laplace distribution, the maximum value and the minimum value of the error are limited by a threshold value. The error given when anonymizing can be limited to a certain range, and appropriate anonymization with little error can be performed. As a result, it is possible to reduce a decrease in accuracy of the deep learning model.

なお、ここまで説明した数式は、本発明の各実施の形態を適用する場合の好適な一例を示したものであり、本発明は、これらの数式で説明した処理に限定されるものではない。   The mathematical formulas described so far show a suitable example in the case of applying each embodiment of the present invention, and the present invention is not limited to the processing described with these mathematical formulas.

1…データベース(生データ)、2…深層学習処理部、3…深層学習モデル、4…匿名化モデル(匿名化済の深層学習モデル)、10…匿名化処理部(閾値制限付き差分プライバシ適用)、11…データ入力部、12…ε入力部、13…パラメータ構造決定部、14…パラメータ初期値決定部、15…閾値決定部、16…閾値超え判定部、17…閾値計算部、18…匿名化演算部、19…データ出力部、20…機械学習処理部(差分プライバシ適用)   DESCRIPTION OF SYMBOLS 1 ... Database (raw data), 2 ... Deep learning processing part, 3 ... Deep learning model, 4 ... Anonymization model (anonymized deep learning model), 10 ... Anonymization processing part (difference privacy application with threshold limitation) , 11 ... Data input section, 12 ... ε input section, 13 ... Parameter structure determination section, 14 ... Parameter initial value determination section, 15 ... Threshold determination section, 16 ... Threshold exceedance determination section, 17 ... Threshold calculation section, 18 ... Anonymous Calculation unit, 19 ... data output unit, 20 ... machine learning processing unit (difference privacy applied)

Claims (6)

データベース内の生データに対して、深層学習アルゴリズムを適用して深層学習モデルを得る深層学習処理部と、
前記深層学習処理部で得られた深層学習モデルに対して、差分プライバシに基づく匿名化処理を施して匿名モデルを得る匿名化処理部と、を備えたプライバシ保護データ提供システムであり、
前記匿名化処理部は、前記深層学習モデルに含まれる重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、前記閾値の範囲に制限するようにしたことを特徴とする
プライバシ保護データ提供システム。
A deep learning processing unit that applies a deep learning algorithm to the raw data in the database to obtain a deep learning model;
An anonymization processing unit that obtains an anonymous model by performing anonymization processing based on differential privacy for the deep learning model obtained by the deep learning processing unit, and a privacy protection data providing system comprising:
The anonymization processing unit gives an error based on the Laplace distribution to each parameter value for the weight parameter and the bias parameter included in the deep learning model, and each parameter giving an error based on the Laplace distribution A privacy protection data providing system characterized in that when the threshold value range indicated by the maximum value and the minimum value is exceeded, the threshold value range is limited.
データベース内の生データに対して、差分プライバシに基づく匿名化処理を施しながら、深層学習アルゴリズムを適用して深層学習済の匿名モデルを得る深層学習処理部を備えたプライバシ保護データ提供システムであり、
前記深層学習処理部は、深層学習モデルを得る演算時に使用する重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、前記閾値の範囲に制限するようにしたことを特徴とする
プライバシ保護データ提供システム。
It is a privacy protection data providing system including a deep learning processing unit that obtains an anonymous model that has been deeply learned by applying a deep learning algorithm while performing anonymization processing based on differential privacy for raw data in a database,
The deep learning processing unit gives each parameter value an error based on the Laplace distribution and gives an error based on the Laplace distribution to the weight parameter and the bias parameter used at the time of calculating the deep learning model. A privacy protection data providing system characterized in that when a parameter exceeds a threshold range indicated by a maximum value and a minimum value, the parameter is limited to the threshold range.
前記深層学習処理部が深層学習モデルを得る際に、逐次的にグローバルセンシティビティを計算し、計算したグローバルセンシティビティに基づいて前記ラプラス分布を取得する処理を行い、
その逐次的に取得した前記ラプラス分布に基づいた誤差を与えるようにした
請求項2に記載のプライバシ保護データ提供システム。
When the deep learning processing unit obtains a deep learning model, it sequentially calculates global sensitivity, performs processing to acquire the Laplace distribution based on the calculated global sensitivity,
The privacy protection data providing system according to claim 2, wherein an error based on the sequentially acquired Laplace distribution is given.
データベース内の生データに対して、深層学習アルゴリズムを適用して深層学習モデルを得る深層学習処理手順と、
前記深層学習処理手順で得られた深層学習モデルに対して、差分プライバシに基づく匿名化処理を施す匿名化処理手順と、を含み、
前記匿名化処理手順は、前記深層学習モデルに含まれる重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、前記閾値の範囲に制限するようにしたことを特徴とする
プライバシ保護データ提供方法。
Deep learning processing procedure to obtain deep learning model by applying deep learning algorithm to raw data in database,
Anonymization processing procedure for performing anonymization processing based on differential privacy for the deep learning model obtained in the deep learning processing procedure,
The anonymization processing procedure gives an error based on the Laplace distribution to each parameter value for the weight parameter and the bias parameter included in the deep learning model, and each parameter that gives an error based on the Laplace distribution A privacy protection data providing method, characterized in that, when the range of the threshold value indicated by the maximum value and the minimum value is exceeded, the range is limited to the threshold value range.
データベース内の生データに対して、差分プライバシに基づく匿名化処理を施しながら、深層学習アルゴリズムを適用して深層学習済の匿名モデルを得る深層学習処理手順を含み、
前記深層学習処理手順は、深層学習モデルを得る演算時に使用する重みパラメータ及びバイアスパラメータに対して、それぞれのパラメータ値にラプラス分布に基づいた誤差を与えると共に、ラプラス分布に基づいて誤差を与えた各パラメータが、最大値及び最小値で示される閾値の範囲を超えたとき、前記閾値の範囲に制限するようにしたことを特徴とする
プライバシ保護データ提供方法。
Including deep learning processing procedure to obtain deep learning learned anonymous model by applying deep learning algorithm while performing anonymization processing based on differential privacy for raw data in database,
The deep learning processing procedure gives each parameter value an error based on the Laplace distribution and an error based on the Laplace distribution for each of the weight parameter and the bias parameter used in the calculation for obtaining the deep learning model. A privacy protection data providing method, characterized in that, when a parameter exceeds a threshold range indicated by a maximum value and a minimum value, the parameter is limited to the threshold range.
前記深層学習処理手順で深層学習モデルを得る際には、逐次的にグローバルセンシティビティを計算し、計算したグローバルセンシティビティに基づいて前記ラプラス分布を取得し、
その逐次的に取得した前記ラプラス分布に基づいた誤差を与えるようにした
請求項5に記載のプライバシ保護データ提供方法。
When obtaining a deep learning model in the deep learning processing procedure, sequentially calculate global sensitivity, obtain the Laplace distribution based on the calculated global sensitivity,
The privacy protection data providing method according to claim 5, wherein an error based on the sequentially acquired Laplace distribution is given.
JP2016239460A 2016-12-09 2016-12-09 Privacy protection data provision system Active JP6835559B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016239460A JP6835559B2 (en) 2016-12-09 2016-12-09 Privacy protection data provision system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016239460A JP6835559B2 (en) 2016-12-09 2016-12-09 Privacy protection data provision system

Publications (2)

Publication Number Publication Date
JP2018097467A true JP2018097467A (en) 2018-06-21
JP6835559B2 JP6835559B2 (en) 2021-02-24

Family

ID=62633568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016239460A Active JP6835559B2 (en) 2016-12-09 2016-12-09 Privacy protection data provision system

Country Status (1)

Country Link
JP (1) JP6835559B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241774A (en) * 2018-09-19 2019-01-18 华中科技大学 A kind of difference private space decomposition method and system
KR20190067717A (en) * 2017-12-07 2019-06-17 한국과학기술원 Apparatus and system for machine learning using coding technique
WO2020250724A1 (en) * 2019-06-11 2020-12-17 ソニー株式会社 Information processing method, information processing device, and program
WO2022177189A1 (en) * 2021-02-19 2022-08-25 Samsung Electronics Co., Ltd. System and method for privacy-preserving user data collection
EP4124984A1 (en) 2021-07-27 2023-02-01 Toyota Jidosha Kabushiki Kaisha Machine learning model generating system, machine learning model generating method
CN115809483A (en) * 2023-01-20 2023-03-17 武汉大学 Self-adaptive adjustment method of relevant Laplacian mechanism in dynamic release of position data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178680A (en) * 2013-03-14 2014-09-25 Mitsubishi Electric Corp Method for securely obtaining aggregate statistic related to private data
JP2016012074A (en) * 2014-06-30 2016-01-21 株式会社Nttドコモ Privacy protection device, privacy protection method, and database creation method
WO2016046878A1 (en) * 2014-09-22 2016-03-31 株式会社日立製作所 Data processing method, and data processing system
WO2016145676A1 (en) * 2015-03-13 2016-09-22 中国科学院声学研究所 Big data processing method based on deep learning model satisfying k-degree sparse constraint

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178680A (en) * 2013-03-14 2014-09-25 Mitsubishi Electric Corp Method for securely obtaining aggregate statistic related to private data
JP2016012074A (en) * 2014-06-30 2016-01-21 株式会社Nttドコモ Privacy protection device, privacy protection method, and database creation method
WO2016046878A1 (en) * 2014-09-22 2016-03-31 株式会社日立製作所 Data processing method, and data processing system
WO2016145676A1 (en) * 2015-03-13 2016-09-22 中国科学院声学研究所 Big data processing method based on deep learning model satisfying k-degree sparse constraint

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高橋翼: "パーソナルデータ利活用のための匿名化技術", 電子情報通信学会誌, vol. 第98巻, JPN6020014603, 1 March 2015 (2015-03-01), JP, pages 188 - 192, ISSN: 0004392039 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190067717A (en) * 2017-12-07 2019-06-17 한국과학기술원 Apparatus and system for machine learning using coding technique
KR102180617B1 (en) 2017-12-07 2020-11-19 한국과학기술원 Apparatus and system for machine learning using coding technique
CN109241774A (en) * 2018-09-19 2019-01-18 华中科技大学 A kind of difference private space decomposition method and system
WO2020250724A1 (en) * 2019-06-11 2020-12-17 ソニー株式会社 Information processing method, information processing device, and program
WO2022177189A1 (en) * 2021-02-19 2022-08-25 Samsung Electronics Co., Ltd. System and method for privacy-preserving user data collection
EP4124984A1 (en) 2021-07-27 2023-02-01 Toyota Jidosha Kabushiki Kaisha Machine learning model generating system, machine learning model generating method
CN115809483A (en) * 2023-01-20 2023-03-17 武汉大学 Self-adaptive adjustment method of relevant Laplacian mechanism in dynamic release of position data

Also Published As

Publication number Publication date
JP6835559B2 (en) 2021-02-24

Similar Documents

Publication Publication Date Title
JP6835559B2 (en) Privacy protection data provision system
Lopez-Martin et al. Software development effort prediction of industrial projects applying a general regression neural network
Kocadağlı et al. Nonlinear time series forecasting with Bayesian neural networks
EP3690677B1 (en) Differentially private query budget refunding
Zhang Likelihood-based and Bayesian methods for Tweedie compound Poisson linear mixed models
Azzeh et al. Fuzzy grey relational analysis for software effort estimation
Zhang et al. Comparing the prediction of joint species distribution models with respect to characteristics of sampling data
Mandel et al. Neural networks for clustered and longitudinal data using mixed effects models
Pan et al. Random effects selection in generalized linear mixed models via shrinkage penalty function
Lambert et al. Global sensitivity analysis using sparse high dimensional model representations generated by the group method of data handling
Li et al. An adaptive importance sampling algorithm for Bayesian inversion with multimodal distributions
Stringer et al. Fast, scalable approximations to posterior distributions in extended latent Gaussian models
Coey et al. Improving treatment effect estimators through experiment splitting
Rivera-García et al. Robust clustering for functional data based on trimming and constraints
Ardimansyah et al. Preprocessing matrix factorization for solving data sparsity on memory-based collaborative filtering
Peerlings et al. Multivariate density estimation by neural networks
Zheng et al. Marginal structural models with counterfactual effect modifiers
Kaushik et al. Radial basis function network using intuitionistic fuzzy C means for software cost estimation
Zhang et al. A novel framework of fuzzy rule interpolation for takagi-sugeno-kang inference systems
Darges et al. Extreme learning machines for variance-based global sensitivity analysis
Schmidt et al. Sensitivity analysis of strength models using Bayesian adaptive splines
Ng et al. Design of follow‐up experiments for improving model discrimination and parameter estimation
CN109918576B (en) Microblog attention recommendation method based on joint probability matrix decomposition
Deutsch Constrained smoothing of histograms and scatterplots with simulated annealing
Xie et al. A framework for variational inference and data assimilation of soil biogeochemical models using state space approximations and normalizing flows

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210204

R150 Certificate of patent or registration of utility model

Ref document number: 6835559

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250