JP6812569B2 - 擬似データ生成装置、その方法、及びプログラム - Google Patents
擬似データ生成装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6812569B2 JP6812569B2 JP2019548171A JP2019548171A JP6812569B2 JP 6812569 B2 JP6812569 B2 JP 6812569B2 JP 2019548171 A JP2019548171 A JP 2019548171A JP 2019548171 A JP2019548171 A JP 2019548171A JP 6812569 B2 JP6812569 B2 JP 6812569B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- pseudo
- matrix
- pseudo data
- variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/588—Random number generators, i.e. based on natural stochastic processes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/582—Pseudo-random number generators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、擬似データ生成技術に関する。
プライバシ保護の分野では、セキュリティなどの問題で個人情報を含んだオリジナルデータを扱えない場合、代用として擬似データを生成して分析等を行うことがある。ここでは表形式のオリジナルデータから表形式の擬似データを作成するケースを考える。表形式のデータの例を図1に示す。
表形式のオリジナルデータから表形式の擬似データを作成する従来技術として、非特許文献1や非特許文献2が知られている。これらの従来技術では、作成したい擬似データが数値属性のみを持つ表の場合、乱数群をオリジナルデータ内の属性間の性質(分散共分散、相関、平均ベクトル等)を保持できるよう整形することで擬似データを生成する。
Zhengli Huang, Wenliang Du, and Biao Chen. "Deriving private information from randomized data", In Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pages 37-48. ACM, 2005.
Haoran Li, Li Xiong, and Xiaoqian Jiang. "Differentially private synthesization of multi-dimensional data using copula functions", In Advances in database technology: proceedings. International Conference on Extending Database Technology, Vol. 2014, p. 475. NIH Public Access, 2014.
しかしながら、この従来手法では、平均ベクトルや相関については保持できるが、度数分布や各属性の最大値、最小値が保持されない。そのため、データを可視化して分析する場合などにオリジナルデータと擬似データとの間に大きな乖離が出るという課題がある。
本発明は、データを可視化して分析する場合もオリジナルデータと大きな乖離がない擬似データを生成できる擬似データ生成装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、擬似データ生成装置は、擬似対象データの各属性の度数分布の割合へ各属性の度数分布の割合が近似する第一擬似データを生成する乱数生成部と、第一擬似データの平均ベクトル及び相関行列が擬似対象データの平均ベクトル及び相関行列と一致し、第一擬似データの最小値及び最大値が擬似対象データの最小値及び最大値の範囲内に存在するように、擬似対象データの分散共分散行列をコレスキー分解して得られる行列または擬似対象データの分散共分散行列を特異値分解して得られる拡大縮小行列を用いて、第一擬似データを整形し、整形後の第一擬似データを擬似データとするデータ整形部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、擬似データ生成方法は、擬似データ生成装置が行う擬似データ生成方法であって、擬似対象データの各属性の度数分布の割合へ各属性の度数分布の割合が近似する第一擬似データを生成する乱数生成ステップと、第一擬似データの平均ベクトル及び相関行列が擬似対象データの平均ベクトル及び相関行列と一致し、第一擬似データの最小値及び最大値が擬似対象データの最小値及び最大値の範囲内に存在するように、擬似対象データの分散共分散行列をコレスキー分解して得られる行列または擬似対象データの分散共分散行列を特異値分解して得られる拡大縮小行列を用いて、第一擬似データを整形し、整形後の第一擬似データを擬似データとするデータ整形ステップとを含む。
本発明によれば、データを可視化して分析する場合もオリジナルデータと大きな乖離がない擬似データを生成できるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
オリジナルデータの分散共分散行列をコレスキー分解して得られる行列Qに注目する。行列Qに比例係数pをかけることによって、オリジナルデータの平均ベクトル、相関行列を完全に保持し、度数分布を近似しつつ、各属性の最大値・最小値の範囲内にデータが存在する擬似データを作ることができる。
オリジナルデータの分散共分散行列をコレスキー分解して得られる行列Qに注目する。行列Qに比例係数pをかけることによって、オリジナルデータの平均ベクトル、相関行列を完全に保持し、度数分布を近似しつつ、各属性の最大値・最小値の範囲内にデータが存在する擬似データを作ることができる。
<第一実施形態>
図2は第一実施形態に係る擬似データ生成装置の機能ブロック図を、図3はその処理フローを示す。
図2は第一実施形態に係る擬似データ生成装置の機能ブロック図を、図3はその処理フローを示す。
第一実施形態に係る擬似データ生成装置は、乱数生成部210及びデータ整形部230を含む。
擬似データ生成装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。擬似データ生成装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。擬似データ生成装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。擬似データ生成装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。擬似データ生成装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
第一実施形態に係る擬似データ生成装置は、オリジナルデータDと生成する擬似データD'に含まれるレコード数n'とを入力とし、擬似データD'を生成し、出力する。ただし、擬似データD'∈Rn'×dは、オリジナルデータDの平均ベクトルμD、相関行列を完全に保持し、度数分布を近似しつつ、各属性の最大値・最小値の範囲内にデータが存在する。
図1のような表形式のデータを行列とみなし、行ベクトルをレコード、列ベクトルを属性と呼ぶ。なお、オリジナルデータDと擬似データD'は、行数は異なることもあるが、列数は同じである。オリジナルデータDの行数をn>0、擬似データD'の行数をn'>0、それぞれの列数をd>0とする。オリジナルデータDと擬似データD'には、実数空間R上で表現可能な数値のみが格納されているとする。以降では、各属性における平均値をオリジナルデータDの並びと同じ並びで並べたリストを平均ベクトルμとする。例えば、図1の表データにおける平均ベクトルはμ=(43.66,166,60.66)Tとなる。なお、「行ベクトル」という記載のないベクトルは全て「列ベクトル」とする。
また、本実施形態において適用可能な数値属性として日付属性も含む。日付属性を本実施形態に適用する場合は、予めオリジナルデータベース内の対象となる日付をある特定の日付に対してmミリ秒前、mミリ秒後などの連続値に変換する。
<乱数生成部210>
入力:オリジナルデータD∈Rn×d、生成するレコード数n'
出力:第一擬似データX∈Rn'×d
乱数生成部210は、オリジナルデータDの各属性の度数分布の割合へ各属性の度数分布の割合が近似する第一擬似データXを生成し(S210)、出力する。なお、近似の精度は、擬似データに含まれるレコード数n'が大きさと関連し、n'が大きくなるほど近似の精度は高くなりやすい。
入力:オリジナルデータD∈Rn×d、生成するレコード数n'
出力:第一擬似データX∈Rn'×d
乱数生成部210は、オリジナルデータDの各属性の度数分布の割合へ各属性の度数分布の割合が近似する第一擬似データXを生成し(S210)、出力する。なお、近似の精度は、擬似データに含まれるレコード数n'が大きさと関連し、n'が大きくなるほど近似の精度は高くなりやすい。
例えば、まず、乱数生成部210は、オリジナルデータDの各属性の度数分布{hi}d i=1を計算する。
次に、乱数生成部210は、第一擬似データXに対するi番目の属性の度数分布の割合がオリジナルデータDに対する度数分布hiの割合に近似するようランダムにi番目の列ベクトルを生成する。この操作をiが1からdになるまで繰り返す。なお、列ベクトルを生成する方法には様々な公知の技術を利用できる。例えば、参考文献1等で公知の棄却法または逆関数法を用いることができる。
(参考文献1)脇本 和昌、「乱数の知識」、森北出版株式会社、1970年,p.61-71
乱数生成部210は、生成したd個の列ベクトルをオリジナルデータDの並びと同じ並びで並べ、表形式の第一擬似データXとして出力する。
(参考文献1)脇本 和昌、「乱数の知識」、森北出版株式会社、1970年,p.61-71
乱数生成部210は、生成したd個の列ベクトルをオリジナルデータDの並びと同じ並びで並べ、表形式の第一擬似データXとして出力する。
<データ整形部230>
入力:オリジナルデータD∈Rn×d、第一擬似データX∈Rn'×d
出力:擬似データD'∈Rn'×d
データ整形部230は、第一擬似データXの平均ベクトルμ及び相関行列がオリジナルデータDの平均ベクトルμD及び相関行列と一致し、第一擬似データXの最小値及び最大値がオリジナルデータDの最小値及び最大値の範囲内に存在するように、オリジナルデータDの分散共分散行列をコレスキー分解して得られる行列を用いて、第一擬似データXを整形し(S230)、整形後の第一擬似データを擬似データD'として出力する。
入力:オリジナルデータD∈Rn×d、第一擬似データX∈Rn'×d
出力:擬似データD'∈Rn'×d
データ整形部230は、第一擬似データXの平均ベクトルμ及び相関行列がオリジナルデータDの平均ベクトルμD及び相関行列と一致し、第一擬似データXの最小値及び最大値がオリジナルデータDの最小値及び最大値の範囲内に存在するように、オリジナルデータDの分散共分散行列をコレスキー分解して得られる行列を用いて、第一擬似データXを整形し(S230)、整形後の第一擬似データを擬似データD'として出力する。
例えば、以下の処理1.〜11.により、第一擬似データXを整形する。
1.変数p=1とする。なお、変数pを比例係数ともいう。
2.オリジナルデータD内の各i番目の属性の取りうる値の範囲をR(i) Dとする。この操作はiを1からdまで繰り返す。
3.第一擬似データXの平均ベクトルμと分散共分散行列Σとを計算する。
4.Σ=QQTを満たすQを計算する。なお、Q,QTを算出する方法として例えば、コレスキー分解を用いることができる。
5.全てのr∈Xに対して、r=Q-1(r-μ)を計算する。つまり、第一擬似データXが含むレコードrをr=Q-1(r-μ)により更新する。
6.上記にて計算した全てのレコードr∈RdをまとめてZ'∈Rn'×dとする。
7.オリジナルデータDの平均ベクトルμDと分散共分散行列ΣDを計算する。
8.ΣD=QDQD Tを満たすQDを計算する。この処理は、オリジナルデータDの分散共分散行列ΣDをコレスキー分解する処理に相当し、QDは分散共分散行列ΣDをコレスキー分解して得られる行列である。
9.Y=X(p・QD)T+I diag(μD)を計算する。ここでのIは単位行列、diag(μD)は対角成分に平均ベクトルμDの各要素があり、それ以外の成分は0である対角行列とする。p2・ΣD=p2・QDQD T=(p・QD)(p・QD)Tを相関行列と呼び、p=1のときのp2・ΣD=p2・QDQD T=(p・QD)(p・QD)Tを分散共分散行列ともいう。X(p・QD)Tを計算しながら擬似データを生成することで、第一擬似データXの相関行列がオリジナルデータDの相関行列と一致するように第一擬似データXを整形することができる。また、I diag(μD)を計算しながら擬似データを生成することで、第一擬似データXの平均ベクトルがオリジナルデータDの平均ベクトルと一致するように第一擬似データXを整形することができる。
10.上述のY内の各i番目の属性の取りうる値の範囲をR(i) Yとする。この操作はiを1からdまで繰り返す。
11.全てのiに対してR(i) YがR(i) Dの範囲外になければYを擬似データD'として出力する。言い換えると、全てのRY (i)がRD (i)の範囲内にあるときYを擬似データD'として出力する。R(i) YがR(i) Dの範囲外にある場合p=p/2として、上述の9.に戻る。なお、変数pの更新式は非負実数全体の集合R+の範囲で現在のpより小さくするものであればよい。言い換えると、αを1より大きい実数の何れかとし、p=p/αとする。
1.変数p=1とする。なお、変数pを比例係数ともいう。
2.オリジナルデータD内の各i番目の属性の取りうる値の範囲をR(i) Dとする。この操作はiを1からdまで繰り返す。
3.第一擬似データXの平均ベクトルμと分散共分散行列Σとを計算する。
4.Σ=QQTを満たすQを計算する。なお、Q,QTを算出する方法として例えば、コレスキー分解を用いることができる。
5.全てのr∈Xに対して、r=Q-1(r-μ)を計算する。つまり、第一擬似データXが含むレコードrをr=Q-1(r-μ)により更新する。
6.上記にて計算した全てのレコードr∈RdをまとめてZ'∈Rn'×dとする。
7.オリジナルデータDの平均ベクトルμDと分散共分散行列ΣDを計算する。
8.ΣD=QDQD Tを満たすQDを計算する。この処理は、オリジナルデータDの分散共分散行列ΣDをコレスキー分解する処理に相当し、QDは分散共分散行列ΣDをコレスキー分解して得られる行列である。
9.Y=X(p・QD)T+I diag(μD)を計算する。ここでのIは単位行列、diag(μD)は対角成分に平均ベクトルμDの各要素があり、それ以外の成分は0である対角行列とする。p2・ΣD=p2・QDQD T=(p・QD)(p・QD)Tを相関行列と呼び、p=1のときのp2・ΣD=p2・QDQD T=(p・QD)(p・QD)Tを分散共分散行列ともいう。X(p・QD)Tを計算しながら擬似データを生成することで、第一擬似データXの相関行列がオリジナルデータDの相関行列と一致するように第一擬似データXを整形することができる。また、I diag(μD)を計算しながら擬似データを生成することで、第一擬似データXの平均ベクトルがオリジナルデータDの平均ベクトルと一致するように第一擬似データXを整形することができる。
10.上述のY内の各i番目の属性の取りうる値の範囲をR(i) Yとする。この操作はiを1からdまで繰り返す。
11.全てのiに対してR(i) YがR(i) Dの範囲外になければYを擬似データD'として出力する。言い換えると、全てのRY (i)がRD (i)の範囲内にあるときYを擬似データD'として出力する。R(i) YがR(i) Dの範囲外にある場合p=p/2として、上述の9.に戻る。なお、変数pの更新式は非負実数全体の集合R+の範囲で現在のpより小さくするものであればよい。言い換えると、αを1より大きい実数の何れかとし、p=p/αとする。
<効果>
以上の構成により、オリジナルデータDの平均ベクトル、相関行列を完全に保持、度数分布を近似しつつ、各属性の最大値・最小値の範囲内にデータが存在する擬似データD'を生成することができる。これにより、生成した擬似データD'は,オリジナルデータDの平均ベクトル、相関行列を完全に保持することができるため、オリジナルデータDと全く同じ線形回帰モデルを得ることができる。特に、オリジナルデータD内の各属性の取り得る値の範囲が同じような場合は、オリジナルデータDの各属性の度数分布と最大値最小値の近似を保持することができるため、データを可視化して分析する場合もオリジナルデータDと大きな乖離がない擬似データD'を生成できる。例えば、身長-170cmというプロフィールを持つレコードが生成されることなく、オリジナルデータDの各属性の度数分布を近似することができる。
以上の構成により、オリジナルデータDの平均ベクトル、相関行列を完全に保持、度数分布を近似しつつ、各属性の最大値・最小値の範囲内にデータが存在する擬似データD'を生成することができる。これにより、生成した擬似データD'は,オリジナルデータDの平均ベクトル、相関行列を完全に保持することができるため、オリジナルデータDと全く同じ線形回帰モデルを得ることができる。特に、オリジナルデータD内の各属性の取り得る値の範囲が同じような場合は、オリジナルデータDの各属性の度数分布と最大値最小値の近似を保持することができるため、データを可視化して分析する場合もオリジナルデータDと大きな乖離がない擬似データD'を生成できる。例えば、身長-170cmというプロフィールを持つレコードが生成されることなく、オリジナルデータDの各属性の度数分布を近似することができる。
<変形例>
本実施形態において、オリジナルデータDは無いが、再現したいデータ(擬似対象データ)がある場合は、オリジナルデータDに限らず、擬似対象データの統計値(各属性の度数分布、平均ベクトル、分散共分散行列、各属性の取りうる値の範囲等)を入力としてもよい。オリジナルデータDは擬似対象データの一例とも言える。
本実施形態において、オリジナルデータDは無いが、再現したいデータ(擬似対象データ)がある場合は、オリジナルデータDに限らず、擬似対象データの統計値(各属性の度数分布、平均ベクトル、分散共分散行列、各属性の取りうる値の範囲等)を入力としてもよい。オリジナルデータDは擬似対象データの一例とも言える。
本実施形態では、オリジナルデータDの各属性の度数分布、平均ベクトル、分散共分散行列、各属性の取りうる値の範囲(最大値・最小値)を各部内で計算しているが、それぞれを予め各部外で計算し、乱数生成部210、データ整形部230の入力とし、各部内での計算を省略してもよい。
本実施形態では、データ整形部230においてコレスキー分解を用いて第一擬似データXを整形しているが、特異値分解を用いて第一擬似データXを整形してもよい。その処理例について説明する。例えば、処理1.〜7.及び処理10.,11.については本実施形態と同様の処理を行い、処理8.,9.において、以下のように処理を行う。
8.ΣD=UDΛDUT Dを満たすUD、ΛDを計算する。なお、UDは、固有ベクトルが集まった行列である。ΛDは固有値を対角成分とし、それ以外の成分は0である対角行列であり、拡大縮小行列ともいう。この処理は、オリジナルデータDの分散共分散行列ΣDを特異値分解し、UD、拡大縮小行列ΛDを求める処理に相当する。さらに、ΛD 1/2を計算する。ΛD 1/2は拡大縮小行列ΛDの対角成分を全て平方した行列である。本実施形態のQDが、本変形例のUDΛD 1/2に相当する。
9. Y=X(p・UDΛD 1/2)T+I diag(μD) を計算する。ΣD=p2・UDΛDUD T=(p・UDΛD 1/2)(p・UDΛD 1/2)Tを相関行列と呼び、p=1のときのΣ=p2・UDΛDUD T=(p・UDΛD 1/2)(p・UDΛD 1/2)Tを分散共分散行列ともいう。 X(p・UDΛD 1/2)T を計算しながら擬似データを生成することで、第一擬似データXの相関行列がオリジナルデータDの相関行列と一致するように第一擬似データXを整形することができる。
8.ΣD=UDΛDUT Dを満たすUD、ΛDを計算する。なお、UDは、固有ベクトルが集まった行列である。ΛDは固有値を対角成分とし、それ以外の成分は0である対角行列であり、拡大縮小行列ともいう。この処理は、オリジナルデータDの分散共分散行列ΣDを特異値分解し、UD、拡大縮小行列ΛDを求める処理に相当する。さらに、ΛD 1/2を計算する。ΛD 1/2は拡大縮小行列ΛDの対角成分を全て平方した行列である。本実施形態のQDが、本変形例のUDΛD 1/2に相当する。
9. Y=X(p・UDΛD 1/2)T+I diag(μD) を計算する。ΣD=p2・UDΛDUD T=(p・UDΛD 1/2)(p・UDΛD 1/2)Tを相関行列と呼び、p=1のときのΣ=p2・UDΛDUD T=(p・UDΛD 1/2)(p・UDΛD 1/2)Tを分散共分散行列ともいう。 X(p・UDΛD 1/2)T を計算しながら擬似データを生成することで、第一擬似データXの相関行列がオリジナルデータDの相関行列と一致するように第一擬似データXを整形することができる。
なお、処理4.においても同様に、コレスキー分解に代えて特異値分解を用いてもよい。つまり、以下の処理4.を行う。
4.Σ=UΛUTを満たすU、Λを計算する。なお、Uは、固有ベクトルが集まった行列である。Λは固有値を対角成分とし、それ以外の成分は0である対角行列であり、拡大縮小行列ともいう。この処理は、第一擬似データの分散共分散行列Σを特異値分解し、U、拡大縮小行列Λを求める処理に相当する。さらに、Λ1/2を計算する。Λ1/2は拡大縮小行列Λの対角成分を全て平方した行列である。処理4.以降において、Q=UΛ1/2として処理を行う。
4.Σ=UΛUTを満たすU、Λを計算する。なお、Uは、固有ベクトルが集まった行列である。Λは固有値を対角成分とし、それ以外の成分は0である対角行列であり、拡大縮小行列ともいう。この処理は、第一擬似データの分散共分散行列Σを特異値分解し、U、拡大縮小行列Λを求める処理に相当する。さらに、Λ1/2を計算する。Λ1/2は拡大縮小行列Λの対角成分を全て平方した行列である。処理4.以降において、Q=UΛ1/2として処理を行う。
理論上、分散共分散行列は正定値行列であるため、コレスキー分解によってΣ=QQT、ΣD=QDQD TとなるQ、QDを計算することは可能である。しかし、コンピュータでの数値計算では、オリジナルデータのレコード数nやXのレコード数n’が少ない場合はQ、QDが不安定になり、計算できなくなることが多い。そこで、直接コレスキー分解によってQ、QDを求めるのではなく、特異値分解によってUとΛ、UDとΛDを計算することで、Q=UΛ1/2、QD=UDΛD 1/2を計算することができる。
以上の処理によって、第一実施形態と同様の効果を得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (8)
- 擬似対象データの各属性の度数分布の割合へ各属性の度数分布の割合が近似する第一擬似データを生成する乱数生成部と、
前記第一擬似データの平均ベクトル及び相関行列が前記擬似対象データの平均ベクトル及び相関行列と一致し、前記第一擬似データの最小値及び最大値が前記擬似対象データの最小値及び最大値の範囲内に存在するように、前記擬似対象データの分散共分散行列をコレスキー分解して得られる行列または前記擬似対象データの分散共分散行列を特異値分解して得られる拡大縮小行列を用いて、前記第一擬似データを整形し、整形後の前記第一擬似データを擬似データとするデータ整形部とを含む、
擬似データ生成装置。 - 請求項1の擬似データ生成装置であって、
前記データ整形部は、αを1より大きい実数の何れかとし、Iを単位行列とし、前記第一擬似データの平均ベクトルμと分散共分散行列Σとを求め、前記分散共分散行列Σに基づき計算される行列Qを用いて、第一擬似データが含むレコードrをr=Q-1(r-μ)により更新し、前記擬似対象データの平均ベクトル及び分散共分散行列をそれぞれμD及びΣDとし、ΣD=QDQD Tを満たすQDを計算し、Y=X(p・QD)T+I diag(μD)を計算し、Y内の各i番目の属性の取り得る範囲RY (i)が擬似対象データ内の各i番目の属性の取り得る範囲RD (i)の範囲外にある場合、p=p/αとし、Y=X(p・QD)T+I diag(μD)を再計算し、全ての前記範囲RY (i)が前記範囲RD (i)の範囲内にあるときYを前記擬似データとする、
擬似データ生成装置。 - 請求項1の擬似データ生成装置であって、
前記データ整形部は、αを1より大きい実数の何れかとし、Iを単位行列とし、前記第一擬似データの平均ベクトルμと分散共分散行列Σとを求め、前記分散共分散行列Σに基づき計算される行列Qを用いて、第一擬似データが含むレコードrをr=Q-1(r-μ)により更新し、前記擬似対象データの平均ベクトル及び分散共分散行列をそれぞれμD及びΣDとし、ΣD=UDΛDUD Tを満たすUD及びΛDを計算し、Y=X(p・UDΛD 1/2)T+Idiag(μD)を計算し、Y内の各i番目の属性の取り得る範囲RY (i)が擬似対象データ内の各i番目の属性の取り得る範囲RD (i)の範囲外にある場合、p=p/αとし、Y=X(p・UDΛD 1/2)T+I diag(μD)を再計算し、全ての前記範囲RY (i)が前記範囲RD (i)の範囲内にあるときYを前記擬似データとする、
擬似データ生成装置。 - 請求項2または3の擬似データ生成装置であって、
前記データ整形部は、コレスキー分解によりΣ=QQTを満たすQを計算するか、または、特異値分解によりΣ=UΛUTを満たすU、Λを計算してQ=UΛ1/2とする、
擬似データ生成装置。 - 擬似データ生成装置が行う擬似データ生成方法であって、
擬似対象データの各属性の度数分布の割合へ各属性の度数分布の割合が近似する第一擬似データを生成する乱数生成ステップと、
前記第一擬似データの平均ベクトル及び相関行列が前記擬似対象データの平均ベクトル及び相関行列と一致し、前記第一擬似データの最小値及び最大値が前記擬似対象データの最小値及び最大値の範囲内に存在するように、前記擬似対象データの分散共分散行列をコレスキー分解して得られる行列または前記擬似対象データの分散共分散行列を特異値分解して得られる拡大縮小行列を用いて、前記第一擬似データを整形し、整形後の前記第一擬似データを擬似データとするデータ整形ステップとを含む、
擬似データ生成方法。 - 請求項5の擬似データ生成方法であって、
前記データ整形ステップは、αを1より大きい実数の何れかとし、Iを単位行列とし、前記第一擬似データの平均ベクトルμと分散共分散行列Σとを求め、前記分散共分散行列Σに基づき計算される行列Qを用いて、第一擬似データが含むレコードrをr=Q-1(r-μ)により更新し、前記擬似対象データの平均ベクトル及び分散共分散行列をそれぞれμD及びΣDとし、ΣD=QDQD Tを満たすQDを計算し、Y=X(p・QD)T+I diag(μD)を計算し、Y内の各i番目の属性の取り得る範囲RY (i)が擬似対象データ内の各i番目の属性の取り得る範囲RD (i)の範囲外にある場合、p=p/αとし、Y=X(p・QD)T+I diag(μD)を再計算し、全ての前記範囲RY (i)が前記範囲RD (i)の範囲内にあるときYを前記擬似データとする、
擬似データ生成方法。 - 請求項6の擬似データ生成方法であって、
前記データ整形ステップは、コレスキー分解によりΣ=QQTを満たすQを計算するか、または、特異値分解によりΣ=UΛUTを満たすU、Λを計算してQ=UΛ1/2とする、
擬似データ生成方法。 - 請求項1から請求項4の何れかの擬似データ生成装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017199201 | 2017-10-13 | ||
JP2017199201 | 2017-10-13 | ||
PCT/JP2018/037310 WO2019073913A1 (ja) | 2017-10-13 | 2018-10-05 | 擬似データ生成装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019073913A1 JPWO2019073913A1 (ja) | 2020-10-22 |
JP6812569B2 true JP6812569B2 (ja) | 2021-01-13 |
Family
ID=66100750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019548171A Active JP6812569B2 (ja) | 2017-10-13 | 2018-10-05 | 擬似データ生成装置、その方法、及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200272422A1 (ja) |
EP (1) | EP3696706A4 (ja) |
JP (1) | JP6812569B2 (ja) |
CN (1) | CN111194448A (ja) |
WO (1) | WO2019073913A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7378271B2 (ja) | 2019-11-06 | 2023-11-13 | 株式会社マクロミル | 情報処理方法 |
CN112966735B (zh) * | 2020-11-20 | 2023-09-12 | 扬州大学 | 一种基于谱重建的监督多集相关特征融合方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676454B2 (en) * | 2005-03-01 | 2010-03-09 | Microsoft Corporation | Private clustering and statistical queries while analyzing a large database |
JP2016014963A (ja) * | 2014-07-01 | 2016-01-28 | 日本電信電話株式会社 | 疑似データ生成装置及び方法及びプログラム |
JP6412767B2 (ja) * | 2014-10-14 | 2018-10-24 | 株式会社エヌ・ティ・ティ・データ | 雑音発生装置、雑音発生方法及びプログラム |
-
2018
- 2018-10-05 CN CN201880065257.1A patent/CN111194448A/zh active Pending
- 2018-10-05 US US16/754,511 patent/US20200272422A1/en active Pending
- 2018-10-05 JP JP2019548171A patent/JP6812569B2/ja active Active
- 2018-10-05 WO PCT/JP2018/037310 patent/WO2019073913A1/ja unknown
- 2018-10-05 EP EP18866794.3A patent/EP3696706A4/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
US20200272422A1 (en) | 2020-08-27 |
EP3696706A1 (en) | 2020-08-19 |
EP3696706A4 (en) | 2021-07-14 |
JPWO2019073913A1 (ja) | 2020-10-22 |
WO2019073913A1 (ja) | 2019-04-18 |
CN111194448A (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zulehner et al. | Advanced simulation of quantum computations | |
CN109815226B (zh) | 基于区块链的数据存储方法、装置、设备和存储介质 | |
JP6812569B2 (ja) | 擬似データ生成装置、その方法、及びプログラム | |
Shiino | Stability analysis of mean-field-type nonlinear Fokker-Planck equations associated with a generalized entropy and its application to the self-gravitating system | |
US20170344589A1 (en) | Output vector generation from feature vectors representing data objects of a physical system | |
CN114968612B (zh) | 一种数据处理方法、系统及相关设备 | |
Silva et al. | Cuda-based parallelization of power iteration clustering for large datasets | |
JP2021056570A (ja) | データベースの分割システム、データベースの分割方法、及びデータベースの分割プログラム | |
Stergiou et al. | Dynamically resizable binary decision diagrams | |
JP6904426B2 (ja) | 擬似データ生成装置、その方法、およびプログラム | |
JP6000175B2 (ja) | 匿名化システム、匿名化装置、利用者装置、匿名化方法、およびプログラム | |
Naeem et al. | SSCJ: A semi-stream cache join using a front-stage cache module | |
JP6532829B2 (ja) | 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム | |
JP2016170453A (ja) | データ格納制御装置、データ格納制御システム、データ格納制御方法、及び、データ格納制御プログラム | |
JP6486865B2 (ja) | データ撹乱装置、データ撹乱方法、データ撹乱プログラム | |
Hossain et al. | Postmortem Graph Analysis on the Temporal Graph | |
JP7031732B2 (ja) | 秘密表参照システム、方法、秘密計算装置及びプログラム | |
JP7147840B2 (ja) | 秘密重複排除フィルタ生成システム、秘密重複排除システム、これらの方法、秘密計算装置及びプログラム | |
JP7339924B2 (ja) | 材料の特性値を推定するシステム | |
Mehrez et al. | Understanding the performances of sparse compression formats using data parallel programming model | |
US20220382741A1 (en) | Graph embeddings via node-property-aware fast random projection | |
JP7290169B2 (ja) | 識別推定リスク評価装置、識別推定リスク評価方法、プログラム | |
JP6973636B2 (ja) | 安全性評価装置、安全性評価方法、およびプログラム | |
JP6978385B2 (ja) | 匿名化装置、匿名化方法及び匿名化プログラム | |
Golubtsov | Information spaces for big data processing: Unification and parallelization of sequential information accumulation procedures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6812569 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |