JP7363662B2 - 生成方法,情報処理装置及び生成プログラム - Google Patents

生成方法,情報処理装置及び生成プログラム Download PDF

Info

Publication number
JP7363662B2
JP7363662B2 JP2020079550A JP2020079550A JP7363662B2 JP 7363662 B2 JP7363662 B2 JP 7363662B2 JP 2020079550 A JP2020079550 A JP 2020079550A JP 2020079550 A JP2020079550 A JP 2020079550A JP 7363662 B2 JP7363662 B2 JP 7363662B2
Authority
JP
Japan
Prior art keywords
item values
anonymized
information
anonymous information
anonymous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020079550A
Other languages
English (en)
Other versions
JP2021174390A (ja
Inventor
尊 福岡
裕司 山岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020079550A priority Critical patent/JP7363662B2/ja
Publication of JP2021174390A publication Critical patent/JP2021174390A/ja
Application granted granted Critical
Publication of JP7363662B2 publication Critical patent/JP7363662B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、生成方法,情報処理装置及び生成プログラムに関する。
顧客から預かったデータをもとに、人工知能(AI)製品を展開するビジネスが存在する。このようなAI製品としては、例えば、顧客から預かったデータを利用して機械学習し、事象を予測するモデルがある。
図1は、AI製品の機械学習を例示する図である。
図1のA1に示すIdと職業と性別と年収とが対応付けられたデータに対して、年収を目的変数として機械学習を実行することにより、符号A2に示すように、職業及び性別から、年収を予測するモデルが生成される。
利用するデータが個人情報である場合には、匿名化処理が実行されることがある。
特開2017-182508号公報 再表2013-114445号公報
しかしながら、匿名化処理された匿名化データを学習で利用すると、匿名化データはオリジナルのデータよりも情報量が低下するため、生成されるモデルの精度が低下するおそれがある。
1つの側面では、機械学習によって生成する学習モデルの精度を向上させることを目的とする。
1つの側面では、生成方法は、複数の項目値を含む複数の個人情報を受け付け、前記複数の項目値それぞれに対応付けられた第1のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成し、前記複数の項目値それぞれに対応付けられた前記第1のパラメータとは異なる第2のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成し、前記第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する、処理をコンピュータが実行する。
1つの側面では、機械学習によって生成する学習モデルの精度を向上できる。
AI製品の機械学習を例示する図である。 実施形態の一例におけるk-匿名化を例示するテーブルである。 実施形態の一例における情報処理装置のハードウェア構成例を模式的に示すブロック図である。 図3に示した情報処理装置のソフトウェア構成例を模式的に示すブロック図である。 関連例における抑制k-匿名化を例示するテーブルである。 関連例における一般化匿名化を例示するテーブルである。 図6に示したテーブルに対応する一般化木を例示する図である。 実施形態の一例におけるk-匿名化データの結合例を示す図である。 実施形態の一例における匿名化データの生成処理を説明するフローチャートである。 実施形態の一例における抑制k-匿名化処理を利用した匿名化処理の生成処理を説明するフローチャートである。 図10に示したオリジナルデータからの匿名化データの結合例を示す図である。 実施形態の一例における一般化匿名化処理を利用した匿名化処理の生成処理を説明するフローチャートである。 図12に示したオリジナルデータからの匿名化データの結合例を示す図である。 関連例における学習モデルの生成処理を模式的に示す図である。 実施形態の一例における学習モデルの生成処理を模式的に示すブロック図である。 関連例における学習モデルと実施形態の一例における学習モデルとの精度を比較するテーブルである。 実施形態の一例におけるデータの削除箇所を例示する図である。 実施形態の一例におけるデータの削除箇所の決定アルゴリズムの第1の例を説明するテーブルである。 学習モデルの生成処理の違いによる学習モデルの精度を比較するテーブルである。
〔A〕実施形態
以下、図面を参照して一実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。
以下、図中において、同一の各符号は同様の部分を示しているので、その説明は省略する。
〔A-1〕概要
図2は、実施形態の一例におけるk-匿名化を例示するテーブルである。
実施形態の一例においては、分類モデルの精度を下げないk-匿名化データが構築される。k-匿名化データとは、同一レコードが少なくともk個ある個人を特定できないデータである。ただし、全て欠損しているレコードは無視される。k-匿名化が施されているか否かは容易にチェックできる。
図2においては、符号B1に示すオリジナルデータを入力として、2-匿名化により、符号B2に示す匿名化データ(別言すれば、匿名情報)が構築される。
k-匿名化においては、「どの属性に関する情報を残したいか」といった属性に関する設定が、入力として求められる場合がある。図示する例では、年収及び性別ができるだけ残されるように、匿名化が実行されている。
図3は、実施形態の一例における情報処理装置1のハードウェア構成例を模式的に示すブロック図である。
図3に示すように、情報処理装置1は、Central Processing Unit(CPU)11,メモリ部12,表示制御部13,記憶装置14,入力Interface(IF)15,外部記録媒体処理部16及び通信IF17を備える。
メモリ部12は、記憶部の一例であり、例示的に、Read Only Memory(ROM)及びRandom Access Memory(RAM)などである。メモリ部12のROMには、Basic Input/Output System(BIOS)等のプログラムが書き込まれてよい。メモリ部12のソフトウェアプログラムは、CPU11に適宜に読み込まれて実行されてよい。また、メモリ部12のRAMは、一時記録メモリあるいはワーキングメモリとして利用されてよい。
表示制御部13は、表示装置130と接続され、表示装置130を制御する。表示装置130は、液晶ディスプレイやOrganic Light-Emitting Diode(OLED)ディスプレイ,Cathode Ray Tube(CRT),電子ペーパーディスプレイ等であり、オペレータ等に対する各種情報を表示する。表示装置130は、入力装置と組み合わされたものでもよく、例えば、タッチパネルでもよい。
記憶装置14は、高IO性能の記憶装置であり、例えば、Dynamic Random Access Memory(DRAM)やSolid State Drive(SSD),Storage Class Memory(SCM),Hard Disk Drive(HDD)が用いられてよい。
入力IF15は、マウス151やキーボード152等の入力装置と接続され、マウス151やキーボード152等の入力装置を制御してよい。マウス151やキーボード152は、入力装置の一例であり、これらの入力装置を介して、オペレータが各種の入力操作を行なう。
外部記録媒体処理部16は、記録媒体160が装着可能に構成される。外部記録媒体処理部16は、記録媒体160が装着された状態において、記録媒体160に記録されている情報を読み取り可能に構成される。本例では、記録媒体160は、可搬性を有する。例えば、記録媒体160は、フレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、又は、半導体メモリ等である。
通信IF17は、外部装置との通信を可能にするためのインタフェースである。
CPU11は、種々の制御や演算を行なう処理装置であり、メモリ部12に格納されたOperating System(OS)やプログラムを実行することにより、種々の機能を実現する。
情報処理装置1全体の動作を制御するための装置は、CPU11に限定されず、例えば、MPUやDSP,ASIC,PLD,FPGAのいずれか1つであってもよい。また、情報処理装置1全体の動作を制御するための装置は、CPU,MPU,DSP,ASIC,PLD及びFPGAのうちの2種類以上の組み合わせであってもよい。なお、MPUはMicro Processing Unitの略称であり、DSPはDigital Signal Processorの略称であり、ASICはApplication Specific Integrated Circuitの略称である。また、PLDはProgrammable Logic Deviceの略称であり、FPGAはField Programmable Gate Arrayの略称である。
図4は、図3に示した情報処理装置1のソフトウェア構成例を模式的に示す図である。
情報処理装置1は、受付処理部111,匿名情報生成部112及び結合情報生成部113として機能する。
受付処理部111は、複数の項目値を含む複数の個人情報を受け付ける。
匿名情報生成部112は、複数の項目値それぞれに対応付けられたパラメータに応じて複数の項目値それぞれの秘匿化されやすさが決まる秘匿化アルゴリズムを、受け付けた複数の個人情報に適用して、複数の項目値の少なくとも何れかの項目値が匿名化された匿名情報を生成する。具体的には、匿名情報生成部112は、複数の項目値それぞれに対応付けられた第1のパラメータに応じて複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた複数の個人情報に適用して、複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成する第1匿名情報生成部の一例として機能する。また、匿名情報生成部112は、複数の項目値それぞれに対応付けられた第1のパラメータとは異なる第2のパラメータに応じて複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた複数の個人情報に適用して、複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成する第2匿名情報生成部の一例として機能する。なお、詳細は後述されるが、開示の技術におけるパラメータまたは秘匿化アルゴリズムは2つに限定されるわけではなく、3つ以上であってもよい。
結合情報生成部113は、第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する。
〔A-2〕匿名化処理
k-匿名化においては、データ品質を表す量を定義し、その量が最大化される。データの品質を表す量としては、例えば、加工(削除等)されなかったセルの数やエントロピーがある。
しかしながら、データ品質を表す量が大きくても、うまく学習モデルを構成できる保証はないため、出力を学習データとして用いると精度劣化が大きくなるおそれがある。モデル学習に最適な匿名化データを見つけることは計算量的に容易でなく、現実的ではない。
図5は、関連例における抑制k-匿名化を例示するテーブルである。
抑制k-匿名化においては、セルを削除することにより、k-匿名化を実現することができる。符号C1に示すような表形式のオリジナルデータと、k(正の整数)と、属性の順番付け(属性優先順序と称されてもよい。)とが入力されると、符号C2及びC3に示すような表形式のk-匿名化データが出力される。
符号C2に示すk-匿名化データでは、属性優先順序が「年収>性別>職業」に設定されている。また、符号C3に示すk-匿名化データでは、属性優先順序が「年収>職業>性別」に設定されている。
抑制k-匿名化においては、匿名化の際に、属性優先順序が「属性に関する設定」として使用される。これにより、属性優先順序が高い属性ほど、データが残りやすいように匿名化が実行される。
図6は、関連例における一般化匿名化を例示するテーブルである。図7は、図6に示したテーブルに対応する一般化木を例示する図である。
一般化k-匿名化においては、抑制k-匿名化におけるセルの削除に加えて、セルの置き換えも実施される。
図6の符号D1におけるオリジナルデータは、符号D2及びD3に示すように、一般化されたk-匿名化データとして出力される。符号D2に示すk-匿名化データでは、職業の一般化が行なわれている。また、符号D3に示すk―匿名化データでは、住所の一般化が行なわれている。
図7の符号E1に示す一般化木においては、「杉並区」,「世田谷区」及び「目黒区」の一般化概念として「東京都」が定義されており、「横浜市」及び「川崎市」の一般化概念として「神奈川県」が定義されている。
また、図7の符号E2に示す一般化木においては、「飲食店」及び「美容師」の一般化概念として「自営業」が定義されており、「開発」及び「営業」の一般化概念として「会社員」が定義されており、「教授」及び「教諭」の一般化概念として「教育職」が定義されている。
なお、図7の符号E3に示す一般化木において、年収の「500万円以上」及び「500万円未満」については、一般化概念が定義されていない。
匿名化は、図7に示した一般化木に加えて、各属性の重みも入力とし、次式のNCPを最小化するように実行されてよい。
Figure 0007363662000001
なお、Aは属性であり、Tはレコードである。重みが大きい(別言すれば、重要な)属性は、匿名化されづらくなる。
ここで、重みを(住所,職業,年収)= (a,b,c)とすると、図6の符号D2に示した匿名化データのNCPは5a+(5/3)b+4cとなり、図6の符号D3に示した匿名化データのNCPは2a+5b+3cとなる。
(a,b,c) = (0.1,0.6,0.3)とすると、図6の符号D2に示した匿名化データのNCPは5*0.1+(5/3)*0.6+4*0.3 = 2.7となり、図6の符号D3に示した匿名化データのNCPは2*0.1+5*0.6+3*0.3 = 4.1となる。すなわち、図6の符号D2に示した匿名化データの方がNCPが低くなる。
一方、(a,b,c) = (0.3,0.1,0.6)とすると、図6の符号D2に示した匿名化データのNCPは5*0.3+(5/3)*0.1+4*0.6 = 4.0666…となり、図6の符号D3に示した匿名化データのNCPは2*0.3+5*0.1+3*0.6 = 2.9となる。すなわち、図6の符号D3に示した匿名化データの方がNCPが低くなる。
〔A-3〕結合処理
図8は、実施形態の一例におけるk-匿名化データの結合例を示す図である。
実施形態の一例において、オリジナルデータを機械学習するにあたって、レコード数は保たれなくてもよい。そこで、複数の異なるk-匿名化データが結合されることで、機械学習に適した匿名化データが生成される。
符号F1に示すオリジナルデータを入力として、符号F2に示すように2つのk-匿名化データが出力される。そして、符号F3に示すように、2つのk-匿名化データが結合されることにより、学習モデルが生成される。
図9は、実施形態の一例における匿名化データの生成処理を説明するフローチャートである。図9に示すフローチャート(ステップS1~S3)に従って、匿名化データの生成処理を説明する。
必要に応じて優先順序等の補助入力を受け付け、属性に関するパラメータとして、匿名化アルゴリズム設定#1~#nが生成される(ステップS1)。
表形式のオリジナルデータの入力を受け付け、各匿名化アルゴリズム設定#1~#nに応じた匿名化アルゴリズムで匿名化処理が実行され、匿名化データ#1~#nが出力される(ステップS2)。
匿名化データ#1~#nについて互いに結合処理が実行され、結合された匿名化データが出力される(ステップS3)。そして、匿名化データの生成処理は終了する。
図10は、実施形態の一例における抑制k-匿名化処理を利用した匿名化処理の生成処理を説明するフローチャートである。図11は、図10に示したオリジナルデータからの匿名化データの結合例を示す図である。図10に示すフローチャート(ステップS11~S13)に従って、抑制k-匿名化処理を利用した匿名化処理の生成処理を説明する。
表形式のオリジナルデータが入力として受け付けられる(ステップS11)。
属性に関するパラメータ(別言すれば、属性優先順序)が、匿名化データの生成個数と順序を固定したい属性とを追加入力とした上で、ランダムに生成される(ステップS12)。
生成した各属性優先順序の設定の元でそれぞれの匿名化データが出力され、得られた匿名化データが結合される(ステップS13)。そして、抑制k-匿名化処理を利用した匿名化処理の生成処理は終了する。
図11に示す例では、生成個数が「2」に設定され、「年収」の属性優先順序が一番として固定され、残った2つの属性について順序をランダムにして匿名化データが生成される。符号G1に示す例では、「年収>職業>性別」及び「年収>性別>職業」を属性優先順序とする匿名化データが生成される。そして、符号G2に示すように、2つの匿名化データが結合されて学習モデルが出力される。
図12は、実施形態の一例における一般化匿名化処理を利用した匿名化処理の生成処理を説明するフローチャートである。図13は、図12に示したオリジナルデータからの匿名化データの結合例を示す図である。図12に示すフローチャート(ステップS21~S23)に従って、一般化匿名化処理を利用した匿名化処理の生成処理を説明する。
表形式のオリジナルデータが入力として受け付けられる(ステップS21)。
属性に関するパラメータ(別言すれば、属性に対する重み)がランダムに生成される(ステップS22)。
生成した各属性優先順序の設定の元でそれぞれの匿名化データが出力され、得られた匿名化データが結合される(ステップS23)。そして、一般化匿名化処理を利用した匿名化処理の生成処理は終了する。
図13に示す例では、属性に対する重みとして、(住所,職業,年収) = (0.1,0.6,0.3), (0.3,0.1,0.6)が生成されると、符号H1に示す匿名化データが生成される。そして、符号H2に示すように、2つの匿名化データが結合されて学習モデルが出力される。
〔A-4〕関連例との比較
図14は、関連例における学習モデルの生成処理を模式的に示す図である。
関連例においては、図14の符号I1に示すオリジナルデータを入力として、符号I2に示す1つの匿名化データが生成される。そして、1つの匿名化データに対して機械学習が実施されることにより、符号I3に示すように、学習モデルが生成される。
図15は、実施形態の一例における学習モデルの生成処理を模式的に示すブロック図である。
一方、実施形態の一例においては、図15の符号J1に示すオリジナルデータを入力として、符号J2に示す複数の匿名化データ#1~#nが生成される。複数の匿名化データ#1~#nが結合されて、符号J3に示すように、結合匿名化データが生成される。そして、結合匿名化データに対して機械学習が実施されることにより、符号J4に示すように、学習モデルが生成される。
図16は、関連例における学習モデルと実施形態の一例における学習モデルとの精度を比較するテーブルである。
図16に示す例では、単一の匿名化データで学習したモデルと、複数の匿名化データで学習したモデルとの精度が比較されている。
実験方法として、2から50までのkに対して、8個のk-匿名化データを生成する。次に、2から50までのkに対し、8個のk-匿名化データそれぞれで学習した8個の学習モデルによる精度のうち最高のものと、8個のk-匿名化データを結合したデータで学習した学習モデルの精度とを記録する。そして、それぞれの精度について、kに関する平均値、最小値をとった。
このような実験の結果、図16に示すように、複数の匿名化データから複数のモデルを作るよりも、複数の匿名化データを結合して一つのモデルを作った方が、平均値及び最小値の両方の精度が高くなる。
〔A-5〕匿名化データの生成処理の詳細
匿名化データの生成処理の具体例としては、データオーギュメンテーションとランダム生成とが想定される。
データオーギュメンテーションにおいては、安定性は高くなるものの、精度が低くなるおそれがある。例えば、よく似た匿名化データが結合されることにより、多様性が失われてしまい、学習モデルに汎用性がなくなる。特に、表形式のオリジナルデータの場合には、画像データとは異なり、似たようなデータが入力されても、機械学習の効果が薄くなる。また、匿名化データが少しずつ変更されるため、結合匿名化データが、匿名化アルゴリズムのハイパーパラメータの初期値に強く依存するおそれがある。
一方、ランダム生成においては、安定性が低くなるおそれがある。匿名化データがランダムに生成されてしまうので、学習に適した匿名化データが生成されないことがある。また、大量に生成して多様性を担保することは、学習コストの面で非効率になる。
図17は、実施形態の一例におけるデータの削除箇所を例示する図である。
符号K1に示す様に、オリジナルデータから複数の匿名化データ#1~#m間で似たような部分を削除するのは学習に適さないと想定される一方、符号K2に示す様に、オリジナルデータから複数の匿名化データ#1~#m間で大きく異なる部分を削除するのが学習に適すると想定される。
すなわち、“大いに異なる”匿名化データを構成することができれば、データを補完し合えるので、学習に適したデータを生成できると想定される。
匿名化データの生成処理の第1の具体例として、匿名化データの水増し件数m及び順序同士の距離関数を入力とする。順序同士の距離関数は、Kendallのτ距離やCayley距離等の任意の関数でよい。また、属性数をnとしたとき、m≦n!を満たすものとする。
与えられた距離関数によって、順序の間の距離の総和といった多様性を表す指標が最大となるm個の異なる属性順序が、全ての組み合わせを調べることによって決定される。
決定されたm個の異なる属性順序を使って、属性に関する設定がm個作成され、k-匿名化データが生成・結合される。
図18は、実施形態の一例におけるデータの削除箇所の決定アルゴリズムの第1の例を説明するテーブルである。
ここで、匿名化データの生成処理の第1の具体例において、水増し件数をm=2、属性数はn=3、距離関数をKendallのτ距離関数とする。なお、Kendallのτ距離は、二つの1からnの整数からなる配列a,bが与えられたとき、i<jを満たす1からnの整数の組 (i,j) であって、aのi番目の数とaのj番目の数の間の大小関係が、bのそれと食い違っているものを数え上げた数である。
順序間の距離は、図18に示すようになる。
多様性を表す指標として、距離が最大になる異なる2つの属性優先順序を、全ての組み合わせを調べ決定する。この場合の異なる2つの属性優先順序は、{(123),(132)}, {(123),(213)}, {(123),(231)}, {(123),(312)}, {(123),(321)}, {(132),(213)}, {(132),(231)}, {(132),(312)}, {(132),(321)}, {(213),(231)}, {(213),(312)}, {(213),(321)}, {(231),(312)}, {(231),(321)}, {(312),(321)}となる。
2つの属性優先順序の間の距離を、図18を用いて計算すると、それぞれ1,1,2,2,3,2,1,3,2,3,1,2,2,1,1となる。
そして、最大となるものが選択される。複数ある場合はランダムにとることで、一つ選択される。本例では、{(123),(321)}, {(132),(312)},{(213),(231)}から一つが選択される。
匿名化データの生成処理の第2の具体例として、匿名化データの水増し件数mを入力とする。また、属性数をnとしたとき、m ≦ 2n を満たすものとする。
以下、匿名化データの生成処理の第2の具体例におけるアルゴリズムを説明する。
まず、初期値である属性優先順序に対して、順序を固定する属性が選ばれる。その後、動かす順序が決定され、その並びを [1,2,…,n] とおく。
次に、数列(0,1/2,1/3,2/3,1/4,2/4,3/4,…)にnを掛け、整数に切り下げ、前から見て重複して現れた番号は除くことでできる数列を (a1,…,an)とする。
次に、1からnの各iに対して、属性優先順序biを[ai+1,ai+2,…,n,1,…,ai]と置く。
次に、属性優先順序の列B=(b1,r(b1),b2,r(b2),…,bn,r(bn))が生成される。ここで、優先順序bに対して、r(b)はそれをひっくり返したものを表す。例えば、b=[3,4,1,2]ならばr(b) = [2,1,4,3]である。
そして、Bの先頭からm項をとり、それらの属性優先順序を用いて、k-匿名化データが生成・結合される。
匿名化データの生成処理の第2の具体例におけるアルゴリズムでは、計算量は非常に少なくなる。またアルゴリズムの2~3が作用して、データ間のKendallのτ距離の総和は、mが偶数なら最大で、奇数の場合もランダムに比べ大きくなると期待できる。
ここで、匿名化データの生成処理の第2の具体例において、水増し件数をm=3とする。属性は{年収、職業、住所、性別、学歴}の5種類で、さらに年収は必ず属性優先順序の最初に置くと決める。すなわち、動かす属性は{職業、住所、性別、学歴}の4つであるため、n=4の場合に対応する。
初期値である属性優先順序を固定し、その並びを[1,2,3,4]とおく。なお、実際には[職業、学歴、性別、住所]などと並ぶが、便宜上数値とする。
数列(0,1/2,1/3,2/3,1/4,2/4,3/4,…)に4を掛け、整数に切り下げ、前から見て重複して現れた番号は除くことでできる数列は(0,2,1,3) となる。
1から4の各iに対して、属性優先順序biは、b1=[1,2,3,4], b2=[3,4,1,2], b3=[2,3,4,1], b4=[4,1,2,3]となる。
属性優先順序の列B=(b1,r(b1),b2,r(b2),…,bn,r(bn))は、([1,2,3,4],[4,3,2,1],[3,4,1,2],[2,1,4,3],[2,3,4,1],[1,4,3,2],[4,1,2,3],[3,2,1,4])となる。
Bの先頭からm=3項をとると、[1,2,3,4], [4,3,2,1], [3,4,1,2]が生成され、それらの属性優先順序を用いて、k-匿名化データが生成・結合される。
本例では、結果として、[職業、学歴、性別、住所]、[住所、性別、学歴、職業]、[性別、住所、職業、学歴]の3つが生成される。
図19は、学習モデルの生成処理の違いによる学習モデルの精度を比較するテーブルである。
図19においては、データオーギュメンテーション及びランダム生成による匿名化データで学習した学習モデルと、匿名化データの生成処理の第2の具体例による匿名化データで学習した学習モデルとが比較されている。
実験方法として、データオーギュメンテーション、ランダム生成A、ランダム生成B、匿名化データの生成処理の第2の具体例により、2から15までのkに対して、k-匿名化データを8個作成する。なお、ランダム生成A,Bは、異なるシードによるランダム生成を意味する。また、目的変数は必ず優先順序を1位とした。初期値となる属性優先順序は、学習器の特徴量重要度を用いた。
それぞれの場合で、データを結合し、学習したモデルの精度を各kについて比較し、kに関する精度の平均、最小値、最大値を記録すると、図19に示すテーブルが得られた。
図19に示す実験結果において、匿名化データの生成処理の第2の具体例は、データオーギュメンテーションよりも精度が高くなる。また、ランダム生成は精度が良い場合もあるが、シードによって値がばらつくため安定しないことが確認される。匿名化データの生成処理の第2の具体例はシードに寄らず、平均値は最大となる。
〔A-6〕効果
上述した実施形態の一例における生成方法,情報処理装置1及び生成プログラムによれば、例えば、以下の作用効果を奏することができる。
受付処理部111は、複数の項目値を含む複数の個人情報を受け付ける。匿名情報生成部112は、複数の項目値それぞれに対応付けられた第1のパラメータに応じて複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた複数の個人情報に適用して、複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成する。また、匿名情報生成部112は、複数の項目値それぞれに対応付けられた第1のパラメータとは異なる第2のパラメータに応じて複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた複数の個人情報に適用して、複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成する。そして、結合情報生成部113は、第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する。
これにより、個人情報の匿名性を確保しつつ、機械学習によって生成する学習モデルの精度を向上できる。
第1及び第2のパラメータについての多様性に関する指標が最大化されるように、当該第1及び第2のパラメータを決定する。これにより、匿名情報の多様性を向上させることができる。
第1及び第2のパラメータは、例えば、前記複数の項目値間の優先順序である。第1及び第2のパラメータは、例えば、前記複数の項目値それぞれの重み付け値であってもよい。これにより、多様性を有する匿名情報を容易に生成することができる。
〔B〕その他
開示の技術は上述した実施形態に限定されるものではなく、本実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。本実施形態の各構成及び各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。
〔C〕付記
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
複数の項目値を含む複数の個人情報を受け付け、
前記複数の項目値それぞれに対応付けられた第1のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成し、
前記複数の項目値それぞれに対応付けられた前記第1のパラメータとは異なる第2のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成し、
前記第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する、
処理をコンピュータが実行することを特徴とする生成方法。
(付記2)
前記第1及び第2のパラメータについての多様性に関する指標が最大化されるように、当該第1及び第2のパラメータを決定する、
処理を前記コンピュータに実行させることを特徴とする、付記1に記載の生成方法。
(付記3)
前記第1及び第2のパラメータは、前記複数の項目値間の優先順序である、
ことを特徴とする、付記1又は2に記載の生成方法。
(付記4)
前記第1及び第2のパラメータは、前記複数の項目値それぞれの重み付け値である、
ことを特徴とする、付記1又は2に記載の生成方法。
(付記5)
複数の項目値を含む複数の個人情報を受け付ける受付処理部と、
前記複数の項目値それぞれに対応付けられた第1のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成する第1匿名情報生成部と、
前記複数の項目値それぞれに対応付けられた前記第1のパラメータとは異なる第2のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成する第2匿名情報生成部と、
前記第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する結合情報生成部と、
を備えることを特徴とする情報処理装置。
(付記6)
前記第1及び第2のパラメータについての多様性に関する指標が最大化されるように、当該第1及び第2のパラメータを決定する、
ことを特徴とする、付記5に記載の情報処理装置。
(付記7)
前記第1及び第2のパラメータは、前記複数の項目値間の優先順序である、
ことを特徴とする、付記5又は6に記載の情報処理装置。
(付記8)
前記第1及び第2のパラメータは、前記複数の項目値それぞれの重み付け値である、
ことを特徴とする、付記5又は6に記載の情報処理装置。
(付記9)
複数の項目値を含む複数の個人情報を受け付け、
前記複数の項目値それぞれに対応付けられた第1のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成し、
前記複数の項目値それぞれに対応付けられた前記第1のパラメータとは異なる第2のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成し、
前記第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する、
処理をコンピュータに実行させることを特徴とする生成プログラム。
1 :情報処理装置
11 :CPU
111 :受付処理部
112 :匿名情報生成部
113 :結合情報生成部
12 :メモリ部
13 :表示制御部
14 :記憶装置
15 :入力IF
151 :マウス
152 :キーボード
16 :外部記録媒体処理部
160 :記録媒体
130 :表示装置
17 :通信IF

Claims (6)

  1. 複数の項目値を含む複数の個人情報を受け付け、
    前記複数の項目値それぞれに対応付けられた第1のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成し、
    前記複数の項目値それぞれに対応付けられた前記第1のパラメータとは異なる第2のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成し、
    前記第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する、
    処理をコンピュータが実行することを特徴とする生成方法。
  2. 前記第1及び第2のパラメータについての多様性に関する指標が最大化されるように、当該第1及び第2のパラメータを決定する、
    処理を前記コンピュータに実行させることを特徴とする、請求項1に記載の生成方法。
  3. 前記第1及び第2のパラメータは、前記複数の項目値間の優先順序である、
    ことを特徴とする、請求項1又は2に記載の生成方法。
  4. 前記第1及び第2のパラメータは、前記複数の項目値それぞれの重み付け値である、
    ことを特徴とする、請求項1又は2に記載の生成方法。
  5. 複数の項目値を含む複数の個人情報を受け付ける受付処理部と、
    前記複数の項目値それぞれに対応付けられた第1のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成する第1匿名情報生成部と、
    前記複数の項目値それぞれに対応付けられた前記第1のパラメータとは異なる第2のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成する第2匿名情報生成部と、
    前記第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する結合情報生成部と、
    を備えることを特徴とする情報処理装置。
  6. 複数の項目値を含む複数の個人情報を受け付け、
    前記複数の項目値それぞれに対応付けられた第1のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第1の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第1の匿名情報を生成し、
    前記複数の項目値それぞれに対応付けられた前記第1のパラメータとは異なる第2のパラメータに応じて前記複数の項目値それぞれの秘匿化されやすさが決まる第2の秘匿化アルゴリズムを、受け付けた前記複数の個人情報に適用して、前記複数の項目値の少なくとも何れかの項目値が匿名化された第2の匿名情報を生成し、
    前記第1の匿名情報及び前記第2の匿名情報を含む匿名情報を生成する、
    処理をコンピュータに実行させることを特徴とする生成プログラム。
JP2020079550A 2020-04-28 2020-04-28 生成方法,情報処理装置及び生成プログラム Active JP7363662B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020079550A JP7363662B2 (ja) 2020-04-28 2020-04-28 生成方法,情報処理装置及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020079550A JP7363662B2 (ja) 2020-04-28 2020-04-28 生成方法,情報処理装置及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2021174390A JP2021174390A (ja) 2021-11-01
JP7363662B2 true JP7363662B2 (ja) 2023-10-18

Family

ID=78281881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020079550A Active JP7363662B2 (ja) 2020-04-28 2020-04-28 生成方法,情報処理装置及び生成プログラム

Country Status (1)

Country Link
JP (1) JP7363662B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209800A (ja) 2010-03-29 2011-10-20 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
WO2012067213A1 (ja) 2010-11-16 2012-05-24 日本電気株式会社 情報処理システム及び匿名化方法
JP2014229039A (ja) 2013-05-22 2014-12-08 株式会社日立製作所 プライバシ保護型データ提供システム
US20160132697A1 (en) 2013-04-25 2016-05-12 Hewlett-Packard Development Company, L.P. Multi-Tier Storage Based on Data Anonymization
US20180004978A1 (en) 2016-06-29 2018-01-04 Sap Se Anonymization techniques to protect data
JP2019526851A (ja) 2016-07-18 2019-09-19 ナント ホールディングス アイピー エルエルシーNant Holdings IP, LLC 分散型機械学習システム、装置、および方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209800A (ja) 2010-03-29 2011-10-20 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
WO2012067213A1 (ja) 2010-11-16 2012-05-24 日本電気株式会社 情報処理システム及び匿名化方法
US20160132697A1 (en) 2013-04-25 2016-05-12 Hewlett-Packard Development Company, L.P. Multi-Tier Storage Based on Data Anonymization
JP2014229039A (ja) 2013-05-22 2014-12-08 株式会社日立製作所 プライバシ保護型データ提供システム
US20180004978A1 (en) 2016-06-29 2018-01-04 Sap Se Anonymization techniques to protect data
JP2019526851A (ja) 2016-07-18 2019-09-19 ナント ホールディングス アイピー エルエルシーNant Holdings IP, LLC 分散型機械学習システム、装置、および方法

Also Published As

Publication number Publication date
JP2021174390A (ja) 2021-11-01

Similar Documents

Publication Publication Date Title
TWI788529B (zh) 基於lstm模型的信用風險預測方法及裝置
Yoshino et al. Small and medium-sized enterprise (SME) credit risk analysis using bank lending data: An analysis of Thai SMEs
de Gooyert Developing dynamic organizational theories; three system dynamics based research strategies
Hainaut A model for interest rates with clustering effects
JP2008506197A (ja) 決定最適化に対するスケーラブルなアルゴリズムのための方法および装置
Adjor et al. Does corruption matter for unemployment in SADC countries?
Lukita et al. Predictive and analytics using data mining and machine learning for customer churn prediction
Barboza et al. New metrics and approaches for predicting bankruptcy
Kumari et al. Importance of data standardization methods on stock indices prediction accuracy
JP7363662B2 (ja) 生成方法,情報処理装置及び生成プログラム
JP2024020411A (ja) スプレッドシートプログラミング言語においてプログラムを合成すること
Chang The application of machine learning models in company bankruptcy prediction
Dadhich et al. Dynamic Determinants of AI-Based Innovation Management Practices and Sustainable FinTech: Application Preferences of AI-Innovators
KR102365308B1 (ko) 인공 신경망을 이용하여 기업 내부 문서의 리스크를 예측하는 방법 및 장치
Ortner et al. Robust and sparse multigroup classification by the optimal scoring approach
Potaptchik et al. Large scale portfolio optimization with piecewise linear transaction costs
Dhar et al. Furstenberg Sets in Finite Fields: Explaining and Improving the Ellenberg–Erman Proof
Chiong et al. Estimation of graphical models using the L 1, 2 norm
Chen et al. A framework for facilitating reproducible news sentiment impact analysis
Porouhan Optimization of overdraft application process with fluxicon disco
Alian et al. Unsupervised learning blocking keys technique for indexing Arabic entity resolution
WO2019236338A1 (en) Computerized relevance scoring engine for identifying potential investors for a new business entity
Lotero et al. ELECTRE I for Balancing Projects: Case Studies for Selecting Suppliers and Portfolio Investment Schemes
JP5875535B2 (ja) 匿名化装置、匿名化方法、プログラム
Amirshahi et al. Bankruptcy prediction using optimal ensemble models under balanced and imbalanced data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230918

R150 Certificate of patent or registration of utility model

Ref document number: 7363662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150