JP6375107B2 - 匿名化装置、匿名化方法、及び匿名化プログラム - Google Patents

匿名化装置、匿名化方法、及び匿名化プログラム Download PDF

Info

Publication number
JP6375107B2
JP6375107B2 JP2013213535A JP2013213535A JP6375107B2 JP 6375107 B2 JP6375107 B2 JP 6375107B2 JP 2013213535 A JP2013213535 A JP 2013213535A JP 2013213535 A JP2013213535 A JP 2013213535A JP 6375107 B2 JP6375107 B2 JP 6375107B2
Authority
JP
Japan
Prior art keywords
items
appearance rate
candidate data
data
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013213535A
Other languages
English (en)
Other versions
JP2015076035A (ja
Inventor
秀暢 小栗
秀暢 小栗
Original Assignee
富士通クラウドテクノロジーズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通クラウドテクノロジーズ株式会社 filed Critical 富士通クラウドテクノロジーズ株式会社
Priority to JP2013213535A priority Critical patent/JP6375107B2/ja
Publication of JP2015076035A publication Critical patent/JP2015076035A/ja
Application granted granted Critical
Publication of JP6375107B2 publication Critical patent/JP6375107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、個人情報を匿名化又は多様化する技術に関する。
情報処理技術の発展に伴い、日常の多くの場面で情報が収集され、この収集された情報を用いた処理が行われている。例えば、消費者が店舗の会員となって商品を購入する場合、会員登録時に消費者の氏名、年齢、性別、住所、メールアドレス等を登録することが多い。そして、消費者が商品を購入すると、店舗側のシステムが、この消費者と購入した商品の情報を対応付けて記録する。このように購入した商品の情報を蓄積して分析すると、当該消費者の嗜好が推定でき、この消費者が好む新商品が発売されたような場合にダイレクトメールを発送するといったサービスを行うことができる。更に、多くの消費者の情報について分析することで、20代女性の好む商品や関東エリアで好まれる商品といった情報を導くことができ、マーケティング等に利用される。
また、これらの情報は、当該店舗だけでなく、商品を製造するメーカや、他の企業にとっても新商品の開発や安全性の向上などに用いることができ、価値を有することがある。
しかし、店舗が有する消費者の個人情報を各消費者の許諾を得ずに、他者へ提供することはできない。このため、上記消費者に関する情報を他者へ提供する場合には、個人を特定できないように、匿名化する必要がある。
例えば、年齢が記載されている会員リストに25歳の人が一人だけであると、25歳の知人がその会員であることを知った時点で、その人を特定できることになる。即ち、25歳の会員という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性が高い。
そこで、会員リストの年齢の記載を10歳区切りに抽象化し、20代が3人のように同じ属性を持つ人が複数人となるようにすれば、3人のうちの誰であるかを特定できなくなる。このように同じ属性を持つ人がk人以上いる状態を、「k−匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。
特開2012−133451号公報 特開2011−108195号公報 特開2011−128862号公報 特開2012−78932号公報
従来の匿名化装置では、k−匿名性を満たすように各項目の値を抽象化する場合、単に同じ属性値が複数となるようにデータを区切るため、例え匿名性を満たしても利用価値の無いデータとなってしまうことがある。例えば、ファッションの傾向を知るためにデータを利用する場合、年齢の項目は重要であり、匿名化装置が単に同じ属性値が複数となるように匿名化を行うことで年齢の項目を抽象化し過ぎると、利用価値が無くなってしまう。この場合、操作者が抽象化する項目の優先度を指定し、年齢以外の項目を抽象化することで匿名性を満たすようにする。また、匿名化装置が、年齢の項目について、同じ属性値が
複数となるように年齢の項目を17歳以上22歳未満のように区切ると、同一グループに成年と未成年が混在したり、高校生と社会人が混在したりすることになり、マーケティング的な価値が極めて少なくなってしまう。この場合、操作者が年齢の項目の区切りを指定し、他の項目を抽象化することで匿名性を満たすようにする。
このように従来の匿名化装置では、操作者の判断を必要とする機会が多く、実用的ではなかった。特にインターネット上の店舗(ネットショップ)や、SNS(ソーシャル・ネットワーキング・サービス)の会員情報のような所謂ビッグデータを従来の匿名化装置で自動的に匿名化するのは困難であった。
また、抽象化のため、10才、11才、12才、・・・98才、99才といった年齢のデータを10代、20代、30代・・・90代のように匿名化した場合、この匿名情報から10代の人が小学生なのか中学生なのか、20代の人が大学生なのか社会人なのかといったことは分からず、この匿名情報を別の概念で再区分することは出来なかった。このため、元データの年齢の項目を10代、20代、30代・・・のように年代で区分する項目と、小学生、中学生、高校生・・・のように学業で区分する項目とに匿名化し、匿名情報が双方の情報を含むようにすることが考えられる。
しかし、匿名化するデータの項目数が多すぎると、匿名化処理後の各項目の値がk−匿名性を満たしているか否かの検定を行う処理が膨大になり、検定が困難になってしまう。この検定の処理は、項目数に応じて指数関数的に増加するので、例えばマーケティング用のデータを得るために十数項目を含むデータの検定を行うのは現実的では無い。特に、個人情報の総数が少ない場合、多くの項目を組み合わせると同じ属性値を持つ人数がk以上とならず、検定をパスしないので、項目の組み合わせが多すぎると匿名化処理の効率が低下してしまう。
そこで本発明は、対象データに含まれる項目の値の出現率に基づいて検定の処理を軽減し、効率良く匿名化処理を行う技術を提供する。
上記課題を解決するため、本発明の匿名化装置は、
個人と対応付けられた複数の項目を含む対象データを取得するデータ取得部と、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
前記抽象化候補データを構成する複数の語の最小出現率を求め、各語の最小出現率を乗じた値に基づいて前記抽象化候補データを抽出する候補抽出部と、
前記抽出された抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する検定部と、
を備える。
前記候補抽出部が、前記最小出現率を乗じた値に基づいて前記抽象化候補データの優先度を決定し、当該優先度に基づいて前記抽象化候補データを抽出しても良い。
前記候補抽出部が、前記最小出現率を乗じた値を閾値と比較し、前記最小出現率を乗じた値が閾値以上である前記抽象化候補データを抽出して良い。
前記匿名化装置は、
前記抽象化候補データに含まれる語の価値を取得し、前記抽象化候補データに含まれる語の価値に基づいて当該抽象化候補データの価値を求める価値判定部を備え、
前記候補抽出部が、前記抽象化候補データの価値と、前記最小出現率を乗じた値とに基
づいて前記抽象化候補データの優先度を決定しても良い。
上記課題を解決するため、本発明の匿名化方法は、
個人と対応付けられた複数の項目を含む対象データを取得するステップと、
前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
前記抽象化候補データを構成する複数の語の最小出現率を求め、各語の最小出現率を乗じた値に基づいて前記抽象化候補データを抽出するステップと、
前記抽出された抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定するステップと、
をコンピュータが実行する。
また、本発明は、上記匿名化方法をコンピュータに実行させるための匿名化プログラムであっても良い。更に、前記匿名化プログラムは、コンピュータが読み取り可能な記録媒体に記録されていても良い。
ここで、コンピュータが読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体の内コンピュータから取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD-ROM、CD-R/W、DVD、DAT、8mmテープ、メモリカード等がある。
また、コンピュータに固定された記録媒体としてハードディスクやROM(リードオンリーメモリ)等がある。
本発明は、対象データに含まれる項目の値の出現率に基づいて検定の処理を軽減し、効率良く匿名化処理を行う技術を提供できる。
図1は、匿名化処理の説明図である。 図2は、多様化処理の説明図である。 図3は、匿名化辞書に記憶させた年齢に関する語の対応関係の一例を示す図である。 図4は、出現率の説明図である。 図5は、情報処理装置の機能ブロック図である。 図6は、情報処理装置のハードウェア構成を示す図である。 図7は、個人情報を抽象化して抽象化候補データを作成する処理を示す図である。 図8は、抽象化候補データを検定する処理を示す図である。 図9は、最小出現率に基づいて抽象化候補データの優先度を決定する処理を示す図である。 図10は、候補パターンの説明図である。 図11は、出現率の積と検定をパスする可能性についての説明図である。 図12は、項目の組み合わせに関する具体例を示す図である。 図13は、候補テーブルに記憶させる指数の具体例を示す図である。 図14は、ボトムコーディングや裾切りの説明図である。
以下、図面を参照して本発明を実施するための形態について説明する。以下の実施の形
態の構成は例示であり、本発明は実施の形態の構成に限定されない。
〈実施形態1〉
図1は、匿名化処理の説明図、図2は、多様化処理の説明図である。
図1(A)は、姓、年齢、性別の項目を含む会員情報から姓の項目を削除した例を示す。図1(A)に示すように年齢が記載されている会員情報に16歳の女性が一人だけであると、16歳の女性が、この会員であることが分かった時点で、その人を特定できる。即ち、16歳・女性という属性を持つ人が一人だけであると、他の情報と照らし合わせることで、個人を特定できる可能性がある。
図1(B)では、会員リストの年齢の記載を抽象化し、0代(10歳未満)、10代、20代のように年代別とした。しかし、この場合でも10代女性は一人だけであり、図1(A)と同様に個人が特定できてしまい匿名化としては不十分である。
そこで、図1(C)では、更に抽象化し、10代以下(19歳以下)と20代のように年代の区切りを変更した。図1(C)の場合、10代以下の女性が2人であり、[10代以下]及び[女性]という属性が単一では無くなる。このため前述のように16歳の女性が、この会員であることが分かったとしても、どちらが当該16歳女性のデータであるかは特定できない。このように同じ属性を持つ人がk人以上いる状態を、「k−匿名性」を満たすと称し、そのようにデータを加工することを「k-匿名化」と称する。
図2は、ユーザ毎の利用駅のデータを抽象化し、ユーザ毎の利用駅が属する区のデータとした例を示す。抽象化前のデータでは、駅が特定されているために、住居が新宿駅付近で勤務地が東京駅付近といったデータと照らし合わせることでユーザを特定できる可能性がある。このため利用駅を抽象化して、利用駅が属する区とすることで、新宿区内の駅と千代田区内の駅を利用するユーザが複数となり、利用者が特定されなくなる。このように「新宿区内の駅と千代田区内の駅を利用する」のように属性値がl種類の可能性を持つよう抽象化することをl−多様化と称する。
図3は、匿名化辞書に記憶させた年齢に関する語の対応関係の一例を示す図、図4は出現率の説明図である。上述のように匿名化のため、匿名化対象の個人情報(以下単に対象データとも称す)に含まれる語を抽象化する場合には、例えば匿名化辞書を参照して、対象データの語を対応する抽象化レベルの高い語に置き換える。図3の匿名化辞書の例では、生年月日より抽象化レベルが高い語として年齢が対応付けられ、年齢より抽象化レベルの高い語として小学生等の学業の区分が対応付けられ、更に学業より抽象化レベルの高い語として年代が対応付けられている。また、本実施形態では、各語の価値をデータベース等から求めている。図3の例では、インターネットの検索エンジンにキーワードを入力して検索した際、検索結果とともに表示される広告媒体の掲載費用に用いられるSEM(Search Engine Marketing)単価を示している。
図4は、2000/1/1、2000/1/3、2000/1/9といった対象データを抽象化した例を示している。なお、図4において、合計は、対象データの各語の価値の総計を示している。また、対象データのkは、対象データに含まれる語のうち、最も少ない語の数、即ち最小の出現数(最小出現数)を示し、k%は、当該項目、即ち本例では生年月日に含まれる語の総数に対する最小出現数の割合(以下、最小出現率又は単に出現率と称す)を示している。図4の例では、最小出現数kが1で、総数が500であり、最小出現率k%は0.2%となっている。
図4において、パターン1は、生年月日を年代に抽象化した場合を示し、この場合の価値の合計が2000円、最小出現数kが5、最小出現率k%が1%であった。パターン2
は、生年月日を学業の区分に抽象化した場合を示し、この場合の価値の合計が1500円、最小出現数kが30、最小出現率k%が6%であった。パターン3は、生年月日を年齢に抽象化した場合を示し、この場合の価値の合計が1000円、最小出現数kが100、最小出現率k%が20%であった。
このように各項目の最小出現率k%を求め、k−匿名性を満たすための値(認定値)Kを定めると、当該項目を組み合わせて認定値Kを満たすために、当該項目を含む個人情報の総数(件数、又はレコード数)Mが幾つ必要かが次式により求められる。なお、nは組み合わせる項目の数である。
Figure 0006375107
例えば、個人情報10000件について匿名化する際に、認定値Kを5とし、匿名化する項目が一つで、当該項目の最小出現率k%が10%であった場合、次式のように総数Mが50となり、10000件よりも少ないため、匿名化可能と推定できる。
Figure 0006375107
また、匿名化する項目が二つで、当該項目の最小出現率k%の平均が10%であった場合、次式のように総数Mが2500となり、10000件よりも少ないため、匿名化可能と推定できる。
Figure 0006375107
また、匿名化する項目が三つで、当該項目の最小出現率k%の平均が10%であった場合、次式のように総数Mが125000となり、10000件を超えたため、匿名化できない(k−匿名性を満たさない)ことがある。
Figure 0006375107
このため、匿名化する項目を四つ以上組み合わせると、k−匿名性を満たす可能性が極めて少ない、即ち検定処理が無駄になり、匿名化の効率が低下することが推定できる。
従って、最小出現率k%に基づき、k−匿名性を満たす可能性が極めて少ない組み合わせの処理を省くことで、効率良く匿名化処理を行うことができる。例えば最小出現率k%に基づく総数Mが、実際の個人情報の件数を超える最少の項目数、上記の例では3つの項目までの組み合わせについて検定処理を行い、それ以上の組み合わせについては、検定処理を行わない。このように最小出現率k%に基づいて匿名化処理を行う匿名化装置の例について、以下に説明する。
匿名化装置10は、図5に示すように、抽象化部11、価値判定部12、検定部13選択部14、データ登録部15、データ取得部16、価値データ取得部17、ワードカテゴ
リ分析部18、ワード価値計算部19、候補抽出部44、データ出力部40を備えている。
データ取得部16は、個人と対応付けられた複数の項目を含む対象データを受信し、検定用DB(データベース)41に記憶させる。
抽象化部11は、対象データを匿名化或いは多様化する際に、対象データ中の項目の値であるワード(語)を匿名化辞書に基づき抽象化したワードに替えて抽象化候補データを生成する。本実施形態においてワード(語)は、単語や句など、一まとまりの言葉であり、位置情報や電話番号等の数値、メールアドレスやIPアドレス等の識別情報、言葉と同様の意味を持つ記号等を含んでも良い。
候補抽出部44は、前記抽象化候補データを構成する複数の語の最小出現率を求め、各語の最小出現率を乗じた値に基づいて前記抽象化候補データを抽出する。例えば、前記候補抽出部44は、最小出現率を乗じた値に基づいて前記抽象化候補データの優先度を決定し、当該優先度に基づいて所定数の抽象化候補データを抽出する。なお、前記候補抽出部44は、抽象化候補データを構成する複数の語の価値と、前記最小出現率を乗じた値とに基づいて前記抽象化候補データの優先度を決定しても良い。また、候補抽出部44は、前記最小出現率を乗じた値を閾値と比較し、前記最小出現率を乗じた値が閾値以上である前記抽象化候補データを抽出しても良い。
価値判定部12は、抽象化候補データに含まれるワードの価値に基づいて当該抽象化候補データの価値を求める。
検定部13は、候補抽出部44抽象化候補データの一個人と対応する項目の値の組み合わせが、当該抽象化候補データ中で単一でないことを条件として検定する。例えば検定部13は、抽象化候補データがk−匿名性を満たしているか、l−多様性を満たしているかを検定する。
選択部14は、前記検定の条件を満たした抽象化候補データの価値に基づいて抽象化候補データを選択する。例えば、選択部14は、k−匿名性やl−多様性を満たした抽象化候補データを価値が高い順に所定数選択する。また、選択部14は、k−匿名性やl−多様性を満たした抽象化候補データのうち、最も価値が高い抽象化候補データを選択しても良い。
データ登録部15は、例えば選択部14で選択された抽象化候補データに基づき、検定用DB41の個人情報のうち個人が特定される項目の値を抽象化した値に更新して匿名化情報を登録する。
価値データ取得部17は、抽象化候補データに含まれるワードの価値データを検索情報蓄積DBから取得(受信)する。また、価値データ取得部17は、検索情報蓄積DBに前記ワードの価値データが登録されていない場合に、他の装置にリクエストし、取得した価値データを検索情報蓄積DBに登録する機能(データリクエスト)や、定期的に他の装置を巡回して最新の価値データを取得し、検索情報蓄積DBに登録されている価値データを更新する機能(データクローラ)を有する。本実施形態では、この価値データとして検索エンジン20から各ワードの統計情報を受信する。ここで、各ワードの統計情報は、例えばSEMの広告単価(クリック単価)や、クリック率、平均掲載順位、1日の表示回数、1日のクリック数等である。なお、価値の取得先は、検索エンジンに限らず、ウェブページやSNS等であっても良い。この場合、例えばウェブページやSNSにおける各ワードの使用頻度を価値としても良い。
ワードカテゴリ分析部18は、ウェブサイト等のデータを分析して、新規のワードや、当該ワードを抽象化したワード(カテゴリ)を求め、検索情報蓄積DBに登録する。
価値計算部19は、価値データ取得部17で取得したワードの価値に基づき、ワードの価値の年平均や月平均、週平均など、ワードの価値の統計情報を求める。
データ出力部40は、検定用DB41から匿名化情報を読み出して出力する。ここで、匿名化情報の出力とは、表示装置による表示出力や、プリンタによる印刷出力、他のコンピュータへの送信、記憶媒体への書き込み等である。例えばデータ登録部15は、リクエストに応じてユーザの端末へ匿名化情報を配信することや、所定の配信先に匿名化情報を配信すること等を行う。なお、データ出力部40は、匿名化の処理が完了した時点で匿名化情報を匿名化完了DB(不図示)にコピーし、匿名化完了DBから読み出して出力しても良い。
検定用DB41は、個人情報(対象データ)が入力され、当該個人情報を検定用に供すと共に、データ登録部15により個人が特定されるデータが書き換えられ、匿名化した匿名化情報を保持する。
検索情報蓄積DB42は、価値データ取得部17で取得したワードの価値や、ワードカテゴリ分析部18で求めたワードやカテゴリの情報、価値計算部19で求めた価値の統計情報などを記憶する。
また、図5中、検索エンジン20は、インターネット等のネットワーク上に存在する情報の検索機能を提供するサイト(コンピュータ)である。即ち、検索エンジン20は、ユーザ端末から検索するキーワードを受信すると、このキーワードを含むウェブページのURL等のリストを検索結果として提供し、ユーザ端末に表示させる。
また、検索エンジン20は、この検索機能を利用し、検索結果にキーワードと連動した広告を表示させることや、キーワードに応じた広告料を支払ったスポンサーサイトへのリンクを表示させることも行う。このため、検索エンジン20は、検索されたワード毎に、1日の検索回数(表示回数)、検索結果の広告がクリックされた回数(クリック数)、1クリック当たりの広告料(クリック単価)等をワードの統計情報として記憶する。
また、これらの情報に基づき、検索エンジン20は、表示回数をクリック数で除したクリック率や、1日のクリック数にクリック単価を乗じた値(1日の費用)、広告の申し込み時(広告オークション時)に提示した費用に応じた広告の掲載順位等も求める。
検索エンジン20は、匿名化装置10に対し、上記クリック数、表示回数、掲載順位、1日の費用、クリック率、クリック単価等の情報を提供するデータ出力部21や、これらワードに関する情報を記憶する検索ワード蓄積DB22、検索結果と共に配信する広告の情報を記憶する検索広告配信DB23を備える。
図6は情報処理装置のハードウェア構成を示す図である。匿名化装置10は、CPU1、メモリ2、通信制御部3、記憶装置4、入出力インタフェース5を有する所謂コンピュータである。
CPU1は、メモリ2に実行可能に展開されたプログラムを実行し、前述の抽象化部11、価値判定部12、検定部13、選択部14、データ登録部15、データ取得部16、価値データ取得部17、ワードカテゴリ分析部18、ワード価値計算部19、候補抽出部
44、データ出力部40の機能を提供する。
メモリ2は、主記憶装置ということもできる。メモリ2は、例えば、CPU1が実行するプログラムや、通信制御部3を介して受信したデータ、記憶装置4から読み出したデータ、その他のデータ等を記憶する。
通信制御部3は、ネットワークを介して他の装置と接続し、当該装置との通信を制御する。入出力インタフェース5は、表示装置やプリンタ等の出力手段や、キーボードやポインティングデバイス等の入力手段、ドライブ装置等の入出力手段が適宜接続される。ドライブ装置は、着脱可能な記憶媒体の読み書き装置であり、例えば、フラッシュメモリカードの入出力装置、USBメモリを接続するUSBのアダプタ等である。また、着脱可能な記憶媒体は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、ブルーレイディスク(Blu-ray Disc)等のディスク媒体であってもよい。ドライブ装置は、着脱可能な記憶媒体からプログラムを読み出し、記憶装置4に格納する。
記憶装置4は、外部記憶装置ということもできる。記憶装置4としては、SSD(Solid State Drive)やHDD等であってもよい。記憶装置4は、ドライブ装置との間で、デ
ータを授受する。例えば、記憶装置4は、ドライブ装置からインストールされる情報処理プログラム等を記憶する。また、記憶装置4は、プログラムを読み出し、メモリ2に引き渡す。本実施形態では、記憶装置4が前述の検定用DB41や検索情報蓄積DB42、候補テーブル45を格納している。
図7−図9は、匿名化装置10が、匿名化プログラムに従って実行する匿名化方法の説明図であり、図7は、個人情報を抽象化して抽象化候補データを作成する処理を示す図、図8は、抽象化候補データを検定する処理を示す図、図9は、最小出現率に基づいて抽象化候補データの優先度を決定する処理を示す図である。
匿名化装置10は、定期的或いは操作者の指示等を契機に図7の処理を匿名化の事前処理として実行する。先ず、匿名化装置10は、他のコンピュータ或いは記憶装置から対象データを取得し(ステップS10)、対象データ中の各ワードについて、価値データが検索情報蓄積DB42に存在するか否かを判定する(ステップS20)。匿名化装置10は、全てのワードの価値データが検索情報蓄積DB42に存在する場合(ステップS20,Yes)にはステップS30へ移行し、足りない価値データがある場合(ステップS20,No)、当該ワードの価値データを外部の装置、本例では検索エンジン20から取得する(ステップS40)。なお、検索エンジン20から取得した価値データ以外、即ち検索情報蓄積DB42に存在したワードの価値情報は、検索情報蓄積DB42から取得する(ステップS30)。
また、匿名化装置10は、匿名性を満たすため対象データの各項目を抽象化したワード(カテゴリ)に置き換えて抽象化候補データを作成し、抽象化したワードと当該ワードの価値(本例ではSEM価格)を記憶装置4の候補テーブル45に記憶させる(ステップS50)。なお、抽象化可能な項目が複数存在する場合には、各項目を抽象化した場合と抽象化しない場合の全てのパターンを作成する。例えば対象データに三つの項目A,B,Cが含まれ、全項目について抽象化が可能で、抽象化した項目をA´,B´,C´とした場合、図10に示すように、項目Aだけを抽象化した場合A´,B,C、項目A,Bを抽象化した場合A´,B´,Cなど、七つの候補パターンが作成できる。また、対象データに含まれる項目A,B,Cのうち一部を省略した候補パターンを作成しても良い。例えば、項目A,B、項目A´,B、項目A,B´、項目A´,B´や、項目B,C、項目B´,C、項目B,C´、項目B´,C´、項目A,C、項目A´,C、項目A,C´、項目A´,C´のような候補を作成しても良い。このとき省略しない項目(必須項目)を予め設
定しておき、この必須項目以外の項目を省略した候補パターンを作成しても良い。また、一つの項目を抽象化の程度が異なる複数のワードに抽象化して複数の候補としても良い。
次に匿名化装置10は、抽象化候補データに含まれる各ワードの価値データに基づいて各パターンの抽象化候補データの価値を算出する、例えば抽象化候補データに含まれる各ワードの価値(SEM価格等)を総計して当該抽象化候補データの価値とすると共に、各ワードの出現数kを求める(ステップS60)。この抽象化候補データの価値及び出現数kを指数化し(ステップS70)、各抽象化候補データの指数を候補テーブル45に登録する(ステップS75)。また、匿名化装置10は、出現率に基づいて、抽象化候補データの項目数の最大値を求め、この項目数以内の抽象化候補データを抽出しても良い。なお、このステップS70における指数化や抽出の処理については後述する。
また、所定のスケジュールに基づくバッチ処理或いは操作者の指示等を契機に、匿名化装置10は、図8の検定処理を実行する。先ず、匿名化装置10は、処理条件として、処理時間や、検定処理する抽象化候補データの数(処理回数)、優先する指数、認定値(Kの値)等を設定する(ステップS80)。
次に匿名化装置10は、検定が未処理の抽象化候補データのうち、価格の指数が最も高いものを候補テーブル45から取得し(ステップS90)、検定処理を続行するか否かを判定する(ステップS100)。例えば、ステップS90で次に処理する抽象化候補データが存在しなかった場合や、ステップS80で設定した処理時間・処理回数等の終了条件に達した場合、匿名化装置10は続行しないと判定して(ステップS100,No)処理を終了する。
一方、ステップS90で次に処理する抽象化候補データが存在した場合や、終了条件に達していない場合、匿名化装置10は、処理の続行と判定し(ステップS100,Yes)、次に取得した抽象化候補データの出現率kの指数を閾値と比較し、出現率kの積が閾値以上か否かを判定する(ステップS110)。
ここで、抽象化候補データの出現率kの指数が閾値より低い場合(ステップS110,No)、匿名化装置10は、この抽象化候補データの検定を行わずに処理済にして、例えば処理済のフラグを付加してステップS90に戻る(ステップS115)。また、抽象化候補データの出現率kの指数が閾値以上の場合(ステップS110,Yes)、匿名化装置10は、この抽象化候補データについて、匿名状態の検定を行う(ステップS120)。即ち、匿名化装置10は、出現率kの指数が閾値未満の抽象化候補データを検定から除き、出現率kが閾値以上の抽象化候補データを抽出して検定を行う。
検定の結果、匿名化装置10は、k−匿名性を満たしているか又はL−匿名性を満たしているか、即ち匿名状態であるか否かを判定し(ステップS130)、匿名状態であると判定した場合には(ステップS130,Yes)、この抽象化候補データを匿名情報として検定用DB41に登録する(ステップS140)。登録後、匿名化装置10は、当該抽象化データを処理済として、例えば処理済のフラグを付加して、ステップS90に戻る(ステップS150)。なお、検定をパスした抽象化候補データを全て匿名化情報として検定用DB41に登録しても良いし、抽象化候補データの価値に基づき、価値の高い順に所定数の抽象化候補データを匿名化情報として検定用DB41に登録しても良い。
一方、ステップS130で匿名状態ではないと判定した場合(ステップS130,No)、匿名化装置10は、閾値を当該抽象化候補データの出現率に更新し、ステップS150へ移行して当該抽象化候補データを処理済としてステップS90へ戻る。
このように本実施形態の匿名化装置10は、抽象化候補データに含まれるワードの出現率に基づいて抽象化候補データを抽出して検定処理を行っている。
図9は、ステップS70における指数化と抽出の処理の詳細な説明図である。前述のステップS70において、匿名化装置10は、図9に示すように、処理対象の抽象化候補データに含まれる各ワードの価格と、ワード総数に対する最小出現数の割合を出現率k%として候補テーブル45から求める(ステップS210)。
次に匿名化装置10は、各項目の出現率を平均して平均出現率を求め(ステップS220)、次式により組み合わせ限界数nを次式から求める(ステップS230)。
Figure 0006375107
なお、上記ステップS220,S230では、((k1/M)+(k2/M)・・・(kn/M))/nのように抽象化候補データを構成する各項目の平均出現率を求めているが
、これに限らず、抽象化候補データ中で最小の出現率や、所定の項目の出現率を用いても良い。
また、匿名化装置10は、ステップS230で求めた限界数nを抽象化候補データの含む項目の最大値としてメモリ等の記憶装置に設定(記憶)し(ステップS240)、この最大値以下の項目を有する抽象化候補データの全パターンを抽出し(ステップS250)、この抽出した抽象化候補データを記録する(ステップS260)。なお、匿名化装置10は、抽出した抽象化候補データを新たに候補テーブル45に記録させても良いし、ステップS250で抽出したパターン以外を消し込むことで、抽出した抽象化候補データを候補テーブル45の記録に残すようにしても良い。
次に匿名化装置10は、抽出した抽象化候補データが含む各項目の価格又は元データの価格に対する抽象化候補データの価格の割合(価格割合)を総計し、当該抽象化候補データの総価格を検定処理の優先度を決める指数として候補テーブル45に記録する(ステップS270)。
また、匿名化装置10は、抽出した抽象化候補データが含む各項目の出現率の積を求め、当該出現率の積を検定処理の優先度を決める指数として候補テーブル45に記録する(ステップS280)。
このように抽象化候補データが含む各項目の出現率の積を求めることで、当該抽象化候補データの検定を行った場合に、検定をパスする可能性を判断することができる。図11は、出現率の積と検定をパスする可能性についての説明図である。
図11では、対象データの総件数(ワード総数)が10000人、認定値Kが2人であり、項目1〜項目3の出現率がそれぞれ5%の場合を示している。
抽象化候補データに含まれる項目が、項目1(年代)だけであると、最小出現数が500人になると推定される。
また、抽象化候補データに含まれる項目が、項目1(年代)と項目2(職業)であると、最小出現数は総件数に各項目の出現率の積を乗じた10000人*5%*5%=25人になると推定される。
そして、抽象化候補データに含まれる項目が、項目1(年代)と項目2(職業)と項目3(地域)であると、最小出現数は総件数に各項目の出現率の積を乗じた10000人*5%*5%*5%=1.25人になると推定される。このため、項目1〜3を組み合わせた場合であれば、最低出現数の推定値が1.25人であり、認定値K=2人に近いので、検定をパスする可能性が高いことが分かるが、更に出現率が5%の項目を組み合わせた場合、最低出現数が0.0625となり、認定値K=2人を満たす、即ち検定をパスする可能性が極めて低いことが分かる。
このため認定値K=2人であれば、最低出現数の推定値の閾値を1.0人や1.2人等と設定し、抽象化候補データに含まれる項目の出現率の積が閾値以上の抽象化候補データを抽出し、この抽出した抽象化候補について検定を行うことにより、検定をパスする可能性が低い抽象化候補データの検定処理を省き、検定をパスする可能性がある抽象化候補データを抽出して検定処理を行うことができるので、効率良く匿名化処理を実行できる。
図12は、項目の組み合わせに関する具体例を示す図である。図12では、年齢、居住地、職業の項目がそれぞれA〜Dのパターンを有している、即ち候補テーブルに記録された抽象化候補データが最大12の項目を有する状態を示している。なお、年齢Aは、年齢を10代、20代・・・のように年代で抽象化したパターン、年齢Bは、年齢を小学生、中学生・・・のように学業の区分で抽象化したパターンであり、同様に各項目のA〜Dは抽象化のパターンが異なる状態を示している。
このように図12の例では、抽象化候補データが最大12の項目を有しており、このとき組み合わせ最大値nが3であれば、12個の項目の中から、「年齢A、居住地A、職業A」や「年齢A、居住地B、職業C」、「年齢A、職業C」「職業A、職業D」のように最大値n以下の項目を含む抽象化候補データを抽出する。
図13は候補テーブルに記憶させる指数の具体例を示す図である。図13に示すように、候補テーブル45は、各抽象化候補データについて、価格割合の和や出現率の積を指数として記憶させている。
例えば、「年齢A、居住地B、職業A」の項目の組み合わせを持つ抽象化候補データは、価格の和が580%、「年齢B、居住地B、職業A」の項目の組み合わせを持つ抽象化候補データは、価格の和が600%であり、この価格の和の順番に抽象化候補データを読み出し、読み出した抽象化候補データの出現率の積が閾値以上であれば検定を行い、閾値未満であれば検定を行わない。
なお、図14に示すように各項目の値(図14の例では年代)と出現率とを対応付けた場合に、出現率が5%や10%等、所定の閾値以下の場合に、他の項目と併合してボトムコーディングや裾切りを行っても良い。
以上のように本実施形態によれば、対象データに含まれる項目の値の出現率に基づいて検定の処理を軽減し、効率良く匿名化処理を行うことができる。
〈その他〉
本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。
1 CPU
2 メモリ
3 通信制御部
4 記憶装置
5 入出力インタフェース
10 匿名化装置
11 抽象化部
12 価値判定部
13 検定部
14 選択部
15 データ登録部
16 データ取得部
17 価値データ取得部
18 ワードカテゴリ分析部
19 ワード価値計算部
20 検索エンジン
21 データ出力部
22 歳以上
40 データ出力部
44 候補抽出部
45 候補テーブル

Claims (6)

  1. 個人と対応付けられた複数の項目を含む対象データを取得するデータ取得部と、
    前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成する抽象化部と、
    前記抽象化候補データを構成する前記項目毎に前記対象データの総件数に対する前記抽象化した語の出現数の割合である出現率の最小値として最小出現率を求め、前記項目の数nを異ならせた複数の組み合わせについて、各項目における前記抽象化した語の最小出現率を平均した平均出現率、各項目の中で最も小さい最小出現率、又は、所定項目の最小出現率を代表出現率Sとして求め、下記式1から前記抽象化候補データの匿名化が可能と推定される前記対象データの推定件数Mを求め、前記項目の組み合わせのうち、前記推定件数Mが前記対象データの総件数を超えない前記項目の数nの最大値を前記項目の数の限界数とし、当該限界数以下の項目を含む前記抽象化候補データを抽出する候補抽出部と、
    前記抽出された抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定する検定部と、
    を備える匿名化装置。
    M=(K/S)・・・式1
    但し、
    M:匿名化が可能と推定される前記対象データの推定件数
    K:匿名性を満たす基準として設定された前記抽象化候補データにおける前記抽象化された語の最小の出現数
    S:前記代表出現率
    n:前記抽象化候補データ中の前記項目の
  2. 前記候補抽出部が、前記最小出現率を乗じた値に基づいて前記抽象化候補データの優先度を決定し、当該優先度に基づいて前記抽象化候補データを抽出する請求項1に記載の匿名化装置。
  3. 前記候補抽出部が、前記最小出現率を乗じた値を閾値と比較し、前記最小出現率を乗じた値が閾値以上である前記抽象化候補データを抽出する請求項1又は2に記載の匿名化装置。
  4. 前記抽象化候補データに含まれる前記抽象化した語の価値を取得し、前記抽象化候補データに含まれる前記抽象化した語の価値に基づいて当該抽象化候補データの価値を求める価値判定部を備え、
    前記候補抽出部が、前記抽象化候補データの価値と、前記最小出現率を乗じた値とに基づいて抽象化候補データの優先度を決定する請求項2に記載の匿名化装置。
  5. 個人と対応付けられた複数の項目を含む対象データを取得するステップと、
    前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
    前記抽象化候補データを構成する前記項目毎に前記対象データの総件数に対する前記抽象化した語の出現数の割合である出現率の最小値として最小出現率を求め、前記項目の数nを異ならせた複数の組み合わせについて、各項目における前記抽象化した語の最小出現率を平均した平均出現率、各項目の中で最も小さい最小出現率、又は、所定項目の最小出現率を代表出現率Sとして求め、下記式1から前記抽象化候補データの匿名化が可能と推定される前記対象データの推定件数Mを求め、前記項目の組み合わせのうち、前記推定件数Mが前記対象データの総件数を超えない前記項目の数nの最大値を前記項目の数の限界数とし、当該限界数以下の項目を含む前記抽象化候補データを抽出するステップと、
    前記抽出された抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定するステップと、
    をコンピュータが実行する匿名化方法。
    M=(K/S)・・・式1
    但し、
    M:匿名化が可能と推定される前記対象データの推定件数
    K:匿名性を満たす基準として設定された前記抽象化候補データにおける前記抽象化された語の最小の出現数
    S:前記代表出現率
    n:前記抽象化候補データ中の前記項目の
  6. 個人と対応付けられた複数の項目を含む対象データを取得するステップと、
    前記対象データ中の項目の値である語を抽象化した語に替えて抽象化候補データを生成するステップと、
    前記抽象化候補データを構成する前記項目毎に前記対象データの総件数に対する前記抽象化した語の出現数の割合である出現率の最小値として最小出現率を求め、前記項目の数nを異ならせた複数の組み合わせについて、各項目における前記抽象化した語の最小出現率を平均した平均出現率、各項目の中で最も小さい最小出現率、又は、所定項目の最小出現率を代表出現率Sとして求め、下記式1から前記抽象化候補データの匿名化が可能と推定される前記対象データの推定件数Mを求め、前記項目の組み合わせのうち、前記推定件数Mが前記対象データの総件数を超えない前記項目の数nの最大値を前記項目の数の限界数とし、当該限界数以下の項目を含む前記抽象化候補データを抽出するステップと、
    前記抽出された抽象化候補データの項目の値の組み合わせが、前記対象データの一個人に限定されないことを条件として検定するステップと、
    をコンピュータに実行させるための匿名化プログラム。
    M=(K/S)・・・式1
    但し、
    M:匿名化が可能と推定される前記対象データの推定件数
    K:匿名性を満たす基準として設定された前記抽象化候補データにおける前記抽象化された語の最小の出現数
    S:前記代表出現率
    n:前記抽象化候補データ中の前記項目の
JP2013213535A 2013-10-11 2013-10-11 匿名化装置、匿名化方法、及び匿名化プログラム Active JP6375107B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013213535A JP6375107B2 (ja) 2013-10-11 2013-10-11 匿名化装置、匿名化方法、及び匿名化プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013213535A JP6375107B2 (ja) 2013-10-11 2013-10-11 匿名化装置、匿名化方法、及び匿名化プログラム

Publications (2)

Publication Number Publication Date
JP2015076035A JP2015076035A (ja) 2015-04-20
JP6375107B2 true JP6375107B2 (ja) 2018-08-15

Family

ID=53000813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013213535A Active JP6375107B2 (ja) 2013-10-11 2013-10-11 匿名化装置、匿名化方法、及び匿名化プログラム

Country Status (1)

Country Link
JP (1) JP6375107B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7100563B2 (ja) * 2018-11-08 2022-07-13 株式会社日立製作所 匿名化システムおよび匿名化方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3866210B2 (ja) * 2003-03-20 2007-01-10 株式会社エヌ・ティ・ティ・データ 個人特定防止装置、個人特定防止方法、および、プログラム
US8544104B2 (en) * 2010-05-10 2013-09-24 International Business Machines Corporation Enforcement of data privacy to maintain obfuscation of certain data
JP5626733B2 (ja) * 2011-10-04 2014-11-19 株式会社日立製作所 個人情報匿名化装置及び方法
JP5782637B2 (ja) * 2012-03-23 2015-09-24 西日本電信電話株式会社 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム

Also Published As

Publication number Publication date
JP2015076035A (ja) 2015-04-20

Similar Documents

Publication Publication Date Title
Zhao et al. Discovering different kinds of smartphone users through their application usage behaviors
US9760735B2 (en) Anonymous information exchange
EP2793162A1 (en) Anonymization device, anonymization method, and computer program
Çavdar et al. Airline customer lifetime value estimation using data analytics supported by social network information
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
JP6214150B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2017126215A (ja) 情報選択装置、情報選択方法および情報選択プログラム
JP6663005B2 (ja) インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体
JP2018081550A (ja) 営業活動支援装置、営業活動支援方法および営業活動支援プログラム
JP6104674B2 (ja) 匿名情報配信システム、匿名情報配信方法及び匿名情報配信プログラム
JP6917348B2 (ja) 提供装置、提供方法、及び提供プログラム
JP6169444B2 (ja) 匿名化システム
JP6375107B2 (ja) 匿名化装置、匿名化方法、及び匿名化プログラム
WO2014050837A1 (ja) 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体
JP7278100B2 (ja) 投稿評価システム及び方法
JP6789755B2 (ja) 抽出装置、抽出方法および抽出プログラム
JP2020095561A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Sinha et al. Modeling time to open of emails with a latent state for user engagement level
JP2015125646A (ja) 匿名化システム
JP6339403B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN111382343B (zh) 一种标签体系生成方法及装置
JP5860116B2 (ja) 減少係数算出装置、それを用いた匿名処理装置、方法及びプログラム
JP2017004260A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6313944B2 (ja) 匿名化システム、匿名化方法及び匿名化プログラム
Horváth et al. The Impact of Influencers on Consumers’ Purchasing Decisions When Shopping Online

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160921

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180723

R150 Certificate of patent or registration of utility model

Ref document number: 6375107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350