JP2017182342A - グループ化装置、グループ化方法及びコンピュータプログラム - Google Patents

グループ化装置、グループ化方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2017182342A
JP2017182342A JP2016066646A JP2016066646A JP2017182342A JP 2017182342 A JP2017182342 A JP 2017182342A JP 2016066646 A JP2016066646 A JP 2016066646A JP 2016066646 A JP2016066646 A JP 2016066646A JP 2017182342 A JP2017182342 A JP 2017182342A
Authority
JP
Japan
Prior art keywords
records
group
information
equalization processing
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016066646A
Other languages
English (en)
Other versions
JP6148371B1 (ja
Inventor
優一 真田
Yuichi Sanada
優一 真田
悠佑 榎本
Yusuke Enomoto
悠佑 榎本
柳本 清
Kiyoshi Yanagimoto
清 柳本
浩 鞍留
Hiroshi Kuratome
浩 鞍留
寛 寺門
Hiroshi Terakado
寛 寺門
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone West Corp
Priority to JP2016066646A priority Critical patent/JP6148371B1/ja
Application granted granted Critical
Publication of JP6148371B1 publication Critical patent/JP6148371B1/ja
Publication of JP2017182342A publication Critical patent/JP2017182342A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】匿名性及び有用性の双方を保つこと。【解決手段】匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、を備え、複数のレコードは、階層化された情報によって構成され、均等化処理部は、複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合にはグループに対してグループと階層化された情報が類似する未処理のレコードを加算することによって複数のレコードを複数のグループに分けるグループ化装置。【選択図】図1

Description

本発明は、情報の匿名化技術に関する。
従来、多くの情報をビッグデータとして収集し、それらを解析することによって新たな情報を取得することが行われている。ビッグデータには、個人の情報などそのままでは解析にかけることができない情報も含まれている。そのため、収集された情報を二次利用することが可能となるように、収集された情報に対して匿名化処理が行われている。
特開2015−046030号公報
しかしながら、従来の匿名化処理では匿名性及び有用性のバランスを適切に保つことが困難であった。
上記事情に鑑み、本発明は、匿名性及び有用性の双方を保つことが可能な匿名化技術を提供することを目的としている。
本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、を備え、前記複数のレコードは、階層化された情報によって構成され、前記均等化処理部は、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるグループ化装置である。
本発明の一態様は、上記のグループ化装置であって、前記均等化処理部は、加算の結果、前記最小限の数を満たした場合、前記加算の結果から前記最小限の数以上、かつ、前記グループ内のレコードの数が最小値となる組み合わせを抽出し、抽出した組み合わせを同一のグループとする。
本発明の一態様は、上記のグループ化装置であって、前記非匿名化情報に関する条件の定義を示す条件情報を取得する条件情報取得部をさらに備え、前記均等化処理部は、前記条件情報に基づいて前記複数のレコードを前記複数のグループに分ける。
本発明の一態様は、上記のグループ化装置であって、前記条件情報は、一つの属性に関する各階層の各値に与えられる同一階層内で結合可能な他の値を示す情報であり、前記均等化処理部は、前記条件情報を参照して、グループに割り当てられているレコードの属性値と結合可能な属性値を有しているレコードを未処理のレコードし、抽出した未処理のレコードを前記レコードに加算することによって前記複数のレコードを前記複数のグループに分ける。
本発明の一態様は、上記のグループ化装置であって、前記均等化処理部は、処理の回数に応じて基準となった階層の1つ上の階層の属性値が同一である未処理のレコードを前記レコードに加算することによって前記複数のレコードを前記複数のグループに分ける。
本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、を有し、前記複数のレコードは、階層化された情報によって構成され、前記均等化処理ステップにおいて、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるグループ化方法である。
本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、をコンピュータに実行させ、前記複数のレコードは、階層化された情報によって構成され、前記均等化処理ステップにおいて、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるためのコンピュータプログラムである。
本発明により、匿名性及び有用性の双方を保つことが可能となる。
匿名化システム1のシステム構成を表すシステム構成図である。 処理対象レコードの具体例を示す図である。 結合条件定義の具体例を示す図である。 グループ化装置20の処理の流れを示すフローチャートである。 グループ化装置20による第一均等化処理の流れを示すフローチャートである。 グループ化装置20による第一均等化処理の流れを示すフローチャートである。 グループ化装置20による第二均等化処理の流れを示すフローチャートである。 グループ情報の具体例を示す図である。
以下、本発明の一実施形態を、図面を参照しながら説明する。
図1は、匿名化システム1のシステム構成を表すシステム構成図である。匿名化システム1は、非匿名化情報記憶部10、グループ化装置20、グループ情報記憶部30、匿名化処理部40及び匿名化情報記憶部50を備える。
非匿名化情報記憶部10は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。非匿名化情報記憶部10は、匿名化されていない情報(以下「非匿名化情報」という。)を記憶する。非匿名化情報は、少なくとも1つの属性を含む。以下、1つの属性が階層化されて表された情報のかたまりをレコードと呼ぶ。例えば、レコードは、第1階層から第3階層までの各値を有する。第1階層は最上位の階層を表し、第3階層は最下位の階層を表す。属性が銀行口座である場合を例に説明すると、第1階層は銀行名を表し、第2階層は支店名を表し、第3階層は口座種別番号を表す。非匿名化情報は、このようなレコードとして表されてもよい。なお、非匿名化情報記憶部10が記憶する情報の一部には、既に匿名化された情報が含まれていてもよい。
非匿名化情報記憶部10は、さらに条件情報を記憶する。条件情報は、非匿名化情報に関する条件の定義を示す情報である。条件情報の具体例として、結合条件定義がある。結合条件定義は、一つの属性に関する各階層の各値に与えられる同一階層内で結合可能な他の値を示す情報である。ここで、結合可能とは、ある階層のある値を有するレコードに、同一階層内の他の値を有するレコードを加算することができることを表す。
グループ化装置20は、非匿名化情報記憶部10に記憶される非匿名化情報のうち、匿名化の対象となっている属性(以下「匿名化対象属性」という。)の複数のレコードを、複数のグループに分類する。グループ化装置20は、メインフレームやワークステーションやパーソナルコンピュータなどの情報処理装置を用いて構成される。グループ化装置20は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備える。グループ化装置20は、グループ化プログラムを実行することによって、条件情報取得部201及び均等化処理部202を備える装置として機能する。なお、グループ化装置20の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
条件情報取得部201は、非匿名化情報記憶部10から、匿名化対象属性に関する条件情報を取得する。条件情報取得部201は、取得した条件情報を均等化処理部202に出力する。
均等化処理部202は、非匿名化情報記憶部10から、匿名化処理の対象となる非匿名化情報の複数のレコード(以下、「処理対象レコード」という。)を取得する。均等化処理部202は、取得した処理対象レコードに基づいて均等化処理を実行する。均等化処理の実行によって、均等化処理部202は、取得した処理対象レコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける。均等化処理において、均等化処理部202は、各グループに含まれるレコードの数が、予め指定された最小数を下回らないようにグループ化を行う。最小数は、例えばk匿名化処理における“k”の値である。本実施形態では、“k”の値が4の場合について説明するが、“k”の値は自然数であれば他の値であってもよい。均等化処理部202は、均等化処理の結果を示す情報(以下「グループ情報」という。)をグループ情報記憶部30に記録する。グループ情報は、均等化処理によって生成された各グループに属するレコードを示す。グループ情報は、例えばグループ番号、各グループの定義を示す情報(以下「グループ定義情報」という。)と、各グループに属するレコードの個数を示す情報(以下「レコード数情報」という。)とを含む。
グループ情報記憶部30は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。グループ情報記憶部30は、グループ化装置20によって生成されたグループ情報を記憶する。
匿名化処理部40は、グループ情報記憶部30に記憶されているグループ情報に基づいて、非匿名化情報記憶部10に記憶されている非匿名化情報に対して匿名化処理を行う。例えば、匿名化処理部40は、各グループに属しているレコードの匿名化対象属性の値を、そのグループに属している各レコードの値を一般化することによって得られる値に置き換えることによって匿名化する。例えば、あるグループに属しているレコードの匿名化対象属性の値が“C1C1、C1C2、C1C3、C2C1、C2C2”である場合に、“C1C1、C1C2、C1C3”を一つ上に一般化した値“B1B1”と、“C2C1、C2C2”を一つ上に一般化した値“B1B2”に置き換えたとする。ここで、k=4である場合、“B1B1”の数は3つであり、“B1B2”の数は2つであるため、k匿名性を満たさない。そこで、匿名化処理部40は、グループ情報に含まれるグループ定義情報に従って“B1B1+B1B2”をさらに一般化した値に置き換えることによって匿名化処理を行う。匿名化処理部40は、このような匿名化処理の実行によって、非匿名化情報の匿名化対象属性の値が匿名化された情報(以下「匿名化情報」という。)を生成する。
図2は、処理対象レコードの具体例を示す図である。
図2に示されるように処理対象レコードには、1つの属性における非匿名化情報の複数のレコードが含まれる。図2では、19個のレコードが処理対象レコードに含まれる。図2において、NOの値は処理対象レコードに含まれるレコードの昇順を表し、属性値の値は匿名化対象属性の階層化された情報を表す。属性値の具体例として、各レコードには第1階層から第3階層までの値が含まれる。
図2において、処理対象レコードの最上段のレコードは、NOの値が“1”、第1階層の値が“AA1”、第2階層の値が“B1B1”、第3階層の値が“C1C1”である。すなわち、最上段のレコードには、第1階層に“AA1”の値が含まれ、第2階層に“B1B1”の値が含まれ、第3階層に“C1C1”の値が含まれることが表されている。
また、図2において、非匿名化情報の2段目のレコードは、NOの値が“2”、第1階層の値が“AA1”、第2階層の値が“B1B1”、第3階層の値が“C1C2”である。すなわち、2段目のレコードには、第1階層に“AA1”の値が含まれ、第2階層に“B1B1”の値が含まれ、第3階層に“C1C2”の値が含まれることが表されている。
図3は、結合条件定義の具体例を示す図である。
図3では、結合条件定義の一例として第2階層の各値に与えられる同一階層内で結合可能な他の値を示す情報が示されている。図3において、結合条件定義の最上段のレコードは、第2階層の値が“B1B1”、結合可能属性値の値が“B1B2”である。すなわち、属性値“B1B1”と、属性値“B1B2”とが結合可能であることが表されている。
また、図3において、結合条件定義の2段目のレコードは、第2階層の値が“B1B2”、結合可能属性値の値が“B1B1、B1B3及びB1B4”である。すなわち、属性値“B1B2”と、属性値“B1B1、B1B3及びB1B4”とが結合可能であることが表されている。
図4は、グループ化装置20の処理の流れを示すフローチャートである。まず条件情報取得部201は、処理対象レコードに関する条件情報を非匿名化情報記憶部10から取得する(ステップS101)。条件情報取得部201は、取得した条件情報を均等化処理部202に出力する。次に、均等化処理部202は、出力された条件情報に基づいて匿名化対象属性の結合条件定義があるか否か判定する(ステップS102)。条件情報に匿名化対象属性の結合条件定義が含まれる場合、均等化処理部202は匿名化対象属性の結合条件定義があると判定する。一方、条件情報に匿名化対象属性の結合条件定義が含まれない場合、均等化処理部202は匿名化対象属性の結合条件定義がないと判定する。匿名化対象属性の結合条件定義がある場合(ステップS102−YES)、均等化処理部202は第一均等化処理を実行する(ステップS103)。第一均等化処理とは、各グループに属するレコード数が最小値よりも少ない場合に結合条件定義を用いて各グループに属するレコード数が最小値を満たすようにグループ化を行う処理である。第一均等化処理の具体的な処理については後述する。均等化処理部202は、均等化処理によって生成したグループ情報をグループ情報記憶部30に出力する(ステップS104)。
一方、結合条件定義がない場合(ステップS102−NO)、均等化処理部202は第二均等化処理を実行する(ステップS105)。第二均等化処理とは、各グループに属するレコード数が最小値よりも少ない場合に結合条件定義を用いずに各グループに属するレコード数が最小値を満たすようにグループ化を行う処理である。第二均等化処理の具体的な処理については後述する。均等化処理部202は、均等化処理によって生成したグループ情報をグループ情報記憶部30に出力する(ステップS104)。
図5及び図6は、グループ化装置20による第一均等化処理の流れを示すフローチャートである。
均等化処理部202は、処理対象レコードを、匿名化対象属性の値(匿名化処理の対象となっている第1階層から第3階層までの値を含む)に基づいて昇順にソートする(ステップS201)。これにより、処理対象レコードに第1階層から第3階層までの値が同一のレコードが複数ある場合には、第1階層から第3階層までの値が同一のレコードが連番になる。次に、均等化処理部202は、処理対象レコードのうち未処理のレコードを抽出する(ステップS202)。ここで、未処理のレコードとは、グループ番号が付与されていないレコードを表す。例えば、均等化処理部202は、未処理のレコードのうちソート後の番号(図2におけるNO)が最も小さいレコードを抽出する。この際、均等化処理部202は、抽出したレコードにグループ番号を付与する。なお、均等化処理部202は、ステップS202の処理を行う度に異なるグループ番号を付与する。
均等化処理部202は、未処理のレコードのうち、抽出したレコードの属性値と同一の属性値を有するレコードがあるか否か判定する(ステップS203)。具体的には、均等化処理部202は、未処理のレコードのうち、抽出したレコードの属性値全て(第1階層から第3階層まで)と完全に一致する属性値を有するレコードがあるか否か判定する。抽出したレコードの属性値全てと完全に一致する属性値を有するレコードがある場合(ステップS203−YES)、均等化処理部202は完全に一致する属性値を有するレコードに、比較を行ったレコードと同一のグループ番号を付与する(ステップS204)。
一方、抽出したレコードの属性値全てと完全に一致する属性値を有するレコードがない場合(ステップS203−NO)、又は、ステップS204の処理後、均等化処理部202はステップS202の処理で抽出したレコードと同一のグループ番号が付与されたレコードの個数がk以上あるか否か判定する(ステップS205)。同一のグループ番号が付与されたレコードの個数がk以上ある場合(ステップS205−YES)、均等化処理部202はグループ番号と、同一のグループに含まれるレコードの個数と、同一のグループに含まれるレコードの各階層の属性値を不図示のバッファ又はメモリに一時記憶する(ステップS206)。
その後、均等化処理部202は、未処理のレコードがあるか否か判定する(ステップS207)。未処理のレコードがない場合(ステップS207−NO)、均等化処理部202は第一均等化処理を終了する。
一方、未処理のレコードがある場合(ステップS207−YES)、均等化処理部202はステップS202以降の処理を繰り返し実行する。
また、ステップS205の処理において、同一のグループ番号が付与されたレコードの個数がk以上ない場合(ステップS205−NO)、均等化処理部202は当該グループにレコード個数を加算する(ステップS208)。具体的には、まず均等化処理部202は、結合条件定義を参照して、ステップS202の処理で抽出したレコードの属性値と結合可能な属性値を有しているレコードを未処理のレコードから抽出する。例えば、図3おいて、ステップS202の処理で抽出したレコードの属性値(例えば、第2階層“B1B1”)と、結合可能な属性値(例えば、第2階層“B1B2”)を有しているレコードを未処理のレコードから抽出する。そして、均等化処理部202は、抽出した未処理のレコード個数を、同一のグループ番号が付与されたレコード個数に加算する。
均等化処理部202は、加算の結果、レコードの個数がk以上であるか否か判定する(ステップS209)。レコードの個数がk以上である場合(ステップS209−YES)、均等化処理部202は加算結果に含まれるレコードのうち、k以上、かつ、グループ内のレコードの個数が最小値となる同一のグループ番号が付与されたレコードの属性値と、加算されたレコードの属性値との組み合わせを抽出する(ステップS210)。均等化処理部202は、抽出した組み合わせに含まれる加算されたレコードに、組み合わせに含まれるグループ番号が付与されたレコードと同一のグループ番号を付与する(ステップS211)。
その後、均等化処理部202は、グループ番号と、属性値間で結合を実施した階層よりも上の階層の属性値と、結合された全属性値と、を不図示のバッファ又はメモリに一時記憶する(ステップS212)。その後、ステップS207の処理が実行される。
また、ステップS209の処理において、レコードの個数がk以上ではない場合(ステップS209−NO)、均等化処理部202は1つ上の階層の属性値が同一である未処理のレコードに同一のグループ番号を付与する(ステップS213)。ここで、1つ上の階層とは、処理実行時には最下位階層(第3階層)を基準として1つ上の階層(第2階層)を表す。ただし、1つの処理において同じ処理を繰り返す度に基準となる階層が1つ上がる。つまり、2回目の処理では、中位階層(第2階層)を基準として1つ上の階層(第1階層)を表す。このように、1つ上の階層とは、処理の回数に応じて基準となった階層によって異なる。
その後、均等化処理部202は、ステップS202の処理で抽出したレコードと同一のグループ番号が付与されたレコードの個数がk以上あるか否か判定する(ステップS214)。同一のグループ番号が付与されたレコードの個数がk以上ない場合(ステップS214−NO)、均等化処理部202はステップS208以降の処理を実行する。
一方、同一のグループ番号が付与されたレコードの個数がk以上ある場合(ステップS214−YES)、均等化処理部202はグループ番号と、レコード個数と、レコード個数の判定を実施した最後の階層以上の各階層の属性値とを不図示のバッファ又はメモリに一時記憶する(ステップS215)。その後、ステップS207の処理が実行される。
図7は、グループ化装置20による第二均等化処理の流れを示すフローチャートである。なお、図5及び図6と同様の処理においては、図7において図5及び図6と同様の符号を付して説明を省略する。
ステップS205の処理において、同一のグループ番号が付与されたレコードの個数がk以上ない場合(ステップS205−NO)、均等化処理部202は1つ上の階層の属性値が同一である未処理のレコードの個数を、同一のグループ番号が付与されたレコード個数に加算する(ステップS301)。その後、均等化処理部202は、加算の結果、レコードの個数がk以上であるか否か判定する(ステップS302)。レコードの個数がk以上である場合(ステップS302−YES)、均等化処理部202はステップS210以降の処理を実行する。
一方、レコードの個数がk以上ではない場合(ステップS302−NO)、均等化処理部202はステップS301以降の処理を実行する。
図8は、グループ情報の具体例を示す図である。
図8に示すグループ情報は、第一均等化処理によって生成されたグループ情報を表す。図8において、グループ情報の最上段のレコードには、グループ“1”、グループ定義情報“AA1 B1B1+B1B2”、レコード数情報“5”の各値が登録されている。すなわち、グループ“1”には、第1階層が“AA1”であり、かつ、第2階層が“B1B1”であるレコード、又は、第1階層が“AA1”であり、かつ、第2階層が“B1B2”であるレコードを含むことが表されており、処理対象レコードのうちグループ定義情報の定義に該当するレコードの個数が“5”であることが表されている。図8に示すように、各グループのレコードの個数が5、5、5、4であり、k−匿名化における“k”を満たしていることが分かる。
このように構成されたグループ化装置20によれば、匿名性及び有用性の双方を保つことが可能になる。具体的には、グループ化装置20は、均等化処理により各グループに含まれるレコードの数を、予め指定された最小数を下回らないように均等にグループ化を行う。これにより、各グループのレコードの数を均等化することができる。また、グループ化装置20は、同一のグループ番号を付与したレコードの数が予め指定された最小数を下回る場合には、属性値に基づいてレコードを加算する。これにより、グループに含まれるレコードの個数が最小数を下回らないように処理がなされる。そのため、グループ化装置20は、データの有用性を維持しつつ、レコードの数を均等化することで匿名性を高めることが可能となる。
<変形例>
匿名化システム1は、非匿名化情報記憶部10、グループ情報記憶部30、匿名化情報記憶部50のいずれか一つ又は複数を備えないように構成されてもよい。この場合、各記憶部に相当する構成が、匿名化システム1の外部に設けられる。匿名化システム1に含まれる構成(グループ化装置20及び匿名化処理部40)は、匿名化システム1の外部に設けられた各記憶部に相当する構成とネットワークを介して通信し、記憶されている情報を取得する。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10…非匿名化情報記憶部, 20…グループ化装置, 30…グループ情報記憶部, 40…匿名化処理部, 50…匿名化情報記憶部, 201…条件情報取得部, 202…均等化処理部
本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードをグループ分けするグループ化装置が行うグループ化方法であって、前記グループ化装置が、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、を有し、前記複数のレコードは、階層化された情報によって構成され、前記グループ化装置が、前記均等化処理ステップにおいて、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるグループ化方法である。

Claims (7)

  1. 匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、
    を備え、
    前記複数のレコードは、階層化された情報によって構成され、
    前記均等化処理部は、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるグループ化装置。
  2. 前記均等化処理部は、加算の結果、前記最小限の数を満たした場合、前記加算の結果から前記最小限の数以上、かつ、前記グループ内のレコードの数が最小値となる組み合わせを抽出し、抽出した組み合わせを同一のグループとする、請求項1に記載のグループ化装置。
  3. 前記非匿名化情報に関する条件の定義を示す条件情報を取得する条件情報取得部をさらに備え、
    前記均等化処理部は、前記条件情報に基づいて前記複数のレコードを前記複数のグループに分ける、請求項1又は2に記載のグループ化装置。
  4. 前記条件情報は、一つの属性に関する各階層の各値に与えられる同一階層内で結合可能な他の値を示す情報であり、
    前記均等化処理部は、前記条件情報を参照して、グループに割り当てられているレコードの属性値と結合可能な属性値を有しているレコードを未処理のレコードし、抽出した未処理のレコードを前記レコードに加算することによって前記複数のレコードを前記複数のグループに分ける、請求項3に記載のグループ化装置。
  5. 前記均等化処理部は、処理の回数に応じて基準となった階層の1つ上の階層の属性値が同一である未処理のレコードを前記レコードに加算することによって前記複数のレコードを前記複数のグループに分ける、請求項1又は2に記載のグループ化装置。
  6. 匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、
    を有し、
    前記複数のレコードは、階層化された情報によって構成され、
    前記均等化処理ステップにおいて、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるグループ化方法。
  7. 匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、
    をコンピュータに実行させ、
    前記複数のレコードは、階層化された情報によって構成され、
    前記均等化処理ステップにおいて、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるためのコンピュータプログラム。
JP2016066646A 2016-03-29 2016-03-29 グループ化装置、グループ化方法及びコンピュータプログラム Active JP6148371B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016066646A JP6148371B1 (ja) 2016-03-29 2016-03-29 グループ化装置、グループ化方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016066646A JP6148371B1 (ja) 2016-03-29 2016-03-29 グループ化装置、グループ化方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP6148371B1 JP6148371B1 (ja) 2017-06-14
JP2017182342A true JP2017182342A (ja) 2017-10-05

Family

ID=59061261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016066646A Active JP6148371B1 (ja) 2016-03-29 2016-03-29 グループ化装置、グループ化方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6148371B1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169793A1 (en) * 2001-04-10 2002-11-14 Latanya Sweeney Systems and methods for deidentifying entries in a data source
US20070233711A1 (en) * 2006-04-04 2007-10-04 International Business Machines Corporation Method and apparatus for privacy preserving data mining by restricting attribute choice
US20070239982A1 (en) * 2005-10-13 2007-10-11 International Business Machines Corporation Method and apparatus for variable privacy preservation in data mining
WO2014006851A1 (ja) * 2012-07-02 2014-01-09 日本電気株式会社 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体
JP2014106691A (ja) * 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169793A1 (en) * 2001-04-10 2002-11-14 Latanya Sweeney Systems and methods for deidentifying entries in a data source
US20070239982A1 (en) * 2005-10-13 2007-10-11 International Business Machines Corporation Method and apparatus for variable privacy preservation in data mining
US20070233711A1 (en) * 2006-04-04 2007-10-04 International Business Machines Corporation Method and apparatus for privacy preserving data mining by restricting attribute choice
WO2014006851A1 (ja) * 2012-07-02 2014-01-09 日本電気株式会社 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体
JP2014106691A (ja) * 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
新井淳也 他: "クラスタリングと空間分割の併用による効率的なk−匿名化", 日本データベース学会和文論文誌, vol. 13, no. 1, JPN6017009742, October 2014 (2014-10-01), pages 72 - 77, ISSN: 0003556630 *
角野為耶 他: "滞在場所のk-匿名化法", 2014年度 人工知能学会 第28回全国大会論文集CD-ROM[CD-ROM], JPN6017009744, 15 May 2014 (2014-05-15), pages 1 - 4, ISSN: 0003556631 *

Also Published As

Publication number Publication date
JP6148371B1 (ja) 2017-06-14

Similar Documents

Publication Publication Date Title
JP5611852B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
US20180204123A1 (en) Application Recommending Method and Apparatus
KR102309375B1 (ko) 지식그래프 색인 방법 및 장치
JP2012003440A (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
CN108369584B (zh) 信息处理系统、描述符创建方法和描述符创建程序
JP2020501254A (ja) データストックを匿名化するための方法およびシステム
JP2016018379A (ja) プライバシー保護装置、方法及びプログラム
US8667008B2 (en) Search request control apparatus and search request control method
JP2017182508A (ja) 匿名化装置、匿名化方法及びコンピュータプログラム
JP6148371B1 (ja) グループ化装置、グループ化方法及びコンピュータプログラム
WO2014112045A1 (ja) 秘匿化データ生成方法及び装置
CN111666278B (zh) 数据存储、检索方法、电子设备及存储介质
US10169418B2 (en) Deriving a multi-pass matching algorithm for data de-duplication
WO2020136790A1 (ja) エッジシステム、情報処理方法及び情報処理プログラム
JP2012108699A (ja) 故障の木の最小カットセットを単純化する方法とシステム
JP7099316B2 (ja) 類似度演算装置、方法、およびプログラム
KR20160100224A (ko) 오디오 핑거프린트 데이터베이스 구축 및 오디오 핑거프린트 검색 방법 및 장치
JP2016148993A (ja) プライバシー保護装置、方法及びプログラム
US8136064B2 (en) Bijectively mapping character string to integer values in integrated circuit design data
CN109522915B (zh) 病毒文件聚类方法、装置及可读介质
US11494587B1 (en) Systems and methods for optimizing performance of machine learning model generation
JP2018055610A (ja) 匿名化装置、匿名化方法、およびプログラム
WO2014168199A1 (ja) 論理演算方法および情報処理装置
WO2021012211A1 (zh) 一种为数据建立索引的方法以及装置
KR101638048B1 (ko) 맵리듀스를 이용한 sql 질의처리방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170518

R150 Certificate of patent or registration of utility model

Ref document number: 6148371

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250