JP2017182342A - グループ化装置、グループ化方法及びコンピュータプログラム - Google Patents
グループ化装置、グループ化方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2017182342A JP2017182342A JP2016066646A JP2016066646A JP2017182342A JP 2017182342 A JP2017182342 A JP 2017182342A JP 2016066646 A JP2016066646 A JP 2016066646A JP 2016066646 A JP2016066646 A JP 2016066646A JP 2017182342 A JP2017182342 A JP 2017182342A
- Authority
- JP
- Japan
- Prior art keywords
- records
- group
- information
- equalization processing
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 53
- 238000004590 computer program Methods 0.000 title claims description 3
- 239000000284 extract Substances 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000001174 ascending effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、匿名化システム1のシステム構成を表すシステム構成図である。匿名化システム1は、非匿名化情報記憶部10、グループ化装置20、グループ情報記憶部30、匿名化処理部40及び匿名化情報記憶部50を備える。
非匿名化情報記憶部10は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。非匿名化情報記憶部10は、匿名化されていない情報(以下「非匿名化情報」という。)を記憶する。非匿名化情報は、少なくとも1つの属性を含む。以下、1つの属性が階層化されて表された情報のかたまりをレコードと呼ぶ。例えば、レコードは、第1階層から第3階層までの各値を有する。第1階層は最上位の階層を表し、第3階層は最下位の階層を表す。属性が銀行口座である場合を例に説明すると、第1階層は銀行名を表し、第2階層は支店名を表し、第3階層は口座種別番号を表す。非匿名化情報は、このようなレコードとして表されてもよい。なお、非匿名化情報記憶部10が記憶する情報の一部には、既に匿名化された情報が含まれていてもよい。
均等化処理部202は、非匿名化情報記憶部10から、匿名化処理の対象となる非匿名化情報の複数のレコード(以下、「処理対象レコード」という。)を取得する。均等化処理部202は、取得した処理対象レコードに基づいて均等化処理を実行する。均等化処理の実行によって、均等化処理部202は、取得した処理対象レコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける。均等化処理において、均等化処理部202は、各グループに含まれるレコードの数が、予め指定された最小数を下回らないようにグループ化を行う。最小数は、例えばk匿名化処理における“k”の値である。本実施形態では、“k”の値が4の場合について説明するが、“k”の値は自然数であれば他の値であってもよい。均等化処理部202は、均等化処理の結果を示す情報(以下「グループ情報」という。)をグループ情報記憶部30に記録する。グループ情報は、均等化処理によって生成された各グループに属するレコードを示す。グループ情報は、例えばグループ番号、各グループの定義を示す情報(以下「グループ定義情報」という。)と、各グループに属するレコードの個数を示す情報(以下「レコード数情報」という。)とを含む。
匿名化処理部40は、グループ情報記憶部30に記憶されているグループ情報に基づいて、非匿名化情報記憶部10に記憶されている非匿名化情報に対して匿名化処理を行う。例えば、匿名化処理部40は、各グループに属しているレコードの匿名化対象属性の値を、そのグループに属している各レコードの値を一般化することによって得られる値に置き換えることによって匿名化する。例えば、あるグループに属しているレコードの匿名化対象属性の値が“C1C1、C1C2、C1C3、C2C1、C2C2”である場合に、“C1C1、C1C2、C1C3”を一つ上に一般化した値“B1B1”と、“C2C1、C2C2”を一つ上に一般化した値“B1B2”に置き換えたとする。ここで、k=4である場合、“B1B1”の数は3つであり、“B1B2”の数は2つであるため、k匿名性を満たさない。そこで、匿名化処理部40は、グループ情報に含まれるグループ定義情報に従って“B1B1+B1B2”をさらに一般化した値に置き換えることによって匿名化処理を行う。匿名化処理部40は、このような匿名化処理の実行によって、非匿名化情報の匿名化対象属性の値が匿名化された情報(以下「匿名化情報」という。)を生成する。
図2に示されるように処理対象レコードには、1つの属性における非匿名化情報の複数のレコードが含まれる。図2では、19個のレコードが処理対象レコードに含まれる。図2において、NOの値は処理対象レコードに含まれるレコードの昇順を表し、属性値の値は匿名化対象属性の階層化された情報を表す。属性値の具体例として、各レコードには第1階層から第3階層までの値が含まれる。
また、図2において、非匿名化情報の2段目のレコードは、NOの値が“2”、第1階層の値が“AA1”、第2階層の値が“B1B1”、第3階層の値が“C1C2”である。すなわち、2段目のレコードには、第1階層に“AA1”の値が含まれ、第2階層に“B1B1”の値が含まれ、第3階層に“C1C2”の値が含まれることが表されている。
図3では、結合条件定義の一例として第2階層の各値に与えられる同一階層内で結合可能な他の値を示す情報が示されている。図3において、結合条件定義の最上段のレコードは、第2階層の値が“B1B1”、結合可能属性値の値が“B1B2”である。すなわち、属性値“B1B1”と、属性値“B1B2”とが結合可能であることが表されている。
また、図3において、結合条件定義の2段目のレコードは、第2階層の値が“B1B2”、結合可能属性値の値が“B1B1、B1B3及びB1B4”である。すなわち、属性値“B1B2”と、属性値“B1B1、B1B3及びB1B4”とが結合可能であることが表されている。
均等化処理部202は、処理対象レコードを、匿名化対象属性の値(匿名化処理の対象となっている第1階層から第3階層までの値を含む)に基づいて昇順にソートする(ステップS201)。これにより、処理対象レコードに第1階層から第3階層までの値が同一のレコードが複数ある場合には、第1階層から第3階層までの値が同一のレコードが連番になる。次に、均等化処理部202は、処理対象レコードのうち未処理のレコードを抽出する(ステップS202)。ここで、未処理のレコードとは、グループ番号が付与されていないレコードを表す。例えば、均等化処理部202は、未処理のレコードのうちソート後の番号(図2におけるNO)が最も小さいレコードを抽出する。この際、均等化処理部202は、抽出したレコードにグループ番号を付与する。なお、均等化処理部202は、ステップS202の処理を行う度に異なるグループ番号を付与する。
一方、未処理のレコードがある場合(ステップS207−YES)、均等化処理部202はステップS202以降の処理を繰り返し実行する。
また、ステップS209の処理において、レコードの個数がk以上ではない場合(ステップS209−NO)、均等化処理部202は1つ上の階層の属性値が同一である未処理のレコードに同一のグループ番号を付与する(ステップS213)。ここで、1つ上の階層とは、処理実行時には最下位階層(第3階層)を基準として1つ上の階層(第2階層)を表す。ただし、1つの処理において同じ処理を繰り返す度に基準となる階層が1つ上がる。つまり、2回目の処理では、中位階層(第2階層)を基準として1つ上の階層(第1階層)を表す。このように、1つ上の階層とは、処理の回数に応じて基準となった階層によって異なる。
一方、同一のグループ番号が付与されたレコードの個数がk以上ある場合(ステップS214−YES)、均等化処理部202はグループ番号と、レコード個数と、レコード個数の判定を実施した最後の階層以上の各階層の属性値とを不図示のバッファ又はメモリに一時記憶する(ステップS215)。その後、ステップS207の処理が実行される。
ステップS205の処理において、同一のグループ番号が付与されたレコードの個数がk以上ない場合(ステップS205−NO)、均等化処理部202は1つ上の階層の属性値が同一である未処理のレコードの個数を、同一のグループ番号が付与されたレコード個数に加算する(ステップS301)。その後、均等化処理部202は、加算の結果、レコードの個数がk以上であるか否か判定する(ステップS302)。レコードの個数がk以上である場合(ステップS302−YES)、均等化処理部202はステップS210以降の処理を実行する。
一方、レコードの個数がk以上ではない場合(ステップS302−NO)、均等化処理部202はステップS301以降の処理を実行する。
図8に示すグループ情報は、第一均等化処理によって生成されたグループ情報を表す。図8において、グループ情報の最上段のレコードには、グループ“1”、グループ定義情報“AA1 B1B1+B1B2”、レコード数情報“5”の各値が登録されている。すなわち、グループ“1”には、第1階層が“AA1”であり、かつ、第2階層が“B1B1”であるレコード、又は、第1階層が“AA1”であり、かつ、第2階層が“B1B2”であるレコードを含むことが表されており、処理対象レコードのうちグループ定義情報の定義に該当するレコードの個数が“5”であることが表されている。図8に示すように、各グループのレコードの個数が5、5、5、4であり、k−匿名化における“k”を満たしていることが分かる。
匿名化システム1は、非匿名化情報記憶部10、グループ情報記憶部30、匿名化情報記憶部50のいずれか一つ又は複数を備えないように構成されてもよい。この場合、各記憶部に相当する構成が、匿名化システム1の外部に設けられる。匿名化システム1に含まれる構成(グループ化装置20及び匿名化処理部40)は、匿名化システム1の外部に設けられた各記憶部に相当する構成とネットワークを介して通信し、記憶されている情報を取得する。
Claims (7)
- 匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、
を備え、
前記複数のレコードは、階層化された情報によって構成され、
前記均等化処理部は、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるグループ化装置。 - 前記均等化処理部は、加算の結果、前記最小限の数を満たした場合、前記加算の結果から前記最小限の数以上、かつ、前記グループ内のレコードの数が最小値となる組み合わせを抽出し、抽出した組み合わせを同一のグループとする、請求項1に記載のグループ化装置。
- 前記非匿名化情報に関する条件の定義を示す条件情報を取得する条件情報取得部をさらに備え、
前記均等化処理部は、前記条件情報に基づいて前記複数のレコードを前記複数のグループに分ける、請求項1又は2に記載のグループ化装置。 - 前記条件情報は、一つの属性に関する各階層の各値に与えられる同一階層内で結合可能な他の値を示す情報であり、
前記均等化処理部は、前記条件情報を参照して、グループに割り当てられているレコードの属性値と結合可能な属性値を有しているレコードを未処理のレコードし、抽出した未処理のレコードを前記レコードに加算することによって前記複数のレコードを前記複数のグループに分ける、請求項3に記載のグループ化装置。 - 前記均等化処理部は、処理の回数に応じて基準となった階層の1つ上の階層の属性値が同一である未処理のレコードを前記レコードに加算することによって前記複数のレコードを前記複数のグループに分ける、請求項1又は2に記載のグループ化装置。
- 匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、
を有し、
前記複数のレコードは、階層化された情報によって構成され、
前記均等化処理ステップにおいて、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるグループ化方法。 - 匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、
をコンピュータに実行させ、
前記複数のレコードは、階層化された情報によって構成され、
前記均等化処理ステップにおいて、前記複数のレコードにおいて階層化された各情報が一致するレコードを同一のグループに割り当て、一つのグループに含まれるレコードの数の最小限の数を満たさないグループがある場合には前記グループに対して前記グループと階層化された情報が類似する未処理のレコードを加算することによって前記複数のレコードを前記複数のグループに分けるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016066646A JP6148371B1 (ja) | 2016-03-29 | 2016-03-29 | グループ化装置、グループ化方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016066646A JP6148371B1 (ja) | 2016-03-29 | 2016-03-29 | グループ化装置、グループ化方法及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6148371B1 JP6148371B1 (ja) | 2017-06-14 |
JP2017182342A true JP2017182342A (ja) | 2017-10-05 |
Family
ID=59061261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016066646A Active JP6148371B1 (ja) | 2016-03-29 | 2016-03-29 | グループ化装置、グループ化方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6148371B1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169793A1 (en) * | 2001-04-10 | 2002-11-14 | Latanya Sweeney | Systems and methods for deidentifying entries in a data source |
US20070233711A1 (en) * | 2006-04-04 | 2007-10-04 | International Business Machines Corporation | Method and apparatus for privacy preserving data mining by restricting attribute choice |
US20070239982A1 (en) * | 2005-10-13 | 2007-10-11 | International Business Machines Corporation | Method and apparatus for variable privacy preservation in data mining |
WO2014006851A1 (ja) * | 2012-07-02 | 2014-01-09 | 日本電気株式会社 | 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体 |
JP2014106691A (ja) * | 2012-11-27 | 2014-06-09 | Fujitsu Ltd | 匿名化処理方法及び装置 |
-
2016
- 2016-03-29 JP JP2016066646A patent/JP6148371B1/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169793A1 (en) * | 2001-04-10 | 2002-11-14 | Latanya Sweeney | Systems and methods for deidentifying entries in a data source |
US20070239982A1 (en) * | 2005-10-13 | 2007-10-11 | International Business Machines Corporation | Method and apparatus for variable privacy preservation in data mining |
US20070233711A1 (en) * | 2006-04-04 | 2007-10-04 | International Business Machines Corporation | Method and apparatus for privacy preserving data mining by restricting attribute choice |
WO2014006851A1 (ja) * | 2012-07-02 | 2014-01-09 | 日本電気株式会社 | 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体 |
JP2014106691A (ja) * | 2012-11-27 | 2014-06-09 | Fujitsu Ltd | 匿名化処理方法及び装置 |
Non-Patent Citations (2)
Title |
---|
新井淳也 他: "クラスタリングと空間分割の併用による効率的なk−匿名化", 日本データベース学会和文論文誌, vol. 13, no. 1, JPN6017009742, October 2014 (2014-10-01), pages 72 - 77, ISSN: 0003556630 * |
角野為耶 他: "滞在場所のk-匿名化法", 2014年度 人工知能学会 第28回全国大会論文集CD-ROM[CD-ROM], JPN6017009744, 15 May 2014 (2014-05-15), pages 1 - 4, ISSN: 0003556631 * |
Also Published As
Publication number | Publication date |
---|---|
JP6148371B1 (ja) | 2017-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5611852B2 (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
US20180204123A1 (en) | Application Recommending Method and Apparatus | |
KR102309375B1 (ko) | 지식그래프 색인 방법 및 장치 | |
JP2012003440A (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
CN108369584B (zh) | 信息处理系统、描述符创建方法和描述符创建程序 | |
JP2020501254A (ja) | データストックを匿名化するための方法およびシステム | |
JP2016018379A (ja) | プライバシー保護装置、方法及びプログラム | |
US8667008B2 (en) | Search request control apparatus and search request control method | |
JP2017182508A (ja) | 匿名化装置、匿名化方法及びコンピュータプログラム | |
JP6148371B1 (ja) | グループ化装置、グループ化方法及びコンピュータプログラム | |
WO2014112045A1 (ja) | 秘匿化データ生成方法及び装置 | |
CN111666278B (zh) | 数据存储、检索方法、电子设备及存储介质 | |
US10169418B2 (en) | Deriving a multi-pass matching algorithm for data de-duplication | |
WO2020136790A1 (ja) | エッジシステム、情報処理方法及び情報処理プログラム | |
JP2012108699A (ja) | 故障の木の最小カットセットを単純化する方法とシステム | |
JP7099316B2 (ja) | 類似度演算装置、方法、およびプログラム | |
KR20160100224A (ko) | 오디오 핑거프린트 데이터베이스 구축 및 오디오 핑거프린트 검색 방법 및 장치 | |
JP2016148993A (ja) | プライバシー保護装置、方法及びプログラム | |
US8136064B2 (en) | Bijectively mapping character string to integer values in integrated circuit design data | |
CN109522915B (zh) | 病毒文件聚类方法、装置及可读介质 | |
US11494587B1 (en) | Systems and methods for optimizing performance of machine learning model generation | |
JP2018055610A (ja) | 匿名化装置、匿名化方法、およびプログラム | |
WO2014168199A1 (ja) | 論理演算方法および情報処理装置 | |
WO2021012211A1 (zh) | 一种为数据建立索引的方法以及装置 | |
KR101638048B1 (ko) | 맵리듀스를 이용한 sql 질의처리방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170321 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170518 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6148371 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |