JP6148370B1 - Grouping device, grouping method, and computer program - Google Patents

Grouping device, grouping method, and computer program Download PDF

Info

Publication number
JP6148370B1
JP6148370B1 JP2016066129A JP2016066129A JP6148370B1 JP 6148370 B1 JP6148370 B1 JP 6148370B1 JP 2016066129 A JP2016066129 A JP 2016066129A JP 2016066129 A JP2016066129 A JP 2016066129A JP 6148370 B1 JP6148370 B1 JP 6148370B1
Authority
JP
Japan
Prior art keywords
records
group
information
record
equalization processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016066129A
Other languages
Japanese (ja)
Other versions
JP2017182304A (en
Inventor
優一 真田
優一 真田
悠佑 榎本
悠佑 榎本
柳本 清
清 柳本
浩 鞍留
浩 鞍留
寛 寺門
寛 寺門
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone West Corp
Priority to JP2016066129A priority Critical patent/JP6148370B1/en
Application granted granted Critical
Publication of JP6148370B1 publication Critical patent/JP6148370B1/en
Publication of JP2017182304A publication Critical patent/JP2017182304A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】匿名性及び有用性の双方を保つこと。【解決手段】匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、を備え、複数のレコードは、時系列の情報によって構成され、均等化処理部は、レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、複数のレコードのうち未処理のレコードを複数のグループに分けるグループ化装置。【選択図】図1An object of the present invention is to maintain both anonymity and usefulness. An equalization processing unit that divides a plurality of records that are non-anonymized information having non-anonymized attribute values into a plurality of groups so that the number of records included in each group is equalized. The plurality of records are configured by time-series information, and the equalization processing unit is based on one or a plurality of groups including a record serving as a group reference determined from the records. A grouping device that divides unprocessed records into groups. [Selection] Figure 1

Description

本発明は、情報の匿名化技術に関する。   The present invention relates to information anonymization technology.

従来、多くの情報をビッグデータとして収集し、それらを解析することによって新たな情報を取得することが行われている。ビッグデータには、個人の情報などそのままでは解析にかけることができない情報も含まれている。そのため、収集された情報を二次利用することが可能となるように、収集された情報に対して匿名化処理が行われている。   Conventionally, a lot of information is collected as big data, and new information is acquired by analyzing them. Big data also includes information that cannot be directly analyzed, such as personal information. Therefore, anonymization processing is performed on the collected information so that the collected information can be secondarily used.

特開2015−046030号公報JP, 2015-046030, A

しかしながら、従来の匿名化処理では匿名性及び有用性のバランスを適切に保つことが困難であった。   However, it has been difficult to keep the balance between anonymity and usefulness appropriately in the conventional anonymization process.

上記事情に鑑み、本発明は、匿名性及び有用性の双方を保つことが可能な匿名化技術を提供することを目的としている。   In view of the above circumstances, an object of the present invention is to provide an anonymization technique capable of maintaining both anonymity and usefulness.

本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、を備え、前記複数のレコードは、時系列の情報によって構成され、前記均等化処理部は、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けるグループ化装置である。   One aspect of the present invention is an equalization process in which a plurality of records that are non-anonymized information having non-anonymized attribute values are divided into a plurality of groups so that the number of records included in each group is equalized. The plurality of records are configured by time-series information, and the equalization processing unit is based on one or a plurality of groups including a record serving as a group reference determined from the records. The grouping device divides unprocessed records among the plurality of records into a plurality of groups.

本発明の一態様は、上記のグループ化装置であって、前記均等化処理部は、前記未処理のレコードと前記グループに含まれるレコードとを用いて、各組み合わせにおける2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の平均値をグループ毎に算出し、前記未処理のレコードを前記平均値が最小のグループに分ける。   One aspect of the present invention is the grouping device described above, in which the equalization processing unit uses the unprocessed records and the records included in the group to make a time series between two records in each combination. For each group, the average value of the inter-record distance is calculated by using the difference between the information as the distance in the vector space having the time data values constituting the time-series data as vector elements, and the unprocessed records are calculated as the average. Divide into groups with the smallest value.

本発明の一態様は、上記のグループ化装置であって、前記均等化処理部は、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定する。   One aspect of the present invention is the grouping device described above, wherein the equalization processing unit is an optimum obtained based on the plurality of records and a minimum number of records included in one group. All combinations of the number of groups are created, and in each created combination, the time-series information difference between two records is calculated as the distance in the vector space having the time data values constituting the time-series data as vector elements. The total value of the inter-record distances is calculated, and the combination having the maximum calculated total value is determined as a record serving as a reference for the group.

本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードをグループ分けするグループ化装置が行うグループ化方法であって、前記グループ化装置が、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、を有し、前記複数のレコードは、時系列の情報によって構成され、前記グループ化装置が、前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、前記グループ化装置が、前記均等化処理ステップにおいて、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するグループ化方法である。 One aspect of the present invention is a grouping method performed by a grouping device that groups a plurality of records that are non-anonymized information having non-anonymized attribute values, wherein the grouping device is anonymized A plurality of records that are non-anonymized information having a value of an attribute that has not been performed, and an equalization processing step for dividing the plurality of records into a plurality of groups so that the number of records included in each group is equalized, The record is composed of time-series information, and the grouping device , based on one or a plurality of groups including a record serving as a group reference determined from the records in the equalization processing step, the unprocessed record among the plurality of records is divided into a plurality of groups, the grouping device has, in the equalization process step, the double All the combinations of the optimal number of groups obtained based on the records and the minimum number of records included in one group are created, and time-series information between two records is created for each created combination. The total value of the distance between records is calculated using the difference as the distance in the vector space having the time data values constituting the time series data as vector elements, and the combination with the maximum calculated total value is used as the reference of the group. it is a grouping method that determine the record to be.

本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、をコンピュータに実行させ、前記複数のレコードは、時系列の情報によって構成され、前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けるためのコンピュータプログラムである。   One aspect of the present invention is an equalization process in which a plurality of records that are non-anonymized information having non-anonymized attribute values are divided into a plurality of groups so that the number of records included in each group is equalized. And the plurality of records are configured by time-series information, and in the equalization processing step, one or a plurality of groups including a record serving as a group reference determined from the records And a computer program for dividing unprocessed records among the plurality of records into a plurality of groups.

本発明により、匿名性及び有用性の双方を保つことが可能になる。   The present invention makes it possible to maintain both anonymity and usefulness.

匿名化システム1のシステム構成を表すシステム構成図である。1 is a system configuration diagram illustrating a system configuration of an anonymization system 1. FIG. 処理対象レコードの具体例を示す図である。It is a figure which shows the specific example of a process target record. グループ化装置20の処理の流れを示すフローチャートである。4 is a flowchart showing a flow of processing of the grouping device 20. グループ化装置20の処理の流れを示すフローチャートである。4 is a flowchart showing a flow of processing of the grouping device 20. グループ情報の具体例を示す図である。It is a figure which shows the specific example of group information.

以下、本発明の一実施形態を、図面を参照しながら説明する。
図1は、匿名化システム1のシステム構成を表すシステム構成図である。匿名化システム1は、非匿名化情報記憶部10、グループ化装置20、グループ情報記憶部30、匿名化処理部40及び匿名化情報記憶部50を備える。
非匿名化情報記憶部10は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。非匿名化情報記憶部10は、匿名化されていない情報(以下「非匿名化情報」という。)を記憶する。非匿名化情報は、少なくとも1つの属性を含む。以下、1つの属性が時系列のデータとして表された情報のかたまりをレコードと呼ぶ。例えば、ユーザの在不在を表すレコードは、各曜日の時間帯の値(例えば、曜日・AM/曜日・PM)を有する。以下、各曜日の各時間帯(AM又はPM)をそれぞれ時間データと記載する。つまり、レコードは、複数の時間データで構成される。なお、ここでは、時間データが各曜日の各時間帯(AM又はPM)の値である一例を示したが、時間データは各曜日の各時刻の値であってもよい。非匿名化情報は、このようなレコードとして表されてもよい。なお、非匿名化情報記憶部10が記憶する情報の一部には、既に匿名化された情報が含まれていてもよい。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a system configuration diagram illustrating a system configuration of the anonymization system 1. The anonymization system 1 includes a non-anonymization information storage unit 10, a grouping device 20, a group information storage unit 30, an anonymization processing unit 40, and an anonymization information storage unit 50.
The non-anonymized information storage unit 10 is configured using a storage device such as a magnetic hard disk device or a semiconductor storage device. The non-anonymized information storage unit 10 stores information that is not anonymized (hereinafter referred to as “non-anonymized information”). The non-anonymized information includes at least one attribute. Hereinafter, a group of information in which one attribute is represented as time-series data is referred to as a record. For example, a record indicating the presence / absence of a user has a value of a time zone of each day of the week (for example, day of the week / AM / day of the week / PM). Hereinafter, each time zone (AM or PM) of each day of the week is described as time data. That is, the record is composed of a plurality of time data. Here, an example is shown in which the time data is the value of each time zone (AM or PM) of each day of the week, but the time data may be the value of each time of the day of the week. Non-anonymized information may be represented as such a record. Note that information already anonymized may be included in part of the information stored in the non-anonymized information storage unit 10.

非匿名化情報記憶部10は、さらに条件情報を記憶する。条件情報は、非匿名化情報に関する条件の定義を示す情報である。条件情報の具体例として、連結定義がある。連結定義は、個々の数値情報をレコードに連結するための定義を示す情報である。   The non-anonymized information storage unit 10 further stores condition information. Condition information is information which shows the definition of the conditions regarding non-anonymization information. A specific example of the condition information is a connection definition. The connection definition is information indicating a definition for connecting individual numerical information to a record.

グループ化装置20は、非匿名化情報記憶部10に記憶される非匿名化情報のうち、匿名化の対象となっている属性(以下「匿名化対象属性」という。)の複数のレコードを、複数のグループに分類する。グループ化装置20は、メインフレームやワークステーションやパーソナルコンピュータなどの情報処理装置を用いて構成される。グループ化装置20は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備える。グループ化装置20は、グループ化プログラムを実行することによって、条件情報取得部201及び均等化処理部202を備える装置として機能する。なお、グループ化装置20の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。   The grouping apparatus 20 includes a plurality of records of attributes (hereinafter referred to as “anonymization target attributes”) that are anonymization targets among the non-anonymization information stored in the non-anonymization information storage unit 10. Classify into multiple groups. The grouping device 20 is configured using an information processing device such as a mainframe, a workstation, or a personal computer. The grouping device 20 includes a CPU (Central Processing Unit), a memory, an auxiliary storage device, and the like connected by a bus. The grouping device 20 functions as a device including a condition information acquisition unit 201 and an equalization processing unit 202 by executing a grouping program. All or some of the functions of the grouping device 20 may be realized by using hardware such as an application specific integrated circuit (ASIC), a programmable logic device (PLD), and a field programmable gate array (FPGA). .

条件情報取得部201は、非匿名化情報記憶部10から、匿名化対象属性に関する条件情報を取得する。条件情報取得部201は、取得した条件情報を均等化処理部202に出力する。
均等化処理部202は、非匿名化情報記憶部10から、匿名化処理の対象となる非匿名化情報の複数のレコード(以下、「処理対象レコード」という。)を取得する。均等化処理部202は、取得した処理対象レコードに基づいて均等化処理を実行する。均等化処理の実行によって、均等化処理部202は、取得した処理対象レコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける。均等化処理において、均等化処理部202は、各グループに含まれるレコードの数が、予め指定された最小数を下回らないようにグループ化を行う。最小数は、例えばk匿名化処理における“k”の値である。本実施形態では、“k”の値が4の場合について説明するが、“k”の値は自然数であれば他の値であってもよい。均等化処理部202は、均等化処理の結果を示す情報(以下「グループ情報」という。)をグループ情報記憶部30に記録する。グループ情報は、均等化処理によって生成された各グループに属するレコードを示す。グループ情報は、例えばグループ番号、各グループの定義を示す情報(以下「グループ定義情報」という。)と、各グループに属するレコードの個数を示す情報(以下「レコード数情報」という。)とを含む。
The condition information acquisition unit 201 acquires condition information related to the anonymization target attribute from the non-anonymization information storage unit 10. The condition information acquisition unit 201 outputs the acquired condition information to the equalization processing unit 202.
The equalization processing unit 202 acquires, from the non-anonymized information storage unit 10, a plurality of records of non-anonymized information (hereinafter referred to as “processing target records”) that are targets of the anonymization process. The equalization processing unit 202 executes equalization processing based on the acquired processing target record. By performing the equalization process, the equalization processing unit 202 divides the acquired records to be processed into a plurality of groups so that the number of records included in each group is equalized. In the equalization process, the equalization processing unit 202 performs grouping so that the number of records included in each group does not fall below a predetermined minimum number. The minimum number is, for example, the value of “k” in the k anonymization process. In this embodiment, the case where the value of “k” is 4 will be described. However, the value of “k” may be another value as long as it is a natural number. The equalization processing unit 202 records information indicating the result of the equalization processing (hereinafter referred to as “group information”) in the group information storage unit 30. The group information indicates records belonging to each group generated by the equalization process. The group information includes, for example, a group number, information indicating the definition of each group (hereinafter referred to as “group definition information”), and information indicating the number of records belonging to each group (hereinafter referred to as “record number information”). .

グループ情報記憶部30は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。グループ情報記憶部30は、グループ化装置20によって生成されたグループ情報を記憶する。
匿名化処理部40は、グループ情報記憶部30に記憶されているグループ情報に基づいて、非匿名化情報記憶部10に記憶されている非匿名化情報に対して匿名化処理を行う。例えば、匿名化処理部40は、各グループに属しているレコードの匿名化対象属性の値を、そのグループに属している各レコードの値を一般化することによって得られる値に置き換えることによって匿名化する。例えば、あるグループに属しているレコードの匿名化対象属性の値が10,11,13,14である場合、範囲を示す“10−15”という値や、中央値又は平均値を示す“12”という値などに置き換えることによって匿名化処理が行われる。また、例えば、匿名化処理部40は、各グループに属しているレコードの匿名化対象属性の各値(各時間データの値)のいずれかを欠落させる、つまりある時間帯の情報を欠落させることによって匿名化処理を行う。匿名化処理部40は、このような匿名化処理の実行によって、非匿名化情報の匿名化対象属性の値が匿名化された情報(以下「匿名化情報」という。)を生成する。
The group information storage unit 30 is configured using a storage device such as a magnetic hard disk device or a semiconductor storage device. The group information storage unit 30 stores group information generated by the grouping device 20.
The anonymization processing unit 40 performs anonymization processing on the non-anonymization information stored in the non-anonymization information storage unit 10 based on the group information stored in the group information storage unit 30. For example, the anonymization processing unit 40 anonymizes by replacing the value of the anonymization target attribute of the record belonging to each group with the value obtained by generalizing the value of each record belonging to the group To do. For example, when the value of the anonymization target attribute of a record belonging to a certain group is 10, 11, 13, 14, a value “10-15” indicating a range, or “12” indicating a median value or an average value Anonymization processing is performed by substituting with a value such as. Also, for example, the anonymization processing unit 40 causes one of the values of the anonymization target attribute (value of each time data) of the records belonging to each group to be lost, that is, to delete information in a certain time zone. The anonymization process is performed. The anonymization process part 40 produces | generates the information (henceforth "anonymization information") by which the value of the anonymization object attribute of non-anonymization information was anonymized by execution of such anonymization process.

図2は、処理対象レコードの具体例を示す図である。
図2に示されるように処理対象レコードには、1つの属性における非匿名化情報の複数のレコードが含まれる。図2では、23個のレコードが処理対象レコードに含まれる。図2では、レコード毎に、各曜日と各曜日のある時間帯(例えば、AM、PM)におけるユーザの在不在が表されている。つまり、1つのレコードは、14次元の情報を有している。そして、レコードの“1”はユーザがその時間帯にいたことを表し、レコードの“0”はユーザがその時間帯にいなかったことを表す。
FIG. 2 is a diagram illustrating a specific example of the processing target record.
As shown in FIG. 2, the processing target record includes a plurality of records of non-anonymized information in one attribute. In FIG. 2, 23 records are included in the processing target record. In FIG. 2, the presence or absence of a user in a certain time zone (for example, AM, PM) of each day of the week and each day of the week is represented for each record. That is, one record has 14-dimensional information. The record “1” indicates that the user was in that time zone, and the record “0” indicates that the user was not in that time zone.

図2において、処理対象レコードの最上段のレコードは、NOの値が“1”、月AMの値が“1”、月PMの値が“0”、火AMの値が“1”、火PMの値が“0”、・・・、土AMの値が“0”、土PMの値が“0”、日AMの値が“0”、日PMの値が“0”である。すなわち、最上段のレコードには、NO“1”のレコードで識別されるユーザが、月AMと火AMにいたことが表されており、月PMと火PMと土AMと土PMにいなかったことが表されている。   In FIG. 2, the uppermost record of the records to be processed has a NO value of “1”, a month AM value of “1”, a month PM value of “0”, a fire AM value of “1”, The value of PM is “0”,..., The value of soil AM is “0”, the value of soil PM is “0”, the value of day AM is “0”, and the value of day PM is “0”. That is, the top record shows that the user identified by the record of “1” is in the moon AM and the fire AM, and is not in the moon PM, the fire PM, the soil AM, and the soil PM. It is expressed.

図3及び図4は、グループ化装置20の処理の流れを示すフローチャートである。なお、図3及び4の処理開始時には、まず均等化処理部202は、処理対象レコードを用いて、グループ内でレコード数をk個(例えば、4個)にするための最適なグループ数を算出する(ステップS101)。具体的には、均等化処理部202は、抽出した処理対象レコード数をkで除算することによって得られた値を最適なグループ数とする。ここで、図2を例に説明すると、処理対象レコードが23個であり、kが4であるとすると、最適なグループ数は5となる。   3 and 4 are flowcharts showing the flow of processing of the grouping apparatus 20. 3 and 4, the equalization processing unit 202 first calculates the optimum number of groups for setting the number of records to k (for example, 4) within the group using the processing target records. (Step S101). Specifically, the equalization processing unit 202 sets the value obtained by dividing the extracted number of records to be processed by k as the optimum number of groups. Here, referring to FIG. 2 as an example, if there are 23 records to be processed and k is 4, the optimum number of groups is 5.

次に、均等化処理部202は、処理対象レコードから、算出した最適なグループ数分のレコードを選択して、作成可能な組み合わせを全て作成する(ステップS102)。ここで、最適なグループ数を5として図2を例に説明すると、23個のレコードから、各グループの基準となるレコード(以下、「基準レコード」という。)を選択するための組み合わせ数は、23=33649通りとなる。 Next, the equalization processing unit 202 selects records for the calculated optimum number of groups from the processing target records, and creates all possible combinations (step S102). Here, when the optimum number of groups is set to 5 and FIG. 2 is described as an example, the number of combinations for selecting a record (hereinafter referred to as “reference record”) as a reference for each group from 23 records is as follows. 23 C 5 = 33649.

次に、均等化処理部202は、全ての組み合わせにおいて2レコード間距離の合計値と、2レコード間距離の標準偏差を算出する(ステップS103)。2レコード間距離は、例えば、マンハッタン距離を用いて算出される。なお、2レコード間距離は、マンハッタン距離に限定される必要はなく、例えば2レコード間の時系列情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離を算出可能な方法であればどのような方法が用いられてもよい。上記の例の場合、各組み合わせは5個のレコードにより構成されるため、組み合わせ毎に=10通りの2レコード間距離の合計値と、2レコード間距離の標準偏差とが算出される。均等化処理部202は、組み合わせ内の2つのレコード間で同一の時間帯の情報に基づいて2レコード間距離の合計値と、2レコード間距離の標準偏差を算出する。均等化処理部202は、2レコード間距離の合計値が最大となる組み合わせを選択する(ステップS104)。均等化処理部202は、選択した組み合わせが一通りであるか否か判定する(ステップS105)。組み合わせが一通りである場合(ステップS105−YES)、均等化処理部202は選択した組み合わせに含まれる各レコードを基準レコードに決定する(ステップS106)。 Next, the equalization processing unit 202 calculates the total value of the distance between the two records and the standard deviation of the distance between the two records in all combinations (step S103). The distance between two records is calculated using, for example, the Manhattan distance. Note that the distance between two records does not need to be limited to the Manhattan distance. For example, in a vector space in which the time series information difference between two records is a vector element with the value of each time data constituting the time series data. Any method that can calculate the distance may be used. In the case of the above example, since each combination is composed of five records, a total value of distances between two records of 5 C 2 = 10 and a standard deviation of distances between two records are calculated for each combination. . The equalization processing unit 202 calculates the total value of the distance between the two records and the standard deviation of the distance between the two records based on the information of the same time zone between the two records in the combination. The equalization processing unit 202 selects a combination that maximizes the total value of the distances between two records (step S104). The equalization processing unit 202 determines whether or not the selected combination is one (step S105). When there is one combination (step S105—YES), the equalization processing unit 202 determines each record included in the selected combination as a reference record (step S106).

一方、組み合わせが一通りではない場合(ステップS105−NO)、均等化処理部202は2レコード間距離の標準偏差が最小となる組み合わせを選択する(ステップS107)。均等化処理部202は、選択した組み合わせに含まれる各レコードを基準レコードに決定する(ステップS106)。その後、均等化処理部202は、各基準レコードに異なるグループ番号を付与する(ステップS108)。   On the other hand, when there is not one combination (NO in step S105), the equalization processing unit 202 selects a combination that minimizes the standard deviation of the distance between two records (step S107). The equalization processing unit 202 determines each record included in the selected combination as a reference record (step S106). Thereafter, the equalization processing unit 202 assigns a different group number to each reference record (step S108).

均等化処理部202は、処理対象レコードのうち未処理のレコードを抽出する(ステップS109)。ここで、未処理のレコードとは、グループ番号が付与されていないレコードを表す。例えば、均等化処理部202は、未処理のレコードのうち番号(図2におけるNO)が最も小さいレコードを抽出する。均等化処理部202は、レコード数がk未満のグループが0であるか否か判定する(ステップS110)。レコード数がk未満のグループが0である場合(ステップS110−YES)、均等化処理部202は各グループで、ステップS109の処理で抽出したレコードを含めて2レコード間距離の平均値を算出する(ステップS111)。均等化処理部202は、平均値が最小となるグループのグループ番号を、ステップS109の処理で抽出したレコードに付与する(ステップS112)。   The equalization processing unit 202 extracts unprocessed records from the processing target records (step S109). Here, an unprocessed record represents a record to which no group number is assigned. For example, the equalization processing unit 202 extracts the record with the smallest number (NO in FIG. 2) from the unprocessed records. The equalization processing unit 202 determines whether or not the group having the number of records less than k is 0 (step S110). When the number of records having less than k is 0 (step S110-YES), the equalization processing unit 202 calculates the average value of the distance between two records including the records extracted in the process of step S109 for each group. (Step S111). The equalization processing unit 202 assigns the group number of the group having the minimum average value to the record extracted in the process of step S109 (step S112).

均等化処理部202は、処理対象レコードのうち未処理のレコードがあるか否か判定する(ステップS113)。未処理のレコードがある場合(ステップS113−YES)、均等化処理部202はステップS109以降の処理を実行する。
一方、未処理のレコードがない場合(ステップS113−NO)、均等化処理部202は各グループのレコードの数を算出する(ステップS114)。次に、均等化処理部202は、各グループの条件を決定する(ステップS115)。具体的には、均等化処理部202は、グループ内の全レコード間で時系列データ毎に平均値の情報をグループ条件に決定する。ただし、均等化処理部202は、時系列情報がグループ内のレコードで値の分布幅が所定の値未満の時系列情報のみをグループ条件に決定する。なお、値の分布幅は、グループ内のレコードの値の標準偏差であっても良いし、グループ内のレコードの値の最大と最小の差であっても良い。そして、均等化処理部202は、グループ番号、グループ定義情報及びグループのレコード数情報とを含むグループ情報をグループ情報記憶部30に出力する(ステップS116)。
The equalization processing unit 202 determines whether there is an unprocessed record among the processing target records (step S113). When there is an unprocessed record (step S113—YES), the equalization processing unit 202 executes the processes after step S109.
On the other hand, when there is no unprocessed record (step S113—NO), the equalization processing unit 202 calculates the number of records in each group (step S114). Next, the equalization processing unit 202 determines conditions for each group (step S115). Specifically, the equalization processing unit 202 determines the average value information as the group condition for each time-series data among all records in the group. However, the equalization processing unit 202 determines only time-series information whose time-series information is a record in the group and whose value distribution width is less than a predetermined value as the group condition. The value distribution width may be a standard deviation of the values of the records in the group, or may be the difference between the maximum and minimum values of the records in the group. Then, the equalization processing unit 202 outputs group information including the group number, group definition information, and group record number information to the group information storage unit 30 (step S116).

また、ステップS110の処理において、レコード数がk未満のグループが0ではない場合(ステップS110−NO)、均等化処理部202はレコードの数がk未満のグループで、ステップS109の処理で抽出したレコードを含めて2レコード間距離の平均値を算出する(ステップS117)。均等化処理部202は、平均値が最小となるグループのグループ番号を、ステップS109の処理で抽出したレコードに付与する(ステップS112)。このような処理によって、図5に示されるようなグループ分けが完了する。図5は、グループ情報の具体例を示す図である。図5に示すように、各グループのレコードの個数が5、4、4、4、5であり、k−匿名化における“k”を満たしていることが分かる。   Further, in the process of step S110, when the group having the number of records less than k is not 0 (step S110-NO), the equalization processing unit 202 is the group having the number of records of less than k and extracted in the process of step S109. The average value of the distance between two records including the record is calculated (step S117). The equalization processing unit 202 assigns the group number of the group having the minimum average value to the record extracted in the process of step S109 (step S112). By such processing, grouping as shown in FIG. 5 is completed. FIG. 5 is a diagram illustrating a specific example of group information. As shown in FIG. 5, the number of records in each group is 5, 4, 4, 4, 5, and it is understood that “k” in k-anonymization is satisfied.

以上のように構成されたグループ化装置20によれば、匿名性及び有用性の双方を保つことが可能になる。具体的には、グループ化装置20は、均等化処理により各グループに含まれるレコードの数を、予め指定された最小数を下回らないように均等にグループ化を行う。これにより、各グループのレコードの数を均等化することができる。これにより、匿名性を担保することができる。また、グループ化装置20は、時系列で構成されたレコードを1つの情報として扱い、2レコード間の時系列情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたクラスタリングを行う。これにより、時系列で構成された情報が類似するグループに各レコードを分類させることができる。したがって、有用性を担保することができる。このように、グループ化装置20は、データの有用性を維持しつつ、レコードの数を均等化することで匿名性を高めることが可能となる。   According to the grouping device 20 configured as described above, both anonymity and usefulness can be maintained. Specifically, the grouping device 20 performs grouping evenly so that the number of records included in each group by the equalization process does not fall below a predetermined minimum number. Thereby, the number of records of each group can be equalized. Thereby, anonymity can be ensured. Further, the grouping device 20 treats a time-series record as one piece of information, and uses a time-series information difference between two records as a vector element with a value of each time data constituting the time-series data. Perform clustering with distance in vector space. Thereby, it is possible to classify each record into a group having similar information configured in time series. Therefore, usability can be ensured. Thus, the grouping device 20 can improve anonymity by equalizing the number of records while maintaining the usefulness of data.

<変形例>
匿名化システム1は、非匿名化情報記憶部10、グループ情報記憶部30、匿名化情報記憶部50のいずれか一つ又は複数を備えないように構成されてもよい。この場合、各記憶部に相当する構成が、匿名化システム1の外部に設けられる。匿名化システム1に含まれる構成(グループ化装置20及び匿名化処理部40)は、匿名化システム1の外部に設けられた各記憶部に相当する構成とネットワークを介して通信し、記憶されている情報を取得する。
本実施形態では、処理対象レコードには、数値として“1”と“0”を用いた場合を例に説明したが、これに限定される必要はない。処理対象レコードには、数値としてその他の数値が用いられてもよい。また、本実施形態では、1つのレコードが14次元の情報を有している構成を示したが、1つのレコードはn次元(nは2以上の整数)の情報を有してもよい。
<Modification>
The anonymization system 1 may be configured not to include any one or more of the non-anonymized information storage unit 10, the group information storage unit 30, and the anonymization information storage unit 50. In this case, a configuration corresponding to each storage unit is provided outside the anonymization system 1. The configuration included in the anonymization system 1 (the grouping device 20 and the anonymization processing unit 40) communicates with the configuration corresponding to each storage unit provided outside the anonymization system 1 via the network and is stored. Get information.
In this embodiment, the case where “1” and “0” are used as numerical values for the processing target record has been described as an example. However, the present invention is not limited to this. Other numerical values may be used as numerical values for the processing target record. Further, in the present embodiment, a configuration is shown in which one record has 14-dimensional information, but one record may have n-dimensional (n is an integer of 2 or more) information.

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.

10…非匿名化情報記憶部, 20…グループ化装置, 30…グループ情報記憶部, 40…匿名化処理部, 50…匿名化情報記憶部, 201…条件情報取得部, 202…均等化処理部 DESCRIPTION OF SYMBOLS 10 ... Non-anonymization information storage part, 20 ... Grouping apparatus, 30 ... Group information storage part, 40 ... Anonymization process part, 50 ... Anonymization information storage part, 201 ... Condition information acquisition part, 202 ... Equalization process part

Claims (4)

匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、
を備え、
前記複数のレコードは、時系列の情報によって構成され、
前記均等化処理部は、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、
前記均等化処理部は、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するグループ化装置。
An equalization processing unit that divides a plurality of records that are non-anonymized information having non-anonymized attribute values into a plurality of groups so that the number of records included in each group is equalized,
With
The plurality of records are configured by time-series information,
The equalization processing unit divides unprocessed records among the plurality of records into a plurality of groups based on one or a plurality of groups including a record serving as a group reference determined from the records ,
The equalization processing unit creates all optimum combinations of group numbers obtained based on the plurality of records and the minimum number of records included in one group, and 2 for each created combination Calculate the total value of the distance between records, where the difference in time series information between two records is the distance in the vector space with each time data value constituting the time series data as a vector element. maximum grouping device combinations that determine the record as a reference for the group of.
前記均等化処理部は、前記未処理のレコードと前記グループに含まれるレコードとを用いて、各組み合わせにおける2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の平均値をグループ毎に算出し、前記未処理のレコードを前記平均値が最小のグループに分ける、請求項1に記載のグループ化装置。   The equalization processing unit uses the unprocessed records and the records included in the group to calculate a time-series information difference between two records in each combination, and each time data constituting the time-series data 2. The grouping according to claim 1, wherein an average value of inter-record distances is calculated for each group using a distance in a vector space having a value of vector as a vector element, and the unprocessed records are divided into groups having the minimum average value. apparatus. 匿名化されていない属性の値を有する非匿名化情報である複数のレコードをグループ分けするグループ化装置が行うグループ化方法であって、
前記グループ化装置が、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、
を有し、
前記複数のレコードは、時系列の情報によって構成され、
前記グループ化装置が、前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、
前記グループ化装置が、前記均等化処理ステップにおいて、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するグループ化方法。
A grouping method performed by a grouping device that groups a plurality of records that are non-anonymized information having attribute values that are not anonymized,
The grouping device, equalization processing steps into a plurality of groups such that the number is equalized records a plurality of records included in each group is a non-anonymous information having a value of an attribute that is not anonymous ,
Have
The plurality of records are configured by time-series information,
In the equalization processing step, the grouping device selects a plurality of unprocessed records from the plurality of records based on one or a plurality of groups including a record serving as a group reference determined from the records. then divided into groups,
The grouping device creates all optimum combinations of group numbers obtained based on the plurality of records and the minimum number of records included in one group in the equalization processing step, Calculate the total value of the distance between records with the difference in time series information between two records in each created combination as the distance in the vector space with the value of each time data constituting the time series data as a vector element. , grouping method calculated total value that determine the maximum of the combination in the record as a reference for the group.
匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、
をコンピュータに実行させ、
前記複数のレコードは、時系列の情報によって構成され、
前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、
前記均等化処理ステップにおいて、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するためのコンピュータプログラム。
An equalization processing step for dividing a plurality of records that are non-anonymized information having attribute values that are not anonymized into a plurality of groups so that the number of records included in each group is equalized,
To the computer,
The plurality of records are configured by time-series information,
In the equalization processing step, based on one or a plurality of groups including a record serving as a group reference determined from the records, unprocessed records among the plurality of records are divided into a plurality of groups ,
In the equalization processing step, all combinations of optimum group numbers obtained based on the plurality of records and the minimum number of records included in one group are created, and 2 for each created combination Calculate the total value of the distance between records, where the difference in time series information between two records is the distance in the vector space with each time data value constituting the time series data as a vector element. because of a computer program to determine the maximum combination to record as a reference for the group.
JP2016066129A 2016-03-29 2016-03-29 Grouping device, grouping method, and computer program Active JP6148370B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016066129A JP6148370B1 (en) 2016-03-29 2016-03-29 Grouping device, grouping method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016066129A JP6148370B1 (en) 2016-03-29 2016-03-29 Grouping device, grouping method, and computer program

Publications (2)

Publication Number Publication Date
JP6148370B1 true JP6148370B1 (en) 2017-06-14
JP2017182304A JP2017182304A (en) 2017-10-05

Family

ID=59061260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016066129A Active JP6148370B1 (en) 2016-03-29 2016-03-29 Grouping device, grouping method, and computer program

Country Status (1)

Country Link
JP (1) JP6148370B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250094A (en) * 1998-03-04 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> Two-phase data clustering method, device therefor and recording medium recorded with two-phase data cluster program
US20070233711A1 (en) * 2006-04-04 2007-10-04 International Business Machines Corporation Method and apparatus for privacy preserving data mining by restricting attribute choice
WO2013190810A1 (en) * 2012-06-18 2013-12-27 日本電気株式会社 Information processing device and information anonymizing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250094A (en) * 1998-03-04 1999-09-17 Nippon Telegr & Teleph Corp <Ntt> Two-phase data clustering method, device therefor and recording medium recorded with two-phase data cluster program
US20070233711A1 (en) * 2006-04-04 2007-10-04 International Business Machines Corporation Method and apparatus for privacy preserving data mining by restricting attribute choice
WO2013190810A1 (en) * 2012-06-18 2013-12-27 日本電気株式会社 Information processing device and information anonymizing method

Also Published As

Publication number Publication date
JP2017182304A (en) 2017-10-05

Similar Documents

Publication Publication Date Title
US10817621B2 (en) Anonymization processing device, anonymization processing method, and program
US9437022B2 (en) Time-based visualization of the number of events having various values for a field
Assunção et al. Efficient regionalization techniques for socio‐economic geographical units using minimum spanning trees
US20160173122A1 (en) System That Reconfigures Usage of a Storage Device and Method Thereof
JP2020527794A5 (en)
WO2013121739A1 (en) Anonymization device, and anonymization method
WO2016093836A1 (en) Interactive detection of system anomalies
JP6293003B2 (en) Privacy protection device, method and program
TW201820231A (en) Method and device for integrate collaborative filtering with time factor
EP3040900B1 (en) Data securing device, data securing program, and data securing method
US20160070763A1 (en) Parallel frequent sequential pattern detecting
WO2015180340A1 (en) Data mining method and device
CN109983467A (en) System and method for anonymization data set
JP2017041048A (en) Privacy protection device, method, and program
JP7026653B2 (en) Clustering device, clustering method and clustering program
JP6484657B2 (en) Information processing apparatus, information processing method, and program
JP5942634B2 (en) Concealment device, concealment program, and concealment method
JP6015777B2 (en) Confidential data generation method and apparatus
JP2017182508A (en) Anonymizing device, anonymizing method and computer program
JP6148370B1 (en) Grouping device, grouping method, and computer program
JP6267398B2 (en) Service design support system and service design support method
JP6370236B2 (en) Privacy protection device, method and program
WO2016170600A1 (en) Data analysis assistance system and data analysis assistance method
JP6681799B2 (en) Generating apparatus, method and program for generalized hierarchical tree
JP6148371B1 (en) Grouping device, grouping method, and computer program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170321

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170518

R150 Certificate of patent or registration of utility model

Ref document number: 6148370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250