JP6148370B1 - Grouping device, grouping method, and computer program - Google Patents
Grouping device, grouping method, and computer program Download PDFInfo
- Publication number
- JP6148370B1 JP6148370B1 JP2016066129A JP2016066129A JP6148370B1 JP 6148370 B1 JP6148370 B1 JP 6148370B1 JP 2016066129 A JP2016066129 A JP 2016066129A JP 2016066129 A JP2016066129 A JP 2016066129A JP 6148370 B1 JP6148370 B1 JP 6148370B1
- Authority
- JP
- Japan
- Prior art keywords
- records
- group
- information
- record
- equalization processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000004590 computer program Methods 0.000 title claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 239000002689 soil Substances 0.000 description 4
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】匿名性及び有用性の双方を保つこと。【解決手段】匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、を備え、複数のレコードは、時系列の情報によって構成され、均等化処理部は、レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、複数のレコードのうち未処理のレコードを複数のグループに分けるグループ化装置。【選択図】図1An object of the present invention is to maintain both anonymity and usefulness. An equalization processing unit that divides a plurality of records that are non-anonymized information having non-anonymized attribute values into a plurality of groups so that the number of records included in each group is equalized. The plurality of records are configured by time-series information, and the equalization processing unit is based on one or a plurality of groups including a record serving as a group reference determined from the records. A grouping device that divides unprocessed records into groups. [Selection] Figure 1
Description
本発明は、情報の匿名化技術に関する。 The present invention relates to information anonymization technology.
従来、多くの情報をビッグデータとして収集し、それらを解析することによって新たな情報を取得することが行われている。ビッグデータには、個人の情報などそのままでは解析にかけることができない情報も含まれている。そのため、収集された情報を二次利用することが可能となるように、収集された情報に対して匿名化処理が行われている。 Conventionally, a lot of information is collected as big data, and new information is acquired by analyzing them. Big data also includes information that cannot be directly analyzed, such as personal information. Therefore, anonymization processing is performed on the collected information so that the collected information can be secondarily used.
しかしながら、従来の匿名化処理では匿名性及び有用性のバランスを適切に保つことが困難であった。 However, it has been difficult to keep the balance between anonymity and usefulness appropriately in the conventional anonymization process.
上記事情に鑑み、本発明は、匿名性及び有用性の双方を保つことが可能な匿名化技術を提供することを目的としている。 In view of the above circumstances, an object of the present invention is to provide an anonymization technique capable of maintaining both anonymity and usefulness.
本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理部、を備え、前記複数のレコードは、時系列の情報によって構成され、前記均等化処理部は、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けるグループ化装置である。 One aspect of the present invention is an equalization process in which a plurality of records that are non-anonymized information having non-anonymized attribute values are divided into a plurality of groups so that the number of records included in each group is equalized. The plurality of records are configured by time-series information, and the equalization processing unit is based on one or a plurality of groups including a record serving as a group reference determined from the records. The grouping device divides unprocessed records among the plurality of records into a plurality of groups.
本発明の一態様は、上記のグループ化装置であって、前記均等化処理部は、前記未処理のレコードと前記グループに含まれるレコードとを用いて、各組み合わせにおける2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の平均値をグループ毎に算出し、前記未処理のレコードを前記平均値が最小のグループに分ける。 One aspect of the present invention is the grouping device described above, in which the equalization processing unit uses the unprocessed records and the records included in the group to make a time series between two records in each combination. For each group, the average value of the inter-record distance is calculated by using the difference between the information as the distance in the vector space having the time data values constituting the time-series data as vector elements, and the unprocessed records are calculated as the average. Divide into groups with the smallest value.
本発明の一態様は、上記のグループ化装置であって、前記均等化処理部は、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定する。 One aspect of the present invention is the grouping device described above, wherein the equalization processing unit is an optimum obtained based on the plurality of records and a minimum number of records included in one group. All combinations of the number of groups are created, and in each created combination, the time-series information difference between two records is calculated as the distance in the vector space having the time data values constituting the time-series data as vector elements. The total value of the inter-record distances is calculated, and the combination having the maximum calculated total value is determined as a record serving as a reference for the group.
本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードをグループ分けするグループ化装置が行うグループ化方法であって、前記グループ化装置が、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、を有し、前記複数のレコードは、時系列の情報によって構成され、前記グループ化装置が、前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、前記グループ化装置が、前記均等化処理ステップにおいて、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するグループ化方法である。 One aspect of the present invention is a grouping method performed by a grouping device that groups a plurality of records that are non-anonymized information having non-anonymized attribute values, wherein the grouping device is anonymized A plurality of records that are non-anonymized information having a value of an attribute that has not been performed, and an equalization processing step for dividing the plurality of records into a plurality of groups so that the number of records included in each group is equalized, The record is composed of time-series information, and the grouping device , based on one or a plurality of groups including a record serving as a group reference determined from the records in the equalization processing step, the unprocessed record among the plurality of records is divided into a plurality of groups, the grouping device has, in the equalization process step, the double All the combinations of the optimal number of groups obtained based on the records and the minimum number of records included in one group are created, and time-series information between two records is created for each created combination. The total value of the distance between records is calculated using the difference as the distance in the vector space having the time data values constituting the time series data as vector elements, and the combination with the maximum calculated total value is used as the reference of the group. it is a grouping method that determine the record to be.
本発明の一態様は、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、をコンピュータに実行させ、前記複数のレコードは、時系列の情報によって構成され、前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けるためのコンピュータプログラムである。 One aspect of the present invention is an equalization process in which a plurality of records that are non-anonymized information having non-anonymized attribute values are divided into a plurality of groups so that the number of records included in each group is equalized. And the plurality of records are configured by time-series information, and in the equalization processing step, one or a plurality of groups including a record serving as a group reference determined from the records And a computer program for dividing unprocessed records among the plurality of records into a plurality of groups.
本発明により、匿名性及び有用性の双方を保つことが可能になる。 The present invention makes it possible to maintain both anonymity and usefulness.
以下、本発明の一実施形態を、図面を参照しながら説明する。
図1は、匿名化システム1のシステム構成を表すシステム構成図である。匿名化システム1は、非匿名化情報記憶部10、グループ化装置20、グループ情報記憶部30、匿名化処理部40及び匿名化情報記憶部50を備える。
非匿名化情報記憶部10は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。非匿名化情報記憶部10は、匿名化されていない情報(以下「非匿名化情報」という。)を記憶する。非匿名化情報は、少なくとも1つの属性を含む。以下、1つの属性が時系列のデータとして表された情報のかたまりをレコードと呼ぶ。例えば、ユーザの在不在を表すレコードは、各曜日の時間帯の値(例えば、曜日・AM/曜日・PM)を有する。以下、各曜日の各時間帯(AM又はPM)をそれぞれ時間データと記載する。つまり、レコードは、複数の時間データで構成される。なお、ここでは、時間データが各曜日の各時間帯(AM又はPM)の値である一例を示したが、時間データは各曜日の各時刻の値であってもよい。非匿名化情報は、このようなレコードとして表されてもよい。なお、非匿名化情報記憶部10が記憶する情報の一部には、既に匿名化された情報が含まれていてもよい。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a system configuration diagram illustrating a system configuration of the
The non-anonymized
非匿名化情報記憶部10は、さらに条件情報を記憶する。条件情報は、非匿名化情報に関する条件の定義を示す情報である。条件情報の具体例として、連結定義がある。連結定義は、個々の数値情報をレコードに連結するための定義を示す情報である。
The non-anonymized
グループ化装置20は、非匿名化情報記憶部10に記憶される非匿名化情報のうち、匿名化の対象となっている属性(以下「匿名化対象属性」という。)の複数のレコードを、複数のグループに分類する。グループ化装置20は、メインフレームやワークステーションやパーソナルコンピュータなどの情報処理装置を用いて構成される。グループ化装置20は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備える。グループ化装置20は、グループ化プログラムを実行することによって、条件情報取得部201及び均等化処理部202を備える装置として機能する。なお、グループ化装置20の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
The
条件情報取得部201は、非匿名化情報記憶部10から、匿名化対象属性に関する条件情報を取得する。条件情報取得部201は、取得した条件情報を均等化処理部202に出力する。
均等化処理部202は、非匿名化情報記憶部10から、匿名化処理の対象となる非匿名化情報の複数のレコード(以下、「処理対象レコード」という。)を取得する。均等化処理部202は、取得した処理対象レコードに基づいて均等化処理を実行する。均等化処理の実行によって、均等化処理部202は、取得した処理対象レコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける。均等化処理において、均等化処理部202は、各グループに含まれるレコードの数が、予め指定された最小数を下回らないようにグループ化を行う。最小数は、例えばk匿名化処理における“k”の値である。本実施形態では、“k”の値が4の場合について説明するが、“k”の値は自然数であれば他の値であってもよい。均等化処理部202は、均等化処理の結果を示す情報(以下「グループ情報」という。)をグループ情報記憶部30に記録する。グループ情報は、均等化処理によって生成された各グループに属するレコードを示す。グループ情報は、例えばグループ番号、各グループの定義を示す情報(以下「グループ定義情報」という。)と、各グループに属するレコードの個数を示す情報(以下「レコード数情報」という。)とを含む。
The condition
The
グループ情報記憶部30は、磁気ハードディスク装置や半導体記憶装置などの記憶装置を用いて構成される。グループ情報記憶部30は、グループ化装置20によって生成されたグループ情報を記憶する。
匿名化処理部40は、グループ情報記憶部30に記憶されているグループ情報に基づいて、非匿名化情報記憶部10に記憶されている非匿名化情報に対して匿名化処理を行う。例えば、匿名化処理部40は、各グループに属しているレコードの匿名化対象属性の値を、そのグループに属している各レコードの値を一般化することによって得られる値に置き換えることによって匿名化する。例えば、あるグループに属しているレコードの匿名化対象属性の値が10,11,13,14である場合、範囲を示す“10−15”という値や、中央値又は平均値を示す“12”という値などに置き換えることによって匿名化処理が行われる。また、例えば、匿名化処理部40は、各グループに属しているレコードの匿名化対象属性の各値(各時間データの値)のいずれかを欠落させる、つまりある時間帯の情報を欠落させることによって匿名化処理を行う。匿名化処理部40は、このような匿名化処理の実行によって、非匿名化情報の匿名化対象属性の値が匿名化された情報(以下「匿名化情報」という。)を生成する。
The group
The
図2は、処理対象レコードの具体例を示す図である。
図2に示されるように処理対象レコードには、1つの属性における非匿名化情報の複数のレコードが含まれる。図2では、23個のレコードが処理対象レコードに含まれる。図2では、レコード毎に、各曜日と各曜日のある時間帯(例えば、AM、PM)におけるユーザの在不在が表されている。つまり、1つのレコードは、14次元の情報を有している。そして、レコードの“1”はユーザがその時間帯にいたことを表し、レコードの“0”はユーザがその時間帯にいなかったことを表す。
FIG. 2 is a diagram illustrating a specific example of the processing target record.
As shown in FIG. 2, the processing target record includes a plurality of records of non-anonymized information in one attribute. In FIG. 2, 23 records are included in the processing target record. In FIG. 2, the presence or absence of a user in a certain time zone (for example, AM, PM) of each day of the week and each day of the week is represented for each record. That is, one record has 14-dimensional information. The record “1” indicates that the user was in that time zone, and the record “0” indicates that the user was not in that time zone.
図2において、処理対象レコードの最上段のレコードは、NOの値が“1”、月AMの値が“1”、月PMの値が“0”、火AMの値が“1”、火PMの値が“0”、・・・、土AMの値が“0”、土PMの値が“0”、日AMの値が“0”、日PMの値が“0”である。すなわち、最上段のレコードには、NO“1”のレコードで識別されるユーザが、月AMと火AMにいたことが表されており、月PMと火PMと土AMと土PMにいなかったことが表されている。 In FIG. 2, the uppermost record of the records to be processed has a NO value of “1”, a month AM value of “1”, a month PM value of “0”, a fire AM value of “1”, The value of PM is “0”,..., The value of soil AM is “0”, the value of soil PM is “0”, the value of day AM is “0”, and the value of day PM is “0”. That is, the top record shows that the user identified by the record of “1” is in the moon AM and the fire AM, and is not in the moon PM, the fire PM, the soil AM, and the soil PM. It is expressed.
図3及び図4は、グループ化装置20の処理の流れを示すフローチャートである。なお、図3及び4の処理開始時には、まず均等化処理部202は、処理対象レコードを用いて、グループ内でレコード数をk個(例えば、4個)にするための最適なグループ数を算出する(ステップS101)。具体的には、均等化処理部202は、抽出した処理対象レコード数をkで除算することによって得られた値を最適なグループ数とする。ここで、図2を例に説明すると、処理対象レコードが23個であり、kが4であるとすると、最適なグループ数は5となる。
3 and 4 are flowcharts showing the flow of processing of the
次に、均等化処理部202は、処理対象レコードから、算出した最適なグループ数分のレコードを選択して、作成可能な組み合わせを全て作成する(ステップS102)。ここで、最適なグループ数を5として図2を例に説明すると、23個のレコードから、各グループの基準となるレコード(以下、「基準レコード」という。)を選択するための組み合わせ数は、23C5=33649通りとなる。
Next, the
次に、均等化処理部202は、全ての組み合わせにおいて2レコード間距離の合計値と、2レコード間距離の標準偏差を算出する(ステップS103)。2レコード間距離は、例えば、マンハッタン距離を用いて算出される。なお、2レコード間距離は、マンハッタン距離に限定される必要はなく、例えば2レコード間の時系列情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離を算出可能な方法であればどのような方法が用いられてもよい。上記の例の場合、各組み合わせは5個のレコードにより構成されるため、組み合わせ毎に5C2=10通りの2レコード間距離の合計値と、2レコード間距離の標準偏差とが算出される。均等化処理部202は、組み合わせ内の2つのレコード間で同一の時間帯の情報に基づいて2レコード間距離の合計値と、2レコード間距離の標準偏差を算出する。均等化処理部202は、2レコード間距離の合計値が最大となる組み合わせを選択する(ステップS104)。均等化処理部202は、選択した組み合わせが一通りであるか否か判定する(ステップS105)。組み合わせが一通りである場合(ステップS105−YES)、均等化処理部202は選択した組み合わせに含まれる各レコードを基準レコードに決定する(ステップS106)。
Next, the
一方、組み合わせが一通りではない場合(ステップS105−NO)、均等化処理部202は2レコード間距離の標準偏差が最小となる組み合わせを選択する(ステップS107)。均等化処理部202は、選択した組み合わせに含まれる各レコードを基準レコードに決定する(ステップS106)。その後、均等化処理部202は、各基準レコードに異なるグループ番号を付与する(ステップS108)。
On the other hand, when there is not one combination (NO in step S105), the
均等化処理部202は、処理対象レコードのうち未処理のレコードを抽出する(ステップS109)。ここで、未処理のレコードとは、グループ番号が付与されていないレコードを表す。例えば、均等化処理部202は、未処理のレコードのうち番号(図2におけるNO)が最も小さいレコードを抽出する。均等化処理部202は、レコード数がk未満のグループが0であるか否か判定する(ステップS110)。レコード数がk未満のグループが0である場合(ステップS110−YES)、均等化処理部202は各グループで、ステップS109の処理で抽出したレコードを含めて2レコード間距離の平均値を算出する(ステップS111)。均等化処理部202は、平均値が最小となるグループのグループ番号を、ステップS109の処理で抽出したレコードに付与する(ステップS112)。
The
均等化処理部202は、処理対象レコードのうち未処理のレコードがあるか否か判定する(ステップS113)。未処理のレコードがある場合(ステップS113−YES)、均等化処理部202はステップS109以降の処理を実行する。
一方、未処理のレコードがない場合(ステップS113−NO)、均等化処理部202は各グループのレコードの数を算出する(ステップS114)。次に、均等化処理部202は、各グループの条件を決定する(ステップS115)。具体的には、均等化処理部202は、グループ内の全レコード間で時系列データ毎に平均値の情報をグループ条件に決定する。ただし、均等化処理部202は、時系列情報がグループ内のレコードで値の分布幅が所定の値未満の時系列情報のみをグループ条件に決定する。なお、値の分布幅は、グループ内のレコードの値の標準偏差であっても良いし、グループ内のレコードの値の最大と最小の差であっても良い。そして、均等化処理部202は、グループ番号、グループ定義情報及びグループのレコード数情報とを含むグループ情報をグループ情報記憶部30に出力する(ステップS116)。
The
On the other hand, when there is no unprocessed record (step S113—NO), the
また、ステップS110の処理において、レコード数がk未満のグループが0ではない場合(ステップS110−NO)、均等化処理部202はレコードの数がk未満のグループで、ステップS109の処理で抽出したレコードを含めて2レコード間距離の平均値を算出する(ステップS117)。均等化処理部202は、平均値が最小となるグループのグループ番号を、ステップS109の処理で抽出したレコードに付与する(ステップS112)。このような処理によって、図5に示されるようなグループ分けが完了する。図5は、グループ情報の具体例を示す図である。図5に示すように、各グループのレコードの個数が5、4、4、4、5であり、k−匿名化における“k”を満たしていることが分かる。
Further, in the process of step S110, when the group having the number of records less than k is not 0 (step S110-NO), the
以上のように構成されたグループ化装置20によれば、匿名性及び有用性の双方を保つことが可能になる。具体的には、グループ化装置20は、均等化処理により各グループに含まれるレコードの数を、予め指定された最小数を下回らないように均等にグループ化を行う。これにより、各グループのレコードの数を均等化することができる。これにより、匿名性を担保することができる。また、グループ化装置20は、時系列で構成されたレコードを1つの情報として扱い、2レコード間の時系列情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたクラスタリングを行う。これにより、時系列で構成された情報が類似するグループに各レコードを分類させることができる。したがって、有用性を担保することができる。このように、グループ化装置20は、データの有用性を維持しつつ、レコードの数を均等化することで匿名性を高めることが可能となる。
According to the
<変形例>
匿名化システム1は、非匿名化情報記憶部10、グループ情報記憶部30、匿名化情報記憶部50のいずれか一つ又は複数を備えないように構成されてもよい。この場合、各記憶部に相当する構成が、匿名化システム1の外部に設けられる。匿名化システム1に含まれる構成(グループ化装置20及び匿名化処理部40)は、匿名化システム1の外部に設けられた各記憶部に相当する構成とネットワークを介して通信し、記憶されている情報を取得する。
本実施形態では、処理対象レコードには、数値として“1”と“0”を用いた場合を例に説明したが、これに限定される必要はない。処理対象レコードには、数値としてその他の数値が用いられてもよい。また、本実施形態では、1つのレコードが14次元の情報を有している構成を示したが、1つのレコードはn次元(nは2以上の整数)の情報を有してもよい。
<Modification>
The
In this embodiment, the case where “1” and “0” are used as numerical values for the processing target record has been described as an example. However, the present invention is not limited to this. Other numerical values may be used as numerical values for the processing target record. Further, in the present embodiment, a configuration is shown in which one record has 14-dimensional information, but one record may have n-dimensional (n is an integer of 2 or more) information.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
10…非匿名化情報記憶部, 20…グループ化装置, 30…グループ情報記憶部, 40…匿名化処理部, 50…匿名化情報記憶部, 201…条件情報取得部, 202…均等化処理部
DESCRIPTION OF
Claims (4)
を備え、
前記複数のレコードは、時系列の情報によって構成され、
前記均等化処理部は、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、
前記均等化処理部は、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するグループ化装置。 An equalization processing unit that divides a plurality of records that are non-anonymized information having non-anonymized attribute values into a plurality of groups so that the number of records included in each group is equalized,
With
The plurality of records are configured by time-series information,
The equalization processing unit divides unprocessed records among the plurality of records into a plurality of groups based on one or a plurality of groups including a record serving as a group reference determined from the records ,
The equalization processing unit creates all optimum combinations of group numbers obtained based on the plurality of records and the minimum number of records included in one group, and 2 for each created combination Calculate the total value of the distance between records, where the difference in time series information between two records is the distance in the vector space with each time data value constituting the time series data as a vector element. maximum grouping device combinations that determine the record as a reference for the group of.
前記グループ化装置が、匿名化されていない属性の値を有する非匿名化情報である複数のレコードを、各グループに含まれるレコードの数が均等化するように複数のグループに分ける均等化処理ステップ、
を有し、
前記複数のレコードは、時系列の情報によって構成され、
前記グループ化装置が、前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、
前記グループ化装置が、前記均等化処理ステップにおいて、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するグループ化方法。 A grouping method performed by a grouping device that groups a plurality of records that are non-anonymized information having attribute values that are not anonymized,
The grouping device, equalization processing steps into a plurality of groups such that the number is equalized records a plurality of records included in each group is a non-anonymous information having a value of an attribute that is not anonymous ,
Have
The plurality of records are configured by time-series information,
In the equalization processing step, the grouping device selects a plurality of unprocessed records from the plurality of records based on one or a plurality of groups including a record serving as a group reference determined from the records. then divided into groups,
The grouping device creates all optimum combinations of group numbers obtained based on the plurality of records and the minimum number of records included in one group in the equalization processing step, Calculate the total value of the distance between records with the difference in time series information between two records in each created combination as the distance in the vector space with the value of each time data constituting the time series data as a vector element. , grouping method calculated total value that determine the maximum of the combination in the record as a reference for the group.
をコンピュータに実行させ、
前記複数のレコードは、時系列の情報によって構成され、
前記均等化処理ステップにおいて、前記レコードの中から決定されるグループの基準となるレコードを含む1又は複数のグループに基づいて、前記複数のレコードのうち未処理のレコードを複数のグループに分けし、
前記均等化処理ステップにおいて、前記複数のレコードと、一つのグループに含まれるレコードの数の最小限の数とに基づいて得られる最適なグループ数の組み合わせを全て作成し、作成した各組み合わせにおいて2つのレコード間の時系列の情報の差分を、時系列のデータを構成する各時間データの値をベクトル要素とするベクトル空間における距離としたレコード間距離の合計値を算出し、算出した合計値が最大の組み合わせを前記グループの基準となるレコードに決定するためのコンピュータプログラム。 An equalization processing step for dividing a plurality of records that are non-anonymized information having attribute values that are not anonymized into a plurality of groups so that the number of records included in each group is equalized,
To the computer,
The plurality of records are configured by time-series information,
In the equalization processing step, based on one or a plurality of groups including a record serving as a group reference determined from the records, unprocessed records among the plurality of records are divided into a plurality of groups ,
In the equalization processing step, all combinations of optimum group numbers obtained based on the plurality of records and the minimum number of records included in one group are created, and 2 for each created combination Calculate the total value of the distance between records, where the difference in time series information between two records is the distance in the vector space with each time data value constituting the time series data as a vector element. because of a computer program to determine the maximum combination to record as a reference for the group.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016066129A JP6148370B1 (en) | 2016-03-29 | 2016-03-29 | Grouping device, grouping method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016066129A JP6148370B1 (en) | 2016-03-29 | 2016-03-29 | Grouping device, grouping method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6148370B1 true JP6148370B1 (en) | 2017-06-14 |
JP2017182304A JP2017182304A (en) | 2017-10-05 |
Family
ID=59061260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016066129A Active JP6148370B1 (en) | 2016-03-29 | 2016-03-29 | Grouping device, grouping method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6148370B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250094A (en) * | 1998-03-04 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Two-phase data clustering method, device therefor and recording medium recorded with two-phase data cluster program |
US20070233711A1 (en) * | 2006-04-04 | 2007-10-04 | International Business Machines Corporation | Method and apparatus for privacy preserving data mining by restricting attribute choice |
WO2013190810A1 (en) * | 2012-06-18 | 2013-12-27 | 日本電気株式会社 | Information processing device and information anonymizing method |
-
2016
- 2016-03-29 JP JP2016066129A patent/JP6148370B1/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250094A (en) * | 1998-03-04 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | Two-phase data clustering method, device therefor and recording medium recorded with two-phase data cluster program |
US20070233711A1 (en) * | 2006-04-04 | 2007-10-04 | International Business Machines Corporation | Method and apparatus for privacy preserving data mining by restricting attribute choice |
WO2013190810A1 (en) * | 2012-06-18 | 2013-12-27 | 日本電気株式会社 | Information processing device and information anonymizing method |
Also Published As
Publication number | Publication date |
---|---|
JP2017182304A (en) | 2017-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817621B2 (en) | Anonymization processing device, anonymization processing method, and program | |
US9437022B2 (en) | Time-based visualization of the number of events having various values for a field | |
Assunção et al. | Efficient regionalization techniques for socio‐economic geographical units using minimum spanning trees | |
US20160173122A1 (en) | System That Reconfigures Usage of a Storage Device and Method Thereof | |
JP2020527794A5 (en) | ||
WO2013121739A1 (en) | Anonymization device, and anonymization method | |
WO2016093836A1 (en) | Interactive detection of system anomalies | |
JP6293003B2 (en) | Privacy protection device, method and program | |
TW201820231A (en) | Method and device for integrate collaborative filtering with time factor | |
EP3040900B1 (en) | Data securing device, data securing program, and data securing method | |
US20160070763A1 (en) | Parallel frequent sequential pattern detecting | |
WO2015180340A1 (en) | Data mining method and device | |
CN109983467A (en) | System and method for anonymization data set | |
JP2017041048A (en) | Privacy protection device, method, and program | |
JP7026653B2 (en) | Clustering device, clustering method and clustering program | |
JP6484657B2 (en) | Information processing apparatus, information processing method, and program | |
JP5942634B2 (en) | Concealment device, concealment program, and concealment method | |
JP6015777B2 (en) | Confidential data generation method and apparatus | |
JP2017182508A (en) | Anonymizing device, anonymizing method and computer program | |
JP6148370B1 (en) | Grouping device, grouping method, and computer program | |
JP6267398B2 (en) | Service design support system and service design support method | |
JP6370236B2 (en) | Privacy protection device, method and program | |
WO2016170600A1 (en) | Data analysis assistance system and data analysis assistance method | |
JP6681799B2 (en) | Generating apparatus, method and program for generalized hierarchical tree | |
JP6148371B1 (en) | Grouping device, grouping method, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170321 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170518 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6148370 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |