JP6681799B2 - Generating apparatus, method and program for generalized hierarchical tree - Google Patents

Generating apparatus, method and program for generalized hierarchical tree Download PDF

Info

Publication number
JP6681799B2
JP6681799B2 JP2016138351A JP2016138351A JP6681799B2 JP 6681799 B2 JP6681799 B2 JP 6681799B2 JP 2016138351 A JP2016138351 A JP 2016138351A JP 2016138351 A JP2016138351 A JP 2016138351A JP 6681799 B2 JP6681799 B2 JP 6681799B2
Authority
JP
Japan
Prior art keywords
attribute
nodes
range
node
hierarchical tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016138351A
Other languages
Japanese (ja)
Other versions
JP2018010453A (en
Inventor
知明 三本
知明 三本
清本 晋作
晋作 清本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016138351A priority Critical patent/JP6681799B2/en
Publication of JP2018010453A publication Critical patent/JP2018010453A/en
Application granted granted Critical
Publication of JP6681799B2 publication Critical patent/JP6681799B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データセットの匿名化手法における一般化階層木の生成装置、方法及びプログラムに関する。   The present invention relates to an apparatus, method and program for generating a generalized hierarchical tree in a data set anonymization method.

従来、個人を識別され得る属性を含んだデータセットにおいて、プライバシ保護の観点から、属性値の一部を一般化し、データを組み合わせても個人が特定されないようにする匿名化手法が提案されている。
例えば、k匿名化と呼ばれる手法では、属性値を一般化するための一般化階層を構築する必要がある(例えば、非特許文献1〜3参照)。
Conventionally, in a data set including an attribute that can identify an individual, from the viewpoint of privacy protection, an anonymization method has been proposed in which a part of the attribute value is generalized and the individual is not specified even if the data is combined. .
For example, in the method called k-anonymization, it is necessary to construct a generalization hierarchy for generalizing attribute values (see, for example, Non-Patent Documents 1 to 3).

原田邦彦,佐藤嘉則, “一般化階層木の自動生成と情報エントロピーによる歪度評価を伴うk−匿名化手法,” 研究報告コンピュータセキュリティ(CSEC), 2010−CSEC−50(47), 1−7, 2010−06−24Kunihiko Harada, Yoshinori Sato, “k-anonymization method with automatic generation of generalized hierarchical tree and skewness evaluation by information entropy,” Research Report Computer Security (CSEC), 2010-CSEC-50 (47), 1-7 , 2010-06-24 Iwuchukwu, T. and Naughton, J. F. (2007), “K−Anonymization as Spatial Indexing: Toward Scarable and Incremental Anonymization,” In Proceeding of the 33rd International Conference on Very Large Data Bases, VLDB, pages 746−757.Iwuchukwu, T .; and Naughton, J .; F. (2007), "K-Anonymization as Spatial Indexing: Toward Scarable and Incremental Anonymization," In Proceeding of the Beer-the-Behavior-Behavior-Behavior-Beer-Venue-Learning-Venue-Legence-Venue-Duration-On-Vehicles-Beer-Vehicles-,- Byun, J. −W., Kamra, A., Bertino, E., and Li, N. (2007), “Efficient k−Anonymity Using Clustering Technique,” In Proc. of the International Conference on Database Systems for Advanced Applications, pages 188−200.Byun, J .; -W. , Kamra, A .; Bertino, E .; , And Li, N .; (2007), "Efficient k-Anonymity Using Clustering Technology," In Proc. of the International Conference on Database Systems Systems for Advanced Applications, pages 188-200.

しかしながら、既存の手法により構築された一般化階層を用いた匿名化では、データが必要以上に一般化され情報量の損失が大きくなる場合があった。   However, in the anonymization using the generalized hierarchy constructed by the existing method, the data may be generalized more than necessary and the loss of information amount may be large.

本発明は、情報量の損失を低減できる一般化階層木の生成装置、方法及びプログラムを提供することを目的とする。   It is an object of the present invention to provide a generalized hierarchical tree generation device, method and program capable of reducing the loss of information amount.

本発明に係る一般化階層木の生成装置は、複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択部と、前記第2の属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となる最下位の階層のノードを生成する第1生成部と、下位階層のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成部と、を備える。   A generalized hierarchical tree generation device according to the present invention includes a selection unit that selects a second attribute having the largest correlation with respect to a first attribute included in a data set including a plurality of attributes, and the second attribute. A first generation unit that generates a node in the lowest hierarchy in which the number of records included in each range obtained by dividing the value of the first attribute among records whose attributes are in a specific range is a predetermined range; A second generation unit that integrates the nodes in the lower layer and generates nodes in the upper layer that are less than the number of nodes in the lower layer.

前記第2生成部は、未選択の属性を選択し、当該選択した属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした前記下位階層のノードの数よりも少ない各値域内に含まれるレコード数が略均等となる前記上位階層のノードを生成し、前記生成装置は、前記下位階層のノード及び前記上位階層のノードにおける前記第1の属性の値域の包含関係に基づいて、前記上位階層のノードの数を調整する調整部を備えてもよい。   The second generation unit selects an unselected attribute, and in the records in which the selected attribute is in a specific range, the number is smaller than the number of nodes in the lower hierarchy that divides the value of the first attribute. The generation device generates nodes of the upper layer in which the number of records included in the range is substantially equal, and the generation device is based on an inclusion relation of the range of the first attribute in the node of the lower layer and the node of the upper layer. Then, an adjusting unit for adjusting the number of nodes in the upper layer may be provided.

前記調整部は、包含関係にある前記下位階層のノード及び前記上位階層のノードの合計数が閾値を超える場合、当該包含関係にあるノードの全値域を2つに分割して調整後のノードとし、前記合計数が前記閾値以下の場合、当該包含関係にあるノードの全値域を1つの調整後のノードとしてもよい。   When the total number of nodes in the lower layer and nodes in the upper layer that have an inclusion relationship exceeds a threshold value, the adjustment unit divides the entire range of the nodes that have the inclusion relationship into two to make an adjusted node. If the total number is less than or equal to the threshold value, the entire range of the nodes having the inclusion relation may be one adjusted node.

前記生成装置は、各階層のノードの値域に対して、選択した属性の特定の値域を、一般化の条件として出力する出力部を備えてもよい。   The generation device may include an output unit that outputs a specific value range of the selected attribute as a generalization condition with respect to the value range of the node of each hierarchy.

本発明に係る一般化階層木の生成方法は、複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択ステップと、前記第2の属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となる最下位の階層のノードを生成する第1生成ステップと、下位階層のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成ステップと、をコンピュータが実行する。   A generalized hierarchical tree generation method according to the present invention includes a selection step of selecting a second attribute having the highest correlation with respect to a first attribute included in a data set including a plurality of attributes, A first generation step of generating a node of the lowest hierarchy in which the number of records included in each range obtained by dividing the value of the first attribute among records whose attributes are in a specific range is a predetermined range; The computer executes a second generation step of integrating the nodes in the lower layer and generating nodes in the upper layer less than the number of nodes in the lower layer.

本発明に係る一般化階層木の生成プログラムは、複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択ステップと、前記第2の属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となる最下位の階層のノードを生成する第1生成ステップと、下位階層のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成ステップと、をコンピュータに実行させる。   A generalized hierarchical tree generation program according to the present invention includes a selection step of selecting a second attribute having the largest correlation with respect to a first attribute included in a data set including a plurality of attributes; A first generation step of generating a node of the lowest hierarchy in which the number of records included in each range obtained by dividing the value of the first attribute among records whose attributes are in a specific range is a predetermined range; A second generation step of integrating the nodes in the lower layer and generating nodes in the upper layer less than the number of nodes in the lower layer.

本発明によれば、データセットの匿名化手法における情報量の損失が低減される。   According to the present invention, the loss of information amount in the data set anonymization method is reduced.

実施形態に係る生成装置の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the production | generation apparatus which concerns on embodiment. 実施形態に係る相関及び属性値の分布を表現する方法の一例を示す図である。It is a figure which shows an example of the method of expressing the distribution of the correlation and attribute value which concerns on embodiment. 実施形態に係る上位階層の調整方法を例示する図である。It is a figure which illustrates the adjustment method of the upper hierarchy concerning an embodiment. 実施形態に係る一般化階層木の生成方法を示すフローチャートである。6 is a flowchart showing a method for generating a generalized hierarchical tree according to the embodiment.

以下、本発明の実施形態の一例について説明する。
本実施形態に係る生成装置1は、複数の属性からなるデータセットにおいて、個人を識別可能な属性の組み合わせ(準識別子)に対して、属性値を一般化することにより匿名化する場合に、一般化レベル毎の属性値を定義した一般化階層木を生成する。
Hereinafter, an example of the embodiment of the present invention will be described.
In the data set including a plurality of attributes, the generation device 1 according to the present embodiment is generally used when anonymization is performed by generalizing attribute values for a combination of attributes (quasi-identifier) that can identify an individual. Generate a generalized hierarchical tree that defines attribute values for each level.

生成装置1は、制御部(例えば、CPU)及び記憶部(例えば、HDD)を備えたサーバ装置又はPCなどの情報処理装置(コンピュータ)であり、記憶部に記憶されたソフトウェア(生成プログラム)を制御部が読み込み、実行することにより、本実施形態に係る各種機能を実現する。   The generation device 1 is an information processing device (computer) such as a server device or a PC including a control unit (for example, CPU) and a storage unit (for example, HDD), and stores software (generation program) stored in the storage unit. The various functions according to the present embodiment are realized by the reading and execution by the control unit.

図1は、本実施形態に係る生成装置1の機能構成を示すブロック図である。
生成装置1は、選択部11と、第1生成部12と、第2生成部13と、調整部14と、出力部15とを備える。
FIG. 1 is a block diagram showing a functional configuration of a generation device 1 according to this embodiment.
The generation device 1 includes a selection unit 11, a first generation unit 12, a second generation unit 13, an adjustment unit 14, and an output unit 15.

選択部11は、入力として、評価の対象となるデータセットD、データセットDに含まれる準識別子ATTR、及び一般化階層木を生成する対象である属性attr∈ATTRが与えられる。
選択部11は、与えられた第1の属性に対して、最も相関の大きい第2の属性attrを選択する。
The input of the selection unit 11 is a data set D to be evaluated, a quasi-identifier ATTR included in the data set D, and an attribute attr f εATTR to be a target for generating a generalized hierarchical tree.
The selection unit 11 selects the second attribute attr g having the largest correlation with the given first attribute.

具体的には、選択部11は、データセットDにおける全てのレコードrの属性attrの属性値r[attr]と、∀attr∈ATTR\{attr}の属性値r[attr]との相関を求め、相関が最大の属性を選択する。
属性間の相関は、レコードの散布図を生成して相関係数から、あるいは、統計情報に基づく関連性の高低から求められる。例えば、属性値r[attr]の値又は値域毎のレコードについての、属性attrの属性値r[attr]の平均値又は中央値が最も離れる属性が選択されてよい。
More specifically, the selection unit 11, an attribute value r p of all the records r p attributes attr f in the data set D [attr f], ∀attr∈ATTR\ attribute value r p [attr of {attr f} ], And select the attribute with the maximum correlation.
The correlation between attributes is obtained from a correlation coefficient by generating a scatter plot of records, or from the degree of association based on statistical information. For example, for the value of the attribute value r p [attr] or the record for each range, the attribute that has the largest average value or median value of the attribute value r p [attr f ] of the attribute attr f may be selected.

第1生成部12は、第2の属性が特定の値域(単一の値又は値の範囲)であるレコードのうち、第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となるように、最下位の階層のノードを生成する。具体的には、詰め込み問題におけるアルゴリズムが用いられ、この結果、一般化階層木における最下位の各ノードには、ある一定数以上のレコードが含まれる。
なお、本処理における各種のパラメータは、適宜ユーザからの入力を受け付けることとしてよい。
The first generation unit 12 determines a predetermined number of records included in each range in which the value of the first attribute is divided among records in which the second attribute has a specific range (single value or range of values). The node of the lowest hierarchy is generated so that the range becomes. Specifically, the algorithm in the packing problem is used, and as a result, each lowest node in the generalized hierarchical tree contains a certain number or more of records.
It should be noted that various parameters in this processing may appropriately receive input from the user.

ここで、選択部11及び第1生成部12によるノードの生成手法では、ユーザからの入力に基づいて第2の属性を選択、及び一般化階層木の最下位ノードを生成するためのインタフェースを提供してもよい。
例えば、生成装置1は、相関及び属性値の分布を視覚的に表現する出力を行い、ユーザから選択入力又はパラメータ入力などを受け付ける。
Here, the node generation method by the selection unit 11 and the first generation unit 12 provides an interface for selecting the second attribute based on the input from the user and generating the lowest node of the generalized hierarchical tree. You may.
For example, the generation device 1 performs an output that visually expresses the correlation and the distribution of attribute values, and accepts selection input or parameter input from the user.

図2は、本実施形態に係る相関及び属性値の分布を表現する方法の一例を示す図である。
この例では、着目する属性attrとしての身長を一方の軸、相関を調べる属性attrとしての性別を他方の軸としてヒートマップを作成し表示されている。
これにより、attr(性別)の属性値毎のattr(身長)の分布に重なりが少なく、中央値又は平均値が乖離していること、すなわち相関が大きいことを、ユーザは視覚的に判断でき、さらに属性値の分布と境界線とを視認しつつ、ノードの境界の調整を適切に行うことができる。
FIG. 2 is a diagram showing an example of a method for expressing the correlation and the distribution of attribute values according to this embodiment.
In this example, the heat map is created and displayed with the height as the attribute attr f of interest as one axis and the sex as the attribute attr q for checking the correlation as the other axis.
As a result, the user visually determines that there is little overlap in the distribution of attr f (height) for each attribute value of attr q (sex), and that the median or the average value deviates, that is, the correlation is large. In addition, it is possible to appropriately adjust the boundaries of the nodes while visually recognizing the distribution of the attribute values and the boundaries.

第2生成部13は、下位階層のノードを統合し、この下位階層のノードの数よりも少ない上位階層のノードを生成する。
例えば、第2生成部13は、下位階層のノード2つを上位階層のノード1つに統合するなどの規則に従って、一般化階層木を構成してもよいが、本実施形態では、一例として以下の手順を採用する。
The second generation unit 13 integrates the nodes in the lower layer and generates nodes in the upper layer that are smaller than the number of nodes in the lower layer.
For example, the second generation unit 13 may configure the generalized hierarchical tree according to a rule such as integrating two nodes in the lower layer into one node in the upper layer, but in the present embodiment, as an example, Adopt the procedure.

第2生成部13は、未選択の属性を順に選択し、選択した属性が特定の値域(単一の値又は値の範囲)であるレコードのうち、第1の属性の値を区分けした各値域内に含まれるレコード数が略均等となるようにノードを生成し、調整部14により上位階層のノードとして調整する。
ここで、第2生成部13により生成されるノードの数は、生成済みの下位階層のノードの数よりも少ない。
The second generation unit 13 sequentially selects the unselected attributes, and selects the values of the first attribute among the records in which the selected attribute is in the specific range (single value or range of values). The nodes are generated so that the number of records included in the area is approximately equal, and the adjustment unit 14 adjusts the nodes as the upper layer nodes.
Here, the number of nodes generated by the second generation unit 13 is smaller than the number of generated lower-layer nodes.

調整部14は、生成済みの下位階層のノード及び第2生成部13により生成されたノードにおける第1の属性の値域の包含関係に基づいて、上位階層のノードの数を調整する。
例えば、調整部14は、包含関係にある下位階層のノード及び上位階層のノードの合計数が閾値(例えば、4個)を超える場合、この包含関係にあるノードの全値域を2つに分割して調整後の上位階層のノードとする。一方、合計数が閾値以下の場合、包含関係にあるノードの全値域を1つの調整後のノードとする。
なお、本処理における各種のパラメータは、適宜ユーザからの入力を受け付けることとしてよい。
The adjustment unit 14 adjusts the number of nodes in the upper layer based on the inclusion relation of the range of the first attribute in the generated lower layer node and the node generated by the second generation unit 13.
For example, when the total number of lower-layer nodes and upper-layer nodes that have an inclusive relationship exceeds a threshold value (for example, 4), the adjusting unit 14 divides the entire range of the inclusive nodes into two. And adjust it to be the node of the upper layer. On the other hand, when the total number is less than or equal to the threshold value, the entire range of the nodes having the inclusion relation is set as one adjusted node.
It should be noted that various parameters in this processing may appropriately receive input from the user.

図3は、本実施形態に係る第2生成部13及び調整部14による上位階層の調整方法を例示する図である。
この調整方法では、第1の属性(attr)と他の属性(attr∈ATTR\{attr,attr})を元に、上位階層のノードを調整する。
FIG. 3 is a diagram illustrating an upper layer adjustment method by the second generation unit 13 and the adjustment unit 14 according to the present embodiment.
In this adjusting method, the node of the upper layer is adjusted based on the first attribute (attr f ) and another attribute (attr q εATTR \ {attr f , attr g }).

例えばattr:身長、attr:性別、attr:既往歴とし、第1生成部12により、「attr(性別)=男性」の場合に「−162(cm)」,「163−164」,「165−166」,「167」,「168」,…,「175」,「176−178」,「179−」というノードの区分け(A)ができている。
また、第2生成部13により、attr及びattrから、「attr(既往歴)=有」の場合に「−157」,「158−162」,「163−165」,「166−170」,「171−174」,「175−」というノードの区分け(B)ができている。
For example, attr f : height, attr g : gender, attr q : history, and the first generation unit 12 sets “−162 (cm)” and “163-164” when “attr g (sex) = male”. , "165-166", "167", "168", ..., "175", "176-178", "179-" are divided into nodes (A).
Further, the second generation unit 13 determines from “attr f and attr q that“ -157 ”,“ 158-162 ”,“ 163-165 ”, and“ 166-170 ”when“ attr q (history) = present ”. , "171-174", and "175-" are divided into nodes (B).

ここで、(A)の区分けと(B)の区分けとで範囲の重複が合計5区分以上ある場合は、区分を2つに分割し(X)、5区分未満の場合は区分を大きい方の1つにまとめ(Y)、この結果、上位階層のノードの区分け(C)が生成される。
これにより、例えば、「attr(性別)=男性」かつ「attr(既往歴)=有」のレコードの属性値r[attr]=172は、「171−172」に一般化される。
Here, if there is a total of 5 or more overlapping ranges in the (A) division and the (B) division, the division is divided into two (X), and in the case of less than 5 divisions, the larger division Combined into one (Y), as a result, the division (C) of the nodes in the upper hierarchy is generated.
Thereby, for example, the attribute value r p [attr f ] = 172 of the record of “attr g (sex) = male” and “attr q (history) = present” is generalized to “171-172”. .

出力部15は、全ての属性を順に選択し、調整を行った後の一般化階層木を出力する。
このとき、各階層のノードの値域(一般化した属性値)に対して、選択した属性の特定の値域を、一般化の条件として合わせて出力する。
例えば、「attr(性別)=男性」かつ「attr(既往歴)=有」のレコードの属性値r[attr]=172は、「171−172」に一般化するという情報が階層木に基づく一般化の条件として出力される。
The output unit 15 sequentially selects all the attributes and outputs the generalized hierarchical tree after adjustment.
At this time, a specific value range of the selected attribute is output as a generalization condition for the value range (generalized attribute value) of the node of each hierarchy.
For example, the attribute value r p [attr f ] = 172 of the record of “attr g (sex) = male” and “attr q (history) = present” is classified into “171-172” as a hierarchy. It is output as a condition for tree-based generalization.

図4は、本実施形態に係る生成装置1による一般化階層木の生成方法を示すフローチャートである。   FIG. 4 is a flowchart showing a method for generating a generalized hierarchical tree by the generating device 1 according to this embodiment.

ステップS1において、選択部11は、一般化階層木を生成する対象である属性attrと、他の属性それぞれとの相関を算出する。
ステップS2において、選択部11は、ステップS1で算出された相関が最大の属性attrを選択する。
In step S1, the selection unit 11 calculates the correlation between the attribute attr f that is the target for generating the generalized hierarchical tree and each of the other attributes.
In step S2, the selection unit 11 selects the attribute attr g having the maximum correlation calculated in step S1.

ステップS3において、第1生成部12は、属性attrの値域(例えば、性別の男性又は女性)毎に、一般化階層木の最下層のノードを生成する。 In step S3, the first generator 12, the range of the attribute attr g (e.g., male or female sex) for each, to produce a lowermost node of the generalized hierarchical tree.

ステップS4において、第2生成部13は、属性attr,attr以外の属性attrを選択する。
ステップS5において、第2生成部13は、属性attrの値域(例えば、既往歴の有無)毎に、一般化階層木における生成済みのノードの上位階層のノードを生成する。
In step S4, the second generation unit 13 selects an attribute attr q other than the attributes attr f and attr g .
In step S5, the second generation unit 13 generates a node in an upper layer of the generated node in the generalized hierarchical tree for each value range of the attribute attr q (for example, presence or absence of a history).

ステップS6において、調整部14は、生成済みのノードと、ステップS5で生成されたノードとの階層間における包含関係に基づいて、上位階層のノードの数及び値域を調整する。   In step S6, the adjusting unit 14 adjusts the number of nodes in the upper layer and the range based on the inclusion relationship between the layers of the generated node and the node generated in step S5.

ステップS7において、第2生成部13は、ステップS4で全ての属性を選択したか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS4に戻る。   In step S7, the second generation unit 13 determines whether or not all attributes have been selected in step S4. If this determination is YES, the process proceeds to step S8, and if the determination is NO, the process returns to step S4.

ステップS8において、出力部15は、属性attrの一般化階層木、及びこの階層木を用いる際の一般化条件を出力する。 In step S8, the output unit 15 outputs the generalized hierarchical tree of the attribute attr f and the generalized condition when using this hierarchical tree.

本実施形態によれば、生成装置1は、最も相関の大きい属性を選択することで、最下位の階層のノード数を最大にできるので、データセットの匿名化手法における一般化に伴う情報量の損失が低減される。   According to the present embodiment, the generation device 1 can maximize the number of nodes in the lowest hierarchy by selecting the attribute with the highest correlation, so that the amount of information that accompanies generalization in the anonymization method of the data set Loss is reduced.

また、生成装置1は、一般化階層木の上位階層を生成する過程において、各属性の値に応じたノードの区分けを行った後、生成済みのノードとの包含関係に基づいてノード数を調整する。したがって、生成装置1は、各属性との関連性に基づいて、適切に一般化階層木の上位階層を生成でき、匿名化手法における一般化レベルを上げた場合の情報量の損失を低減できる。   In addition, in the process of generating the upper hierarchy of the generalized hierarchy tree, the generation device 1 performs node division according to the value of each attribute, and then adjusts the number of nodes based on the inclusion relationship with the generated nodes. To do. Therefore, the generation device 1 can appropriately generate the upper hierarchy of the generalized hierarchy tree based on the association with each attribute, and can reduce the loss of information amount when the generalization level in the anonymization method is increased.

さらに、生成装置1は、ノード数を調整する過程において、包含関係にあるノード数の合計を閾値と比較することにより、調整後のノード数を決定する。したがって、生成装置1は、一般化によってノード数が減少し過ぎることによる情報量の損失を抑制できる。   Further, in the process of adjusting the number of nodes, the generation device 1 determines the adjusted number of nodes by comparing the total number of nodes having an inclusive relationship with a threshold value. Therefore, the generation device 1 can suppress the loss of the amount of information due to the excessive decrease in the number of nodes due to generalization.

また、生成装置1は、一般化階層木と共に、この階層木を用いる際の一般化条件を合わせて出力することにより、匿名化処理を効率化できる。   Moreover, the generation device 1 can improve the efficiency of the anonymization process by outputting together with the generalized hierarchical tree the generalized conditions when using this hierarchical tree.

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。   Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments. In addition, the effects described in the present embodiment are merely enumeration of the most suitable effects resulting from the present invention, and the effects according to the present invention are not limited to those described in the present embodiment.

本実施形態の生成装置1が備える各機能部は、複数の情報処理装置(コンピュータ)に分散されてもよい。また、本実施形態の機能は、複数のサーバにより負荷分散させたクラウドシステムにより提供されてもよい。   Each functional unit included in the generation device 1 of the present embodiment may be distributed to a plurality of information processing devices (computers). Further, the functions of this embodiment may be provided by a cloud system in which loads are distributed by a plurality of servers.

生成装置1による生成方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。   The generation method by the generation device 1 is realized by software. When implemented by software, a program forming the software is installed in an information processing device (computer). Further, these programs may be recorded on a removable medium such as a CD-ROM and distributed to users, or may be distributed by being downloaded to a user's computer via a network. Further, these programs may be provided to the user's computer as a Web service via the network without being downloaded.

1 生成装置
11 選択部
12 第1生成部
13 第2生成部
14 調整部
15 出力部
DESCRIPTION OF SYMBOLS 1 generation device 11 selection unit 12 first generation unit 13 second generation unit 14 adjustment unit 15 output unit

Claims (6)

複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択部と、
前記第2の属性が特定の値域である前記データセットのレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となるように、当該区分けした各値域を示す最下位の階層のノードを生成する第1生成部と、
前記最下位の階層から上位へ向かって順に、生成済みの下位階層の複数のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成部と、を備える一般化階層木の生成装置。
A selection unit for selecting the second attribute having the highest correlation with respect to the first attribute included in the data set including a plurality of attributes;
Wherein the second attribute of the record of the data set is a specific range, so the number of records contained in the first respective range within that partition the value of the attribute is a predetermined range, each was the divided A first generation unit that generates a node of the lowest hierarchy indicating a range ,
A second generation unit that integrates a plurality of nodes in the generated lower layer in order from the lowest layer to the upper layer and generates a node in the upper layer that is smaller than the number of nodes in the lower layer. Generalized hierarchical tree generator.
前記第2生成部は、未選択の属性を選択し、当該選択した属性が特定の値域である前記データセットのレコードのうち、前記第1の属性の値を区分けした前記下位階層のノードの数よりも少ない各値域内に含まれるレコード数が略均等となる前記上位階層のノードを生成し、
前記下位階層のノード及び前記上位階層のノードにおける前記第1の属性の値域の包含関係に基づいて、前記上位階層のノードの数を調整する調整部を備える請求項1に記載の一般化階層木の生成装置。
The second generation unit selects an unselected attribute, and the number of nodes in the lower layer that divides the value of the first attribute among the records of the data set in which the selected attribute is in a specific range. Generate a node in the upper hierarchy in which the number of records contained in each range less than is approximately equal,
The generalized hierarchical tree according to claim 1, further comprising an adjusting unit that adjusts the number of nodes of the upper layer based on an inclusion relation of the range of the first attribute in the node of the lower layer and the node of the upper layer. Generator.
前記調整部は、包含関係にある前記下位階層のノード及び前記上位階層のノードの合計数が閾値を超える場合、当該包含関係にあるノードの全値域を2つに分割して調整後のノードとし、前記合計数が前記閾値以下の場合、当該包含関係にあるノードの全値域を1つの調整後のノードとする請求項2に記載の一般化階層木の生成装置。   When the total number of nodes in the lower layer and nodes in the upper layer that have an inclusion relationship exceeds a threshold value, the adjustment unit divides the entire range of the nodes that have the inclusion relationship into two to make an adjusted node. The generalized hierarchical tree generation device according to claim 2, wherein when the total number is less than or equal to the threshold value, the entire range of the nodes having the inclusion relation is one adjusted node. 各階層のノードの値域に対して、選択した属性の特定の値域を、一般化の条件として出力する出力部を備える請求項1から請求項3のいずれかに記載の一般化階層木の生成装置。   The generalized hierarchical tree generation device according to claim 1, further comprising: an output unit that outputs a specific range of the selected attribute as a generalization condition with respect to a range of nodes of each hierarchy. . 選択部が複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択ステップと、
第1生成部が前記第2の属性が特定の値域である前記データセットのレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となるように、当該区分けした各値域を示す最下位の階層のノードを生成する第1生成ステップと、
第2生成部が前記最下位の階層から上位へ向かって順に、生成済みの下位階層の複数のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成ステップと、を含むコンピュータによる一般化階層木の生成方法。
A selection step of selecting part for the first attribute in the dataset including a plurality of attributes, selects the larger second attribute of highest correlation,
Of the first generating unit and the second attribute of the data set is a specific range records, as the number of records included in the first in each value range is divided the value of the attribute is a predetermined range , A first generation step of generating a node of the lowest hierarchy indicating each of the divided bins ,
A second generation in which the second generation unit integrates a plurality of nodes in the generated lower hierarchy in order from the lowest hierarchy to an upper level, and generates an upper-layer node smaller in number than the number of the lower-layer nodes. A method for generating a generalized hierarchical tree by a computer, the method including :
請求項1から請求項4のいずれかに記載の一般化階層木の生成装置としてコンピュータを機能させるための一般化階層木の生成プログラム。
A generalized hierarchical tree generation program for causing a computer to function as the generalized hierarchical tree generation device according to any one of claims 1 to 4 .
JP2016138351A 2016-07-13 2016-07-13 Generating apparatus, method and program for generalized hierarchical tree Active JP6681799B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016138351A JP6681799B2 (en) 2016-07-13 2016-07-13 Generating apparatus, method and program for generalized hierarchical tree

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016138351A JP6681799B2 (en) 2016-07-13 2016-07-13 Generating apparatus, method and program for generalized hierarchical tree

Publications (2)

Publication Number Publication Date
JP2018010453A JP2018010453A (en) 2018-01-18
JP6681799B2 true JP6681799B2 (en) 2020-04-15

Family

ID=60995517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016138351A Active JP6681799B2 (en) 2016-07-13 2016-07-13 Generating apparatus, method and program for generalized hierarchical tree

Country Status (1)

Country Link
JP (1) JP6681799B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020179606A1 (en) * 2019-03-05 2020-09-10 日本電信電話株式会社 Generalizing hierarchy set generation device, generalizing hierarchy set generation method, and program

Also Published As

Publication number Publication date
JP2018010453A (en) 2018-01-18

Similar Documents

Publication Publication Date Title
US11789978B2 (en) System and method for load, aggregate and batch calculation in one scan in a multidimensional database environment
US9437022B2 (en) Time-based visualization of the number of events having various values for a field
Yang et al. Implementation of a big data accessing and processing platform for medical records in cloud
JP6434154B2 (en) Identifying join relationships based on transaction access patterns
US20140280241A1 (en) Methods and Systems to Organize Media Items According to Similarity
US20140351285A1 (en) Platform and method for analyzing electric power system data
US10346639B2 (en) Anonymization identifier computing system
JP2013541090A5 (en)
JP7119630B2 (en) Information processing device, information exchange system, information processing method and information processing program
US20200026592A1 (en) System and method for automatic root cause analysis and automatic generation of key metrics in a multidimensional database environment
US20160140190A1 (en) Data representation
Yan et al. A weighted k-member clustering algorithm for k-anonymization
US20190243914A1 (en) Parallel query processing in a distributed analytics architecture
JP7026653B2 (en) Clustering device, clustering method and clustering program
JP6681799B2 (en) Generating apparatus, method and program for generalized hierarchical tree
Pomares-Quimbaya et al. Anonylitics: From a small data to a big data anonymization system for analytical projects
Nirmal et al. Issues of K means clustering while migrating to map reduce paradigm with big data: A survey
Dai et al. Research on personalized behaviors recommendation system based on cloud computing
KR102646588B1 (en) System and method for generating customized knowledge graph
JP6393411B2 (en) Data analysis support system and data analysis support method
Elbattah et al. Large-Scale Entity Clustering Based on Structural Similarities within Knowledge Graphs
Bhattacharjee et al. A study on seismic big data handling at seismic exploration industry
JP2016184213A (en) Method for anonymizing numeric data, and numeric data anonymization server
Tian et al. A differential privacy trajectory data storage and publishing scheme based on radix tree
JP5639094B2 (en) Database disturbance parameter determination apparatus, database disturbance system and method, and database disturbance apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190820

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200324

R150 Certificate of patent or registration of utility model

Ref document number: 6681799

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150