JP7380856B2 - Quasi-identifier determination device, quasi-identifier determination method, program - Google Patents

Quasi-identifier determination device, quasi-identifier determination method, program Download PDF

Info

Publication number
JP7380856B2
JP7380856B2 JP2022518488A JP2022518488A JP7380856B2 JP 7380856 B2 JP7380856 B2 JP 7380856B2 JP 2022518488 A JP2022518488 A JP 2022518488A JP 2022518488 A JP2022518488 A JP 2022518488A JP 7380856 B2 JP7380856 B2 JP 7380856B2
Authority
JP
Japan
Prior art keywords
attribute
quasi
identifier
attributes
attribute set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022518488A
Other languages
Japanese (ja)
Other versions
JPWO2021220402A1 (en
Inventor
聡 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021220402A1 publication Critical patent/JPWO2021220402A1/ja
Application granted granted Critical
Publication of JP7380856B2 publication Critical patent/JP7380856B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベースのデータを秘匿する技術に関する。 The present invention relates to a technique for concealing data in a database.

データベースのデータを秘匿する技術として、非特許文献1や非特許文献2のような決定的手法や、非特許文献3のような確率的手法がある。ここで、対象とするデータベースは、図1に示すようなM個(Mは2以上の整数)の属性の値で構成されるデータの組(以下、レコードという)をN個(Nは1以上の整数)含むものである。これらの手法はいずれも、レコードを一意に特定することができる、準識別子と呼ばれる属性の組み合わせを用いてデータを秘匿する技術である。 As techniques for concealing data in a database, there are deterministic methods such as Non-Patent Document 1 and Non-Patent Document 2, and probabilistic methods such as Non-Patent Document 3. Here, the target database stores N data sets (hereinafter referred to as records) consisting of M attribute values (M is an integer greater than or equal to 2) as shown in Figure 1 (N is greater than or equal to 1). (an integer of ). All of these methods are techniques for concealing data using a combination of attributes called quasi-identifiers that can uniquely identify a record.

これらの手法では、ユーザが準識別子として用いる属性を指定する必要がある。準識別子の例として、年齢、住所、性別などが知られている。準識別子として知られている属性をユーザが準識別子として指定するのは容易である。 These methods require the user to specify an attribute to be used as a quasi-identifier. Age, address, gender, etc. are known as examples of quasi-identifiers. It is easy for a user to designate an attribute known as a quasi-identifier as a quasi-identifier.

Kristen LeFevre, David J. DeWitt, and Raghu Ramakrishnan, “Incognito: Efficient Full-domain K-Anonymity,” In Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pp.49-60, 2005.Kristen LeFevre, David J. DeWitt, and Raghu Ramakrishnan, “Incognito: Efficient Full-domain K-Anonymity,” In Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pp.49-60, 2005. Florian Kohlmayer, Fabian Prasser, Claudia Eckert, Alfons Kemper, and Klaus A. Kuhn, “Flash: Efficient, Stable and Optimal K-Anonymity,” In Privacy, Security, Risk and Trust (PASSAT), 2012 International Conference on and 2012 International Confernece on Social Computing (SocialCom), pp.708-717. IEEE, 2012.Florian Kohlmayer, Fabian Prasser, Claudia Eckert, Alfons Kemper, and Klaus A. Kuhn, “Flash: Efficient, Stable and Optimal K-Anonymity,” In Privacy, Security, Risk and Trust (PASSAT), 2012 International Conference on and 2012 International Confernece on Social Computing (SocialCom), pp.708-717. IEEE, 2012. Dai Ikarashi, Ryo Kikuchi, Koji Chida, and Katsumi Takahashi, “k-anonymous Microdata Release via Post Randomization Method,” In International Workshop on Security 2015, pp.225-241, 2015.Dai Ikarashi, Ryo Kikuchi, Koji Chida, and Katsumi Takahashi, “k-anonymous Microdata Release via Post Randomization Method,” In International Workshop on Security 2015, pp.225-241, 2015.

準識別子として知られている属性以外の属性についても、準識別子として用いることができる属性が存在しうる。しかし、具体的にどの属性が準識別子として用いることができるか否かを判定することは難しい。したがって、ユーザの経験やスキルが低い場合には、本来準識別子とすべき属性が指定されずに安全性が低下するという問題が生じうる。 There may also be attributes that can be used as quasi-identifiers other than those known as quasi-identifiers. However, it is difficult to specifically determine which attributes can be used as quasi-identifiers. Therefore, if the user has low experience or skill, a problem may arise in that the attribute that should originally be used as a quasi-identifier is not specified, resulting in a decrease in security.

そこで本発明では、データベースの属性が準識別子であるか否かを判定する技術を提供することを目的とする。 Therefore, an object of the present invention is to provide a technique for determining whether or not an attribute of a database is a quasi-identifier.

本発明の一態様は、XをデータベースTの属性のうち準識別子として明確な属性の集合(以下、第1属性集合という)、YをデータベースTの属性のうち準識別子の候補となる属性の集合(以下、第2属性集合という)とし、第1属性集合Xの要素である属性と第2属性集合Yの要素である属性の組に対して、当該組の2つの属性の関係度を計算し、前記計算された関係度が大きいことを示す値である場合、前記第2属性集合Yの要素である属性を準識別子であると判定し、前記準識別子であると判定された属性を要素とする第2属性集合Yの部分集合を準識別子集合として生成する準識別子集合生成部とを含む。 One aspect of the present invention is that X is a set of attributes of a database T that are definite as quasi-identifiers (hereinafter referred to as a first attribute set), and Y is a set of attributes of a database T that are candidates for quasi-identifiers. (hereinafter referred to as the second attribute set), and for a set of an attribute that is an element of the first attribute set X and an attribute that is an element of the second attribute set Y, calculate the degree of relationship between the two attributes of the set. , when the calculated degree of relationship is a value indicating a large value, the attribute that is an element of the second attribute set Y is determined to be a quasi-identifier, and the attribute determined to be the quasi-identifier is determined to be an element. and a quasi-identifier set generation unit that generates a subset of the second attribute set Y as a quasi-identifier set.

本発明の一態様は、XをデータベースTの属性のうち準識別子として明確な属性の集合(以下、第1属性集合という)、YをデータベースTの属性のうち準識別子の候補となる属性の集合(以下、第2属性集合という)とし、第1属性集合Xの要素である属性に対して、当該属性の一様性を判定し、前記一様でないと判定された属性を要素とする第1集合Xの部分集合を第3属性集合X’として生成する第3属性集合生成部と、第3属性集合X’の要素である属性と第2属性集合Yの要素である属性の組に対して、当該組の2つの属性の関係度を計算し、前記計算された関係度が大きいことを示す値である場合、前記第2属性集合Yの要素である属性を準識別子であると判定し、前記準識別子であると判定された属性を要素とする第2属性集合Yの部分集合を準識別子集合として生成する準識別子集合生成部とを含む。 One aspect of the present invention is that X is a set of attributes of a database T that are definite as quasi-identifiers (hereinafter referred to as a first attribute set), and Y is a set of attributes of a database T that are candidates for quasi-identifiers. (hereinafter referred to as the second attribute set), the uniformity of the attribute is determined for the attributes that are elements of the first attribute set X, and the first A third attribute set generation unit that generates a subset of the set X as a third attribute set X', and a set of attributes that are elements of the third attribute set X' and attributes that are elements of the second attribute set Y. , calculates the degree of relationship between the two attributes of the set, and if the calculated degree of relationship is a value indicating that it is large, determines that the attribute that is an element of the second attribute set Y is a quasi-identifier; and a quasi-identifier set generation unit that generates, as a quasi-identifier set, a subset of the second attribute set Y whose elements are the attributes determined to be the quasi-identifiers.

本発明によれば、データベースの属性が準識別子であるか否かを判定することが可能となる。 According to the present invention, it is possible to determine whether an attribute of a database is a quasi-identifier.

データベースの一例を示す図である。It is a diagram showing an example of a database. 準識別子判定装置100の構成を示すブロック図である。1 is a block diagram showing the configuration of a quasi-identifier determination device 100. FIG. 準識別子判定装置100の動作を示すフローチャートである。3 is a flowchart showing the operation of the quasi-identifier determination device 100. データベースの一例を示す図である。It is a diagram showing an example of a database. 準識別子判定装置200の構成を示すブロック図である。2 is a block diagram showing the configuration of a quasi-identifier determination device 200. FIG. 準識別子判定装置200の動作を示すフローチャートである。3 is a flowchart showing the operation of the quasi-identifier determination device 200. 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。1 is a diagram illustrating an example of a functional configuration of a computer that implements each device in an embodiment of the present invention.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Embodiments of the present invention will be described in detail below. Note that components having the same functions are given the same numbers and redundant explanations will be omitted.

各実施形態の説明に先立って、この明細書における表記方法について説明する。 Prior to describing each embodiment, the notation method used in this specification will be explained.

^(キャレット)は上付き添字を表す。例えば、xy^zはyzがxに対する上付き添字であり、xy^zはyzがxに対する下付き添字であることを表す。また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。^ (caret) represents a superscript. For example, x y^z indicates that y z is a superscript to x, and x y^z indicates that y z is a subscript to x. Also, _ (underscore) represents a subscript. For example, x y_z indicates that y z is a superscript to x, and x y_z indicates that y z is a subscript to x.

また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。 Also, the superscripts "^" and "~" such as ^x and ~x for a certain character x should originally be written directly above "x", but the notation in the specification is Due to restrictions, they are written as ^x or ~x.

<技術的背景>
本発明の各実施形態は、データベースに対して、準識別子として明確な属性以外の属性が準識別子となる属性であるか否かを判定するものである。ここで、準識別子として明確な属性とは、例えば、年齢、住所、性別のように準識別子として知られている属性や、ユーザが準識別子として指定した属性をいう。
<Technical background>
Each embodiment of the present invention determines whether or not an attribute other than an attribute that is clear as a quasi-identifier is an attribute that can be a quasi-identifier for a database. Here, the attributes that are clear as quasi-identifiers refer to, for example, attributes known as quasi-identifiers such as age, address, and gender, or attributes specified by the user as quasi-identifiers.

以下、その判定手順について説明する。まず、データベースTに対して、準識別子として明確な属性の集合Xと、準識別子として明確な属性以外の属性であり準識別子の候補となる属性の集合Yを用意する。そして、準識別子として明確な属性x∈Xと準識別子の候補となる属性y∈Yとの関係性の強さを示す関係度を計算し、属性yが属性xと強い関係性がある(つまり、関係度が所定の閾値よりも大きい、または、所定の閾値以上である)場合、属性yは準識別子であると判定する。関係度として、例えば、相関係数を用いることができる。 The determination procedure will be explained below. First, for the database T, a set X of attributes that are clear as quasi-identifiers and a set Y of attributes that are attributes other than the clear attributes that are clear as quasi-identifiers and are candidates for quasi-identifiers are prepared. Then, the degree of relationship indicating the strength of the relationship between an attribute x∈X that is clear as a quasi-identifier and an attribute y∈Y that is a candidate for a quasi-identifier is calculated, and it is determined that attribute y has a strong relationship with attribute x (i.e. , the degree of relationship is larger than a predetermined threshold, or is greater than or equal to a predetermined threshold), the attribute y is determined to be a quasi-identifier. For example, a correlation coefficient can be used as the degree of relationship.

なお、意図しない形で関係度が計算されないようにするために、予め準識別子として明確な属性x∈Xの一様性を判定し、属性xの分布が一様である場合は属性xを関係度の計算対象から除外し、属性xの分布が一様でない場合に属性xを関係度の計算対象とするようにしてもよい。ここで、その分布が一様でない属性のことを一様でない属性ということもある。なお、一様性の判定には、統計的仮説検定を用いることができる。 In addition, in order to prevent the degree of relationship from being calculated in an unintended manner, the uniformity of a clear attribute x∈X is determined in advance as a quasi-identifier, and if the distribution of attribute x is uniform, attribute If the distribution of the attribute x is not uniform, the attribute x may be excluded from the calculation of the degree of relationship. Here, an attribute whose distribution is not uniform is sometimes referred to as an uneven attribute. Note that statistical hypothesis testing can be used to determine the uniformity.

<第1実施形態>
TをM個(Mは2以上の整数)の属性の値で構成されるデータの組であるレコードをN個(Nは1以上の整数)含むデータベース、XをデータベースTの属性のうち準識別子として明確な属性の集合(以下、第1属性集合という)、YをデータベースTの属性のうち準識別子の候補となる属性の集合(以下、第2属性集合という)とする。
<First embodiment>
T is a database containing N records (N is an integer greater than or equal to 1) that are a set of data consisting of the values of M attributes (M is an integer greater than or equal to 2), and X is a quasi-identifier among the attributes of database T. Let Y be a set of clear attributes (hereinafter referred to as the first attribute set), and Y be a set of attributes that are candidates for quasi-identifiers among the attributes of the database T (hereinafter referred to as the second attribute set).

準識別子判定装置100は、第1属性集合Xと第2属性集合Yとを入力とし、準識別子であると判定された属性を要素とする第2属性集合Yの部分集合である準識別子集合を生成し、出力する。 The quasi-identifier determination device 100 inputs the first attribute set Generate and output.

以下、図2~図3を参照して準識別子判定装置100について説明する。図2は、準識別子判定装置100の構成を示すブロック図である。図3は、準識別子判定装置100の動作を示すフローチャートである。図2に示すように準識別子判定装置100は、準識別子集合生成部120と、記録部190を含む。記録部190は、準識別子判定装置100の処理に必要な情報を適宜記録する構成部である。記録部190には、例えば、第1属性集合Xと第2属性集合Yが記録される。 The quasi-identifier determination device 100 will be described below with reference to FIGS. 2 and 3. FIG. 2 is a block diagram showing the configuration of the quasi-identifier determination device 100. FIG. 3 is a flowchart showing the operation of the quasi-identifier determination device 100. As shown in FIG. 2, the quasi-identifier determination device 100 includes a quasi-identifier set generation section 120 and a recording section 190. The recording unit 190 is a component that appropriately records information necessary for processing by the quasi-identifier determination device 100. For example, a first attribute set X and a second attribute set Y are recorded in the recording unit 190.

図3に従い準識別子判定装置100の動作について説明する。ここで、図4に示すデータベースを例に用いながら説明する。当該データベースは、性別、年齢、住所、年収(単位は万とする)、血液型という5つの属性を持つ。第1属性集合X、第2属性集合YをそれぞれX={性別, 年齢, 住所}、Y={年収, 血液型}とする。 The operation of the quasi-identifier determination device 100 will be explained according to FIG. 3. Here, explanation will be given using the database shown in FIG. 4 as an example. The database has five attributes: gender, age, address, annual income (in thousands), and blood type. Let the first attribute set X and the second attribute set Y be X={gender, age, address} and Y={annual income, blood type}, respectively.

S120において、準識別子集合生成部120は、第1属性集合Xと第2属性集合Yとを入力とし、第1属性集合Xの要素である属性と第2属性集合Yの要素である属性の組それぞれに対して、当該組の2つの属性の関係度を計算し、計算された関係度が大きいことを示す値である場合は第2属性集合Yの要素である属性を準識別子である、それ以外の場合は第2属性集合Yの要素である属性を準識別子ではないと判定し、準識別子であると判定された属性を要素とする第2属性集合Yの部分集合を準識別子集合として生成し、出力する。ここで、計算された関係度が大きいことを示す値であるとは、計算された関係度が所定の閾値より大きいか、所定の閾値以上であることをいう。 In S120, the quasi-identifier set generation unit 120 receives the first attribute set X and the second attribute set Y as input, and generates a set of attributes that are elements of the first attribute set X and attributes that are elements of the second attribute set Y. For each, calculate the degree of relationship between the two attributes of the set, and if the value indicates that the calculated degree of relationship is large, identify the attribute that is an element of the second attribute set Y as a quasi-identifier. In other cases, the attributes that are elements of the second attribute set Y are determined to be not quasi-identifiers, and a subset of the second attribute set Y whose elements are attributes determined to be quasi-identifiers is generated as a quasi-identifier set. and output. Here, the value indicating that the calculated degree of relationship is large means that the calculated degree of relationship is greater than or equal to a predetermined threshold.

2つの属性の関係度には、相関係数を用いることができる。ただし、相関係数を計算する2つの属性の種別に応じて、適切な相関係数を用いるものとする。ここで、種別には、質的属性と量的属性の2つの種別があり、質的属性とは、性別のように属性の値として数値以外の値をとる属性、量的属性とは、年齢のように属性の値として数値をとる属性のことをいう。 A correlation coefficient can be used for the degree of relationship between two attributes. However, an appropriate correlation coefficient is used depending on the types of the two attributes for which the correlation coefficient is calculated. Here, there are two types of types: qualitative attributes and quantitative attributes. Qualitative attributes are attributes that take values other than numerical values, such as gender, and quantitative attributes are age. It refers to an attribute that takes a numerical value as the attribute value, such as.

第1属性集合Xの要素である属性、第2属性集合Yの要素である属性の種別に応じて、以下のような相関係数を用いる。 The following correlation coefficients are used depending on the types of attributes that are elements of the first attribute set X and attributes that are elements of the second attribute set Y.

(1)第1属性集合Xの要素である属性、第2属性集合Yの要素である属性の両方が質的属性である場合は、クラメールの連関係数を用いて、関係度を計算する。 (1) If both the attribute that is an element of the first attribute set X and the attribute that is an element of the second attribute set Y are qualitative attributes, calculate the degree of relationship using Cramer's association coefficient. .

(2)第1属性集合Xの要素である属性、第2属性集合Yの要素である属性の両方が量的属性である場合は、ピアソン相関係数を用いて、関係度を計算する。 (2) If both the attribute that is an element of the first attribute set X and the attribute that is an element of the second attribute set Y are quantitative attributes, the degree of relationship is calculated using the Pearson correlation coefficient.

(3)第1属性集合Xの要素である属性、第2属性集合Yの要素である属性のいずれか一方が質的属性であり、もう一方が量的属性である場合は、相関比を用いて、関係度を計算する。 (3) If either the attribute that is an element of the first attribute set X or the attribute that is an element of the second attribute set Y is a qualitative attribute and the other is a quantitative attribute, use the correlation ratio. and calculate the degree of relationship.

例えば、第1属性集合Xの要素である属性が性別、第2属性集合Yの要素である属性が血液型である場合はクラメールの連関係数を用いて、第1属性集合Xの要素である属性が年齢、第2属性集合Yの要素である属性が年収である場合はピアソン相関係数を用いて、第1属性集合Xの要素である属性が住所、第2属性集合Yの要素である属性が年収である場合は相関比を用いて、関係度を計算するとよい。 For example, if the attribute that is an element of the first attribute set X is gender, and the attribute that is an element of the second attribute set Y is blood type, then using Cramer's association coefficient, If an attribute is age, and an attribute that is an element of the second attribute set Y is annual income, use the Pearson correlation coefficient, and if an attribute that is an element of the first attribute set X is address, and an element of the second attribute set Y is If a certain attribute is annual income, it is recommended to calculate the degree of relationship using a correlation ratio.

なお、相関係数は[-1, 1]の値をとりうることから、相関係数の絶対値を計算し、所定の閾値より大きい(以上である)第2属性集合Yの要素である属性を準識別子であると判定するとよい。所定の閾値は、ユーザが指定した基準であり、例えば0.7, 0.9などとするとよい。 Note that since the correlation coefficient can take a value of [-1, 1], the absolute value of the correlation coefficient is calculated, and the attributes that are elements of the second attribute set Y that are greater than (or more than) a predetermined threshold are It is preferable to determine that it is a quasi-identifier. The predetermined threshold value is a standard specified by the user, and may be, for example, 0.7, 0.9, etc.

本発明の実施形態によれば、データベースの属性が準識別子であるか否かを判定することが可能となる。特に、年齢、住所、性別のように準識別子として知られた属性以外の属性が準識別子てあるか否かを判定することができるようになる。 According to embodiments of the present invention, it is possible to determine whether an attribute of a database is a quasi-identifier. In particular, it becomes possible to determine whether a quasi-identifier includes attributes other than those known as quasi-identifiers, such as age, address, and gender.

本発明の実施形態を適用すると、特定の個人を識別することができないように個人情報を加工し、当該個人情報を復元できないようにした情報(以下、匿名加工情報という)の生成の効率化が可能となる。また、匿名加工情報の生成時におけるミスを防ぐことが可能となる。つまり、準識別子の自動生成や準識別子のデータへの加工の考慮漏れ防止などデータベースのデータを秘匿する際におけるユーザの作業を支援することが可能となる。 By applying the embodiments of the present invention, it is possible to streamline the generation of information in which personal information is processed so that a specific individual cannot be identified and the personal information cannot be recovered (hereinafter referred to as anonymously processed information). It becomes possible. Furthermore, it is possible to prevent mistakes when generating anonymously processed information. In other words, it is possible to support the user's work when concealing database data, such as automatic generation of quasi-identifiers and prevention of omissions in processing quasi-identifiers into data.

<第2実施形態>
準識別子判定装置200は、第1属性集合Xと第2属性集合Yとを入力とし、準識別子であると判定された属性を要素とする第2属性集合Yの部分集合である準識別子集合を生成し、出力する。
<Second embodiment>
The quasi-identifier determination device 200 inputs the first attribute set Generate and output.

以下、図5~図6を参照して準識別子判定装置200について説明する。図5は、準識別子判定装置200の構成を示すブロック図である。図6は、準識別子判定装置200の動作を示すフローチャートである。図5に示すように準識別子判定装置200は、第3属性集合生成部210と、準識別子集合生成部120と、記録部190を含む。記録部190は、準識別子判定装置200の処理に必要な情報を適宜記録する構成部である。 The quasi-identifier determination device 200 will be described below with reference to FIGS. 5 and 6. FIG. 5 is a block diagram showing the configuration of the quasi-identifier determination device 200. FIG. 6 is a flowchart showing the operation of the quasi-identifier determination device 200. As shown in FIG. 5, the quasi-identifier determination device 200 includes a third attribute set generation section 210, a quasi-identifier set generation section 120, and a recording section 190. The recording unit 190 is a component that appropriately records information necessary for processing by the quasi-identifier determination device 200.

図6に従い準識別子判定装置200の動作について説明する。 The operation of the quasi-identifier determination device 200 will be explained according to FIG. 6.

S210において、第3属性集合生成部210は、第1属性集合Xを入力とし、第1属性集合Xの要素である属性それぞれに対して、当該属性の一様性を判定し、一様でないと判定された属性を要素とする第1集合Xの部分集合を第3属性集合X’として生成し、出力する。 In S210, the third attribute set generation unit 210 receives the first attribute set X as input, determines the uniformity of each attribute that is an element of the first attribute set A subset of the first set X having the determined attributes as elements is generated as a third attribute set X' and output.

一様性の判定には、統計的仮説検定を用いることができる。統計的仮説検定を用いる一様性の判定では、「一様な分布と判定対象となる属性の分布とが関連性がある」という帰無仮説を立て、それが起きる確率を計算し、指定する有意水準(例えば0.05, 0.01)を下回った場合その帰無仮説を棄却することで、判定対象となる属性の分布は一様な分布との関連がないとする。なお、判定対象となる属性の種別に応じて、適切な統計的仮説検定を用いるものとする。 Statistical hypothesis testing can be used to determine uniformity. When determining uniformity using statistical hypothesis testing, a null hypothesis is established that ``the uniform distribution and the distribution of the attribute to be determined are related,'' and the probability of this occurring is calculated and specified. If the value falls below a significance level (for example, 0.05, 0.01), the null hypothesis is rejected, and it is assumed that the distribution of the attribute to be determined has no relation to a uniform distribution. Note that an appropriate statistical hypothesis test is used depending on the type of attribute to be determined.

第1属性集合Xの要素である属性の種別に応じて、以下のような統計的仮説検定を一様性の判定に用いる。 Depending on the type of attribute that is an element of the first attribute set X, the following statistical hypothesis test is used to determine uniformity.

(1)第1属性集合Xの要素である属性が質的属性である場合は、カイ二乗検定またはフィッシャー正確確率検定を用いて、一様性を判定する。 (1) If the attribute that is an element of the first attribute set X is a qualitative attribute, uniformity is determined using a chi-square test or a Fisher exact test.

(2)第1属性集合Xの要素である属性が量的属性である場合は、コルモゴロフ‐スミルノフテスト(Kolmogorov-Smirnov test)を用いて、一様性を判定する。 (2) If the attribute that is an element of the first attribute set X is a quantitative attribute, uniformity is determined using the Kolmogorov-Smirnov test.

例えば、第1属性集合Xの要素である属性が性別である場合はカイ二乗検定を用いて、第1属性集合Xの要素である属性が年齢である場合はコルモゴロフ‐スミルノフテストを用いて、一様性を判定するするとよい。 For example, if the attribute that is an element of the first attribute set X is gender, use the chi-square test, and if the attribute that is the element of the first attribute set It is a good idea to judge the condition.

以下、一様性の判定の結果、第3属性集合X’としてX'={性別, 年齢}が得られたものとする。 In the following, it is assumed that X'={gender, age} is obtained as the third attribute set X' as a result of the uniformity determination.

S120において、準識別子集合生成部120は、第3属性集合X’と第2属性集合Yとを入力とし、第3属性集合X’の要素である属性と第2属性集合Yの要素である属性の組それぞれに対して、当該組の2つの属性の関係度を計算し、計算された関係度が大きいことを示す値である場合は第2属性集合Yの要素である属性を準識別子である、それ以外の場合は第2属性集合Yの要素である属性を準識別子ではないと判定し、準識別子であると判定された属性を要素とする第2属性集合Yの部分集合を準識別子集合として生成し、出力する。 In S120, the quasi-identifier set generation unit 120 inputs the third attribute set X' and the second attribute set Y, and generates an attribute that is an element of the third attribute set X' and an attribute that is an element of the second attribute set Y. For each pair, calculate the degree of relationship between the two attributes of the pair, and if the value indicates that the calculated degree of relationship is large, the attribute that is an element of the second attribute set Y is a quasi-identifier. , otherwise, the attributes that are elements of the second attribute set Y are determined to be not quasi-identifiers, and a subset of the second attribute set Y whose elements are attributes determined to be quasi-identifiers is set as a quasi-identifier set. Generate and output as .

なお、第3属性集合X’の要素である属性や第2属性集合Yの要素である属性の種別に応じて、以下のような相関係数を用いる。 Note that the following correlation coefficients are used depending on the types of attributes that are elements of the third attribute set X' and attributes that are elements of the second attribute set Y.

(1)第3属性集合X’の要素である属性、第2属性集合Yの要素である属性の両方が質的属性である場合は、クラメールの連関係数を用いて、関係度を計算する。 (1) If both the attribute that is an element of the third attribute set X' and the attribute that is an element of the second attribute set Y are qualitative attributes, use Cramer's association coefficient to calculate the degree of relationship. do.

(2)第3属性集合X’の要素である属性、第2属性集合Yの要素である属性の両方が量的属性である場合は、ピアソン相関係数を用いて、関係度を計算する。 (2) If both the attribute that is an element of the third attribute set X' and the attribute that is an element of the second attribute set Y are quantitative attributes, the degree of relationship is calculated using the Pearson correlation coefficient.

(3)第3属性集合X’の要素である属性、第2属性集合Yの要素である属性のいずれか一方が質的属性であり、もう一方が量的属性である場合は、相関比を用いて、関係度を計算する。 (3) If either the attribute that is an element of the third attribute set X' or the attribute that is an element of the second attribute set Y is a qualitative attribute and the other is a quantitative attribute, calculate the correlation ratio. Use this to calculate the degree of relationship.

本発明の実施形態によれば、データベースの属性が準識別子であるか否かを判定することが可能となる。特に、年齢、住所、性別のように準識別子として知られた属性以外の属性が準識別子てあるか否かを判定することができるようになる。 According to embodiments of the present invention, it is possible to determine whether an attribute of a database is a quasi-identifier. In particular, it becomes possible to determine whether a quasi-identifier includes attributes other than those known as quasi-identifiers, such as age, address, and gender.

また、第1属性集合Xの要素である属性に対して一様性の判定を行い、一様な分布であると判定された属性を除外した第1属性集合Xの部分集合である第3属性集合X’を用いて第2属性集合Yの要素である属性が準識別子であるか否かを判定することにより、誤判定を減らすことが可能となる。以下、詳しく説明する。一般に、ユーザが予め把握している準識別子と準識別子の候補属性との相関を単に測るだけでは誤判定を生んでしまうことがある。例えば、町域まで含む形で住所という属性を定義する場合、当該属性の値はユニークになりやすく、住所は一様性を持つ属性となる。このように属性の値がユニークになる属性間の相関係数は非常に高くなる傾向があるが、これは単に2つの属性の属性値がユニークになる属性であったために相関が高くなっただけであり、本質的に相関が高いのではないため、準識別子と判定するのは適切ではない。このような理由から属性の値がユニークになる属性であるかを予め一様性をもって判定し、誤判定を減らすようにしている。 Further, uniformity is determined for attributes that are elements of the first attribute set X, and attributes that are determined to have a uniform distribution are excluded, and a third attribute that is a subset of the first attribute set By using the set X' to determine whether an attribute that is an element of the second attribute set Y is a quasi-identifier, it is possible to reduce misjudgments. This will be explained in detail below. In general, simply measuring the correlation between a quasi-identifier that the user knows in advance and a candidate attribute of the quasi-identifier may result in an erroneous determination. For example, when an attribute called an address is defined to include a town area, the value of the attribute is likely to be unique, and the address is a uniform attribute. In this way, the correlation coefficient between attributes that have unique attribute values tends to be very high, but this is simply because the two attributes have unique attribute values, so the correlation is high. Since the correlation is not inherently high, it is not appropriate to judge it as a quasi-identifier. For this reason, it is uniformly determined in advance whether the value of an attribute is a unique attribute to reduce false determinations.

<補記>
図7は、上述の各装置(つまり、各ノード)を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
<Addendum>
FIG. 7 is a diagram showing an example of the functional configuration of a computer that implements each of the above-described devices (that is, each node). The processing in each of the above-mentioned devices can be carried out by having the recording section 2020 read a program for causing the computer to function as each of the above-mentioned devices, and causing the control section 2010, input section 2030, output section 2040, etc. to operate the program.

本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。 The device of the present invention includes, as a single hardware entity, an input section to which a keyboard or the like can be connected, an output section to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating with the outside of the hardware entity. A communication unit that can be connected to a CPU (Central Processing Unit, which may include cache memory, registers, etc.), RAM and ROM that are memories, external storage devices that are hard disks, and their input units, output units, and communication units. , CPU, RAM, ROM, and an external storage device. Further, if necessary, the hardware entity may be provided with a device (drive) that can read and write a recording medium such as a CD-ROM. A physical entity with such hardware resources includes a general-purpose computer.

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。 The external storage device of the hardware entity stores the program required to realize the above-mentioned functions and the data required for processing this program (not limited to the external storage device, for example, when reading the program (It may be stored in a ROM, which is a dedicated storage device.) Further, data obtained through processing of these programs is appropriately stored in a RAM, an external storage device, or the like.

ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。 In the hardware entity, each program stored in an external storage device (or ROM, etc.) and the data necessary for processing each program are read into memory as necessary, and are interpreted and executed and processed by the CPU as appropriate. . As a result, the CPU realizes a predetermined function (each of the components expressed as . . . units, . . . means, etc.).

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。 The present invention is not limited to the above-described embodiments, and can be modified as appropriate without departing from the spirit of the present invention. Further, the processes described in the above embodiments may not only be executed in chronological order according to the order described, but may also be executed in parallel or individually depending on the processing capacity of the device that executes the processes or as necessary. .

既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。 As described above, when the processing functions of the hardware entity (device of the present invention) described in the above embodiments are realized by a computer, the processing contents of the functions that the hardware entity should have are described by a program. By executing this program on a computer, the processing functions of the hardware entity are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 A program describing the contents of this process can be recorded on a computer-readable recording medium. The computer-readable recording medium may be of any type, such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, magnetic recording devices include hard disk drives, flexible disks, magnetic tapes, etc., and optical disks include DVDs (Digital Versatile Discs), DVD-RAMs (Random Access Memory), and CD-ROMs (Compact Disc Read Only). Memory), CD-R (Recordable)/RW (ReWritable), etc. as magneto-optical recording media, MO (Magneto-Optical disc), etc. as semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 Further, this program is distributed by, for example, selling, transferring, lending, etc. a portable recording medium such as a DVD or CD-ROM on which the program is recorded. Furthermore, this program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program, for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing a process, this computer reads a program stored in its own storage device and executes a process according to the read program. In addition, as another form of execution of this program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and furthermore, the program may be transferred to this computer from the server computer. The process may be executed in accordance with the received program each time. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service, which does not transfer programs from the server computer to this computer, but only realizes processing functions by issuing execution instructions and obtaining results. You can also use it as Note that the program in this embodiment includes information that is used for processing by an electronic computer and that is similar to a program (data that is not a direct command to the computer but has a property that defines the processing of the computer, etc.).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the hardware entity is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be implemented in hardware.

上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。 The foregoing description of embodiments of the invention has been presented for purposes of illustration and description. There is no intent to be exhaustive or to limit the invention to the precise form disclosed. Modifications and variations are possible in light of the above teachings. The embodiments are intended to provide the best illustration of the principles of the invention, and those skilled in the art will be able to explain the invention in various embodiments and in various ways as appropriate for contemplated practical use. It was chosen and expressed so that it can be used with additional transformations. All such modifications and variations are within the scope of the invention as defined by the appended claims, interpreted in accordance with the breadth to which they are fairly and legally entitled.

Claims (8)

XをデータベースTの属性のうち準識別子として明確な属性の集合(以下、第1属性集合という)、YをデータベースTの属性のうち準識別子の候補となる属性の集合(以下、第2属性集合という)とし、
第1属性集合Xの要素である属性と第2属性集合Yの要素である属性の組に対して、当該組の2つの属性の関係度を計算し、前記計算された関係度が大きいことを示す値である場合、前記第2属性集合Yの要素である属性を準識別子であると判定し、前記準識別子であると判定された属性を要素とする第2属性集合Yの部分集合を準識別子集合として生成する準識別子集合生成部と
を含む準識別子判定装置。
X is a set of attributes in database T that are definite as quasi-identifiers (hereinafter referred to as the first attribute set), and Y is a set of attributes in database T that are candidates for quasi-identifiers (hereinafter referred to as the second attribute set). ) and
For a set of an attribute that is an element of the first attribute set If the value is a value that indicates, the attribute that is an element of the second attribute set Y is determined to be a quasi-identifier, and a subset of the second attribute set Y whose elements are the attributes determined to be the quasi-identifier is quasi-identified. A quasi-identifier determination device comprising: a quasi-identifier set generation unit that generates an identifier set;
請求項1に記載の準識別子判定装置であって、
前記準識別子集合生成部は、
第1属性集合Xの要素である属性、第2属性集合Yの要素である属性の両方が質的属性である場合は、クラメールの連関係数を用いて、関係度を計算し、
第1属性集合Xの要素である属性、第2属性集合Yの要素である属性の両方が量的属性である場合は、ピアソン相関係数を用いて、関係度を計算し、
第1属性集合Xの要素である属性、第2属性集合Yの要素である属性のいずれか一方が質的属性であり、もう一方が量的属性である場合は、相関比を用いて、関係度を計算する
ことを特徴とする準識別子判定装置。
The quasi-identifier determination device according to claim 1,
The quasi-identifier set generation unit is
If both the attribute that is an element of the first attribute set X and the attribute that is an element of the second attribute set Y are qualitative attributes, the degree of relationship is calculated using Cramer's association coefficient,
If both the attribute that is an element of the first attribute set X and the attribute that is an element of the second attribute set Y are quantitative attributes, the degree of relationship is calculated using the Pearson correlation coefficient,
If one of the attributes that is an element of the first attribute set X and the attribute that is an element of the second attribute set Y is a qualitative attribute and the other is a quantitative attribute, the relationship is A quasi-identifier determination device characterized by calculating a degree.
XをデータベースTの属性のうち準識別子として明確な属性の集合(以下、第1属性集合という)、YをデータベースTの属性のうち準識別子の候補となる属性の集合(以下、第2属性集合という)とし、
第1属性集合Xの要素である属性に対して、当該属性の一様性を判定し、前記一様でないと判定された属性を要素とする第1集合Xの部分集合を第3属性集合X’として生成する第3属性集合生成部と、
第3属性集合X’の要素である属性と第2属性集合Yの要素である属性の組に対して、当該組の2つの属性の関係度を計算し、前記計算された関係度が大きいことを示す値である場合、前記第2属性集合Yの要素である属性を準識別子であると判定し、前記準識別子であると判定された属性を要素とする第2属性集合Yの部分集合を準識別子集合として生成する準識別子集合生成部と
を含む準識別子判定装置。
X is a set of attributes in database T that are definite as quasi-identifiers (hereinafter referred to as the first attribute set), and Y is a set of attributes in database T that are candidates for quasi-identifiers (hereinafter referred to as the second attribute set). ) and
For the attributes that are elements of the first attribute set X, the uniformity of the attributes is determined, and a subset of the first set '; a third attribute set generation unit that generates
For a set of an attribute that is an element of the third attribute set X' and an attribute that is an element of the second attribute set Y, the degree of relationship between the two attributes of the set is calculated, and the calculated degree of relationship is large. , the attribute that is an element of the second attribute set Y is determined to be a quasi-identifier, and a subset of the second attribute set Y whose elements are the attributes determined to be the quasi-identifier is determined. A quasi-identifier determination device comprising: a quasi-identifier set generation unit that generates a quasi-identifier set;
請求項3に記載の準識別子判定装置であって、
前記第3属性集合生成部は、統計的仮説検定を用いて、一様性を判定する
ことを特徴とする準識別子判定装置。
The quasi-identifier determination device according to claim 3,
The quasi-identifier determination device, wherein the third attribute set generation unit determines uniformity using statistical hypothesis testing.
請求項4に記載の準識別子判定装置であって、
前記第3属性集合生成部は、
第1属性集合Xの要素である属性が質的属性である場合は、カイ二乗検定またはフィッシャー正確確率検定を用いて、一様性を判定し、
第1属性集合Xの要素である属性が量的属性である場合は、コルモゴロフ‐スミルノフテストを用いて、一様性を判定する
ことを特徴とする準識別子判定装置。
The quasi-identifier determination device according to claim 4,
The third attribute set generation unit includes:
If the attribute that is an element of the first attribute set X is a qualitative attribute, use the chi-square test or Fisher exact test to determine the uniformity,
A quasi-identifier determination device characterized in that when an attribute that is an element of a first attribute set X is a quantitative attribute, uniformity is determined using a Kolmogorov-Smirnov test.
請求項3に記載の準識別子判定装置であって、
前記準識別子集合生成部は、
第3属性集合X’の要素である属性、第2属性集合Yの要素である属性の両方が質的属性である場合は、クラメールの連関係数を用いて、関係度を計算し、
第3属性集合X’の要素である属性、第2属性集合Yの要素である属性の両方が量的属性である場合は、ピアソン相関係数を用いて、関係度を計算し、
第3属性集合X’の要素である属性、第2属性集合Yの要素である属性のいずれか一方が質的属性であり、もう一方が量的属性である場合は、相関比を用いて、関係度を計算する
ことを特徴とする準識別子判定装置。
The quasi-identifier determination device according to claim 3,
The quasi-identifier set generation unit is
If both the attribute that is an element of the third attribute set X' and the attribute that is an element of the second attribute set Y are qualitative attributes, the degree of relationship is calculated using Cramer's association coefficient,
If both the attribute that is an element of the third attribute set X' and the attribute that is an element of the second attribute set Y are quantitative attributes, the degree of relationship is calculated using the Pearson correlation coefficient,
If one of the attributes that is an element of the third attribute set X' and the attribute that is an element of the second attribute set Y is a qualitative attribute and the other is a quantitative attribute, using the correlation ratio, A quasi-identifier determination device characterized by calculating a degree of relationship.
XをデータベースTの属性のうち準識別子として明確な属性の集合(以下、第1属性集合という)、YをデータベースTの属性のうち準識別子の候補となる属性の集合(以下、第2属性集合という)とし、
準識別子判定装置が、第1属性集合Xの要素である属性と第2属性集合Yの要素である属性の組に対して、当該組の2つの属性の関係度を計算し、前記計算された関係度が大きいことを示す値である場合、前記第2属性集合Yの要素である属性を準識別子であると判定し、前記準識別子であると判定された属性を要素とする第2属性集合Yの部分集合を準識別子集合として生成する準識別子集合生成ステップと
を含む準識別子判定方法。
X is a set of attributes in database T that are definite as quasi-identifiers (hereinafter referred to as the first attribute set), and Y is a set of attributes in database T that are candidates for quasi-identifiers (hereinafter referred to as the second attribute set). ) and
The quasi-identifier determination device calculates the degree of relationship between the two attributes of the set for a set of an attribute that is an element of the first attribute set X and an attribute that is an element of the second attribute set Y, and If the value indicates that the degree of relationship is large, the attribute that is an element of the second attribute set Y is determined to be a quasi-identifier, and a second attribute set whose elements are the attributes determined to be the quasi-identifier. A quasi-identifier determination method comprising: a quasi-identifier set generation step of generating a subset of Y as a quasi-identifier set.
請求項1ないし6のいずれか1項に記載の準識別子判定装置としてコンピュータを機能させるためのプログラム。 A program for causing a computer to function as the quasi-identifier determination device according to claim 1.
JP2022518488A 2020-04-28 2020-04-28 Quasi-identifier determination device, quasi-identifier determination method, program Active JP7380856B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/018125 WO2021220402A1 (en) 2020-04-28 2020-04-28 Quasi-identifier determination device, quasi-identifier determination method, and program

Publications (2)

Publication Number Publication Date
JPWO2021220402A1 JPWO2021220402A1 (en) 2021-11-04
JP7380856B2 true JP7380856B2 (en) 2023-11-15

Family

ID=78373461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022518488A Active JP7380856B2 (en) 2020-04-28 2020-04-28 Quasi-identifier determination device, quasi-identifier determination method, program

Country Status (2)

Country Link
JP (1) JP7380856B2 (en)
WO (1) WO2021220402A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127216A2 (en) 2009-05-01 2010-11-04 Telcodia Technologies, Inc. Automated determination of quasi-identifiers using program analysis
US20120036135A1 (en) 2010-08-03 2012-02-09 Accenture Global Services Gmbh Database anonymization for use in testing database-centric applications
JP2017027137A (en) 2015-07-16 2017-02-02 日本電気株式会社 Information processing device, information processing method, and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010127216A2 (en) 2009-05-01 2010-11-04 Telcodia Technologies, Inc. Automated determination of quasi-identifiers using program analysis
US20110119661A1 (en) 2009-05-01 2011-05-19 Telcordia Technologies, Inc. Automated Determination of Quasi-Identifiers Using Program Analysis
US20120036135A1 (en) 2010-08-03 2012-02-09 Accenture Global Services Gmbh Database anonymization for use in testing database-centric applications
JP2017027137A (en) 2015-07-16 2017-02-02 日本電気株式会社 Information processing device, information processing method, and program

Also Published As

Publication number Publication date
WO2021220402A1 (en) 2021-11-04
JPWO2021220402A1 (en) 2021-11-04

Similar Documents

Publication Publication Date Title
US12056583B2 (en) Target variable distribution-based acceptance of machine learning test data sets
US20120131387A1 (en) Managing automated and manual application testing
JP2013045379A (en) Storage control method, information processing device and program
US11562078B2 (en) Assessing and managing computational risk involved with integrating third party computing functionality within a computing system
US20210216231A1 (en) Method, electronic device and computer program product for rebuilding disk array
US9411513B2 (en) Sensitive data file attribute
US11321002B2 (en) Converting a virtual volume between volume types
JP7380856B2 (en) Quasi-identifier determination device, quasi-identifier determination method, program
JP2017073022A (en) Anonymization device, anonymization method, and program
US10303882B2 (en) Implementing locale management on PaaS: locale replacement risk analysis
US9542120B2 (en) Systems and methods for processing instructions while repairing and providing access to a copied volume of data
KR102416336B1 (en) Device, method, system and computer readable storage medium for managing blockchain
KR101643278B1 (en) Method, apparatus, and computer program stored in computer readable medium for managing storage server in database system
JP2016184213A (en) Method for anonymizing numeric data, and numeric data anonymization server
US20220004544A1 (en) Anonymity evaluation apparatus, anonymity evaluation method, and program
US11972021B2 (en) Anonymization apparatus, anonymization method, and program
JP7405248B2 (en) Anonymized database generation device, anonymized database generation method, program
US11533315B2 (en) Data transfer discovery and analysis systems and related methods
JP7057564B2 (en) Classifier generator, hypothesis tester, classifier generator, hypothesis test method, program
JP7355232B2 (en) Attribute estimation device, attribute estimation method, program
CN107766196A (en) The method and apparatus of start-up check is carried out to computing device
JP6505574B2 (en) Disturbance data reconstruction device, disturbance data reconstruction method, program
JP2021051586A (en) Data processing method, and data processing program
US20140129546A1 (en) Incremental calculation by auto detection of changes to data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231016

R150 Certificate of patent or registration of utility model

Ref document number: 7380856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150