JP5914291B2 - Transition probability calculation device, total value calculation device, transition probability calculation method, total value calculation method - Google Patents

Transition probability calculation device, total value calculation device, transition probability calculation method, total value calculation method Download PDF

Info

Publication number
JP5914291B2
JP5914291B2 JP2012230230A JP2012230230A JP5914291B2 JP 5914291 B2 JP5914291 B2 JP 5914291B2 JP 2012230230 A JP2012230230 A JP 2012230230A JP 2012230230 A JP2012230230 A JP 2012230230A JP 5914291 B2 JP5914291 B2 JP 5914291B2
Authority
JP
Japan
Prior art keywords
section
value
transition probability
subdivided
subdivision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012230230A
Other languages
Japanese (ja)
Other versions
JP2014081844A (en
Inventor
大 五十嵐
大 五十嵐
亮 菊池
亮 菊池
千田 浩司
浩司 千田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012230230A priority Critical patent/JP5914291B2/en
Publication of JP2014081844A publication Critical patent/JP2014081844A/en
Application granted granted Critical
Publication of JP5914291B2 publication Critical patent/JP5914291B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データベースのデータを秘匿するセキュリティ技術に関する。   The present invention relates to a security technique for concealing database data.

データベースにおいて、確率的な手法により秘匿された個別データ群から統計値を算出するためには、秘匿の際のルールである遷移確率を用いている。そして、遷移確率を算出する方法としては、非特許文献1の5.1節に示された方法が知られている。また、連続値である数値属性を秘匿化する方法としては、非特許文献2に示された方法が知られている。   In the database, in order to calculate a statistical value from an individual data group concealed by a probabilistic method, a transition probability that is a rule for concealment is used. As a method for calculating the transition probability, the method shown in Section 5.1 of Non-Patent Document 1 is known. As a method for concealing a numerical attribute that is a continuous value, a method disclosed in Non-Patent Document 2 is known.

五十嵐大,千田浩司,高橋克巳,“多値属性に適用可能な効率的プライバシー保護クロス集計”,CSS2008,2008年.Igarashi Univ., Koji Senda, Katsumi Takahashi, “Efficient Privacy Protection Cross Tabulation Applicable to Multi-valued Attributes”, CSS2008, 2008. 五十嵐大,千田浩司,高橋克巳,“数値属性における、k−匿名性を満たすランダム化手法”,CSS2011,2011年.University of Igarashi, Koji Senda, Katsumi Takahashi, “Randomization method satisfying k-anonymity in numerical attributes”, CSS2011, 2011.

しかしながら、非特許文献1に示された技術は属性値が離散的な場合には使用できるが、属性値が連続的な場合には使用できないという課題がある。本発明は、連続的な属性値を含むデータベースに対して、秘匿された個別データ群から統計値を算出するための遷移確率を求める技術を提供することを目的とする。   However, the technique disclosed in Non-Patent Document 1 can be used when the attribute value is discrete, but cannot be used when the attribute value is continuous. An object of this invention is to provide the technique which calculates | requires the transition probability for calculating a statistics value from the individual data group concealed with respect to the database containing a continuous attribute value.

本発明の遷移確率算出装置は、細分化部、集計値情報部、細分確率計算部、統合部を備え、連続値を取る属性値を含むレコードを複数有するデータベースのデータを秘匿する際の属性値が遷移する確率を求める。まず、Avuは属性値vが属性値uに遷移する確率密度関数、Jは属性値が取り得る値域の一部である値Gminから値Gmaxの区間、Kは属性値が取り得る値域の一部の区間、AJKは区間Jに含まれる属性値が区間Kに含まれる属性値に遷移する遷移確率、Mは2以上の整数、mは0以上M−1以下の整数、j,…,jM−1は区間JをM個に細分化した区間、Nは区間Jに属性値が含まれるレコードの数、Njmは区間jに属性値が含まれるレコードの数、gは値Gmin、gは値Gmax、mが1以上M−1以下のときはgは区間jm-1と区間jとの区切りとなる属性値、g<g<・・・<gとする。細分化部は、区間JをM個に細分化し、細分化した区間j,…,jM−1を求める。集計値情報部は、数Nと数Nj0,…,NjM−1を求める。細分確率計算部は、細分確率pThe transition probability calculation device of the present invention includes a subdivision unit, a total value information unit, a subdivision probability calculation unit, and an integration unit, and attribute values for concealing data in a database having a plurality of records including attribute values that take continuous values Find the probability of the transition. First, A vu is a probability density function in which the attribute value v transitions to the attribute value u, J is a range from a value G min to a value G max that is a part of a value range that the attribute value can take, and K is a value range that the attribute value can take A JK is a transition probability that an attribute value included in the section J transitions to an attribute value included in the section K, M is an integer of 2 or more, m is an integer of 0 to M-1, and j 0 ,..., J M-1 is a section obtained by subdividing the section J into M pieces, N J is the number of records whose attribute value is included in the section J, N jm is the number of records whose attribute value is included in the section j m , g 0 is a value G min , g M is a value G max , and when m is 1 or more and M−1 or less, g m is an attribute value that delimits the section j m−1 and the section j m, and g 0 <g 1 <... <g M. The subdivision section subdivides the section J into M pieces, and obtains subdivided sections j 0 ,..., J M−1 . The total value information part obtains the number N J and the numbers N j0 ,..., N jM−1 . The subdivision probability calculation unit calculates the subprobability p m

Figure 0005914291
Figure 0005914291

のように求める。統合部は、遷移確率AJKSeek like. The integration unit uses the transition probability A JK

Figure 0005914291
Figure 0005914291

のように求める。   Seek like.

本発明の集計値算出装置は、本発明の遷移確率算出装置を備え、さらに区間設定部と集計値更新部も備える。そして、区間設定部が、属性値のすべての値域が設定されるように順次区間Jを設定し、細分化部が設定された区間Jを細分化して細分化した区間を求め、集計値情報部がそれぞれの設定での細分化した区間に属性値が含まれるレコードの数を求めて細分化した区間の集計値とする。次に、区間設定部が、属性値のすべての値域の組み合わせが設定されるように順次区間Jと区間Kを設定し、細分化部が設定された区間Jを細分化して細分化した区間を求め、細分確率計算部が、設定された区間Jと区間Kについて、細分確率p,…,pM−1を求め、統合部が、細分化した区間の集計値と細分確率p,…,pM−1を用いて遷移確率AJKを求める。そして、集計値更新部が、属性値のすべての値域の組み合わせが設定されるように順次設定された区間Jと区間Kのそれぞれの遷移確率AJKを遷移確率行列の各要素とし、逆行列手法または反復ベイズ手法によって細分化した区間に属性値が含まれるレコードの数を更新し、新しい細分化した区間の集計値とする。区間Jのレコードの数は、区間Jに含まれる細分化した区間のレコード数を合計して求める。 The total value calculation device of the present invention includes the transition probability calculation device of the present invention, and further includes a section setting unit and a total value update unit. Then, the section setting unit sequentially sets the section J so that all value ranges of the attribute values are set, subdivides the section J in which the subdivision unit is set, obtains a subdivided section, and the total value information section The number of records in which attribute values are included in the subdivided sections in each setting is obtained and used as the aggregated value of the subdivided sections. Next, the section setting unit sequentially sets the section J and the section K so that all combinations of attribute values are set, and subdivides the section J set by the subdivision section into subdivided sections. Then, the subdivision probability calculation unit obtains subdivision probabilities p 0 ,..., P M−1 for the set sections J and K, and the integration unit calculates the aggregated values and subdivision probabilities p 0 ,. , P M−1 to obtain the transition probability A JK . Then, the aggregate value update unit uses the transition probabilities A JK of the sections J and K sequentially set so that combinations of all the range of attribute values are set as each element of the transition probability matrix, and an inverse matrix method Alternatively, the number of records whose attribute values are included in the segment subdivided by the iterative Bayes technique is updated to be the aggregate value of the new subdivided segment. The number of records in the section J is obtained by totaling the number of records in the subdivided sections included in the section J.

本発明の遷移確率算出装置では、連続的な属性値の値域を有限個の区間に区切り、各区間に含まれる属性値の数を用いるので、連続的な遷移確率密度関数ではなく、遷移確率を求めることができる。また、本発明の集計値算出装置は、求めた遷移確率を遷移確率行列の要素とするので、非特許文献1の技術(逆行列手法または反復ベイズ手法)を利用して秘匿された個別データ群から統計値を算出できる。   In the transition probability calculation apparatus of the present invention, the range of continuous attribute values is divided into a finite number of sections, and the number of attribute values included in each section is used. Therefore, the transition probability is not a continuous transition probability density function. Can be sought. Moreover, since the total value calculation apparatus of this invention uses the calculated | required transition probability as an element of a transition probability matrix, the individual data group concealed using the technique (inverse matrix method or iterative Bayes method) of nonpatent literature 1 Statistical values can be calculated from

実施例1の遷移確率算出装置の機能構成例を示す図。FIG. 3 is a diagram illustrating a functional configuration example of a transition probability calculation apparatus according to the first embodiment. 実施例1の遷移確率算出装置の処理フローを示す図。The figure which shows the processing flow of the transition probability calculation apparatus of Example 1. FIG. 本発明の集計値算出装置の機能構成例、実施例2の遷移確率算出装置の機能構成例を示す図。The function structural example of the total value calculation apparatus of this invention and the figure which shows the functional structural example of the transition probability calculation apparatus of Example 2 are shown. 本発明の集計値算出装置の処理フローを示す図。The figure which shows the processing flow of the total value calculation apparatus of this invention. 実施例2の遷移確率算出装置の処理フローを示す図。The figure which shows the processing flow of the transition probability calculation apparatus of Example 2. FIG.

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.

図1に実施例1の遷移確率算出装置の機能構成例を、図2に実施例1の遷移確率算出装置の処理フローを示す。実施例1の遷移確率算出装置は、連続値を取る属性値を含むレコードを複数有するデータベース900のデータを秘匿する際の属性値が遷移する確率を求める。レコードとは、いくつかのあらかじめ定められた項目に対する値からなる。属性とは各項目のことであり、属性値とは各項目の値である。属性値が離散的な属性とは、例えば“性別”や“年齢”などであり、属性値が連続値を取る属性とは、例えば“身長”や“体重”などである。   FIG. 1 shows a functional configuration example of the transition probability calculation apparatus according to the first embodiment, and FIG. 2 shows a processing flow of the transition probability calculation apparatus according to the first embodiment. The transition probability calculation apparatus according to the first embodiment obtains a probability that an attribute value changes when concealing data in the database 900 having a plurality of records including attribute values that take continuous values. A record consists of values for several predetermined items. The attribute is each item, and the attribute value is the value of each item. An attribute having discrete attribute values is, for example, “sex” or “age”, and an attribute having a continuous attribute value is, for example, “height” or “weight”.

実施例1の遷移確率算出装置100は、データベース900とネットワークで接続されており、細分化部110、集計値情報部120、細分確率計算部130、統合部140、記録部190を備える。まず、Avuは属性値vが属性値uに遷移する確率密度関数、Jは属性値が取り得る値域の一部である値Gminから値Gmaxの区間、Kは属性値が取り得る値域の一部の区間、AJKは区間Jに含まれる属性値が区間Kに含まれる属性値に遷移する遷移確率、Mは2以上の整数、mは0以上M−1以下の整数、j,…,jM−1は区間JをM個に細分化した区間、Nは区間Jに属性値が含まれるレコードの数、Njmは区間jに属性値が含まれるレコードの数、gは値Gmin、gは値Gmax、mが1以上M−1以下のときはgは区間jm-1と区間jとの区切りとなる属性値、g<g<・・・<gとする。なお、属性値gは区間jm-1と区間jのどちらかの区間に属していれば、どちらの区間に属することにしてもよい。 The transition probability calculation apparatus 100 according to the first embodiment is connected to the database 900 via a network, and includes a subdivision unit 110, a total value information unit 120, a subdivision probability calculation unit 130, an integration unit 140, and a recording unit 190. First, A vu is a probability density function in which the attribute value v transitions to the attribute value u, J is a range from a value G min to a value G max that is a part of a value range that the attribute value can take, and K is a value range that the attribute value can take A JK is a transition probability that an attribute value included in the section J transitions to an attribute value included in the section K, M is an integer of 2 or more, m is an integer of 0 to M-1, and j 0 ,..., J M-1 is a section obtained by subdividing the section J into M pieces, N J is the number of records whose attribute value is included in the section J, N jm is the number of records whose attribute value is included in the section j m , g 0 is a value G min , g M is a value G max , and when m is 1 or more and M−1 or less, g m is an attribute value that delimits the section j m−1 and the section j m, and g 0 <g 1 <... <g M. The attribute value g m may belong to either section as long as it belongs to either section j m-1 or section j m .

細分化部110は、区間JをM個に細分化し、細分化した区間j,…,jM−1を求める(S110)。なお、区間jは属性値がg以上gm+1より小さい区間でもよいし、属性値がgより大きくgm+1以下の区間でもよい。 The subdivision section 110 subdivides the section J into M pieces, and obtains subdivided sections j 0 ,..., J M−1 (S110). Incidentally, the interval j m is to attribute values may be g m or g m + 1 smaller intervals, the attribute value may be a larger g m + 1 following section than g m.

集計値情報部120は、数Nと数Nj0,…,NjM−1を求め、記録部190に記録する(S120)。数Nと数Nj0,…,NjM−1の求め方には、いくつかの方法があり得る。例えば、データベース900から属性値の正しい集計値(Nj0,…,NjM−1)を取得できるのであれば、取得すべきである。この場合は、N=Nj0+…+NjM−1のように数Nを求めればよい。集計値が分からない状態のときは、例えば、属性値に対して一様に分布していることを前提として集計値(Nj0,…,NjM−1)を求める方法がある。この場合は、属性値の値域を最小値Vminから最大値Vmax、全レコード数をNALLとし、集計値情報部120は、数Nと数Nj0,…,NjM−1を、 The total value information unit 120 calculates the numbers N J and the numbers N j0 ,..., N jM−1 and records them in the recording unit 190 (S120). There are several methods for obtaining the numbers N J and the numbers N j0 ,..., N jM−1 . For example, if a correct aggregate value (N j0 ,..., N jM−1 ) of attribute values can be acquired from the database 900, it should be acquired. In this case, the number N J may be obtained as N J = N j0 +... + N jM−1 . When the total value is unknown, for example, there is a method for obtaining the total value (N j0 ,..., N jM−1 ) on the assumption that the attribute value is uniformly distributed. In this case, the maximum value V max of the range of attribute values from the minimum value V min, the total number of records and N ALL, aggregate value information 120, the number N J and the number N j0, ..., a N jM-1,

Figure 0005914291
Figure 0005914291

のように求めればよい。また、集計値が分からない状態のときの別の例としては、以下のように秘匿された属性値の分布を用いる方法もある。具体的には、属性値の値域を最小値Vminから最大値Vmax、全レコード数をNALLとし、集計値情報部120は、秘匿された属性値の分布を用いて数Nj0,…,NjM−1を求め、数NをN=Nj0+…+NjM−1のように求めればよい。 You can ask as follows. As another example when the total value is unknown, there is a method of using a secret attribute value distribution as follows. Specifically, the range of attribute values is set from the minimum value V min to the maximum value V max , the total number of records is set to N ALL , and the total value information unit 120 uses a secret attribute value distribution to calculate the number N j0,. , N jM−1 and the number N J may be calculated as N J = N j0 +... + N jM−1 .

細分確率計算部130は、細分確率p(ただし、m=0,…,M−1)を、 The subdivision probability calculation unit 130 calculates subdivision probability p m (where m = 0,..., M−1).

Figure 0005914291
Figure 0005914291

のように求め、記録部190に記録する(S130)。 And is recorded in the recording unit 190 (S130).

例えば、確率密度関数Avuがラプラス分布を基礎ノイズとする有限ノイズ関数の場合を考える。ここで、区間Kの属性値の値域を最小値Hminから最大値Hmax、属性値の値域を最小値Vminから最大値Vmax、2σはラプラス分布の分散とする。このとき、確率密度関数Avuは、入力vに以下を満たす確率密度関数f(x)に従うノイズXを加算した確率変数Yの確率密度である。基礎ノイズを確率密度関数f(x)とするとき、あるvに依存した数αがあって、
min−v≦x≦Vmax−v
である場合に、
(x)=f(x)/α
を満たし、そうでない場合には
(x)=0
を満たす。
For example, consider the case where the probability density function A vu is a finite noise function with a Laplace distribution as the basic noise. Here, the value range of the attribute value in the section K is the minimum value H min to the maximum value H max , and the attribute value range is the minimum value V min to the maximum value V max , and 2σ 2 is the dispersion of the Laplace distribution. At this time, the probability density function A vu is the probability density of the random variable Y obtained by adding the noise X according to the probability density function f v (x) satisfying the following to the input v. When the basic noise is a probability density function f (x), there is a number α v depending on a certain v,
V min −v ≦ x ≦ V max −v
If
f v (x) = f (x) / α v
If not, f v (x) = 0
Meet.

vuがこのような確率密度関数の場合には、以下のように計算すればよい。 When A vu is such a probability density function, it may be calculated as follows.

Figure 0005914291
Figure 0005914291

ただし、 However,

Figure 0005914291
Figure 0005914291

統合部140は、遷移確率AJKThe integration unit 140 determines the transition probability A JK

Figure 0005914291
Figure 0005914291

のように求め、記録部190に記録する(S140)。 And is recorded in the recording unit 190 (S140).

実施例1の遷移確率算出装置によれば、連続的な属性値の値域を有限個の区間に区切り、各区間に含まれる属性値の数を用いるので、連続的な遷移確率密度関数ではなく、遷移確率を求めることができる。したがって、求めた遷移確率を遷移確率行列の要素とすることができるので、非特許文献1の技術を利用して秘匿された個別データ群から統計値を算出できるようになる。   According to the transition probability calculation device of the first embodiment, the range of continuous attribute values is divided into a finite number of sections, and the number of attribute values included in each section is used. Therefore, instead of a continuous transition probability density function, Transition probability can be obtained. Therefore, since the obtained transition probability can be used as an element of the transition probability matrix, the statistical value can be calculated from the individual data group concealed using the technique of Non-Patent Document 1.

本発明の集計値算出装置の機能構成例を図3に、本発明の集計値算出装置の処理フローを図4に示す。本発明の集計値算出装置200は、データベース900とネットワークで接続されており、遷移確率算出装置100、区間設定部250、集計値更新部260を備える。なお、集計値算出装置200は、正しい集計値(Nj0,…,NjM−1)が分からない場合に用いる装置である。 FIG. 3 shows a functional configuration example of the total value calculation apparatus of the present invention, and FIG. 4 shows a processing flow of the total value calculation apparatus of the present invention. The total value calculation device 200 of the present invention is connected to the database 900 via a network, and includes a transition probability calculation device 100, a section setting unit 250, and a total value update unit 260. The aggregate value calculation apparatus 200 is an apparatus used when a correct aggregate value (N j0 ,..., N jM−1 ) is not known.

以下では、図4の処理フローに従いながら処理を説明する。区間設定部250は、属性値の値域(Vmin〜Vmax)の中から区間J(Gmin〜Gmax)を選んで設定する(S251)。細分化部110は、設定された区間Jを細分化して細分化した区間(j,…,jM−1)を求める(S111)。集計値情報部120は、細分化した区間(j,…,jM−1)に属性値が含まれるレコードの数をあらかじめ定めた方法で求めて細分化した区間の集計値とし、記録部190に記録する(S121)。具体的には、属性値の値域を最小値Vminから最大値Vmax、全レコード数をNALLとし、集計値情報部120は、数Nj0,…,NjM−1を、 Hereinafter, the processing will be described while following the processing flow of FIG. The section setting unit 250 selects and sets the section J (G min to G max ) from the attribute value range (V min to V max ) (S251). The subdividing unit 110 subdivides the set section J to obtain a subdivided section (j 0 ,..., J M−1 ) (S111). The total value information unit 120 obtains the number of records whose attribute values are included in the subdivided section (j 0 ,..., J M−1 ) by a predetermined method and sets the total value of the subdivided section. 190 (S121). Specifically, the maximum value V max of the range of attribute values from the minimum value V min, the total number of records and N ALL, aggregate value information 120, the number N j0, ..., a N jM-1,

Figure 0005914291
Figure 0005914291

のように求めればよい。もしくは、集計値情報部120は、秘匿された属性値の分布を用いて数Nj0,…,NjM−1を求めればよい。そして、区間設定部250は、属性値の値域(Vmin〜Vmax)のすべてに対して区間J(Gmin〜Gmax)を選んで設定したかを確認し(S252)、Noの場合にはステップS251に戻る。 You can ask as follows. Or the total value information part 120 should just obtain | require number Nj0 , ..., NjM-1 using the distribution of the secret attribute value. Then, the section setting unit 250 confirms whether or not the section J (G min to G max ) is selected and set for all the attribute value ranges (V min to V max ) (S252). Returns to step S251.

ステップS252がYesの場合には、区間設定部250は、属性値の値域(Vmin〜Vmax)の中から区間J(Gmin〜Gmax)と区間K(Hmin〜Hmax)の組み合わせを選んで設定する(S253)。細分化部110は、設定された区間Jを細分化して細分化した区間(j,…,jM−1)を求める(S112)。細分確率計算部130は、設定された区間Jと区間Kについて、細分確率p,…,pM−1を求め、記録部190に記録する(S130)。統合部140が、細分化した区間の集計値と細分確率p,…,pM−1を用いて遷移確率AJKを求め、記録部190に記録する(S140)。ステップS130とステップS140は、実施例1と同じ方法とすればよい。そして、区間設定部250は、属性値の値域(Vmin〜Vmax)のすべてに対して区間J(Gmin〜Gmax)と区間K(Hmin〜Hmax)の組み合わせを選んで設定したかを確認し(S254)、Noの場合にはステップS253に戻る。 If step S252 is Yes, the interval setting unit 250, a combination of attribute values of the value range (V min ~V max) interval from the J (G min ~G max) and section K (H min ~H max) Is selected and set (S253). The subdividing unit 110 subdivides the set section J to obtain a subdivided section (j 0 ,..., J M−1 ) (S112). The subdivision probability calculation unit 130 obtains subdivision probabilities p 0 ,..., P M−1 for the set sections J and K, and records them in the recording unit 190 (S130). The integration unit 140 obtains the transition probability A JK using the aggregated values of the subdivided sections and the subdivision probabilities p 0 ,..., P M−1 and records them in the recording unit 190 (S140). Steps S130 and S140 may be the same method as in the first embodiment. The section setting unit 250 selects and sets a combination of the section J (G min to G max ) and the section K (H min to H max ) for all the attribute value ranges (V min to V max ). (S254). If No, the process returns to step S253.

ステップS54がYesの場合には、集計値更新部260が、属性値のすべての値域の組み合わせが設定されるように順次設定された区間Jと区間Kのそれぞれの遷移確率AJKを要素とした遷移確率行列Aを作成する。そして、例えば、非特許文献1の5.2節に示された逆行列手法や反復ベイズ手法によって、遷移確率行列Aを用いて細分化した区間に属性値が含まれるレコードの数を更新し、新しい細分化した区間の集計値とし、記録部190に記録する(S260)。なお、反復ベイズ手法など、反復処理の終了条件として、更新前の集計値と更新後の集計値の差があらかじめ定めた範囲かを確認する手法もある。このような手法の場合、集計値更新部260は、更新された集計値が反復処理の終了条件を満たすかを確認する(S261)。そして、Noの場合はステップS253に戻り、新しい細分化した区間の集計値を用いて処理を進める。ステップS261がYesの場合とステップS261がない場合は、集計値更新部260は、属性値が区間J(Gmin〜Gmax)に含まれるレコード数Nを、N=Nj0+…+NjM−1のように求め、記録部190に記録する(S262)。なお、本実施例に示したステップS251〜S261の処理をまとめて、細分化集計値算出ステップ(S200)と呼ぶことにする。 When step S54 is Yes, the total value update unit 260 uses the transition probabilities A JK of the sections J and K that are sequentially set so that combinations of all the range of attribute values are set as elements. A transition probability matrix A is created. And, for example, by updating the number of records whose attribute values are included in the segment subdivided using the transition probability matrix A by the inverse matrix method or the iterative Bayesian method shown in Section 5.2 of Non-Patent Document 1, The total value of the new segmented section is recorded in the recording unit 190 (S260). There is also a method for confirming whether the difference between the total value before the update and the total value after the update is within a predetermined range as an end condition of the iterative processing, such as an iterative Bayes method. In the case of such a method, the total value update unit 260 confirms whether the updated total value satisfies the end condition of the iterative process (S261). In the case of No, the process returns to step S253, and the process proceeds using the total value of the new subdivided section. When Step S261 is Yes and Step S261 is not present, the aggregate value update unit 260 calculates the number of records N J whose attribute values are included in the section J (G min to G max ) as N J = N j0 +. jM-1 is obtained and recorded in the recording unit 190 (S262). Note that the processing of steps S251 to S261 shown in this embodiment will be collectively referred to as a subdivided total value calculation step (S200).

本発明の集計値算出装置によれば、連続的な属性値の値域を有限個の区間に区切り、区間から区間への遷移確率を求めるので、求めた遷移確率を要素とする遷移確率行列を求めることができる。しがたって、非特許文献1の技術を利用して秘匿された個別データ群から統計値を算出できるようになる。   According to the total value calculation device of the present invention, the range of continuous attribute values is divided into a finite number of sections, and the transition probability from section to section is obtained, so a transition probability matrix having the obtained transition probability as an element is obtained. be able to. Therefore, the statistical value can be calculated from the individual data group concealed using the technique of Non-Patent Document 1.

本実施例の遷移確率算出装置300を図3に、処理フローを図5に示す。本実施例は、実施例2の方法で求められた精度の高い細分化した区間の集計値を用いて遷移確率を求める。構成としては図3に示すように、集計値算出装置200と同じである。ただし、図5に示すように、実施例2で示した細分化集計値算出ステップ(S200)を実施した後、統合部140が、集計値更新部260が求めた細分化した区間の集計値を用いて遷移確率AJKを求めることが異なる。なお、細分化集計値算出ステップ(S200)では、属性値のすべての値域の組み合わせが設定されるように順次区間Jと区間Kを設定して細分化した区間の集計値を求めるので、遷移確率行列のすべての要素に対して遷移確率を求めることができる。 FIG. 3 shows the transition probability calculation apparatus 300 of this embodiment, and FIG. 5 shows the processing flow. In the present embodiment, the transition probability is obtained using the aggregate value of the segment with high accuracy obtained by the method of the second embodiment. As shown in FIG. 3, the configuration is the same as that of the total value calculation device 200. However, as shown in FIG. 5, after performing the subdivided total value calculation step (S200) shown in the second embodiment, the integration unit 140 calculates the total value of the subdivided sections obtained by the total value update unit 260. The difference is that the transition probabilities A JK are obtained. In the subdivided aggregate value calculation step (S200), since the sections J and K are sequentially set so that combinations of all the range of attribute values are set, the aggregate values of the subdivided sections are obtained, so the transition probability Transition probabilities can be obtained for all elements of the matrix.

具体的には、細分化集計値算出ステップ(S200)を実行した後、区間設定部250は、属性値の値域(Vmin〜Vmax)の中から区間J(Gmin〜Gmax)と区間K(Hmin〜Hmax)の組み合わせを選んで設定する(S253)。細分化部110は、設定された区間Jを細分化して細分化した区間(j,…,jM−1)を求める(S112)。細分確率計算部130は、設定された区間Jと区間Kについて、細分確率p,…,pM−1を求め、記録部190に記録する(S130)。統合部140が、細分化した区間の集計値と細分確率p,…,pM−1を用いて遷移確率AJKを求め、記録部190に記録する(S140)。ステップS130とステップS140は、実施例1と同じ方法とすればよい。そして、区間設定部250は、属性値の値域(Vmin〜Vmax)のすべてに対して区間J(Gmin〜Gmax)と区間K(Hmin〜Hmax)の組み合わせを選んで設定したかを確認し(S254)、Noの場合にはステップS253に戻る。ステップS54がYesの場合には、処理を終了する。 Specifically, after executing the subdivided total value calculation step (S200), the section setting unit 250 selects the section J (G min to G max ) and the section from the attribute value range (V min to V max ). A combination of K (H min to H max ) is selected and set (S253). The subdividing unit 110 subdivides the set section J to obtain a subdivided section (j 0 ,..., J M−1 ) (S112). The subdivision probability calculation unit 130 obtains subdivision probabilities p 0 ,..., P M−1 for the set sections J and K, and records them in the recording unit 190 (S130). The integration unit 140 obtains the transition probability A JK using the aggregated values of the subdivided sections and the subdivision probabilities p 0 ,..., P M−1 and records them in the recording unit 190 (S140). Steps S130 and S140 may be the same method as in the first embodiment. The section setting unit 250 selects and sets a combination of the section J (G min to G max ) and the section K (H min to H max ) for all the attribute value ranges (V min to V max ). (S254). If No, the process returns to step S253. If step S54 is Yes, the process ends.

実施例3の遷移確率算出装置300によれば、精度の高い細分化した区間の集計値を用いるので、精度の高い遷移確率を求めることができる。さらに、属性値のすべての値域の組み合わせが設定されるように順次区間Jと区間Kを設定できるので、再構築に用いる遷移確率行列のすべての要素(遷移確率)を求めることができる。   According to the transition probability calculation device 300 of the third embodiment, since the aggregate value of the segment with high accuracy is used, the transition probability with high accuracy can be obtained. Furthermore, since the section J and the section K can be set sequentially so that combinations of all the range of attribute values are set, all elements (transition probabilities) of the transition probability matrix used for reconstruction can be obtained.

なお、実施例1から3に共通する本発明のポイントは、精度を高めるために区間Jをさらに細かい区間jに分割する点である。秘匿されたデータから“再構築”により集計値を得る際、遷移確率から遷移確率行列を作る。すなわち、属性値vと属性値uの組について、vとuに確率的に変化する確率を算出する。複数の属性に関するクロス集計を再構築する際、再構築の計算量は属性に関する属性値の値域の大きさの積となり、非常に大きくなる。区間Jを細かい区間とすると、区間の数、値域の大きさが大きくなってしまうため、あまり区間Jは細かい区間にできない。しかし、各属性の遷移確率行列を計算する場合には当該属性だけに注目すればよいため、計算量は当該属性の単一の値域の大きさだけに比例し、より細かい分割としても計算量の観点から、計算は可能である。本発明は、この点に着目したものである。 Incidentally, the point of the present invention which is common in Examples 1 to 3 is that it divides the interval J into smaller sections j m in order to increase the accuracy. A transition probability matrix is created from the transition probabilities when the aggregated value is obtained by “reconstruction” from the secret data. That is, the probability of probabilistically changing to v and u is calculated for the set of attribute value v and attribute value u. When restructuring a cross tabulation for a plurality of attributes, the amount of calculation for the reconstruction is a product of the size of the attribute value range for the attribute, which is very large. If the section J is a fine section, the number of sections and the size of the range will be large, so the section J cannot be made very fine. However, when calculating the transition probability matrix of each attribute, it is only necessary to pay attention to that attribute. From the point of view, calculation is possible. The present invention focuses on this point.

[プログラム、記録媒体]
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[Program, recording medium]
The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。   Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

100、300 遷移確率算出装置 110 細分化部
120 集計値情報部 130 細分確率計算部
140 統合部 190 記録部
200 集計値算出装置 250 区間設定部
260 集計値更新部 900 データベース
100, 300 Transition probability calculation device 110 Subdivision unit 120 Total value information unit 130 Subdivision probability calculation unit 140 Integration unit 190 Recording unit 200 Total value calculation device 250 Section setting unit 260 Total value update unit 900 Database

Claims (10)

連続値を取る属性値を含むレコードを複数有するデータベースのデータを秘匿する際の前記属性値が遷移する確率を求める遷移確率算出装置であって、
vuは属性値vが属性値uに遷移する確率密度関数、Jは属性値が取り得る値域の一部である値Gminから値Gmaxの区間、Kは属性値が取り得る値域の一部の区間、AJKは区間Jに含まれる属性値が区間Kに含まれる属性値に遷移する遷移確率、Mは2以上の整数、mは0以上M−1以下の整数、j,…,jM−1は区間JをM個に細分化した区間、Nは区間Jに属性値が含まれるレコードの数、Njmは区間jに属性値が含まれるレコードの数、gは値Gmin、gは値Gmax、mが1以上M−1以下のときはgは区間jm-1と区間jとの区切りとなる属性値、g<g<・・・<gとし、
前記区間JをM個に細分化し、細分化した区間j,…,jM−1を求める細分化部と、
前記数Nと前記数Nj0,…,NjM−1を求める集計値情報部と、
細分確率p
Figure 0005914291

のように求める細分確率計算部と、
遷移確率AJK
Figure 0005914291

のように求める統合部と、
を備える遷移確率算出装置。
A transition probability calculation device for obtaining a probability of transition of the attribute value when concealing data in a database having a plurality of records including attribute values taking continuous values,
A vu is a probability density function in which the attribute value v transitions to the attribute value u, J is a range from a value G min to a value G max that is a part of a value range that the attribute value can take, and K is a value range that the attribute value can take A JK is a transition probability that an attribute value included in the section J transitions to an attribute value included in the section K, M is an integer of 2 or more, m is an integer of 0 to M−1, j 0 ,. , J M−1 is a section obtained by subdividing section J into M pieces, N J is the number of records whose attribute value is included in section J, N jm is the number of records whose attribute value is included in section j m , and g 0 Is a value G min , g M is a value G max , and when m is 1 or more and M−1 or less, g m is an attribute value that delimits the section j m−1 and the section j m, and g 0 <g 1 <.・ ・ <G M
Subdividing the section J into M pieces, and subdividing sections for obtaining the subdivided sections j 0 ,..., J M−1 ;
A total value information part for obtaining the number N J and the numbers N j0 ,..., N jM−1 ;
The subdivision probability p m
Figure 0005914291

Subdivided probability calculation unit to be obtained as follows,
Transition probability A JK
Figure 0005914291

And the integration department
A transition probability calculation device comprising:
請求項1記載の遷移確率算出装置であって、
区間Kの属性値の値域を最小値Hminから最大値Hmax、前記属性値の値域を最小値Vminから最大値Vmax、確率密度関数Avuはラプラス分布を基礎ノイズとする有限ノイズ関数、2σは前記ラプラス分布の分散とし、
前記細分確率計算部は、前記細分確率pを、
Figure 0005914291

ただし、
Figure 0005914291

のように求めることを特徴とする遷移確率算出装置。
The transition probability calculation device according to claim 1,
The attribute value range of the section K is from the minimum value H min to the maximum value H max , the attribute value range is from the minimum value V min to the maximum value V max , and the probability density function A vu is a finite noise function based on Laplace distribution. 2σ 2 is the dispersion of the Laplace distribution,
The subdivision probability calculation unit, said subdivision probability p m,
Figure 0005914291

However,
Figure 0005914291

The transition probability calculation device characterized by obtaining like this.
請求項1または2記載の遷移確率算出装置であって、
前記集計値情報部は、
前記データベースから数Nj0,…,NjM−1を取得し、数N
=Nj0+…+NjM−1
のように求めることを特徴とする遷移確率算出装置。
The transition probability calculation device according to claim 1 or 2,
The total value information part is
The number N j0 from the database, ... to obtain the N jM-1, the number N J N J = N j0 + ... + N jM-1
The transition probability calculation device characterized by obtaining like this.
請求項1または2記載の遷移確率算出装置であって、
前記属性値の値域を最小値Vminから最大値Vmax、全レコード数をNALLとし、
前記集計値情報部は、
前記数Nと前記数Nj0,…,NjM−1を、
Figure 0005914291

のように求めることを特徴とする遷移確率算出装置。
The transition probability calculation device according to claim 1 or 2,
The range of the attribute value is a minimum value V min to a maximum value V max , and the total number of records is N ALL ,
The total value information part is
The number N J and the number N j0 ,..., N jM−1 are
Figure 0005914291

The transition probability calculation device characterized by obtaining like this.
請求項1または2記載の遷移確率算出装置であって、
前記属性値の値域を最小値Vminから最大値Vmax、全レコード数をNALLとし、
前記集計値情報部は、
秘匿された属性値の分布を用いて前記数Nj0,…,NjM−1を求め、数N
=Nj0+…+NjM−1
のように求めることを特徴とする遷移確率算出装置。
The transition probability calculation device according to claim 1 or 2,
The range of the attribute value is a minimum value V min to a maximum value V max , and the total number of records is N ALL ,
The total value information part is
Said number N j0 using the distribution of confidential attribute value, ..., the determined N jM-1, the number N J N J = N j0 + ... + N jM-1
The transition probability calculation device characterized by obtaining like this.
請求項4または5記載の遷移確率算出装置を備えた集計値算出装置であって、
さらに、
前記区間Jと前記区間Kを設定する区間設定部と、
既に求められている集計値と遷移確率から、新しい集計値を求める集計値更新部も備え、
前記区間設定部が、前記属性値のすべての値域が設定されるように順次区間Jを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記集計値情報部がそれぞれの設定での細分化した区間に属性値が含まれるレコードの数を求めて細分化した区間の集計値とし、
前記区間設定部が、前記属性値のすべての値域の組み合わせが設定されるように順次区間Jと区間Kを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記細分確率計算部が、設定された区間Jと区間Kについて、細分確率p,…,pM−1を求め、前記統合部が、細分化した区間の集計値と前記細分確率p,…,pM−1を用いて遷移確率AJKを求め、
前記集計値更新部が、前記属性値のすべての値域の組み合わせが設定されるように順次設定された区間Jと区間Kのそれぞれの遷移確率AJKを遷移確率行列の各要素とし、逆行列手法または反復ベイズ手法によって細分化した区間に属性値が含まれるレコードの数を更新し、新しい細分化した区間の集計値とする
ことを特徴とする集計値算出装置。
A total value calculation device comprising the transition probability calculation device according to claim 4 or 5,
further,
A section setting unit for setting the section J and the section K;
From the already calculated total value and transition probability, there is also a total value update unit that calculates a new total value,
The section setting unit sequentially sets the section J so that all the ranges of the attribute values are set, and subdivides the section J in which the subdivision section is set to obtain a subdivided section, and the aggregate value The information part calculates the number of records whose attribute values are included in the subdivided section in each setting and sets it as the aggregate value of the subdivided section,
The section setting unit sequentially sets the section J and the section K so that all combinations of the attribute values are set, and subdivides the section J set by the subdivision section into subdivided sections. The subdivision probability calculation unit calculates subdivision probabilities p 0 ,..., P M−1 for the set sections J and K, and the integration unit calculates the aggregated values of the subdivided sections and the subdivision probabilities p. 0 ,..., P M−1 are used to determine the transition probability A JK ,
The aggregate value updating unit uses the transition probabilities A JK of the sections J and K that are sequentially set so that combinations of all the range of the attribute values are set as each element of the transition probability matrix, and an inverse matrix method Alternatively, an aggregate value calculation apparatus characterized by updating the number of records whose attribute values are included in a segment subdivided by an iterative Bayes technique, and obtaining a new aggregate segment value.
請求項4または5記載の遷移確率算出装置であって、
さらに、
前記区間Jと前記区間Kを設定する区間設定部と、
既に求められている集計値と遷移確率から、新しい集計値を求める集計値更新部も備え、
前記区間設定部が、前記属性値のすべての値域が設定されるように順次区間Jを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記集計値情報部がそれぞれの設定での細分化した区間に属性値が含まれるレコードの数を求めて細分化した区間の集計値とし、
前記区間設定部が、前記属性値のすべての値域の組み合わせが設定されるように順次区間Jと区間Kを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記細分確率計算部が、設定された区間Jと区間Kについて、細分確率p,…,pM−1を求め、前記統合部が、細分化した区間の集計値と前記細分確率p,…,pM−1を用いて遷移確率AJKを求め、
前記集計値更新部が、前記属性値のすべての値域の組み合わせが設定されるように順次設定された区間Jと区間Kのそれぞれの遷移確率AJKを遷移確率行列の各要素とし、逆行列手法または反復ベイズ手法によって細分化した区間に属性値が含まれるレコードの数を更新し、新しい細分化した区間の集計値とし、
前記統合部は、前記集計値更新部が求めた細分化した区間の集計値を用いて遷移確率AJKを求める
ことを特徴とする遷移確率算出装置。
The transition probability calculation device according to claim 4 or 5,
further,
A section setting unit for setting the section J and the section K;
From the already calculated total value and transition probability, there is also a total value update unit that calculates a new total value,
The section setting unit sequentially sets the section J so that all the ranges of the attribute values are set, and subdivides the section J in which the subdivision section is set to obtain a subdivided section, and the aggregate value The information part calculates the number of records whose attribute values are included in the subdivided section in each setting and sets it as the aggregate value of the subdivided section,
The section setting unit sequentially sets the section J and the section K so that all combinations of the attribute values are set, and subdivides the section J set by the subdivision section into subdivided sections. The subdivision probability calculation unit calculates subdivision probabilities p 0 ,..., P M−1 for the set sections J and K, and the integration unit calculates the aggregated values of the subdivided sections and the subdivision probabilities p. 0 ,..., P M−1 are used to determine the transition probability A JK ,
The aggregate value updating unit uses the transition probabilities A JK of the sections J and K that are sequentially set so that combinations of all the range of the attribute values are set as each element of the transition probability matrix, and an inverse matrix method Or, update the number of records whose attribute values are included in the segment refined by the iterative Bayesian method, and set it as the aggregate value of the new segment,
The said integration part calculates | requires transition probability AJK using the total value of the segment which the said total value update part calculated | required. The transition probability calculation apparatus characterized by the above-mentioned.
細分化部と、集計値情報部と、細分確率計算部と、統合部を備えた遷移確率算出装置を用いた遷移確率算出方法であって、
vuは属性値vが属性値uに遷移する確率密度関数、Jは属性値が取り得る値域の一部である値Gminから値Gmaxの区間、Kは属性値が取り得る値域の一部の区間、AJKは区間Jに含まれる属性値が区間Kに含まれる属性値に遷移する遷移確率、Mは2以上の整数、mは0以上M−1以下の整数、j,…,jM−1は区間JをM個に細分化した区間、Nは区間Jに属性値が含まれるレコードの数、Njmは区間jmに属性値が含まれるレコードの数、gは値Gmin、gは値Gmax、mが1以上M−1以下のときはgは区間jm-1と区間jとの区切りとなる属性値、g<g<・・・<gとし、
前記細分化部が、前記区間JをM個に細分化し、細分化した区間j,…,jM−1を求める細分化ステップと、
前記集計値情報部が、前記数Nと前記数Nj0,…,NjM−1を求める集計値情報ステップと、
前記細分確率計算部が、細分確率p
Figure 0005914291

のように求める細分確率計算ステップと、
前記統合部が、遷移確率AJK
Figure 0005914291

のように求める統合ステップと、
を有する遷移確率算出方法。
A transition probability calculation method using a transition probability calculation device including a subdivision unit, a summary value information unit, a subdivision probability calculation unit, and an integration unit ,
A vu is a probability density function in which the attribute value v transitions to the attribute value u, J is a range from a value G min to a value G max that is a part of a value range that the attribute value can take, and K is a value range that the attribute value can take A JK is a transition probability that an attribute value included in the section J transitions to an attribute value included in the section K, M is an integer of 2 or more, m is an integer of 0 to M−1, j 0 ,. , J M−1 is a section obtained by subdividing section J into M pieces, N J is the number of records whose attribute value is included in section J, N jm is the number of records whose attribute value is included in section jm, and g 0 is The values G min and g M are values G max , and when m is 1 or more and M−1 or less, g m is an attribute value that separates the section j m−1 and the section j m, and g 0 <g 1 <.・ <G M
The subdivision section subdivides the section J into M pieces and obtains subdivided sections j 0 ,..., J M−1 ;
The aggregate value information section, said number N J and the number N j0, ..., and the aggregate value information determining the N jM-1,
The sub-probability calculation unit calculates sub-probabilities p m
Figure 0005914291

Subdivided probability calculation step obtained as follows:
The integration unit calculates the transition probability A JK
Figure 0005914291

The integration steps you want
A transition probability calculation method comprising:
請求項4または5記載の遷移確率算出装置と、前記区間Jと前記区間Kを設定する区間設定部と、既に求められている集計値と遷移確率から新しい集計値を求める集計値更新部を備えた集計値算出装置を用いた集計値算出方法であって、
前記区間設定部が、前記属性値のすべての値域が設定されるように順次区間Jを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記集計値情報部がそれぞれの設定での細分化した区間に属性値が含まれるレコードの数を求めて細分化した区間の集計値とし、
前記区間設定部が、前記属性値のすべての値域の組み合わせが設定されるように順次区間Jと区間Kを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記細分確率計算部が、設定された区間Jと区間Kについて、細分確率p,…,pM−1を求め、前記統合部が、細分化した区間の集計値と前記細分確率p,…,pM−1を用いて遷移確率AJKを求め、
前記集計値更新部が、前記属性値のすべての値域の組み合わせが設定されるように順次設定された区間Jと区間Kのそれぞれの遷移確率AJKを遷移確率行列の各要素とし、逆行列手法または反復ベイズ手法によって細分化した区間に属性値が含まれるレコードの数を更新して新しい細分化した区間の集計値とし、区間Jに含まれる細分化した区間のレコード数を合計して区間Jのレコードの数を求める
ことを特徴とする集計値算出方法。
6. A transition probability calculating apparatus according to claim 4; a section setting unit for setting the section J and the section K; and a total value updating unit for determining a new total value from the already calculated total value and the transition probability. A total value calculation method using the total value calculation device,
The section setting unit sequentially sets the section J so that all the ranges of the attribute values are set, and subdivides the section J in which the subdivision section is set to obtain a subdivided section, and the aggregate value The information part calculates the number of records whose attribute values are included in the subdivided section in each setting and sets it as the aggregate value of the subdivided section,
The section setting unit sequentially sets the section J and the section K so that all combinations of the attribute values are set, and subdivides the section J set by the subdivision section into subdivided sections. The subdivision probability calculation unit calculates subdivision probabilities p 0 ,..., P M−1 for the set sections J and K, and the integration unit calculates the aggregated values of the subdivided sections and the subdivision probabilities p. 0 ,..., P M−1 are used to determine the transition probability A JK ,
The aggregate value updating unit uses the transition probabilities A JK of the sections J and K that are sequentially set so that combinations of all the range of the attribute values are set as each element of the transition probability matrix, and an inverse matrix method Alternatively, the number of records whose attribute values are included in the segment subdivided by the iterative Bayesian method is updated to the aggregate value of the new subdivided segment, and the number of records in the subdivided segment included in the segment J is added to the segment J An aggregate value calculation method characterized by obtaining the number of records.
請求項4または5記載の遷移確率算出装置と、前記区間Jと前記区間Kを設定する区間設定部と、既に求められている集計値と遷移確率から新しい集計値を求める集計値更新部を備えた遷移確率算出装置を用いた遷移確率算出方法であって、
前記区間設定部が、前記属性値のすべての値域が設定されるように順次区間Jを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記集計値情報部がそれぞれの設定での細分化した区間に属性値が含まれるレコードの数を求めて細分化した区間の集計値とし、
前記区間設定部が、前記属性値のすべての値域の組み合わせが設定されるように順次区間Jと区間Kを設定し、前記細分化部が設定された区間Jを細分化して細分化した区間を求め、前記細分確率計算部が、設定された区間Jと区間Kについて、細分確率p,…,pM−1を求め、前記統合部が、細分化した区間の集計値と前記細分確率p,…,pM−1を用いて遷移確率AJKを求め、
前記集計値更新部が、前記属性値のすべての値域の組み合わせが設定されるように順次設定された区間Jと区間Kのそれぞれの遷移確率AJKを遷移確率行列の各要素とし、逆行列手法または反復ベイズ手法によって細分化した区間に属性値が含まれるレコードの数を更新して新しい細分化した区間の集計値とし、
前記統合部が、前記集計値更新部が更新した細分化した区間の集計値を用いて遷移確率AJKを求める
ことを特徴とする遷移確率算出方法。
6. A transition probability calculating apparatus according to claim 4; a section setting unit for setting the section J and the section K; and a total value updating unit for determining a new total value from the already calculated total value and the transition probability. A transition probability calculation method using the transition probability calculation device,
The section setting unit sequentially sets the section J so that all the ranges of the attribute values are set, and subdivides the section J in which the subdivision section is set to obtain a subdivided section, and the aggregate value The information part calculates the number of records whose attribute values are included in the subdivided section in each setting and sets it as the aggregate value of the subdivided section,
The section setting unit sequentially sets the section J and the section K so that all combinations of the attribute values are set, and subdivides the section J set by the subdivision section into subdivided sections. The subdivision probability calculation unit calculates subdivision probabilities p 0 ,..., P M−1 for the set sections J and K, and the integration unit calculates the aggregated values of the subdivided sections and the subdivision probabilities p. 0 ,..., P M−1 are used to determine the transition probability A JK ,
The aggregate value updating unit uses the transition probabilities A JK of the sections J and K that are sequentially set so that combinations of all the range of the attribute values are set as each element of the transition probability matrix, and an inverse matrix method Or, update the number of records whose attribute value is included in the segment refined by the iterative Bayesian method to the aggregate value of the new segment,
The said integration part calculates | requires transition probability AJK using the total value of the subdivided area which the said total value update part updated. The transition probability calculation method characterized by the above-mentioned.
JP2012230230A 2012-10-17 2012-10-17 Transition probability calculation device, total value calculation device, transition probability calculation method, total value calculation method Active JP5914291B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012230230A JP5914291B2 (en) 2012-10-17 2012-10-17 Transition probability calculation device, total value calculation device, transition probability calculation method, total value calculation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012230230A JP5914291B2 (en) 2012-10-17 2012-10-17 Transition probability calculation device, total value calculation device, transition probability calculation method, total value calculation method

Publications (2)

Publication Number Publication Date
JP2014081844A JP2014081844A (en) 2014-05-08
JP5914291B2 true JP5914291B2 (en) 2016-05-11

Family

ID=50785967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012230230A Active JP5914291B2 (en) 2012-10-17 2012-10-17 Transition probability calculation device, total value calculation device, transition probability calculation method, total value calculation method

Country Status (1)

Country Link
JP (1) JP5914291B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163895B2 (en) 2016-12-19 2021-11-02 Mitsubishi Electric Corporation Concealment device, data analysis device, and computer readable medium
CN108959956B (en) * 2018-06-07 2021-06-22 广西师范大学 Differential privacy data publishing method based on Bayesian network

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1950684A1 (en) * 2007-01-29 2008-07-30 Accenture Global Services GmbH Anonymity measuring device

Also Published As

Publication number Publication date
JP2014081844A (en) 2014-05-08

Similar Documents

Publication Publication Date Title
Myers et al. On the convexity of latent social network inference
Wikle Modern perspectives on statistics for spatio‐temporal data
JP6414363B2 (en) Prediction system, method and program
CN106415586B (en) The quick right to access inspection of configured structured data
Burgess et al. Link-prediction enhanced consensus clustering for complex networks
CN110679114B (en) Method for estimating deletability of data object
JP7119820B2 (en) Prediction program, prediction method and learning device
Stummer et al. On divergences of finite measures and their applicability in statistics and information theory
JP5914291B2 (en) Transition probability calculation device, total value calculation device, transition probability calculation method, total value calculation method
JP6445415B2 (en) Anonymization device, anonymization method, program
Changpetch et al. Model selection for logistic regression via association rules analysis
Zhao et al. A nonparametric time-varying coefficient model for panel count data
JP5903376B2 (en) Information recommendation device, information recommendation method, and information recommendation program
Dette et al. A comparative study of monotone nonparametric kernel estimates
Kao et al. Dependence-preserving approach to synthesizing household characteristics
CN110457940B (en) Differential privacy measurement method based on graph theory and mutual information quantity
KR102218374B1 (en) Method and Apparatus for Measuring Quality of De-identified Data for Unstructured Transaction
Burden et al. Empirical zoning distributions for small area data
Kumar et al. Numerical characterization of support recovery in sparse regression with correlated design
Kenett et al. Experimental Learning: Generate high information quality by comparing alternative experimental designs.
JP7283583B2 (en) Control method, control program, and information processing device
JP5651568B2 (en) Database disturbance device, system, method and program
Wen et al. Positive Solutions of a Diffusive Predator‐Prey System including Disease for Prey and Equipped with Dirichlet Boundary Condition
JP2018055610A (en) Anonymization device, anonymization method and program
JP5683425B2 (en) Data disturbance / reconstruction system, data reconstruction device, data reconstruction method, data reconstruction program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160404

R150 Certificate of patent or registration of utility model

Ref document number: 5914291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150