JP7494932B2 - 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム - Google Patents

秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム Download PDF

Info

Publication number
JP7494932B2
JP7494932B2 JP2022556817A JP2022556817A JP7494932B2 JP 7494932 B2 JP7494932 B2 JP 7494932B2 JP 2022556817 A JP2022556817 A JP 2022556817A JP 2022556817 A JP2022556817 A JP 2022556817A JP 7494932 B2 JP7494932 B2 JP 7494932B2
Authority
JP
Japan
Prior art keywords
vector
frequency
value
decision tree
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022556817A
Other languages
English (en)
Other versions
JPWO2022079908A1 (ja
Inventor
浩気 濱田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022079908A1 publication Critical patent/JPWO2022079908A1/ja
Application granted granted Critical
Publication of JP7494932B2 publication Critical patent/JP7494932B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3664Environments for testing or debugging software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3696Methods or tools to render software testable
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09CCIPHERING OR DECIPHERING APPARATUS FOR CRYPTOGRAPHIC OR OTHER PURPOSES INVOLVING THE NEED FOR SECRECY
    • G09C1/00Apparatus or methods whereby a given sequence of signs, e.g. an intelligible text, is transformed into an unintelligible sequence of signs by transposing the signs or groups of signs or by replacing them by others according to a predetermined system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/085Secret sharing or secret splitting, e.g. threshold schemes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/46Secure multiparty computation, e.g. millionaire problem

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラムに関する。
暗号化された数値を復元すること無く特定の演算結果を得る方法として、秘密計算と呼ばれる方法が知られている(例えば、非特許文献1)。非特許文献1に記載されている方法では、3つの秘密計算装置に数値の断片を分散させるという暗号化を行い、3つの秘密計算装置が協調計算を行うことにより、数値を復元すること無く、加減算、定数加算、乗算、定数倍、論理演算(否定、論理積、論理和、排他的論理和)、データ形式変換(整数と二進数)等の結果を3つの秘密計算装置に分散された状態として得ることができる。
ところで、与えられたデータ集合から決定木の学習を行う際に、各データの属性値により各節点(ノード)でデータ集合を分割した際の評価値を計算し、その評価値が最大となる分割を採用する方法がよく知られている。
千田浩司,濱田浩気,五十嵐大,高橋克巳,「軽量検証可能3パーティ秘匿関数計算の再考」,In CSS, 2010.
しかしながら、秘密計算により決定木の学習を行う場合、その計算時間が大きくなることがあった。例えば、n個のデータで構成されるデータ集合がm個の節点を有する決定木で分割される場合、すべての節点で評価値を計算する際に各節点で分類されるデータ数を隠すため、Θ(mn)回の評価(テスト)が必要である。更に、属性が数値属性である場合には分類のしきい値の決め方が最大n通りあるため、全体でΘ(mn)の評価(テスト)が必要である。
本発明の一実施形態は、上記の点に鑑みてなされたもので、秘密計算による決定木の学習を行う場合の計算時間を削減することを目的とする。
上記目的を達成するため、一実施形態に係る秘密決定木テスト装置は、秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テスト装置であって、前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力部と、前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第1の度数と、前記各グループにおけるラベル値ごとのデータの第2の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第3の度数と、前記分割グループにおけるラベル値ごとのデータの第4の度数とを計算する度数計算部と、前記第1の度数と、前記第2の度数と、前記第3の度数と、前記第4の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算部と、を有する。
秘密計算による決定木の学習を行う場合の計算時間を削減することができる。
本実施形態に係る秘密決定木テスト装置の機能構成の一例を示す図である。 本実施形態に係る秘密決定木テスト装置のハードウェア構成の一例を示す図である。 本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャートである。
以下、本発明の一実施形態について説明する。本実施形態では、秘密計算により決定木の学習を行う際(つまり、入力や出力を明かすことなく決定木の学習を行う際)に、数値属性を対象として、各節点における評価(テスト)を効率的に行うことが可能な秘密決定木テスト装置10について説明する。本実施形態に係る秘密決定木テスト装置10は、後述するように決定木の各節点における複数の分割条件の評価値の計算を一括して行うことにより、全体の計算時間を削減することができる。なお、本実施形態では、秘密計算を利用して入力や出力を秘匿した決定木を秘密決定木ともいう。
<記法>
まず、各種記法について説明する。なお、以下では、本実施形態で必ずしも用いるとは限らない記法についても説明している。
ある値aを暗号化や秘密分散等により秘匿化した値をaの秘匿値と呼び、[a]と記述する。aが秘密分散により秘匿化された場合は、[a]により各秘密計算装置が持つ秘密分散の断片の集合を参照するものとする。
・復元
aの秘匿値[a]を入力とし、c=aとなる値cを計算する処理を
c←Open([a])
と記述する。
・算術演算
加算、減算、乗算の各演算は2つの値a、bの秘匿値[a]、[b]を入力とし、それぞれa+b、a-b、abの計算結果c、c、cの秘匿値[c]、[c]、[c]を計算する。加算、減算、乗算の各演算の実行をそれぞれ
[c]←Add([a],[b])
[c]←Sub([a],[b])
[c]←Mul([a],[b])
と記述する。誤解を招く恐れのない場合は、Add([a],[b])、Sub([a],[b])、Mul([a],[b])をそれぞれ[a]+[b]、[a]-[b]、[a]×[b]と略記する。
・比較
比較の演算は2つの値a、bの秘匿値[a]、[b]を入力とし、a=b、a≦b、a<bの真偽値c∈{0,1}の秘匿値[c]、[c]、[c]を計算する。真偽値は真のとき1、偽のとき0とする。a=b、a≦b、a<bの比較演算の実行をそれぞれ
[c]←EQ([a],[b])
[c]←LE([a],[b])
[c]←LT([a],[b])
と記述する。
・選択
選択の演算は、真偽値c∈{0,1}の秘匿値[c]と2つの値a、bの秘匿値[a]、[b]とを入力とし、
Figure 0007494932000001
を満たすdの秘匿値[d]を計算する。この演算の実行を
[d]←IfElse([c],[a],[b])
と記述する。この演算は、
[d]←[c]×([a]-[b])+[b]
により実現できる。
<決定木>
決定木は、データのある属性に対する知識を、木構造によるルールの組み合わせで表現した有向グラフである。また、属性には目的変数と呼ばれる属性と説明変数と呼ばれる属性とがあり、決定木は、説明変数の属性値を入力とし、目的変数の属性値を予測及び出力する。決定木には1以上の節点(ノード)が含まれており、葉以外の各節点には、例えば「年齢が30歳未満」等といった説明変数に関する分割のルール(分割条件)が設定される。一方で、葉(つまり、決定木の終端の節点)には目的変数の属性値が設定される。
決定木は説明変数の属性値を受け取ると、まず、最初に根の節点で分割条件の判定を行う。次に、当該分割条件の判定結果に従って子の節点のいずれかに遷移する。その後、各節点での分割条件の判定と子の節点への遷移とを再帰的に繰り返し、最終的に到達した葉に割り当てられている属性値が目的変数の予測値として出力される。
・決定木の学習アルゴリズム
説明変数と目的変数とで構成されるデータの集合から決定木を学習するアルゴリズムとして、例えば、CART、ID3、C4.5等が知られている。これらのアルゴリズムは細部で異なるが、いずれも根から葉へとある目的関数を最大化するように貪欲的にデータ集合を再帰的に分割することで決定木を学習する(後述するStep1~Step8)。また、アルゴリズムへの入力はデータ集合Q=(X,y)であり、出力は根から葉へ向かう有向グラフとして表現された決定木である。以降では、データ集合に含まれる各データのそれぞれをレコードともいう。なお、例えば、データ集合は「学習用データセット」や「教師データセット」、データ集合に含まれる各データは「学習用データ」や「教師データ」等と称されてもよい。
ここで、Xは各レコードの説明変数の属性値を要素する行列であり、例えば、レコードの総数を行数、説明変数の総数を列数とした行列で表される。yは各レコードの目的変数の属性値を要素するベクトルであり、例えば、Xのn行目のレコードの目的変数の属性値をn番目の要素とする縦ベクトルで表される。
なお、上述したように、決定木の葉以外の各節点には分割条件が設定され、葉には目的変数の属性値が設定される。また、目的変数はカテゴリ値、説明変数は数値をそれぞれ取るものとし、目的変数のことをラベル、その値(属性値)のことをラベル値ともいう。目的変数が数値の場合の決定木は回帰木とも呼ばれる。
Step1:節点vを作成する。
Step2:分割の終了条件が満たされれば、当該節点vに目的変数の属性値を設定した上で葉として出力し、終了する。このとき、当該節点vに設定する属性値(ラベル値)は、例えば、yに含まれる要素の値うち、最も多く出現する値とする。なお、終了条件としては、例えば、yに含まれる要素がすべて同じ値(つまり、目的変数の属性値がすべて同じ)となること、決定木が予め決められた高さに達したこと、等が挙げられる。
Step3:分割の終了条件が満たされていなければ、当該節点vに対して適用可能な分割条件r,r,・・・を列挙する。
Step4:目的関数により各分割条件rの評価値sを計算する。
Step5:分割条件の集合{r}の中から最大の評価値を取る分割条件rを選択し、当該節点vに分割条件rを設定する。
Step6:分割条件rに基づいてデータ集合(X,y)をデータ集合(X,y),(X,y),・・・,(X,y)に分割する。これは、言い換えれば、分割条件rに基づいてデータ集合(X,y)に含まれる各レコードをデータ集合(X,y),(X,y),・・・,(X,y)に分類することを意味する。なお、dは分岐数(つまり、1つの節点が持つ子の数)である。
Step7:各(X,y)に対してStep1~Step7を再帰的に実行する。すなわち、各(X,y)を(X,y)とみなして、Step1~Step7を実行する関数又はメソッド等を呼び出す。ここで、再帰的に実行されたStep1で節点vが作成されると、呼び出し元のStep1で作成された節点vとの間で枝が張られる。なお、呼び出し元のStep1で作成された節点vが親、呼び出し先のStep1で作成された節点vが子となる。
Step8:すべてのデータ集合(X,y)に対するStep1~Step7の実行が終了(つまり、再帰的に呼び出されたすべてのStep1~Step7の実行が終了)すると、各節点v(及びその節点vに設定された分割条件r)の集合と節点間に張られた枝の集合とを出力し、終了する。これらの節点vの集合と枝の集合とが決定木である。
・分岐数
分岐数dは2以上の任意の整数値とすることが可能であるが、本実施形態では、2分木を想定し、d=2であるものとする。なお、本実施形態はdが3以上の場合も適用可能であるが、dの値が大きいほど計算時間は大きくなる。
・分割条件
分割条件としては説明変数の属性値に対する任意の条件を用いることが可能であるが、一般に、大小比較やある集合に含まれるか否か等の条件が用いられることが多い。本実施形態では説明変数は数値を取るため、しきい値に対する大小比較(例えば、Cを閾値、xを説明変数の数値属性値として、x≦C等)を分割条件とする。なお、分割条件は、例えば、分割ルール、分類条件、分類ルール等と称されてもよい。
・純度の指標
あるデータ集合を複数のデータ集合に分割(言い換えれば、あるデータ集合に含まれる各レコードを複数のデータ集合に分類)した際の分割(又は分類)の良し悪しを測る指標として、データ集合があいまいであるかどうかを表す純度の指標H(・)が知られている。よく用いられる指標には、例えば、gini係数やエントロピー等がある。
データ集合Qのうち、目的変数の属性値(つまり、ラベル値)がkであるレコードの集合をQとする。このとき、データ集合Qを入力とする節点におけるラベル値kのレコードの割合を
Figure 0007494932000002
と定義する。
そして、本実施形態では、純度の指標としてエントロピー
Figure 0007494932000003
を用いる。
・目的関数
各分割条件の良し悪しは目的関数により評価される(つまり、目的関数の値が分割条件の評価値である。)。よく利用される目的関数には、例えば、相互情報量、ゲイン率等がある。
分割条件をθとして、データ集合Qをある分割条件θでQ(θ,0)、Q(θ,1)の2つのデータ集合に分割したものとする。このとき、
Figure 0007494932000004
により定義されるGainRatio()はゲイン率と呼ばれる。本実施形態では、ゲイン率を目的関数とする。
<評価値の計算>
各節点の分割条件は、予め定められた目的関数をその節点で最大化するような分割条件を選択することにより設定される。分割条件の候補それぞれについて目的関数の値を計算する必要があるため、与えられた分割条件に対して目的関数の値を効率よく計算できることは重要である。
上記の数4で定義したゲイン率は、実際に分割を行った後の各ラベルの値(目的変数の値)の度数を求めるという入り組んだ計算をする必要がある。そこで、本実施形態では、秘密計算により複数の分割条件に対するゲイン率の計算を一括で行えるように、ゲイン率の計算方法を整理し単純化する。
ゲイン率の計算を単純化するために、ゲイン率では多くの割合が必要とされていることに着目する。割合は除算を必要とするため、そのまま計算すると計算コストが高くなるが、総数を掛けることで度数という計算しやすい統計量に変換することができる。この観察に基づき、本実施形態では、SplitInfo、H、Gain及びGの各関数の代わりに、入力されるデータ集合の大きさを乗じたSplitInfo、H、Gain及びGの各関数を用いる。
簡単のために、
Figure 0007494932000005
を用いると、SplitInfoは以下のように整理できる。
Figure 0007494932000006
同様に、Hは以下のように整理できる。
Figure 0007494932000007
同様に、Gは以下のように整理できる。
Figure 0007494932000008
また、同様に、Gainは以下のように整理できる。
Figure 0007494932000009
上記のSplitInfo、H、Gain及びGの各関数はいずれも、データ集合Qに含まれるレコード数やデータ集合Qのうち或る条件を満たすレコード数等の度数と、f(・)と、加減算とで構成される。GainRatioは、
Figure 0007494932000010
であるため、データ集合Qに対する分割条件θのGainRatioの分子、分母は、結局、
(1)Qのレコード数|Q|
(2)Qのうちラベル値kのレコード数|Q
(3)Qをθで分割した各データ集合のレコード数|Q(θ,i)|
(4)Qをθで分割した各データ集合のうちラベル値kのレコード数|Q(θ,i)
の4つと、f(・)と、加減算とで計算できることがわかる。
f(・)の入力は上述した4つの度数(レコード数|Q|、|Q|、|Q(θ,i)|、|Q(θ,i)|)のいずれかである。したがって、学習用データセットとして与えられたデータ集合のレコード数がnである場合、f(・)の入力は必ず0以上n以下の整数である。よって、秘密分散により秘匿化が行われている場合、f(・)は大きさΘ(n)の以下の対応を表す対応表(ルックアップテーブル)を使った秘密一括写像を用いることで、Θ(n)回のf(・)の計算をO(nlogn)の通信量で実現できる。
Figure 0007494932000011
これにより、本実施形態では、秘密決定木を学習する際に、各節点で各度数を算出することで、各節点における複数の分割条件の評価値(GainRatio)の計算を一括して行うことが可能になる。
また、非負の分子と分母の対として与えられる2つの値(a,b)と(c,d)の比較結果はadとbcの比較結果と等しくなる。GainRatioの分子と分母はいずれも非負であるため、GainRatioの比較(つまり、評価値の比較)を行う際には上記の方法で代用することで除算を回避する。これにより、最大の評価値を取る分割条件を選択するための評価値同士の比較に要する計算時間を削減することができる。
<機能構成>
次に、本実施形態に係る秘密決定木テスト装置10の機能構成について、図1を参照しながら説明する。図1は、本実施形態に係る秘密決定木テスト装置10の機能構成の一例を示す図である。
図1に示すように、本実施形態に係る秘密決定木テスト装置10は、入力部101と、並び替え部102と、ベクトル計算部103と、評価値計算部104と、出力部105と、記憶部106とを有する。
記憶部106には、秘密決定木を学習するための各種データ(つまり、秘匿化された各種データ)が記憶されている。ここで、これら各種データには、学習用データセットとして与えられたデータ集合と、ある数値属性値がどの節点に分類されたか(つまり、グループ)を表すグループ情報ベクトルとが含まれるものとする。また、当該データ集合は、各レコードのある数値属性値を要素とする数値属性値ベクトルと、各レコードのラベル値を要素とするラベル値ベクトルとで構成されているものとする。なお、数値属性値ベクトルは説明変数ごとに存在し、例えば、説明変数が「年齢」と「体重」である場合、各レコードの年齢の値を要素とする数値属性値ベクトルと、各レコードの体重の値を要素とする数値属性値ベクトルとが存在する。
入力部101は、上記のStep4の評価値を計算するために必要なデータとして、ある数値属性の数値属性値ベクトルとラベル値ベクトルと当該数値属性に対応するグループ情報ベクトルとを入力する。
並び替え部102は、グループごとに、数値属性値ベクトル及びラベル値ベクトルの要素を並び替える。なお、並び替えはソートとも称される。
ベクトル計算部103は、並び替え後の数値属性値ベクトル及びラベル値ベクトルを用いて、分割条件の判定を行うためのベクトル(後述する第1の判定ベクトル及び第2の判定ベクトル)を計算する。
評価値計算部104は、グループごと、かつ、分割条件ごとに、当該分割条件を評価するための度数を計算し、上記の数10により当該分割条件の評価値(GainRatio)を計算する。
出力部105は、各グループで評価値が最大となる分割条件を選択し、選択した分割条件を出力する。これにより、当該グループに対応する節点に設定される分割条件が得られる。
<ハードウェア構成>
次に、本実施形態に係る秘密決定木テスト装置10のハードウェア構成について、図2を参照しながら説明する。図2は、本実施形態に係る秘密決定木テスト装置10のハードウェア構成の一例を示す図である。
図2に示すように、本実施形態に係る秘密決定木テスト装置10は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、プロセッサ205と、メモリ装置206とを有する。これら各ハードウェアは、それぞれがバス207を介して通信可能に接続される。
入力装置201は、例えば、キーボードやマウス、タッチパネル等である。表示装置202は、例えば、ディスプレイ等である。なお、秘密決定木テスト装置10は、例えば、入力装置201及び表示装置202のうちの少なくとも一方を有していなくてもよい。
外部I/F203は、記録媒体203a等の外部装置とのインタフェースである。秘密決定木テスト装置10は、外部I/F203を介して、記録媒体203aの読み取りや書き込み等を行うことができる。記録媒体203aには、例えば、秘密決定木テスト装置10が有する各機能部(入力部101、並び替え部102、ベクトル計算部103、評価値計算部104及び出力部105)を実現する1以上のプログラムが格納されていてもよい。
なお、記録媒体203aには、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
通信I/F204は、秘密決定木テスト装置10を通信ネットワークに接続するためのインタフェースである。なお、秘密決定木テスト装置10が有する各機能部を実現する1以上のプログラムは、通信I/F204を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。
プロセッサ205は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。秘密決定木テスト装置10が有する各機能部は、例えば、メモリ装置206等に格納されている1以上のプログラムがプロセッサ205に実行させる処理により実現される。
メモリ装置206は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等の各種記憶装置である。秘密決定木テスト装置10が有する記憶部106は、例えば、メモリ装置206を用いて実現可能である。なお、記憶部106は、例えば、秘密決定木テスト装置10と通信ネットワークを介して接続される記憶装置等を用いて実現されていてもよい。
本実施形態に係る秘密決定木テスト装置10は、図2に示すハードウェア構成を有することにより、各種処理を実現することができる。なお、図2に示すハードウェア構成は一例であって、秘密決定木テスト装置10は、他のハードウェア構成を有していてもよい。例えば、秘密決定木テスト装置10は、複数のプロセッサ205を有していてもよいし、複数のメモリ装置206を有していてもよい。
<秘密決定木テスト処理>
次に、上記のStep4~Step5における評価値の計算と最大の評価値を取る分割条件の選択を行うための秘密決定木テスト処理について、図3を参照しながら説明する。図3は、本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャートである。なお、以降では、ある数値属性を対象として、秘密決定木のある層を構成する各節点でその評価(テスト)を行う場合について説明する。層とは根からの深さが同一である節点の集合のことである。また、ラベルが取り得る値の集合を{1,2,3}とする。
まず、入力部101は、数値属性値ベクトルと、ラベル値ベクトルと、グループ情報ベクトルとを入力する(ステップS101)。以降では、一例として、グループ情報ベクトルは、
[g]=(0,0,1,1,0,0,0,1,0,1)
であるものとする。なお、Tは転置を表す記号である。
グループ情報ベクトルは数値属性値ベクトル及びラベル値ベクトルの各要素がどのグループを分類されたかを表し、先頭の要素からグループに分類した場合に各グループの末尾を表す要素を1、それ以外の要素を0としたベクトルである。例えば、上記の[g]は、数値属性値ベクトル及びラベル値ベクトルの1番目の要素から3番目の要素は1番目のグループに属し、4番目の要素は2番目のグループに属し、5番目の要素から8番目の要素は3番目のグループに属し、9番目の要素から10番目の要素は4番目のグループに属することを表している。
なお、各グループはそれぞれ1つの節点に対応し、1つ上の層でその節点に分類された要素(数値属性値)の集合(つまり、1つ上の層の節点に設定された分割条件で分割された各データ集合)のことである。
次に、並び替え部102は、グループごとに、同一グループ内で数値属性値ベクトル及びラベル値ベクトルの要素を昇順に並び替える(ステップS102)。すなわち、並び替え部102は、1番目のグループ~4番目のグループの各グループ内で、数値属性値ベクトル及びラベル値ベクトルの要素を昇順に並び替える。以降では、一例として、この並び替え後の数値属性値ベクトルは、
[c]=(1,2,5,2,3,4,5,7,2,4)
であるものとする。また、並び替え後のラベル値ベクトルは、
[y]=(3,2,1,3,2,1,1,3,1,2)
であるものとする。以降、数値属性値ベクトル及びラベル値ベクトルは、並び替え後の数値属性値ベクトル及びラベル値ベクトルを指すものとする。
次に、ベクトル計算部103は、ラベルが取り得る値ごとに、ラベル値ベクトル[y]の要素のうち、当該ラベル値と一致する要素の位置を表すビットベクトルを計算する(ステップS103)。
ラベルが取り得る値「1」、「2」及び「3」のそれぞれに対応するビットベクトルを[f]、[f]及び[f]とすれば、これらのビットベクトルはそれぞれ以下のようになる。
[f]=(0,0,1,0,0,1,1,0,1,0)
[f]=(0,1,0,0,1,0,0,0,0,1)
[f]=(1,0,0,1,0,0,0,1,0,0)
つまり、あるラベル値に対応するビットベクトルとは、ラベル値ベクトルの要素のうち、当該ラベル値に一致する要素と同一位置にある要素のみを1、それ以外の要素を0としたベクトルである。
次に、ベクトル計算部103は、各ビットベクトルに対して、グループ情報ベクトル[g]によるグループ分けに従って集約関数累積和演算を行い、第1の判定ベクトルを計算する(ステップS104)。ここで、集約関数累積和演算は同一グループ内の要素の集合を入力して、その要素の値の累積和の集合を出力する演算である。言い換えれば、集約関数累積和演算は、同一グループ内の各要素について先頭から累積和を計算する演算である。
例えば、ベクトル計算部103は、各ビットベクトルのそれぞれについて、1番目の要素から3番目の要素の累積和を順に計算し、同様に4番目の要素の累積和を計算し、5番目の要素から8番目の要素の累積和を順に計算し、9番目の要素から10番目の要素の累積和を順に計算する。
これにより、ビットベクトル[f]に対応する第1の判定ベクトル
[s0,1]=(0,0,1,0,0,1,2,2,1,1)
が得られる。
同様に、ビットベクトル[f]に対応する第1の判定ベクトル
[s0,2]=(0,1,1,0,1,1,1,1,0,1)
が得られる。
同様に、ビットベクトル[f]に対応する第1の判定ベクトル
[s0,3]=(1,1,1,1,0,0,0,1,0,0)
が得られる。
上記の第1の判定ベクトルは、各グループ内で各数値属性値の直後(つまり、当該数値属性値と次に大きい数値属性値との間)にしきい値を設定した場合に、このしきい値以下の数値属性値が該当のラベル値である個数(度数)を表している。例えば、第1の判定ベクトル[s0,1]は、数値属性値ベクトル[c]の1番目のグループの1番目の要素の直後にしきい値を設定した場合、しきい値以下の数値属性値でラベル値が1である個数は0であることを表している。同様に、例えば、1番目のグループの3番目の要素の直後にしきい値を設定した場合、しきい値以下の数値属性値でラベル値が1である個数は1であることを表している。
したがって、上記の第1の判定ベクトルにより、x≦C(ただし、Cはしきい値)といった形式で表される分割条件で分割(グループ分け)されたデータ集合(数値属性値の集合)のうち、当該分割条件を満たすデータ集合でラベル値kを取るレコードの度数を計算することができる。
次に、ベクトル計算部103は、各ビットベクトルに対して、グループ情報ベクトル[g]によるグループ分けに従って集約関数総和演算を行い、集約総和ベクトルを計算する(ステップS105)。ここで、集約関数総和演算は同一グループ内の要素の集合を入力して、その要素の値の総和を出力する演算である。
例えば、ベクトル計算部103は、各ビットベクトルのそれぞれについて、1番目の要素から3番目の要素の総和を計算し、同様に4番目の要素の総和を計算し、5番目の要素から8番目の要素の総和を計算し、9番目の要素から10番目の要素の総和を計算する。そして、ベクトル計算部103は、各総和を、当該総和の計算元となった要素と同一位置の要素とすることで集約総和ベクトルを作成する。
これにより、ビットベクトル[f]に対応する集約総和ベクトル
[s*,1]=(1,1,1,0,2,2,2,2,1,1)
が得られる。
同様に、ビットベクトル[f]に対応する集約総和ベクトル
[s*,2]=(1,1,1,0,1,1,1,1,1,1)
が得られる。
同様に、ビットベクトル[f]に対応する集約総和ベクトル
[s*,3]=(1,1,1,1,1,1,1,1,0,0)
が得られる。
次に、ベクトル計算部103は、同一のラベル値に対応する第1の判定ベクトル及び集約総和ベクトルを用いて、当該ラベル値に対応する第2の判定ベクトルを計算する(ステップS106)。ベクトル計算部103は、同一のラベル値に対応する第1の判定ベクトル及び集約総和ベクトルを用いて、集約総和ベクトルから第1の判定ベクトルを減算することで第2の判定ベクトルを計算する。
これにより、ラベル値「1」に対応する第2の判定ベクトル
[s1,1]=[s*,1]-[s0,1]=(1,1,0,0,2,1,0,0,0,0)
が得られる。
同様に、ラベル値「2」に対応する第2の判定ベクトル
[s1,2]=[s*,2]-[s0,2]=(1,0,0,0,0,0,0,0,1,0)
が得られる。
同様に、ラベル値「3」に対応する第2の判定ベクトル
[s1,3]=[s*,3]-[s0,3]=(0,0,0,0,1,1,1,0,0,0)
が得られる。
上記の第2の判定ベクトルは、各グループ内で各数値属性値の直後(つまり、当該数値属性値と次に大きい数値属性値との間)にしきい値を設定した場合に、このしきい値より大きい数値属性値が該当のラベル値である個数(度数)を表している。例えば、第2の判定ベクトル[s1,1]は、数値属性値ベクトル[c]の1番目のグループの1番目の要素の直後にしきい値を設定した場合、しきい値より大きい数値属性値でラベル値が1である個数は1個であることを表している。同様に、例えば、1番目のグループの3番目の要素の直後にしきい値を設定した場合、しきい値より大きい数値属性値でラベル値が1である個数は0であることを表している。
したがって、上記の第2の判定ベクトルにより、x≦C(ただし、Cはしきい値)といった形式で表される分割条件で分割(グループ分け)されたデータ集合(数値属性値の集合)のうち、当該分割条件を満たさないデータ集合でラベル値kを取るレコードの度数を計算することができる。
次に、評価値計算部104は、グループごと、かつ、分割条件ごとに、各度数を計算する(ステップS107)。ここで、評価値計算部104は、
数値属性値ベクトル[c]の各グループの要素数(つまり、上記の(1)に示す|Q|)
数値属性値ベクトル[c]の各グループでラベル値kの要素数(つまり、上記の(2)に示す|Q|)
数値属性値ベクトル[c]の各グループを分割条件θで分割した各グループの要素数(つまり、上記の(3)に示す|Q(θ,i)|)
数値属性値ベクトル[c]の各グループを分割条件θで分割した各グループでラベル値kの要素数(つまり、上記の(4)に示す|Q(θ,i)|)
の4つの度数を計算する。
これら4つの度数のうち、1つ目の度数は数値属性値ベクトル[c]及びグループ情報ベクトル[g]を用いて、グループごとの要素数を計算することで得られる。また、2つ目の度数は数値属性値ベクトル[c]、ラベル値ベクトル[y]及びグループ情報ベクトル[g]を用いて、グループごと、かつ、ラベル値ごとの要素数を計算することで得られる。また、3つ目の度数は数値属性値ベクトル[c]及びグループ情報ベクトル[g]を用いて、分割条件θのしきい値をグループに設定した際に、当該グループ内で分割条件θにより分割された各集合(つまり、分割条件θを満たす集合と満たさない集合)の要素数を計算することで得られる。
一方で、4つ目の度数は数値属性値ベクトル[c]とグループ情報ベクトル[g]と第1の判定ベクトルと第2の判定ベクトルとを用いて、分割条件θのしきい値をグループに設定した際に、当該グループ内で分割条件θにより分割された各集合でラベル値kを取る要素数を計算することで得られる。これは、上述したように、分割後の各集合のうち、分割条件θを満たす集合でラベル値kを取る要素数は当該ラベル値kに対応する第1の判定ベクトルにより計算され、分割条件θを満たさない集合でラベル値kを取る要素数は当該ラベル値kに対応する第2の判定ベクトルにより計算される。
次に、評価値計算部104は、上記のステップS107で計算された各度数を用いて、グループごと、かつ、分割条件ごとに、上記の数10により当該分割条件の評価値を計算する(ステップS108)。
そして、出力部105は、各グループで評価値が最大となる分割条件を選択し、選択した分割条件を当該グループに対応する節点に設定される分割条件として出力する(ステップS109)。なお、各グループで評価値が最大となる分割条件を選択する際には、例えば、集約関数最大値演算を行えばよい。集約関数最大値演算は同一グループ内の要素(評価値)を入力し、その要素の値の最大値を出力する演算である。
<まとめ>
以上のように、本実施形態に係る秘密決定木テスト装置10は、与えられた秘匿値のデータ集合から秘密決定木を学習する際に、数値属性値を対象として各節点における複数の分割条件の評価値の計算を一括して行うことで、全体の計算時間を削減することができる。具体的には、例えば、n個のデータで構成されるデータ集合がm個の節点を有する決定木で分割される場合、従来技術では全体でΘ(mn)の評価(テスト)が必要であったのに対して、本実施形態に係る秘密決定木テスト装置10では、O(nlogn)時間で評価することが可能となる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
10 秘密決定木テスト装置
101 入力部
102 並び替え部
103 ベクトル計算部
104 評価値計算部
105 出力部
106 記憶部
201 入力装置
202 表示装置
203 外部I/F
203a 記録媒体
204 通信I/F
205 プロセッサ
206 メモリ装置
207 バス

Claims (7)

  1. 秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テスト装置であって、
    前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力部と、
    前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第1の度数と、前記各グループにおけるラベル値ごとのデータの第2の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第3の度数と、前記分割グループにおけるラベル値ごとのデータの第4の度数とを計算する度数計算部と、
    前記第1の度数と、前記第2の度数と、前記第3の度数と、前記第4の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算部と、
    を有する秘密決定木テスト装置。
  2. 前記度数計算部は、
    前記グループごとに、複数の前記分割条件のそれぞれの分割条件で前記第3の度数と前記第4の度数を計算する、請求項1に記載の秘密決定木テスト装置。
  3. 前記グループ情報ベクトルが表すグループごとに、前記数値属性値ベクトルに含まれる数値属性値と前記ラベル値ベクトルに含まれるラベル値とを前記数値属性値の昇順に並び替える並び替え部と、
    前記ラベル値が取り得る値ごとに、前記ラベル値ベクトルに含まれるラベル値のうち、前記取り得る値と一致するラベル値の位置を表すビットベクトルを作成するビットベクトル作成部と、
    前記グループ情報ベクトルが表すグループに従って前記ビットベクトルに含まれる各要素の集約関数累積和演算を行うことで、前記しきい値以下となる数値属性値のデータ数を判定するための第1の判定ベクトルを計算する第1の判定ベクトル計算部と、
    前記第1の判定ベクトルと前記ビットベクトルとを用いて、前記しきい値より大きい数値属性値のデータ数を判定するための第2の判定ベクトルを計算する第2の判定ベクトル計算部とを有し、
    前記度数計算部は、
    前記第1の判定ベクトル及び前記第2の判定ベクトルにより前記第4の度数を計算する、請求項1又は2に記載の秘密決定木テスト装置。
  4. 前記第2の判定ベクトル計算部は、
    前記グループ情報ベクトルが表すグループに従って前記ビットベクトルに含まれる各要素の集約関数総和演算を行うことで、前記グループごとの総和の要素とする総和ベクトルを計算し、前記総和ベクトルから前記第1の判定ベクトルを減算することで前記第2の判定ベクトルを計算する、請求項3に記載の秘密決定木テスト装置。
  5. 秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テストシステムであって、
    前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力部と、
    前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第1の度数と、前記各グループにおけるラベル値ごとのデータの第2の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第3の度数と、前記分割グループにおけるラベル値ごとのデータの第4の度数とを計算する度数計算部と、
    前記第1の度数と、前記第2の度数と、前記第3の度数と、前記第4の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算部と、
    を有する秘密決定木テストシステム。
  6. 秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テスト方法であって、
    前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力手順と、
    前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第1の度数と、前記各グループにおけるラベル値ごとのデータの第2の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第3の度数と、前記分割グループにおけるラベル値ごとのデータの第4の度数とを計算する度数計算手順と、
    前記第1の度数と、前記第2の度数と、前記第3の度数と、前記第4の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算手順と、
    をコンピュータが実行する秘密決定木テスト方法。
  7. コンピュータを、請求項1乃至4の何れか一項に記載の秘密決定木テスト装置として機能させるプログラム。
JP2022556817A 2020-10-16 2020-10-16 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム Active JP7494932B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/039124 WO2022079908A1 (ja) 2020-10-16 2020-10-16 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2022079908A1 JPWO2022079908A1 (ja) 2022-04-21
JP7494932B2 true JP7494932B2 (ja) 2024-06-04

Family

ID=81209031

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022556817A Active JP7494932B2 (ja) 2020-10-16 2020-10-16 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム

Country Status (6)

Country Link
US (1) US20230325304A1 (ja)
EP (1) EP4231274A1 (ja)
JP (1) JP7494932B2 (ja)
CN (1) CN116368503A (ja)
AU (1) AU2020472681B2 (ja)
WO (1) WO2022079908A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208484A1 (ja) 2018-04-25 2019-10-31 日本電信電話株式会社 秘密集約総和システム、秘密計算装置、秘密集約総和方法、およびプログラム
WO2022079911A1 (ja) 2020-10-16 2022-04-21 日本電信電話株式会社 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208484A1 (ja) 2018-04-25 2019-10-31 日本電信電話株式会社 秘密集約総和システム、秘密計算装置、秘密集約総和方法、およびプログラム
WO2022079911A1 (ja) 2020-10-16 2022-04-21 日本電信電話株式会社 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LINDELL Yehuda, PINKAS Benny,Privacy Preserving Data Mining,Advances in Cryptology - CRYPTO 2000,ドイツ,Springer-Verlag Berlin Heidelberg,2000年08月11日,pp.36-54,[online], [retrieved on 2020-11-25], Retrieved from <https://link.springer.com/chapter/10.1007/3-540-44598-6_3> <doi: 10.1007/3-540-44598-6_3>,ISBN 978-3-540-44598-2

Also Published As

Publication number Publication date
US20230325304A1 (en) 2023-10-12
AU2020472681A1 (en) 2023-03-30
EP4231274A1 (en) 2023-08-23
AU2020472681B2 (en) 2024-02-15
WO2022079908A1 (ja) 2022-04-21
CN116368503A (zh) 2023-06-30
JPWO2022079908A1 (ja) 2022-04-21

Similar Documents

Publication Publication Date Title
JP6414363B2 (ja) 予測システム、方法およびプログラム
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
JP7119820B2 (ja) 予測プログラム、予測方法および学習装置
WO2022079911A1 (ja) 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム
Doyen et al. Hollow-tree super: A directional and scalable approach for feature importance in boosted tree models
Rai Advanced deep learning with R: Become an expert at designing, building, and improving advanced neural network models using R
JP7491371B2 (ja) 数式モデル生成システム、数式モデル生成方法および数式モデル生成プログラム
JP7494932B2 (ja) 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム
Djukova et al. On the logical analysis of partially ordered data in the supervised classification problem
JP7505570B2 (ja) 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム
Cawi et al. Designing machine learning workflows with an application to topological data analysis
WO2022079907A1 (ja) 秘密決定木学習装置、秘密決定木学習システム、秘密決定木学習方法、及びプログラム
Kumano et al. Comparison of the representational power of random forests, binary decision diagrams, and neural networks
JP7302229B2 (ja) データ管理システム、データ管理方法、およびデータ管理プログラム
JP7491390B2 (ja) 秘密グループ分け装置、秘密グループ分けシステム、秘密グループ分け方法、及びプログラム
JP6682105B2 (ja) フィッシャー正確検定計算装置、方法及びプログラム
WO2023062834A1 (ja) 秘密分割装置、秘密分割方法、及びプログラム
JP7468681B2 (ja) 学習方法、学習装置、及びプログラム
US20230077998A1 (en) Systems and Methods for Smart Instance Selection
JP7017528B2 (ja) 学習装置、学習方法及び学習プログラム
Rathore et al. Techniques used for the prediction of number of faults
Mailund Supervised Learning
Kallrath Mathematical Solution Techniques
JP2021124946A (ja) 学習装置、学習方法及びプログラム
Hu Statistical and machine learning classification methods for credit ratings

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240506

R150 Certificate of patent or registration of utility model

Ref document number: 7494932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150