JP7494932B2

JP7494932B2 - 秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラム

Info

Publication number: JP7494932B2
Application number: JP2022556817A
Authority: JP
Inventors: 浩気濱田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2024-06-04
Anticipated expiration: 2040-10-16
Also published as: US20230325304A1; AU2020472681A1; EP4231274A1; AU2020472681B2; WO2022079908A1; CN116368503A; JPWO2022079908A1

Description

本発明は、秘密決定木テスト装置、秘密決定木テストシステム、秘密決定木テスト方法、及びプログラムに関する。

暗号化された数値を復元すること無く特定の演算結果を得る方法として、秘密計算と呼ばれる方法が知られている（例えば、非特許文献１）。非特許文献１に記載されている方法では、３つの秘密計算装置に数値の断片を分散させるという暗号化を行い、３つの秘密計算装置が協調計算を行うことにより、数値を復元すること無く、加減算、定数加算、乗算、定数倍、論理演算（否定、論理積、論理和、排他的論理和）、データ形式変換（整数と二進数）等の結果を３つの秘密計算装置に分散された状態として得ることができる。

ところで、与えられたデータ集合から決定木の学習を行う際に、各データの属性値により各節点（ノード）でデータ集合を分割した際の評価値を計算し、その評価値が最大となる分割を採用する方法がよく知られている。

千田浩司，濱田浩気，五十嵐大，高橋克巳，「軽量検証可能3パーティ秘匿関数計算の再考」，In CSS, 2010.

しかしながら、秘密計算により決定木の学習を行う場合、その計算時間が大きくなることがあった。例えば、ｎ個のデータで構成されるデータ集合がｍ個の節点を有する決定木で分割される場合、すべての節点で評価値を計算する際に各節点で分類されるデータ数を隠すため、Θ（ｍｎ）回の評価（テスト）が必要である。更に、属性が数値属性である場合には分類のしきい値の決め方が最大ｎ通りあるため、全体でΘ（ｍｎ^２）の評価（テスト）が必要である。

本発明の一実施形態は、上記の点に鑑みてなされたもので、秘密計算による決定木の学習を行う場合の計算時間を削減することを目的とする。

上記目的を達成するため、一実施形態に係る秘密決定木テスト装置は、秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テスト装置であって、前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力部と、前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第１の度数と、前記各グループにおけるラベル値ごとのデータの第２の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第３の度数と、前記分割グループにおけるラベル値ごとのデータの第４の度数とを計算する度数計算部と、前記第１の度数と、前記第２の度数と、前記第３の度数と、前記第４の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算部と、を有する。

秘密計算による決定木の学習を行う場合の計算時間を削減することができる。

本実施形態に係る秘密決定木テスト装置の機能構成の一例を示す図である。本実施形態に係る秘密決定木テスト装置のハードウェア構成の一例を示す図である。本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャートである。

以下、本発明の一実施形態について説明する。本実施形態では、秘密計算により決定木の学習を行う際（つまり、入力や出力を明かすことなく決定木の学習を行う際）に、数値属性を対象として、各節点における評価（テスト）を効率的に行うことが可能な秘密決定木テスト装置１０について説明する。本実施形態に係る秘密決定木テスト装置１０は、後述するように決定木の各節点における複数の分割条件の評価値の計算を一括して行うことにより、全体の計算時間を削減することができる。なお、本実施形態では、秘密計算を利用して入力や出力を秘匿した決定木を秘密決定木ともいう。

＜記法＞
まず、各種記法について説明する。なお、以下では、本実施形態で必ずしも用いるとは限らない記法についても説明している。

ある値ａを暗号化や秘密分散等により秘匿化した値をａの秘匿値と呼び、［ａ］と記述する。ａが秘密分散により秘匿化された場合は、［ａ］により各秘密計算装置が持つ秘密分散の断片の集合を参照するものとする。

・復元
ａの秘匿値［ａ］を入力とし、ｃ＝ａとなる値ｃを計算する処理を
ｃ←Ｏｐｅｎ（［ａ］）
と記述する。

・算術演算
加算、減算、乗算の各演算は２つの値ａ、ｂの秘匿値［ａ］、［ｂ］を入力とし、それぞれａ＋ｂ、ａ－ｂ、ａｂの計算結果ｃ_１、ｃ_２、ｃ_３の秘匿値［ｃ_１］、［ｃ_２］、［ｃ_３］を計算する。加算、減算、乗算の各演算の実行をそれぞれ
［ｃ_１］←Ａｄｄ（［ａ］，［ｂ］）
［ｃ_２］←Ｓｕｂ（［ａ］，［ｂ］）
［ｃ_３］←Ｍｕｌ（［ａ］，［ｂ］）
と記述する。誤解を招く恐れのない場合は、Ａｄｄ（［ａ］，［ｂ］）、Ｓｕｂ（［ａ］，［ｂ］）、Ｍｕｌ（［ａ］，［ｂ］）をそれぞれ［ａ］＋［ｂ］、［ａ］－［ｂ］、［ａ］×［ｂ］と略記する。

・比較
比較の演算は２つの値ａ、ｂの秘匿値［ａ］、［ｂ］を入力とし、ａ＝ｂ、ａ≦ｂ、ａ＜ｂの真偽値ｃ∈｛０，１｝の秘匿値［ｃ_１］、［ｃ_２］、［ｃ_３］を計算する。真偽値は真のとき１、偽のとき０とする。ａ＝ｂ、ａ≦ｂ、ａ＜ｂの比較演算の実行をそれぞれ
［ｃ_１］←ＥＱ（［ａ］，［ｂ］）
［ｃ_２］←ＬＥ（［ａ］，［ｂ］）
［ｃ_３］←ＬＴ（［ａ］，［ｂ］）
と記述する。

・選択
選択の演算は、真偽値ｃ∈｛０，１｝の秘匿値［ｃ］と２つの値ａ、ｂの秘匿値［ａ］、［ｂ］とを入力とし、

を満たすｄの秘匿値［ｄ］を計算する。この演算の実行を
［ｄ］←ＩｆＥｌｓｅ（［ｃ］，［ａ］，［ｂ］）
と記述する。この演算は、
［ｄ］←［ｃ］×（［ａ］－［ｂ］）＋［ｂ］
により実現できる。

＜決定木＞
決定木は、データのある属性に対する知識を、木構造によるルールの組み合わせで表現した有向グラフである。また、属性には目的変数と呼ばれる属性と説明変数と呼ばれる属性とがあり、決定木は、説明変数の属性値を入力とし、目的変数の属性値を予測及び出力する。決定木には１以上の節点（ノード）が含まれており、葉以外の各節点には、例えば「年齢が３０歳未満」等といった説明変数に関する分割のルール（分割条件）が設定される。一方で、葉（つまり、決定木の終端の節点）には目的変数の属性値が設定される。

決定木は説明変数の属性値を受け取ると、まず、最初に根の節点で分割条件の判定を行う。次に、当該分割条件の判定結果に従って子の節点のいずれかに遷移する。その後、各節点での分割条件の判定と子の節点への遷移とを再帰的に繰り返し、最終的に到達した葉に割り当てられている属性値が目的変数の予測値として出力される。

・決定木の学習アルゴリズム
説明変数と目的変数とで構成されるデータの集合から決定木を学習するアルゴリズムとして、例えば、ＣＡＲＴ、ＩＤ３、Ｃ４．５等が知られている。これらのアルゴリズムは細部で異なるが、いずれも根から葉へとある目的関数を最大化するように貪欲的にデータ集合を再帰的に分割することで決定木を学習する（後述するＳｔｅｐ１～Ｓｔｅｐ８）。また、アルゴリズムへの入力はデータ集合Ｑ＝（Ｘ，ｙ）であり、出力は根から葉へ向かう有向グラフとして表現された決定木である。以降では、データ集合に含まれる各データのそれぞれをレコードともいう。なお、例えば、データ集合は「学習用データセット」や「教師データセット」、データ集合に含まれる各データは「学習用データ」や「教師データ」等と称されてもよい。

ここで、Ｘは各レコードの説明変数の属性値を要素する行列であり、例えば、レコードの総数を行数、説明変数の総数を列数とした行列で表される。ｙは各レコードの目的変数の属性値を要素するベクトルであり、例えば、Ｘのｎ行目のレコードの目的変数の属性値をｎ番目の要素とする縦ベクトルで表される。

なお、上述したように、決定木の葉以外の各節点には分割条件が設定され、葉には目的変数の属性値が設定される。また、目的変数はカテゴリ値、説明変数は数値をそれぞれ取るものとし、目的変数のことをラベル、その値（属性値）のことをラベル値ともいう。目的変数が数値の場合の決定木は回帰木とも呼ばれる。

Ｓｔｅｐ１：節点ｖを作成する。

Ｓｔｅｐ２：分割の終了条件が満たされれば、当該節点ｖに目的変数の属性値を設定した上で葉として出力し、終了する。このとき、当該節点ｖに設定する属性値（ラベル値）は、例えば、ｙに含まれる要素の値うち、最も多く出現する値とする。なお、終了条件としては、例えば、ｙに含まれる要素がすべて同じ値（つまり、目的変数の属性値がすべて同じ）となること、決定木が予め決められた高さに達したこと、等が挙げられる。

Ｓｔｅｐ３：分割の終了条件が満たされていなければ、当該節点ｖに対して適用可能な分割条件ｒ_１，ｒ_２，・・・を列挙する。

Ｓｔｅｐ４：目的関数により各分割条件ｒ_ｉの評価値ｓ_ｉを計算する。

Ｓｔｅｐ５：分割条件の集合｛ｒ_ｉ｝の中から最大の評価値を取る分割条件ｒ^＊を選択し、当該節点ｖに分割条件ｒ^＊を設定する。

Ｓｔｅｐ６：分割条件ｒ^＊に基づいてデータ集合（Ｘ，ｙ）をデータ集合（Ｘ_１，ｙ_１），（Ｘ_２，ｙ_２），・・・，（Ｘ_ｄ，ｙ_ｄ）に分割する。これは、言い換えれば、分割条件ｒ^＊に基づいてデータ集合（Ｘ，ｙ）に含まれる各レコードをデータ集合（Ｘ_１，ｙ_１），（Ｘ_２，ｙ_２），・・・，（Ｘ_ｄ，ｙ_ｄ）に分類することを意味する。なお、ｄは分岐数（つまり、１つの節点が持つ子の数）である。

Ｓｔｅｐ７：各（Ｘ_ｊ，ｙ_ｊ）に対してＳｔｅｐ１～Ｓｔｅｐ７を再帰的に実行する。すなわち、各（Ｘ_ｊ，ｙ_ｊ）を（Ｘ，ｙ）とみなして、Ｓｔｅｐ１～Ｓｔｅｐ７を実行する関数又はメソッド等を呼び出す。ここで、再帰的に実行されたＳｔｅｐ１で節点ｖが作成されると、呼び出し元のＳｔｅｐ１で作成された節点ｖとの間で枝が張られる。なお、呼び出し元のＳｔｅｐ１で作成された節点ｖが親、呼び出し先のＳｔｅｐ１で作成された節点ｖが子となる。

Ｓｔｅｐ８：すべてのデータ集合（Ｘ_ｊ，ｙ_ｊ）に対するＳｔｅｐ１～Ｓｔｅｐ７の実行が終了（つまり、再帰的に呼び出されたすべてのＳｔｅｐ１～Ｓｔｅｐ７の実行が終了）すると、各節点ｖ（及びその節点ｖに設定された分割条件ｒ）の集合と節点間に張られた枝の集合とを出力し、終了する。これらの節点ｖの集合と枝の集合とが決定木である。

・分岐数
分岐数ｄは２以上の任意の整数値とすることが可能であるが、本実施形態では、２分木を想定し、ｄ＝２であるものとする。なお、本実施形態はｄが３以上の場合も適用可能であるが、ｄの値が大きいほど計算時間は大きくなる。

・分割条件
分割条件としては説明変数の属性値に対する任意の条件を用いることが可能であるが、一般に、大小比較やある集合に含まれるか否か等の条件が用いられることが多い。本実施形態では説明変数は数値を取るため、しきい値に対する大小比較（例えば、Ｃを閾値、ｘを説明変数の数値属性値として、ｘ≦Ｃ等）を分割条件とする。なお、分割条件は、例えば、分割ルール、分類条件、分類ルール等と称されてもよい。

・純度の指標
あるデータ集合を複数のデータ集合に分割（言い換えれば、あるデータ集合に含まれる各レコードを複数のデータ集合に分類）した際の分割（又は分類）の良し悪しを測る指標として、データ集合があいまいであるかどうかを表す純度の指標Ｈ（・）が知られている。よく用いられる指標には、例えば、ｇｉｎｉ係数やエントロピー等がある。

データ集合Ｑのうち、目的変数の属性値（つまり、ラベル値）がｋであるレコードの集合をＱ_ｋとする。このとき、データ集合Ｑを入力とする節点におけるラベル値ｋのレコードの割合を

と定義する。

そして、本実施形態では、純度の指標としてエントロピー

を用いる。

・目的関数
各分割条件の良し悪しは目的関数により評価される（つまり、目的関数の値が分割条件の評価値である。）。よく利用される目的関数には、例えば、相互情報量、ゲイン率等がある。

分割条件をθとして、データ集合Ｑをある分割条件θでＱ（θ，０）、Ｑ（θ，１）の２つのデータ集合に分割したものとする。このとき、

により定義されるＧａｉｎＲａｔｉｏ（）はゲイン率と呼ばれる。本実施形態では、ゲイン率を目的関数とする。

＜評価値の計算＞
各節点の分割条件は、予め定められた目的関数をその節点で最大化するような分割条件を選択することにより設定される。分割条件の候補それぞれについて目的関数の値を計算する必要があるため、与えられた分割条件に対して目的関数の値を効率よく計算できることは重要である。

上記の数４で定義したゲイン率は、実際に分割を行った後の各ラベルの値（目的変数の値）の度数を求めるという入り組んだ計算をする必要がある。そこで、本実施形態では、秘密計算により複数の分割条件に対するゲイン率の計算を一括で行えるように、ゲイン率の計算方法を整理し単純化する。

ゲイン率の計算を単純化するために、ゲイン率では多くの割合が必要とされていることに着目する。割合は除算を必要とするため、そのまま計算すると計算コストが高くなるが、総数を掛けることで度数という計算しやすい統計量に変換することができる。この観察に基づき、本実施形態では、ＳｐｌｉｔＩｎｆｏ、Ｈ、Ｇａｉｎ及びＧの各関数の代わりに、入力されるデータ集合の大きさを乗じたＳｐｌｉｔＩｎｆｏ^＋、Ｈ^＋、Ｇａｉｎ^＋及びＧ^＋の各関数を用いる。

簡単のために、

を用いると、ＳｐｌｉｔＩｎｆｏ^＋は以下のように整理できる。

同様に、Ｈ^＋は以下のように整理できる。

同様に、Ｇ^＋は以下のように整理できる。

また、同様に、Ｇａｉｎ^＋は以下のように整理できる。

上記のＳｐｌｉｔＩｎｆｏ^＋、Ｈ^＋、Ｇａｉｎ^＋及びＧ^＋の各関数はいずれも、データ集合Ｑに含まれるレコード数やデータ集合Ｑのうち或る条件を満たすレコード数等の度数と、ｆ（・）と、加減算とで構成される。ＧａｉｎＲａｔｉｏは、

であるため、データ集合Ｑに対する分割条件θのＧａｉｎＲａｔｉｏの分子、分母は、結局、
（１）Ｑのレコード数｜Ｑ｜
（２）Ｑのうちラベル値ｋのレコード数｜Ｑ_ｋ｜
（３）Ｑをθで分割した各データ集合のレコード数｜Ｑ（θ，ｉ）｜
（４）Ｑをθで分割した各データ集合のうちラベル値ｋのレコード数｜Ｑ（θ，ｉ）_ｋ｜
の４つと、ｆ（・）と、加減算とで計算できることがわかる。

ｆ（・）の入力は上述した４つの度数（レコード数｜Ｑ｜、｜Ｑ_ｋ｜、｜Ｑ（θ，ｉ）｜、｜Ｑ（θ，ｉ）_ｋ｜）のいずれかである。したがって、学習用データセットとして与えられたデータ集合のレコード数がｎである場合、ｆ（・）の入力は必ず０以上ｎ以下の整数である。よって、秘密分散により秘匿化が行われている場合、ｆ（・）は大きさΘ（ｎ）の以下の対応を表す対応表（ルックアップテーブル）を使った秘密一括写像を用いることで、Θ（ｎ）回のｆ（・）の計算をＯ（ｎｌｏｇｎ）の通信量で実現できる。

これにより、本実施形態では、秘密決定木を学習する際に、各節点で各度数を算出することで、各節点における複数の分割条件の評価値（ＧａｉｎＲａｔｉｏ）の計算を一括して行うことが可能になる。

また、非負の分子と分母の対として与えられる２つの値（ａ，ｂ）と（ｃ，ｄ）の比較結果はａｄとｂｃの比較結果と等しくなる。ＧａｉｎＲａｔｉｏの分子と分母はいずれも非負であるため、ＧａｉｎＲａｔｉｏの比較（つまり、評価値の比較）を行う際には上記の方法で代用することで除算を回避する。これにより、最大の評価値を取る分割条件を選択するための評価値同士の比較に要する計算時間を削減することができる。

＜機能構成＞
次に、本実施形態に係る秘密決定木テスト装置１０の機能構成について、図１を参照しながら説明する。図１は、本実施形態に係る秘密決定木テスト装置１０の機能構成の一例を示す図である。

図１に示すように、本実施形態に係る秘密決定木テスト装置１０は、入力部１０１と、並び替え部１０２と、ベクトル計算部１０３と、評価値計算部１０４と、出力部１０５と、記憶部１０６とを有する。

記憶部１０６には、秘密決定木を学習するための各種データ（つまり、秘匿化された各種データ）が記憶されている。ここで、これら各種データには、学習用データセットとして与えられたデータ集合と、ある数値属性値がどの節点に分類されたか（つまり、グループ）を表すグループ情報ベクトルとが含まれるものとする。また、当該データ集合は、各レコードのある数値属性値を要素とする数値属性値ベクトルと、各レコードのラベル値を要素とするラベル値ベクトルとで構成されているものとする。なお、数値属性値ベクトルは説明変数ごとに存在し、例えば、説明変数が「年齢」と「体重」である場合、各レコードの年齢の値を要素とする数値属性値ベクトルと、各レコードの体重の値を要素とする数値属性値ベクトルとが存在する。

入力部１０１は、上記のＳｔｅｐ４の評価値を計算するために必要なデータとして、ある数値属性の数値属性値ベクトルとラベル値ベクトルと当該数値属性に対応するグループ情報ベクトルとを入力する。

並び替え部１０２は、グループごとに、数値属性値ベクトル及びラベル値ベクトルの要素を並び替える。なお、並び替えはソートとも称される。

ベクトル計算部１０３は、並び替え後の数値属性値ベクトル及びラベル値ベクトルを用いて、分割条件の判定を行うためのベクトル（後述する第１の判定ベクトル及び第２の判定ベクトル）を計算する。

評価値計算部１０４は、グループごと、かつ、分割条件ごとに、当該分割条件を評価するための度数を計算し、上記の数１０により当該分割条件の評価値（ＧａｉｎＲａｔｉｏ）を計算する。

出力部１０５は、各グループで評価値が最大となる分割条件を選択し、選択した分割条件を出力する。これにより、当該グループに対応する節点に設定される分割条件が得られる。

＜ハードウェア構成＞
次に、本実施形態に係る秘密決定木テスト装置１０のハードウェア構成について、図２を参照しながら説明する。図２は、本実施形態に係る秘密決定木テスト装置１０のハードウェア構成の一例を示す図である。

図２に示すように、本実施形態に係る秘密決定木テスト装置１０は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続される。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、秘密決定木テスト装置１０は、例えば、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。秘密決定木テスト装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、秘密決定木テスト装置１０が有する各機能部（入力部１０１、並び替え部１０２、ベクトル計算部１０３、評価値計算部１０４及び出力部１０５）を実現する１以上のプログラムが格納されていてもよい。

なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、秘密決定木テスト装置１０を通信ネットワークに接続するためのインタフェースである。なお、秘密決定木テスト装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。秘密決定木テスト装置１０が有する各機能部は、例えば、メモリ装置２０６等に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。秘密決定木テスト装置１０が有する記憶部１０６は、例えば、メモリ装置２０６を用いて実現可能である。なお、記憶部１０６は、例えば、秘密決定木テスト装置１０と通信ネットワークを介して接続される記憶装置等を用いて実現されていてもよい。

本実施形態に係る秘密決定木テスト装置１０は、図２に示すハードウェア構成を有することにより、各種処理を実現することができる。なお、図２に示すハードウェア構成は一例であって、秘密決定木テスト装置１０は、他のハードウェア構成を有していてもよい。例えば、秘密決定木テスト装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

＜秘密決定木テスト処理＞
次に、上記のＳｔｅｐ４～Ｓｔｅｐ５における評価値の計算と最大の評価値を取る分割条件の選択を行うための秘密決定木テスト処理について、図３を参照しながら説明する。図３は、本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャートである。なお、以降では、ある数値属性を対象として、秘密決定木のある層を構成する各節点でその評価（テスト）を行う場合について説明する。層とは根からの深さが同一である節点の集合のことである。また、ラベルが取り得る値の集合を｛１，２，３｝とする。

まず、入力部１０１は、数値属性値ベクトルと、ラベル値ベクトルと、グループ情報ベクトルとを入力する（ステップＳ１０１）。以降では、一例として、グループ情報ベクトルは、
［ｇ］＝（０，０，１，１，０，０，０，１，０，１）^Ｔ
であるものとする。なお、Ｔは転置を表す記号である。

グループ情報ベクトルは数値属性値ベクトル及びラベル値ベクトルの各要素がどのグループを分類されたかを表し、先頭の要素からグループに分類した場合に各グループの末尾を表す要素を１、それ以外の要素を０としたベクトルである。例えば、上記の［ｇ］は、数値属性値ベクトル及びラベル値ベクトルの１番目の要素から３番目の要素は１番目のグループに属し、４番目の要素は２番目のグループに属し、５番目の要素から８番目の要素は３番目のグループに属し、９番目の要素から１０番目の要素は４番目のグループに属することを表している。

なお、各グループはそれぞれ１つの節点に対応し、１つ上の層でその節点に分類された要素（数値属性値）の集合（つまり、１つ上の層の節点に設定された分割条件で分割された各データ集合）のことである。

次に、並び替え部１０２は、グループごとに、同一グループ内で数値属性値ベクトル及びラベル値ベクトルの要素を昇順に並び替える（ステップＳ１０２）。すなわち、並び替え部１０２は、１番目のグループ～４番目のグループの各グループ内で、数値属性値ベクトル及びラベル値ベクトルの要素を昇順に並び替える。以降では、一例として、この並び替え後の数値属性値ベクトルは、
［ｃ］＝（１，２，５，２，３，４，５，７，２，４）^Ｔ
であるものとする。また、並び替え後のラベル値ベクトルは、
［ｙ］＝（３，２，１，３，２，１，１，３，１，２）^Ｔ
であるものとする。以降、数値属性値ベクトル及びラベル値ベクトルは、並び替え後の数値属性値ベクトル及びラベル値ベクトルを指すものとする。

次に、ベクトル計算部１０３は、ラベルが取り得る値ごとに、ラベル値ベクトル［ｙ］の要素のうち、当該ラベル値と一致する要素の位置を表すビットベクトルを計算する（ステップＳ１０３）。

ラベルが取り得る値「１」、「２」及び「３」のそれぞれに対応するビットベクトルを［ｆ_１］、［ｆ_２］及び［ｆ_３］とすれば、これらのビットベクトルはそれぞれ以下のようになる。

［ｆ_１］＝（０，０，１，０，０，１，１，０，１，０）^Ｔ
［ｆ_２］＝（０，１，０，０，１，０，０，０，０，１）^Ｔ
［ｆ_３］＝（１，０，０，１，０，０，０，１，０，０）^Ｔ
つまり、あるラベル値に対応するビットベクトルとは、ラベル値ベクトルの要素のうち、当該ラベル値に一致する要素と同一位置にある要素のみを１、それ以外の要素を０としたベクトルである。

次に、ベクトル計算部１０３は、各ビットベクトルに対して、グループ情報ベクトル［ｇ］によるグループ分けに従って集約関数累積和演算を行い、第１の判定ベクトルを計算する（ステップＳ１０４）。ここで、集約関数累積和演算は同一グループ内の要素の集合を入力して、その要素の値の累積和の集合を出力する演算である。言い換えれば、集約関数累積和演算は、同一グループ内の各要素について先頭から累積和を計算する演算である。

例えば、ベクトル計算部１０３は、各ビットベクトルのそれぞれについて、１番目の要素から３番目の要素の累積和を順に計算し、同様に４番目の要素の累積和を計算し、５番目の要素から８番目の要素の累積和を順に計算し、９番目の要素から１０番目の要素の累積和を順に計算する。

これにより、ビットベクトル［ｆ_１］に対応する第１の判定ベクトル
［ｓ_０，１］＝（０，０，１，０，０，１，２，２，１，１）^Ｔ
が得られる。

同様に、ビットベクトル［ｆ_２］に対応する第１の判定ベクトル
［ｓ_０，２］＝（０，１，１，０，１，１，１，１，０，１）^Ｔ
が得られる。

同様に、ビットベクトル［ｆ_３］に対応する第１の判定ベクトル
［ｓ_０，３］＝（１，１，１，１，０，０，０，１，０，０）^Ｔ
が得られる。

上記の第１の判定ベクトルは、各グループ内で各数値属性値の直後（つまり、当該数値属性値と次に大きい数値属性値との間）にしきい値を設定した場合に、このしきい値以下の数値属性値が該当のラベル値である個数（度数）を表している。例えば、第１の判定ベクトル［ｓ_０，１］は、数値属性値ベクトル［ｃ］の１番目のグループの１番目の要素の直後にしきい値を設定した場合、しきい値以下の数値属性値でラベル値が１である個数は０であることを表している。同様に、例えば、１番目のグループの３番目の要素の直後にしきい値を設定した場合、しきい値以下の数値属性値でラベル値が１である個数は１であることを表している。

したがって、上記の第１の判定ベクトルにより、ｘ≦Ｃ（ただし、Ｃはしきい値）といった形式で表される分割条件で分割（グループ分け）されたデータ集合（数値属性値の集合）のうち、当該分割条件を満たすデータ集合でラベル値ｋを取るレコードの度数を計算することができる。

次に、ベクトル計算部１０３は、各ビットベクトルに対して、グループ情報ベクトル［ｇ］によるグループ分けに従って集約関数総和演算を行い、集約総和ベクトルを計算する（ステップＳ１０５）。ここで、集約関数総和演算は同一グループ内の要素の集合を入力して、その要素の値の総和を出力する演算である。

例えば、ベクトル計算部１０３は、各ビットベクトルのそれぞれについて、１番目の要素から３番目の要素の総和を計算し、同様に４番目の要素の総和を計算し、５番目の要素から８番目の要素の総和を計算し、９番目の要素から１０番目の要素の総和を計算する。そして、ベクトル計算部１０３は、各総和を、当該総和の計算元となった要素と同一位置の要素とすることで集約総和ベクトルを作成する。

これにより、ビットベクトル［ｆ_１］に対応する集約総和ベクトル
［ｓ_＊，１］＝（１，１，１，０，２，２，２，２，１，１）^Ｔ
が得られる。

同様に、ビットベクトル［ｆ_２］に対応する集約総和ベクトル
［ｓ_＊，２］＝（１，１，１，０，１，１，１，１，１，１）^Ｔ
が得られる。

同様に、ビットベクトル［ｆ_３］に対応する集約総和ベクトル
［ｓ_＊，３］＝（１，１，１，１，１，１，１，１，０，０）^Ｔ
が得られる。

次に、ベクトル計算部１０３は、同一のラベル値に対応する第１の判定ベクトル及び集約総和ベクトルを用いて、当該ラベル値に対応する第２の判定ベクトルを計算する（ステップＳ１０６）。ベクトル計算部１０３は、同一のラベル値に対応する第１の判定ベクトル及び集約総和ベクトルを用いて、集約総和ベクトルから第１の判定ベクトルを減算することで第２の判定ベクトルを計算する。

これにより、ラベル値「１」に対応する第２の判定ベクトル
［ｓ_１，１］＝［ｓ_＊，１］－［ｓ_０，１］＝（１，１，０，０，２，１，０，０，０，０）^Ｔ
が得られる。

同様に、ラベル値「２」に対応する第２の判定ベクトル
［ｓ_１，２］＝［ｓ_＊，２］－［ｓ_０，２］＝（１，０，０，０，０，０，０，０，１，０）^Ｔ
が得られる。

同様に、ラベル値「３」に対応する第２の判定ベクトル
［ｓ_１，３］＝［ｓ_＊，３］－［ｓ_０，３］＝（０，０，０，０，１，１，１，０，０，０）^Ｔ
が得られる。

上記の第２の判定ベクトルは、各グループ内で各数値属性値の直後（つまり、当該数値属性値と次に大きい数値属性値との間）にしきい値を設定した場合に、このしきい値より大きい数値属性値が該当のラベル値である個数（度数）を表している。例えば、第２の判定ベクトル［ｓ_１，１］は、数値属性値ベクトル［ｃ］の１番目のグループの１番目の要素の直後にしきい値を設定した場合、しきい値より大きい数値属性値でラベル値が１である個数は１個であることを表している。同様に、例えば、１番目のグループの３番目の要素の直後にしきい値を設定した場合、しきい値より大きい数値属性値でラベル値が１である個数は０であることを表している。

したがって、上記の第２の判定ベクトルにより、ｘ≦Ｃ（ただし、Ｃはしきい値）といった形式で表される分割条件で分割（グループ分け）されたデータ集合（数値属性値の集合）のうち、当該分割条件を満たさないデータ集合でラベル値ｋを取るレコードの度数を計算することができる。

次に、評価値計算部１０４は、グループごと、かつ、分割条件ごとに、各度数を計算する（ステップＳ１０７）。ここで、評価値計算部１０４は、
数値属性値ベクトル［ｃ］の各グループの要素数（つまり、上記の（１）に示す｜Ｑ｜）
数値属性値ベクトル［ｃ］の各グループでラベル値ｋの要素数（つまり、上記の（２）に示す｜Ｑ_ｋ｜）
数値属性値ベクトル［ｃ］の各グループを分割条件θで分割した各グループの要素数（つまり、上記の（３）に示す｜Ｑ（θ，ｉ）｜）
数値属性値ベクトル［ｃ］の各グループを分割条件θで分割した各グループでラベル値ｋの要素数（つまり、上記の（４）に示す｜Ｑ（θ，ｉ）_ｋ｜）
の４つの度数を計算する。

これら４つの度数のうち、１つ目の度数は数値属性値ベクトル［ｃ］及びグループ情報ベクトル［ｇ］を用いて、グループごとの要素数を計算することで得られる。また、２つ目の度数は数値属性値ベクトル［ｃ］、ラベル値ベクトル［ｙ］及びグループ情報ベクトル［ｇ］を用いて、グループごと、かつ、ラベル値ごとの要素数を計算することで得られる。また、３つ目の度数は数値属性値ベクトル［ｃ］及びグループ情報ベクトル［ｇ］を用いて、分割条件θのしきい値をグループに設定した際に、当該グループ内で分割条件θにより分割された各集合（つまり、分割条件θを満たす集合と満たさない集合）の要素数を計算することで得られる。

一方で、４つ目の度数は数値属性値ベクトル［ｃ］とグループ情報ベクトル［ｇ］と第１の判定ベクトルと第２の判定ベクトルとを用いて、分割条件θのしきい値をグループに設定した際に、当該グループ内で分割条件θにより分割された各集合でラベル値ｋを取る要素数を計算することで得られる。これは、上述したように、分割後の各集合のうち、分割条件θを満たす集合でラベル値ｋを取る要素数は当該ラベル値ｋに対応する第１の判定ベクトルにより計算され、分割条件θを満たさない集合でラベル値ｋを取る要素数は当該ラベル値ｋに対応する第２の判定ベクトルにより計算される。

次に、評価値計算部１０４は、上記のステップＳ１０７で計算された各度数を用いて、グループごと、かつ、分割条件ごとに、上記の数１０により当該分割条件の評価値を計算する（ステップＳ１０８）。

そして、出力部１０５は、各グループで評価値が最大となる分割条件を選択し、選択した分割条件を当該グループに対応する節点に設定される分割条件として出力する（ステップＳ１０９）。なお、各グループで評価値が最大となる分割条件を選択する際には、例えば、集約関数最大値演算を行えばよい。集約関数最大値演算は同一グループ内の要素（評価値）を入力し、その要素の値の最大値を出力する演算である。

＜まとめ＞
以上のように、本実施形態に係る秘密決定木テスト装置１０は、与えられた秘匿値のデータ集合から秘密決定木を学習する際に、数値属性値を対象として各節点における複数の分割条件の評価値の計算を一括して行うことで、全体の計算時間を削減することができる。具体的には、例えば、ｎ個のデータで構成されるデータ集合がｍ個の節点を有する決定木で分割される場合、従来技術では全体でΘ（ｍｎ^２）の評価（テスト）が必要であったのに対して、本実施形態に係る秘密決定木テスト装置１０では、Ｏ（ｎｌｏｇｎ）時間で評価することが可能となる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１０秘密決定木テスト装置
１０１入力部
１０２並び替え部
１０３ベクトル計算部
１０４評価値計算部
１０５出力部
１０６記憶部
２０１入力装置
２０２表示装置
２０３外部Ｉ／Ｆ
２０３ａ記録媒体
２０４通信Ｉ／Ｆ
２０５プロセッサ
２０６メモリ装置
２０７バス

Claims

秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テスト装置であって、
前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力部と、
前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第１の度数と、前記各グループにおけるラベル値ごとのデータの第２の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第３の度数と、前記分割グループにおけるラベル値ごとのデータの第４の度数とを計算する度数計算部と、
前記第１の度数と、前記第２の度数と、前記第３の度数と、前記第４の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算部と、
を有する秘密決定木テスト装置。
前記度数計算部は、
前記グループごとに、複数の前記分割条件のそれぞれの分割条件で前記第３の度数と前記第４の度数を計算する、請求項１に記載の秘密決定木テスト装置。
前記グループ情報ベクトルが表すグループごとに、前記数値属性値ベクトルに含まれる数値属性値と前記ラベル値ベクトルに含まれるラベル値とを前記数値属性値の昇順に並び替える並び替え部と、
前記ラベル値が取り得る値ごとに、前記ラベル値ベクトルに含まれるラベル値のうち、前記取り得る値と一致するラベル値の位置を表すビットベクトルを作成するビットベクトル作成部と、
前記グループ情報ベクトルが表すグループに従って前記ビットベクトルに含まれる各要素の集約関数累積和演算を行うことで、前記しきい値以下となる数値属性値のデータ数を判定するための第１の判定ベクトルを計算する第１の判定ベクトル計算部と、
前記第１の判定ベクトルと前記ビットベクトルとを用いて、前記しきい値より大きい数値属性値のデータ数を判定するための第２の判定ベクトルを計算する第２の判定ベクトル計算部とを有し、
前記度数計算部は、
前記第１の判定ベクトル及び前記第２の判定ベクトルにより前記第４の度数を計算する、請求項１又は２に記載の秘密決定木テスト装置。
前記第２の判定ベクトル計算部は、
前記グループ情報ベクトルが表すグループに従って前記ビットベクトルに含まれる各要素の集約関数総和演算を行うことで、前記グループごとの総和の要素とする総和ベクトルを計算し、前記総和ベクトルから前記第１の判定ベクトルを減算することで前記第２の判定ベクトルを計算する、請求項３に記載の秘密決定木テスト装置。
秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テストシステムであって、
前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力部と、
前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第１の度数と、前記各グループにおけるラベル値ごとのデータの第２の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第３の度数と、前記分割グループにおけるラベル値ごとのデータの第４の度数とを計算する度数計算部と、
前記第１の度数と、前記第２の度数と、前記第３の度数と、前記第４の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算部と、
を有する秘密決定木テストシステム。
秘密計算により決定木を学習する際に、前記決定木の各節点における分割条件を評価する秘密決定木テスト方法であって、
前記決定木の学習用のデータ集合に含まれる各データの特定の数値属性値で構成される数値属性値ベクトルと、前記各データのラベル値で構成されるラベル値ベクトルと、前記各データの前記各節点へのグループ分けを表すグループ情報ベクトルとを入力する入力手順と、
前記数値属性値ベクトルと、前記ラベル値ベクトルと、前記グループ情報ベクトルとを用いて、各グループに属するデータの第１の度数と、前記各グループにおけるラベル値ごとのデータの第２の度数と、前記数値属性値としきい値との比較を表す分割条件で前記グループを分割した分割グループに属するデータの第３の度数と、前記分割グループにおけるラベル値ごとのデータの第４の度数とを計算する度数計算手順と、
前記第１の度数と、前記第２の度数と、前記第３の度数と、前記第４の度数とを用いて、前記分割条件を評価するための評価値を計算する評価計算手順と、
をコンピュータが実行する秘密決定木テスト方法。
コンピュータを、請求項１乃至４の何れか一項に記載の秘密決定木テスト装置として機能させるプログラム。