JP7279796B2

JP7279796B2 - 秘密勾配降下法計算方法、秘密深層学習方法、秘密勾配降下法計算システム、秘密深層学習システム、秘密計算装置、およびプログラム

Info

Publication number: JP7279796B2
Application number: JP2021539762A
Authority: JP
Inventors: 気吹三品; 大五十嵐; 浩気濱田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2023-05-23
Anticipated expiration: 2039-08-14
Also published as: EP4016507A4; WO2021029034A1; CN114207694A; EP4016507A1; US20220329408A1; AU2019461061A1; AU2019461061B2; JPWO2021029034A1; CN114207694B

Description

本発明は、秘密計算において勾配降下法を計算する技術に関する。

勾配降下法は、ディープラーニングやロジスティック回帰といった機械学習でよく用いられる学習アルゴリズムである。秘密計算上で勾配降下法を用いた機械学習を行うための従来の技術として、SecureML（非特許文献１）やSecureNN（非特許文献２）がある。

最も基本的な勾配降下法は、実装が比較的容易であるが、局所解にはまりやすい、収束が遅い等の問題点が知られている。これらの問題点を解決するために、勾配降下法に対する様々な最適化手法が提案されており、特にAdamと呼ばれる手法は収束が速いことが知られている。

Payman Mohassel and Yupeng Zhang, "SecureML: A System for Scalable Privacy-Preserving Machine Learning," In IEEE Symposium on Security and Privacy, SP 2017, pp. 19-38, 2017. Sameer Wagh, Divya Gupta, and Nishanth Chandran, "SecureNN: 3-Party Secure Computation for Neural Network Training," Proceedings on Privacy Enhancing Technologies, Vol. 1, p. 24, 2019.

しかしながら、Adamの処理には平方根の計算や除算が含まれているため、秘密計算での処理コストが非常に大きくなってしまう。一方で、単純な勾配降下法で実装されている従来技術では、収束するまでに必要な学習回数が多いため、全体の処理時間は長くなってしまうという課題もある。

この発明の目的は、上記のような技術的課題に鑑みて、秘密計算上の勾配降下法の計算を、精度を保ったまま高速に行うことができる技術を提供することである。

上記の課題を解決するために、本発明の第一の態様の秘密勾配降下法計算方法は、複数の秘密計算装置を含む秘密勾配降下法計算システムが実行する、少なくとも勾配GとパラメータWとを秘匿したまま勾配降下法を計算する秘密勾配降下法計算方法であって、β₁, β₂, η, εは予め定めたハイパーパラメータとし、○は要素ごとの積とし、tは学習回数とし、[G]は勾配Gの秘匿値とし、[W]はパラメータWの秘匿値とし、[M], [M^], [V], [V^], [G^]は勾配Gと要素数が等しい行列M, M^, V, V^, G^の秘匿値とし、β^_1,t, β^_2,t, g^を次式とし、

Adamは値v^の行列V^の秘匿値[V^]を入力として値g^の行列G^の秘匿値[G^]を出力する秘密一括写像を計算する関数とし、各秘密計算装置のパラメータ更新部が、[M]←β₁[M]+(1-β₁)[G]を計算し、パラメータ更新部が、[V]←β₂[V]+(1-β₂)[G]○[G]を計算し、パラメータ更新部が、[M^]←β^_1,t[M]を計算し、パラメータ更新部が、[V^]←β^_2,t[V]を計算し、パラメータ更新部が、[G^]←Adam([V^])を計算し、パラメータ更新部が、[G^]←[G^]○[M^]を計算し、パラメータ更新部が、[W]←[W]-[G^]を計算する。

上記の課題を解決するために、本発明の第二の態様の秘密深層学習方法は、複数の秘密計算装置を含む秘密深層学習システムが実行する、少なくとも学習データの特徴量Xと学習データの正解データTとパラメータWとを秘匿したままディープニューラルネットワークを学習する秘密深層学習方法であって、β₁, β₂, η, εは予め定めたハイパーパラメータとし、・は行列の積とし、○は要素ごとの積とし、tは学習回数とし、[G]は勾配Gの秘匿値とし、[W]はパラメータWの秘匿値とし、[X]は学習データの特徴量Xの秘匿値とし、[T]は学習データの正解ラベルTの秘匿値とし、[M], [M^], [V], [V^], [G^], [U], [Y], [Z]は勾配Gと要素数が等しい行列M, M^, V, V^, G^, U, Y, Zの秘匿値とし、β^_1,t, β^_2,t, g^を次式とし、

Adamは値v^の行列V^の秘匿値[V^]を入力として値g^の行列G^の秘匿値[G^]を出力する秘密一括写像を計算する関数とし、rshiftは算術右シフトとし、mは１回の学習に用いる学習データの数とし、H'は次式とし、

nはディープニューラルネットワークの隠れ層の数とし、Activationは隠れ層の活性化関数とし、Activation2はディープニューラルネットワークの出力層の活性化関数とし、Activation2'は活性化関数Activation2に対応する損失関数とし、Activation'は活性化関数Activationの微分とし、各秘密計算装置の順伝搬計算部が、[U¹]←[W⁰]・[X]を計算し、順伝搬計算部が、[Y¹]←Activation([U¹])を計算し、順伝搬計算部が、１以上n-1以下の各iについて[Uⁱ⁺¹]←[Wⁱ]・[Yⁱ]を計算し、順伝搬計算部が、１以上n-1以下の各iについて[Yⁱ⁺¹]←Activation([Uⁱ⁺¹])を計算し、順伝搬計算部が、[Uⁿ⁺¹]←[Wⁿ]・[Yⁿ]を計算し、順伝搬計算部が、[Yⁿ⁺¹]←Activation2([Uⁿ⁺¹])を計算し、各秘密計算装置の逆伝搬計算部が、[Zⁿ⁺¹]←Activation2'([Yⁿ⁺¹],[T])を計算し、逆伝搬計算部が、[Zⁿ]←Activation'([Uⁿ])○([Zⁿ⁺¹]・[Wⁿ])を計算し、逆伝搬計算部が、１以上n-1以下の各iについて[Z^n-i]←Activation'([U^n-i])○([Z^n-i+1]・[W^n-i])を計算し、各秘密計算装置の勾配計算部が、[G⁰]←[Z¹]・[X]を計算し、勾配計算部が、１以上n-1以下の各iについて[Gⁱ]←[Zⁱ⁺¹]・[Yⁱ]を計算し、勾配計算部が、[Gⁿ]←[Zⁿ⁺¹]・[Yⁿ]を計算し、各秘密計算装置のパラメータ更新部が、[G⁰]←rshift([G⁰],H')を計算し、パラメータ更新部が、１以上n-1以下の各iについて[Gⁱ]←rshift([Gⁱ],H')を計算し、パラメータ更新部が、[Gⁿ]←rshift([Gⁿ],H')を計算し、パラメータ更新部が、０以上n以下の各iについて、第一の態様の秘密勾配降下法計算方法により、i層とi+1層間の勾配[Gⁱ]を用いてi層とi+1層間のパラメータ[Wⁱ]を学習する。

この発明によれば、秘密計算上の勾配降下法の計算を、精度を保ったまま高速に行うことができる。

図１は、秘密勾配降下法計算システムの機能構成を例示する図である。図２は、秘密計算装置の機能構成を例示する図である。図３は、秘密勾配降下法計算方法の処理手順を例示する図である。図４は、秘密勾配降下法計算方法の処理手順を例示する図である。図５は、秘密深層学習システムの機能構成を例示する図である。図６は、秘密計算装置の機能構成を例示する図である。図７は、秘密深層学習方法の処理手順を例示する図である。図８は、コンピュータの機能構成を例示する図である。

はじめに、この明細書における表記方法および用語の定義について説明する。

＜表記方法＞
文中で使用する記号「^→」「^」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「a^→」「a^」は数式中では次式で表される。

添え字中の「_（アンダースコア）」は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

ベクトルをa^→:=(a₀, …, a_n-1)と書く。aをbで定義することをa:=bと書く。同じ要素数の２つのベクトルa^→とb^→との内積をa^→・b^→と書く。また、２つの行列の積を(・)と書き、２つの行列やベクトルの要素ごとの積を(○)と書く。演算子が書かれていないものはスカラー倍である。

[a]は秘密分散等で暗号化されたaを表し、「シェア」と呼ぶ。

＜秘密一括写像＞
秘密一括写像はルックアップテーブルを計算する機能であり、定義域と値域を任意に定めることができる技術である。秘密一括写像ではベクトル単位で処理を行うため、複数の入力に対して同じ処理をする際の効率が良いという性質がある。以下に、秘密一括写像の具体的な処理を示す。

シェアの列[a^→]:=([a₀], …, [a_m-1])と、定義域(x₀, …, x_l-1)および値域(y₀, …, y_l-1)とを入力とし、各入力値を写像させたシェア、すなわち0≦i<mについてx_j≦a_i<x_j+1かつb_i=y_jであるようなシェアの列([b₀], …, [b_m-1])を出力する。秘密一括写像の詳細は参考文献１を参照されたい。

〔参考文献１〕濱田浩気, 五十嵐大, 千田浩司, “秘匿計算上の一括写像アルゴリズム”, 電子情報通信学会論文誌A, Vol. 96, No. 4, pp. 157-165, 2013.

＜算術右シフト＞
シェアの列[a^→]:=([a₀], …, [a_m-1])と公開値tとを入力とし、[a^→]の各要素をtビット算術右シフトした[b^→]:=([b₀], …, [b_m-1])を出力する。以下、右シフトはrshiftと表す。算術右シフトは左側を０ではなく符号ビットでパディングするシフトであり、論理右シフトrlshiftを用いて、式（１）～（３）のように、rshift([A×2ⁿ], n-m)=[A×2^m]を構成する。なお、論理右シフトrlshiftの詳細は参考文献２を参照されたい。

〔参考文献２〕三品気吹, 五十嵐大, 濱田浩気, 菊池亮, “高精度かつ高効率な秘密ロジスティック回帰の設計と実装”, In CSS, 2018.

＜最適化手法Adam＞
単純な勾配降下法では、計算した勾配gに対してw=w-ηg（ηは学習率）という処理を行ってパラメータwを更新する。一方、Adamでは勾配に対して式（４）～（８）の処理を行ってパラメータを更新する。勾配gを計算するまでの処理は、単純な勾配降下法の場合でも、Adamを適用した場合でも同じ処理である。なお、tは何回目の学習かを表す変数であり、g_tはt回目の勾配を表す。また、m, v, m^, v^はgと同じ大きさの行列であり、すべて０で初期化されているものとする。・^t（上付き添え字のt）はt乗を表す。

ここで、β₁, β₂は１に近い定数であり、ηは学習率であり、εは√v^_t+1=0の場合に式（８）が計算できないことを防ぐための値である。Adamの提案論文（参考文献３）では、β₁=0.9, β₂=0.999, η=0.001, ε=10^-8となっている。

〔参考文献３〕Diederik P Kingma and Jimmy Ba, "Adam: A Method for Stochastic Optimization," arXiv preprint arXiv:1412.6980, 2014.

Adamでは、単純な勾配降下法と比較して処理が増えるため、１回の学習に必要な処理時間は増える。一方、収束までに必要な学習回数は大幅に減少するため、学習に必要な全体の処理時間は短くなる。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態］
第一実施形態では、秘密一括写像を用いて、勾配やパラメータ、計算途中の値を秘匿したまま、勾配降下法の最適化手法Adamを実現する。

以降の説明では、β^_1,t, β^_2,t, g^を次式で定義する。

β^_1,tおよびβ^_2,tは事前に各tについて計算しておく。g^の計算は、v^を入力とし、η/(√v^+ε)を出力する秘密一括写像を用いて実現する。その秘密一括写像をAdam(v^)と表記する。定数β₁, β₂，η，εは平文とする。g^の計算には平方根や除算が含まれるため、秘密計算での処理コストが大きい。しかしながら、秘密一括写像を用いることで１回の処理で済むため、効率が良い。

図１を参照して、第一実施形態の秘密勾配降下法計算システムの構成例を説明する。秘密勾配降下法計算システム１００は、例えば、図１に示すように、N（≧2）台の秘密計算装置１₁, …, １_Nを含む。本実施形態では、秘密計算装置１₁, …, １_Nはそれぞれ通信網９へ接続される。通信網９は、接続される各装置が相互に通信可能なように構成された回線交換方式もしくはパケット交換方式の通信網であり、例えばインターネットやLAN（Local Area Network）、WAN（Wide Area Network）などを用いることができる。なお、各装置は必ずしも通信網９を介してオンラインで通信可能である必要はない。例えば、秘密計算装置１₁, …, １_Nへ入力する情報を磁気テープやUSBメモリなどの可搬型記録媒体に記憶し、その可搬型記録媒体から秘密計算装置１₁, …, １_Nへオフラインで入力するように構成してもよい。

図２を参照して、第一実施形態の秘密勾配降下法計算システム１００に含まれる秘密計算装置１_i（i=1, …, N）の構成例を説明する。秘密計算装置１_iは、例えば、図２に示すように、パラメータ記憶部１０、初期化部１１、勾配計算部１２、およびパラメータ更新部１３を備える。この秘密計算装置１_i（i=1, …, N）が他の秘密計算装置１_i'（i'=1, …, N、ただしi≠i'）と協調しながら後述する各ステップの処理を行うことにより本実施形態の秘密勾配降下法計算方法が実現される。

秘密計算装置１_iは、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。秘密計算装置１_iは、例えば、中央演算処理装置の制御のもとで各処理を実行する。秘密計算装置１_iに入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。秘密計算装置１_iの各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。秘密計算装置１_iが備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

図３を参照して、第一実施形態の秘密勾配降下法計算システム１００が実行する秘密勾配降下法計算方法の処理手続きを説明する。

パラメータ記憶部１０には、予め定めたハイパーパラメータβ₁, β₂, η, εが記憶されている。これらのハイパーパラメータは、例えば参考文献３に記載された値に設定すればよい。また、パラメータ記憶部１０には、予め計算したハイパーパラメータβ^_1,t, β^_2,tが記憶されている。さらに、パラメータ記憶部１０には、予め定義域と値域が設定された秘密一括写像Adamが記憶されている。

ステップＳ１１において、各秘密計算装置１_iの初期化部１１は、行列M, Vの秘匿値[M], [V]を０で初期化する。行列M, Vは勾配Gと同じ大きさの行列である。初期化部１１は、行列M, Vの秘匿値[M], [V]をパラメータ更新部１３へ出力する。

ステップＳ１２において、各秘密計算装置１_iの勾配計算部１２は、勾配Gの秘匿値[G]を計算する。勾配Gは勾配降下法を適用する対象の処理（例えば、ロジスティック回帰やニューラルネットワークの学習等）において通常行われている方法で求めればよい。勾配計算部１２は、勾配Gの秘匿値[G]をパラメータ更新部１３へ出力する。

ステップＳ１３－１において、各秘密計算装置１_iのパラメータ更新部１３は、パラメータ記憶部１０に記憶されているハイパーパラメータβ₁を用いて、[M]←β₁[M]+(1-β₁)[G]を計算し、行列Mの秘匿値[M]を更新する。

ステップＳ１３－２において、各秘密計算装置１_iのパラメータ更新部１３は、パラメータ記憶部１０に記憶されているハイパーパラメータβ₂を用いて、[V]←β₂[V]+(1-β₂)[G]○[G]を計算し、行列Vの秘匿値[V]を更新する。

ステップＳ１３－３において、各秘密計算装置１_iのパラメータ更新部１３は、パラメータ記憶部１０に記憶されているハイパーパラメータβ^_1,tを用いて、[M^]←β^_1,t[M]を計算し、行列M^の秘匿値[M^]を生成する。行列M^は行列Mと要素数が同じ（すなわち、勾配Gとも要素数が同じ）行列となる。

ステップＳ１３－４において、各秘密計算装置１_iのパラメータ更新部１３は、パラメータ記憶部１０に記憶されているハイパーパラメータβ^_2,tを用いて、[V^]←β^_2,t[V]を計算し、行列V^の秘匿値[V^]を生成する。行列V^は行列Vと要素数が同じ（すなわち、勾配Gとも要素数が同じ）行列となる。

ステップＳ１３－５において、各秘密計算装置１_iのパラメータ更新部１３は、秘密一括写像Adamを用いて、[G^]←Adam([V^])を計算し、行列G^の秘匿値[G^]を生成する。行列G^は行列V^と要素数が同じ（すなわち、勾配Gとも要素数が同じ）行列となる。

ステップＳ１３－６において、各秘密計算装置１_iのパラメータ更新部１３は、[G^]←[G^]○[M^]を計算し、勾配G^の秘匿値[G^]を更新する。

ステップＳ１３－７において、各秘密計算装置１_iのパラメータ更新部１３は、[W]←[W]-[G^]を計算し、パラメータWの秘匿値[W]を更新する。

本実施形態のパラメータ更新部１３がステップＳ１３－１からステップＳ１３－７で実行するパラメータ更新のアルゴリズムをAlgorithm 1に示す。

Algorithm 1: 秘密一括写像を用いた秘密計算Adamアルゴリズム
入力1: 勾配[G]
入力2: パラメータ[W]
入力3: 0で初期化した[M], [V]
入力4: ハイパーパラメータβ₁, β₂, β^_1,t, β^_2,t
入力5: 学習回数t
出力1: 更新したパラメータ[W]
出力2: 更新した[M], [V]
1: [M]←β₁[M]+(1-β₁)[G]
2: [V]←β₂[V]+(1-β₂)[G]○[G]
3: [M^]←β^_1,t[M]
4: [V^]←β^_2,t[V]
5: [G^]←Adam([V^])
6: [G^]←[G^]○[M^]
7: [W]←[W]-[G^]

［第一実施形態の変形例１］
変形例１では、第一実施形態で用いた秘密一括写像Adamを構成する際に、定義域と値域からなるテーブルの作成方法を工夫する。

秘密一括写像Adamに入力されるV^は必ず正である。また、秘密一括写像Adamは単調減少する関数であり、V^が０に近い部分では非常に傾きが大きく、V^が大きくなるとAdam(V^)が緩やかに０に近づく特徴を持っている。秘密計算では処理コストの観点から固定小数点数で処理するため、浮動小数点数で扱えるような非常に小さな小数は扱えない。つまり、非常に小さなV^が入力されることはないため、Adam(V^)の出力の値域はそこまで大きく設定しておく必要はない。例えば、各ハイパーパラメータを参考文献３のとおりに設定し、V^の小数点以下の精度を20ビットにした場合のAdam(V^)の最大値は１程度でよい。また、Adam(V^)の最小値は必要とするAdam(V^)の精度によって決めればよいので、入力V^と出力Adam(V^)の精度を決めることで、写像のテーブルの大きさを決めることができる。

［第一実施形態の変形例２］
変形例２では、第一実施形態で、さらに各変数の精度を表１のように設定する。

本変形例のパラメータ更新部１３は、図４に示すように、ステップＳ１３－１の後にステップＳ１３－１１を実行し、ステップＳ１３－２の後にステップＳ１３－１２を実行し、ステップＳ１３－６の後にステップＳ１３－１３を実行する。

ステップＳ１３－１１において、各秘密計算装置１_iのパラメータ更新部１３は、行列Mの秘匿値[M]をb_βビット算術右シフトする。すなわち、[M]←rshift([M],b_β)を計算し、行列Mの秘匿値[M]を更新する。

ステップＳ１３－１２において、各秘密計算装置１_iのパラメータ更新部１３は、行列Vの秘匿値[V]をb_βビット算術右シフトする。すなわち、[V]←rshift([V],b_β)を計算し、行列Vの秘匿値[V]を更新する。

ステップＳ１３－１３において、各秘密計算装置１_iのパラメータ更新部１３は、行列G^の秘匿値[G^]をb_g^+b_{β^_1}ビット算術右シフトする。すなわち、[G^]←rshift([G^],b_g^+b_{β^_1})を計算し、行列G^の秘匿値[G^]を更新する。

本変形例のパラメータ更新部１３がステップＳ１３－１～Ｓ１３－７およびＳ１３－１１～Ｓ１３－１３で実行するパラメータ更新のアルゴリズムをAlgorithm 2に示す。

Algorithm 2: 秘密一括写像を用いた秘密計算Adamアルゴリズム
入力1: 勾配[G]
入力2: パラメータ[W]
入力3: 0で初期化した[M], [V]
入力4: ハイパーパラメータβ₁, β₂, β^_1,t, β^_2,t
入力5: 学習回数t
出力1: 更新したパラメータ[W]
出力2: 更新した[M], [V]
1: [M]←β₁[M]+(1-β₁)[G] （精度：b_w+b_β）
2: [M]←rshift([M],b_β) （精度：b_w）
3: [V]←β₂[V]+(1-β₂)[G]○[G] （精度：2b_w+b_β）
4: [V]←rshift([V],b_β) （精度：2b_w）
5: [M^]←β^_1,t[M] （精度：b_w+b_{β^_1}）
6: [V^]←β^_2,t[V] （精度：2b_w+b_{β^_2}）
7: [G^]←Adam([V^]) （精度：b_g^）
8: [G^]←[G^]○[M^] （精度：b_g^+b_w+b_{β^_1}）
9: [G^]←rshift([G^],b_g^+b_{β^_1}) （精度：b_w）
10: [W]←[W]-[G^] （精度：b_w）

本変形例では、精度の設定を以下のように工夫している。ここでの精度とは小数点部分のビット数を示し、例えば変数wを精度b_wビットに設定した場合、実際の値はw×2^b_wとなっている。また、変数ごとに値域が異なるため、それぞれの値域に応じて精度を決めるとよい。例えば、wは小さな値になりやすく、また機械学習においてパラメータは非常に重要な値であるため、小数点部分の精度を大きくしておく方がよい。一方でハイパーパラメータβ₁, β₂などは参考文献３で0.9や0.999程度に設定されていることから、小数点部分の精度を大きくする必要性が低い。このような工夫をすることで、できるだけ全体のビット数を抑え、処理コストの大きい秘密計算でも効率よく計算することができる。

本変形例では、右シフトに対して以下のような工夫をしている。秘密計算では、処理コストの観点から浮動小数点数ではなく固定小数点数で処理した方が高速になるが、固定小数点数では乗算の度に小数点位置が変化するため、右シフトによって調節する必要がある。しかしながら、秘密計算において右シフトはコストの大きい処理であるため、なるべく右シフトを行う回数は減らした方がよい。また、秘密一括写像は値域と定義域を任意に設定できる性質を持っているため、右シフトのように桁数を調節することも可能である。このような秘密計算や秘密一括写像の特徴から、本変形例のように処理するとより効率がよい。

［第二実施形態］
第二実施形態では、秘密一括写像を用いて実現した最適化手法Adamによってディープラーニングを行う。この例では、学習データ、学習ラベル、パラメータを秘匿したままディープラーニングを行う。隠れ層および出力層で用いる活性化関数は何を用いてもよく、ニューラルネットワークのモデルの形も任意である。ここでは、隠れ層の数がn層のディープニューラルネットワークを学習するものとする。すなわち、Lを層の番号として、入力層はL=0であり、出力層はL=n+1となる。第二実施形態によれば、単純な勾配降下法を用いた従来技術と比較して、少ない学習回数であっても良い学習結果を得られる。

図５を参照して、第二実施形態の秘密深層学習システムの構成例を説明する。秘密深層学習システム２００は、例えば、図５に示すように、N（≧2）台の秘密計算装置２₁, …, ２_Nを含む。本実施形態では、秘密計算装置２₁, …, ２_Nはそれぞれ通信網９へ接続される。通信網９は、接続される各装置が相互に通信可能なように構成された回線交換方式もしくはパケット交換方式の通信網であり、例えばインターネットやLAN（Local Area Network）、WAN（Wide Area Network）などを用いることができる。なお、各装置は必ずしも通信網９を介してオンラインで通信可能である必要はない。例えば、秘密計算装置２₁, …, ２_Nへ入力する情報を磁気テープやUSBメモリなどの可搬型記録媒体に記憶し、その可搬型記録媒体から秘密計算装置２₁, …, ２_Nへオフラインで入力するように構成してもよい。

図６を参照して、第二実施形態の秘密深層学習システム２００に含まれる秘密計算装置２_i（i=1, …, N）の構成例を説明する。秘密計算装置２_iは、例えば、図６に示すように、第一実施形態と同様に、パラメータ記憶部１０、初期化部１１、勾配計算部１２、およびパラメータ更新部１３を備え、学習データ記憶部２０、順伝搬計算部２１、および逆伝搬計算部２２をさらに備える。この秘密計算装置２_i（i=1, …, N）が他の秘密計算装置２_i'（i'=1, …, N、ただしi≠i'）と協調しながら後述する各ステップの処理を行うことにより本実施形態の秘密深層学習方法が実現される。

図７を参照して、第二実施形態の秘密深層学習システム２００が実行する秘密深層学習方法の処理手続きを説明する。

学習データ記憶部２０には、学習データの特徴量Xの秘匿値[X]および学習データの正解ラベルTの秘匿値[T]が記憶されている。

ステップＳ１１において、各秘密計算装置２_iの初期化部１１は、パラメータWの秘匿値[W]:=([W⁰], …, [Wⁿ])を初期化する。パラメータの初期化方法は活性化関数などに合わせて選択する。例えば、中間層の活性化関数にReLU関数を用いる場合は、参考文献４に記載された初期化方法を用いると良い学習結果を得やすいことが知られている。

〔参考文献４〕Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification," In Proceedings of the IEEE international conference on computer vision, pp. 1026-1034, 2015.

ステップＳ２１において、各秘密計算装置２_iの順伝搬計算部２１は、学習データの特徴量の秘匿値[X]を用いて、順伝搬を計算し、各層の出力の秘匿値[Y]:=([Y¹], …, [Yⁿ⁺¹])を求める。具体的には、[U¹]←[W⁰]・[X], [Y¹]←Activation([U¹])を計算し、１以上n-1以下の各整数iについて[Uⁱ⁺¹]←[Wⁱ]・[Yⁱ], [Yⁱ⁺¹]←Activation([Uⁱ⁺¹])を計算し、[Uⁿ⁺¹]←[Wⁿ]・[Yⁿ], [Yⁿ⁺¹]←Activation2([Uⁿ⁺¹])を計算する。ここで、Activationは任意の隠れ層の活性化関数を表し、Activation2は任意の出力層の活性化関数を表す。

ステップＳ２２において、各秘密計算装置２_iの逆伝搬計算部２２は、学習データの正解ラベルの秘匿値[T]を用いて、逆伝搬を計算し、各層の誤差の秘匿値[Z]:=([Z¹], …, [Zⁿ⁺¹])を求める。具体的には、[Zⁿ⁺¹]←Activation2'([Yⁿ⁺¹],[T]), [Zⁿ]←Activation'([Uⁿ])○([Zⁿ⁺¹]・[Wⁿ])を計算し、１以上n-1以下の各整数iについて[Z^n-i]←Activation'([U^n-i])○([Z^n-i+1]・[W^n-i])を計算する。ここで、Activation'は活性化関数Activationの微分を表し、Activation2'は活性化関数Activation2に対応する損失関数を表す。

ステップＳ１２において、各秘密計算装置２_iの勾配計算部１２は、学習データの特徴量の秘匿値[X]と各層の誤差の秘匿値[Z]と各層の出力の秘匿値[Y]を用いて、各層の勾配の秘匿値[G]:=([G⁰], …, [Gⁿ])を計算する。具体的には、[G⁰]←[Z¹]・[X]を計算し、１以上n-1以下の各整数iについて[Gⁱ]←[Zⁱ⁺¹]・[Yⁱ]を計算し、[Gⁿ]←[Zⁿ⁺¹]・[Yⁿ]を計算する。

ステップＳ１３において、各秘密計算装置２_iのパラメータ更新部１３は、各層の勾配の秘匿値[G]をシフト量H'で右シフトした後、第一実施形態の秘密勾配降下法計算方法に従って、各層のパラメータの秘匿値[W]:=([W⁰], …, [Wⁿ])を更新する。具体的には、まず、[G⁰]←rshift([G⁰],H')を計算し、１以上n-1以下の各整数iについて[Gⁱ]←rshift([Gⁱ],H')を計算し、[Gⁿ]←rshift([Gⁿ],H')を計算する。続いて、０以上n以下の各整数iについて[Mⁱ]←β₁[Mⁱ]+(1-β₁)[Gⁱ], [Vⁱ]←β₂[Vⁱ]+(1-β₂)[Gⁱ]○[Gⁱ], [M^ⁱ]←β^_1,t[Mⁱ], [V^ⁱ]←β^_2,t[Vⁱ], [G^ⁱ]←Adam([V^ⁱ]), [G^ⁱ]←[G^ⁱ]○[M^ⁱ], [Wⁱ]←[Wⁱ]-[G^ⁱ]を計算する。

本実施形態の秘密深層学習システム２００が実行する秘密一括写像を用いたAdamによるディープラーニングのアルゴリズムをAlgorithm 3に示す。

Algorithm 3: 秘密一括写像を用いたAdamによるディープラーニングアルゴリズム
入力1: 学習データの特徴量[X]
入力2: 学習データの正解ラベル[T]
入力3: l層とl+1層間のパラメータ[W^l]
出力: 更新したパラメータ[W^l]
1: すべての[W]を初期化
2: (1)順伝搬の計算
3: [U¹]←[W⁰]・[X]
4: [Y¹]←Activation([U¹])
5: for i=1 to n-1 do
6: [Uⁱ⁺¹]←[Wⁱ]・[Yⁱ]
7: [Yⁱ⁺¹]←Activation([Uⁱ⁺¹])
8: end for
9: [Uⁿ⁺¹]←[Wⁿ]・[Yⁿ]
10: [Yⁿ⁺¹]←Activation2([Uⁿ⁺¹])
11: (2)逆伝搬の計算
12: [Zⁿ⁺¹]←Activation2'([Yⁿ⁺¹],[T])
13: [Zⁿ]←Activation'([Uⁿ])○([Zⁿ⁺¹]・[Wⁿ])
14: for i=1 to n-1 do
15: [Z^n-i]←Activation'([U^n-i])○([Z^n-i+1]・[W^n-i])
16: end for
17: (3)勾配の計算
18: [G⁰]←[Z¹]・[X]
19: for i=1 to n-1 do
20: [Gⁱ]←[Zⁱ⁺¹]・[Yⁱ]
21: end for
22: [Gⁿ]←[Zⁿ⁺¹]・[Yⁿ]
23: (4)パラメータの更新
24: [G⁰]←rshift([G⁰],H')
25: for i=1 to n-1 do
26: [Gⁱ]←rshift([Gⁱ],H')
27: end for
28: [Gⁿ]←rshift([Gⁿ],H')
29: for i=0 to n do
30: [Mⁱ]←β₁[Mⁱ]+(1-β₁)[Gⁱ]
31: [Vⁱ]←β₂[Vⁱ]+(1-β₂)[Gⁱ]○[Gⁱ]
32: [M^ⁱ]←β^_1,t[Mⁱ]
33: [V^ⁱ]←β^_2,t[Vⁱ]
34: [G^ⁱ]←Adam([V^ⁱ])
35: [G^ⁱ]←[G^ⁱ]○[M^ⁱ]
36: [Wⁱ]←[Wⁱ]-[G^ⁱ]
37: end for

実際のディープラーニングではAlgorithm 3の手順１のパラメータの初期化以外の処理を、予め設定した学習回数分もしくはパラメータの変化量が十分に小さくなる等、収束するまで実行する。

(1)順伝播の計算では入力層、隠れ層、出力層の順に計算し、(2)逆伝播の計算では出力層、隠れ層、入力層の順に計算していくが、(3)勾配計算と(4)パラメータ更新は各層ごとに並列でも処理できるため、まとめて処理することによって処理の効率を上げることができる。

本実施形態では、出力層と隠れ層の活性化関数は以下のように設定すればよい。出力層で用いる活性化関数は行いたい分析に応じて選択する。数値予測（回帰分析）であれば恒等関数f(x)=x、病気の診断やスパム判定といった２値の分類であればシグモイド関数1/(1+exp(-x))、画像分類などの３値以上の分類問題であればソフトマックス関数softmax(u_i)=exp(u_i)/Σ_j=1 ^kexp(u_j)などが用いられる。隠れ層で用いる活性化関数は、非線形な関数が選ばれ、近年はReLU関数ReLU(u)=max(0, u)が頻繁に用いられる。ReLU関数は、深いネットワークであっても良い学習結果を得られることが知られており、ディープラーニングの分野で頻繁に使われている。

本実施形態では、バッチサイズを以下のように設定すればよい。勾配を計算する際、バッチサイズmでの除算をrshiftで処理すると効率が良い。そのため、バッチサイズmは２べきの値にしておくのがよく、その際のシフト量H'は式（９）で求める。バッチサイズとは１回の学習で使う学習データの件数である。

［第二実施形態の変形例１］
第二実施形態のディープラーニングで、学習に用いる各値の精度を表２のように設定する。wは各層の間のパラメータ、xは学習データ、tは各学習データに対応する正解データ（教師データ）である。隠れ層の活性化関数の出力は、正解データの精度と同じになるように処理する。また、g^は秘密一括写像Adamの計算によって得られる値である。

本変形例の順伝搬計算部２１は、１以上n-1以下の各整数iについてi+1層の出力の秘匿値[Yⁱ⁺¹]を計算した後、[Yⁱ⁺¹]をb_wビットだけ右シフトする。すなわち、[Yⁱ⁺¹]←rshift([Yⁱ⁺¹],b_w)を計算する。

本変形例の逆伝搬計算部２２は、n層の誤差の秘匿値[Zⁿ]を計算した後、[Zⁿ]をb_yビット算術右シフトする。すなわち、[Zⁿ]←rshift([Zⁿ],b_y)を計算する。また、１以上n-1以下の各整数iについてn-i層の誤差の秘匿値[Z^n-i]を計算した後、[Z^n-i]をb_wビット算術右シフトする。すなわち、[Z^n-i]←rshift([Z^n-i],b_w)を計算する。

本変形例のパラメータ更新部１３は、入力層と１層の隠れ層間の勾配の秘匿値[G⁰]はシフト量b_x+H'で算術右シフトし、１層からn層までの隠れ層間の勾配の秘匿値[G¹], …, [G^n-1]はシフト量b_w+b_x+H'で算術右シフトし、n層の隠れ層と出力層間の勾配の秘匿値[Gⁿ]はシフト量b_x+b_y+H'で算術右シフトする。また、各層のパラメータの秘匿値[W]:=([W⁰], …, [Wⁿ])は、第一実施形態の変形例２の秘密勾配降下法計算方法に従って更新する。

本変形例の秘密深層学習システム２００が実行する秘密一括写像を用いたAdamによるディープラーニングのアルゴリズムをAlgorithm 4に示す。

Algorithm 4: 秘密一括写像を用いたAdamによるディープラーニングアルゴリズム
入力1: 学習データの特徴量[X]
入力2: 学習データの正解ラベル[T]
入力3: l層とl+1層間のパラメータ[W^l]
出力: 更新したパラメータ[W^l]
1: すべての[W]を初期化（精度：b_w）
2: (1)順伝搬の計算
3: [U¹]←[W⁰]・[X] （精度：b_w+b_x）
4: [Y¹]←ReLU([U¹]) （精度：b_w+b_x）
5: for i=1 to n-1 do
6: [Uⁱ⁺¹]←[Wⁱ]・[Yⁱ] （精度：2b_w+b_x）
7: [Yⁱ⁺¹]←ReLU([Uⁱ⁺¹]) （精度：2b_w+b_x）
8: [Yⁱ⁺¹]←rshift([Yⁱ⁺¹],b_w) （精度：b_w+b_x）
9: end for
10: [Uⁿ⁺¹]←[Wⁿ]・[Yⁿ] （精度：2b_w+b_x）
11: [Yⁿ⁺¹]←softmax([Uⁿ⁺¹]) （精度：b_y）
12: (2)逆伝搬の計算
13: [Zⁿ⁺¹]←[Yⁿ⁺¹]-[T] （精度：b_y）
14: [Zⁿ]←ReLU'([Uⁿ])○([Zⁿ⁺¹]・[Wⁿ]) （精度：b_w+b_y）
15: [Zⁿ]←rshift([Zⁿ],b_y) （精度：b_w）
16: for i=1 to n-1 do
17: [Z^n-i]←ReLU'([U^n-i])○([Z^n-i+1]・[W^n-i]) （精度：2b_w）
18: [Z^n-i]←rshift([Z^n-i],b_w) （精度：b_w）
19: end for
20: (3)勾配の計算
21: [G⁰]←[Z¹]・[X] （精度：b_w+b_x）
22: for i=1 to n-1 do
23: [Gⁱ]←[Zⁱ⁺¹]・[Yⁱ] （精度：2b_w+b_x）
24: end for
25: [Gⁿ]←[Zⁿ⁺¹]・[Yⁿ] （精度：b_w+b_x+b_y）
26: (4)パラメータの更新
27: [G⁰]←rshift([G⁰],b_x+H') （精度：b_w）
28: for i=1 to n-1 do
29: [Gⁱ]←rshift([Gⁱ],b_w+b_x+H') （精度：b_w）
30: end for
31: [Gⁿ]←rshift([Gⁿ],b_x+b_y+H') （精度：b_w）
32: for i=0 to n do
33: [Mⁱ]←β₁[Mⁱ]+(1-β₁)[Gⁱ] （精度：b_w+b_β）
34: [Mⁱ]←rshift([Mⁱ],b_β) （精度：b_w）
35: [Vⁱ]←β₂[Vⁱ]+(1-β₂)[Gⁱ]○[Gⁱ] （精度：2b_w+b_β）
36: [Vⁱ]←rshift([Vⁱ],b_β) （精度：2b_w）
37: [M^ⁱ]←β^_1,t[Mⁱ] （精度：b_w+b_{β^_1}）
38: [V^ⁱ]←β^_2,t[Vⁱ] （精度：2b_w+b_{β^_2}）
39: [G^ⁱ]←Adam([V^ⁱ]) （精度：b_g^）
40: [G^ⁱ]←[G^ⁱ]○[M^ⁱ] （精度：b_g^+b_w+b_{β^_1}）
41: [G^ⁱ]←rshift([G^ⁱ],b_g^+b_{β^_1}) （精度：b_w）
42: [Wⁱ]←[Wⁱ]-[G^ⁱ] （精度：b_w）
43: end for

第二実施形態と同様に、Algorithm 4中の手順１のパラメータ初期化以外の処理を収束するまで、もしくは設定した学習回数分繰り返すことでディープラーニングができる。精度の設定や右シフトを行う箇所については、第一実施形態の変形例２と同様の工夫を取り入れている。

(1)順伝搬の計算では、特徴量Xの精度b_xがあまり大きくない場合（例えば画像データの画素値であれば８ビットで十分である）、b_w+b_xはビット数にゆとりがあるため右シフトを省略している。また、(4)パラメータ更新の計算では学習率とバッチサイズでの除算をH'ビットでの算術右シフトで近似し、さらにそれを精度調節のための算術右シフトと同時に行うことで効率化している。

＜発明のポイント＞
本発明では、勾配降下法の最適化手法Adamに含まれる平方根や除算といった秘密計算が苦手とする計算をまとめて１つの関数とみなすことで、１回の秘密一括写像で最適化手法Adamの処理を効率的に行えるようにした。これによって、秘密計算上で機械学習を行う従来技術よりも少ない回数での学習が可能になり、全体の処理時間を短く抑えることができる。この最適化手法は機械学習モデルの形は問わず、勾配降下法を用いて学習する場合であればどのようなモデルにも適用できる。例えば、ニューラルネットワーク（ディープラーニング）やロジスティック回帰、線形回帰といった様々な機械学習で用いることができる。

このように、本発明によれば、勾配降下法の最適化手法Adamを秘密計算上で実現したことにより、秘密計算でも少ない学習回数で高い予測性能を持つ機械学習モデルの学習が可能となる。

以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図８に示すコンピュータの記憶部１０２０に読み込ませ、制御部１０１０、入力部１０３０、出力部１０４０などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数の秘密計算装置を含む秘密勾配降下法計算システムが実行する、少なくとも勾配GとパラメータWとを秘匿したまま勾配降下法を計算する秘密勾配降下法計算方法であって、
β₁, β₂, η, εは予め定めたハイパーパラメータとし、○は要素ごとの積とし、tは学習回数とし、[G]は上記勾配Gの秘匿値とし、[W]は上記パラメータWの秘匿値とし、[M], [M^], [V], [V^], [G^]は上記勾配Gと要素数が等しい行列M, M^, V, V^, G^の秘匿値とし、β^_1,t, β^_2,t, g^を次式とし、

Adamは値v^の行列V^の秘匿値[V^]を入力として値g^の行列G^の秘匿値[G^]を出力する秘密一括写像を計算する関数とし、
各秘密計算装置のパラメータ更新部が、[M]←β₁[M]+(1-β₁)[G]を計算し、
上記パラメータ更新部が、[V]←β₂[V]+(1-β₂)[G]○[G]を計算し、
上記パラメータ更新部が、[M^]←β^_1,t[M]を計算し、
上記パラメータ更新部が、[V^]←β^_2,t[V]を計算し、
上記パラメータ更新部が、[G^]←Adam([V^])を計算し、
上記パラメータ更新部が、[G^]←[G^]○[M^]を計算し、
上記パラメータ更新部が、[W]←[W]-[G^]を計算する、
秘密勾配降下法計算方法。
請求項１に記載の秘密勾配降下法計算方法であって、
rshiftは算術右シフトとし、b_βはβ₁およびβ₂の精度とし、b_{β^_1}はβ^_1,tの精度とし、b_g^はg^の精度とし、
上記パラメータ更新部が、[M]←β₁[M]+(1-β₁)[G]を計算した後に、[M]←rshift([M],b_β)を計算し、
上記パラメータ更新部が、[V]←β₂[V]+(1-β₂)[G]○[G]を計算した後に、[V]←rshift([V],b_β)を計算し、
上記パラメータ更新部が、[G^]←[G^]○[M^]を計算した後に、[G^]←rshift([G^],b_g^+b_{β^_1})を計算する、
秘密勾配降下法計算方法。
複数の秘密計算装置を含む秘密深層学習システムが実行する、少なくとも学習データの特徴量Xと学習データの正解データTとパラメータWとを秘匿したままディープニューラルネットワークを学習する秘密深層学習方法であって、
β₁, β₂, η, εは予め定めたハイパーパラメータとし、・は行列の積とし、○は要素ごとの積とし、tは学習回数とし、[G]は勾配Gの秘匿値とし、[W]は上記パラメータWの秘匿値とし、[X]は上記学習データの特徴量Xの秘匿値とし、[T]は上記学習データの正解ラベルTの秘匿値とし、[M], [M^], [V], [V^], [G^], [U], [Y], [Z]は上記勾配Gと要素数が等しい行列M, M^, V, V^, G^, U, Y, Zの秘匿値とし、β^_1,t, β^_2,t, g^を次式とし、

Adamは値v^の行列V^の秘匿値[V^]を入力として値g^の行列G^の秘匿値[G^]を出力する秘密一括写像を計算する関数とし、rshiftは算術右シフトとし、mは１回の学習に用いる学習データの数とし、H'は次式とし、

nは上記ディープニューラルネットワークの隠れ層の数とし、Activationは上記隠れ層の活性化関数とし、Activation2は上記ディープニューラルネットワークの出力層の活性化関数とし、Activation2'は上記活性化関数Activation2に対応する損失関数とし、Activation'は上記活性化関数Activationの微分とし、
各秘密計算装置の順伝搬計算部が、[U¹]←[W⁰]・[X]を計算し、
上記順伝搬計算部が、[Y¹]←Activation([U¹])を計算し、
上記順伝搬計算部が、１以上n-1以下の各iについて[Uⁱ⁺¹]←[Wⁱ]・[Yⁱ]を計算し、
上記順伝搬計算部が、１以上n-1以下の各iについて[Yⁱ⁺¹]←Activation([Uⁱ⁺¹])を計算し、
上記順伝搬計算部が、[Uⁿ⁺¹]←[Wⁿ]・[Yⁿ]を計算し、
上記順伝搬計算部が、[Yⁿ⁺¹]←Activation2([Uⁿ⁺¹])を計算し、
各秘密計算装置の逆伝搬計算部が、[Zⁿ⁺¹]←Activation2'([Yⁿ⁺¹],[T])を計算し、
上記逆伝搬計算部が、[Zⁿ]←Activation'([Uⁿ])○([Zⁿ⁺¹]・[Wⁿ])を計算し、
上記逆伝搬計算部が、１以上n-1以下の各iについて[Z^n-i]←Activation'([U^n-i])○([Z^n-i+1]・[W^n-i])を計算し、
各秘密計算装置の勾配計算部が、[G⁰]←[Z¹]・[X]を計算し、
上記勾配計算部が、１以上n-1以下の各iについて[Gⁱ]←[Zⁱ⁺¹]・[Yⁱ]を計算し、
上記勾配計算部が、[Gⁿ]←[Zⁿ⁺¹]・[Yⁿ]を計算し、
各秘密計算装置のパラメータ更新部が、[G⁰]←rshift([G⁰],H')を計算し、
上記パラメータ更新部が、１以上n-1以下の各iについて[Gⁱ]←rshift([Gⁱ],H')を計算し、
上記パラメータ更新部が、[Gⁿ]←rshift([Gⁿ],H')を計算し、
上記パラメータ更新部が、０以上n以下の各iについて、請求項１に記載の秘密勾配降下法計算方法により、i層とi+1層間の勾配[Gⁱ]を用いてi層とi+1層間のパラメータ[Wⁱ]を学習する、
秘密深層学習方法。
請求項３に記載の秘密深層学習方法であって、
b_wはwの精度とし、b_yはYの要素の精度とし、b_βはβ₁およびβ₂の精度とし、b_{β^_1}はβ^_1,tの精度とし、b_g^はg^の精度とし、
上記順伝搬計算部が、[Yⁱ⁺¹]←Activation([Uⁱ⁺¹])を計算した後に、[Yⁱ⁺¹]←rshift([Yⁱ⁺¹],b_w)を計算し、
上記逆伝搬計算部が、[Zⁿ]←Activation'([Uⁿ])○([Zⁿ⁺¹]・[Wⁿ])を計算した後に、[Zⁿ]←rshift([Zⁿ],b_y)を計算し、
各上記逆伝搬計算部が、[Z^n-i]←Activation'([U^n-i])○([Z^n-i+1]・[W^n-i])を計算した後に、[Z^n-i]←rshift([Z^n-i],b_w)を計算し、
上記パラメータ更新部が、０以上n以下の各iについて、請求項２に記載の秘密勾配降下法計算方法により、i層とi+1層間の勾配[Gⁱ]を用いてi層とi+1層間のパラメータ[Wⁱ]を学習する、
秘密深層学習方法。
複数の秘密計算装置を含み、少なくとも勾配GとパラメータWとを秘匿したまま勾配降下法を計算する秘密勾配降下法計算システムであって、
β₁, β₂, η, εは予め定めたハイパーパラメータとし、○は要素ごとの積とし、tは学習回数とし、[G]は上記勾配Gの秘匿値とし、[W]は上記パラメータWの秘匿値とし、[M], [M^], [V], [V^], [G^]は上記勾配Gと要素数が等しい行列M, M^, V, V^, G^の秘匿値とし、β^_1,t, β^_2,t, g^を次式とし、

Adamは値v^の行列V^の秘匿値[V^]を入力として値g^の行列G^の秘匿値[G^]を出力する秘密一括写像を計算する関数とし、
各秘密計算装置は、
[M]←β₁[M]+(1-β₁)[G]と、[V]←β₂[V]+(1-β₂)[G]○[G]と、[M^]←β^_1,t[M]と、[V^]←β^_2,t[V]と、[G^]←Adam([V^])と、[G^]←[G^]○[M^]と、[W]←[W]-[G^]とを計算するパラメータ更新部を含む、
秘密勾配降下法計算システム。
複数の秘密計算装置を含み、少なくとも学習データの特徴量Xと学習データの正解データTとパラメータWとを秘匿したままディープニューラルネットワークを学習する秘密深層学習システムであって、
β₁, β₂, η, εは予め定めたハイパーパラメータとし、・は行列の積とし、○は要素ごとの積とし、tは学習回数とし、[G]は勾配Gの秘匿値とし、[W]は上記パラメータWの秘匿値とし、[X]は上記学習データの特徴量Xの秘匿値とし、[T]は上記学習データの正解ラベルTの秘匿値とし、[M], [M^], [V], [V^], [G^], [U], [Y], [Z]は上記勾配Gと要素数が等しい行列M, M^, V, V^, G^, U, Y, Zの秘匿値とし、β^_1,t, β^_2,t, g^を次式とし、

Adamは値v^の行列V^の秘匿値[V^]を入力として値g^の行列G^の秘匿値[G^]を出力する秘密一括写像を計算する関数とし、rshiftは算術右シフトとし、mは１回の学習に用いる学習データの数とし、H'は次式とし、

nは上記ディープニューラルネットワークの隠れ層の数とし、Activationは上記隠れ層の活性化関数とし、Activation2は上記ディープニューラルネットワークの出力層の活性化関数とし、Activation2'は上記活性化関数Activation2に対応する損失関数とし、Activation'は上記活性化関数Activationの微分とし、
各秘密計算装置は、
[U¹]←[W⁰]・[X]と、[Y¹]←Activation([U¹])と、１以上n-1以下の各iについての[Uⁱ⁺¹]←[Wⁱ]・[Yⁱ], [Yⁱ⁺¹]←Activation([Uⁱ⁺¹])と、[Uⁿ⁺¹]←[Wⁿ]・[Yⁿ]と、[Yⁿ⁺¹]←Activation2([Uⁿ⁺¹])とを計算する順伝搬計算部と、
[Zⁿ⁺¹]←Activation2'([Yⁿ⁺¹],[T])と、[Zⁿ]←Activation'([Uⁿ])○([Zⁿ⁺¹]・[Wⁿ])と、１以上n-1以下の各iについての[Z^n-i]←Activation'([U^n-i])○([Z^n-i+1]・[W^n-i])とを計算する逆伝搬計算部と、
[G⁰]←[Z¹]・[X]と、１以上n-1以下の各iについての[Gⁱ]←[Zⁱ⁺¹]・[Yⁱ]と、[Gⁿ]←[Zⁿ⁺¹]・[Yⁿ]とを計算する勾配計算部と、
[G⁰]←rshift([G⁰],H')と、１以上n-1以下の各iについての[Gⁱ]←rshift([Gⁱ],H')と、[Gⁿ]←rshift([Gⁿ],H')とを計算し、０以上n以下の各iについて、請求項５に記載の秘密勾配降下法計算システムにより、i層とi+1層間の勾配[Gⁱ]を用いてi層とi+1層間のパラメータ[Wⁱ]を学習するパラメータ更新部と、
を含む秘密深層学習システム。
請求項５に記載の秘密勾配降下法計算システムまたは請求項６に記載の秘密深層学習システムにおいて用いられる秘密計算装置。
請求項７に記載の秘密計算装置としてコンピュータを機能させるためのプログラム。