JP6556659B2

JP6556659B2 - ニューラルネットワークシステム、シェア計算装置、ニューラルネットワークの学習方法、プログラム

Info

Publication number: JP6556659B2
Application number: JP2016098410A
Authority: JP
Inventors: 真徳山田; 哲士田中; 亮菊池
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-05-17
Filing date: 2016-05-17
Publication date: 2019-08-07
Anticipated expiration: 2036-05-17
Also published as: JP2017207839A

Description

本発明は、分散型のニューラルネットワークを形成する場合のニューラルネットワークシステム、シェア計算装置、ニューラルネットワークの学習方法、プログラムに関する。

ビッグデータと機械学習の活用によりサービスの高度化・付加価値の提供が盛んに行われており、その際の機械学習には大きな計算リソースが必要である場合が多い。そしてクラウドが低コストとなっている状況においては機械学習の計算を第三者が運用するクラウド上で行う場面が増えてきている。例えば、非特許文献１に示したようなニューラルネットワークの学習では大きな計算リソースが必要である。

セキュリティーの分野においてはプライバシーの観点から、秘密計算を用いて個人情報などから構成される計算の入力データを秘密化する研究が存在する（非特許文献２〜７など）。非特許文献２には従来技術として、データａをＮ個のシェア［ａ］_１，…，［ａ］_Ｎに分割してＮ個のサーバに分散させる技術（シェアの生成）、およびその中のＫ個のシェアを集めて元のデータを復元する技術（データの復元）が示されている。ただし、Ｋを２以上の整数、Ｎを２Ｋ−１以上の整数、ｎを１以上Ｎ以下の整数とする。また、［］_ｎをｎ番目のシェア計算装置が記録するシェアを示す記号とする。なお、シェアはＫ個以上集めれば元のデータが復元でき、Ｋ個未満では元のデータは復元できない。つまり、シェアを分散させることで、元のデータを秘密化している。

非特許文献３〜６には、シェアの加算、シェアの乗算、シェアの定数倍、シェアのビット分解、シェアの大小判定などが示されている。シェアの加算とは、データを秘密化した状態のままで加算し、加算結果のシェアを求める技術である。つまり、シェアの加算の前には、ｎ番目のサーバはデータａ，ｂのシェアである［ａ］_ｎ，［ｂ］_ｎを記録しており、データａ，ｂを復元することなく、シェアの加算後には、ｎ番目のサーバはデータａ＋ｂのシェアである［ａ＋ｂ］_ｎを記録した状態になる。シェアの乗算では、ｎ番目のサーバはデータａ，ｂのシェアである［ａ］_ｎ，［ｂ］_ｎを記録しており、データａ，ｂを復元することなく、シェアの乗算後には、ｎ番目のサーバはデータａ×ｂのシェアである［ａ×ｂ］_ｎを記録した状態になる。シェアの定数倍では、ｎ番目のサーバはデータａのシェアである［ａ］_ｎと秘密化していないデータｃを記録しており、データａを復元することなく、シェアの定数倍後には、ｎ番目のサーバはデータａ×ｃのシェアである［ａ×ｃ］_ｎを記録した状態になる。シェアのビット分解では、ｎ番目のサーバは、データａを復元することなく、シェアのビット分解後には、データａのシェア［ａ］_ｎから｜ａ｜個のａのビットデータｂｉｔ_ａ（１），…，ｂｉｔ_ａ（｜ａ｜）のシェア［ｂｉｔ_ａ（１）］_ｎ，…，［ｂｉｔ_ａ（｜ａ｜）］_ｎを生成し、記録した状態になる。シェアの大小判定では、ｎ番目のサーバはデータａのシェアである［ａ］_ｎと秘密化していないデータｃを記録しており、データａを復元することなく、シェアの大小判定後には、ｎ番目のサーバはデータａとｃの大小判定の結果のシェアを記録した状態になる。なお、大小判定の結果は（ａ＞ｃ）と表現し、そのシェアは［ａ＞ｃ］_ｎのように表現する。大小判定の結果（ａ＞ｃ）は、例えば、ａ＞ｃならば“１”、ａ≦ｃならば“０”のように、あらかじめ定めた方法でａ，ｃの大小関係を示すことである。結果のシェア［ａ＞ｃ］_ｎとは、例えば、Ｋ個以上のシェアを集めなければ“１”か“０”かが分からないようにＮ個に分割したものである。上述の説明では、ａ＞ｃとａ≦ｃに場合分けしたが、ａ＜ｃとａ≧ｃに場合分けしてもよい。

非特許文献７には、ニューラルネットワークの学習において、学習データを秘密化した状態で学習させ、重みのデータを得る方法が示されている。

DAIVID E. RUMELHART, GEOFFREY E. HINTON, RONALD J. WILLIAMS, "Learning representations by back-propagating errors", Nature 323, pp.533-536, 09 October 1986. [平成２８年４月２２日検索]、インターネット<http://www.nature.com/nature/journal/v323/n6088/abs/323533a0.html>． Adi Shamir, "How to Share a Secret", Communications of the ACM, Vol.22, No.11, pp.612-613, November 1979. [平成２８年４月２２日検索]、インターネット<http://dl.acm.org/citation.cfm?doid=359168.359176>． Michael Ben-Or, Shafi Goldwasser, Avi Wigderson, "Completeness theorems for non-cryptographic fault-tolerant distributed computation", STOC '88 Proceedings of the twentieth annual ACM symposium on Theory of computing, pp.1-10, 1988. [平成２８年４月２２日検索]、インターネット<http://dl.acm.org/citation.cfm?id=62213>. Rosario Gennaro, Michael O. Rabin, Tal Rabin, "Simplified VSS and fast-track multiparty computations with applications to threshold cryptography", PODC '98 Proceedings of the seventeenth annual ACM symposium on Principles of distributed computing, pp.101-111, 1998. [平成２８年４月２２日検索]、インターネット<http://dl.acm.org/citation.cfm?id=277716>．渡辺泰平，岩村惠市, "秘密分散法を用いたサーバ台数変化がない乗算手法", 情報処理学会研究報告, pp.1-6 , December 2013. [平成２８年４月２２日検索]、インターネット<http://ci.nii.ac.jp/naid/110009634018>．五十嵐大, 濱田浩気, 菊池亮, 千田浩司, "少パーティの秘密分散ベース秘密計算のためのO(l)ビット通信ビット分解およびO(|p’|)ビット通信Modulus変換法", コンピュータセキュリティシンポジウム2013論文集, 4号, pp.785-792, 2013. [平成２８年４月２２日検索]、インターネット<https://ipsj.ixsq.nii.ac.jp/ej/index.php?active_action=repository_view_main_item_detail&page_id=13&block_id=8&item_id=98298&item_no=1>． Jiawei Yuan, Shucheng Yu, "Privacy Preserving Back-Propagation Neural Network Learning Made Practical with Cloud Computing", IEEE Transactions on Parallel and Distributed Systems, Vol.25, Issue 1, pp.212-221, Jan. 2013. [平成２８年４月２２日検索]、インターネット<http://ieeexplore.ieee.org/xpl/login.jsp?reload=true&tp=&arnumber=6410315&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6410315>． Mehrdad Aliasgari, Marina Blanton, Yihua Zhang, Aaron Steele, "Secure Computation on Floating Point Numbers". NDSS 2013, Internet Society, Feb. 2013. [平成２８年５月１１日検索]、インターネット<http://www.internetsociety.org/doc/secure-computation-floating-point-numbers>

しかしながら、非特許文献７に示された従来技術は、学習データは秘密化した状態を維持しているが、学習した結果である重みのデータは秘密化できていない。学習データは、大量の入力と結果（教師データ）のセットであり、個人情報などの秘密情報が含まれている可能性もあるため秘密化する必要性が高い。一方、学習した結果である重みのデータからは個人情報は分からないので、個人情報の保護という観点からの秘密化の必要性は低い。しかし、学習した結果もニューラルネットワークシステムにとってのノウハウであり、第三者に知られたくない情報である。したがって、第三者のサーバを利用して学習する場合には、結果も秘密化する必要性が高くなる。

本発明は、このような状況に鑑みてなされたものであり、学習データだけでなく、学習した結果として得られる重みのデータも秘密化できるニューラルネットワークシステムを提供することを目的とする。

Ｋを２以上の整数、Ｎを２Ｋ−１以上の整数、ｎを１以上Ｎ以下の整数、Ｄをニューラルネットワークの層数（ただし、１層目が入力層、Ｄ層目が出力層）、ｄを１以上Ｄ以下の整数、Ｍ_ｄをｄ層目のノード数、ｍ_ｄを１以上Ｍ_ｄ以下の整数、Ｓを入力と教師データのセット数、ｓを１以上Ｓ以下の整数、Ｉ^（ｓ）＝｛Ｉ（１）^（ｓ），…，Ｉ（Ｍ_１）^（ｓ）｝をｓ番目の入力、Ｔ^（ｓ）＝｛Ｔ（１）^（ｓ），…，Ｔ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する教師データ、Ｏ^（ｓ）＝｛Ｏ（１）^（ｓ），…，Ｏ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する出力、Ｈ^{（ｄ，ｓ）}＝｛Ｈ（１）^{（ｄ，ｓ）}，…，Ｈ（Ｍ_ｄ）^{（ｄ，ｓ）}｝をｓ番目の入力に対するｄ番目の隠れ層の値（ただし、Ｉ^（ｓ）＝Ｈ^{（１，ｓ）}、Ｏ^（ｓ）＝Ｈ^{（Ｄ，ｓ）}）、ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｄ層目のｍ_ｄ番目のノードとｄ−１層目のｍ_ｄ−１番目のノードの間の重み、θ（ｍ_ｄ）^（ｄ）をｄ層目のｍ_ｄ番目のノードの閾値、Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）の学習率、Δθ（ｍ_ｄ）^（ｄ）をθ（ｍ_ｄ）^（ｄ）の学習率、［］_ｎをｎ番目のシェア計算装置が記録するシェアを示す記号、［Ｗ^（ｄ）］_ｎを［ｗ（１，１）^（ｄ）］_ｎ，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［ｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［Θ^（ｄ）］_ｎを［θ（１）^（ｄ）］_ｎ，…，［θ（Ｍ_ｄ）^（ｄ）］_ｎの集合、［ΔＷ^（ｄ）］_ｎを［Δｗ（１，１）^（ｄ）］_ｎ，…，［Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［Δｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［ΔΘ^（ｄ）］_ｎを［Δθ（１）^（ｄ）］_ｎ，…，［Δθ（Ｍ_ｄ）^（ｄ）］_ｎの集合、εをあらかじめ定めた誤差の閾値、ｆ（）を活性化関数、ｆ’（）を前記活性化関数の導関数とする。

本発明のニューラルネットワークシステムは、管理装置とＮ台のシェア計算装置で構成される。管理装置は、データからＮ個のシェアを求めること、Ｋ個のシェアからデータを復元することができ、管理記録部と初期設定部と学習指示部を備える。管理記録部は、あらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εと、Ｓ個の入力と教師データのセット（Ｉ^（１），Ｔ^（１）），…，（Ｉ^（Ｓ），Ｔ^（Ｓ））を記録する。初期設定部は、１≦ｎ≦Ｎのすべてのｎについて［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎをｎ番目のシェア計算装置に送信する。学習指示部は、１≦ｎ≦Ｎのすべてのｎについて（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）をｎ番目のシェア計算装置に送信し、Ｎ個のシェア計算装置に学習開始を指示する。

ｎ番目のシェア計算装置は、シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定を、他のシェア計算装置と共に行うことができ、シェア計算記録部と前方伝播部と誤差計算部と逆誤差伝播部と学習制御部とを備える。シェア計算記録部は、［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎと（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）と、前記のあらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εを記録する。前方伝播部は、１≦ｍ_１≦Ｍ_１のすべてのｍ_１について［Ｈ（ｍ_１）^{（１，ｓ）}］_ｎ＝［Ｉ（ｍ_１）^（ｓ）］_ｎとし、ｄ＝１からｄ＝Ｄ−１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について［Ｈ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎ＝［ｆ（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎを求め、［Ｏ（ｍ_Ｄ）^（ｓ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}］_ｎとすることで、出力のシェア［Ｏ^（ｓ）］_ｎ＝｛［Ｏ（１）^（ｓ）］_ｎ，…，［Ｏ（Ｍ_Ｄ）^（ｓ）］_ｎ｝）を求める。ただし、

である。誤差計算部は、誤差のシェア［Ｅ］_ｎを、

のように求め、Ｅとεの大小判定結果のシェアである［Ｅ＜ε］_ｎを求める。

逆誤差伝播部は、Ｅ＜εでない場合には、１≦ｍ_Ｄ≦Ｍ_Ｄのすべてのｍ_Ｄについて［ＴＥＭＰ（ｍ_Ｄ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}−Ｔ（ｍ_Ｄ）^（ｓ）］_ｎとする。逆誤差伝播部は、ｄ＝Ｄ−１からｄ＝１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について、［δ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ＝［ＴＥＭＰ（ｍ_ｄ＋１）ｆ’（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎを求める。ただし、

である。逆誤差伝播部は、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄについて

とする。そして、逆誤差伝播部は、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄ＋１、ｍ_ｄついて
［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ←［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Ｈ（ｍ_ｄ）^{（ｄ，ｓ）}Δｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ
のように重みのシェア［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎを更新し、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１ついて
［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ←［θ（ｍ_ｄ＋１）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Δθ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ
のように閾値のシェア［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎを更新する。学習制御部は、前方伝播部、誤差計算部、逆誤差伝播部に、それぞれの処理を１≦ｓ≦Ｓのすべてのｓに対して実行させる。

また、管理装置又はＮ台のシェア計算装置のいずれかが、Ｋ台以上のシェア計算装置からＥとεの大小判定結果のシェアを受信し、Ｅとεの大小判定結果を示すデータを復元する終了条件確認部も備える。そして、活性化関数ｆ（Ｘ）は、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘである。

本発明のニューラルネットワークシステムによれば、管理装置をシェアの生成とシェアの復元ができる装置とし、シェア計算装置をシェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定ができる装置としている。そして、活性化関数ｆ（Ｘ）として、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘとなる関数を用いている。

この活性化関数ｆ（Ｘ）とその導関数ｆ’（Ｘ）を用いれば、シェアの生成とシェアの復元ができる管理装置と、シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定ができるシェア計算装置によって、学習データだけでなく、学習した結果として得られる重みのデータも秘密化できる。

本発明のニューラルネットワークシステムの構成例を示す図。学習時の初期設定の処理フローを示す図。学習の処理フローを示す図。前方伝播の処理フローの具体例を示す図。逆誤差伝播の処理フローの具体例を示す図。活性化関数ｆ（Ｘ）の計算での処理フローの例を示す図。活性化関数の導関数ｆ’（Ｘ）の計算での処理フローの例を示す図。予言フェーズの処理フローを示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

まず、記号について説明する。Ｋを２以上の整数、Ｎを２Ｋ−１以上の整数、ｎを１以上Ｎ以下の整数、Ｄをニューラルネットワークの層数（ただし、１層目が入力層、Ｄ層目が出力層）、ｄを１以上Ｄ以下の整数、Ｍ_ｄをｄ層目のノード数、ｍ_ｄを１以上Ｍ_ｄ以下の整数、Ｓを入力と教師データのセット数、ｓを１以上Ｓ以下の整数、Ｉ^（ｓ）＝｛Ｉ（１）^（ｓ），…，Ｉ（Ｍ_１）^（ｓ）｝をｓ番目の入力、Ｔ^（ｓ）＝｛Ｔ（１）^（ｓ），…，Ｔ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する教師データ、Ｏ^（ｓ）＝｛Ｏ（１）^（ｓ），…，Ｏ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する出力、Ｈ^{（ｄ，ｓ）}＝｛Ｈ（１）^{（ｄ，ｓ）}，…，Ｈ（Ｍ_ｄ）^{（ｄ，ｓ）}｝をｓ番目の入力に対するｄ番目の隠れ層の値（ただし、Ｉ^（ｓ）＝Ｈ^{（１，ｓ）}、Ｏ^（ｓ）＝Ｈ^{（Ｄ，ｓ）}）、ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｄ層目のｍ_ｄ番目のノードとｄ−１層目のｍ_ｄ−１番目のノードの間の重み、θ（ｍ_ｄ）^（ｄ）をｄ層目のｍ_ｄ番目のノードの閾値、Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）の学習率、Δθ（ｍ_ｄ）^（ｄ）をθ（ｍ_ｄ）^（ｄ）の学習率、［］_ｎをｎ番目のシェア計算装置が記録するシェアを示す記号、［Ｗ^（ｄ）］_ｎを［ｗ（１，１）^（ｄ）］_ｎ，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［ｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［Θ^（ｄ）］_ｎを［θ（１）^（ｄ）］_ｎ，…，［θ（Ｍ_ｄ）^（ｄ）］_ｎの集合、［ΔＷ^（ｄ）］_ｎを［Δｗ（１，１）^（ｄ）］_ｎ，…，［Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［Δｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［ΔΘ^（ｄ）］_ｎを［Δθ（１）^（ｄ）］_ｎ，…，［Δθ（Ｍ_ｄ）^（ｄ）］_ｎの集合、εをあらかじめ定めた誤差の閾値、ｆ（）を活性化関数、ｆ’（）を前記活性化関数の導関数とする。

図１に本発明のニューラルネットワークシステムの構成例を示す。本発明のニューラルネットワークシステムは、ネットワーク９００で接続された管理装置２００とＮ台のシェア計算装置１００_１，…，１００_Ｎで構成される。また、本発明のニューラルネットワークシステムの利用者の端末３００もネットワーク９００を介してニューラルネットワークシステムに接続される。

管理装置２００は、データからＮ個のシェアを求めること（シェアの生成）、Ｋ個のシェアからデータを復元すること（データの復元）ができ、管理記録部２９０と初期設定部２１０と学習指示部２２０を備える。ｎ番目のシェア計算装置１００_ｎは、シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定を、他のシェア計算装置１００_１，…，１００_ｎ-１，１００_ｎ+１，…，１００_Ｎと共に行うことができ、シェア計算記録部１９０_ｎと前方伝播部１１０_ｎと誤差計算部１２０_ｎと逆誤差伝播部１３０_ｎと学習制御部１４０_ｎとを備える。上述のとおり、シェアの生成、データの復元、シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定には既存技術を用いればよい。管理記録部２９０は、あらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εと、Ｓ個の入力と教師データのセット（Ｉ^（１），Ｔ^（１）），…，（Ｉ^（Ｓ），Ｔ^（Ｓ））を記録しておく。シェア計算記録部１９０_ｎは、前記のあらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εを記録しておく。

図２は学習時の初期設定の処理フローを示す図である。初期設定部２１０は、１≦ｎ≦Ｎのすべてのｎについて［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎをｎ番目のシェア計算装置１００_ｎに送信する（Ｓ２１０）。シェア計算装置１００_ｎ（ただし、ｎ＝１，…，Ｎ）は、［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎを受信し、シェア計算記録部１９０_ｎに記録する（Ｓ２１１_ｎ）。より具体的には、初期設定部２１０は、２≦ｄ≦Ｄ、１≦ｍ_ｄ≦Ｍ_ｄ、１≦ｍ_ｄ−１≦Ｍ_ｄ−１のすべてのｄ、ｍ_ｄ、ｍ_ｄ−１ついてのｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）を所定の体上からランダムに選択する。また、初期設定部２１０は、１≦ｄ≦Ｄ、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｄ、ｍ_ｄついてのθ（ｍ_ｄ）^（ｄ）を前記所定の体上からランダムに選択する。「所定の体」とは、あらかじめ定めた四則演算を行える集合である。例えば、素数ｐを位数とする有限体を、非特許文献８を利用して小数に対応付けした集合を所定の体とすればよい。

初期設定部２１０は、選択したすべてのｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）とθ（ｍ_ｄ）^（ｄ）について［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_１，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_Ｎと［θ（ｍ_ｄ）^（ｄ）］_１，…，［θ（ｍ_ｄ）^（ｄ）］_Ｎを求めることで、１≦ｎ≦Ｎのすべてのｎについて［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎを取得すればよい。初期設定部２１０は、このような手順で得られた［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎをｎ番目のシェア計算装置１００_ｎに送信すればよい。

図３は学習の処理フローを示す図である。図４に前方伝播の処理フローの具体例、図５に逆誤差伝播の処理フローの具体例を示す。学習指示部２２０は、１≦ｎ≦Ｎのすべてのｎについて（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）をｎ番目のシェア計算装置１００_ｎに送信し、Ｎ個のシェア計算装置１００_１，…，１００_Ｎに学習開始を指示する（Ｓ２２０）。より具体的には、学習指示部２２０は、１≦ｓ≦Ｓのすべての（Ｉ^（ｓ），Ｔ^（ｓ））について（［Ｉ^（ｓ）］_１，［Ｔ^（ｓ）］_１），…，（［Ｉ^（ｓ）］_Ｎ，［Ｔ^（ｓ）］_Ｎ）を求めることで、１≦ｎ≦Ｎのすべてのｎについて（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）を取得する。そして、学習指示部２２０は、（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）をシェア計算装置１００_ｎに送信し、学習開始を指示すればよい。シェア計算装置１００_ｎは、シェア計算記録部１９０_ｎに（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）を記録する。

シェア計算装置１００_１，…，１００_Ｎは、同じ教師データに対するそれぞれが記録している教師データのシェアを選択する（Ｓ１４１（Ｓ１４１_１，…，Ｓ１４１_Ｎ））。なお、図３〜８において、Ｎ台のシェア計算装置１００_１，…，１００_Ｎが協調して処理を行う場合は点線で囲み、符号を付している。なお、ステップＳ１４１の場合は、同じ教師データに対するシェアを選択する必要があるため点線で囲んでいるが、あらかじめ選択する順番を定めておけば、ステップＳ１４１中で情報を送受信する必要はない。なお、「協調して処理を行う」とは、情報を送受信しながら処理を進めるだけでなく、あらかじめ定めた手順にしたがって処理を進めることで情報の送受信をすることなく処理を進めることも含んだ意味である。

前方伝播部１１０_１，…，１１０_Ｎは、１≦ｍ_１≦Ｍ_１のすべてのｍ_１について［Ｈ（ｍ_１）^{（１，ｓ）}］_ｎ＝［Ｉ（ｍ_１）^（ｓ）］_ｎとし、ｄ＝１からｄ＝Ｄ−１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について［Ｈ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎ＝［ｆ（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎを秘密計算で求め、［Ｏ（ｍ_Ｄ）^（ｓ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}］_ｎとすることで、出力のシェア［Ｏ^（ｓ）］_ｎ＝｛［Ｏ（１）^（ｓ）］_ｎ，…，［Ｏ（Ｍ_Ｄ）^（ｓ）］_ｎ｝）を求める（Ｓ１１０（Ｓ１１０_１，…，Ｓ１１０_Ｎ））。ただし、

である。

ここで、ステップＳ１１０_ｎについて、図４を参照しながら詳細に説明する。前方伝播部１１０_ｎは、１≦ｍ_１≦Ｍ_１のすべてのｍ_１について［Ｈ（ｍ_１）^{（１，ｓ）}］_ｎ＝［Ｉ（ｍ_１）^（ｓ）］_ｎとし、ｄに１を代入する（Ｓ１１１_１，…，Ｓ１１１_Ｎ）。前方伝播部１１０_ｎは、［Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎを上式のように秘密計算で計算する（Ｓ１１２（Ｓ１１２_１，…，Ｓ１１２_Ｎ））。前方伝播部１１０_ｎは、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について［Ｈ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎ＝［ｆ（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎを秘密計算で計算する（Ｓ１１３（Ｓ１１３_１，…，Ｓ１１３_Ｎ））。前方伝播部１１０_ｎは、ｄにｄ＋１を代入する（Ｓ１１４_１，…，Ｓ１１４_Ｎ）。前方伝播部１１０_ｎは、ｄがＤ未満かを確認し（Ｓ１１５_１，…，Ｓ１１５_Ｎ）、Ｙｅｓの場合はステップＳ１１２_１，…，Ｓ１１２_Ｎに戻る。Ｎｏの場合は、［Ｏ（ｍ_Ｄ）^（ｓ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}］_ｎとする（Ｓ１１６_１，…，Ｓ１１６_Ｎ）。

なお、活性化関数ｆ（Ｘ）としては、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘとなる活性化関数を用いればよい。図６にｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘとなる活性化関数ｆ（Ｘ）の計算の処理フローを示す。Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘなので、大小判定の結果（Ｘ＞０）は、Ｘ≦０のときは（Ｘ＞０）＝０、Ｘ＞０のときは（Ｘ＞０）＝１と決めておく。そして、前方伝播部１１０_ｎ（ただし、ｎ＝１，…，Ｎ）は、Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}と“０”との大小判定を秘密計算で行い、大小評価の結果（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}＞０）のシェア［Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}＞０］_ｎを求める（Ｓ１１３１（Ｓ１１３１_１，…，Ｓ１１３１_Ｎ））。前方伝播部１１０_ｎ（ただし、ｎ＝１，…，Ｎ）は、［ｆ（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎ＝［Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}・（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}＞０）］_ｎを秘密計算（シェアの乗算）で求める（Ｓ１１３２（Ｓ１１３２_１，…，Ｓ１１３２_Ｎ））。また、後述する逆誤差伝播では活性化関数の導関数ｆ’（Ｘ）を用いるので、ここで、導関数ｆ’（Ｘ）についても説明する。図７に活性化関数の導関数ｆ’（Ｘ）の計算での処理フローを示す。活性化関数ｆ（Ｘ）が、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘなので、導関数ｆ’（Ｘ）は、Ｘ＜０のときはｆ’（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝１、Ｘ＝０のときにはｆ’（Ｘ）は決まらない。ただし、Ｘ＝０となることはないので、実際には、Ｘ≦０のときはｆ（Ｘ）＝０とすることを前提に、Ｘと“０”との大小判定を秘密計算で行えば（Ｓ１３３１（Ｓ１３３１_１，…，Ｓ１３３１_Ｎ））、導関数ｆ’（Ｘ）の計算結果のシェアを求めることができる。つまり、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘとなる活性化関数ｆ（Ｘ）であれば、活性化関数の計算も、導関数の計算も、既存の秘密計算を容易に利用できる。

誤差計算部１２０_１，…，１２０_Ｎは、誤差のシェア［Ｅ］_ｎを、

のように秘密計算で求め、Ｅとεの大小判定結果のシェアである［Ｅ＜ε］_ｎを秘密計算で求める（Ｓ１２０（Ｓ１２０_１，…，Ｓ１２０_Ｎ））。

管理装置２００又はＮ台のシェア計算装置１００_１，…，１００_Ｎのいずれかが、Ｋ台以上のシェア計算装置からＥとεの大小判定結果のシェア［Ｅ＜ε］_ｎを受信し、Ｅとεの大小判定結果を示すデータを復元する終了条件確認部２３０も備える。図３の処理フローでは、管理装置２００が終了条件確認部２３０を備えた例を示している。この図では、管理装置２００がＫ台以上のシェア計算装置からＥとεの大小判定結果のシェア［Ｅ＜ε］_ｎを受信し、Ｅとεの大小判定結果を示すデータを復元する。そして、Ｅ＜εか（誤差が所定の範囲内か）を確認する。Ｙｅｓの場合にはステップＳ１４２_１，…，Ｓ１４２_Ｎに進み、Ｎｏの場合にはステップＳ１３０（Ｓ１３０_１，…，Ｓ１３０_Ｎ）に進む。

逆誤差伝播部１３０_１，…，１３０_Ｎは、Ｅ＜εでない場合（ステップＳ２３０がＮｏの場合）には、１≦ｍ_Ｄ≦Ｍ_Ｄのすべてのｍ_Ｄについて［ＴＥＭＰ（ｍ_Ｄ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}−Ｔ（ｍ_Ｄ）^（ｓ）］_ｎとする。逆誤差伝播部１３０_１，…，１３０_Ｎは、ｄ＝Ｄ−１からｄ＝１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について、［δ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ＝［ＴＥＭＰ（ｍ_ｄ＋１）ｆ’（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎを求める。ただし、

である。逆誤差伝播部１３０_１，…，１３０_Ｎは、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄについて

とする。そして、逆誤差伝播部１３０_１，…，１３０_Ｎは、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄ＋１、ｍ_ｄついて
［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ←［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Ｈ（ｍ_ｄ）^{（ｄ，ｓ）}Δｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ
のように重みのシェア［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎを更新し、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１ついて
［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ←［θ（ｍ_ｄ＋１）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Δθ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ
のように閾値のシェア［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎを更新する（Ｓ１３０（Ｓ１３０_１，…，Ｓ１３０_Ｎ））。

ここで、ステップＳ１３０_ｎについて、図５を参照しながら詳細に説明する。逆誤差伝播部１３０_ｎは、１≦ｍ_Ｄ≦Ｍ_Ｄのすべてのｍ_Ｄについて［ＴＥＭＰ（ｍ_Ｄ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}−Ｔ（ｍ_Ｄ）^（ｓ）］_ｎとし、ｄにＤ−１を代入する（Ｓ１３１_ｎ）。逆誤差伝播部１３０_ｎは、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について、［Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎを秘密計算で求める（Ｓ１３２_ｎ）。逆誤差伝播部１３０_ｎは、［δ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ＝［ＴＥＭＰ（ｍ_ｄ＋１）ｆ’（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎを秘密計算で求める（Ｓ１３３_ｎ）。なお、活性化関数の導関数ｆ’（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）の計算は、図７を参照して説明したように、Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}と“０”との大小判定を秘密計算で行い、大小評価の結果（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}＞０）のシェア［Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}＞０］_ｎを求めればよい（Ｓ１３３１（Ｓ１３３１_１，…，Ｓ１３３１_Ｎ））。

逆誤差伝播部１３０_ｎは、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄについて、秘密計算で

を実行する（Ｓ１３４_ｎ）。そして、逆誤差伝播部１３０_ｎは、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄ＋１、ｍ_ｄついて
［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ←［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Ｈ（ｍ_ｄ）^{（ｄ，ｓ）}Δｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ
のように重みのシェア［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎを更新し、１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１ついて
［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ←［θ（ｍ_ｄ＋１）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Δθ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ
のように閾値のシェア［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎを更新する（Ｓ１３５_ｎ）。逆誤差伝播部１３０_ｎは、ｄにｄ−１を代入する（Ｓ１３６_ｎ）。逆誤差伝播部１３０_ｎは、ｄが０より大きいかを確認し（Ｓ１３７_ｎ）、Ｙｅｓの場合にはステップＳ１３２_ｎに戻り、Ｎｏの場合には逆誤差伝播Ｓ１３０_ｎを終了する。

シェア計算装置１００_１，…，１００_Ｎの学習制御部１４０_１，…，１４０_Ｎは、すべての教師データの処理が終了したかを確認し（Ｓ１４２（Ｓ１４２_１，…，Ｓ１４２_Ｎ））、Ｎｏの場合にはステップＳ１４１（Ｓ１４１_１，…，Ｓ１４１_Ｎ）に戻り、Ｙｅｓの場合には学習を終了する。つまり、学習制御部１４０_１，…，１４０_Ｎは、ステップＳ１４１（Ｓ１４１_１，…，Ｓ１４１_Ｎ）とステップＳ１４２（Ｓ１４２_１，…，Ｓ１４２_Ｎ）によって、前方伝播部１１０_１，…，１１０_Ｎ、誤差計算部１２０_１，…，１２０_Ｎ、逆誤差伝播部１３０_１，…，１３０_Ｎに、それぞれの処理を１≦ｓ≦Ｓのすべてのｓに対して実行させる。これらの処理によって、シェア計算装置１００_１，…，１００_Ｎは、学習後（更新後）の［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎをシェア計算記録部１９０_１，…，１９０_Ｎに記録した状態となる。

図８に、学習済のシェア計算装置１００_１，…，１００_Ｎを用いた予言フェーズの処理フローを示す。ユーザの端末３００は、シェアの生成とデータの復元ができ、予言指示部３２０を備えている。端末３００は、入力データＩのシェア［Ｉ］_１，…，［Ｉ］_Ｎを求め、シェア計算装置１００_１，…，１００_Ｎに予言を開始する指示を出す（Ｓ３２０）。シェア計算装置１００_１，…，１００_Ｎは、学習後（更新後）の［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎを用いて、図４に示した処理にしたがって、出力のシェア［Ｏ］_ｎ＝｛［Ｏ（１）］_ｎ，…，［Ｏ（Ｍ_Ｄ）］_ｎ｝）を求め（Ｓ１１０（Ｓ１１０_１，…，Ｓ１１０_Ｎ））、端末３００に送信する。端末３００は、出力のシェアから出力Ｏを復元する（Ｓ３３０）。なお、図８では端末３００が入力のシェア生成、予言の指示、出力の復元を行ったが、管理装置２００が行ってもよい。この場合は、管理装置２００は、予言指示部３２０を備える。

この活性化関数ｆ（Ｘ）とその導関数ｆ’（Ｘ）を用いれば、シェアの生成とシェアの復元ができる管理装置と、シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定ができるシェア計算装置によって、学習データだけでなく、学習した結果として得られる重みのデータも秘密化できる。また、上述したように、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘとなる活性化関数の場合、既存のシェアの大小判定とシェアの乗算を用いて、簡単に活性化関数の秘密計算、活性化関数の導関数の秘密計算を行える。

［プログラム、記録媒体］
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００_ｎシェア計算装置１１０_ｎ前方伝播部
１２０_ｎ誤差計算部１３０_ｎ逆誤差伝播部
１４０_ｎ学習制御部１９０_ｎシェア計算記録部
２００管理装置２１０初期設定部
２２０学習指示部２３０終了条件確認部
２９０管理記録部３００端末
３２０予言指示部９００ネットワーク

Claims

管理装置とＮ台のシェア計算装置で構成されたニューラルネットワークシステムであって、
Ｋを２以上の整数、Ｎを２Ｋ−１以上の整数、ｎを１以上Ｎ以下の整数、Ｄをニューラルネットワークの層数（ただし、１層目が入力層、Ｄ層目が出力層）、ｄを１以上Ｄ以下の整数、Ｍ_ｄをｄ層目のノード数、ｍ_ｄを１以上Ｍ_ｄ以下の整数、Ｓを入力と教師データのセット数、ｓを１以上Ｓ以下の整数、Ｉ^（ｓ）＝｛Ｉ（１）^（ｓ），…，Ｉ（Ｍ_１）^（ｓ）｝をｓ番目の入力、Ｔ^（ｓ）＝｛Ｔ（１）^（ｓ），…，Ｔ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する教師データ、Ｏ^（ｓ）＝｛Ｏ（１）^（ｓ），…，Ｏ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する出力、Ｈ^{（ｄ，ｓ）}＝｛Ｈ（１）^{（ｄ，ｓ）}，…，Ｈ（Ｍ_ｄ）^{（ｄ，ｓ）}｝をｓ番目の入力に対するｄ番目の隠れ層の値（ただし、Ｉ^（ｓ）＝Ｈ^{（１，ｓ）}、Ｏ^（ｓ）＝Ｈ^{（Ｄ，ｓ）}）、ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｄ層目のｍ_ｄ番目のノードとｄ−１層目のｍ_ｄ−１番目のノードの間の重み、θ（ｍ_ｄ）^（ｄ）をｄ層目のｍ_ｄ番目のノードの閾値、Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）の学習率、Δθ（ｍ_ｄ）^（ｄ）をθ（ｍ_ｄ）^（ｄ）の学習率、［］_ｎをｎ番目のシェア計算装置が記録するシェアを示す記号、［Ｗ^（ｄ）］_ｎを［ｗ（１，１）^（ｄ）］_ｎ，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［ｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［Θ^（ｄ）］_ｎを［θ（１）^（ｄ）］_ｎ，…，［θ（Ｍ_ｄ）^（ｄ）］_ｎの集合、［ΔＷ^（ｄ）］_ｎを［Δｗ（１，１）^（ｄ）］_ｎ，…，［Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［Δｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［ΔΘ^（ｄ）］_ｎを［Δθ（１）^（ｄ）］_ｎ，…，［Δθ（Ｍ_ｄ）^（ｄ）］_ｎの集合、εをあらかじめ定めた誤差の閾値、ｆ（）を活性化関数、ｆ’（）を前記活性化関数の導関数とし、
前記管理装置は、データからＮ個のシェアを求めること、Ｋ個のシェアからデータを復元することができ、
あらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εと、Ｓ個の入力と教師データのセット（Ｉ^（１），Ｔ^（１）），…，（Ｉ^（Ｓ），Ｔ^（Ｓ））を記録する管理記録部と、
１≦ｎ≦Ｎのすべてのｎについて［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎをｎ番目のシェア計算装置に送信する初期設定部と、
１≦ｎ≦Ｎのすべてのｎについて（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）をｎ番目のシェア計算装置に送信し、Ｎ個のシェア計算装置に学習開始を指示する学習指示部と、
を備え、
ｎ番目のシェア計算装置は、シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定を、他の前記シェア計算装置と共に行うことができ、
［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎと（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）と、前記のあらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εを記録するシェア計算記録部と、
１≦ｍ_１≦Ｍ_１のすべてのｍ_１について［Ｈ（ｍ_１）^{（１，ｓ）}］_ｎ＝［Ｉ（ｍ_１）^（ｓ）］_ｎとし、
ｄ＝１からｄ＝Ｄ−１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について
［Ｈ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎ＝［ｆ（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎ
ただし、

を求め、
［Ｏ（ｍ_Ｄ）^（ｓ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}］_ｎ
とすることで、出力のシェア［Ｏ^（ｓ）］_ｎ＝｛［Ｏ（１）^（ｓ）］_ｎ，…，［Ｏ（Ｍ_Ｄ）^（ｓ）］_ｎ｝）を求める前方伝播部と、
誤差のシェア［Ｅ］_ｎを、

のように求め、
Ｅとεの大小判定結果のシェアである［Ｅ＜ε］_ｎを求める誤差計算部と、
Ｅ＜εでない場合には、
１≦ｍ_Ｄ≦Ｍ_Ｄのすべてのｍ_Ｄについて［ＴＥＭＰ（ｍ_Ｄ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}−Ｔ（ｍ_Ｄ）^（ｓ）］_ｎとし、
ｄ＝Ｄ−１からｄ＝１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について
［δ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ＝［ＴＥＭＰ（ｍ_ｄ＋１）ｆ’（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎ
ただし、

を求め、
１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄについて

とし、
１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄ＋１、ｍ_ｄついて
［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ←［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Ｈ（ｍ_ｄ）^{（ｄ，ｓ）}Δｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ
のように重みのシェア［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎを更新し、
１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１ついて
［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ←［θ（ｍ_ｄ＋１）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Δθ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ
のように閾値のシェア［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎを更新する逆誤差伝播部と、
前記前方伝播部、前記誤差計算部、前記逆誤差伝播部に、それぞれの処理を１≦ｓ≦Ｓのすべてのｓに対して実行させる学習制御部と、
を備え、
前記管理装置又はＮ台の前記シェア計算装置のいずれかが、Ｋ台以上の前記シェア計算装置からＥとεの大小判定結果のシェアを受信し、Ｅとεの大小判定結果を示すデータを復元する終了条件確認部も備え、
前記活性化関数ｆ（Ｘ）は、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘである
ことを特徴とするニューラルネットワークシステム。
請求項１記載のニューラルネットワークシステムであって、
前記初期設定部は、
２≦ｄ≦Ｄ、１≦ｍ_ｄ≦Ｍ_ｄ、１≦ｍ_ｄ−１≦Ｍ_ｄ−１のすべてのｄ、ｍ_ｄ、ｍ_ｄ−１ついてのｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）を所定の体上からランダムに選択し、１≦ｄ≦Ｄ、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｄ、ｍ_ｄついてのθ（ｍ_ｄ）^（ｄ）を前記所定の体上からランダムに選択し、選択したすべてのｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）とθ（ｍ_ｄ）^（ｄ）について［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_１，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_Ｎと［θ（ｍ_ｄ）^（ｄ）］_１，…，［θ（ｍ_ｄ）^（ｄ）］_Ｎを求めることで、１≦ｎ≦Ｎのすべてのｎについて［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎを取得し、
前記学習指示部は、
１≦ｓ≦Ｓのすべての（Ｉ^（ｓ），Ｔ^（ｓ））について（［Ｉ^（ｓ）］_１，［Ｔ^（ｓ）］_１），…，（［Ｉ^（ｓ）］_Ｎ，［Ｔ^（ｓ）］_Ｎ）を求めることで、１≦ｎ≦Ｎのすべてのｎについて（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）を取得する
ことを特徴とするニューラルネットワークシステム。
管理装置とＮ台のシェア計算装置で構成されたニューラルネットワークシステムのｎ番目のシェア計算装置であって、
Ｋを２以上の整数、Ｎを２Ｋ−１以上の整数、ｎを１以上Ｎ以下の整数、Ｄをニューラルネットワークの層数（ただし、１層目が入力層、Ｄ層目が出力層）、ｄを１以上Ｄ以下の整数、Ｍ_ｄをｄ層目のノード数、ｍ_ｄを１以上Ｍ_ｄ以下の整数、Ｓを入力と教師データのセット数、ｓを１以上Ｓ以下の整数、Ｉ^（ｓ）＝｛Ｉ（１）^（ｓ），…，Ｉ（Ｍ_１）^（ｓ）｝をｓ番目の入力、Ｔ^（ｓ）＝｛Ｔ（１）^（ｓ），…，Ｔ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する教師データ、Ｏ^（ｓ）＝｛Ｏ（１）^（ｓ），…，Ｏ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する出力、Ｈ^{（ｄ，ｓ）}＝｛Ｈ（１）^{（ｄ，ｓ）}，…，Ｈ（Ｍ_ｄ）^{（ｄ，ｓ）}｝をｓ番目の入力に対するｄ番目の隠れ層の値（ただし、Ｉ^（ｓ）＝Ｈ^{（１，ｓ）}、Ｏ^（ｓ）＝Ｈ^{（Ｄ，ｓ）}）、ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｄ層目のｍ_ｄ番目のノードとｄ−１層目のｍ_ｄ−１番目のノードの間の重み、θ（ｍ_ｄ）^（ｄ）をｄ層目のｍ_ｄ番目のノードの閾値、Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）の学習率、Δθ（ｍ_ｄ）^（ｄ）をθ（ｍ_ｄ）^（ｄ）の学習率、［］_ｎをｎ番目のシェア計算装置が記録するシェアを示す記号、［Ｗ^（ｄ）］_ｎを［ｗ（１，１）^（ｄ）］_ｎ，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［ｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［Θ^（ｄ）］_ｎを［θ（１）^（ｄ）］_ｎ，…，［θ（Ｍ_ｄ）^（ｄ）］_ｎの集合、［ΔＷ^（ｄ）］_ｎを［Δｗ（１，１）^（ｄ）］_ｎ，…，［Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［Δｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［ΔΘ^（ｄ）］_ｎを［Δθ（１）^（ｄ）］_ｎ，…，［Δθ（Ｍ_ｄ）^（ｄ）］_ｎの集合、εをあらかじめ定めた誤差の閾値、ｆ（）を活性化関数、ｆ’（）を前記活性化関数の導関数とし、
当該シェア計算装置は、
シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定を、他の前記シェア計算装置と共に行うことができ、
あらかじめ前記管理装置から［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎと（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）を受信し、
［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎと（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）と、あらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εを記録するシェア計算記録部と、
１≦ｍ_１≦Ｍ_１のすべてのｍ_１について［Ｈ（ｍ_１）^{（１，ｓ）}］_ｎ＝［Ｉ（ｍ_１）^（ｓ）］_ｎとし、
ｄ＝１からｄ＝Ｄ−１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について
［Ｈ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎ＝［ｆ（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎ
ただし、

を求め、
［Ｏ（ｍ_Ｄ）^（ｓ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}］_ｎ
とすることで、出力のシェア［Ｏ^（ｓ）］_ｎ＝｛［Ｏ（１）^（ｓ）］_ｎ，…，［Ｏ（Ｍ_Ｄ）^（ｓ）］_ｎ｝）を求める前方伝播部と、
誤差のシェア［Ｅ］_ｎを、

のように求め、
Ｅとεの大小判定結果のシェアである［Ｅ＜ε］_ｎを求める誤差計算部と、
Ｅ＜εでない場合には、
１≦ｍ_Ｄ≦Ｍ_Ｄのすべてのｍ_Ｄについて［ＴＥＭＰ（ｍ_Ｄ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}−Ｔ（ｍ_Ｄ）^（ｓ）］_ｎとし、
ｄ＝Ｄ−１からｄ＝１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について
［δ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ＝［ＴＥＭＰ（ｍ_ｄ＋１）ｆ’（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎ
ただし、

を求め、
１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄについて

とし、
１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄ＋１、ｍ_ｄついて
［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ←［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Ｈ（ｍ_ｄ）^{（ｄ，ｓ）}Δｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ
のように重みのシェア［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎを更新し、
１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１ついて
［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ←［θ（ｍ_ｄ＋１）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Δθ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ
のように閾値のシェア［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎを更新する逆誤差伝播部と、
前記前方伝播部、前記誤差計算部、前記逆誤差伝播部に、それぞれの処理を１≦ｓ≦Ｓのすべてのｓに対して実行させる学習制御部と、
を備え、
前記活性化関数ｆ（Ｘ）は、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘである
ことを特徴とするシェア計算装置。
管理装置とＮ台のシェア計算装置で構成されたニューラルネットワークシステムの学習方法であって、
Ｋを２以上の整数、Ｎを２Ｋ−１以上の整数、ｎを１以上Ｎ以下の整数、Ｄをニューラルネットワークの層数（ただし、１層目が入力層、Ｄ層目が出力層）、ｄを１以上Ｄ以下の整数、Ｍ_ｄをｄ層目のノード数、ｍ_ｄを１以上Ｍ_ｄ以下の整数、Ｓを入力と教師データのセット数、ｓを１以上Ｓ以下の整数、Ｉ^（ｓ）＝｛Ｉ（１）^（ｓ），…，Ｉ（Ｍ_１）^（ｓ）｝をｓ番目の入力、Ｔ^（ｓ）＝｛Ｔ（１）^（ｓ），…，Ｔ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する教師データ、Ｏ^（ｓ）＝｛Ｏ（１）^（ｓ），…，Ｏ（Ｍ_Ｄ）^（ｓ）｝をｓ番目の入力に対する出力、Ｈ^{（ｄ，ｓ）}＝｛Ｈ（１）^{（ｄ，ｓ）}，…，Ｈ（Ｍ_ｄ）^{（ｄ，ｓ）}｝をｓ番目の入力に対するｄ番目の隠れ層の値（ただし、Ｉ^（ｓ）＝Ｈ^{（１，ｓ）}、Ｏ^（ｓ）＝Ｈ^{（Ｄ，ｓ）}）、ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｄ層目のｍ_ｄ番目のノードとｄ−１層目のｍ_ｄ−１番目のノードの間の重み、θ（ｍ_ｄ）^（ｄ）をｄ層目のｍ_ｄ番目のノードの閾値、Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）をｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）の学習率、Δθ（ｍ_ｄ）^（ｄ）をθ（ｍ_ｄ）^（ｄ）の学習率、［］_ｎをｎ番目のシェア計算装置が記録するシェアを示す記号、［Ｗ^（ｄ）］_ｎを［ｗ（１，１）^（ｄ）］_ｎ，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［ｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［Θ^（ｄ）］_ｎを［θ（１）^（ｄ）］_ｎ，…，［θ（Ｍ_ｄ）^（ｄ）］_ｎの集合、［ΔＷ^（ｄ）］_ｎを［Δｗ（１，１）^（ｄ）］_ｎ，…，［Δｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_ｎ，…，［Δｗ（Ｍ_ｄ，Ｍ_ｄ−１）^（ｄ）］_ｎの集合、［ΔΘ^（ｄ）］_ｎを［Δθ（１）^（ｄ）］_ｎ，…，［Δθ（Ｍ_ｄ）^（ｄ）］_ｎの集合、εをあらかじめ定めた誤差の閾値、ｆ（）を活性化関数、ｆ’（）を前記活性化関数の導関数とし、
前記管理装置は、データからＮ個のシェアを求めること、Ｋ個のシェアからデータを復元することができ、
あらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εと、Ｓ個の入力と教師データのセット（Ｉ^（１），Ｔ^（１）），…，（Ｉ^（Ｓ），Ｔ^（Ｓ））を記録する管理記録部を備え、
前記管理装置が、
１≦ｎ≦Ｎのすべてのｎについて［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎをｎ番目のシェア計算装置に送信する初期設定ステップと、
１≦ｎ≦Ｎのすべてのｎについて（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）をｎ番目のシェア計算装置に送信し、Ｎ個のシェア計算装置に学習開始を指示する学習指示ステップと、
を実行し、
ｎ番目のシェア計算装置は、シェアの加算、シェアの乗算、シェアの定数倍、シェアの大小判定を、他の前記シェア計算装置と共に行うことができ、
［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎと（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）と、前記のあらかじめ定めたΔＷ^（１），…，ΔＷ^（Ｄ）、ΔΘ^（１），…，ΔΘ^（Ｄ）、εを記録するシェア計算記録部を備え、
Ｎ台のシェア計算装置が、
１≦ｍ_１≦Ｍ_１のすべてのｍ_１について［Ｈ（ｍ_１）^{（１，ｓ）}］_ｎ＝［Ｉ（ｍ_１）^（ｓ）］_ｎとし、
ｄ＝１からｄ＝Ｄ−１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について
［Ｈ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}］_ｎ＝［ｆ（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎ
ただし、

を求め、
［Ｏ（ｍ_Ｄ）^（ｓ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}］_ｎ
とすることで、出力のシェア［Ｏ^（ｓ）］_ｎ＝｛［Ｏ（１）^（ｓ）］_ｎ，…，［Ｏ（Ｍ_Ｄ）^（ｓ）］_ｎ｝）を求める前方伝播ステップと、
誤差のシェア［Ｅ］_ｎを、

のように求め、
Ｅとεの大小判定結果のシェアである［Ｅ＜ε］_ｎを求める誤差計算ステップと、
を実行し、
前記管理装置又はＮ台の前記シェア計算装置のいずれかが、Ｋ台以上の前記シェア計算装置からＥとεの大小判定結果のシェアを受信し、Ｅとεの大小判定結果を示すデータを復元する終了条件確認ステップを実行し、
Ｎ台の前記シェア計算装置が、
Ｅ＜εでない場合には、
１≦ｍ_Ｄ≦Ｍ_Ｄのすべてのｍ_Ｄについて［ＴＥＭＰ（ｍ_Ｄ）］_ｎ＝［Ｈ（ｍ_Ｄ）^{（Ｄ，ｓ）}−Ｔ（ｍ_Ｄ）^（ｓ）］_ｎとし、
ｄ＝Ｄ−１からｄ＝１まで順番に１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１について
［δ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ＝［ＴＥＭＰ（ｍ_ｄ＋１）ｆ’（Ｘ（ｍ_ｄ＋１）^{（ｄ＋１，ｓ）}）］_ｎ
ただし、

を求め、
１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄについて

とし、
１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｍ_ｄ＋１、ｍ_ｄついて
［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ←［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Ｈ（ｍ_ｄ）^{（ｄ，ｓ）}Δｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎ
のように重みのシェア［ｗ（ｍ_ｄ＋１，ｍ_ｄ）^{（ｄ＋１）}］_ｎを更新し、
１≦ｍ_ｄ＋１≦Ｍ_ｄ＋１のすべてのｍ_ｄ＋１ついて
［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ←［θ（ｍ_ｄ＋１）^{（ｄ＋１）}
−δ（ｍ_ｄ＋１）^{（ｄ＋１）}Δθ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎ
のように閾値のシェア［θ（ｍ_ｄ＋１）^{（ｄ＋１）}］_ｎを更新する逆誤差伝播ステップを実行し、
Ｎ台の前記シェア計算装置は、前記前方伝播ステップ、前記誤差計算ステップ、前記逆誤差伝播ステップにおいて、それぞれの処理を１≦ｓ≦Ｓのすべてのｓに対して実行し、
前記活性化関数ｆ（Ｘ）は、Ｘ≦０のときはｆ（Ｘ）＝０、Ｘ＞０のときはｆ（Ｘ）＝Ｘである
ことを特徴とするニューラルネットワークの学習方法。
請求項４記載のニューラルネットワークの学習方法であって、
前記初期設定ステップでは、
２≦ｄ≦Ｄ、１≦ｍ_ｄ≦Ｍ_ｄ、１≦ｍ_ｄ−１≦Ｍ_ｄ−１のすべてのｄ、ｍ_ｄ、ｍ_ｄ−１ついてのｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）を所定の体上からランダムに選択し、１≦ｄ≦Ｄ、１≦ｍ_ｄ≦Ｍ_ｄのすべてのｄ、ｍ_ｄついてのθ（ｍ_ｄ）^（ｄ）を前記所定の体上からランダムに選択し、選択したすべてのｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）とθ（ｍ_ｄ）^（ｄ）について［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_１，…，［ｗ（ｍ_ｄ，ｍ_ｄ−１）^（ｄ）］_Ｎと［θ（ｍ_ｄ）^（ｄ）］_１，…，［θ（ｍ_ｄ）^（ｄ）］_Ｎを求めることで、１≦ｎ≦Ｎのすべてのｎについて［Ｗ^（１）］_ｎ，…，［Ｗ^（Ｄ）］_ｎと［Θ^（１）］_ｎ，…，［Θ^（Ｄ）］_ｎを取得し、
前記学習指示ステップでは、
１≦ｓ≦Ｓのすべての（Ｉ^（ｓ），Ｔ^（ｓ））について（［Ｉ^（ｓ）］_１，［Ｔ^（ｓ）］_１），…，（［Ｉ^（ｓ）］_Ｎ，［Ｔ^（ｓ）］_Ｎ）を求めることで、１≦ｎ≦Ｎのすべてのｎについて（［Ｉ^（１）］_ｎ，［Ｔ^（１）］_ｎ），…，（［Ｉ^（Ｓ）］_ｎ，［Ｔ^（Ｓ）］_ｎ）を取得する
ことを特徴とするニューラルネットワークの学習方法。
請求項３記載のシェア計算装置としてコンピュータを機能させるためのプログラム。