JP2021068136A

JP2021068136A - 計算機システム、学習方法、及びプログラム

Info

Publication number: JP2021068136A
Application number: JP2019192475A
Authority: JP
Inventors: 雄一郎青木; Yuichiro Aoki; 雄樹近藤; Takeki Kondo; 能毅黒川; Yoshiki Kurokawa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2021-04-30
Also published as: US20210125103A1

Abstract

【課題】実用的な学習処理の時間で、高い推論精度のモデルを生成する。【解決手段】ネガティブサンプリング法を用いてモデルを生成するための学習処理を実行する計算機システムは、複数の演算コアを有する計算機と、学習部と、を備え、学習部は、正例演算を実行する演算コア及び負例演算を実行する演算コアの性能特性を示す性能情報を取得し、性能情報に基づいて、負例演算における負例の数の最大値を算出し、最大値に基づいて負例の数を決定し、所定の数の正例となる学習データを用いた正例演算を少なくとも一つの演算コアに実行させ、決定された負例の数の、ランダムに選択された学習データを用いた負例演算を少なくとも一つの演算コアに実行させることによってモデルを生成する。【選択図】図１

Description

本発明は、ニューラルネットワーク等のモデルを生成するための学習処理に関する。

近年、ニューラルネットワークを利用した機械学習が広く利用されている。中でも多クラス分類問題は、手書き数字認識、顔画像識別、及び自然言語処理等によく用いられている。多クラス分類問題とは、入力データを複数のクラスのいずれかに分類する問題である。例えば、手書き数字認識では、０から９までの１０種類の手書きの数字を正しい数字に分類する。

ニューラルネットワークを用いてこれを高速に分類するために用いられるのが、ネガティブサンプリング法（負例サンプリング法）である。ネガティブサンプリング法は、正解確率Ｐ（ｘ_ｔ）を式（１）、（２）で算出する。ここでｘ_ｔは入力データ、Ｖ_ｎｇは入力データｘ_ｔと異なるデータの集合、ｘ_ｎｇは集合Ｖ_ｎｇの要素、σ（ｘ）はシグモイド関数である。

この方法は、正解確率に占める入力データｘ_ｔの寄与σ（ｘ_ｔ）と、入力データｘ_ｔ以外のデータであるｘ_ｎｇの寄与１−σ（ｘ_ｎｇ）との積をとることで、正解確率Ｐ（ｘ_ｔ）を表そうというものである。ここで、ｘ_ｔを正例（ｐｏｓｉｔｉｖｅｓａｍｐｌｅ）、ｘ_ｎｇを負例（ｎｅｇａｔｉｖｅｓａｍｐｌｅ）と呼ぶ。

データ数が非常に多い場合（例えば、１０^５個から１０^７個の範囲）であっても、負例の数は少数でよいことが経験的に知られている。例えば、非特許文献１では、負例数は数個から数十個の範囲でよいとされている。また負例は、正例以外の入力データからランダムに選べばよい。

さらに高速化を行うために、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等を用いたネガティブサンプリングの並列処理も提案されている。ｗｏｒｄ２ｖｅｃのようなネガティブサンプリング法を利用した自然言語処理の場合、非特許文献２のような並列処理方法（ＨｏｇＷｉｌｄ並列処理）が提案されている。

ＨｏｇＷｉｌｄ並列処理は、下記のようなループネストを、同期をとらずに１行目のループを並列実行する手法である。同期処理がないため、高速に実行できるというメリットがある。

01: for (int d=0; d<M; d++) {
02: L=…;
03: for (int i=0; i<N; i++) { b[i] += a[i+L]; }
04: for (int i=0; i<N; i++) { a[i+L] += ...; }
05: }

Mikolov, Tomas, et al., "Distributed representations of words and phrases and their compositionality," In the Proceedings of the Advances in Neural Information Processing Systems, 2013 Recht, Benjamin, et al., "Hogwild: A lock-free approach to parallelizing stochastic gradient descent," In the Proceedings of the Advances in Neural Information Processing Systems, 2011 Gupta, Saurabh, and Vineet Khare, "Blazingtext: Scaling and accelerating word2vec using multiple gpus," Proceedings of the Machine Learning on HPC Environments, 2017 Tomasz S. Czajkowski, David Neto, Michael Kinsner, Utku Aydonat, Jason Wong, Dmitry Denisenko, Peter Yiannacouras, John Freeman, Deshanand P. Singh and Stephen D. Brown, "OpenCL for FPGAs: Prototyping a Compiler," Proceedings of the International Conference on Engineering of Reconfigurable Systems and Algorithms, 2012 千種菊里, GPUをフル活用する、Snow Leopardの「OpenCL」, https://ascii.jp/elem/000/000/456/456973/index-2.html, 2009, ［２０１９年６月７日検索］ Intel, Intel SDK for OpenCL Applications, https://software.intel.com/en-us/opencl-sdk, ［２０１９年６月７日検索］笠原博徳, 並列処理技術, コロナ社, 1991

しかし、非特許文献３によれば、ＨｏｇＷｉｌｄ並列処理では変数の依存関係（上記例では、２行目の配列要素ａ［ｉ＋Ｌ］からの読み込みと、３行目の配列要素ａ［ｉ＋Ｌ］への読み込みとの関係）を無視した並列化が行われる。そのため、上記例で説明すれば、１行目のループ制御変数ｄの異なった値に対して、２行目の変数Ｌが同じ値になる場合（正例の演算処理の実行時に相当する）、３、４行目のループでメモリからの読み込み（３行目のａ［ｉ＋Ｌ］）とメモリへの書き込み（４行目のａ［ｉ＋Ｌ］）との実行順序が逆転する現象が発生し、３行目のａ［ｉ＋Ｌ］が４行目のａ［ｉ＋Ｌ］の値の更新前の値を使ってしまう可能性がある。その結果、生成されたモデルの推論結果の精度が低下する恐れがあることが指摘されている。なお、負例の演算処理の実行時にはＬの値がランダムに決まるため、このような現象はほとんど生じないことがわかっている。

上記のような事態を避けるため、正例の演算は逐次処理で行い、一方、負例の演算は並列処理で行い、また、並列処理をＧＰＵ及びＦＰＧＡ等を搭載したアクセラレータにオフロードする処理方法が考えられる。

このとき、負例の数は数個から数十個であればよいという経験則はあるが、負例数を一意に決める方法は知られていない。

非特許文献１に記載されているように、負例の数と推論精度との間には正の相関があることから、非常に多くの負例を用いれば推論精度は向上する。しかし、負例の数が多くなると演算処理の実行時間の増大するため（式（１）において、Ｖ_ｎｇの要素数が増えることに相当する）、学習処理そのものの実行時間も増大する。

そのため、従来は、負例の数を試行錯誤で何度も調整して複数のモデルを生成し、要求される処理時間の範囲内で、推論精度が最大となる負例の数を見つけるしかなかった。モデルの生成を何度も繰り返すことから、やはり計算に大きな時間がかかってしまう。

本発明は、ネガティブサンプリング法を用いたニューラルネットワークの学習において、学習処理の時間を実用的な範囲に抑え、かつ、高い推論精度のモデルを生成するための負例の数を一意に決定するシステム及び方法を提供する。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、ネガティブサンプリング法を用いて、事象の予測を行うモデルを生成するための学習処理を実行する計算機システムであって、複数の演算コア及び記憶装置を有する少なくとも一つの計算機と、複数の学習データを用いて前記学習処理を実行する学習部と、を備え、前記学習部は、正例演算を実行する前記演算コア及び負例演算を実行する前記演算コアの性能特性を示す性能情報を取得し、前記性能情報に基づいて、前記負例演算における前記負例の数の最大値を算出し、前記最大値に基づいて前記負例の数を決定し、所定の数の正例となる前記学習データを用いた正例演算を少なくとも一つの前記演算コアに実行させ、前記決定された負例の数の、ランダムに選択された前記学習データを用いた前記負例演算を少なくとも一つの前記演算コアに実行させることによって前記モデルを生成する。

本発明によれば、ネガティブサンプリング法を利用するニューラルネットワークの計算方法において、学習処理の時間を実用的な範囲に抑え、かつ、高い推論精度のモデルを生成するための負例数を一意に決定できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１の計算機システムの構成の一例を示す図である。実施例１のアクセラレータのハードウェア構成の一例を示す図である。実施例１の計算機システムによって生成されるニューラルネットワークの構造の一例を示す図である。実施例１の計算機が実行する学習処理の一例を説明するフローチャートである。実施例１のニューラルネットワーク学習部が実行する負例数算出処理の一例を説明するフローチャートである。実施例１のコンフィギュレーションファイルの一例を示す図である。実施例１のニューラルネットワーク学習部が実行する配列初期化処理の一例を説明するフローチャートである。実施例１のニューラルネットワーク学習部が実行するＣＰＵ送信処理の一例を説明するフローチャートである。実施例１のニューラルネットワーク学習部が実行するスレッド生成処理の一例を説明するフローチャートである。実施例１のニューラルネットワーク学習部が実行するコンパイル処理を説明する図である。実施例１のニューラルネットワーク学習部が実行するコンパイル処理を説明する図である。実施例１のＣＰＵが実行する正例の演算処理の一例を説明するフローチャートである。実施例１のアクセラレータが実行するアクセラレータ処理の一例を説明するフローチャートである。実施例１のアクセラレータが実行するアクセラレータ受信処理の一例を説明するフローチャートである。実施例１のアクセラレータが実行する負例の演算処理の一例を説明するフローチャートである。実施例１のアクセラレータが実行する負例本体処理の一例を説明するフローチャートである。実施例１のアクセラレータが実行するアクセラレータ送信処理の一例を説明するフローチャートである。実施例１のニューラルネットワーク学習部が実行するＣＰＵ受信処理の一例を説明するフローチャートである。実施例１のニューラルネットワーク学習部が実行する配列加算処理の一例を説明するフローチャートである。実施例２のアクセラレータのハードウェア構成の一例を示す図である。実施例２のコンフィギュレーションファイルの一例を示す図である。実施例２のニューラルネットワーク学習部が実行するコンパイル処理を説明する図である。実施例１のアクセラレータが実行する負例の演算処理の一例を説明するフローチャートである。実施例２のアクセラレータが実行するパイプライン処理の一例を説明するフローチャートである。実施例３のコンフィギュレーションファイルの一例を示す図である。実施例３のニューラルネットワーク学習部が実行するコンパイル処理を説明する図である。

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

以下では、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）はＬｉｎｕｘ（Ｌｉｎｕｘは登録商標、以下同じ）、プログラム言語は、ＣＰＵ用プログラムはＣ言語を、ＧＰＵ用プログラム、ＦＰＧＡ用プログラム、及びマルチコアＣＰＵ用プログラムはＯｐｅｎＣＬ（ＯｐｅｎＣｏｍｐｕｔｉｎｇＬａｎｇｕａｇｅ）（ＯｐｅｎＣＬは登録商標、以下同じ）を用いる。しかし、本発明の範囲はＯＳ及び記述言語に限定されず、Ｗｉｎｄｏｗｓ（Ｗｉｎｄｏｗｓは登録商標、以下同じ）等の他のＯＳ、またＯｐｅｎＣＬ以外のアクセラレータ用言語、ＶｅｒｉｌｏｇＨＤＬ及びＶＨＤＬ等のハードウェア記述言語等でも適用可能である。

図１は、実施例１の計算機システムの構成の一例を示す図である。

計算機システム１０は、少なくとも一つの計算機１００から構成される。計算機システム１０が複数の計算機１００から構成される場合、各計算機１００はＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）及びＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）等のネットワークを介して互いに接続される。なお、接続方式は、有線及び無線のいずれでもよい。

計算機１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、アクセラレータ１０２、主記憶装置１０３、及び副記憶装置１０４を備える。また、計算機１００には、入出力装置１０５が接続される。

ＣＰＵ１０１及びアクセラレータ１０２は、少なくとも一つの演算コアを有し、プログラムにしたがって演算処理を実行する演算装置である。ＣＰＵ１０１は、計算機１００全体を制御するための演算処理と、ニューラルネットワーク３００（図３を参照）を生成するための演算処理とを実行する。アクセラレータ１０２は、ＣＰＵ１０１と協働して、ニューラルネットワーク３００を生成するための演算処理を実行する。アクセラレータ１０２は、例えば、ＧＰＵ及びＦＰＧＡ等を搭載するボード、並びにマルチコアＣＰＵ等である。実施例１では、アクセラレータ１０２としてＧＰＵを搭載しているボードを想定する。

主記憶装置１０３は、プログラム及びプログラムが使用するデータを格納する記憶装置である。主記憶装置１０３は、プログラムが一時的に使用するワークエリアを確保するためにも用いられる。主記憶装置１０３は、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。主記憶装置１０３に格納されるプログラム及びデータについては後述する。

副記憶装置１０４は、記憶領域の容量が大きく、また、データを永続的に保存する記憶装置である。副記憶装置１０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。副記憶装置１０４に格納されるデータについては後述する。

入出力装置１０５は、計算機１００への情報の入力、及び計算機１００からの情報の主力を行うための装置である。入出力装置１０５は、例えば、キーボード、マウス、タッチパネル、及びディスプレイ等である。

ここで、主記憶装置１０３及び副記憶装置１０４に格納されるプログラム及びデータについて説明する。

副記憶装置１０４は、学習処理に用いる学習データ１４０を格納する。学習データ１４０は、入力データのみから構成されるデータでもよいし、入力データ及び教師データのペアから構成されるデータでもよい。

主記憶装置１０３は、ニューラルネットワーク学習部１１０を実現するプログラムを格納し、正例の演算処理を実現するプログラム（Ｃプログラム１３３）、負例の演算処理を実現するプログラム（ＯｐｅｎＣＬプログラム１３４）を格納し、また、コンフィギュレーションファイル１１１及びニューラルネットワーク情報１１２を格納する。また、主記憶装置１０３には、学習処理において使用される第１の一時配列１３０、第２の一時配列１３１、及び学習データ配列１３２が格納される。

なお、Ｃプログラム１３３及びＯｐｅｎＣＬプログラム１３４は、ニューラルネットワーク学習部１１０を実現するプログラムに含まれてもよい。また、ニューラルネットワーク学習部１１０を実現するプログラムは、学習処理において使用されるプログラムをコンパイルするためのコンパイラを含む。

ニューラルネットワーク学習部１１０は、ＣＰＵ１０１がプログラムを実行して実現される機能部（モジュール）である。ニューラルネットワーク学習部１１０は、ニューラルネットワーク３００を生成するための学習処理を実行する。

ニューラルネットワーク情報１１２は、学習処理によって生成されたニューラルネットワーク３００の情報を格納する。ニューラルネットワーク情報１１２には、階層間を接続するエッジの重みに関する情報である、第１の重み配列１２０及び第２の重み配列１２１が含まれる。

なお、主記憶装置１０３に格納されるプログラム及びデータは、副記憶装置１０４に格納されてもよい。この場合、ＣＰＵ１０１が主記憶装置１０３からプログラム及びデータを読み出し、主記憶装置１０３にロードする。

なお、計算機システム１０が複数の計算機１００から構成される場合、機能部及び情報は、複数の計算機１００に分散するように配置されてもよい。

以上が図１の説明である。

図２は、実施例１のアクセラレータ１０２のハードウェア構成の一例を示す図である。

実施例１のアクセラレータ１０２は、ＧＰＵ２００を搭載するボード（例えば、グラフィックボード）である。

アクセラレータ１０２は、ＧＰＵ２００、ＤＲＡＭ２０１、及び入出力インタフェース２０２を備える。ＧＰＵ２００はＤＲＡＭ２０１と接続し、また、ＤＲＡＭ２０１は、入出力インタフェース２０２と接続する。

アクセラレータ１０２は、入出力インタフェース２０２に接続される通信経路を介して、ＣＰＵ１０１等の外部装置と通信する。通信経路、例えば、ＰＣＩＥｘｐｒｅｓｓ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒＣｏｎｎｅｃｔＥｘｐｒｅｓｓ）（ＰＣＩＥｘｐｒｅｓｓは登録商標、以下同じ）である。

以上が図２の説明である。

図３は、実施例１の計算機システム１０によって生成されるニューラルネットワークの構造の一例を示す図である。

図３に示すニューラルネットワーク３００は、入力層３０１、隠れ層３０２、及び出力層３０３の三つの層から構成される。入力層３０１はＶ個の要素ｘ_ｉ（ｉは１からＶの範囲の整数）を含み、隠れ層３０２はＮ個の要素ｈ_ｊ（ｊは１からＮの範囲の整数）を含み、出力層３０３はＶ個の要素ｕ_ｋ（ｋは１からＶの範囲の整数）を含む。なお、各層の要素はノードと呼んでもよい。

図３では、入力層３０１及び隠れ層３０２の要素がエッジ３１１で全結合されている。このとき、入力層３０１の各要素ｘ_ｉと、隠れ層３０２の各要素ｈ_ｊとの間には式（３）に示すような関係がある。

ここでｖ_ｉ，ｊは、入力層３０１及び隠れ層３０２の結合の重みを与える第１の重み配列１２０の要素を表す。

同様に、隠れ層３０２及び出力層３０３の要素がエッジ３１２で全結合されている。このとき、隠れ層３０２の各要素ｈ_ｊと、出力層３０３の各要素ｕ_ｋとの間には式（４）に示すような関係がある。

ここでｖ’_ｋ，ｌは、隠れ層３０２及び出力層３０３の結合の重みを与える第２の重み配列１２１の要素を表す。

ここでは具体例として、文章に含まれる単語の共起を用いて単語のベクトル表現を学習するアルゴリズムであるｗｏｒｄ２ｖｅｃのニューラルネットワーク３００を取り上げている。ｗｏｒｄ２ｖｅｃでは、ニューラルネットワーク３００の出力層３０３から単語出現確率を算出する場合、ネガティブサンプリング法が用いられる。

なお、ｗｏｒｄ２ｖｅｃの場合、学習データ１４０は文章を示すデータであり、学習データ配列１３２は、学習データ１４０に出現する単語を出現順に配列要素に格納した配列である。また、入力層３０１の各要素ｘ_ｉは、単語ごとに一意なベクトルになるように定義されている。具体的には、一成分が１かつ他の成分が０となるベクトルを用いて単語が定義される。前述のようなベクトルをｏｎｅｈｏｔベクトルと呼ぶ。例えば、学習データ配列１３２が三つの要素（Ｔｈｅ，ｃａｔｓ，ｗａｌｋ）である場合、「Ｔｈｅ」のｏｎｅｈｏｔベクトルが（１，０，０）、「ｃａｔｓ」のｏｎｅｈｏｔベクトルが（０，１，０）、「ｗａｌｋ」のｏｎｅｈｏｔベクトルが（０，０，１）と定義される。このように、ｏｎｅｈｏｔベクトルは、０又は１を要素とし、単語を一意に表現するベクトルである。

なお、本発明は、図３に示すような構造以外のニューラルネットワークであってもよい。

以上が図３の説明である。

図４は、実施例１の計算機１００が実行する学習処理の一例を説明するフローチャートである。

計算機１００は、実行指示を受け付けた場合、以下で説明する処理を実行する。なお、処理の開始の契機は一例であってこれに限定されない。

まず、ニューラルネットワーク学習部１１０は、ネガティブサンプリング法における負例の数を決定するための負例数算出処理を実行する（ステップＳ１０００）。負例数算出処理の詳細は図５及び図６を用いて説明する。

次に、ニューラルネットワーク学習部１１０は、処理で用いる配列を初期化するための配列初期化処理を実行する（ステップＳ１１００）。配列初期化処理の詳細は図７を用いて説明する。

次に、ニューラルネットワーク学習部１１０は、アクセラレータ１０２に実行させる負例の演算処理（負例並列処理）の実行に必要な設定を行うためのＣＰＵ送信処理を実行する（ステップＳ１２００）。ＣＰＵ送信処理の詳細は図８を用いて説明する。

次に、ニューラルネットワーク学習部１１０は、正例の演算処理（正例逐次処理）及び負例の演算処理の各々のスレッドを生成するためのスレッド生成処理を実行する（ステップＳ１３００）。スレッド生成処理の詳細は図９を用いて説明する。なお、スレッド生成処理では、正例の演算処理に対応するスレッドには識別番号「０」が設定され、負例の演算処理に対応するスレッドには識別番号「１」が設定される。

次に、ニューラルネットワーク学習部１１０は、スレッドの識別番号に応じて、スレッドに対応する演算処理の実行をＣＰＵ１０１及びアクセラレータ１０２に指示し（ステップＳ１４００）、その後、ステップＳ１５００に進む。

具体的には、スレッドの識別番号が「０」である場合、ニューラルネットワーク学習部１１０は、ＣＰＵ１０１に正例の演算処理の実行を指示し、スレッドの識別番号が「１」である場合、アクセラレータ１０２に負例の演算処理の実行を指示する。アクセラレータ１０２への負例の演算処理の実行指示は、ＯｐｅｎＣＬ言語に実装されているアクセラレータ起動関数であるｃｌＥｎｑｕｅｕｅＴａｓｋ関数を用いて実現できる。

なお、実行指示を受け付けたＣＰＵ１０１が実行する処理については図１１を用いて説明する。実行指示を受け付けたアクセラレータ１０２が実行する処理については図１２から図１６を用いて説明する。

ステップＳ１５００では、ニューラルネットワーク学習部１１０は、スレッド待合せを行う（ステップＳ１５００）。ニューラルネットワーク学習部１１０は、二つのスレッドの終了を検知した後、ステップＳ１６００に進む。なお、スレッド待合せは、例えば、スレッド生成関数ｐｔｈｒｅａｄ＿ｊｏｉｎを用いることで実現できる。

ステップＳ１６００では、ニューラルネットワーク学習部１１０は、アクセラレータ１０２から負例の演算処理の結果を取得するためのＣＰＵ受信処理を実行する（ステップＳ１６００）。ＣＰＵ受信処理の詳細は図１７を用いて説明する。

次に、ニューラルネットワーク学習部１１０は、正例の演算処理及び負例の演算処理の結果に基づいて、重み配列を更新するための配列加算処理を実行する（ステップＳ１７００）。その後、ニューラルネットワーク学習部１１０は、処理を終了する。配列加算処理の詳細は図１８を用いて説明する。

以上が図４の説明である。

図５は、実施例１のニューラルネットワーク学習部１１０が実行する負例数算出処理の一例を説明するフローチャートである。図６は、実施例１のコンフィギュレーションファイル１１１の一例を示す図である。

まず、コンフィギュレーションファイル１１１について説明する。図６の左端の番号は行番号を示し、記号「＃」に続く文字列はコメントを示す。

コンフィギュレーションファイル１１１は、学習処理に必要なパラメータの値を含む。

２行目から４行目はハードウェアに依存しないパラメータの値を定義する。具体的には、２行目のＮＳｍｉｎは、負例の数の最小値を示すパラメータであり、３行目のｗｉｎｄｏｗは、ｗｉｎｄｏｗの数を示すパラメータであり、４行目のαは、学習率を示すパラメータである。図６では、ＮＳｍｉｎは３、ｗｉｎｄｏｗは３、αは０．０２５が設定されている。

ここで、ｗｉｎｄｏｗの数とは、図３のニューラルネットワーク３００で単語の共起を用いて単語のベクトル表現を学習する場合に、ある文章中で注目する単語の両側から何単語までを共起として取り扱うかを意味する数字である。例えば、「Ｔｗｏｃａｔｓｓａｔｏｎｔｈｅｆｌｏｏｒ」という文章において、注目する単語が「ｓａｔ」、かつ、ｗｉｎｄｏｗが１の場合、「ｓａｔ」と共起するとみなす単語は「ｃａｔｓ」及び「ｏｎ」である。一方、注目する単語が「ｓａｔ」、かつ、ｗｉｎｄｏｗが２の場合、「ｓａｔ」と共起するとみなす単語は「Ｔｗｏ」、「ｃａｔｓ」、「ｏｎ」、「ｔｈｅ」である。

７行目及び８行目はＣＰＵ１０１に関するパラメータの値を定義する。７行目のＰｃｐｕはＣＰＵ１０１の積和演算命令の並列度を示すパラメータであり、８行目のＦｃｐｕはＣＰＵ１０１のクロック周波数を示すパラメータである。図６では、Ｐｃｐｕは８、Ｆｃｐｕは３ｅ９が設定されている。なお、Ｆｃｐｕの単位はＨｚとしている。また、３ｅ９は３×１０^９の略記である。

１１行目から１３行目はＧＰＵ２００に関するパラメータの値を定義する。１１行目のＰｇｐｕはＧＰＵ２００の積和演算命令の並列度を示すパラメータであり、１２行目のＮｇｐｕｃｏｒｅはＧＰＵ２００の演算コアの数を示すパラメータであり、１３行目のＦｇｐｕはＧＰＵ２００のクロック周波数を示すパラメータである。図６では、Ｐｇｐｕは４、Ｎｇｐｕｃｏｒｅは１０２４、Ｆｇｐｕは１ｅ９が設定されている。なお、Ｆｇｐｕの単位はＨｚとしている。

以上が図６の説明である。

ニューラルネットワーク学習部１１０は、コンフィギュレーションファイル１１１から演算コアの性能特性に関する情報を取得する（ステップＳ１００１）。

ここでは、ＣＰＵ１０１の演算コアの性能特性に関する情報として、ＣＰＵ１０１の積和演算命令の並列度及びクロック周波数が取得され、ＧＰＵ２００の演算コアの性能特性に関する情報として、ＧＰＵ２００の積和演算命令の並列度、演算コアの数、及びクロック周波数が取得される。

なお、演算コアの性能特性に関する情報は、コンフィギュレーションファイル１１１以外から取得してもよい。例えば、ＯＳから取得してもよいし、ＣＰＵ１０１及びＧＰＵ２００から直接取得してもよい。

次に、ニューラルネットワーク学習部１１０は、正例の演算処理（正例逐次処理）及び負例の演算処理（負例並列処理）の実行時間に基づいて、負例の数の最大値を算出する（ステップＳ１００２）。本実施例では、式（５）に基づいて、負例の数の最大値が算出される。

式（５）は、式（６）に示すＣＰＵ１０１による正例の演算処理の実行時間と、式（７）に示すＧＰＵ２００による負例の演算処理の実行時間とが等しいと仮定した場合に導出される式である。ここで、Ｎｍａは、正例の演算処理における全積和演算の数を表す。

なお、式（５）に基づいて算出された値が整数でない場合、ニューラルネットワーク学習部１１０は、四捨五入、切り上げ、及び切り下げ等の処理を行って値を整数に変換する。

次に、ニューラルネットワーク学習部１１０は、負例の数の最大値に基づいて、設定する負例の数を決定する（ステップＳ１００３）。

例えば、ニューラルネットワーク学習部１１０は、負例の数の最大値を、設定する負例の数としてもよい。また、ニューラルネットワーク学習部１１０は、ユーザに、負例の数の最大値を提示し、ユーザからの入力を受け付けるようにしてもよい。

次に、ニューラルネットワーク学習部１１０は、決定された負例の数が最小負例数ＮＳｍｉｎより小さいか否かを判定する（ステップＳ１００４）。

決定された負例の数が最小負例数ＮＳｍｉｎ以上である場合、ニューラルネットワーク学習部１１０は負例数算出処理を終了する。

決定された負例の数が最小負例数ＮＳｍｉｎより小さい場合、ニューラルネットワーク学習部１１０は、負例の数を最小負例数ＮＳｍｉｎに設定し（ステップＳ１００５）、その後、負例数算出処理を終了する。負例の数が最小負例数より小さくならないように制御することによって、ニューラルネットワーク３００の推論精度を一定以上に保つことができる。

以上で説明したように、本実施例では、正例の演算処理の実行時間と負例の演算処理の実行時間との差が小さくなるように負例の数の最大値が決定される。負例の数は、最大値及び最小値の範囲内で決定されるため、学習処理の時間を実用的な範囲に抑え、かつ、高い推論精度のモデルを生成することができる。

以上が図５の説明である。

図７は、実施例１のニューラルネットワーク学習部１１０が実行する配列初期化処理の一例を説明するフローチャートである。

ニューラルネットワーク学習部１１０は、副記憶装置１０４から学習データ１４０を読み出し、学習データ配列１３２に格納する（ステップＳ１１０１）。

次に、ニューラルネットワーク学習部１１０は、第１の重み配列１２０と同じ型かつ同じ要素数の第１の一時配列１３０と、第２の重み配列１２１と同じ型かつ同じ要素数の第２の一時配列１３１とを生成する（ステップＳ１１０２）。

次に、ニューラルネットワーク学習部１１０は、第１の一時配列１３０及び第２の一時配列１３１を初期化する（ステップＳ１１０３）。その後、ニューラルネットワーク学習部１１０は配列初期化処理を終了する。

具体的には、第１の一時配列１３０及び第２の一時配列１３１の各々の全要素に０が設定される。

配列初期化処理は、正例の演算処理において使用される第１の重み配列１２０及び第２の重み配列１２１の代わりに、負例の演算処理において使用される第１の一時配列１３０及び第２の一時配列１３１を準備するために実行される。

以上が図７の説明である。

図８は、実施例１のニューラルネットワーク学習部１１０が実行するＣＰＵ送信処理の一例を説明するフローチャートである。

ニューラルネットワーク学習部１１０は、アクセラレータ１０２に、学習データ配列１３２を送信する（ステップＳ１２０１）。

次に、ニューラルネットワーク学習部１１０は、アクセラレータ１０２に、第１の一時配列１３０を送信する（ステップＳ１２０２）。

次に、ニューラルネットワーク学習部１１０は、アクセラレータ１０２に、第２の一時配列１３１を送信する（ステップＳ１２０３）。

次に、ニューラルネットワーク学習部１１０は、アクセラレータ１０２に、コンフィギュレーションファイル１１１から読み出した学習率を送信する（ステップＳ１２０４）。

次に、ニューラルネットワーク学習部１１０は、アクセラレータ１０２に、コンフィギュレーションファイル１１１から読み出したｗｉｎｄｏｗの数を送信する（ステップＳ１２０５）。

次に、ニューラルネットワーク学習部１１０は、アクセラレータ１０２に、負例数算出処理において算出された負例の数を送信する（ステップＳ１２０６）。その後、ニューラルネットワーク学習部１１０はＣＰＵ送信処理を終了する。

なお、アクセラレータ１０２へのデータの送信は、例えば、例えばＯｐｅｎＣＬ言語のＣＰＵからアクセラレータへのデータ転送関数であるｃｌＥｎｑｕｅｕｅＷｒｉｔｅＢｕｆｆｅｒ関数を用いて実現できる。

以上が図８の説明である。

図９は、実施例１のニューラルネットワーク学習部１１０が実行するスレッド生成処理の一例を説明するフローチャートである。

ニューラルネットワーク学習部１１０は、正例の演算処理（正例逐次処理）及び負例の演算処理（負例並列処理）の各々のスレッドを生成し（ステップＳ１３０１）、スレッド生成処理を終了する。

このとき、ニューラルネットワーク学習部１１０は、正例の演算処理のスレッドにスレッド番号として「０」を設定し、負例の演算処理（負例並列処理）のスレッドにスレッド番号として「１」を設定する。

なお、スレッドの生成は、例えば、スレッド生成関数ｐｔｈｒｅａｄ＿ｃｒｅａｔｅを用いて実現できる。

以上が図９の説明である。

図１０Ａ及び図１０Ｂは、実施例１のニューラルネットワーク学習部１１０が実行するコンパイル処理を説明する図である。

ニューラルネットワーク学習部１１０を実現するプログラムに含まれるコンパイラ１０００は、Ｃプログラム１３３をコンパイルすることによってＣＰＵ１０１が実行可能なＣＰＵプログラム１０１０に変換する。コンパイラ１０００は、例えば、ＧＣＣ（ＧＮＵＣｏｍｐｉｌｅｒＣｏｌｌｅｃｔｉｏｎ）等である。ＣＰＵプログラム１０１０は、ＣＰＵ１０１にロードされ、アクセラレータ１０２と協調するように実行される。

ニューラルネットワーク学習部１１０を実現するプログラムに含まれるコンパイラ１００１は、ＯｐｅｎＣＬプログラム１３４をコンパイルすることによってアクセラレータ１０２が実行可能なアクセラレータプログラム１０１１に変換する。実施例１のコンパイラ１００１は、ＧＰＵ用のコンパイラであって、例えば、非特許文献５に記載のコンパイラである。アクセラレータプログラム１０１１は、アクセラレータ１０２にロードされ、ＣＰＵ１０１と協調するように実行される。

次に、ニューラルネットワーク学習部１１０からの指示を受け付けたＣＰＵ１０１が実行する処理について説明する。ＣＰＵ１０１は、実行指示を受け付けた場合、正例の演算処理を開始する。

図１１は、実施例１のＣＰＵ１０１が実行する正例の演算処理の一例を説明するフローチャートである。

ＣＰＵ１０１は、変数ｉを初期化する（ステップＳ２００１）。具体的には、変数ｉに０が設定される。

ＣＰＵ１０１は、変数ｉが入力単語数より小さいか否かを判定する（ステップＳ２００２）。なお、入力単語数は、学習データ配列１３２の要素数に等しい。

変数ｉが入力単語数以上である場合、ＣＰＵ１０１は正例の演算処理を終了する。

変数ｉが入力単語数より小さい場合、ＣＰＵ１０１は、式（８）に示すように、学習データ配列１３２のｉ番目の単語に対応するｏｎｅｈｏｔベクトルを出力する関数ｆｕｎｃの演算を実行し、ベクトルｘ_ｗ＿Ｉを算出する（ステップＳ２００３）。なお、表記の関係でｗ_Ｉをｗ＿Ｉと記載している。

次に、ＣＰＵ１０１は、式（９）に示すように、ベクトルｘ_ｗ＿Ｉに第１の重み配列１２０を乗算することによって、ベクトルｖ_ｗ＿Ｉを算出する（ステップＳ２００４）。なお、表記の関係でｗ_Ｉをｗ＿Ｉと記載している。

ベクトルｘ_ｗ＿Ｉは（０，１，０）のような形式のベクトルであるため、ベクトルｖ_ｗ＿Ｉはｉ番目の単語に対応する第１の重み配列１２０の列を抜き出すことに対応する。

次に、ＣＰＵ１０１は、変数ｊを初期化する（ステップＳ２００５）。具体的には、変数ｊに−ｗｉｎｄｏｗが設定される。

次に、ＣＰＵ１０１は、変数ｊがｗｉｎｄｏｗ以下であるか否かを判定する（ステップＳ２００６）。ステップＳ２００８以降の処理は、注目する単語（ｊ＝０の場合）の前後ｗｉｎｄｏｗ個の単語に対する共起を学習するループである。

変数ｊがｗｉｎｄｏｗより大きい場合、ＣＰＵ１０１は、変数ｉに１を加算した値を、変数ｉに設定し（ステップＳ２００７）、その後、ステップＳ２００２に戻る。

変数ｊがｗｉｎｄｏｗ以下である場合、ＣＰＵ１０１は、変数ｊが０と等しいか否かを判定する（ステップＳ２００８）。ここでは、変数ｊが０と等しくない場合、判定結果がＴＵＲＥとなり、変数ｊが０と等しい場合、判定結果がＦＡＬＳＥとなる。なお、変数ｊが０と等しくない場合にのみステップＳ２００９以降の処理を行うのは、注目する単語（ｊ＝０の場合）自身に対する共起を計算しないためである。

変数ｊが０と等しい場合（ステップＳ２００８の結果がＦＡＬＳＥの場合）、ＣＰＵ１０１はステップＳ２０１３に進む。

変数ｊが０と等しくない場合（ステップＳ２００８の結果がＴＵＲＥの場合）、ＣＰＵ１０１は、式（１０）に示すように、学習データ配列１３２のｉ＋ｊ番目の単語に対応するｏｎｅｈｏｔベクトルを出力する関数ｆｕｎｃの演算を実行し、ベクトルｘ_ｗ＿０を算出する（ステップＳ２００９）。なお、表記の関係でｗ_０をｗ＿０と記載している。

次に、ＣＰＵ１０１は、式（１１）に示すように、ベクトルｘ_ｗ＿０に第１の重み配列１２０及び第２の重み配列１２１を乗算することによって、ベクトルｖ’_ｗ＿０を算出する（ステップＳ２０１０）。なお、表記の関係でｗ_０をｗ＿０と記載している。

次に、ＣＰＵ１０１は、式（１２）に示す演算を実行することによって、ベクトルｖ_ｗ＿Ｉを更新する（ステップＳ２０１１）。なお、シグモイド関数σの引数は、ベクトルｖ’_ｗ＿０及びベクトルｖ_ｗ＿Ｉの内積である。

ベクトルｖ_ｗ＿Ｉの更新は、i番目の単語に対する第１の重み配列１２０の要素の更新に対応する。

次に、ＣＰＵ１０１は、式（１３）に示す演算を実行することによって、ベクトルｖ’_ｗ＿０を更新し（ステップＳ２０１２）、ステップＳ２０１３に進む。なお、シグモイド関数σの引数は、ベクトルｖ’_ｗ＿０及びベクトルｖ_ｗ＿Ｉの内積である。

ベクトルｖ’_ｗ＿０の更新は、ｉ＋ｊ番目の単語に対する第２の重み配列１２１の要素の更新に対応する。

ステップＳ２０１３では、ＣＰＵ１０１は、変数ｊに１を加算した値を、変数ｊに設定し（ステップＳ２０１３）、その後、ステップＳ２００６に戻る。

以上が図１１の説明である。

次に、ニューラルネットワーク学習部１１０からの指示を受け付けたアクセラレータ１０２が実行する処理について説明する。アクセラレータ１０２は、実行指示を受け付けた場合、アクセラレータ処理を開始する。

図１２は、実施例１のアクセラレータ１０２が実行するアクセラレータ処理の一例を説明するフローチャートである。

アクセラレータ１０２は、ＣＰＵ送信処理によって送信されたデータを受信するために、アクセラレータ受信処理を実行する（ステップＳ３０００）。アクセラレータ受信処理の詳細は図１３を用いて説明する。

次に、アクセラレータ１０２は、負例の演算処理（負例並列処理）を実行する（ステップＳ３１００）。負例の演算処理の詳細は図１４、図１５を用いて説明する。

次に、アクセラレータ１０２は、負例の演算処理の結果をＣＰＵ１０１に送信するために、アクセラレータ送信処理を実行する（ステップＳ３２００）。その後、アクセラレータ１０２は、アクセラレータ処理を終了する。アクセラレータ送信処理の詳細は図１６を用いて説明する。

以上が図１２の説明である。

図１３は、実施例１のアクセラレータ１０２が実行するアクセラレータ受信処理の一例を説明するフローチャートである。

アクセラレータ１０２は、学習データ配列１３２を受信し（ステップＳ３００１）、ＤＲＡＭ２０１に学習データ配列１３２を格納する。

次に、アクセラレータ１０２は、第１の一時配列１３０を受信し（ステップＳ３００２）、ＤＲＡＭ２０１に第１の一時配列１３０を格納する。

次に、アクセラレータ１０２は、第２の一時配列１３１を受信し（ステップＳ３００３）、ＤＲＡＭ２０１に第２の一時配列１３１を格納する。

次に、アクセラレータ１０２は、学習率を受信し（ステップＳ３００４）、ＤＲＡＭ２０１に学習率を格納する。

次に、アクセラレータ１０２は、アクセラレータ１０２に、ｗｉｎｄｏｗの数を受信し（ステップＳ３００５）、ＤＲＡＭ２０１にｗｉｎｄｏｗの数を格納する。

次に、アクセラレータ１０２は、負例の数を受信し（ステップＳ３００６）、ＤＲＡＭ２０１に負例の数を格納する。その後、アクセラレータ１０２はアクセラレータ受信処理を終了する。

以上が図１３の説明である。

図１４は、実施例１のアクセラレータ１０２が実行する負例の演算処理の一例を説明するフローチャートである。

以下で示す変数ｉ、ｊは、正例の演算処理において示した変数ｉ、ｊと同じ文字であるが、別々の実体である。すなわち、図１１の変数ｉ、ｊと図１４の変数ｉ、ｊとは独立の変数である。

アクセラレータ１０２は、変数ｉを初期化する（ステップＳ３１０１）。具体的には、アクセラレータ１０２は、式（１４）を用いて算出される値を変数ｉの初期値として設定する。入力単語数は、学習データ配列１３２の要素数に等しい。

これは、学習データ配列１３２の重なりがないように、ＧＰＵ２００の各演算コアに処理を担当させるための処理である。なお、ＧＰＵ２００の演算コアには０から（Ｎｇｐｕｃｏｒｅ−１）の範囲の整数の識別番号が割り当てられている。

次に、アクセラレータ１０２は、変数ｉが式（１５）の値より小さいか否かを判定する（ステップＳ３１０２）。

変数ｉが式（１５）の値以上である場合、アクセラレータ１０２は負例の演算処理を終了する。

変数ｉが式（１５）の値より小さい場合、アクセラレータ１０２は、式（１６）に示すように、学習データ配列１３２のｉ番目の単語に対応するｏｎｅｈｏｔベクトルを出力する関数ｆｕｎｃの演算を実行し、ベクトルｘ_ｗ＿Ｉを算出する（ステップＳ３１０３）。なお、表記の関係でｗ_Ｉをｗ＿Ｉと記載している。

次に、アクセラレータ１０２は、式（１７）に示すように、ベクトルｘ_ｗ＿Ｉに第１の一時配列１３０を乗算することによって、ベクトルｖ_ｗ＿Ｉを算出する（ステップＳ３１０４）。なお、表記の関係でｗ_Ｉをｗ＿Ｉと記載している。

ベクトルｘ_ｗ＿Ｉは（０，１，０）のような形式のベクトルであるため、ベクトルｖ_ｗ＿Ｉはｉ番目の単語に対応する第１の一時配列１３０の列を抜き出すことに対応する。

次に、アクセラレータ１０２は、変数ｊを初期化する（ステップＳ３１０５）。具体的には、変数ｊに−ｗｉｎｄｏｗが設定される。

次に、アクセラレータ１０２は、変数ｊがｗｉｎｄｏｗ以下であるか否かを判定する（ステップＳ３１０６）。

変数ｊがｗｉｎｄｏｗより大きい場合、アクセラレータ１０２は、変数ｉに１を加算した値を、変数ｉに設定し（ステップＳ３１０７）、その後、ステップＳ３１０２に戻る。

変数ｊがｗｉｎｄｏｗ以下である場合、アクセラレータ１０２は、変数ｊが０と等しいか否かを判定する（ステップＳ３１０８）。ここでは、変数ｊが０と等しくない場合、判定結果がＴＵＲＥとなり、変数ｊが０と等しい場合、判定結果がＦＡＬＳＥとなる。

変数ｊが０と等しい場合（ステップＳ３１０８の結果がＦＡＬＳＥの場合）、アクセラレータ１０２はステップＳ３１１０に進む。

変数ｊが０と等しくない場合（ステップＳ３１０８の結果がＴＵＲＥの場合）、アクセラレータ１０２は、負例本体処理を実行し（ステップＳ３１０９）、その後、ステップＳ３１１０に進む。負例本体処理の詳細は図１５を用いて説明する。

ステップＳ３１１０では、アクセラレータ１０２は、変数ｊに１を加算した値を、変数ｊに設定し（ステップＳ３１１０）、その後、ステップＳ３１０６に戻る。

以上が図１４の説明である。

図１５は、実施例１のアクセラレータ１０２が実行する負例本体処理の一例を説明するフローチャートである。

アクセラレータ１０２は、変数ｎを初期化する（ステップＳ３１５１）。具体的には、変数ｎに０が設定される。

次に、アクセラレータ１０２は、変数ｎが負例の数より小さいか否かを判定する（ステップＳ３１５２）。

変数ｎが負例の数以上である場合、アクセラレータ１０２は負例本体処理を終了する。

変数ｎが負例の数より小さい場合、アクセラレータ１０２は、学習データ配列１３２の要素（単語）を負例としてランダムに選択し、式（１８）に示すように、当該単語に対応するｏｎｅｈｏｔベクトルを出力する関数ｆｕｎｃの演算を実行し、ベクトルｘ_ｗ＿０を算出する（ステップＳ３１５３）。なお、表記の関係でｗ_０をｗ＿０と記載している。

次に、アクセラレータ１０２は、式（１９）に示すように、ベクトルｘ_ｗ＿０に第１の一時配列１３０及び第２の一時配列１３１を乗算することによって、ベクトルｖ’_ｗ＿０を算出する（ステップＳ３１５４）。なお、表記の関係でｗ_０をｗ＿０と記載している。

ベクトルｖ’_ｗ＿０は、ランダムに選択された単語に対応する第２の一時配列１３１の列を抜き出すことに対応する。

次に、アクセラレータ１０２は、式（２０）に示す演算を実行することによって、ベクトルｖ_ｗ＿Ｉを更新する（ステップＳ３１５５）。なお、シグモイド関数σの引数は、ベクトルｖ’_ｗ＿０及びベクトルｖ_ｗ＿Ｉの内積である。

ベクトルｖ_ｗ＿Ｉの更新は、i番目の単語に対する第１の一時配列１３０の要素の更新に対応する。

次に、アクセラレータ１０２は、式（２１）に示す演算を実行することによって、ベクトルｖ’_ｗ＿０を更新する（ステップＳ３１５６）。なお、シグモイド関数σの引数は、ベクトルｖ’_ｗ＿０及びベクトルｖ_ｗ＿Ｉの内積である。

ベクトルｖ’_ｗ＿０の更新は、ランダムに選択された単語（負例）に対する第２の一時配列１３１の要素の更新に対応する。

次に、アクセラレータ１０２は、変数ｎに１を加算した値を、変数ｎに設定し（ステップＳ３１５７）、その後、ステップＳ３１５２に戻る。

以上が図１５の説明である。

図１６は、実施例１のアクセラレータ１０２が実行するアクセラレータ送信処理の一例を説明するフローチャートである。

アクセラレータ１０２は、ＣＰＵ１０１に、第１の一時配列１３０を送信し（ステップＳ３２０１）、また、第２の一時配列１３１を送信する（ステップＳ３２０２）。その後、アクセラレータ１０２はアクセラレータ送信処理を終了する。

以上が図１６の説明である。

次に、スレッド待合せ後に実行される処理について説明する。

図１７は、実施例１のニューラルネットワーク学習部１１０が実行するＣＰＵ受信処理の一例を説明するフローチャートである。

ニューラルネットワーク学習部１１０は、アクセラレータ１０２から、第１の一時配列１３０を受信する（ステップＳ１６０１）。このとき、ニューラルネットワーク学習部１１０は、主記憶装置１０３に格納される第１の一時配列１３０を、受信した第１の一時配列１３０に更新する。

次に、ニューラルネットワーク学習部１１０は、アクセラレータ１０２から、第２の一時配列１３１を受信する（ステップＳ１６０２）。その後、ニューラルネットワーク学習部１１０はＣＰＵ受信処理を終了する。このとき、ニューラルネットワーク学習部１１０は、主記憶装置１０３に格納される第２の一時配列１３１を、受信した第２の一時配列１３１に更新する。

なお、アクセラレータ１０２からのデータの受信は、例えば、ＯｐｅｎＣＬ言語のアクセラレータからＣＰＵへのデータ転送関数であるｃｌＥｎｑｕｅｕｅＲｅａｄＢｕｆｆｅｒ関数を用いて実現できる。

以上が図１７の説明である。

図１８は、実施例１のニューラルネットワーク学習部１１０が実行する配列加算処理の一例を説明するフローチャートである。

ニューラルネットワーク学習部１１０は、変数ｉを初期化する（ステップＳ１７０１）。具体的には、変数ｉに０が設定される。

次に、ニューラルネットワーク学習部１１０は、変数ｉが第１の重み配列１２０の要素数より小さいか否かを判定する（ステップＳ１７０２）。

変数ｉが第１の重み配列１２０の要素数より小さい場合、ニューラルネットワーク学習部１１０は、第１の重み配列１２０のｉ番目の要素を更新する（ステップＳ１７０３）。

具体的には、ニューラルネットワーク学習部１１０は、第１の重み配列１２０のｉ番目の要素に、第１の一時配列１３０のｉ番目の要素を加算する。

次に、ニューラルネットワーク学習部１１０は、変数ｉに１を加算した値を、変数ｉに設定し（ステップＳ１７０４）、その後、ステップＳ１７０２に戻る。

ステップＳ１７０２において、変数ｉが第１の重み配列１２０の要素数以上の場合、ニューラルネットワーク学習部１１０は、変数ｊを初期化する（ステップＳ１７０５）。具体的には、変数ｊに０が設定される。

ニューラルネットワーク学習部１１０は、変数ｊが第２の重み配列１２１の要素数より小さいか否かを判定する（ステップＳ１７０６）。

変数ｊが第２の重み配列１２１の要素数より小さい場合、ニューラルネットワーク学習部１１０は、第２の重み配列１２１のｊ番目の要素を更新する（ステップＳ１７０７）。

具体的には、ニューラルネットワーク学習部１１０は、第２の重み配列１２１のｊ番目の要素に、第２の一時配列１３１のｊ番目の要素を加算する。

次に、ニューラルネットワーク学習部１１０は、変数ｊに１を加算した値を、変数ｊに設定し（ステップＳ１７０８）、その後、ステップＳ１７０６に戻る。

ステップＳ１７０６において、変数ｊが第２の重み配列１２１の要素数以上の場合、ニューラルネットワーク学習部１１０は配列加算処理を終了する。

以上が図１８の説明である。

実施例１によれば、ニューラルネットワーク学習部１１０は、正例の演算処理（正例逐次処理）及び負例の演算処理（負例並列処理）の実行時間の差が最小となる負例の数を、負例の数の最大値として設定し、当該最大値に基づいて実際の負例の数を決定する。これによって、実用的な学習処理の時間で、高い推論精度のモデルを生成できる。

実施例２では、ＦＰＧＡを搭載するアクセラレータ１０２を用いる点が実施例１と異なる。以下、実施例１との差異を中心に実施例２について説明する。

実施例２の計算機システム１０の構成は実施例１と同一である。実施例２ではアクセラレータ１０２の構成が異なる。図１９は、実施例２のアクセラレータ１０２のハードウェア構成の一例を示す図である。

実施例２のアクセラレータ１０２は、ＦＰＧＡ１９００を搭載するボードである。

アクセラレータ１０２は、ＦＰＧＡ１９００、ＤＲＡＭ１９０１、及び入出力インタフェース１９０２を備える。ＦＰＧＡ１９００はＤＲＡＭ１９０１と接続し、また、ＤＲＡＭ１９０１は、入出力インタフェース１９０２と接続する。

以上が図１９の説明である。

実施例２の負例数算出処理は、実施例１と同じ処理の流れであるが、負例の数の最大値の算出方法が異なる。まず、実施例２のコンフィギュレーションファイル１１１を説明した後、実施例２の負例の数の最大値の算出方法について説明する。

図２０は、実施例２のコンフィギュレーションファイル１１１の一例を示す図である。

図２０の左端の番号は行番号を示し、記号「＃」に続く文字列はコメントを示す。

２行目から５行目はハードウェアに依存しないパラメータの値を定義する。具体的には、２行目のＮＳｍｉｎは、負例の数の最小値を示すパラメータであり、３行目のＮｍａは、正例の演算の積和演算数を示すパラメータであり、４行目のｗｉｎｄｏｗは、ｗｉｎｄｏｗの数を示すパラメータであり、５行目のαは、学習率を示すパラメータである。図２０では、ＮＳｍｉｎは３、Ｎｍａは５ｅ１２、ｗｉｎｄｏｗは３、αは０．０２５が設定されている。

８行目及び９行目はＣＰＵ１０１に関するパラメータの値を定義する。８行目のＰｃｐｕはＣＰＵ１０１の積和演算命令の並列度を示すパラメータであり、９行目のＦｃｐｕはＣＰＵ１０１のクロック周波数を示すパラメータである。図２０では、Ｐｃｐｕは８、Ｆｃｐｕは３ｅ９が設定されている。なお、Ｆｃｐｕの単位はＨｚとしている。

１２行目から１４行目はＦＰＧＡ１９００に関するパラメータの値を定義する。１２行目のＮｄｓｐはＦＰＧＡ１９００のＤＳＰブロック数を示すパラメータであり、１３行目のＦｆｇｐａはＦＰＧＡ１９００のクロック周波数を示すパラメータであり、１４行目のＩＩはＦＰＧＡ１９００のパイプライン開始間隔を示すパラメータである。図２０では、Ｎｄｓｐは１０２４、Ｆｆｇｐａは３ｅ８、ＩＩは１が設定されている。

なお、パイプライン開始間隔及びＤＳＰブロック数は、ＦＰＧＡ用コンパイラの出力等で確認することができる。

以上が図２０の説明である。

次に、実施例２の負例の数の最大値の算出方法について説明する。実施例２では、ニューラルネットワーク学習部１１０は、ステップＳ１００２において、式（２２）に基づいて、負例の数の最大値を算出する。

式（２２）は、式（６）に示すＣＰＵ１０１による正例逐次処理の実行時間と、式（２３）に示すＦＰＧＡ１９００による負例並列処理（パイプライン並列処理）の実行時間とが等しいと仮定した場合に導出される式である。

なお、パイプライン並列処理の実行時間を算出するための計算式は、非特許文献７に記載されている。

なお、式（２２）に基づいて算出された値が整数でない場合、ニューラルネットワーク学習部１１０は、四捨五入、切り上げ、及び切り下げ等の処理を行って値を整数に変換する。

実施例２の配列初期化処理、ＣＰＵ送信処理、スレッド生成処理、スレッド待合せ、ＣＰＵ受信処理、及び配列加算処理は、実施例１と同一である。

なお、実施例２のＯｐｅｎＣＬプログラム１３４のコンパイル処理は以下のようになる。図２１は、実施例２のニューラルネットワーク学習部１１０が実行するコンパイル処理を説明する図である。

ニューラルネットワーク学習部１１０を実現するプログラムに含まれるコンパイラ２１００は、ＯｐｅｎＣＬプログラム１３４をコンパイルすることによって、ＶｅｒｉｌｏｇＨＤＬ等のハードウェア記述言語（ＨＤＬ：ＨａｒｄｗａｒｅＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ）で記述されたＨＤＬプログラム２１１０に変換する。コンパイラ２１００は、例えば、非特許文献４に記載のＦＰＧＡ用ＯｐｅｎＣＬコンパイラである。

さらに、ニューラルネットワーク学習部１１０を実現するプログラムに含まれる配置配線ツール２１０１は、ＨＤＬプログラム２１１０を、ＦＰＧＡ１９００の回路及び配置構成を記述したＦＰＧＡプログラム２１１１に変換する。配置配線ツール２１０１は、例えば、非特許文献４に記載されているツール（例えば、ＱｕａｒｔｕｓＩＩ）である。ＦＰＧＡプログラムはｂｉｔｓｔｒｅａｍとも呼ばれる。

このように、コンパイラ２１００及び配置配線ツール２１０１によって、ＯｐｅｎＣＬプログラム１３４は、面積が小さく、高速、かつ、消費電力が低い回路から構成されるＦＰＧＡ１９００によるパイプライン並列処理を実現するためのＦＰＧＡプログラム２１１１に変換される。

以上が図２１の説明である。

実施例２の正例の演算処理は実施例１と同一である。実施例２の負例の演算処理は一部処理が異なる。図２２は、実施例２のアクセラレータ１０２が実行する負例の演算処理の一例を説明するフローチャートである。

アクセラレータ１０２は、変数ｉを初期化する（ステップＳ４００１）。具体的には、変数ｉに０が設定される。

次に、アクセラレータ１０２は、変数ｉが入力単語数より小さいか否かを判定する（ステップＳ４００２）。

変数ｉが入力単語数以上である場合、アクセラレータ１０２は負例の演算処理を終了する。

変数ｉが入力単語数より小さい場合、アクセラレータ１０２は、ＦＰＧＡ１９００上の任意回路にてパイプライン処理を実行する（ステップＳ４００３）。パイプライン処理の詳細は図２３で説明する。

アクセラレータ１０２は、パイプライン処理の実行を開始した後にＩＩサイクル経過した場合、変数ｉに１を加算した値を、変数ｉに設定し（ステップＳ４００４）、その後、ステップＳ４００２に戻る。

上記のような処理によって、ＦＰＧＡ１９００においてパイプライン並列処理を実行できる。

以上が図２２の説明である。

図２３は、実施例２のアクセラレータ１０２が実行するパイプライン処理の一例を説明するフローチャートである。

ステップＳ４１０１からステップＳ４１０７の処理は、ステップＳ３１０３からステップＳ３１１０の処理と同一である。ただし、ステップＳ４１０１において、変数ｊがｗｉｎｄｏｗより大きい場合、アクセラレータ１０２は、パイプライン処理を終了する。

実施例２も実施例１と同様に、実用的な学習処理の時間で、高い推論精度のモデルを生成するための負例の数を決定することができる。

実施例３では、ＣＰＵ１０１とは別に、マルチコアＣＰＵをアクセラレータ１０２として利用する点が実施例１と異なる。以下、実施例１との差異を中心に実施例３について説明する。

実施例３の計算機システム１０の構成は実施例１と同一である。実施例３では、アクセラレータ１０２としてマルチコアＣＰＵを用いる。マルチコアＣＰＵとしては、例えば、ＩｎｔｅｌＸｅｏｎＰｈｉ（Ｉｎｔｅｌは登録商標、以下同じ）である。この場合、ＣＰＵ１０１及びアクセラレータ１０２は、ＩｎｔｅｌＱｕｉｃｋＰａｔｈＩｎｔｅｒＣｏｎｎｅｃｔ等の通信経路を介して互いに接続される。

実施例３の負例数算出処理は、実施例１と同じ処理の流れであるが、負例の数の最大値の算出方法が異なる。まず、実施例３のコンフィギュレーションファイル１１１を説明した後、実施例３の負例の数の最大値の算出方法について説明する。

図２４は、実施例３のコンフィギュレーションファイル１１１の一例を示す図である。

図２４の左端の番号は行番号を示し、記号「＃」に続く文字列はコメントを示す。

２行目から５行目はハードウェアに依存しないパラメータの値を定義する。具体的には、２行目のＮＳｍｉｎは、負例の数の最小値を示すパラメータであり、３行目のＮｍａは、正例の演算の積和演算数を示すパラメータであり、４行目のｗｉｎｄｏｗは、ｗｉｎｄｏｗの数を示すパラメータであり、５行目のαは、学習率を示すパラメータである。図２４では、ＮＳｍｉｎは３、Ｎｍａは５ｅ１２、ｗｉｎｄｏｗは３、αは０．０２５が設定されている。

８行目及び９行目はＣＰＵ１０１に関するパラメータの値を定義する。８行目のＰｃｐｕはＣＰＵ１０１の積和演算命令の並列度を示すパラメータであり、９行目のＦｃｐｕはＣＰＵ１０１のクロック周波数を示すパラメータである。図２４では、Ｐｃｐｕは８、Ｆｃｐｕは３ｅ９が設定されている。なお、Ｆｃｐｕの単位はＨｚとしている。

１１行目から１３行目はマルチコアＣＰＵに関するパラメータの値を定義する。１１行目のＰｍｃｐｕはマルチコアＣＰＵの積和演算命令の並列度を示すパラメータであり、１２行目のＮｍｃｐｕｃｏｒｅはマルチコアＣＰＵの演算コアの数を示すパラメータであり、１３行目のＦｍｃｐｕはマルチコアＣＰＵのクロック周波数を示すパラメータである。図２４では、Ｐｍｃｐｕは４、Ｎｍｃｐｕｃｏｒｅは１６、Ｆｍｃｐｕは２ｅ９が設定されている。なお、Ｆｍｃｐｕの単位はＨｚとしている。

以上が図２４の説明である。

次に、実施例３の負例の数の最大値の算出方法について説明する。実施例３では、ニューラルネットワーク学習部１１０は、ステップＳ１００２において、式（２４）に基づいて、負例の数の最大値を算出する。

式（２４）は、式（６）に示すＣＰＵ１０１による正例逐次処理の実行時間と、式（２５）に示すマルチコアＣＰＵによる負例並列処理の実行時間とが等しいと仮定した場合に導出される式である。

なお、式（２４）に基づいて算出された値が整数でない場合、ニューラルネットワーク学習部１１０は、四捨五入、切り上げ、及び切り下げ等の処理を行って値を整数に変換する。

実施例３の配列初期化処理、ＣＰＵ送信処理、スレッド生成処理、スレッド待合せ、ＣＰＵ受信処理、及び配列加算処理は、実施例１と同一である。

なお、実施例３のＯｐｅｎＣＬプログラム１３４のコンパイル処理は以下のようになる。図２５は、実施例３のニューラルネットワーク学習部１１０が実行するコンパイル処理を説明する図である。

ニューラルネットワーク学習部１１０を実現するプログラムに含まれるコンパイラ２５００は、ＯｐｅｎＣＬプログラム１３４をコンパイルすることによって、マルチコアＣＰＵが実行可能なマルチコアＣＰＵプログラム２５１０に変換する。

コンパイラ２５００は、マルチコアＣＰＵ用のコンパイラであって、例えば、非特許文献６に記載のコンパイラである。

以上が図２５の説明である。

実施例３の正例の演算処理は実施例１と同一である。実施例３の負例の演算処理は実施例１と同一である。ただし、ステップＳ３１０１では、アクセラレータ１０２は、式（２６）を用いて算出される値を変数ｉの初期値として設定する。また、ステップＳ３１０２では、アクセラレータ１０２は、変数ｉが式（２７）の値より小さいか否かを判定する。

なお、マルチコアＣＰＵの演算コアには０から（Ｎｍｃｐｕｃｏｒｅ−１）の範囲の整数の識別番号が割り当てられている。

実施例３も実施例１と同様に、実用的な学習処理の時間で、高い推論精度のモデルを生成するための負例の数を決定することができる。

なお、計算機１００は、アクセラレータ１０２を備えず、複数の演算コアを有するＣＰＵ１０１（マルチコアＣＰＵ）のみを備える計算機であってもよい。この場合、ニューラルネットワーク学習部１１０は、マルチコアＣＰＵの少なくとも一つの演算コアに正例の演算処理を実行させ、正例の演算を実行する演算コアとは異なる少なくとも一つの演算コアに負例の演算処理を実行させる。この場合も同様の制御を実現することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１０計算機システム
１００計算機
１０１ＣＰＵ
１０２アクセラレータ
１０３主記憶装置
１０４副記憶装置
１０５入出力装置
１１０ニューラルネットワーク学習部
１１１コンフィギュレーションファイル
１１２ニューラルネットワーク情報
１２０第１の重み配列
１２１第２の重み配列
１３０第１の一時配列
１３１第２の一時配列
１３２学習データ配列
１３３Ｃプログラム
１３４ＯｐｅｎＣＬプログラム
１４０学習データ
２００ＧＰＵ
２０１、１９０１ＤＲＡＭ
２０２、１９０２入出力インタフェース
３００ニューラルネットワーク
３０１入力層
３０２隠れ層
３０３出力層
３１１、３１２エッジ
１０００、１００１、２１００、２５００コンパイラ
１０１０ＣＰＵプログラム
１０１１アクセラレータプログラム
１９００ＦＰＧＡ
２１０１配置配線ツール
２１１０ＨＤＬプログラム
２１１１ＦＰＧＡプログラム
２５１０マルチコアＣＰＵプログラム

Claims

ネガティブサンプリング法を用いて、事象の予測を行うモデルを生成するための学習処理を実行する計算機システムであって、
複数の演算コア及び記憶装置を有する少なくとも一つの計算機と、
複数の学習データを用いて前記学習処理を実行する学習部と、
を備え、
前記学習部は、
正例演算を実行する前記演算コア及び負例演算を実行する前記演算コアの性能特性を示す性能情報を取得し、
前記性能情報に基づいて、前記負例演算における前記負例の数の最大値を算出し、
前記最大値に基づいて前記負例の数を決定し、
所定の数の正例となる前記学習データを用いた正例演算を少なくとも一つの前記演算コアに実行させ、前記決定された負例の数の、ランダムに選択された前記学習データを用いた前記負例演算を少なくとも一つの前記演算コアに実行させることによって前記モデルを生成することを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記学習部は、前記正例演算に要する処理時間と前記負例演算に要する処理時間との差が最小となる前記負例のデータの数を、前記負例演算における前記負例のデータの数の最大値として算出することを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記性能情報は、前記学習処理を制御するためのパラメータを格納するコンフィギュレーション情報に含まれることを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記少なくとも一つの計算機は、少なくとも一つの前記演算コアを含む第１演算装置と、少なくとも一つの前記演算コアを含む第２演算装置とを備え、
前記学習部は、前記第１演算装置に前記正例演算を実行させ、前記第２演算装置に前記負例演算を実行させることを特徴とする計算機システム。
請求項４に記載の計算機システムであって、
前記第１演算装置は、ＣＰＵであり、
前記第２演算装置は、ＧＰＵを搭載するボード、ＦＰＧＡを搭載するボード、及びＣＰＵのいずれかであることを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記複数の演算コアを含むＣＰＵを備え、
前記学習部は、前記ＣＰＵに含まれる前記少なくとも一つの演算コアに前記正例演算を実行させ、前記ＣＰＵに含まれ、かつ、前記正例演算に割り当てられた前記少なくとも一つの演算コアとは異なる、前記少なくとも一つの演算コアに前記負例演算を実行させることを特徴とする計算機システム。
請求項１に記載の計算機システムであって、
前記計算機システムには、前記負例の数の最小値が設定され、
前記学習部は、前記決定された負例の数が前記負例の数の最小値より小さい場合、前記決定された負例の数を前記負例の数の最小値に修正することを特徴とする計算機システム。
計算機システムが実行する、ネガティブサンプリング法を用いて事象の予測を行うモデルを生成するための学習方法であって、
前記計算機システムは、複数の演算コア及び記憶装置を有する少なくとも一つの計算機と、複数の学習データを用いて前記モデルを生成するための学習処理を実行する学習部と、を有し、
前記学習方法は、
前記学習部が、正例演算を実行する前記演算コア及び負例演算を実行する前記演算コアの性能特性を示す性能情報を取得する第１のステップと、
前記学習部が、前記性能情報に基づいて、前記負例演算における前記負例の数の最大値を算出する第２のステップと、
前記学習部が、前記最大値に基づいて前記負例の数を決定する第３のステップと、
前記学習部が、所定の数の正例となる前記学習データを用いた正例演算を少なくとも一つの前記演算コアに実行させ、前記決定された負例の数の、ランダムに選択された前記学習データを用いた前記負例演算を少なくとも一つの前記演算コアに実行させることによって前記モデルを生成する第４のステップと、を含むことを特徴とする学習方法。
請求項８に記載の学習方法であって、
前記第２のステップは、前記学習部が、前記正例演算に要する処理時間と前記負例演算に要する処理時間との差が最小となる前記負例のデータの数を、前記負例演算における前記負例のデータの数の最大値として算出するステップを含むことを特徴とする学習方法。
請求項８に記載の学習方法であって、
前記性能情報は、前記学習処理を制御するためのパラメータを格納するコンフィギュレーション情報に含まれることを特徴とする学習方法。
請求項８に記載の学習方法であって、
前記少なくとも一つの計算機は、少なくとも一つの前記演算コアを含む第１演算装置と、少なくとも一つの前記演算コアを含む第２演算装置とを有し、
前記第４のステップは、
前記学習部が、前記第１演算装置に前記正例演算を実行させるステップと、
前記学習部が、前記第２演算装置に前記負例演算を実行させるステップと、を含むことを特徴とする学習方法。
請求項１１に記載の学習方法であって、
前記第１演算装置は、ＣＰＵであり、
前記第２演算装置は、ＧＰＵを搭載するボード、ＦＰＧＡを搭載するボード、及びＣＰＵのいずれかであることを特徴とする学習方法。
請求項８に記載の学習方法であって、
前記少なくとも一つの計算機は、前記複数の演算コアを含むＣＰＵを有し、
前記第４のステップは、
前記学習部が、前記ＣＰＵに含まれる前記少なくとも一つの演算コアに前記正例演算を実行させるステップと、
前記学習部が、前記ＣＰＵに含まれ、かつ、前記正例演算に割り当てられた前記少なくとも一つの演算コアとは異なる、前記少なくとも一つの演算コアに前記負例演算を実行させることを特徴とする学習方法。
請求項８に記載の学習方法であって、
前記計算機システムには、前記負例の数の最小値が設定され、
前記第３のステップは、前記決定された負例の数が前記負例の数の最小値より小さい場合、前記学習部が、前記決定された負例の数を前記負例の数の最小値に修正するステップを含むことを特徴とする学習方法。
ネガティブサンプリング法を用いて、事象の予測を行うモデルを生成するための学習処理を実行する計算機に実行させるプログラムであって、
前記計算機は、複数の演算コア及び記憶装置を有し、
前記プログラムは、
正例演算を実行する前記演算コア及び負例演算を実行する前記演算コアの性能特性を示す性能情報を取得する手順と、
前記性能情報に基づいて、前記負例演算における前記負例の数の最大値を算出する手順と、
前記最大値に基づいて前記負例の数を決定する手順と、
所定の数の正例となる学習データを用いた正例演算を少なくとも一つの前記演算コアに実行させ、前記決定された負例の数の、ランダムに選択された前記学習データを用いた前記負例演算を少なくとも一つの前記演算コアに実行させることによって前記モデルを生成させる手順と、を前記計算機に実行させることを特徴とするプログラム。