JP7342544B2

JP7342544B2 - 学習プログラムおよび学習方法

Info

Publication number: JP7342544B2
Application number: JP2019164006A
Authority: JP
Inventors: 雅也加藤; 卓也阪本; 淳史忽滑谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2023-09-12
Anticipated expiration: 2039-09-09
Also published as: US11676054B2; US20210073666A1; CN112465105B; JP2021043601A; EP3792837A1; CN112465105A

Description

本発明は、学習プログラムおよび学習方法に関する。

近年、機械学習を高速に行う技術のひとつとして、演算精度の最適化技術が注目されている。機械学習の演算には一般的に３２ビット（bit）の浮動小数点が用いられるが、機械学習を用いた問題解決において、より少ないビットでも十分なケースが多々存在する。より少ないビット数で演算することにより、計算の高速化、電力性能の向上、メモリリソースの節約などの恩恵が受けられる。

現在、多くの企業が演算精度の最適化技術の開発や応用に取り組んでおり、例えばＧＰＵ（Graphics Processing Unit）上で８ビットまたは１６ビットの浮動小数点を用いて、より少ないビット数で演算を行う技術が知られている。また、テンソル演算に特化したプロセッサであるＴＰＵ（Tensor Processing Unit）により、８ビット整数を用いた推論を行う技術も知られている。

このような背景の中、学習の段階に合わせて固定小数点を変動させ、最適な精度で演算を行うプロセッサが提案されている。このプロセッサは、機械学習の中でも深層学習に特化した設計となっており、深層学習の学習が進むにつれて、「演算する数値のイテレーション（iteration）間の変動が小さくなる性質」と「テンソルが持つ値の分布が狭くなる性質」を利用した演算精度の最適化を行う。

イテレーション間の数値の変動やテンソルが持つ値の分散の大きい学習前半（以下では、「事前学習」と記載する場合がある）では、従来の３２ビット浮動小数点を用いて学習を行い、分散が小さくなる中盤から後半（以下では、「本学習」と記載する場合がある）では、小数点位置が可変である８ビット固定小数点（以下では、「DLINT」と記載する場合がある）を用いて学習を行う。このとき、固定小数点の小数点位置を必要に応じて調整することによって、８ビットでも十分な精度を実現する。ここで、小数点位置を調整するために、あらかじめ入力テンソルや出力テンソルのデータ分布に関する情報（以下では、「統計情報」と記載する場合がある）を知る必要があるが、実際の出力の統計情報は演算するまで分からない。このため、現在のイテレーションの小数点位置の代わりに、それより前のイテレーションの対応する演算の出力の統計情報を用いて学習を行う技術が知られている。

特開２０１７－１５６９４１号公報特開２０１９－３２８３３号公報特開２０１９－７９５３５号公報

ところで、上記技術では、前のイテレーションの情報を現在のイテレーションで用いるためには、演算に使われた各テンソルの統計情報をメモリ上に記憶し、演算時にデータベースから対応する統計情報を参照する必要がある。ここで、前のイテレーションの統計情報を参照するためには、現在の実行対象である演算の出力に対応する統計情報を参照する必要がある。しかし、機械学習対象のモデルに対応する計算グラフが、学習時に動的に変化する場合、計算グラフが変化してテンソルが辿る演算経路が変わってもそれ以降の演算ノードで検知できず、変化前と同じ統計情報を参照してしまう。この結果、間違った小数点位置で演算が行われることになり、学習が成立せず、学習精度が低下する。

一つの側面では、固定小数点の位置を正しく調整して学習精度の低下を抑制することができる学習プログラムおよび学習方法を提供することを目的とする。

第１の案では、学習プログラムは、コンピュータに、複数のノードを有する深層学習の対象である計算モデルの学習時に、前記学習時よりも前の各学習の段階でテンソルが辿った演算経路を示す経路情報と、前記演算経路で使用された小数点の位置に関する統計情報とが対応付けられた記憶部を参照する処理を実行させる。学習プログラムは、コンピュータに、前記学習時において前記複数のノードそれぞれに設定される各演算処理を実行する場合に、前記複数のノードそれぞれに至る前記経路情報に対応する前記統計情報を取得する処理を実行させる。学習プログラムは、コンピュータに、取得された前記統計情報により特定される小数点の位置を用いて、前記各演算処理を実行する処理を実行させる。

一実施形態によれば、固定小数点の位置を正しく調整して学習精度の低下を抑制することができる。

図１は、実施例１にかかる情報処理装置を説明する図である。図２は、実施例１にかかるユーザの利用シーンの流れを示すフローチャートである。図３は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図４は、統計情報の一例を示す図である。図５は、各ノードにおけるハッシュ値の生成を説明する図である。図６は、各ノードにおける演算を説明する図である。図７は、実施例１にかかる学習処理の全体的な流れを示すフローチャートである。図８は、実施例１にかかるノード内で実行される処理の基本的な流れを示すフローチャートである。図９は、実施例１にかかる各ノードで実行される処理の流れを示すフローチャートである。図１０は、実施例１にかかる各ノードにおける演算処理の流れを示すフローチャートである。図１１は、実施例１にかかる各ノードの詳細な処理の流れを示すフローチャートである。図１２は、効果を説明する図である。図１３は、実施例２にかかる計算グラフを説明する図である。図１４は、実施例２にかかるユーザの利用シーンの流れを示すフローチャートである。図１５は、実施例２にかかるノード内で実行される処理の基本的な流れを示すフローチャートである。図１６は、実施例２にかかる統計情報の更新処理の流れを示すフローチャートである。図１７は、実施例３にかかる動的な計算グラフに対する統計情報の管理を説明する図である。図１８は、実施例３にかかる静的な計算グラフに対する統計情報の管理を説明する図である。図１９は、実施例３の統計情報（経路）を用いた演算処理の具体例を説明する図である。図２０は、実施例３の統計情報（イテレーション）を用いた演算処理の具体例を説明する図である。図２１は、実施例３の統計情報（異常）を用いた演算処理の具体例を説明する図である。図２２は、ハードウェア構成例を示す図である。

以下に、本願の開示する学習プログラムおよび学習方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［情報処理装置の説明］
実施例１にかかる情報処理装置１０は、深層学習などの機能を提供する機械学習フレームワークを用いて、機械学習のモデル構築を実行するコンピュータの一例である。機械学習のモデルで使用される計算モデル（ニューラルネットワーク）の構築には、「Define and Run（静的な計算グラフ）」と「Define by Run（動的な計算グラフ）」の２つの手法が利用される。

「Define and Run」は、計算グラフの定義が演算と独立して行われるので、フレームワークが演算のフェーズに入ると計算グラフの構造が変化することはない。一方、「Define by Run」は、学習のたびに、計算モデルの定義と演算が実行され、計算モデルが動的に変化する。いずれの手法であっても、学習前半（事前学習）は、イテレーション間の数値の変動やテンソルが持つ値の分散の大きいので、３２ビット浮動小数点を用いて学習を行い、学習後半（本学習）では、小数点位置が可変である８ビット固定小数点（DLINT）を用いて学習を行うことで、演算処理の最適化を実現する。

実施例１では、学習後半において小数点位置の特定が煩雑で調整することがより難しい「Define by Run（動的な計算グラフ）」を例にして説明する。図１は、実施例１にかかる情報処理装置１０を説明する図である。図１に示すように、情報処理装置１０は、ユーザが解きたい問題の入力を受け付けると、解を導出するための計算モデルを定義し、その計算モデルの学習を行うことで、問題の解を導出する。

図１に示す計算モデルの例は、イテレーション＝ｉとイテレーション＝ｉ＋１によってグラフの構造が変わる構造を示している。一般的に、「計算グラフ構造情報」により特定できる各ノードに対応付けて統計情報を管理し、計算グラフの各ノードにおいて演算を行う場合に、現在のイテレーションの小数点位置の代わりに、それより前のイテレーションの対応する演算の出力の統計情報を用いて学習を行う。

ここで、「Define and Run」では、計算グラフの構造が変わらないので、どのイテレーションであっても、それより前のイテレーションにおける該当ノードで使用された統計情報を正確に取得して演算を実行することができる。しかし、「Define by Run」では、学習段階で計算グラフの構造が随時変わるので、以前のイテレーションの該当ノードを特定することができない。例えば、図１のレイヤ（Layer）１の場合、すべてのテンソルがイテレーション＝ｉとイテレーション＝ｉ＋１で同じ経路を通っているので、同じ統計情報を参照する。一方、レイヤ２とレイヤ３は、イテレーション＝ｉとイテレーション＝ｉ＋１で異なる経路を通るので、異なる統計情報を参照する必要があるが、イテレーション＝ｉ＋１のレイヤ２からイテレーション＝ｉのレイヤ２を参照しても、ノードの配置が異なっており、統計情報を取得することができない。

そこで、実施例１にかかる情報処理装置１０では、「計算グラフ構造情報」から統計情報を参照するためのキーを生成するのではなく、「テンソルが辿った演算経路」から統計情報を参照するキーを生成する。具体的には、情報処理装置１０は、入出力テンソルのハッシュ値等で計算モデルが定義できる仕組みを生成し、「テンソルが辿った演算経路」を考慮しなくても演算ができる仕組みを実現する。すなわち、情報処理装置１０は、学習の段階ごとに、演算結果のビット分布の統計情報を取得し、テンソルが辿った演算経路をもとに動的にキーを生成して、統計情報を管理する。

例えば、情報処理装置１０は、各ノードにおいて、流れてくる入力テンソルが持つキーから入力の統計情報を取得し、そのキーと演算の内容からハッシュ関数を用いてハッシュ値（経路ハッシュ値）を計算し、そのハッシュ値と統計情報とを対応付けて管理する。このようにすることで、グラフ構造に関係なく、経路や演算種類により特定されるハッシュ値に基づき統計情報を参照することができるので、現イテレーションより前のイテレーションの統計情報を正確に取得でき、固定小数点の位置を正しく調整して学習精度の低下を抑制することができる。

（利用シーン）
次に、ユーザが情報処理装置１０を利用して計算モデルを学習する際のフローを説明する。図２は、実施例１にかかるユーザの利用シーンの流れを示すフローチャートである。図２に示すように、ユーザが解きたい問題に関する情報を情報処理装置１０に入力すると（Ｓ１０１）、情報処理装置１０は、一般的な機械学習アルゴリズムを用いて、入力された情報から計算グラフおよび演算経路を決定する（Ｓ１０２）。

続いて、情報処理装置１０は、各ノードにおいて演算処理を実行する（Ｓ１０３からＳ１０４）。具体的には、情報処理装置１０は、入力テンソルの情報を用いて、該ノードに設定される演算処理を実行するとともにハッシュ値を生成し、演算結果およびハッシュ値を出力テンソルとして次のノードに出力する。

その後、情報処理装置１０は、学習が完了して計算モデルの構造が確定すると、ユーザが理解できる解の形に変換して（Ｓ１０５）、ユーザが解きたい問題の解をディスプレイ、記憶部、ユーザ端末等に出力する（Ｓ１０６）。このように、ユーザは、計算モデルの構造等を意識して統計情報の参照等を定義することがないので、従来と変わらない負担で、従来よりも正確な解を取得することができる。

［機能構成］
図３は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図３に示すように、情報処理装置１０は、学習データ記憶部１１、深層学習フレームワーク実行部２０、深層学習専用演算部３０を有する。

学習データ記憶部１１は、学習モデルに対応する計算モデルの学習に利用される学習データ（訓練データ）を記憶するデータベース等である。例えば、学習データ記憶部１１は、教師ラベルなどの正解情報と、計算モデルに入力されるデータとを対応付けた学習データを記憶する。なお、学習データは、ユーザが解きたい問題や学習内容により任意に設定することができる。また、学習データ記憶部１１は、ハードディスクなどに記憶される。

深層学習フレームワーク実行部２０は、ディープラーニングなどの深層学習などの各種機能を提供する処理部である。例えば、深層学習フレームワーク実行部２０は、ユーザの入力に応じて計算モデルを構築して学習し、学習に応じた計算モデルの構造の動的変更などを含む深層学習を実行して、ユーザが解きたい問題の解の生成する処理部である。

この深層学習フレームワーク実行部２０は、統計情報ＤＢ２１、学習データ読込部２２、実行状態制御部２３、演算部２４、データベース管理部２５を有する。なお、深層学習フレームワーク実行部２０は、ＣＰＵ（Central Processing Unit）などのプロセッサなどにより実行される処理部であり、ＣＰＵが有する電子回路の一例やＣＰＵが実行するプロセスの一例である。

統計情報ＤＢ２１は、テンソルが持つデータの分布範囲の情報であり、DLINT演算を行う際の有効桁数を決定するために用いられる情報である。図４は、統計情報の一例を示す図である。図４に示すように、統計情報ＤＢ２１は、「Ｋｅｙ」と「統計情報格納アドレス」とが対応付けられた情報を記憶するデータベースであり、メモリなどに記憶される。ここで、「Ｋｅｙ」は、入力テンソルの情報等を用いて生成されるハッシュ値であり、テンソルが辿った演算経路を特定する情報である。「統計情報格納アドレス」は、統計情報が格納されるメモリ等の位置を示す情報である。図４では、「hash1」で特定される演算経路に該当する統計情報がメモリの「0x00000001」に格納されていることを示す。なお、「統計情報格納アドレス」ではなく、統計情報そのものを格納することもできる。

学習データ読込部２２は、学習データ記憶部１１から学習データを読み込んで、各種処理部に出力する処理部である。例えば、学習データ読込部２２は、学習が終了するまで、学習データを読み込み、実行状態制御部２３に出力する。学習を終了するタイミングは、すべての学習データを用いた学習が完了した時点、所定数以上の学習データを用いた学習が完了した時点や復元誤差が閾値未満となった時点など、任意に設定することができる。

実行状態制御部２３は、データ読込制御部２３ａ、アクセスキー生成部２３ｂ、演算指示部２３ｃを有し、計算モデルや計算モデルに含まれる各ノードの実行状態を制御する処理部である。例えば、実行状態制御部２３は、学習データに対する計算モデルの演算結果に応じた計算モデルの構造（ノードの配置、演算内容）の動的変更などを実行する。

データ読込制御部２３ａは、各種データの読み込みを実行する処理部である。例えば、データ読込制御部２３ａは、学習データ読込部２２により取得された学習データを計算モデルに入力する。また、データ読込制御部２３ａは、計算モデルを構成する各計算ノード（以下では単にノードと記載する場合がある）に対応するキーを生成するための各種情報として、例えば入力テンソルのキー（ハッシュ値）、計算ノードの演算種類や演算パラメータなどを取得してアクセスキー生成部２３ｂ等に出力する。また、データ読込制御部２３ａは、計算ノードの演算種類や演算パラメータなどを取得して、演算指示部２３ｃに出力する。

アクセスキー生成部２３ｂは、統計情報の取得等に利用するキーを生成する処理部である。例えば、アクセスキー生成部２３ｂは、データ読込制御部２３ａにより取得された入力テンソルのキー（ハッシュ値）、計算ノードの演算種類や演算パラメータなどを用いて、計算ノードのキー（ハッシュ値）を算出する。そして、アクセスキー生成部２３ｂは、算出されたキーを演算指示部２３ｃやデータベース管理部２５に出力する。

演算指示部２３ｃは、計算ノードが実行する演算に利用する情報を出力する処理部である。例えば、演算指示部２３ｃは、データ読込制御部２３ａから通知された計算ノードの演算種類や演算パラメータと、アクセスキー生成部２３ｂから出力されたキーとを、演算部２４に出力する。

演算部２４は、機械学習のための演算の前処理や、それに係わるメモリ制御などを実行する処理部である。例えば、演算部２４は、学習前半の事前学習の場合、計算ノードの演算種類や演算パラメータを深層学習専用演算部３０に出力して、３２ビット浮動小数点による演算（FLOAT演算）を要求する。

また、演算部２４は、学習後半の本学習の場合、アクセスキー生成部２３ｂから取得したキーに対応する統計情報格納アドレスを統計情報１２から取得し、取得した統計情報格納アドレスに記憶される統計情報をメモリから取得する。そして、演算部２４は、統計情報にしたがって演算の小数点位置を特定する。その後、演算部２４は、計算ノードの演算種類や演算パラメータと小数点位置とを深層学習専用演算部３０に出力して、DLINT演算を要求する。なお、学習前半か学習後半かの判断は、学習が開始されたからの時間や学習回数が閾値を越えたか否か、復元誤差が閾値未満となった時点など、任意に設定することができる。

データベース管理部２５は、アクセスキー存在判定部２５ａとデータベース更新部２５ｂを有し、統計情報ＤＢ２１の管理を行う処理部である。

アクセスキー存在判定部２５ａは、アクセスキー生成部２３ｂにより生成されたキーが統計情報ＤＢ２１に登録されているか否かを判定する処理部である。例えば、アクセスキー存在判定部２５ａは、キーが登録されている場合、キーに対応する統計情報格納アドレスを取得して、実行状態制御部２３や演算部２４に出力する。この場合、統計情報により特定される小数点位置でDLINT演算が実行される。

一方、アクセスキー存在判定部２５ａは、キーが登録されていない場合、統計情報格納アドレスが存在しないことを実行状態制御部２３や演算部２４に出力する。この場合、FLOAT演算が実行される。

データベース更新部２５ｂは、統計情報ＤＢ２１の更新管理を行う処理部である。例えば、データベース更新部２５ｂは、新たにキーが生成された場合、統計情報が格納される統計情報格納アドレスとキーとを対応付けて、統計情報ＤＢ２１に新規登録する。また、データベース更新部２５ｂは、登録済みのキーに対応する統計情報が読み出された場合、読み出された統計情報を用いた演算完了後に、統計情報ＤＢ２１を演算後の統計情報を用いて更新する。

深層学習専用演算部３０は、計算ノードの各種演算を実行する処理部である。例えば、深層学習専用演算部３０は、事前学習が指示された場合、通知された計算ノードの演算種類や演算パラメータを用いて、３２ビット浮動小数点による演算（FLOAT演算）を実行し、演算結果を深層学習フレームワーク実行部２０に出力する。

また、深層学習専用演算部３０は、本学習が指示された場合、通知された計算ノードの演算種類や演算パラメータを用いて、通知された小数点位置を用いたDLINT演算を実行し、演算結果を深層学習フレームワーク実行部２０に出力する。なお、深層学習専用演算部３０は、ディープラーニング専用ＡＩ（Artificial Intelligence）プロセッサ（ＤＬＵ）などにより実行される処理部であり、ＤＬＵが有する電子回路の一例やＤＬＵが実行するプロセスの一例である。

［ノードにおける処理］
次に、各ノードの演算時に実行される処理について説明する。ここでは、ハッシュ値の生成、ノードにおける演算について説明する。

（ハッシュ値の生成）
図５は、各ノードにおけるハッシュ値の生成を説明する図である。図５では、ノードＣについて統計情報とキーの対応付けを生成する例を説明する。ノードＣ（Add＿1）では、関数ｆ、変数をIn1、In2、add、scaleを変数とする関数ｆが実行されて、「scale・（In1＋In2）」が出力される。

図５に示すように、深層学習フレームワーク実行部２０は、ノードＡからノードＣに入力される入力テンソルに含まれるハッシュ値In1（0xFF22ABAA）と、ノードＢからノードＣに入力される入力テンソルに含まれるハッシュ値In2（0xFAF34702）とを取得する。また、深層学習フレームワーク実行部２０は、ノードＣの演算種類（add）と演算パラメータ（scale＝１）を取得する。

そして、深層学習フレームワーク実行部２０は、ハッシュ値In1（0xFF22ABAA）とハッシュ値In2（0xFAF34702）と演算種類（add）と演算パラメータ（scale＝１）とを入力してハッシュ関数に入力して、ハッシュ値（0xDA320011）を算出する。

その後、深層学習フレームワーク実行部２０は、算出されたハッシュ値（0xDA320011）をキーにして統計情報を取得して、演算処理を実行する。また、深層学習フレームワーク実行部２０は、算出されたハッシュ値（0xDA320011）に対応する統計情報を更新する。そして、深層学習フレームワーク実行部２０は、算出されたハッシュ値（0xDA320011）を次のノードＤに出力する。ここで得られるハッシュ値は、テンソルが辿る演算経路について一意であることから、演算経路で使用される統計情報と対応付けることで、イテレーション間を跨っても、同じ演算経路のノードには同じ統計情報を参照させることができる。

（演算処理の説明）
図６は、各ノードにおける演算を説明する図である。図６に示す横軸は、計算グラフの演算方向を示し、縦軸は、イテレーション方向を示す。図６では、各ノードにおいて、入力テンソルの情報から出力テンソルで利用するＱ値を取得してDLINT演算が行われる一連の流れを説明する。なお、Ｑ値は、統計情報から求まる値であり、DLINT演算の小数点位置の決定に利用される。

図６に示すように、イテレーション＝ｔでは、ノードＡ、ノードＢ、ノードＣの順で演算が行われる計算グラフが生成されている。ノードＡでは、算出されたキー（ハッシュ値）を用いて、１つ前のイテレーションで生成された統計情報Ｃ_ａ ^ｔ－１を取得し、統計情報から得られるＱ_ａ ^ｔ－１を用いてDLINT演算が行われ、統計情報Ｃ_ａ ^ｔ－１が統計情報Ｃ_ａ ^ｔに更新される。次に、ノードＢでは、算出されたキーを用いて、２つ前のイテレーションで生成された統計情報Ｃ_ａ→ｂ ^ｔ－２を取得し、統計情報から得られるＱ_ａ→ｂ ^ｔ－２を用いてDLINT演算が行われ、統計情報Ｃ_ａ→ｂ ^ｔ－２が統計情報Ｃ_ａ→ｂ ^ｔに更新される。また、ノードＣでは、算出されたキーを用いて、１つ前のイテレーションで生成された統計情報Ｃ_{ａ→ｂ→ｃ} ^ｔ－１を取得し、統計情報から得られるＱ_{ａ→ｂ→ｃ} ^ｔ－１を用いてDLINT演算が行われ、統計情報Ｃ_{ａ→ｂ→ｃ} ^ｔ－１が統計情報Ｃ_{ａ→ｂ→ｃ} ^ｔに更新される。

次のイテレーション＝ｔ＋１では、ノードＡ、ノードＣの順で演算が行われる計算グラフが生成されている。なお、イテレーション＝ｔ＋１のノードＣは、ノードＡを経由する演算経路であることから、イテレーション＝ｔのノードＣとは異なる演算経路で実行されるノードである。ノードＡでは、算出されたキーを用いて、１つ前のイテレーションで生成された統計情報Ｃ_ａ ^ｔを取得し、統計情報から得られるＱ_ａ ^ｔを用いてDLINT演算が行われ、統計情報Ｃ_ａ ^ｔが統計情報Ｃ_ａ ^ｔ＋１に更新される。また、ノードＣでは、算出されたキーを用いて、グラフ構造が異なる１つ前のイテレーションではなく、グラフ構造が同じである２つ前のイテレーションで生成された統計情報Ｃ_ａ→ｃ ^ｔ－１を取得し、統計情報から得られるＱ_ａ→ｃ ^ｔ－１を用いて演算が行われ、統計情報Ｃ_ａ→ｃ ^ｔ－１が統計情報Ｃ_ａ→ｃ ^ｔ＋１に更新される。

なお、次のイテレーション＝ｔ＋２では、２つ前のイテレーション＝ｔと同じノードＡ、ノードＢ、ノードＣの順で演算が行われる計算グラフが生成されているので、各ノードでは、ハッシュ値に用いて２つ前のイテレーション＝ｔで使用された統計情報を用いたDLINT演算が実行される。ただし、ノードＡについては、１つ前のイテレーション＝ｔ＋１と同様に計算グラフの先頭に位置するので、２つ前のイテレーション＝ｔではなく、１つ前のイテレーション＝ｔ＋１で使用された統計情報の取得が行われる。

［処理の流れ］
次に、情報処理装置１０が実行する各処理について説明する。まず、全体的な流れを説明した後に、詳細な流れを説明する。図７は、実施例１にかかる学習処理の全体的な流れを示すフローチャートである。

図７に示すように、情報処理装置１０は、管理者等により処理が指示されると（Ｓ２０１：Ｙｅｓ）、ユーザが指定する解きたい問題に対応する計算モデルを生成する（Ｓ２０２）。なお、計算モデルの生成手法は、一般的な深層学習フレームワークと同様の手法を採用することができる。

続いて、情報処理装置１０は、事前学習を実行して計算グラフ（学習モデル）の学習を実行し（Ｓ２０３）、学習の前半が終了するまで（Ｓ２０４：Ｎｏ）、事前学習を繰り返す。

一方、情報処理装置１０は、学習の前半が終了すると（Ｓ２０４：Ｙｅｓ）、本学習（DLINT）を実行して計算グラフの学習を実行し（Ｓ２０５）、学習が終了すると、学習結果を出力する（Ｓ２０６）。

（ノード内の基本的な流れ）
図８は、実施例１にかかるノード内で実行される処理の基本的な流れを示すフローチャートである。図８に示すように、深層学習フレームワーク実行部２０は、該当ノードに設定されている演算内容の決定や演算種類の取得などを行う演算定義を取得する（Ｓ３０１）。

続いて、深層学習フレームワーク実行部２０は、入力テンソルのハッシュ値を取得し（Ｓ３０２）、演算種類や入力テンソルのハッシュ値等に基づいて出力テンソルのハッシュ値を生成する（Ｓ３０３）。

そして、深層学習フレームワーク実行部２０は、出力テンソルのハッシュ値に基づいて、統計情報ＤＢ２１から該当する統計情報を取得し（Ｓ３０４）、演算を実行する（Ｓ３０５）。このとき、深層学習フレームワーク実行部２０は、事前学習のタイミングの場合は、３２ビット浮動小数点を用いて学習を実行し、本学習のタイミングの場合は、統計情報にしたがって小数点位置でDLINT演算による学習を実行する。

その後、深層学習フレームワーク実行部２０は、統計情報を更新し（Ｓ３０６）、出力テンソルに上記で生成した出力テンソル用のハッシュ値を付与して出力する（Ｓ３０７）。

（各ノードの処理）
図９は、実施例１にかかる各ノードで実行される処理の流れを示すフローチャートである。図９に示すように、深層学習フレームワーク実行部２０は、計算グラフを読み込むと（Ｓ４０１）、処理対象のノードに設定される演算の種類や演算パラメータを取得する（Ｓ４０２）。

続いて、深層学習フレームワーク実行部２０は、処理対象のノードが入力を待つノードに該当する場合（Ｓ４０３：Ｙｅｓ）、入力テンソルのハッシュ値を取得し（Ｓ４０４）、入力テンソルのハッシュ値、演算種類、演算パラメータに基づいて、出力テンソルのハッシュ値を生成する（Ｓ４０５）。

一方、深層学習フレームワーク実行部２０は、処理対象のノードが入力を待つノードに該当しない場合（Ｓ４０３：Ｎｏ）、ノード名を取得し（Ｓ４０６）、ノード名、演算種類、演算パラメータに基づいて、出力テンソルのハッシュ値を生成する（Ｓ４０７）。

その後、深層学習フレームワーク実行部２０は、上記出力テンソル用のハッシュ値を用いて統計情報ＤＢ２１にアクセスし（Ｓ４０８）、当該ハッシュ値が登録されているか否かを判定する（Ｓ４０９）。

そして、深層学習フレームワーク実行部２０は、ハッシュ値が登録されている場合（Ｓ４０９：Ｙｅｓ）、ハッシュ値をキーとして統計情報を取得し（Ｓ４１０）、取得された統計情報に基づく小数点位置による固定小数点を用いて本学習を実行する（Ｓ４１１）。

一方、深層学習フレームワーク実行部２０は、ハッシュ値が登録されていない場合（Ｓ４０９：Ｎｏ）、浮動小数点を用いて事前学習を実行する（Ｓ４１２）。なお、ハッシュ値が登録されている場合であっても、学習前半では、FLOAT演算による事前学習を実行することができる。

（演算処理）
図１０は、実施例１にかかる各ノードにおける演算処理の流れを示すフローチャートである。図１０に示すように、深層学習フレームワーク実行部２０は、入力テンソルのキーと演算の種類や演算パラメータなどからハッシュ値を生成する（Ｓ５０１）。そして、深層学習フレームワーク実行部２０は、ハッシュ値をキーとする統計情報が統計情報ＤＢ２１に登録されているか否かを判定する（Ｓ５０２）。

ここで、深層学習フレームワーク実行部２０は、統計情報が登録されていない場合（Ｓ５０２：Ｎｏ）、処理のデータ型が固定小数点か否かを判定する（Ｓ５０３）。そして、深層学習フレームワーク実行部２０は、処理のデータ型が固定小数点である場合（Ｓ５０３：Ｙｅｓ）、データ型を浮動小数点に変換する（Ｓ５０４）。

その後、深層学習フレームワーク実行部２０は、浮動小数点による演算を実行し（Ｓ５０５）、ハッシュ値と統計情報を対応付けて、統計情報ＤＢ２１への登録または更新する（Ｓ５０６）。

一方、深層学習フレームワーク実行部２０は、統計情報が登録されている場合（Ｓ５０２：Ｙｅｓ）、入力テンソルの統計情報を取得し（Ｓ５０７）、出力テンソルの統計情報を統計情報ＤＢ２１から取得する（Ｓ５０８）。

そして、深層学習フレームワーク実行部２０は、メモリ制御などの統計情報を用いた機械学習の一般的な前処理を実行し（Ｓ５０９）、固定小数点による演算を実行する（Ｓ５１０）。その後、深層学習フレームワーク実行部２０は、統計情報ＤＢ２１においてキーに対応する統計情報を更新する（Ｓ５１１）。その後、深層学習フレームワーク実行部２０は、出力テンソルにハッシュ値を付与する（Ｓ５１２）。

（ノードの詳細処理）
図１１は、実施例１にかかる各ノードの詳細な処理の流れを示すフローチャートである。ここでは、DLINT演算を行う本学習について説明する。図１１に示すように、「Define by Run」による定義情報から、演算種別、演算パラメータ、初期ハッシュ値を取得し、これらを用いてハッシュ値が生成される。

そして、先頭のノードにおいて、生成されたハッシュ値と学習データが入力テンソルとして入力され、該ノードの演算種別および演算パラメータと、入力テンソルとに基づき、新たなハッシュ値が生成される。続いて、生成されたハッシュ値に対応する統計情報が取得され、固定小数点位置が決定される。その後、該ノードの演算種別および演算パラメータと、入力テンソルと、固定小数点位置とに基づいたDLINT演算が実行され、演算結果とハッシュ値とを含む出力テンソルが次のノードに出力される。

先頭のノード以降では、前のノードの出力テンソルが入力テンソルとして入力され、該ノードの演算種別および演算パラメータと、入力テンソルとに基づき、新たなハッシュ値が生成される。続いて、生成されたハッシュ値に対応する統計情報が取得され、固定小数点位置が決定される。その後、該ノードの演算種別および演算パラメータと、入力テンソルと、固定小数点位置とに基づいたDLINT演算が実行され、演算結果とハッシュ値とを含む出力テンソルが次のノードに出力される。

このようにして、各ノードでは、入力テンソルや演算内容に基づいたハッシュ値が生成され、生成されたハッシュ値と統計情報とを対応付けた管理が実行される。

［効果］
一般的に、グラフが動的に変化する場合、過去に一度も実行されたことのないノードであれば該当する統計情報が存在せず参照できない。一方で、情報処理装置１０は、各ノードで実行される演算をイテレーション間で正しく対応付けを行うことで適切な統計情報を参照し、固定小数点の位置を調整することができる。また、情報処理装置１０は、計算グラフやノードが変化した場合においても、正しく統計情報を参照し、計算グラフが動的に変わらない場合と同様に学習を行うことができる。

このように、情報処理装置１０は、「テンソルが辿った演算経路」をもとに、動的にキーを生成して、統計情報のデータベースを参照することで、本学習中に計算グラフやノードが変化した場合でも、過去のイテレーションから対応する統計情報を見つけ出すことができ、DLINT演算を成立させることができる。

図１２は、効果を説明する図である。図１２に示すように、事前学習、本学習を順次行うことで、学習が進み、誤差が徐々に小さくなっていく。ここで、一般的な技術では、本学習において、演算経路が変わったことにより、テンソルが持つ値が大きく変わった場合に、その変化を検知できない。このため、一般的な技術では、間違った統計情報を参照した場合、小数点位置を誤って設定してしまう。例えば、８ビット固定小数点では、符号ビットを除く７ビット間で最大２の７乗＝１２８倍のエラーが生じてしまい、学習が破綻してしまう。

一方、実施例１にかかる情報処理装置１０は、計算グラフの変化によってテンソルの辿ってきた経路が変化した場合に、演算時にそれを検知することが可能となり、過去の同じ経路を辿ったときの統計情報を参照することができるので、学習を成立させることができ、学習精度の低下を抑制することができる。

ところで、実施例１では、「Define by Run」で生成される計算グラフを例にして説明したが、これに限定されるものではなく、「Define and Run」で生成される計算モデルについても適応することができる。そこで、実施例２では、「Define and Run」を例にして説明する。

［実施例２にかかる計算グラフ］
「Define and Run」は、計算グラフの定義が演算と独立して行われるので、フレームワークが演算のフェーズに入ると計算グラフの構造が変化することはない。この場合は、統計情報を保存するデータベースへのアクセスキーとして演算の構造情報を用いる。つまり、実施例２では、各演算をどの計算グラフ上のどのノードの何番目の演算なのかを厳密に構造化し、その構造の情報から一意なキーを生成して統計情報と紐づけることで参照を可能とする。

図１３は、実施例２にかかる計算グラフを説明する図である。図１３には、計算グラフの１つとして、Input１とInput２とが入力され、Input１とInput２とを加算（add）して出力する構造であるグラフ１（Graph１）を示す。ここで、統計情報を管理するデータベースのキーは、演算の出力テンソルを指定して作成されているので、結果として入力テンソルのキーは、前のノードで作成されている。そして、出力テンソルの統計情報は、構造情報からキーを生成する。これらのキーを用いて、データベースから前イテレーションの統計情報を取得する。

例えば、実施例２では、構造情報として、演算をしているグラフ名とノード名を用いる。図１３に示すように、Graph（グラフ）１のノード「Input１」に対して、キーとして「グラフ名／ノード名＝Graph１／Input１」を生成し、統計情報の格納アドレスとして「0x00000000」を割与える。また、Graph１のノード「Input２」に対して、キーとして「Graph１／Input２」を生成し、統計情報の格納アドレスとして「0x00000001」を割与える。同様に、Graph１のノード「Add」に対して、キー「Graph１／Add」を生成し、統計情報の格納アドレスとして「0x00000002」を割与え、Graph１のノード「Output」に対して、キー「Graph１／Output」を生成し、統計情報の格納アドレスとして「0x00000003」を割与える。

このように、各ノードにキーを付与し、各ノードの統計情報を管理するデータベースを生成する。このようなデータベースの構築は事前学習中に行われ、本学習では、構築されたデータベースを基に統計情報を参照し、演算を行うたびに統計情報が更新される。

（利用シーン）
次に、ユーザが実施例２にかかる計算モデルを学習する際のフローを説明する。図１４は、実施例２にかかるユーザの利用シーンの流れを示すフローチャートである。図１４に示すように、ユーザが解きたい問題に関する情報を情報処理装置１０に入力すると（Ｓ６０１）、情報処理装置１０は、一般的な機械学習アルゴリズムによる「Define and Run」に基づき、入力された情報から計算グラフおよび演算経路を決定する（Ｓ６０２）。

続いて、情報処理装置１０は、各ノードにおいて演算処理を実行する（Ｓ６０３からＳ６０４）。具体的には、各ノードでは、入力テンソルから統計情報の取得が実行され、統計情報を用いて該ノードに設定される演算処理が実行され、演算結果を含む出力テンソルが次のノードに出力される。このとき、演算結果とともに統計情報も出力することができる。

なお、事前学習では、ノードの演算ごとに、キーが生成されて統計情報と対応付けてＤＢに登録される。また、本学習では、ノードの演算ごとに、生成されたキーに対応する統計情報が読み出されて演算が実行されてＤＢが更新される。

その後、情報処理装置１０は、学習が完了して計算モデルの構造が確定すると、ユーザが理解できる解の形に変換して（Ｓ６０５）、ユーザが解きたい問題の解をディスプレイ、記憶部、ユーザ端末等に出力する（Ｓ６０６）。

［処理の流れ］
図１５は、実施例２にかかるノード内で実行される処理の基本的な流れを示すフローチャートである。図１５に示すように、情報処理装置１０の深層学習フレームワーク実行部２０は、処理が開始されると、入力テンソルから統計情報を取得し（Ｓ７０１）、グラフ名やノード名などの計算グラフの構造情報を取得する（Ｓ７０２）。

続いて、深層学習フレームワーク実行部２０は、出力テンソルに対して構造情報からキーを生成し（Ｓ７０３）、出力テンソルのキーに基づいて統計情報を統計情報ＤＢ２１から取得する（Ｓ７０４）。

そして、深層学習フレームワーク実行部２０は、取得された統計情報を用いて、固定小数点の演算処理を実行し（Ｓ７０５）、統計情報ＤＢ２１の統計情報を更新する（Ｓ７０６）。その後、深層学習フレームワーク実行部２０は、出力テンソルに上記出力テンソル用の統計情報を付与して出力する（Ｓ７０７）。

図１６は、実施例２にかかる統計情報の更新処理の流れを示すフローチャートである。図１６に示すように、深層学習フレームワーク実行部２０は、グラフ名やノード名などの計算グラフの構造情報を取得し（Ｓ８０１）、グラフ名とノード名に基づいて出力テンソルのキーを生成する（Ｓ８０２）。その後、深層学習フレームワーク実行部２０は、生成されたキーと、統計情報の格納アドレスとをセットで統計情報ＤＢ２１に保存する（Ｓ８０３）。

［効果］
一般的に、計算グラフの規模が大きくなった場合に、過去のイテレーションの演算と現在のイテレーションの演算を対応付けて管理することが困難になる。一方で、実施例２にかかる情報処理装置１０は、統計情報を管理するデータベースを構築することによって、イテレーションを跨いで演算を対応付け統計情報を参照することができる。したがって、実施例２にかかる情報処理装置１０は、メモリ容量の削減を行いつつ、精度の高い学習を実現することができる。

ところで、実施例１では、「Define by Run」で生成される計算グラフを例にして説明したが、グラフが動的に変化する場合、グラフ内の変化した部分において、事前学習が不十分な可能性があり、演算する数値の変動が小さくなるとは限らない。そこで、実施例３では、事前学習と本学習を経路ごとに管理することで、統計情報が存在しない場合や統計情報の信頼性が低い場合においても、計算グラフ内の浮動小数点で演算する範囲を必要最小限に抑える例を説明する。

［Define by Run］
図１７は、実施例３にかかる動的な計算グラフに対する統計情報の管理を説明する図である。図１７に示すように、イテレーション＝２４９９における計算グラフは、Input１、Input２、Add、Outputのノードで構成される。具体的には、ノード「Add」は、ノード「Input１」とノード「Input２」とから入力された入力テンソルに対して演算（Add）を実行し、ノード「Output」に出力する。ここで、ノード「Input１」ではハッシュ値「hash１」が生成され、ノード「Input２」ではハッシュ値「hash２」が生成される。ノード「Add」では、ノード「Input１」のハッシュ値「hash１」とノード「Input２」のハッシュ値「hash２」とを用いて、ハッシュ値「hash３」が生成される。ノード「Output」では、ノード「Add」のハッシュ値「hash３」を用いて、ハッシュ値「hash４」が生成される。

また、次のイテレーション＝２５００における計算グラフは、Input１、Input２、Mul、Outputのノードで構成される。具体的には、ノード「Add」は、ノード「Input１」とノード「Input２」とから入力された入力テンソルに対して演算（Mul）を実行し、ノード「Output」に出力する。ここで、ノード「Input１」ではハッシュ値「hash１」が生成され、ノード「Input２」ではハッシュ値「hash２」が生成される。ノード「Mul」では、ノード「Input１」のハッシュ値「hash１」とノード「Input２」のハッシュ値「hash２」とを用いて、ハッシュ値「hash５」が生成される。ノード「Output」では、ノード「Mul」のハッシュ値「hash５」を用いて、ハッシュ値「hash６」が生成される。

すなわち、イテレーション＝２４９９の計算グラフと、イテレーション＝２５００のグラフとでは、ノードの数が同じではあるが、演算経路が異なっている。具体的には、ノード「Add」とノード「Mul」とは、入力ノードは同じであるものの、演算内容が異なる。このため、イテレーション＝２４９９のノード「Output」とイテレーション＝２５００のノード「Output」では、演算経路が異なる。

このような動的な計算グラフの学習において、実施例３では、統計情報ＤＢ２１にハッシュ値とセットで実行状態を保存する。実行状態には、例えば「経路を通った回数」や「統計情報を最後に更新したiteration」を登録する。「経路を通った回数」は、事前学習と本学習を経路ごとに区別するために用いる。十分に演算が繰り返された経路は値の変動も小さくなっていると考えられるので、閾値を設定し、通った回数が閾値を上回った経路から本学習へと遷移する。

統計情報ＤＢ２１上の「統計情報を最後に更新したiteration」は、本学習に遷移した経路において、しばらくの間通らなかった経路を検知するために用いる。このような経路では本学習が進む間に、データベースの統計情報が妥当なものでなくなってしまっている可能性があるので、「統計情報を最後に更新したiteration」が現在のiterationから閾値以上離れている場合、新規の経路の場合と同様に浮動小数点に変換してFLOAT演算を行い、その結果を用いて統計情報を更新する。

このように、グラフ上の事前学習が不十分だったり統計情報が古くて信頼できなかったりする場合は、その経路についてのみ浮動小数点で演算することで、必要最小限の影響範囲で事前学習が不十分な状態でのDLINT演算を避けることができる。

図１７の例で、「経路を通った回数」が閾値（１３００）以上の場合にはDLINT演算を実行し、それ以外の場合はFLOAT演算を実行することとすると、イテレーション＝２４９９のノード「Add」とノード「Output」では、DLINT演算が実行され、イテレーション＝２５００のノード「Mul」とノード「Output」では、FLOAT演算が実行される。つまり、各ノード「Output」について、ノード「Add」を通ったルートとノード「Mul」を通ったルートで統計情報を分けることができる。また、データベースは演算経路ごとに実行状態を持つため、演算経路ごとにDLINT演算と浮動小数点演算を使い分けることができる。なお、この方法は「Define and Run」の静的な計算グラフにも適応できる。ただし、ハッシュ関数生成をする際に演算コストがかかるので、グラフが動的に変化しない場合には「構造情報によるアクセスキー生成」を用いる方が好ましい。

［Define and Run］
Define and Runで構築された計算グラフでも演算に用いるパラメータや入力テンソルによってノード内の計算が変わる場合が存在する。このとき、ノード内においてもノード外と同様に「経路によるキー」を生成することによって、適切な統計情報を参照することができる。

図１８は、実施例３にかかる静的な計算グラフに対する統計情報の管理を説明する図である。図１８は、ノード内で条件分岐によって異なる演算が行われる例である。Core演算ａ，ｂ，ｃ，ｄはそれぞれ統計情報を必要とする演算である。このとき、ｄの演算では、ａ→ｂ→ｄと演算が行われた場合とａ→ｃ→ｄと演算が行われた場合とで、統計情報が変わる可能性があるので、統計情報ＤＢのエントリを分ける必要がある。ここで、演算経路に依存したキーを生成することで、これらのエントリを分けることができる。

例えば、イテレーション＝２４９９のノードｄは、ノードｂのハッシュ値「hash４」を用いて生成したハッシュ値「hash５」により統計情報を管理し、イテレーション＝２５００のノードｄは、ノードｃのハッシュ値「hash６」を用いて生成したハッシュ値「hash７」により統計情報を管理する。

図１８の例において、「経路を通った回数」が閾値（１３００）以上の場合にはDLINT演算を実行し、それ以外の場合はFLOAT演算を実行することとする。すると、イテレーション＝２４９９のノード「Output（hash４）」では、経路を通った回数が１５００回であることから、DLINT演算が実行され、イテレーション＝２５００のノード「Output（hash６）」では、経路を通った回数が１０００回であることから、FLOAT演算が実行される。つまり、ノード内であっても、演算ルートにより統計情報を分けることができる。

［具体例］
次に、図１９から図２１を用いて、実行状態に基づき演算方式の判定の具体例を説明する。図１９から図２１の例は、いずれもノードＡ、ノードＢ、ノードＣ、ノードＤから構成され、ノードＤには、ノードＡ→ノードＢ→ノードＤの演算経路と、ノードＡ→ノードＣ→ノードＤの演算経路とが存在する。

図１９は、実施例３の統計情報（経路）を用いた演算処理の具体例を説明する図である。図１９に示すように、ノードＡからノードＢへの経路を通った回数が２０００回、ノードＡからノードＣへの経路を通った回数が２０００回、ノードＢからノードＤへの経路を通った回数が５００回、ノードＣからノードＤへの経路を通った回数が２０００回であるとする。この場合に閾値を「１０００回」とすると、ノードＢでは、ノードＡからDLINT演算の結果が入力されるが、出力テンソルはFLOAT（浮動小数点）で出力される。このため、ノードＢでは、ノードＡからの入力テンソルに対して、キャストによるデータ型の変換を実行して、データ型を固定小数点型から浮動小数点型に変換する。そして、ノードＢは、FLOAT演算を実行して出力する。

上述したように、ノードＢでは、FLOAT演算が実行され、ノードＣでは、DLINT演算が実行される。そして、ノードＤでは、ノードＣから固定小数点型、ノードＢから浮動小数点型の入力テンソルが入力される。この場合、ノードＤでは、ノードＢの演算結果がまだ十分ではなく信頼性も高くないことから、ノードＣからの入力テンソルに対して、キャストによるデータ型の変換を実行する。そして、ノードＤでは、ノードＣからの入力とノードＢからの入力を用いて、FLOAT演算を実行して出力する。

図２０は、実施例３の統計情報（イテレーション）を用いた演算処理の具体例を説明する図である。図２０に示すように、ノードＡの学習回数が１２０００回、ノードＢの学習回数が１００００回、ノードＣの学習回数が１２０００回、ノードＤの学習回数が１２０００回であるとする。この場合に閾値を「１００００回」とすると、ノードＢでは、ノードＡからDLINT演算の結果が入力されるが、出力テンソルはFLOAT（浮動小数点）で出力される。このため、ノードＢでは、ノードＡからの入力テンソルに対して、キャストによるデータ型の変換を実行して、データ型を固定小数点型から浮動小数点型に変換する。そして、ノードＢは、FLOAT演算を実行して出力する。

上述したように、ノードＢでは、FLOAT演算が実行され、ノードＣでは、DLINT演算が実行される。そして、ノードＤでは、ノードＣから固定小数点型、ノードＢから浮動小数点型の入力テンソルが入力される。この場合、ノードＤでは、図１９と同様、ノードＣからの入力テンソルに対してデータ型の変換を実行し、FLOAT演算を実行して出力する。

図２１は、実施例３の統計情報（異常）を用いた演算処理の具体例を説明する図である。図２１に示すように、図１９や図２０の手法によって、各ノードのデータ型がDLINTと判定される状態にあるとする。この場合に、ノードＣについて、異常処理が発生したことを示すフラグが「異常」である場合、ノードＤでは、ノードＣの信頼性が低いと判定し、データ型の変換を実行し、ノードＣからの入力とノードＢからの入力を用いて、FLOAT演算を実行して出力する。

なお、異常発生から所定時間経過した場合、異常発生から所定回数以上の全体学習が実行された場合、または、異常発生したノードが異常発生から所定回数以上学習された場合などにより、異常発生から正常に復帰したと判定し、DLINT演算を実行することもできる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［データ等］
上記実施例で用いたデータ例、数値例、表示例等は、あくまで一例であり、任意に変更することができる。また、ノードの数や種類も一例であり、任意に変更することができる。上記実施例で説明した各手法は、ニューラルネットワークを含む様々な深層学習に適用することができる。

［データ型］
例えば、実施例３で説明した各手法において、FLOATと判断されたノード以降のノードもFLOATと判定される。また、統計情報ＤＢ２１に該当するハッシュ値がない場合は、その演算経路は過去に通ったことのない経路であり、参照すべき統計情報が存在しないことになる。その場合は、DLINT演算が不可能であるため、データ型を変換し、浮動小数点で演算を行う。演算後、テンソルが持つ値から統計情報を取得し、このノードで新たに発行したキーとペアでデータベースに登録する。このとき、これ以降の経路はすべて統計情報ＤＢ２１に存在しない経路となるため、この経路上のこれ以降の計算は浮動小数点のまま計算を行うこととなる。

［ハッシュ値］
上述したハッシュ値の算出には、例えば計算ノードの名前、各入力テンソルのもつキー、演算に必要なパラメータのうち統計情報の影響を与えうるもの、出力テンソルのインデックスなどを用いることができる。なお、出力インデックスは、複数の出力をもつ演算の場合にこれらを区別するために用いる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
次に、情報処理装置１０のハードウェア構成例を説明する。図２２は、ハードウェア構成例を示す図である。図２２に示すように、情報処理装置１０は、通信装置１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図２２に示した各部は、バス等で相互に接続される。

通信装置１０ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図３に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図３に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図３等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、情報処理装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、深層学習フレームワーク実行部２０、深層学習専用演算部３０等と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、深層学習フレームワーク実行部２０、深層学習専用演算部３０等と同様の処理を実行するプロセスを実行する。

このように、情報処理装置１０は、プログラムを読み出して実行することで学習方法を実行する情報処理装置として動作する。また、情報処理装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、情報処理装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。なお、深層学習フレームワーク実行部２０を実行するプロセッサと、深層学習専用演算部３０を実行するプロセッサの２つを配置することもできる。

１０情報処理装置
１１学習データ記憶部
２０深層学習フレームワーク実行部
２１統計情報ＤＢ
２２学習データ読込部
２３実行状態制御部
２３ａデータ読込制御部
２３ｂアクセスキー生成部
２３ｃ演算指示部
２４演算部
２５データベース管理部
２５ａアクセスキー存在判定部
２５ｂデータベース更新部
３０深層学習専用演算部

Claims

コンピュータに、
複数のノードを有する深層学習の対象である計算モデルの学習時に、前記学習時よりも前の各学習の段階でテンソルが辿った演算経路を示す経路情報と、前記演算経路で使用された小数点の位置に関する統計情報とが対応付けられた記憶部を参照し、
前記学習時において前記複数のノードそれぞれに設定される各演算処理を実行する場合に、前記複数のノードそれぞれに至る前記経路情報に対応する前記統計情報を取得し、
取得された前記統計情報により特定される小数点の位置を用いて、前記各演算処理を実行する
処理を実行させることを特徴とする学習プログラム。
前記計算モデルが学習の段階で構造が変化する動的なモデルの場合、前記経路情報と前記統計情報とを対応付けて前記記憶部に格納し、前記計算モデルが学習の段階で構造が変化しない静的なモデルの場合、前記複数のノードを特定する各識別情報と前記統計情報とを対応付けて前記記憶部に格納する、処理を前記コンピュータに実行させ、
前記取得する処理は、前記動的なモデルの学習時には前記経路情報の生成を実行し、前記静的なモデルの学習時には前記各識別情報の生成を実行する、ことを特徴とする請求項１に記載の学習プログラム。
ノードに入力される入力テンソルに関する情報と、前記ノードで実行される演算処理に関する情報とを用いてハッシュ値を算出し、
前記ノードで使用された前記統計情報を取得し、
前記ハッシュ値と前記統計情報とを対応付けて、前記記憶部に格納する、処理を前記コンピュータに実行させ、
前記取得する処理は、処理対象のノードに入力される入力テンソルと前記処理対象のノードで実行される前記演算処理に関する情報とを用いてハッシュ値を算出し、前記ハッシュ値に対応する前記統計情報を取得して、前記演算処理を実行することを特徴とする請求項１または２に記載の学習プログラム。
前記計算モデルの学習段階を判定する処理を前記コンピュータに実行させ、
前記実行する処理は、前記計算モデルの学習段階が第一の段階では、浮動小数点演算を用いて、前記複数のノードそれぞれの各演算処理を実行し、前記計算モデルの学習段階が前記第一の段階よりも後半である第二段階では、各統計情報により特定される小数点位置を設定した固定小数点演算を用いて、前記複数のノードそれぞれの各演算処理を実行することを特徴とする請求項１から３のいずれか一つに記載の学習プログラム。
前記複数のノードそれぞれの実行状態を判定する処理を前記コンピュータに実行させ、
前記実行する処理は、前記実行状態が所定の条件を満たさないノードについては、前記第二段階であっても前記固定小数点演算を抑制し、前記浮動小数点演算を用いて演算処理を実行することを特徴とする請求項４に記載の学習プログラム。
前記判定する処理は、前記実行状態として、前記学習時までに前記経路情報により特定される経路を通った回数、前記統計情報が最後の更新された最終更新時、または、前記演算処理の正否を判定し、
前記実行する処理は、前記回数が閾値未満、現学習時と前記最終更新時との差が閾値以上、または、前記演算処理が異常状態の場合に、前記固定小数点演算を抑制し、前記浮動小数点演算を用いて演算処理を実行することを特徴とする請求項５に記載の学習プログラム。
コンピュータが、
複数のノードを有する深層学習の対象である計算モデルの学習時に、前記学習時よりも前の各学習の段階でテンソルが辿った演算経路を示す経路情報と、前記演算経路で使用された小数点の位置に関する統計情報とが対応付けられた記憶部を参照し、
前記学習時において前記複数のノードそれぞれに設定される各演算処理を実行する場合に、前記複数のノードそれぞれに至る前記経路情報に対応する前記統計情報を取得し、
取得された前記統計情報により特定される小数点の位置を用いて、前記各演算処理を実行する
処理を実行することを特徴とする学習方法。