JP7029554B2

JP7029554B2 - 深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Info

Publication number: JP7029554B2
Application number: JP2020572679A
Authority: JP
Inventors: ホー、ティエンジェン; リウ、イー; トン、ターシアン; マー、イェンジュン; ユイ、ティエンハイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2020-06-09
Publication date: 2022-03-03
Anticipated expiration: 2040-06-09
Also published as: CN110889492B; US20210216875A1; WO2021103479A1; EP3876161A4; CN110889492A; EP3876161A1; JP2022515302A

Description

本出願は、２０１９年１１月２５日に提出された、出願番号が２０１９１１１６２５８６．０であり、出願人がベイジンバイドゥネットコムサイエンスアンドテクノロジーカンパニーリミテッドであり、発明の名称が「深層学習モデルをトレーニングするための方法及び装置」である中国特許出願の優先権を主張するものであり、当該出願の全文を引用することにより本出願に組み込む。

本開示の実施例は、コンピュータ技術分野に関し、具体的に深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムに関する。

現在の深層学習モデルは、より深いレベル、より広い表現及びより複雑な構造等の多方向に向かって発展するにつれて、高効率計算力を有するＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ，グラフィックスプロセッシングユニット）が当分野で不可欠な計算リソースとなっている。一般的な並列手法は、モデル並列とデータ並列との２通りのアプローチに分けられる。

モデル並列の手法は、全てのモデルパラメータを異なる装置に割り当てて計算を実行し、各装置はパラメータの一部を保守する。異なる装置の計算は、先行装置の計算コンテキストに依存するので、ＧＰＵ等の計算装置の利用率を向上させるために、モデル並列パイプラインは、１つの大きなバッチサイズのデータを複数のミニバッチに分割することによって、異なるミニバッチのデータの計算を複数の計算装置で並列実行することを可能にする。モデル並列パイプラインは、同期計算と非同期計算との２つのタイプにさらに細分化されてもよい。同期計算モードでは、全ての計算装置は、全てのミニバッチのフォワード計算タスクを完了した後に、バックワード計算に必要なコンテキストをブロックして待つか、又は全てのバックワード計算を完了した後に、パラメータの同期更新を待つことで、計算装置の利用が不十分になってしまう。非同期計算では、異なる大きなバッチサイズの計算を同時点で行いながら、異なるミニバッチのバックワード計算及びパラメータ更新を可能な限り前進させる。しかしながら、該手法は各段階の計算力が異なる条件下で、計算力の高い装置を十分に利用することができない。

データ並列は別の並列手法である。データ並列パイプラインは、計算装置を異なるバッチのデータに割り当て、装置間の計算が当然ながら並列特性を有し、装置の利用率が高い。しかしながら、該手法は、異種装置を十分に利用しておらず、つまり全てのデータストリームが単一の種類の装置上でのみ実行され、異なる装置の計算リソースの割り当てをサポートするまではなおさらである。

本開示の実施例は、深層学習モデルをトレーニングするための方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムを提供している。

第１の態様によれば、本開示の実施例は、深層学習モデルのモデル記述情報及び構成情報を取得するステップであって、モデル記述情報は変数及び操作を含み、構成情報は分割点変数と、各セクションに割り当てられたリソースの名称とを含むステップと、構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するステップと、あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存することと、第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得ることと、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にすることと、トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力することとを含むトレーニングステップを実行する、ステップと、トレーニング終了条件が満たされない場合、トレーニング終了条件が満たされるまで次のバッチのトレーニングサンプルを取得して前記トレーニングステップを実行するステップと、を含む深層学習モデルをトレーニングするための方法を提供している。

いくつかの実施例において、構成情報は、各セクションに割り当てられたリソースの割合をさらに含み、及び各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するステップは、各セクションに割り当てられたリソースの割合に基づいて、セクションごとに割り当て対象であるリソースの数を計算することと、各セクションに割り当てられたリソースの名称及び数に基づいて、モデル記述情報を対応するリソースにロードして実行することと、を含む。

いくつかの実施例において、構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するステップは、分割点変数を終点とするフォワードセクションを第１のセクションとして確定することと、分割点変数からの残りのフォワードセクションに損失セクションから分割点変数までに対応する勾配変数を加算したものを第２のセクションとして確定することと、分割点変数に対応する勾配変数からの残りのバックワードセクションを第３のセクションとして確定することと、を含む。

いくつかの実施例において、深層学習モデルのモデル記述情報及び構成情報を取得するステップは、モデル記述情報の操作に基づいてメモリの頻繁なインタラクション操作と計算集約型操作との間の変換変数を分割点変数として確定することと、メモリの頻繁なインタラクション操作をＣＰＵに割り当てて実行することと、計算集約型操作をＧＰＵに割り当てて実行することと、を含む。

いくつかの実施例において、該方法は、トレーニングサンプルを所定部数に分けるステップと、各部のトレーニングサンプルを用いてトレーニングして１組の深層学習モデルのパラメータを得るステップと、所定のラウンド毎に、各組の深層学習モデルのパラメータを１回同期するステップと、をさらに含む。

いくつかの実施例において、コンテキスト情報はキューを介して伝送される。

第２の態様によれば、本開示の実施例は、深層学習モデルのモデル記述情報及び構成情報を取得するように構成される取得ユニットであって、モデル記述情報は変数及び操作を含み、構成情報は分割点変数と、各セクションに割り当てられたリソースの名称とを含む取得ユニットと、構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するように構成される分割ユニットと、あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存することと、第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得ることと、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にすることと、トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力することとを含むトレーニングステップを実行するように構成されるトレーニングユニットと、トレーニング終了条件が満たされない場合、トレーニング終了条件が満たされるまで次のバッチのトレーニングサンプルを取得して前記トレーニングステップを実行するように構成される反復ユニットと、を含む深層学習モデルをトレーニングするための装置を提供している。

いくつかの実施例において、構成情報は、各セクションに割り当てられたリソースの割合をさらに含み、及び分割ユニットはさらに、各セクションに割り当てられたリソースの割合に基づいて、セクションごとに割り当て対象であるリソースの数を計算し、各セクションに割り当てられたリソースの名称及び数に基づいて、モデル記述情報を対応するリソースにロードして実行するように構成される。

いくつかの実施例において、分割ユニットはさらに、分割点変数を終点とするフォワードセクションを第１のセクションとして確定し、分割点変数からの残りのフォワードセクションに損失セクションから分割点変数までに対応する勾配変数を加算したものを第２のセクションとして確定し、分割点変数に対応する勾配変数からの残りのバックワードセクションを第３のセクションとして確定するように構成される。

いくつかの実施例において、取得ユニットはさらに、モデル記述情報の操作に基づいてメモリの頻繁なインタラクション操作と計算集約型操作との間の変換変数を分割点変数として確定し、メモリの頻繁なインタラクション操作をＣＰＵに割り当てて実行し、計算集約型操作をＧＰＵに割り当てて実行するように構成される。

いくつかの実施例において、該装置は、トレーニングサンプルを所定部数に分け、各部のトレーニングサンプルを用いてトレーニングして１組の深層学習モデルのパラメータを得、所定のラウンド毎に、各組の深層学習モデルのパラメータを１回同期するように構成される統合ユニットをさらに含む。

第３の態様によれば、本開示の実施例は、１つ又は複数のプロセッサと、１つ又は複数のプログラムが格納されている記憶装置と、を含む電子機器であって、１つ又は複数のプログラムが１つ又は複数のプロセッサによって実行される場合に、１つ又は複数のプロセッサに第１の態様のいずれかの方法を実現させる電子機器を提供している。

第４の態様によれば、本開示の実施例は、コンピュータプログラムが格納されているコンピュータ可読媒体であって、プログラムがプロセッサによって実行される場合に、第１態様のいずれかの方法を実現するコンピュータ可読記憶媒体を提供している。
第５の態様によれば、本開示の実施例は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、第１態様のいずれかの方法を実現するコンピュータプログラムを提供している。

本開示の実施例に係る深層学習モデルをトレーニングするための方法及び装置は、非同期パイプラインフレームワークを提供し、異種計算装置の自由な組み合わせを（ＣＰＵ、ＧＰＵ及びネットワークカードなどに限定されず、具体的な計算が操作によってサポートされる）可能にし、異なる装置の特徴を十分に発揮させることを目的とし、例えば、メモリのインタラクション速度が高いＣＰＵにおいてＥｍｂｅｄｄｉｎｇＬｏｏｋｕｐ（埋め込み検索）の計算及び更新操作を行い、演算速度がより高いＧＰＵにおいて行列乗算のような計算集約型操作を実行する。また、異なる特徴の操作に対して異なる割合の計算リソースを割り当てて非同期で並列実行することにより、異なる計算装置の演算能力を十分に発揮させ、全体のスループットを向上させることができる。

本開示の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。

本開示の一実施例を適用できる例示的なシステムアーキテクチャを示す図である。本開示に係る深層学習モデルをトレーニングするための方法の一実施例を示すフローチャートである。本開示に係る深層学習モデルをトレーニングするための方法の一適用シナリオを示す概略図である。本開示に係る深層学習モデルをトレーニングするための方法の一適用シナリオを示す概略図である。本開示に係る深層学習モデルをトレーニングするための方法のもう一つの実施例を示すフローチャートである。本開示に係る深層学習モデルをトレーニングするための方法のもう一つの適用シナリオを示す概略図である。本開示に係る深層学習モデルをトレーニングするための装置の一実施例を示す構造概略図である。本開示の実施例を実施するための電子機器に適するコンピュータシステムを示す構造概略図である。

以下、添付図面及び実施例を参照しながら、本開示をより詳細に説明する。ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではないことを理解されたい。また、説明の便宜上、図面には発明に関連する部分のみが示されていることに留意されたい。

なお、本開示の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、添付図面及び実施例を参照しながら、本開示を詳細に説明する。

図１は、本開示の深層学習モデルをトレーニングするための方法又は深層学習モデルをトレーニングするための装置を適用できる実施例の例示的なシステムアーキテクチャ１００が示されている。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を含んでもよい。ネットワーク１０４は端末装置１０１、１０２、１０３とサーバ１０５との間に通信リンクの媒体を提供するために用いられる。ネットワーク１０４は、有線、無線通信リンク又は光ファイバケーブル等のような、様々な接続タイプを含んでもよい。

ユーザはメッセージ等を受信又は送信するために、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５とインタラクティブすることができる。端末装置１０１、１０２、１０３には、例えば、モデルトレーニングアプリケーション、ウェブブラウザアプリケーション、ショッピング系アプリケーション、検索系アプリケーション、インスタントメッセンジャー、メールボックスクライアント、ソーシャルプラットフォームソフトウェア等のような様々な通信クライアントアプリケーションがインストールされていてもよい。

端末装置１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合には、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ＭＰ３プレーヤー（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ，エムピースリー）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ，エムピーフォー）プレーヤー、ラップトップポータブルコンピュータ、デスクトップコンピュータ等を含むがこれらに限定されない、トレーニングサンプルのアップロードをサポートする様々な電子機器であってもよい。端末装置１０１、１０２、１０３がソフトウェアである場合には、上記の電子機器にインストールされてもよい。これは、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するために用いられる）として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは、特に限定されない。

サーバ１０５は、例えば、端末装置１０１、１０２、１０３に用いられる深層学習モデルをサポートするバックグラウンドトレーニングサーバ等の、様々なサービスを提供するサーバであってもよい。バックグラウンドトレーニングサーバは受信したトレーニングサンプルを含むトレーニングリクエスト等のデータに対して分析などの処理を行うとともに、処理結果（例えば、トレーニング済み深層学習モデル）を端末装置にフィードバックすることができる。

サーバ１０５の計算ユニットは一般的に、ＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ，中央処理装置）、ＧＰＵ及びネットワークカード（説明の便宜上、ネットワークカード間の通信も計算と見なされる）の３つの部分から構成される。これらの３つの部分は異なる機能及び特徴を有するので、１つのシステムにおいて、通常に以下のように作業を割り当てる。

ＣＰＵは機能の汎用化のため、フロー制御及び論理処理が得意であり、特に不規則なデータ構造又は予測不可能な格納構造に対する処理能力が強い。深層学習タスクにおいて、ＣＰＵは一般的にデータのロード、前処理及びダンプを担当し、ＧＰＵでのデータ転送及び関数呼び出しを起動し、ネットワーク伝送等を起動する。

ＧＰＵはコアが多いため、データ並列計算がより得意であり、特に規則的なデータ構造に対して記憶モードを予測することができ、巨大な速度優勢を占める。したがって、深層学習タスクにおいて、ＧＰＵは一般的に計算を担当し、深層学習における最も重要な要素である。

ネットワークカードはデータとモデルとのアップロード及びダウンロード、分散トレーニングにおける通信を担当する。

明らかに、ＧＰＵの利用率を向上させるためには、ＧＰＵ利用率が低い操作をＣＰＵに移して実行する一方で、個々の計算装置間の計算を並列実行することにより、ＣＰＵ、ＧＰＵ及びネットワークカードの三者の計算シリアルによるＧＰＵアイドルを防止する必要がある。

なお、サーバはハードウェアであってもよいし、ソフトウェアであってもよい。サーバがハードウェアである場合には、複数のサーバからなる分散サーバクラスタとして実現されてもよいし、単一のサーバとして実現されてもよい。サーバがソフトウェアである場合には、複数のソフトウェア又はソフトウェアモジュール（例えば、分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール）として実現されてもよいし、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは、特に限定されない。

なお、本開示の実施例に係る深層学習モデルをトレーニングするための方法は一般的にサーバ１０５によって実行され、それに応じて、深層学習モデルをトレーニングするための装置は一般的にサーバ１０５に設けられている。

図１における端末装置、ネットワーク及びサーバの数は単なる例示的なものに過ぎないことを理解されたい。必要に応じて、端末装置、ネットワーク及びサーバの数を任意に加減してもよい。

引き続き図２を参照して、本開示に係る深層学習モデルをトレーニングするための方法の一実施例を示すフロー２００が示されている。該深層学習モデルをトレーニングするための方法はステップ２０１～ステップ２０４を含む。

ステップ２０１：深層学習モデルのモデル記述情報及び構成情報を取得する。

本実施例において、深層学習モデルをトレーニングするための方法の実行主体（例えば、図１に示すサーバ）は、有線接続方式又は無線接続方式によりユーザがモデルをトレーニングする端末からトレーニングリクエストを受信することができる。トレーニングリクエストは深層学習モデルのモデル記述情報及び構成情報を含んでもよい。トレーニングリクエストはさらにトレーニングサンプルを含んでもよい。モデル記述情報は変数及び操作を含み、構成情報は分割点変数と、各セクションに割り当てられたリソースの名称とを含む。まず、いくつかの名詞を定義する。１つの完全な深層学習モデルはＰｒｏｇｒａｍ（モデル記述情報）により記述し、主に操作（即ちＯＰ）と変数（Ｖａｒｉａｂｌｅ）との２つのエンティティを含む。例えば、全結合操作、ｅｍｂｅｄｄｉｎｇ検索操作がＯＰと見なされてもよい。また、ネットワークのパラメータ及び様々なデータの中間表現はＶａｒｉａｂｌｅにより記述されている。Ｐｙｔｈｏｎ言語を用いてモデル記述情報を記述してもよい。バックエンドは、実行可能なＣ＋＋プログラムに変換することによって、指定されたリソース（ＣＰＵ又はＧＰＵ）上で動作する。

ステップ２０２：構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行する。

本実施例において、構成情報は分割点変数と、各セクションに割り当てられたリソースの名称とを含む。ユーザは構成情報に基づいてどこで分割するか、及び分割した各セクションのモデル記述情報がどの装置で動作するかを設定する。分割点変数を手動で絞り込むようにしてもよいし、プログラムによりフォワード計算と損失値計算との交わりの変数を分割点変数として確定するようにしてもよい。通常のトレーニングにおいて、１つの完全なＰｒｏｇｒａｍは、ＧＰＵ又はＣＰＵのようなある装置上で実行される。パイプラインはＰｒｏｇｒａｍを少なくとも２つのセクション（Ｓｅｃｔｉｏｎと呼ばれる）に分割することを並列サポートし、各Ｓｅｃｔｉｏｎに対してＰｒｏｇｒａｍが動作する装置を指定することができる。ここでもモデル並列の考え方を利用している。具体的には、ユーザは、フォワードをカスタマイズするＰｒｏｇｒａｍでパイプライン分割点（分割点はいずれもＶａｒｉａｂｌｅ又はＶａｒｉａｂｌｅのリストであり、即ち、複数の分割点変数を有してもよい）を指定することができ、サーバはこれに基づいてフォワード、バックワード及び最適化を含む完全なＰｒｏｇｒａｍを複数のＳｅｃｔｉｏｎに分割して、分割して得られたＳｅｃｔｉｏｎのＰｒｏｇｒａｍによりそれぞれの計算を記述する。フォワードセクションはニューラルネットワークトレーニングの順伝播プロセスに関し、バックワードセクション（逆方向セクションとも呼ばれる）は、ニューラルネットワークトレーニングの逆伝播に関する。さらに一部は損失値の計算に用いられる。そのまま分割点変数で分割してもよいし、分割点変数に対応する勾配変数を他の分割点変数に自動設定して分割してもよい。つまり、１つの分割点変数を設定することで、３つのセクションに分割することができる。Ｋ個の分割点変数を設定すると、２Ｋ＋１のセクションに分割することができる。

図３ａは完全な例を記述している。１つの完全なＰｒｏｇｒａｍはフォワード（左）及びバックワード（右）の２つのセクションを含む。ユーザがｃｕｔ＿ｖａｒというＶａｒｉａｂｌｅを分割点として指定すると、パイプラインフレームワークはＰｒｏｇｒａｍ全体を、
１、ｃｕｔ＿ｖａｒを終点とするフォワードセクション（図中のｓｅｃｔｉｏｎ０）、
２、ｃｕｔ＿ｖａｒからの残りのフォワードセクションに、ｌｏｓｓからｃｕｔ＿ｖａｒ＠ＧＲＡＤまでのバックワードセクションを加算したセクション（図中のｓｅｃｔｉｏｎ１）。なお、ｃｕｔ＿ｖａｒ＠ＧＲＡＤはｃｕｔ＿ｖａｒのバックワードネットワークにおける対応する勾配変数である。
３、ｃｕｔ＿ｖａｒ＠ＧＲＡＤからの残りのバックワードセクション（図中のｓｅｃｔｉｏｎ２）という３つのセクションに分割することができる。

上記のようにＰｒｏｇｒａｍに対する分割を完了した後、構成情報はＳｅｃｔｉｏｎ毎に、動作する装置を指定することができる。例えば、ｓｅｃｔｉｏｎ０はＣＰＵ上で動作し、ｓｅｃｔｉｏｎ１はＧＰＵ上で動作するようにする。該機能により、パイプライン並列フレームワークを用いてトレーニングすることは、１台の機器により提供される各々の装置を十分に利用することができる。割り当ての原則は、データのロード、前処理及びダンプ、ＧＰＵでのデータ転送及び関数呼び出しの起動、ネットワーク伝送の起動など、メモリと頻繁にインタラクティブするモデル記述情報がＣＰＵで動作するように特定する。集約型計算に関するモデル記述情報をＧＰＵに割り当てて実行する。メモリとのインタラクション速度が高いＣＰＵでＥｍｂｅｄｄｉｎｇＬｏｏｋｕｐの計算及び更新操作を行う一方で、演算速度が高いＧＰＵで行列乗算のような計算集約型操作を行う。また、異なる特徴の操作に対して異なる割合の計算リソースを割り当てて非同期で並列に実行することにより、異なる計算装置の演算能力を十分に発揮させ、全体のスループットを向上させることができる。

モデル記述情報は、Ｐｙｔｈｏｎ言語で作成された後、Ｃ＋＋等の実行可能なプログラムに変換されて割り当てられたリソース上で実行され得る。

ステップ２０３：あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存し、第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にする。

本実施例において、Ｐａｄｄｌｅ深層学習フレームワークの汎用性を考慮し、Ｐａｄｄｌｅフレームワークの基本概念を踏まえ、一部のエンティティに簡単な改善及び拡張を加えることで本機能を実現する。ユーザがＰｙｔｈｏｎ側でネットワークを記述する際に指定したＰｒｏｇｒａｍ分割点、各Ｓｅｃｔｉｏｎが動作する装置の種類及び並列度等の構成情報を、ｐｒｏｔｏフォーマットでバックエンド（ｃ＋＋）トレーニングエンジンに送ることで、バックエンドが動作時に様々な構成情報を取得し、後続の初期化及び計算等の一連の操作を行うことができる。

以下に頻繁に使用される概念であるＳｃｏｐｅについて簡単に説明する。ＳｃｏｐｅはＰａｄｄｌｅにおいて重要な汎用概念であり、バッチサンプル計算プロセスにおける中間変数等のコンテキスト情報を格納するために用いられる。同一のＰｒｏｇｒａｍが複数の異なるＳｃｏｐｅで実行される場合に、異なるＳｃｏｐｅは変数を互いに干渉しないように分離する。パイプライン並列の設計において、Ｓｃｏｐｅは隣接するＳｅｃｔｉｏｎ間の通信エンティティとして転送され、プログラム全体の実行に当たって、一貫して作成されたとともに、実行中にＳｅｃｔｉｏｎ間で順次転送される。以下、ＳｃｏｐｅＱｕｅｕｅはＳｃｏｐｅを格納するキューである。

ＰａｄｄｌｅフレームワークはあるＳｅｃｔｉｏｎにおける計算の全プロセスを管理するためのコンポーネント（クラス）ＳｅｃｔｉｏｎＷｏｒｋｅｒ（セクションワーカー）を含む。主な動作は、
１、初期化段階では、入力されたｐｒｏｔｏ構成情報に基づいて、該ＳｅｃｔｉｏｎにおけるＯＰを作成することと、
２、実行段階では、ブロックして待機するとともに、入力ＱｕｅｕｅからＳｃｏｐｅリソースを取得し、現在のＳｃｏｐｅに基づいてＰｒｏｇｒａｍに記述される計算を完成し、計算結果を含むＳｃｏｐｅを出力Ｑｕｅｕｅに入れることと、を含む。

Ｐａｄｄｌｅフレームワークは、複数のＳｅｃｔｉｏｎＷｏｒｋｅｒのライフサイクルを管理するためのコンポーネント（クラス）ＰｉｐｅｌｉｎｅＴｒａｉｎｅｒ（パイプライントレーナー）を含む。主な動作は、
１、ＳｅｃｔｉｏｎＷｏｒｋｅｒの作成、ＳｅｃｔｉｏｎＷｏｒｋｅｒ毎のＯＰリストの生成、隣接するＳｅｃｔｉｏｎ間のＳｃｏｐｅキュー等のエンティティの作成のような、グローバルリソースの空間開拓及び初期化作業を行うことと、
２、パイプライン並列の起動及び必要なスケジューリング等の動作を実現することと、を含む。
例えば、ＳｅｃｔｉｏｎＷｏｒｋｅｒ毎に実行スレッド及びスレッド間の同期等のロジックを作成する。

なお、Ｓｃｏｐｅの計算において要求されたストレージリソースを多重化するために、ＰｉｐｅｌｉｎｅＴｒａｉｎｅｒは初期化時に十分な量のＳｃｏｐｅを一括して作成するとともに、トレーニング終了後に廃棄する。

上記コンテンツの直感的な表現は、図３ｂに示される。

ステップ２０４：トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力する。

本実施例において、トレーニング終了条件は損失値が所定値未満であるか、又はトレーニング回数が上限に達したこと等を含んでもよい。トレーニング終了時に深層学習モデルを出力する。端末装置に返送するようにしてもよいし、配信サーバに送信して他のユーザに配信して利用するようにしてもよい。トレーニングが終了していないと、次のバッチのトレーニングサンプルを更新してステップ２０３を実行し続ける。

さらに、深層学習モデルをトレーニングするための方法の別の実施例のフロー４００が示される図４を参照する。該深層学習モデルをトレーニングするための方法のフロー４００は、ステップ４０１～ステップ４０５を含む。

ステップ４０１：深層学習モデルのモデル記述情報及び構成情報を取得する。

ステップ４０１はステップ２０１とほぼ同様であるので、ここでは説明を省略する。

ステップ４０２：構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの割合に基づいてセクションごとに割り当て対象であるリソースの数を計算する。

ステップ４０２は、ステップ２０２とほぼ同様であり、構成情報には各セクションに割り当てられたリソースの割合、即ちセクション毎の並列度が含まれている点が異なる。例えば、ＣＰＵ上で動作するｓｅｃｔｉｏｎ０はいくつかのスレッドを用いてトレーニングするか、ＧＰＵ上で動作するｓｅｃｔｉｏｎ１はいくつかのＧＰＵカードを用いてトレーニングするか等である。このような計算リソースの割合を構成することをサポートする方式は、異なる装置の計算速度の違いによる待ち時間を十分に埋めることができる。例えば、上記のネットワークにおいて、ｓｅｃｔｉｏｎ１の計算時間がｓｅｃｔｉｏｎ２の５倍であると、ｓｅｃｔｉｏｎ１とｓｅｃｔｉｏｎ２との計算リソースを５：１に構成することで、２つのｓｅｃｔｉｏｎの実行時間を接近させて、各装置の計算リソースを十分に利用することができる。

ステップ４０３：各セクションに割り当てられたリソースの名称及び数に基づいてモデル記述情報を対応するリソースにロードして実行する。

ステップ４０４：あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存し、第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にする。

ステップ４０５：トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力する。

ステップ４０３～ステップ４０５はステップ２０２～２０４とほぼ同様であるので、ここでは説明を省略する。

図４から分かるように、図２に対応する実施例に比べ、本実施例に係る深層学習モデルをトレーニングするための方法のフロー４００は、異種装置の特性を革新的に利用し、計算リソースの割合を構成することをサポートすることで、高スループットの計算装置を最大限に利用することができ、システムの全体性能が最大化されることができ、図５に示すように、横縞：縞なし：縦縞のリソースの使用割合を２：１：２にすることにより、全ての装置の利用率を十分に満足させることができる。ここで、１～４、ａ～ｄはそれぞれ処理対象のデータを表す。横縞及び縦縞は２つのＣＰＵによる処理を表し、縞なしは１つのＧＰＵによる処理を表す。ＧＰＵはＣＰＵよりも処理速度が速いため、横方向に占める時間幅が小さい。

本発明は、上記の革新点に加えて、さらに当然ながらデータ並列拡張をサポートする。即ち、上記のように改善されたＰｒｏｇｒａｍを完全に複数部コピーした後、データを対応する部数に分割して、トレーニングを同時に行う。

本発明は、モデル並列及びデータ並列の両方の能力を兼ね備えていることが分かる。両者の能力を統合すると同時に、異種装置をサポートする機能と異なる装置への計算リソース割り当てをサポートする機能を追加し、さらにトレーニングモードを多様化にする。

さらに図６を参照して、上記の各図に示される方法の実施態様として、本開示は図２に示される方法の実施例に対応する深層学習モデルをトレーニングするための装置の一実施例を提供し、当該装置は具体的に様々な電子機器に適用可能である。

図６に示すように、本実施例に係る深層学習モデルをトレーニングするための装置６００は取得ユニット６０１、分割ユニット６０２、トレーニングユニット６０３、反復ユニット６０４を含む。取得ユニット６０１は、深層学習モデルのモデル記述情報及び構成情報を取得するように構成され、モデル記述情報は変数及び操作を含み、構成情報は分割点変数と、各セクションに割り当てられたリソースの名称とを含み、分割ユニット６０２は、構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するように構成され、トレーニングユニット６０３は、あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存し、第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にし、トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力するトレーニングステップを実行するように構成され、反復ユニット６０４は、トレーニング終了条件が満たされない場合、トレーニング終了条件が満たされるまで次のバッチのトレーニングサンプルを取得して前記トレーニングステップを実行するように構成される。

本実施例において、深層学習モデルをトレーニングするための装置６００の取得ユニット６０１、分割ユニット６０２、トレーニングユニット６０３、反復ユニット６０４の具体的な処理は、図２に対応する実施例におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４を参照することができる。

本実施例のいくつかの選択可能な実施形態において、構成情報は各セクションに割り当てられたリソースの割合をさらに含み、及び分割ユニット６０２はさらに、各セクションに割り当てられたリソースの割合に基づいて、セクションごとに割り当て対象であるリソースの数を計算し、各セクションに割り当てられたリソースの名称及び数に基づいて、モデル記述情報を対応するリソースにロードして実行するように構成される。

本実施例のいくつかの選択可能な実施形態において、分割ユニット６０２はさらに、分割点変数を終点とするフォワード部分を第１のセクションとして確定し、分割点変数からの残りのフォワード部分に損失部分から分割点変数までに対応する勾配変数を加算したものを第２のセクションとして確定し、分割点変数に対応する勾配変数からの残りのバックワード部分を第３のセクションとして確定するように構成される。

本実施例のいくつかの選択可能な実施形態において、取得ユニット６０１はさらに、モデル記述情報の操作に基づいてメモリの頻繁なインタラクション操作と計算集約型操作との間の変換変数を分割点変数として確定し、メモリの頻繁なインタラクション操作をＣＰＵに割り当てて実行し、計算集約型操作をＧＰＵに割り当てて実行するように構成される。

本実施例のいくつかの選択可能な実施形態において、装置６００は、トレーニングサンプルを所定部数に分け、各部のトレーニングサンプルを用いてトレーニングして１組の深層学習モデルのパラメータを得、所定のラウンド毎に、各組の深層学習モデルのパラメータを１回同期するように構成される統合ユニット（図示せず）をさらに含む。例えば、各組の深層学習モデルのパラメータの平均値を、段階的な深層学習モデルのパラメータとして確定して同期する。

本実施例のいくつかの選択可能な実施形態において、コンテキスト情報がキューを介して転送される。

以下、本開示の実施例を実現するのに適した電子機器（例えば、図１におけるサーバ又は端末装置）７００の構造概略図が示される図７を参照する。本開示の実施例に係る端末装置は、携帯電話、ノートパソコン、デジタル放送受信装置、ＰＤＡ（パーソナルデジタルアシスタント）、ＰＡＤ（タブレットＰＣ）、ＰＭＰ（ポータブルマルチメディアプレイヤー）、車載端末（例えば、カーナビゲーション端末）などの携帯端末、及びデジタルＴＶ、デスクトップ型コンピュータ等の固定端末等を含み得るが、これらに限定されない。図７に示される端末装置／サーバはただの例示に過ぎず、本開示の実施例の機能及び使用範囲にいかなる限定を加えるものではない。

図７に示すように、電子機器７００は、読み出し専用メモリ（ＲＯＭ）７０２に格納されているプログラム又は記憶デバイス７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムによって様々な適当な動作及び処理を実行することができる処理デバイス（例えば、中央処理装置、グラフィックプロセッサ等）７０１を含んでもよい。ＲＡＭ７０３には、電子機器７００の操作に必要な様々なプログラム及びデータがさらに格納されている。処理デバイス７０１、ＲＯＭ７０２及びＲＡＭ７０３がバス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース７０５もバス７０４に接続されている。

通常、Ｉ／Ｏインタフェース７０５には、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロ等を含む入力デバイス７０６、例えば、液晶ディスプレイ（ＬＣＤ）、スピーカ、バイブレータ等を含む出力デバイス７０７、例えば磁気テープ、ハードディスク等を含む記憶デバイス７０８及び通信デバイス７０９が接続されてもよい。通信デバイス７０９は、電子機器７００が他のデバイスと無線又は有線で通信してデータを交換することを可能にする。図７は、様々なデバイスを有する電子機器７００が示されているが、示されたデバイスの全てを実施又は具備するように要求しないことを理解されたい。これより多い又は少ないデバイスが代替的に実施され又は具備されてもよい。図７に示すそれぞれのブロックは、１つのデバイスを示すものであってもよいし、必要に応じて複数のデバイスを示すものであってもよい。

特に、本開示の実施例によれば、以上でフローチャートを参照して記述されたプロセスは、コンピュータソフトウェアプログラムとして実現されてもよい。例えば、本開示の実施例は、コンピュータ可読媒体に担持されるコンピュータプログラムを備えるコンピュータプログラム製品を備え、該コンピュータプログラムはフローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは、通信デバイス７０９を介してネットワークからダウンロードされてインストールされてもよく、又は記憶デバイス７０８からインストールされてもよく、又はＲＯＭ７０２からインストールされてもよい。該コンピュータプログラムが処理デバイス７０１によって実行される場合に、本開示の実施例の方法で限定された上記の機能を実行する。注意すべきなのは、本開示の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、又はこれらの任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁的、赤外線の、又は半導体のシステム、装置又はデバイス、或いはこれらの任意の組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、１本又は複数の導線を有する電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ若しくはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光メモリ、磁気メモリ、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。本開示の実施例において、コンピュータ可読記憶媒体は、命令実行システム、装置若しくはデバイスで使用可能な、又はそれらに組み込まれて使用可能なプログラムを包含又は格納する任意の有形の媒体であってもよい。本開示の実施例において、コンピュータ可読信号媒体は、ベースバンド内で、又はキャリアの一部として伝送される、コンピュータ可読プログラムコードが担持されたデータ信号を含んでもよい。このような伝送されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。コンピュータ可読信号媒体は、さらにコンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。該コンピュータ可読信号媒体は、命令実行システム、装置若しくはデバイスによって使用されるか、又はそれらに組み込まれて使用されるプログラムを、送信、伝送又は転送することができる。コンピュータ可読媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、有線、光ケーブル、ＲＦ（無線周波数）など、又はこれらの任意の適切な組み合わせを含むが、これらに限定されない。

上記のコンピュータ可読媒体は、上記の電子機器に含まれるものであってもよく、独立に存在して該電子機器に組み込まれていないものであってもよい。上記コンピュータ可読媒体には１つ又は複数のプログラムが担持され、上記１つ又は複数のプログラムが該電子機器に実行される場合に、深層学習モデルのモデル記述情報及び構成情報を取得するステップであって、モデル記述情報は変数及び操作を含み、構成情報は分割点変数、各セクションに割り当てられたリソースの名称を含むステップと、構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するステップと、あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存し、第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にし、トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力するトレーニングステップを実行するステップと、トレーニング終了条件が満たされない場合、トレーニング終了条件が満たされるまで次のバッチのトレーニングサンプルを取得して前記トレーニングステップを実行するステップと、を該電子機器に実行させる。

１つ又は複数種のプログラミング言語又はそれらの組み合わせで、本開示の実施例の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語には、オブジェクト指向プログラミング言語、例えばＪａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋が含まれ、通常のプロシージャ向けプログラミング言語、例えば「Ｃ」言語又は類似しているプログラミング言語も含まれる。プログラムコードは、完全にユーザーコンピュータで実行されてもよいし、部分的にユーザーコンピュータに実行されてもよいし、スタンドアロンソフトウェアパッケージとして実行されてもよいし、部分的にユーザーコンピュータで、部分的にリモートコンピュータで実行されてもよい、又は完全にリモートコンピュータ又はサーバで実行されてもよい。リモートコンピュータに係る場合に、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介して、ユーザーコンピュータ、又は、外部コンピュータに接続できる（例えば、インターネットサービスプロバイダによりインターネットを介して接続できる）。

図面におけるフローチャート及びブロック図は、本開示の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各ブロックは、モジュール、プログラムセクション若しくはコードの一部を示してもよく、該モジュール、プログラムセグメント、又はコードの一部は、規定されたロジック機能を達成するための１つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様において、ブロック内に示された機能は、図面に示された順番とは異なるもので実行されてもよい。例えば、連続して示された２つのブロックは、実際には関連する機能に応じて、ほぼ並列に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図及び／又はフローチャートにおける各ブロック、並びに、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、規定された機能若しくは操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、又は専用ハードウェアとコンピュータ命令との組み合わせで実行されてもよい。

本開示の実施例に係るユニットは、ソフトウェアの形式で実現されてもよいし、ハードウェアの形式で実現されてもよい。記述されたユニットは、プロセッサに設けられてもよく、例えば、取得ユニット、分割ユニット、トレーニングユニット及び反復ユニットを備えるプロセッサと記述されてもよい。ここで、これらのユニットの名称は、該ユニット自体を限定するものではなく、例えば、取得ユニットがさらに「深層学習モデルのモデル記述情報及び構成情報を取得するユニット」と記述されてもよい。

以上の記載は、本開示の好ましい実施例、及び使用される技術的原理に関する説明に過ぎない。本開示に係る発明の範囲が、上記の技術的特徴の特定の組み合わせからなる技術案に限定されるものではなく、上記の本発明の趣旨を逸脱しない範囲で、上記の技術的特徴又はそれらの同等の特徴を任意に組み合わせてなる他の技術案も含むべきであることを、当業者に理解されたい。例えば、上記の特徴と、本開示に開示された類似の機能を持っている技術的特徴（これらに限定されていない）とを互いに置き換えてなる技術案が挙げられる。

Claims

深層学習モデルのモデル記述情報及び構成情報を取得するステップであって、前記モデル記述情報は変数及び操作を含み、前記構成情報は分割点変数と、各セクションに割り当てられたリソースの名称とを含む、ステップと、
前記構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するステップと、
あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存することと、前記第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得ることと、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にすることと、トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力することとを含むトレーニングステップを実行する、ステップと、
トレーニング終了条件が満たされない場合、トレーニング終了条件が満たされるまで次のバッチのトレーニングサンプルを取得して前記トレーニングステップを実行するステップと、
を含む深層学習モデルをトレーニングするための方法。
前記構成情報は各セクションに割り当てられたリソースの割合をさらに含み、
前記各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するステップは、
各セクションに割り当てられたリソースの割合に基づいて、セクションごとに割り当て対象であるリソースの数を計算することと、
各セクションに割り当てられたリソースの名称及び数に基づいて、モデル記述情報を対応するリソースにロードして実行することと、を含む請求項１に記載の方法。
前記の前記構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するステップは、
分割点変数を終点とするフォワードセクションを第１のセクションとして確定することと、
分割点変数からの残りのフォワードセクションに損失セクションから前記分割点変数までに対応する勾配変数を加算したものを第２のセクションとして確定することと、
前記分割点変数に対応する勾配変数からの残りのバックワードセクションを第３のセクションとして確定することと、を含む請求項１に記載の方法。
前記深層学習モデルのモデル記述情報及び構成情報を取得するステップは、
前記モデル記述情報の操作に基づいてメモリの頻繁なインタラクション操作と計算集約型操作との間の変換変数を分割点変数として確定することと、
メモリの頻繁なインタラクション操作をＣＰＵに割り当てて実行することと、
計算集約型操作をＧＰＵに割り当てて実行することと、を含む請求項１に記載の方法。
前記方法は、
トレーニングサンプルを所定部数に分けるステップと、
各部のトレーニングサンプルを用いてトレーニングして１組の深層学習モデルのパラメータを得るステップと、
所定のラウンド毎に、各組の深層学習モデルのパラメータを１回同期するステップと、をさらに含む請求項１に記載の方法。
コンテキスト情報はキューを介して伝送される請求項１～５のいずれか一項に記載の方法。
深層学習モデルのモデル記述情報及び構成情報を取得するように構成される取得ユニットであって、前記モデル記述情報は変数及び操作を含み、前記構成情報は分割点変数と、各セクションに割り当てられたリソースの名称とを含む取得ユニットと、
前記構成情報における分割点変数に基づいてモデル記述情報を少なくとも２つのセクションに分割するとともに、各セクションに割り当てられたリソースの名称に基づいてモデル記述情報を対応するリソースにロードして実行するように構成される分割ユニットと、
あるバッチのトレーニングサンプルを取得して該バッチのトレーニングサンプルを第１のセクションのモデル記述情報に対応するリソースに入力してトレーニングを開始し、得られた中間結果を第１のコンテキスト情報に保存することと、前記第１のコンテキスト情報を次のセクションのモデル記述情報に対応するリソースに入力し、第２のコンテキスト情報を得ることと、このように類推して最後のセクションのモデル記述情報に対応するリソースの実行結果を得るまで同様にすることと、トレーニング終了条件が満たされると、トレーニング済み深層学習モデルを出力することとを含むトレーニングステップを実行するように構成されるトレーニングユニットと、
トレーニング終了条件が満たされない場合、トレーニング終了条件が満たされるまで次のバッチのトレーニングサンプルを取得して前記トレーニングステップを実行するように構成される反復ユニットと、を含む深層学習モデルをトレーニングするための装置。
前記構成情報は各セクションに割り当てられたリソースの割合をさらに含み、
前記分割ユニットはさらに、
各セクションに割り当てられたリソースの割合に基づいて、セクションごとに割り当て対象であるリソースの数を計算し、
各セクションに割り当てられたリソースの名称及び数に基づいて、モデル記述情報を対応するリソースにロードして実行するように構成される請求項７に記載の装置。
前記分割ユニットはさらに、
分割点変数を終点とするフォワードセクションを第１のセクションとして確定し、
分割点変数からの残りのフォワードセクションに損失セクションから前記分割点変数までに対応する勾配変数を加算したものを第２のセクションとして確定し、及び
前記分割点変数に対応する勾配変数からの残りのバックワードセクションを第３のセクションとして確定するように構成される請求項７に記載の装置。
前記取得ユニットはさらに、
前記モデル記述情報の操作に基づいてメモリの頻繁なインタラクション操作と計算集約型操作との間の変換変数を分割点変数として確定し、
メモリの頻繁なインタラクション操作をＣＰＵに割り当てて実行し、
計算集約型操作をＧＰＵに割り当てて実行するように構成される請求項７に記載の装置。
前記装置は、
トレーニングサンプルを所定部数に分け、
各部のトレーニングサンプルを用いてトレーニングして１組の深層学習モデルのパラメータを得、
所定のラウンド毎に、各組の深層学習モデルのパラメータを１回同期するように構成される統合ユニットをさらに含む請求項７に記載の装置。
コンテキスト情報はキューを介して伝送される請求項７～１１のいずれか一項に記載の装置。
１つ又は複数のプロセッサと、
１つ又は複数のプログラムが格納されている記憶装置と、を含む電子機器であって、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサによって実行される場合に、前記１つ又は複数のプロセッサに請求項１～６のいずれか一項に記載の方法を実現させる電子機器。
コンピュータプログラムが格納されているコンピュータ可読媒体であって、前記プログラムがプロセッサによって実行される場合に、請求項１～６のいずれか一項に記載の方法を実現するコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～６のいずれか１項に記載の方法を実現するコンピュータプログラム。