JP2022078286A

JP2022078286A - データ処理モデルのトレーニング方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2022078286A
Application number: JP2022039275A
Authority: JP
Inventors: ヤンカイシュ; Yangkai Xu; グゥイビンワン; Guibin Wang; シァォインフー; Xiaoyin Fu; ヂージェチェン; Zhijie Chen; ミンシュンヤン; Mingshun Yang; シージュンツォン; Shijun Cong; ミンジャ; Ming Jia; レイジャ; Lei Jia
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2022-03-14
Publication date: 2022-05-24
Also published as: US20220207427A1; KR20220061060A; EP4020327A3; CN113361574A; EP4020327A2

Abstract

【課題】トレーニングにおけるデータ処理ロジックの消費を低減し、データ処理モデルのトレーニング效率と、データ処理モデルのデータ処理効果を向上させるトレーニング方法、トレーニング装置、データ処理装置及び電子機器を提供する。【解決手段】方法は、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングする。【選択図】図１

Description

本開示は、コンピュータ技術の分野に関し、特に深層学習、ビッグデータ処理などの人工知能技術の分野に関し、具体的にデータ処理モデルのトレーニング方法、装置、電子機器及び記憶媒体に関する。

人工知能は、コンピュータに人間のある思惟過程と知能行為（学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能のハードウェア技術は、一般にセンサー、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習、深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。

関連技術では、データ処理モデルをトレーニングする場合、データ処理モデルが多くの中間計算結果を生成する可能性があり、これらの中間計算結果が大量のディスプレイメモリを占有するため、データ処理モデルのトレーニング效率に影響を与える。

本開示は、データ処理モデルのトレーニング方法、データ処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

本開示の第１の態様によれば、データ処理モデルのトレーニング方法を提供し、サンプルデータを取得するステップと、複数のフォワードノードが含まれる初期データ処理モデルを取得するステップであって、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用されるステップと、複数のフォワードノードに対応する複数の時間依存性特徴を決定するステップと、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するステップと、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップと、を含む。

本開示の第２の態様によれば、データ処理方法を提供し、処理対象のデータを取得するステップと、前記処理対象のデータを、上記のデータ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するステップと、を含む。

本開示の第３の態様によれば、データ処理モデルのトレーニング装置を提供し、サンプルデータを取得するための第１の取得モジュールと、複数のフォワードノードが含まれる初期データ処理モデルを取得するための第２の取得モジュールであって、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される第２の取得モジュールと、複数のフォワードノードに対応する複数の時間依存性特徴を決定するための決定モジュールと、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するための第１の処理モジュールと、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングモジュールと、を含む。

本開示の第４の態様によれば、データ処理装置を提供し、処理対象のデータを取得するための第３の取得モジュールと、前記処理対象のデータを、上記のデータ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するための第２の処理モジュールと、を含む。

本開示の第５の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも１つのプロセッサが第１の態様のデータ処理モデルのトレーニング方法、または、第２の態様のデータ処理方法を実行できるように、少なくとも１つのプロセッサによって実行される。

本開示の第６の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに第１の態様のデータ処理モデルのトレーニング方法、または、第２の態様に記載のデータ処理方法を実行させる。

本開示の第７の態様によれば、コンピュータプログラムを提供し、コンピュータプログラムはプロセッサによって実行される場合、第１の態様のデータ処理モデルのトレーニング方法、または、第２の態様に記載のデータ処理方法を実行する。

なお、この部分に記載されている内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第１の実施例に係る概略図である。本開示の実施例における時間依存性特徴の概略図である。本開示の第２の実施例に係る概略図である。本開示の実施例における別の時間依存性特徴の概略図である。本開示の第３の実施例に係る概略図である。本開示の第４の実施例に係る概略図である。本開示の第５の実施例に係る概略図である。本開示の第６の実施例に係る概略図である。本開示の第７の実施例に係る概略図である。本開示の実施例に係るデータ処理モデルのトレーニング方法を実行するための例示的な電子機器の概略ブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

図１は本開示の第１の実施例に係る概略図である。

なお、本実施例のデータ処理モデルのトレーニング方法の実行主体はデータ処理モデルのトレーニング装置であり、当該装置は、ソフトウェア及び／又はハードウェアによって実現されることができ、当該装置は、電子機器に配置されることができ、電子機器は、端末、サーバなどを含むことができるが、これらに限定されない。

本開示の実施例は、深層学習、ビッグデータ処理などの人工知能技術の分野に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、英語でＡＩと略称する。これは人間の知能を模擬、延長及び拡張するための理論、方法、技術及び応用システムを研究、開発する新しい技術科学である

深層学習は、サンプルデータの内的規則と表現レベルを学習するものであり、これらの学習過程で得られた情報は、文字、画像及び音声などのデータの解釈に大きく役立つ。深層学習の最終的な目標は機械に人間のように分析学習能力を持たせ、文字、画像、音声などのデータを認識できるようにすることである。

ビッグデータ処理とは、人工知能を採用して大規模のデータを分析し、処理する過程を指し、ビッグデータは、データ量が大きい（Ｖｏｌｕｍｅ）、速度が速い（Ｖｅｌｏｃｉｔｙ）、タイプが多い（Ｖａｒｉｅｔｙ）、価値（Ｖａｌｕｅ）、真実性（Ｖｅｒａｃｉｔｙ）の５つのＶとしてまとめることができる。

本実施例では、データ処理モデルのトレーニング方法の実行主体は、さまざまな公開、合法的なコンプライアンス方式でサンプルデータを取得することができ、例えば、公開データセットから取得してもよく、またはユーザの許可を得てユーザから取得してもよい。当該サンプルデータは特定のユーザの個人情報を反映するものではない。

なお、本開示の実施例のサンプルデータはいずれも関連法律、法規に適合した場合に取得されるものである。

図１に示すように、当該データ処理モデルのトレーニング方法は、ステップＳ１０１～１０５を含む。

Ｓ１０１、サンプルデータを取得する。

ここで、モデルをトレーニングするために使用されるデータは、サンプルデータと呼ぶことができ、当該サンプルデータは、サンプルの図像データであってもよいし、サンプルのオーディオデータであってもよく、これに対して限定しない。

いくつかの実施例では、サンプルデータを取得する場合、ビデオストリームを取得し、当該ビデオストリームに対してビデオフレーム解析を行って、マルチフレームのビデオをサンプルデータとして取得してもよく、または、各フレームのビデオに対応するオーディオデータを解析してサンプルデータとしてもよく、これに対して限定しない。

サンプルデータの数は複数であってもよい。

なお、本実施例のサンプルデータは、ある特定のユーザに対するサンプルデータではなく、ある特定のユーザの個人情報を反映するものではない。

本実施例におけるサンプルデータは、公開データセットからのものであってもよく、またはサンプルデータに対応するユーザの許可を得て取得されてもよい。

Ｓ１０２、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される。

ここで、トレーニングの初期段階で取得されたデータ処理モデルは、初期データ処理モデルと呼ぶことができ、当該初期データ処理モデルは人工知能モデルであってもよく、具体的には例えばニューラルネットワークモデルまたは機械学習モデルであってもよく、もちろん、データ処理タスクを実行できる他の任意の可能なモデルを採用してもよく、これに対して限定しない。

本開示の実施例では、サンプルデータを取得し、初期データ処理モデルを取得し、初期データ処理モデルの構造に対して対応的な最適化処理を行うステップを実行することができ、例えば、初期データ処理モデルの構造を簡略化したり、または他の任意の可能な方式で初期データ処理モデルの構造に対して対応的な最適化処理を行ったりして、データ処理ロジックによるディスプレイメモリの消費の効果的な低減を支援する。

本開示の実施例における初期データ処理モデルは、複数のフォワードノードを含み、ここで、フォワードノードは、データ処理ロジックにおけるフォワード計算タスクの実行のために使用でき、すなわち、サンプルデータをデータ処理モデルに入力した後、通常、フォワードノードに基づいてサンプルデータに対してフォワード計算タスクを実行して、サンプルデータにそれぞれ対応する複数の中間計算結果を出力し、サンプルデータをフォワードノードに入力した後、フォワードノードを用いてサンプルデータに対してフォワード計算タスクを実行して出力された計算結果は、中間計算結果と呼ぶことができる。

フォワードノードの数が複数である場合、複数のフォワードノードは、一定の接続関係、例えば、順番接続関係を有することができ、これによって複数のフォワードノードがフォワード計算タスクを実行することは、複数のフォワードノードが入力されたサンプルデータに対して順にフォワード計算を実行する過程であってもよい。

本実施例では、サンプルデータが取得された後、初期データ処理モデルを取得することができ、すなわち、予め設定されたモデルライブラリからデータ処理モデルを取得して初期データ処理モデルとすることができ、当該初期データ処理モデルは複数のフォワードノードを含み、複数のフォワードノードは、フォワード計算タスクの実行中にサンプルデータに対応する複数の中間計算結果を出力する。

なお、本実施例の初期データ処理モデルは、ある特定のユーザに対するデータ処理モデルではなく、ある特定のユーザの個人情報を反映するものではない。

Ｓ１０３、複数のフォワードノードに対応する複数の時間依存性特徴を決定する。

ここで、時間依存性特徴とは、対応するフォワードノードが他のフォワードノードと時間次元の計算関連関係があるか否か、すなわち、対応するフォワードノードがフォワード計算タスクを実行する時に他のフォワードノードから出力された中間計算結果に依存するか否かを指し、当該時間依存性特徴は、異なるフォワードノードの計算順序上の依存であってもよいし、一定の計算時間内に、時間次元上の計算関連関係の依存であってもよく、これに対して限定しない。

例えば、フォワード計算タスクの計算順序が０－ｔであり、ｔはフォワードノードの計算番号を表すことができ、すなわち、フォワード計算タスクが、ステップ０の計算、ステップ１の計算、…、ステップｔの計算を含む場合、異なるフォワードノードによってそれぞれ対応して異なるステップの計算タスクを実行することができ、あるフォワードノードがステップｔの計算を実行する時にステップｔ－１の計算から出力された中間計算結果に依存する場合、当該フォワードノードの時間依存性特徴が、他のフォワードノードと時間次元の計算関連関係があることであると決定することができ、あるフォワードノードがステップｔの計算を実行する時に他の任意のステップの計算から出力された中間計算結果に依存しない場合、当該フォワードノードの時間依存性特徴が他のフォワードノードと時間次元の計算関連関係がないことであると決定することができる。

図２に示すように、図２は、本開示の実施例における時間依存性特徴の概略図であり、ここで、複数のフォワードノードは、フォワードノード２、フォワードノード３、及びフォワードノード４を含み、複数のフォワードノードの計算順序は、フォワードノード２、フォワードノード３、フォワードノード４であり、それに応じて、フォワードノードがステップ０－ｔの計算を実行する場合、ステップｔ－１、ｔ、ｔ＋１の計算順序に従って計算を順に実行することができ、ここで、フォワードノード３がステップｔの計算を実行する時、ステップｔ－１から出力された中間計算結果に依存し、ステップｔ＋１の計算を実行する時、ステップｔから出力された中間計算結果に依存し、これにより、フォワードノード３の時間依存性特徴が他のフォワードノードと時間次元の計算関連関係があることであると決定することができ、フォワードノード２及びフォワードノード４がステップｔ－１、ｔ及びｔ＋１の計算を実行する時、他の任意のステップから出力された中間計算結果に依存する必要がなく、この時、フォワードノード２及びフォワードノード４の時間依存性特徴が他のフォワードノードと時間次元の計算関連関係がないことであると決定することができる。

いくつかの実施例では、フォワードノードに対応する時間依存性特徴を決定する時、当該フォワードノードに入力された中間計算結果を取得し、当該入力された中間計算結果が他のステップの計算タスクから出力された中間計算結果と関連関係があるか否かを分析し、分析して対応する時間依存性特徴を取得することができ、これに対して限定しない。

本実施例では、初期データ処理モデルが取得された後、初期データ処理モデルにおける個々のフォワードノードと、他のフォワードノードとの計算関連関係を分析し、分析して得られた計算関連関係に基づいて、複数のフォワードノードに対応する複数の時間依存性特徴を決定してもよく、または、初期データ処理モデルに対応する構成ファイルを取得し、当該構成ファイルを解析して個々のフォワードノードに対応する属性特徴を取得し、属性特徴に対して対応する分析を行って、複数のフォワードノードにそれぞれ対応する複数の時間依存性特徴を取得してもよく、これに対して限定しない。

Ｓ１０４、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得する。

ここで、初期データ処理モデルを最適化処理して得られたデータ処理モデルは、トレーニング対象のデータ処理モデルと呼ぶことができる。

上記複数のフォワードノードに対応する複数の時間依存性特徴が決定された後、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得することができる。

例えば、初期データ処理モデルのモデル構造パラメータを対応して更新するように、複数の時間依存性特徴を組み合わせて初期データ処理モデルに対して最適化トレーニングを行い、最適化された初期データ処理モデルを取得してもよく、当該最適化された初期データ処理モデルはトレーニング対象のデータ処理モデルと呼ぶことができ、または、他の任意の可能な形態で複数の時間依存性特徴に基づいて初期データ処理モデルを処理することを実行してもよい。

Ｓ１０５、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得する。

上記複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、レーニング対象のデータ処理モデルを取得した後、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得することができる。

例えば、複数のサンプルデータ及び複数の中間計算結果をトレーニング対象のデータ処理モデルに入力して、トレーニング対象のデータ処理モデルから出力された予測処理結果を取得し、予測処理結果とラベリング処理結果との間に収束条件が満たされる場合、訓練が終了し、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとすることができる。

いくつかの実施例では、トレーニング対象のデータ処理モデルに対して損失関数を予め構成し、データ処理モデルのトレーニング中に、サンプルデータ、複数の中間計算結果、及び予測処理結果、ラベリング処理結果を損失関数の入力パラメータとして、損失関数によって入力された損失値を決定し、当該損失値と組み合わせてデータ処理モデルが収束タイミングを満たすか否かを決定してもよく、これに対して限定しない。

なお、本ステップで得られたターゲットデータ処理モデルは、サンプルデータに対するデータ処理ロジックを含むが、当該サンプルデータのデータ処理ロジックの構築は、ユーザの許可を得た後に実行されたことであり、その構築過程は関連する法律法規に適合している。

本実施例では、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用され、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得し、個々のフォワードノードの時間依存性特徴を組み合わせて初期データ処理モデルの構造に対して対応的な最適化処理を行うため、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、これによってデータ処理モデルのトレーニング效率を効果的に向上させ、データ処理モデルのデータ処理効果を効果的に向上させる。

図３は、本開示の第２の実施例に係る概略図である。

図３に示すように、当該データ処理モデルのトレーニング方法は以下のステップＳ３０１～３０７を含む。

Ｓ３０１、サンプルデータを取得する。

本実施例のサンプルデータは、公開データセットからのものであってもよく、またはサンプルデータに対応するユーザの許可を得て取得されてもよい。

Ｓ３０２、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される。

いくつかの応用シナリオにおいて、初期データ処理モデルに対して再計算範囲を画定してもよく、当該再計算範囲内には、複数のフォワードノードが含まれることができ、当該複数のフォワードノードは、初期データ処理モデルのすべてのフォワードノードのうちの一部のフォワードノードであってもよく、当該一部のフォワードノードの中からターゲットフォワードノードを選別することをサポートし、これに対して限定しない。

Ｓ３０３、複数のフォワードノードに対応する複数の時間依存性特徴を決定する。

Ｓ３０１～Ｓ３０３の説明は、具体的に上記の実施例を参照することができ、ここでは説明を省略する。

Ｓ３０４、複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定する。

ここで、計算中に、他のフォワードノードと時間次元の計算関連関係がないフォワードノードは、ターゲットフォワードノードと呼ぶことができる。

上記複数のフォワードノードに対応する複数の時間依存性特徴が決定された後、複数の時間依存性特徴に基づいて、複数のフォワードノードの中から他のフォワードノードと時間次元の計算関連関係がないフォワードノードを決定してターゲットフォワードノードとすることができる。

図４と組み合わせて本実施例に対して説明することができ、図４に示すように、図４は、本開示の実施例における別の時間依存性特徴の概略図であり、フォワードノード１、フォワードノード２、フォワードノード３、及びフォワードノード４を含み、フォワードノード１、フォワードノード２、フォワードノード３、及びフォワードノード４の時間依存性特徴を決定することにより、フォワードノード１の時間依存性特徴が他のフォワードノードと時間次元の計算関連関係がないことである場合、フォワードノード１をターゲットフォワードノードとして決定できることを知ることができる。

本実施例では、複数のフォワードノードに対応する依存性特徴を決定することで、複数のフォワードノードの中から他のフォワードノードと時間次元の計算関連関係がないターゲットフォワードノードを決定し、当該ターゲットフォワードノードに対して再計算状態（すなわち、図４に示すように、ターゲットフォワードノード１に対して対応する再計算ノード１を構成する）を設定して、当該ターゲットフォワードノードから出力された再計算結果を取得することができ、その後、サンプルデータ、複数の中間結果及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングしてターゲットデータ処理トレーニングモデルを取得することができる。

ここで、ターゲットフォワードノードを再計算状態に設定する場合、モデルの逆算を行う時、リバースノードがターゲットフォワードノードから出力された中間計算結果に依存している場合、それに対応する再計算ノードを用いて再計算タスクを実行し、ターゲットフォワードノードに対応する中間計算結果を出力して、モデルのパラメータチューニングを支援することができる。

Ｓ３０５、ターゲットフォワードノードに対応する再計算ノードを生成し、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果は、ターゲットフォワードノードから出力された中間計算結果と同じである。

上記複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードが決定された後、ターゲットフォワードノードに対応する再計算ノードを生成することができる。

ここで、再計算ノードとは、データ処理モデルのリバーストレーニング中に、ターゲットフォワードノードに対応する中間計算結果を生成するように、サンプルデータに対して再計算タスクを再実行することができるものであり、当該再計算で得られた中間計算結果は、データ処理モデルのリバーストレーニングをサポートするために使用されることができ、リバーストレーニングの目的はモデルのパラメータチューニングであってもよい。

ここで、上記再計算ノードから再計算中で出力された中間計算結果は、再計算結果と呼ぶことができ、上記再計算ノードから再計算中で出力された再計算結果は、ターゲットフォワードノードからフォワードトレーニング中で出力された中間計算結果と同じである。

本実施例では、フォワードノードを再計算しディスプレイメモリ包括利益を計算することにより、再計算及びディスプレイメモリ包括利益が最大のフォワードノードに対応する再計算ノードを生成することができ、具体的な計算式は、ｒｅｃｏｍｍｉｔ＿ｂｅｎｅｆｉｔ＝ｏｕｔｐｕｔ＿ｓｉｚｅ－ｉｎｐｕｔ＿ｓｉｚｅ＋ｒｅｃｏｍｐｕｔｅ＿ｉｎｐｕｔ＿ｓｉｚｅであり、ここで、ｒｅｃｏｍｍｉｔ＿ｂｅｎｅｆｉｔは再計算及びディスプレイメモリ包括利益値であり、ｏｕｔｐｕｔ＿ｓｉｚｅはフォワードノードから出力された中間計算結果のディスプレイメモリサイズであり、ｉｎｐｕｔ＿ｓｉｚｅはフォワードノードから入力されたすべてのディスプレイメモリサイズであり、ｒｅｃｏｍｐｕｔｅ＿ｉｎｐｕｔ＿ｓｉｚｅはターゲットフォワードノードから入力されたディスプレイメモリサイズであり、計算して得られたターゲットフォワードノードのうち、再計算及びディスプレイメモリ利益が最大の計算ノードを決定し、上記計算ノードに対応する再計算ノードを生成し、得られた最大の再計算及びディスプレイメモリ包括利益値が予め設定された閾値未満となるまで、上記ステップを繰り返す。逆に、計算して得られた再計算及びディスプレイメモリ包括利益が予め設定された閾値よりも大きい場合、ターゲットフォワードノードに対応する再計算ノードを生成しなくてもよい。

例えば、図４に示すように、上記決定されたターゲットフォワードノードがフォワードノード１である場合、フォワードノード１に対して再計算及びディスプレイメモリ包括利益の計算を行い、フォワードノード１に対して計算して得られた再計算及びディスプレイメモリ包括利益が予め設定された閾値より小さい場合、ターゲットフォワードノード１に対応する再計算ノードを生成し、ここで、フォワードノード１は、復算中に復算結果１を出力し、再計算結果１は上記フォワードノード１によってフォワード計算中で出力された中間計算結果１と同じ結果であり、逆に、フォワードノード１に対して計算して得られた再計算及びディスプレイメモリ利益が予め設定された閾値より大きい場合、ターゲットフォワードノードに対応する再計算ノードを生成しなくてもよく、この場合、後続の計算によって復算ノードを再決定してもよく、これに対して限定しない。

Ｓ３０６、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成する。

上記ターゲットフォワードノードに対応する再計算ノードが生成された後、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成することができる。

本実施例では、複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定し、ターゲットフォワードノードに対応する再計算ノードを生成し、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果はターゲットフォワードノードから出力された中間計算結果と同じであり、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成することにより、時間依存性特徴を参照して初期データ処理モデルに対して構造最適化を行うことを実現し、対応する再計算ノードを構成して再計算タスクを実行するため、再計算して得られた再計算結果を用いてデータ処理モデルに対してパラメータチューニングを行うことをサポートすることができ、ターゲットフォワードノードから出力された中間計算結果に対する依存性を効果的に低減させる。

なお、本ステップで得られたトレーニング対象のデータ処理モデルは、サンプルデータに対するデータ処理ロジックを含むが、当該サンプルデータのデータ処理ロジックの構築は、ユーザの許可を得た後に実行されたことであり、その構築過程は関連する法律法規に適合している。

Ｓ３０７、サンプルデータ、他の中間計算結果、及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得し、他の中間計算結果は、他のフォワードノードから出力された、サンプルデータに対応する中間計算結果であり、ターゲットフォワードノードが他のフォワードノードと共に複数のフォワードノードを構成する。

上記複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルが生成された後、サンプルデータ、他の中間計算結果、及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得することができ、サンプルデータ、他の中間計算結果、及び再計算結果を組み合わせてトレーニング対象のデータ処理モデルをトレーニングするため、データ処理モデルのトレーニング效率及び性能を効果的に向上させることができ、データ処理モデルのトレーニング效果を効果的に向上させることができ、これによってデータ処理モデルをリアルタイム要件の高い応用シナリオに適合させることができる。

上記図４と組み合わせて本実施例に対して説明することができ、図４に示すように、データ処理モデルは、フォワードノード１、フォワードノード２、フォワードノード３、フォワードノード４、リバースノード１、リバースノード２、リバースノード３、及びリバースノード４を含み、上記再計算ノード１及び再計算結果１が決定された後、サンプルデータ及びフォワードノード２から出力された中間計算結果２、フォワードノード３から出力された中間計算結果３を組み合わせてトレーニング対象のデータ処理モデルをトレーニングして、データ処理モデルに対してパラメータチューニングを行い、パラメータチューニングを行ってターゲットデータ処理モデルを取得することができる。

いくつかの実施例では、フォワードノードとリバースノードに対してそれぞれ対応する損失関数を構成することができ、フォワードノードの計算の実行中に、フォワードノードに構成された損失関数から出力された損失値を取得し、その後、中間計算結果２をリバースノード２の入力とし、中間計算結果３をリバースノード３及びリバースノード４の入力とし、再計算結果１をリバースノード１の入力とし、リバースノードの逆算（逆算はモデルに対してパラメータチューニングを行う）を実行することにより、リバースノードに対して構成された損失関数に基づいて計算してモデルの降下勾配を取得し、最適化デバイスを更新することにより、降下勾配をモデルパラメータに適用して、更新されたモデルのトレーニングパラメータを取得し、その後、更新されたモデルトレーニングパラメータを予め設定されたモデルトレーニングの標準パラメータと比較して、モデルのトレーニングが完了するか否かを決定することができる。

本実施例では、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用され、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得し、個々のフォワードノードの時間依存性特徴を組み合わせて初期データ処理モデルの構造に対して対応的な最適化処理を行うため、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、これによってデータ処理モデルのトレーニング效率を効果的に向上させ、データ処理モデルのデータ処理効果を効果的に向上させる。複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定し、ターゲットフォワードノードに対応する再計算ノードを生成し、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果はターゲットフォワードノードから出力された中間計算結果と同じであり、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成することにより、時間依存性特徴を参照して初期データ処理モデルに対して構造最適化を行うことを実現し、対応する再計算ノードを構成して再計算タスクを実行するため、再計算して得られた再計算結果を用いてデータ処理モデルに対してパラメータチューニングを行うことをサポートすることができ、ターゲットフォワードノードから出力された中間計算結果に対する依存性を効果的に低減させる。

図５は本開示の第３の実施例に係る概略図である。

図５に示すように、当該データ処理モデルのトレーニング方法は以下のステップＳ５０１～Ｓ５０５を含む。

Ｓ５０１、サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得する。

本実施例では、サンプルデータをトレーニング対象のデータ処理モデルに入力し、トレーニング対象のデータ処理モデルにおける複数のフォワードノードに基づいてフォワード計算タスク（フォワード計算タスクはデータ処理タスクを実行するために使用されることができる）を実行することにより、複数のフォワードノードからそれぞれ出力された複数の中間計算結果を取得し、当該中間計算結果は逆算タスクの入力とすることができ、逆算タスクはモデルパラメータのチューニングタスクと見なされることができる。

Ｓ５０２、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持する。

上記サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルの複数の中間計算結果が取得された後、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持することができる。

例えば、上記フォワードノード１、フォワードノード２、フォワードノード３、フォワードノード４は、フォワードトレーニングにおいてそれぞれサンプルデータに関連する中間計算結果１、中間計算結果２、中間計算結果３、中間計算結果４を出力し、上記フォワードノード１がターゲットフォワードノードであると決定された後、フォワードノード１から出力された中間計算結果１を削除し、中間計算結果２、中間計算結果３、中間計算結果４を他の中間計算結果として保持することができる。

本実施例では、サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得し、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持することこれにより、ターゲットフォワードノードから出力された中間結果が後続のモデルトレーニング中にディスプレイメモリを持続的に占有することを回避し、ストレージ性能を向上させ、データ処理モデルのトレーニング速度の向上を支援することができる。

Ｓ５０３、再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得する。

すなわち、トレーニング対象のデータ処理モデルにおける複数のリバースノードに基づいて逆算タスク（逆算タスクはモデルパラメータのチューニングタスクと見なすことができる）を実行する時、再計算ノードを用いて再計算タスクを実行して、サンプルデータに対応する中間計算結果（再計算ノードから出力された中間計算結果は、再計算結果と呼ぶことができる）を出力することができる。

Ｓ５０４、サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得する。

上記再計算ノードによって生成された、サンプルデータに対応する再計算結果が取得された後、サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得することができる。

ここで、リバースノードによって予測して得られたチューニングパラメータは予測チューニングパラメータと呼ぶことができ、予測チューニングパラメータはモデルのトレーニング状態を反映するパラメータであってもよく、当該パラメータは具体的には予測によって得られたものであってもよい。それに応じて、モデルトレーニングの場合、当該トレーニング対象のデータ処理モデルは対応する初期チューニングパラメータを有し、当該初期チューニングパラメータは調整対象のチューニングパラメータであってもよく、リバーストレーニング中に、逆算タスクを実行してモデルの調整対象のチューニングパラメータに対してチューニングを行うことができ、この場合、リバースノードは対応する予測チューニングパラメータを生成する。

本実施例では、データ処理モデルに対して損失関数を予め構成することができ、リバースノードの実行中に、予め構成された損失関数に基づいて計算してデータ処理モデルのトレーニングパラメータの降下勾配を取得し、パラメータの更新を実行することで、上記降下勾配をモデルのトレーニングパラメータに適用して、更新された予測チューニングパラメータを取得することができる。

Ｓ５０５、予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとする。

ここで、データ処理モデルに対して性能指標を予め構成し、当該性能指標に基づいて解析して得られたデータ処理モデルのターゲットチューニングパラメータは、ラベリングチューニングパラメータと呼ぶことができる。

いくつかの実施例では、データ処理モデルに対して対応するラベリングチューニングパラメータを予め設定し、データ処理モデルに対して損失関数を予め構成することができ、データ処理モデルのリバーストレーニング中に、パラメータの更新を実行して、更新された予測チューニングパラメータを取得し、予測チューニングパラメータとラベリングチューニングパラメータとの損失値が損失閾値より小さい場合、予測チューニングパラメータとラベリングチューニングパラメータとの間に設定された条件が満たされていると決定することができ、予測チューニングパラメータに基づいて調整対象のチューニングパラメータを調整して、ターゲットデータ処理モデルを取得することができ、または、設定された条件は他の任意可能の条件に構成されてもよく、これに対して限定しない。

これにより、本実施例では、再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得し、さらに、サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得し、予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとし、サンプルデータ、他の中間計算結果、及び再計算結果を組み合わせて逆算タスクを実行してモデルに対してパラメータチューニングを行うため、データ処理モデルの表現性能を効果的に向上させ、データ処理モデルのトレーニング效率と性能の両立を実現することができ、データ処理モデルのトレーニング效果を効果的に向上させることができ、データ処理モデルをリアルタイム要件の高い応用シナリオに適合させることができ、モデルトレーニングと使用されたシナリオを大きく豊富にする。

上記トレーニングして得られたデータ処理モデルは、ストリーミング計算シナリオに効果的に適用でき、再計算の最適化の使い勝手と知能性を効果的に強化し、ユーザの使用閾値を低減させ、サンプルデータのバッチサイズを増加させるとともに、計算速度を確保するという目的を達成し、データ処理アルゴリズムを生産環境でより速くトレーニングし、データ処理モデルの納入効率を向上させることができる。

本実施例では、サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得し、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持し、その後、再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得することができ、これにより、ターゲットフォワードノードから出力された中間結果が後続のモデルトレーニング中にディスプレイメモリを持続的に占有することを回避し、ストレージ性能を向上させ、データ処理モデルのトレーニング速度の向上を支援することができる。再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得し、さらにサンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得し、予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとし、サンプルデータ、他の中間計算結果、及び再計算結果を組み合わせて逆算タスクを実行してモデルに対してパラメータチューニングを行うため、データ処理モデルの表現性能を効果的に向上させ、データ処理モデルのトレーニング效率と性能の両立を実現することができ、データ処理モデルのトレーニング效果を効果的に向上させることができ、データ処理モデルをリアルタイム要件の高い応用シナリオに適合させることができ、モデルトレーニングと使用されるシナリオを大きく豊富にする。

図６は本開示の第４の実施例に係る概略図である。

本実施例では、データ処理方法の実行主体は、さまざまな公開、合法的なコンプライアンス方式で処理対象のデータを取得することができ、例えば公開データセットトから取得してもよく、またはユーザの許可を得てユーザから取得してもよい。当該処理対象のデータはある特定のユーザの個人情報を反映するものではない。

なお、本開示の実施例の処理対象のデータは、いずれも関連法律、法規に適合した場合に取得されるものである。

図６に示すように、当該データ処理方法はステップＳ６０１～Ｓ６０２を含む。

Ｓ６０１、処理対象のデータを取得する。

現在処理待ちのデータは、処理対象のデータと呼ぶことができる。

当該処理対象のデータは、例えば、１つの音声データフレームであってもよく、複数の音声データフレームであってもよく、すなわち、処理対象のデータの数は１つまたは複数であってもよく、これに対して限定しない。

Ｓ６０２、処理対象のデータを上記データ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得する。

上記処理対象のデータが取得された後、処理対象のデータを上記データ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得することができる。

本実施例では、処理対象のデータを取得し、処理対象のデータを上記データ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得することにより、ターゲットデータ処理モデルが、フォワードノードの時間依存性特徴と組み合わせて初期データ処理モデルの構造に対して最適化処理を行ってトレーニングして得られたものであるため、ターゲットデータ処理モデルを採用して処理対象のデータを処理する時、データ処理ロジックによるディスプレイメモリの消費を効果的に低減させ、データ処理效率を効果的に向上させ、データ処理效果を効果的に向上させることができる。

図７は、本開示の第５の実施例に係る概略図である。

図７に示すように、当該データ処理モデルのトレーニング装置７０は、
サンプルデータを取得するための第１の取得モジュール７０１と、
複数のフォワードノードが含まれる初期データ処理モデルを取得するための第２の取得モジュール７０２であって、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される第２の取得モジュール７０２と、
複数のフォワードノードに対応する複数の時間依存性特徴を決定するための決定モジュール７０３と、
複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するための第１の処理モジュール７０４と、
サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングモジュール７０５と、を含む。

本開示のいくつかの実施例では、図８に示すように、図８は、本開示の第６の実施例に係る概略図であり、当該データ処理モデルのトレーニング装置８０は、第１の取得モジュール８０１、第２の取得モジュール８０２、決定モジュール８０３、第１の処理モジュール８０４、及びトレーニングモジュール８０５を含み、ここで、第１の処理モジュール８０４は、
複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定するための決定サブモジュール８０４１と、
ターゲットフォワードノードに対応する再計算ノードを生成するための第１の生成サブモジュール８０４２であって、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果は、ターゲットフォワードノードから出力された中間計算結果と同じである第１の生成サブモジュール８０４２と、
複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成するための第２の生成サブモジュール８０４３と、を含む。

本開示のいくつかの実施例では、トレーニングモジュール８０５は、
サンプルデータ、他の中間計算結果、及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングサブモジュール８０５１であって、
他の中間計算結果は、他のフォワードノードから出力された、サンプルデータに対応する中間計算結果であり、ターゲットフォワードノードが他のフォワードノードと共に複数のフォワードノードを構成するトレーニングサブモジュール８０５１を含む。

本開示のいくつかの実施例では、トレーニングモジュール８０５は、
サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得するための入力サブモジュール８０５２と、
ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持するための削除サブモジュール８０５３と、さらにを含む。

本開示のいくつかの実施例では、トレーニング対象のデータ処理モデルは、サンプルデータに対応する予測チューニングパラメータを出力するために使用される複数のリバースノードを含み、サンプルデータは対応するラベリングチューニングパラメータを有し、トレーニングサブモジュール８０５１は、具体的に、
再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得し、
サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得し、
予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとする。

本開示のいくつかの実施例では、ターゲットフォワードノードの時間依存性特徴は、ターゲットフォワードノードが他のフォワードノードと時間次元の計算関連関係がないことを示す。

なお、本実施例の図８のデータ処理モデルのトレーニング装置８０と上記実施例のデータ処理モデルのトレーニング装置７０、第１の取得モジュール８０１と上記実施例の第１の取得モジュール７０１、第２の取得モジュール８０２と上記実施例の第２の取得モジュール７０２、決定モジュール８０３と上記実施例の決定モジュール７０３、第１の処理モジュール８０４と上記実施例の第１の処理モジュール７０４、トレーニングモジュール８０５と上記実施例のトレーニングモジュール７０５は、同じ機能と構造を有してもよい。

なお、上記データ処理モデルのトレーニング方法についての説明は、本実施例のデータ処理モデルのトレーニング装置にも適用される。

本実施例では、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用され、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得する。個々のフォワードノードの時間依存性特徴を組み合わせて初期データ処理モデルの構造に対して対応的な最適化処理を行うため、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、データ処理モデルのトレーニング效率を効果的に向上させ、データ処理モデルのデータ処理効果を効果的に向上させる。

図９は、本開示の第７の実施例に係る概略図である。

図９に示すように、当該データ処理装置９００は、
処理対象のデータを取得するための第３の取得モジュール９０１と、
処理対象のデータを上記のデータ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するための第２の処理モジュール９０２と、を含む。

なお、上記のデータ処理方法についての説明は、本実施例のデータ処理装置にも適用され、ここでは説明を省略する。

本実施例では、処理対象のデータを取得し、処理対象のデータを上記データ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得し、ターゲットデータ処理モデルが、フォワードノードの時間依存性特徴と組み合わせて初期データ処理モデルの構造に対して最適化処理を行ってトレーニングして得られたものであるため、ターゲットデータ処理モデルを採用して処理対象のデータを処理する時、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、データ処理效率を効果的に向上させ、データ処理效果を効果的に向上させる。

本開示の実施例によれば、本開示は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるデータ処理モデルのトレーニング方法、またはデータ処理方法が実現される。

図１０は、本開示の実施例のデータ処理モデルのトレーニング方法を実行するための例示的な電子機器の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び／又は求められる本開示の実現を制限することを意図したものではない。

図１０に示すように、電子機器１０００は、読み取り専用メモリ（ＲＯＭ）１００２に記憶されているコンピュータプログラムまたは記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行する計算ユニット１００１を含む。ＲＡＭ１００３には、電子機器１０００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット１００１、ＲＯＭ５０２、及びＲＡＭ１００３は、バス１００４を介して互いに接続されている。パス１００４には、入力／出力（Ｉ／Ｏ）インターフェース１００５も接続されている。

電子機器１０００の複数のコンポーネントはＩ／Ｏインターフェース１００５に接続され、キーボード、マウスなどの入力ユニット１００６、各タイプのディスプレイ、スピーカなどの出力ユニット１００７、磁気ディスク、光ディスクなどの記憶ユニット１００８、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１００９を含む。通信ユニット１００９は、電子機器１０００が、インターネットなどのコンピュータネットワークおよび／または各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット１００１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１００１は、上記に記載された各方法及び処理、例えば、データ処理モデルのトレーニング方法、またはデータ処理方法を実行する。例えば、いくつかの実施例では、データ処理モデルのトレーニング方法、またはデータ処理方法を、記憶ユニット１００８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はＲＯＭ１００２及び／又は通信ユニット１００９を介して電子機器１０００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされ、計算ユニット１００１によって実行される場合、前文に記載されたデータ処理モデルのトレーニング方法、またはデータ処理方法の１つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット１００１はデータ処理モデルのトレーニング方法、またはデータ処理方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び／又はブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容のいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または「ＶＰＳ」と略称する）に存在する管理の難しさ、業務拡張性の弱い欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で提供されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

データ処理モデルのトレーニング方法であって、
サンプルデータを取得するステップと、
複数のフォワードノードが含まれる初期データ処理モデルを取得するステップであって、前記複数のフォワードノードは、前記サンプルデータに対応する複数の中間計算結果を出力するために使用されるステップと、
前記複数のフォワードノードに対応する複数の時間依存性特徴を決定するステップと、
前記複数の時間依存性特徴に基づいて前記初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するステップと、
前記サンプルデータ及び前記複数の中間計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップと、を含む、
ことを特徴とするデータ処理モデルのトレーニング方法。
前記複数の時間依存性特徴に基づいて前記初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するステップは、
前記複数の時間依存性特徴に基づいて、前記複数のフォワードノードの中からターゲットフォワードノードを決定するステップと、
前記ターゲットフォワードノードに対応する再計算ノードを生成するステップであって、前記再計算ノードは前記サンプルデータに対応する再計算結果を出力するために使用され、前記再計算結果は、前記ターゲットフォワードノードから出力された中間計算結果と同じであるステップと、
前記複数のフォワードノード及び前記再計算ノードに基づいて、前記トレーニング対象のデータ処理モデルを生成するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記サンプルデータ及び前記複数の中間計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップは、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップであって、
前記他の中間計算結果は、他のフォワードノードから出力された前記サンプルデータに対応する中間計算結果であり、前記ターゲットフォワードノードが前記他のフォワードノードと共に前記複数のフォワードノードを構成するステップを含む、
ことを特徴とする請求項２に記載の方法。
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップの前に、
前記サンプルデータを前記トレーニング対象のデータ処理モデルのフォワードトレーニング入力として、前記トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得するステップと、
前記ターゲットフォワードノードから出力された中間計算結果を削除し、前記他のフォワードノードから出力された前記他の中間計算結果を保持するステップと、をさらに含む、
ことを特徴とする請求項３に記載の方法。
前記トレーニング対象のデータ処理モデルは、前記サンプルデータに対応する予測チューニングパラメータを出力するための複数のリバースノードを含み、前記サンプルデータは対応するラベリングチューニングパラメータを有し、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップは、
前記再計算ノードによって生成された前記サンプルデータに対応する再計算結果を取得するステップと、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を前記トレーニング対象のデータ処理モデルのリバーストレーニング入力として、前記複数のリバースノードから出力された予測チューニングパラメータを取得するステップと、
前記予測チューニングパラメータと前記ラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルを前記ターゲットデータ処理モデルとするステップと、を含む、
ことを特徴とする請求項４に記載の方法。
前記ターゲットフォワードノードの時間依存性特徴は、前記ターゲットフォワードノードが他のフォワードノードと時間次元の計算関連関係がないことを示す、
ことを特徴とする請求項２～５のいずれかに記載の方法。
データ処理方法であって、
処理対象のデータを取得するステップと、
前記処理対象のデータを請求項１～６のいずれかに記載のデータ処理モデルのトレーニング方法によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するステップと、を含む、
ことを特徴とするデータ処理方法。
データ処理モデルのトレーニング装置であって、
サンプルデータを取得するための第１の取得モジュールと、
複数のフォワードノードが含まれる初期データ処理モデルを取得するための第２の取得モジュールであって、前記複数のフォワードノードは、前記サンプルデータに対応する複数の中間計算結果を出力する第２の取得モジュールと、
前記複数のフォワードノードに対応する複数の時間依存性特徴を決定するための決定モジュールと、
前記複数の時間依存性特徴に基づいて前記初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するための第１の処理モジュールと、
前記サンプルデータ及び前記複数の中間計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングモジュールと、を含む、
ことを特徴とするデータ処理モデルのトレーニング装置。
前記第１の処理モジュールが、
前記複数の時間依存性特徴に基づいて、前記複数のフォワードノードの中からターゲットフォワードノードを決定するための決定サブモジュールと、
前記ターゲットフォワードノードに対応する再計算ノードを生成するための第１の生成サブモジュールであって、前記再計算ノードは前記サンプルデータに対応する再計算結果を出力するために使用され、前記再計算結果は、前記ターゲットフォワードノードから出力された中間計算結果と同じである第１の生成サブモジュールと、
前記複数のフォワードノード及び前記再計算ノードに基づいて、前記トレーニング対象のデータ処理モデルを生成するための第２の生成サブモジュールと、を含む、
ことを特徴とする請求項８に記載の装置。
前記トレーニングモジュールが、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングサブモジュールであって、
前記他の中間計算結果は、他のフォワードノードから出力された、前記サンプルデータに対応する中間計算結果であり、前記ターゲットフォワードノードが前記他のフォワードノードと共に前記複数のフォワードノードを構成するトレーニングサブモジュールを含む、
ことを特徴とする請求項９に記載の装置。
前記トレーニングモジュールが、
前記サンプルデータを前記トレーニング対象のデータ処理モデルのフォワードトレーニング入力として、前記トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得するための入力サブモジュールと、
前記ターゲットフォワードノードから出力された中間計算結果を削除し、前記他のフォワードノードから出力された前記他の中間計算結果を保持するための削除サブモジュールと、をさらに含む、
ことを特徴とする請求項１０に記載の装置。
前記トレーニング対象のデータ処理モデルは、前記サンプルデータに対応する予測チューニングパラメータを出力するための複数のリバースノードを含み、前記サンプルデータは対応するラベリングチューニングパラメータを有し、
前記トレーニングサブモジュールが、
前記再計算ノードによって生成された、前記サンプルデータに対応する再計算結果を取得し、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を前記トレーニング対象のデータ処理モデルのリバーストレーニング入力として、前記複数のリバースノードから出力された予測チューニングパラメータを取得し、
前記予測チューニングパラメータと前記ラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルを前記ターゲットデータ処理モデルとする、
ことを特徴とする請求項１１に記載の装置。
前記ターゲットフォワードノードの時間依存性特徴は、前記ターゲットフォワードノードが他のフォワードノードと時間次元の計算関連関係がないことを示す、
ことを特徴とする請求項９～１２のいずれかに記載の装置。
データ処理装置であって、
処理対象のデータを取得するための第３の取得モジュールと、
前記処理対象のデータを請求項８～１３のいずれかに記載のデータ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するための第２の処理モジュールと、を含む、
ことを特徴とするデータ処理装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～６のいずれかに記載のデータ処理モデルのトレーニング方法、または、請求項７に記載のデータ処理方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～６のいずれかに記載のデータ処理モデルのトレーニング方法、または、請求項７に記載のデータ処理方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～６のいずれかに記載のデータ処理モデルのトレーニング方法、または、請求項７に記載のデータ処理方法が実現される、
ことを特徴とするコンピュータプログラム。