JP2022078286A - データ処理モデルのトレーニング方法、装置、電子機器及び記憶媒体 - Google Patents
データ処理モデルのトレーニング方法、装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2022078286A JP2022078286A JP2022039275A JP2022039275A JP2022078286A JP 2022078286 A JP2022078286 A JP 2022078286A JP 2022039275 A JP2022039275 A JP 2022039275A JP 2022039275 A JP2022039275 A JP 2022039275A JP 2022078286 A JP2022078286 A JP 2022078286A
- Authority
- JP
- Japan
- Prior art keywords
- data processing
- processing model
- training
- node
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 366
- 238000012549 training Methods 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003860 storage Methods 0.000 title claims description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 180
- 230000036962 time dependent Effects 0.000 claims abstract description 62
- 238000003672 processing method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 239000000543 intermediate Substances 0.000 description 98
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
【課題】トレーニングにおけるデータ処理ロジックの消費を低減し、データ処理モデルのトレーニング效率と、データ処理モデルのデータ処理効果を向上させるトレーニング方法、トレーニング装置、データ処理装置及び電子機器を提供する。【解決手段】方法は、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングする。【選択図】図1
Description
本開示は、コンピュータ技術の分野に関し、特に深層学習、ビッグデータ処理などの人工知能技術の分野に関し、具体的にデータ処理モデルのトレーニング方法、装置、電子機器及び記憶媒体に関する。
人工知能は、コンピュータに人間のある思惟過程と知能行為(学習、推理、思考、計画など)をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術とソフトウェアレベルの技術との両方がある。人工知能のハードウェア技術は、一般にセンサー、専用人工知能チップ、クラウド計算、分散記憶、ビッグデータ処理などの技術を含む。人工知能のソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習、深層学習、ビッグデータ処理技術、知識グラフ技術などのいくつかの方向を含む。
関連技術では、データ処理モデルをトレーニングする場合、データ処理モデルが多くの中間計算結果を生成する可能性があり、これらの中間計算結果が大量のディスプレイメモリを占有するため、データ処理モデルのトレーニング效率に影響を与える。
本開示は、データ処理モデルのトレーニング方法、データ処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
本開示の第1の態様によれば、データ処理モデルのトレーニング方法を提供し、サンプルデータを取得するステップと、複数のフォワードノードが含まれる初期データ処理モデルを取得するステップであって、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用されるステップと、複数のフォワードノードに対応する複数の時間依存性特徴を決定するステップと、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するステップと、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップと、を含む。
本開示の第2の態様によれば、データ処理方法を提供し、処理対象のデータを取得するステップと、前記処理対象のデータを、上記のデータ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するステップと、を含む。
本開示の第3の態様によれば、データ処理モデルのトレーニング装置を提供し、サンプルデータを取得するための第1の取得モジュールと、複数のフォワードノードが含まれる初期データ処理モデルを取得するための第2の取得モジュールであって、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される第2の取得モジュールと、複数のフォワードノードに対応する複数の時間依存性特徴を決定するための決定モジュールと、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するための第1の処理モジュールと、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングモジュールと、を含む。
本開示の第4の態様によれば、データ処理装置を提供し、処理対象のデータを取得するための第3の取得モジュールと、前記処理対象のデータを、上記のデータ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するための第2の処理モジュールと、を含む。
本開示の第5の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶され、命令は、少なくとも1つのプロセッサが第1の態様のデータ処理モデルのトレーニング方法、または、第2の態様のデータ処理方法を実行できるように、少なくとも1つのプロセッサによって実行される。
本開示の第6の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに第1の態様のデータ処理モデルのトレーニング方法、または、第2の態様に記載のデータ処理方法を実行させる。
本開示の第7の態様によれば、コンピュータプログラムを提供し、コンピュータプログラムはプロセッサによって実行される場合、第1の態様のデータ処理モデルのトレーニング方法、または、第2の態様に記載のデータ処理方法を実行する。
なお、この部分に記載されている内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例に係る概略図である。
本開示の実施例における時間依存性特徴の概略図である。
本開示の第2の実施例に係る概略図である。
本開示の実施例における別の時間依存性特徴の概略図である。
本開示の第3の実施例に係る概略図である。
本開示の第4の実施例に係る概略図である。
本開示の第5の実施例に係る概略図である。
本開示の第6の実施例に係る概略図である。
本開示の第7の実施例に係る概略図である。
本開示の実施例に係るデータ処理モデルのトレーニング方法を実行するための例示的な電子機器の概略ブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
図1は本開示の第1の実施例に係る概略図である。
なお、本実施例のデータ処理モデルのトレーニング方法の実行主体はデータ処理モデルのトレーニング装置であり、当該装置は、ソフトウェア及び/又はハードウェアによって実現されることができ、当該装置は、電子機器に配置されることができ、電子機器は、端末、サーバなどを含むことができるが、これらに限定されない。
本開示の実施例は、深層学習、ビッグデータ処理などの人工知能技術の分野に関する。
人工知能(Artificial Intelligence)は、英語でAIと略称する。これは人間の知能を模擬、延長及び拡張するための理論、方法、技術及び応用システムを研究、開発する新しい技術科学である
深層学習は、サンプルデータの内的規則と表現レベルを学習するものであり、これらの学習過程で得られた情報は、文字、画像及び音声などのデータの解釈に大きく役立つ。深層学習の最終的な目標は機械に人間のように分析学習能力を持たせ、文字、画像、音声などのデータを認識できるようにすることである。
ビッグデータ処理とは、人工知能を採用して大規模のデータを分析し、処理する過程を指し、ビッグデータは、データ量が大きい(Volume)、速度が速い(Velocity)、タイプが多い(Variety)、価値(Value)、真実性(Veracity)の5つのVとしてまとめることができる。
本実施例では、データ処理モデルのトレーニング方法の実行主体は、さまざまな公開、合法的なコンプライアンス方式でサンプルデータを取得することができ、例えば、公開データセットから取得してもよく、またはユーザの許可を得てユーザから取得してもよい。当該サンプルデータは特定のユーザの個人情報を反映するものではない。
なお、本開示の実施例のサンプルデータはいずれも関連法律、法規に適合した場合に取得されるものである。
図1に示すように、当該データ処理モデルのトレーニング方法は、ステップS101~105を含む。
S101、サンプルデータを取得する。
ここで、モデルをトレーニングするために使用されるデータは、サンプルデータと呼ぶことができ、当該サンプルデータは、サンプルの図像データであってもよいし、サンプルのオーディオデータであってもよく、これに対して限定しない。
いくつかの実施例では、サンプルデータを取得する場合、ビデオストリームを取得し、当該ビデオストリームに対してビデオフレーム解析を行って、マルチフレームのビデオをサンプルデータとして取得してもよく、または、各フレームのビデオに対応するオーディオデータを解析してサンプルデータとしてもよく、これに対して限定しない。
サンプルデータの数は複数であってもよい。
なお、本実施例のサンプルデータは、ある特定のユーザに対するサンプルデータではなく、ある特定のユーザの個人情報を反映するものではない。
本実施例におけるサンプルデータは、公開データセットからのものであってもよく、またはサンプルデータに対応するユーザの許可を得て取得されてもよい。
S102、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される。
ここで、トレーニングの初期段階で取得されたデータ処理モデルは、初期データ処理モデルと呼ぶことができ、当該初期データ処理モデルは人工知能モデルであってもよく、具体的には例えばニューラルネットワークモデルまたは機械学習モデルであってもよく、もちろん、データ処理タスクを実行できる他の任意の可能なモデルを採用してもよく、これに対して限定しない。
本開示の実施例では、サンプルデータを取得し、初期データ処理モデルを取得し、初期データ処理モデルの構造に対して対応的な最適化処理を行うステップを実行することができ、例えば、初期データ処理モデルの構造を簡略化したり、または他の任意の可能な方式で初期データ処理モデルの構造に対して対応的な最適化処理を行ったりして、データ処理ロジックによるディスプレイメモリの消費の効果的な低減を支援する。
本開示の実施例における初期データ処理モデルは、複数のフォワードノードを含み、ここで、フォワードノードは、データ処理ロジックにおけるフォワード計算タスクの実行のために使用でき、すなわち、サンプルデータをデータ処理モデルに入力した後、通常、フォワードノードに基づいてサンプルデータに対してフォワード計算タスクを実行して、サンプルデータにそれぞれ対応する複数の中間計算結果を出力し、サンプルデータをフォワードノードに入力した後、フォワードノードを用いてサンプルデータに対してフォワード計算タスクを実行して出力された計算結果は、中間計算結果と呼ぶことができる。
フォワードノードの数が複数である場合、複数のフォワードノードは、一定の接続関係、例えば、順番接続関係を有することができ、これによって複数のフォワードノードがフォワード計算タスクを実行することは、複数のフォワードノードが入力されたサンプルデータに対して順にフォワード計算を実行する過程であってもよい。
本実施例では、サンプルデータが取得された後、初期データ処理モデルを取得することができ、すなわち、予め設定されたモデルライブラリからデータ処理モデルを取得して初期データ処理モデルとすることができ、当該初期データ処理モデルは複数のフォワードノードを含み、複数のフォワードノードは、フォワード計算タスクの実行中にサンプルデータに対応する複数の中間計算結果を出力する。
なお、本実施例の初期データ処理モデルは、ある特定のユーザに対するデータ処理モデルではなく、ある特定のユーザの個人情報を反映するものではない。
S103、複数のフォワードノードに対応する複数の時間依存性特徴を決定する。
ここで、時間依存性特徴とは、対応するフォワードノードが他のフォワードノードと時間次元の計算関連関係があるか否か、すなわち、対応するフォワードノードがフォワード計算タスクを実行する時に他のフォワードノードから出力された中間計算結果に依存するか否かを指し、当該時間依存性特徴は、異なるフォワードノードの計算順序上の依存であってもよいし、一定の計算時間内に、時間次元上の計算関連関係の依存であってもよく、これに対して限定しない。
例えば、フォワード計算タスクの計算順序が0-tであり、tはフォワードノードの計算番号を表すことができ、すなわち、フォワード計算タスクが、ステップ0の計算、ステップ1の計算、…、ステップtの計算を含む場合、異なるフォワードノードによってそれぞれ対応して異なるステップの計算タスクを実行することができ、あるフォワードノードがステップtの計算を実行する時にステップt-1の計算から出力された中間計算結果に依存する場合、当該フォワードノードの時間依存性特徴が、他のフォワードノードと時間次元の計算関連関係があることであると決定することができ、あるフォワードノードがステップtの計算を実行する時に他の任意のステップの計算から出力された中間計算結果に依存しない場合、当該フォワードノードの時間依存性特徴が他のフォワードノードと時間次元の計算関連関係がないことであると決定することができる。
図2に示すように、図2は、本開示の実施例における時間依存性特徴の概略図であり、ここで、複数のフォワードノードは、フォワードノード2、フォワードノード3、及びフォワードノード4を含み、複数のフォワードノードの計算順序は、フォワードノード2、フォワードノード3、フォワードノード4であり、それに応じて、フォワードノードがステップ0-tの計算を実行する場合、ステップt-1、t、t+1の計算順序に従って計算を順に実行することができ、ここで、フォワードノード3がステップtの計算を実行する時、ステップt-1から出力された中間計算結果に依存し、ステップt+1の計算を実行する時、ステップtから出力された中間計算結果に依存し、これにより、フォワードノード3の時間依存性特徴が他のフォワードノードと時間次元の計算関連関係があることであると決定することができ、フォワードノード2及びフォワードノード4がステップt-1、t及びt+1の計算を実行する時、他の任意のステップから出力された中間計算結果に依存する必要がなく、この時、フォワードノード2及びフォワードノード4の時間依存性特徴が他のフォワードノードと時間次元の計算関連関係がないことであると決定することができる。
いくつかの実施例では、フォワードノードに対応する時間依存性特徴を決定する時、当該フォワードノードに入力された中間計算結果を取得し、当該入力された中間計算結果が他のステップの計算タスクから出力された中間計算結果と関連関係があるか否かを分析し、分析して対応する時間依存性特徴を取得することができ、これに対して限定しない。
本実施例では、初期データ処理モデルが取得された後、初期データ処理モデルにおける個々のフォワードノードと、他のフォワードノードとの計算関連関係を分析し、分析して得られた計算関連関係に基づいて、複数のフォワードノードに対応する複数の時間依存性特徴を決定してもよく、または、初期データ処理モデルに対応する構成ファイルを取得し、当該構成ファイルを解析して個々のフォワードノードに対応する属性特徴を取得し、属性特徴に対して対応する分析を行って、複数のフォワードノードにそれぞれ対応する複数の時間依存性特徴を取得してもよく、これに対して限定しない。
S104、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得する。
ここで、初期データ処理モデルを最適化処理して得られたデータ処理モデルは、トレーニング対象のデータ処理モデルと呼ぶことができる。
上記複数のフォワードノードに対応する複数の時間依存性特徴が決定された後、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得することができる。
例えば、初期データ処理モデルのモデル構造パラメータを対応して更新するように、複数の時間依存性特徴を組み合わせて初期データ処理モデルに対して最適化トレーニングを行い、最適化された初期データ処理モデルを取得してもよく、当該最適化された初期データ処理モデルはトレーニング対象のデータ処理モデルと呼ぶことができ、または、他の任意の可能な形態で複数の時間依存性特徴に基づいて初期データ処理モデルを処理することを実行してもよい。
S105、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得する。
上記複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、レーニング対象のデータ処理モデルを取得した後、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得することができる。
例えば、複数のサンプルデータ及び複数の中間計算結果をトレーニング対象のデータ処理モデルに入力して、トレーニング対象のデータ処理モデルから出力された予測処理結果を取得し、予測処理結果とラベリング処理結果との間に収束条件が満たされる場合、訓練が終了し、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとすることができる。
いくつかの実施例では、トレーニング対象のデータ処理モデルに対して損失関数を予め構成し、データ処理モデルのトレーニング中に、サンプルデータ、複数の中間計算結果、及び予測処理結果、ラベリング処理結果を損失関数の入力パラメータとして、損失関数によって入力された損失値を決定し、当該損失値と組み合わせてデータ処理モデルが収束タイミングを満たすか否かを決定してもよく、これに対して限定しない。
なお、本ステップで得られたターゲットデータ処理モデルは、サンプルデータに対するデータ処理ロジックを含むが、当該サンプルデータのデータ処理ロジックの構築は、ユーザの許可を得た後に実行されたことであり、その構築過程は関連する法律法規に適合している。
本実施例では、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用され、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得し、個々のフォワードノードの時間依存性特徴を組み合わせて初期データ処理モデルの構造に対して対応的な最適化処理を行うため、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、これによってデータ処理モデルのトレーニング效率を効果的に向上させ、データ処理モデルのデータ処理効果を効果的に向上させる。
図3は、本開示の第2の実施例に係る概略図である。
図3に示すように、当該データ処理モデルのトレーニング方法は以下のステップS301~307を含む。
S301、サンプルデータを取得する。
なお、本実施例のサンプルデータは、ある特定のユーザに対するサンプルデータではなく、ある特定のユーザの個人情報を反映するものではない。
本実施例のサンプルデータは、公開データセットからのものであってもよく、またはサンプルデータに対応するユーザの許可を得て取得されてもよい。
S302、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される。
いくつかの応用シナリオにおいて、初期データ処理モデルに対して再計算範囲を画定してもよく、当該再計算範囲内には、複数のフォワードノードが含まれることができ、当該複数のフォワードノードは、初期データ処理モデルのすべてのフォワードノードのうちの一部のフォワードノードであってもよく、当該一部のフォワードノードの中からターゲットフォワードノードを選別することをサポートし、これに対して限定しない。
なお、本実施例の初期データ処理モデルは、ある特定のユーザに対するデータ処理モデルではなく、ある特定のユーザの個人情報を反映するものではない。
S303、複数のフォワードノードに対応する複数の時間依存性特徴を決定する。
S301~S303の説明は、具体的に上記の実施例を参照することができ、ここでは説明を省略する。
S304、複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定する。
ここで、計算中に、他のフォワードノードと時間次元の計算関連関係がないフォワードノードは、ターゲットフォワードノードと呼ぶことができる。
上記複数のフォワードノードに対応する複数の時間依存性特徴が決定された後、複数の時間依存性特徴に基づいて、複数のフォワードノードの中から他のフォワードノードと時間次元の計算関連関係がないフォワードノードを決定してターゲットフォワードノードとすることができる。
図4と組み合わせて本実施例に対して説明することができ、図4に示すように、図4は、本開示の実施例における別の時間依存性特徴の概略図であり、フォワードノード1、フォワードノード2、フォワードノード3、及びフォワードノード4を含み、フォワードノード1、フォワードノード2、フォワードノード3、及びフォワードノード4の時間依存性特徴を決定することにより、フォワードノード1の時間依存性特徴が他のフォワードノードと時間次元の計算関連関係がないことである場合、フォワードノード1をターゲットフォワードノードとして決定できることを知ることができる。
本実施例では、複数のフォワードノードに対応する依存性特徴を決定することで、複数のフォワードノードの中から他のフォワードノードと時間次元の計算関連関係がないターゲットフォワードノードを決定し、当該ターゲットフォワードノードに対して再計算状態(すなわち、図4に示すように、ターゲットフォワードノード1に対して対応する再計算ノード1を構成する)を設定して、当該ターゲットフォワードノードから出力された再計算結果を取得することができ、その後、サンプルデータ、複数の中間結果及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングしてターゲットデータ処理トレーニングモデルを取得することができる。
ここで、ターゲットフォワードノードを再計算状態に設定する場合、モデルの逆算を行う時、リバースノードがターゲットフォワードノードから出力された中間計算結果に依存している場合、それに対応する再計算ノードを用いて再計算タスクを実行し、ターゲットフォワードノードに対応する中間計算結果を出力して、モデルのパラメータチューニングを支援することができる。
S305、ターゲットフォワードノードに対応する再計算ノードを生成し、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果は、ターゲットフォワードノードから出力された中間計算結果と同じである。
上記複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードが決定された後、ターゲットフォワードノードに対応する再計算ノードを生成することができる。
ここで、再計算ノードとは、データ処理モデルのリバーストレーニング中に、ターゲットフォワードノードに対応する中間計算結果を生成するように、サンプルデータに対して再計算タスクを再実行することができるものであり、当該再計算で得られた中間計算結果は、データ処理モデルのリバーストレーニングをサポートするために使用されることができ、リバーストレーニングの目的はモデルのパラメータチューニングであってもよい。
ここで、上記再計算ノードから再計算中で出力された中間計算結果は、再計算結果と呼ぶことができ、上記再計算ノードから再計算中で出力された再計算結果は、ターゲットフォワードノードからフォワードトレーニング中で出力された中間計算結果と同じである。
本実施例では、フォワードノードを再計算しディスプレイメモリ包括利益を計算することにより、再計算及びディスプレイメモリ包括利益が最大のフォワードノードに対応する再計算ノードを生成することができ、具体的な計算式は、recommit_benefit=output_size-input_size+recompute_input_sizeであり、ここで、recommit_benefitは再計算及びディスプレイメモリ包括利益値であり、output_sizeはフォワードノードから出力された中間計算結果のディスプレイメモリサイズであり、input_sizeはフォワードノードから入力されたすべてのディスプレイメモリサイズであり、recompute_input_sizeはターゲットフォワードノードから入力されたディスプレイメモリサイズであり、計算して得られたターゲットフォワードノードのうち、再計算及びディスプレイメモリ利益が最大の計算ノードを決定し、上記計算ノードに対応する再計算ノードを生成し、得られた最大の再計算及びディスプレイメモリ包括利益値が予め設定された閾値未満となるまで、上記ステップを繰り返す。逆に、計算して得られた再計算及びディスプレイメモリ包括利益が予め設定された閾値よりも大きい場合、ターゲットフォワードノードに対応する再計算ノードを生成しなくてもよい。
例えば、図4に示すように、上記決定されたターゲットフォワードノードがフォワードノード1である場合、フォワードノード1に対して再計算及びディスプレイメモリ包括利益の計算を行い、フォワードノード1に対して計算して得られた再計算及びディスプレイメモリ包括利益が予め設定された閾値より小さい場合、ターゲットフォワードノード1に対応する再計算ノードを生成し、ここで、フォワードノード1は、復算中に復算結果1を出力し、再計算結果1は上記フォワードノード1によってフォワード計算中で出力された中間計算結果1と同じ結果であり、逆に、フォワードノード1に対して計算して得られた再計算及びディスプレイメモリ利益が予め設定された閾値より大きい場合、ターゲットフォワードノードに対応する再計算ノードを生成しなくてもよく、この場合、後続の計算によって復算ノードを再決定してもよく、これに対して限定しない。
S306、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成する。
上記ターゲットフォワードノードに対応する再計算ノードが生成された後、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成することができる。
本実施例では、複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定し、ターゲットフォワードノードに対応する再計算ノードを生成し、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果はターゲットフォワードノードから出力された中間計算結果と同じであり、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成することにより、時間依存性特徴を参照して初期データ処理モデルに対して構造最適化を行うことを実現し、対応する再計算ノードを構成して再計算タスクを実行するため、再計算して得られた再計算結果を用いてデータ処理モデルに対してパラメータチューニングを行うことをサポートすることができ、ターゲットフォワードノードから出力された中間計算結果に対する依存性を効果的に低減させる。
なお、本ステップで得られたトレーニング対象のデータ処理モデルは、サンプルデータに対するデータ処理ロジックを含むが、当該サンプルデータのデータ処理ロジックの構築は、ユーザの許可を得た後に実行されたことであり、その構築過程は関連する法律法規に適合している。
S307、サンプルデータ、他の中間計算結果、及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得し、他の中間計算結果は、他のフォワードノードから出力された、サンプルデータに対応する中間計算結果であり、ターゲットフォワードノードが他のフォワードノードと共に複数のフォワードノードを構成する。
上記複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルが生成された後、サンプルデータ、他の中間計算結果、及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得することができ、サンプルデータ、他の中間計算結果、及び再計算結果を組み合わせてトレーニング対象のデータ処理モデルをトレーニングするため、データ処理モデルのトレーニング效率及び性能を効果的に向上させることができ、データ処理モデルのトレーニング效果を効果的に向上させることができ、これによってデータ処理モデルをリアルタイム要件の高い応用シナリオに適合させることができる。
上記図4と組み合わせて本実施例に対して説明することができ、図4に示すように、データ処理モデルは、フォワードノード1、フォワードノード2、フォワードノード3、フォワードノード4、リバースノード1、リバースノード2、リバースノード3、及びリバースノード4を含み、上記再計算ノード1及び再計算結果1が決定された後、サンプルデータ及びフォワードノード2から出力された中間計算結果2、フォワードノード3から出力された中間計算結果3を組み合わせてトレーニング対象のデータ処理モデルをトレーニングして、データ処理モデルに対してパラメータチューニングを行い、パラメータチューニングを行ってターゲットデータ処理モデルを取得することができる。
いくつかの実施例では、フォワードノードとリバースノードに対してそれぞれ対応する損失関数を構成することができ、フォワードノードの計算の実行中に、フォワードノードに構成された損失関数から出力された損失値を取得し、その後、中間計算結果2をリバースノード2の入力とし、中間計算結果3をリバースノード3及びリバースノード4の入力とし、再計算結果1をリバースノード1の入力とし、リバースノードの逆算(逆算はモデルに対してパラメータチューニングを行う)を実行することにより、リバースノードに対して構成された損失関数に基づいて計算してモデルの降下勾配を取得し、最適化デバイスを更新することにより、降下勾配をモデルパラメータに適用して、更新されたモデルのトレーニングパラメータを取得し、その後、更新されたモデルトレーニングパラメータを予め設定されたモデルトレーニングの標準パラメータと比較して、モデルのトレーニングが完了するか否かを決定することができる。
本実施例では、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用され、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得し、個々のフォワードノードの時間依存性特徴を組み合わせて初期データ処理モデルの構造に対して対応的な最適化処理を行うため、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、これによってデータ処理モデルのトレーニング效率を効果的に向上させ、データ処理モデルのデータ処理効果を効果的に向上させる。複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定し、ターゲットフォワードノードに対応する再計算ノードを生成し、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果はターゲットフォワードノードから出力された中間計算結果と同じであり、複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成することにより、時間依存性特徴を参照して初期データ処理モデルに対して構造最適化を行うことを実現し、対応する再計算ノードを構成して再計算タスクを実行するため、再計算して得られた再計算結果を用いてデータ処理モデルに対してパラメータチューニングを行うことをサポートすることができ、ターゲットフォワードノードから出力された中間計算結果に対する依存性を効果的に低減させる。
図5は本開示の第3の実施例に係る概略図である。
図5に示すように、当該データ処理モデルのトレーニング方法は以下のステップS501~S505を含む。
S501、サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得する。
本実施例では、サンプルデータをトレーニング対象のデータ処理モデルに入力し、トレーニング対象のデータ処理モデルにおける複数のフォワードノードに基づいてフォワード計算タスク(フォワード計算タスクはデータ処理タスクを実行するために使用されることができる)を実行することにより、複数のフォワードノードからそれぞれ出力された複数の中間計算結果を取得し、当該中間計算結果は逆算タスクの入力とすることができ、逆算タスクはモデルパラメータのチューニングタスクと見なされることができる。
なお、本実施例のサンプルデータは、ある特定のユーザに対するサンプルデータではなく、ある特定のユーザの個人情報を反映するものではない。
本実施例のサンプルデータは、公開データセットからのものであってもよく、またはサンプルデータに対応するユーザの許可を得て取得されてもよい。
S502、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持する。
上記サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルの複数の中間計算結果が取得された後、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持することができる。
例えば、上記フォワードノード1、フォワードノード2、フォワードノード3、フォワードノード4は、フォワードトレーニングにおいてそれぞれサンプルデータに関連する中間計算結果1、中間計算結果2、中間計算結果3、中間計算結果4を出力し、上記フォワードノード1がターゲットフォワードノードであると決定された後、フォワードノード1から出力された中間計算結果1を削除し、中間計算結果2、中間計算結果3、中間計算結果4を他の中間計算結果として保持することができる。
本実施例では、サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得し、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持することこれにより、ターゲットフォワードノードから出力された中間結果が後続のモデルトレーニング中にディスプレイメモリを持続的に占有することを回避し、ストレージ性能を向上させ、データ処理モデルのトレーニング速度の向上を支援することができる。
S503、再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得する。
すなわち、トレーニング対象のデータ処理モデルにおける複数のリバースノードに基づいて逆算タスク(逆算タスクはモデルパラメータのチューニングタスクと見なすことができる)を実行する時、再計算ノードを用いて再計算タスクを実行して、サンプルデータに対応する中間計算結果(再計算ノードから出力された中間計算結果は、再計算結果と呼ぶことができる)を出力することができる。
S504、サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得する。
上記再計算ノードによって生成された、サンプルデータに対応する再計算結果が取得された後、サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得することができる。
ここで、リバースノードによって予測して得られたチューニングパラメータは予測チューニングパラメータと呼ぶことができ、予測チューニングパラメータはモデルのトレーニング状態を反映するパラメータであってもよく、当該パラメータは具体的には予測によって得られたものであってもよい。それに応じて、モデルトレーニングの場合、当該トレーニング対象のデータ処理モデルは対応する初期チューニングパラメータを有し、当該初期チューニングパラメータは調整対象のチューニングパラメータであってもよく、リバーストレーニング中に、逆算タスクを実行してモデルの調整対象のチューニングパラメータに対してチューニングを行うことができ、この場合、リバースノードは対応する予測チューニングパラメータを生成する。
本実施例では、データ処理モデルに対して損失関数を予め構成することができ、リバースノードの実行中に、予め構成された損失関数に基づいて計算してデータ処理モデルのトレーニングパラメータの降下勾配を取得し、パラメータの更新を実行することで、上記降下勾配をモデルのトレーニングパラメータに適用して、更新された予測チューニングパラメータを取得することができる。
S505、予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとする。
ここで、データ処理モデルに対して性能指標を予め構成し、当該性能指標に基づいて解析して得られたデータ処理モデルのターゲットチューニングパラメータは、ラベリングチューニングパラメータと呼ぶことができる。
いくつかの実施例では、データ処理モデルに対して対応するラベリングチューニングパラメータを予め設定し、データ処理モデルに対して損失関数を予め構成することができ、データ処理モデルのリバーストレーニング中に、パラメータの更新を実行して、更新された予測チューニングパラメータを取得し、予測チューニングパラメータとラベリングチューニングパラメータとの損失値が損失閾値より小さい場合、予測チューニングパラメータとラベリングチューニングパラメータとの間に設定された条件が満たされていると決定することができ、予測チューニングパラメータに基づいて調整対象のチューニングパラメータを調整して、ターゲットデータ処理モデルを取得することができ、または、設定された条件は他の任意可能の条件に構成されてもよく、これに対して限定しない。
これにより、本実施例では、再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得し、さらに、サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得し、予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとし、サンプルデータ、他の中間計算結果、及び再計算結果を組み合わせて逆算タスクを実行してモデルに対してパラメータチューニングを行うため、データ処理モデルの表現性能を効果的に向上させ、データ処理モデルのトレーニング效率と性能の両立を実現することができ、データ処理モデルのトレーニング效果を効果的に向上させることができ、データ処理モデルをリアルタイム要件の高い応用シナリオに適合させることができ、モデルトレーニングと使用されたシナリオを大きく豊富にする。
上記トレーニングして得られたデータ処理モデルは、ストリーミング計算シナリオに効果的に適用でき、再計算の最適化の使い勝手と知能性を効果的に強化し、ユーザの使用閾値を低減させ、サンプルデータのバッチサイズを増加させるとともに、計算速度を確保するという目的を達成し、データ処理アルゴリズムを生産環境でより速くトレーニングし、データ処理モデルの納入効率を向上させることができる。
なお、本ステップで得られたターゲットデータ処理モデルは、サンプルデータに対するデータ処理ロジックを含むが、当該サンプルデータのデータ処理ロジックの構築は、ユーザの許可を得た後に実行されたことであり、その構築過程は関連する法律法規に適合している。
本実施例では、サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得し、ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持し、その後、再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得することができ、これにより、ターゲットフォワードノードから出力された中間結果が後続のモデルトレーニング中にディスプレイメモリを持続的に占有することを回避し、ストレージ性能を向上させ、データ処理モデルのトレーニング速度の向上を支援することができる。再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得し、さらにサンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得し、予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとし、サンプルデータ、他の中間計算結果、及び再計算結果を組み合わせて逆算タスクを実行してモデルに対してパラメータチューニングを行うため、データ処理モデルの表現性能を効果的に向上させ、データ処理モデルのトレーニング效率と性能の両立を実現することができ、データ処理モデルのトレーニング效果を効果的に向上させることができ、データ処理モデルをリアルタイム要件の高い応用シナリオに適合させることができ、モデルトレーニングと使用されるシナリオを大きく豊富にする。
図6は本開示の第4の実施例に係る概略図である。
本実施例では、データ処理方法の実行主体は、さまざまな公開、合法的なコンプライアンス方式で処理対象のデータを取得することができ、例えば公開データセットトから取得してもよく、またはユーザの許可を得てユーザから取得してもよい。当該処理対象のデータはある特定のユーザの個人情報を反映するものではない。
なお、本開示の実施例の処理対象のデータは、いずれも関連法律、法規に適合した場合に取得されるものである。
図6に示すように、当該データ処理方法はステップS601~S602を含む。
S601、処理対象のデータを取得する。
現在処理待ちのデータは、処理対象のデータと呼ぶことができる。
当該処理対象のデータは、例えば、1つの音声データフレームであってもよく、複数の音声データフレームであってもよく、すなわち、処理対象のデータの数は1つまたは複数であってもよく、これに対して限定しない。
なお、本開示の実施例の処理対象のデータは、いずれも関連法律、法規に適合した場合に取得されるものである。
S602、処理対象のデータを上記データ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得する。
上記処理対象のデータが取得された後、処理対象のデータを上記データ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得することができる。
本実施例では、処理対象のデータを取得し、処理対象のデータを上記データ処理モデルのトレーニング方法でトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得することにより、ターゲットデータ処理モデルが、フォワードノードの時間依存性特徴と組み合わせて初期データ処理モデルの構造に対して最適化処理を行ってトレーニングして得られたものであるため、ターゲットデータ処理モデルを採用して処理対象のデータを処理する時、データ処理ロジックによるディスプレイメモリの消費を効果的に低減させ、データ処理效率を効果的に向上させ、データ処理效果を効果的に向上させることができる。
図7は、本開示の第5の実施例に係る概略図である。
図7に示すように、当該データ処理モデルのトレーニング装置70は、
サンプルデータを取得するための第1の取得モジュール701と、
複数のフォワードノードが含まれる初期データ処理モデルを取得するための第2の取得モジュール702であって、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される第2の取得モジュール702と、
複数のフォワードノードに対応する複数の時間依存性特徴を決定するための決定モジュール703と、
複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するための第1の処理モジュール704と、
サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングモジュール705と、を含む。
サンプルデータを取得するための第1の取得モジュール701と、
複数のフォワードノードが含まれる初期データ処理モデルを取得するための第2の取得モジュール702であって、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用される第2の取得モジュール702と、
複数のフォワードノードに対応する複数の時間依存性特徴を決定するための決定モジュール703と、
複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するための第1の処理モジュール704と、
サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングモジュール705と、を含む。
本開示のいくつかの実施例では、図8に示すように、図8は、本開示の第6の実施例に係る概略図であり、当該データ処理モデルのトレーニング装置80は、第1の取得モジュール801、第2の取得モジュール802、決定モジュール803、第1の処理モジュール804、及びトレーニングモジュール805を含み、ここで、第1の処理モジュール804は、
複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定するための決定サブモジュール8041と、
ターゲットフォワードノードに対応する再計算ノードを生成するための第1の生成サブモジュール8042であって、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果は、ターゲットフォワードノードから出力された中間計算結果と同じである第1の生成サブモジュール8042と、
複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成するための第2の生成サブモジュール8043と、を含む。
複数の時間依存性特徴に基づいて、複数のフォワードノードの中からターゲットフォワードノードを決定するための決定サブモジュール8041と、
ターゲットフォワードノードに対応する再計算ノードを生成するための第1の生成サブモジュール8042であって、再計算ノードはサンプルデータに対応する再計算結果を出力するために使用され、再計算結果は、ターゲットフォワードノードから出力された中間計算結果と同じである第1の生成サブモジュール8042と、
複数のフォワードノード及び再計算ノードに基づいて、トレーニング対象のデータ処理モデルを生成するための第2の生成サブモジュール8043と、を含む。
本開示のいくつかの実施例では、トレーニングモジュール805は、
サンプルデータ、他の中間計算結果、及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングサブモジュール8051であって、
他の中間計算結果は、他のフォワードノードから出力された、サンプルデータに対応する中間計算結果であり、ターゲットフォワードノードが他のフォワードノードと共に複数のフォワードノードを構成するトレーニングサブモジュール8051を含む。
サンプルデータ、他の中間計算結果、及び再計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングサブモジュール8051であって、
他の中間計算結果は、他のフォワードノードから出力された、サンプルデータに対応する中間計算結果であり、ターゲットフォワードノードが他のフォワードノードと共に複数のフォワードノードを構成するトレーニングサブモジュール8051を含む。
本開示のいくつかの実施例では、トレーニングモジュール805は、
サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得するための入力サブモジュール8052と、
ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持するための削除サブモジュール8053と、さらにを含む。
サンプルデータをトレーニング対象のデータ処理モデルのフォワードトレーニング入力として、トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得するための入力サブモジュール8052と、
ターゲットフォワードノードから出力された中間計算結果を削除し、他のフォワードノードから出力された他の中間計算結果を保持するための削除サブモジュール8053と、さらにを含む。
本開示のいくつかの実施例では、トレーニング対象のデータ処理モデルは、サンプルデータに対応する予測チューニングパラメータを出力するために使用される複数のリバースノードを含み、サンプルデータは対応するラベリングチューニングパラメータを有し、トレーニングサブモジュール8051は、具体的に、
再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得し、
サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得し、
予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとする。
再計算ノードによって生成された、サンプルデータに対応する再計算結果を取得し、
サンプルデータ、他の中間計算結果、及び再計算結果をトレーニング対象のデータ処理モデルのリバーストレーニング入力として、複数のリバースノードから出力された予測チューニングパラメータを取得し、
予測チューニングパラメータとラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルをターゲットデータ処理モデルとする。
本開示のいくつかの実施例では、ターゲットフォワードノードの時間依存性特徴は、ターゲットフォワードノードが他のフォワードノードと時間次元の計算関連関係がないことを示す。
なお、本実施例の図8のデータ処理モデルのトレーニング装置80と上記実施例のデータ処理モデルのトレーニング装置70、第1の取得モジュール801と上記実施例の第1の取得モジュール701、第2の取得モジュール802と上記実施例の第2の取得モジュール702、決定モジュール803と上記実施例の決定モジュール703、第1の処理モジュール804と上記実施例の第1の処理モジュール704、トレーニングモジュール805と上記実施例のトレーニングモジュール705は、同じ機能と構造を有してもよい。
なお、上記データ処理モデルのトレーニング方法についての説明は、本実施例のデータ処理モデルのトレーニング装置にも適用される。
本実施例では、サンプルデータを取得し、複数のフォワードノードが含まれる初期データ処理モデルを取得し、複数のフォワードノードはサンプルデータに対応する複数の中間計算結果を出力するために使用され、複数のフォワードノードに対応する複数の時間依存性特徴を決定し、複数の時間依存性特徴に基づいて初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得し、サンプルデータ及び複数の中間計算結果を用いてトレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得する。個々のフォワードノードの時間依存性特徴を組み合わせて初期データ処理モデルの構造に対して対応的な最適化処理を行うため、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、データ処理モデルのトレーニング效率を効果的に向上させ、データ処理モデルのデータ処理効果を効果的に向上させる。
図9は、本開示の第7の実施例に係る概略図である。
図9に示すように、当該データ処理装置900は、
処理対象のデータを取得するための第3の取得モジュール901と、
処理対象のデータを上記のデータ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するための第2の処理モジュール902と、を含む。
処理対象のデータを取得するための第3の取得モジュール901と、
処理対象のデータを上記のデータ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するための第2の処理モジュール902と、を含む。
なお、上記のデータ処理方法についての説明は、本実施例のデータ処理装置にも適用され、ここでは説明を省略する。
本実施例では、処理対象のデータを取得し、処理対象のデータを上記データ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、ターゲットデータ処理モデルから出力されたデータ処理結果を取得し、ターゲットデータ処理モデルが、フォワードノードの時間依存性特徴と組み合わせて初期データ処理モデルの構造に対して最適化処理を行ってトレーニングして得られたものであるため、ターゲットデータ処理モデルを採用して処理対象のデータを処理する時、データ処理ロジックによるディスプレイメモリの消費を効果的に低減することができ、データ処理效率を効果的に向上させ、データ処理效果を効果的に向上させる。
本開示の実施例によれば、本開示は、電子機器、及び読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるデータ処理モデルのトレーニング方法、またはデータ処理方法が実現される。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるデータ処理モデルのトレーニング方法、またはデータ処理方法が実現される。
図10は、本開示の実施例のデータ処理モデルのトレーニング方法を実行するための例示的な電子機器の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は求められる本開示の実現を制限することを意図したものではない。
図10に示すように、電子機器1000は、読み取り専用メモリ(ROM)1002に記憶されているコンピュータプログラムまたは記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに従って様々な適切な動作及び処理を実行する計算ユニット1001を含む。RAM1003には、電子機器1000の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット1001、ROM502、及びRAM1003は、バス1004を介して互いに接続されている。パス1004には、入力/出力(I/O)インターフェース1005も接続されている。
電子機器1000の複数のコンポーネントはI/Oインターフェース1005に接続され、キーボード、マウスなどの入力ユニット1006、各タイプのディスプレイ、スピーカなどの出力ユニット1007、磁気ディスク、光ディスクなどの記憶ユニット1008、及びネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009を含む。通信ユニット1009は、電子機器1000が、インターネットなどのコンピュータネットワークおよび/または各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット1001は、処理および計算能力を有する様々な汎用および/または専用の処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、及びいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット1001は、上記に記載された各方法及び処理、例えば、データ処理モデルのトレーニング方法、またはデータ処理方法を実行する。例えば、いくつかの実施例では、データ処理モデルのトレーニング方法、またはデータ処理方法を、記憶ユニット1008などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM1002及び/又は通信ユニット1009を介して電子機器1000にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされ、計算ユニット1001によって実行される場合、前文に記載されたデータ処理モデルのトレーニング方法、またはデータ処理方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット1001はデータ処理モデルのトレーニング方法、またはデータ処理方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって構成されてもよい。
本明細書で上記記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容のいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバー)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。いずれかの形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に存在する管理の難しさ、業務拡張性の弱い欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で提供されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。
Claims (17)
- データ処理モデルのトレーニング方法であって、
サンプルデータを取得するステップと、
複数のフォワードノードが含まれる初期データ処理モデルを取得するステップであって、前記複数のフォワードノードは、前記サンプルデータに対応する複数の中間計算結果を出力するために使用されるステップと、
前記複数のフォワードノードに対応する複数の時間依存性特徴を決定するステップと、
前記複数の時間依存性特徴に基づいて前記初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するステップと、
前記サンプルデータ及び前記複数の中間計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップと、を含む、
ことを特徴とするデータ処理モデルのトレーニング方法。 - 前記複数の時間依存性特徴に基づいて前記初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するステップは、
前記複数の時間依存性特徴に基づいて、前記複数のフォワードノードの中からターゲットフォワードノードを決定するステップと、
前記ターゲットフォワードノードに対応する再計算ノードを生成するステップであって、前記再計算ノードは前記サンプルデータに対応する再計算結果を出力するために使用され、前記再計算結果は、前記ターゲットフォワードノードから出力された中間計算結果と同じであるステップと、
前記複数のフォワードノード及び前記再計算ノードに基づいて、前記トレーニング対象のデータ処理モデルを生成するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記サンプルデータ及び前記複数の中間計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップは、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップであって、
前記他の中間計算結果は、他のフォワードノードから出力された前記サンプルデータに対応する中間計算結果であり、前記ターゲットフォワードノードが前記他のフォワードノードと共に前記複数のフォワードノードを構成するステップを含む、
ことを特徴とする請求項2に記載の方法。 - 前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップの前に、
前記サンプルデータを前記トレーニング対象のデータ処理モデルのフォワードトレーニング入力として、前記トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得するステップと、
前記ターゲットフォワードノードから出力された中間計算結果を削除し、前記他のフォワードノードから出力された前記他の中間計算結果を保持するステップと、をさらに含む、
ことを特徴とする請求項3に記載の方法。 - 前記トレーニング対象のデータ処理モデルは、前記サンプルデータに対応する予測チューニングパラメータを出力するための複数のリバースノードを含み、前記サンプルデータは対応するラベリングチューニングパラメータを有し、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するステップは、
前記再計算ノードによって生成された前記サンプルデータに対応する再計算結果を取得するステップと、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を前記トレーニング対象のデータ処理モデルのリバーストレーニング入力として、前記複数のリバースノードから出力された予測チューニングパラメータを取得するステップと、
前記予測チューニングパラメータと前記ラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルを前記ターゲットデータ処理モデルとするステップと、を含む、
ことを特徴とする請求項4に記載の方法。 - 前記ターゲットフォワードノードの時間依存性特徴は、前記ターゲットフォワードノードが他のフォワードノードと時間次元の計算関連関係がないことを示す、
ことを特徴とする請求項2~5のいずれかに記載の方法。 - データ処理方法であって、
処理対象のデータを取得するステップと、
前記処理対象のデータを請求項1~6のいずれかに記載のデータ処理モデルのトレーニング方法によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するステップと、を含む、
ことを特徴とするデータ処理方法。 - データ処理モデルのトレーニング装置であって、
サンプルデータを取得するための第1の取得モジュールと、
複数のフォワードノードが含まれる初期データ処理モデルを取得するための第2の取得モジュールであって、前記複数のフォワードノードは、前記サンプルデータに対応する複数の中間計算結果を出力する第2の取得モジュールと、
前記複数のフォワードノードに対応する複数の時間依存性特徴を決定するための決定モジュールと、
前記複数の時間依存性特徴に基づいて前記初期データ処理モデルを処理して、トレーニング対象のデータ処理モデルを取得するための第1の処理モジュールと、
前記サンプルデータ及び前記複数の中間計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングモジュールと、を含む、
ことを特徴とするデータ処理モデルのトレーニング装置。 - 前記第1の処理モジュールが、
前記複数の時間依存性特徴に基づいて、前記複数のフォワードノードの中からターゲットフォワードノードを決定するための決定サブモジュールと、
前記ターゲットフォワードノードに対応する再計算ノードを生成するための第1の生成サブモジュールであって、前記再計算ノードは前記サンプルデータに対応する再計算結果を出力するために使用され、前記再計算結果は、前記ターゲットフォワードノードから出力された中間計算結果と同じである第1の生成サブモジュールと、
前記複数のフォワードノード及び前記再計算ノードに基づいて、前記トレーニング対象のデータ処理モデルを生成するための第2の生成サブモジュールと、を含む、
ことを特徴とする請求項8に記載の装置。 - 前記トレーニングモジュールが、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を用いて前記トレーニング対象のデータ処理モデルをトレーニングして、ターゲットデータ処理モデルを取得するためのトレーニングサブモジュールであって、
前記他の中間計算結果は、他のフォワードノードから出力された、前記サンプルデータに対応する中間計算結果であり、前記ターゲットフォワードノードが前記他のフォワードノードと共に前記複数のフォワードノードを構成するトレーニングサブモジュールを含む、
ことを特徴とする請求項9に記載の装置。 - 前記トレーニングモジュールが、
前記サンプルデータを前記トレーニング対象のデータ処理モデルのフォワードトレーニング入力として、前記トレーニング対象のデータ処理モデルにおける複数のフォワードノードから出力された複数の中間計算結果を取得するための入力サブモジュールと、
前記ターゲットフォワードノードから出力された中間計算結果を削除し、前記他のフォワードノードから出力された前記他の中間計算結果を保持するための削除サブモジュールと、をさらに含む、
ことを特徴とする請求項10に記載の装置。 - 前記トレーニング対象のデータ処理モデルは、前記サンプルデータに対応する予測チューニングパラメータを出力するための複数のリバースノードを含み、前記サンプルデータは対応するラベリングチューニングパラメータを有し、
前記トレーニングサブモジュールが、
前記再計算ノードによって生成された、前記サンプルデータに対応する再計算結果を取得し、
前記サンプルデータ、他の中間計算結果、及び前記再計算結果を前記トレーニング対象のデータ処理モデルのリバーストレーニング入力として、前記複数のリバースノードから出力された予測チューニングパラメータを取得し、
前記予測チューニングパラメータと前記ラベリングチューニングパラメータが設定された条件を満たしている場合、トレーニングして得られたデータ処理モデルを前記ターゲットデータ処理モデルとする、
ことを特徴とする請求項11に記載の装置。 - 前記ターゲットフォワードノードの時間依存性特徴は、前記ターゲットフォワードノードが他のフォワードノードと時間次元の計算関連関係がないことを示す、
ことを特徴とする請求項9~12のいずれかに記載の装置。 - データ処理装置であって、
処理対象のデータを取得するための第3の取得モジュールと、
前記処理対象のデータを請求項8~13のいずれかに記載のデータ処理モデルのトレーニング装置によってトレーニングして得られたターゲットデータ処理モデルに入力して、前記ターゲットデータ処理モデルから出力されたデータ処理結果を取得するための第2の処理モジュールと、を含む、
ことを特徴とするデータ処理装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~6のいずれかに記載のデータ処理モデルのトレーニング方法、または、請求項7に記載のデータ処理方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項1~6のいずれかに記載のデータ処理モデルのトレーニング方法、または、請求項7に記載のデータ処理方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~6のいずれかに記載のデータ処理モデルのトレーニング方法、または、請求項7に記載のデータ処理方法が実現される、
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110584511.2 | 2021-05-27 | ||
CN202110584511.2A CN113361574A (zh) | 2021-05-27 | 2021-05-27 | 数据处理模型的训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022078286A true JP2022078286A (ja) | 2022-05-24 |
Family
ID=77527913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022039275A Pending JP2022078286A (ja) | 2021-05-27 | 2022-03-14 | データ処理モデルのトレーニング方法、装置、電子機器及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220207427A1 (ja) |
EP (1) | EP4020327A3 (ja) |
JP (1) | JP2022078286A (ja) |
KR (1) | KR20220061060A (ja) |
CN (1) | CN113361574A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186738B (zh) * | 2022-06-20 | 2023-04-07 | 北京百度网讯科技有限公司 | 模型训练方法、装置和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221927A (ja) * | 2010-04-13 | 2011-11-04 | Fujitsu Ltd | ニューラルネットワーク設計方法及びプログラム |
JP2020135748A (ja) * | 2019-02-25 | 2020-08-31 | 株式会社Preferred Networks | 最適化装置、最適化方法及びプログラム |
CN112529210A (zh) * | 2020-12-09 | 2021-03-19 | 广州云从鼎望科技有限公司 | 模型训练方法、装置以及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017201507A1 (en) * | 2016-05-20 | 2017-11-23 | Google Llc | Memory-efficient backpropagation through time |
-
2021
- 2021-05-27 CN CN202110584511.2A patent/CN113361574A/zh active Pending
-
2022
- 2022-03-14 JP JP2022039275A patent/JP2022078286A/ja active Pending
- 2022-03-17 US US17/655,253 patent/US20220207427A1/en active Pending
- 2022-03-21 EP EP22163265.6A patent/EP4020327A3/en active Pending
- 2022-04-25 KR KR1020220050650A patent/KR20220061060A/ko unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221927A (ja) * | 2010-04-13 | 2011-11-04 | Fujitsu Ltd | ニューラルネットワーク設計方法及びプログラム |
JP2020135748A (ja) * | 2019-02-25 | 2020-08-31 | 株式会社Preferred Networks | 最適化装置、最適化方法及びプログラム |
CN112529210A (zh) * | 2020-12-09 | 2021-03-19 | 广州云从鼎望科技有限公司 | 模型训练方法、装置以及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
TIANQI CHEN ET AL.: "Training Deep Nets with Sublinear Memory Cost", ARXIV, vol. arXiv:1604.06174v2[cs.LG], JPN6023014701, 22 April 2016 (2016-04-22), pages 1 - 12, ISSN: 0005039579 * |
Also Published As
Publication number | Publication date |
---|---|
US20220207427A1 (en) | 2022-06-30 |
KR20220061060A (ko) | 2022-05-12 |
EP4020327A3 (en) | 2022-10-26 |
CN113361574A (zh) | 2021-09-07 |
EP4020327A2 (en) | 2022-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6790286B2 (ja) | 強化学習を用いたデバイス配置最適化 | |
JP6750121B2 (ja) | 畳み込みニューラルネットワークを使用したシーケンスの処理 | |
JP7273108B2 (ja) | モデルトレーニング方法、装置、電子デバイス、記憶媒体、プログラム | |
US11755367B2 (en) | Scheduling operations on a computation graph | |
JP7358698B2 (ja) | 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体 | |
JP7316453B2 (ja) | オブジェクト推薦方法及び装置、コンピュータ機器並びに媒体 | |
JP2021182430A (ja) | 意味解析モデルのトレーニング方法及び装置、電子機器並びに記憶媒体 | |
JP7269913B2 (ja) | ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP7438303B2 (ja) | ディープラーニングモデルのトレーニング方法、自然言語処理方法及び装置、電子機器、記憶媒体及びコンピュータプログラム | |
US11900263B2 (en) | Augmenting neural networks | |
JP7430820B2 (ja) | ソートモデルのトレーニング方法及び装置、電子機器、コンピュータ可読記憶媒体、コンピュータプログラム | |
KR20190138562A (ko) | 정보를 생성하기 위한 방법 및 장치 | |
EP4287074A1 (en) | Mixture-of-experts model implementation method and system, electronic device, and storage medium | |
WO2023231350A1 (zh) | 利用整数规划求解器实现的任务处理方法、设备和介质 | |
JP7357114B2 (ja) | 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体 | |
JP2022031863A (ja) | 単語スロットの認識方法、装置及び電子機器 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
JP2022088540A (ja) | ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体 | |
JP2022078286A (ja) | データ処理モデルのトレーニング方法、装置、電子機器及び記憶媒体 | |
JP2022095895A (ja) | 交通データ予測方法、交通データ予測装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラム | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
JP2023078411A (ja) | 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品 | |
JP2023017983A (ja) | 情報生成モデルの訓練方法、情報生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN115170887A (zh) | 目标检测模型训练方法、目标检测方法及其装置 | |
CN114255427B (zh) | 视频理解方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220314 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230418 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231114 |