JP2022017588A - 深層学習フレームワークのトレーニング方法、装置及び記憶媒体 - Google Patents

深層学習フレームワークのトレーニング方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP2022017588A
JP2022017588A JP2021185382A JP2021185382A JP2022017588A JP 2022017588 A JP2022017588 A JP 2022017588A JP 2021185382 A JP2021185382 A JP 2021185382A JP 2021185382 A JP2021185382 A JP 2021185382A JP 2022017588 A JP2022017588 A JP 2022017588A
Authority
JP
Japan
Prior art keywords
task
training
deep learning
node
task node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021185382A
Other languages
English (en)
Inventor
ティエンジェン ハー,
Tianjian He
ディエンハイ ユー,
Dianhai Yu
ヂーファ ウー,
Zhihua Wu
ダーシアン ドン,
Daxiang Dong
イエンジュン マー,
Yanjun Ma
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022017588A publication Critical patent/JP2022017588A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/485Resource constraint
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5022Workload threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/503Resource availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

【課題】深層学習フレームワークの自動的なフレキシブルトレーニングを実現し、トレーニング効果を確保した上でトレーニング効率を向上させ、人的コストを削減する方法、装置、電子機器、プログラム及び記憶媒体を提供する。【解決手段】方法は、ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得するステップと、少なくとも1つのタスクノードのノード数が予め設定された数を超えるかどうかを判断するステップと、ノード数が予め設定された数を超える場合、少なくとも1つのタスクノードはサンプルデータに基づいて、ターゲットタスクの深層学習フレームワークを同期トレーニングするステップと、ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得するステップと、を含む。【選択図】図1

Description

本開示は深層学習、ビッグデータ処理などの技術の分野に関し、特に深層学習フレームワークのトレーニング方法、装置及び記憶媒体に関する。
コンピュータ技術の応用に伴い、深層学習技術は教師あり学習の分野で大きな成功を収め、深層学習のモデルフレームワークをトレーニングする時、大規模なラベル付きデータを取得するコストが高いという問題を解決するために、教師なし技術は次第に人々に重視され始めた。多くの無教師あり学習技術では、比較学習はこの一年間で並外れている潜在力を示し、さらに、多くの任務上の指標はすでに教師あり学習の効果に迫っている。具体的には視覚の分野では、深層モデルフレームワークに対するトレーニングは、あるプリトレーニングタスクによって画像に対する表現を学習し、学習された表現を直接具体的なタスクに応用することが望ましい。
しかしながら、実際のトレーニングでは、タスクはクラスターに作業に送信して実行され、複数の人が1ロットのマシンリソースを共有する。プリトレーニングタスクが長い間クラスターリソースを占有すると、他のユーザの調査タスク、または優先度の高いタスクが実行できなくなる。それに、私たちはタスクの送信に成功したとしても、実行に失敗するかどうかを頻繁に観察する必要であり、失敗を発見したら、手動でタスクを再送信する必要であるため、トレーニングの効率は非常に低い。
本開示は、クラスターにおけるタスクトレーニングの人力投入を低減し、及びトレーニング効率を向上させる深層学習フレームワークのトレーニング方法、装置及び記憶媒体を提供する。
本開示の一態様によれば、深層学習フレームワークのトレーニング方法を提供し、ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得するステップと、前記少なくとも1つのタスクノードのノード数が予め設定された数を超えるかどうかを判断するステップと、前記ノード数が前記予め設定された数を超える場合、前記少なくとも1つのタスクノードはサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングするステップと、前記ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得するステップと、を含む。
本開示の別の様態によれば、深層学習フレームワークのトレーニング装置を提供し、ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得するための第1取得モジュールと、前記少なくとも1つのタスクノードのノード数が予め設定された数を超えるかどうかを判断するための判断モジュールと、前記ノード数が前記予め設定された数を超える場合、前記少なくとも1つのタスクノードがサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングすることに用いられるトレーニングモジュールと、前記ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得するための第2取得モジュールと、を含む。
本開示の別の様態によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが第1様態の実施例の深層学習フレームワークのトレーニング方法を実行させる。
本開示の別の様態によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに第1様態の実施例の深層学習フレームワークのトレーニング方法を実行させる。
本出願の別の様態によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、第1様態の実施例の深層学習フレームワークのトレーニング方法を実現する。
本開示の実施例は、少なくとも以下のような技術的な効果を有する。
ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得し、さらに、少なくとも1つのタスクノードのノード数が予め設定された数を超えるかどうかを判断し、予め設定された数を超える場合、少なくとも1つのタスクノードがサンプルデータに基づいてターゲットタスクの深層学習フレームワークを同期トレーニングし、最後に、ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得する。これにより、深層学習フレームワークの自動的なフレキシブルトレーニングを実現し、トレーニング効果を確保した上で、トレーニング効率を向上させ、人的コストを削減する。
なお、この部分に記載されている内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。
図面は、本方案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1実施例に係る深層学習フレームワークのトレーニング方法のフローチャートである。 本開示の第2実施例に係るターゲットタスクトレーニングの状態概略図である。 本開示の第3実施例に係る深層学習フレームワークのトレーニング方法のフローチャートである。 本開示の第4実施例に係る深層学習フレームワークのトレーニング方法のフローチャートである。 本開示の第5実施例に係る深層学習フレームワークのトレーニング装置の概略構成図である。 本開示の第6実施例に係る深層学習フレームワークのトレーニング装置の概略構成図である。 本開示の実施例の深層学習フレームワークのトレーニング方法を実現する電子機器のブロック図である。
以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
深層学習フレームワークがクラスターリソースにおいてトレーニングされる場合、トレーニング状態を人工的に監視する必要があるため、人的コストが高くなり、及び、トレーニングタスクがクラスターリソースを長時間占有して他タスクに影響を与えて、優先度の高いタスクが実行できなくなるという上記背景技術で言及された問題を解決するために、本開示は深層学習モデルの深層学習フレームワークのフレキシブルトレーニング方式を提供する。クラスターリソースがアイドル状態である場合、我々のプリトレーニングタスクを実行し、人工的に監視する必要はない。より高い優先度のタスクが存在する場合、我々のタスクを終了し、他の高優先度のタスクに影響することを回避する。
具体的には、図1は、本開示の第1実施例に係る深層学習フレームワークのトレーニング方法のフローチャートであり、図1に示すように、当該方法は以下のステップ101~104を含む。
ステップ101において、ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得する。
ターゲットタスクは、画像種別の認識、医薬品に対するラベル分類、画像に対する意味認識などを含む任意の、深層学習に用いられる深層学習フレームワークへのトレーニングタスクであってもよい。
現在タスクノードクラスターは、クラスターリソースに大量のトレーニングタスクが溜まっている可能性があり、ターゲットタスクのトレーニングの実行には一定のリソースが必要とされ、そのため、ターゲットタスクの実行の可能性を確保するために、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得することは容易に理解される。ここで、クラスター内の各ノードはマシンリソースとして理解でき、当該マシンリソースは、サンプルデータに基づいて深層学習フレームワークをトレーニングすることに用いることができる。
ステップ102において、少なくとも1つのタスクノードのノード数が予め設定された数を超えるかどうかを判断する。
予め設定された数は、ターゲットタスクのトレーニングタスクの量によって決定されてもよく、いくつかの可能な実施例において、予め試験データに基づいてトレーニングして深層学習モデルを取得でき、当該深層学習モデルの入力はターゲットタスクのタスクタイプであり、出力は予め設定された数であり、これにより、当該深層学習モデルによって対応するタスクタイプを取得することができる。
少ないタスクノードが存在する場合、ターゲットタスクのトレーニング強度を明らかに負担できず、そのため、少なくとも1つのタスクノードのノード数が予め設定された数以上であるかどうかを判断することを理解されたい。
ステップ103において、ノード数が予め設定された数を超える場合、少なくとも1つのタスクノードはサンプルデータに基づいて、ターゲットタスクの深層学習フレームワークを同期トレーニングする。
本実施例では、予め設定された数を超える場合、ターゲットタスクを起動できることが示され、条件を満たすすべてのタスクノードによってタスクの深層学習フレームワークを同期トレーニングする。
深層学習フレームワークは、任意の形式の深層学習モデルの初期アーキテクチャであってもよく、畳み込み層、プーリング層、全結合層などを含むことができる。
異なるノードのサンプルデータの取得ルート及び取得時間などは異なってもよいため、異なるタスクノードのトレーニング時に採用されたサンプルデータによってトレーニング結果が異なり、したがって、トレーニング効果の全面性を確保するために、本開示の実施例において、条件を満たすすべてのタスクノードによってタスクの深層学習フレームワークを同期トレーニングし、すべてのタスクノードのトレーニング結果を同期することを理解されたい。
本開示の一実施例では、各タスクノードにおいて深層学習フレームワークをトレーニングし、予め設定された周期に基づいて、各周期の各タスクノードにおける深層学習フレームワークのフレームワークパラメータを読み取る。当該フレームワークパラメータは深層学習モデルのモデルパラメータなどとして理解されてもよく、すべてのタスクノードのフレームワークパラメータの平均値である第1平均値を決定し、第1平均値に基づいて各タスクノードにおける深層学習フレームワークを同期し、これにより、異なるタスクノードの間のトレーニングの同期を実現する。
本開示の別の実施例では、深層学習フレームワークを複数のトレーニング段階に分け、各トレーニング段階が満たされる時、各タスクノードにおける当該トレーニング段階に対するフレームワークパラメータを取得し、当該段階のフレームワークパラメータに対して平均値を求めた後、各トレーニング段階の同期を実現する。
ステップ104において、ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得する。
いくつかの可能な実施例において、ユーザによって送信されたトレーニングタスクの完成条件を受信した場合、ターゲットタスクがトレーニング終了条件を満たすと見なす。いくつかの別の可能な実施例では、各タスクノードにおいて、損失関数によって深層学習フレームワークの損失値を算出し、すべてのタスクノードの損失値が予め設定された閾値未満である場合、ターゲットタスクがトレーニング終了条件を満たすと見なす。
ターゲットタスクがトレーニング終了条件を満たす場合、すべてのタスクノードが同期トレーニングされるため、すべてのタスクノードの同期トレーニングされたターゲット深層学習フレームワークを取得し、当該ターゲット深層学習フレームワークはすべてのタスクノードを同期するトレーニング結果であり、さらに、ターゲット深層学習フレームワークによってターゲット深層学習フレームワークが必要とされる任意のシーンを行い、例えば、ターゲット深層学習フレームワークによって画像意味の認識を行う。例えば、ターゲット深層学習フレームワークによって画像分類を行う。例えば、ターゲット深層学習フレームワークによって医学などの分野における医薬品ラベルの決定などを行う。
以下は具体的な適用のシーンと組み合わせて、具体的な適用のシーンにおいて深層学習フレームワークをトレーニングするプロセスを例示的に説明する。
[例示1]
本例では、ターゲット深層学習フレームワークによって画像意味の認識を行う。
具体的には、画像意味の認識の需要に応じてトレーニング開始条件を決定し、本例では、トレーニング開始条件がアイドル状態のノードであり、予め設定された数が5つを超過する数である場合、現在タスクノードクラスターにおいてアイドル状態のノード数が5つ以上になると、アイドル状態であるノードをタスクノードに決定する。
さらに、各タスクノードにおいて画像意味認識の深層学習フレームワークをトレーニングし始め、各タスクノードのトレーニングサンプル画像は、オンラインで取得してもよく、当該タスクノードのローカルから読み取ってもよく、各タスクノードのトレーニングサンプル画像は全く同じではなく、教師なしのトレーニング方式を用いることによって各タスクノードの深層学習フレームワークが学習して画像意味に対応するフレームワークパラメータを取得できるようにし、且つ、本実施例では、一定の時間おきに、すべてのタスクノードのフレームワークパラメータの平均値を算出し、平均値に基づいて各タスクノードにおける深層学習フレームワークを同期する。
本実施例では、損失関数によって最後に同期された深層学習フレームワークの意味損失値を算出し、例えば、標準意味が注釈された参照トレーニング画像を最後に同期された深層学習フレームワークに入力し、当該最後に同期された深層学習フレームワークから出力された参照意味を取得し、参照意味と標準意味の意味損失値を算出し、損失がいずれも予め設定された閾値より低い場合、当該最後に同期された深層学習フレームワークが画像を意味認識できるターゲット深層学習フレームワークであると見なす。
トレーニングされたターゲット深層学習フレームワークを取得した後、認識対象の意味の画像を当該深層学習フレームワークに入力し、当該ターゲット深層学習フレームワークから出力された画像意味を取得することができる。
[例示2]
本例では、ターゲット深層学習フレームワークによって医薬品類別の類別ラベルの決定を行う。
具体的には、類別ラベルに基づいてトレーニング開始条件を決定し、本例では、トレーニング開始条件はアイドル状態のノードであり、予め設定された数は20を超過する数であり、現在タスクノードクラスターにおいてアイドル状態のノード数が20以上になると、アイドル状態であるノードをタスクノードに決定する。
さらに、各タスクノードにおいて医薬品類別の類別ラベルの深層学習フレームワークをトレーニングし始め、各タスクノードのトレーニングサンプルデータはオンラインで取得してもよく、当該タスクノードのローカルから読みとってもよく、トレーニングサンプルデータは各種の医薬品の医薬品成分、医薬品生産メーカー情報などであってもよく、各タスクノードのトレーニングサンプルデータは全く同じではなく、教師なしのトレーニング方式を用いることによって各タスクノードの深層学習フレームワークが学習して類別認識に対応するフレームワークパラメータを取得できるようにし、且つ、本実施例では、一定の時間おきに、すべてのタスクノードのフレームワークパラメータの平均値を算出し、平均値に基づいて各タスクノードにおける深層学習フレームワークを同期する。
本実施例では、損失関数によって最後に同期された深層学習フレームワークの類別ラベル損失値を算出し、例えば、標準類別ラベルをマーキングする参照医薬品情報を最後に同期された深層学習フレームワークに入力し、当該最後に同期された深層学習フレームワークから出力された参照類別ラベルを取得し、参照類別ラベルと標準類別ラベルの類別ラベル損失値を算出し、損失がいずれも予め設定された閾値より低い場合、当該最後に同期された深層学習フレームワークが医薬品の類別ラベルを認識できるターゲット深層学習フレームワークであると見なす。
トレーニングされたターゲット深層学習フレームワークを取得した後、認識対象の類別ラベルの医薬品情報を当該深層学習フレームワークに入力し、当該ターゲット深層学習フレームワークから出力された類別ラベルを取得できる。これにより、上記トレーニングプロセスは全プロセスでトレーニングの自動化を実現し、ユーザがクラスターリソース及び人物状態などを監視する必要がなく、トレーニングの人的コストを削減し、トレーニング効率を向上させる。
以上のように、本開示の実施例の深層学習フレームワークのトレーニング方法は、ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得し、さらに、少なくとも1つのタスクノードの数が予め設定された数を超えるかどうかを判断し、予め設定された数を超える場合、少なくとも1つのタスクノードはサンプルデータに基づいて、ターゲットタスクの深層学習フレームワークを同期トレーニングし、最後に、ターゲットタスクがトレーニング終了条件を満たす場合、タスクノードの同期トレーニングされたターゲット深層学習フレームワークを取得する。これにより、深層学習フレームワークの自動的なフレキシブルトレーニングを実現し、トレーニング効果を確保した上で、トレーニング効率を向上させ、人的コストを削減する。
なお、異なる適用のシーンにおいて、ターゲットタスクに対応するトレーニング開始条件、及び少なくとも1つのタスクノードに対応する予め設定された開始条件は異なり、まず、例示的にターゲットタスクに対応するトレーニング開始条件を以下のように説明する。
[例示1]
本発明の一実施例では、ターゲットタスクのトレーニングに対する自動化管理を容易にするために、タスクの4つの状態を設定し、図2に示すように、タスクトレーニングの4つの状態は、有効化、待機、動作、終了を含み、これらの変換関係は図2を参照し、各タスクの初期状態はすべて「有効化」であり、クラスターリソースにおいてトレーニングする時、タスクの状態は動作であり、動作状態はタスクが正常に動作していることを示し、中断され、プリエンプトされ、マシンの故障やその他の原因で失敗する場合、待機状態に変換され、待機状態の場合、クラスターリソースがトレーニング開始に関連する要求に再度満たすと、トレーニングタスクは再び動作状態に変換され、タスク全体がトレーニングを順調に完成した後、終了状態に変換され、トレーニング終了を示す。
そのため、本実施例では、ターゲットタスクがトレーニング開始条件を満たすことは、ターゲットタスクが有効化状態に起動されることであってもよく、または、ターゲットタスクが待機状態であることであってもよい。
本実施例では、各タスクノードが待機状態になった後も、前のトレーニング結果を保留することを確保するために、タスクはトレーニングする時、一定の時間おきに、対応する深層学習フレームワークのフレームワークパラメータなどを保存することによって、待機状態の時、マシンリソースが再度満たされると、最近保存されたフレームワークパラメータから自動的にホットスタットして次のトレーニングを行うことを容易にし、トレーニングタスクは再び動作状態に変換される。
[例示2]
本実施例では、人為的にトリガーするトレーニング開始のインタフェースを提供し、受信したユーザ音声情報にターゲットタスクのトレーニング開始キーワードが含まれる場合、または、ユーザが予め設定されたトレーニング開始コントロールをトリガーする時、ターゲットタスクがトレーニング開始条件を満たすと決定する。
[例示3]
本例では、他の高優先度タスクの進行を妨げないために、高レベルのスタクを実行する必要がない場合のみ、タスクのトレーニング開始条件が満たされる。
本実施例では、現在タスクノードクラスターにおける実行対象のタスクの優先度を監視し、優先度が予め設定されたレベルより低い場合、ターゲットタスクがトレーニング開始条件を満たすと決定する。
クラスターリソースに大量のトレーニングタスクが溜まっている可能性があり、ターゲットタスクのトレーニングの実行には一定のリソースが必要であり、そのため、ターゲットタスクを実行できることを確保するために、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得することは容易に理解される。ここで、クラスターにおける各ノードはマシンリソースとして理解でき、当該マシンリソースはサンプルデータによって深層学習フレームワークをトレーニングすることができる。
次に、少なくとも1つのタスクノードに対応する予め設定された開始条件については、以下のように例示的に説明する。
[例示1]
本例では、予め設定された開始条件はノード状態がアイドル状態であることである。
本例では、現在タスクノードクラスターにおける各ノードのノード状態を決定し、当該ノード状態はタスク実行状態及びアイドル状態などを含むことができ、本実施例では、ノード状態がアイドル状態であるノードを、予め設定された開始条件を満たすタスクノードに決定する。
本実施例では、各ノードに状態ビットのクエリ請求を送信して、各ノードのフィードバック情報に基づいて、各ノードのノード状態を決定することができる。
[例示2]
本例では、予め設定された開始条件はアイドルリソース量が一定値を超過することである。
本実施例では、現在タスクノードクラスターにおける各ノードのアイドルリソース量、例えば、アイドルメモリ量を決定し、例えば、各ノードも1つのサブクラスターである場合、アイドルリソース量は各ノードにおけるアイドルのサブノードの数などである。
さらに、アイドルリソース量が予め設定された閾値を超過するノードを、予め設定された開始条件を満たすタスクノードに決定し、予め設定された閾値はターゲットタスクのトレーニング量によって決定することができる。
以上のように、本開示の実施例の深層学習フレームワークのトレーニング方法は、シーン需要に応じて、異なる方式でターゲットタスクに対応するタスクノードを柔軟に決定し、ターゲットタスクトのレーニングの自動化をさらに向上させる。
自己教師ありの手段はすべてデーターパラレルポリシーを用いるため、1つのタスクにとっては、使うノード数が多いほど、パラレルの度合いが高いことを意味し、したがってトレーニングするための時間が短い。
教師ありトレーニングでは、深層ニューラルネットワークをトレーニングする時、深層ニューラルネットワークのトレーニングプロセスにおいて各層の深層ニューラルネットワークの入力を同じ分布に維持する必要があるというトレーニング要件が存在するため、トレーニングプロセスにおいてノード数を増減すると、統計量が変動し、トレーニングが不安定になり、効果が損なわれることになることに注意されたい。自己教師ありトレーニングの上記いくつかの方案では、上記トレーニング要件はすべて全体的なものであるため、ノードの増減は効果に対して全く影響を与えない。この点は私たちが設計したフレキシブルトレーニングモジュールの理論的保証である。
本発明の一実施例では、自動的なフレキシブルプリトレーニングフレームワークを設定し、クラスターのアイドルリソースを十分に使用して自己教師ありトレーニングというすごく時間のかかるタスクを完成できる。より重要なことは、上記トレーニングによって求められたグローバル化要件が、複数のタスクノードの間でトレーニングされたフレームワークパラメータを同期させ、これによってフレキシブルトレーニングの効果が損なわれないことを確保した。且つ、自動検出再送メカニズムは、調査者が常に任務状態を確認する必要がないようにすることができ、人力を解放してより有意義なことをする。
具体的には、図3は本開示の一実施例に係る深層学習フレームワークのトレーニング方法のフローチャートであり、図3に示すように、上記ステップにおいてタスクのトレーニング終了命令を取得する前に、当該方法は、以下のステップ301~302をさらに含む。
ステップ301において、現在タスクノードクラスターに予め設定された開始条件を満たす他のタスクノードが含まれているかどうかを監視する。
本実施例では、ノードトレーニングプロセスにおいて、すなわちタスクがトレーニングするプロセスにおいて、すなわち動作状態にある時、クラスターにより多くのアイドルノードがあると発見する場合、直接「弾く」ことができ、より多くのノードでクラスターリソースを十分に使用してトレーニングを加速する。または、タスクノードが待機状態から動作状態になる場合、現在タスクノードクラスターに予め設定された開始条件を満たす他のタスクノードが含まれているかどうかを監視する。
ステップ302、他のタスクノードが存在する場合、他のタスクノードと少なくとも1つのタスクノードはサンプルデータに基づいて、ターゲットタスクの深層学習フレームワークを同期トレーニングする。
本実施例では、他のノードが存在する場合、他のタスクノードと少なくとも1つのタスクノードはサンプルデータに基づいて深層学習フレームワークを同期トレーニングする。例えば、あるタスクは、最初のトレーニングに4つのタスクノードを使用し、その後にプリエンプトされたため、待機状態になった。ターゲットタスクのトレーニング開始条件が再度満たされた時、8つのアイドルのタスクノードがあり、この時、私たちは自動的に当該タスクのために8つのタスクノードを割り当て、これによってフレキシブルという目的を達成する。
本開示の実施例において、他のタスクノードは深層学習フレームワークの初期状態からトレーニングされるのではなく、タスクノードのトレーニングされた状態からトレーニングされる。図4に示すように、他のタスクノードと少なくとも1つのタスクノードに基づいて深層学習フレームワークを同期トレーニングするステップは以下のステップ401~403を含む。
ステップ401、少なくとも1つのタスクノードにおける深層学習フレームワークの現在フレームワークパラメータを取得する。
各タスクノードにおける深層学習フレームワークのフレームワークパラメータはすべて現在タスクノードがトレーニングされた後の成果であることは理解される。
ステップ402において、すべての現在フレームワークパラメータの平均値である第2平均値を決定する。
ステップ403において、他のタスクノードと少なくとも1つのタスクノードは第2平均値に基づいて深層学習フレームワークのフレームワークパラメータを更新する。
本実施例では、すべてのタスクノードのフレームワークパラメータの第2平均値を算出し、第2平均値に基づいて深層学習フレームワークのフレームワークパラメータを更新し、これによって更新された後の参照フレームワークパラメータを取得し、当該参照フレームワークパラメータには、すべてのタスクノードの現在トレーニング結果が含まれる。
本実施例では、他のタスクノードと少なくとも1つのタスクノードに基づいてターゲットタスクの深層学習フレームワークをトレーニングし、ターゲットタスクのトレーニング効率を向上させる。
もちろん、本開示の一実施例では、ノードに対する占用率を低減するために、ターゲットタスクのトレーニング量に基づいて他のノードの上限を設定してもよく、他のノードの数が当該上限を超過する場合、予め設定された条件を満たすタスクノードから上限に対応する数のノードをランダムに選択して他のノードとする。
以上のように、本開示の実施例の深層学習フレームワークのトレーニング方法は、自動的なフレキシブルプリトレーニングフレームワークを用いて、クラスターのアイドルリソースを十分に使用して自己教師ありトレーニングというすごく時間のかかるタスクを完成でき、トレーニング効果を確保しながらトレーニング効率を向上させる。
上記実施例を実現するために、本開示は深層学習フレームワークのトレーニング装置をさらに提供する。図5は本開示の一実施例に係る深層学習フレームワークのトレーニング装置の概略構成図であり、図5に示すように、当該装置は、第1取得モジュール510、判断モジュール520、トレーニングモジュール530及び第2取得モジュール540を含む。
第1取得モジュール510は、ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得する。
判断モジュール520は、少なくとも1つのタスクノードのノード数が予め設定された数以上であるかどうかを判断する。
トレーニングモジュール530は、ノード数が予め設定された数を超える場合、少なくとも1つのタスクノードによってサンプルデータに基づいて、ターゲットタスクの深層学習フレームワークを同期トレーニングする。
第2取得モジュール540は、ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得する。
本開示の一実施例では、第1取得モジュール510は、具体的に、
現在タスクノードクラスターにおける各ノードのノード状態を決定し、
ノード状態がアイドル状態条件であるノードを、予め設定された開始条件を満たす少なくとも1つのタスクノードに決定する。
本開示の一実施例では、第1取得モジュール510は、具体的に、
現在タスクノードクラスターにおける各ノードのアイドルリソース量を決定し、
アイドルリソース量が予め設定された閾値条件を超えるノードを、予め設定された開始条件を満たす少なくとも1つのタスクノードに決定する。
本開示の一実施例では、トレーニングモジュール530は、具体的に、
各タスクノードにおいて深層学習フレームワークをトレーニングし、
予め設定された周期に基づいて、各周期の各タスクノードにおける深層学習フレームワークのフレームワークパラメータを読み取り、
すべてのタスクノードのフレームワークパラメータの平均値である第1平均値を決定し、第1平均値に基づいて各タスクノードにおける深層学習フレームワークを同期する。
なお、前記深層学習フレームワークのトレーニング方法に対する説明は、本開示の実施例の深層学習フレームワークのトレーニング装置にも適用され、その実現原理は同様であり、ここでは説明を省略する。
以上のように、本開示の実施例的深層学習フレームワークのトレーニング装置は、ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得し、さらに、少なくとも1つのタスクノードの数が予め設定された数を超えるかどうかを判断し、予め設定された数を超える場合、少なくとも1つのタスクノードはサンプルデータに基づいてターゲットタスクの深層学習フレームワークを同期トレーニングし、最後に、ターゲットタスクがトレーニング終了条件を満たす場合、少なくとも1つのタスクノードの同期トレーニングされたターゲット深層学習フレームワークを取得する。これにより、深層学習フレームワークの自動的なフレキシブルトレーニングを実現し、トレーニング効果を確保した上で、トレーニング効率を向上させ、人的コストを削減する。
本開示の一実施例では、図6に示すように、深層学習フレームワークのトレーニング装置は、第1取得モジュール610、判断モジュール620、トレーニングモジュール630、第2取得モジュール640及び監視モジュール650を含み、第1取得モジュール610、判断モジュール620、トレーニングモジュール630、第2取得モジュール640は上記実施例における第1取得モジュール510、判断モジュール520、トレーニングモジュール530及び第2取得モジュール540と同じ機能を有し、ここでは説明を省略する。
本実施例では、監視モジュール650は、現在タスクノードクラスターに予め設定された開始条件を満たす他のタスクノードが含まれているかどうかを監視する。
トレーニングモジュール630は、また、他のタスクノードと少なくとも1つのタスクノードはサンプルデータに基づいて、ターゲットタスクの深層学習フレームワークを同期トレーニングする。
本開示の一実施例では、トレーニングモジュール630は、具体的に、
少なくとも1つのタスクノードの各タスクノードにおける深層学習フレームワークの現在フレームワークパラメータを取得し、
すべての現在フレームワークパラメータの平均値である第2平均値を決定し、
他のタスクノードと少なくとも1つのタスクノードが第2平均値に基づいて深層学習フレームワークのフレームワークパラメータを更新する。
本開示の一実施例では、第1取得モジュール510は、具体的に、
現在タスクノードクラスターにおける実行対象のタスクの優先度を監視し、
優先度が予め設定されたレベルより低い場合、ターゲットタスクがトレーニング開始条件を満たすと決定する。
なお、前記深層学習フレームワークのトレーニング方法に対する説明は、本開示の実施例の深層学習フレームワークのトレーニング装置にも適用され、その実現原理は同様であり、ここでは説明を省略する。
以上のように、本開示の実施例的深層学習フレームワークのトレーニング装置は、自動的なフレキシブルプリトレーニングフレームワークで、クラスターのアイドルリソースを十分に使用して自己教師ありトレーニングというすごく時間をかかるタスクを完成でき、トレーニング効果を確保しながらトレーニング効率を向上させる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。
図7は、本開示の実施例を実行するための例示的な電子機器700の概略ブロック図を示す。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限することを意図したものではない。
図7に示すように、電子機器700は、読み取り専用メモリ(ROM)702に記憶されるコンピュータプログラムまたはメモリ708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行する計算ユニット701を含む。RAM703には、デバイス700の動作に必要な各種プログラムやデータが記憶されてもよい。計算ユニット701、ROM702、およびRAM703は、バス704を介して互いに接続されている。パス704には、入力/出力(I/O)インタフェース705も接続されている。
デバイス700の複数のコンポーネントはI/Oインタフェース705に接続され、キーボード、マウスなどの入力ユニット706、各タイプのディスプレイ、スピーカなどの出力ユニット707、磁気ディスク、光ディスクなどの記憶ユニット708、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709を含む。通信ユニット709は、デバイス700が、ンターネットなどのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他のデバイスと情報/データを交換することを可能にする。
計算ユニット701は、処理および計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、各種の専用の人工知能(AI)計算チップ、各種のマシン運転学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上記に記載された各方法および処理、例えば、深層学習フレームワークのトレーニング方法を実行する。例えば、在いくつかの実施例では、深層学習フレームワークのトレーニング方法を、記憶ユニット708などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部はROM 702および/または通信ユニット709を介してデバイス700にロードおよび/またはインストールされてもよい。コンピュータプログラムがRAM 703にロードされ、計算ユニット701によって実行される場合、上記に記載された深層学習フレームワークのトレーニング方法の1つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット701は深層学習フレームワークのトレーニング方法を実行するように、他のいずれかの適切な方式(例えば、ファームウェアを介して)によって配置されてもよい。
本明細書で記載されたシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、と/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容のいずれかの適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力、または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションできる)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実行することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであっても良く、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPSサービス(“Virtual Private Server”,または “VPS”と省略する)に存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。
サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。
なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解すべきである。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims (17)

  1. 深層学習フレームワークのトレーニング方法であって、
    ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得するステップと、
    前記少なくとも1つのタスクノードのノード数が予め設定された数を超えるかどうかを判断するステップと、
    前記ノード数が前記予め設定された数を超える場合、前記少なくとも1つのタスクノードはサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングするステップと、
    前記ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得するステップと、を含む、
    深層学習フレームワークのトレーニング方法。
  2. 前記現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得するステップは、
    前記現在タスクノードクラスターにおける各ノードのノード状態を決定するステップと、
    前記ノード状態がアイドル状態条件であるノードを、前記予め設定された開始条件を満たす少なくとも1つのタスクノードに決定するステップと、を含む、
    請求項1に記載の方法。
  3. 現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得するステップは、
    前記現在タスクノードクラスターにおける各ノードのアイドルリソース量を決定するステップと、
    前記アイドルリソース量が予め設定された閾値条件を超えるノードを、前記予め設定された開始条件を満たす少なくとも1つのタスクノードに決定するステップと、を含む、
    請求項1に記載の方法。
  4. 前記少なくとも1つのタスクノードはサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングするステップは、
    各前記タスクノードにおいて前記深層学習フレームワークをトレーニングするステップと、
    予め設定された周期に基づいて各周期の各前記タスクノードにおける深層学習フレームワークのフレームワークパラメータを読み取るステップと、
    すべての前記タスクノードのフレームワークパラメータの平均値である第1平均値を決定するステップと、
    前記第1平均値に基づいて各前記タスクノードにおける深層学習フレームワークを同期するステップと、を含む、
    請求項1に記載の方法。
  5. 前記少なくとも1つのタスクノードがサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングするステップは、
    前記現在タスクノードクラスターに前記予め設定された開始条件を満たす他のタスクノードが含まれているかどうかを監視するステップと、
    前記他のタスクノードが存在する場合、前記他のタスクノードと前記少なくとも1つのタスクノードはサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングするステップと、を含む、
    請求項1に記載の方法。
  6. 前記他のタスクノードと前記少なくとも1つのタスクノードがサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングするステップは、
    前記少なくとも1つのタスクノードの各タスクノードにおける深層学習フレームワークの現在フレームワークパラメータを取得するステップと、
    すべての前記現在フレームワークパラメータの平均値である第2平均値を決定するステップと、
    前記他のタスクノードと前記少なくとも1つのタスクノードは前記第2平均値に基づいて前記深層学習フレームワークのフレームワークパラメータを更新するステップと、を含む、
    請求項5に記載の方法。
  7. 前記ターゲットタスクがトレーニング開始条件を満たす前記場合、
    前記現在タスクノードクラスターにおける実行対象のタスクの優先度を監視するステップと、
    前記優先度が予め設定されたレベルより低い場合、前記ターゲットタスクがトレーニング開始条件を満たすと決定するステップと、を含む、
    請求項1に記載の方法。
  8. 深層学習フレームワークのトレーニング装置であって、
    ターゲットタスクがトレーニング開始条件を満たす場合、現在タスクノードクラスターにおける予め設定された開始条件を満たす少なくとも1つのタスクノードを取得するための第1取得モジュールと、
    前記少なくとも1つのタスクノードのノード数が予め設定された数を超えるかどうかを判断するための判断モジュールと、
    前記ノード数が前記予め設定された数を超える場合、前記少なくとも1つのタスクノードがサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングするトレーニングモジュールと、
    前記ターゲットタスクがトレーニング終了条件を満たす場合、同期トレーニングされたターゲット深層学習フレームワークを取得するための第2取得モジュールと、を含む、
    深層学習フレームワークのトレーニング装置。
  9. 前記第1取得モジュールは、具体的に、
    前記現在タスクノードクラスターにおける各ノードのノード状態を決定し、
    前記ノード状態がアイドル状態条件であるノードを、前記予め設定された開始条件を満たす少なくとも1つのタスクノードに決定する、
    請求項8に記載の装置。
  10. 前記第1取得モジュールは、具体的に、
    前記現在タスクノードクラスターにおける各ノードのアイドルリソース量を決定し、
    前記アイドルリソース量が予め設定された閾値条件を超えるノードを、前記予め設定された開始条件を満たす少なくとも1つのタスクノードに決定する、
    請求項8に記載の装置。
  11. 前記トレーニングモジュールは、具体的に、
    各前記タスクノードにおいて前記深層学習フレームワークをトレーニングし
    予め設定された周期に基づいて各周期の各前記タスクノードにおける深層学習フレームワークのフレームワークパラメータを読み取り、
    すべての前記タスクノードのフレームワークパラメータの平均値である第1平均値を決定する、
    請求項8に記載の装置。
  12. 前記現在タスクノードクラスターに前記予め設定された開始条件を満たす他のタスクノードが含まれているかどうかを監視する監視モジュールと、
    前記他のタスクノードと前記少なくとも1つのタスクノードはサンプルデータに基づいて、前記ターゲットタスクの深層学習フレームワークを同期トレーニングする前記トレーニングモジュールと、をさらに含む、
    請求項8に記載の装置。
  13. 前記トレーニングモジュールは、具体的に、
    前記少なくとも1つのタスクノードの各タスクノードにおける深層学習フレームワークの現在フレームワークパラメータを取得し、
    すべての前記現在フレームワークパラメータの平均値である第2平均値を決定し、
    前記他のタスクノードと前記少なくとも1つのタスクノードが前記第2平均値に基づいて前記深層学習フレームワークのフレームワークパラメータを更新する、
    請求項12に記載の装置。
  14. 前記第1取得モジュールは、具体的に、
    前記現在タスクノードクラスターにおける実行対象のタスクの優先度を監視し、
    前記優先度が予め設定されたレベルより低い場合、前記ターゲットタスクがトレーニング開始条件を満たすと決定する、
    請求項8に記載の装置。
  15. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1~7のいずれかに記載の深層学習フレームワークのトレーニング方法を実行させる、
    電子機器。
  16. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1~7のいずれかに記載の深層学習フレームワークのトレーニング方法を実行させる、
    非一時的なコンピュータ読み取り可能な記憶媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムはプロセッサによって実行される場合、請求項1~7のいずれかに記載の深層学習フレームワークのトレーニング方法を実現する、
    コンピュータプログラム。
JP2021185382A 2021-03-10 2021-11-15 深層学習フレームワークのトレーニング方法、装置及び記憶媒体 Pending JP2022017588A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110266288.7 2021-03-10
CN202110266288.7A CN113032117A (zh) 2021-03-10 2021-03-10 深度学习框架的训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
JP2022017588A true JP2022017588A (ja) 2022-01-25

Family

ID=76470214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021185382A Pending JP2022017588A (ja) 2021-03-10 2021-11-15 深層学習フレームワークのトレーニング方法、装置及び記憶媒体

Country Status (5)

Country Link
US (1) US20220036241A1 (ja)
EP (1) EP3955174A3 (ja)
JP (1) JP2022017588A (ja)
KR (1) KR20210156243A (ja)
CN (1) CN113032117A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102665470B1 (ko) 2023-06-09 2024-05-10 주식회사 노타 인공지능 기반의 모델의 벤치마크 결과를 포함하는 사용자 인터페이스를 제공하기 위한 방법 및 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327598B (zh) * 2021-06-30 2023-11-14 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
CN114741175A (zh) * 2022-04-15 2022-07-12 支付宝(杭州)信息技术有限公司 任务执行方法、装置、中心节点和下游节点设备
CN114860411B (zh) * 2022-05-17 2023-05-05 北京百度网讯科技有限公司 多任务学习方法、装置、电子设备和存储介质
CN114820279B (zh) * 2022-05-18 2023-03-24 北京百度网讯科技有限公司 基于多gpu的分布式深度学习方法、装置及电子设备
CN115222041B (zh) * 2022-06-22 2023-09-01 北京百度网讯科技有限公司 用于模型训练的图生成方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007244887A (ja) * 2001-12-03 2007-09-27 Ziosoft Inc ボリュームレンダリング処理方法、ボリュームレンダリング処理システム、計算機及びプログラム
US20200151606A1 (en) * 2015-05-22 2020-05-14 Amazon Technologies, Inc. Dynamically scaled training fleets for machine learning
JP2020518065A (ja) * 2017-04-26 2020-06-18 ミデア グループ カンパニー リミテッドMidea Group Co., Ltd. ジョブサーバを使用した大規模な分散システムでの機械学習モデルのトレーニング

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729126A (zh) * 2016-08-12 2018-02-23 中国移动通信集团浙江有限公司 一种容器云的任务调度方法和装置
CN109117265A (zh) * 2018-07-12 2019-01-01 北京百度网讯科技有限公司 在集群中调度作业的方法、装置、设备及存储介质
CN110889492B (zh) * 2019-11-25 2022-03-08 北京百度网讯科技有限公司 用于训练深度学习模型的方法和装置
CN111768006A (zh) * 2020-06-24 2020-10-13 北京金山云网络技术有限公司 一种人工智能模型的训练方法、装置、设备及存储介质
CN112000473A (zh) * 2020-08-12 2020-11-27 中国银联股份有限公司 深度学习模型的分布式训练方法以及装置
CN112416599B (zh) * 2020-12-03 2023-03-24 腾讯科技(深圳)有限公司 一种资源调度方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007244887A (ja) * 2001-12-03 2007-09-27 Ziosoft Inc ボリュームレンダリング処理方法、ボリュームレンダリング処理システム、計算機及びプログラム
US20200151606A1 (en) * 2015-05-22 2020-05-14 Amazon Technologies, Inc. Dynamically scaled training fleets for machine learning
JP2020518065A (ja) * 2017-04-26 2020-06-18 ミデア グループ カンパニー リミテッドMidea Group Co., Ltd. ジョブサーバを使用した大規模な分散システムでの機械学習モデルのトレーニング

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SU HANG, ET AL.: "EXPERIMENTS ON PARALLEL TRAINING OF DEEP NEURAL NETWORK USING MODEL AVERAGING", ARXIV, JPN6023000215, 1 June 2018 (2018-06-01), US, ISSN: 0004961038 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102665470B1 (ko) 2023-06-09 2024-05-10 주식회사 노타 인공지능 기반의 모델의 벤치마크 결과를 포함하는 사용자 인터페이스를 제공하기 위한 방법 및 장치

Also Published As

Publication number Publication date
EP3955174A3 (en) 2022-05-04
CN113032117A (zh) 2021-06-25
KR20210156243A (ko) 2021-12-24
EP3955174A2 (en) 2022-02-16
US20220036241A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
JP2022017588A (ja) 深層学習フレームワークのトレーニング方法、装置及び記憶媒体
US11068518B2 (en) Reducing negative effects of service waiting time in humanmachine interaction to improve the user experience
EP3913545A2 (en) Method and apparatus for updating parameter of multi-task model, and electronic device
JP2021174516A (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20210201912A1 (en) Virtual Object Image Display Method and Apparatus, Electronic Device and Storage Medium
KR20210090122A (ko) 분산형 모델 트레이닝 장치, 방법 및 컴퓨터 프로그램
EP4287074A1 (en) Mixture-of-experts model implementation method and system, electronic device, and storage medium
CN113656175A (zh) 基于分布式系统训练模型的方法、设备及程序产品
CN109033814A (zh) 智能合约触发方法、装置、设备及存储介质
US20200293942A1 (en) Distributed learning model for fog computing
CN113657483A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
US11636304B2 (en) Creating response schedule for tasks from cognitive state of a user
CN116127319B (zh) 多模态负样本构建、模型预训练方法、装置、设备及介质
US20230144949A1 (en) Virtual-machine cold migration method and apparatus, electronic device and storage medium
CN115186738B (zh) 模型训练方法、装置和存储介质
US20220335316A1 (en) Data annotation method and apparatus, electronic device and readable storage medium
CN116049420A (zh) 知识图谱生成任务构建方法、装置、电子设备和存储介质
CN116069497A (zh) 执行分布式任务的方法、装置、设备以及存储介质
CN113963186A (zh) 目标检测模型的训练方法、目标检测方法及相关装置
CN113821313A (zh) 一种任务调度方法、装置及电子设备
CN117057411B (zh) 一种大语言模型训练方法、装置、设备及存储介质
CN114979141B (zh) 一种任务处理方法、装置、设备以及存储介质
CN113420227B (zh) 点击率预估模型的训练方法、预估点击率的方法、装置
CN116599895A (zh) 数据传输方法及装置、设备和介质
CN115390992A (zh) 一种虚拟机创建方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20211115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230801