JP6896176B2 - システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム - Google Patents
システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP6896176B2 JP6896176B2 JP2020535040A JP2020535040A JP6896176B2 JP 6896176 B2 JP6896176 B2 JP 6896176B2 JP 2020535040 A JP2020535040 A JP 2020535040A JP 2020535040 A JP2020535040 A JP 2020535040A JP 6896176 B2 JP6896176 B2 JP 6896176B2
- Authority
- JP
- Japan
- Prior art keywords
- result
- network
- sample
- module
- adjustment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Description
本開示は、2018年5月7日に中国特許局に提出された、出願番号がCN201810428099.3であり、発明の名称が「システム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得ることと、
前記第1結果を前記システムの第2ネットワークに入力し、第2結果を得ることと、
強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、目標結果を得ることと、を含む。
前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることと、
前記第1中間結果を前記第2ネットワークに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とすることと、を含む。
前記の強化ネットワークにより前記第2ネットワークから出力される第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含む。
前記第2結果と前記第1結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含む。
前記第2結果と前記第1結果に基づいて連結結果を得ることと、
前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を含む。
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含む。
前記システムの第1ネットワークに基づいて前記サンプル画像を処理し、第1サンプル結果を得ることと、
前記第1サンプル結果を前記システムの第2ネットワークに入力し、第2サンプル結果を得ることと、
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を含む。
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、第2中間サンプル結果を得ることと、
前記第2中間サンプル結果に基づいて前記第2ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと、を含む。
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することと、を含む。
少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することを含む。
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定することと、を含む。
前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第1損失を得ることを含む。
前記予測目標結果と前記サンプル目標結果に基づいて第2損失を決定し、前記第2損失に基づいて前記第2ネットワークのパラメータを調整することを含む。
入力画像を処理して第1結果を得るための第1ネットワークモジュールと、
前記第1結果を処理して第2結果を得るための第2ネットワークモジュールと、
前記第2結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器と、を含む。
前記第2ネットワークモジュールの出力する第2結果に基づいて前記第1結果を調整し、第1中間結果を得るための調整モジュールと、
前記第1中間結果を前記第2ネットワークモジュールに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とするための結果出力モジュールと、を含む。
前記実行器は、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得るために用いられる。
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含む。
前記実行器は、前記強化操作に基づいて前記第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
前記第2ネットワークモジュールは、前記第2中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられる。
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定するための第1損失モジュールと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するための第1パラメータ調整モジュールと、を含む。
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定するための損失決定モジュールと、を含む。
前記メモリと通信して前記実行可能コマンドを実行して上記のいずれか一項に記載のシステム強化学習方法の操作を完成するためのプロセッサと、を含む、
本開示の実施例の別の態様によれば、提供されるコンピュータ記憶媒体は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に上記のいずれか一項に記載のシステム強化学習方法の操作を実行する。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得ることと、
前記第1結果を前記システムの第2ネットワークに入力し、第2結果を得ることと、
強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得ることと、を含むことを特徴とするシステム強化学習方法。
(項目2)
前記の強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、前記調整後の第1結果に基づいて目標結果を得ることは、
前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることと、
前記第1中間結果を前記第2ネットワークに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とすることと、を含むことを特徴とする項目1に記載の方法。
(項目3)
前記強化操作は少なくとも1つの調整動作を含み、
前記の強化ネットワークにより前記第2ネットワークから出力される第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含むことを特徴とする項目2に記載の方法。
(項目4)
前記の強化ネットワークにより前記第2ネットワークから出力される第2結果に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果と前記第1結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含むことを特徴とする項目2に記載の方法。
(項目5)
前記の前記第2結果と前記第1結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することは、
前記第2結果と前記第1結果に基づいて連結結果を得ることと、
前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を含むことを特徴とする項目4に記載の方法。
(項目6)
前記第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含み、
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含むことを特徴とする項目1〜5のいずれか一項に記載の方法。
(項目7)
サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含むことを特徴とする項目1〜6のいずれか一項に記載の方法。
(項目8)
前記のサンプル画像に基づいて前記システムをトレーニングすることは、
前記システムの第1ネットワークに基づいて前記サンプル画像を処理し、第1サンプル結果を得ることと、
前記第1サンプル結果を前記システムの第2ネットワークに入力し、第2サンプル結果を得ることと、
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を含むことを特徴とする項目7に記載の方法。
(項目9)
前記の強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることは、
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、第2中間サンプル結果を得ることと、
前記第2中間サンプル結果に基づいて前記第2ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと、を含むことを特徴とする項目8に記載の方法。
(項目10)
前記の前記予測目標結果と前記サンプル目標結果に基づいて前記強化ネットワークのパラメータを調整することは、
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することと、を含むことを特徴とする項目9に記載の方法。
(項目11)
前記の少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することは、
少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することを含むことを特徴とする項目10に記載の方法。
(項目12)
前記の前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定することと、を含むことを特徴とする項目10又は11に記載の方法。
(項目13)
前記の前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定することは、
前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第1損失を得ることを含むことを特徴とする項目12に記載の方法。
(項目14)
前記の前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークのパラメータを調整することは、
前記予測目標結果と前記サンプル目標結果に基づいて第2損失を決定し、前記第2損失に基づいて前記第2ネットワークのパラメータを調整することを含むことを特徴とする項目8〜13のいずれか一項に記載の方法。
(項目15)
入力画像を処理して第1結果を得るための第1ネットワークモジュールと、
前記第1結果を処理して第2結果を得るための第2ネットワークモジュールと、
前記第2結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器と、を含むことを特徴とするシステム強化学習装置。
(項目16)
前記強化ネットワークモジュールは、
前記第2ネットワークモジュールの出力する第2結果に基づいて前記第1結果を調整し、第1中間結果を得るための調整モジュールと、
前記第1中間結果を前記第2ネットワークモジュールに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とするための結果出力モジュールと、を含むことを特徴とする項目15に記載の装置。
(項目17)
前記調整モジュールは、前記第2結果に基づいて強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を実行するために用いられることを特徴とする項目16に記載の装置。
(項目18)
前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定するために用いられ、
前記実行器は、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得るために用いられることを特徴とする項目16に記載の装置。
(項目19)
前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて連結結果を得ることと、前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を実行するために用いられることを特徴とする項目18に記載の装置。
(項目20)
サンプル目標結果が既知であるサンプル画像に基づいて前記の第1ネットワーク、第2ネットワーク及び強化ネットワークを含む前記システムをトレーニングするためのトレーニングモジュールを更に含むことを特徴とする項目15〜19のいずれか一項に記載の装置。
(項目21)
前記第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含み、
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含むことを特徴とする項目20に記載の装置。
(項目22)
前記トレーニングモジュールは、サンプル画像を前記第1ネットワークモジュール、前記第2ネットワークモジュール、前記強化ネットワークモジュール及び前記実行器に入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を実行するために用いられることを特徴とする項目20又は21に記載の装置。
(項目23)
前記強化モジュールは、前記第2ネットワークモジュールで得られた第2サンプル結果に基づいて強化操作を取得するために用いられ、
前記実行器は、前記強化操作に基づいて前記第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
前記第2ネットワークモジュールは、前記第2中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられることを特徴とする項目22に記載の装置。
(項目24)
前記トレーニングモジュールは、
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定するための第1損失モジュールと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するための第1パラメータ調整モジュールと、を含むことを特徴とする項目23に記載の装置。
(項目25)
前記第1パラメータ調整モジュールは、少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するために用いられることを特徴とする項目24に記載の装置。
(項目26)
前記第1損失モジュールは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定するための損失決定モジュールと、を含むことを特徴とする項目24又は25に記載の装置。
(項目27)
前記損失決定モジュールは、前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第1損失を得るために用いられることを特徴とする項目26に記載の装置。
(項目28)
前記第2ネットワーク調整モジュールは、前記予測目標結果と前記サンプル目標結果に基づいて第2損失を決定し、前記第2損失に基づいて前記第2ネットワークのパラメータを調整するために用いられることを特徴とする項目22〜27のいずれか一項に記載の装置。
(項目29)
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目1〜14のいずれか一項に記載のシステム強化学習方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。
(項目30)
コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に項目1〜14のいずれか一項に記載のシステム強化学習方法の操作を実行することを特徴とするコンピュータ記憶媒体。
(項目31)
コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが項目1〜14のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行することを特徴とするコンピュータプログラム。
第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含んでもよいが、それらに限定されない。
強化ネットワークにより第2ネットワークから出力される第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、第1中間結果を得ることと、
第1中間結果を第2ネットワークに入力し、第1中間結果に基づいて第2結果を得、第2結果を強化ネットワークに入力することと、
上記プロセスを重複実行し、所定条件に達したことに応答して、第2結果を出力して目標結果とすることと、を含んでもよい。
強化ネットワークにより第2ネットワークから出力される第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、第1中間結果を得ることは、
第2結果に基づいて強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
少なくとも1つの調整動作に基づいて第1結果を調整し、第1中間結果を得ることと、を含む。
選択可能に、第2結果と第1結果に基づいて連結結果を得、連結結果に基づいて強化ネットワークにより調整動作確率を得るようにしてもよく、又は、第1結果と第2結果とが全て画像である時に、画像チャネルに基づいて第1結果と第2結果を結合し、結合後の第1結果と第2結果に基づいて調整動作確率を取得するようにしてもよく、本開示の実施例では第1結果と第2結果の間の具体的な関連付け方法が限定されなく、調整動作確率を取得する時に第1結果を参照すればよい。
システムの第1ネットワークに基づいてサンプル画像を処理し、第1サンプル結果を得ることと、
第1サンプル結果をシステムの第2ネットワークに入力して第2サンプル結果を得ることと、
強化ネットワークにより第2サンプル結果に基づいて強化操作を取得し、強化操作に基づいて第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
予測目標結果とサンプル目標結果に基づいて第2ネットワークと強化ネットワークのパラメータをそれぞれ調整することと、を含む。
第2中間サンプル結果に基づいて第2ネットワークによって中間予測結果を取得し、中間予測結果を強化ネットワークに入力することと、
上記プロセスを重複実行し、所定条件に達したことに応答して、中間予測結果を出力して予測目標結果とすることと、を含む。
中間予測結果とサンプル目標結果に基づいて第1損失を決定することと、
少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整することと、を含む。
少なくとも1つの第1損失を得る順序に従って、順に少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整することを含む。
中間予測結果に基づいて強化ネットワークと一部のネットワーク構造を共用するスコアリングネットワークにより現在予測報酬を決定し、
選択可能に、スコアリングネットワークと強化ネットワークは最後の一層のみが異なり、強化ネットワークの最後の一層が全結合層であって1次元特徴ベクトルが得られ、この1次元特徴ベクトルに基づいて動作選択確率を決定し、スコアリングネットワークの最後の一層が全結合層であって特徴値が得られ、この特徴値がスコアとなる。
現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第1損失を決定する。
現在中間報酬に次の予測報酬を加算し現在予測報酬を減算して、第1損失を得ることを含む。
予測目標結果とサンプル目標結果に基づいて第2損失を決定し、第2損失に基づいて第2ネットワークのパラメータを調整することを含む。
入力画像を処理して第1結果を得るための第1ネットワークモジュール41と、
第1結果を処理して第2結果を得るための第2ネットワークモジュール42と、
第2結果に基づいて強化動作を得るための強化ネットワークモジュール43と、
強化操作に基づいて第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器44と、含む。
第2ネットワークモジュールの出力する第2結果に基づいて第1結果を調整し、第1中間結果を得るための調整モジュールと、
第1中間結果を第2ネットワークモジュールに入力し、第1中間結果に基づいて第2結果を得、第2結果を調整モジュールに入力することと、所定条件に達したことに応答して、第2結果を出力して目標結果とすることと、を実行するために用いられる結果出力モジュールと、を含む。
上記実行器は、少なくとも1つの調整動作に基づいて第1結果を調整し、第1中間結果を得るために用いられる。
連結結果に基づいて強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を実行するために用いられる。
第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含む。
実行器は、強化操作に基づいて第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
第2ネットワークモジュールは、第2中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して中間予測結果を出力して予測目標結果とするために用いられる。
中間予測結果とサンプル目標結果に基づいて第1損失を決定するための第1損失モジュールと、
少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整するための第1パラメータ調整モジューと、を含む。
中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、中間予測結果に基づいて強化ネットワークと一部のネットワーク構造を共用するスコアリングネットワークにより現在予測報酬を決定することと、中間予測結果に基づいて強化ネットワークと第2ネットワークにより次の中間予測結果を決定することと、次の中間予測結果に基づいてスコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第1損失を決定するための損失決定モジュールと、を含む。
メモリと通信して実行可能コマンドを実行して本開示の上記のいずれか1つの実施例に記載のシステム強化学習方法を完成するためのプロセッサと、を含む。
Claims (21)
- 電子機器によって実行されるシステム強化学習方法であって、
システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得ることと、
前記第1結果を前記システムの第2ネットワークに入力し、第2結果を得ることと、
強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得ることと
を含むことを特徴とするシステム強化学習方法。 - 強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得ることは、
前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることと、
前記第1中間結果を前記第2ネットワークに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とすることと
を含むことを特徴とする請求項1に記載の方法。 - 前記強化操作は少なくとも1つの調整動作を含み、
前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果に基づいて前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得ることと
を含むことを特徴とする請求項2に記載の方法。 - 前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果と前記第1結果とに基づいて、前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得ることと
を含むことを特徴とする請求項2に記載の方法。 - 前記第2結果と前記第1結果とに基づいて、前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することは、
前記第2結果と前記第1結果とに基づいて連結結果を得ることと、
前記連結結果に基づいて前記強化ネットワークにより前記調整動作確率を得、前記調整動作確率に基づいて前記少なくとも1つの調整動作を決定することと
を含むことを特徴とする請求項4に記載の方法。 - サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含み、
サンプル画像に基づいて前記システムをトレーニングすることは、
前記システムの第1ネットワークに基づいて前記サンプル画像を処理し、第1サンプル結果を得ることと、
前記第1サンプル結果を前記システムの第2ネットワークに入力し、第2サンプル結果を得ることと、
前記強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果とに基づいて前記第2ネットワークおよび前記強化ネットワークのパラメータをそれぞれ調整することと
を含むことを特徴とする請求項1〜5のいずれか一項に記載の方法。 - 前記強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることは、
前記強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、第2中間サンプル結果を得ることと、
前記第2中間サンプル結果に基づいて前記第2ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと
を含み、
前記予測目標結果と前記サンプル目標結果とに基づいて前記強化ネットワークのパラメータを調整することは、
前記中間予測結果とサンプル目標結果とに基づいて第1損失を決定することと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することと
を含むことを特徴とする請求項6に記載の方法。 - 少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することは、
少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することを含むことを特徴とする請求項7に記載の方法。 - 前記中間予測結果とサンプル目標結果とに基づいて第1損失を決定することは、
前記中間予測結果とサンプル目標結果とに基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークとにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬と前記現在予測報酬と前記次の予測報酬とに基づいて前記第1損失を決定することと
を含むことを特徴とする請求項7または請求項8に記載の方法。 - 入力画像を処理して第1結果を得るための第1ネットワークモジュールと、
前記第1結果を処理して第2結果を得るための第2ネットワークモジュールと、
前記第2結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器と
を含むことを特徴とするシステム強化学習装置。 - 前記強化ネットワークモジュールは、
前記第2ネットワークモジュールの出力する第2結果に基づいて前記第1結果を調整し、第1中間結果を得るための調整モジュールと、
前記第1中間結果を前記第2ネットワークモジュールに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とするための結果出力モジュールと
を含むことを特徴とする請求項10に記載の装置。 - 前記調整モジュールは、前記第2結果に基づいて前記強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得ることとを実行するために用いられることを特徴とする請求項11に記載の装置。
- 前記強化ネットワークモジュールは、前記第2結果と前記第1結果とに基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定するために用いられ、
前記実行器は、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得るために用いられることを特徴とする請求項11に記載の装置。 - 前記強化ネットワークモジュールは、前記第2結果と前記第1結果とに基づいて連結結果を得ることと、前記連結結果に基づいて前記強化ネットワークにより前記調整動作確率を得、前記調整動作確率に基づいて前記少なくとも1つの調整動作を決定することとを実行するために用いられることを特徴とする請求項13に記載の装置。
- サンプル目標結果が既知であるサンプル画像に基づいて、第1ネットワークと第2ネットワークと強化ネットワークとを含むシステムをトレーニングするためのトレーニングモジュールを更に含み、
前記トレーニングモジュールは、サンプル画像を前記第1ネットワークモジュールと前記第2ネットワークモジュールと前記強化ネットワークモジュールと前記実行器とに入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果とに基づいて前記第2ネットワークおよび前記強化ネットワークのパラメータをそれぞれ調整することとを実行するためにさらに用いられることを特徴とする請求項10〜14のいずれか一項に記載の装置。 - 前記強化ネットワークモジュールは、前記第2ネットワークモジュールで得られた第2サンプル結果に基づいて強化操作を取得するために用いられ、
前記実行器は、前記強化操作に基づいて前記第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
前記第2ネットワークモジュールは、前記第2中間サンプル結果に基づいて中間予測結果を得、前記中間予測結果を前記強化ネットワークモジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられ、
前記トレーニングモジュールは、
前記中間予測結果とサンプル目標結果とに基づいて第1損失を決定するための第1損失モジュールと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するための第1パラメータ調整モジュールと
を含むことを特徴とする請求項15に記載の装置。 - 前記第1パラメータ調整モジュールは、少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するために用いられることを特徴とする請求項16に記載の装置。
- 前記第1損失モジュールは、
前記中間予測結果とサンプル目標結果とに基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークとにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することとを実行するために用いられる報酬決定モジュールと、
前記現在中間報酬と前記現在予測報酬と前記次の予測報酬とに基づいて前記第1損失を決定するための損失決定モジュールと
を含むことを特徴とする請求項16または請求項17に記載の装置。 - 実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して請求項1〜9のいずれか一項に記載のシステム強化学習方法を実行するためのプロセッサと
を含むことを特徴とする電子機器。 - コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に請求項1〜9のいずれか一項に記載のシステム強化学習方法を実行することを特徴とするコンピュータ記憶媒体。
- コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが請求項1〜9のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行することを特徴とするコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810428099.3 | 2018-05-07 | ||
CN201810428099.3A CN108776834B (zh) | 2018-05-07 | 2018-05-07 | 系统增强学习方法和装置、电子设备、计算机存储介质 |
PCT/CN2019/078520 WO2019214344A1 (zh) | 2018-05-07 | 2019-03-18 | 系统增强学习方法和装置、电子设备、计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021507421A JP2021507421A (ja) | 2021-02-22 |
JP6896176B2 true JP6896176B2 (ja) | 2021-06-30 |
Family
ID=64026991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020535040A Active JP6896176B2 (ja) | 2018-05-07 | 2019-03-18 | システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11669711B2 (ja) |
JP (1) | JP6896176B2 (ja) |
KR (1) | KR102420715B1 (ja) |
CN (1) | CN108776834B (ja) |
SG (1) | SG11202006017SA (ja) |
WO (1) | WO2019214344A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776834B (zh) * | 2018-05-07 | 2021-08-06 | 上海商汤智能科技有限公司 | 系统增强学习方法和装置、电子设备、计算机存储介质 |
CN110211122A (zh) * | 2019-06-12 | 2019-09-06 | 京东方科技集团股份有限公司 | 一种检测图像处理方法及装置 |
CN110472029B (zh) * | 2019-08-01 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置以及计算机可读存储介质 |
CN110610534B (zh) * | 2019-09-19 | 2023-04-07 | 电子科技大学 | 基于Actor-Critic算法的口型动画自动生成方法 |
CN111488806A (zh) * | 2020-03-25 | 2020-08-04 | 天津大学 | 一种基于并行分支神经网络的多尺度人脸识别方法 |
CN111766782B (zh) * | 2020-06-28 | 2021-07-13 | 浙江大学 | 基于深度强化学习中Actor-Critic框架的策略选择方法 |
JP2022144124A (ja) * | 2021-03-18 | 2022-10-03 | 株式会社日本製鋼所 | 強化学習方法、コンピュータプログラム、強化学習装置及び成形機 |
CN114494081B (zh) * | 2022-04-01 | 2022-07-05 | 武汉大学 | 一种无人机遥感测绘图像增强方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7001243B1 (en) * | 2003-06-27 | 2006-02-21 | Lam Research Corporation | Neural network control of chemical mechanical planarization |
WO2006122030A2 (en) | 2005-05-07 | 2006-11-16 | Thaler Stephen L | Device for the autonomous bootstrapping of useful information |
CN103020602B (zh) * | 2012-10-12 | 2015-10-14 | 北京建筑工程学院 | 基于神经网络的人脸识别方法 |
US9749188B2 (en) * | 2014-05-13 | 2017-08-29 | Cisco Technology, Inc. | Predictive networking architecture for next-generation multiservice, multicarrier WANs |
JP6072103B2 (ja) * | 2015-02-04 | 2017-02-01 | エヌ・ティ・ティ・コムウェア株式会社 | 学習装置、学習方法、およびプログラム |
CN105279555B (zh) * | 2015-10-28 | 2017-10-17 | 清华大学 | 一种基于进化算法的自适应学习神经网络实现方法 |
CN106709565A (zh) * | 2016-11-16 | 2017-05-24 | 广州视源电子科技股份有限公司 | 一种神经网络的优化方法及装置 |
CN108154222B (zh) * | 2016-12-02 | 2020-08-11 | 北京市商汤科技开发有限公司 | 深度神经网络训练方法和系统、电子设备 |
CN106651774B (zh) * | 2016-12-27 | 2020-12-04 | 深圳市捷顺科技实业股份有限公司 | 一种车牌超分辨率模型重建方法及装置 |
CN106934346B (zh) * | 2017-01-24 | 2019-03-15 | 北京大学 | 一种目标检测性能优化的方法 |
CN106941602B (zh) * | 2017-03-07 | 2020-10-13 | 中国铁路总公司 | 机车司机行为识别方法及装置 |
CN107301383B (zh) * | 2017-06-07 | 2020-11-24 | 华南理工大学 | 一种基于Fast R-CNN的路面交通标志识别方法 |
CN107704857B (zh) * | 2017-09-25 | 2020-07-24 | 北京邮电大学 | 一种端到端的轻量级车牌识别方法及装置 |
TWI699816B (zh) * | 2017-12-26 | 2020-07-21 | 雲象科技股份有限公司 | 自動化顯微鏡系統之控制方法、顯微鏡系統及電腦可讀取記錄媒體 |
CN108073910B (zh) * | 2017-12-29 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 用于生成人脸特征的方法和装置 |
CN108776834B (zh) * | 2018-05-07 | 2021-08-06 | 上海商汤智能科技有限公司 | 系统增强学习方法和装置、电子设备、计算机存储介质 |
-
2018
- 2018-05-07 CN CN201810428099.3A patent/CN108776834B/zh active Active
-
2019
- 2019-03-18 WO PCT/CN2019/078520 patent/WO2019214344A1/zh active Application Filing
- 2019-03-18 SG SG11202006017SA patent/SG11202006017SA/en unknown
- 2019-03-18 JP JP2020535040A patent/JP6896176B2/ja active Active
- 2019-03-18 KR KR1020207026754A patent/KR102420715B1/ko active IP Right Grant
-
2020
- 2020-06-18 US US16/904,915 patent/US11669711B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN108776834B (zh) | 2021-08-06 |
US20200349431A1 (en) | 2020-11-05 |
KR20200119873A (ko) | 2020-10-20 |
JP2021507421A (ja) | 2021-02-22 |
WO2019214344A1 (zh) | 2019-11-14 |
CN108776834A (zh) | 2018-11-09 |
US11669711B2 (en) | 2023-06-06 |
KR102420715B1 (ko) | 2022-07-14 |
SG11202006017SA (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6896176B2 (ja) | システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム | |
JP7065199B2 (ja) | 画像処理方法及び装置、電子機器、記憶媒体並びにプログラム製品 | |
JP6999028B2 (ja) | 目標トラッキング方法及び装置、電子機器並びに記憶媒体 | |
JP6811894B2 (ja) | ニューラルネットワーク構造の生成方法および装置、電子機器、ならびに記憶媒体 | |
WO2021078027A1 (zh) | 构建网络结构优化器的方法、装置及计算机可读存储介质 | |
US11941527B2 (en) | Population based training of neural networks | |
CN110892418A (zh) | 多任务神经网络系统 | |
US11995560B2 (en) | Method and apparatus for generating vector representation of knowledge graph | |
US20210117786A1 (en) | Neural networks for scalable continual learning in domains with sequentially learned tasks | |
US11636667B2 (en) | Pattern recognition apparatus, pattern recognition method, and computer program product | |
US11915120B2 (en) | Flexible parameter sharing for multi-task learning | |
US20230409929A1 (en) | Methods and apparatuses for training prediction model | |
US20230124288A1 (en) | Responsible Artificial Intelligence Controller | |
CN115600693A (zh) | 机器学习模型训练方法、识别方法、相关装置及电子设备 | |
WO2022127603A1 (zh) | 一种模型处理方法及相关装置 | |
CN114926322A (zh) | 图像生成方法、装置、电子设备和存储介质 | |
US11941586B2 (en) | System for applying an artificial intelligence engine in real-time to affect course corrections and influence outcomes | |
US20240185025A1 (en) | Flexible Parameter Sharing for Multi-Task Learning | |
US20230143789A1 (en) | Label inference in split learning defenses | |
US20220309774A1 (en) | Method and apparatus for classifying images using an artificial intelligence model | |
US20230244706A1 (en) | Model globalization for long document summarization | |
WO2022251602A9 (en) | Systems and methods for machine-learned models having convolution and attention | |
WO2023114141A1 (en) | Knowledge distillation via learning to predict principal components coefficients | |
CN117152289A (zh) | 图像编辑方法、装置、电子设备、存储介质和程序产品 | |
CN114692780A (zh) | 实体信息分类方法、分类模型训练方法、装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200623 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200623 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200623 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20201022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6896176 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |