JP6896176B2 - システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム - Google Patents

システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP6896176B2
JP6896176B2 JP2020535040A JP2020535040A JP6896176B2 JP 6896176 B2 JP6896176 B2 JP 6896176B2 JP 2020535040 A JP2020535040 A JP 2020535040A JP 2020535040 A JP2020535040 A JP 2020535040A JP 6896176 B2 JP6896176 B2 JP 6896176B2
Authority
JP
Japan
Prior art keywords
result
network
sample
module
adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020535040A
Other languages
English (en)
Other versions
JP2021507421A (ja
Inventor
▲謝▼▲樹▼▲欽▼
▲陳▼梓天
徐超
▲盧▼策吾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Publication of JP2021507421A publication Critical patent/JP2021507421A/ja
Application granted granted Critical
Publication of JP6896176B2 publication Critical patent/JP6896176B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本開示は、2018年5月7日に中国特許局に提出された、出願番号がCN201810428099.3であり、発明の名称が「システム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。
本開示は、コンピュータビジョン技術に関し、特に、システム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体に関する。
現在、多階層システムは非常に好ましい効果を得ており、例えば、多人数姿勢検出タスクにおいて、多階層システムに基づいて設計したアルゴリズム(物体検出器+一人姿勢検出器)は多くのデータベース上で最も好ましい結果を取得している。また、多階層構造のアルゴリズムにおいて、異なるモジュールの調整と置換も可能であり、モデルの柔軟性が非常に高い。従って、非常に強い潜在力を有し、広く応用される可能性がある。
本開示の実施例はシステム強化学習技術を提供する。
本開示の実施例の一態様によれば、提供されるシステム強化学習方法は、
システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得ることと、
前記第1結果を前記システムの第2ネットワークに入力し、第2結果を得ることと、
強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、目標結果を得ることと、を含む。
選択可能に、前記の強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、前記調整後の第1結果に基づいて目標結果を得ることは、
前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることと、
前記第1中間結果を前記第2ネットワークに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とすることと、を含む。
選択可能に、前記強化操作は少なくとも1つの調整動作を含み、
前記の強化ネットワークにより前記第2ネットワークから出力される第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含む。
選択可能に、前記の強化ネットワークにより前記第2ネットワークから出力される第2結果に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果と前記第1結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含む。
選択可能に、前記の前記第2結果と前記第1結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することは、
前記第2結果と前記第1結果に基づいて連結結果を得ることと、
前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を含む。
選択可能に、前記第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含み、
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含む。
選択可能に、サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含む。
選択可能に、前記のサンプル画像に基づいて前記システムをトレーニングすることは、
前記システムの第1ネットワークに基づいて前記サンプル画像を処理し、第1サンプル結果を得ることと、
前記第1サンプル結果を前記システムの第2ネットワークに入力し、第2サンプル結果を得ることと、
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を含む。
選択可能に、前記の強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることは、
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、第2中間サンプル結果を得ることと、
前記第2中間サンプル結果に基づいて前記第2ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと、を含む。
選択可能に、前記の前記予測目標結果と前記サンプル目標結果に基づいて前記強化ネットワークのパラメータを調整することは、
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することと、を含む。
選択可能に、前記の少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することは、
少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することを含む。
選択可能に、前記の前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定することと、を含む。
選択可能に、前記の前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定することは、
前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第1損失を得ることを含む。
選択可能に、前記の前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークのパラメータを調整することは、
前記予測目標結果と前記サンプル目標結果に基づいて第2損失を決定し、前記第2損失に基づいて前記第2ネットワークのパラメータを調整することを含む。
本開示の実施例の別の態様によれば、提供されるシステム強化学習装置は、
入力画像を処理して第1結果を得るための第1ネットワークモジュールと、
前記第1結果を処理して第2結果を得るための第2ネットワークモジュールと、
前記第2結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器と、を含む。
選択可能に、前記強化ネットワークモジュールは、
前記第2ネットワークモジュールの出力する第2結果に基づいて前記第1結果を調整し、第1中間結果を得るための調整モジュールと、
前記第1中間結果を前記第2ネットワークモジュールに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とするための結果出力モジュールと、を含む。
選択可能に、前記調整モジュールは、前記第2結果に基づいて強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を実行するために用いられる。
選択可能に、前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定するために用いられ、
前記実行器は、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得るために用いられる。
選択可能に、前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて連結結果を得ることと、前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を実行するために用いられる。
選択可能に、サンプル目標結果が既知であるサンプル画像に基づいて前記の第1ネットワーク、第2ネットワーク及び強化ネットワークを含むシステムをトレーニングするためのトレーニングモジュールを更に含む。
選択可能に、前記第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含み、
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含む。
選択可能に、前記トレーニングモジュールは、サンプル画像を前記第1ネットワークモジュール、前記第2ネットワークモジュール、前記強化ネットワークモジュール及び前記実行器に入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を実行するために用いられる。
選択可能に、前記強化モジュールは、前記第2ネットワークモジュールで得られた第2サンプル結果に基づいて強化操作を取得するために用いられ、
前記実行器は、前記強化操作に基づいて前記第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
前記第2ネットワークモジュールは、前記第2中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられる。
選択可能に、前記トレーニングモジュールは、
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定するための第1損失モジュールと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するための第1パラメータ調整モジュールと、を含む。
選択可能に、前記第1パラメータ調整モジュールは、少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するために用いられる。
選択可能に、前記第1損失モジュールは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定するための損失決定モジュールと、を含む。
選択可能に、前記損失決定モジュールは、前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第1損失を得るために用いられる。
選択可能に、前記第2ネットワーク調整モジュールは、前記予測目標結果と前記サンプル目標結果に基づいて第2損失を決定し、前記第2損失に基づいて前記第2ネットワークのパラメータを調整するために用いられる。
本開示の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のいずれか一項に記載のシステム強化学習方法の操作を完成するためのプロセッサと、を含む、
本開示の実施例の別の態様によれば、提供されるコンピュータ記憶媒体は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に上記のいずれか一項に記載のシステム強化学習方法の操作を実行する。
本開示の実施例の別の態様によれば、提供されるコンピュータプログラム製品は、コンピュータ読取可能コードを含むコンピュータプログラム製品であって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが上記のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行する。
本開示の上記実施例で提供されるシステム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体によれば、システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得、第1結果をシステムの第2ネットワークに入力し、第2結果を得、第2結果に基づいて強化操作を得、強化操作に基づいて第1結果を調整し、目標結果を得るようになっており、強化ネットワークによって情報を下流階層から上流階層にフィードバックすることを実現し、システムの出力結果を最適化する。
以下、図面及び実施例を通じて本開示の技術的手段をさらに詳しく説明する。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得ることと、
前記第1結果を前記システムの第2ネットワークに入力し、第2結果を得ることと、
強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得ることと、を含むことを特徴とするシステム強化学習方法。
(項目2)
前記の強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、前記調整後の第1結果に基づいて目標結果を得ることは、
前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることと、
前記第1中間結果を前記第2ネットワークに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とすることと、を含むことを特徴とする項目1に記載の方法。
(項目3)
前記強化操作は少なくとも1つの調整動作を含み、
前記の強化ネットワークにより前記第2ネットワークから出力される第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含むことを特徴とする項目2に記載の方法。
(項目4)
前記の強化ネットワークにより前記第2ネットワークから出力される第2結果に基づいて前記第1結果を調整し、第1中間結果を得ることは、
前記第2結果と前記第1結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を含むことを特徴とする項目2に記載の方法。
(項目5)
前記の前記第2結果と前記第1結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することは、
前記第2結果と前記第1結果に基づいて連結結果を得ることと、
前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を含むことを特徴とする項目4に記載の方法。
(項目6)
前記第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含み、
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含むことを特徴とする項目1〜5のいずれか一項に記載の方法。
(項目7)
サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含むことを特徴とする項目1〜6のいずれか一項に記載の方法。
(項目8)
前記のサンプル画像に基づいて前記システムをトレーニングすることは、
前記システムの第1ネットワークに基づいて前記サンプル画像を処理し、第1サンプル結果を得ることと、
前記第1サンプル結果を前記システムの第2ネットワークに入力し、第2サンプル結果を得ることと、
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を含むことを特徴とする項目7に記載の方法。
(項目9)
前記の強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることは、
強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、第2中間サンプル結果を得ることと、
前記第2中間サンプル結果に基づいて前記第2ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと、を含むことを特徴とする項目8に記載の方法。
(項目10)
前記の前記予測目標結果と前記サンプル目標結果に基づいて前記強化ネットワークのパラメータを調整することは、
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することと、を含むことを特徴とする項目9に記載の方法。
(項目11)
前記の少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することは、
少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することを含むことを特徴とする項目10に記載の方法。
(項目12)
前記の前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定することと、を含むことを特徴とする項目10又は11に記載の方法。
(項目13)
前記の前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定することは、
前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第1損失を得ることを含むことを特徴とする項目12に記載の方法。
(項目14)
前記の前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークのパラメータを調整することは、
前記予測目標結果と前記サンプル目標結果に基づいて第2損失を決定し、前記第2損失に基づいて前記第2ネットワークのパラメータを調整することを含むことを特徴とする項目8〜13のいずれか一項に記載の方法。
(項目15)
入力画像を処理して第1結果を得るための第1ネットワークモジュールと、
前記第1結果を処理して第2結果を得るための第2ネットワークモジュールと、
前記第2結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器と、を含むことを特徴とするシステム強化学習装置。
(項目16)
前記強化ネットワークモジュールは、
前記第2ネットワークモジュールの出力する第2結果に基づいて前記第1結果を調整し、第1中間結果を得るための調整モジュールと、
前記第1中間結果を前記第2ネットワークモジュールに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とするための結果出力モジュールと、を含むことを特徴とする項目15に記載の装置。
(項目17)
前記調整モジュールは、前記第2結果に基づいて強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得ることと、を実行するために用いられることを特徴とする項目16に記載の装置。
(項目18)
前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定するために用いられ、
前記実行器は、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、第1中間結果を得るために用いられることを特徴とする項目16に記載の装置。
(項目19)
前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて連結結果を得ることと、前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を実行するために用いられることを特徴とする項目18に記載の装置。
(項目20)
サンプル目標結果が既知であるサンプル画像に基づいて前記の第1ネットワーク、第2ネットワーク及び強化ネットワークを含む前記システムをトレーニングするためのトレーニングモジュールを更に含むことを特徴とする項目15〜19のいずれか一項に記載の装置。
(項目21)
前記第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含み、
前記第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含むことを特徴とする項目20に記載の装置。
(項目22)
前記トレーニングモジュールは、サンプル画像を前記第1ネットワークモジュール、前記第2ネットワークモジュール、前記強化ネットワークモジュール及び前記実行器に入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を実行するために用いられることを特徴とする項目20又は21に記載の装置。
(項目23)
前記強化モジュールは、前記第2ネットワークモジュールで得られた第2サンプル結果に基づいて強化操作を取得するために用いられ、
前記実行器は、前記強化操作に基づいて前記第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
前記第2ネットワークモジュールは、前記第2中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられることを特徴とする項目22に記載の装置。
(項目24)
前記トレーニングモジュールは、
前記中間予測結果とサンプル目標結果に基づいて第1損失を決定するための第1損失モジュールと、
少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するための第1パラメータ調整モジュールと、を含むことを特徴とする項目23に記載の装置。
(項目25)
前記第1パラメータ調整モジュールは、少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するために用いられることを特徴とする項目24に記載の装置。
(項目26)
前記第1損失モジュールは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第1損失を決定するための損失決定モジュールと、を含むことを特徴とする項目24又は25に記載の装置。
(項目27)
前記損失決定モジュールは、前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第1損失を得るために用いられることを特徴とする項目26に記載の装置。
(項目28)
前記第2ネットワーク調整モジュールは、前記予測目標結果と前記サンプル目標結果に基づいて第2損失を決定し、前記第2損失に基づいて前記第2ネットワークのパラメータを調整するために用いられることを特徴とする項目22〜27のいずれか一項に記載の装置。
(項目29)
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目1〜14のいずれか一項に記載のシステム強化学習方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。
(項目30)
コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に項目1〜14のいずれか一項に記載のシステム強化学習方法の操作を実行することを特徴とするコンピュータ記憶媒体。
(項目31)
コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが項目1〜14のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行することを特徴とするコンピュータプログラム。
本開示の実施例で提供されるシステム強化学習方法の流れを示す模式図である。 本開示の実施例で提供されるシステム強化学習方法の流れを示す別の模式図である。 本開示の実施例で提供されるシステム強化学習方法のトレーニングの例を示す図である。 本開示の実施例で提供されるシステム強化学習装置の構造模式図である。 本開示の実施例の端末装置又はサーバを実現するのに適する電子機器の構造模式図である。
明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。
ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本開示の実施例はコンピュータシステム/サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム/サーバとの併用に適する公知の計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム■大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
コンピュータシステム/サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
多階層システムは異なる階層の連結上で常に微分不可能であり、このようにシステム全体の協同最適化が不可能であり、最適な効果を図ることができない。ここで、微分不可能とは勾配を求めることができないことを指す。例えば、包囲枠に関連するシステムにおいて、包囲枠内の写真の裁断操作を行う時にこの操作の包囲枠座標に対する勾配が計算できない。
図1は本開示の実施例で提供されるシステム強化学習方法の流れを示す模式図である。図1に示すように、この実施例の方法は、以下のステップを含む。
ステップ110において、システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得る。
選択可能に、システムの第1ネットワークは1つの具体的な機能を実現するニューラルネットワーク、又はニューラルネットワークの一部のネットワーク層であってもよく、複数のニューラルネットワークを含んでもよく、選択可能に、システム中の第1ネットワークと第2ネットワークとが関連関係を有し、例えば、第1ネットワークが顔検出ネットワークであり、第2ネットワークが顔認識ネットワークであり、この時に、第2ネットワークは第1ネットワークの出力する検出結果を入力とし、第1ネットワークの出力に基づいて認識結果を取得するようになり、一般的には、第1ネットワークと第2ネットワークの相関には順方向伝播の検出結果しかなく、異なる階層の間の出力が強い相関性を有し、誤った検出結果(第1ネットワークの出力)は誤った認識結果(第2ネットワークの出力)を招く。
例えば、第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含んでもよいが、それらに限定されなく、
第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含んでもよいが、それらに限定されない。
選択可能な一例では、このステップS110はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第1ネットワークモジュール41によって実行されてもよい。
ステップ120において、第1結果をシステムの第2ネットワークに入力し、第2結果を得る。
選択可能な一例では、このステップS120はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第2ネットワークモジュール42によって実行されてもよい。
ステップ130において、強化ネットワークにより第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、調整後の第1結果に基づいて目標結果を得る。
より好ましい第2結果を取得するために、選択可能に、第2ネットワークから出力される第2結果を入力とし、出力される強化操作により第1結果を調整して下流階層から上流階層への情報フィードバックを実現し、情報フィードバックにより目標結果を取得する強化ネットワークをシステムに追加する。
選択可能な一例では、このステップS130はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する強化ネットワークモジュール43によって実行されてもよい。
本開示の上記実施例で提供されるシステム強化学習方法によれば、システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得、第1結果をシステムの第2ネットワークに入力し、第2結果を得、強化ネットワークにより第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、目標結果を得るようになっており、強化ネットワークによって情報を下流階層から上流階層にフィードバックすることを実現し、システムの出力結果を最適化する。
1つ又は複数の選択可能な実施例では、操作130は、
強化ネットワークにより第2ネットワークから出力される第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、第1中間結果を得ることと、
第1中間結果を第2ネットワークに入力し、第1中間結果に基づいて第2結果を得、第2結果を強化ネットワークに入力することと、
上記プロセスを重複実行し、所定条件に達したことに応答して、第2結果を出力して目標結果とすることと、を含んでもよい。
選択可能に、所定条件は、重複調整回数が所定の回数に達したこと、又は所望の第2結果の効果を達成したこと等を含んでもよいが、本開示の実施例では所定条件の具体的な形式が限定されない。
選択可能に、強化ネットワークは第2結果に基づいて第1結果に対する調整動作を取得するが、1つ又は少ない調整動作により調整した後得られた第1中間結果は好ましい目標結果を得ることができない可能性があるので、所定条件に達するまで、毎回、前回調整した後の第1中間結果により得られた第2結果を強化ネットワークの入力として新しい調整動作を得るように重複実行する。
選択可能に、強化操作は少なくとも1つの調整動作を含んでもよく、
強化ネットワークにより第2ネットワークから出力される第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、第1中間結果を得ることは、
第2結果に基づいて強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
少なくとも1つの調整動作に基づいて第1結果を調整し、第1中間結果を得ることと、を含む。
選択可能に、強化ネットワークは、第2結果に基づいて複数の調整動作から1つ又は複数の確率が大きい(例えば、確率が最も大きい)調整動作を決定し、第1結果を調整する分類ニューラルネットワークであってもよい。選択可能に、一例において、システムに入力されるのがRGB画像であって、出力される目標結果が画像認識結果(例えば、意味分割又は人体姿勢検出)であって、システム処理プロセスは、以下を含んでもよい。
a.第1ネットワークを用いて入力されるRGB画像を処理し、第1結果Ωを得、ここで、Ωは抽象パラメータであって、異なる認識タスクにおいて異なってもよい。理解しやすくするために、以下のこの例に対する検討において多階層多人数姿勢予測システムが例とされ、第1階層のネットワーク(第1ネットワークに対応する)が物体検出ネットワークであり、出力されるΩが物体の包囲枠座標である。
b.第1結果Ωを第2ネットワークの入力とし、又は第1結果Ωにより第2ネットワークの入力を算出し、第2ネットワークにより第2結果を出力し、一般的には、第2ネットワークの入力が第1ネットワークの出力と関連する。Ωが包囲枠の座標であれば、第2ネットワークの入力が、最初の写真の包囲枠内の部分である。第2ネットワークの出力が物体認識結果、例えば、人体の各キーポイントが写真で分布した熱力学的チャートとなる。
c.強化ネットワーク(例えば、強化ネットワークとして1つの分類ネットワーク、1つの18層の残差ネットワーク(ResNet−18)が採用される)は、第2ネットワークの出力により、1つの動作を選択して第1結果Ωを調整し、ステップbに戻って、所定条件に達するまでステップcとステップbを重複実行し、この例では重複回数を所定条件としてもよく、即ち所定の重複回数に達したことを条件とし、その所定の重複回数は必要に応じて設定する(例えば、所定の重複回数を20回とする)。強化ネットワークは第2ネットワークの出力を入力とし、複数の動作に対する確率分布を生成し、確率が大きい少なくとも1つの動作を選択して決定結果とし、ここで、第1ネットワークが包囲枠を出力することを例として、複数の動作は、例えば、包囲枠の高さ及び/又は幅を拡大又は縮小したり、上、下、左、右に平行移動する、包囲枠を調整可能な一連の動作、及び調整しない動作等の複数の動作を含んでもよい。
選択可能に、実行器を用いて、選択された動作により第1結果Ωを調整するが、実行器は一般的な言い方であり、強化ネットワークにより決定されたのが1つの動作の番号(分類ネットワークの分類結果)に過ぎないので、この番号を動作に変換する機能(例えば、包囲枠を調整する具体的な動作)が必要とされる。関数によって直接実現可能であり、一般的には、この実現する関数は実行器と呼ばれる。
第2ネットワークの出力する結果の偏差が大き過ぎることを防止するために、第1ネットワークの出力する第1結果を強化ネットワークの参照入力とする必要があり、選択可能に、強化ネットワークにより第2ネットワークから出力される第2結果に基づいて第1結果を調整し、第1中間結果を得ることは、以下を含む。
第2結果と第1結果に基づいて、強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも1つの調整動作を決定し、
選択可能に、第2結果と第1結果に基づいて連結結果を得、連結結果に基づいて強化ネットワークにより調整動作確率を得るようにしてもよく、又は、第1結果と第2結果とが全て画像である時に、画像チャネルに基づいて第1結果と第2結果を結合し、結合後の第1結果と第2結果に基づいて調整動作確率を取得するようにしてもよく、本開示の実施例では第1結果と第2結果の間の具体的な関連付け方法が限定されなく、調整動作確率を取得する時に第1結果を参照すればよい。
少なくとも1つの調整動作に基づいて第1結果を調整し、第1中間結果を得る。
1つ又は複数の選択可能な実施例では、サンプル目標結果が既知であるサンプル画像に基づいてシステムをトレーニングすることを更に含む。
より好ましい強化学習効果を実現するために、第1結果を調整する調整動作が精確なものであることが要求されるため、強化学習の前に、更にサンプル目標結果が知られたサンプル画像に基づいてシステム中の少なくとも1つのネットワークをトレーニングしてもよく、選択可能に、第2ネットワークと強化ネットワークのみをトレーニングし、強化ネットワークはトレーニングされた後より精確な調整動作を得ることができ、第2ネットワークはトレーニングされた後より好ましい目標結果を取得することができる。
選択可能に、サンプル画像に基づいてシステムをトレーニングすることは、
システムの第1ネットワークに基づいてサンプル画像を処理し、第1サンプル結果を得ることと、
第1サンプル結果をシステムの第2ネットワークに入力して第2サンプル結果を得ることと、
強化ネットワークにより第2サンプル結果に基づいて強化操作を取得し、強化操作に基づいて第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
予測目標結果とサンプル目標結果に基づいて第2ネットワークと強化ネットワークのパラメータをそれぞれ調整することと、を含む。
選択可能な一例として、図2は本開示の実施例で提供されるシステム強化学習方法の流れを示す別の模式図である。図2に示すように、第2ネットワークと強化ネットワークは相互の結果を互いに入力とするので、トレーニングプロセスで第2ネットワークと強化ネットワークを共にトレーニングする必要があり、トレーニングプロセスで、システムに含まれるネットワークについては予測プロセスと同様にサンプル画像を処理し、予測目標結果を得、予測目標結果とサンプル目標結果に基づいて第2ネットワークと強化ネットワークのパラメータを調整する必要がある。選択可能に、強化ネットワークにより第2サンプル結果に基づいて強化操作を取得し、強化操作に基づいて第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることは、強化ネットワークにより第2サンプル結果に基づいて強化操作を取得し、強化操作に基づいて第1サンプル結果を調整し、第2中間サンプル結果を得ることと、
第2中間サンプル結果に基づいて第2ネットワークによって中間予測結果を取得し、中間予測結果を強化ネットワークに入力することと、
上記プロセスを重複実行し、所定条件に達したことに応答して、中間予測結果を出力して予測目標結果とすることと、を含む。
選択可能に、所定条件は、重複回数が所定の回数に達したこと、又は所望の第2結果の効果を達成したこと等を含んでもよいが、本開示の実施例では所定条件の具体的な形式が限定されない。
本開示の実施例では、強化ネットワークと第2ネットワークに対して平等処理を行い、それぞれ最後に出力する予測目標結果とサンプル目標結果により強化ネットワークと第2ネットワークのパラメータを調整する。しかしながら、強化学習(強化ネットワーク)に要するデータ量が教師あり学習より大幅に大きく、また、強化学習の勾配分散も教師あり学習(第2ネットワーク)の勾配分散より大幅に大きいため、直接強化ネットワークと第2ネットワークを共にトレーニングすれば、教師あり学習のネットワークが大きく影響されて正確率が低くなる。この問題を解決するために、本開示の実施例は強化学習と教師あり学習の異なったトレーニング要求を平衡化する方法を提案する。
選択可能に、予測目標結果とサンプル目標結果に基づいて強化ネットワークのパラメータを調整することは、
中間予測結果とサンプル目標結果に基づいて第1損失を決定することと、
少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整することと、を含む。
選択可能に、トレーニングプロセスで入力については、強化ネットワークは第1結果を常に調整し、複数回の調整が複数の動作に対応し、重複が完成した後、動作シーケンス(複数の動作を含む)が得られる。第1サンプル結果が一回調整された時に、第2ネットワークは新しい対応的な予測中間サンプル結果(例えば、熱力学的チャート)を生成する。強化ネットワークについては、本実施例は動作シーケンス全体の予測中間サンプル結果によってトレーニングするが、第2ネットワークについては、教師あり学習があり、最終的な予測目標結果のみを選択してトレーニングしてもよい。異なったトレーニング動作によって、教師あり学習と強化学習の異なったトレーニング要求の平衡化を実現することができる。
選択可能に、少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整することは、
少なくとも1つの第1損失を得る順序に従って、順に少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整することを含む。
得られた中間予測結果とサンプル目標結果に基づいて損失を決定して少なくとも1つの損失を得ることができ、得られた少なくとも1つの損失に基づいて強化ネットワークのパラメータを調整する。
選択可能に、中間予測結果とサンプル目標結果に基づいて第1損失を決定することは、以下を含む。
中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定し、
中間予測結果に基づいて強化ネットワークと一部のネットワーク構造を共用するスコアリングネットワークにより現在予測報酬を決定し、
選択可能に、スコアリングネットワークと強化ネットワークは最後の一層のみが異なり、強化ネットワークの最後の一層が全結合層であって1次元特徴ベクトルが得られ、この1次元特徴ベクトルに基づいて動作選択確率を決定し、スコアリングネットワークの最後の一層が全結合層であって特徴値が得られ、この特徴値がスコアとなる。
中間予測結果に基づいて強化ネットワークと第2ネットワークにより次の中間予測結果を決定し、次の中間予測結果に基づいてスコアリングネットワークにより次の予測報酬を決定し、
現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第1損失を決定する。
中間予測結果に基づいて少なくとも1つの第1損失を得、例えば、それぞれの中間予測結果は1つの第1損失に対応する。
本実施例では、図3は本開示の実施例で提供されるシステム強化学習方法のトレーニングの例を示す図である。図3に示すように、1つのスコアリングネットワークが追加され、強化ネットワークとスコアリングネットワークで構成された強化学習プロキシモデルにおいて、実行者−評価者(強化ネットワークとスコアリングネットワークの組合、Actor Critic)のアルゴリズムが採用され、タイミングが異なった学習方法(例えば、TD−Learning)が採用されており、ここで、Actor Critic方法は、方策勾配(Policy Gradient、実行者)と関数近似(Function Approximation、評価者)の方法を組み合わせており、Actorは強化ネットワークにより確率に基づいて動作を決定することを実現し、CriticはActorの行動に基づいて確率に基づく動作決定のスコアを評価し、ActorはCriticの評価により動作決定確率を修正し、Actor Critic方法の長所は、単一工程の更新が可能であって従来の方法(サイクルが終了した後更新する)より速いことである。TD−learningといったアルゴリズムも既知のアルゴリズムである。強化学習の逆方向伝播(back−propagation)アルゴリズムは大体、一回にまとめてシーケンスを全て実行してからシーケンス全体の報酬(reward)を算出し、次にステップごとに戻って最適化して逆方向伝播(back−propagation)アルゴリズムを実行する構想、毎回、一回の動作のみを実行した直後に一回最適化する構想といった2種の構想がある。これはTD−learningアルゴリズムの構想である。TD−learningアルゴリズムの長所は、ネットワーク収束がより速く、性能に大きい影響を与えずにトレーニング時間を短縮することができる。
選択可能に、現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第1損失を決定することは、
現在中間報酬に次の予測報酬を加算し現在予測報酬を減算して、第1損失を得ることを含む。
現在予測報酬に次の予測報酬を加算することによって、損失関数の分散を小さくしてトレーニングをより安定的にすることができる。
選択可能に、予測目標結果とサンプル目標結果に基づいて第2ネットワークのパラメータを調整することは、
予測目標結果とサンプル目標結果に基づいて第2損失を決定し、第2損失に基づいて第2ネットワークのパラメータを調整することを含む。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。
図4は本開示の実施例で提供されるシステム強化学習装置の構造模式図である。この実施例の装置は本開示の上記各方法の実施例を実現することに利用可能である。図4に示すように、この実施例の装置は、
入力画像を処理して第1結果を得るための第1ネットワークモジュール41と、
第1結果を処理して第2結果を得るための第2ネットワークモジュール42と、
第2結果に基づいて強化動作を得るための強化ネットワークモジュール43と、
強化操作に基づいて第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器44と、含む。
本開示の上記実施例で提供されるシステム強化学習装置によれば、システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得、第1結果をシステムの第2ネットワークに入力し、第2結果を得、強化ネットワークにより第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、目標結果を得るようになっており、強化ネットワークによって情報を下流階層から上流階層にフィードバックすることを実現し、システムの出力結果を最適化する。
1つ又は複数の選択可能な実施例では、強化ネットワークモジュール43は、
第2ネットワークモジュールの出力する第2結果に基づいて第1結果を調整し、第1中間結果を得るための調整モジュールと、
第1中間結果を第2ネットワークモジュールに入力し、第1中間結果に基づいて第2結果を得、第2結果を調整モジュールに入力することと、所定条件に達したことに応答して、第2結果を出力して目標結果とすることと、を実行するために用いられる結果出力モジュールと、を含む。
選択可能に、所定条件は、調整回数が所定の回数に達したこと、又は所望の第2結果の効果を達成したこと等を含んでもよいが、本開示の実施例では所定条件の具体的な形式が限定されない。
選択可能に、強化ネットワークは第2結果に基づいて第1結果に対する調整動作を取得するが、1つ又は少ない調整動作により調整した後得られた第1中間結果は好ましい目標結果を得ることができない可能性があるので、所定条件に達するまで、毎回、前回調整した後の第1中間結果により得られた第2結果を強化ネットワークの入力として新しい調整動作を得るように重複実行する。
選択可能に、調整モジュールは、第2結果に基づいて強化ネットワークモジュールにより調整動作確率を得、調整動作確率に基づいて少なくとも1つの調整動作を決定することと、少なくとも1つの調整動作に基づいて第1結果を調整し、第1中間結果を得ることと、を実行するために用いられる。
選択可能に、強化ネットワークモジュールは、第2結果と第1結果に基づいて調整動作確率を得、調整動作確率に基づいて少なくとも1つの調整動作を決定するために用いられ、
上記実行器は、少なくとも1つの調整動作に基づいて第1結果を調整し、第1中間結果を得るために用いられる。
選択可能に、強化ネットワークモジュールは、第2結果と第1結果に基づいて連結結果を得ることと、
連結結果に基づいて強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも1つの調整動作を決定することと、を実行するために用いられる。
1つ又は複数の選択可能な実施例では、サンプル画像に基づいて第1ネットワーク、第2ネットワーク及び強化ネットワークを含むシステムをトレーニングするためのトレーニングモジュールを更に含む。
ここで、サンプル画像はサンプル目標結果が知られた。
より好ましい強化学習効果を実現するために、第1結果を調整する調整動作が精確なものであることが要求されるため、強化学習の前に、更にサンプル目標結果が知られたサンプル画像に基づいてシステム中の少なくとも1つのネットワークをトレーニングしてもよく、選択可能に、第2ネットワークと強化ネットワークのみをトレーニングし、強化ネットワークはトレーニングされた後より精確な調整動作を得ることができ、第2ネットワークはトレーニングされた後より好ましい目標結果を取得することができる。
選択可能に、第1ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含み、
第2ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの1つ又は複数を含む。
選択可能に、トレーニングモジュールは、サンプル画像を第1ネットワークモジュール、第2ネットワークモジュール、強化ネットワークモジュール及び実行器に入力し、予測目標結果を得ることと、予測目標結果とサンプル目標結果に基づいて第2ネットワークと強化ネットワークのパラメータをそれぞれ調整することと、を実行するために用いられる。
選択可能に、強化モジュールは、第2ネットワークモジュールで得られた第2サンプル結果に基づいて強化操作を取得するために用いられ、
実行器は、強化操作に基づいて第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
第2ネットワークモジュールは、第2中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して中間予測結果を出力して予測目標結果とするために用いられる。
選択可能に、トレーニングモジュールは、
中間予測結果とサンプル目標結果に基づいて第1損失を決定するための第1損失モジュールと、
少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整するための第1パラメータ調整モジューと、を含む。
選択可能に、第1パラメータ調整モジュールは、少なくとも1つの第1損失を得る順序に従って、順に少なくとも1つの第1損失に基づいて強化ネットワークのパラメータを調整するために用いられる。
選択可能に、第1損失モジュールは、
中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、中間予測結果に基づいて強化ネットワークと一部のネットワーク構造を共用するスコアリングネットワークにより現在予測報酬を決定することと、中間予測結果に基づいて強化ネットワークと第2ネットワークにより次の中間予測結果を決定することと、次の中間予測結果に基づいてスコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第1損失を決定するための損失決定モジュールと、を含む。
選択可能に、損失決定モジュールは、現在中間報酬に次の予測報酬を加算し現在予測報酬を減算して、第1損失を得るために用いられる。
選択可能に、第2ネットワーク調整モジュールは、予測目標結果とサンプル目標結果に基づいて第2損失を決定し、第2損失に基づいて第2ネットワークのパラメータを調整するために用いられる。
本開示の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
メモリと通信して実行可能コマンドを実行して本開示の上記のいずれか1つの実施例に記載のシステム強化学習方法を完成するためのプロセッサと、を含む。
本開示の実施例の別の態様によれば、提供されるコンピュータ記憶媒体は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、コマンドがプロセッサにより実行される時に、このプロセッサが本開示の上記のいずれか1つの実施例で提供されるシステム強化学習方法を実行する。
本開示の実施例の別の態様によれば、提供されるコンピュータプログラム製品は、コンピュータ読取可能コードを含むコンピュータプログラム製品であって、コンピュータ読取可能コードが機器上で作動する時に、機器中のプロセッサが本開示の上記のいずれか1つの実施例で提供されるシステム強化学習方法の操作を実行する。
本開示の実施例のまた1つの態様によれば、提供される別のコンピュータプログラム製品は、コンピュータ読取可能コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータに上記のいずれか1つの可能な実現形態で提供されるシステム強化学習方法の操作を実行させる。
1つ又は複数の選択可能な実施形態では、本開示の実施例は、コンピュータ読取可能コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータに上記のいずれか1つの実施例に記載のシステム強化学習方法の操作を実行させるコンピュータプログラム製品を更に提供する。
該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
本開示の実施例によれば、システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得ることと、第1結果をシステムの第2ネットワークに入力し、第2結果を得ることと、強化ネットワークにより第2結果に基づいて第1結果を調整し、目標結果を得ることと、を含む別のシステム強化学習方法及びそれに対応する装置と電子機器、コンピュータ記憶媒体並びにコンピュータプログラム製品を更に提供する。
いくつかの実施例では、この目標追跡指示は具体的には呼び出しコマンドであってもよく、第1装置は呼び出すことで第2装置に目標追跡を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第2装置は上記目標追跡方法中の任意の実施例中のステップ及び/又は流れを実行することができる。
本開示の実施例における「第1」、「第2」などの用語は区別するためのものに過ぎず、本開示の実施例に対する限定と理解してはならないことを理解すべきである。
更に、本開示では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
更に、本開示で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。
更に、本開示ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
本開示の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本開示の実施例の端末装置又はサーバを実現するのに適する電子機器300の構造模式図を示す図5を参照し、図5に示すように、電子機器500は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)501、及び/又は1つ又は複数の画像プロセッサ(GPU)513などであり、プロセッサは、読み取り専用メモリ(ROM)502に記憶された実行可能コマンド又は記憶部508からランダムアクセスメモリ(RAM)503にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部512はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。
プロセッサは読み取り専用メモリ502及び/又はランダムアクセスメモリ503と通信して実行可能コマンドを実行し、通信バス504を介して通信部512に接続され、通信部512を介して他のターゲットデバイスと通信してよく、それにより本開示の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得、第1結果をシステムの第2ネットワークに入力し、第2結果を得、強化ネットワークにより第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、目標結果を得る。
また、RAM503には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU501、ROM502及びRAM503は、通信バス504を介して相互に接続される。RAM503を有する場合に、ROM502は選択可能なモジュールである。RAM503は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM502に書き込み、実行可能コマンドによって中央処理ユニット501に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インタフェース505も通信バス504に接続される。通信部512は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
キーボード、マウスなどを含む入力部506と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部507と、ハードディスクなどを含む記憶部508と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部509とがI/Oインタフェース505に接続されている。通信部509は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ510も必要に応じてI/Oインタフェース505に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体511は、必要に応じてドライブ510上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部508にインストールする。
なお、図5に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図5の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPU513とCPU501は分離設置するかまたはGPU513をCPU501に統合するようにしてよく、通信部は分離設置するか、またはCPU501やGPU513に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。
特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得、第1結果をシステムの第2ネットワークに入力し、第2結果を得、強化ネットワークにより第2結果に基づいて強化操作を取得し、強化操作に基づいて第1結果を調整し、目標結果を得る。このような実施例では、該コンピュータプログラムは通信部509によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体511からインストールされ得る。中央処理ユニット(CPU)501によって該コンピュータプログラムを実行する時に、本開示の方法で限定された上記機能の操作を実行する。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。
本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本開示の原理及び実際応用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims (21)

  1. 電子機器によって実行されるシステム強化学習方法であって、
    システムの第1ネットワークに基づいて入力される画像を処理し、第1結果を得ることと、
    前記第1結果を前記システムの第2ネットワークに入力し、第2結果を得ることと、
    強化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得ること
    を含むことを特徴とするシステム強化学習方法。
  2. 化ネットワークにより前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し調整後の第1結果に基づいて目標結果を得ることは、
    前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることと、
    前記第1中間結果を前記第2ネットワークに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記強化ネットワークに入力することと、
    所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とすること
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記強化操作は少なくとも1つの調整動作を含み、
    前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1結果を調整し、第1中間結果を得ることは、
    前記第2結果に基づいて前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
    前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得ること
    を含むことを特徴とする請求項2に記載の方法。
  4. 前記強化ネットワークにより前記第2ネットワークから出力される前記第2結果に基づいて前記第1結果を調整し、第1中間結果を得ることは、
    前記第2結果と前記第1結果に基づいて、前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、
    前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得ること
    を含むことを特徴とする請求項2に記載の方法。
  5. 記第2結果と前記第1結果に基づいて、前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することは、
    前記第2結果と前記第1結果に基づいて連結結果を得ることと、
    前記連結結果に基づいて前記強化ネットワークにより前記調整動作確率を得、前記調整動作確率に基づいて前記少なくとも1つの調整動作を決定すること
    を含むことを特徴とする請求項4に記載の方法。
  6. サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含み、
    ンプル画像に基づいて前記システムをトレーニングすることは、
    前記システムの第1ネットワークに基づいて前記サンプル画像を処理し、第1サンプル結果を得ることと、
    前記第1サンプル結果を前記システムの第2ネットワークに入力し、第2サンプル結果を得ることと、
    前記強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることと、
    前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークおよび前記強化ネットワークのパラメータをそれぞれ調整すること
    を含むことを特徴とする請求項1〜5のいずれか一項に記載の方法。
  7. 前記強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、調整後の第1サンプル結果に基づいて予測目標結果を得ることは、
    前記強化ネットワークにより前記第2サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第1サンプル結果を調整し、第2中間サンプル結果を得ることと、
    前記第2中間サンプル結果に基づいて前記第2ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
    所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすること
    を含み、
    記予測目標結果と前記サンプル目標結果に基づいて前記強化ネットワークのパラメータを調整することは、
    前記中間予測結果とサンプル目標結果に基づいて第1損失を決定することと、
    少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整すること
    を含むことを特徴とする請求項6に記載の方法。
  8. なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することは、
    少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整することを含むことを特徴とする請求項7に記載の方法。
  9. 記中間予測結果とサンプル目標結果に基づいて第1損失を決定することは、
    前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、
    前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
    前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
    前記現在中間報酬前記現在予測報酬前記次の予測報酬に基づいて前記第1損失を決定すること
    を含むことを特徴とする請求項7または請求項8に記載の方法。
  10. 入力画像を処理して第1結果を得るための第1ネットワークモジュールと、
    前記第1結果を処理して第2結果を得るための第2ネットワークモジュールと、
    前記第2結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
    前記強化操作に基づいて前記第1結果を調整し、調整後の第1結果に基づいて目標結果を得るための実行器
    を含むことを特徴とするシステム強化学習装置。
  11. 前記強化ネットワークモジュールは、
    前記第2ネットワークモジュールの出力する第2結果に基づいて前記第1結果を調整し、第1中間結果を得るための調整モジュールと、
    前記第1中間結果を前記第2ネットワークモジュールに入力し、前記第1中間結果に基づいて第2結果を得、前記第2結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第2結果を出力して前記目標結果とするための結果出力モジュール
    を含むことを特徴とする請求項10に記載の装置。
  12. 前記調整モジュールは、前記第2結果に基づいて前記強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定することと、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得ることを実行するために用いられることを特徴とする請求項11に記載の装置。
  13. 前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも1つの調整動作を決定するために用いられ、
    前記実行器は、前記少なくとも1つの調整動作に基づいて前記第1結果を調整し、前記第1中間結果を得るために用いられることを特徴とする請求項11に記載の装置。
  14. 前記強化ネットワークモジュールは、前記第2結果と前記第1結果に基づいて連結結果を得ることと、前記連結結果に基づいて前記強化ネットワークにより前記調整動作確率を得、前記調整動作確率に基づいて前記少なくとも1つの調整動作を決定することを実行するために用いられることを特徴とする請求項13に記載の装置。
  15. サンプル目標結果が既知であるサンプル画像に基づいて、1ネットワーク第2ネットワーク強化ネットワークを含むシステムをトレーニングするためのトレーニングモジュールを更に含み、
    前記トレーニングモジュールは、サンプル画像を前記第1ネットワークモジュール前記第2ネットワークモジュール前記強化ネットワークモジュール前記実行器に入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果に基づいて前記第2ネットワークおよび前記強化ネットワークのパラメータをそれぞれ調整することを実行するためにさらに用いられることを特徴とする請求項10〜14のいずれか一項に記載の装置。
  16. 前記強化ネットワークモジュールは、前記第2ネットワークモジュールで得られた第2サンプル結果に基づいて強化操作を取得するために用いられ、
    前記実行器は、前記強化操作に基づいて前記第1ネットワークモジュールで得られた第1サンプル結果を調整し、第2中間サンプル結果を得るために用いられ、
    前記第2ネットワークモジュールは、前記第2中間サンプル結果に基づいて中間予測結果を得、前記中間予測結果を前記強化ネットワークモジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられ、
    前記トレーニングモジュールは、
    前記中間予測結果とサンプル目標結果に基づいて第1損失を決定するための第1損失モジュールと、
    少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するための第1パラメータ調整モジュール
    を含むことを特徴とする請求項15に記載の装置。
  17. 前記第1パラメータ調整モジュールは、少なくとも1つの前記第1損失を得る順序に従って、順に少なくとも1つの前記第1損失に基づいて前記強化ネットワークのパラメータを調整するために用いられることを特徴とする請求項16に記載の装置。
  18. 前記第1損失モジュールは、
    前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第2ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することを実行するために用いられる報酬決定モジュールと、
    前記現在中間報酬前記現在予測報酬前記次の予測報酬に基づいて前記第1損失を決定するための損失決定モジュール
    を含むことを特徴とする請求項16または請求項17に記載の装置。
  19. 実行可能コマンドを記憶するためのメモリと、
    前記メモリと通信して前記実行可能コマンドを実行して請求項1〜9のいずれか一項に記載のシステム強化学習方法を実行するためのプロセッサ
    を含むことを特徴とする電子機器。
  20. コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に請求項1〜9のいずれか一項に記載のシステム強化学習方法実行することを特徴とするコンピュータ記憶媒体。
  21. コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが請求項1〜9のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行することを特徴とするコンピュータプログラム。
JP2020535040A 2018-05-07 2019-03-18 システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム Active JP6896176B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810428099.3 2018-05-07
CN201810428099.3A CN108776834B (zh) 2018-05-07 2018-05-07 系统增强学习方法和装置、电子设备、计算机存储介质
PCT/CN2019/078520 WO2019214344A1 (zh) 2018-05-07 2019-03-18 系统增强学习方法和装置、电子设备、计算机存储介质

Publications (2)

Publication Number Publication Date
JP2021507421A JP2021507421A (ja) 2021-02-22
JP6896176B2 true JP6896176B2 (ja) 2021-06-30

Family

ID=64026991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020535040A Active JP6896176B2 (ja) 2018-05-07 2019-03-18 システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム

Country Status (6)

Country Link
US (1) US11669711B2 (ja)
JP (1) JP6896176B2 (ja)
KR (1) KR102420715B1 (ja)
CN (1) CN108776834B (ja)
SG (1) SG11202006017SA (ja)
WO (1) WO2019214344A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776834B (zh) * 2018-05-07 2021-08-06 上海商汤智能科技有限公司 系统增强学习方法和装置、电子设备、计算机存储介质
CN110211122A (zh) * 2019-06-12 2019-09-06 京东方科技集团股份有限公司 一种检测图像处理方法及装置
CN110472029B (zh) * 2019-08-01 2024-03-19 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN110610534B (zh) * 2019-09-19 2023-04-07 电子科技大学 基于Actor-Critic算法的口型动画自动生成方法
CN111488806A (zh) * 2020-03-25 2020-08-04 天津大学 一种基于并行分支神经网络的多尺度人脸识别方法
CN111766782B (zh) * 2020-06-28 2021-07-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
JP2022144124A (ja) * 2021-03-18 2022-10-03 株式会社日本製鋼所 強化学習方法、コンピュータプログラム、強化学習装置及び成形機
CN114494081B (zh) * 2022-04-01 2022-07-05 武汉大学 一种无人机遥感测绘图像增强方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7001243B1 (en) * 2003-06-27 2006-02-21 Lam Research Corporation Neural network control of chemical mechanical planarization
WO2006122030A2 (en) 2005-05-07 2006-11-16 Thaler Stephen L Device for the autonomous bootstrapping of useful information
CN103020602B (zh) * 2012-10-12 2015-10-14 北京建筑工程学院 基于神经网络的人脸识别方法
US9749188B2 (en) * 2014-05-13 2017-08-29 Cisco Technology, Inc. Predictive networking architecture for next-generation multiservice, multicarrier WANs
JP6072103B2 (ja) * 2015-02-04 2017-02-01 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム
CN105279555B (zh) * 2015-10-28 2017-10-17 清华大学 一种基于进化算法的自适应学习神经网络实现方法
CN106709565A (zh) * 2016-11-16 2017-05-24 广州视源电子科技股份有限公司 一种神经网络的优化方法及装置
CN108154222B (zh) * 2016-12-02 2020-08-11 北京市商汤科技开发有限公司 深度神经网络训练方法和系统、电子设备
CN106651774B (zh) * 2016-12-27 2020-12-04 深圳市捷顺科技实业股份有限公司 一种车牌超分辨率模型重建方法及装置
CN106934346B (zh) * 2017-01-24 2019-03-15 北京大学 一种目标检测性能优化的方法
CN106941602B (zh) * 2017-03-07 2020-10-13 中国铁路总公司 机车司机行为识别方法及装置
CN107301383B (zh) * 2017-06-07 2020-11-24 华南理工大学 一种基于Fast R-CNN的路面交通标志识别方法
CN107704857B (zh) * 2017-09-25 2020-07-24 北京邮电大学 一种端到端的轻量级车牌识别方法及装置
TWI699816B (zh) * 2017-12-26 2020-07-21 雲象科技股份有限公司 自動化顯微鏡系統之控制方法、顯微鏡系統及電腦可讀取記錄媒體
CN108073910B (zh) * 2017-12-29 2021-05-07 百度在线网络技术(北京)有限公司 用于生成人脸特征的方法和装置
CN108776834B (zh) * 2018-05-07 2021-08-06 上海商汤智能科技有限公司 系统增强学习方法和装置、电子设备、计算机存储介质

Also Published As

Publication number Publication date
CN108776834B (zh) 2021-08-06
US20200349431A1 (en) 2020-11-05
KR20200119873A (ko) 2020-10-20
JP2021507421A (ja) 2021-02-22
WO2019214344A1 (zh) 2019-11-14
CN108776834A (zh) 2018-11-09
US11669711B2 (en) 2023-06-06
KR102420715B1 (ko) 2022-07-14
SG11202006017SA (en) 2020-07-29

Similar Documents

Publication Publication Date Title
JP6896176B2 (ja) システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム
JP7065199B2 (ja) 画像処理方法及び装置、電子機器、記憶媒体並びにプログラム製品
JP6999028B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
JP6811894B2 (ja) ニューラルネットワーク構造の生成方法および装置、電子機器、ならびに記憶媒体
WO2021078027A1 (zh) 构建网络结构优化器的方法、装置及计算机可读存储介质
US11941527B2 (en) Population based training of neural networks
CN110892418A (zh) 多任务神经网络系统
US11995560B2 (en) Method and apparatus for generating vector representation of knowledge graph
US20210117786A1 (en) Neural networks for scalable continual learning in domains with sequentially learned tasks
US11636667B2 (en) Pattern recognition apparatus, pattern recognition method, and computer program product
US11915120B2 (en) Flexible parameter sharing for multi-task learning
US20230409929A1 (en) Methods and apparatuses for training prediction model
US20230124288A1 (en) Responsible Artificial Intelligence Controller
CN115600693A (zh) 机器学习模型训练方法、识别方法、相关装置及电子设备
WO2022127603A1 (zh) 一种模型处理方法及相关装置
CN114926322A (zh) 图像生成方法、装置、电子设备和存储介质
US11941586B2 (en) System for applying an artificial intelligence engine in real-time to affect course corrections and influence outcomes
US20240185025A1 (en) Flexible Parameter Sharing for Multi-Task Learning
US20230143789A1 (en) Label inference in split learning defenses
US20220309774A1 (en) Method and apparatus for classifying images using an artificial intelligence model
US20230244706A1 (en) Model globalization for long document summarization
WO2022251602A9 (en) Systems and methods for machine-learned models having convolution and attention
WO2023114141A1 (en) Knowledge distillation via learning to predict principal components coefficients
CN117152289A (zh) 图像编辑方法、装置、电子设备、存储介质和程序产品
CN114692780A (zh) 实体信息分类方法、分类模型训练方法、装置、电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200623

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200623

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210608

R150 Certificate of patent or registration of utility model

Ref document number: 6896176

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250