JP6896176B2

JP6896176B2 - システム強化学習方法及び装置、電子機器、コンピュータ記憶媒体並びにコンピュータプログラム

Info

Publication number: JP6896176B2
Application number: JP2020535040A
Authority: JP
Inventors: ▲謝▼▲樹▼▲欽▼; ▲陳▼梓天; 徐超; ▲盧▼策吾
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2018-05-07
Filing date: 2019-03-18
Publication date: 2021-06-30
Anticipated expiration: 2039-03-18
Also published as: JP2021507421A; KR20200119873A; SG11202006017SA; US20200349431A1; CN108776834B; WO2019214344A1; KR102420715B1; US11669711B2; CN108776834A

Description

（関連出願の相互参照）
本開示は、２０１８年５月７日に中国特許局に提出された、出願番号がＣＮ２０１８１０４２８０９９．３であり、発明の名称が「システム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本開示に組み込まれる。

本開示は、コンピュータビジョン技術に関し、特に、システム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体に関する。

現在、多階層システムは非常に好ましい効果を得ており、例えば、多人数姿勢検出タスクにおいて、多階層システムに基づいて設計したアルゴリズム（物体検出器＋一人姿勢検出器）は多くのデータベース上で最も好ましい結果を取得している。また、多階層構造のアルゴリズムにおいて、異なるモジュールの調整と置換も可能であり、モデルの柔軟性が非常に高い。従って、非常に強い潜在力を有し、広く応用される可能性がある。

本開示の実施例はシステム強化学習技術を提供する。

本開示の実施例の一態様によれば、提供されるシステム強化学習方法は、
システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得ることと、
前記第１結果を前記システムの第２ネットワークに入力し、第２結果を得ることと、
強化ネットワークにより前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、目標結果を得ることと、を含む。

選択可能に、前記の強化ネットワークにより前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、前記調整後の第１結果に基づいて目標結果を得ることは、
前記強化ネットワークにより前記第２ネットワークから出力される前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、第１中間結果を得ることと、
前記第１中間結果を前記第２ネットワークに入力し、前記第１中間結果に基づいて第２結果を得、前記第２結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第２結果を出力して前記目標結果とすることと、を含む。

選択可能に、前記強化操作は少なくとも１つの調整動作を含み、
前記の強化ネットワークにより前記第２ネットワークから出力される第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、第１中間結果を得ることは、
前記第２結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、
前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得ることと、を含む。

選択可能に、前記の強化ネットワークにより前記第２ネットワークから出力される第２結果に基づいて前記第１結果を調整し、第１中間結果を得ることは、
前記第２結果と前記第１結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、
前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得ることと、を含む。

選択可能に、前記の前記第２結果と前記第１結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することは、
前記第２結果と前記第１結果に基づいて連結結果を得ることと、
前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、を含む。

選択可能に、前記第１ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含み、
前記第２ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含む。

選択可能に、サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含む。

選択可能に、前記のサンプル画像に基づいて前記システムをトレーニングすることは、
前記システムの第１ネットワークに基づいて前記サンプル画像を処理し、第１サンプル結果を得ることと、
前記第１サンプル結果を前記システムの第２ネットワークに入力し、第２サンプル結果を得ることと、
強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果に基づいて前記第２ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を含む。

選択可能に、前記の強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることは、
強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、第２中間サンプル結果を得ることと、
前記第２中間サンプル結果に基づいて前記第２ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと、を含む。

選択可能に、前記の前記予測目標結果と前記サンプル目標結果に基づいて前記強化ネットワークのパラメータを調整することは、
前記中間予測結果とサンプル目標結果に基づいて第１損失を決定することと、
少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することと、を含む。

選択可能に、前記の少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することは、
少なくとも１つの前記第１損失を得る順序に従って、順に少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することを含む。

選択可能に、前記の前記中間予測結果とサンプル目標結果に基づいて第１損失を決定することは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第２ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第１損失を決定することと、を含む。

選択可能に、前記の前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第１損失を決定することは、
前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第１損失を得ることを含む。

選択可能に、前記の前記予測目標結果と前記サンプル目標結果に基づいて前記第２ネットワークのパラメータを調整することは、
前記予測目標結果と前記サンプル目標結果に基づいて第２損失を決定し、前記第２損失に基づいて前記第２ネットワークのパラメータを調整することを含む。

本開示の実施例の別の態様によれば、提供されるシステム強化学習装置は、
入力画像を処理して第１結果を得るための第１ネットワークモジュールと、
前記第１結果を処理して第２結果を得るための第２ネットワークモジュールと、
前記第２結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第１結果を調整し、調整後の第１結果に基づいて目標結果を得るための実行器と、を含む。

選択可能に、前記強化ネットワークモジュールは、
前記第２ネットワークモジュールの出力する第２結果に基づいて前記第１結果を調整し、第１中間結果を得るための調整モジュールと、
前記第１中間結果を前記第２ネットワークモジュールに入力し、前記第１中間結果に基づいて第２結果を得、前記第２結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第２結果を出力して前記目標結果とするための結果出力モジュールと、を含む。

選択可能に、前記調整モジュールは、前記第２結果に基づいて強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得ることと、を実行するために用いられる。

選択可能に、前記強化ネットワークモジュールは、前記第２結果と前記第１結果に基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定するために用いられ、
前記実行器は、前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得るために用いられる。

選択可能に、前記強化ネットワークモジュールは、前記第２結果と前記第１結果に基づいて連結結果を得ることと、前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、を実行するために用いられる。

選択可能に、サンプル目標結果が既知であるサンプル画像に基づいて前記の第１ネットワーク、第２ネットワーク及び強化ネットワークを含むシステムをトレーニングするためのトレーニングモジュールを更に含む。

選択可能に、前記トレーニングモジュールは、サンプル画像を前記第１ネットワークモジュール、前記第２ネットワークモジュール、前記強化ネットワークモジュール及び前記実行器に入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果に基づいて前記第２ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を実行するために用いられる。

選択可能に、前記強化モジュールは、前記第２ネットワークモジュールで得られた第２サンプル結果に基づいて強化操作を取得するために用いられ、
前記実行器は、前記強化操作に基づいて前記第１ネットワークモジュールで得られた第１サンプル結果を調整し、第２中間サンプル結果を得るために用いられ、
前記第２ネットワークモジュールは、前記第２中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられる。

選択可能に、前記トレーニングモジュールは、
前記中間予測結果とサンプル目標結果に基づいて第１損失を決定するための第１損失モジュールと、
少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整するための第１パラメータ調整モジュールと、を含む。

選択可能に、前記第１パラメータ調整モジュールは、少なくとも１つの前記第１損失を得る順序に従って、順に少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整するために用いられる。

選択可能に、前記第１損失モジュールは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第２ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第１損失を決定するための損失決定モジュールと、を含む。

選択可能に、前記損失決定モジュールは、前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第１損失を得るために用いられる。

選択可能に、前記第２ネットワーク調整モジュールは、前記予測目標結果と前記サンプル目標結果に基づいて第２損失を決定し、前記第２損失に基づいて前記第２ネットワークのパラメータを調整するために用いられる。

本開示の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のいずれか一項に記載のシステム強化学習方法の操作を完成するためのプロセッサと、を含む、
本開示の実施例の別の態様によれば、提供されるコンピュータ記憶媒体は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に上記のいずれか一項に記載のシステム強化学習方法の操作を実行する。

本開示の実施例の別の態様によれば、提供されるコンピュータプログラム製品は、コンピュータ読取可能コードを含むコンピュータプログラム製品であって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが上記のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行する。

本開示の上記実施例で提供されるシステム強化学習方法及び装置、電子機器並びにコンピュータ記憶媒体によれば、システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得、第１結果をシステムの第２ネットワークに入力し、第２結果を得、第２結果に基づいて強化操作を得、強化操作に基づいて第１結果を調整し、目標結果を得るようになっており、強化ネットワークによって情報を下流階層から上流階層にフィードバックすることを実現し、システムの出力結果を最適化する。

以下、図面及び実施例を通じて本開示の技術的手段をさらに詳しく説明する。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得ることと、
前記第１結果を前記システムの第２ネットワークに入力し、第２結果を得ることと、
強化ネットワークにより前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、調整後の第１結果に基づいて目標結果を得ることと、を含むことを特徴とするシステム強化学習方法。
（項目２）
前記の強化ネットワークにより前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、前記調整後の第１結果に基づいて目標結果を得ることは、
前記強化ネットワークにより前記第２ネットワークから出力される前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、第１中間結果を得ることと、
前記第１中間結果を前記第２ネットワークに入力し、前記第１中間結果に基づいて第２結果を得、前記第２結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第２結果を出力して前記目標結果とすることと、を含むことを特徴とする項目１に記載の方法。
（項目３）
前記強化操作は少なくとも１つの調整動作を含み、
前記の強化ネットワークにより前記第２ネットワークから出力される第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、第１中間結果を得ることは、
前記第２結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、
前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得ることと、を含むことを特徴とする項目２に記載の方法。
（項目４）
前記の強化ネットワークにより前記第２ネットワークから出力される第２結果に基づいて前記第１結果を調整し、第１中間結果を得ることは、
前記第２結果と前記第１結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、
前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得ることと、を含むことを特徴とする項目２に記載の方法。
（項目５）
前記の前記第２結果と前記第１結果に基づいて、強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することは、
前記第２結果と前記第１結果に基づいて連結結果を得ることと、
前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、を含むことを特徴とする項目４に記載の方法。
（項目６）
前記第１ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含み、
前記第２ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含むことを特徴とする項目１〜５のいずれか一項に記載の方法。
（項目７）
サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含むことを特徴とする項目１〜６のいずれか一項に記載の方法。
（項目８）
前記のサンプル画像に基づいて前記システムをトレーニングすることは、
前記システムの第１ネットワークに基づいて前記サンプル画像を処理し、第１サンプル結果を得ることと、
前記第１サンプル結果を前記システムの第２ネットワークに入力し、第２サンプル結果を得ることと、
強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果に基づいて前記第２ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を含むことを特徴とする項目７に記載の方法。
（項目９）
前記の強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることは、
強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、第２中間サンプル結果を得ることと、
前記第２中間サンプル結果に基づいて前記第２ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと、を含むことを特徴とする項目８に記載の方法。
（項目１０）
前記の前記予測目標結果と前記サンプル目標結果に基づいて前記強化ネットワークのパラメータを調整することは、
前記中間予測結果とサンプル目標結果に基づいて第１損失を決定することと、
少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することと、を含むことを特徴とする項目９に記載の方法。
（項目１１）
前記の少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することは、
少なくとも１つの前記第１損失を得る順序に従って、順に少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することを含むことを特徴とする項目１０に記載の方法。
（項目１２）
前記の前記中間予測結果とサンプル目標結果に基づいて第１損失を決定することは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第２ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第１損失を決定することと、を含むことを特徴とする項目１０又は１１に記載の方法。
（項目１３）
前記の前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第１損失を決定することは、
前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第１損失を得ることを含むことを特徴とする項目１２に記載の方法。
（項目１４）
前記の前記予測目標結果と前記サンプル目標結果に基づいて前記第２ネットワークのパラメータを調整することは、
前記予測目標結果と前記サンプル目標結果に基づいて第２損失を決定し、前記第２損失に基づいて前記第２ネットワークのパラメータを調整することを含むことを特徴とする項目８〜１３のいずれか一項に記載の方法。
（項目１５）
入力画像を処理して第１結果を得るための第１ネットワークモジュールと、
前記第１結果を処理して第２結果を得るための第２ネットワークモジュールと、
前記第２結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第１結果を調整し、調整後の第１結果に基づいて目標結果を得るための実行器と、を含むことを特徴とするシステム強化学習装置。
（項目１６）
前記強化ネットワークモジュールは、
前記第２ネットワークモジュールの出力する第２結果に基づいて前記第１結果を調整し、第１中間結果を得るための調整モジュールと、
前記第１中間結果を前記第２ネットワークモジュールに入力し、前記第１中間結果に基づいて第２結果を得、前記第２結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第２結果を出力して前記目標結果とするための結果出力モジュールと、を含むことを特徴とする項目１５に記載の装置。
（項目１７）
前記調整モジュールは、前記第２結果に基づいて強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得ることと、を実行するために用いられることを特徴とする項目１６に記載の装置。
（項目１８）
前記強化ネットワークモジュールは、前記第２結果と前記第１結果に基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定するために用いられ、
前記実行器は、前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、第１中間結果を得るために用いられることを特徴とする項目１６に記載の装置。
（項目１９）
前記強化ネットワークモジュールは、前記第２結果と前記第１結果に基づいて連結結果を得ることと、前記連結結果に基づいて強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、を実行するために用いられることを特徴とする項目１８に記載の装置。
（項目２０）
サンプル目標結果が既知であるサンプル画像に基づいて前記の第１ネットワーク、第２ネットワーク及び強化ネットワークを含む前記システムをトレーニングするためのトレーニングモジュールを更に含むことを特徴とする項目１５〜１９のいずれか一項に記載の装置。
（項目２１）
前記第１ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含み、
前記第２ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含むことを特徴とする項目２０に記載の装置。
（項目２２）
前記トレーニングモジュールは、サンプル画像を前記第１ネットワークモジュール、前記第２ネットワークモジュール、前記強化ネットワークモジュール及び前記実行器に入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果に基づいて前記第２ネットワークと前記強化ネットワークのパラメータをそれぞれ調整することと、を実行するために用いられることを特徴とする項目２０又は２１に記載の装置。
（項目２３）
前記強化モジュールは、前記第２ネットワークモジュールで得られた第２サンプル結果に基づいて強化操作を取得するために用いられ、
前記実行器は、前記強化操作に基づいて前記第１ネットワークモジュールで得られた第１サンプル結果を調整し、第２中間サンプル結果を得るために用いられ、
前記第２ネットワークモジュールは、前記第２中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられることを特徴とする項目２２に記載の装置。
（項目２４）
前記トレーニングモジュールは、
前記中間予測結果とサンプル目標結果に基づいて第１損失を決定するための第１損失モジュールと、
少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整するための第１パラメータ調整モジュールと、を含むことを特徴とする項目２３に記載の装置。
（項目２５）
前記第１パラメータ調整モジュールは、少なくとも１つの前記第１損失を得る順序に従って、順に少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整するために用いられることを特徴とする項目２４に記載の装置。
（項目２６）
前記第１損失モジュールは、
前記中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第２ネットワークにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
前記現在中間報酬、前記現在予測報酬及び前記次の予測報酬に基づいて前記第１損失を決定するための損失決定モジュールと、を含むことを特徴とする項目２４又は２５に記載の装置。
（項目２７）
前記損失決定モジュールは、前記現在中間報酬に前記次の予測報酬を加算し前記現在予測報酬を減算して、前記第１損失を得るために用いられることを特徴とする項目２６に記載の装置。
（項目２８）
前記第２ネットワーク調整モジュールは、前記予測目標結果と前記サンプル目標結果に基づいて第２損失を決定し、前記第２損失に基づいて前記第２ネットワークのパラメータを調整するために用いられることを特徴とする項目２２〜２７のいずれか一項に記載の装置。
（項目２９）
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目１〜１４のいずれか一項に記載のシステム強化学習方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。
（項目３０）
コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に項目１〜１４のいずれか一項に記載のシステム強化学習方法の操作を実行することを特徴とするコンピュータ記憶媒体。
（項目３１）
コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが項目１〜１４のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行することを特徴とするコンピュータプログラム。

本開示の実施例で提供されるシステム強化学習方法の流れを示す模式図である。本開示の実施例で提供されるシステム強化学習方法の流れを示す別の模式図である。本開示の実施例で提供されるシステム強化学習方法のトレーニングの例を示す図である。本開示の実施例で提供されるシステム強化学習装置の構造模式図である。本開示の実施例の端末装置又はサーバを実現するのに適する電子機器の構造模式図である。

明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。

ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本開示の実施例はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム■大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

多階層システムは異なる階層の連結上で常に微分不可能であり、このようにシステム全体の協同最適化が不可能であり、最適な効果を図ることができない。ここで、微分不可能とは勾配を求めることができないことを指す。例えば、包囲枠に関連するシステムにおいて、包囲枠内の写真の裁断操作を行う時にこの操作の包囲枠座標に対する勾配が計算できない。

図１は本開示の実施例で提供されるシステム強化学習方法の流れを示す模式図である。図１に示すように、この実施例の方法は、以下のステップを含む。

ステップ１１０において、システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得る。

選択可能に、システムの第１ネットワークは１つの具体的な機能を実現するニューラルネットワーク、又はニューラルネットワークの一部のネットワーク層であってもよく、複数のニューラルネットワークを含んでもよく、選択可能に、システム中の第１ネットワークと第２ネットワークとが関連関係を有し、例えば、第１ネットワークが顔検出ネットワークであり、第２ネットワークが顔認識ネットワークであり、この時に、第２ネットワークは第１ネットワークの出力する検出結果を入力とし、第１ネットワークの出力に基づいて認識結果を取得するようになり、一般的には、第１ネットワークと第２ネットワークの相関には順方向伝播の検出結果しかなく、異なる階層の間の出力が強い相関性を有し、誤った検出結果（第１ネットワークの出力）は誤った認識結果（第２ネットワークの出力）を招く。

例えば、第１ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含んでもよいが、それらに限定されなく、
第２ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含んでもよいが、それらに限定されない。

選択可能な一例では、このステップＳ１１０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第１ネットワークモジュール４１によって実行されてもよい。

ステップ１２０において、第１結果をシステムの第２ネットワークに入力し、第２結果を得る。

選択可能な一例では、このステップＳ１２０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する第２ネットワークモジュール４２によって実行されてもよい。

ステップ１３０において、強化ネットワークにより第２結果に基づいて強化操作を取得し、強化操作に基づいて第１結果を調整し、調整後の第１結果に基づいて目標結果を得る。

より好ましい第２結果を取得するために、選択可能に、第２ネットワークから出力される第２結果を入力とし、出力される強化操作により第１結果を調整して下流階層から上流階層への情報フィードバックを実現し、情報フィードバックにより目標結果を取得する強化ネットワークをシステムに追加する。

選択可能な一例では、このステップＳ１３０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサにより作動する強化ネットワークモジュール４３によって実行されてもよい。

本開示の上記実施例で提供されるシステム強化学習方法によれば、システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得、第１結果をシステムの第２ネットワークに入力し、第２結果を得、強化ネットワークにより第２結果に基づいて強化操作を取得し、強化操作に基づいて第１結果を調整し、目標結果を得るようになっており、強化ネットワークによって情報を下流階層から上流階層にフィードバックすることを実現し、システムの出力結果を最適化する。

１つ又は複数の選択可能な実施例では、操作１３０は、
強化ネットワークにより第２ネットワークから出力される第２結果に基づいて強化操作を取得し、強化操作に基づいて第１結果を調整し、第１中間結果を得ることと、
第１中間結果を第２ネットワークに入力し、第１中間結果に基づいて第２結果を得、第２結果を強化ネットワークに入力することと、
上記プロセスを重複実行し、所定条件に達したことに応答して、第２結果を出力して目標結果とすることと、を含んでもよい。

選択可能に、所定条件は、重複調整回数が所定の回数に達したこと、又は所望の第２結果の効果を達成したこと等を含んでもよいが、本開示の実施例では所定条件の具体的な形式が限定されない。

選択可能に、強化ネットワークは第２結果に基づいて第１結果に対する調整動作を取得するが、１つ又は少ない調整動作により調整した後得られた第１中間結果は好ましい目標結果を得ることができない可能性があるので、所定条件に達するまで、毎回、前回調整した後の第１中間結果により得られた第２結果を強化ネットワークの入力として新しい調整動作を得るように重複実行する。

選択可能に、強化操作は少なくとも１つの調整動作を含んでもよく、
強化ネットワークにより第２ネットワークから出力される第２結果に基づいて強化操作を取得し、強化操作に基づいて第１結果を調整し、第１中間結果を得ることは、
第２結果に基づいて強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも１つの調整動作を決定することと、
少なくとも１つの調整動作に基づいて第１結果を調整し、第１中間結果を得ることと、を含む。

選択可能に、強化ネットワークは、第２結果に基づいて複数の調整動作から１つ又は複数の確率が大きい（例えば、確率が最も大きい）調整動作を決定し、第１結果を調整する分類ニューラルネットワークであってもよい。選択可能に、一例において、システムに入力されるのがＲＧＢ画像であって、出力される目標結果が画像認識結果（例えば、意味分割又は人体姿勢検出）であって、システム処理プロセスは、以下を含んでもよい。

ａ．第１ネットワークを用いて入力されるＲＧＢ画像を処理し、第１結果Ωを得、ここで、Ωは抽象パラメータであって、異なる認識タスクにおいて異なってもよい。理解しやすくするために、以下のこの例に対する検討において多階層多人数姿勢予測システムが例とされ、第１階層のネットワーク（第１ネットワークに対応する）が物体検出ネットワークであり、出力されるΩが物体の包囲枠座標である。

ｂ．第１結果Ωを第２ネットワークの入力とし、又は第１結果Ωにより第２ネットワークの入力を算出し、第２ネットワークにより第２結果を出力し、一般的には、第２ネットワークの入力が第１ネットワークの出力と関連する。Ωが包囲枠の座標であれば、第２ネットワークの入力が、最初の写真の包囲枠内の部分である。第２ネットワークの出力が物体認識結果、例えば、人体の各キーポイントが写真で分布した熱力学的チャートとなる。

ｃ．強化ネットワーク（例えば、強化ネットワークとして１つの分類ネットワーク、１つの１８層の残差ネットワーク（ＲｅｓＮｅｔ−１８）が採用される）は、第２ネットワークの出力により、１つの動作を選択して第１結果Ωを調整し、ステップｂに戻って、所定条件に達するまでステップｃとステップｂを重複実行し、この例では重複回数を所定条件としてもよく、即ち所定の重複回数に達したことを条件とし、その所定の重複回数は必要に応じて設定する（例えば、所定の重複回数を２０回とする）。強化ネットワークは第２ネットワークの出力を入力とし、複数の動作に対する確率分布を生成し、確率が大きい少なくとも１つの動作を選択して決定結果とし、ここで、第１ネットワークが包囲枠を出力することを例として、複数の動作は、例えば、包囲枠の高さ及び／又は幅を拡大又は縮小したり、上、下、左、右に平行移動する、包囲枠を調整可能な一連の動作、及び調整しない動作等の複数の動作を含んでもよい。

選択可能に、実行器を用いて、選択された動作により第１結果Ωを調整するが、実行器は一般的な言い方であり、強化ネットワークにより決定されたのが１つの動作の番号（分類ネットワークの分類結果）に過ぎないので、この番号を動作に変換する機能（例えば、包囲枠を調整する具体的な動作）が必要とされる。関数によって直接実現可能であり、一般的には、この実現する関数は実行器と呼ばれる。

第２ネットワークの出力する結果の偏差が大き過ぎることを防止するために、第１ネットワークの出力する第１結果を強化ネットワークの参照入力とする必要があり、選択可能に、強化ネットワークにより第２ネットワークから出力される第２結果に基づいて第１結果を調整し、第１中間結果を得ることは、以下を含む。

第２結果と第１結果に基づいて、強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも１つの調整動作を決定し、
選択可能に、第２結果と第１結果に基づいて連結結果を得、連結結果に基づいて強化ネットワークにより調整動作確率を得るようにしてもよく、又は、第１結果と第２結果とが全て画像である時に、画像チャネルに基づいて第１結果と第２結果を結合し、結合後の第１結果と第２結果に基づいて調整動作確率を取得するようにしてもよく、本開示の実施例では第１結果と第２結果の間の具体的な関連付け方法が限定されなく、調整動作確率を取得する時に第１結果を参照すればよい。

少なくとも１つの調整動作に基づいて第１結果を調整し、第１中間結果を得る。

１つ又は複数の選択可能な実施例では、サンプル目標結果が既知であるサンプル画像に基づいてシステムをトレーニングすることを更に含む。

より好ましい強化学習効果を実現するために、第１結果を調整する調整動作が精確なものであることが要求されるため、強化学習の前に、更にサンプル目標結果が知られたサンプル画像に基づいてシステム中の少なくとも１つのネットワークをトレーニングしてもよく、選択可能に、第２ネットワークと強化ネットワークのみをトレーニングし、強化ネットワークはトレーニングされた後より精確な調整動作を得ることができ、第２ネットワークはトレーニングされた後より好ましい目標結果を取得することができる。

選択可能に、サンプル画像に基づいてシステムをトレーニングすることは、
システムの第１ネットワークに基づいてサンプル画像を処理し、第１サンプル結果を得ることと、
第１サンプル結果をシステムの第２ネットワークに入力して第２サンプル結果を得ることと、
強化ネットワークにより第２サンプル結果に基づいて強化操作を取得し、強化操作に基づいて第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることと、
予測目標結果とサンプル目標結果に基づいて第２ネットワークと強化ネットワークのパラメータをそれぞれ調整することと、を含む。

選択可能な一例として、図２は本開示の実施例で提供されるシステム強化学習方法の流れを示す別の模式図である。図２に示すように、第２ネットワークと強化ネットワークは相互の結果を互いに入力とするので、トレーニングプロセスで第２ネットワークと強化ネットワークを共にトレーニングする必要があり、トレーニングプロセスで、システムに含まれるネットワークについては予測プロセスと同様にサンプル画像を処理し、予測目標結果を得、予測目標結果とサンプル目標結果に基づいて第２ネットワークと強化ネットワークのパラメータを調整する必要がある。選択可能に、強化ネットワークにより第２サンプル結果に基づいて強化操作を取得し、強化操作に基づいて第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることは、強化ネットワークにより第２サンプル結果に基づいて強化操作を取得し、強化操作に基づいて第１サンプル結果を調整し、第２中間サンプル結果を得ることと、
第２中間サンプル結果に基づいて第２ネットワークによって中間予測結果を取得し、中間予測結果を強化ネットワークに入力することと、
上記プロセスを重複実行し、所定条件に達したことに応答して、中間予測結果を出力して予測目標結果とすることと、を含む。

選択可能に、所定条件は、重複回数が所定の回数に達したこと、又は所望の第２結果の効果を達成したこと等を含んでもよいが、本開示の実施例では所定条件の具体的な形式が限定されない。

本開示の実施例では、強化ネットワークと第２ネットワークに対して平等処理を行い、それぞれ最後に出力する予測目標結果とサンプル目標結果により強化ネットワークと第２ネットワークのパラメータを調整する。しかしながら、強化学習（強化ネットワーク）に要するデータ量が教師あり学習より大幅に大きく、また、強化学習の勾配分散も教師あり学習（第２ネットワーク）の勾配分散より大幅に大きいため、直接強化ネットワークと第２ネットワークを共にトレーニングすれば、教師あり学習のネットワークが大きく影響されて正確率が低くなる。この問題を解決するために、本開示の実施例は強化学習と教師あり学習の異なったトレーニング要求を平衡化する方法を提案する。

選択可能に、予測目標結果とサンプル目標結果に基づいて強化ネットワークのパラメータを調整することは、
中間予測結果とサンプル目標結果に基づいて第１損失を決定することと、
少なくとも１つの第１損失に基づいて強化ネットワークのパラメータを調整することと、を含む。

選択可能に、トレーニングプロセスで入力については、強化ネットワークは第１結果を常に調整し、複数回の調整が複数の動作に対応し、重複が完成した後、動作シーケンス（複数の動作を含む）が得られる。第１サンプル結果が一回調整された時に、第２ネットワークは新しい対応的な予測中間サンプル結果（例えば、熱力学的チャート）を生成する。強化ネットワークについては、本実施例は動作シーケンス全体の予測中間サンプル結果によってトレーニングするが、第２ネットワークについては、教師あり学習があり、最終的な予測目標結果のみを選択してトレーニングしてもよい。異なったトレーニング動作によって、教師あり学習と強化学習の異なったトレーニング要求の平衡化を実現することができる。

選択可能に、少なくとも１つの第１損失に基づいて強化ネットワークのパラメータを調整することは、
少なくとも１つの第１損失を得る順序に従って、順に少なくとも１つの第１損失に基づいて強化ネットワークのパラメータを調整することを含む。

得られた中間予測結果とサンプル目標結果に基づいて損失を決定して少なくとも１つの損失を得ることができ、得られた少なくとも１つの損失に基づいて強化ネットワークのパラメータを調整する。

選択可能に、中間予測結果とサンプル目標結果に基づいて第１損失を決定することは、以下を含む。

中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定し、
中間予測結果に基づいて強化ネットワークと一部のネットワーク構造を共用するスコアリングネットワークにより現在予測報酬を決定し、
選択可能に、スコアリングネットワークと強化ネットワークは最後の一層のみが異なり、強化ネットワークの最後の一層が全結合層であって１次元特徴ベクトルが得られ、この１次元特徴ベクトルに基づいて動作選択確率を決定し、スコアリングネットワークの最後の一層が全結合層であって特徴値が得られ、この特徴値がスコアとなる。

中間予測結果に基づいて強化ネットワークと第２ネットワークにより次の中間予測結果を決定し、次の中間予測結果に基づいてスコアリングネットワークにより次の予測報酬を決定し、
現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第１損失を決定する。

中間予測結果に基づいて少なくとも１つの第１損失を得、例えば、それぞれの中間予測結果は１つの第１損失に対応する。

本実施例では、図３は本開示の実施例で提供されるシステム強化学習方法のトレーニングの例を示す図である。図３に示すように、１つのスコアリングネットワークが追加され、強化ネットワークとスコアリングネットワークで構成された強化学習プロキシモデルにおいて、実行者−評価者（強化ネットワークとスコアリングネットワークの組合、ＡｃｔｏｒＣｒｉｔｉｃ）のアルゴリズムが採用され、タイミングが異なった学習方法（例えば、ＴＤ−Ｌｅａｒｎｉｎｇ）が採用されており、ここで、ＡｃｔｏｒＣｒｉｔｉｃ方法は、方策勾配（ＰｏｌｉｃｙＧｒａｄｉｅｎｔ、実行者）と関数近似（ＦｕｎｃｔｉｏｎＡｐｐｒｏｘｉｍａｔｉｏｎ、評価者）の方法を組み合わせており、Ａｃｔｏｒは強化ネットワークにより確率に基づいて動作を決定することを実現し、ＣｒｉｔｉｃはＡｃｔｏｒの行動に基づいて確率に基づく動作決定のスコアを評価し、ＡｃｔｏｒはＣｒｉｔｉｃの評価により動作決定確率を修正し、ＡｃｔｏｒＣｒｉｔｉｃ方法の長所は、単一工程の更新が可能であって従来の方法（サイクルが終了した後更新する）より速いことである。ＴＤ−ｌｅａｒｎｉｎｇといったアルゴリズムも既知のアルゴリズムである。強化学習の逆方向伝播（ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎ）アルゴリズムは大体、一回にまとめてシーケンスを全て実行してからシーケンス全体の報酬（ｒｅｗａｒｄ）を算出し、次にステップごとに戻って最適化して逆方向伝播（ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎ）アルゴリズムを実行する構想、毎回、一回の動作のみを実行した直後に一回最適化する構想といった２種の構想がある。これはＴＤ−ｌｅａｒｎｉｎｇアルゴリズムの構想である。ＴＤ−ｌｅａｒｎｉｎｇアルゴリズムの長所は、ネットワーク収束がより速く、性能に大きい影響を与えずにトレーニング時間を短縮することができる。

選択可能に、現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第１損失を決定することは、
現在中間報酬に次の予測報酬を加算し現在予測報酬を減算して、第１損失を得ることを含む。

現在予測報酬に次の予測報酬を加算することによって、損失関数の分散を小さくしてトレーニングをより安定的にすることができる。

選択可能に、予測目標結果とサンプル目標結果に基づいて第２ネットワークのパラメータを調整することは、
予測目標結果とサンプル目標結果に基づいて第２損失を決定し、第２損失に基づいて第２ネットワークのパラメータを調整することを含む。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。

図４は本開示の実施例で提供されるシステム強化学習装置の構造模式図である。この実施例の装置は本開示の上記各方法の実施例を実現することに利用可能である。図４に示すように、この実施例の装置は、
入力画像を処理して第１結果を得るための第１ネットワークモジュール４１と、
第１結果を処理して第２結果を得るための第２ネットワークモジュール４２と、
第２結果に基づいて強化動作を得るための強化ネットワークモジュール４３と、
強化操作に基づいて第１結果を調整し、調整後の第１結果に基づいて目標結果を得るための実行器４４と、含む。

本開示の上記実施例で提供されるシステム強化学習装置によれば、システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得、第１結果をシステムの第２ネットワークに入力し、第２結果を得、強化ネットワークにより第２結果に基づいて強化操作を取得し、強化操作に基づいて第１結果を調整し、目標結果を得るようになっており、強化ネットワークによって情報を下流階層から上流階層にフィードバックすることを実現し、システムの出力結果を最適化する。

１つ又は複数の選択可能な実施例では、強化ネットワークモジュール４３は、
第２ネットワークモジュールの出力する第２結果に基づいて第１結果を調整し、第１中間結果を得るための調整モジュールと、
第１中間結果を第２ネットワークモジュールに入力し、第１中間結果に基づいて第２結果を得、第２結果を調整モジュールに入力することと、所定条件に達したことに応答して、第２結果を出力して目標結果とすることと、を実行するために用いられる結果出力モジュールと、を含む。

選択可能に、所定条件は、調整回数が所定の回数に達したこと、又は所望の第２結果の効果を達成したこと等を含んでもよいが、本開示の実施例では所定条件の具体的な形式が限定されない。

選択可能に、調整モジュールは、第２結果に基づいて強化ネットワークモジュールにより調整動作確率を得、調整動作確率に基づいて少なくとも１つの調整動作を決定することと、少なくとも１つの調整動作に基づいて第１結果を調整し、第１中間結果を得ることと、を実行するために用いられる。

選択可能に、強化ネットワークモジュールは、第２結果と第１結果に基づいて調整動作確率を得、調整動作確率に基づいて少なくとも１つの調整動作を決定するために用いられ、
上記実行器は、少なくとも１つの調整動作に基づいて第１結果を調整し、第１中間結果を得るために用いられる。

選択可能に、強化ネットワークモジュールは、第２結果と第１結果に基づいて連結結果を得ることと、
連結結果に基づいて強化ネットワークにより調整動作確率を得、調整動作確率に基づいて少なくとも１つの調整動作を決定することと、を実行するために用いられる。

１つ又は複数の選択可能な実施例では、サンプル画像に基づいて第１ネットワーク、第２ネットワーク及び強化ネットワークを含むシステムをトレーニングするためのトレーニングモジュールを更に含む。

ここで、サンプル画像はサンプル目標結果が知られた。

選択可能に、第１ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含み、
第２ネットワークは、検出ニューラルネットワーク、認識ニューラルネットワーク、分類ニューラルネットワークの１つ又は複数を含む。

選択可能に、トレーニングモジュールは、サンプル画像を第１ネットワークモジュール、第２ネットワークモジュール、強化ネットワークモジュール及び実行器に入力し、予測目標結果を得ることと、予測目標結果とサンプル目標結果に基づいて第２ネットワークと強化ネットワークのパラメータをそれぞれ調整することと、を実行するために用いられる。

選択可能に、強化モジュールは、第２ネットワークモジュールで得られた第２サンプル結果に基づいて強化操作を取得するために用いられ、
実行器は、強化操作に基づいて第１ネットワークモジュールで得られた第１サンプル結果を調整し、第２中間サンプル結果を得るために用いられ、
第２ネットワークモジュールは、第２中間サンプル結果に基づいて中間予測結果を得、中間予測結果を強化モジュールに入力し、所定条件に達したことに応答して中間予測結果を出力して予測目標結果とするために用いられる。

選択可能に、トレーニングモジュールは、
中間予測結果とサンプル目標結果に基づいて第１損失を決定するための第１損失モジュールと、
少なくとも１つの第１損失に基づいて強化ネットワークのパラメータを調整するための第１パラメータ調整モジューと、を含む。

選択可能に、第１パラメータ調整モジュールは、少なくとも１つの第１損失を得る順序に従って、順に少なくとも１つの第１損失に基づいて強化ネットワークのパラメータを調整するために用いられる。

選択可能に、第１損失モジュールは、
中間予測結果とサンプル目標結果に基づいて現在中間報酬を決定することと、中間予測結果に基づいて強化ネットワークと一部のネットワーク構造を共用するスコアリングネットワークにより現在予測報酬を決定することと、中間予測結果に基づいて強化ネットワークと第２ネットワークにより次の中間予測結果を決定することと、次の中間予測結果に基づいてスコアリングネットワークにより次の予測報酬を決定することと、を実行するために用いられる報酬決定モジュールと、
現在中間報酬、現在予測報酬及び次の予測報酬に基づいて第１損失を決定するための損失決定モジュールと、を含む。

選択可能に、損失決定モジュールは、現在中間報酬に次の予測報酬を加算し現在予測報酬を減算して、第１損失を得るために用いられる。

選択可能に、第２ネットワーク調整モジュールは、予測目標結果とサンプル目標結果に基づいて第２損失を決定し、第２損失に基づいて第２ネットワークのパラメータを調整するために用いられる。

本開示の実施例の別の態様によれば、提供される電子機器は、実行可能コマンドを記憶するためのメモリと、
メモリと通信して実行可能コマンドを実行して本開示の上記のいずれか１つの実施例に記載のシステム強化学習方法を完成するためのプロセッサと、を含む。

本開示の実施例の別の態様によれば、提供されるコンピュータ記憶媒体は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、コマンドがプロセッサにより実行される時に、このプロセッサが本開示の上記のいずれか１つの実施例で提供されるシステム強化学習方法を実行する。

本開示の実施例の別の態様によれば、提供されるコンピュータプログラム製品は、コンピュータ読取可能コードを含むコンピュータプログラム製品であって、コンピュータ読取可能コードが機器上で作動する時に、機器中のプロセッサが本開示の上記のいずれか１つの実施例で提供されるシステム強化学習方法の操作を実行する。

本開示の実施例のまた１つの態様によれば、提供される別のコンピュータプログラム製品は、コンピュータ読取可能コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータに上記のいずれか１つの可能な実現形態で提供されるシステム強化学習方法の操作を実行させる。

１つ又は複数の選択可能な実施形態では、本開示の実施例は、コンピュータ読取可能コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータに上記のいずれか１つの実施例に記載のシステム強化学習方法の操作を実行させるコンピュータプログラム製品を更に提供する。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品として実現される。

本開示の実施例によれば、システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得ることと、第１結果をシステムの第２ネットワークに入力し、第２結果を得ることと、強化ネットワークにより第２結果に基づいて第１結果を調整し、目標結果を得ることと、を含む別のシステム強化学習方法及びそれに対応する装置と電子機器、コンピュータ記憶媒体並びにコンピュータプログラム製品を更に提供する。

いくつかの実施例では、この目標追跡指示は具体的には呼び出しコマンドであってもよく、第１装置は呼び出すことで第２装置に目標追跡を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第２装置は上記目標追跡方法中の任意の実施例中のステップ及び／又は流れを実行することができる。

本開示の実施例における「第１」、「第２」などの用語は区別するためのものに過ぎず、本開示の実施例に対する限定と理解してはならないことを理解すべきである。

更に、本開示では、「複数の」は２つ又は２つ以上を指してよく、「少なくとも１つの」は１つ、２つ又は２つ以上を指してよいことを理解すべきである。

更に、本開示で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には１つ又は複数と理解してよいことを理解すべきである。

更に、本開示ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。

本開示の実施例は、例えば、携帯端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本開示の実施例の端末装置又はサーバを実現するのに適する電子機器３００の構造模式図を示す図５を参照し、図５に示すように、電子機器５００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）５０１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）５１３などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）５０２に記憶された実行可能コマンド又は記憶部５０８からランダムアクセスメモリ（ＲＡＭ）５０３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部５１２はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されない。

プロセッサは読み取り専用メモリ５０２及び／又はランダムアクセスメモリ５０３と通信して実行可能コマンドを実行し、通信バス５０４を介して通信部５１２に接続され、通信部５１２を介して他のターゲットデバイスと通信してよく、それにより本開示の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得、第１結果をシステムの第２ネットワークに入力し、第２結果を得、強化ネットワークにより第２結果に基づいて強化操作を取得し、強化操作に基づいて第１結果を調整し、目標結果を得る。

また、ＲＡＭ５０３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ５０１、ＲＯＭ５０２及びＲＡＭ５０３は、通信バス５０４を介して相互に接続される。ＲＡＭ５０３を有する場合に、ＲＯＭ５０２は選択可能なモジュールである。ＲＡＭ５０３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ５０２に書き込み、実行可能コマンドによって中央処理ユニット５０１に上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インタフェース５０５も通信バス５０４に接続される。通信部５１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウスなどを含む入力部５０６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部５０７と、ハードディスクなどを含む記憶部５０８と、ＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部５０９とがＩ／Ｏインタフェース５０５に接続されている。通信部５０９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ５１０も必要に応じてＩ／Ｏインタフェース５０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体５１１は、必要に応じてドライブ５１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部５０８にインストールする。

なお、図５に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図５の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵ５１３とＣＰＵ５０１は分離設置するかまたはＧＰＵ５１３をＣＰＵ５０１に統合するようにしてよく、通信部は分離設置するか、またはＣＰＵ５０１やＧＰＵ５１３に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。

特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得、第１結果をシステムの第２ネットワークに入力し、第２結果を得、強化ネットワークにより第２結果に基づいて強化操作を取得し、強化操作に基づいて第１結果を調整し、目標結果を得る。このような実施例では、該コンピュータプログラムは通信部５０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体５１１からインストールされ得る。中央処理ユニット（ＣＰＵ）５０１によって該コンピュータプログラムを実行する時に、本開示の方法で限定された上記機能の操作を実行する。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。

本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。

本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本開示の原理及び実際応用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

電子機器によって実行されるシステム強化学習方法であって、
システムの第１ネットワークに基づいて入力される画像を処理し、第１結果を得ることと、
前記第１結果を前記システムの第２ネットワークに入力し、第２結果を得ることと、
強化ネットワークにより前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、調整後の第１結果に基づいて目標結果を得ることと
を含むことを特徴とするシステム強化学習方法。
強化ネットワークにより前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、調整後の第１結果に基づいて目標結果を得ることは、
前記強化ネットワークにより前記第２ネットワークから出力される前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、第１中間結果を得ることと、
前記第１中間結果を前記第２ネットワークに入力し、前記第１中間結果に基づいて第２結果を得、前記第２結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記第２結果を出力して前記目標結果とすることと
を含むことを特徴とする請求項１に記載の方法。
前記強化操作は少なくとも１つの調整動作を含み、
前記強化ネットワークにより前記第２ネットワークから出力される前記第２結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１結果を調整し、第１中間結果を得ることは、
前記第２結果に基づいて前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、
前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、前記第１中間結果を得ることと
を含むことを特徴とする請求項２に記載の方法。
前記強化ネットワークにより前記第２ネットワークから出力される前記第２結果に基づいて前記第１結果を調整し、第１中間結果を得ることは、
前記第２結果と前記第１結果とに基づいて、前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、
前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、前記第１中間結果を得ることと
を含むことを特徴とする請求項２に記載の方法。
前記第２結果と前記第１結果とに基づいて、前記強化ネットワークにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することは、
前記第２結果と前記第１結果とに基づいて連結結果を得ることと、
前記連結結果に基づいて前記強化ネットワークにより前記調整動作確率を得、前記調整動作確率に基づいて前記少なくとも１つの調整動作を決定することと
を含むことを特徴とする請求項４に記載の方法。
サンプル目標結果が既知であるサンプル画像に基づいて前記システムをトレーニングすることを更に含み、
サンプル画像に基づいて前記システムをトレーニングすることは、
前記システムの第１ネットワークに基づいて前記サンプル画像を処理し、第１サンプル結果を得ることと、
前記第１サンプル結果を前記システムの第２ネットワークに入力し、第２サンプル結果を得ることと、
前記強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることと、
前記予測目標結果と前記サンプル目標結果とに基づいて前記第２ネットワークおよび前記強化ネットワークのパラメータをそれぞれ調整することと
を含むことを特徴とする請求項１〜５のいずれか一項に記載の方法。
前記強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、調整後の第１サンプル結果に基づいて予測目標結果を得ることは、
前記強化ネットワークにより前記第２サンプル結果に基づいて強化操作を取得し、前記強化操作に基づいて前記第１サンプル結果を調整し、第２中間サンプル結果を得ることと、
前記第２中間サンプル結果に基づいて前記第２ネットワークによって中間予測結果を得、前記中間予測結果を前記強化ネットワークに入力することと、
所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とすることと
を含み、
前記予測目標結果と前記サンプル目標結果とに基づいて前記強化ネットワークのパラメータを調整することは、
前記中間予測結果とサンプル目標結果とに基づいて第１損失を決定することと、
少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することと
を含むことを特徴とする請求項６に記載の方法。
少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することは、
少なくとも１つの前記第１損失を得る順序に従って、順に少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整することを含むことを特徴とする請求項７に記載の方法。
前記中間予測結果とサンプル目標結果とに基づいて第１損失を決定することは、
前記中間予測結果とサンプル目標結果とに基づいて現在中間報酬を決定することと、
前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、
前記中間予測結果に基づいて、前記強化ネットワークと前記第２ネットワークとにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することと、
前記現在中間報酬と前記現在予測報酬と前記次の予測報酬とに基づいて前記第１損失を決定することと
を含むことを特徴とする請求項７または請求項８に記載の方法。
入力画像を処理して第１結果を得るための第１ネットワークモジュールと、
前記第１結果を処理して第２結果を得るための第２ネットワークモジュールと、
前記第２結果に基づいて強化操作を取得するための強化ネットワークモジュールと、
前記強化操作に基づいて前記第１結果を調整し、調整後の第１結果に基づいて目標結果を得るための実行器と
を含むことを特徴とするシステム強化学習装置。
前記強化ネットワークモジュールは、
前記第２ネットワークモジュールの出力する第２結果に基づいて前記第１結果を調整し、第１中間結果を得るための調整モジュールと、
前記第１中間結果を前記第２ネットワークモジュールに入力し、前記第１中間結果に基づいて第２結果を得、前記第２結果を前記調整モジュールに入力し、所定条件に達したことに応答して、前記第２結果を出力して前記目標結果とするための結果出力モジュールと
を含むことを特徴とする請求項１０に記載の装置。
前記調整モジュールは、前記第２結果に基づいて前記強化ネットワークモジュールにより調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定することと、前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、前記第１中間結果を得ることとを実行するために用いられることを特徴とする請求項１１に記載の装置。
前記強化ネットワークモジュールは、前記第２結果と前記第１結果とに基づいて調整動作確率を得、前記調整動作確率に基づいて少なくとも１つの調整動作を決定するために用いられ、
前記実行器は、前記少なくとも１つの調整動作に基づいて前記第１結果を調整し、前記第１中間結果を得るために用いられることを特徴とする請求項１１に記載の装置。
前記強化ネットワークモジュールは、前記第２結果と前記第１結果とに基づいて連結結果を得ることと、前記連結結果に基づいて前記強化ネットワークにより前記調整動作確率を得、前記調整動作確率に基づいて前記少なくとも１つの調整動作を決定することとを実行するために用いられることを特徴とする請求項１３に記載の装置。
サンプル目標結果が既知であるサンプル画像に基づいて、第１ネットワークと第２ネットワークと強化ネットワークとを含むシステムをトレーニングするためのトレーニングモジュールを更に含み、
前記トレーニングモジュールは、サンプル画像を前記第１ネットワークモジュールと前記第２ネットワークモジュールと前記強化ネットワークモジュールと前記実行器とに入力し、予測目標結果を得ることと、前記予測目標結果と前記サンプル目標結果とに基づいて前記第２ネットワークおよび前記強化ネットワークのパラメータをそれぞれ調整することとを実行するためにさらに用いられることを特徴とする請求項１０〜１４のいずれか一項に記載の装置。
前記強化ネットワークモジュールは、前記第２ネットワークモジュールで得られた第２サンプル結果に基づいて強化操作を取得するために用いられ、
前記実行器は、前記強化操作に基づいて前記第１ネットワークモジュールで得られた第１サンプル結果を調整し、第２中間サンプル結果を得るために用いられ、
前記第２ネットワークモジュールは、前記第２中間サンプル結果に基づいて中間予測結果を得、前記中間予測結果を前記強化ネットワークモジュールに入力し、所定条件に達したことに応答して、前記中間予測結果を出力して前記予測目標結果とするために用いられ、
前記トレーニングモジュールは、
前記中間予測結果とサンプル目標結果とに基づいて第１損失を決定するための第１損失モジュールと、
少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整するための第１パラメータ調整モジュールと
を含むことを特徴とする請求項１５に記載の装置。
前記第１パラメータ調整モジュールは、少なくとも１つの前記第１損失を得る順序に従って、順に少なくとも１つの前記第１損失に基づいて前記強化ネットワークのパラメータを調整するために用いられることを特徴とする請求項１６に記載の装置。
前記第１損失モジュールは、
前記中間予測結果とサンプル目標結果とに基づいて現在中間報酬を決定することと、前記中間予測結果に基づいて、スコアリングネットワークにより現在予測報酬を決定することであって、前記スコアリングネットワークが、前記強化ネットワークと一部のネットワーク構造を共用することと、前記中間予測結果に基づいて、前記強化ネットワークと前記第２ネットワークとにより次の中間予測結果を決定し、前記次の中間予測結果に基づいて前記スコアリングネットワークにより次の予測報酬を決定することとを実行するために用いられる報酬決定モジュールと、
前記現在中間報酬と前記現在予測報酬と前記次の予測報酬とに基づいて前記第１損失を決定するための損失決定モジュールと
を含むことを特徴とする請求項１６または請求項１７に記載の装置。
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して請求項１〜９のいずれか一項に記載のシステム強化学習方法を実行するためのプロセッサと
を含むことを特徴とする電子機器。
コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行される時に請求項１〜９のいずれか一項に記載のシステム強化学習方法を実行することを特徴とするコンピュータ記憶媒体。
コンピュータ読取可能コードを含むコンピュータプログラムであって、前記コンピュータ読取可能コードが機器上で作動する時に、前記機器中のプロセッサが請求項１〜９のいずれか一項に記載のシステム強化学習方法を実現するためのコマンドを実行することを特徴とするコンピュータプログラム。