JP2023541149A

JP2023541149A - ロボット制御方法、装置、機器、及びプログラム

Info

Publication number: JP2023541149A
Application number: JP2023515831A
Authority: JP
Inventors: 瑞 ▲楊▼; ▲藍▼青李; 迪君 ▲羅▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-13
Filing date: 2021-10-15
Publication date: 2023-09-28
Also published as: WO2022100363A1; EP4183531A1; CN112476424A; US20230035150A1; EP4183531A4

Abstract

本開示の実施例は、ロボット制御方法、装置、機器、コンピュータ記憶媒体及びコンピュータプログラム製品を提供し、人工知能技術の分野に関する。方法は、環境交互データと環境交互データにおける動作データに対応する動作を実行した後の実際に完成した実際目標値を取得するステップと、隣接する２つの時刻のうちの第１時刻における状態データ、動作データと実際目標値に基づいて、動作を実行した後の報酬値を決定するステップと、動作を実行した後の報酬値を採用して環境交互データにおける報酬値を更新するステップと、更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するステップと、訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行うステップと、を含む。

Description

（関連出願への相互参照）
本願は、２０２０年１１月１３日に中国特許局に提出された、出願番号が２０２０１１２７１４７７．５である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。

本開示は、人工知能技術の分野とインターネット技術の分野に関し、特に、ロボット制御方法、装置、機器、コンピュータ記憶媒体及びコンピュータプログラム製品に関する。

現在、ロボットに対して制御を行う場合、１つの実現方式は、優先度付き経験再生メカニズムに基づく深層強化学習制御アルゴリズムであり、ロボットが操作する物体の状態情報を利用して優先度を計算し、深層強化学習方法を利用してエンドツーエンドのロボット制御モデルを遂行し、深層強化学習の知的エージェントを環境において自主的に学習させ、指定された任務を完成させる。別の１つの実現方式は、模擬工業ロボットに基づく運動学自動把持学習方法であり、コンピュータ補助製造の分野に属し、模擬環境に基づいて、強化学習理論を利用して、ロボットの把持訓練を行う。模擬ロボットは、カメラで撮影された画像によって、物体の位置情報を自動的に取得し、ロボットの先端把持ツールの把持位置を決定し、同時に、強化学習の画像処理方法に基づいて、観察して得られた画像における把持される物体の形状と置かれる状態に基づいて、把持ツールの姿態を決定し、最終的に、形状が異なる、随意に置かれる物体を問題なく把持する。

しかしながら、関連技術における実現方式について、通常、１つの特徴任務を遂行するために、１つのモデルを訓練する必要があり、汎用性が乏しく、且つ、ロボット任務の訓練過程が遅い。

本開示の実施例は、ロボット制御方法、装置、機器、コンピュータ記憶媒体及びコンピュータプログラム製品を提供し、データの利用率を向上させ、知的エージェントの訓練を加速させることができ、且つ、大量の目標を同時に訓練することができ、１つのモデルだけで一定の目標空間におけるすべての任務を遂行することができ、モデルの汎化性を向上させる。

本開示の実施例は、ロボット制御方法を提供し、前記ロボット制御方法は、
環境交互データ（「環境インタラクションデータ」とも呼ばれる）を取得するステップであって、前記環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む、ステップと、
前記動作データに対応する動作を実行した後の実際に完成した実際目標値を取得するステップと、
前記隣接する２つの時刻のうちの第１時刻の状態データ、前記動作データ及び前記実際目標値に基づいて、前記動作を実行した後の報酬値を決定するステップと、
前記動作を実行した後の報酬値を採用して前記環境交互データにおける報酬値を更新し、更新後の環境交互データを得るステップと、
前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するステップと、
訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行うステップと、を含む。

本開示の実施例は、ロボット制御装置を提供し、前記ロボット制御装置は、
環境交互データを取得するように構成される第１取得モジュールであって、前記環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む、第１取得モジュールと、
前記動作データに対応する動作を実行した後の実際に完成した実際目標値を取得するように構成される第２取得モジュールと、
前記隣接する２つの時刻のうちの第１時刻の状態データ、前記動作データ及び前記実際目標値に基づいて、前記動作を実行した後の報酬値を決定するように構成される決定モジュールと、
前記動作を実行した後の報酬値を採用して前記環境交互データにおける報酬値を更新し、更新後の環境交互データを得るように構成される更新モジュールと、
前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するように構成される訓練モジュールと、
訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行うように構成される制御モジュールと、を含む。

本開示の実施例は、コンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ機器のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、前記プロセッサは、前記コンピュータ命令を実行し、本開示の実施例に提供されるロボット制御方法を実行するために用いられる。

本開示の実施例は、ロボット制御機器を提供し、前記ロボット制御機器は、
実行可能な命令を記憶するためのメモリと、前記メモリに記憶された実行可能な命令を実行するときに、本開示の実施例に提供されるロボット制御方法を実現するためのプロセッサと、を含む。

本開示の実施例は、実行可能な命令を記憶したコンピュータ可読記憶媒体を提供し、前記実行可能な命令を実行するときに、プロセッサに本開示の実施例に提供されるロボット制御方法を実現させるために用いられる。

本開示の実施例は下記の有益な効果を奏する。環境交互データを取得し、環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含み、隣接する２つの時刻のうちの第１時刻の状態データ、動作データと動作実行後の動作実際目標値に基づいて、動作を実行した後の報酬値を決定し、且つ、環境交互データにおける報酬値を更新し、即ち、後知恵による経験再生の方式を利用して、データの利用率を向上させ、知的エージェントの訓練を加速させる。且つ、環境交互データが目標値を含むため、大量の目標を同時に訓練することができ、即ち、１つのモデルだけで一定の目標空間におけるすべての任務を遂行することができ、モデルの適用性と汎化性を向上させる。

本開示の実施例に提供されるロボット制御方法の実現のフローチャートである。本開示の実施例に提供されるロボット制御方法の実現のフローチャートである。本開示の実施例に提供されるロボット制御システムのアーキテクチャの概略図である。本開示の実施例に提供されるサーバの構造概略図である。本開示の実施例に提供されるロボット制御方法のフローチャートである。本開示の実施例に提供されるロボット制御方法のフローチャートである。本開示の実施例に提供されるロボット制御方法のフローチャートである。本開示の実施例に提供されるロボット制御方法のフローチャートである。本開示の実施例に提供される後知恵による経験再生を結合する方法のフローチャートである。本開示の実施例に提供されるフォーサイトによる経験再生と後知恵による経験再生を結合する方法のフローチャートである。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。

本開示の目的、技術的手段及び利点をより明確にするために、以下は、図面を参照しながら本開示の実施形態についてさらに詳細に説明する。記載される実施例は、本開示を限定するものと見なすべきではない。創造的な労力を払うことなく、当業者に得られる他のすべての実施例は、本開示の保護範囲に含まれるものである。

下記の「いくつかの実施例」と記載される部分において、可能な実施例のサブセットがすべて記載されているが、理解可能なこととして、「いくつかの実施例」というのは、全ての可能な実施例の同じサブセット又は異なるサブセットであり得、矛盾しない場合に互いに組み合わせることができる。明記されない限り、本開示の実施例で使用されるすべての技術用語と科学用語は、当業者に通常に理解されるものと同じ意味を有する。本開示の実施例で使用される用語は、単に本開示の実施例を説明することを目的とし、本開示を限定することを意図するものではない。

本開示の実施例の解決策を説明する前に、まず、本開示の実施例に言及される名詞と用語について説明する。

１）強化学習：機械学習の範疇に属する用語であり、通常、順次意思決定問題を解決するために用いられ、主に環境と知的エージェントの２つの部分を含む。知的エージェントは、環境の状態に基づいて動作を選択して実行し、環境が知的エージェントの動作に基づいて新しい状態に遷移され、１つの数値の報酬をフィードバックし、知的エージェントは、環境からフィードバックされた報酬に基づいてポリシーを継続的に最適化する。

２）オフポリシー：強化学習におけるデータ収集の動作ポリシー及び更新の目標ポリシーと異なる方法であり、オフポリシーは、通常、経験再生技術を使用する必要がある。

３）経験再生：強化学習におけるオフポリシーアルゴリズムで使用する手法であり、知的エージェントと環境との交互（「インタラクション」とも呼ばれる）のデータを記憶する１つの経験プールを保持し、ポリシーを訓練するときに、経験プールからデータをサンプリングしてポリシーネットワークを訓練する。経験再生の方式によって、オフポリシーアルゴリズムのデータの利用効率がオンポリシーアルゴリズムより高い。

４）多目標強化学習：通常の強化学習任務は、１つの特定の任務を遂行することである。しかしながら、ロボット制御において、常に大量の任務が存在し、例えば、機械アームを空間における位置に移動することが挙げられ、その場合、知的エージェントが学習したポリシーは、目標空間における任意の目標位置に到達することができるように期待され、そのため、多目標強化学習が導入される。多目標強化学習は、複数の目標を同時に遂行することである。

５）後知恵による経験再生（ＨｉｎｄｓｉｇｈｔＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ）：多目標強化学習に関する方法であり、経験プールにおけるデータの期待目標を達成した目標に変更することによって、後知恵による経験再生は、失敗データに対する利用効率を大幅に向上させることができる。

６）フォーサイトによる経験再生（ＦｏｒｅｓｉｇｈｔＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ）：フォーサイトによる経験再生の思想は、モンテカルロと時間的差分関数推定に由来しており、複数ステップの期待累積報酬を展開することによって価値関数の推定を加速させる。

７）オフポリシー偏差：オフポリシーアルゴリズムにおいて直接的にフォーサイトによる経験再生方法を使用するときに、行為ポリシーと目標ポリシーに差異が存在するために、通常、フォーサイトによる経験再生によって、オフポリシー偏差の累積を引き起こし、知的エージェントのポリシー学習に深刻な影響を与える可能性がある。

本開示の実施例を説明する前に、まず、本開示の実施例に提供される関連技術におけるロボット制御方法について説明する。

図１Ａは、本開示の実施例に提供されるロボット制御方法の実現のフローチャートである。該方法は、優先度付き経験再生メカニズムに基づく深層強化学習制御アルゴリズムであり、ロボットが操作する物体の状態情報を利用して優先度を計算し、且つ、深層強化学習方法を利用してエンドツーエンドのロボット制御モデルの訓練を遂行し、該方法は、深層強化学習の知的エージェントを環境において自主的に学習させ、指定された任務を完成させる。訓練過程において、目標物体の状態情報をリアルタイムで収集し、状態情報に基づいて経験再生の優先度を計算し、そして、優先度に基づいて経験再生プールにおけるデータに対してサンプリングを行い、強化学習アルゴリズムを採用して、サンプリングによって得られたデータに対して学習を行い、制御モデルを得る。該方法は、深層強化学習アルゴリズムのロバスト性を確保することを前提で、環境情報を最大限に利用し、制御モデルの効果を向上させ、学習収束の速度を加速させる。ここで、図１Ａに示すように、該方法は、下記のステップを含む。

ステップＳ１１において、仮想環境を構築する。

ステップＳ１２において、ロボットの任務実行過程におけるセンサデータを取得する。

ステップＳ１３において、ロボットの任務実行過程における環境交互データを取得し、サンプル軌跡セットを構築する。

ステップＳ１４において、材料の位置変化、角度変化、速度変化の３つの部分からなるサンプル軌跡優先度を計算する。

ステップＳ１５において、サンプル軌跡優先度に基づいて、サンプリング訓練を行う。

ステップＳ１６において、ネットワークの更新が所定のステップ数に達したか否かを判断する。

ステップＳ１７において、達した場合、訓練過程を完了し、強化学習モデルを得る。

図１Ｂは、本開示の実施例に提供されるロボット制御方法の実現のフローチャートである。該方法は、模擬工業ロボットに基づく運動学自動把持学習方法とシステムであり、コンピュータ補助製造の分野に属する。該方法は、模擬環境に基づいて、強化学習理論を利用して、ロボット把持訓練を行う。模擬ロボットは、カメラで撮影された画像によって物体の位置情報を自動的に取得し、位置情報に基づいてロボットの先端把持ツールの把持位置を決定し、同時に、強化学習の画像処理方法に基づいて、観察して得られた画像における把持される物体の形状と置かれる状態に基づいて、把持ツールの姿態を決定し、最終的に、形状が異なる、随意に置かれる物体を問題なく把持する。該方法における把持技術は、多くの工業と生活場面に適用されることができ、従来のロボットの把持作業のプログラミングの複雑性を簡略化し、ロボットプログラムの拡張性を向上させることができ、ロボットの応用範囲と実際生産における作業効率を大幅に向上させる。ここで、図１Ｂに示すように、ロボット制御システム全体は、ロボット模擬環境１１、価値推定ネットワーク１２、及び動作選択ネットワーク１３を含み、ロボット模擬環境１１、価値推定ネットワーク１２と動作選択ネットワーク１３の間の交互によって、システム全体におけるネットワークに対する訓練を実現する。

しかしながら、上記の２つの方法には、少なくとも下記の問題が存在する。通常の場合、特徴任務毎に、１つのモデルを訓練する必要があり、モデルの汎化性が乏しい。後知恵による経験再生の情報を利用していないため、失敗データから学習することができない。フォーサイトによる経験再生の情報を利用していないため、通常、単一ステップの時間的差分方法を使用して訓練するため、訓練の効率が低く、訓練後の知的エージェントの正確性が低い。

そのため、本開示の実施例は、ロボット制御方法を提供し、該方法は、フォーサイトによる経験再生と後知恵による経験再生を結合する多目標強化学習ロボット制御技術であり、知的エージェントの訓練データの利用効率を大幅に向上させることができ、同時に、オフポリシー偏差の影響を緩和することができる。本開示の実施例に提供される方法は、大量の目標を同時に訓練することができ、訓練によって得られる１つのモデルだけで、一定の目標空間におけるすべての任務を遂行することができる。且つ、後知恵による経験再生を利用して、失敗データの利用を向上させ、ロボット任務の訓練を加速させ、同時に、フォーサイトによる経験再生の複数ステップの報酬展開を使用し、価値関数の学習と知的エージェントの訓練を加速させる。

実際に実施するときに、本開示の実施例に提供されるロボット制御方法において、まず、環境交互データを取得し、環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含み、動作データに対応する動作を実行した後の実際に完成した実際目標値を取得する。次に、隣接する２つの時刻のうちの第１時刻における状態データ、動作データと実際目標値に基づいて、動作を実行した後の報酬値を決定し、動作を実行した後の報酬値を採用して環境交互データにおける報酬値を更新し、更新後の環境交互データを得る。次に、更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練する。最後に、訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行う。このように、後知恵による経験再生の方式を利用して、データの利用率を向上させ、知的エージェントの訓練を加速させる。且つ、環境交互データが目標値を含むため、大量の目標を同時に訓練することができ、訓練によって得られた１つのモデルだけで、一定の目標空間におけるすべての任務を遂行することができる。

以下では、本開示の実施例に提供されるロボット制御機器の例示的な応用について説明する。１つの実現方式において、本開示の実施例に提供されるロボット制御機器は、ノートパソコン、タブレットコンピュータ、デスクトップコンピュータ、モバイル機器（例えば、携帯電話、携帯音楽プレーヤ、個人デジタルアシスタント、専用メッセージ機器、携帯ゲーム機器）、知能ロボットなどの任意の電子機器又は知的エージェントそのものとして実施されることができる。別の１つの実現方式において、本開示の実施例に提供されるロボット制御機器はさらに、サーバとして実施されることができる。以下では、ロボット制御機器がサーバとして実施されるときの例示的な応用について説明する。サーバによって知的エージェントを訓練し、訓練後の知的エージェントによって目標ロボットの動作に対して制御を行うことができる。

図２を参照すると、図２は、本開示の実施例に提供されるロボット制御システム１０のアーキテクチャの概略図である。知的エージェントの訓練を実現するために、本開示の実施例に提供されるロボット制御システム１０は、ロボット１００、知的エージェント２００、及びサーバ３００を含む。サーバ３００は、ロボット１００の環境交互データを取得し、環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含み、ここで、状態データは、ロボット１００がセンサによって収集して得られるロボットの状態データであり得、動作データは、ロボット１００が実行した動作に対応するデータであり、報酬値は、ロボットが動作を実行した後に得られるリターン値であり、目標値は、所定のロボットが達成しようとする目標である。サーバ３００はさらに、ロボット１００が動作データに対応する動作を実行した後の実際に完成した実際目標値を得、環境交互データと実際目標値を得た後に、サーバ３００は、隣接する２つの時刻のうちの第１時刻における状態データ、動作データと実際目標値に基づいて、ロボット１００が動作を実行した後の報酬値を決定し、動作を実行した後の報酬値を採用して環境交互データにおける報酬値を更新し、更新後の環境交互データを得、更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェント２００を訓練し、知的エージェント２００に対する訓練を完成した後に、訓練後の知的エージェント２００を採用して目標ロボットの動作に対して制御を行う。

本開示の実施例に提供されるロボット制御方法はさらに、人工知能技術の分野に関し、少なくとも人工知能技術におけるコンピュータビジョン技術と機械学習技術によって実現されることができる。ここで、コンピュータビジョン技術（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）は、機械にいかに「見させる」かを研究する科学であり、さらに言えば、カメラとコンピュータで人の目を代わって、目標に対して識別、追跡と測定などの機械ビジョンを行い、さらにグラフィック処理を行い、それによって、コンピュータの処理画像は、人の目で観察しやすく、又は機械に送信して検測しやすくなる。科学学科として、コンピュータビジョンは、関連する理論と技術を研究し、画像又は多次元データから情報を取得することができる人工知能システムを構築することを目指す。コンピュータビジョン技術は、通常、画像処理、画像識別、画像セマンティック理解、画像検索、光学文字識別（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ／行為識別、３次元物体再構築、３次元（３Ｄ：ＴｈｒｅｅＤｉｍｅｎｓｉｏｎ）技術、仮想現実、拡張現実、同期測位、及び地図構築などの技術を含み、さらに、一般的な顔識別、及び指紋識別などの生物特徴識別技術を含む。機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）は、多領域に関する学際的な分野であり、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの複数の分野に関し、コンピュータがいかに人間の学習行為をシミュレートし、又は、実現するかを主に研究し、それによって、新しい知識又はスキルを取得し、既存の知識構造を改めて組み合わせ、自身の性能を継続的に向上させる。機械学習は、人工知能のコア部分であり、コンピュータに知能を持たせる根本的な道であり、それの適用が人工知能の各分野に亘っている。機械学習と深層学習は、通常、人工ニューラルネットワーク、信頼ネットワーク、強化学習、遷移学習、帰納学習、及び模倣学習などの技術を含む。本開示の実施例において、機械学習技術によって、ネットワーク構造検索リクエストに対する応答を実現し、それによって、目標ネットワーク構造を自動的に検索し、及び、コントローラとスコアモデルに対する訓練とモデル最適化を実現する。

図３は、本開示の実施例に提供されるロボット制御機器４００の構造概略図である。実際の応用において、ロボット制御機器４００は、図２におけるサーバ３００とロボット１００であり得る。ロボット制御装置４００が図２に示すサーバ３００であることを例として、本開示の実施例に提供されるロボット制御方法を実施するロボット制御機器について説明する。図３に示すロボット制御機器４００は、少なくとも１つのプロセッサ３１０、メモリ３５０、少なくとも１つのネットワークインターフェース３２０、及びユーザインタフェース３３０を含む。サーバ３００における各コンポーネントは、バスシステム３４０によって結合する。理解可能なこととして、バスシステム３４０は、各コンポーネント間の接続通信を実現するように構成される。バスシステム３４０は、データバス以外、電源バス、制御バス、ステータス信号バスも含む。しかしながら、明らかに説明するために、図３において、各種類のバスをバスシステム３４０として標記する。

プロセッサ３１０は、集積回路チップであり得、信号処理機能を有し、例えば、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）又は他のプログラマブル・ロジック・デバイス、ディスクリート・ゲート又はトランジスタ・ロジック・デバイス、ディスクリート・ハードウェア・コンポーネントなどであり得る。ここで、汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサであり得る。

ユーザインタフェース３３０は、メディアコンテンツを表示することができる１つ又は複数の出力装置３３１を含み、１つ又は複数のスピーカ及び／又は１つ又は複数の視覚ディスプレイを含む。ユーザインタフェース３３０はさらに、１つ又は複数の入力装置３３２を含み、ユーザ入力に役立つユーザインタフェース部品を含み、例えば、キーボード、マウス、マイク、タッチスクリーンディスプレイ、カメラ、他の入力ボタン及びコントロールである。

メモリ３５０は、取り除き可能、取り除き不可、又はそれらの組み合わせであり得る。例示的なハードウェア機器は、ソリッドステートメモリ、ハードディスクドライブ、及びＣＤドライブなどを含む。選択可能なこととして、メモリ３５０は、プロセッサ３１０から物理的に離れた位置にある１つ又は複数の記憶機器を含む。メモリ３５０は、揮発性メモリ又は不揮発性メモリを含み、揮発性メモリと不揮発性メモリの両方を含むこともできる。不揮発性メモリは、リード・オンリー・メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）であり得、揮発性メモリは、ランダム・アクセス・メモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であり得る。本開示の実施例によって説明されるメモリ３５０は、任意の適切なタイプのメモリを含むことを意図する。いくつかの実施例において、メモリ３５０は、様々な操作をサポートするように、データを記憶することができ、該データの例は、プログラム、モジュール、及びデータ構造、又は、そのサブセット又はスーパーセットを含む。以下では、例示的に説明する。

オペレーティングシステム３５１は、様々な基本的なシステムサービスを処理し、且つ、ハードウェア関連の任務を実行するように構成されるシステムプログラムを含み、例えば、フレームワーク層、コアライブラリ層、ドライバ層などであり、様々な基本的な任務を実現し、且つ、ハードウェアに基づく任務を処理するように構成される。

ネットワーク通信モジュール３５２は、１つ又は複数の（有線又は無線）ネットワークインターフェース３２０によって他の計算機器に達するように構成され、例示的なネットワークインターフェース３２０は、ブルートゥース（登録商標）、無線互換認証（ＷｉＦｉ）、及びユニバーサルシリアルバス（ＵＳＢ：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などを含む。

入力処理モジュール３５３は、１つ又は複数の入力装置３３２のうちの１つからの１つ又は複数のユーザ入力又はインタラクションに対して検出を行い、検出された入力又はインタラクションを翻訳するように構成される。

いくつかの実施例において、本開示の実施例に提供される装置は、ソフトウェアの方式を採用して実現されることができる。図３は、メモリ３５０に記憶されたロボット制御装置３５４を示し、該ロボット制御装置３５４は、サーバ３００におけるロボット制御装置であり得、それは、プログラムとプラグインなどの形態のソフトウェアであり得、第１取得モジュール３５４１、第２取得モジュール３５４２、決定モジュール３５４３、更新モジュール３５４４、訓練モジュール３５４５、及び制御モジュール３５４６を含む。これらのモジュールは、ロジック的なものであり、したがって、実現する機能に基づいて、任意の組み合わせ又はさらに分割を行うことができる。以下では、各モジュールの機能について説明する。

別のいくつかの実施例において、本開示の実施例に提供される装置は、ハードウェアの方式を採用して実現されることができる。例として、本開示の実施例に提供される装置は、ハードウェアデコーダプロセッサの形態を採用するプロセッサであり得、それは、プログラムされ、それによって、本開示の実施例に提供されるロボット制御方法を実行する。例えば、ハードウェアデコーダプロセッサの形態のプロセッサは、１つ又は複数のアプリケーション専用集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＤＳＰ、プログラマブル・ロジック・デバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、複雑プログラマブル・ロジック・デバイス（ＣＰＬＤ：ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又は他の電子部品を採用することができる。

以下では、本開示の実施例に提供されるロボット制御機器４００の例示的な応用を結合して、本開示の実施例に提供されるロボット制御方法について説明する。実際に実施するときに、本開示の実施例に提供されるロボット制御方法は、サーバ又は端末によって単独で実施されることができ、サーバ及び端末によって協同実施されることもできる。図４を参照すると、図４は、本開示の実施例に提供されるロボット制御方法のフローチャートである。該ロボット制御方法がサーバによって単独で実施されることを例として、図４に示すステップを結合して説明する。

ステップＳ４０１において、サーバは、環境交互データを取得し、環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む。

ここで、状態データは、ロボットがセンサによって収集して得られるロボットの状態データ又は現在ロボットが位置する環境の状態データであり得る。動作データは、ロボットが実行する動作に対応するデータであり、該動作は、ロボットが現在時刻の前の時刻に既に実行した動作であり得、現在時刻の後の次の時刻に実行しようとする動作でもあり得、ここで、動作は、移動、把持、仕分けなど、ロボットが実現可能な任意の動作であり得る。

説明すべきこととして、環境の状態データに対応する状態セットと、動作データに対応する動作セットとの間にマッピング関係が存在し、即ち、ロボットが環境におけるある状態を観察した場合、特定の動作を発する必要があり、各状態で、ロボットが異なる動作を発する確率が異なる。例えば、囲碁において、環境の状態セットは、すべての可能な盤面の局面からなり、ロボット（例えば、アルファ碁）の動作セットは、アルファ碁が採ることができる、ルールを満たすすべての打ち方であり、このときのポリシーは、アルファ碁の行為であり、即ち、異なる局面に応じてアルファ碁が選択する囲碁方案である。

報酬値は、ロボットが動作を実行した後に得られるリターン値であり、即ち、報酬値は、強化学習過程においてロボットの動作に基づいて得られるリターン値である。強化学習は、最も良いポリシーを探し出し、見つけたポリシーに基づいてロボットが一連の動作を発した後に、得られる累積リターン値が最も高くすることを目的としている。

目標値は、所定のロボットが達成しようとする目標であり、本開示の実施例において、目標値は複数であり得る。

ステップＳ４０２において、動作データに対応する動作を実行した後の実際に完成した実際目標値を取得する。

ここで、実際目標値は、ロボットが動作データに対応する動作を実行した後に達成する目標であり、該目標は、現在時刻の実際目標値である。実際目標値は、期待目標値（即ち、環境交互データにおける目標値）との間に一定の偏差が存在する可能性があり、偏差が存在する場合、学習し続けてから、次の動作を実行する必要があり、実際目標値を期待目標値に収束させることを実現する。

ステップＳ４０３において、隣接する２つの時刻のうちの第１時刻における状態データ、動作データと実際目標値に基づいて、動作を実行した後の報酬値を決定する。

ここで、所定の報酬関数を採用して、隣接する２つの時刻のうちの第１時刻における状態データ、動作データと実際目標値に基づいて、動作を実行した後の報酬値を決定することができる。

第１時刻は、動作を実行する前の時刻であり、動作を実行する前の状態データ、ロボットが実行しようとする動作に対応する動作データ、及び動作を実行した後の実際に完成した実際目標値に基づいて、実際目標値と期待目標値との間の偏差を決定し、さらに、該偏差に基づいて動作を実行した後の現在の報酬値を決定する。

いくつかの実施例において、目標が達成されたときに、即ち、実際目標値と期待目標値との間に偏差がなく、又は、偏差が閾値より小さいときに、現在の報酬値は０である。目標が達成されていないときに、即ち、実際目標値と期待目標値との間の偏差が閾値以上であるときに、現在の報酬値は、－１である。

ステップＳ４０４において、動作を実行した後の報酬値を採用して環境交互データにおける報酬値を更新し、更新後の環境交互データを得る。

ここで、動作を実行した後の報酬値とロボットが過去の動作を実行したことに対応する報酬値とを累加し、環境交互データにおける報酬値の更新を実現し、更新後の環境交互データを得る。更新後の環境交互データに、新しい状態データ、新しい動作データ、新しい報酬値と新しい目標値が含まれる。ここで、更新後の環境交互データにおける新しい状態データは、ロボットが動作実行後に入った新しい環境の状態データであり、例えば、ロボットが実行する動作が平行移動である場合、新しい状態データは平行移動後のロボットの位置と姿態である。新しい動作データは、ロボットが動作実行後に、新しい報酬値に基づいて決定された、次に実行しようとする動作に対応する動作データであり、ここで、複数の連続する動作が最終的に実行された結果として、最終の結果をさらに期待の目標値に収束させる。新しい報酬値は、動作を実行した後の報酬値と、ロボットが過去の動作を実行したことに対応する報酬値との間の累加報酬値である。

例えば、ロボットがある目標を達成しようとするときに、現在の動作で指定目標を達成していなく、他の目標を達成している可能性がある。この場合、ロボットは、該動作を完成した後に、後知恵の観点で１つの目標をさらに選択する。２回目の目標は、１回目の目標と異なり、２回目の目標は、基本的にロボットが実現可能な目標である。前回設定された目標が高すぎる可能性があるため、２回目でより低い目標を設定し、即ち、数回の実行によって、最終的に達成しようとする期待目標値を達成する。

ステップＳ４０５において、更新後の環境交互データを採用して、ロボット制御ネットワークに対応する知的エージェントを訓練する。

本開示の実施例において、更新後の環境交互データを採用して知的エージェントを訓練する同時に、更新前の環境交互データを採用して知的エージェントを訓練することもでき、即ち、更新前及び更新後の環境交互データを同時に採用して一緒に知的エージェントに対して訓練を行い、こうすると、後知恵による経験再生を利用して失敗データ（即ち、期待目標値の達成に成功していない過去の環境交互データ）の利用率を向上させ、ロボット任務の訓練を加速させる。

ステップＳ４０６において、訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行う。

ここで、知的エージェントを訓練した後に、訓練後の知的エージェントを採用して、目標ロボットの動作に対して制御を行うことができ、それによって、目標ロボットに知的エージェントの制御によって特定の動作を実現させる。

本開示の実施例に提供されるロボット制御方法において、環境交互データを取得し、環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含み、隣接する２つの時刻のうちの第１時刻の状態データ、動作データと動作実行後の動作実際目標値に基づいて、動作を実行した後の報酬値を決定し、環境交互データにおける報酬値を更新し、即ち、後知恵による経験再生の方式を利用して、データの利用率を向上させ、知的エージェントの訓練を加速させる。環境交互データが目標値を含むため、大量の目標を同時に訓練することができ、１つのモデルだけで一定の目標空間におけるすべての任務を遂行することができる。

いくつかの実施例において、ロボット制御システムは、ロボット、知的エージェント、及びサーバを含む。ここで、ロボットは、任意の動作を実現することができ、例えば、把持と移動などが挙げられ、知的エージェントは、学習したポリシーに基づいて目標空間における任意の目標を達することができ、即ち、ロボットに対して制御を行い、それによって、ロボットに特定の目標に対応する動作を実現させる。

以下では、本開示の実施例に提供されるロボット制御方法について説明し続ける。該ロボット制御方法は、端末及びサーバによって協同実施される。図５は、本開示の実施例に提供されるロボット制御方法のフローチャートであり、図５に示すように、該方法は、下記のステップを含む。

ステップＳ５０１において、ロボットは、収集によって環境交互データを得、環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む。

ここで、ロボットが搭載するセンサによって環境交互データを収集し、又は、ロボットが外部のセンサによって収集された環境交互データを取得することができる。

ステップＳ５０２において、ロボットは、収集された環境交互データをサーバに送信する。

ステップＳ５０３において、サーバは、ロボットが動作データに対応する動作を実行した後の実際に完成した実際目標値を取得する。

ステップＳ５０４において、サーバは、隣接する２つの時刻のうちの第１時刻における状態データ、動作データと実際目標値に基づいて、動作を実行した後の報酬値を決定する。

ステップＳ５０５において、サーバは、動作を実行した後の報酬値を採用して環境交互データにおける報酬値を更新し、更新後の環境交互データを得る。

ステップＳ５０６において、サーバは、更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練する。

説明すべきこととして、ステップＳ５０３乃至ステップＳ５０６は、上記のステップＳ４０２乃至ステップＳ４０５と同じく、本開示の実施例は、ここで繰り返すことはない。

本開示の実施例において、知的エージェントは、サーバにおけるソフトウェアモジュールであり得、サーバから独立するハードウェア構造でもあり得る。サーバは、知的エージェントに対して訓練を行うことによって、ロボットに対して有効且つ正確の制御を行うことができる知的エージェントを得、且つ、訓練後の知的エージェントを採用してロボットを制御し、それによって、サーバがリアルタイムでロボットを制御することによるネットワークリソース浪費の問題を避けることができる。

ステップＳ５０７において、訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行う。

ステップＳ５０８において、ロボットは、知的エージェントの制御によって特定の動作を実現する。

説明すべきこととして、本開示の実施例において、強化学習技術に基づいて知的エージェントを訓練し、したがって、段階的な訓練と学習によって、訓練後の知的エージェントにロボットに対して正確な制御を行わせることができ、ロボットにユーザが期待する目標を正確に実現させることができ、ロボットの作業効率と作業品質を向上させる。なお、工業生産において、多くの場合でロボットを採用して人間を代わって操作を行うことができるため、強化学習訓練を採用して得られた知的エージェントは、人間と同じ動作があるロボット制御を実現することができ、工業生産効率と生産正確性を向上させる。

図４に基づいて、図６は、本開示の実施例に提供されるロボット制御方法のフローチャートであり、図６に示すように、図４に示すステップＳ４０５は、下記のステップによって実現されることができる。

ステップＳ６０１において、各時刻に、更新後の環境交互データにおける目標値に基づいて、更新後の環境交互データにおける動作データを実行するように知的エージェントを制御することによって、次の時刻の状態データを得、次の時刻の報酬値を得る。

ここで、ロボットが各時刻に現在時刻の環境交互データにおける動作データに対応する動作を実行するため、各時刻に動作が実行された後に、１つの報酬値を得、該報酬値を現在時刻環境交互データにおける報酬値に加え、同時に、環境交互データにおける他のデータを更新する。即ち、ロボットが動作の連続の実行につれて、環境交互データにおける異なるデータに対して反復最適化を行う過程を実現する。

ステップＳ６０２において、次の時刻の後のすべての未来時刻の報酬値を取得する。

ここで、未来時刻の報酬値とは、得ようとする期待報酬値である。次の時刻の後の各未来時刻の期待報酬値を予め設定することができ、ここで、期待報酬値は期待目標値に対応する。

ステップＳ６０３において、すべての未来時刻の報酬値に対応する累積報酬値を決定する。

ここで、累積報酬値は、未来時刻の期待報酬値の累加和である。

ステップＳ６０４において、累積報酬値を最大化することを制御目標として、知的エージェントの訓練過程に対して制御を行う。

本開示の実施例において、フォーサイトによる経験再生技術に基づいて知的エージェントの訓練を実現し、累積報酬値を最大化することの目的は、未来時刻の期待報酬値を最も大きくし、それによって、ロボットの動作がさらに期待目標値に接近することができることを保証する。

いくつかの実施例において、ステップＳ６０４は、下記のステップによって実現されることができる。

ステップＳ６０４１において、累積報酬値の期待累積報酬を決定する。ステップＳ６０４２において、期待累積報酬に基づいて初期動作価値関数を計算する。ステップＳ６０４３において、連続する複数の時刻の環境交互データを利用して、初期動作価値関数を展開し、展開された初期動作価値関数を得、それによって、初期動作価値関数の学習を加速させ、知的エージェントの訓練過程に対して制御を行う。

ここで、ステップＳ６０４３において、フォーサイトによる経験再生を利用して、初期動作価値関数を展開することができ、それによって、初期動作価値関数の学習を加速させ、知的エージェントの訓練過程に対して制御を行うことを実現する。

いくつかの実施例において、ステップＳ６０４３は、下記の方式によって実現されることができる。現在時刻の後の複数の連続する未来時刻のうちの各未来時刻の期待報酬値と所定の割引係数（「割引率」とも呼ばれる）を取得し、そして、割引係数と各未来時刻の期待報酬値に基づいて、展開された初期動作価値関数を得る。

いくつかの実施例において、ステップＳ６０４３はさらに、下記の方式によって実現されることができる。初期動作価値関数の重みを取得し、重みの値は、０より大きく、且つ１より小さく、そして、フォーサイトによる経験再生によって、連続する複数の未来時刻の環境交互データを利用して、重みに基づいて初期動作価値関数を展開し、展開された初期動作価値関数を得る。

ここで、重みに基づいて初期動作価値関数を展開することは、下記の数式（１－１）によって実現される。
ここで、
は、重み
に基づいてｎ個ステップで展開した初期動作価値関数を表し、
は、初期動作価値関数を表す。

図７は、本開示の実施例に提供されるロボット制御方法のフローチャートであり、図７に示すように、方法は、下記のステップを含む。

ステップＳ７０１において、環境交互データを取得し、環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む。

ステップＳ７０２において、動作データに対応する動作を実行した後の実際に完成した実際目標値を取得する。

ステップＳ７０３において、隣接する２つの時刻のうちの第１時刻における状態データ、動作データと実際目標値に基づいて、動作を実行した後の報酬値を決定する。

ここで、第１時刻は、動作を実行する前の時刻であり、動作を実行する前の状態データ、ロボットが実行しようとする動作に対応する動作データ、及び動作を実行した後の実際に完成した実際目標値に基づいて、実際目標値と期待目標値との間の偏差を決定し、さらに、該偏差に基づいて動作を実行した後の現在の報酬値を決定する。

ステップＳ７０４において、展開後の動作価値関数に基づいて次の時刻の動作データを決定する。

ステップＳ７０５において、次の時刻の動作データを採用して環境交互データにおける動作データを更新し、更新後の環境交互データを得る。

本開示の実施例において、動作価値関数を得た後に、複数の動作から報酬値を増加することができる１つの動作を目標動作として選択し、目標動作に対応する動作データを環境交互データ内へ更新し、次の時刻の動作データとし、動作データの更なる更新を実現する。

ステップＳ７０６において、現在の報酬値を採用して環境交互データにおける報酬値を更新するときに、累積報酬値に基づいて知的エージェントの実行ポリシーを決定する。

ステップＳ７０７において、実行ポリシーに基づいて次の時刻の動作データを選択する。

ステップＳ７０８において、次の時刻の動作データを環境交互データ内へ更新し、更新後の環境交互データを得る。

いくつかの実施例において、知的エージェントが次の時刻の動作を実行した後に、知的エージェントの現在位置する環境の状態は次の時刻の状態に遷移され、次の時刻の状態は、次の時刻の状態データに対応し、相応的に、方法は、さらに下記のステップを含む。

ステップＳ７０９において、次の時刻の状態データを環境交互データ内へ更新し、更新後の環境交互データを得る。

ステップＳ７１０において、更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練する。

本開示の実施例において、環境交互データに対して更新を行うときに、環境交互データにおける各データを同時に更新する。こうすると、更新後の環境交互データを採用して知的エージェントを訓練するときに、知的エージェントによって決定される次の時刻の動作が期待目標値に収束することを保証することができる。

いくつかの実施例において、環境交互データにおける目標値は複数であり、相応的に、方法は、さらに下記のステップを含む。

ステップＳ７１１において、次の時刻の複数の目標値を決定する。

ステップＳ７１２において、決定された次の時刻の複数の目標値を環境交互データ内へ更新する。

ステップＳ７１３において、訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行う。

本開示の実施例に提供されるロボット制御方法において、環境交互データにおける目標値は複数であり、こうすると、複数の目標に対して同時に訓練を行うことを実現することができ、即ち、大量の目標を同時に訓練することができ、１つのモデルだけで一定の目標空間におけるすべての任務を遂行させることができる。例えば、複数の目標は、移動方向がＹであることと、移動距離がＸであることと、移動過程において特定対象を把持することと、特定対象を把持した後に、該特定対象を持ち上げることと、などを含むことができる。よって、複数の目標は、１つの動作系列における連続動作であり得、即ち、１つのモデルだけで目標空間におけるすべての任務を実現し、それによって、１つの動作系列の実行を完了し、ロボットの知能性を向上させる。

以下では、１つの実際な応用場面において、本開示の実施例の例示的な応用について説明する。

本開示の実施例に提供されるロボット制御方法は、多目標のロボット任務に適用されることができ、例えば、指定された物体を空間における異なる位置に置く必要がある場合（物流、ロボットの仕分けなどの場面）、ロボット（飛行機／無人車）が指定位置まで移動する必要がある場合などが挙げられる。

本開示の実施例の方法を説明する前に、まず、本開示に関する記号について説明する。

強化学習は、通常、マルコフ方策決定過程（ＭＤＰ：ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ）で表されることができる。本開示の実施例において、目標拡張のＭＤＰを使用し、ＭＤＰは、６個の要素（Ｓ、Ａ、Ｒ、Ｐ、γ、Ｇ）を含む。ここで、Ｓは、状態空間を表し、Ａは、動作空間を表し、Ｒは、報酬関数を表し、Ｐは、状態遷移確率マトリックスを表し、γは、割引係数を表し、Ｇは、目標空間を表す。説明すべきこととして、目標空間は、達成する必要があるすべての目標を含むセットであり、即ち、目標空間Ｇは、複数の達成する必要がある目標値ｇを含み、目標値ｇ毎に１つの目標に対応し、該目標は、強化学習によって達成しようとする目標である。知的エージェントは、各時刻の状態
（ここで、ｔは対応する時刻を表す）を観測し、状態に基づいて動作
を実行し、環境は、動作
に応答して、次の状態
に遷移され、報酬
をフィードバックし、強化学習最適化の目標は、累積報酬値
を最大化することである。知的エージェントは、ポリシー
に基づいて動作を選択し、動作価値関数
は、状態
で動作
を実行した後の期待累積報酬を表す。
ここで、
、Ｅは、期待値を求めることを表す。

多目標強化学習において、知的エージェントのポリシーと報酬関数は、いずれも目標ｇによって調整され、報酬関数、価値関数とポリシーは、
で表される。本開示の実施例において、成功したか否かを使用して報酬関数を設置することができ、即ち、目標が達成された場合、報酬を０とし、目標が達成されていない場合、報酬を－１とする。状態から目標へのマッピングを
で表し、設定された、目標を達成した閾値を
で表す。報酬関数は、下記の数式（２－１）で表される。

本開示の実施例において、深層決定ポリシー勾配アルゴリズム（ＤＤＰＧ：ＤｅｅｐＤｅｔｅｒｍｉｎｉｓｔｉｃＰｏｌｉｃｙＧｒａｄｉｅｎｔ）は、ＡｃｔｏｒＣｒｉｔｉｃアーキテクチャに基づいて実現される。ここで、Ｃｒｉｔｉｃ部分は、状態動作に対して評価を行い、Ａｃｔｏｒ部分は、動作を選択するポリシーである。多目標強化学習の設定で、Ａｃｔｏｒ部分とＣｒｉｔｉｃ部分の損失関数が
であり、
のそれぞれは、下記の数式（２－２）乃至（２－４）によって計算される。
ここで、

本開示の実施例において、フォーサイトによる経験再生は、通常のオフポリシーアルゴリズムの更新の上に、連続する複数ステップのデータを利用して動作価値関数（即ち、上記の初期動作価値関数）を展開し、動作価値関数の学習を加速させることである。つまり、知的エージェントに前方を見る観点を持たせる。計算数式は、上記の数式における
をｎ個ステップでの展開に置き換える結果は数式（２－５）である。

本開示の実施例の方法は、価値関数の学習を加速させることができるが、オフポリシーアルゴリズムに適用される場合、例えば、ここで使用されるＤＤＰＧに適用される場合、オフポリシー偏差を引き起こす。

後知恵による経験再生は、多目標強化学習において、失敗した目標を実際に完成した目標に置き換えることである。これは、「後知恵」のようなやり方であり、後方を見る視野をもたらし、データの利用効率を大幅に向上させることができる。図８に示すように、図８は、本開示の実施例に提供される後知恵による経験再生を結合する方法のフローチャートであり、ここで、方法は、下記のステップを含む。

ステップＳ８０１において、環境との交互データ（即ち、環境交互データ）
を取得する。

ステップＳ８０２において、実際に完成した目標
をサンプリングする。

ステップＳ８０３において、報酬関数に基づいて報酬値
を再計算する。

ステップＳ８０４において、算出した報酬値
を採用して、更新によって新しい環境交互データ
を得る。

ステップＳ８０５において、新しい環境交互データと古い環境交互データを使用して一緒にオフポリシーを訓練する。

本開示の実施例は、フォーサイトによる経験再生と後知恵による経験再生を結合する多目標強化学習ロボット制御技術を提供し、訓練速度を加速させ、データの利用効率を大幅に向上させることができ、ロボット場面において大量の必要ない物理／模擬実験データを節約することができる。さらに、フォーサイトによる経験再生ｎ－ｓｔｅｐを後知恵による経験再生（ＨＥＲ：ＨｉｎｄｓｉｇｈｔＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ）に直接的に結合すると、オフポリシー偏差の影響を受けるため、指数関数的逓減する重みのｎ－ｓｔｅｐの加重平均を使用することができ、オフポリシー偏差の影響を緩和する。本開示の実施例において、
重みを利用する重み付けの方法を提供し、ここで、
は、下記の数式（２－６）によって計算されることができる。

本開示の実施例の方法において、重み
が０に接近するときに、
は単一ステップの展開に接近し、このときに、
にオフポリシー偏差がないが、フォーサイト情報が利用されていない。
が増加するについて、
により多くのｎ－ｓｔｅｐのフォーサイト情報が含まれることになり、同時に、より多くの偏差が引き出される。したがって、
は、フォーサイトの報酬情報とオフポリシー偏差とのバランスを取る役割を果たす。
とステップ数ｎを調整することによって、フォーサイトの報酬情報をよりよく利用することができる。

図９は、本開示の実施例に提供されるフォーサイトによる経験再生と後知恵による経験再生を結合する方法のフローチャートである。ここで、方法は、下記のステップを含む。

ステップＳ９０１において、環境との交互データ（即ち、環境交互データ）
を取得する。

ステップＳ９０２において、実際に完成した目標
をサンプリングする。

ステップＳ９０３において、報酬関数に基づいて報酬値
を再計算する。

ステップＳ９０４において、算出した報酬値
を採用して、更新によって新しい環境交互データ
を得る。

ここで、ステップＳ９０３乃至ステップＳ９０４は、後知恵による経験再生に関する技術である。

ステップＳ９０５において、新しい環境交互データに基づいて複数ステップで展開された
を計算する。

ステップＳ９０６において、
を計算して価値関数を更新する。

ここで、ステップＳ９０５乃至ステップＳ９０６は、フォーサイトによる経験再生に関する技術である。

ステップＳ９０７において、新しい環境交互データと古い環境交互データを使用して一緒にオフポリシーを訓練する。

本開示の実施例に提供されるロボット制御方法は、多目標ロボット制御に適用されることができ、データの利用効率を大幅に向上させ、訓練速度を加速させる。同時に、目標空間全体を完成するポリシーを学習することができ、汎用性がより高い。

下記の表１は、本開示の実施例における方法と関連技術における方法との実現結果の対比である。それぞれは、模擬環境Ｆｅｔｃｈ、Ｈａｎｄの８つの任務を使用してテストを行い、Ｆｅｔｃｈは、機械腕を操作することを表し、Ｈａｎｄは、機械手を操作することを表す。ここで、ＤＤＰＧは、関連技術における方法を表し、ｎ－ｓｔｅｐＤＤＰＧは、フォーサイトによる経験再生を表し、ＨＥＲは、後知恵による経験再生を表し、ＭＨＥＲは、本開示の実施例に提供されるフォーサイトによる経験再生を後知恵による経験再生を結合する方法を表す。比較結果は、同じ回数の訓練を完了した（Ｆｅｔｃｈで）後に任務を完成した平均成功率である。表１から分かるように、本開示の実施例の方法は、同じ回数で訓練された場合の表現が最も良い。

図１０Ａ乃至図１０Ｈは、本開示の実施例の方法を採用して異なる任務のテスト過程の概略図である。図１０Ａは、手が伸びる概略図（ＨａｎｄＲｅａｃｈ）であり、ここで、暗影１００１付きの手は、その親指と１つの選定された指を使用して、手のひらの上方の目標位置まで伸びなければならない。図１０Ｂは、手で立方体を制御する概略図（ＨａｎｄＢｌｏｃｋ）であり、手は、ブロック１００２を、期待目標位置に達するまで操らなければならなく、且つ、目標位置においてブロック１００２を回転する。図１０Ｃは、手がたまごを操作する概略図（ＨａｎｄＥｇｇ）であり、手は、たまご１００３又は球体を、理想の目標位置に達するまで操らなければならなく、且つ、目標位置にたまご１００３又は球体を回転する。図１０Ｄは、手がペンを操作する概略図（ＨａｎｄＰｅｎ）であり、手は、ペン１００４又は木の棒を、理想の目標位置に達するまで操らなければならなく、且つ、目標位置にペン１００４又は木の棒を回転する。図１０Ｅは、ロボットがある位置に到達する概略図（ＦｅｔｃｈＲｅａｃｈ）であり、ロボットのエンドエフェクタ１００５を必要な目標位置に移動しなければならない。図１０Ｆは、ロボットがスライドする概略図（ＦｅｔｃｈＳｌｉｄｅ）であり、ロボットは、一定の方向で移動しなければならなく、こうすると、ロボットがスライドし、且つ、必要な目標の上で待機する。図１０Ｇは、ロボットがプッシュする概略図（ＦｅｔｃｈＰｕｓｈ）であり、ロボットは、ボックス１００６が必要な目標位置に達するまで、ボックス１００６を移動しなければならない。図１０Ｈは、ロボットが拾う概略図（ＦｅｔｃｈＰｉｃｋ）であり、ロボットは、そのクリップで机の上からボックス１００７を取り上げ、且つ、ボックス１００７を机の上の目標位置に移動しなければならない。

説明すべきこととして、本開示の実施例に記載された指数関数的逓減する重みで加重平均する複数ステップの期待報酬以外、さらに、人工で手動で重みを設計し、又は、フォーサイトによる経験再生の複数ステップの期待報酬（ｎ－ｓｔｅｐｒｅｔｕｒｎ）を直接的に使用することができる。

以下では、本開示の実施例に提供されるロボット制御装置３５４がソフトウェアモジュールとして実施される例示的な構造について説明し続ける。いくつかの実施例において、図３に示すように、メモリ３５０のロボット制御装置３５４に記憶されたソフトウェアモジュールは、サーバ３００におけるロボット制御装置であり得、該ロボット制御装置は、
環境交互データを取得するように構成される第１取得モジュール３５４１であって、前記環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む、第１取得モジュール３５４１と、前記動作データに対応する動作を実行した後の実際に完成した実際目標値を取得するように構成される第２取得モジュール３５４２と、前記隣接する２つの時刻のうちの第１時刻の状態データ、前記動作データ及び前記実際目標値に基づいて、前記動作を実行した後の報酬値を決定するように構成される決定モジュール３５４３と、前記動作を実行した後の報酬値を採用して前記環境交互データにおける報酬値を更新し、更新後の環境交互データを得るように構成される更新モジュール３５４４と、前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するように構成される訓練モジュール３５４５と、訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行うように構成される制御モジュール３５４６と、を含む。

いくつかの実施例において、前記訓練モジュールはさらに、各時刻に、前記更新後の環境交互データにおける前記目標値に基づいて、前記更新後の環境交互データにおける前記動作データを実行するように前記知的エージェントを制御することによって、次の時刻の状態データを得、前記次の時刻の報酬値を得、前記次の時刻の後のすべての未来時刻の報酬値を得、前記すべての未来時刻の前記報酬値に対応する累積報酬値を決定し、前記累積報酬値を最大化することを制御目標として、前記知的エージェントの訓練過程に対して制御を行うように構成される。

いくつかの実施例において、前記訓練モジュールはさらに、前記累積報酬値の期待累積報酬を決定し、前記期待累積報酬に基づいて初期動作価値関数を計算し、連続する複数の時刻の前記環境交互データを利用して、前記初期動作価値関数を展開し、展開された初期動作価値関数を得、それによって、前記初期動作価値関数の学習を加速させ、前記知的エージェントの訓練過程に対して制御を行うように構成される。

いくつかの実施例において、前記訓練モジュールはさらに、現在時刻の後の複数の連続する未来時刻のうちの各未来時刻の期待報酬値と所定の割引係数を取得し、前記割引係数と各未来時刻の前記期待報酬値に基づいて、前記展開された初期動作価値関数を得るように構成される。

いくつかの実施例において、前記訓練モジュールはさらに、前記動作価値関数の重みを得、前記重みの値は、０より大きく、且つ１より小さく、フォーサイトによる経験再生によって、連続する複数の未来時刻の前記環境交互データを利用して、前記重みに基づいて前記初期動作価値関数を展開し、前記展開された初期動作価値関数を得るように構成される。

いくつかの実施例において、前記重みに基づいて前記初期動作価値関数を展開することは、下記の数式によって実現され、
は、重み
に基づいてｎ個ステップで展開された初期動作価値関数を表し、
は、初期動作価値関数を表す。

いくつかの実施例において、前記装置はさらに、展開された初期動作価値関数に基づいて、次の時刻の動作データを決定するように構成される動作データ決定モジュールと、前記次の時刻の動作データを採用して前記環境交互データにおける前記動作データを更新し、更新後の環境交互データを得るように構成される第２更新モジュールと、を含み、前記訓練モジュールはさらに、前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するように構成される。

いくつかの実施例において、前記装置はさらに、前記現在の報酬値を採用して前記環境交互データにおける前記報酬値を更新するときに、前記累積報酬値に基づいて前記知的エージェントの実行ポリシーを決定するように構成される実行ポリシー決定モジュールと、前記実行ポリシーに基づいて次の時刻の動作データを選択するように構成される選択モジュールと、前記次の時刻の動作データを前記環境交互データ内へ更新し、前記更新後の環境交互データを得る第３更新モジュールと、を含む。

いくつかの実施例において、前記知的エージェントが前記動作を実行した後に、前記知的エージェントの現在位置する環境の状態は次の時刻の状態に遷移され、前記次の時刻の状態は前記次の時刻の状態データに対応し、前記装置はさらに、前記次の時刻の状態データを前記環境交互データ内へ更新し、前記更新後の環境交互データを得るように構成される第４更新モジュールを含む。

いくつかの実施例において、前記目標値は複数であり、前記装置はさらに、前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するときに、次の時刻の複数の前記目標値を同時に決定するように構成される同時決定モジュールと、決定された次の時刻の複数の目標値を前記環境交互データ内へ更新するように構成される第５更新モジュールと、を含む。

説明すべきこととして、本開示の実施例の装置の記載は、上記の方法の実施例の記載と類似しており、方法の実施例と類似する有益な効果を奏しており、ここで繰り返すことはない。本装置の実施例で開示されていない技術的な詳細について、本開示の方法の実施例の説明を参照して理解すること。

本開示の実施例は、コンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムを提供し、該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取り、プロセッサは、該コンピュータ命令を実行し、該コンピュータ機器に本開示の実施例に提供されるロボット制御方法を実行させる。

本開示の実施例は、実行可能な命令を記憶したコンピュータ可読記憶媒体を提供し、実行可能な命令がプロセッサに実行されるときに、プロセッサに本開示の実施例に提供されるロボット制御方法、例えば、図４に示すような方法を実現させる。

いくつかの実施例において、記憶媒体は、コンピュータ可読記憶媒体であり得、例えば、磁気ランダム・アクセス・メモリ（ＦＲＡＭ（登録商標）：ＦｅｒｒｏｍａｇｎｅｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、リード・オンリー・メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、プログラマブル・リード・オンリー・メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、消去可能なプログラマブル・リード・オンリー・メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、電気的に消去可能なプログラマブル・リード・オンリー・メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、フラッシュ・メモリ、磁気面メモリ、ＣＤ、又はＣＤリード・オンリー・メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）などのメモリであり、又は、上記のメモリの１つ又は任意の組み合わせを含む様々な機器でもあり得る。

いくつかの実施例において、実行可能な命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト、又はコードの方式を採用して、任意の形態のプログラミング言語（コンパイル言語又は解釈言語、又は、宣言型又は過程型言語を含む）で書かれることができ、且つ、独立のプログラムとして配置されることと、又は、モジュール、コンポーネント、サブルーチン又は計算環境において使用に相応する他のユニットとして配置されることと、を含み、任意の形態として配置されることができる。

例として、実行可能な命令は、ファイルシステムにおけるファイルに対応することができるが、必ずしもそうではなく、他のプログラム又はデータを保存するファイルの一部に記憶されることができ、例えば、ハイパー・テキスト・マークアップ言語（ＨＴＭＬ：ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書における１つ又は複数のスクリプトに記憶され、議論されるプログラムに専用の単一ファイルに記憶され、又は、複数の協同ファイル（例えば、１つ又は複数のモジュール、サブルーチン、又はコード部分を記憶するファイル）に記憶される。例として、実行可能な命令は、１つの計算機器で実行され、又は、１つの場所に位置する複数の計算機器で実行され、又は、複数の場所に分散されて通信ネットワークによって相互接続される複数の計算機器で実行されるように配置されることができる。

上記の内容は、本開示の実施例に過ぎず、本開示の保護範囲を限定することを意図するものではない。本開示の精神と範囲内で行われた任意の変更、等価置換、改良などは、本開示の保護範囲に含まれる。

１０ロボット制御システム
１１ロボット模擬環境
１２価値推定ネットワーク
１３動作選択ネットワーク
１００ロボット
２００知的エージェント
３００サーバ
３１０プロセッサ
３２０ネットワークインターフェース
３３０ユーザインタフェース
３４０バスシステム
３５０メモリ
３５１オペレーティングシステム
３５２ネットワーク通信モジュール
３５３入力処理モジュール
３５４ロボット制御装置
３５４１第１取得モジュール
３５４２第２取得モジュール
３５４３決定モジュール
３５４４更新モジュール
３５４５訓練モジュール
３５４６制御モジュール
４００ロボット制御機器

Claims

ロボット制御機器が実行する、ロボット制御方法であって、
環境交互データを取得するステップであって、前記環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む、ステップと、
前記動作データに対応する動作を実行した後の実際に完成した実際目標値を取得するステップと、
前記隣接する２つの時刻のうちの第１時刻の状態データ、前記動作データ及び前記実際目標値に基づいて、前記動作を実行した後の報酬値を決定するステップと、
前記動作を実行した後の報酬値を採用して前記環境交互データにおける報酬値を更新し、更新後の環境交互データを得るステップと、
前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するステップと、
訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行うステップと、を含む、ロボット制御方法。
前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するステップは、
各時刻に、前記更新後の環境交互データにおける前記目標値に基づいて、前記更新後の環境交互データにおける前記動作データを実行するように前記知的エージェントを制御することによって、次の時刻の状態データを得、前記次の時刻の報酬値を得るステップと、
前記次の時刻の後のすべての未来時刻の報酬値を取得するステップと、
前記すべての未来時刻の前記報酬値に対応する累積報酬値を決定するステップと、
前記累積報酬値を最大化することを制御目標として、前記知的エージェントの訓練過程に対して制御を行うステップと、を含む、
請求項１に記載のロボット制御方法。
前記累積報酬値を最大化することを制御目標として、前記知的エージェントの訓練過程に対して制御を行うステップは、
前記累積報酬値の期待累積報酬を決定するステップと、
前記期待累積報酬に基づいて初期動作価値関数を計算するステップと、
連続する複数の時刻の前記環境交互データを利用して、前記初期動作価値関数を展開し、展開された初期動作価値関数を得、それによって、前記初期動作価値関数の学習を加速させ、前記知的エージェントの訓練過程に対して制御を行うステップと、を含む、
請求項２に記載のロボット制御方法。
連続する複数の時刻の前記環境交互データを利用して、前記初期動作価値関数を展開し、展開された初期動作価値関数を得るステップは、
現在時刻の後の複数の連続する未来時刻のうちの各未来時刻の期待報酬値と所定の割引係数を取得するステップと、
前記割引係数と各未来時刻の前記期待報酬値に基づいて、前記展開された初期動作価値関数を得るステップと、を含む、
請求項３に記載のロボット制御方法。
連続する複数の時刻の前記環境交互データを利用して、前記初期動作価値関数を展開し、展開された初期動作価値関数を得るステップは、
前記初期動作価値関数の重みを取得するステップであって、前記重みの値は、０より大きく、且つ１より小さい、ステップと、
フォーサイトによる経験再生によって、連続する複数の未来時刻の前記環境交互データを利用して、前記重みに基づいて前記初期動作価値関数を展開し、前記展開された初期動作価値関数を得るステップと、を含む、
請求項３に記載のロボット制御方法。
前記重みに基づいて前記初期動作価値関数を展開するステップは、
によって実現され、
は、重み
に基づいてｎ個ステップで展開した初期動作価値関数を表し、
は、初期動作価値関数を表す、
請求項５に記載のロボット制御方法。
前記ロボット制御方法はさらに、
前記展開された初期動作価値関数に基づいて、次の時刻の動作データを決定するステップと、
前記次の時刻の動作データを採用して前記環境交互データにおける前記動作データを更新し、更新後の環境交互データを得るステップと、
前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するステップと、を含む、
請求項３に記載のロボット制御方法。
前記ロボット制御方法はさらに、
現在の報酬値を採用して前記環境交互データにおける前記報酬値を更新するときに、前記累積報酬値に基づいて前記知的エージェントの実行ポリシーを決定するステップと、
前記実行ポリシーに基づいて次の時刻の動作データを選択するステップと、
前記次の時刻の動作データを前記環境交互データ内へ更新し、前記更新後の環境交互データを得るステップと、を含む、
請求項２に記載のロボット制御方法。
前記知的エージェントが前記動作を実行した後に、前記知的エージェントの現在位置する環境の状態は次の時刻の状態に遷移され、前記次の時刻の状態は前記次の時刻の状態データに対応し、前記ロボット制御方法はさらに、
前記次の時刻の状態データを前記環境交互データ内へ更新し、前記更新後の環境交互データを得るステップを含む、
請求項１～８のいずれか１項に記載のロボット制御方法。
前記目標値は複数であり、前記ロボット制御方法はさらに、
前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するときに、次の時刻の複数の前記目標値を同時に決定するステップと、
決定された次の時刻の複数の目標値を前記環境交互データ内へ更新するステップと、を含む、
請求項１～８のいずれか１項に記載のロボット制御方法。
ロボット制御装置であって、
環境交互データを取得するように構成される第１取得モジュールであって、前記環境交互データは、少なくとも隣接する２つの時刻における状態データ、動作データ、報酬値、及び目標値を含む、第１取得モジュールと、
前記動作データに対応する動作を実行した後の実際に完成した実際目標値を取得するように構成される第２取得モジュールと、
前記隣接する２つの時刻のうちの第１時刻の状態データ、前記動作データ及び前記実際目標値に基づいて、前記動作を実行した後の報酬値を決定するように構成される決定モジュールと、
前記動作を実行した後の報酬値を採用して前記環境交互データにおける報酬値を更新し、更新後の環境交互データを得るように構成される更新モジュールと、
前記更新後の環境交互データを採用してロボット制御ネットワークに対応する知的エージェントを訓練するように構成される訓練モジュールと、
訓練後の知的エージェントを採用して目標ロボットの動作に対して制御を行うように構成される制御モジュールと、を含む、ロボット制御装置。
実行可能な命令を記憶するためのメモリと、前記メモリに記憶された実行可能な命令を実行するときに、請求項１～１０のいずれか１項に記載のロボット制御方法を実現するためのプロセッサと、を含む、ロボット制御機器。
実行可能な命令を記憶したコンピュータ可読記憶媒体であって、前記実行可能な命令を実行するときに、プロセッサに請求項１～１０のいずれか１項に記載のロボット制御方法を実現させるために用いられる、コンピュータ可読記憶媒体。
コンピュータプログラム又は命令を含むコンピュータプログラム製品であって、前記コンピュータプログラム又は命令がプロセッサによって実行されるときに、プロセッサに請求項１～１０のいずれか１項に記載のロボット制御方法を実現させる、コンピュータプログラム製品。