JP2021509185A

JP2021509185A - 機器移動の制御方法、制御装置、記憶媒体及び電子機器

Info

Publication number: JP2021509185A
Application number: JP2019570847A
Authority: JP
Inventors: 兆祥 ▲劉▼; 士国廉; 少▲華▼ 李
Original assignee: Cloudminds Shenzhen Robotics Systems Co Ltd
Current assignee: Cloudminds Shenzhen Robotics Systems Co Ltd
Priority date: 2018-11-27
Filing date: 2019-11-13
Publication date: 2021-03-18
Anticipated expiration: 2039-11-13
Also published as: CN109697458A; US20210271253A1; WO2020108309A1; JP6915909B2

Abstract

本開示は、機器移動の制御方法、制御装置、記憶媒体及び電子機器に関し、該制御方法は、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集するステップと、該第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得するステップと、事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、該第２ＲＧＢ−Ｄ画像に基づいて該ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るステップと、該ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得するステップと、該ターゲットＲＧＢ−Ｄ画像を該ターゲットＤＱＮモデルに入力して、該ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するステップと、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御するステップと、を含む。

Description

本開示は、ナビゲーション分野に関し、具体的には、機器移動の制御方法、制御装置、記憶媒体及び電子機器に関する。

技術の持続的な進歩に伴い、無人自動車、ロボットなどの移動機器の自動ナビゲーション技術は、研究の焦点となり、近年、深層学習は、持続的に発展を遂げ、特に深層学習における畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）は、ターゲット認識、画像分類などの分野において大きな飛躍を遂げ、深層学習に基づく自動運転、知能ロボットのナビゲーションなどに関連する技術も絶えず開発されてきた。

従来技術では、エンドツーエンドの学習アルゴリズム（たとえばＤｅｅｐＤｒｉｖｉｎｇ技術、Ｎｖｉｄｉａ技術等）を用いて上記移動機器の自動ナビゲーションを行うのが一般的であるが、このようなエンドツーエンドの学習アルゴリズムには、サンプルの手動ラベル付けが必要であり、且つ実際の訓練シナリオにおいて、サンプルを収集するために大量の人力や物力がかかるため、従来のナビゲーションアルゴリズムの実用性及び汎用性が好ましくない。

本開示は、機器移動の制御方法、制御装置、記憶媒体及び電子機器を提供する。

本開示の実施例の第１態様によれば、機器移動の制御方法を提供し、前記方法は、ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集するステップと、前記第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得するステップと、事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、前記第２ＲＧＢ−Ｄ画像に基づいて前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るステップと、前記ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得するステップと、前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するステップと、前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するステップと、を含む。

好ましくは、前記第２ＲＧＢ−Ｄ画像に基づいて前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得る前記ステップは、前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得るステップと、前記第１出力パラメータに基づいて第１制御ストラテジーを決定し、前記ターゲット機器が前記第１制御ストラテジーに従って移動するように制御するステップと、前記ターゲット機器と周囲障害物との相対位置情報を取得するステップと、前記相対位置情報に基づいて前記第１制御ストラテジーを評価してスコアを得るステップと、前記ＤＱＮ訓練モデルのモデルパラメータに基づいて生成されるＤＱＮモデルを含むＤＱＮチェックモデルを取得するステップと、前記スコア及び前記ＤＱＮチェックモデルに基づいて、前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るステップと、を含む。

好ましくは、前記ＤＱＮ訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得る前記ステップは、所定のフレーム数の前記第２ＲＧＢ−Ｄ画像を畳み込み層に入力して第１画像特徴を抽出し、前記第１画像特徴を完全接続層に入力し、前記ＤＱＮ訓練モデルの第１出力パラメータを得るステップを含む。

好ましくは、前記ＤＱＮ訓練モデルは、複数の畳み込みニューラルネットワークＣＮＮネットワーク、複数のリカレントニューラルネットワークＲＮＮネットワーク及び完全接続層を備え、異なるＣＮＮネットワークは、異なるＲＮＮネットワークに接続され、且つ前記ＲＮＮネットワークのターゲットＲＮＮネットワークは、前記完全接続層に接続され、前記ターゲットＲＮＮネットワークは、前記ＲＮＮネットワークのうちのいずれか１つのＲＮＮネットワークを含み、複数の前記ＲＮＮネットワークは順次接続され、前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得る前記ステップは、各フレームの前記第２ＲＧＢ−Ｄ画像をそれぞれ異なるＣＮＮネットワークに入力して第２画像特徴を抽出するステップと、前記第２画像特徴を前記ＣＮＮネットワークに接続された現在のＲＮＮネットワークに入力し、前記第２画像特徴及び前のＲＮＮネットワークから入力された第３画像特徴に基づいて、前記現在のＲＮＮネットワークにより第４画像特徴を得て、前記第４画像特徴を次のＲＮＮネットワークに入力することと、前記次のＲＮＮネットワークを、更新した現在のＲＮＮネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットＲＮＮネットワークから出力された第５画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行するステップと、前記第５画像特徴が取得されると、前記第５画像特徴を完全接続層に入力して、前記ＤＱＮ訓練モデルの第１出力パラメータを得るステップと、を含む。

好ましくは、前記スコア及び前記ＤＱＮチェックモデルに基づいて、前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得る前記ステップは、前記ターゲット機器の現在の周辺環境の第３ＲＧＢ−Ｄ画像を取得するステップと、前記第３ＲＧＢ−Ｄ画像を前記ＤＱＮチェックモデルに入力して第２出力パラメータを得るステップと、前記スコア及び前記第２出力パラメータに基づいて所望の出力パラメータを算出するステップと、前記第１出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得るステップと、所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記ＤＱＮ訓練モデルを訓練し、前記ターゲットＤＱＮモデルを得るステップと、を含む。

好ましくは、前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、前記ターゲット出力パラメータを得る前記ステップは、前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、複数の決定対象出力パラメータを得るステップと、複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するステップと、を含む。

本開示の実施例の第２態様によれば、機器移動の制御装置を提供し、前記装置は、ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集するための画像収集モジュールと、前記第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得するための第１取得モジュールと、事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、前記第２ＲＧＢ−Ｄ画像に基づいて前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るための訓練モジュールと、前記ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得するための第２取得モジュールと、前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュールと、前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するための制御モジュールと、を含む。

好ましくは、前記訓練モジュールは、前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得るための第１決定サブモジュールと、前記第１出力パラメータに基づいて第１制御ストラテジーを決定し、前記ターゲット機器が前記第１制御ストラテジーに従って移動するように制御するための制御サブモジュールと、前記ターゲット機器と周囲障害物との相対位置情報を取得するための第１取得サブモジュールと、前記相対位置情報に基づいて前記第１制御ストラテジーを評価してスコアを得るための第２決定サブモジュールと、前記ＤＱＮ訓練モデルのモデルパラメータに基づいて生成されるＤＱＮモデルを含むＤＱＮチェックモデルを取得するための第２取得サブモジュールと、前記スコア及び前記ＤＱＮチェックモデルに基づいて、前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るための訓練サブモジュールと、を備える。

好ましくは、前記ＤＱＮ訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第１決定サブモジュールは、所定のフレーム数の前記第２ＲＧＢ−Ｄ画像を畳み込み層に入力して第１画像特徴を抽出し、前記第１画像特徴を完全接続層に入力し、前記ＤＱＮ訓練モデルの第１出力パラメータを得る。

好ましくは、前記ＤＱＮ訓練モデルは、複数の畳み込みニューラルネットワークＣＮＮネットワーク、複数のリカレントニューラルネットワークＲＮＮネットワーク及び完全接続層を備え、異なるＣＮＮネットワークは、異なるＲＮＮネットワークに接続され、且つ前記ＲＮＮネットワークのターゲットＲＮＮネットワークは、前記完全接続層に接続され、前記ターゲットＲＮＮネットワークは、前記ＲＮＮネットワークのうちのいずれか１つのＲＮＮネットワークを含み、複数の前記ＲＮＮネットワークは順次接続され、前記第１決定サブモジュールは、
各フレームの前記第２ＲＧＢ−Ｄ画像をそれぞれ異なるＣＮＮネットワークに入力して第２画像特徴を抽出し、
前記第２画像特徴を前記ＣＮＮネットワークに接続された現在のＲＮＮネットワークに入力し、前記第２画像特徴及び前のＲＮＮネットワークから入力された第３画像特徴に基づいて、前記現在のＲＮＮネットワークにより第４画像特徴を得て、前記第４画像特徴を次のＲＮＮネットワークに入力することと、前記次のＲＮＮネットワークを、更新した現在のＲＮＮネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットＲＮＮネットワークから出力された第５画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
前記第５画像特徴が取得されると、前記第５画像特徴を完全接続層に入力して、前記ＤＱＮ訓練モデルの第１出力パラメータを得る。

好ましくは、前記訓練サブモジュールは、
前記ターゲット機器の現在の周辺環境の第３ＲＧＢ−Ｄ画像を取得し、
前記第３ＲＧＢ−Ｄ画像を前記ＤＱＮチェックモデルに入力して第２出力パラメータを得て、
前記スコア及び前記第２出力パラメータに基づいて所望の出力パラメータを算出し、
前記第１出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記ＤＱＮ訓練モデルを訓練し、前記ターゲットＤＱＮモデルを得る。

好ましくは、前記決定モジュールは、前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、複数の決定対象出力パラメータを得るための第３決定サブモジュールと、複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するための第４決定サブモジュールと、を備える。

本開示の実施例の第３態様によれば、コンピュータープログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムは、プロセッサにより実行されると本開示の第１態様の前記方法のステップを実現するコンピュータ可読記憶媒体を提供する。

本開示の実施例の第４態様によれば、電子機器を提供し、前記電子機器は、コンピュータープログラムが記憶されたメモリと、本開示の第１態様の前記方法のステップを実現するように、前記メモリにおける前記コンピュータープログラムを実行するプロセッサと、を備える。

上記技術案によれば、ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集し、前記第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得し、事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、前記第２ＲＧＢ−Ｄ画像に基づいて前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得て、前記ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得し、前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御し、それによって、深層強化学習（ＤｅｅｐＱＮｅｔｗｏｒｋ、ＤＱＮ）モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。

本開示のほかの特徴及び利点は、以下の発明を実施するための形態において詳細に説明する。

図面は、本開示をさらに理解するために提供されるものであり、明細書の一部を構成し、以下の発明を実施するための形態とともに本開示を解釈するが、本開示を制限するものではない。
例示的な一実施例に示される機器移動の制御方法のフローチャートである。例示的な一実施例に示される別の機器移動の制御方法のフローチャートである。例示的な一実施例に示されるＤＱＮモデルの構造模式図である。例示的な一実施例に示される別のＤＱＮモデルの構造模式図である。例示的な一実施例に示される第１の機器移動の制御装置のブロック図である。例示的な一実施例に示される第２の機器移動の制御装置のブロック図である。例示的な一実施例に示される第３の機器移動の制御装置のブロック図である。例示的な一実施例に示される電子機器のブロック図である。

以下、図面を参照しながら本開示の特定の実施形態を詳細に説明する。なお、ここで述べられた特定の実施形態は、本開示を説明して解釈するために過ぎず、本開示を制限するものではない。

本開示は、機器移動の制御方法、制御装置、記憶媒体及び電子機器を提供し、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集し、該第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得し、事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、該第２ＲＧＢ−Ｄ画像に基づいて該ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得て、該ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得し、該ターゲットＲＧＢ−Ｄ画像を該ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御し、それによって、深層強化学習（ＤｅｅｐＱＮｅｔｗｏｒｋ、ＤＱＮ）モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。

以下、図面を参照しながら、本開示の特定の実施形態を詳細に説明する。

図１は、例示的な一実施例に示される機器移動の制御方法であり、図１に示されるように、該方法は、ステップＳ１０１〜ステップＳ１０６を含む。

Ｓ１０１、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集する。

ここで、該ターゲット機器は、ロボット、自動運転車両などの移動可能な機器を含んでもよく、該ＲＧＢ−Ｄ画像は、ＲＧＢカラー画像特徴を含むとともに深度画像特徴を含むＲＧＢ−Ｄの４チャンネル画像であってもよく、該ＲＧＢ−Ｄ画像は、従来のＲＧＢ画像に比べて、ナビゲーションストラテジー決定のために豊富な情報を提供できる。

１つの可能な実現形態では、ＲＧＢ−Ｄ画像収集装置（たとえば、ＲＧＢ−Ｄカメラ又は双眼カメラ）を用いて該所定周期ごとに該ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集できる。

Ｓ１０２、該第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得する。

本開示の目的が新しく収集された該ターゲット機器の周辺環境の画像情報に基づいて該ターゲット機器のナビゲーション制御ストラテジーを決定することにあるため、１つの可能な実現形態では、該ターゲット機器の周辺環境における障害物の位置及び速度の情報を暗黙的に含むマルチフレームＲＧＢ−Ｄ画像シーケンスを入力することができ、該マルチフレームＲＧＢ−Ｄ画像シーケンスは、所定のフレーム数の第２ＲＧＢ−Ｄ画像である。

Ｓ１０３、事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、該第２ＲＧＢ−Ｄ画像に基づいて該ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得る。

深層強化学習モデルの訓練が試みとフィードバックにより実現され、即ち、学習中にターゲット機器が衝突するなどの危険があるため、深層強化学習モデルによるナビゲーション時の安全性を高めるために、１つの可能な実現形態では、予めシミュレーション環境において訓練を行って、該ＤＱＮ訓練モデルを得ることができ、たとえば、ＡｉｒＳｉｍ、ＣＡＲＬＡなどの自動運転シミュレーション環境を利用して自動運転ナビゲーションモデルの事前訓練を行うことができるし、Ｇａｚｅｂｏロボットシミュレーション環境を利用してロボットの自動ナビゲーションモデルの事前訓練を行うことができる。

また、シミュレーション環境と実際の環境には差異があり、たとえば、シミュレーション環境の照明条件、画像テクスチャなどには実際の環境とは差異があるので、実際の環境下で収集されたＲＧＢ−Ｄ画像とシミュレーション環境下で収集されたＲＧＢ−Ｄ画像では、輝度、テクスチャなどの画像特徴にも差異があるため、シミュレーション環境で訓練された該ＤＱＮ訓練モデルを直接実際の環境におけるナビゲーションに適用すると、実際の環境において該ＤＱＮ訓練モデルでナビゲーションするときの誤差が大きくなり、この場合、該ＤＱＮ訓練モデルが実際の環境に適用できるようにするために、１つの可能な実現形態では、実際の環境の該ＲＧＢ−Ｄ画像を収集して、該実際の環境で収集された該ＲＧＢ−Ｄ画像を該ＤＱＮ訓練モデルの入力とし、該ＤＱＮ訓練モデルに対して移転訓練を行い、実際の環境に適している該ターゲットＤＱＮモデルを得ることによって、モデル訓練難度を低減させるとともに、ネットワーク全体の訓練速度を向上させる。

本ステップでは、該第２ＲＧＢ−Ｄ画像を該ＤＱＮ訓練モデルの入力として、該ＤＱＮ訓練モデルの第１出力パラメータを得て、該第１出力パラメータに基づいて第１制御ストラテジーを決定し、該ターゲット機器が該第１制御ストラテジーに従って移動するように制御し、該ターゲット機器と周囲障害物の相対位置情報を取得し、該相対位置情報に基づいて該第１制御ストラテジーを評価してスコアを得て、該ＤＱＮ訓練モデルのモデルパラメータに基づいて生成されるＤＱＮモデルを含み得るＤＱＮチェックモデルを取得し、該スコア及び該ＤＱＮチェックモデルに基づいて該ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るようにしてもよい。

該第１出力パラメータは、複数の決定対象出力パラメータのうちの最大パラメータを含んでもよいし、該複数の決定対象出力パラメータから１つの出力パラメータをランダムに選択して、該第１出力パラメータ（それによって該ＤＱＮモデルの汎化能力を向上できる）としてもよく、該出力パラメータは、ＤＱＮモデルが出力するＱ値を含み、該決定対象出力パラメータは、複数の所定制御ストラテジー（たとえば、加速、減速、制動、左折、右折などの制御ストラテジー）のそれぞれに対応するＱ値を含み、該相対位置情報は、該ターゲット機器と該ターゲット機器の周囲障害物との距離情報又は角度情報などを含んでもよく、該ＤＱＮチェックモデルは、ＤＱＮモデル訓練においてモデルの所望の出力パラメータを更新することに用いられる。

該第２ＲＧＢ−Ｄ画像を該ＤＱＮ訓練モデルの入力として、該ＤＱＮ訓練モデルの第１出力パラメータを得るに当たって、以下の２種の方式のうちのいずれか１つによって実現され得る。

方式１、該ＤＱＮ訓練モデルは、畳み込み層と、該畳み込み層に接続された完全接続層を備え、本方式１におけるＤＱＮ訓練モデルのモデル構造によれば、所定のフレーム数の該第２ＲＧＢ−Ｄ画像を畳み込み層に入力して第１画像特徴を抽出し、該第１画像特徴を完全接続層に入力して、該ＤＱＮ訓練モデルの第１出力パラメータを得ることができる。

方式２、該ＤＱＮ訓練モデルは、複数の畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）ＣＮＮネットワーク、複数のリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）ＲＮＮネットワーク及び完全接続層を含み、異なるＣＮＮネットワークは、異なるＲＮＮネットワークに接続され、且つ該ＲＮＮネットワークのターゲットＲＮＮネットワークは、該完全接続層に接続され、該ターゲットＲＮＮネットワークは、該ＲＮＮネットワークのうちのいずれか１つのＲＮＮネットワークを含み、複数の該ＲＮＮネットワークは順次接続され、本方式２におけるＤＱＮ訓練モデルのモデル構造によれば、各フレームの該第２ＲＧＢ−Ｄ画像をそれぞれ異なるＣＮＮネットワークに入力して第２画像特徴を抽出し、該第２画像特徴を該ＣＮＮネットワークに接続された現在のＲＮＮネットワークに入力し、該第２画像特徴と前のＲＮＮネットワークから入力された第３画像特徴に基づいて、該現在のＲＮＮネットワークにより第４画像特徴を得て、該第４画像特徴を次のＲＮＮネットワークに入力することと、該次のＲＮＮネットワークを、更新した現在のＲＮＮネットワークとして決定することとを含む特徴抽出ステップを、該ターゲットＲＮＮネットワークから出力された第５画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、該第５画像特徴が取得されると、該第５画像特徴を完全接続層に入力して、該ＤＱＮ訓練モデルの第１出力パラメータを得る。

ここで、該ＲＮＮネットワークは、長期短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）を含み得る。

なお、一般的な畳み込みニューラルネットワークは、畳み込み層及び該畳み込み層に接続されるプーリング層を備え、畳み込み層は、画像特徴を抽出することに用いられ、プーリング層は、畳み込み層で抽出された画像特徴に次元削減（たとえば、平均値サンプリング又は最大値サンプリング）をすることに用いられ、方式２におけるＤＱＮモデル構造のＣＮＮ畳み込みニューラルネットワークがプーリング層を備えないため、畳み込み層で抽出されたすべての画像特徴が保持され、それによって、モデルが最適なナビゲーション制御ストラテジーを決定するためにより多くの参照情報を提供し、モデルナビゲーションの正確率を向上させる。

また、該スコア及び該ＤＱＮチェックモデルに基づいて該ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得る際に、該ターゲット機器の現在の周辺環境の第３ＲＧＢ−Ｄ画像を取得し、該第３ＲＧＢ−Ｄ画像を該ＤＱＮチェックモデルに入力して第２出力パラメータを得て、該スコア及び該第２出力パラメータに基づいて所望の出力パラメータを算出し、該第１出力パラメータ及び該所望の出力パラメータに基づいて訓練誤差を得て、所定の誤差関数を取得して、該訓練誤差及び該所定の誤差関数に基づいて、逆伝播アルゴリズムにより該ＤＱＮ訓練モデルを訓練し、該ターゲットＤＱＮモデルを得る。

該第３ＲＧＢ−Ｄ画像は、該ターゲット機器が該第１制御ストラテジーに基づいて移動するように制御された後に収集された該ＲＧＢ−Ｄ画像に含まれ、該第２出力パラメータは、該ＤＱＮチェックモデルから出力された複数の決定対象出力パラメータのうちの最大パラメータを含むようにしてもよい。

また、なお、該ターゲット機器に給電されると、該ターゲット機器のＲＧＢ−Ｄ画像収集装置は、該所定周期ごとに該ターゲット機器の周辺環境のＲＧＢ−Ｄ画像を収集し、移転訓練により該ターゲットＤＱＮモデルを得るまでに、新しく収集された所定のフレーム数のＲＧＢ−Ｄ画像に基づいて該ＤＱＮ訓練モデルにより制御ストラテジーを決定し、該ターゲット機器を制御して起動させることができる。

Ｓ１０４、該ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得する。

Ｓ１０５、該ターゲットＲＧＢ−Ｄ画像を該ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定する。

本ステップでは、該ターゲットＲＧＢ−Ｄ画像を該ターゲットＤＱＮモデルに入力して、複数の決定対象出力パラメータを得て、複数の該決定対象出力パラメータのうちの最大パラメータを該ターゲット出力パラメータとして決定することができる。

Ｓ１０６、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御する。

上記方法によれば、深層強化学習モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。

図２は、例示的な一実施例に示される機器移動の制御方法のフローチャートであり、図２に示されるように、該方法は、ステップＳ２０１〜ステップＳ２１６を含む。

Ｓ２０１、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集する。

該ターゲット機器は、ロボット、自動運転車両などの移動可能な機器を含んでもよく、該ＲＧＢ−Ｄ画像は、ＲＧＢカラー画像特徴を含むとともに深度画像特徴を含むＲＧＢ−Ｄの４チャンネル画像であってもよく、該ＲＧＢ−Ｄ画像は、従来のＲＧＢ画像に比べて、ナビゲーションストラテジー決定のために豊富な情報を提供できる。

Ｓ２０２、該第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得する。

本開示の目的が新しく収集された該ターゲット機器の周辺環境の画像情報に基づいて該ターゲット機器のナビゲーション制御ストラテジーを決定することにあるため、１つの可能な実現形態では、該ターゲット機器の周辺環境における障害物の位置及び速度の情報を暗黙的に含むマルチフレームＲＧＢ−Ｄ画像シーケンスを入力することができ、該マルチフレームＲＧＢ−Ｄ画像シーケンスは、所定のフレーム数の第２ＲＧＢ−Ｄ画像であり、たとえば、図３及び図４に示されるように、該所定のフレーム数の第２ＲＧＢ−Ｄ画像は、１フレーム目のＲＧＢ−Ｄ画像、２フレーム目のＲＧＢ−Ｄ画像、．．．．．．、ｎフレーム目のＲＧＢ−Ｄ画像を含む。

Ｓ２０３、事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得する。

シミュレーション環境と実際の環境には差異があり、たとえば、シミュレーション環境の照明条件、画像テクスチャなどには実際の環境とは差異があるので、実際の環境下で収集されたＲＧＢ−Ｄ画像とシミュレーション環境下で収集されたＲＧＢ−Ｄ画像では、輝度、テクスチャなどの画像特徴にも差異があるため、シミュレーション環境で訓練された該ＤＱＮ訓練モデルを直接実際の環境におけるナビゲーションに適用すると、実際の環境において該ＤＱＮ訓練モデルでナビゲーションするときの誤差が大きくなり、この場合、該ＤＱＮ訓練モデルが実際の環境に適用できるようにするために、１つの可能な実現形態では、実際の環境の該ＲＧＢ−Ｄ画像を収集して、該実際の環境で収集された該ＲＧＢ−Ｄ画像を該ＤＱＮ訓練モデルの入力とし、該ＤＱＮ訓練モデルに対して移転訓練を行い、実際の環境に適している該ターゲットＤＱＮモデルを得ることによって、モデル訓練難度を低減させるとともに、ネットワーク全体の訓練速度を向上させる。

本実施例では、Ｓ２０４〜Ｓ２１３を実行することにより該ＤＱＮ訓練モデルに対して移転訓練を行い、該ターゲットＤＱＮモデルを決定できる。

Ｓ２０４、該第２ＲＧＢ−Ｄ画像を該ＤＱＮ訓練モデルの入力として、該ＤＱＮ訓練モデルの第１出力パラメータを得る。

該第１出力パラメータは、複数の決定対象出力パラメータのうちの最大パラメータを含んでもよいし、該複数の決定対象出力パラメータから１つの出力パラメータをランダムに選択して、該第１出力パラメータ（それによって該ＤＱＮモデルの汎化能力を向上できる）としてもよく、該出力パラメータは、ＤＱＮモデル出力のＱ値を含み、該決定対象出力パラメータは、複数の所定制御ストラテジー（たとえば、加速、減速、制動、左折、右折などの制御ストラテジー）のそれぞれに対応するＱ値を含むようにしてもよい。

本ステップは、以下の２種の方式のいずれか１つにより実現され得る。

方式１、図３に示されるように、該ＤＱＮ訓練モデルは、畳み込み層と、該畳み込み層に接続された完全接続層を備え、本方式１におけるＤＱＮ訓練モデルのモデル構造によれば、所定のフレーム数の該第２ＲＧＢ−Ｄ画像を畳み込み層に入力して第１画像特徴を抽出し、該第１画像特徴を完全接続層に入力して、該ＤＱＮ訓練モデルの第１出力パラメータを得ることができる。

たとえば、図３に示されるように、ＮフレームのＲＧＢ−Ｄ画像（即ち、図３に示される１フレーム目のＲＧＢ−Ｄ画像、２フレーム目のＲＧＢ−Ｄ画像、．．．．．．ｎフレーム目のＲＧＢ−Ｄ画像）を該ＤＱＮ訓練モデルの畳み込み層に入力し、また、各フレームのＲＧＢ−Ｄ画像が４チャンネル画像であるため、図３に示されるＤＱＮモデル構造によれば、Ｎ＊４チャンネルのＲＧＢ−Ｄ画像情報を畳み込み層に積層して入力して画像特徴を抽出することができ、それによって、該ＤＱＮモデルは、より十分な画像特徴に基づいて最適な制御ストラテジーを決定できる。

方式２、図４に示されるように、該ＤＱＮ訓練モデルは、複数の畳み込みニューラルネットワークＣＮＮネットワーク、複数のリカレントニューラルネットワークＲＮＮネットワーク及び完全接続層を備え、異なるＣＮＮネットワークは、異なるＲＮＮネットワークに接続され、且つ該ＲＮＮネットワークのターゲットＲＮＮネットワークは、該完全接続層に接続され、該ターゲットＲＮＮネットワークは、該ＲＮＮネットワークのうちのいずれか１つのＲＮＮネットワークを含み、複数の該ＲＮＮネットワークは順次接続され、本方式２におけるＤＱＮ訓練モデルのモデル構造によれば、各フレームの該第２ＲＧＢ−Ｄ画像をそれぞれ異なるＣＮＮネットワークに入力して第２画像特徴を抽出し、該第２画像特徴を該ＣＮＮネットワークに接続された現在のＲＮＮネットワークに入力し、該第２画像特徴及び前のＲＮＮネットワークから入力された第３画像特徴に基づいて、該現在のＲＮＮネットワークにより第４画像特徴を得て、該第４画像特徴を次のＲＮＮネットワークに入力することと、該次のＲＮＮネットワークを、更新した現在のＲＮＮネットワークとして決定することとを含む特徴抽出ステップを、該ターゲットＲＮＮネットワークから出力された第５画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、該第５画像特徴が取得されると、該第５画像特徴を完全接続層に入力して、該ＤＱＮ訓練モデルの第１出力パラメータを得る。

ここで、該ＲＮＮネットワークは、長期短期記憶ネットワークＬＳＴＭを含み得る。

Ｓ２０５、該第１出力パラメータに基づいて第１制御ストラテジーを決定し、該ターゲット機器が該第１制御ストラテジーに従って移動するように制御する。

一例として、該所定制御ストラテジーが左折、右折、加速の３つの制御ストラテジーを含む場合を例にして説明し、ここで、左折に対応する出力パラメータは、Ｑ１であり、右折に対応する出力パラメータは、Ｑ２であり、加速に対応する出力パラメータは、Ｑ３であり、該第１出力パラメータがＱ１である場合、該第１制御ストラテジーがＱ１に対応する左折であると判定し、この場合、該ターゲット機器が左折をするように制御し、上記例は、例示的な説明に過ぎず、本開示では、それについて限定しない。

Ｓ２０６、該ターゲット機器と周囲障害物との相対位置情報を取得する。

該相対位置情報は、該ターゲット機器と該ターゲット機器の周囲障害物との距離情報又は角度情報などを含んでもよい。

１つの可能な実現形態では、衝突検知センサで該相対位置情報を取得する。

Ｓ２０７、該相対位置情報に基づいて該第１制御ストラテジーを評価してスコアを得る。

１つの可能な実現形態では、所定評価ルールに従って該第１制御ストラテジーを評価して該スコアを得て、且つ該所定評価ルールは、実際の応用シナリオに応じて具体的に設定できる。

一例として、該ターゲット機器が自動運転車両であり、該相対位置情報が該車両と周囲障害物との距離情報である場合、該所定評価ルールは、該車両と障害物との距離が１０メートル以上であると判定する場合、該スコアを１０点、該車両と障害物との距離が５メートル以上、１０メートル未満であると判定する場合、該スコアを５点、該車両と障害物との距離が３メートルより大きく５メートル未満であると判定する場合、該スコアを３点、該車両と障害物との距離が３メートル以下であると判定する場合、該スコアを０点とするように設定されてもよく、この場合、該第１制御ストラテジーに従って該車両を制御して移動させた後、該車両と該障害物との距離情報に基づいて上記所定評価ルールに従って該スコアを決定できる。また、該相対位置情報が該車両と周囲障害物との角度情報である場合、該所定評価ルールは、障害物に対する該車両の角度が３０度以上であると判定する場合、該スコアを１０点、障害物に対する該車両の角度が１５度以上、３０度未満であると判定する場合、該スコアを５点、障害物に対する該車両の角度が１５度以下であると判定する場合、該スコアを０点とするように設定されてもよく、この場合、該第１制御ストラテジーに従って該車両を制御して移動させた後、障害物に対する該車両の角度情報に基づいて上記所定評価ルールに従って該スコアを決定でき、以上は、例示的に説明するものに過ぎず、本開示では、それについて限定しない。

Ｓ２０８、該ＤＱＮ訓練モデルのモデルパラメータに基づいて生成されるＤＱＮモデルを含むＤＱＮチェックモデルを取得する。

ここで、該ＤＱＮチェックモデルは、ＤＱＮモデルの訓練においてモデルの所望の出力パラメータを更新することに用いられる。

該ＤＱＮチェックモデルを生成するときに、初期時刻に、事前訓練されて得られた該ＤＱＮ訓練モデルのモデルパラメータを該ＤＱＮチェックモデルに割り当て、次に、移転訓練により該ＤＱＮ訓練モデルのモデルパラメータを更新し、その後、最新に更新された該ＤＱＮ訓練モデルのモデルパラメータを所定期間おきに該ＤＱＮチェックモデルに割り当て、該ＤＱＮチェックモデルを更新する。

Ｓ２０９、該ターゲット機器の現在の周辺環境の第３ＲＧＢ−Ｄ画像を取得する。

該第３ＲＧＢ−Ｄ画像は、該ターゲット機器が該第１制御ストラテジーに従って移動するように制御した後に収集された該ＲＧＢ−Ｄ画像に含まれてもよい。

Ｓ２１０、該第３ＲＧＢ−Ｄ画像を該ＤＱＮチェックモデルに入力して第２出力パラメータを得る。

該第２出力パラメータは、該ＤＱＮチェックモデルから出力された複数の決定対象出力パラメータのうちの最大パラメータを含んでもよい。

Ｓ２１１、該スコア及び該第２出力パラメータに基づいて所望の出力パラメータを算出する。

本ステップでは、該スコア及び該第２出力パラメータに基づいて以下の式により該所望の出力パラメータを決定できる。

式中、

は、該所望の出力パラメータを示し、

は、該スコアを示し、

は、調整因子を示し、

は、該第３ＲＧＢ−Ｄ画像を示し、

は、所定のフレーム数の該第３ＲＧＢ−Ｄ画像を該ＤＱＮチェックモデルに入力して得られた複数の決定対象出力パラメータを示し、

は、該第２出力パラメータ（即ち、該複数の決定対象出力パラメータのうちの最大パラメータ）を示し、

は、該第２出力パラメータに対応する第２制御ストラテジーを示す。

なお、１つの可能な実現形態では、該第２出力パラメータが該複数の決定対象出力パラメータのうちの最大パラメータである場合、該第２制御ストラテジーは、該第３ＲＧＢ−Ｄ画像を該ＤＱＮチェックモデルに入力して得られた最適制御ストラテジーである。

Ｓ２１２、該第１出力パラメータ及び該所望の出力パラメータに基づいて訓練誤差を得る。

本ステップでは、第１出力パラメータと該所望の出力パラメータの差の二乗を該訓練誤差として決定できる。

Ｓ２１３、所定の誤差関数を取得して、該訓練誤差及び該所定の誤差関数に基づいて、逆伝播アルゴリズムにより該ＤＱＮ訓練モデルを訓練し、該ターゲットＤＱＮモデルを得る。

本ステップの具体的な実現形態については、従来技術における関連説明を参照すればよく、ここで詳しく説明しない。

該ターゲットＤＱＮモデルを得た後、Ｓ２１４〜Ｓ２１６を実行することにより該ターゲットＤＱＮモデルから出力されたターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御し、それによって、該ターゲット機器を制御して移動させることができる。

Ｓ２１４、該ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得する。

Ｓ２１５、該ターゲットＲＧＢ−Ｄ画像を該ターゲットＤＱＮモデルに入力して複数の決定対象出力パラメータを得て、複数の該決定対象出力パラメータのうちの最大パラメータを該ターゲット出力パラメータとして決定する。

Ｓ２１６、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御する。

図５は、例示的な一実施例に示される機器移動の制御装置のブロック図であり、図５に示されるように、該装置は、
ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集するための画像収集モジュール５０１と、
該第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得するための第１取得モジュール５０２と、
事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、該第２ＲＧＢ−Ｄ画像に基づいて該ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るための訓練モジュール５０３と、
該ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得するための第２取得モジュール５０４と、
該ターゲットＲＧＢ−Ｄ画像を該ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュール５０５と、
該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御するための制御モジュール５０６と、を備える。

好ましくは、図６は、図５における実施例に示される機器移動の制御装置のブロック図であり、図６に示されるように、該訓練モジュール５０３は、
該第２ＲＧＢ−Ｄ画像を該ＤＱＮ訓練モデルの入力として、該ＤＱＮ訓練モデルの第１出力パラメータを得るための第１決定サブモジュール５０３１と、
該第１出力パラメータに基づいて第１制御ストラテジーを決定し、該ターゲット機器が該第１制御ストラテジーに従って移動するように制御するための制御サブモジュール５０３２と、
該ターゲット機器と周囲障害物との相対位置情報を取得するための第１取得サブモジュール５０３３と、
該相対位置情報に基づいて該第１制御ストラテジーを評価してスコアを得るための第２決定サブモジュール５０３４と、
該ＤＱＮ訓練モデルのモデルパラメータに基づいて生成されるＤＱＮモデルを含むＤＱＮチェックモデルを取得するための第２取得サブモジュール５０３５と、
該スコア及び該ＤＱＮチェックモデルに基づいて該ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るための訓練サブモジュール５０３６と、を備える。

好ましくは、該ＤＱＮ訓練モデルは、畳み込み層と、該畳み込み層に接続された完全接続層とを備え、該第１決定サブモジュール５０３１は、所定のフレーム数の該第２ＲＧＢ−Ｄ画像を畳み込み層に入力して第１画像特徴を抽出し、該第１画像特徴を完全接続層に入力し、該ＤＱＮ訓練モデルの第１出力パラメータを得る。

好ましくは、該ＤＱＮ訓練モデルは、複数の畳み込みニューラルネットワークＣＮＮネットワーク、複数のリカレントニューラルネットワークＲＮＮネットワーク及び完全接続層を備え、異なるＣＮＮネットワークは、異なるＲＮＮネットワークに接続され、且つ該ＲＮＮネットワークのターゲットＲＮＮネットワークは、該完全接続層に接続され、該ターゲットＲＮＮネットワークは、該ＲＮＮネットワークのうちのいずれか１つのＲＮＮネットワークを含み、複数の該ＲＮＮネットワークは順次接続され、該第１決定サブモジュール５０３１は、
各フレームの該第２ＲＧＢ−Ｄ画像をそれぞれ異なるＣＮＮネットワークに入力して第２画像特徴を抽出し、
該第２画像特徴を該ＣＮＮネットワークに接続された現在のＲＮＮネットワークに入力し、該第２画像特徴及び前のＲＮＮネットワークから入力された第３画像特徴に基づいて、該現在のＲＮＮネットワークにより第４画像特徴を得て、該第４画像特徴を次のＲＮＮネットワークに入力することと、該次のＲＮＮネットワークを、更新した現在のＲＮＮネットワークとして決定することとを含む特徴抽出ステップを、該ターゲットＲＮＮネットワークから出力された第５画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
該第５画像特徴が取得されると、該第５画像特徴を完全接続層に入力して、該ＤＱＮ訓練モデルの第１出力パラメータを得る。

好ましくは、該訓練サブモジュール５０３６は、
該ターゲット機器の現在の周辺環境の第３ＲＧＢ−Ｄ画像を取得し、
該第３ＲＧＢ−Ｄ画像を該ＤＱＮチェックモデルに入力して第２出力パラメータを得て、
該スコア及び該第２出力パラメータに基づいて所望の出力パラメータを算出し、
該第１出力パラメータ及び該所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、該訓練誤差及び該所定の誤差関数に基づいて、逆伝播アルゴリズムにより該ＤＱＮ訓練モデルを訓練し、該ターゲットＤＱＮモデルを得る。

好ましくは、図７は、図５における実施例に示される機器移動の制御装置のブロック図であり、図７に示されるように、該決定モジュール５０５は、
該ターゲットＲＧＢ−Ｄ画像を該ターゲットＤＱＮモデルに入力して複数の決定対象出力パラメータを得るための第３決定サブモジュール５０５１と、
複数の該決定対象出力パラメータのうちの最大パラメータを該ターゲット出力パラメータとして決定するための第４決定サブモジュール５０５２と、を備える。

上記実施例における装置に関しては、各モジュールが操作を実行する具体的な方式については、該方法の関連実施例において詳細に説明したため、ここで詳しく説明しない。

上記装置によれば、深層強化学習モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。

図８は、例示的な一実施例に示される電子機器８００のブロック図である。図８に示されるように、該電子機器８００は、プロセッサ８０１、メモリ８０２を備えてもよい。該電子機器８００は、マルチメディアユニット８０３、入力／出力（Ｉ／Ｏ）インターフェース８０４、及び通信ユニット８０５のうちの１種以上をさらに備えてもよい。

プロセッサ８０１は、該電子機器８００全体の操作を制御して、上記機器移動の制御方法におけるすべて又は一部のステップを完成させる。メモリ８０２は、該電子機器８００の操作をサポートするように各種のタイプのデータを記憶し、これらデータは、たとえば該電子機器８００上に操作される任意のアプリケーション又は方法の命令、及びアプリケーションに関連するデータ、たとえば連絡先データ、送受信メッセージ、プクチャ、オーディオ、ビデオなどを含み得る。該メモリ８０２は、任意のタイプの揮発性又は非揮発性メモリ又はこれらの組み合わせにより実現でき、たとえばスタティックランダムアクセスメモリ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、略語ＳＲＡＭ）、電気消去可能なプログラマブル読み取り専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、略語ＥＥＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、略語ＥＰＲＯＭ）、プログラマブル読み出し専用メモリ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、略語ＰＲＯＭ）、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、略語ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又はコンパクトディスクである。マルチメディアユニット８０３は、画面及びオーディオユニットを含み得る。画面は、たとえばタッチ画面であり、オーディオユニットは、オーディオ信号の出力及び／又は入力に用いられ得る。たとえば、オーディオユニットは、外部のオーディオ信号を受信する１つのマイクロフォンを含んでもよい。受信されたオーディオ信号は、さらにメモリ８０２に記憶されるか、又は通信ユニット８０５を介して送信される。オーディオユニットは、オーディオ信号を出力するための少なくとも１つのスピーカーをさらに備える。Ｉ／Ｏインターフェース８０４は、プロセッサ８０１とほかのインターフェースモジュールとの間のインターフェースとして機能し、上記ほかのインターフェースモジュールは、キーボード、マウス、ボタンなどであってもよい。これらボタンは、仮想ボタン又は物理的ボタンであってもよい。通信ユニット８０５は、該電子機器８００とほかの機器との有線又は無線通信に用いられる。無線通信は、たとえばＷｉ−Ｆｉ、ブルートゥース、近距離無線通信（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ、略語ＮＦＣ）、２Ｇ、３Ｇ又は４Ｇ、又はこれらの１種又は複数種の組み合わせであり、それに対応して、該通信ユニット８０５は、Ｗｉ−Ｆｉモジュール、ブルートゥースモジュール、ＮＦＣモジュールを備えてもよい。

例示的な一実施例では、電子機器８００は、１つ以上の特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ、略語ＡＳＩＣ）、デジタルシグナルプロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ、略語ＤＳＰ）、デジタル信号処理機器（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ、略語ＤＳＰＤ）、プログラマブルロジックデバイス（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ、略語ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ、略語ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ又はほかの電子素子により実現でき、上記機器移動の制御方法を実行することに用いられる。

別の例示的な実施例では、プログラム命令を含むコンピュータ可読記憶媒体をさらに提供し、該プログラム命令は、プロセッサにより実行されると上記機器移動の制御方法のステップを実現する。たとえば、該コンピュータ可読記憶媒体は、上記プログラム命令を含むメモリ８０２であってもよく、上記プログラム命令は、電子機器８００のプロセッサ８０１により実行されて上記機器移動の制御方法を完成させることができる。

以上、図面を参照しながら本開示の好適実施形態を説明するが、本開示は、上記実施形態における詳細に制限されず、本開示の技術的構想から逸脱せずに本開示の技術案に対してさまざまな簡単な変形を行うことができ、これら簡単な変形は、すべて本開示の特許範囲に属する。

また、なお、上記特定の実施形態に記載の各具体的な技術的特徴は、矛盾しない限り、任意の適切な方式で組み合わせることができ、余計な重複を避けるように、本開示では、すべての可能な組み合わせ方式について説明しない。

そのほか、本開示の各種の異なる実施形態も、任意に組み合わせてもよく、本開示の主旨から逸脱しない限り、本開示の開示内容とみなすべきである。

Claims

機器移動の制御方法であって、
ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集するステップと、
前記第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得するステップと、
事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、前記第２ＲＧＢ−Ｄ画像に基づいて前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るステップと、
前記ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得するステップと、
前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するステップと、
前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するステップと、を含む、
ことを特徴とする機器移動の制御方法。
前記第２ＲＧＢ−Ｄ画像に基づいて前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得る前記ステップは、
前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得るステップと、
前記第１出力パラメータに基づいて第１制御ストラテジーを決定し、前記ターゲット機器が前記第１制御ストラテジーに従って移動するように制御するステップと、
前記ターゲット機器と周囲障害物との相対位置情報を取得するステップと、
前記相対位置情報に基づいて前記第１制御ストラテジーを評価してスコアを得るステップと、
前記ＤＱＮ訓練モデルのモデルパラメータに基づいて生成されるＤＱＮモデルを含むＤＱＮチェックモデルを取得するステップと、
前記スコア及び前記ＤＱＮチェックモデルに基づいて、前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るステップと、を含む、
ことを特徴とする請求項１に記載の機器移動の制御方法。
前記ＤＱＮ訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得る前記ステップは、
所定のフレーム数の前記第２ＲＧＢ−Ｄ画像を畳み込み層に入力して第１画像特徴を抽出し、前記第１画像特徴を完全接続層に入力し、前記ＤＱＮ訓練モデルの第１出力パラメータを得るステップを含む、
ことを特徴とする請求項２に記載の機器移動の制御方法。
前記ＤＱＮ訓練モデルは、複数の畳み込みニューラルネットワークＣＮＮネットワーク、複数のリカレントニューラルネットワークＲＮＮネットワーク及び完全接続層を備え、異なるＣＮＮネットワークは、異なるＲＮＮネットワークに接続され、且つ前記ＲＮＮネットワークのターゲットＲＮＮネットワークは、前記完全接続層に接続され、前記ターゲットＲＮＮネットワークは、前記ＲＮＮネットワークのうちのいずれか１つのＲＮＮネットワークを含み、複数の前記ＲＮＮネットワークは順次接続され、前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得る前記ステップは、
各フレームの前記第２ＲＧＢ−Ｄ画像をそれぞれ異なるＣＮＮネットワークに入力して第２画像特徴を抽出するステップと、
前記第２画像特徴を前記ＣＮＮネットワークに接続された現在のＲＮＮネットワークに入力し、前記第２画像特徴及び前のＲＮＮネットワークから入力された第３画像特徴に基づいて、前記現在のＲＮＮネットワークにより第４画像特徴を得て、前記第４画像特徴を次のＲＮＮネットワークに入力することと、前記次のＲＮＮネットワークを、更新した現在のＲＮＮネットワークとして決定することを含む特徴抽出ステップを、前記ターゲットＲＮＮネットワークから出力された第５画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行するステップと、
前記第５画像特徴が取得されると、前記第５画像特徴を完全接続層に入力して、前記ＤＱＮ訓練モデルの第１出力パラメータを得るステップと、を含む、
ことを特徴とする請求項２に記載の機器移動の制御方法。
前記スコア及び前記ＤＱＮチェックモデルに基づいて、前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得る前記ステップは、
前記ターゲット機器の現在の周辺環境の第３ＲＧＢ−Ｄ画像を取得するステップと、
前記第３ＲＧＢ−Ｄ画像を前記ＤＱＮチェックモデルに入力して第２出力パラメータを得るステップと、
前記スコア及び前記第２出力パラメータに基づいて所望の出力パラメータを算出するステップと、
前記第１出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得るステップと、
所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記ＤＱＮ訓練モデルを訓練し、前記ターゲットＤＱＮモデルを得るステップと、を含む、
ことを特徴とする請求項２に記載の機器移動の制御方法。
前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、前記ターゲット出力パラメータを得る前記ステップは、
前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、複数の決定対象出力パラメータを得るステップと、
複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するステップと、を含む、
ことを特徴とする請求項１〜５のいずれか１項に記載の機器移動の制御方法。
機器移動の制御装置であって、
ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第１ＲＧＢ−Ｄ画像を収集するための画像収集モジュールと、
前記第１ＲＧＢ−Ｄ画像から所定のフレーム数の第２ＲＧＢ−Ｄ画像を取得するための第１取得モジュールと、
事前訓練された深層強化学習モデルＤＱＮ訓練モデルを取得し、前記第２ＲＧＢ−Ｄ画像に基づいて前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るための訓練モジュールと、
前記ターゲット機器の現在の周辺環境のターゲットＲＧＢ−Ｄ画像を取得するための第２取得モジュールと、
前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュールと、
前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するための制御モジュールと、を備える、
ことを特徴とする機器移動の制御装置。
前記訓練モジュールは、
前記第２ＲＧＢ−Ｄ画像を前記ＤＱＮ訓練モデルの入力として、前記ＤＱＮ訓練モデルの第１出力パラメータを得るための第１決定サブモジュールと、
前記第１出力パラメータに基づいて第１制御ストラテジーを決定し、前記ターゲット機器が前記第１制御ストラテジーに従って移動するように制御するための制御サブモジュールと、
前記ターゲット機器と周囲障害物との相対位置情報を取得するための第１取得サブモジュールと、
前記相対位置情報に基づいて前記第１制御ストラテジーを評価してスコアを得るための第２決定サブモジュールと、
前記ＤＱＮ訓練モデルのモデルパラメータに基づいて生成されるＤＱＮモデルを含むＤＱＮチェックモデルを取得するための第２取得サブモジュールと、
前記スコア及び前記ＤＱＮチェックモデルに基づいて、前記ＤＱＮ訓練モデルに対して移転訓練を行い、ターゲットＤＱＮモデルを得るための訓練サブモジュールと、を備える、
ことを特徴とする請求項７に記載の機器移動の制御装置。
前記ＤＱＮ訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第１決定サブモジュールは、所定のフレーム数の前記第２ＲＧＢ−Ｄ画像を畳み込み層に入力して第１画像特徴を抽出し、前記第１画像特徴を完全接続層に入力し、前記ＤＱＮ訓練モデルの第１出力パラメータを得る、
ことを特徴とする請求項８に記載の機器移動の制御装置。
前記ＤＱＮ訓練モデルは、複数の畳み込みニューラルネットワークＣＮＮネットワーク、複数のリカレントニューラルネットワークＲＮＮネットワーク及び完全接続層を備え、異なるＣＮＮネットワークは、異なるＲＮＮネットワークに接続され、且つ前記ＲＮＮネットワークのターゲットＲＮＮネットワークは、前記完全接続層に接続され、前記ターゲットＲＮＮネットワークは、前記ＲＮＮネットワークのうちのいずれか１つのＲＮＮネットワークを含み、複数の前記ＲＮＮネットワークは順次接続され、
前記第１決定サブモジュールは、
各フレームの前記第２ＲＧＢ−Ｄ画像をそれぞれ異なるＣＮＮネットワークに入力して第２画像特徴を抽出し、
前記第２画像特徴を前記ＣＮＮネットワークに接続された現在のＲＮＮネットワークに入力し、前記第２画像特徴及び前のＲＮＮネットワークから入力された第３画像特徴に基づいて、前記現在のＲＮＮネットワークにより第４画像特徴を得て、前記第４画像特徴を次のＲＮＮネットワークに入力することと、前記次のＲＮＮネットワークを、更新した現在のＲＮＮネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットＲＮＮネットワークから出力された第５画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
前記第５画像特徴が取得されると、前記第５画像特徴を完全接続層に入力して、前記ＤＱＮ訓練モデルの第１出力パラメータを得る、
ことを特徴とする請求項８に記載の機器移動の制御装置。
前記訓練サブモジュールは、
前記ターゲット機器の現在の周辺環境の第３ＲＧＢ−Ｄ画像を取得し、
前記第３ＲＧＢ−Ｄ画像を前記ＤＱＮチェックモデルに入力して第２出力パラメータを得て、
前記スコア及び前記第２出力パラメータに基づいて所望の出力パラメータを算出し、
前記第１出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記ＤＱＮ訓練モデルを訓練し、前記ターゲットＤＱＮモデルを得る、
ことを特徴とする請求項８に記載の機器移動の制御装置。
前記決定モジュールは、
前記ターゲットＲＧＢ−Ｄ画像を前記ターゲットＤＱＮモデルに入力して、複数の決定対象出力パラメータを得るための第３決定サブモジュールと、
複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するための第４決定サブモジュールと、を備える、
ことを特徴とする請求項７〜１１のいずれか１項に記載の機器移動の制御装置。
コンピュータープログラムが記憶されたコンピュータ可読記憶媒体であって、
該プログラムは、プロセッサにより実行されると請求項１−６のいずれか１項に記載の方法のステップを実現する、
ことを特徴とするコンピュータ可読記憶媒体。
電子機器であって、
コンピュータープログラムが記憶されたメモリと、
請求項１−６のいずれか１項に記載の方法のステップを実現するように、前記メモリにおける前記コンピュータープログラムを実行するプロセッサと、を備える、
ことを特徴とする電子機器。