JP2021509185A - 機器移動の制御方法、制御装置、記憶媒体及び電子機器 - Google Patents

機器移動の制御方法、制御装置、記憶媒体及び電子機器 Download PDF

Info

Publication number
JP2021509185A
JP2021509185A JP2019570847A JP2019570847A JP2021509185A JP 2021509185 A JP2021509185 A JP 2021509185A JP 2019570847 A JP2019570847 A JP 2019570847A JP 2019570847 A JP2019570847 A JP 2019570847A JP 2021509185 A JP2021509185 A JP 2021509185A
Authority
JP
Japan
Prior art keywords
target
dqn
image
model
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019570847A
Other languages
English (en)
Other versions
JP6915909B2 (ja
Inventor
兆祥 ▲劉▼
兆祥 ▲劉▼
士国 廉
士国 廉
少▲華▼ 李
少▲華▼ 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shenzhen Robotics Systems Co Ltd
Original Assignee
Cloudminds Shenzhen Robotics Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Shenzhen Robotics Systems Co Ltd filed Critical Cloudminds Shenzhen Robotics Systems Co Ltd
Publication of JP2021509185A publication Critical patent/JP2021509185A/ja
Application granted granted Critical
Publication of JP6915909B2 publication Critical patent/JP6915909B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0248Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Optics & Photonics (AREA)
  • Electromagnetism (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本開示は、機器移動の制御方法、制御装置、記憶媒体及び電子機器に関し、該制御方法は、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集するステップと、該第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するステップと、事前訓練された深層強化学習モデルDQN訓練モデルを取得し、該第2RGB−D画像に基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るステップと、該ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するステップと、該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して、該ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するステップと、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御するステップと、を含む。

Description

本開示は、ナビゲーション分野に関し、具体的には、機器移動の制御方法、制御装置、記憶媒体及び電子機器に関する。
技術の持続的な進歩に伴い、無人自動車、ロボットなどの移動機器の自動ナビゲーション技術は、研究の焦点となり、近年、深層学習は、持続的に発展を遂げ、特に深層学習における畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)は、ターゲット認識、画像分類などの分野において大きな飛躍を遂げ、深層学習に基づく自動運転、知能ロボットのナビゲーションなどに関連する技術も絶えず開発されてきた。
従来技術では、エンドツーエンドの学習アルゴリズム(たとえばDeepDriving技術、Nvidia技術等)を用いて上記移動機器の自動ナビゲーションを行うのが一般的であるが、このようなエンドツーエンドの学習アルゴリズムには、サンプルの手動ラベル付けが必要であり、且つ実際の訓練シナリオにおいて、サンプルを収集するために大量の人力や物力がかかるため、従来のナビゲーションアルゴリズムの実用性及び汎用性が好ましくない。
本開示は、機器移動の制御方法、制御装置、記憶媒体及び電子機器を提供する。
本開示の実施例の第1態様によれば、機器移動の制御方法を提供し、前記方法は、ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第1RGB−D画像を収集するステップと、前記第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するステップと、事前訓練された深層強化学習モデルDQN訓練モデルを取得し、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るステップと、前記ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するステップと、前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するステップと、前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するステップと、を含む。
好ましくは、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る前記ステップは、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得るステップと、前記第1出力パラメータに基づいて第1制御ストラテジーを決定し、前記ターゲット機器が前記第1制御ストラテジーに従って移動するように制御するステップと、前記ターゲット機器と周囲障害物との相対位置情報を取得するステップと、前記相対位置情報に基づいて前記第1制御ストラテジーを評価してスコアを得るステップと、前記DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するステップと、前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るステップと、を含む。
好ましくは、前記DQN訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得る前記ステップは、所定のフレーム数の前記第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、前記第1画像特徴を完全接続層に入力し、前記DQN訓練モデルの第1出力パラメータを得るステップを含む。
好ましくは、前記DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ前記RNNネットワークのターゲットRNNネットワークは、前記完全接続層に接続され、前記ターゲットRNNネットワークは、前記RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の前記RNNネットワークは順次接続され、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得る前記ステップは、各フレームの前記第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出するステップと、前記第2画像特徴を前記CNNネットワークに接続された現在のRNNネットワークに入力し、前記第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、前記現在のRNNネットワークにより第4画像特徴を得て、前記第4画像特徴を次のRNNネットワークに入力することと、前記次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行するステップと、前記第5画像特徴が取得されると、前記第5画像特徴を完全接続層に入力して、前記DQN訓練モデルの第1出力パラメータを得るステップと、を含む。
好ましくは、前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る前記ステップは、前記ターゲット機器の現在の周辺環境の第3RGB−D画像を取得するステップと、前記第3RGB−D画像を前記DQNチェックモデルに入力して第2出力パラメータを得るステップと、前記スコア及び前記第2出力パラメータに基づいて所望の出力パラメータを算出するステップと、前記第1出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得るステップと、所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記DQN訓練モデルを訓練し、前記ターゲットDQNモデルを得るステップと、を含む。
好ましくは、前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、前記ターゲット出力パラメータを得る前記ステップは、前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、複数の決定対象出力パラメータを得るステップと、複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するステップと、を含む。
本開示の実施例の第2態様によれば、機器移動の制御装置を提供し、前記装置は、ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第1RGB−D画像を収集するための画像収集モジュールと、前記第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するための第1取得モジュールと、事前訓練された深層強化学習モデルDQN訓練モデルを取得し、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練モジュールと、前記ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するための第2取得モジュールと、前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュールと、前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するための制御モジュールと、を含む。
好ましくは、前記訓練モジュールは、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得るための第1決定サブモジュールと、前記第1出力パラメータに基づいて第1制御ストラテジーを決定し、前記ターゲット機器が前記第1制御ストラテジーに従って移動するように制御するための制御サブモジュールと、前記ターゲット機器と周囲障害物との相対位置情報を取得するための第1取得サブモジュールと、前記相対位置情報に基づいて前記第1制御ストラテジーを評価してスコアを得るための第2決定サブモジュールと、前記DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するための第2取得サブモジュールと、前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練サブモジュールと、を備える。
好ましくは、前記DQN訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第1決定サブモジュールは、所定のフレーム数の前記第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、前記第1画像特徴を完全接続層に入力し、前記DQN訓練モデルの第1出力パラメータを得る。
好ましくは、前記DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ前記RNNネットワークのターゲットRNNネットワークは、前記完全接続層に接続され、前記ターゲットRNNネットワークは、前記RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の前記RNNネットワークは順次接続され、前記第1決定サブモジュールは、
各フレームの前記第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、
前記第2画像特徴を前記CNNネットワークに接続された現在のRNNネットワークに入力し、前記第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、前記現在のRNNネットワークにより第4画像特徴を得て、前記第4画像特徴を次のRNNネットワークに入力することと、前記次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
前記第5画像特徴が取得されると、前記第5画像特徴を完全接続層に入力して、前記DQN訓練モデルの第1出力パラメータを得る。
好ましくは、前記訓練サブモジュールは、
前記ターゲット機器の現在の周辺環境の第3RGB−D画像を取得し、
前記第3RGB−D画像を前記DQNチェックモデルに入力して第2出力パラメータを得て、
前記スコア及び前記第2出力パラメータに基づいて所望の出力パラメータを算出し、
前記第1出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記DQN訓練モデルを訓練し、前記ターゲットDQNモデルを得る。
好ましくは、前記決定モジュールは、前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、複数の決定対象出力パラメータを得るための第3決定サブモジュールと、複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するための第4決定サブモジュールと、を備える。
本開示の実施例の第3態様によれば、コンピュータープログラムが記憶されたコンピュータ可読記憶媒体であって、該プログラムは、プロセッサにより実行されると本開示の第1態様の前記方法のステップを実現するコンピュータ可読記憶媒体を提供する。
本開示の実施例の第4態様によれば、電子機器を提供し、前記電子機器は、コンピュータープログラムが記憶されたメモリと、本開示の第1態様の前記方法のステップを実現するように、前記メモリにおける前記コンピュータープログラムを実行するプロセッサと、を備える。
上記技術案によれば、ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第1RGB−D画像を収集し、前記第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得し、事前訓練された深層強化学習モデルDQN訓練モデルを取得し、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得て、前記ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得し、前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御し、それによって、深層強化学習(Deep Q Network、DQN)モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。
本開示のほかの特徴及び利点は、以下の発明を実施するための形態において詳細に説明する。
図面は、本開示をさらに理解するために提供されるものであり、明細書の一部を構成し、以下の発明を実施するための形態とともに本開示を解釈するが、本開示を制限するものではない。
例示的な一実施例に示される機器移動の制御方法のフローチャートである。 例示的な一実施例に示される別の機器移動の制御方法のフローチャートである。 例示的な一実施例に示されるDQNモデルの構造模式図である。 例示的な一実施例に示される別のDQNモデルの構造模式図である。 例示的な一実施例に示される第1の機器移動の制御装置のブロック図である。 例示的な一実施例に示される第2の機器移動の制御装置のブロック図である。 例示的な一実施例に示される第3の機器移動の制御装置のブロック図である。 例示的な一実施例に示される電子機器のブロック図である。
以下、図面を参照しながら本開示の特定の実施形態を詳細に説明する。なお、ここで述べられた特定の実施形態は、本開示を説明して解釈するために過ぎず、本開示を制限するものではない。
本開示は、機器移動の制御方法、制御装置、記憶媒体及び電子機器を提供し、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集し、該第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得し、事前訓練された深層強化学習モデルDQN訓練モデルを取得し、該第2RGB−D画像に基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得て、該ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得し、該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御し、それによって、深層強化学習(Deep Q Network、DQN)モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。
以下、図面を参照しながら、本開示の特定の実施形態を詳細に説明する。
図1は、例示的な一実施例に示される機器移動の制御方法であり、図1に示されるように、該方法は、ステップS101〜ステップS106を含む。
S101、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集する。
ここで、該ターゲット機器は、ロボット、自動運転車両などの移動可能な機器を含んでもよく、該RGB−D画像は、RGBカラー画像特徴を含むとともに深度画像特徴を含むRGB−Dの4チャンネル画像であってもよく、該RGB−D画像は、従来のRGB画像に比べて、ナビゲーションストラテジー決定のために豊富な情報を提供できる。
1つの可能な実現形態では、RGB−D画像収集装置(たとえば、RGB−Dカメラ又は双眼カメラ)を用いて該所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集できる。
S102、該第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得する。
本開示の目的が新しく収集された該ターゲット機器の周辺環境の画像情報に基づいて該ターゲット機器のナビゲーション制御ストラテジーを決定することにあるため、1つの可能な実現形態では、該ターゲット機器の周辺環境における障害物の位置及び速度の情報を暗黙的に含むマルチフレームRGB−D画像シーケンスを入力することができ、該マルチフレームRGB−D画像シーケンスは、所定のフレーム数の第2RGB−D画像である。
S103、事前訓練された深層強化学習モデルDQN訓練モデルを取得し、該第2RGB−D画像に基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る。
深層強化学習モデルの訓練が試みとフィードバックにより実現され、即ち、学習中にターゲット機器が衝突するなどの危険があるため、深層強化学習モデルによるナビゲーション時の安全性を高めるために、1つの可能な実現形態では、予めシミュレーション環境において訓練を行って、該DQN訓練モデルを得ることができ、たとえば、AirSim、CARLAなどの自動運転シミュレーション環境を利用して自動運転ナビゲーションモデルの事前訓練を行うことができるし、Gazeboロボットシミュレーション環境を利用してロボットの自動ナビゲーションモデルの事前訓練を行うことができる。
また、シミュレーション環境と実際の環境には差異があり、たとえば、シミュレーション環境の照明条件、画像テクスチャなどには実際の環境とは差異があるので、実際の環境下で収集されたRGB−D画像とシミュレーション環境下で収集されたRGB−D画像では、輝度、テクスチャなどの画像特徴にも差異があるため、シミュレーション環境で訓練された該DQN訓練モデルを直接実際の環境におけるナビゲーションに適用すると、実際の環境において該DQN訓練モデルでナビゲーションするときの誤差が大きくなり、この場合、該DQN訓練モデルが実際の環境に適用できるようにするために、1つの可能な実現形態では、実際の環境の該RGB−D画像を収集して、該実際の環境で収集された該RGB−D画像を該DQN訓練モデルの入力とし、該DQN訓練モデルに対して移転訓練を行い、実際の環境に適している該ターゲットDQNモデルを得ることによって、モデル訓練難度を低減させるとともに、ネットワーク全体の訓練速度を向上させる。
本ステップでは、該第2RGB−D画像を該DQN訓練モデルの入力として、該DQN訓練モデルの第1出力パラメータを得て、該第1出力パラメータに基づいて第1制御ストラテジーを決定し、該ターゲット機器が該第1制御ストラテジーに従って移動するように制御し、該ターゲット機器と周囲障害物の相対位置情報を取得し、該相対位置情報に基づいて該第1制御ストラテジーを評価してスコアを得て、該DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含み得るDQNチェックモデルを取得し、該スコア及び該DQNチェックモデルに基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るようにしてもよい。
該第1出力パラメータは、複数の決定対象出力パラメータのうちの最大パラメータを含んでもよいし、該複数の決定対象出力パラメータから1つの出力パラメータをランダムに選択して、該第1出力パラメータ(それによって該DQNモデルの汎化能力を向上できる)としてもよく、該出力パラメータは、DQNモデルが出力するQ値を含み、該決定対象出力パラメータは、複数の所定制御ストラテジー(たとえば、加速、減速、制動、左折、右折などの制御ストラテジー)のそれぞれに対応するQ値を含み、該相対位置情報は、該ターゲット機器と該ターゲット機器の周囲障害物との距離情報又は角度情報などを含んでもよく、該DQNチェックモデルは、DQNモデル訓練においてモデルの所望の出力パラメータを更新することに用いられる。
該第2RGB−D画像を該DQN訓練モデルの入力として、該DQN訓練モデルの第1出力パラメータを得るに当たって、以下の2種の方式のうちのいずれか1つによって実現され得る。
方式1、該DQN訓練モデルは、畳み込み層と、該畳み込み層に接続された完全接続層を備え、本方式1におけるDQN訓練モデルのモデル構造によれば、所定のフレーム数の該第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、該第1画像特徴を完全接続層に入力して、該DQN訓練モデルの第1出力パラメータを得ることができる。
方式2、該DQN訓練モデルは、複数の畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)CNNネットワーク、複数のリカレントニューラルネットワーク(Recurrent Neural Network、RNN)RNNネットワーク及び完全接続層を含み、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ該RNNネットワークのターゲットRNNネットワークは、該完全接続層に接続され、該ターゲットRNNネットワークは、該RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の該RNNネットワークは順次接続され、本方式2におけるDQN訓練モデルのモデル構造によれば、各フレームの該第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、該第2画像特徴を該CNNネットワークに接続された現在のRNNネットワークに入力し、該第2画像特徴と前のRNNネットワークから入力された第3画像特徴に基づいて、該現在のRNNネットワークにより第4画像特徴を得て、該第4画像特徴を次のRNNネットワークに入力することと、該次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、該ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、該第5画像特徴が取得されると、該第5画像特徴を完全接続層に入力して、該DQN訓練モデルの第1出力パラメータを得る。
ここで、該RNNネットワークは、長期短期記憶ネットワーク(Long Short−Term Memory、LSTM)を含み得る。
なお、一般的な畳み込みニューラルネットワークは、畳み込み層及び該畳み込み層に接続されるプーリング層を備え、畳み込み層は、画像特徴を抽出することに用いられ、プーリング層は、畳み込み層で抽出された画像特徴に次元削減(たとえば、平均値サンプリング又は最大値サンプリング)をすることに用いられ、方式2におけるDQNモデル構造のCNN畳み込みニューラルネットワークがプーリング層を備えないため、畳み込み層で抽出されたすべての画像特徴が保持され、それによって、モデルが最適なナビゲーション制御ストラテジーを決定するためにより多くの参照情報を提供し、モデルナビゲーションの正確率を向上させる。
また、該スコア及び該DQNチェックモデルに基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る際に、該ターゲット機器の現在の周辺環境の第3RGB−D画像を取得し、該第3RGB−D画像を該DQNチェックモデルに入力して第2出力パラメータを得て、該スコア及び該第2出力パラメータに基づいて所望の出力パラメータを算出し、該第1出力パラメータ及び該所望の出力パラメータに基づいて訓練誤差を得て、所定の誤差関数を取得して、該訓練誤差及び該所定の誤差関数に基づいて、逆伝播アルゴリズムにより該DQN訓練モデルを訓練し、該ターゲットDQNモデルを得る。
該第3RGB−D画像は、該ターゲット機器が該第1制御ストラテジーに基づいて移動するように制御された後に収集された該RGB−D画像に含まれ、該第2出力パラメータは、該DQNチェックモデルから出力された複数の決定対象出力パラメータのうちの最大パラメータを含むようにしてもよい。
また、なお、該ターゲット機器に給電されると、該ターゲット機器のRGB−D画像収集装置は、該所定周期ごとに該ターゲット機器の周辺環境のRGB−D画像を収集し、移転訓練により該ターゲットDQNモデルを得るまでに、新しく収集された所定のフレーム数のRGB−D画像に基づいて該DQN訓練モデルにより制御ストラテジーを決定し、該ターゲット機器を制御して起動させることができる。
S104、該ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得する。
S105、該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定する。
本ステップでは、該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して、複数の決定対象出力パラメータを得て、複数の該決定対象出力パラメータのうちの最大パラメータを該ターゲット出力パラメータとして決定することができる。
S106、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御する。
上記方法によれば、深層強化学習モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。
図2は、例示的な一実施例に示される機器移動の制御方法のフローチャートであり、図2に示されるように、該方法は、ステップS201〜ステップS216を含む。
S201、ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集する。
該ターゲット機器は、ロボット、自動運転車両などの移動可能な機器を含んでもよく、該RGB−D画像は、RGBカラー画像特徴を含むとともに深度画像特徴を含むRGB−Dの4チャンネル画像であってもよく、該RGB−D画像は、従来のRGB画像に比べて、ナビゲーションストラテジー決定のために豊富な情報を提供できる。
1つの可能な実現形態では、RGB−D画像収集装置(たとえば、RGB−Dカメラ又は双眼カメラ)を用いて該所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集できる。
S202、該第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得する。
本開示の目的が新しく収集された該ターゲット機器の周辺環境の画像情報に基づいて該ターゲット機器のナビゲーション制御ストラテジーを決定することにあるため、1つの可能な実現形態では、該ターゲット機器の周辺環境における障害物の位置及び速度の情報を暗黙的に含むマルチフレームRGB−D画像シーケンスを入力することができ、該マルチフレームRGB−D画像シーケンスは、所定のフレーム数の第2RGB−D画像であり、たとえば、図3及び図4に示されるように、該所定のフレーム数の第2RGB−D画像は、1フレーム目のRGB−D画像、2フレーム目のRGB−D画像、......、nフレーム目のRGB−D画像を含む。
S203、事前訓練された深層強化学習モデルDQN訓練モデルを取得する。
深層強化学習モデルの訓練が試みとフィードバックにより実現され、即ち、学習中にターゲット機器が衝突するなどの危険があるため、深層強化学習モデルによるナビゲーション時の安全性を高めるために、1つの可能な実現形態では、予めシミュレーション環境において訓練を行って、該DQN訓練モデルを得ることができ、たとえば、AirSim、CARLAなどの自動運転シミュレーション環境を利用して自動運転ナビゲーションモデルの事前訓練を行うことができるし、Gazeboロボットシミュレーション環境を利用してロボットの自動ナビゲーションモデルの事前訓練を行うことができる。
シミュレーション環境と実際の環境には差異があり、たとえば、シミュレーション環境の照明条件、画像テクスチャなどには実際の環境とは差異があるので、実際の環境下で収集されたRGB−D画像とシミュレーション環境下で収集されたRGB−D画像では、輝度、テクスチャなどの画像特徴にも差異があるため、シミュレーション環境で訓練された該DQN訓練モデルを直接実際の環境におけるナビゲーションに適用すると、実際の環境において該DQN訓練モデルでナビゲーションするときの誤差が大きくなり、この場合、該DQN訓練モデルが実際の環境に適用できるようにするために、1つの可能な実現形態では、実際の環境の該RGB−D画像を収集して、該実際の環境で収集された該RGB−D画像を該DQN訓練モデルの入力とし、該DQN訓練モデルに対して移転訓練を行い、実際の環境に適している該ターゲットDQNモデルを得ることによって、モデル訓練難度を低減させるとともに、ネットワーク全体の訓練速度を向上させる。
本実施例では、S204〜S213を実行することにより該DQN訓練モデルに対して移転訓練を行い、該ターゲットDQNモデルを決定できる。
S204、該第2RGB−D画像を該DQN訓練モデルの入力として、該DQN訓練モデルの第1出力パラメータを得る。
該第1出力パラメータは、複数の決定対象出力パラメータのうちの最大パラメータを含んでもよいし、該複数の決定対象出力パラメータから1つの出力パラメータをランダムに選択して、該第1出力パラメータ(それによって該DQNモデルの汎化能力を向上できる)としてもよく、該出力パラメータは、DQNモデル出力のQ値を含み、該決定対象出力パラメータは、複数の所定制御ストラテジー(たとえば、加速、減速、制動、左折、右折などの制御ストラテジー)のそれぞれに対応するQ値を含むようにしてもよい。
本ステップは、以下の2種の方式のいずれか1つにより実現され得る。
方式1、図3に示されるように、該DQN訓練モデルは、畳み込み層と、該畳み込み層に接続された完全接続層を備え、本方式1におけるDQN訓練モデルのモデル構造によれば、所定のフレーム数の該第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、該第1画像特徴を完全接続層に入力して、該DQN訓練モデルの第1出力パラメータを得ることができる。
たとえば、図3に示されるように、NフレームのRGB−D画像(即ち、図3に示される1フレーム目のRGB−D画像、2フレーム目のRGB−D画像、......nフレーム目のRGB−D画像)を該DQN訓練モデルの畳み込み層に入力し、また、各フレームのRGB−D画像が4チャンネル画像であるため、図3に示されるDQNモデル構造によれば、N*4チャンネルのRGB−D画像情報を畳み込み層に積層して入力して画像特徴を抽出することができ、それによって、該DQNモデルは、より十分な画像特徴に基づいて最適な制御ストラテジーを決定できる。
方式2、図4に示されるように、該DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ該RNNネットワークのターゲットRNNネットワークは、該完全接続層に接続され、該ターゲットRNNネットワークは、該RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の該RNNネットワークは順次接続され、本方式2におけるDQN訓練モデルのモデル構造によれば、各フレームの該第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、該第2画像特徴を該CNNネットワークに接続された現在のRNNネットワークに入力し、該第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、該現在のRNNネットワークにより第4画像特徴を得て、該第4画像特徴を次のRNNネットワークに入力することと、該次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、該ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、該第5画像特徴が取得されると、該第5画像特徴を完全接続層に入力して、該DQN訓練モデルの第1出力パラメータを得る。
ここで、該RNNネットワークは、長期短期記憶ネットワークLSTMを含み得る。
なお、一般的な畳み込みニューラルネットワークは、畳み込み層及び該畳み込み層に接続されるプーリング層を備え、畳み込み層は、画像特徴を抽出することに用いられ、プーリング層は、畳み込み層で抽出された画像特徴に次元削減(たとえば、平均値サンプリング又は最大値サンプリング)をすることに用いられ、方式2におけるDQNモデル構造のCNN畳み込みニューラルネットワークがプーリング層を備えないため、畳み込み層で抽出されたすべての画像特徴が保持され、それによって、モデルが最適なナビゲーション制御ストラテジーを決定するためにより多くの参照情報を提供し、モデルナビゲーションの正確率を向上させる。
S205、該第1出力パラメータに基づいて第1制御ストラテジーを決定し、該ターゲット機器が該第1制御ストラテジーに従って移動するように制御する。
一例として、該所定制御ストラテジーが左折、右折、加速の3つの制御ストラテジーを含む場合を例にして説明し、ここで、左折に対応する出力パラメータは、Q1であり、右折に対応する出力パラメータは、Q2であり、加速に対応する出力パラメータは、Q3であり、該第1出力パラメータがQ1である場合、該第1制御ストラテジーがQ1に対応する左折であると判定し、この場合、該ターゲット機器が左折をするように制御し、上記例は、例示的な説明に過ぎず、本開示では、それについて限定しない。
S206、該ターゲット機器と周囲障害物との相対位置情報を取得する。
該相対位置情報は、該ターゲット機器と該ターゲット機器の周囲障害物との距離情報又は角度情報などを含んでもよい。
1つの可能な実現形態では、衝突検知センサで該相対位置情報を取得する。
S207、該相対位置情報に基づいて該第1制御ストラテジーを評価してスコアを得る。
1つの可能な実現形態では、所定評価ルールに従って該第1制御ストラテジーを評価して該スコアを得て、且つ該所定評価ルールは、実際の応用シナリオに応じて具体的に設定できる。
一例として、該ターゲット機器が自動運転車両であり、該相対位置情報が該車両と周囲障害物との距離情報である場合、該所定評価ルールは、該車両と障害物との距離が10メートル以上であると判定する場合、該スコアを10点、該車両と障害物との距離が5メートル以上、10メートル未満であると判定する場合、該スコアを5点、該車両と障害物との距離が3メートルより大きく5メートル未満であると判定する場合、該スコアを3点、該車両と障害物との距離が3メートル以下であると判定する場合、該スコアを0点とするように設定されてもよく、この場合、該第1制御ストラテジーに従って該車両を制御して移動させた後、該車両と該障害物との距離情報に基づいて上記所定評価ルールに従って該スコアを決定できる。また、該相対位置情報が該車両と周囲障害物との角度情報である場合、該所定評価ルールは、障害物に対する該車両の角度が30度以上であると判定する場合、該スコアを10点、障害物に対する該車両の角度が15度以上、30度未満であると判定する場合、該スコアを5点、障害物に対する該車両の角度が15度以下であると判定する場合、該スコアを0点とするように設定されてもよく、この場合、該第1制御ストラテジーに従って該車両を制御して移動させた後、障害物に対する該車両の角度情報に基づいて上記所定評価ルールに従って該スコアを決定でき、以上は、例示的に説明するものに過ぎず、本開示では、それについて限定しない。
S208、該DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得する。
ここで、該DQNチェックモデルは、DQNモデルの訓練においてモデルの所望の出力パラメータを更新することに用いられる。
該DQNチェックモデルを生成するときに、初期時刻に、事前訓練されて得られた該DQN訓練モデルのモデルパラメータを該DQNチェックモデルに割り当て、次に、移転訓練により該DQN訓練モデルのモデルパラメータを更新し、その後、最新に更新された該DQN訓練モデルのモデルパラメータを所定期間おきに該DQNチェックモデルに割り当て、該DQNチェックモデルを更新する。
S209、該ターゲット機器の現在の周辺環境の第3RGB−D画像を取得する。
該第3RGB−D画像は、該ターゲット機器が該第1制御ストラテジーに従って移動するように制御した後に収集された該RGB−D画像に含まれてもよい。
S210、該第3RGB−D画像を該DQNチェックモデルに入力して第2出力パラメータを得る。
該第2出力パラメータは、該DQNチェックモデルから出力された複数の決定対象出力パラメータのうちの最大パラメータを含んでもよい。
S211、該スコア及び該第2出力パラメータに基づいて所望の出力パラメータを算出する。
本ステップでは、該スコア及び該第2出力パラメータに基づいて以下の式により該所望の出力パラメータを決定できる。
Figure 2021509185
式中、
Figure 2021509185
は、該所望の出力パラメータを示し、
Figure 2021509185
は、該スコアを示し、
Figure 2021509185
は、調整因子を示し、
Figure 2021509185
は、該第3RGB−D画像を示し、
Figure 2021509185
は、所定のフレーム数の該第3RGB−D画像を該DQNチェックモデルに入力して得られた複数の決定対象出力パラメータを示し、
Figure 2021509185
は、該第2出力パラメータ(即ち、該複数の決定対象出力パラメータのうちの最大パラメータ)を示し、
Figure 2021509185
は、該第2出力パラメータに対応する第2制御ストラテジーを示す。
なお、1つの可能な実現形態では、該第2出力パラメータが該複数の決定対象出力パラメータのうちの最大パラメータである場合、該第2制御ストラテジーは、該第3RGB−D画像を該DQNチェックモデルに入力して得られた最適制御ストラテジーである。
S212、該第1出力パラメータ及び該所望の出力パラメータに基づいて訓練誤差を得る。
本ステップでは、第1出力パラメータと該所望の出力パラメータの差の二乗を該訓練誤差として決定できる。
S213、所定の誤差関数を取得して、該訓練誤差及び該所定の誤差関数に基づいて、逆伝播アルゴリズムにより該DQN訓練モデルを訓練し、該ターゲットDQNモデルを得る。
本ステップの具体的な実現形態については、従来技術における関連説明を参照すればよく、ここで詳しく説明しない。
該ターゲットDQNモデルを得た後、S214〜S216を実行することにより該ターゲットDQNモデルから出力されたターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御し、それによって、該ターゲット機器を制御して移動させることができる。
S214、該ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得する。
S215、該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して複数の決定対象出力パラメータを得て、複数の該決定対象出力パラメータのうちの最大パラメータを該ターゲット出力パラメータとして決定する。
S216、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定し、該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御する。
上記方法によれば、深層強化学習モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。
図5は、例示的な一実施例に示される機器移動の制御装置のブロック図であり、図5に示されるように、該装置は、
ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集するための画像収集モジュール501と、
該第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するための第1取得モジュール502と、
事前訓練された深層強化学習モデルDQN訓練モデルを取得し、該第2RGB−D画像に基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練モジュール503と、
該ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するための第2取得モジュール504と、
該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュール505と、
該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御するための制御モジュール506と、を備える。
好ましくは、図6は、図5における実施例に示される機器移動の制御装置のブロック図であり、図6に示されるように、該訓練モジュール503は、
該第2RGB−D画像を該DQN訓練モデルの入力として、該DQN訓練モデルの第1出力パラメータを得るための第1決定サブモジュール5031と、
該第1出力パラメータに基づいて第1制御ストラテジーを決定し、該ターゲット機器が該第1制御ストラテジーに従って移動するように制御するための制御サブモジュール5032と、
該ターゲット機器と周囲障害物との相対位置情報を取得するための第1取得サブモジュール5033と、
該相対位置情報に基づいて該第1制御ストラテジーを評価してスコアを得るための第2決定サブモジュール5034と、
該DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するための第2取得サブモジュール5035と、
該スコア及び該DQNチェックモデルに基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練サブモジュール5036と、を備える。
好ましくは、該DQN訓練モデルは、畳み込み層と、該畳み込み層に接続された完全接続層とを備え、該第1決定サブモジュール5031は、所定のフレーム数の該第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、該第1画像特徴を完全接続層に入力し、該DQN訓練モデルの第1出力パラメータを得る。
好ましくは、該DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ該RNNネットワークのターゲットRNNネットワークは、該完全接続層に接続され、該ターゲットRNNネットワークは、該RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の該RNNネットワークは順次接続され、該第1決定サブモジュール5031は、
各フレームの該第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、
該第2画像特徴を該CNNネットワークに接続された現在のRNNネットワークに入力し、該第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、該現在のRNNネットワークにより第4画像特徴を得て、該第4画像特徴を次のRNNネットワークに入力することと、該次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、該ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
該第5画像特徴が取得されると、該第5画像特徴を完全接続層に入力して、該DQN訓練モデルの第1出力パラメータを得る。
好ましくは、該訓練サブモジュール5036は、
該ターゲット機器の現在の周辺環境の第3RGB−D画像を取得し、
該第3RGB−D画像を該DQNチェックモデルに入力して第2出力パラメータを得て、
該スコア及び該第2出力パラメータに基づいて所望の出力パラメータを算出し、
該第1出力パラメータ及び該所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、該訓練誤差及び該所定の誤差関数に基づいて、逆伝播アルゴリズムにより該DQN訓練モデルを訓練し、該ターゲットDQNモデルを得る。
好ましくは、図7は、図5における実施例に示される機器移動の制御装置のブロック図であり、図7に示されるように、該決定モジュール505は、
該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して複数の決定対象出力パラメータを得るための第3決定サブモジュール5051と、
複数の該決定対象出力パラメータのうちの最大パラメータを該ターゲット出力パラメータとして決定するための第4決定サブモジュール5052と、を備える。
上記実施例における装置に関しては、各モジュールが操作を実行する具体的な方式については、該方法の関連実施例において詳細に説明したため、ここで詳しく説明しない。
上記装置によれば、深層強化学習モデルを用いて該ターゲット機器に制御ストラテジーを自発的に学習させ、サンプルの手動ラベル付けが不要になり、人力や物力を節約するとともに、モデルの汎用性を高める。
図8は、例示的な一実施例に示される電子機器800のブロック図である。図8に示されるように、該電子機器800は、プロセッサ801、メモリ802を備えてもよい。該電子機器800は、マルチメディアユニット803、入力/出力(I/O)インターフェース804、及び通信ユニット805のうちの1種以上をさらに備えてもよい。
プロセッサ801は、該電子機器800全体の操作を制御して、上記機器移動の制御方法におけるすべて又は一部のステップを完成させる。メモリ802は、該電子機器800の操作をサポートするように各種のタイプのデータを記憶し、これらデータは、たとえば該電子機器800上に操作される任意のアプリケーション又は方法の命令、及びアプリケーションに関連するデータ、たとえば連絡先データ、送受信メッセージ、プクチャ、オーディオ、ビデオなどを含み得る。該メモリ802は、任意のタイプの揮発性又は非揮発性メモリ又はこれらの組み合わせにより実現でき、たとえばスタティックランダムアクセスメモリ(Static Random Access Memory、略語SRAM)、電気消去可能なプログラマブル読み取り専用メモリ(Electrically Erasable Programmable Read−Only Memory、略語EEPROM)、消去可能なプログラマブル読み出し専用メモリ(Erasable Programmable Read−Only Memory、略語EPROM)、プログラマブル読み出し専用メモリ(Programmable Read−Only Memory、略語PROM)、読み出し専用メモリ(Read−Only Memory、略語ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又はコンパクトディスクである。マルチメディアユニット803は、画面及びオーディオユニットを含み得る。画面は、たとえばタッチ画面であり、オーディオユニットは、オーディオ信号の出力及び/又は入力に用いられ得る。たとえば、オーディオユニットは、外部のオーディオ信号を受信する1つのマイクロフォンを含んでもよい。受信されたオーディオ信号は、さらにメモリ802に記憶されるか、又は通信ユニット805を介して送信される。オーディオユニットは、オーディオ信号を出力するための少なくとも1つのスピーカーをさらに備える。I/Oインターフェース804は、プロセッサ801とほかのインターフェースモジュールとの間のインターフェースとして機能し、上記ほかのインターフェースモジュールは、キーボード、マウス、ボタンなどであってもよい。これらボタンは、仮想ボタン又は物理的ボタンであってもよい。通信ユニット805は、該電子機器800とほかの機器との有線又は無線通信に用いられる。無線通信は、たとえばWi−Fi、ブルートゥース、近距離無線通信(Near Field Communication、略語NFC)、2G、3G又は4G、又はこれらの1種又は複数種の組み合わせであり、それに対応して、該通信ユニット805は、Wi−Fiモジュール、ブルートゥースモジュール、NFCモジュールを備えてもよい。
例示的な一実施例では、電子機器800は、1つ以上の特定用途向け集積回路(Application Specific Integrated Circuit、略語ASIC)、デジタルシグナルプロセッサ(Digital Signal Processor、略語DSP)、デジタル信号処理機器(Digital Signal Processing Device、略語DSPD)、プログラマブルロジックデバイス(Programmable Logic Device、略語PLD)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、略語FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサ又はほかの電子素子により実現でき、上記機器移動の制御方法を実行することに用いられる。
別の例示的な実施例では、プログラム命令を含むコンピュータ可読記憶媒体をさらに提供し、該プログラム命令は、プロセッサにより実行されると上記機器移動の制御方法のステップを実現する。たとえば、該コンピュータ可読記憶媒体は、上記プログラム命令を含むメモリ802であってもよく、上記プログラム命令は、電子機器800のプロセッサ801により実行されて上記機器移動の制御方法を完成させることができる。
以上、図面を参照しながら本開示の好適実施形態を説明するが、本開示は、上記実施形態における詳細に制限されず、本開示の技術的構想から逸脱せずに本開示の技術案に対してさまざまな簡単な変形を行うことができ、これら簡単な変形は、すべて本開示の特許範囲に属する。
また、なお、上記特定の実施形態に記載の各具体的な技術的特徴は、矛盾しない限り、任意の適切な方式で組み合わせることができ、余計な重複を避けるように、本開示では、すべての可能な組み合わせ方式について説明しない。
そのほか、本開示の各種の異なる実施形態も、任意に組み合わせてもよく、本開示の主旨から逸脱しない限り、本開示の開示内容とみなすべきである。

Claims (14)

  1. 機器移動の制御方法であって、
    ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第1RGB−D画像を収集するステップと、
    前記第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するステップと、
    事前訓練された深層強化学習モデルDQN訓練モデルを取得し、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るステップと、
    前記ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するステップと、
    前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するステップと、
    前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するステップと、を含む、
    ことを特徴とする機器移動の制御方法。
  2. 前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る前記ステップは、
    前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得るステップと、
    前記第1出力パラメータに基づいて第1制御ストラテジーを決定し、前記ターゲット機器が前記第1制御ストラテジーに従って移動するように制御するステップと、
    前記ターゲット機器と周囲障害物との相対位置情報を取得するステップと、
    前記相対位置情報に基づいて前記第1制御ストラテジーを評価してスコアを得るステップと、
    前記DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するステップと、
    前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るステップと、を含む、
    ことを特徴とする請求項1に記載の機器移動の制御方法。
  3. 前記DQN訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得る前記ステップは、
    所定のフレーム数の前記第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、前記第1画像特徴を完全接続層に入力し、前記DQN訓練モデルの第1出力パラメータを得るステップを含む、
    ことを特徴とする請求項2に記載の機器移動の制御方法。
  4. 前記DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ前記RNNネットワークのターゲットRNNネットワークは、前記完全接続層に接続され、前記ターゲットRNNネットワークは、前記RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の前記RNNネットワークは順次接続され、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得る前記ステップは、
    各フレームの前記第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出するステップと、
    前記第2画像特徴を前記CNNネットワークに接続された現在のRNNネットワークに入力し、前記第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、前記現在のRNNネットワークにより第4画像特徴を得て、前記第4画像特徴を次のRNNネットワークに入力することと、前記次のRNNネットワークを、更新した現在のRNNネットワークとして決定することを含む特徴抽出ステップを、前記ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行するステップと、
    前記第5画像特徴が取得されると、前記第5画像特徴を完全接続層に入力して、前記DQN訓練モデルの第1出力パラメータを得るステップと、を含む、
    ことを特徴とする請求項2に記載の機器移動の制御方法。
  5. 前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る前記ステップは、
    前記ターゲット機器の現在の周辺環境の第3RGB−D画像を取得するステップと、
    前記第3RGB−D画像を前記DQNチェックモデルに入力して第2出力パラメータを得るステップと、
    前記スコア及び前記第2出力パラメータに基づいて所望の出力パラメータを算出するステップと、
    前記第1出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得るステップと、
    所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記DQN訓練モデルを訓練し、前記ターゲットDQNモデルを得るステップと、を含む、
    ことを特徴とする請求項2に記載の機器移動の制御方法。
  6. 前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、前記ターゲット出力パラメータを得る前記ステップは、
    前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、複数の決定対象出力パラメータを得るステップと、
    複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するステップと、を含む、
    ことを特徴とする請求項1〜5のいずれか1項に記載の機器移動の制御方法。
  7. 機器移動の制御装置であって、
    ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第1RGB−D画像を収集するための画像収集モジュールと、
    前記第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するための第1取得モジュールと、
    事前訓練された深層強化学習モデルDQN訓練モデルを取得し、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練モジュールと、
    前記ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するための第2取得モジュールと、
    前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュールと、
    前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するための制御モジュールと、を備える、
    ことを特徴とする機器移動の制御装置。
  8. 前記訓練モジュールは、
    前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得るための第1決定サブモジュールと、
    前記第1出力パラメータに基づいて第1制御ストラテジーを決定し、前記ターゲット機器が前記第1制御ストラテジーに従って移動するように制御するための制御サブモジュールと、
    前記ターゲット機器と周囲障害物との相対位置情報を取得するための第1取得サブモジュールと、
    前記相対位置情報に基づいて前記第1制御ストラテジーを評価してスコアを得るための第2決定サブモジュールと、
    前記DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するための第2取得サブモジュールと、
    前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練サブモジュールと、を備える、
    ことを特徴とする請求項7に記載の機器移動の制御装置。
  9. 前記DQN訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第1決定サブモジュールは、所定のフレーム数の前記第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、前記第1画像特徴を完全接続層に入力し、前記DQN訓練モデルの第1出力パラメータを得る、
    ことを特徴とする請求項8に記載の機器移動の制御装置。
  10. 前記DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ前記RNNネットワークのターゲットRNNネットワークは、前記完全接続層に接続され、前記ターゲットRNNネットワークは、前記RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の前記RNNネットワークは順次接続され、
    前記第1決定サブモジュールは、
    各フレームの前記第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、
    前記第2画像特徴を前記CNNネットワークに接続された現在のRNNネットワークに入力し、前記第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、前記現在のRNNネットワークにより第4画像特徴を得て、前記第4画像特徴を次のRNNネットワークに入力することと、前記次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
    前記第5画像特徴が取得されると、前記第5画像特徴を完全接続層に入力して、前記DQN訓練モデルの第1出力パラメータを得る、
    ことを特徴とする請求項8に記載の機器移動の制御装置。
  11. 前記訓練サブモジュールは、
    前記ターゲット機器の現在の周辺環境の第3RGB−D画像を取得し、
    前記第3RGB−D画像を前記DQNチェックモデルに入力して第2出力パラメータを得て、
    前記スコア及び前記第2出力パラメータに基づいて所望の出力パラメータを算出し、
    前記第1出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得て、
    所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記DQN訓練モデルを訓練し、前記ターゲットDQNモデルを得る、
    ことを特徴とする請求項8に記載の機器移動の制御装置。
  12. 前記決定モジュールは、
    前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、複数の決定対象出力パラメータを得るための第3決定サブモジュールと、
    複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するための第4決定サブモジュールと、を備える、
    ことを特徴とする請求項7〜11のいずれか1項に記載の機器移動の制御装置。
  13. コンピュータープログラムが記憶されたコンピュータ可読記憶媒体であって、
    該プログラムは、プロセッサにより実行されると請求項1−6のいずれか1項に記載の方法のステップを実現する、
    ことを特徴とするコンピュータ可読記憶媒体。
  14. 電子機器であって、
    コンピュータープログラムが記憶されたメモリと、
    請求項1−6のいずれか1項に記載の方法のステップを実現するように、前記メモリにおける前記コンピュータープログラムを実行するプロセッサと、を備える、
    ことを特徴とする電子機器。
JP2019570847A 2018-11-27 2019-11-13 機器移動の制御方法、制御装置、記憶媒体及び電子機器 Active JP6915909B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811427358.7A CN109697458A (zh) 2018-11-27 2018-11-27 控制设备移动的方法、装置、存储介质及电子设备
CN201811427358.7 2018-11-27
PCT/CN2019/118111 WO2020108309A1 (zh) 2018-11-27 2019-11-13 控制设备移动的方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
JP2021509185A true JP2021509185A (ja) 2021-03-18
JP6915909B2 JP6915909B2 (ja) 2021-08-04

Family

ID=66230225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019570847A Active JP6915909B2 (ja) 2018-11-27 2019-11-13 機器移動の制御方法、制御装置、記憶媒体及び電子機器

Country Status (4)

Country Link
US (1) US20210271253A1 (ja)
JP (1) JP6915909B2 (ja)
CN (1) CN109697458A (ja)
WO (1) WO2020108309A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210091067A (ko) * 2021-05-10 2021-07-21 아주대학교산학협력단 분산 snd 컨트롤러의 부하 분산을 위한 스위치 마이그레이션 장치 및 방법

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697458A (zh) * 2018-11-27 2019-04-30 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备
CN109760050A (zh) * 2019-01-12 2019-05-17 鲁班嫡系机器人(深圳)有限公司 机器人行为训练方法、装置、系统、存储介质及设备
CN110245567B (zh) * 2019-05-16 2023-04-07 达闼机器人股份有限公司 避障方法、装置、存储介质及电子设备
CN110488821B (zh) * 2019-08-12 2020-12-29 北京三快在线科技有限公司 一种确定无人车运动策略的方法及装置
US11513520B2 (en) 2019-12-10 2022-11-29 International Business Machines Corporation Formally safe symbolic reinforcement learning on visual inputs
CN111179382A (zh) * 2020-01-02 2020-05-19 广东博智林机器人有限公司 一种图像的排版方法、装置、介质及电子设备
US20220226994A1 (en) * 2020-07-20 2022-07-21 Georgia Tech Research Corporation Heterogeneous graph attention networks for scalable multi-robot scheduling
CN112130940B (zh) * 2020-08-25 2023-11-17 北京小米移动软件有限公司 终端的控制方法、装置、存储介质和电子设备
CN113552871B (zh) * 2021-01-08 2022-11-29 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN114173421B (zh) * 2021-11-25 2022-11-29 中山大学 基于深度强化学习的LoRa逻辑信道及功率分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003782A (ja) * 2005-05-07 2012-01-05 Stephen L Thaler 有用な情報を自律的にブートストラッピングする装置
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
CN107491072A (zh) * 2017-09-05 2017-12-19 百度在线网络技术(北京)有限公司 车辆避障方法和装置
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065881B (zh) * 2017-05-17 2019-11-08 清华大学 一种基于深度强化学习的机器人全局路径规划方法
CN107451661A (zh) * 2017-06-29 2017-12-08 西安电子科技大学 一种基于虚拟图像数据集的神经网络迁移学习方法
CN108550162B (zh) * 2018-03-27 2020-02-07 清华大学 一种基于深度强化学习的物体检测方法
CN108681712B (zh) * 2018-05-17 2022-01-28 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN108873687B (zh) * 2018-07-11 2020-06-26 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109697458A (zh) * 2018-11-27 2019-04-30 深圳前海达闼云端智能科技有限公司 控制设备移动的方法、装置、存储介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012003782A (ja) * 2005-05-07 2012-01-05 Stephen L Thaler 有用な情報を自律的にブートストラッピングする装置
CN104793620A (zh) * 2015-04-17 2015-07-22 中国矿业大学 基于视觉特征捆绑和强化学习理论的避障机器人
US20180174038A1 (en) * 2016-12-19 2018-06-21 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
CN107491072A (zh) * 2017-09-05 2017-12-19 百度在线网络技术(北京)有限公司 车辆避障方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210091067A (ko) * 2021-05-10 2021-07-21 아주대학교산학협력단 분산 snd 컨트롤러의 부하 분산을 위한 스위치 마이그레이션 장치 및 방법
KR102318614B1 (ko) * 2021-05-10 2021-10-27 아주대학교산학협력단 분산 snd 컨트롤러의 부하 분산을 위한 스위치 마이그레이션 장치 및 방법

Also Published As

Publication number Publication date
CN109697458A (zh) 2019-04-30
US20210271253A1 (en) 2021-09-02
WO2020108309A1 (zh) 2020-06-04
JP6915909B2 (ja) 2021-08-04

Similar Documents

Publication Publication Date Title
JP6915909B2 (ja) 機器移動の制御方法、制御装置、記憶媒体及び電子機器
CN111487864B (zh) 一种基于深度强化学习的机器人路径导航方法及系统
WO2021014878A1 (ja) 推論装置、推論方法、及び推論プログラム
EP3405845B1 (en) Object-focused active three-dimensional reconstruction
CN107403426B (zh) 一种目标物体检测方法及设备
CN106873585A (zh) 一种导航寻路方法、机器人及系统
CN112629542B (zh) 基于ddpg和lstm的无地图机器人路径导航方法及系统
CN109397285B (zh) 一种装配方法、装配装置及装配设备
CN112362066A (zh) 一种基于改进的深度强化学习的路径规划方法
CN111797983A (zh) 一种神经网络构建方法以及装置
EP3924787A1 (en) Creation of digital twin of the interaction among parts of the physical system
CN112534367B (zh) 学习装置、控制装置、学习方法以及计算机可读存储介质
KR20200028168A (ko) 컨볼루셔널 뉴럴 네트워크를 이용하는 컴퓨팅 장치 및 그 동작 방법
CN110245567A (zh) 避障方法、装置、存储介质及电子设备
CN115860107B (zh) 一种基于多智能体深度强化学习的多机探寻方法及系统
KR20210079610A (ko) 인공 지능 청소 로봇 및 방법
Wen et al. Probability Dueling DQN active visual SLAM for autonomous navigation in indoor environment
EP2898996A1 (en) Method of controlling a robotic system and a robotic system controller for implementing this method
WO2021008798A1 (en) Training of a convolutional neural network
CN117289691A (zh) 用于导航场景下强化学习的路径规划智能体的训练方法
CN114859940A (zh) 机器人移动控制方法、装置、设备以及存储介质
CN114594768A (zh) 一种基于视觉特征图重构的移动机器人导航决策方法
Wang et al. Path planning model of mobile robots in the context of crowds
Yun et al. Mobile robot navigation: neural Q-learning
bin Kamarulariffin et al. Improving Deep Reinforcement Learning Training Convergence using Fuzzy Logic for Autonomous Mobile Robot Navigation.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200410

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200410

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20210304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210708

R150 Certificate of patent or registration of utility model

Ref document number: 6915909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350