JP2021509185A - 機器移動の制御方法、制御装置、記憶媒体及び電子機器 - Google Patents
機器移動の制御方法、制御装置、記憶媒体及び電子機器 Download PDFInfo
- Publication number
- JP2021509185A JP2021509185A JP2019570847A JP2019570847A JP2021509185A JP 2021509185 A JP2021509185 A JP 2021509185A JP 2019570847 A JP2019570847 A JP 2019570847A JP 2019570847 A JP2019570847 A JP 2019570847A JP 2021509185 A JP2021509185 A JP 2021509185A
- Authority
- JP
- Japan
- Prior art keywords
- target
- dqn
- image
- model
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 187
- 238000011217 control strategy Methods 0.000 claims abstract description 69
- 238000012546 transfer Methods 0.000 claims abstract description 25
- 230000002787 reinforcement Effects 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0248—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
Description
各フレームの前記第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、
前記第2画像特徴を前記CNNネットワークに接続された現在のRNNネットワークに入力し、前記第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、前記現在のRNNネットワークにより第4画像特徴を得て、前記第4画像特徴を次のRNNネットワークに入力することと、前記次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
前記第5画像特徴が取得されると、前記第5画像特徴を完全接続層に入力して、前記DQN訓練モデルの第1出力パラメータを得る。
前記ターゲット機器の現在の周辺環境の第3RGB−D画像を取得し、
前記第3RGB−D画像を前記DQNチェックモデルに入力して第2出力パラメータを得て、
前記スコア及び前記第2出力パラメータに基づいて所望の出力パラメータを算出し、
前記第1出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記DQN訓練モデルを訓練し、前記ターゲットDQNモデルを得る。
は、該所望の出力パラメータを示し、
は、該スコアを示し、
は、調整因子を示し、
は、該第3RGB−D画像を示し、
は、所定のフレーム数の該第3RGB−D画像を該DQNチェックモデルに入力して得られた複数の決定対象出力パラメータを示し、
は、該第2出力パラメータ(即ち、該複数の決定対象出力パラメータのうちの最大パラメータ)を示し、
は、該第2出力パラメータに対応する第2制御ストラテジーを示す。
ターゲット機器が移動するとき、所定周期ごとに該ターゲット機器の周辺環境の第1RGB−D画像を収集するための画像収集モジュール501と、
該第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するための第1取得モジュール502と、
事前訓練された深層強化学習モデルDQN訓練モデルを取得し、該第2RGB−D画像に基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練モジュール503と、
該ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するための第2取得モジュール504と、
該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、該ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュール505と、
該ターゲット機器が該ターゲット制御ストラテジーに従って移動するように制御するための制御モジュール506と、を備える。
該第2RGB−D画像を該DQN訓練モデルの入力として、該DQN訓練モデルの第1出力パラメータを得るための第1決定サブモジュール5031と、
該第1出力パラメータに基づいて第1制御ストラテジーを決定し、該ターゲット機器が該第1制御ストラテジーに従って移動するように制御するための制御サブモジュール5032と、
該ターゲット機器と周囲障害物との相対位置情報を取得するための第1取得サブモジュール5033と、
該相対位置情報に基づいて該第1制御ストラテジーを評価してスコアを得るための第2決定サブモジュール5034と、
該DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するための第2取得サブモジュール5035と、
該スコア及び該DQNチェックモデルに基づいて該DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練サブモジュール5036と、を備える。
各フレームの該第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、
該第2画像特徴を該CNNネットワークに接続された現在のRNNネットワークに入力し、該第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、該現在のRNNネットワークにより第4画像特徴を得て、該第4画像特徴を次のRNNネットワークに入力することと、該次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、該ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
該第5画像特徴が取得されると、該第5画像特徴を完全接続層に入力して、該DQN訓練モデルの第1出力パラメータを得る。
該ターゲット機器の現在の周辺環境の第3RGB−D画像を取得し、
該第3RGB−D画像を該DQNチェックモデルに入力して第2出力パラメータを得て、
該スコア及び該第2出力パラメータに基づいて所望の出力パラメータを算出し、
該第1出力パラメータ及び該所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、該訓練誤差及び該所定の誤差関数に基づいて、逆伝播アルゴリズムにより該DQN訓練モデルを訓練し、該ターゲットDQNモデルを得る。
該ターゲットRGB−D画像を該ターゲットDQNモデルに入力して複数の決定対象出力パラメータを得るための第3決定サブモジュール5051と、
複数の該決定対象出力パラメータのうちの最大パラメータを該ターゲット出力パラメータとして決定するための第4決定サブモジュール5052と、を備える。
Claims (14)
- 機器移動の制御方法であって、
ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第1RGB−D画像を収集するステップと、
前記第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するステップと、
事前訓練された深層強化学習モデルDQN訓練モデルを取得し、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るステップと、
前記ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するステップと、
前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するステップと、
前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するステップと、を含む、
ことを特徴とする機器移動の制御方法。 - 前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る前記ステップは、
前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得るステップと、
前記第1出力パラメータに基づいて第1制御ストラテジーを決定し、前記ターゲット機器が前記第1制御ストラテジーに従って移動するように制御するステップと、
前記ターゲット機器と周囲障害物との相対位置情報を取得するステップと、
前記相対位置情報に基づいて前記第1制御ストラテジーを評価してスコアを得るステップと、
前記DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するステップと、
前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るステップと、を含む、
ことを特徴とする請求項1に記載の機器移動の制御方法。 - 前記DQN訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得る前記ステップは、
所定のフレーム数の前記第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、前記第1画像特徴を完全接続層に入力し、前記DQN訓練モデルの第1出力パラメータを得るステップを含む、
ことを特徴とする請求項2に記載の機器移動の制御方法。 - 前記DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ前記RNNネットワークのターゲットRNNネットワークは、前記完全接続層に接続され、前記ターゲットRNNネットワークは、前記RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の前記RNNネットワークは順次接続され、前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得る前記ステップは、
各フレームの前記第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出するステップと、
前記第2画像特徴を前記CNNネットワークに接続された現在のRNNネットワークに入力し、前記第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、前記現在のRNNネットワークにより第4画像特徴を得て、前記第4画像特徴を次のRNNネットワークに入力することと、前記次のRNNネットワークを、更新した現在のRNNネットワークとして決定することを含む特徴抽出ステップを、前記ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行するステップと、
前記第5画像特徴が取得されると、前記第5画像特徴を完全接続層に入力して、前記DQN訓練モデルの第1出力パラメータを得るステップと、を含む、
ことを特徴とする請求項2に記載の機器移動の制御方法。 - 前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得る前記ステップは、
前記ターゲット機器の現在の周辺環境の第3RGB−D画像を取得するステップと、
前記第3RGB−D画像を前記DQNチェックモデルに入力して第2出力パラメータを得るステップと、
前記スコア及び前記第2出力パラメータに基づいて所望の出力パラメータを算出するステップと、
前記第1出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得るステップと、
所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記DQN訓練モデルを訓練し、前記ターゲットDQNモデルを得るステップと、を含む、
ことを特徴とする請求項2に記載の機器移動の制御方法。 - 前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、前記ターゲット出力パラメータを得る前記ステップは、
前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、複数の決定対象出力パラメータを得るステップと、
複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するステップと、を含む、
ことを特徴とする請求項1〜5のいずれか1項に記載の機器移動の制御方法。 - 機器移動の制御装置であって、
ターゲット機器が移動するとき、所定周期ごとに前記ターゲット機器の周辺環境の第1RGB−D画像を収集するための画像収集モジュールと、
前記第1RGB−D画像から所定のフレーム数の第2RGB−D画像を取得するための第1取得モジュールと、
事前訓練された深層強化学習モデルDQN訓練モデルを取得し、前記第2RGB−D画像に基づいて前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練モジュールと、
前記ターゲット機器の現在の周辺環境のターゲットRGB−D画像を取得するための第2取得モジュールと、
前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、ターゲット出力パラメータを得て、前記ターゲット出力パラメータに基づいてターゲット制御ストラテジーを決定するための決定モジュールと、
前記ターゲット機器が前記ターゲット制御ストラテジーに従って移動するように制御するための制御モジュールと、を備える、
ことを特徴とする機器移動の制御装置。 - 前記訓練モジュールは、
前記第2RGB−D画像を前記DQN訓練モデルの入力として、前記DQN訓練モデルの第1出力パラメータを得るための第1決定サブモジュールと、
前記第1出力パラメータに基づいて第1制御ストラテジーを決定し、前記ターゲット機器が前記第1制御ストラテジーに従って移動するように制御するための制御サブモジュールと、
前記ターゲット機器と周囲障害物との相対位置情報を取得するための第1取得サブモジュールと、
前記相対位置情報に基づいて前記第1制御ストラテジーを評価してスコアを得るための第2決定サブモジュールと、
前記DQN訓練モデルのモデルパラメータに基づいて生成されるDQNモデルを含むDQNチェックモデルを取得するための第2取得サブモジュールと、
前記スコア及び前記DQNチェックモデルに基づいて、前記DQN訓練モデルに対して移転訓練を行い、ターゲットDQNモデルを得るための訓練サブモジュールと、を備える、
ことを特徴とする請求項7に記載の機器移動の制御装置。 - 前記DQN訓練モデルは、畳み込み層と、前記畳み込み層に接続された完全接続層とを備え、前記第1決定サブモジュールは、所定のフレーム数の前記第2RGB−D画像を畳み込み層に入力して第1画像特徴を抽出し、前記第1画像特徴を完全接続層に入力し、前記DQN訓練モデルの第1出力パラメータを得る、
ことを特徴とする請求項8に記載の機器移動の制御装置。 - 前記DQN訓練モデルは、複数の畳み込みニューラルネットワークCNNネットワーク、複数のリカレントニューラルネットワークRNNネットワーク及び完全接続層を備え、異なるCNNネットワークは、異なるRNNネットワークに接続され、且つ前記RNNネットワークのターゲットRNNネットワークは、前記完全接続層に接続され、前記ターゲットRNNネットワークは、前記RNNネットワークのうちのいずれか1つのRNNネットワークを含み、複数の前記RNNネットワークは順次接続され、
前記第1決定サブモジュールは、
各フレームの前記第2RGB−D画像をそれぞれ異なるCNNネットワークに入力して第2画像特徴を抽出し、
前記第2画像特徴を前記CNNネットワークに接続された現在のRNNネットワークに入力し、前記第2画像特徴及び前のRNNネットワークから入力された第3画像特徴に基づいて、前記現在のRNNネットワークにより第4画像特徴を得て、前記第4画像特徴を次のRNNネットワークに入力することと、前記次のRNNネットワークを、更新した現在のRNNネットワークとして決定することとを含む特徴抽出ステップを、前記ターゲットRNNネットワークから出力された第5画像特徴を取得することを含む特徴抽出終了条件が満たされるまで、繰り返して実行し、
前記第5画像特徴が取得されると、前記第5画像特徴を完全接続層に入力して、前記DQN訓練モデルの第1出力パラメータを得る、
ことを特徴とする請求項8に記載の機器移動の制御装置。 - 前記訓練サブモジュールは、
前記ターゲット機器の現在の周辺環境の第3RGB−D画像を取得し、
前記第3RGB−D画像を前記DQNチェックモデルに入力して第2出力パラメータを得て、
前記スコア及び前記第2出力パラメータに基づいて所望の出力パラメータを算出し、
前記第1出力パラメータ及び前記所望の出力パラメータに基づいて訓練誤差を得て、
所定の誤差関数を取得して、前記訓練誤差及び前記所定の誤差関数に基づいて、逆伝播アルゴリズムにより前記DQN訓練モデルを訓練し、前記ターゲットDQNモデルを得る、
ことを特徴とする請求項8に記載の機器移動の制御装置。 - 前記決定モジュールは、
前記ターゲットRGB−D画像を前記ターゲットDQNモデルに入力して、複数の決定対象出力パラメータを得るための第3決定サブモジュールと、
複数の前記決定対象出力パラメータのうちの最大パラメータを前記ターゲット出力パラメータとして決定するための第4決定サブモジュールと、を備える、
ことを特徴とする請求項7〜11のいずれか1項に記載の機器移動の制御装置。 - コンピュータープログラムが記憶されたコンピュータ可読記憶媒体であって、
該プログラムは、プロセッサにより実行されると請求項1−6のいずれか1項に記載の方法のステップを実現する、
ことを特徴とするコンピュータ可読記憶媒体。 - 電子機器であって、
コンピュータープログラムが記憶されたメモリと、
請求項1−6のいずれか1項に記載の方法のステップを実現するように、前記メモリにおける前記コンピュータープログラムを実行するプロセッサと、を備える、
ことを特徴とする電子機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811427358.7A CN109697458A (zh) | 2018-11-27 | 2018-11-27 | 控制设备移动的方法、装置、存储介质及电子设备 |
CN201811427358.7 | 2018-11-27 | ||
PCT/CN2019/118111 WO2020108309A1 (zh) | 2018-11-27 | 2019-11-13 | 控制设备移动的方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021509185A true JP2021509185A (ja) | 2021-03-18 |
JP6915909B2 JP6915909B2 (ja) | 2021-08-04 |
Family
ID=66230225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019570847A Active JP6915909B2 (ja) | 2018-11-27 | 2019-11-13 | 機器移動の制御方法、制御装置、記憶媒体及び電子機器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210271253A1 (ja) |
JP (1) | JP6915909B2 (ja) |
CN (1) | CN109697458A (ja) |
WO (1) | WO2020108309A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210091067A (ko) * | 2021-05-10 | 2021-07-21 | 아주대학교산학협력단 | 분산 snd 컨트롤러의 부하 분산을 위한 스위치 마이그레이션 장치 및 방법 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697458A (zh) * | 2018-11-27 | 2019-04-30 | 深圳前海达闼云端智能科技有限公司 | 控制设备移动的方法、装置、存储介质及电子设备 |
CN109760050A (zh) * | 2019-01-12 | 2019-05-17 | 鲁班嫡系机器人(深圳)有限公司 | 机器人行为训练方法、装置、系统、存储介质及设备 |
CN110245567B (zh) * | 2019-05-16 | 2023-04-07 | 达闼机器人股份有限公司 | 避障方法、装置、存储介质及电子设备 |
CN110488821B (zh) * | 2019-08-12 | 2020-12-29 | 北京三快在线科技有限公司 | 一种确定无人车运动策略的方法及装置 |
US11513520B2 (en) | 2019-12-10 | 2022-11-29 | International Business Machines Corporation | Formally safe symbolic reinforcement learning on visual inputs |
CN111179382A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种图像的排版方法、装置、介质及电子设备 |
US20220226994A1 (en) * | 2020-07-20 | 2022-07-21 | Georgia Tech Research Corporation | Heterogeneous graph attention networks for scalable multi-robot scheduling |
CN112130940B (zh) * | 2020-08-25 | 2023-11-17 | 北京小米移动软件有限公司 | 终端的控制方法、装置、存储介质和电子设备 |
CN113552871B (zh) * | 2021-01-08 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的机器人控制方法、装置及电子设备 |
CN114173421B (zh) * | 2021-11-25 | 2022-11-29 | 中山大学 | 基于深度强化学习的LoRa逻辑信道及功率分配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003782A (ja) * | 2005-05-07 | 2012-01-05 | Stephen L Thaler | 有用な情報を自律的にブートストラッピングする装置 |
CN104793620A (zh) * | 2015-04-17 | 2015-07-22 | 中国矿业大学 | 基于视觉特征捆绑和强化学习理论的避障机器人 |
CN107491072A (zh) * | 2017-09-05 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 车辆避障方法和装置 |
US20180174038A1 (en) * | 2016-12-19 | 2018-06-21 | Futurewei Technologies, Inc. | Simultaneous localization and mapping with reinforcement learning |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107065881B (zh) * | 2017-05-17 | 2019-11-08 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
CN107451661A (zh) * | 2017-06-29 | 2017-12-08 | 西安电子科技大学 | 一种基于虚拟图像数据集的神经网络迁移学习方法 |
CN108550162B (zh) * | 2018-03-27 | 2020-02-07 | 清华大学 | 一种基于深度强化学习的物体检测方法 |
CN108681712B (zh) * | 2018-05-17 | 2022-01-28 | 北京工业大学 | 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 |
CN108873687B (zh) * | 2018-07-11 | 2020-06-26 | 哈尔滨工程大学 | 一种基于深度q学习的智能水下机器人行为体系结规划方法 |
CN109697458A (zh) * | 2018-11-27 | 2019-04-30 | 深圳前海达闼云端智能科技有限公司 | 控制设备移动的方法、装置、存储介质及电子设备 |
-
2018
- 2018-11-27 CN CN201811427358.7A patent/CN109697458A/zh active Pending
-
2019
- 2019-11-13 JP JP2019570847A patent/JP6915909B2/ja active Active
- 2019-11-13 WO PCT/CN2019/118111 patent/WO2020108309A1/zh active Application Filing
-
2021
- 2021-05-14 US US17/320,662 patent/US20210271253A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003782A (ja) * | 2005-05-07 | 2012-01-05 | Stephen L Thaler | 有用な情報を自律的にブートストラッピングする装置 |
CN104793620A (zh) * | 2015-04-17 | 2015-07-22 | 中国矿业大学 | 基于视觉特征捆绑和强化学习理论的避障机器人 |
US20180174038A1 (en) * | 2016-12-19 | 2018-06-21 | Futurewei Technologies, Inc. | Simultaneous localization and mapping with reinforcement learning |
CN107491072A (zh) * | 2017-09-05 | 2017-12-19 | 百度在线网络技术(北京)有限公司 | 车辆避障方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210091067A (ko) * | 2021-05-10 | 2021-07-21 | 아주대학교산학협력단 | 분산 snd 컨트롤러의 부하 분산을 위한 스위치 마이그레이션 장치 및 방법 |
KR102318614B1 (ko) * | 2021-05-10 | 2021-10-27 | 아주대학교산학협력단 | 분산 snd 컨트롤러의 부하 분산을 위한 스위치 마이그레이션 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN109697458A (zh) | 2019-04-30 |
US20210271253A1 (en) | 2021-09-02 |
WO2020108309A1 (zh) | 2020-06-04 |
JP6915909B2 (ja) | 2021-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6915909B2 (ja) | 機器移動の制御方法、制御装置、記憶媒体及び電子機器 | |
CN111487864B (zh) | 一种基于深度强化学习的机器人路径导航方法及系统 | |
WO2021014878A1 (ja) | 推論装置、推論方法、及び推論プログラム | |
EP3405845B1 (en) | Object-focused active three-dimensional reconstruction | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
CN106873585A (zh) | 一种导航寻路方法、机器人及系统 | |
CN112629542B (zh) | 基于ddpg和lstm的无地图机器人路径导航方法及系统 | |
CN109397285B (zh) | 一种装配方法、装配装置及装配设备 | |
CN112362066A (zh) | 一种基于改进的深度强化学习的路径规划方法 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
EP3924787A1 (en) | Creation of digital twin of the interaction among parts of the physical system | |
CN112534367B (zh) | 学习装置、控制装置、学习方法以及计算机可读存储介质 | |
KR20200028168A (ko) | 컨볼루셔널 뉴럴 네트워크를 이용하는 컴퓨팅 장치 및 그 동작 방법 | |
CN110245567A (zh) | 避障方法、装置、存储介质及电子设备 | |
CN115860107B (zh) | 一种基于多智能体深度强化学习的多机探寻方法及系统 | |
KR20210079610A (ko) | 인공 지능 청소 로봇 및 방법 | |
Wen et al. | Probability Dueling DQN active visual SLAM for autonomous navigation in indoor environment | |
EP2898996A1 (en) | Method of controlling a robotic system and a robotic system controller for implementing this method | |
WO2021008798A1 (en) | Training of a convolutional neural network | |
CN117289691A (zh) | 用于导航场景下强化学习的路径规划智能体的训练方法 | |
CN114859940A (zh) | 机器人移动控制方法、装置、设备以及存储介质 | |
CN114594768A (zh) | 一种基于视觉特征图重构的移动机器人导航决策方法 | |
Wang et al. | Path planning model of mobile robots in the context of crowds | |
Yun et al. | Mobile robot navigation: neural Q-learning | |
bin Kamarulariffin et al. | Improving Deep Reinforcement Learning Training Convergence using Fuzzy Logic for Autonomous Mobile Robot Navigation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200410 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200410 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20210107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6915909 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |