CN113156419A - 一种基于雷达与视觉多模态融合的具身语言导航方法 - Google Patents

一种基于雷达与视觉多模态融合的具身语言导航方法 Download PDF

Info

Publication number
CN113156419A
CN113156419A CN202110205655.2A CN202110205655A CN113156419A CN 113156419 A CN113156419 A CN 113156419A CN 202110205655 A CN202110205655 A CN 202110205655A CN 113156419 A CN113156419 A CN 113156419A
Authority
CN
China
Prior art keywords
robot
radar
action
navigation
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110205655.2A
Other languages
English (en)
Other versions
CN113156419B (zh
Inventor
刘华平
周方波
袁小虎
赵怀林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110205655.2A priority Critical patent/CN113156419B/zh
Publication of CN113156419A publication Critical patent/CN113156419A/zh
Application granted granted Critical
Publication of CN113156419B publication Critical patent/CN113156419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/005Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 with correlation of navigation data from several sources, e.g. map or contour matching
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/881Radar or analogous systems specially adapted for specific applications for robotics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Electromagnetism (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明提出一种基于雷达与视觉多模态融合的具身语言导航方法,属于机器人导航、自然语言处理和计算机视觉领域。该方法首先在带有双目相机的机器人上安装激光雷达,利用该机器人训练一个多模态融合神经网络模型。选取任一真实场景,对机器人下达自然语言导航指令并转化为对应语义向量;利用机器人在每个时刻获取的RGB图、深度图以及雷达信息,分别转化为对应的特征;对语义向量、RGB图特征和深度图特征进行特征融合,得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,机器人执行该动作直至完成导航任务。本发明可使机器人对真实环境具有良好的感知能力,提高避障导航的效率。

Description

一种基于雷达与视觉多模态融合的具身语言导航方法
技术领域
本发明涉及机器人导航、自然语言处理和计算机视觉领域,是一种基于雷达与视觉多模态融合的具身语言导航方法。
背景技术
人们长期以来一直追求使用自然语言与计算机进行人机交互,因为它既有重要的理论意义,同时也有也有明显的实际意义。人类可以用自己习惯的自然语言使用计算机,而无需再花费大量的时间去学习各种复杂的计算机语言。当前,使用自然语言控制机器人进行自主导航正逐渐成为研究热点。研究者们希望未来可以通过自然语言控制机器人完成导航任务,而导航任务也是机器人其他复杂任务的基础,对发展人工智能有着重要的意义。
视觉语言导航是让机器人跟着自然语言指令进行导航,这个任务需要机器人同时理解自然语言指令与视角中可以看见的图像信息,然后在环境中对自身所处状态做出对应的动作,最终达到目标位置。当前的研究者们大多在仿真环境中提高机器人视觉语言导航的正确率,但是在现实场景中,由于环境的复杂,机器人在导航的过程中往往遇到障碍物的阻挡,仅仅依靠视觉和深度信息,机器人往往无法避开障碍物。况且由于双目相机通常安装在机器人的上方,因此机器人无法观测到脚下的障碍物。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于雷达与视觉多模态融合的具身语言导航方法。本发明可使机器人对真实环境具有良好的感知能力,提高其避障导航的效率。
本发明提出一种基于雷达与视觉多模态融合的具身语言导航方法,其特征在于,该方法首先在带有双目相机的机器人的上安装激光雷达,并构建一个多模态融合神经网络模型;利用该机器人对该多模态融合神经网络模型进行训练,得到训练完毕的多模态融合神经网络模型;选取任一真实场景,对机器人下达自然语言导航指令并利用该神经网络模型转化为对应的语义向量;利用机器人在每个时刻分别获取的RGB图、深度图以及雷达信息,利用神经网络模型分别转化为对应的特征;对语义向量、RGB图特征和深度图特征进行特征融合,通过解码得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,直至机器人完成导航任务。该方法包括以下步骤:
1)在带有双目相机的机器人的上安装激光雷达,激光雷达安装在机器人的前方,安装完毕后,将该机器人作为执行导航任务的机器人;
2)构建多模态融合神经网络模型;该神经网络模型包括五个子网络,分别是:语言编码子网络,RGB图编码子网络,深度图编码子网络,雷达信息编码子网络以及包含两个全连接层和门控逻辑单元GRU的解码子网络;利用步骤1)的执行导航任务的机器人在训练场景中对该多模态融合神经网络模型进行训练,训练完毕后,得到训练完毕的多模态融合神经网络模型;
3)选取任一真实场景,将执行导航任务的机器人放置在该场景中任意的初始位置并作为当前位置,记当前时刻t=1,给机器人下达自然语言导航指令,将该导航指令输入语言编码子网络,语言编码子网络对该导航指令的语言序列进行编码,得到语义向量S;该自然语言导航指令的内容包含导航任务的目的地;
4)机器人在当前位置利用双目相机获取到当前时刻t对应的RGB图和深度图,利用RGB图编码子网络对RGB图进行特征提取得到当前时刻的RGB图视觉特征Vt,利用深度图编码子网络对深度图进行特征提取得到当前时刻的深度图视觉特征Dt;机器人利用激光雷达从右向左进行扫描,对机器人到前方物体的距离进行采样,将采样得到的雷达数据输入雷达信息编码子网络,得到当前时刻的雷达特征Lt
5)将语义向量S、视觉特征Vt和Dt进行特征融合组成当前初始状态特征,对当前初始状态特征使用Dropout机制进行随机失活,得到最终的当前状态特征;将该当前状态特征与前一时刻的动作at-1进行拼接,然后输入解码子网络的第一全连接层,该第一全连接层输出对应的状态特征;
将状态特征与上一时刻的隐状态Ht-1一起输入到解码子网络里的门控逻辑单元GRU中,GRU输出当前时刻的动作特征At与隐藏状态Ht
其中,H0和a0均为特征值全为1的向量;
6)利用雷达特征Lt对动作特征At进行修正,将修正后的特征输入解码子网络的第二全连接层,该第二全连接层输出机器人执行各动作的概率分布,然后选取概率最大值对应的动作作为机器人在当前时刻t的执行动作at
7)机器人执行动作at,当下一个时刻到来时,令t=t+1,然后重新返回步骤4);直到机器人在当前时刻t的执行动作at为停止时,机器人完成导航指令到达目的地相应的位置,导航结束。
本发明的特点及有益效果在于:
1)针对当前视觉语言导航任务应用于现实环境中,由于环境的复杂,机器人在导航的过程中往往遇到障碍物的阻挡,仅仅依靠视觉和深度信息,机器人无法避开障碍物。况且由于双目相机安装在机器人的上方,机器人观测不到脚下的障碍物。本发明使用雷达数据和视觉输入作为机器人观测到的信息,来提高机器人在现实场景中的避障能力。
2)本发明采用一种压缩扩展的机制来对雷达数据进行特征提取;雷达特征对当前动作特征进行修正方法采用直接相加的方式。通过雷达特征的修正,机器人避障的成功率显著增加。
3)本发明提出的基于雷达与视觉多模态融合的具身语言导航方法,可以广泛应用于家居服务机器人、安全救援机器人上,可有效提高机器人在实际工作环境中的避障能力。
附图说明
图1是本发明方法的整体流程图。
图2是本发明多模态融合神经网络模型中语言编码子网络、RGB图编码子网络、深度图编码子网络和雷达信息编码子网络的示意图。
图3是本发明多模态融合神经网络模型中的解码子网络工作原理图。
具体实施方式
本发明提出一种基于雷达与视觉多模态融合的具身语言导航方法,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出一种基于雷达与视觉多模态融合的具身语言导航方法,整体流程如图1所示,包括以下步骤:
1)在带有双目相机的机器人的上安装激光雷达(本实施例采用HOKUYO公司UST-10LX 2D激光雷达),激光雷达安装在机器人的前方,安装完毕后,将该机器人作为执行导航任务的机器人;
2)构建多模态融合神经网络模型;该神经网络模型包括五个子网络,分别是:语言编码子网络,RGB图编码子网络,深度图编码子网络,雷达信息编码子网络以及包含两个全连接层和门控逻辑单元GRU的解码子网络。
利用步骤1)的执行导航任务的机器人在训练场景中对该多模态融合神经网络模型进行训练,训练完毕后,得到训练完毕的多模态融合神经网络模型。
3)选取任一真实场景(该场景可与机器人训练时的训练场景不同),将执行导航任务的机器人放置在该场景中的任意初始位置并作为当前位置,记当前时刻t=1,给机器人下达不受限制的自然语言导航指令,将该导航指令输入语言编码子网络,语言编码子网络对该导航指令的语言序列进行编码,得到固定长度的语义向量S;其中,该自然语言导航指令的内容包含导航任务的目的地。
4)机器人在当前位置利用双目相机获取到当前时刻t对应的RGB图和深度图,利用RGB图编码子网络对RGB图进行特征提取得到当前时刻的RGB图视觉特征Vt,利用深度图编码子网络对深度图进行特征提取得到当前时刻的深度图视觉特征Dt;机器人利用激光雷达从右向左进行扫描,对机器人到前方物体的距离进行采样,将采样得到的雷达数据通过雷达信息编码子网络进行编码,得到当前时刻的雷达特征Lt
5)将语义向量S、视觉特征Vt和Dt进行特征融合组成当前初始状态特征,对当前初始状态特征使用Dropout机制进行随机失活,得到最终的当前状态特征;将该当前状态特征与前一时刻的动作at-1进行拼接,然后输入解码子网络的全连接层FC(640,128),该全连接层输出对应的状态特征;
将状态特征与上一时刻的隐状态Ht-1一起输入到解码子网络里的门控逻辑单元GRU中,GRU输出当前时刻的动作特征At与隐藏状态Ht
6)利用雷达特征Lt对动作特征At进行修正,将修正后的特征输入解码子网络的全连接层(此全连接层为解码子网络中的全连接层FC(128,4)),该全连接层输出机器人执行各动作的概率分布,然后选取概率最大值对应的动作作为机器人在当前时刻t的执行动作at
7)机器人执行动作at,当下一个时刻到来时,令t=t+1,然后重新返回步骤4);直到机器人在当前时刻t的执行动作at为停止时,机器人完成导航指令到达目的地相应的位置,导航结束。
所述步骤2)中,多模态融合神经网络模型的训练方法如下:
利用步骤1)执行导航任务的机器人从现实场景中采集训练数据;采集训练数据过程中,对于每条自然语言指令,将该语言指令输入当前语言编码子网络,语言编码子网络对该导航指令的语言序列进行编码,得到固定长度的语义向量S;
每条自然语言指令对应一个或者多条路径,每条路径包含多个机器人运动节点(训练时每条路径对应的动作序列由人工进行标注,得到该序列中每个节点对应正确动作的标签;测试的时候是随机将机器人放到某个初始位置,直接由神经网络输出机器人在每个节点对应的动作预测结果)。训练时,在每个节点机器人获取RGB图、深度图和雷达信息,作为当前节点的观测信息。在每个节点,机器人在当前位置利用双目相机获取到当前时刻t对应的RGB图和深度图,利用当前RGB图编码子网络对RGB图进行特征提取得到当前时刻的RGB图视觉特征Vt,利用深度图编码子网络对深度图进行特征提取得到当前时刻的深度图视觉特征Dt;机器人利用激光雷达从右向左进行扫描,对机器人到前方物体的距离进行采样,将采样得到的雷达数据通过当前雷达信息编码子网络进行编码,得到当前时刻的雷达特征Lt
然后将语义向量S、视觉特征Vt和Dt进行特征融合组成当前初始状态特征,对当前初始状态特征使用Dropout机制进行随机失活,得到最终的当前状态特征;将该当前状态特征与前一时刻的动作at-1进行拼接,然后输入当前解码子网络的全连接层FC(640,128),该全连接层输出对应的状态特征;将状态特征与上一时刻的隐状态Ht-1一起输入到当前解码子网络里的门控逻辑单元GRU中,GRU输出当前时刻的动作特征At与隐藏状态Ht
雷达特征Lt对动作特征At进行修正,将修正后的特征输入当前解码子网络的全连接层,全连接层输出机器人执行各动作的概率分布,然后选取概率最大值对应的动作作为机器人在当前时刻t的预测执行动作at
本发明中,网络模型的初始参数可以分为三个部分:(1)对RGB图和深度图编码的卷积部分,分别加载了ImageNet和Gibson的预训练权重,(2)对于语言编码子网络的h0、解码子网络中的H0以及a0映射成的128维的初始特征全为1,(3)其它部分的网络参数按照高斯分布进行初始化。
本发明通过交叉熵损失函数来测量预测动作与正确动作的差距:
Figure BDA0002950429460000051
公式中的i表示根据自然语言导航指令所做的动作序列中动作的索引(其中,一条路径的所有动作构成一个序列),ai
Figure BDA0002950429460000052
分别表示第i个动作的正确动作和预测的动作。
对整个多模态融合神经网络模型训练的过程包括前向传播和反向传播两个方面:前向传播主要是评估当前参数的损失,后向传播主要是根据损失函数的梯度更新参数。本发明中,机器人每完成一条训练路径,多模态融合神经网络模型完成一次训练,计算一次损失,然后根据损失值完成一次梯度更新。
在网络模型训练的过程中本发明采用Teacher Forcing的机制,Teacher Forcing是一种快速有效地训练循环神经网络模型的方法,该模型使用来自先验时间步长的输出作为输入,即在训练的过程中,它不是每次都使用上一个状态的动作输出作为下一个状态的动作输入,而是基于0.5的概率直接使用训练数据的正确动作(Ground Truth)作为下一个状态的动作输入。
本发明使用Adam优化器优化模型的参数,并将学习率设为0.001。每次从训练数据集中随机选择一条路径进行一次训练,完成一次后向传播,更新一次参数。一共训练2000次完成整个训练过程。得到训练完毕的多模态融合神经网络模型。
如图2(a)所示,在语言编码子网络中,对语言序列进行编码采用循环神经网络的方法,将不同长度的自然语言指令编码成固定维度的语义向量S,向量维度为128;所述自然语言指令为单词序列,该序列中可包含若干不同的动作;
首先将指令中的每个单词(本实施例采用英文单词序列作为自然语言指令)进行embedding(词嵌入)操作,转换成词向量,我们用xi来表示第i个词向量;从i=1开始,将xi作为当前词向量与前一词向量的隐状态hi-1(i=1时,对应hi-1的128维的特征值全为1)按照时间顺序输入到语言编码子网络中,每一个时刻输出当前词向量xi对应的隐状态hi,我们用函数f来表示循环神经网络隐藏层的变换:hi=f(xi,hi-1);
假设自然语言指令有m个单词,将语言编码子网络输出的最后一个词向量对应隐状态hm作为整条指令的语义向量S。
作为一种可能实现的方式,所述机器人对RGB图和深度图进行特征提取过程中,首先通过卷积神经网络对图像进行特征提取,然后通过全连接神经网络将其映射到固定维度的视觉特征;RGB图和深度图分别进入各自的编码子网络,所用的网络权重也不相同;
如图2(b)所示,RGB图编码子网络采用了Resnet50神经网络的卷积部分,然后在最后一层卷积层后再增加一层全连接层;为了增强加快梯度下降的收敛速度,增强模型的泛化表达能力,用来对RGB图编码的Resnet50神经网络的卷积部分加载了在ImageNet上训练的预训练权重,用来收集RGB图的视觉语义特征;用来对RGB图编码的全连接层用于输入卷积部分输出的视觉语义特征,并将其映射到256维的特征并输出RGB图视觉特征Vt。如图2(c)所示,深度图编码子网络包括修改后的Resnet50神经网络的卷积部分,然后在最后一层卷积层后再增加一层全连接层,其中卷积部分的卷积核个数相比于修改前减少一半;同样为了加快与训练权重,我们将深度图表示的绝对距离转换为相对距离(即将该深度图上绝对距离先归一化,其中以图中最近的绝对距离为0,最远的绝对距离1);用来对深度图编码的Resnet50神经网络的卷积部分加载了在Gibson虚拟环境中上训练的预训练权重,用来收集深度图的视觉语义特征;用来对深度图编码的全连接层用于输入卷积部分输出的视觉语义特征,并将其映射到128维的特征并输出视觉特征Dt
在机器人领域,激光雷达传感器可以帮助机器人在未知环境中获取机器人到前方物体的距离,为后续定位导航提供很好的环境认知能力。如图2(d)所示,雷达信息编码子网络包含三个全连接层,并采用了一种压缩扩展的机制,使机器人对前方的物体有着良好的感知能力。其中,第一全连接层用于输入64维的雷达数据,提取雷达特征并输出128维的雷达语义特征;第二全连接层用于输入第一全连接层输出的雷达语义特征,压缩雷达语义特征,将其映射到32维的特征并输出;所述的第三全连接层用于输入第二全连接层输出的雷达语义特征,扩展雷达语义特征,将其映射到128维并输出当前雷达特征Lt
如图3所示,在语义向量S、视觉特征Vt和Dt进行特征融合的过程中,首先将三种特征Concat(拼接)连接到一起,组成512维的当前初始状态特征,对当前初始状态特征使用Dropout机制进行随机失活;当前所用的Dropout,是指在特征输入过程中,按照一定的概率将一些特征丢弃(本实施例取值0.2,即在拼接后的特征中随机选取20%的特征变成0),得到最终的当前状态特征,这样可以起到数据增强的效果,来避免过拟合。
在机器人做出的动作序列中,接下来要做的动作与上一时刻要做的动作有很大的相关性,因此我们将上一时刻动作at-1被映射成一个128维的特征(t=1时,at-1对应的128维的特征值全为1),并与经过Dropout之后的状态特征Concat连接到一起,组成640维度的特征,紧接着通过解码子网络的全连接层FC(640,128)将其映射到128维的状态特征并输出;状态特征与解码子网络上一时刻输出的隐状态Ht-1(隐状态的初始值全为1,向量长度为128维)一起被送入到解码子网络的门控逻辑单元GRU中,输出当前动作特征At与隐藏状态Ht;输出的动作特征At可以被表示为:
At=GRU([St,Vt,Dt,at-1],Ht-1)
雷达特征Lt对当前动作特征At进行修正方法采用直接相加的方式,增加机器人的避障能力;被修正后的特征经过解码子网络的全连接层FC(128,4),该全连接层用于生成动作at,Wa和ba表示这一层的神经元所对应的权重和阈值,并输出相应的动作概率分布Pa t,选取概率最大值对应的动作作为机器人的将要执行动作at,这个过程可以被表示为:
at=argmax(softmax(Wa(At+Lt)+ba))
在本发明中,机器人接收的是自然语言指令序列,在每个状态都做出一个动作,是一种将指令序列转为动作序列的过程。随机初始化机器人的位置,并给予机器人不受限制的自然语言指令,机器人根据当前观测的视觉信息,并通过雷达信息来修正当前所要做的动作,在机器人认为未完成自然语言导航指令,即未到达目标位置时,机器人会继续观测当前状态,做出当前应该执行的动作,直到机器人认为到达了目标位置,机器人停止,等待下一条自然语言导航指令。

Claims (4)

1.一种基于雷达与视觉多模态融合的具身语言导航方法,其特征在于,该方法首先在带有双目相机的机器人的上安装激光雷达,并构建一个多模态融合神经网络模型;利用该机器人对该多模态融合神经网络模型进行训练,得到训练完毕的多模态融合神经网络模型;选取任一真实场景,对机器人下达自然语言导航指令并利用该神经网络模型转化为对应的语义向量;利用机器人在每个时刻分别获取的RGB图、深度图以及雷达信息,利用神经网络模型分别转化为对应的特征;对语义向量、RGB图特征和深度图特征进行特征融合,通过解码得到当前时刻的动作特征;利用雷达特征对该动作特征进行修正后,神经网络模型最终输出机器人在当前时刻的动作,直至机器人完成导航任务。
2.如权利要求1所述的方法,其特征在于,该方法包括以下步骤:
1)在带有双目相机的机器人的上安装激光雷达,激光雷达安装在机器人的前方,安装完毕后,将该机器人作为执行导航任务的机器人;
2)构建多模态融合神经网络模型;该神经网络模型包括五个子网络,分别是:语言编码子网络,RGB图编码子网络,深度图编码子网络,雷达信息编码子网络以及包含两个全连接层和门控逻辑单元GRU的解码子网络;利用步骤1)的执行导航任务的机器人在训练场景中对该多模态融合神经网络模型进行训练,训练完毕后,得到训练完毕的多模态融合神经网络模型;
3)选取任一真实场景,将执行导航任务的机器人放置在该场景中任意的初始位置并作为当前位置,记当前时刻t=1,给机器人下达自然语言导航指令,将该导航指令输入语言编码子网络,语言编码子网络对该导航指令的语言序列进行编码,得到语义向量S;该自然语言导航指令的内容包含导航任务的目的地;
4)机器人在当前位置利用双目相机获取到当前时刻t对应的RGB图和深度图,利用RGB图编码子网络对RGB图进行特征提取得到当前时刻的RGB图视觉特征Vt,利用深度图编码子网络对深度图进行特征提取得到当前时刻的深度图视觉特征Dt;机器人利用激光雷达从右向左进行扫描,对机器人到前方物体的距离进行采样,将采样得到的雷达数据输入雷达信息编码子网络,得到当前时刻的雷达特征Lt
5)将语义向量S、视觉特征Vt和Dt进行特征融合组成当前初始状态特征,对当前初始状态特征使用Dropout机制进行随机失活,得到最终的当前状态特征;将该当前状态特征与前一时刻的动作at-1进行拼接,然后输入解码子网络的第一全连接层,该第一全连接层输出对应的状态特征;
将状态特征与上一时刻的隐状态Ht-1一起输入到解码子网络里的门控逻辑单元GRU中,GRU输出当前时刻的动作特征At与隐藏状态Ht
其中,H0和a0均为特征值全为1的向量;
6)利用雷达特征Lt对动作特征At进行修正,将修正后的特征输入解码子网络的第二全连接层,该第二全连接层输出机器人执行各动作的概率分布,然后选取概率最大值对应的动作作为机器人在当前时刻t的执行动作at
7)机器人执行动作at,当下一个时刻到来时,令t=t+1,然后重新返回步骤4);直到机器人在当前时刻t的执行动作at为停止时,机器人完成导航指令到达目的地相应的位置,导航结束。
3.如权利要求2所述的方法,其特征在于,所述步骤3)中语言编码子网络对该导航指令的语言序列进行编码,得到语义向量S;具体方法为:
首先将指令中的每个单词进行embedding词嵌入操作,转换为对应的词向量,令xi表示第i个词向量,从i=1开始,将xi作为当前词向量与前一词向量的隐状态hi-1依次输入到语言编码子网络中,语言编码子网络输出当前词向量xi对应的隐状态hi;其中i=1时,hi-1为特征值全为1的向量;
记该自然语言指令有m个单词,则将语言编码子网络输出的最后一个词向量对应隐状态hm作为整条指令的语义向量S。
4.如权利要求2所述的方法,其特征在于,所述步骤6)中利用雷达特征Lt对动作特征At进行修正的方法为将两个特征直接相加。
CN202110205655.2A 2021-02-24 2021-02-24 一种基于雷达与视觉多模态融合的具身语言导航方法 Active CN113156419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110205655.2A CN113156419B (zh) 2021-02-24 2021-02-24 一种基于雷达与视觉多模态融合的具身语言导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110205655.2A CN113156419B (zh) 2021-02-24 2021-02-24 一种基于雷达与视觉多模态融合的具身语言导航方法

Publications (2)

Publication Number Publication Date
CN113156419A true CN113156419A (zh) 2021-07-23
CN113156419B CN113156419B (zh) 2022-10-11

Family

ID=76883301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110205655.2A Active CN113156419B (zh) 2021-02-24 2021-02-24 一种基于雷达与视觉多模态融合的具身语言导航方法

Country Status (1)

Country Link
CN (1) CN113156419B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082915A (zh) * 2022-05-27 2022-09-20 华南理工大学 一种基于多模态特征的移动机器人视觉-语言导航方法
WO2023106446A1 (ko) * 2021-12-07 2023-06-15 광주과학기술원 Interactive perception 및 action policy의 이중적 태스크 스트림을 포함하는 modular object-centric approach(moca) 모델에 따른 ai 에이전트의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN116385757A (zh) * 2022-12-30 2023-07-04 天津大学 一种基于vr设备的视觉语言导航系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610650A (zh) * 2019-08-27 2019-12-24 杭州电子科技大学 一种基于深度学习和深度相机的点云语义地图的构建方法
CN111609852A (zh) * 2019-02-25 2020-09-01 北京奇虎科技有限公司 语义地图构建方法、扫地机器人及电子设备
CN111645073A (zh) * 2020-05-29 2020-09-11 武汉理工大学 一种机器人视觉语义导航方法、装置及系统
CN111679661A (zh) * 2019-02-25 2020-09-18 北京奇虎科技有限公司 基于深度相机的语义地图构建方法及扫地机器人
CN112136141A (zh) * 2018-03-23 2020-12-25 谷歌有限责任公司 基于自由形式自然语言输入控制机器人
CN112258618A (zh) * 2020-11-04 2021-01-22 中国科学院空天信息创新研究院 基于先验激光点云与深度图融合的语义建图与定位方法
WO2021013334A1 (en) * 2019-07-22 2021-01-28 Toyota Motor Europe Depth maps prediction system and training method for such a system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112136141A (zh) * 2018-03-23 2020-12-25 谷歌有限责任公司 基于自由形式自然语言输入控制机器人
CN111609852A (zh) * 2019-02-25 2020-09-01 北京奇虎科技有限公司 语义地图构建方法、扫地机器人及电子设备
CN111679661A (zh) * 2019-02-25 2020-09-18 北京奇虎科技有限公司 基于深度相机的语义地图构建方法及扫地机器人
WO2021013334A1 (en) * 2019-07-22 2021-01-28 Toyota Motor Europe Depth maps prediction system and training method for such a system
CN110610650A (zh) * 2019-08-27 2019-12-24 杭州电子科技大学 一种基于深度学习和深度相机的点云语义地图的构建方法
CN111645073A (zh) * 2020-05-29 2020-09-11 武汉理工大学 一种机器人视觉语义导航方法、装置及系统
CN112258618A (zh) * 2020-11-04 2021-01-22 中国科学院空天信息创新研究院 基于先验激光点云与深度图融合的语义建图与定位方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023106446A1 (ko) * 2021-12-07 2023-06-15 광주과학기술원 Interactive perception 및 action policy의 이중적 태스크 스트림을 포함하는 modular object-centric approach(moca) 모델에 따른 ai 에이전트의 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN115082915A (zh) * 2022-05-27 2022-09-20 华南理工大学 一种基于多模态特征的移动机器人视觉-语言导航方法
CN115082915B (zh) * 2022-05-27 2024-03-29 华南理工大学 一种基于多模态特征的移动机器人视觉-语言导航方法
CN116385757A (zh) * 2022-12-30 2023-07-04 天津大学 一种基于vr设备的视觉语言导航系统及方法
CN116385757B (zh) * 2022-12-30 2023-10-31 天津大学 一种基于vr设备的视觉语言导航系统及方法

Also Published As

Publication number Publication date
CN113156419B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN113156419B (zh) 一种基于雷达与视觉多模态融合的具身语言导航方法
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
Liu et al. 3DCNN-DQN-RNN: A deep reinforcement learning framework for semantic parsing of large-scale 3D point clouds
CN106970615A (zh) 一种深度强化学习的实时在线路径规划方法
CN113065451B (zh) 一种多模态融合的动作识别装置、方法和存储介质
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN114613013A (zh) 一种基于骨骼节点的端到端人类行为识别方法与模型
CN111967277A (zh) 基于多模态机器翻译模型的翻译方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN111476771A (zh) 一种基于距离对抗生成网络的领域自适应方法及系统
CN112809689A (zh) 基于语言引导的机械臂动作元模仿学习方法及存储介质
US20220198813A1 (en) System and method for efficient visual navigation
CN111476823B (zh) 基于多挑战交互学习的实时rgbt跟踪方法及装置
CN113139446A (zh) 一种端到端自动驾驶行为决策方法、系统及终端设备
CN113326735A (zh) 一种基于YOLOv5的多模态小目标检测方法
CN114355915B (zh) 一种基于深度强化学习的agv路径规划
Li et al. Efficient heuristic generation for robot path planning with recurrent generative model
CN114880440A (zh) 基于智能辅助和知识赋能的视觉语言导航方法及装置
CN113034592B (zh) 基于自然语言描述的三维场景目标检测建模及检测方法
Chang et al. Robot sound interpretation: Combining sight and sound in learning-based control
WO2022194398A1 (en) Domain adaptive semantic segmentation
Ruan et al. Obstacle avoidance navigation method for robot based on deep reinforcement learning
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN116311493A (zh) 一种基于编码解码架构的两阶段人-物交互检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant