CN115082915A - 一种基于多模态特征的移动机器人视觉-语言导航方法 - Google Patents

一种基于多模态特征的移动机器人视觉-语言导航方法 Download PDF

Info

Publication number
CN115082915A
CN115082915A CN202210586122.8A CN202210586122A CN115082915A CN 115082915 A CN115082915 A CN 115082915A CN 202210586122 A CN202210586122 A CN 202210586122A CN 115082915 A CN115082915 A CN 115082915A
Authority
CN
China
Prior art keywords
robot
action
feature vector
visual
characteristic vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210586122.8A
Other languages
English (en)
Other versions
CN115082915B (zh
Inventor
董敏
钟浩钊
毕盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210586122.8A priority Critical patent/CN115082915B/zh
Publication of CN115082915A publication Critical patent/CN115082915A/zh
Application granted granted Critical
Publication of CN115082915B publication Critical patent/CN115082915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态特征的移动机器人视觉‑语言导航方法,包括:1)对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;2)对于当前时刻的输入图像进行编码,得到视觉特征向量;3)根据机器人的历史动作编码得到历史特征向量;4)对步骤1)到步骤3)得到的多种模态的特征向量进行跨模态编码;5)将跨模态编码结果输入到动作决策模块,预测下一步动作并执行;6)重复步骤2)到步骤5)直到机器人停止移动,然后更新模型。本发明提供物体参考信息和历史导航信息,能让机器人根据自然语言指令进行视觉导航,实验表明所提出方法具有优秀的性能。

Description

一种基于多模态特征的移动机器人视觉-语言导航方法
技术领域
本发明涉及移动机器人视觉-语言导航的技术领域,尤其是指一种基于多模态特征的移动机器人视觉-语言导航方法。
背景技术
近年来,移动机器人的工作场景和功能需求呈现出多样化和复杂化的趋势。自主导航功能是移动机器人完成其他复杂功能的基础,是最不可或缺的功能之一。目前广泛应用于移动机器人中的自主导航功能主要使用激光雷达实现,无法利用图像和语言等具有丰富特征的信息进行导航。如何让移动机器人理解图像和语言,并将其获得的视觉和语义信息利用到自主导航中成为亟需解决的问题。
视觉-语言导航是将自然语言与未知环境中非结构化的视觉信息联系起来的任务。例如,给定指令“Standing in front of the family picture,turn left and walkstraight through the bathroom past the tub and mirrors.Go through the doorwayand stop when the door to the bathroom is on your right and the door to thecloset is to your left.”,移动机器人需要理解上述指令并根据视觉输入进行导航。
以往的视觉-语言导航技术主要存在两个问题:一是使用的视觉特征缺乏对物体细节的描述,在上述例子中,以往使用的视觉特征只能帮助智能体理解其所在的位置是“bathroom”或是“doorway”,而无法捕获“picture”、“tub”、“mirrors”和“closet”等物体作为参考信息;二是导航过程缺乏整体的历史导航信息,机器人难以将自然语言指令和视觉图像进行匹配。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多模态特征的移动机器人视觉-语言导航方法,利用基于词袋模型思想的目标检测信息和基于循环神经网络思想的导航历史隐状态信息增强模型对当前环境和导航过程的认知能力,降低模型过拟合的风险。
为实现上述目的,本发明所提供的技术方案为:一种基于多模态特征的移动机器人视觉-语言导航方法,包括以下步骤:
1)使用Transformer对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;
2)对于当前时刻能导航的方向对应的图像,首先使用ResNet-152提取得到场景特征向量,然后使用Faster R-CNN进行目标检测,对目标检测得到的类别进行独热编码得到目标检测特征向量,最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中,得到视觉特征向量;
3)除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示加入到历史特征向量;
4)使用跨模态编码模块OHAMT(Object and History Aware MultimodalTransformer)对得到的语言特征向量、视觉特征向量、历史特征向量以及机器人上一个时刻得到的状态特征向量进行跨模态编码,得到当前时刻的状态特征向量和视觉隐层表示;
5)将步骤4)得到的视觉隐层表示和OHAMT中最后一个自注意力层得到的状态特征隐层表示输入到动作决策模块ActionPredictor中,得到动作概率分布,然后机器人根据动作概率分布选取下一步动作并执行;
6)重复步骤2)-步骤5)直到机器人停止移动,最后更新模型的权重,即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重。
进一步,所述步骤1)包括以下步骤:
1.1)对自然语言指令进行预处理,包括在自然语言指令第一个单词前插入[CLS]标记,在最后一个单词后插入[SEP]标记,并将单词数量不足80的自然语言指令使用[PAD]标记补齐;
1.2)使用Transformer对预处理后的自然语言指令进行编码,[CLS]标记经过编码后得到初始的状态特征向量
Figure BDA0003666015660000031
其余单词和标记编码后得到语言特征向量
Figure BDA0003666015660000032
其中
Figure BDA0003666015660000033
是向量空间。
进一步,所述步骤2)包括以下步骤:
2.1)使用在ImageNet训练,然后在Place365调优得到的ResNet-152对当前时刻t能导航的方向i对应的图像It,i提取得到场景特征向量
Figure BDA0003666015660000034
其中
Figure BDA0003666015660000035
是向量空间;
2.2)使用BUTD(Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering)中预训练的Faster R-CNN对It,i进行目标检测,然后对目标检测得到的类别进行过滤,仅保留在R2R训练集的语料中出现过的类别,将其进行独热编码,得到目标检测特征向量
Figure BDA0003666015660000036
2.3)将It,i对应的观察角度和高度编码成方向特征向量
Figure BDA0003666015660000037
2.4)使用步骤2.1)-步骤2.3)得到的场景特征向量、目标检测特征向量和方向特征向量拼接得到特征向量
Figure BDA0003666015660000038
然后将Ft,i输入到视觉编码器VisionEncoder中,得到视觉特征向量
Figure BDA0003666015660000039
其中,视觉编码器VisionEncoder定义如下:
Vt,i=VisionEncoder(Ft,i)=LayerNorm(Linear(Ft,i))
式中,LayerNorm是层归一化,Linear是线性层。
进一步,在步骤3)中,除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量Ht-1进行拼接得到当前时刻的历史特征向量Ht
进一步,在步骤4)中,使用跨模态编码模块OHAMT(Object and History AwareMultimodal Transformer)对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量Vt、历史特征向量Ht以及机器人上一个时刻得到的状态特征向量st-1进行跨模态编码,得到当前时刻的状态特征向量st和视觉隐层表示Vt′:
st,Vt′=OHAMT(st-1,X,Vt,Ht)
式中,跨模态编码模块OHAMT是由12个包含12个自注意力头的Transformer堆叠而成的BERT结构。
进一步,在步骤5)中,将步骤4)中OHAMT最后一层输出的状态特征表示
Figure BDA0003666015660000041
和视觉隐层表示Vt′输入到动作决策模块ActionPredictor中,得到动作概率分布
Figure BDA0003666015660000042
然后机器人根据动作概率分布
Figure BDA0003666015660000043
选取下一步动作并执行;其中,动作决策模块ActionPredictor定义如下:
Figure BDA0003666015660000044
式中,Linear是线形层,ReLU是线性整流激活函数,LayerNorm是层归一化,Dropout是丢弃层,*是使用广播机制的逐元素乘积。
进一步,在步骤6)中,使用强化学习RL(Reinforcement learning,RL)和模仿学习IL(Imitation learning,IL)混合训练模型;在RL中,使用优势动作评论算法A2C在每一步中根据动作概率分布
Figure BDA0003666015660000045
采样动作和计算优势At;在IL中,模型根据教师动作来学习真实的轨迹,并为每个决策计算交叉熵,使用的目标函数
Figure BDA0003666015660000046
为:
Figure BDA0003666015660000051
式中,
Figure BDA0003666015660000052
是采样的动作,
Figure BDA0003666015660000053
是教师动作,λ是IL损失的权重因子;
在RL中设计的奖惩函数包含三部分:一是过程奖惩,模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励,反之给予-1.0的惩罚,在模型预测停止时机器人到达目标位置则给予+2.0的奖励,反之给予-2.0的惩罚;二是路径相似度奖惩,使用动态时间规整算法(Normalised dynamic time warping,ndtw)计算真实路径和预测路径的相似度,并以机器人执行动作前后的路径相似度差值作为奖惩,在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励;三是路过奖惩,如果在机器人到达终点后,模型仍没有预测停下,则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明使用基于词袋模型思想的目标检测特征,帮助模型了解周围环境存在的物体,提高模型对周围环境和所处位置的认知能力。
2、本发明使用基于循环神经网络中隐层输出思想的导航历史特征,为模型提供整体的历史导航信息,提高模型的跨模态匹配能力,降低模型过拟合的风险。
3、本发明能让机器人根据自然语言指令进行视觉导航,实验表明所提出方法具有优秀的性能。
附图说明
图1为本发明方法流程图。
图2为本发明中视觉-语言导航的框架结构图。
图3为本发明中计算目标检测特征向量的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1至图3所示,本实施例提供了一种基于多模态特征的移动机器人视觉-语言导航方法,其具体情况如下:
1)使用Transformer对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量,包括以下步骤:
1.1)对自然语言指令进行预处理,包括在自然语言指令第一个单词前插入[CLS]标记,在最后一个单词后插入[SEP]标记,并将单词数量不足80的自然语言指令使用[PAD]标记补齐;
1.2)使用Transformer对预处理后的自然语言指令进行编码,[CLS]标记经过编码后得到初始的状态特征向量
Figure BDA0003666015660000061
其余单词和标记编码后得到语言特征向量
Figure BDA0003666015660000062
其中
Figure BDA0003666015660000063
是向量空间。
2)对于当前时刻能导航的方向对应的图像,首先使用ResNet-152提取得到场景特征向量,然后使用Faster R-CNN进行目标检测,对目标检测得到的类别进行独热编码得到目标检测特征向量,最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中,得到视觉特征向量;其包括以下步骤:
2.1)使用在ImageNet训练,然后在Place365调优得到的ResNet-152对当前时刻t能导航的方向i对应的图像It,i提取得到场景特征向量
Figure BDA0003666015660000064
其中
Figure BDA0003666015660000065
是向量空间;
2.2)使用BUTD(Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering)中预训练的Faster R-CNN对It,i进行目标检测,然后对目标检测得到的类别进行过滤,仅保留在R2R训练集的语料中出现过的类别,将其进行独热编码,得到目标检测特征向量
Figure BDA0003666015660000066
2.3)将It,i对应的观察角度和高度编码成方向特征向量
Figure BDA0003666015660000071
2.4)使用步骤2.1)-步骤2.3)得到的场景特征向量、目标检测特征向量和方向特征向量拼接得到特征向量
Figure BDA0003666015660000072
然后将Ft,i输入到视觉编码器VisionEncoder中,得到视觉特征向量
Figure BDA0003666015660000073
视觉编码器VisionEncoder定义如下:
Vt,i=VisionEncoder(Ft,i)=LayerNorm(Linear(Ft,i))
式中,LayerNorm是层归一化,Linear是线性层。
3)除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量Ht-1进行拼接得到当前时刻的历史特征向量Ht
4)使用跨模态编码模块OHAMT(Object and History Aware MultimodalTransformer)对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量Vt、历史特征向量Ht以及机器人上一个时刻得到的状态特征向量st-1进行跨模态编码,得到当前时刻的状态特征向量st和视觉隐层表示Vt′:
st,Vt′=OHAMT(st-1,X,Vt,Ht)
式中,跨模态编码模块OHAMT是由12个包含12个自注意力头的Transformer堆叠而成的BERT结构。
5)将步骤4)中OHAMT最后一层输出的状态特征表示
Figure BDA0003666015660000074
和视觉隐层表示Vt′输入到动作决策模块ActionPredictor中,得到动作概率分布
Figure BDA0003666015660000075
然后机器人根据动作概率分布
Figure BDA0003666015660000076
选取下一步动作并执行;其中,动作决策模块ActionPredictor定义如下:
Figure BDA0003666015660000077
式中,Linear是线形层,ReLU是线性整流激活函数,LayerNorm是层归一化,Dropout是丢弃层,*是使用广播机制的逐元素乘积。
6)重复步骤2)-步骤5)直到机器人停止移动,最后更新模型的权重,即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重,具体如下:
使用强化学习RL(Reinforcement learning,RL)和模仿学习IL(Imitationlearning,IL)混合训练模型。在RL中,使用优势动作评论算法A2C在每一步中根据动作概率分布
Figure BDA0003666015660000081
采样动作和计算优势At;在IL中,模型根据教师动作来学习真实的轨迹,并为每个决策计算交叉熵,使用的目标函数
Figure BDA0003666015660000085
为:
Figure BDA0003666015660000082
式中,
Figure BDA0003666015660000083
是采样的动作,
Figure BDA0003666015660000084
是教师动作,λ是IL损失的权重因子,实例中设置为0.2。
在RL中设计的奖惩函数包含三部分:一是过程奖惩,模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励,反之给予-1.0的惩罚,在模型预测停止时机器人到达目标位置则给予+2.0的奖励,反之给予-2.0的惩罚;二是路径相似度奖惩,使用动态时间规整算法(Normalised dynamic time warping,ndtw)计算真实路径和预测路径的相似度,并以机器人执行动作前后的路径相似度差值作为奖惩,在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励;三是路过奖惩,如果在机器人到达终点后,模型仍没有预测停下,则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。
我们在公开的基准数据集R2R上对本发明提出的方法的效果进行测试,该数据集收集了来自90个真实场景的数据,分为训练集、验证集和测试集三个部分,其中验证集包括已见过的场景和未见过的场景两部分。测试结果表明本发明提出的方法对模型的导航性能有明显提升,具体测试结果如表1所示。
表1R2R数据集上的测试结果对比
Figure BDA0003666015660000091
表1中,Our表示本发明提出的方法,RecBERT(init.OSCAR)和RelGraph等表示其它知名的视觉-语言导航方法。TL是指路径长度评测,NE是指导航误差评测,SR表示导航成功率,SPL是指反向路径长度的加权成功率,这四个指标均是国际评测导航精度的公认指标。箭头向下表示该评测标准下值越小越好,而箭头朝上则刚好相反。加粗字体表示获得的最好结果。从表中可以看出,本发明提出的方法在三部分的数据集上均取得最优的结果。
综上所述,相比现有技术,本发明利用基于词袋模型思想的目标检测信息和基于循环神经网络思想的导航历史隐状态信息增强模型对当前环境和导航过程的认知能力,降低模型过拟合的风险,具有研究价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (7)

1.一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于,包括以下步骤:
1)使用Transformer对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;
2)对于当前时刻能导航的方向对应的图像,首先使用ResNet-152提取得到场景特征向量,然后使用Faster R-CNN进行目标检测,对目标检测得到的类别进行独热编码得到目标检测特征向量,最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中,得到视觉特征向量;
3)除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示加入到历史特征向量;
4)使用跨模态编码模块OHAMT对得到的语言特征向量、视觉特征向量、历史特征向量以及机器人上一个时刻得到的状态特征向量进行跨模态编码,得到当前时刻的状态特征向量和视觉隐层表示;
5)将步骤4)得到的视觉隐层表示和OHAMT中最后一个自注意力层得到的状态特征隐层表示输入到动作决策模块ActionPredictor中,得到动作概率分布,然后机器人根据动作概率分布选取下一步动作并执行;
6)重复步骤2)-步骤5)直到机器人停止移动,最后更新模型的权重,即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重。
2.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于,所述步骤1)包括以下步骤:
1.1)对自然语言指令进行预处理,包括在自然语言指令第一个单词前插入[CLS]标记,在最后一个单词后插入[SEP]标记,并将单词数量不足80的自然语言指令使用[PAD]标记补齐;
1.2)使用Transformer对预处理后的自然语言指令进行编码,[CLS]标记经过编码后得到初始的状态特征向量
Figure FDA0003666015650000021
其余单词和标记编码后得到语言特征向量
Figure FDA0003666015650000022
其中
Figure FDA0003666015650000023
是向量空间。
3.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于,所述步骤2)包括以下步骤:
2.1)使用在ImageNet训练,然后在Place365调优得到的ResNet-152对当前时刻t能导航的方向i对应的图像It,i提取得到场景特征向量
Figure FDA0003666015650000024
其中
Figure FDA0003666015650000025
是向量空间;
2.2)使用BUTD中预训练的Faster R-CNN对It,i进行目标检测,然后对目标检测得到的类别进行过滤,仅保留在R2R训练集的语料中出现过的类别,将其进行独热编码,得到目标检测特征向量
Figure FDA0003666015650000026
2.3)将It,i对应的观察角度和高度编码成方向特征向量
Figure FDA0003666015650000027
2.4)使用步骤2.1)-步骤2.3)得到的场景特征向量、目标检测特征向量和方向特征向量拼接得到特征向量
Figure FDA0003666015650000028
然后将Ft,i输入到视觉编码器VisionEncoder中,得到视觉特征向量
Figure FDA0003666015650000029
其中,视觉编码器VisionEncoder定义如下:
Vt,i=VisionEncoder(Ft,i)=LayerNorm(Linear(Ft,i))
式中,LayerNorm是层归一化,Linear是线性层。
4.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于:在步骤3)中,除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量Ht-1进行拼接得到当前时刻的历史特征向量Ht
5.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于:在步骤4)中,使用跨模态编码模块OHAMT对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量Vt、历史特征向量Ht以及机器人上一个时刻得到的状态特征向量st-1进行跨模态编码,得到当前时刻的状态特征向量st和视觉隐层表示Vt′:
st,Vt′=OHAMT(st-1,X,Vt,Ht)
式中,跨模态编码模块OHAMT是由12个包含12个自注意力头的Transformer堆叠而成的BERT结构。
6.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于:在步骤5)中,将步骤4)中OHAMT最后一层输出的状态特征表示
Figure FDA0003666015650000031
和视觉隐层表示Vt′输入到动作决策模块ActionPredictor中,得到动作概率分布
Figure FDA0003666015650000032
然后机器人根据动作概率分布
Figure FDA0003666015650000033
选取下一步动作并执行;其中,动作决策模块ActionPredictor定义如下:
Figure FDA0003666015650000034
式中,Linear是线形层,ReLU是线性整流激活函数,LayerNorm是层归一化,Dropout是丢弃层,*是使用广播机制的逐元素乘积。
7.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于:在步骤6)中,使用强化学习RL和模仿学习IL混合训练模型;在RL中,使用优势动作评论算法A2C在每一步中根据动作概率分布
Figure FDA0003666015650000035
采样动作和计算优势At;在IL中,模型根据教师动作来学习真实的轨迹,并为每个决策计算交叉熵,使用的目标函数
Figure FDA0003666015650000036
为:
Figure FDA0003666015650000041
式中,
Figure FDA0003666015650000042
是采样的动作,
Figure FDA0003666015650000043
是教师动作,λ是IL损失的权重因子;
在RL中设计的奖惩函数包含三部分:一是过程奖惩,模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励,反之给予-1.0的惩罚,在模型预测停止时机器人到达目标位置则给予+2.0的奖励,反之给予-2.0的惩罚;二是路径相似度奖惩,使用动态时间规整算法计算真实路径和预测路径的相似度,并以机器人执行动作前后的路径相似度差值作为奖惩,在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励;三是路过奖惩,如果在机器人到达终点后,模型仍没有预测停下,则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。
CN202210586122.8A 2022-05-27 2022-05-27 一种基于多模态特征的移动机器人视觉-语言导航方法 Active CN115082915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210586122.8A CN115082915B (zh) 2022-05-27 2022-05-27 一种基于多模态特征的移动机器人视觉-语言导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210586122.8A CN115082915B (zh) 2022-05-27 2022-05-27 一种基于多模态特征的移动机器人视觉-语言导航方法

Publications (2)

Publication Number Publication Date
CN115082915A true CN115082915A (zh) 2022-09-20
CN115082915B CN115082915B (zh) 2024-03-29

Family

ID=83248563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210586122.8A Active CN115082915B (zh) 2022-05-27 2022-05-27 一种基于多模态特征的移动机器人视觉-语言导航方法

Country Status (1)

Country Link
CN (1) CN115082915B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545004A (zh) * 2022-09-27 2022-12-30 北京有竹居网络技术有限公司 导航方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190073353A1 (en) * 2017-09-07 2019-03-07 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
US20190318648A1 (en) * 2018-04-12 2019-10-17 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN112710310A (zh) * 2020-12-07 2021-04-27 深圳龙岗智能视听研究院 一种视觉语言室内导航方法、系统、终端及应用
CN113156419A (zh) * 2021-02-24 2021-07-23 清华大学 一种基于雷达与视觉多模态融合的具身语言导航方法
CN113420606A (zh) * 2021-05-31 2021-09-21 华南理工大学 一种基于自然语言和机器视觉实现机器人自主导航的方法
CN113804200A (zh) * 2021-04-12 2021-12-17 之江实验室 基于动态强化指令攻击模块的视觉语言导航系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190073353A1 (en) * 2017-09-07 2019-03-07 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
US20190318648A1 (en) * 2018-04-12 2019-10-17 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
CN112710310A (zh) * 2020-12-07 2021-04-27 深圳龙岗智能视听研究院 一种视觉语言室内导航方法、系统、终端及应用
CN113156419A (zh) * 2021-02-24 2021-07-23 清华大学 一种基于雷达与视觉多模态融合的具身语言导航方法
CN113804200A (zh) * 2021-04-12 2021-12-17 之江实验室 基于动态强化指令攻击模块的视觉语言导航系统及方法
CN113420606A (zh) * 2021-05-31 2021-09-21 华南理工大学 一种基于自然语言和机器视觉实现机器人自主导航的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08, 12 August 2020 (2020-08-12), pages 96 - 109 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545004A (zh) * 2022-09-27 2022-12-30 北京有竹居网络技术有限公司 导航方法、装置和电子设备

Also Published As

Publication number Publication date
CN115082915B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN110334339A (zh) 一种基于位置感知自注意力机制的序列标注模型与标注方法
CN111897933A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN111967272B (zh) 基于语义对齐的视觉对话生成系统
CN112599117B (zh) 模型训练、语音识别方法及装置、电子设备及存储介质
CN111966800A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN111339302A (zh) 训练要素分类模型的方法和装置
CN112115687A (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN110046271A (zh) 一种基于声音指导的遥感图像描述方法
CN111581970A (zh) 一种网络语境的文本识别方法、装置及存储介质
CN115082915A (zh) 一种基于多模态特征的移动机器人视觉-语言导航方法
CN116564355A (zh) 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN113420606B (zh) 一种基于自然语言和机器视觉实现机器人自主导航的方法
CN112926655A (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112307179A (zh) 文本匹配方法、装置、设备及存储介质
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN116384373A (zh) 一种基于知识蒸馏框架的方面级情感分析方法
CN112328774B (zh) 基于多文档的任务型人机对话任务的实现方法
CN112863486B (zh) 一种基于音素的口语评测方法、装置及电子设备
CN114564568A (zh) 基于知识增强与上下文感知的对话状态追踪方法及系统
CN110858215A (zh) 一种基于深度学习的端到端目标引导型对话方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant