CN115082915A - 一种基于多模态特征的移动机器人视觉-语言导航方法 - Google Patents
一种基于多模态特征的移动机器人视觉-语言导航方法 Download PDFInfo
- Publication number
- CN115082915A CN115082915A CN202210586122.8A CN202210586122A CN115082915A CN 115082915 A CN115082915 A CN 115082915A CN 202210586122 A CN202210586122 A CN 202210586122A CN 115082915 A CN115082915 A CN 115082915A
- Authority
- CN
- China
- Prior art keywords
- robot
- action
- feature vector
- visual
- characteristic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 98
- 230000009471 action Effects 0.000 claims abstract description 55
- 230000000007 visual effect Effects 0.000 claims abstract description 41
- 238000001514 detection method Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000501754 Astronotus ocellatus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态特征的移动机器人视觉‑语言导航方法,包括:1)对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;2)对于当前时刻的输入图像进行编码,得到视觉特征向量;3)根据机器人的历史动作编码得到历史特征向量;4)对步骤1)到步骤3)得到的多种模态的特征向量进行跨模态编码;5)将跨模态编码结果输入到动作决策模块,预测下一步动作并执行;6)重复步骤2)到步骤5)直到机器人停止移动,然后更新模型。本发明提供物体参考信息和历史导航信息,能让机器人根据自然语言指令进行视觉导航,实验表明所提出方法具有优秀的性能。
Description
技术领域
本发明涉及移动机器人视觉-语言导航的技术领域,尤其是指一种基于多模态特征的移动机器人视觉-语言导航方法。
背景技术
近年来,移动机器人的工作场景和功能需求呈现出多样化和复杂化的趋势。自主导航功能是移动机器人完成其他复杂功能的基础,是最不可或缺的功能之一。目前广泛应用于移动机器人中的自主导航功能主要使用激光雷达实现,无法利用图像和语言等具有丰富特征的信息进行导航。如何让移动机器人理解图像和语言,并将其获得的视觉和语义信息利用到自主导航中成为亟需解决的问题。
视觉-语言导航是将自然语言与未知环境中非结构化的视觉信息联系起来的任务。例如,给定指令“Standing in front of the family picture,turn left and walkstraight through the bathroom past the tub and mirrors.Go through the doorwayand stop when the door to the bathroom is on your right and the door to thecloset is to your left.”,移动机器人需要理解上述指令并根据视觉输入进行导航。
以往的视觉-语言导航技术主要存在两个问题:一是使用的视觉特征缺乏对物体细节的描述,在上述例子中,以往使用的视觉特征只能帮助智能体理解其所在的位置是“bathroom”或是“doorway”,而无法捕获“picture”、“tub”、“mirrors”和“closet”等物体作为参考信息;二是导航过程缺乏整体的历史导航信息,机器人难以将自然语言指令和视觉图像进行匹配。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于多模态特征的移动机器人视觉-语言导航方法,利用基于词袋模型思想的目标检测信息和基于循环神经网络思想的导航历史隐状态信息增强模型对当前环境和导航过程的认知能力,降低模型过拟合的风险。
为实现上述目的,本发明所提供的技术方案为:一种基于多模态特征的移动机器人视觉-语言导航方法,包括以下步骤:
1)使用Transformer对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;
2)对于当前时刻能导航的方向对应的图像,首先使用ResNet-152提取得到场景特征向量,然后使用Faster R-CNN进行目标检测,对目标检测得到的类别进行独热编码得到目标检测特征向量,最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中,得到视觉特征向量;
3)除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示加入到历史特征向量;
4)使用跨模态编码模块OHAMT(Object and History Aware MultimodalTransformer)对得到的语言特征向量、视觉特征向量、历史特征向量以及机器人上一个时刻得到的状态特征向量进行跨模态编码,得到当前时刻的状态特征向量和视觉隐层表示;
5)将步骤4)得到的视觉隐层表示和OHAMT中最后一个自注意力层得到的状态特征隐层表示输入到动作决策模块ActionPredictor中,得到动作概率分布,然后机器人根据动作概率分布选取下一步动作并执行;
6)重复步骤2)-步骤5)直到机器人停止移动,最后更新模型的权重,即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重。
进一步,所述步骤1)包括以下步骤:
1.1)对自然语言指令进行预处理,包括在自然语言指令第一个单词前插入[CLS]标记,在最后一个单词后插入[SEP]标记,并将单词数量不足80的自然语言指令使用[PAD]标记补齐;
进一步,所述步骤2)包括以下步骤:
2.2)使用BUTD(Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering)中预训练的Faster R-CNN对It,i进行目标检测,然后对目标检测得到的类别进行过滤,仅保留在R2R训练集的语料中出现过的类别,将其进行独热编码,得到目标检测特征向量
2.4)使用步骤2.1)-步骤2.3)得到的场景特征向量、目标检测特征向量和方向特征向量拼接得到特征向量然后将Ft,i输入到视觉编码器VisionEncoder中,得到视觉特征向量其中,视觉编码器VisionEncoder定义如下:
Vt,i=VisionEncoder(Ft,i)=LayerNorm(Linear(Ft,i))
式中,LayerNorm是层归一化,Linear是线性层。
进一步,在步骤3)中,除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量Ht-1进行拼接得到当前时刻的历史特征向量Ht。
进一步,在步骤4)中,使用跨模态编码模块OHAMT(Object and History AwareMultimodal Transformer)对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量Vt、历史特征向量Ht以及机器人上一个时刻得到的状态特征向量st-1进行跨模态编码,得到当前时刻的状态特征向量st和视觉隐层表示Vt′:
st,Vt′=OHAMT(st-1,X,Vt,Ht)
式中,跨模态编码模块OHAMT是由12个包含12个自注意力头的Transformer堆叠而成的BERT结构。
进一步,在步骤5)中,将步骤4)中OHAMT最后一层输出的状态特征表示和视觉隐层表示Vt′输入到动作决策模块ActionPredictor中,得到动作概率分布然后机器人根据动作概率分布选取下一步动作并执行;其中,动作决策模块ActionPredictor定义如下:
式中,Linear是线形层,ReLU是线性整流激活函数,LayerNorm是层归一化,Dropout是丢弃层,*是使用广播机制的逐元素乘积。
进一步,在步骤6)中,使用强化学习RL(Reinforcement learning,RL)和模仿学习IL(Imitation learning,IL)混合训练模型;在RL中,使用优势动作评论算法A2C在每一步中根据动作概率分布采样动作和计算优势At;在IL中,模型根据教师动作来学习真实的轨迹,并为每个决策计算交叉熵,使用的目标函数为:
在RL中设计的奖惩函数包含三部分:一是过程奖惩,模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励,反之给予-1.0的惩罚,在模型预测停止时机器人到达目标位置则给予+2.0的奖励,反之给予-2.0的惩罚;二是路径相似度奖惩,使用动态时间规整算法(Normalised dynamic time warping,ndtw)计算真实路径和预测路径的相似度,并以机器人执行动作前后的路径相似度差值作为奖惩,在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励;三是路过奖惩,如果在机器人到达终点后,模型仍没有预测停下,则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明使用基于词袋模型思想的目标检测特征,帮助模型了解周围环境存在的物体,提高模型对周围环境和所处位置的认知能力。
2、本发明使用基于循环神经网络中隐层输出思想的导航历史特征,为模型提供整体的历史导航信息,提高模型的跨模态匹配能力,降低模型过拟合的风险。
3、本发明能让机器人根据自然语言指令进行视觉导航,实验表明所提出方法具有优秀的性能。
附图说明
图1为本发明方法流程图。
图2为本发明中视觉-语言导航的框架结构图。
图3为本发明中计算目标检测特征向量的流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1至图3所示,本实施例提供了一种基于多模态特征的移动机器人视觉-语言导航方法,其具体情况如下:
1)使用Transformer对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量,包括以下步骤:
1.1)对自然语言指令进行预处理,包括在自然语言指令第一个单词前插入[CLS]标记,在最后一个单词后插入[SEP]标记,并将单词数量不足80的自然语言指令使用[PAD]标记补齐;
2)对于当前时刻能导航的方向对应的图像,首先使用ResNet-152提取得到场景特征向量,然后使用Faster R-CNN进行目标检测,对目标检测得到的类别进行独热编码得到目标检测特征向量,最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中,得到视觉特征向量;其包括以下步骤:
2.2)使用BUTD(Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering)中预训练的Faster R-CNN对It,i进行目标检测,然后对目标检测得到的类别进行过滤,仅保留在R2R训练集的语料中出现过的类别,将其进行独热编码,得到目标检测特征向量
2.4)使用步骤2.1)-步骤2.3)得到的场景特征向量、目标检测特征向量和方向特征向量拼接得到特征向量然后将Ft,i输入到视觉编码器VisionEncoder中,得到视觉特征向量视觉编码器VisionEncoder定义如下:
Vt,i=VisionEncoder(Ft,i)=LayerNorm(Linear(Ft,i))
式中,LayerNorm是层归一化,Linear是线性层。
3)除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量Ht-1进行拼接得到当前时刻的历史特征向量Ht。
4)使用跨模态编码模块OHAMT(Object and History Aware MultimodalTransformer)对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量Vt、历史特征向量Ht以及机器人上一个时刻得到的状态特征向量st-1进行跨模态编码,得到当前时刻的状态特征向量st和视觉隐层表示Vt′:
st,Vt′=OHAMT(st-1,X,Vt,Ht)
式中,跨模态编码模块OHAMT是由12个包含12个自注意力头的Transformer堆叠而成的BERT结构。
5)将步骤4)中OHAMT最后一层输出的状态特征表示和视觉隐层表示Vt′输入到动作决策模块ActionPredictor中,得到动作概率分布然后机器人根据动作概率分布选取下一步动作并执行;其中,动作决策模块ActionPredictor定义如下:
式中,Linear是线形层,ReLU是线性整流激活函数,LayerNorm是层归一化,Dropout是丢弃层,*是使用广播机制的逐元素乘积。
6)重复步骤2)-步骤5)直到机器人停止移动,最后更新模型的权重,即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重,具体如下:
使用强化学习RL(Reinforcement learning,RL)和模仿学习IL(Imitationlearning,IL)混合训练模型。在RL中,使用优势动作评论算法A2C在每一步中根据动作概率分布采样动作和计算优势At;在IL中,模型根据教师动作来学习真实的轨迹,并为每个决策计算交叉熵,使用的目标函数为:
在RL中设计的奖惩函数包含三部分:一是过程奖惩,模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励,反之给予-1.0的惩罚,在模型预测停止时机器人到达目标位置则给予+2.0的奖励,反之给予-2.0的惩罚;二是路径相似度奖惩,使用动态时间规整算法(Normalised dynamic time warping,ndtw)计算真实路径和预测路径的相似度,并以机器人执行动作前后的路径相似度差值作为奖惩,在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励;三是路过奖惩,如果在机器人到达终点后,模型仍没有预测停下,则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。
我们在公开的基准数据集R2R上对本发明提出的方法的效果进行测试,该数据集收集了来自90个真实场景的数据,分为训练集、验证集和测试集三个部分,其中验证集包括已见过的场景和未见过的场景两部分。测试结果表明本发明提出的方法对模型的导航性能有明显提升,具体测试结果如表1所示。
表1R2R数据集上的测试结果对比
表1中,Our表示本发明提出的方法,RecBERT(init.OSCAR)和RelGraph等表示其它知名的视觉-语言导航方法。TL是指路径长度评测,NE是指导航误差评测,SR表示导航成功率,SPL是指反向路径长度的加权成功率,这四个指标均是国际评测导航精度的公认指标。箭头向下表示该评测标准下值越小越好,而箭头朝上则刚好相反。加粗字体表示获得的最好结果。从表中可以看出,本发明提出的方法在三部分的数据集上均取得最优的结果。
综上所述,相比现有技术,本发明利用基于词袋模型思想的目标检测信息和基于循环神经网络思想的导航历史隐状态信息增强模型对当前环境和导航过程的认知能力,降低模型过拟合的风险,具有研究价值,值得推广。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (7)
1.一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于,包括以下步骤:
1)使用Transformer对输入的自然语言指令进行编码,得到语言特征向量和初始的状态特征向量;
2)对于当前时刻能导航的方向对应的图像,首先使用ResNet-152提取得到场景特征向量,然后使用Faster R-CNN进行目标检测,对目标检测得到的类别进行独热编码得到目标检测特征向量,最后将场景特征向量、目标检测特征向量和对应方向编码得到的方向特征向量拼接输入到视觉编码器中,得到视觉特征向量;
3)除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示加入到历史特征向量;
4)使用跨模态编码模块OHAMT对得到的语言特征向量、视觉特征向量、历史特征向量以及机器人上一个时刻得到的状态特征向量进行跨模态编码,得到当前时刻的状态特征向量和视觉隐层表示;
5)将步骤4)得到的视觉隐层表示和OHAMT中最后一个自注意力层得到的状态特征隐层表示输入到动作决策模块ActionPredictor中,得到动作概率分布,然后机器人根据动作概率分布选取下一步动作并执行;
6)重复步骤2)-步骤5)直到机器人停止移动,最后更新模型的权重,即跨模态编码模块OHAMT和动作决策模块ActionPredictor的权重。
3.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于,所述步骤2)包括以下步骤:
2.4)使用步骤2.1)-步骤2.3)得到的场景特征向量、目标检测特征向量和方向特征向量拼接得到特征向量然后将Ft,i输入到视觉编码器VisionEncoder中,得到视觉特征向量其中,视觉编码器VisionEncoder定义如下:
Vt,i=VisionEncoder(Ft,i)=LayerNorm(Linear(Ft,i))
式中,LayerNorm是层归一化,Linear是线性层。
4.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于:在步骤3)中,除初始时刻外,将机器人上一个时刻所选择的动作对应的视觉隐层表示与上一个时刻的历史特征向量Ht-1进行拼接得到当前时刻的历史特征向量Ht。
5.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于:在步骤4)中,使用跨模态编码模块OHAMT对步骤1)-步骤3)得到的语言特征向量X、视觉特征向量Vt、历史特征向量Ht以及机器人上一个时刻得到的状态特征向量st-1进行跨模态编码,得到当前时刻的状态特征向量st和视觉隐层表示Vt′:
st,Vt′=OHAMT(st-1,X,Vt,Ht)
式中,跨模态编码模块OHAMT是由12个包含12个自注意力头的Transformer堆叠而成的BERT结构。
7.根据权利要求1所述的一种基于多模态特征的移动机器人视觉-语言导航方法,其特征在于:在步骤6)中,使用强化学习RL和模仿学习IL混合训练模型;在RL中,使用优势动作评论算法A2C在每一步中根据动作概率分布采样动作和计算优势At;在IL中,模型根据教师动作来学习真实的轨迹,并为每个决策计算交叉熵,使用的目标函数为:
在RL中设计的奖惩函数包含三部分:一是过程奖惩,模型预测的动作使得机器人距离目标位置距离更小给予+1.0的奖励,反之给予-1.0的惩罚,在模型预测停止时机器人到达目标位置则给予+2.0的奖励,反之给予-2.0的惩罚;二是路径相似度奖惩,使用动态时间规整算法计算真实路径和预测路径的相似度,并以机器人执行动作前后的路径相似度差值作为奖惩,在模型预测停止时机器人到达目标位置则给予+2.0乘以最终的路径相似度的奖励;三是路过奖惩,如果在机器人到达终点后,模型仍没有预测停下,则每一步给予-2.0乘以(1.0-与终点的距离)的惩罚。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210586122.8A CN115082915B (zh) | 2022-05-27 | 2022-05-27 | 一种基于多模态特征的移动机器人视觉-语言导航方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210586122.8A CN115082915B (zh) | 2022-05-27 | 2022-05-27 | 一种基于多模态特征的移动机器人视觉-语言导航方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115082915A true CN115082915A (zh) | 2022-09-20 |
CN115082915B CN115082915B (zh) | 2024-03-29 |
Family
ID=83248563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210586122.8A Active CN115082915B (zh) | 2022-05-27 | 2022-05-27 | 一种基于多模态特征的移动机器人视觉-语言导航方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115082915B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545004A (zh) * | 2022-09-27 | 2022-12-30 | 北京有竹居网络技术有限公司 | 导航方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190073353A1 (en) * | 2017-09-07 | 2019-03-07 | Baidu Usa Llc | Deep compositional frameworks for human-like language acquisition in virtual environments |
US20190318648A1 (en) * | 2018-04-12 | 2019-10-17 | Baidu Usa Llc | Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game |
CN112710310A (zh) * | 2020-12-07 | 2021-04-27 | 深圳龙岗智能视听研究院 | 一种视觉语言室内导航方法、系统、终端及应用 |
CN113156419A (zh) * | 2021-02-24 | 2021-07-23 | 清华大学 | 一种基于雷达与视觉多模态融合的具身语言导航方法 |
CN113420606A (zh) * | 2021-05-31 | 2021-09-21 | 华南理工大学 | 一种基于自然语言和机器视觉实现机器人自主导航的方法 |
CN113804200A (zh) * | 2021-04-12 | 2021-12-17 | 之江实验室 | 基于动态强化指令攻击模块的视觉语言导航系统及方法 |
-
2022
- 2022-05-27 CN CN202210586122.8A patent/CN115082915B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190073353A1 (en) * | 2017-09-07 | 2019-03-07 | Baidu Usa Llc | Deep compositional frameworks for human-like language acquisition in virtual environments |
US20190318648A1 (en) * | 2018-04-12 | 2019-10-17 | Baidu Usa Llc | Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game |
CN112710310A (zh) * | 2020-12-07 | 2021-04-27 | 深圳龙岗智能视听研究院 | 一种视觉语言室内导航方法、系统、终端及应用 |
CN113156419A (zh) * | 2021-02-24 | 2021-07-23 | 清华大学 | 一种基于雷达与视觉多模态融合的具身语言导航方法 |
CN113804200A (zh) * | 2021-04-12 | 2021-12-17 | 之江实验室 | 基于动态强化指令攻击模块的视觉语言导航系统及方法 |
CN113420606A (zh) * | 2021-05-31 | 2021-09-21 | 华南理工大学 | 一种基于自然语言和机器视觉实现机器人自主导航的方法 |
Non-Patent Citations (1)
Title |
---|
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08, 12 August 2020 (2020-08-12), pages 96 - 109 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545004A (zh) * | 2022-09-27 | 2022-12-30 | 北京有竹居网络技术有限公司 | 导航方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115082915B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN110334339A (zh) | 一种基于位置感知自注意力机制的序列标注模型与标注方法 | |
CN111897933A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN111967272B (zh) | 基于语义对齐的视觉对话生成系统 | |
CN112599117B (zh) | 模型训练、语音识别方法及装置、电子设备及存储介质 | |
CN111966800A (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN111339302A (zh) | 训练要素分类模型的方法和装置 | |
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN110046271A (zh) | 一种基于声音指导的遥感图像描述方法 | |
CN111581970A (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
CN115082915A (zh) | 一种基于多模态特征的移动机器人视觉-语言导航方法 | |
CN116564355A (zh) | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN113420606B (zh) | 一种基于自然语言和机器视觉实现机器人自主导航的方法 | |
CN112926655A (zh) | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
CN116384373A (zh) | 一种基于知识蒸馏框架的方面级情感分析方法 | |
CN112328774B (zh) | 基于多文档的任务型人机对话任务的实现方法 | |
CN112863486B (zh) | 一种基于音素的口语评测方法、装置及电子设备 | |
CN114564568A (zh) | 基于知识增强与上下文感知的对话状态追踪方法及系统 | |
CN110858215A (zh) | 一种基于深度学习的端到端目标引导型对话方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |