CN113091747B - 一种基于辅助信息的盲人导航方法及装置 - Google Patents

一种基于辅助信息的盲人导航方法及装置 Download PDF

Info

Publication number
CN113091747B
CN113091747B CN202110383885.8A CN202110383885A CN113091747B CN 113091747 B CN113091747 B CN 113091747B CN 202110383885 A CN202110383885 A CN 202110383885A CN 113091747 B CN113091747 B CN 113091747B
Authority
CN
China
Prior art keywords
fusion
text
navigation
features
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110383885.8A
Other languages
English (en)
Other versions
CN113091747A (zh
Inventor
史业民
俞益洲
李一鸣
乔昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN202110383885.8A priority Critical patent/CN113091747B/zh
Publication of CN113091747A publication Critical patent/CN113091747A/zh
Application granted granted Critical
Publication of CN113091747B publication Critical patent/CN113091747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations

Abstract

本发明提供一种基于辅助信息的盲人导航方法及装置。所述方法包括:获取360度范围内不同方向的视频图像;对所述视频图像进行特征提取、融合,得到图像融合特征;进一步得到多个可能预测方向;对包含辅助导航信息的文本进行特征嵌入、融合得到文本融合特征,利用交叉注意力机制对文本融合特征与图像融合特征进行交叉融合,得到跨模态融合特征向量;利用所述向量对多个可能预测方向进行选择,得到最终的导航预测方向。本发明能够在全局场景信息缺失的情况下,只依赖他人提供的辅助导航信息就能实现导航预测,拓宽了盲人导航技术的应用场景。

Description

一种基于辅助信息的盲人导航方法及装置
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于辅助信息的盲人导航方法及装置。
背景技术
现有的盲人导航技术主要有两种:一种是依靠全局信息(如地图、俯视图等)实现整体路径规划,利用定位信息实现导航;一种是采用室内定位技术,通过预先布置在室内的多个摄像头等传感器计算用户所在的准确坐标,进一步进行路径规划。第一种方案存在以下问题:当用户处于陌生环境时,一方面无法获得场景的全局信息,另一方面无法在室内获得准确的定位信息,导致此类方法的使用受到很大限制。第二种方案也有其不足:室内定位技术需要摄像头等传感器辅助,当处于陌生场景时很难满足这些硬件条件,从而将大大降低可行性。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于辅助信息的盲人导航方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种基于辅助信息的盲人导航方法,包括:
获取360度范围内N个不同方向的视频图像it,t=1,2,…,N;
利用第一卷积神经网络对所述视频图像进行特征提取,并将提取的特征输入到第一LSTM进行融合,得到图像融合特征ot=LSTM(Conv(it)),Conv表示卷积运算;
利用第二卷积神经网络对ot进行分类,得到L个可能预测方向,每个可能预测方向与一个cl的方向相同,l=1,2,…,L,cl为分别位于L个相邻扇区内使其扇区内softmax(Conv(ot))最大且最大值大于设定阈值的ot,softmax为激励函数;
对包含辅助导航信息的文本进行特征提取、融合,得到文本融合特征,利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合,得到跨模态融合特征向量f;
将f与{c1,c2,…,cL}关联,选出与辅助导航信息最相符的cl,1≤l≤L,第l个可能预测方向就是最终的导航预测方向。
进一步地,按以下方法得到跨模态融合特征向量f:
将包含辅助导航信息的文本输入到Bert或Word2Vec模型中,得到文本嵌入特征E(wi),E表示嵌入模型,wi为第i个单词或汉字,i=1,2,…,M,M为文本中单词或汉字的数量;
将E(wi)输入双向LSTM,得到上下文相关的文本融合特征表示fi T=BiLSTM(E(wi)),BiLSTM表示进行双向LSTM运算;
利用第一注意力模块进行文本跨模态融合,通过图像特征筛选重要的文本特征
Figure GDA0003633778650000021
Figure GDA0003633778650000022
式中,Att表示注意力运算,当输入长度为n的特征序列{f1,f2,…,fn}和特征向量q时,其输出为:
Figure GDA0003633778650000023
αi=softmax(fiWattq)
式中,Watt为训练参数;
Figure GDA0003633778650000024
按以下方法得到:
利用第二注意力模块进行图像跨模态融合,通过文本特征筛选重要的图像特征ft V
Figure GDA0003633778650000031
将ft V输入到第二LSTM得到
Figure GDA0003633778650000032
Figure GDA0003633778650000033
Figure GDA0003633778650000034
Figure GDA0003633778650000035
融合后得到:
Figure GDA0003633778650000036
更进一步地,确定最终导航预测方向的方法具体包括:
将f和{c1,c2,…,cL}输入第三注意力模块,得到注意力分布为:
α′i=softmax(ciWattf),i=1,2,…,L
如果ci=cl时α′i取最大值,则第l个可能预测方向为最终的导航预测方向。
进一步地,通过语音模块获取包含辅助导航信息的文本。
进一步地,N=36,L=6。
第二方面,本发明提供一种基于辅助信息的盲人导航装置,包括:
全景图像获取模块,用于获取360度范围内N个不同方向的视频图像it, t=1,2,…,N;
图像特征提取模块,用于利用第一卷积神经网络对所述视频图像进行特征提取,并将提取的特征输入到第一LSTM进行融合,得到图像融合特征ot=LSTM(Conv(it)),Conv表示卷积运算;
可能方向确定模块,用于利用第二卷积神经网络对ot进行分类,得到L个可能预测方向,每个可能预测方向与一个cl的方向相同,l=1,2,…,L,cl为分别位于L个相邻扇区内使其扇区内softmax(Conv(ot))最大且最大值大于设定阈值的ot,soft max为激励函数;
跨模态融合模块,用于对包含辅助导航信息的文本进行特征提取、融合,得到文本融合特征,利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合,得到跨模态融合特征向量f;
前进方向预测模块,用于将f与{c1,c2,…,cL}关联,选出与辅助导航信息最相符的cl,1≤l≤L,第l个可能预测方向就是最终的导航预测方向。
进一步地,所述跨模态融合模块按以下方法得到跨模态融合特征向量f:
将包含辅助导航信息的文本输入到Bert或Word2Vec模型中,得到文本嵌入特征E(wi),E表示嵌入模型,wi为第i个单词或汉字,i=1,2,…,M,M为文本中单词或汉字的数量;
将E(wi)输入双向LSTM,得到上下文相关的文本融合特征表示fi T=BiLSTM(E(wi)),BiLSTM表示进行双向LSTM运算;
利用第一注意力模块进行文本跨模态融合,通过图像特征筛选重要的文本特征
Figure GDA0003633778650000041
Figure GDA0003633778650000042
式中,Att表示注意力运算,当输入长度为n的特征序列{f1,f2,…,fn}和特征向量q时,其输出为:
Figure GDA0003633778650000043
αi=softmax(fiWattq)
式中,Watt为训练参数;
Figure GDA0003633778650000044
按以下方法得到:
利用第二注意力模块进行图像跨模态融合,通过文本特征筛选重要的图像特征ft V
Figure GDA0003633778650000045
将ft V输入到第二LSTM得到
Figure GDA0003633778650000046
Figure GDA0003633778650000047
Figure GDA0003633778650000048
Figure GDA0003633778650000049
融合后得到:
Figure GDA00036337786500000410
更进一步地,所述前进方向预测模块确定最终导航预测方向的方法具体包括:
将f和{c1,c2,…,cL}输入第三注意力模块,得到注意力分布为:
α′i=softmax(ciWattf),i=1,2,…,L
如果ci=cl时α′i取最大值,则第l个可能预测方向为最终的导航预测方向。
进一步地,通过语音模块获取包含辅助导航信息的文本。
进一步地,N=36,L=6。
与现有技术相比,本发明具有以下有益效果。
本发明通过获取360度范围内不同方向的视频图像,对所述视频图像进行特征提取、融合,得到图像融合特征,并进一步得到多个可能预测方向,对包含辅助导航信息的文本进行特征嵌入、融合得到文本融合特征,利用交叉注意力机制对文本融合特征与图像融合特征进行交叉融合,得到跨模态融合特征向量,利用所述向量对多个可能预测方向进行选择,得到最终的导航预测方向。本发明能够在全局场景信息缺失的情况下,只依赖他人提供的辅助导航信息就能实现导航预测,拓宽了盲人导航技术的应用场景。
附图说明
图1为本发明实施例一种基于辅助信息的盲人导航方法的流程图。
图2为本发明实施例的盲人导航原理示意图。
图3为本发明实施例一种基于辅助信息的盲人导航装置的方框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种基于辅助信息的盲人导航方法的流程图,包括以下步骤:
步骤101,获取360度范围内N个不同方向的视频图像it,t=1,2,…,N;
步骤102,利用第一卷积神经网络对所述视频图像进行特征提取,并将提取的特征输入第一LSTM进行融合,得到图像融合特征ot=LSTM(Conv(it)),Conv表示卷积运算;
步骤103,利用第二卷积神经网络对ot进行分类,得到L个可能预测方向,每个可能预测方向与一个cl的方向相同,l=1,2,…,L,cl为分别位于L个相邻扇区内使其扇区内softmax(Conv(ot))最大且最大值大于设定阈值的ot,softmax为激励函数;
步骤104,对包含辅助导航信息的文本进行特征提取、融合,得到文本融合特征,利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合,得到跨模态融合特征向量f;
步骤105,将f与{c1,c2,…,cL}关联,选出与辅助导航信息最相符的cl,1≤l≤L,第l个可能预测方向就是最终的导航预测方向。
本实施例中,步骤101主要用于获取全方位的视频图像。一般情况下,视频图像是由安装在导航终端(如导航手杖或眼镜)上的相机获得,并通过通信模块上传到云服务器,由云服务器实现导航预测。通常是等角度间隔拍摄360 度范围内不同方向的视频图像,如每10度进行一次拍摄,可得到36个不同方向的视频图像。
本实施例中,步骤102主要用于对视频图像进行特征提取和融合。图像特征提取最常用的是卷积神经网络CNN。CNN是一种前馈神经网络,但与一般的全连接前馈神经网络不同的是,它的卷积层具有局部连接和权重共享的特性,因此能够大大减小权重参数的数量,从而减小模型的复杂程度和提高运行速度。在前馈神经网络中,信息的传递是单向的,网络的输出只依赖于当前的输入。但在很多现实任务中,网络的输出不仅依赖于当前时刻的输入,还与过去一段时间的输出相关,而且前馈神经网络要求输入和输出的维数都是固定的,因此不能处理长度可变的时序或序列数据。也就是说,CNN可以对单张图片进行特征提取,却不能对多个图片即视频序列进行特征融合。循环神经网络RNN是一类具有短期记忆功能的神经网络,其神经元不但可以接受其它神经元的信息,还可以接受自身的信息,可用来处理时序数据。但RNN在学习过程中存在梯度消失或爆炸问题,很难建模长时间间隔的状态之间的依赖关系。长短记忆神经网络LSTM,通过引入门控机制来控制信息的累积速度,包括有选择地加入新的信息,并有选择地遗忘之前累积的信息,提高了处理长时间时序数据或长序列数据的能力。因此,本实施例采用LSTM对N个不同方向视频图像的特征进行融合,得到图像融合特征。
本实施例中,步骤103主要用于得到L个可能预测方向。本实施例的导航预测方向实际上是用某个ot的方向表示的,因此,为了得到比较准确的预测方向,ot的数量N应该足够大,或相邻图像的角度间隔应足够小。本实施例确定预测方向的策略是:从所有ot中选出L个ot,将这L个ot对应的方向作为L个可能预测方向;再从这L个ot中选出一个,这一个ot对应的方向就是最终的预测方向。本实施例确定L个可能预测方向的方法是:将水平面分成L个相邻的扇区 (如等分成圆心角为60度的6个扇区),通过在每个扇区中选出一个ot,得到每个扇区内的一个可能预测方向。具体方法是:采用一个CNN对每个扇区内的ot进行分类,找到扇区内使softmax(Conv(ot))最大且最大值大于设定阈值的ot,这个ot对应的方向即为该扇区内的可能预测方向。
本实施例中,步骤104主要用于获得跨模态融合特征向量f。f的用处是在步骤105中从L个可能预测方向中选出最终的预测方向。本实施例获得f的方法是:对包含辅助导航信息的文本进行特征提取、融合,得到文本融合特征。再利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合,也就是通过图像融合特征与文本特征序列关联,筛选重要的文本特征;通过文本融合特征与图像特征序列关联,筛选重要的图像特征。最后将筛选出的重要文本特征和重要图像特征融合得到f。辅助导航信息一般是来自他人(如商店服务员或顾客)提供的较概略的方向,不能直接用作导航,须与拍摄的各个方向的图像一起进行处理后才能得到最终导航预测方向。
本实施例中,步骤105主要用于得到最终的导航预测方向。本实施例采取的方法是:利用上一步得到的跨模态融合特征向量f,与L个可能预测方向对应的ot即{c1,c2,…,cL}关联,选出与辅助导航信息最相符的cl,cl对应的方向,也就是第l个可能预测方向,就是最终的导航预测方向。
作为一可选实施例,按以下方法得到跨模态融合特征向量f:
将包含辅助导航信息的文本输入到Bert或Word2Vec模型中,得到文本嵌入特征E(wi),E表示嵌入模型,wi为第i个单词或汉字,i=1,2,…,M,M为文本中单词或汉字的数量;
将E(wi)输入双向LSTM,得到上下文相关的文本融合特征表示fi T=BiLSTM(E(wi)),BiLSTM表示进行双向LSTM运算;
利用第一注意力模块进行文本跨模态融合,通过图像特征筛选重要的文本特征
Figure GDA0003633778650000081
Figure GDA0003633778650000082
式中,Att表示注意力运算,当输入长度为n的特征序列{f1,f2,…,fn}和特征向量q时,其输出为:
Figure GDA0003633778650000083
αi=softmax(fiWattq)
式中,Watt为训练参数;
Figure GDA0003633778650000084
按以下方法得到:
利用第二注意力模块进行图像跨模态融合,通过文本特征筛选重要的图像特征ft V
Figure GDA0003633778650000091
将ft V输入到第二LSTM得到
Figure GDA0003633778650000092
Figure GDA0003633778650000093
Figure GDA0003633778650000094
Figure GDA0003633778650000095
融合后得到:
Figure GDA0003633778650000096
本实施例给出了确定跨模态融合特征向量的一种技术方案。如图2所示,本实施例是基于交叉注意力机制,采用两个注意力模块,筛选与图像相关的重要的文本特征,以及与文本相关的重要的图像特征,最后将筛选出的重要的文本特征和重要的图像特征融合就得到了跨模态融合特征向量。本实施例中采用一个双向LSTM获得文本融合特征,这是由于一个词在句子中的含义既与其前面的词有关,又与其后面的词有关,因此需要在两个方向即上下文进行语义融合。注意力模块一般称为注意力机制,是在计算机能力有限的情况下,借鉴人脑的注意力机制,只关心一些关键的信息输入进行处理,来提高神经网络的效率。注意力机制的计算可分为两步:一是在所有输入信息上计算注意力分布;二是根据注意力分布计算输入信息的加权求和。加权系数即注意力分布αi=softmax(fiWattq),表示输入向量与询问向量的相关程度。
作为一可选实施例,确定最终导航预测方向的方法具体包括:
将f和{c1,c2,…,cL}输入第三注意力模块,注意力分布为:
α′i=softmax(ciWattf),i=1,2,…,L
如果ci=cl时α′i取最大值,则第l个可能预测方向为最终的导航预测方向。
本实施例给出了确定最终导航预测方向的一种技术方案。如前述,确定最终导航预测方向实际上是从L个可能预测方向对应的图像{c1,c2,…,cL}中选出一个与辅助导航信息最相符的图像,此图像对应的可能预测方向就是最终导航预测方向。本实施例是利用一个注意力模块,以{c1,c2,…,cL}和跨模态融合特征向量作为所述注意力模块的输入,根据输出的注意力分布α′i=softmax(ciWattf),求解使其最大的cl,则cl对应的可能预测方向,也就是第l个可能预测方向就是最终的导航预测方向。
作为一可选实施例,通过语音模块获取包含辅助导航信息的文本。
本实施例给出了获取包含辅助导航信息文本的一种技术方案。如前述,所述文本是由他人提供的有关导航预测概略方向的文字描述。为了方便,本实施例采用语音模块,将他人用声音表述的辅助导航信息转换成文本。
作为一可选实施例,N=36,L=6。
本实施例给出了N、L的一组具体数据。N=36表示在水平面36个不同方向分别拍摄一张图像。最简单的情况是每10度拍一张,共得到36张图像。L=6 表示一共得到6个可能预测方向,分别位于6个相邻的扇区内。最简单的情况量是每60度的扇区内有一个可能预测方向。值得说明的是,本实施例给出的具体数据只是一种较佳的实施方式,供本领域技术人员参考,并不限制和排斥其它可行的实施方式。
图3为本发明实施例一种基于辅助信息的盲人导航装置的组成示意图,所述装置包括:
全景图像获取模块11,用于获取360度范围内N个不同方向的视频图像it, t=1,2,…,N;
图像特征提取模块12,用于利用第一卷积神经网络对所述视频图像进行特征提取,并将提取的特征输入到第一LSTM进行融合,得到图像融合特征ot=LSTM(Conv(it)),Conv表示卷积运算;
可能方向确定模块13,用于利用第二卷积神经网络对ot进行分类,得到L个可能预测方向,每个可能预测方向与一个cl的方向相同,l=1,2,…,L,cl为分别位于L个相邻扇区内使其扇区内softmax(Conv(ot))最大且最大值大于设定阈值的ot,soft max为激励函数;
跨模态融合模块14,用于对包含辅助导航信息的文本进行特征提取、融合,得到文本融合特征,利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合,得到跨模态融合特征向量f;
前进方向预测模块15,用于将f与{c1,c2,…,cL}关联,选出与辅助导航信息最相符的cl,1≤l≤L,第l个可能预测方向就是最终的导航预测方向。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
作为一可选实施例,所述跨模态融合模块14按以下方法得到跨模态融合特征向量f:
将包含辅助导航信息的文本输入到Bert或Word2Vec模型中,得到文本嵌入特征E(wi),E表示嵌入模型,wi为第i个单词或汉字,i=1,2,…,M,M为文本中单词或汉字的数量;
将E(wi)输入双向LSTM,得到上下文相关的文本融合特征表示fi T=BiLSTM(E(wi)),BiLSTM表示进行双向LSTM运算;
利用第一注意力模块进行文本跨模态融合,通过图像特征筛选重要的文本特征
Figure GDA0003633778650000111
Figure GDA0003633778650000112
式中,Att表示注意力运算,当输入长度为n的特征序列{f1,f2,…,fn}和特征向量q时,其输出为:
Figure GDA0003633778650000113
αi=softmax(fiWattq)
式中,Watt为训练参数;
Figure GDA0003633778650000114
按以下方法得到:
利用第二注意力模块进行图像跨模态融合,通过文本特征筛选重要的图像特征ft V
Figure GDA0003633778650000121
将ft V输入到第二LSTM得到
Figure GDA0003633778650000122
Figure GDA0003633778650000123
Figure GDA0003633778650000124
Figure GDA0003633778650000125
融合后得到:
Figure GDA0003633778650000126
作为一可选实施例,所述前进方向预测模块15确定最终导航预测方向的方法具体包括:
将f和{c1,c2,…,cL}输入第三注意力模块,得到注意力分布为:
α′i=softmax(ciWattf),i=1,2,…,L
如果ci=cl时α′i取最大值,则第l个可能预测方向为最终的导航预测方向。
作为一可选实施例,通过语音模块获取包含辅助导航信息的文本。
作为一可选实施例,N=36,L=6。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于辅助信息的盲人导航方法,其特征在于,包括以下步骤:
获取360度范围内N个不同方向的视频图像it,t=1,2,…,N;
利用第一卷积神经网络对所述视频图像进行特征提取,并将提取的特征输入到第一LSTM进行融合,得到图像融合特征ot=LSTM(Conv(it)),Conv表示卷积运算;
利用第二卷积神经网络对ot进行分类,得到L个可能预测方向,每个可能预测方向与一个cl的方向相同,l=1,2,…,L,cl为分别位于L个相邻扇区内使其扇区内softmax(Conv(ot))最大且最大值大于设定阈值的ot,softmax为激励函数;
对包含辅助导航信息的文本进行特征提取、融合,得到文本融合特征,利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合,得到跨模态融合特征向量f;
将f与{c1,c2,…,cL}关联,选出与辅助导航信息最相符的cl,1≤l≤L,第l个可能预测方向就是最终的导航预测方向。
2.根据权利要求1所述的基于辅助信息的盲人导航方法,其特征在于,按以下方法得到跨模态融合特征向量f:
将包含辅助导航信息的文本输入到Bert或Word2Vec模型中,得到文本嵌入特征E(wi),E表示嵌入模型,wi为第i个单词或汉字,i=1,2,…,M,M为文本中单词或汉字的数量;
将E(wi)输入双向LSTM,得到上下文相关的文本融合特征表示fi T=BiLSTM(E(wi)),BiLSTM表示进行双向LSTM运算;
利用第一注意力模块进行文本跨模态融合,通过图像特征筛选重要的文本特征
Figure FDA0003665334550000011
Figure FDA0003665334550000012
式中,Att表示注意力运算,当输入长度为n的特征序列{f1,f2,…,fn}和特征向量q时,其输出为:
Figure FDA0003665334550000021
αi=softmax(fiWattq)
式中,Watt为训练参数;
Figure FDA0003665334550000022
按以下方法得到:
利用第二注意力模块进行图像跨模态融合,通过文本特征筛选重要的图像特征ft V
Figure FDA0003665334550000023
将ft V输入到第二LSTM得到
Figure FDA0003665334550000024
Figure FDA0003665334550000025
Figure FDA0003665334550000026
Figure FDA0003665334550000027
融合后得到:
Figure FDA0003665334550000028
3.根据权利要求2所述的基于辅助信息的盲人导航方法,其特征在于,确定最终导航预测方向的方法具体包括:
将f和{c1,c2,…,cL}输入第三注意力模块,得到注意力分布为:
α'i=softmax(ciWattf),i=1,2,…,L
如果ci=cl时αi'取最大值,则第l个可能预测方向为最终的导航预测方向。
4.根据权利要求1所述的基于辅助信息的盲人导航方法,其特征在于,通过语音模块获取包含辅助导航信息的文本。
5.根据权利要求1所述的基于辅助信息的盲人导航方法,其特征在于,N=36,L=6。
6.一种基于辅助信息的盲人导航装置,其特征在于,包括:
全景图像获取模块,用于获取360度范围内N个不同方向的视频图像it,t=1,2,…,N;
图像特征提取模块,用于利用第一卷积神经网络对所述视频图像进行特征提取,并将提取的特征输入到第一LSTM进行融合,得到图像融合特征ot=LSTM(Conv(it)),Conv表示卷积运算;
可能方向确定模块,用于利用第二卷积神经网络对ot进行分类,得到L个可能预测方向,每个可能预测方向与一个cl的方向相同,l=1,2,…,L,cl为分别位于L个相邻扇区内使其扇区内softmax(Conv(ot))最大且最大值大于设定阈值的ot,softmax为激励函数;
跨模态融合模块,用于对包含辅助导航信息的文本进行特征提取、融合,得到文本融合特征,利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合,得到跨模态融合特征向量f;
前进方向预测模块,用于将f与{c1,c2,…,cL}关联,选出与辅助导航信息最相符的cl,1≤l≤L,第l个可能预测方向就是最终的导航预测方向。
7.根据权利要求6所述的基于辅助信息的盲人导航装置,其特征在于,所述跨模态融合模块按以下方法得到跨模态融合特征向量f:
将包含辅助导航信息的文本输入到Bert或Word2Vec模型中,得到文本嵌入特征E(wi),E表示嵌入模型,wi为第i个单词或汉字,i=1,2,…,M,M为文本中单词或汉字的数量;
将E(wi)输入双向LSTM,得到上下文相关的文本融合特征表示fi T=BiLSTM(E(wi)),BiLSTM表示进行双向LSTM运算;
利用第一注意力模块进行文本跨模态融合,通过图像特征筛选重要的文本特征
Figure FDA0003665334550000031
Figure FDA0003665334550000032
式中,Att表示注意力运算,当输入长度为n的特征序列{f1,f2,…,fn}和特征向量q时,其输出为:
Figure FDA0003665334550000041
αi=softmax(fiWattq)
式中,Watt为训练参数;
Figure FDA0003665334550000042
按以下方法得到:
利用第二注意力模块进行图像跨模态融合,通过文本特征筛选重要的图像特征ft V
Figure FDA0003665334550000043
将ft V输入到第二LSTM得到
Figure FDA0003665334550000044
Figure FDA0003665334550000045
Figure FDA0003665334550000046
Figure FDA0003665334550000047
融合后得到:
Figure FDA0003665334550000048
8.根据权利要求7所述的基于辅助信息的盲人导航装置,其特征在于,所述前进方向预测模块确定最终导航预测方向的方法具体包括:
将f和{c1,c2,…,cL}输入第三注意力模块,得到注意力分布为:
α'i=softmax(ciWattf),i=1,2,…,L
如果ci=cl时α'i取最大值,则第l个可能预测方向为最终的导航预测方向。
9.根据权利要求6所述的基于辅助信息的盲人导航装置,其特征在于,通过语音模块获取包含辅助导航信息的文本。
10.根据权利要求6所述的基于辅助信息的盲人导航装置,其特征在于,N=36,L=6。
CN202110383885.8A 2021-04-09 2021-04-09 一种基于辅助信息的盲人导航方法及装置 Active CN113091747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110383885.8A CN113091747B (zh) 2021-04-09 2021-04-09 一种基于辅助信息的盲人导航方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110383885.8A CN113091747B (zh) 2021-04-09 2021-04-09 一种基于辅助信息的盲人导航方法及装置

Publications (2)

Publication Number Publication Date
CN113091747A CN113091747A (zh) 2021-07-09
CN113091747B true CN113091747B (zh) 2022-08-05

Family

ID=76675939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110383885.8A Active CN113091747B (zh) 2021-04-09 2021-04-09 一种基于辅助信息的盲人导航方法及装置

Country Status (1)

Country Link
CN (1) CN113091747B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633596A (zh) * 2018-06-21 2019-12-31 北京京东尚科信息技术有限公司 预测车辆方向角的方法和装置
CN109472218A (zh) * 2018-10-22 2019-03-15 北京建筑大学 一种基于行人方向识别的汽车辅助驾驶安全方法
US10997729B2 (en) * 2018-11-30 2021-05-04 Baidu Usa Llc Real time object behavior prediction
CN109753900B (zh) * 2018-12-21 2020-06-23 西安科技大学 一种基于cnn/lstm的盲人辅助视觉系统
CN111026873B (zh) * 2019-10-24 2023-06-20 中国人民解放军军事科学院国防科技创新研究院 无人车及其导航方法、装置
CN111329735B (zh) * 2020-02-21 2021-09-28 北京理工大学 一种导盲方法、装置及系统
CN111645073B (zh) * 2020-05-29 2022-04-19 武汉理工大学 一种机器人视觉语义导航方法、装置及系统

Also Published As

Publication number Publication date
CN113091747A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN110110642B (zh) 一种基于多通道注意力特征的行人重识别方法
CN108205655B (zh) 一种关键点预测方法、装置、电子设备及存储介质
CN106845549B (zh) 一种基于多任务学习的场景与目标识别的方法及装置
CN110287844B (zh) 基于卷积姿势机和长短时记忆网络的交警手势识别方法
CN112597883B (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN110490136B (zh) 一种基于知识蒸馏的人体行为预测方法
CN107316035A (zh) 基于深度学习神经网络的对象识别方法及装置
US10755146B2 (en) Network architecture for generating a labeled overhead image
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN109919110A (zh) 视频关注区域检测方法、装置及设备
WO2023142912A1 (zh) 遗留物体的检测方法、装置及存储介质
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
Liu et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition
CN110909625A (zh) 一种计算机视觉基础网络训练识别构建方法及装置
CN115577768A (zh) 半监督模型训练方法和装置
CN112560618B (zh) 基于骨架和视频特征融合的行为分类方法
CN113091747B (zh) 一种基于辅助信息的盲人导航方法及装置
CN115115552B (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
CN113824989B (zh) 一种视频处理方法、装置和计算机可读存储介质
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
CN111709990B (zh) 一种相机重定位方法和系统
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant