CN113091747B

CN113091747B - 一种基于辅助信息的盲人导航方法及装置

Info

Publication number: CN113091747B
Application number: CN202110383885.8A
Authority: CN
Inventors: 史业民; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-08-05
Anticipated expiration: 2041-04-09
Also published as: CN113091747A

Abstract

本发明提供一种基于辅助信息的盲人导航方法及装置。所述方法包括：获取360度范围内不同方向的视频图像；对所述视频图像进行特征提取、融合，得到图像融合特征；进一步得到多个可能预测方向；对包含辅助导航信息的文本进行特征嵌入、融合得到文本融合特征，利用交叉注意力机制对文本融合特征与图像融合特征进行交叉融合，得到跨模态融合特征向量；利用所述向量对多个可能预测方向进行选择，得到最终的导航预测方向。本发明能够在全局场景信息缺失的情况下，只依赖他人提供的辅助导航信息就能实现导航预测，拓宽了盲人导航技术的应用场景。

Description

一种基于辅助信息的盲人导航方法及装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于辅助信息的盲人导航方法及装置。

背景技术

现有的盲人导航技术主要有两种：一种是依靠全局信息(如地图、俯视图等)实现整体路径规划，利用定位信息实现导航；一种是采用室内定位技术，通过预先布置在室内的多个摄像头等传感器计算用户所在的准确坐标，进一步进行路径规划。第一种方案存在以下问题：当用户处于陌生环境时，一方面无法获得场景的全局信息，另一方面无法在室内获得准确的定位信息，导致此类方法的使用受到很大限制。第二种方案也有其不足：室内定位技术需要摄像头等传感器辅助，当处于陌生场景时很难满足这些硬件条件，从而将大大降低可行性。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种基于辅助信息的盲人导航方法及装置。

为了实现上述目的，本发明采用以下技术方案。

第一方面，本发明提供一种基于辅助信息的盲人导航方法，包括：

获取360度范围内N个不同方向的视频图像i_t，t＝1,2,…,N；

利用第一卷积神经网络对所述视频图像进行特征提取，并将提取的特征输入到第一LSTM进行融合，得到图像融合特征o_t＝LSTM(Conv(i_t))，Conv表示卷积运算；

利用第二卷积神经网络对o_t进行分类，得到L个可能预测方向，每个可能预测方向与一个c_l的方向相同，l＝1,2,…,L，c_l为分别位于L个相邻扇区内使其扇区内softmax(Conv(o_t))最大且最大值大于设定阈值的o_t，softmax为激励函数；

对包含辅助导航信息的文本进行特征提取、融合，得到文本融合特征，利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合，得到跨模态融合特征向量f；

将f与{c₁,c₂,…,c_L}关联，选出与辅助导航信息最相符的c_l，1≤l≤L，第l个可能预测方向就是最终的导航预测方向。

进一步地，按以下方法得到跨模态融合特征向量f：

将包含辅助导航信息的文本输入到Bert或Word2Vec模型中，得到文本嵌入特征E(w_i)，E表示嵌入模型，w_i为第i个单词或汉字，i＝1,2,…,M，M为文本中单词或汉字的数量；

将E(w_i)输入双向LSTM，得到上下文相关的文本融合特征表示f_i ^T＝BiLSTM(E(w_i))，BiLSTM表示进行双向LSTM运算；

利用第一注意力模块进行文本跨模态融合，通过图像特征筛选重要的文本特征

式中，Att表示注意力运算，当输入长度为n的特征序列{f₁,f₂,…,f_n}和特征向量q时，其输出为：

α_i＝softmax(f_iW_attq)

式中，W_att为训练参数；

按以下方法得到：

利用第二注意力模块进行图像跨模态融合，通过文本特征筛选重要的图像特征f_t ^V：

将f_t ^V输入到第二LSTM得到

将

和

融合后得到：

更进一步地，确定最终导航预测方向的方法具体包括：

将f和{c₁,c₂,…,c_L}输入第三注意力模块，得到注意力分布为：

α′_i＝softmax(c_iW_attf)，i＝1,2,…,L

如果c_i＝c_l时α′_i取最大值，则第l个可能预测方向为最终的导航预测方向。

进一步地，通过语音模块获取包含辅助导航信息的文本。

进一步地，N＝36，L＝6。

第二方面，本发明提供一种基于辅助信息的盲人导航装置，包括：

全景图像获取模块，用于获取360度范围内N个不同方向的视频图像i_t， t＝1,2,…,N；

图像特征提取模块，用于利用第一卷积神经网络对所述视频图像进行特征提取，并将提取的特征输入到第一LSTM进行融合，得到图像融合特征o_t＝LSTM(Conv(i_t))，Conv表示卷积运算；

可能方向确定模块，用于利用第二卷积神经网络对o_t进行分类，得到L个可能预测方向，每个可能预测方向与一个c_l的方向相同，l＝1,2,…,L，c_l为分别位于L个相邻扇区内使其扇区内softmax(Conv(o_t))最大且最大值大于设定阈值的o_t，soft max为激励函数；

跨模态融合模块，用于对包含辅助导航信息的文本进行特征提取、融合，得到文本融合特征，利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合，得到跨模态融合特征向量f；

前进方向预测模块，用于将f与{c₁,c₂,…,c_L}关联，选出与辅助导航信息最相符的c_l，1≤l≤L，第l个可能预测方向就是最终的导航预测方向。

进一步地，所述跨模态融合模块按以下方法得到跨模态融合特征向量f：

α_i＝softmax(f_iW_attq)

式中，W_att为训练参数；

按以下方法得到：

将f_t ^V输入到第二LSTM得到

将

和

融合后得到：

更进一步地，所述前进方向预测模块确定最终导航预测方向的方法具体包括：

α′_i＝softmax(c_iW_attf)，i＝1,2,…,L

进一步地，通过语音模块获取包含辅助导航信息的文本。

进一步地，N＝36，L＝6。

与现有技术相比，本发明具有以下有益效果。

本发明通过获取360度范围内不同方向的视频图像，对所述视频图像进行特征提取、融合，得到图像融合特征，并进一步得到多个可能预测方向，对包含辅助导航信息的文本进行特征嵌入、融合得到文本融合特征，利用交叉注意力机制对文本融合特征与图像融合特征进行交叉融合，得到跨模态融合特征向量，利用所述向量对多个可能预测方向进行选择，得到最终的导航预测方向。本发明能够在全局场景信息缺失的情况下，只依赖他人提供的辅助导航信息就能实现导航预测，拓宽了盲人导航技术的应用场景。

附图说明

图1为本发明实施例一种基于辅助信息的盲人导航方法的流程图。

图2为本发明实施例的盲人导航原理示意图。

图3为本发明实施例一种基于辅助信息的盲人导航装置的方框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种基于辅助信息的盲人导航方法的流程图，包括以下步骤：

步骤101，获取360度范围内N个不同方向的视频图像i_t，t＝1,2,…,N；

步骤102，利用第一卷积神经网络对所述视频图像进行特征提取，并将提取的特征输入第一LSTM进行融合，得到图像融合特征o_t＝LSTM(Conv(i_t))，Conv表示卷积运算；

步骤103，利用第二卷积神经网络对o_t进行分类，得到L个可能预测方向，每个可能预测方向与一个c_l的方向相同，l＝1,2,…,L，c_l为分别位于L个相邻扇区内使其扇区内softmax(Conv(o_t))最大且最大值大于设定阈值的o_t，softmax为激励函数；

步骤104，对包含辅助导航信息的文本进行特征提取、融合，得到文本融合特征，利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合，得到跨模态融合特征向量f；

步骤105，将f与{c₁,c₂,…,c_L}关联，选出与辅助导航信息最相符的c_l，1≤l≤L，第l个可能预测方向就是最终的导航预测方向。

本实施例中，步骤101主要用于获取全方位的视频图像。一般情况下，视频图像是由安装在导航终端(如导航手杖或眼镜)上的相机获得，并通过通信模块上传到云服务器，由云服务器实现导航预测。通常是等角度间隔拍摄360 度范围内不同方向的视频图像，如每10度进行一次拍摄，可得到36个不同方向的视频图像。

本实施例中，步骤102主要用于对视频图像进行特征提取和融合。图像特征提取最常用的是卷积神经网络CNN。CNN是一种前馈神经网络，但与一般的全连接前馈神经网络不同的是，它的卷积层具有局部连接和权重共享的特性，因此能够大大减小权重参数的数量，从而减小模型的复杂程度和提高运行速度。在前馈神经网络中，信息的传递是单向的，网络的输出只依赖于当前的输入。但在很多现实任务中，网络的输出不仅依赖于当前时刻的输入，还与过去一段时间的输出相关，而且前馈神经网络要求输入和输出的维数都是固定的，因此不能处理长度可变的时序或序列数据。也就是说，CNN可以对单张图片进行特征提取，却不能对多个图片即视频序列进行特征融合。循环神经网络RNN是一类具有短期记忆功能的神经网络，其神经元不但可以接受其它神经元的信息，还可以接受自身的信息，可用来处理时序数据。但RNN在学习过程中存在梯度消失或爆炸问题，很难建模长时间间隔的状态之间的依赖关系。长短记忆神经网络LSTM，通过引入门控机制来控制信息的累积速度，包括有选择地加入新的信息，并有选择地遗忘之前累积的信息，提高了处理长时间时序数据或长序列数据的能力。因此，本实施例采用LSTM对N个不同方向视频图像的特征进行融合，得到图像融合特征。

本实施例中，步骤103主要用于得到L个可能预测方向。本实施例的导航预测方向实际上是用某个o_t的方向表示的，因此，为了得到比较准确的预测方向，o_t的数量N应该足够大，或相邻图像的角度间隔应足够小。本实施例确定预测方向的策略是：从所有o_t中选出L个o_t，将这L个o_t对应的方向作为L个可能预测方向；再从这L个o_t中选出一个，这一个o_t对应的方向就是最终的预测方向。本实施例确定L个可能预测方向的方法是：将水平面分成L个相邻的扇区 (如等分成圆心角为60度的6个扇区)，通过在每个扇区中选出一个o_t，得到每个扇区内的一个可能预测方向。具体方法是：采用一个CNN对每个扇区内的o_t进行分类，找到扇区内使softmax(Conv(o_t))最大且最大值大于设定阈值的o_t，这个o_t对应的方向即为该扇区内的可能预测方向。

本实施例中，步骤104主要用于获得跨模态融合特征向量f。f的用处是在步骤105中从L个可能预测方向中选出最终的预测方向。本实施例获得f的方法是：对包含辅助导航信息的文本进行特征提取、融合，得到文本融合特征。再利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合，也就是通过图像融合特征与文本特征序列关联，筛选重要的文本特征；通过文本融合特征与图像特征序列关联，筛选重要的图像特征。最后将筛选出的重要文本特征和重要图像特征融合得到f。辅助导航信息一般是来自他人(如商店服务员或顾客)提供的较概略的方向，不能直接用作导航，须与拍摄的各个方向的图像一起进行处理后才能得到最终导航预测方向。

本实施例中，步骤105主要用于得到最终的导航预测方向。本实施例采取的方法是：利用上一步得到的跨模态融合特征向量f，与L个可能预测方向对应的o_t即{c₁,c₂,…,c_L}关联，选出与辅助导航信息最相符的c_l，c_l对应的方向，也就是第l个可能预测方向，就是最终的导航预测方向。

作为一可选实施例，按以下方法得到跨模态融合特征向量f：

α_i＝softmax(f_iW_attq)

式中，W_att为训练参数；

按以下方法得到：

将f_t ^V输入到第二LSTM得到

将

和

融合后得到：

本实施例给出了确定跨模态融合特征向量的一种技术方案。如图2所示，本实施例是基于交叉注意力机制，采用两个注意力模块，筛选与图像相关的重要的文本特征，以及与文本相关的重要的图像特征，最后将筛选出的重要的文本特征和重要的图像特征融合就得到了跨模态融合特征向量。本实施例中采用一个双向LSTM获得文本融合特征，这是由于一个词在句子中的含义既与其前面的词有关，又与其后面的词有关，因此需要在两个方向即上下文进行语义融合。注意力模块一般称为注意力机制，是在计算机能力有限的情况下，借鉴人脑的注意力机制，只关心一些关键的信息输入进行处理，来提高神经网络的效率。注意力机制的计算可分为两步：一是在所有输入信息上计算注意力分布；二是根据注意力分布计算输入信息的加权求和。加权系数即注意力分布α_i＝softmax(f_iW_attq)，表示输入向量与询问向量的相关程度。

作为一可选实施例，确定最终导航预测方向的方法具体包括：

将f和{c₁,c₂,…,c_L}输入第三注意力模块，注意力分布为：

α′_i＝softmax(c_iW_attf)，i＝1,2,…,L

本实施例给出了确定最终导航预测方向的一种技术方案。如前述，确定最终导航预测方向实际上是从L个可能预测方向对应的图像{c₁,c₂,…,c_L}中选出一个与辅助导航信息最相符的图像，此图像对应的可能预测方向就是最终导航预测方向。本实施例是利用一个注意力模块，以{c₁,c₂,…,c_L}和跨模态融合特征向量作为所述注意力模块的输入，根据输出的注意力分布α′_i＝softmax(c_iW_attf)，求解使其最大的c_l，则c_l对应的可能预测方向，也就是第l个可能预测方向就是最终的导航预测方向。

作为一可选实施例，通过语音模块获取包含辅助导航信息的文本。

本实施例给出了获取包含辅助导航信息文本的一种技术方案。如前述，所述文本是由他人提供的有关导航预测概略方向的文字描述。为了方便，本实施例采用语音模块，将他人用声音表述的辅助导航信息转换成文本。

作为一可选实施例，N＝36，L＝6。

本实施例给出了N、L的一组具体数据。N＝36表示在水平面36个不同方向分别拍摄一张图像。最简单的情况是每10度拍一张，共得到36张图像。L＝6 表示一共得到6个可能预测方向，分别位于6个相邻的扇区内。最简单的情况量是每60度的扇区内有一个可能预测方向。值得说明的是，本实施例给出的具体数据只是一种较佳的实施方式，供本领域技术人员参考，并不限制和排斥其它可行的实施方式。

图3为本发明实施例一种基于辅助信息的盲人导航装置的组成示意图，所述装置包括：

全景图像获取模块11，用于获取360度范围内N个不同方向的视频图像i_t， t＝1,2,…,N；

图像特征提取模块12，用于利用第一卷积神经网络对所述视频图像进行特征提取，并将提取的特征输入到第一LSTM进行融合，得到图像融合特征o_t＝LSTM(Conv(i_t))，Conv表示卷积运算；

可能方向确定模块13，用于利用第二卷积神经网络对o_t进行分类，得到L个可能预测方向，每个可能预测方向与一个c_l的方向相同，l＝1,2,…,L，c_l为分别位于L个相邻扇区内使其扇区内softmax(Conv(o_t))最大且最大值大于设定阈值的o_t，soft max为激励函数；

跨模态融合模块14，用于对包含辅助导航信息的文本进行特征提取、融合，得到文本融合特征，利用交叉注意力机制对文本融合特征和图像融合特征进行交叉融合，得到跨模态融合特征向量f；

前进方向预测模块15，用于将f与{c₁,c₂,…,c_L}关联，选出与辅助导航信息最相符的c_l，1≤l≤L，第l个可能预测方向就是最终的导航预测方向。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。

作为一可选实施例，所述跨模态融合模块14按以下方法得到跨模态融合特征向量f：

α_i＝softmax(f_iW_attq)

式中，W_att为训练参数；

按以下方法得到：

将f_t ^V输入到第二LSTM得到

将

和

融合后得到：

作为一可选实施例，所述前进方向预测模块15确定最终导航预测方向的方法具体包括：

α′_i＝softmax(c_iW_attf)，i＝1,2,…,L

作为一可选实施例，N＝36，L＝6。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。