CN111797811A

CN111797811A - 一种基于图像理解的盲人导航系统

Info

Publication number: CN111797811A
Application number: CN202010698366.6A
Authority: CN
Inventors: 廖宇威; 黄国恒; 程良伦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-20
Anticipated expiration: 2040-07-20
Also published as: CN111797811B

Abstract

本发明提供的一种基于图像理解的盲人导航系统，包括：图像采集模块、图像特征提取模块、语音采集模块、语音处理模块、问题特征提取模块、特征融合模块、答案产生模块、答案输出模块；将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征；将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后，通过问题特征提取模块对所述文字数据提取问题特征；通过特征融合模块将所述图像特征与所述问题特征进行特征融合；通过答案产生模块对融合特征进行分类，得到用户问题的答案；通过答案输出模块输出用户问题的答案。本发明智能程度高、实用性强，能实时的帮助视力障碍人群了解周围事物的信息，应用场景广阔。

Description

一种基于图像理解的盲人导航系统

技术领域

本发明涉及图像理解和语音识别技术领域，具体涉及一种基于图像理解的盲人导航系统。

背景技术

在现实生活中，盲人等视力障碍人群由于身体条件的原因，生活质量受到视力的影响，导致对周围事物缺乏认知理解。因此图像理解(Visual Question Answer，以下简称VQA)技术备受关注。

VQA系统需要将图片和问题作为输入，结合这两部分信息，产生一条人类语言作为输出。针对一张特定的图片，如果想要机器以自然语言来回答关于该图片的某一个特定问题，我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的AI技术：细粒度识别，例如问题：“这位女士是白种人吗？”；物体识别，例如问题：“图中有几个香蕉？”；行为识别，例如问题：“这位女士在哭吗？”和对问题所包含文本的理解(Natural Langunge Possns，以下简称NLP)。

现有技术中未见基于VQA系统与语音识别系统的盲人导航系统。

发明内容

基于此，本发明旨在提供一种基于图像理解的盲人导航系统，具有图像理解效果好、智能程度高、实用性强的优点，能够实时帮助视力障碍人群了解周围事物的信息。

本发明提供一种基于图像理解的盲人导航系统，包括：

图像采集模块，用于采集图像数据；

图像特征提取模块，用于提取所述图像数据的图像特征；

语音采集模块，用于采集用户问题的语音数据；

语音处理模块，用于识别所述语音采集模块采集的语音数据，将问题语音数据转换成问题文字数据；

问题特征提取模块，用于提取所述问题文字数据的问题特征；

特征融合模块，用于融合所述图像特征与所述问题特征，得到融合特征；

答案产生模块，用于将所述融合特征输入分类器中产生相应答案；

答案输出模块，用于输出所述答案产生模块中的答案。

优选地，所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。因为VGG卷积神经网络具有结构简洁、层数更深、特征图更宽的优点，所以采用VGG卷积神经网络提取所述图像数据的图像特征，能够更容易地收敛到最优解。

优选地，所述语音处理模块采用语音识别技术与自然语言处理技术，将语音数据转换成文字数据，具体包括：

使用大量已标注的语音数据训练声学模型与语言模型，得到训练后的声学模型与语言模型；

将采集的语音数据输入至训练后的声学模型与语言模型中进行识别，得到问题文字数据。

优选地，所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序，提取问题中包含的问题特征。

优选地，所述特征融合模块对所述图像特征与所述问题特征进行融合，之前还包括：对图像特征进行归一化处理，将所述图像特征与所述问题特征变换到同一个特征空间。

优选地，所述特征融合模块采用双线性融合的方法对所述图像特征与所述问题特征进行融合，具体包括：

将在同一位置上的所述归一化后的图像特征向量与问题特征向量进行向量外积计算，得到该位置上的矩阵；

对所有位置上的矩阵进行池化操作，得到融合矩阵；

对所述融合矩阵转换成一个向量，对所述向量进行矩归一化操作与L2归一化操作，得到融合特征。

由于融合特征维数等于图像特征与问题特征的维数之际，所以采用双线性融合方法可以有效地降低计算量。

优选地，所述答案产生模块采用多层感知机，对所述融合特征进行分类，得到用户问题的答案。

优选地，所述图像采集模块，包括：摄像头。

优选地，所述语音采集模块，包括：麦克风。

优选地，所述答案输出模块，包括：播放器。

从以上技术方案可见，与现有技术相比，本发明具有如下优点：

本发明提供的一种基于图像理解的盲人导航系统，将图像采集模块采集的图像数据通过图像特征提取模块提取图像特征；将语音采集模块采集的用户问题语音数据通过语音处理模块将语音数据转换成文字数据后，通过问题特征提取模块对所述文字数据提取问题特征；通过特征融合模块将所述图像特征与所述问题特征进行特征融合；通过答案产生模块中对融合特征进行分类，得到用户问题的答案；通过答案输出模块输出用户问题的答案。本发明将机器视觉技术与自然语言处理技术相结合，具有图像理解效果好、智能程度高、实用性强的优点，能实时的帮助视力障碍人群了解周围事物的信息，应用场景广阔。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种基于图像理解的盲人导航系统结构图；

图2为本发明实施例提供的一种基于图像理解的盲人导航系统结合应用场景的实施方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种基于图像理解的盲人导航系统，请参考图1所示，包括：

图像采集模块1，用于采集图像数据；

图像特征提取模块2，用于提取所述图像数据的图像特征；

语音采集模块3，用于采集用户问题的语音数据；

语音处理模块4，用于识别所述语音采集模块采集的语音数据，将问题语音数据转换成问题文字数据；

问题特征提取模块5，用于提取所述问题文字数据的问题特征；

特征融合模块6，用于融合所述图像特征与所述问题特征，得到融合特征；

答案产生模块7，用于将所述融合特征输入分类器中产生相应答案；

答案输出模块8，用于输出所述答案产生模块中的答案。

具体的，在本实施例中，所述图像特征提取模块采用VGG卷积神经网络(VGGNet)提取所述图像数据的图像特征。

具体的，在本实施例中，所述语音处理模块采用语音识别技术与自然语言处理技术，将语音数据转换成文字数据，包括：

具体的，在本实施例中，所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序，提取问题中包含的问题特征。

具体的，在本实施例中，所述特征融合模块对所述图像特征与所述问题特征进行融合，之前还包括：对图像特征进行归一化处理，将所述图像特征与所述问题特征变换到同一个特征空间。

具体的，在本实施例中，所述特征融合模块采用双线性融合的方法(MultimodalCompact Bilinear)对所述图像特征与所述问题特征进行融合，包括：

对所有位置上的矩阵进行池化操作，得到融合矩阵；

具体的，在本实施例中，所述答案产生模块采用多层感知机，对所述融合特征进行分类，得到用户问题的答案。

具体的，在本实施例中，所述图像采集模块，包括：摄像头。

具体的，在本实施例中，所述语音采集模块，包括：麦克风。

具体的，在本实施例中，所述答案输出模块，包括：播放器。

请参考图2，本发明的另一个实施例结合具体应用场景对一种基于图像理解的盲人导航系统进行说明。

本发明通过图像采集模块中的摄像头采集并存储大小为14×14的图像；将所述图像输入至图像特征提取模块中已训练的VGG网络，得到大小为14×14×1024的图像特征。

通过语音采集模块中的麦克风采集用户提出的问题：“What’s around me？”，存储为大小196KB的WAV语音数据；将所述语音数据输入至语音处理模块中训练后的声学模型与语言模型(Connectionist Temporal Classification，以下简称CTC)，转换成问题文字数据；将所述问题文字数据输入至问题特征提取模块的LSTM网络中，得到1024维度的问题文本向量与大小为14×14×1024的问题特征。

将所述大小为14×14×1024的图像特征与所述大小为14×14×1024的问题特征输入至特征融合模块的第一双线性融合(Multimodal Compact Bilinear，以下简称MCB)模型中，得到大小为16000×14×14的融合特征；将所述融合特征输入至神经网络中，经过两个conv层与Relu层，来预测每一个区域的注意力权值，再经过softmax层进行softmax归一化后得到的soft attention map，将所述soft attention map与原始的所述图像特征通过加权求和(Weigthed sum)的方法得到1024维度的注意力图像特征向量。

将所述1024维度的注意力图像特征向量与所述1024维度的问题文本向量输入至特征融合模块的第二MCB模型中，经过正则化与归一化后得到16000维度的融合向量。

将所述第二融合向量输入至答案产生模块的多层感知机(MultilayerPerceptron，以下简称MLP)中，依次经过FC层与sotfmax层分类后得到用户问题的答案。

通过答案输出模块中的播放器，输出所述用户问题的答案。

本实施例中，产生两个attention map，模仿多次观察；运用了两个MCB模型，通过第一个MCB模型对所述图像特征与所述问题特征进行融合，计算图像每个空间位置的attention weight，通过第二个MCB模型对所述图像特征与所述问题特征进行融合得到用户问题的答案，本技术方案能够使分类的结果更加准确。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种基于图像理解的盲人导航系统，其特征在于，包括：

图像采集模块，用于采集图像数据；

图像特征提取模块，用于提取所述图像数据的图像特征；

语音采集模块，用于采集用户问题的语音数据；

答案输出模块，用于输出所述答案产生模块中的答案。

2.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，包括：

所述图像特征提取模块采用VGG卷积神经网络提取所述图像数据的图像特征。

3.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，所述语音处理模块采用语音识别技术与自然语言处理技术，将语音数据转换成文字数据，具体包括：

4.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，包括：

所述问题特征提取模块采用LSTM神经网络按照所述问题文字数据中单词的输入顺序，提取问题中包含的问题特征。

5.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，包括：

所述特征融合模块对所述图像特征与所述问题特征进行融合，之前还包括：对图像特征进行归一化处理，将所述图像特征与所述问题特征变换到同一个特征空间。

6.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，所述特征融合模块采用双线性融合对所述图像特征与所述问题特征进行融合，具体包括：

对所有位置上的矩阵进行池化操作，得到融合矩阵；

对所述融合矩阵转换为一个向量，对所述向量进行矩归一化操作与L2归一化操作，得到融合特征。

7.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，包括：

所述答案产生模块采用多层感知机，对所述融合特征进行分类，得到用户问题的答案。

8.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，所述图像采集模块，包括：摄像头。

9.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，所述语音采集模块，包括：麦克风。

10.根据权利要求1所述的一种基于图像理解的盲人导航系统，其特征在于，所述答案输出模块，包括：播放器。