CN113032535A

CN113032535A - 辅助视障人士视觉问答方法、装置、计算设备及存储介质

Info

Publication number: CN113032535A
Application number: CN201911347611.2A
Authority: CN
Inventors: 邢彪; 郑屹峰; 张卷卷; 陈维新; 章淑敏; 刘梦晗; 林乐轩; 郑远哲
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2021-06-25

Abstract

本发明实施例涉及人工智能技术领域，公开了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质，该方法包括：获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；分别对所述视频帧图像以及所述问题文本进行预处理；根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；将所述回答转换成声音反馈给视障人士。通过上述方式，本发明实施例能够帮助视障人士更好的了解日常生活视觉信息。

Description

辅助视障人士视觉问答方法、装置、计算设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，具体涉及一种辅助视障人士视觉问答方法、装置、计算设备及存储介质。

背景技术

中国视力障碍人数有7551万，其中盲人达到1400万。视障人士对于了解日常生活视觉信息的需求非常迫切，但是目前视障人群暂无有效手段来进行视觉问答。

发明内容

鉴于上述问题，本发明实施例提供了一种辅助视障人士视觉问答方法、装置、计算设备及存储介质，克服了上述问题或者至少部分地解决了上述问题。

根据本发明实施例的一个方面，提供了一种辅助视障人士视觉问答方法，所述方法包括：获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；分别对所述视频帧图像以及所述问题文本进行预处理；根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；将所述回答转换成声音反馈给视障人士。

在一种可选的方式中，所述分别对所述视频帧图像以及所述问题进行预处理，包括：将所述视频帧图像中的每一帧图像进行归一化处理；将所述问题文本进行文本清洗和文本序列化，并索引化为索引序列。

在一种可选的方式中，所述将所述视频帧图像中的每一帧图像进行归一化处理，包括：从所述视频帧图像中提取每一帧图像，并将所述图像转换为448*448大小；对每一帧图像的每一个像素值按比例压缩至0到1的范围内；将每一帧图片的像素值分别对应减去全局均值图片的像素值，实现归一化。

在一种可选的方式中，所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前，包括：获取历史局数据集，包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答；对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理；根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。

在一种可选的方式中，所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型，包括：将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型；应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答；应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量；应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度，找到使目标函数最小的权重值，得到所述注意力视觉问答模型的收敛的权重。

在一种可选的方式中，所述应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答，包括：应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示，编码成预设长度的特征向量，输出形状为512*14*14的图像特征向量矩阵；应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射，并提取并输出问题文本特征向量；应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重，并计算所述图像特征向量与对应的所述注意力权重的乘积之和；应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。

在一种可选的方式中，所述应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射，并提取并输出问题文本特征向量，包括：应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量；应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。

根据本发明实施例的另一个方面，提供了一种辅助视障人士视觉问答装置，所述装置包括：数据获取单元，用于获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；预处理单元，用于分别对所述视频帧图像以及所述问题文本进行预处理；回答获取单元，用于根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；回答反馈单元，用于将所述回答转换成声音反馈给视障人士。

根据本发明实施例的另一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述辅助视障人士视觉问答方法的步骤。

根据本发明实施例的又一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使所述处理器执行上述辅助视障人士视觉问答方法的步骤。

本发明实施例通过获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；分别对所述视频帧图像以及所述问题文本进行预处理；根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；将所述回答转换成声音反馈给视障人士，能够帮助视障人士更好的了解日常生活视觉信息。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的辅助视障人士视觉问答方法的流程示意图；

图2示出了本发明实施例提供的辅助视障人士视觉问答方法的示例图；

图3示出了本发明实施例提供的辅助视障人士视觉问答方法的模型训练流程示意图；

图4示出了本发明实施例提供的辅助视障人士视觉问答方法的模型训练示例图；

图5示出了本发明实施例提供的辅助视障人士视觉问答装置的结构示意图；

图6示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的辅助视障人士视觉问答方法的流程示意图。如图1所示，该辅助视障人士视觉问答方法包括：

步骤S11：获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本。

在本发明实施例中，视障人士佩戴的智能眼镜携带有4K摄像头。在步骤S11中，应用智能眼镜携带的4K摄像头获取实时视频图像，同时获取视障人士针对该视频图像提出的问题文本。

步骤S12：分别对所述视频帧图像以及所述问题文本进行预处理。

在本发明实施例中，将所述视频帧图像中的每一帧图像进行归一化处理。具体地，从所述视频帧图像中提取每一帧图像，并将所述图像转换为448*448大小，该大小为后续注意力视觉问答模型可接受的输入数据大小。为了确保数据都在同一范围内，需要对数据做标准化处理，对每一帧图像的每一个像素值按比例压缩至0到1的范围内。然后将每一帧图片的像素值分别对应减去全局均值图片的像素值，实现归一化。其中，全局均值图片的像素值是通过计算每一帧图片的每一个位置像素值的均值所得到。经处理后的图像像素值都将被归一化为均值为0、方差为1。

在步骤S12中，还将所述问题文本进行文本清洗和文本序列化，并索引化为索引序列。具体地，移除所有标点符号，若文本为中文则对文本进行分词、若文本为英文则将字母统一为小写，同时将每个词索引化(tokenize)，使得每一段文本被转化成一段索引数字，并且对未达到最大文本长度question_length的序列补零。

在本发明实施例中，通过智能眼镜将完成预处理后的视频帧图像以及问题文本通过5G网络输入至位于最贴近用户的边缘端的预训练完毕的注意力视觉问答模型以生成针对所述问题文本的回答。

步骤S13：根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答。

视觉问答(Visual Question Answering，VQA)是一种涉及计算机视觉和自然语言处理的学习任务。该任务的定义如下：一个VQA模型以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是对给定的图片进行问答。VQA模型需要将图片和问题作为输入，结合这两部分信息，产生一条人类语言作为输出。针对一张特定的图片，如果想要机器以自然语言来回答关于该图片的某一个特定问题，需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。VQA涉及到多方面的人工智能(Artificial Intelligence，AI)技术：细粒度识别、物体识别、行为识别和对问题所包含文本的理解的神经语言程序学(Neuro-LinguisticProgramming，NLP)。VQA是一项涉及了计算机视觉(Computer Vision，CV)和自然语言处理(NLP)两大领域的学习任务。其主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。

在注意力视觉问答模型中，由卷积神经网络(Convolutional Neural Network，CNN)组成的图像特征提取器利用CNN学习图像像素在空间上的关系，负责将获取的图像信息转换成空间向量表示；由长短期记忆神经网络(long short-term memory，LSTM)组成的问题文本提取器利用LSTM可以记住长期依赖信息的特点，提取问题文本特征向量。注意力(attention)机制的引入使得注意力视觉问答模型可以带着视障人士提出的问题，去视频帧图像中聚焦特定的区域。注意力机制使得注意力视觉问答模型可以按需要聚焦于输入序列中的相关部分，给每一个输入分配一个注意力权重，如果该输入与当前操作越相关则注意力权重越接近于1，反之则越接近于0，注意力权重在每一个输出步骤都会重新计算。

在步骤S13中，应用预先训练生成的注意力视觉问答模型中的卷积神经网络模型对预处理后的视频帧图像抽取图像的特征表示，编码成预设长度的特征向量，输出形状为512*14*14的图像特征向量矩阵；应用预先训练生成的注意力视觉问答模型中的长短期记忆神经网络模型对预处理后的问题文本进行向量映射，并提取并输出问题文本特征向量；然后应用全连接注意力层根据图像特征向量矩阵以及问题文本特征向量生成图像各区域的注意力权重，并计算图像特征向量与对应的注意力权重的乘积之和；最后应用全连接层根据图像特征向量与对应的注意力权重的乘积之和输出针对问题文本的回答。

在本发明实施例中，视障人士的智能眼镜端接收最贴近用户的边缘端(如基站)通过5G网络下发的针对问题文本的回答。5G全新的网络架构将提供至少十倍于4G的峰值速率、毫秒级的传输时延，可以满足本场景数据传输量大、实时性要求高的需求，借助5G高速稳定的网络，和强大的边缘云处理能力，大大降低计算处理时延、减轻终端的重量，帮助视障人士的生活更加便利。

步骤S14：将所述回答转换成声音反馈给视障人士。

视障人士的智能眼镜端将接收的回答文本转换成声音反馈给视障人士，从而回答视障人士所需要了解的图像信息。

如图2所示，举例说明，视障人士针对图中的视频帧图像提出问题“桌上是否有钱包”。视障人士佩戴的智能眼镜携带的摄像头获取图中的视频帧图像，并在智能眼镜端对该视频帧图像进行预处理后通过5G网络上传至贴近用户侧的边缘端，输入注意力视觉问答模型。同时智能眼镜端将视障人士提问的语音转换成文本，并进行文本预处理后通过5G网络上传至贴近用户侧的边缘端，输入注意力视觉问答模型。经过注意力视觉问答模型处理输出回答文本“是”，并5G网络下发至智能眼镜端。智能眼镜端将回答文本转换成语音反馈给视障人士。

在本发明实施例中，在步骤S13之前，需要对注意力视觉问答模型进行模型训练，以获取收敛的注意力视觉问答模型。具体地，获取历史局数据集，包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答；对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理；根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。

对历史视频帧图像和历史问题文本的预处理与步骤S12中的预处理相同，将所述视频帧图像中的每一帧图像进行归一化处理；将所述问题文本进行文本清洗和文本序列化，并索引化为索引序列。另外，取历史问题文本的最长长度question_length作为其索引序列长度，词典大小为question_vocab_size。取历史回答的最长长度answer_length作为其索引序列长度，历史回答的词典大小为answer_vocab_size。

经过预处理后，视频帧图像集可表示为：V＝{v_1，v2，...，v_N}，其中v_n是空间位置n处的特征向量。对应的问题文本集可表示为：Q＝{q₁，q₂，...，q_T}，其中，q_t是第t个单词的特征向量。对应的回答集可表示为：A＝{a₁，a₂，...，a_M}，其中，a_m是第m个单词的特征向量。

在本发明实施例中，将总的历史局数据集划分为训练集和测试集，总的历史局数据集的90％划为训练集，总的历史局数据集的10％划为测试集。训练集用于训练注意力视觉问答模型模型，测试集用于测试注意力视觉问答模型模型。

对注意力视觉问答模型进行训练时，将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型；应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答；应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量；应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度，找到使目标函数最小的权重值，得到所述注意力视觉问答模型的收敛的权重。

在本发明实施例中，将训练回合数设置为1000(epochs＝1000)，批处理大小设置为100(batch_size＝100)，选择categorical crossentropy多类交叉熵作为损失函数即目标函数(loss＝'categorical_crossentropy')，梯度下降优化算法选择adam优化器用于改善传统梯度下降的学习速度(optimizer＝'adam')。注意力视觉问答模型通过梯度下降，可以找到使目标函数最小的最优权重值，注意力视觉问答模型通过训练会自主学习到权重值。注意力视觉问答模型收敛后导出该注意力视觉问答模型的权重。

在本发明实施例中，应用注意力视觉问答模型根据历史视频帧图像和历史问题文本生成预测的回答如图3所示，包括：

步骤S21：应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示，编码成预设长度的特征向量，输出形状为512*14*14的图像特征向量矩阵。

具体地，将视频帧图像压缩至448*448大小后输入至注意力视觉问答模型中，利用预训练的深度卷积神经网络(VGG)模型对图像进行预处理，抽取出图像的特征表示，将图像编码为固定长度的向量，将VGG模型的最后一个池化层作为输出，输出形状为512*14*14的图像特征向量矩阵V，14*14是图像区域的数量，512为图像每个区域的特征向量维度。

步骤S22：应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射，并提取并输出问题文本特征向量。

输入索引化后的问题文本，每条索引序列长度为question_length，输出数据的形状为(None，question_length)。在步骤S21中，应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量；应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。

具体地，首先经过词嵌入层(word embedding)，利用词嵌入将每个词转化为向量，输入数据维度为question_vocab_size，输出设置为需要将词转换为128维度的空间向量，输入序列长度为question_length，因此该词嵌入层输出数据的形状为(None，question_length，128)。词嵌入层的作用是对输入的词进行向量映射，将每个词的索引转换为128维的固定形状向量。然后经过三个LSTM层(每层含64个LSTM神经元、激活函数为relu)和三个dropout层，从而提取出问题文本的特征向量，输出问题文本特征向量Q。

长短期记忆循环神经网络(long short-term memory，LSTM)是一种特殊的循环神经网络类型，所谓的循环神经网络即同一个神经网络被重复使用。LSTM可以学习长期依赖信息，通过控制缓存中的值保存的时间，可以记住长期的信息，适合进行长序列的学习。每个神经元有四个输入和一个输出，每个神经元内有一个Cell存放记忆的数值，每一个LSTM神经元中含有三个门控：遗忘门、输入门、输出门。

步骤S23：应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重，并计算所述图像特征向量与对应的所述注意力权重的乘积之和。

通常情况下，对应问题的回答总是和图像的某个特定区域相关，注意力机制就是通过结合图像和问题二者的信息，生成一个关于图像各区域的注意力权重，对图像信息进行加权，从而实现将注意力放在图像的特定区域，使图像和问题联系起来，学习将更大的注意力权重分配给那些和问题更相关的区域。

在本发明实施例中，共包含2层全连接注意力层，每一层的操作如下：首先将图像特征矩阵V和问题文本特征向量Q输入至全连接神经网络层，其中矩阵和向量的加法是将矩阵的每一列与向量相加，最终输出h_a，再将h_a输入至softmax函数，输出图像各区域的注意力分布attention_v。

attention_V＝softmax(W_hh_a+b_h)

根据注意力权重的分布来计算注意力权重attention_i与图像特征向量v_i的乘积之和：c_i＝∑_iattention_iv_i。

步骤S24：应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。

输出层为全连接(Dense)层：包含Dense全连接神经元个数为answer_vocab_size，激活函数设置为“softmax”，将softmax输出结果,送入多类交叉熵损失函数。输出数据的形状为(None，answer_vocab_size)，将注意力解码层的输出形状转换成最终输出的维度。参见图4，视障人士对图中的历史视频帧图像提出问题“what is the weather lik”，应用卷积神经网络模型将该历史视频帧图像转换成图像特征向量V，输出至全连接注意力层。应用词嵌入层将历史问题文本的每个词索引转换为128维的固定形状向量，经过LSTM层转换成问题文本特征向量Q，输出至全连接注意力层。2层全连接注意力层根据图像特征向量V和问题文本特征向量Q获取注意力权重的分布，并计算注意力权重与图像特征向量V的乘积之和，通过全连接层输出预测的回答“sunny”。

图5示出了本发明实施例的辅助视障人士视觉问答装置的结构示意图。如图5所示，该辅助视障人士视觉问答装置包括：数据获取单元501、预处理单元502、回答获取单元503、回答反馈单元504以及模型训练单元505。其中：

数据获取单元501用于获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；预处理单元502用于分别对所述视频帧图像以及所述问题文本进行预处理；回答获取单元503用于根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；回答反馈单元504用于将所述回答转换成声音反馈给视障人士。

在一种可选的方式中，预处理单元502用于：将所述视频帧图像中的每一帧图像进行归一化处理；将所述问题文本进行文本清洗和文本序列化，并索引化为索引序列。

在一种可选的方式中，预处理单元502用于：从所述视频帧图像中提取每一帧图像，并将所述图像转换为448*448大小；对每一帧图像的每一个像素值按比例压缩至0到1的范围内；将每一帧图片的像素值分别对应减去全局均值图片的像素值，实现归一化。

在一种可选的方式中，模型训练单元505用于：获取历史局数据集，包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答；对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理；根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。

在一种可选的方式中，模型训练单元505用于：将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型；应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答；应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量；应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度，找到使目标函数最小的权重值，得到所述注意力视觉问答模型的收敛的权重。

在一种可选的方式中，模型训练单元505用于：应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示，编码成预设长度的特征向量，输出形状为512*14*14的图像特征向量矩阵；应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射，并提取并输出问题文本特征向量；应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重，并计算所述图像特征向量与对应的所述注意力权重的乘积之和；应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。

在一种可选的方式中，模型训练单元505用于：应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量；应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的辅助视障人士视觉问答方法。

可执行指令具体可以用于使得处理器执行以下操作：

获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；

分别对所述视频帧图像以及所述问题文本进行预处理；

根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；

将所述回答转换成声音反馈给视障人士。

在一种可选的方式中，所述可执行指令使所述处理器执行以下操作：

将所述视频帧图像中的每一帧图像进行归一化处理；

将所述问题文本进行文本清洗和文本序列化，并索引化为索引序列。

从所述视频帧图像中提取每一帧图像，并将所述图像转换为448*448大小；

对每一帧图像的每一个像素值按比例压缩至0到1的范围内；

将每一帧图片的像素值分别对应减去全局均值图片的像素值，实现归一化。

获取历史局数据集，包括视障人士捕获的历史视频帧图像、与所述历史视频帧图像对应的历史问题文本以及针对所述历史问题文本的历史回答；

对所述历史视频帧图像、所述历史问题文本以及所述历史回答进行预处理；

根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型。

将预处理后的所述历史视频帧图像和所述历史问题文本输入所述注意力视觉问答模型；

应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答；

应用目标函数对所述预测的回答与针对所述历史问题文本的所述历史回答进行衡量；

应用梯度下降优化算法加速所述注意力视觉问答模型的收敛速度，找到使目标函数最小的权重值，得到所述注意力视觉问答模型的收敛的权重。

应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示，编码成预设长度的特征向量，输出形状为512*14*14的图像特征向量矩阵；

应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射，并提取并输出问题文本特征向量；

应用全连接注意力层根据所述图像特征向量矩阵以及所述问题文本特征向量生成所述图像各区域的注意力权重，并计算所述图像特征向量与对应的所述注意力权重的乘积之和；

应用全连接层根据所述图像特征向量与对应的所述注意力权重的乘积之和输出所述预测的回答。

应用词嵌入层将所述历史问题文本中每个词转化为预设维度的空间向量；

应用长短期记忆神经网络层根据所述空间向量提取并输出所述问题文本特征向量。

本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任意方法实施例中的辅助视障人士视觉问答方法。

可执行指令具体可以用于使得处理器执行以下操作：

分别对所述视频帧图像以及所述问题文本进行预处理；

将所述回答转换成声音反馈给视障人士。

将所述视频帧图像中的每一帧图像进行归一化处理；

对每一帧图像的每一个像素值按比例压缩至0到1的范围内；

图6示出了本发明实施例提供的计算设备的结构示意图，本发明具体实施例并不对设备的具体实现做限定。

如图6所示，该计算设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。通信接口604，用于与其它设备比如客户端或其它服务器等的网元通信。处理器602，用于执行程序610，具体可以执行上述辅助视障人士视觉问答方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或各个集成电路。设备包括的一个或各个处理器，可以是同一类型的处理器，如一个或各个CPU；也可以是不同类型的处理器，如一个或各个CPU以及一个或各个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行以下操作：

分别对所述视频帧图像以及所述问题文本进行预处理；

将所述回答转换成声音反馈给视障人士。

在一种可选的方式中，所述程序610使所述处理器执行以下操作：

将所述视频帧图像中的每一帧图像进行归一化处理；

对每一帧图像的每一个像素值按比例压缩至0到1的范围内；

应用预训练的卷积神经网络模型对预处理后的所述历史视频帧图像抽取图像的特征表示，编码成预设长度的特征向量，输出形状为612*14*14的图像特征向量矩阵；

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种辅助视障人士视觉问答方法，其特征在于，所述方法包括：

分别对所述视频帧图像以及所述问题文本进行预处理；

将所述回答转换成声音反馈给视障人士。

2.根据权利要求1所述的方法，其特征在于，所述分别对所述视频帧图像以及所述问题进行预处理，包括：

将所述视频帧图像中的每一帧图像进行归一化处理；

3.根据权利要求2所述的方法，其特征在于，所述将所述视频帧图像中的每一帧图像进行归一化处理，包括：

对每一帧图像的每一个像素值按比例压缩至0到1的范围内；

4.根据权利要求1所述的方法，其特征在于，所述根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答之前，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据预处理后的所述历史局数据集训练生成所述注意力视觉问答模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述应用所述注意力视觉问答模型根据所述历史视频帧图像和所述历史问题文本生成预测的回答，包括：

7.根据权利要求6所述的方法，其特征在于，所述应用长短期记忆神经网络模型对预处理后的所述历史问题文本进行向量映射，并提取并输出问题文本特征向量，包括：

8.一种辅助视障人士视觉问答装置，其特征在于，所述装置包括：

数据获取单元，用于获取视频帧图像以及视障人士针对所述视频帧图像提出的问题文本；

预处理单元，用于分别对所述视频帧图像以及所述问题文本进行预处理；

回答获取单元，用于根据预处理后的所述视频帧图像以及所述问题文本应用预先训练生成的注意力视觉问答模型生成针对所述问题文本的回答；

回答反馈单元，用于将所述回答转换成声音反馈给视障人士。

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行根据权利要求1-7任一项所述辅助视障人士视觉问答方法的步骤。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行根据权利要求1-7任一项所述辅助视障人士视觉问答方法的步骤。