CN112651403A

CN112651403A - 基于语义嵌入的零样本视觉问答方法

Info

Publication number: CN112651403A
Application number: CN202011390333.1A
Authority: CN
Inventors: 周泓; 杨诚; 罗本燕; 彭国平
Original assignee: Zhejiang University ZJU; First Affiliated Hospital of Zhejiang University School of Medicine
Current assignee: Zhejiang University ZJU; First Affiliated Hospital of Zhejiang University School of Medicine
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-04-13
Anticipated expiration: 2040-12-02
Also published as: CN112651403B

Abstract

本发明公开了一种基于语义嵌入的零样本视觉问答方法，包含以下步骤：收集若干词汇构成词汇集合；对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S，词向量库S包含每个词汇以及其对应的词向量；提取待识别图像的视觉特征R；提取和待识别图像相对应的问题的语言特征E；将视觉特征R和语言特征E进行关系建模并输出预测词向量C；通过计算获得词向量库S中与预测词向量C相匹配的词汇。本发明的基于语义嵌入的零样本视觉问答方法，提供一种新的视觉问答技术，在不扩大训练数据集规模的前提下，在现实场景中应用时，可以给出不存在于训练数据集中的答案。

Description

基于语义嵌入的零样本视觉问答方法

技术领域

本发明涉及一种基于语义嵌入的零样本视觉问答方法。

背景技术

视觉问答(Visual Question Answering，VQA)技术指的是设计一个模型，在给定一张图片的情况下，该模型可以自动回答和图片内容相关的问题。例如给定一张内容是一张桌子上放了三个苹果的图片以及一个问题“桌子上有几个苹果”，程序需要根据图片和问题给出答案3。这个技术有很广的应用场景，例如用于帮助弱势群体(盲人)获取信息，改进人机交互，提高小孩子的认知教育。

现有的方法都将视觉问答视为一个分类的问题。具体的来说，建立一个包含大量图片和对应问题-答案对的数据集，将数据集中出现过的答案作为候选类别。设计深度神经模型，使用构建好的数据集进行训练。给定图片和对应的问题，训练好的模型会输出所有候选类别的概率，将概率较大的几个类别作为问题的答案。

现有技术的缺陷在于：现有的方法的候选类别非常有限，依赖于所构建的数据集的大小。由于模型仅仅能在候选类别中选择可能性最大的类别，脱离数据集，在现实场景中应用时就存在较大的局限性。为了提高模型在现实场景中的可用性，就需要扩大候选类别，构建更大的数据集，但是这会带来很大的花销，因为要使用当前主流的方法，除了扩充候选类别，还需要找到大量与类别对应的图片和问题，用于模型训练。

发明内容

本发明提供了一种基于语义嵌入的零样本视觉问答方法，采用如下的技术方案：

一种基于语义嵌入的零样本视觉问答方法，包含以下步骤：

收集若干词汇构成词汇集合；

对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S，词向量库S包含每个词汇以及其对应的词向量；

提取待识别图像的视觉特征R；

提取和待识别图像相对应的问题的语言特征E；

将视觉特征R和语言特征E进行关系建模并输出预测词向量C；

通过计算获得词向量库S中与预测词向量C相匹配的词汇。

进一步地，对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S的具体方法为：

通过词汇嵌入算法将词汇集合中的每个词汇编码成300维的词向量；

将词汇和其对应的词向量以键-值对的形式保存为字典以构成词向量库S。

进一步地，字典为CSV格式。

进一步地，提取待识别图像的视觉特征R的具体方法为：

将待识别图像的分辨率设置为224*224；

使用经过预训练的提取网络提取待识别图像的视觉特征R，视觉特征R为一个2048维的向量。

进一步地，提取网络为ResNet-50网络。

进一步地，提取和待识别图像相对应的问题的语言特征E的具体方法为：

对问题的语句采用字符串检索的方式进行检测并去除标点符号；

将语句的长度处理为14；

通过词汇嵌入算法将语句中的所有词汇编码为300维的词向量；

通过LSTM提取语句的语言特征E，语言特征E为一个14*1024的矩阵。

进一步地，词汇嵌入算法为GloVe算法。

进一步地，将视觉特征R和语言特征E进行关系建模并输出预测词向量C的具体方法为：

使用非线性仿射变换将视觉特征R变换为1024维的视觉向量R^′；

使用非线性仿射变换将语言特征E变换为14个1024维的语言向量E^′；

采用夹角余弦计算视觉向量R^′和语言向量E^′的相似度得到14个取值在0至1之间的相似度值，并将计算结果保存为一个14维的注意力向量A；

通过下述公式计算问题特征向量

再通过下述公式计算融合向量G：

G＝R^′⊙E；

对融合向量G做非线性仿射变换得到预测词向量C。

进一步地，通过计算获得词向量库S中与预测词向量C相匹配的词汇的具体方法为：

分别计算预测词向量C和词向量库S中所有词向量的欧式距离，将词向量库S中与预测词向量C的欧式距离最小的词向量所对应的词汇作为最终输出的词汇。

进一步地，在收集若干词汇构成词汇集合中：

词汇包含名词、数字1到10、是和否。

本发明的有益之处在于所提供的基于语义嵌入的零样本视觉问答方法，提供一种新的视觉问答技术，在不扩大训练数据集规模的前提下，在现实场景中应用时，可以给出不存在于训练数据集中的答案。

附图说明

图1是本发明的基于语义嵌入的零样本视觉问答方法的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1所示为本发明的一种基于语义嵌入的零样本视觉问答方法，主要包含以下步骤： S1:收集若干词汇构成词汇集合。S2:对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S，词向量库S包含每个词汇以及其对应的词向量。S3:提取待识别图像的视觉特征R。S4:提取和待识别图像相对应的问题的语言特征E。S5:将视觉特征R和语言特征E进行关系建模并输出预测词向量C。S6:通过计算获得词向量库S中与预测词向量C相匹配的词汇。本发明的方法在训练数据集固定的前提下，可以给出不存在于训练数据集中的答案，提高了在现实场景下的应用范围。以下具体介绍上述步骤。

对于步骤S1:收集若干词汇构成词汇集合。

首先，按类别收集词汇。在本发明中收集的词汇主要是名词，例如不同水果的名称，动物的名称，常见物品的名称，以及数字1到10，还有额外的两个词是与否，将收集的词汇保存为文本格式。

对于步骤S2:对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S，词向量库S包含每个词汇以及其对应的词向量。

具体的，对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库 S的具体方法为：通过词汇嵌入算法将词汇集合中的每个词汇编码成300维的词向量。将词汇和其对应的词向量以键-值对的形式保存为字典以构成词向量库S。在本申请中，字典为CSV 格式。优选的，词汇嵌入算法为GloVe算法。

对于步骤S3:提取待识别图像的视觉特征R。

具体的，提取待识别图像的视觉特征R的具体方法为：

将待识别图像的分辨率设置为224*224。优选的，使用opencv等图像处理工具包将待识别图像设置为固定的224*224。

使用经过预训练的提取网络提取待识别图像的视觉特征R，视觉特征R为一个2048维的向量。优选的，提取网络为ResNet-50网络。

对于步骤S4:提取和待识别图像相对应的问题的语言特征E。

具体的，提取和待识别图像相对应的问题的语言特征E的具体方法为：对问题的语句采用字符串检索的方式进行检测并去除标点符号。将语句的长度处理为14。通过词汇嵌入算法将语句中的所有词汇编码为300维的词向量。通过LSTM(长短期记忆模型)提取语句的语言特征E，得到14个2048维的语言特征向量，将其保存为一个14*1024的矩阵，该矩阵即为语言特征E。

对于步骤S5:将视觉特征R和语言特征E进行关系建模并输出预测词向量C。

具体而言，将视觉特征R和语言特征E进行关系建模并输出预测词向量C的具体方法为：

使用非线性仿射变换将视觉特征R变换为1024维的视觉向量R′。使用非线性仿射变换将语言特征E变换为14个1024维的语言向量E′。其中，该非线性变换的参数，可通过反向传播技巧从训练数据中学习而来。采用夹角余弦计算视觉向量R′和语言向量E′的相似度得到14 个取值在0至1之间的相似度值，并将计算结果保存为一个14维的注意力向量A。注意力向量A中的每一个元素表示问题中每一个词汇对于图片的重要程度，通过下述公式计算问题特征向量

再通过下述公式计算融合向量G：

G＝R^′⊙E，

对融合向量G做非线性仿射变换得到预测词向量C。

对于步骤S6:通过计算获得词向量库S中与预测词向量C相匹配的词汇。

具体而言，通过计算获得词向量库S中与预测词向量C相匹配的词汇的具体方法为：

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于语义嵌入的零样本视觉问答方法，其特征在于，包含以下步骤：

收集若干词汇构成词汇集合；

对收集到的所述词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S，所述词向量库S包含每个词汇以及其对应的词向量；

提取待识别图像的视觉特征R；

提取和所述待识别图像相对应的问题的语言特征E；

将所述视觉特征R和所述语言特征E进行关系建模并输出预测词向量C；

通过计算获得所述词向量库S中与所述预测词向量C相匹配的词汇。

2.根据权利要求1所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述对收集到的所述词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S的具体方法为：

通过词汇嵌入算法将所述词汇集合中的每个词汇编码成300维的词向量；

将词汇和其对应的词向量以键-值对的形式保存为字典以构成所述词向量库S。

3.根据权利要求2所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述字典为CSV格式。

4.根据权利要求2所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述提取待识别图像的视觉特征R的具体方法为：

将待识别图像的分辨率设置为224*224；

使用经过预训练的提取网络提取所述待识别图像的所述视觉特征R，所述视觉特征R为一个2048维的向量。

5.根据权利要求4所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述提取网络为ResNet-50网络。

6.根据权利要求4所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述提取和所述待识别图像相对应的问题的语言特征E的具体方法为：

对所述问题的语句采用字符串检索的方式进行检测并去除标点符号；

将语句的长度处理为14；

通过所述词汇嵌入算法将所述语句中的所有词汇编码为300维的词向量；

通过LSTM提取所述语句的所述语言特征E，所述语言特征E为一个14*1024的矩阵。

7.根据权利要求6所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述词汇嵌入算法为GloVe算法。

8.根据权利要求6所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述将所述视觉特征R和所述语言特征E进行关系建模并输出预测词向量C的具体方法为：

使用非线性仿射变换将所述视觉特征R变换为1024维的视觉向量R′；

使用非线性仿射变换将所述语言特征E变换为14个1024维的语言向量E′；

采用夹角余弦计算所述视觉向量R′和所述语言向量E′的相似度得到14个取值在0至1之间的相似度值，并将计算结果保存为一个14维的注意力向量A；

通过下述公式计算问题特征向量

再通过下述公式计算融合向量G：

G＝R′⊙E；

对所述融合向量G做非线性仿射变换得到所述预测词向量C。

9.根据权利要求8所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

所述通过计算获得所述词向量库S中与所述预测词向量C相匹配的词汇的具体方法为：

分别计算所述预测词向量C和所述词向量库S中所有词向量的欧式距离，将所述词向量库S中与所述预测词向量C的欧式距离最小的词向量所对应的词汇作为最终输出的词汇。

10.根据权利要求1所述的基于语义嵌入的零样本视觉问答方法，其特征在于，

在所述收集若干词汇构成词汇集合中：

所述词汇包含名词、数字1到10、是和否。