CN110929013A

CN110929013A - 一种基于bottom-up attention和定位信息融合的图片问答实现方法

Info

Publication number: CN110929013A
Application number: CN201911224396.7A
Authority: CN
Inventors: 田文洪; 吝博强; 高印权
Original assignee: Chengdu Zhongke Cluster Information Technology Co Ltd
Current assignee: Chengdu Zhongke Cluster Information Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2020-03-27

Abstract

本发明提供了一种基于Bottom‑up attention和融合定位信息的图片问答系统的实现方法，包括：处理图片和语句数据集；使用Faster‑RCNN获取图片特征作为模型的图片输入，使用经过Glove编码的问题序列，作为模型的问题输入；使用卷积层计算图片的self‑attention结果作为图片特征，使用Bi‑LSTM循环神经网络将问题的编码序列作为输入得到问题的隐藏特征；本发明使用特征融合方法将图片特征，图片中物体的定位信息和问题特征融合为当前任务的特征。在基于图片的问答任务中达到了更高的准确率。解决了因为使用Bottom‑up attention导致丢失物体坐标信息的问题。

Description

一种基于bottom-up attention和定位信息融合的图片问答实现方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于卷积神经网络和循环神经网络的基于图片的问答实现方法

背景技术

最近几年，基于深度学习的机器视觉和自然语言处理的研究方法被大量提出，相比之前使用手工提取图片与句子特征极大地提高了实现效率和系统性能。在机器视觉方面，通常使用卷积神经网络包括： AlexNet，Inception，Resnet提取图片的高维特征，用该特征作为图片的高维表示。在自然语言处理方面，通常使用循环神经网络，包括：长短时记忆网络(LSTM)，门控循环网络(GRU)，将文本的编码序列依次输入到循环神经网络，用网络的输出作为文本的高维表示。

机器视觉和自然语言处理长期以来都是人工智能的两大基础性研究领域。实现基于图片的问答系统，是人工智能中重要的研究课题之一，有助于推进人工智能更进一步发展，该课题同时涉及机器视觉与自然语言处理，在实现方面较单一系统更为复杂，需要使用特征融合方法将使用卷积神经网络提取的图片特征与使用循环神经网络提取的文本特征融合为单一的能表示当前任务的特征。

注意力机制(Attention Mechanism)帮助神经网络在特定上下文环境中，将注意力集中在某一块相关度最高的图片区域或文本片段。该技术首先被应用在自然语言处理汇中，现在已经被大量用于各种深度学习任务中。

发明内容

本发明要解决的技术问题是：提供一种使用bottom-up attention 同时融合目标定位信息的基于图片的英文问答系统算法，解决传统 bottom-up attention丢失定位信息的问题。

句子最大长度设定使用循环神经网络，例如LSTM或GRU提取问题的特征，需要确定时间戳的长度，参考通常情况下，英文问句的长度，本发明在系统实现时，使用的时间戳长度为12。

使用分词工具将问题分为单个的有序的单词，对划分的单词按照一下规定进行正则化：

1.对于使用连词符的单词，去掉连词符，拆为两个单词

2.对于使用缩写的单词，例如：what’s拆为what is

3.对于大写的单词，转为全小写

4.保留标点符号

本发明使用斯坦福大学的Glove编码对问题数据进行编码，选用的编码维度是300，对于没有对应编码的词，使用全零向量代替。

本发明将基于图片的问答视为一个分类问题，且认为答案存在重尾分布，本发明使用一个阈值将出现次数小于该阈值的答案过滤舍弃，保留出现次数大于该阈值的答案。

本发明使用经过Faster-RCNN提取的图片中的物体特征作为算法的图片输入特征，Faster-RCNN是一种目标检测算法，在基于图片的问答算法中帮助定位图片中的物体，相较于传统的attention机制，能够更好的保留图片中物体的完整性和统一性。

本发明使用双层单向LSTM作为提取文本特征的算法，将正则化之后编码的文本依次输入LSTM，得到文本的特征用于之后的特征融合。

传统的bottom-up attention只提取了图片中物体的特征，忽略了物体之间的方位信息，导致算法回答关于方位的问题准确率不高，算法是根据先验概率随机猜测的。本发明将物体的方位信息加入特征融合过程中，算法在关于方位问题的作答上有了较大进步。

本发明的前景是广阔的，本发明提高了基于图片的问答系统在回答关于方位的问题时的准确率，能够有效提高问答系统的性能。

附图说明

图1是本发明一种实施例的模型训练框架示意图

图2是本发明一种实施例的模型使用框架示意图

图3是本发明一种实施例的模型细节实现示意图

具体实施方式

本发明的具体实施分为算法模型的训练和算法模型的使用两个部分。下面根据附图和实施例，对本发明的具体实施方式做进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

基于图片的问答系统模型如图1所示。每一个训练样本包含一张图片和一个针对图片提出的问题，其中模块1提取图片的特征，模块 2提取问题文本的特征，模块3用于融合模块1与模块2分别输出的图片和文本特征，在融合过程中加入了输出当前任务的特征，再将融合特征输入到log_softmax函数中，得到当前任务的logits，并使用 Kullback-Leiblerdivergence(相对熵，KL散度)作为损失函数计算损失值，使用Adam算法作为模型训练时的优化算法，并使用学习率衰减方法辅助进行训练。

输入到模块1的图片的像素值由原始的(0，255)被归一化到 (0，1)，归一化公式如下：

X_i＝(X_i-X_min)/(X_max-X_min)

将使用Glove编码的问题文本输入模块2，得到输出的问题文本特征，其公式如下：

h_t＝Bi-LSTM(h_t-1，X_t)

在融合文本特征和图片特征的过程加入物体方位信息，有助于算法回答与方位有关的问题，融合公式如下：

Feature_fusion＝Conv(concat(F_location，Fusion(F_image，F_question)))

融合之后的任务特征使用KL散度作为损失函数，衡量预测值与真实值之间的偏差，其公式如下：

该算法的设计旨在使用改进的特征融合和注意力机制提高基于图片的问答系统的性能。在使用时，将图片和对应的问题输入到完成训练的模型中可得到分类结果，即模型针对图片和问题的作答结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于自下而上的注意力机制(bottom-up attention)和加入定位信息的多模型线性融合技术的视觉问答模型(Visual Question Answer,VQA)。常见问题的答案存在重尾分布，因此本发明模型只提取出前3000个答案作为候选答案，并认为该任务是一个分类任务，上述VQA模型应该分为以下几个模块：

图片特征提取模块负责提取图片的特征，使用目标检测算法识别输入图片中的物体，将提取到的图片中物体的特征作为VQA模型的图片模块的输入特征，取代传统的将整张图片输入模型作为输入特征；

问题文本特征提取模块负责提取针对图片提出的问题的特征，将问题进行分词，使用Glove编码模型得到问题的编码，并在每个时间点向循环神经网络输入一个编码，将每个时间点循环神经网络的输出作为问题文本的特征；

基于物体定位信息的特征融合模块负责将使用目标检测算法提取的物体的位置信息与图片特征提取模块提取的图片特征和问题文本特征提取模块提取的问题特征融合为当前情景下的任务特征，并将融合得到的特征用作分类，得到问题的答案。

2.根据权利要求1所述的一种基于bottom-up attention与加入物体定位信息的多模型线性融合技术的VQA模型，其特征在于使用基于传统卷积神经网络的目标检测模型Faster-RCNN识别图片中的物体，取代完整的图片，并将检测到的物体的特征作为VQA模型的图片输入，相比与传统的基于图片的attention保证了物体特征的完整性和统一性，卷积是信号处理中常见的一种方法，深度学习的图像处理领域使用卷积核在图片的不同通道上滑动提取图片的高维特征。

3.根据权利要求1所述的问题文本特征提取模块，该模块由双向长短时记忆神经网络组成，该网络是循环神经网络的一种改进网络，通过使用输入门，输出门，遗忘门与隐藏状态有效的解决传统循环神经网络梯度消失和短时记忆问题，在LSTM中门是一个乘数因子，该乘数因子控制着数据流入，流出和以往的百分比，乘数因子是由输入数据通过全连接层得到的；

输入门决定当前状态下的输入百分比，如公式所示：

输出门决定当前状态下的输出百分比，如公式所示：

遗忘门控制上一个状态在当前状态下要保留百分比，控制LSTM单元的更新速度和记忆时长，如公式所示：

当前LSTM单元的隐藏状态是由上一个时间戳的状态与当前的输入经过输入门加权之后的结果相加得到的，如公式所示：

4.根据权利要求1所述的在VQA模型中需要将图片特征与问题特征融合，从而得到当前情景下的任务特征。因为在获取图片特征时使用bottom-up attention对图片中的物体进行提取，破坏了图片的完整性，物体之间的相对位置信息被忽略了，因此在特征融合过程中，本发明加入了物体之间的位置信息，从而有效提高了模型对于位置方面的问题的回答准确率。其中特征融合模块的结构示意图如图3所示。

其中特征一是图片特征，特征二是方位信息，特征三是问题特征，经过融合的特征四，包含了图片信息，问题信息和方位信息，用于对候选问题的分类。