CN108154235A

CN108154235A - 一种图像问答推理方法、系统及装置

Info

Publication number: CN108154235A
Application number: CN201711260799.8A
Authority: CN
Inventors: 黄劲; 朱德明
Original assignee: Ying Sheng Information Technology Co Ltd
Current assignee: Ying Sheng Information Technology Co Ltd
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-06-12

Abstract

本发明公开了一种图像问答推理方法、系统及装置，方法包括：将输入的问题转换为问题特征向量，并根据卷积神经网络将输入的图像转换为图像特征向量；采用batch normalization运算方法，分别对转换得到的问题特征向量和图像特征向量进行推理；根据推理结果，得到问答结果。系统包括语言处理模块、视觉处理模块、多步推理模快和结果生成模块。装置包括存储器和处理器。本发明无需先验知识就能得到问答结果，提高了图像问答推理的准确率；另外，本发明通过采用batch normalization运算方法，能够对多层次多类型的问题进行推理，提高了泛化能力。本发明可广泛应用于自然语言处理领域。

Description

一种图像问答推理方法、系统及装置

技术领域

本发明涉及自然语言处理领域，尤其是一种图像问答推理方法、系统及装置。

背景技术

基于视觉的问答推理是人工智能领域中一个重要的组成部分。使用深度神经网络的图像处理和自然语言处理已经在一些相对困难的任务中取得了巨大的突破，如物体识别任务和机器翻译任务。这些进展又反过来促进了那些同时涉及视觉和自然语言处理的任务。

目前，针对图像问答推理的训练数据集逐步开源，尤其是涉及需要多步骤、高层次思维处理的任务数据集。传统的深度学习模型很难对这些结构化的、多步骤的推理进行学习训练，且传统的深度学习方法更倾向于学习数据的表面特征(即过拟合)而非真正的推理，泛化能力较弱，另外，这种方法需要大量的先验知识作为训练的前提，而且最终得到的拟合模型的准确率较低。因此，需要建立一种新的深度学习架构来实现显式的推理或关系关联。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种无需先验知识就能直接进行学习推理的，准确率高且泛化能力强的图像问答推理方法、系统及装置。

本发明所采取的第一技术方案是：

一种图像问答推理方法，包括以下步骤：

将输入的问题转换为问题特征向量，并根据卷积神经网络将输入的图像转换为图像特征向量；

采用batch normalization运算方法，分别对转换得到的问题特征向量和图像特征向量进行推理；

根据推理结果，得到问答结果。

进一步，所述将输入的问题转换为问题特征向量这一步骤，包括以下步骤：

采用word2vec算法，将问题中的中文词语转换为词向量；

根据循环神经网络对转换的词向量进行处理，得到问题特征向量。

进一步，所述采用batch normalization运算方法，对转换得到的问题特征向量进行推理这一步骤，具体为：

对转换得到的问题特征向量进行参数计算，得到对应BN层的参数。

进一步，所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤，包括以下步骤：

通过ImageNet数据库对输入的图像进行预训练；

根据残差神经网络的卷积计算方法，对输入的图像进行特征向量提取。

进一步，所述采用batch normalization运算方法，对转换得到的图像特征向量进行推理这一步骤，包括以下步骤：

根据特征提取得到的图像特征向量，对BN层进行参数定义；

根据参数定义后的BN层，构造多步推理模型；

根据构造的多步推理模型，对特征提取得到的特征向量进行训练处理。

进一步，所述根据推理结果，得到问答结果这一步骤，包括以下步骤：

结合卷积层、池化层和全连接层构造分类器；

将对转换得到的问题特征向量和图像特征向量进行推理的结果输入构造得到的分类器，得到问题的答案的概率分布向量；

选取最大概率分布向量对应的答案作为最终答案。

进一步，还包括对输入的问题和图像进行弱监督训练的步骤。

进一步，所述对输入的问题和图像进行弱监督训练这一步骤，包括以下步骤：

将待训练的数据进行集中处理；

采用弱监督策略对集中处理后的待训练数据进行端对端训练；

采用可视化算法对训练的结果进行可视化观察。

本发明所采取的第二技术方案是：

一种图像问答推理系统，包括：

语言处理模块，用于将输入的问题转换为问题特征向量；

视觉处理模块，用于根据卷积神经网络将输入的图像转换为图像特征向量；

多步推理模块，用于采用batch normalization运算方法，分别对转换得到的问题特征向量和图像特征向量进行推理；

结果生成模块，用于根据推理结果，得到问答结果。

本发明所采取的第三技术方案是：

一种图像问答推理装置，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行如第一技术方案所述的图像问答推理方法。

本发明的有益效果是：本发明通过直接对输入的问题和图像进行特征提取，以及采用batch normalization运算方法，分别对转换得到的问题特征向量和图像特征向量进行推理，无需先验知识就能得到问答结果，提高了图像问答推理的准确率；另外，本发明通过采用batch normalization运算方法，分别对转换得到的问题特征向量和图像特征向量进行推理，提高了泛化能力。

附图说明

图1为本发明一种图像问答推理方法的步骤流程图；

图2为本发明一种图像问答推理方法的整体结构框图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明一种图像问答推理方法，包括以下步骤：

根据推理结果，得到问答结果。

其中，batch normalization(简称BN)是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的一种运算方法。

进一步作为优选的实施方式，所述将输入的问题转换为问题特征向量这一步骤，包括以下步骤：

采用word2vec算法，将问题中的中文词语转换为词向量；

进一步作为优选的实施方式，所述采用batch normalization运算方法，对转换得到的问题特征向量进行推理这一步骤，具体为：

其中，所述参数计算的公式为：

其中，m表示第m次参数计算，n表示当前参数计算下的第n个BN层，W表示变换矩阵，b表示偏置值，和表示待计算的参数，e_q表示特征向量。

另外，和的下标中的“.”代表特征图的数量。

进一步作为优选的实施方式，所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤，包括以下步骤：

通过ImageNet数据库对输入的图像进行预训练；

进一步作为优选的实施方式，所述采用batch normalization运算方法，对转换得到的图像特征向量进行推理这一步骤，包括以下步骤：

根据特征提取得到的图像特征向量，对BN层进行参数定义；

根据参数定义后的BN层，构造多步推理模型；

进一步作为优选的实施方式，所述根据推理结果，得到问答结果这一步骤，包括以下步骤：

结合卷积层、池化层和全连接层构造分类器；

选取最大概率分布向量对应的答案作为最终答案。

进一步作为优选的实施方式，还包括对输入的问题和图像进行弱监督训练的步骤。

进一步作为优选的实施方式，所述对输入的问题和图像进行弱监督训练这一步骤，包括以下步骤：

将待训练的数据进行集中处理；

采用可视化算法对训练的结果进行可视化观察。

其中，端对端是指输入的图像特征向量和问题特征向量不需要经过额外处理就能直接输入网络，然后输出最终答案，这个答案也不需要进行后续处理。

参照图2，本发明一种图像问答推理系统，包括：

语言处理模块，用于将输入的问题转换为问题特征向量；

结果生成模块，用于根据推理结果，得到问答结果。

与图1的方法相对应，本发明一种图像问答推理装置，包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行本发明的图像问答推理方法。

本发明的图像问答推理方法的一个具体实施例的工作流程包括：

S1、利用word2vec、LSTM等自然语言处理技术，将输入问题转换为问题特征向量；

步骤S1具体包括以下步骤：

S11、采用word2vec算法将常用的中文词转换为词向量；

S12、采用LSTM(一种循环神经网络)处理问句：将问句中每个词的词向量输入LSTM，并输出表示该句子的问题特征向量。

S2、根据转换得到的问题特征向量进行参数计算；

步骤S2具体为：对于步骤S12输出的问题特征向量，采用下式计算CBN模块(即多步推理模块)的BN层(即规范层)的参数，

其中，m表示第m个多步推理模块，n表示该模块里第n个改进的BN层，W、b分别为变换矩阵及相应的偏置值。

S3、根据卷积神经网络将输入的图像转换为图像特征向量；

步骤S3具体包括以下步骤：

S31、通过ImageNet数据库对输入的图像进行预训练；

S32：根据残差神经网络的卷积计算方法，视觉处理模块采用ResNet-101的conv4层抽取输入图像的特征向量，维度是14×14。

S4、采用batch normalization运算方法，对转换得到的图像特征向量进行推理；

步骤S4具体包括以下步骤：

S41、定义CBN模块里改进的BN层：在传统BN层的定义式中加入改进的定义式，其中，所述传统BN层的定义式为：

本发明改进的定义式为：

γ_i,c＝f(x_i)，β_i,c＝h(x_i)，

其中，F表示训练时的一个梯度，c为特征图的数量，h、w分别为特征图的高、宽，γ_c和βc表示在传统BN层里的第c个channel的需要训练的参数，ε表示用于维持训练过程稳定的阻尼因子，Var表示方差。在CBN模块里，γ_c、β_c被扩展成函数，即f、h，它们可以是任意函数，如神经网络。在训练过程中，f、h可以用于学习如何控制视觉模块的输出的分布情况。

在实际训练过程中，为了防止的梯度过小，本实施例不直接使用γ_i,c，而是使用其大于1的部分，即下式：

Δγ_i,c＝γ_i,c-1；

S42、构造CBN模块：每个CBN模块以1×1的卷积层开始，然后依次为ReLU层、两个3×3的卷积层、改进的BN层、ReLU层和dropout层，进而构造出CBN模块。这样，CBN模块可以对视觉处理模块的输出进行任意操作，比如放大、缩小、抑制和阈值等。

S5、根据推理的结果，得到问答结果；

步骤S5具体包括以下步骤：

S51：结合一层卷积层、全局最大池化层和两层MLP(全连接层)构造分类器；

S52：将步骤S2和步骤S4最终输出的所有特征向量输入分类器，输出答案的概率分布向量；

S53：取概率分布向量中的最大值对应的答案作为最终答案。

S6、对输入的问题和图像进行弱监督训练。

S61：在训练数据集中的图像是包含各种形状、材料、颜色和大小的3D渲染物体；而问题是涉及需要多步骤、高层次思维处理的问题，例如“有多少个与绿色的金属块一样形状的绿色物体？”，答案是28个可能答案中的一个。

S62：采用弱监督策略对集中处理后的待训练数据进行端对端训练，训练过程具体为：对形状(立方体)、相对位置(右)、某一类别的数目或关于如何回答这个问题等不需要分步的标签进行弱监督训练，训练的优化器采用的是Adam Optimizer，训练模式为端到端训练。

S63：训练完成后，采用可视化算法对训练的结果进行可视化观察：

步骤S63具体是指：通过T-SNE可视化算法将每一个CNB模块的参数转换为二维向量进行可视化观察。可以观察到整个推理过程是由低层次和高层次推理组成的。例如，低层的CBN参数的数值对于“询问颜色是否相同”和“询问是什么颜色”这两种问题是接近的，而高层的CBN参数的数值对于“询问颜色是否相同”和“询问形状是否相同”这两种问题是接近的，即本发明能够处理不同类型的问题及问题中不同的子任务。

综上所述，本发明一种图像问答推理方法、系统及装置具有以下优点：

1)、本发明通过直接对输入的问题和图像进行特征提取以及推理处理，无需先验知识就能得到问答结果。

2)、本发明根据卷积神经网络将输入的图像转换为图像特征向量，能够学习推理过程的基础推理结构，提高了图像问答推理的准确率。

3)、本发明通过batch normalization运算方法，能够进行多层次多类型的问题推理，提高了泛化能力。

4)、本发明采用基于多步推理模块的深度网络结构，不仅能够处理不同类型的问题，还能处理问题当中的子问题，实现了从低层次到高层次的推理过程。

5)、本发明的多步推理模块能够对视觉处理模块的输出结果进行放大、缩小、抑制和设置阈值等任意操作。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种图像问答推理方法，其特征在于：包括以下步骤：

根据推理结果，得到问答结果。

2.根据权利要求1所述的一种图像问答推理方法，其特征在于：所述将输入的问题转换为问题特征向量这一步骤，包括以下步骤：

采用word2vec算法，将问题中的中文词语转换为词向量；

3.根据权利要求1所述的一种图像问答推理方法，其特征在于：所述采用batchnormalization运算方法，对转换得到的问题特征向量进行推理这一步骤，具体为：

4.根据权利要求1所述的一种图像问答推理方法，其特征在于：所述根据卷积神经网络将输入的图像转换为图像特征向量这一步骤，包括以下步骤：

通过ImageNet数据库对输入的图像进行预训练；

5.根据权利要求1所述的一种图像问答推理方法，其特征在于：所述采用batchnormalization运算方法，对转换得到的图像特征向量进行推理这一步骤，包括以下步骤：

根据特征提取得到的图像特征向量，对BN层进行参数定义；

根据参数定义后的BN层，构造多步推理模型；

6.根据权利要求1所述的一种图像问答推理方法，其特征在于：所述根据推理结果，得到问答结果这一步骤，包括以下步骤：

结合卷积层、池化层和全连接层构造分类器；

选取最大概率分布向量对应的答案作为最终答案。

7.根据权利要求1所述的一种图像问答推理办法，其特征在于：还包括对输入的问题和图像进行弱监督训练的步骤。

8.根据权利要求7所述的一种图像问答推理方法，其特征在于：所述对输入的问题和图像进行弱监督训练这一步骤，包括以下步骤：

将待训练的数据进行集中处理；

采用可视化算法对训练的结果进行可视化观察。

9.一种图像问答推理系统，其特征在于：包括：

语言处理模块，用于将输入的问题转换为问题特征向量；

结果生成模块，用于根据推理结果，得到问答结果。

10.一种图像问答推理装置，其特征在于：包括：

存储器，用于存储程序；

处理器，用于加载所述程序以执行如权利要求1-8任一项所述的图像问答推理方法。