CN109740012A

CN109740012A - 基于深度神经网络对图像语义进行理解和问答的方法

Info

Publication number: CN109740012A
Application number: CN201811535632.2A
Authority: CN
Inventors: 唐金辉; 胡俊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-05-10
Anticipated expiration: 2038-12-14
Also published as: CN109740012B

Abstract

本发明提供了一种基于深度神经网络对图像语义进行理解和问答的方法包括：根据已有图像数据集，使用带动态参数层的卷积神经网络提取给定图像特征信息，然后在知识库中对图像进行信息检索获取给定图像的外部知识；对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式；将需要提出的问题和图像检索信息联合，作为输入放到神经网络的门控循环单元GRU中进行训练；把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层；在全连接层后添加一个分类层得到各种问答的答案，并将分类精度作为评价准则；基于多种实验基准，再使用WUPS评价准则进行评估，得到最终的图像问答结果。

Description

基于深度神经网络对图像语义进行理解和问答的方法

技术领域

本发明涉及一种计算机视觉和自然语言处理技术，特别时一种基于深度神经网络对图像语义进行理解和问答的方法。

背景技术

随着计算机视觉和自然语言处理领域的快速发展，人们对于图像认知的要求越来越智能化。每张图像都包含着丰富的信息，图像中的人、物、场景以及他们的相互联系无一不给人们带来很多感兴趣的地方，所以如何让机器帮助人们更好的理解图像显得格外重要。对于图像语义信息的理解在多方面有着广泛的应用场景：能够有效帮助视障者理解图像场景和各种物体间的关联；可用于机器人领域的视觉分析和信息推断；可促进网络信息检索和电子商务平台信息检索的大力发展；可为医疗、交通以及教育事业提供极大的便利。

让机器理解图像语义信息已经引起了广大研究者们的高度重视，虽然问答系统的准确率和信息范围的不断扩大，但问答干扰因素的多样性和不确定性仍然无法满足实际应用的需求。主要挑战在于图像问答的开放和自由性；外在信息如常识信息的干扰；图像视觉的关注点以及场景的多样性；对图像关联信息的推断和理解，并且现有的图像问答技术大多训练模型比较复杂耗时。

发明内容

本发明的目的在于提供一种基于深度神经网络对图像语义进行理解和问答的方法，包括以下步骤：

步骤1，根据已有图像数据集，使用带动态参数层的卷积神经网络提取给定图像特征信息，然后在知识库中对图像进行信息检索获取给定图像的外部知识；

步骤2，对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式；

步骤3，将需要提出的问题和图像检索信息联合，作为输入放到神经网络的门控循环单元GRU中进行训练；

步骤4，把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层；

步骤5，在全连接层后添加一个分类层得到各种问答的答案，并将分类精度作为评价准则；

步骤6，基于多种实验基准，再使用WUPS评价准则进行评估，得到最终的图像问答结果。

本发明提出一种基于深度神经网络对图像语义进行理解和问答的系统和方法，该方法训练网络简单有效，并且对多种方式的问答均有具有较高精度的问答结果。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1是本发明的流程图。

图2是联合嵌入模型图。

图3是门控循环单元(GRU)结构图。

具体实施方式

结合图1、图2，一种基于深度神经网络对图像语义进行理解和问答的系统和方法，包括图像特征提取和外部检索信息转换、模型训练产生预测参数和hashing映射、问答结果分类、多种实验基准和评估得到最终问答结果这四个过程。

一、图像特征提取和外部检索信息转换包括以下步骤：

步骤1，使用预训练的深度卷积神经网络(vgg19)，在原网络最后一层后添加动态参数层(一个全连接层)，调整好网络初始参数和结构，对整理好的训练集和验证集图像提取特征信息。

步骤2，在步骤1中将神经网络层中的fc7层输出信息作为图像特征保存，获取到图像特征向量V_f(I)。

步骤3，选择先验知识库(DBpedia)并对其进行扩充。考虑到编码和信息检索过程会在问答时产生干扰或无关的信息，尽最大可能以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充。通过给定图像和步骤1中的属性信息V_f(I)作为一个查询，对RDF使用SparQL数据查询语言检索图像外部知识并作为机器理解图像语义的常识性信息。

步骤4，对步骤3中获取到的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息，其转换公式如下：

y＝b+Uh(w_t-k,...w_t+k；W,D)

其中，U和b代表softmax分类函数的参数，h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值，w_t-k,...w_t+k是段落词向量。

二、模型训练产生预测参数和hashing映射包括以下步骤：

步骤5，结合图3，调整好GRU门控循环单元的网络结构和训练参数，预测网络模型由GRU后再连接一个全连接层组成。GRU模型结构中，重置门用来控制前一时刻有多少状态信息被忽略；更新门则决定保留多少前一刻状态信息。可得到如下模型表达式：

r_t＝σ(W_rx_t+U_rh_t-1)

Z_t＝σ(W_zx_t+U_zh_t-i)

其中，r_t和z_t分别代表t时刻的重置门和更新门；激活函数σ(*)he tanh(*)分别是非线性sigmoid函数和是双曲正切函数；是候选隐含状态，使用重置门来控制包含过去时刻信息的上一个隐含状态的流入；h_t表示隐含状态，使用更新门在t时刻对t-1时刻隐含状态和候选状态进行更新。将步骤4)中转换得到的外部知识语义向量K和需要提出的问题Q(使用Word2Vec转换)作为GRU的输入进行训练。

步骤6，由步骤5训练后得到h_q,k，经过全连接层后输出候选权重向量P(P＝[p₁...p_k]^T)，即P就是产生的预测参数。

步骤7，在步骤6中训练产生的预测参数P数量特别庞大，也有很多冗余参数的产生，为进一步优化模型增加训练效率，需通过hashing随机权重共享技术来构造动态参数层的权重，使得自由参数的数量大大减少而网络性能几乎没什么损失。所以，将动态参数层的输入P经过优化筛选后得到W_d(q,k)，将使用如下映射方式：

其中，对应于W_d(q,k)中第m个输出和第n个输入神经元间的映射，而Ψ(m,n)是一个散列函数将(m,n)映射到自然数{1,...,K}之间，K是预测参数P的维数，ξ(m,n):N×N→{+1,-1}是另一个与Ψ(m,n)无关的散列函数，可用来消除散列内积的偏差。

三，问答结果分类包括以下步骤：

步骤8，经由步骤7hashing映射转换得到的参数对应于卷积神经网络的动态参数层，和该层的权重fⁱ一起作用得到输出f^o，再将f^o通过一个softmax分类层，即在动态参数层后添加一个分类层。其中，考虑把步骤1)中动态参数层放在倒数第二层而不是分类层，是因为该层比分类层涉及更少的参数，这样在通过分类层后能更好得到问答产生的一系列结果。

步骤9，由于问答的开放和自由性，很难设定一个衡量问答准确性的标准，此处依据分类的精度作为评估问答系统好坏的准则之一，在优化问答模型的同时也能高效的在步骤8中产生的各个分类结果中选择出比较好的答案。

四，多种实验基准和评估准则得到最终问答结果包含以下步骤：

步骤10，为了验证多方面因素对问答系统产生的影响，此处提出多种实验基准：(1)仅带有问题的问答模型，此时，仅将问题作为模型的输入，训练中不加入图像视觉信息和图像外部知识信息，最后将得到的问答结果记录；(2)有图像和问题的问答模型，在训练模型时不加入外部知识库信息，即在机器问答时不加入图像外部常识信息；(3)带有图像视觉、图像先验知识和问题的问答模型，在训练时对图像视觉使用关注机制，并且加入外部知识信息和问题一起训练。通过多种对比实验，可以验证在机器问答中常识信息和图像视觉特征发挥的重要作用。

步骤11，在步骤9中依据分类的精度对问答结果进行评估虽然比较简单，但评估的方式还不够严谨。需要基于词汇语义相似性再对问答进行评估，考虑使用WUPS指标进行评估，它使用基于WordNet分类法的采用阈值化的方式来计算单词之间的相似性。评估方式如下：

其中，Aⁱ和Tⁱ分别表示第i个样例的预测答案和准确答案，μ(.)是预测答案(问答结果)和真实答案之间的阈值化WUP相似性，评估时阈值主要设置为0.9和0.0两种。基于该WUPS评分准则对问答结果进行评估，和步骤9中的分类准确度相结合可更好得到该问答系统的最终结果。

Claims

1.一种基于深度神经网络对图像语义进行理解和问答的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1的具体过程为：

步骤101，使用预训练的深度卷积神经网络vgg19，在网络最后一层后添加动态参数层，调整好网络初始参数和结构，对训练集和验证集图像提取特征信息；

步骤102，将步骤101中调整好的神经网络fc7层输出的信息作为图像特征保存，获取图像特征向量V_f(I)；

步骤103，选择先验知识库并以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充并对先验知识库用资源描述框架RDF进行描述，通过给定图像和其属性信息V_f(I)作为一个查询，对资源描述框架RDF使用SparQL数据查询语言检索到给定图像外部知识。

3.根据权利要求1所述的方法，其特征在于，步骤2的具体过程为：

对获取的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息，其转换公式如下：

y＝b+Uh(w_t-k,...w_t+k；W,D)

其中，U和b是softmax函数的参数，w_t-k表示段落中的第t-k个词，h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值。

4.根据权利要求1所述的方法，其特征在于，步骤3的具体过程为：

步骤301，调整门控循环单元GRU的网络结构和训练参数，其中预测网络模型由门控循环单元GRU后再连接一个全连接层组成；

步骤302，将问答需要的问题和转换后的给定图像外部知识信息联合，一起放到模型中进行训练。

5.根据权利要求1所述的方法，其特征在于，步骤4的具体过程为：

步骤401，将步骤3中联合嵌入模型训练产生的权重值P作为预测参数值

P＝W_ph_q,h

其中，W_p表示全连接层的权重，h_q,h是经过门控循环单元GRU训练后的输出值；

步骤402，通过hashing随机权重共享方法将P优化筛选得到W_d(q,k)。

6.根据权利要求5所述的方法，其特征在于，步骤5的具体过程如下：

步骤501，将步骤402得到W_d(q,k)和圣经网络的动态参数层的权重fⁱ得到输出f^o；

步骤502，将f^o通过一个softmax分类层，并将分类精度作为评价准则。

7.根据权利要求1所述的方法，其特征在于，步骤6中的实验基准包括：

(1)仅有问题的问答模型；

(2)有图像和问题的问答模型；

(c)有图像、先验知识和问题的问答模型。

8.根据权利要求1所述的方法，其特征在于，步骤6中采用WUPS评价准则对问答结果再次进行评估得到问答结果。