CN109597998A

CN109597998A - 一种视觉特征和语义表征联合嵌入的图像特征构建方法

Info

Publication number: CN109597998A
Application number: CN201811562352.0A
Authority: CN
Inventors: 杨波; 倪旭彬; 闫新童; 刘珊; 曾庆川; 刘婷婷; 郑文锋
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-09
Anticipated expiration: 2038-12-20
Also published as: CN109597998B

Abstract

本发明公开了一种视觉特征和语义表征联合嵌入的图像特征构建方法，先提取图像视觉特征和语义表征，然后构建目标个体之间的关系矩阵，进而构建出联合嵌入图像特征；这样通过视觉特征和语义表征不仅能够提升图像特征的提取效果，而且更精确且冗余信息更少，其次，能够更快更精确地学习到目标个体间的相关关系，且结构简单易于复现。

Description

一种视觉特征和语义表征联合嵌入的图像特征构建方法

技术领域

本发明属于视觉问答技术领域，更为具体地讲，涉及一种视觉特征和语义表征联合嵌入的图像特征构建方法。

背景技术

视觉问答(VQA)是一个综合了自然语言处理技术和数字图像处理的新技术。解决VQA问题的一般流程是将图像和对应的自然语言描述的问题作为输入，最终得到答案。如果视觉问答的问题涉及到推理则被称为视觉推理。视觉推理所研究的问题和视觉问答很相似，只是可能需要更多相互依赖的推理步骤才能解决问题。

关于视觉问答的研究主要分为非深度学习模型和深度学习模型。非深度学习模型大多基于贝叶斯理论设计模型。提出了一个用于VQA的贝叶斯框架，预测一个问题的答案类型，并用它来产生答案。将从语义分析器得到的语义树和图像结合，构建SWQA模型预测对应的答案。然而近两年的深度模型在准确度上远远超过了非深度学习模型。iBOWIMG模型使用预训练的GoogleNet图像分类模型来提取图像特征，利用问题中每个词的词嵌入作为文本特征。之后拼接图像特征和文本特征，通过SOFTMAX回归得到答案。还有方法为每个图像和问题同时不间断地生成一个神经网络，即从各种基于问题的子模块中选择，并组合它们生成神经网络。关系网络通过限制函数的结构使得它能抓住关系推理的关键。

虽然深度学习模型较非深度学习模型而言取得了重大的进步，但在复杂问题上仍然和人类的推理水平有较大差距。我们发现目前的视觉推理模型任务基本是直接将图片或是图像特征作为输入。而人类不同的是，我们会用语言这一高层次、抽象的信息去描述事物和事物间的关系。

因此本发明通过构建一种视觉特征和语义表征联合嵌入的图像特征，使得联合嵌入的图像特征不仅包含低层次视觉特征也包含了高层次的语义表征。用更丰富的图像特征作为相关领域的输入，可以得到更精确的结果，也可以使神经网络训练收敛速度加快。

发明内容

本发明的目的在于克服现有技术的不足，提供一种视觉特征和语义表征联合嵌入的图像特征构建方法，通过视觉特征和语义表征提升图像特征的提取效果，而且更精确且冗余信息更少，还能进一步提取目标个体间的相关关系。

为实现上述发明目的，本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法，其特征在于，包括以下步骤：

(1)、提取图像视觉特征

(1.1)、利用分类任务上的大规模图像数据集训练卷积神经网络，保留训练好的卷积神经网络的前k层，其余层删除，得到用来提取图像视觉特征的卷积神经网络；

(1.2)、将待提取图像输入至用来提取图像视觉特征的卷积神经网络，卷积神经网络的输出即为待提取图像的视觉特征，记为Feature；

(2)、对待提取图像进行预处理

(2.1)、利用目标检测模型对待提取图像进行分割处理，等分成s×s个格子；

(2.2)、预测每一个格子是否存在目标个体、目标个体的边界框以及目标个体的类别；

(2.3)、对存在目标个体的边框的格子采用非最大抑制算法将同一目标个体的不同子边框合并为一个刚好完整包含目标个体的最优边界框，从而得到不同个体类别的个体图像；

(3)、目标个体检测

先根据边界框裁剪出其内的目标个体，再将裁剪出的所有目标个体组合成集合I，I＝I₁，I₂，…，I_n，I_n表示第n个目标个体；

(4)、提取目标个体的属性进行语义表征

(4.1)、根据当前任务搭建属性提取模块M，M＝{m₁，m₂，…，m_k}，m_k表示目标个体的第k种属性；

(4.2)、将集合I输入至建属性提取模块M，提取目标个体的属性进行语义表征，其中，第i个目标个体的属性进行语义表征为S_i＝{m₁(I_i)，m₂(I_i)，…，m_k(I_i)}，i＝1，2，…，n；

(4.3)、将所有目标个体的属性进行语义表征为S＝{S₁，S₂，…，S_n}；

(5)、利用语义表征S构建关系矩阵R

其中，R(i，j)表示第i个目标个体与第j个目标个体的语义表征S_i、S_j的联合嵌入；

(6)、构建联合嵌入图像特征

(6.1)、构建用来对关系矩阵R编码，以及将关系矩阵R映射到与视觉特征Feature相同空间的多层全连接神经网络f；构建用于图像特征提取的多层全连接神经网络g；

(6.2)、将关系矩阵R输入至多层全连接神经网络f中，输出编码后的语义表征Feature^R；

(6.3)、将编码后的语义表征Feature^R拼接在视觉特征Feature的尾端，得到未融合的联合嵌入图像特征；

(6.4)、将未融合的联合嵌入图像特征输入至多层全连接神经网络g中，输出得到待提取图像的联合嵌入图像特征Feature^X。

本发明的发明目的是这样实现的：

本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法，先提取图像视觉特征和语义表征，然后构建目标个体之间的关系矩阵，进而构建出联合嵌入图像特征；这样通过视觉特征和语义表征不仅能够提升图像特征的提取效果，而且更精确且冗余信息更少，其次，能够更快更精确地学习到目标个体间的相关关系，且结构简单易于复现。

附图说明

图1是本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法的流程图；

图2是图像类型示意图；

图3是个体图像提取模型图；

图4是个体图像提取结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法的流程图。

在本实施例中，如图1所示，本发明一种视觉特征和语义表征联合嵌入的图像特征构建方法，包括以下步骤：

S1、提取图像视觉特征

在本实施例中，如图2所示，图像类型包括若干几何体(球体、圆柱体、立方体)；每个物体有两种尺寸(大、小)；有两种材质(金属、磨砂)；和若干颜色(红、绿、紫、青、灰、蓝、综、黄)。

S1.1、利用分类任务上的大规模图像数据集训练卷积神经网络，保留训练好的卷积神经网络的前k层，其余层删除，得到用来提取图像视觉特征的卷积神经网络；

具体地可以选择RESNET101网络在ImageNet数据集上训练分类任务。训练完成后保留网络第3个Bottleneck前的所有部分(包括第3个Bottleneck)，其余部分丢弃。保留的部分作为用来提取图像视觉特征的卷积神经网络。

S1.2、将待提取图像输入至用来提取图像视觉特征的卷积神经网络，卷积神经网络的输出即为待提取图像的视觉特征，记为Feature；

为了匹配用来提取图像视觉特征的卷积神经网络的默认参数(RESNET101的默认尺寸)，需将待提取特征的图像尺寸转换为宽224像素，高也是224像素。将转换过尺寸的图片作为用来提取图像视觉特征的卷积神经网络的输入，输出即为待提取图像的视觉特征，记为Feature。

S2、对待提取图像进行预处理

S2.1、利用目标检测模型对待提取图像进行分割处理，等分成s×s个格子；

S2.2、预测每一个格子是否存在目标个体、目标个体的边界框以及目标个体的类别；

S2.3、在本实施例中，采用如图3所示的模型整体框架，对存在目标个体的边框的格子采用非最大抑制算法将同一目标个体的不同子边框合并为一个刚好完整包含目标个体的最优边界框，从而得到不同个体类别的个体图像；如图4所示，经过上述预处理后，图像中的目标个体被识别出来，并用矩形边框标记。

S3、目标个体检测

S4、提取目标个体的属性进行语义表征

S4.1、根据当前任务搭建属性提取模块M，M＝{m₁，m₂，…，m_k}，m_k表示目标个体的第k种属性；

在本实施例中，搭建属性提取模块有：大小、材质、颜色、位置、形状。大小、材质和颜色可以构建卷积神经网络来提取；位置和形状可以直接通过步骤S2的结果得到，提取到的属性可以用硬编码表示，便于后续的计算。

S4.2、将集合I输入至建属性提取模块M，提取目标个体的属性进行语义表征，其中，第i个目标个体的属性进行语义表征为S_i＝{m₁(I_i)，m₂(I_i)，…，m_k(I_i)}，i＝1，2，…，n；

S4.3、将所有目标个体的属性进行语义表征为S＝{S₁，S₂，…，S_n}；

S5、利用语义表征S构建关系矩阵R

S6、构建联合嵌入图像特征

S6.1、构建用来对关系矩阵R编码，以及将关系矩阵R映射到与视觉特征Feature相同空间的多层全连接神经网络f；构建用于图像特征提取的多层全连接神经网络g；

在本实施例中，f和g均4层全连接层神经网络构成，每个全连接层后采用ReLU非线性激活函数。

S6.2、将关系矩阵R输入至多层全连接神经网络f中，输出编码后的语义表征Feature^R；

S6.3、将编码后的语义表征Feature^R拼接在视觉特征Feature的尾端，得到未融合的联合嵌入图像特征；

S6.4、将未融合的联合嵌入图像特征输入至多层全连接神经网络g中，输出得到待提取图像的联合嵌入图像特征Feature^X。

实例对比：在VQA任务中，将视觉特征和语义表征联合嵌入的图像特征作为输入与单纯将图像视觉特征作为输入的结果对比如表1所示。可见本发明所提出的一种视觉特征和语义表征联合嵌入的图像特征构建方法在本实例得到了非常高的准确率。

表1

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种视觉特征和语义表征联合嵌入的图像特征构建方法，其特征在于，包括以下步骤：

(1)、提取图像视觉特征

(2)、对待提取图像进行预处理

(3)、目标个体检测

先根据边界框裁剪出其内的目标个体个体，再将裁剪出的所有目标个体组合成集合I，I＝I₁,I₂,…,I_n，I_n表示第n个目标个体；

(4)、提取目标个体的属性进行语义表征

(4.1)、根据当前任务搭建属性提取模块M，M＝{m₁,m₂,…,m_k}，m_k表示目标个体的第k种属性；

(4.2)、将集合I输入至建属性提取模块M，提取目标个体的属性进行语义表征，其中，第i个目标个体的属性进行语义表征为S_i＝{m₁(I_i),m₂(I_i),…,m_k(I_i)}，i＝1,2,…,n；

(4.3)、将所有目标个体的属性进行语义表征为S＝{S₁,S₂,…,S_n}；

(5)、利用语义表征S构建关系矩阵R

其中，R(i,j)表示第i个目标个体与第j个目标个体的语义表征S_i、S_j的联合嵌入；

(6)、构建联合嵌入图像特征

(6.3)、将未融合的联合嵌入图像特征输入至多层全连接神经网络g中，输出得到待提取图像的联合嵌入图像特征Feature^X。

2.根据权利要求1所述的一种视觉特征和语义表征联合嵌入的图像特征构建方法，其特征在于，所述的R(i,j)满足：其中，表示语义表征S_j拼接在语义表征S_i的尾端。