CN109145974A

CN109145974A - 一种基于图文匹配的多层次图像特征融合方法

Info

Publication number: CN109145974A
Application number: CN201810915359.XA
Authority: CN
Inventors: 郝志峰; 李俊峰; 蔡瑞初; 温雯; 王丽娟; 陈炳丰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2019-01-04
Anticipated expiration: 2038-08-13
Also published as: CN109145974B

Abstract

本发明公布了一种基于图文匹配的多层次图像特征融合方法，通过使用预训练网络中的多层特征作为图像的多层次总预训练特征，并且在图文匹配的学习目标指导下，利用多层感知机(Multi‑Layer Perceptron)有监督地融合和降维图像的多层次总预训练特征，生成融合图像特征。从而能够充分地利用更多有用的、不同层次的预训练特征，并从中归纳出对图文匹配任务有用的特征和去除无用的特征，减少了噪声特征的干扰。然后即可利用融合图像特征和文本特征在特征空间上的余弦相似度来进行图文匹配。

Description

一种基于图文匹配的多层次图像特征融合方法

技术领域

本发明涉及数据挖掘技术领域，尤其是一种基于图文匹配的多层次图像特征融合方法。

背景技术

近年来，图文匹配任务在人工智能、机器学习等领域中逐渐变得热门。我们现在可以构建一个能根据文本内容推荐合适图像的图文匹配系统，反之亦然。这使得无须再进行繁琐的、重复的人工搜索，减轻工作压力。而作为一个图文匹配系统，其必须同时关注文本和图像这两个属于不同模态的研究对象，因此图文匹配是属于多模态(Multimodal)的任务，需要精准地抽取文本和图像的特征。特别是对于图像来说，由于其表达同样事物的方式更为丰富，因此获取图像的特征尤为困难。

实际上，在图文匹配中为了更丰富和更有效率地对图像进行表征，现有技术的做法是直接使用预训练网络中的单层特征去作为图像特征，或者对该单层特征进一步进行微调(Fine-tuning)。换言之，也就只能使用到预训练任务所归纳的某一单层次特征，或者只能从该单层次特征的基础上进一步进行归纳。但是，预训练任务和实际研究的图文匹配任务是有一定差别的(任务的不一致性)。直接使用某一单层次的预训练特征会存在图文匹配所需要的特征并没有被归纳到的情况，同时也存在大量没有作用的噪声特征。再者，对单层次的预训练特征进行微调也未能利用到其它层次的有用特征。因此，直接使用或微调预训练网络的某一单层次特征并没有充分地、合理地使用这种预训练特征。在图文匹配中如何更好地利用预训练特征，准确地表征图像，具有一定的研究价值和意义。

发明内容

针对现有技术的不足，本发明提供一种基于图文匹配的多层次图像特征融合方法，本发明能够充分地、合理地利用更多有用的预训练图像特征，减少噪声特征的干扰。

本发明的技术方案为：一种基于图文匹配的多层次图像特征融合方法，包括以下步骤：

S1)、文本表征，利用文本分析技术，为已经分词处理好的文本计算出相应的特征向量；

S2)、多层次图像表征，具体为：

S201)、利用丰富的图像分类数据集，在图像分类任务指导下预先训练得到一个预训练卷积神经网络；

S202)、把图像输入到该预训练卷积神经网络中，并使用网络中的多层特征作为图像的多层次总预训练特征；

S3)、构建一个多层感知机(Multi-Layer Perceptron,MLP)；

S4)、利用图文匹配的学习目标，指导多层感知机MLP对图像的多层次总预训练特征进行融合和降维，生成融合图像特征；

S5)、融合图像特征的运用，直接对融合图像特征和文本特征进行相似度测量，从而进行图文匹配。

进一步的，上述技术方案中，步骤S201)中，所述的图像分类数据集为ImageNet数据集。

进一步的，上述技术方案中，步骤S3)中，所述的多层感知机MLP的各层维度随着深度增加相应降低，满足对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维的需要，并且该多层感知机MLP的输出层维度设置为与文本特征的维度一致，以便进行相似度测量，并在多层感知机MLP的隐藏层和输出层设置非线性激活函数，以增强表达能力。

本发明的有益效果为：

1、使用预训练网络的多个特征层能够充分地利用更多有用的、不同层次的预训练图像特征，防止图文匹配任务未能得到充分的图像特征信息。

2、在图文匹配的学习目标指导下，融合和降维的过程能在预训练特征中归纳出对图文匹配任务有用的特征，去除无用的特征，减少了噪声特征的干扰。

附图说明

图1为发明的流程示意图；

图2为本发明的多层次图像特征融合算法的实现框架图；

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，一种基于图文匹配的多层次图像特征融合方法，包括以下步骤：

S1)、文本表征，预设m₁个分词处理好文本数据，分别为每个文本都有对应的图像，利用文本分析技术为所有文本数据生成相应的特征向量；

S2)、多层次图像表征，具体为：

S201)、预设m₂个图像数据，分别为每个图像都有其对应的文本，在图像分类学习目标的指导下，利用丰富的图像分类数据集ImageNet数据集，预先训练得到一个预训练卷积神经网络；

S202)、把图像输入到该预训练卷积神经网络中，并对预训练网络中的n层特征进行拼接，以作为图像的多层次总预训练特征，具体为：

把图像I_k输入到预训练卷积神经网络中，即可生成对应的多层次总预训练特征即

其中，为预训练网络中的使用到的第i层特征，为了令各层特征能拼接在一起，若使用到的某层特征为卷积层特征，必须要先进行池化操作以消除空间信息，若使用到的某层特征为全连接层特征，则不必进行池化操作；

S3)、为了从多层次的预训练特征中归纳出对图文匹配任务有用的特征和舍弃无用的噪声特征，构建一个多层感知机(Multi-Layer Perceptron,MLP)，并且，各层维度随着深度越深变得越低，用于对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维，多层感知机MLP的输出层维度与文本特征维度一致，并在多层感知机MLP的隐藏层和输出层设置非线性激活函数，以增强表达能力；

S4)、利用图文匹配的学习目标，指导多层感知机MLP对图像的多层次总预训练特征进行融合和降维，生成融合图像特征，如图2所示，因此，为了训练MLP的网络参数，我们定义了一个约束，即

其中，和分别代表文本T_i所对应的正类(匹配)和负类(不匹配)的图像集合，为T_i的特征向量，和分别代表图像I_j，I_p的融合图像特征，代表的余弦相似度，m为强制间隔大小；

该约束表示，给定训练文本T_i，令其与对应的每个正类图像I_j的特征相似度，都要大于间隔大小m加上其与每个负类图像I_p的特征相似度，通过使用Hinge Loss的标准形式，将约束转化为MLP的训练损失函数，即

通过上述损失函数即可使用所有由训练文本，对应的正类图像，以及对应的负类图像所组成的三元组去训练MLP的网络参数；

S5)、融合图像特征的运用，直接对融合图像特征和文本特征进行相似度测量，从而进行图文匹配，由于MLP的训练约束能让其输出的融合图像特征向量与文本的特征向量直接在余弦相似度上进行匹配，因此利用在特征空间上的余弦相似度去进行图文匹配。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于图文匹配的多层次图像特征融合方法，其特征在于，包括以下步骤：

S2)、多层次图像表征，具体为：

S201)、预设m₂个图像数据，分别为每个图像都有其对应的文本，在图像分类学习目标的指导下，利用丰富的图像分类数据集，预先训练得到一个预训练卷积神经网络；

S202)、把图像输入到该预训练卷积神经网络中，并对预训练网络中的n层特征进行拼接，以作为图像的多层次总预训练特征；

S3)、为了从多层次的预训练特征中归纳出对图文匹配任务有用的特征和舍弃无用的噪声特征，构建一个多层感知机(Multi-Layer Perceptron,MLP)；

2.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法，其特征在于：步骤S201)中，所述的图像分类数据集为ImageNet数据集。

3.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法，其特征在于：步骤S202)中，把图像I_k输入到预训练卷积神经网络中，即可生成对应的多层次总预训练特征即

其中，为预训练网络中使用到的第i层特征，为了令各层特征能拼接在一起，若使用到的某层特征为卷积层特征，必须要先进行池化操作以消除空间信息，若使用到的某层特征为全连接层特征，则不必进行池化操作。

4.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法，其特征在于：步骤S3)中，所述的多层感知机MLP的各层维度随着深度增加相应降低，以满足对高维度且包含大量噪声特征的多层次总预训练特征进行融合和降维的需要，并且该多层感知机MLP的输出层维度与文本特征的维度一致，在多层感知机MLP的隐藏层和输出层设置非线性激活函数，以增强表达能力。

5.根据权利要求1所述的一种基于图文匹配的多层次图像特征融合方法，其特征在于：步骤S4)中，为了训练多层感知机MLP的网络参数，定义一个约束，即：

通过上述损失函数即可使用所有由训练文本，对应的正类图像，以及对应的负类图像所组成的三元组去训练MLP的网络参数。