CN106777402A

CN106777402A - 一种基于稀疏神经网络的图像检索文本方法

Info

Publication number: CN106777402A
Application number: CN201710141807.0A
Authority: CN
Inventors: 张化祥; 张滨; 王振华; 王强; 孟丽丽; 任玉伟; 吴鸿辰; 郭培莲; 季辉; 邵秀婷; 李圣涛
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2017-05-31
Anticipated expiration: 2037-03-10
Also published as: CN106777402B

Abstract

本发明公开了一种基于稀疏神经网络的图像检索文本方法，构建两个独立的稀疏神经网络模型，然后分别把图像和文本的底层特征输入到稀疏神经网络模型中，将两个稀疏神经网络模型的输出作为图像和文本的语义理解，并将其视为图像和文本的语义空间，在此语义空间中进行图像检索文本操作，并根据检索结果排序，检索出与查询图像最匹配的文本。本发明将图像和文本投影到二者共同的语义空间，充分利用了二者的语义信息，并将稀疏编码的思想引入传统的反向传播神经网络，稀疏的限制强制网络去学习有用的信息，所以能提高检索准确度。

Description

一种基于稀疏神经网络的图像检索文本方法

技术领域

本发明涉及一种基于稀疏神经网络的图像检索文本方法。

背景技术

传统的信息检索是单模态数据之间的检索，然而，随着大数据时代的到来，多模态数据增长迅速，单模态检索已无法满足人们的需要。因而，跨媒体检索(如图像检索文本)应运而生，并且正在成为信息检索的新趋势。

图像检索文本最大的挑战就是二者之间的异构鸿沟。最通用的解决方法为子空间学习方法，典型相关分析(CCA)使用相关系数作为测量标准，在保持图像和文本的相关性达最大的前提下，将图像和文本投影到一个同维子空间，从而实现图像和文本在同一空间检索的任务，类似的方法还有，偏最小二乘(PLS)和双线性差值(BLM)等，他们都属于无监督的方法；进一步的加入语义信息的有监督子空间学习方法，三视图典型相关分析(Three-ViewCCA)同时优化图像和文本之间的子空间和二者的投影与语义之间的相关性，使之达到最大，此外还有，联合特征选择和子空间学习方法(JFSSL)，广义多视图分析(GMA)等。

近年，深度学习技术在多个领域取得突破性进展，也在跨媒体检索中得到了广泛应用，深度典型相关分析(Deep Canonical Correlation Analysis)使用深度神经网络学习一个复杂的非线性投影，使得投影后的图像和文本之间的数据相关性最大；端到端的典型相关分析(End-to-end CCA)使用两路神经网络同时优化图像和文本之间的相关性，最终使得二者之间的相关性最大。

然而，上述方法均具有以下缺点：

一方面，这些方法假设图像和文本之间可以学习到一个有效的同构子空间，但对于许多真实应用，可能一幅图像上并非所有内容都与其文本描述有关，这些不相关的内容就会影响二者之间建立的同构子空间的有效性，甚至无法找到一个同构子空间；另一方面，子空间学习方法主要努力在于找到图像和文本之间的相关性，语义信息在其中起到的作用不大。

而语义信息非常有利于检索方法学习到有用的划分信息，因此，如何更好地利用语义信息，将图像和文本投影到语义空间，是目前研究的一个重点和难点。

发明内容

本发明为了解决上述问题，提出了一种基于稀疏神经网络的图像检索文本方法，本发明模仿人类视觉机制，将图像和文本的底层特征输入神经网络，网络输出为二者的语义理解，方法跨越了图像和文本底层特征与高层语义之间的语义鸿沟。

本发明为了解决现有技术中不相关的内容就会影响二者之间建立的同构子空间的有效性，通过构建两个独立的神经网络，将图像和文本投影到二者共同的语义空间，充分利用了二者的语义信息，并将稀疏编码的思想引入传统的反向传播神经网络，稀疏的限制强制网络去学习有用的信息，所以能提高检索准确度。

为了实现上述目的，本发明采用如下技术方案：

一种基于稀疏神经网络的图像检索文本方法，构建两个独立的稀疏神经网络模型，然后分别把图像和文本的底层特征输入到稀疏神经网络模型中，将两个稀疏神经网络模型的输出作为图像和文本的语义理解，并将其视为图像和文本的语义空间，在此语义空间中进行图像检索文本操作，并根据检索结果排序，检索出与查询图像最匹配的文本。

进一步的，对两个独立的稀疏神经网络模型进行训练。

进一步的，与查询图像最匹配的文本为语义空间内距离图像距离最近的检索文本。

进一步的，具体包括以下步骤：

(1)获取图像和文本的底层特征，构建图像的训练样本、测试样本以及文本的训练样本和测试样本；

(2)构建独立的稀疏神经网络模型，利用其训练图像训练样本，构建另一独立稀疏神经网络模型利用其训练文本训练样本；

(3)将图像的测试样本输入其对应的训练好的稀疏神经网络模型，得到其网络输出，将文本的测试样本输入其对应的训练好的稀疏神经网络模型，得到其网络输出；

(4)利用图像与文本的网络输出，分别表示查询图像和带检索文本，求查询图像与所有待检所文本两两之间的距离，确定最匹配的文本。

所述步骤(1)中，图像的训练样本和测试样本采用多倍交叉验证，将所有数据随机均匀分成多份，每次选取一组作为测试数据，其余的作为训练数据，实验重复多次，同样的，文本的训练样本和测试样本也采用多倍交叉验证，图像和文本选取的训练样本和测试样本应一一对应。

所述步骤(2)中，训练的具体过程包括：

(2-1)随机地初始化权重矩阵；

(2-2)将图像训练样本输入稀疏神经网络模型，网络正向传播，分别计算网络的隐藏层节点和输出层节点的输出值；

(2-3)网络误差反向传播，对于稀疏神经网络模型的输出层节点和隐藏层节点，计算其误差项；

(2-4)根据误差项更新每一个权重值；

(2-5)重复步骤(2-2)-(2-4)，直到满足迭代结束条件，训练完毕。

所述步骤(2-5)中，迭代结束条件为达到设定的迭代次数。

所述步骤(3)中，训练的具体过程包括：

(3-1)随机地初始化权重矩阵；

(3-2)将文本训练样本输入稀疏神经网络模型，网络正向传播，分别计算网络的隐藏层节点和输出层节点的输出值；

(3-3)网络误差反向传播，对于稀疏神经网络模型的输出层节点和隐藏层节点，计算其误差项；

(3-4)根据误差项更新每一个权重值；

(3-5)重复步骤(3-2)-(3-4)，直到满足迭代结束条件，训练完毕。

所述步骤(3-5)中，迭代结束条件为达到设定的迭代次数。

所述步骤(4)中，求查询图像与所有待检所文本两两之间的距离，将所求距离进行排序，确定距离最小的为与查询图像最匹配的文本。

与现有技术相比，本发明的有益效果为：

本发明模仿人类视觉机制，将图像和文本的底层特征输入神经网络，网络输出为二者的语义理解，本发明将图像和文本投影到二者共同的语义空间，充分利用了二者的语义信息，并将稀疏编码的思想引入传统的反向传播神经网络，稀疏的限制强制网络去学习有用的信息，所以能提高检索准确度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为训练稀疏神经网络的流程图；

图2为图像检索文总过程的示意图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术所介绍的，现有技术中存在语义信息在检索过程中作用不大，以及不相关的内容就会影响二者之间建立的同构子空间的有效性的缺点，本发明为了解决上述问题，提供了一种基于稀疏神经网络的图像检索文本方法。模仿人类视觉机制，将图像和文本的底层特征输入神经网络，网络输出为二者的语义理解，方法跨越了图像和文本底层特征与高层语义之间的语义鸿沟。首先，构建两个独立的神经网络，然后分别把图像和文本的底层特征输入两个神经网络，网络的输出即图像和文本的语义理解，并将其视为二者的语义空间，最后在语义空间中进行图像检索文本的过程，并根据检索结果排序，检索出与查询图像最匹配的文本。本发明将图像和文本投影到二者共同的语义空间，充分利用了二者的语义信息，并将稀疏编码的思想引入传统的反向传播神经网络，稀疏的限制强制网络去学习有用的信息，所以能提高检索准确度。并通过实验证明了本发明的有效性。

本申请的一种典型的实施方式中，一种基于稀疏神经网络的图像检索文本方法，包括以下步骤：

步骤1：获取图像和文本的底层特征：其中每一个图像样本记为图像维数为p，n为图像样本个数，每一个文本样本记为x_i ^T{i＝1,2,…,n}；

文本维数为q，n为文本样本个数，X^T＝[x₁ ^T,x₂ ^T,…,x_n ^T]，图像和文本的标记矩阵为Y＝[y₁,y₂,…,y_n]，并将其分为训练样本X_tr ^I，X_tr ^T和测试样本X_te ^I，X_te ^T；

采用5倍交叉验证，将所有数据随机均匀分成5份，每次选取一组作为测试数据，其余的作为训练数据，实验重复5次，同样的，文本的训练样本和测试样本也采用5倍交叉验证，图像和文本选取的训练样本和测试样本应一一对应。

如图1所示，步骤2：训练图像的稀疏神经网络模型，具体方法为：

(1)随机地初始化权重矩阵W^I；

(2)将图像训练样本输入网络，网络正向传播：

对于网络的隐藏层节点h，计算它的输出o_h ^I和平均激活值

其中，x_hi ^I是隐藏层节点h的第i个输入值，w_hi ^I是与之对应的权重值，m^I是隐藏层节点个数，σ是Sigmoid函数，

对于网络的输出层节点k，计算它的输出o_k ^I：

w_kh ^I是输出层节点k的第h个输入值，x_kh ^I是与之对应的权重值；

(3)网络误差反向传播：

对于网络的输出层节点k，计算它的误差项δ_k ^I：

δ_k ^I←o_k ^I(1-o_k ^I)(t_k ^I-o_k ^I)

其中，t_k ^I是网络的目标输出，

对于网络的隐藏层节点j，计算它的误差项δ_j ^I：

其中，β控制稀疏惩罚项，p是稀疏目标值；

(4)更新每一个权重值w_ji ^I：

w_ji ^I←w_ji ^I+Δw_ji ^I

其中，Δw_ji ^I＝ηδ_j ^Ix_ji ^I；

η是一个常量参数，控制权重更新速度，x_ji ^I是节点j的第i个输入值；

(5)过程(2)(3)(4)迭代进行多次，至此，图像的稀疏神经网络模型训练完毕；

步骤3：训练文本的稀疏神经网络模型，具体方法为：

(1)随机地初始化权重矩阵W^T；

(2)将文本训练样本输入网络，网络正向传播：

对于网络的隐藏层节点h，计算它的输出o_h ^T和平均激活值

其中，x_hi ^T是隐藏层节点h的第i个输入值，w_hi ^T是与之对应的权重值，m^T是隐藏层节点个数，σ是Sigmoid函数，

对于网络的输出层节点k，计算它的输出o_k ^T：

w_kh ^T是输出层节点k的第h个输入值，x_kh ^T是与之对应的权重值；

(3)网络误差反向传播：

对于网络的输出层节点k，计算它的误差项δ_k ^T：

δ_k ^T←o_k ^T(1-o_k ^T)(t_k ^T-o_k ^T)

其中，t_k ^T是网络的目标输出，

对于网络的隐藏层节点j，计算它的误差项δ_j ^T：

其中，β控制稀疏惩罚项，p是稀疏目标值；

(4)更新每一个权重值w_ji ^T：

w_ji ^T←w_ji ^T+Δw_ji ^T

其中，Δw_ji ^T＝ηδ_j ^Tx_ji ^T；

η是一个常量参数，控制权重更新速度，x_ji ^T是节点j的第i个输入值；

(5)过程(2)(3)(4)迭代进行多次，至此，文本的稀疏神经网络模型训练完毕；

步骤4：将图像的测试样本输入其训练好的网络模型，得到其网络输出将文本的测试样本输入其训练好的网络模型，得到其网络输出一个查询图像就可以表示为s_i ^I∈S^I{i＝1,2,…n_te}，待检索文本可以表示为s_t ^T∈S^T{t＝1,2,…n_te}，然后求查询图像与所有待检所文本两两之间的距离，将所求距离由小到大排序，距离最小的即为与查询图像最匹配的文本。

以Wiki图像文本数据集和NUS-WIDE图像文本数据集中的图像本文数据进行验证，检索准确率如表1所示。

表1Wiki数据集和NUS-WIDE数据集上16种图像检索文本的方法对图像检索文本的检索正确率(MAP)比较

可以看出，本发明模仿人类视觉机制，将图像和文本的底层特征输入神经网络，网络输出为二者的语义理解，本发明将图像和文本投影到二者共同的语义空间，充分利用了二者的语义信息，并将稀疏编码的思想引入传统的反向传播神经网络，稀疏的限制强制网络去学习有用的信息，能提高检索准确度。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于稀疏神经网络的图像检索文本方法，其特征是：构建两个独立的稀疏神经网络模型，然后分别把图像和文本的底层特征输入到稀疏神经网络模型中，将两个稀疏神经网络模型的输出作为图像和文本的语义理解，并将其视为图像和文本的语义空间，在此语义空间中进行图像检索文本操作，并根据检索结果排序，检索出与查询图像最匹配的文本。

2.如权利要求1所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：对两个独立的稀疏神经网络模型进行训练。

3.如权利要求1所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：与查询图像最匹配的文本为语义空间内距离图像距离最近的检索文本。

4.一种基于稀疏神经网络的图像检索文本方法，其特征是：具体包括以下步骤：

5.如权利要求4所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：所述步骤(1)中，采用多倍交叉验证，将所有数据随机均匀分成多份，每次选取一组作为测试数据，其余的作为训练数据，实验重复多次，同样的，文本的训练样本和测试样本也采用多倍交叉验证，图像和文本选取的训练样本和测试样本应一一对应。

6.如权利要求4所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：所述步骤(2)中，训练的具体过程包括：

(2-1)随机地初始化权重矩阵；

(2-4)根据误差项更新每一个权重值；

(2-5)重复步骤(2-2)-(2-4)，直到满足迭代结束条件，训练完毕。

7.如权利要求6所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：所述步骤(2-5)中，迭代结束条件为达到设定的迭代次数。

8.如权利要求5所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：所述步骤(3)中，训练的具体过程包括：

(3-1)随机地初始化权重矩阵；

(3-4)根据误差项更新每一个权重值；

(3-5)重复步骤(3-2)-(3-4)，直到满足迭代结束条件，训练完毕。

9.如权利要求8所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：所述步骤(3-5)中，迭代结束条件为达到设定的迭代次数。

10.如权利要求4所述的一种基于稀疏神经网络的图像检索文本方法，其特征是：所述步骤(4)中，求查询图像与所有待检所文本两两之间的距离，将所求距离进行排序，确定距离最小的为与查询图像最匹配的文本。