CN107832351A

CN107832351A - 基于深度关联网络的跨模态检索方法

Info

Publication number: CN107832351A
Application number: CN201710989497.8A
Authority: CN
Inventors: 蔡国永; 冯耀功
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2017-10-21
Filing date: 2017-10-21
Publication date: 2018-03-23

Abstract

本发明提出了基于深度关联网络的跨模态检索方法，包括如下步骤：1）利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量；2）建立和训练深度关联网络模型，然后分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量；3）利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配，即进行欧式距离的计算；4）将欧氏距离的计算结果按从小到大的顺利排列，得到检索目标的跨模态检索的结果列表。本方法在不同模态的数据之间建立了多层次的对应关联关系，同时融合了多种神经网络，使得深度模型具有更好的表示效果，并且跨模态检索的精确度更高、稳定性更好。

Description

基于深度关联网络的跨模态检索方法

技术领域

本发明涉及多媒体数据检索的技术，特别是基于深度关联网络的跨模态检索方法。

背景技术

多媒体信息爆发式增长的时代，人们更倾向于多元化的检索结果，而不仅仅是单一模态的检索。例如，看到一张风景画，如果向检索系统提交这幅图片，检索系统不仅检索出类似的风景画，还能同时检索出与这幅图片有关的音频或文字等信息，这会使得检索效果会更有影响力。这种使用某一模态的数据检索其它模态数据的过程，称为跨模态的检索。

传统的跨模态检索，例如文本检索图像，往往依据的还是图像的文本标注信息与检索文本的匹配，因此其本质上还是一种单模态的检索。然而，信息的爆发式增长使得人工标注成本太高，同时图像本身含有的丰富信息也难以用有限的标签表示出来；此外，由于标注人员的认知差异往往又会导致标签质量参差不齐。所有这些方面都会在很大程度上影响到检索结果的精确性。深度学习在处理语音、文本以及图像方面的巨大成功，为人们从深度语义角度，探索新的无监督的跨模态检索带来了希望。

基于深度学习的算法可以分为两类：1)第一类方法将建模的过程分为两个阶段，第一个阶段分别将各自模态的数据进行抽象化的表示，第二个阶段将第一阶段抽象化的结果映射到一个共享的表示空间，以建立多模态数据之间的关联；但是此类方法割裂了表示学习和关联学习之间的联系，使得无法判断数据抽象到何种程度最适合跨模态的检索任务，并且其共享层既包含不同模态数据的共有信息，也包含单模态数据的特有信息，不利于跨模态检索的进行。2)第二类方法将关联学习融入到了表示学习的过程中，使其形成一个有机的整体。虽然第二类方法在实践过程中被证明更加适合跨模态检索的任务；但是现存的第二类算法仍存在检索效果不稳定，或是构成深度网络的组件种类过于单一导致检索精确度不高的问题。

发明内容

本发明针对跨模态的检索问题，提出了基于深度关联网络(Deep CorrelatedNetworks，DCN)的跨模态检索方法，在不同模态的数据之间建立了多层次的对应关联关系，同时融合了多种神经网络，使得深度模型具有更好的表示效果，并且跨模态检索的精确度更高、稳定性更好。

实现本发明目的的技术方案是：

基于深度关联网络的跨模态检索方法，包括如下步骤：

1)利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量；

2)建立和训练DCN模型，分别将检索目标和检索库成员通过DCN模型获得相对应的高级表示向量；

3)利用高级表示向量对检索目标和检索库中每一个检索成员进行相似度匹配，即进行欧式距离的计算；

4)将欧氏距离的计算结果按从小到大的顺利排列，从而得到检索目标的跨模态检索的结果列表。

步骤1)中所述的初级向量包括如下步骤：

(1)设置图像模态数据为第一模态数据时，文本模态数据就是第二模态数据，反之亦然；

(2)针对不同模态的原始数据采用不同的初始特征提取方法；图像模态的数据可以通过PHOW、Gist、MPEG-7等方法进行原始特征的提取，然后进行特征的拼接形成初级向量；文本模态的数据则可以通过词袋模型的方法进行原始特征的提取，形成初级向量。

步骤2)中所述的获得相对应的高级表示向量包括如下步骤：

(1)使用训练集数据对DCN模型进行训练，得到DCN模型的各项参数，具体步骤如下：

①训练DCN模型的第一部分，即对应受限玻尔兹曼机模型(Correspondencerestrict Boltzmann machine，Corr-RBM)，得到其参数集合，Corr-RBM目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离，具体表示为：min L＝L_D+αL_I+βL_T，

其中，

L_I＝-log p(v^I)，

L_T＝-log p(v^T)，

角标I表示第一模态，角标T表示第二模态，具体的，v^I表示第一模态的数据，v^T表示第二模态的数据，L_D表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离，f(·)为受限玻尔兹曼机(restrict Boltzmann machine,RBM)从显示层到隐层的映射函数，L_I和L_T分别表示第一模态数据的似然和第二模态数据的似然，p(·)表示RBM可见层与隐层神经单元的联合概率分布，α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数；

训练策略采用交替迭代的思想，首先使用对比散度(contrastive divergence,CD)算法更新L_I和L_T的参数，然后使用梯度下降算法更新L_D的参数，其具体步骤如下：

A.使用CD算法更新L_I和L_T的参数，其参数包括：第一模态的Corr-RBM可见层与隐层之间的连接权值参数W_I，第一模态的Corr-RBM显示层神经单元的偏置参数c_I，第一模态的Corr-RBM隐层神经单元的偏置参数b_I，第二模态的Corr-RBM可见层与隐层之间的连接权值参数W_T，第二模态的Corr-RBM显示层神经单元的偏置参数c_T，第二模态的Corr-RBM隐层神经单元的偏置参数b_T，其更新值不仅要乘以学习率，还要依据第一模态和第二模态分别乘以目标函数中的α和β；

B.根据L_D的公式使用梯度下降算法再次更新参数W_I,b_I,W_T,b_T,其更新公式如下：

其中，i和j分别表示显示层和隐藏层的第i和第j个神经元，表示第一模态的Corr-RBM可见层与隐层之间的连接权值参数，为第一模态的Corr-RBM隐层神经单元的偏置参数，为经过Corr-RBM处理的第一模态数据的中间表示，表示第二模态的Corr-RBM可见层与隐层之间的连接权值参数，为第二模态的Corr-RBM隐层神经单元的偏置参数，为经过Corr-RBM处理的第二模态数据的中间表示，σ′(·)表示Logistic函数的导函数，∈表示学习率；

C.重复A、B步骤直至收敛；

②训练DCN模型的第二部分，即对应自动编码器模型(Correspondenceautoencoder，Corr-AE)，得到其参数集合，Corr-AE目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度，具体表示为：

其中，

其中，角标I表示第一模态，角标T表示第二模态，具体的，和分别表示输入的第一模态数据和第二模态数据的向量，即经过Corr-RBM处理的第一模态数据和第二模态数据的中间表示向量，和分别表示重构之后的第一模态数据和第二模态数据的表示向量，和分别表示第一模态向量和第二模态向量的重构平方误差，表示第一模态数据和第二模态数据高级表示向量之间的欧式距离之和，其中，和分别表示第一模态自动编码器(autoencoder,AE)的表示层和第二模态AE的表示层，W_f和W_g分别表示第一模态的自动编码器权重参数和第二模态的自动编码器权重参数；θ为控制重构误差和关联误差在损失函数中所占比重的超参数；

训练策略为梯度下降的思想，其更新Corr-AE部分的具体步骤如下：

A.使用梯度计算更新参数W_f，其中，∈表示学习率：

B.使用梯度计算更新参数W_g，其中，∈表示学习率：

C.重复A、B步骤直至收敛；

(2)将训练集中的检索目标和检索库成员通过完成训练的DCN获得相对应的高级表示向量，具体步骤如下：

通过训练得到DCN模型的全部参数后，将测试集中的第一模态数据或者第二模态数据当作检索目标，将另外一种模态的数据当作检索库中的检索成员；然后将检索目标的初级向量与所述检索库中的每一个检索成员的初级向量，通过完成训练的DCN模型获得相对应的高级表示向量，经过处理所得到的高级表示向量被映射到了统一的表示空间，为跨模态的检索时的相似度计算奠定了基础。

步骤3)中所述的欧式距离的计算如下：

经过DCN模型处理得到的检索目标以及检索成员的高级表示向量均为相同的维度n，且被映射到了统一的表示空间，通过欧式距离来反映两个向量之间的相似程度；在n维空间中，欧式距离d的计算公式为：其中，t_i和y_i为两个n维向量；

将检索目标与检索库中每一个检索成员的欧氏距离计算结果，按照由小到大的顺序排列，得到检索目标的检索结果列表，越靠在前面的检索结果与检索目标的相似度越高。

本发明具有的有益的效果是：在构建了多层次的对应关联关系的同时，摆脱了完全基于RBM构建的模式，融合了多种神经网络，尤其是引入了表示效果优良的包含稠密层的自动编码器；与现有的基于深度网络的跨模态检索模型相比，更充分的挖掘出了多模态数据之间的关系，提高了跨模态检索精确度，且在不同的最终表示维度设定条件下，DCN模型的跨模态检索的效果稳定性更好。

附图说明

图1为本发明技术方案的流程图；

图2为本发明深度关联网络的结构图；

图3为受限玻尔兹曼机的结构图；

图4为受限玻尔兹曼机模型的结构图；

图5为包含稠密层的自动编码器的结构图；

图6为自编码器模型的结构图；

图7为本发明实施例的流程图；

图8为将最终表示维度设定为高维度时跨模态检索的结果对比图；

图9为将最终表示维度设定为16D、24D和32D时跨模态检索的结果对比图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

参照图1，基于深度关联网络的跨模态检索方法，包含以下步骤：

1)步骤101：利用初始特征提取方法分别获得第一模态数据的初级向量和第二模态数据的初级向量；

2)步骤102：建立和训练DCN模型，然后将检索目标的初级向量与检索库中的每一个检索成员的初级向量通过DCN模型处理，获得相对应的高级表示向量；

3)步骤103：利用检索目标和检索库中的每一个检索成员的高级表示向量，进行检索目标与检索库中每一个检索成员的相似度计算；

4)步骤104：根据检索目标与检索库中每一个检索成员的相似度计算结果得到检索结果列表。

步骤1)中所述的初级向量包括如下步骤：

(2)针对不同模态的原始数据采用不同的初始特征提取方法；例如图像模态的数据可以通过Dense-SIFT、Gist、MPEG-7等方法进行原始特征的提取，然后进行特征的拼接形成初级向量，例如文本模态的数据则可以通过词袋模型的方法进行原始特征的提取，从而形成初级向量。

步骤2)中所述的获得相对应的高级表示向量包括如下步骤：

(1)首先使用训练集数据对DCN模型进行训练，得到DCN模型的各项参数，具体训练步骤如下：

①首先训练DCN模型的第一部分，即对应Corr-RBM，得到其参数集合，Corr-RBM目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离，具体表示为：minL＝L_D+αL_I+βL_T，

其中，

L_I＝-log p(v^I)，

L_T＝-log p(v^T)，

角标I表示第一模态，角标T表示第二模态；v^I表示第一模态的数据，v^T表示第二模态的数据，L_D表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离，f(.)为RBM从显示层到隐层的映射函数，L_I和L_T分别表示第一模态数据的似然和第二模态数据的似然，p(.)表示RBM可见层与隐层神经单元的联合概率分布，α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占的比重的超参数；

训练策略采用交替迭代的思想，首先使用CD算法更新L_I和L_T的参数，然后使用梯度下降算法更新L_D的参数，其具体步骤如下：

A.使用CD算法更新L_I和L_T的参数，其参数包括：第一模态的Corr-RBM可见层与隐层之间的连接权值参数W_I，第一模态的Corr-RBM显示层神经单元的偏置参数c_I，第一模态的Corr-RBM隐层神经单元的偏置参数b_I，第二模态的Corr-RBM可见层与隐层之间的连接权值参数W_T，第二模态的Corr-RBM显示层神经单元的偏置参数c_T，第二模态的Corr-RBM隐层神经单元的偏置参数b_T，其更新值不仅要乘以学习率，还要依据第一模态和第二模态分别乘以目标函数中的α和β；训练RBM神经网络的CD算法为现有的成熟的算法；

其中，i和j分别表示显示层和隐藏层的第i和第j个神经元，表示第一模态的Corr-RBM可见层与隐层之间的连接权值参数，为第一模态的Corr-RBM隐层神经单元的偏置参数，为经过Corr-RBM处理的第一模态数据的中间表示，表示第二模态的Corr-RBM可见层与隐层之间的连接权值参数，为第二模态的Corr-RBM隐层神经单元的偏置参数，为经过Corr-RBM处理的第二模态数据的中间表示，σ′(.)表示Logistic函数的导函数，∈表示学习率；

C.重复A、B步骤直至收敛；

D.如图4所示，Corr-RBM包含三部分，分别是第一模态的RBM、第二模态的RBM和两个模态的RBM对应隐藏层之间的相似性的关联约束，其中，第一模态的RBM与第二模态的RBM具有相同数量的隐藏层神经单元个数m，他们的输入层神经单元数量分别是经过初始特征抽取方法抽取出的第一模态数据的初级向量维度和第二模态数据的初级向量维度；Corr-RBM是基于RBM构建的，如图3所示，RBM模型的可见层V包含n个神经元v₁～v_n，每个神经单元的v_i的偏置为c_i，可见层之间没有连接，隐层H包含m个神经单元h₁～h_m，每个神经单元的偏置为b_i，同样的，隐层神经单元之间也没有连接，可见层神经单元与隐层神经单元之间的连接权值为W_ij，每个神经单元的激活函数为Logistic激活函数：δ(x)＝1/(1+exp(-x))，则可见层V与隐层H神经单元的联合概率分布为：其中，Z为归一化常数，E(v,h)为能量函数，能量值随着v和h变化而变化，并在能量值最小化时，网络达到理想状态，而网络的训练目的就是最小化这个能量函数；

②训练DCN模型的第二部分，即Corr-AE，得到其参数集合，Corr-AE目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度，具体表示为：

其中，

其中，角标I表示第一模态，角标T表示第二模态，具体的，和分别表示输入的第一模态数据和第二模态数据的向量，即经过Corr-RBM处理的第一模态数据和第二模态数据的中间表示向量，和分别表示重构之后的第一模态数据和第二模态数据的表示向量，和分别表示第一模态向量和第二模态向量的重构平方误差，表示第一模态数据和第二模态数据高级表示向量之间的欧式距离之和，其中，和分别表示第一模态AE的表示层和第二模态AE的表示层，W_f和W_g分别表示第一模态的自动编码器权重参数和第二模态的自动编码器权重参数，θ为控制重构误差和关联误差在损失函数中所占比重的超参数；

A、使用梯度计算更新参数W_f，其中，∈表示学习率：

B、使用梯度计算更新参数W_g，其中，∈表示学习率：

C、重复A、B步骤直至收敛；

D、如图6所示，Corr-AE包含三部分，分别是第一模态的Corr-AE、第二模态的Corr-AE和两个模态的Corr-AE对应表示层之间的相似性的关联约束，其中，第一模态的Corr-AE与第二模态的Corr-AE具有相同的输入层、表示层和重构层的神经单元个数，他们的输入层神经单元数量是两种模态数据的初级向量经过Corr-RBM处理所获得的对应的中间表示向量的维度。Corr-AE是基于包含稠密层的自编码器构建的，如图5所示，AE模型可分为两个过程，编码过程和解码过程；编码过程中的输入层V包含m个神经单元v₁～v_m，可见层之间没有连接，表示层H包含u个神经单元h₁～h_u，表示层神经单元的偏置表示为a_h，同样的，隐藏层神经单元之间也没有连接，输入层神经单元与表示层神经单元之间的连接权值为W_f。解码过程中,其表示层和编码过程中的表示层为同一概念，重构层R包含m个神经单元r₁～r_m，每个神经单元的偏置表示为a_r，重构层之间也没有连接，重构层神经单元与表示层神经单元之间的连接权值为W_g，需要指出的是，包含稠密层的AE模型，其输入层神经单元个数与重构层神经单元个数相等，值均为m，表示层神经单元个数u小于m值，每个神经单元的激活函数也是logistic激活函数；

(2)将训练集中的检索目标和检索库成员通过完成训练的深度关联网络获得相对应的高级表示向量，具体步骤如下：

A.通过训练得到DCN模型的全部参数后，将测试集中的第一模态数据或者第二模态数据当作检索目标，将另外一种模态的数据当作检索库中的检索成员；然后将检索目标的初级向量与所述检索库中的每一个检索成员的初级向量，通过完成训练的DCN模型获得相对应的高级表示向量。这样，经过处理所得到的高级表示向量被映射到了统一的表示空间，为跨模态的检索时的相似度计算奠定了基础；

B.如图2所示，将Corr-RBM作为第一层，Corr-AE作为第二层，组成了DCN模型，第一层Corr-RBM的两个输入分别为第一模态原始数据经特征提取获得的第一模态的初级向量和第二模态原始数据经特征提取获得的第二模态的初级向量，在第一层和第二层之间，顶层Corr-AE的两个输入层的神经单元个数等于底层Corr-RBM中的两个隐层神经单元个数，顶层的Corr-AE中的第一模态的Corr-AE的表示层向量作为第一模态数据的高级表示向量，第二模态的Corr-AE的表示层向量作为第二模态数据的高级表示向量，总体来讲，DCN模型首先对第一模态和第二模态的初级向量使用Corr-RBM获得第一模态和第二模态的中间表示向量，然后DCN模型的顶层使用Corr-AE对中间表示向量进行进一步的处理，最终获得第一模态数据和第二模态数据的高级表示向量。

步骤3)中所述的欧式距离的计算如下：

假设由于经过DCN模型处理得到的检索目标和检索成员的高级表示向量均为相同的维度n，且被映射到了统一的表示空间，所以可以通过欧式距离来反映两个向量之间的相似程度，在n维空间中，欧式距离d的计算公式为：其中，t_i和y_i为两个n维向量；

将检索目标与检索库中每一个检索成员的欧氏距离计算结果，按照由小到大的顺序排列，从而得到检索目标的检索结果列表，越靠在前面的检索结果与检索目标的相似度越高。

实施例：

假设我们分别有o对已知对应关系的文本和图像数据，即训练集数据；未知对应关系的文本数据和图像数据各k个，即测试集数据；以图像检索文本为例进行说明，则检索目标为测试集中某个图像s，检索库包含测试集中的k个检索成员，检索成员均为文本模态的数据；如图7所示，包括以下三个步骤：

1)步骤701：使用初始特征方法提取训练集中o对已知对应关系的文本和图像数据的特征形成初级向量，提取测试集中k对未知对应关系的文本数据和图像数据的特征形成初级向量；

不同模态的原始数据均有其成熟的初始特征提取方法；检索目标为图像模态的数据，图像模态的数据可以通过Dense-SIFT、Gist、MPEG-7等方法进行原始特征的提取，然后进行特征的拼接形成初级向量，检索库中成员数据的模态为文本数据，而文本模态的数据可以通过词袋模型的方法进行原始特征的提取，形成初级向量。

2)步骤702：使用训练集中o对已知对应关系的文本和图像数据训练DCN模型，然后将测试集中图像s的初级向量和检索库中的k个检索成员的初级向量通过DCN模型处理，获得图像s的高级表示向量和检索库中每个检索成员的高级表示向量，再对图像s的高级表示向量与每一个检索库中检索成员高级表示向量进行相似度的匹配；

首先使用o对已知对应关系的图像和文本数据训练DCN模型，具体训练步骤为：

(1)训练DCN模型的第一部分，即Corr-RBM，得到其参数集合，Corr-RBM目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离，具体表示为：minL＝L_D+αL_I+βL_T，

其中，

L_I＝-log p(v^I)，

L_T＝-log p(v^T)，

角标I表示图像模态，角标T表示文本模态，具体的，v^I表示图像模态的数据，v^T表示文本模态的数据，L_D表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离，f(.)为RBM从显示层到隐层的映射函数，L_I和L_T分别表示图像模态数据的似然和文本模态数据的似然，p(.)表示RBM可见层与隐层神经单元的联合概率分布，α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数；

A.使用CD算法更新L_I和L_T的参数，其参数包括：图像模态的Corr-RBM可见层与隐层之间的连接权值参数W_I，图像模态的Corr-RBM显示层神经单元的偏置参数c_I，图像模态的Corr-RBM隐层神经单元的偏置参数b_I，文本模态的Corr-RBM可见层与隐层之间的连接权值参数W_T，文本模态的Corr-RBM显示层神经单元的偏置参数c_T，文本模态的Corr-RBM隐层神经单元的偏置参数b_T，其更新值不仅要乘以学习率，还要依据图像模态和文本模态分别乘以目标函数中的α和β；

B.根据L_D的公式使用梯度下降算法再次更新的参数W_I,b_I,W_T,b_T,其更新公式如下：

其中，i和j分别表示显示层和隐藏层的第i和第j个神经元，表示图像模态的Corr-RBM可见层与隐层之间的连接权值参数，为图像模态的Corr-RBM隐层神经单元的偏置参数，为经过Corr-RBM处理的图像模态数据的中间表示，表示文本模态的Corr-RBM可见层与隐层之间的连接权值参数，为文本模态的Corr-RBM隐层神经单元的偏置参数，为经过Corr-RBM处理的图像模态数据的中间表示，σ′(.)表示Logistic函数的导函数，∈表示学习率；

C.重复A、B步骤直至收敛；

(2)训练DCN模型的第二部分，即Corr-AE，得到其参数集合，Corr-AE目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度，具体表示为：

其中，

其中，角标I表示图像模态，角标T表示文本模态，具体的，和分别表示输入的图像模态数据和文本模态数据的向量，即经过Corr-RBM处理的第一模态数据和第二模态数据的中间表示向量，和分别表示重构之后的第一模态数据和第二模态数据的表示向量，和分别表示图像模态向量和文本模态向量的重构平方误差，表示图像模态数据与文本模态数据高级表示向量之间的欧式距离之和，其中，和分别表示图像模态AE的表示层和文本模态AE的表示层，W_f和W_g分别表示图像模态的编码器权重参数和文本模态的编码器权重参数，θ为控制重构误差和关联误差在损失函数中所占比重的超参数；

A.使用梯度计算更新参数W_f，其中，∈表示学习率：

B.使用梯度计算更新参数W_g，其中，∈表示学习率：

C.重复A、B步骤直至收敛；

在DCN模型训练完成后，然后将训练集中图像s的初级表示向量和检索库中k个检索成员的初级表示向量交给DCN模型处理得到高级表示向量，假设由于经过DCN模型处理得到的高级表示向量均为相同的维度n，且被映射到了统一的表示空间，所以可以通过欧式距离来反映不同模态数据的向量之间的相似程度，在n维空间中，欧式距离d的计算公式为：其中，t_i和y_i为两个不同模态数据的n维高级表示向量。

3)步骤703：根据欧氏距离计算结果对检索库中每个检索成员按照由小到大的顺序排列，从而得到文本s的检索结果列表；

利用图像s的高级表示向量与检索库中k个检索成员的高级表示向量之间进行欧式距离计算的结果按照由小到大的顺序排列，从而获得检索结果列表。

如图8所示，DCN模型进行跨模态检索的结果与另外几种现有的跨模态检索模型结果进行了对比，评价指标为mAP(mean Average Precise)；mAP是最常用的衡量信息检索结果优劣的标准；给定一个查询，返回前R个结果；其mAP的计算公式表示为：

其中，M表示某个图像s检索到的相关结果数量，p(r)是在位置r的准确率，rel(r)代表位置r的结果与某个图像s的相关性(相关为1，不相关为0)，评测标准是他们是否属于同一个语义类别；本发明专利中，返回检索结果数量定义为检索结果的前50个；

图8和图9中，lq表示图像查询，Tq表示文本查询，Ave表示以图检文和以文检图的平均mAP值；从图8中可以看出，在最终表示维度设定为高维度时(Wikipedia和Pascal数据集中的数据最终表示维度设定为256D，NUS-WIDE-10k数据集中的数据最终表示维度设定为128D)，DCN模型的mAP值相较于对比方法，在Wikipedia数据集中，与精确度最高的StackedCorr-RBMs相比，提升了11.6％的mAP值，在NUS-WIDE-10k数据集中，与精确度最高的Corr-AE相比，提升了26.5％的mAP值，在Pascal数据集中，与精确度最高的Corr-AE相比，提升了22.2％的mAP值；体现出DCN模型更充分的挖掘出了多模态数据之间的关系，跨模态检索精确度更高；从图9中可以看出，在Wikipedia，NUS-WIDE-10k和Pascal三个数据集中的不同最终表示维度设定条件下(三个数据集中的数据最终表示维度全部设定为16D、24D和32D三个不同的值)，DCN模型的mAP值也优于对比方法，在Wikipedia数据集中，与各个维度精确度最高的Stacked Corr-RBMs相比，三个不同维度下平均提升了7.2％的mAP值，在NUS-WIDE-10k数据集中，与各个维度精确度最高的Stacked Corr-RBMs相比，三个不同维度下平均提升了20.9％的mAP值，在Pascal数据集中，与各个维度精确度最高的Stacked Corr-RBMs或者Corr-AE相比，三个不同维度下平均提升了18.5％的mAP值；并且DCN模型的mAP值没有较大的波动，始终维持在较高的水平上，体现出了其检索效果更稳定。

Claims

1.基于深度关联网络的跨模态检索方法，其特征在于，包括如下步骤：

2)建立和训练深度关联网络模型，分别将检索目标和检索库成员通过深度关联网络模型获得相对应的高级表示向量；

4)将欧氏距离的计算结果按从小到大的顺利排列，得到检索目标的跨模态检索的结果列表。

2.根据权利要求1所述的基于深度关联网络的跨模态检索方法，其特征在于，步骤1)中所述的初级向量包括如下步骤：

(1)设置图像模态数据为第一模态数据时，文本模态数据为第二模态数据，反之亦然；

(2)不同模态的原始数据采用不同的初始特征提取方法；图像模态的数据可以通过PHOW、Gist、MPEG-7方法进行原始特征的提取，然后进行特征的拼接形成初级向量；文本模态的数据则可以通过词袋模型的方法进行原始特征的提取，形成初级向量。

3.根据权利要求1所述的基于深度关联网络的跨模态检索方法，其特征在于，步骤2)中所述的获得相对应的高级表示向量包括如下步骤：

(1)使用训练集数据对深度关联网络模型进行训练，得到深度关联网络模型的各项参数，具体步骤如下：

①训练深度关联网络模型的第一部分，即对应受限玻尔兹曼机模型，得到受限玻尔兹曼机模型参数集合，受限玻尔兹曼机模型目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的中间表示向量在统一的表示空间中的距离，具体表示为：minL＝L_D+αL_I+βL_T，

其中，

L_I＝-log p(v^I)，

L_T＝-log p(v^T)，

角标I表示第一模态，角标T表示第二模态，具体的，v^I表示第一模态的数据，v^T表示第二模态的数据，L_D表示第一模态数据和第二模态数据在统一的表示空间的欧氏距离，f(.)为受限玻尔兹曼机从显示层到隐层的映射函数，L_I和L_T分别表示第一模态数据的似然和第二模态数据的似然，p(.)表示受限玻尔兹曼机可见层与隐层神经单元的联合概率分布，α和β分别是控制第一模态数据和第二模态数据在整个目标函数中所占比重的超参数；

训练策略采用交替迭代的思想，首先使用对比散度算法更新L_I和L_T的参数，然后使用梯度下降算法更新L_D的参数，其具体步骤如下：

A.使用对比散度算法更新L_I和L_T的参数，其参数包括：第一模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数W_I，第一模态的受限玻尔兹曼机模型显示层神经单元的偏置参数c_I，第一模态的受限玻尔兹曼机模型隐层神经单元的偏置参数b_I，第二模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数W_T，第二模态的受限玻尔兹曼机模型显示层神经单元的偏置参数c_T，第二模态的受限玻尔兹曼机模型隐层神经单元的偏置参数b_T，其更新值不仅要乘以学习率，还要依据第一模态和第二模态分别乘以目标函数中的α和β；

<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>I</mi> </msubsup> <mo>&LeftArrow;</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>I</mi> </msubsup> <mo>-</mo> <mo>&Element;</mo> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mi>&sigma;</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msubsup> <mi>v</mi> <mi>i</mi> <mi>I</mi> </msubsup> <mo>,</mo> </mrow>

<mrow> <msubsup> <mi>b</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>&LeftArrow;</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>-</mo> <mo>&Element;</mo> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mi>&sigma;</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

<mrow> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>T</mi> </msubsup> <mo>&LeftArrow;</mo> <msubsup> <mi>W</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>T</mi> </msubsup> <mo>-</mo> <mo>&Element;</mo> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mi>&sigma;</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msubsup> <mi>v</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>,</mo> </mrow>

<mrow> <msubsup> <mi>b</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>&LeftArrow;</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>-</mo> <mo>&Element;</mo> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>I</mi> </msubsup> <mo>-</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mi>&sigma;</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>h</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，i和j分别表示显示层和隐藏层的第i和第j个神经元，表示第一模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数，为第一模态的受限玻尔兹曼机模型隐层神经单元的偏置参数，为经过受限玻尔兹曼机模型处理的第一模态数据的中间表示，表示第二模态的受限玻尔兹曼机模型可见层与隐层之间的连接权值参数，为第二模态的受限玻尔兹曼机模型隐层神经单元的偏置参数，为经过受限玻尔兹曼机模型处理的第二模态数据的中间表示，σ′(.)表示Logistic函数的导函数，∈表示学习率；

C.重复A、B步骤直至收敛；

②训练深度关联网络模型的第二部分，即对应自动编码器模型，得到自动编码器模型参数集合，自动编码器模型目标函数包含三个部分，即第一模态数据的中间表示向量与第一模态数据的初级向量之间的误差和第二模态数据的中间表示向量与第二模态数据的初级向量之间的误差以及第一模态数据和第二模态数据的高级表示向量在统一的表示空间中的相似程度，具体表示为：

其中，

其中，角标I表示第一模态，角标T表示第二模态，具体的，和分别表示输入的第一模态数据和第二模态数据的向量，即经过受限玻尔兹曼机模型处理的第一模态数据和第二模态数据的中间表示向量，和分别表示重构之后的第一模态数据和第二模态数据的表示向量，和分别表示第一模态向量和第二模态向量的重构平方误差，表示第一模态数据和第二模态数据高级表示向量之间的欧式距离之和，其中，和分别表示第一模态自动编码器的表示层和第二模态自动编码器的表示层，W_f和W_g分别表示第一模态的自动编码器权重参数和第二模态的自动编码器权重参数；θ为控制重构误差和关联误差在损失函数中所占比重的超参数；

训练策略为梯度下降的思想，其更新自动编码器模型具体步骤如下：

A.使用梯度计算更新W_f，其中，∈表示学习率：

<mrow> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>&LeftArrow;</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>-</mo> <mo>&Element;</mo> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mover> <mi>L</mi> <mo>~</mo> </mover> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>W</mi> <mi>f</mi> </msub> </mrow> </mfrac> <mo>,</mo> </mrow>

B.使用梯度计算更新W_g，其中，∈表示学习率：

<mrow> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>&LeftArrow;</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> <mo>-</mo> <mo>&Element;</mo> <mo>&CenterDot;</mo> <mfrac> <mrow> <mo>&part;</mo> <mover> <mi>L</mi> <mo>~</mo> </mover> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>W</mi> <mi>g</mi> </msub> </mrow> </mfrac> <mo>,</mo> </mrow>

C.重复A、B步骤直至收敛；

通过训练得到深度关联网络模型的全部参数后，将测试集中的第一模态数据或者第二模态数据当作检索目标，将另外一种模态数据当作检索库中的检索成员；然后将检索目标的初级向量与检索库中的每一个检索成员的初级向量，通过完成训练的深度关联网络模型获得相对应的高级表示向量。

4.根据权利要求1所述的基于深度关联网络的跨模态检索方法，其特征在于，步骤3)中所述的欧式距离的计算如下：

经过深度关联网络模型处理得到的检索目标以及检索成员的高级表示向量均为相同的维度n，且被映射到了统一的表示空间，通过欧式距离来反映两个向量之间的相似程度；在n维空间中，欧式距离d的计算公式为：其中，t_i和y_i为两个n维向量。