CN113779278A

CN113779278A - 一种基于统一双分支网络的细粒度跨媒体检索方法

Info

Publication number: CN113779278A
Application number: CN202111344346.XA
Authority: CN
Inventors: 沈复民; 姚亚洲; 孙泽人; 陈涛; 张传一
Original assignee: Nanjing Code Geek Technology Co ltd
Current assignee: Nanjing Code Geek Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2021-12-10

Abstract

本发明提出了一种基于统一双分支网络的细粒度跨媒体检索方法，采取统一的深度卷积神经网络结构提取初步公共特征，再通过计算量较低的媒体专属分支来修正公共特征所缺失的媒体独立特性。对于统一概率特征分支，不区分媒体类型统一使用交叉熵损失来学习概率特征。对于媒体特征分支，通过为每种媒体类型使用专属的模块来获取各种媒体类型的独立特征。然后，将概率特征和媒体特征相结合，得到最终的公共特征，并用于检索过程。该网络结构采用一个统一的卷积网络作为主干，计算成本相对较低，同时兼顾了每种媒体类型的独立特性，能够有效地提取各种媒体类型的特征。

Description

一种基于统一双分支网络的细粒度跨媒体检索方法

技术领域

本发明属于计算机深度神经网络学习技术领域，具体地说，涉及一种基于统一双分支网络的细粒度跨媒体检索方法。

背景技术

近些年来，基于深度神经网络的公共空间学习法是跨媒体检索领域最常采用的一类方法。将不同媒体类型的输入数据通过深度神经网络映射到共同特征空间中，并根据输入样本对应的公共特征与数据集中候选对象的相似性排序来生成检索结果。为了获得共同特征空间，该方法通常分为两类，基于媒体专用网络的方法和基于媒体统一网络的方法。媒体专用网络为每种媒体类型构建其专用网络，这些专用网络的网络结构和网络参数各不相同，需要分别训练。该方法依赖于复杂而耗时的网络结构，在训练过程中可能导致难以承担的计算开销和时间成本。而媒体统一网络，不区分输入样本的媒体类型，采用统一的网络结构同时学习各种媒体的公共表征。虽然与第一类方法相比，媒体统一网络方法可以大大减少计算量，但同时可能会损失一些媒体独特信息而对公共特征的准确性和查询结果产生不利影响。

为了同时学习多种媒体的统一表征，近年来研究者们提出了一系列统一的深度模型。其中 He 等人提出了一个统一深度模型 FGCN，该模型可以同时学习不同的媒体类型，而无需区别对待。它使用了三个约束项来进行公共特征学习：分类约束保证了细粒度子类别的区分特征的学习，中心约束保证了同一子类中特征的紧致性，排序约束保证了特征在不同子类别中的稀疏性。实验所展现的性能指标证明了该方法的有效性，但由于该方法在一定程度上忽略了媒体独特信息，检索性能仍有较大改进空间。

发明内容

本发明针对现有技术的上述缺陷和需求，提出了一种基于统一双分支网络的细粒度跨媒体检索方法，结合了媒体统一网络与媒体专用网络的优点，采取统一的深度卷积神经网络结构提取初步公共特征，再通过计算量较低的媒体专属分支来修正公共特征所缺失的媒体独立特性。使用一个统一的卷积神经网络作为前提提取卷积特征的主干网络，在得到卷积特征后分为统一概率特征分支和媒体独立特征分支。对于统一概率特征分支，不区分媒体类型统一使用交叉熵损失来学习概率特征。对于媒体特征分支，通过为每种媒体类型使用专属的模块来获取各种媒体类型的独立特征。然后，将概率特征和媒体特征相结合，得到最终的公共特征，并用于检索过程。该网络结构采用一个统一的卷积网络作为主干，计算成本相对较低，同时兼顾了每种媒体类型的独立特性，能够有效地提取各种媒体类型的特征。

本发明具体实现内容如下：

本发明提出了一种基于统一双分支网络的细粒度跨媒体检索方法，包括以下步骤：

步骤1：使用样本训练集训练统一双分支网络模型；所述统一双分支网络模型包括统一卷积神经网络特征提取模块、统一概率特征分支、媒体独立特征分支和跨媒体公共特征结合模块；所述统一卷积神经网络特征分别与统一概率特征分支、媒体独立特征分支连接，用于提取出统一的共同卷积特征

；所述统一概率特征分支和媒体独立特征分支的输出端分别与所述媒体独立特征分支连接；所述统一概率特征分支用于不区分媒体类型对输入的特征进行统一概率特征

的学习；所述媒体独立特征分支用于对输入的特征采用各自对应的媒体类型分别进行学习获得对应的媒体独立特征

；所述跨媒体公共特征结合模块用于将统一概率特征分支得到的统一概率特征

和媒体独立特征

进行融合得到跨媒体公共特征

；

步骤2：将步骤1采用样本训练集训练统一双分支网络模型时，将通过媒体独立特征分支对样本训练集处理得到的媒体独立特征

进行保存；

步骤3：使用训练好的统一双分支网络模型对实际的输入样本进行处理获得输入样本的跨媒体公共特征

。

为了更好地实现本发明，进一步地，所述步骤3的具体操作为：

步骤3.1：通过统一卷积神经网络特征提取模块提取输入样本的共同卷积特征

；

步骤3.2：将获得的共同卷积特征

分别输入到统一概率特征分支、媒体独立特征分支；

步骤3.3：通过统一概率特征分支对共同卷积特征

进行处理，得到输入样本的统一概率特征

；通过媒体独立特征分支对共同卷积特征

进行处理，得到输入样本的媒体独立特征

；

步骤3.4：设定概率修正特征

；所述概率修正特征

为与跨媒体的统一概率特征

格式相同的全0向量；

步骤3.5：基于同媒体类型的相似性度量的有效性，使用余弦距离计算输入样本的媒体独立特征

到步骤2中保存的样本训练集中的同媒体类型的媒体独立特征

的相似性；将计算得到的相似性按照相似性高低进行排序并选取前K个与输入样本最相近的训练样本，将对应的余弦距离记为

，训练样本对应的真实标签记为

；

步骤3.6：使用步骤3.5计算得到的余弦距离和真实标签对初始的概率修正特征

进行更新；

步骤3.7：采用跨媒体公共特征结合模块将输入样本的统一概率特征

和更新后的概率修正特征

进行融合得到输入样本的公共特征

。

为了更好地实现本发明，进一步地，所述步骤3.6的具体操作为：

步骤3.6.1：使用K个输入样本中的每一个样本来对概率修正特征

进行更新，具体更新操作为：通过同媒体相似性度量，获取数据库中与输入最相似的训练样本属于的类别标签，修正概率修正特征

的对应于某一个真实标签对于的类别的概率值，对于某一个真实标签对于的类别概率值

的具体更新公式如下：

；

步骤3.6.2：将更新后的修正概率修正特征

与统一概率特征

加权组合，得到最终的跨媒体公共特征

，具体加权组合公式如下：

；

式中，α为自定义的加权权重值。

为了更好地实现本发明，进一步地，所述α取值为0.1。

为了更好地实现本发明，进一步地，所述统一卷积神经网络特征提取模块采用ResNet-50网络、AlexNet网络或者VGGNet网络作为主干网络。

为了更好地实现本发明，进一步地，所述统一卷积神经网络特征提取模块采用ResNet-50网络作为主干网络，将ResNet-50网络的全局平均池化层的内核大小从s调整为2s；并将ResNet-50网络中最后的全连接层去除；对于输入统一卷积神经网络特征提取模块的不同媒体类型的样本图像，首先统一输入格式为2N×2N×3的数值矩阵，然后再输入到统一卷积神经网络特征提取模块。

为了更好地实现本发明，进一步地，在所述统一概率特征中采用一层全连接层，将统一卷积神经网络特征提取模块得到的共同卷积特征

的Y维特征向量映射为W维的概率特征；其中，Y为共同卷积特征

原本的维度；W为细粒度类别数，也是映射后的共同卷积特征

的向量维度；

采用softmax函数作为统一卷积神经网络特征提取模块的全连接层的映射函数。

为了更好地实现本发明，进一步地，在所述统一卷积神经网络特征提取模块进行映射处理时，采用交叉熵损失函数作为语义对齐的损失函数

。

为了更好地实现本发明，进一步地，在所述媒体独立特征分支中，设置四个独立的全连接层，分别对特定的不同的媒体类型的特征进行处理；所述媒体类型包括图片、文字、视频、音频；

通过四个独立的全连接层接收统一卷积神经网络特征提取模块发送来的的共同卷积特征

，分别对共同卷积特征

进行处理，得到Y维的图像独立特征

、音频独立特征

、文字独立特征

和视频独立特征

。

为了更好地实现本发明，进一步地，在媒体独立特征分支的四个独立的全连接层中对图像独立特征

、音频独立特征

、文字独立特征

和视频独立特征

进行提取时，采用中心损失函数

和三元组损失函数

作为损失函数。

为了更好地实现本发明，进一步地，在训练过程中，将每个媒体类型下的中心损失函数

的类别中心都随着训练过程迭代更新。

本发明与现有技术相比具有以下优点及有益效果：

（1）本发明使用一个统一的卷积神经网络作为前提提取卷积特征的主干网络，在得到卷积特征后分为统一概率特征分支和媒体独立特征分支。对于统一概率特征分支，不区分媒体类型统一使用交叉熵损失来学习概率特征。对于媒体特征分支，通过为每种媒体类型使用专属的模块来获取各种媒体类型的独立特征。然后，将概率特征和媒体特征相结合，得到最终的公共特征，并用于检索过程。该网络结构采用一个统一的卷积网络作为主干，计算成本相对较低，同时兼顾了每种媒体类型的独立特性，能够有效地提取各种媒体类型的特征。

（2）通过各种预处理方法统一输入格式，并使用统一深度网络同时处理多种媒体类型的数据，有效减少了媒体鸿沟导致的异质性差异。

（3）使用媒体独立特征分支考虑了输入数据的媒体独特信息，而 FGCN 对所有输入到网络的数据的处理过程是完全一致的。

（4）通过使用中心损失函数和三元组损失函数的约束媒体独立特征分支，使得各种媒体类型的细粒度的语义特征表示更为准确。

附图说明

图1为本发明采用的网络结构具体框架示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

本实施例提出了一种基于统一双分支网络的细粒度跨媒体检索方法，如图1所示，包括以下步骤：

和媒体独立特征

进行融合得到跨媒体公共特征

；

进行保存；

。

工作原理：利用统一的一组深度神经网络提取各种媒体类型的样本概率特征，以统一概率特征为主体。利用同媒体检索的准确性，获取媒体独立特征从而进一步修正统一概率特征。将统一概率特征和媒体独立特征相结合，得到最终的跨媒体公共特征，在此空间中，不同媒体类型的样本得以进行相似性度量。在常用的细粒度基准数据集和传统粗粒度数据集上的实验表明：本发明降低了跨媒体检测的计算成本，能够有效提高检索性能。

实施例2：

本实施例在上述实施例1的基础上，为了更好地实现本发明，进一步地，所述步骤3的具体操作为：

；

步骤3.2：将获得的共同卷积特征

分别输入到统一概率特征分支、媒体独立特征分支；

步骤3.3：通过统一概率特征分支对共同卷积特征

进行处理，得到输入样本的统一概率特征

；通过媒体独立特征分支对共同卷积特征

进行处理，得到输入样本的媒体独立特征

；

步骤3.4：设定概率修正特征

；所述概率修正特征

为与跨媒体的统一概率特征

格式相同的全0向量；

到步骤2中保存的样本训练集中的同媒体类型的媒体独立特征

，训练样本对应的真实标签记为

；

进行更新；

和更新后的概率修正特征

进行融合得到输入样本的公共特征

。

本实施例的其他部分与上述实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1-2任一项的基础上，为了更好地实现本发明，进一步地，所述步骤3.6的具体操作为：

的具体更新公式如下：

；

步骤3.6.2：将更新后的修正概率修正特征

与统一概率特征

加权组合，得到最终的跨媒体公共特征

，具体加权组合公式如下：

；

式中，α为自定义的加权权重值。

本实施例的其他部分与上述实施例1-2任一项相同，故不再赘述。

实施例4：

本实施例在上述实施例1-3任一项的基础上，为了更好地实现本发明，进一步地，在所述统一概率特征中采用一层全连接层，将统一卷积神经网络特征提取模块得到的共同卷积特征

原本的维度；W为细粒度类别数，也是映射后的共同卷积特征

的向量维度；

采用softmax函数作为统一卷积神经网络特征提取模块的全连接层的映射函数；

在所述统一卷积神经网络特征提取模块进行映射处理时，采用交叉熵损失函数作为语义对齐的损失函数

。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项的基础上，为了更好地实现本发明，进一步地，在所述媒体独立特征分支中，设置四个独立的全连接层，分别对特定的不同的媒体类型的特征进行处理；所述媒体类型包括图片、文字、视频、音频；

，分别对共同卷积特征

进行处理，得到Y维的图像独立特征

、音频独立特征

、文字独立特征

和视频独立特征

。

进一步地，在媒体独立特征分支的四个独立的全连接层中对图像独立特征

、音频独立特征

、文字独立特征

和视频独立特征

进行提取时，采用中心损失函数

和三元组损失函数

作为损失函数。

同时，在训练过程中，将每个媒体类型下的中心损失函数

的类别中心都随着训练过程迭代更新。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本实施例在上述实施例1-5任一项的基础上，给出一个实际实施举例：

本实施例提出的一种基于统一双分支网络的细粒度跨媒体检索方法，基于统一双分支深度神经网络 DBFC 以对不同媒体类型的数据进行公共特征提取。如图1所示，将各种媒体类型的输入格式统一为

的数值矩阵后，输入到主干网络 ResNet-50提取到卷积特征，主干网络也可以用 AlexNet或VGGNet等其他深度卷积网络代替。

本发明对 ResNet-50 网络做了以下修改：

（1）因为网络的输入格式原本是

（其中3为彩色图像的RGB三通道），而本发明的输入格式为

，所以将 ResNet50的全局平均池化层的内核大小从原本的s调整为 2s；

（2）使用本发明提出的分支结构代替原本的全连接层，图中

是 ResNet-50 全连接层之前大小为Y的一维卷积特征向量，图中上半个灰色部分是受交叉熵损失约束的统一概率特征（Probabilistic Feature）分支，图中下半个灰色部分是受中心损失和三元组损失约束的媒体独立特征（Media-Specific Feature）分支。通过合并两个分支的特征得到最终共同特征（Common Feature）。

统一双分支网络框架分为四个部分：作为提取共同的卷积特征的主干网络的ResNet50、统一概率特征分支、媒体独立特征分支、跨媒体共同特征；以下分别对统一概率特征分支、媒体独立特征分支、跨媒体共同特征依次说明。

统一概率特征分支：

为了解决媒体鸿沟，获取公共特征，本发明构造了统一概率特征分支。通过充分利用数据的语义类别信息构造跨媒体公共特征。具体地，使用一层全连接层将ResNet-50得到

维特征向量映射为W维的概率特征，其W是本发明的细粒度类别数。为了使构造的特征能够跨媒体地表达细粒度语义信息，本发明使用交叉熵损失函数约束统一概率特征，并采用softmax函数作为全连接层的映射函数，语义对齐的损失函数

如下：

；

其中

表示交叉熵损失函数，I、T、V、A分别表示图像、文本、音频和视频媒体类型。以图像类型输入为例，

表示第k个图像样本特征，

表示第k个图像样本的真实细粒度类别。B为从整个训练集中均匀随机抽取的一个批次大小，该批次中每个媒体类型的样本数为

的四分之一。

实验研究表明，不同媒体类型的相同细粒度类别的样本的卷积特征差别较大，经过同一个特定的全连接层被映射为概率特征后，不同媒体的独立信息会大幅损失。可能会导致检索结果不够理想。为此，本发明构建媒体独立特征分支以解决此问题。

媒体独立特征分支：

以往基于统一网络结构的方法，在提取概率特征的过程中往往会忽略媒体独特信息，造成媒体独立特征丢失，因此本发明通过构建媒体独立特征分支以解决媒体独特信息丢失问题，进一步提高检索性能。在这个分支中，使用四个独立的全连接层，每个全连接层专门负责一类特定的媒体类型。例如，一个图像样本在被 ResNet-50 模块处理之后得到Y 维

特征向量，输入到专用于图像媒体类型的全连接层

中提取图像独立特征

。

为了确保媒体独立特征分支可以精准提取每种媒体类型的独特信息，此处使用中心损失函数（Center Loss）来减小每种媒体内的同类数据之间的差距。中心损失函数通过设置中心点，优化各样本点到中心点的距离并迭代更新中心点位置，从而减少类内差异，实现类内紧凑。

中心R损失函数

如下：

以图像为例，

表示第k个图像样本特征，

表示

所属的真实类别所对应的中心点。每个媒体类型有W个类别中心点，4 种媒体类型共 4W 个中心点，表示该种媒体的该种细粒度类型的样本特征中心。类别中心

不是定值，会随着训练过程迭代更新。

的梯度计算公式如下：

中类别中心

的更新公式如下：

其中条件表达式

表示当输入样本的真实类别

等于类别中心

的类别

时，

的值为 1，否则为 0。具体地，类别中心的更新过程中，只有当输入类别是

时才会更新

，即每个类别的样本特征只更新它所属的类别中心。

中心损失专注于约束类内紧凑，减小类内距离，而不增加类间距离，但是这可能导致所有中心的过度集中。为了解决这个问题，采用三元组损失函数(Triplet Loss)在保证类内紧凑的同时尽量增加类间距离。

跨媒体公共特征:

将上述统一概率特征和媒体度量特征线性组合得到跨媒体公共特征，跨媒体公共特征是跨媒体相似性度量的基础，是实现跨媒体检索的必要途径。本发明的最终跨媒体关联损失函数

是由以上两个分支的三个损失函数线性加权得到，在基于语义类别信息的基础上，弥补了不同媒体类型的独立信息差异，跨媒体关联损失函数

公式如下：

通过最小化该目标函数，

可以提升统一概率特征的语义类别表达能力，构成跨媒体公共特征的主体。

将每个媒体类型的不同语义类别的数据约束在其语义中心，减少了同类样本之间的数据分布差距。

通过减小同类间的差距，增大不同类的差距，进一步实现类内紧凑类间远离。因此，本发明提出的网络体系结构可以有效地学习不同媒体类型的细粒度语义信息之间的关联，提高跨媒体检索的准确性。

输入样本通过统一概率特征分支得到概率特征

，以及通过媒体独立特征分支得到媒体独立特征

后，使用本发明提出的联合算法将

与

相结合，得到输入样本的最终的跨媒体公共特征

用于跨媒体相似性度量。

联合算法的核心思想基于跨媒体相似性度量的媒体鸿沟问题和同媒体相似性度量的有效性之间的互补。具体来说，由于媒体之间的特征分布和数据表示的巨大差异，将不同媒体类型的样本经过深度卷积网络得到的卷积特征，甚至所属于同一个语义类别都会有非常明显的差异。若不映射成概率特征，几乎无法做到有效的跨媒体相似性度量。然而，同媒体样本的卷积特征则没有这种问题，可以保证同语义类别的样本相互靠近，不同语义类别的样本相互远离，有着优良的相似性度量效果。

本实施例的其他部分与上述实施例1-5任一项相同，故不再赘述。

实施例7：

本实施例在上述实施例1-6任一项的基础上，基于以上思想，本发明提出了一种通过同媒体检索的有效性优化统一概率特征的联合算法 CMJA（Cross-Media Joint Algorithm）。其中同媒体检索的度量特征就是媒体独立特征分支得到的

。算法流程如下：

（1）将DBFC网络训练完成并收敛后，获取训练集所有样本的媒体独立特征

并保存；

（2）获取每个输入样本的统一概率特征

和媒体独立特征

；

（3）为每个输入样本初始化一个概率特征修正向量

，

是一个全0的W 维向量，其下标与概率特征

的下标一一对应，均表示W个细粒度类别的概率；

（4）基于同媒体相似性度量的有效性，使用余弦距离计算输入样本的

到同媒体其他所有训练样本的

的相似性。将相似性排序并取前K个与输入样本最相近的训练样本，将对应的余弦距离记为

，训练样本对应的真实标签记为

，余弦距离公式如下：

（5）使用每个

，更新

。核心思想是通过同媒体相似性度量，获取数据库中与输入最相似的训练样本属于的类别标签，修正

的对应于该类别标签的概率值，

更新公式如下：

（6）将更新后的概率特征修正向量

与统一概率特征

线性加权组合，得到最终的跨媒体公共特征

，公式如下：

此处的权重α是一个预定义超参数，经过实验测试分析，在α=1时，检索效果最好。

本实施例的其他部分与上述实施例1-6任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于统一双分支网络的细粒度跨媒体检索方法，其特征在于，包括以下步骤：

和媒体独立特征

进行融合得到跨媒体公共特征

；

进行保存；

。

2.如权利要求1所述的一种基于统一双分支网络的细粒度跨媒体检索方法，其特征在于，所述步骤3的具体操作为：

；

步骤3.2：将获得的共同卷积特征

分别输入到统一概率特征分支、媒体独立特征分支；

步骤3.3：通过统一概率特征分支对共同卷积特征

进行处理，得到输入样本的统一概率特征

；通过媒体独立特征分支对共同卷积特征

进行处理，得到输入样本的媒体独立特征

；

步骤3.4：设定概率修正特征

；所述概率修正特征

为与跨媒体的统一概率特征

格式相同的全0向量；

到步骤2中保存的样本训练集中的同媒体类型的媒体独立特征

，训练样本对应的真实标签记为

；

进行更新；

和更新后的概率修正特征

进行融合得到输入样本的公共特征

。

3.如权利要求2所述的一种基于统一双分支网络的细粒度跨媒体检索方法，其特征在于，所述步骤3.6的具体操作为：

的具体更新公式如下：

；

式中，max()函数为取最大值函数，取括号中值最大的一项的值；

步骤3.6.2：将更新后的修正概率修正特征

与统一概率特征

加权组合，得到最终的跨媒体公共特征

，具体加权组合公式如下：

；

式中，α为自定义的加权权重值。

4.如权利要求3所述的一种基于统一双分支网络的细粒度跨媒体检索方法，其特征在于，所述α取值为0.1。

5.如权利要求1所述的一种基于统一双分支网络的细粒度跨媒体检索方法，其特征在于，所述统一卷积神经网络特征提取模块采用ResNet-50网络、AlexNet网络或者VGGNet网络作为主干网络。

6.如权利要求5所述的一种基于统一双分支网络的细粒度跨媒体检索方法，其特征在于，所述统一卷积神经网络特征提取模块采用ResNet-50网络作为主干网络，将ResNet-50网络的全局平均池化层的内核大小从s调整为2s；并将ResNet-50网络中最后的全连接层去除；对于输入统一卷积神经网络特征提取模块的不同媒体类型的样本图像，首先统一输入格式为2N×2N×3的数值矩阵，然后再输入到统一卷积神经网络特征提取模块。

7.如权利要求1所述的一种基于统一双分支网络的细粒度跨媒体检索方法，其特征在于，在所述统一概率特征中采用一层全连接层，将统一卷积神经网络特征提取模块得到的共同卷积特征