CN109189968B

CN109189968B - 一种跨模态检索方法及系统

Info

Publication number: CN109189968B
Application number: CN201811008853.4A
Authority: CN
Inventors: 曹文明; 林秋斌
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-07-03
Anticipated expiration: 2038-08-31
Also published as: WO2020042597A1; CN109189968A

Abstract

本发明适用于检索技术领域，提供了跨模态检索方法，包括采用堆叠式受限玻尔兹曼机和多模态深度置信网络提取图像和文本各自的模态友好型特征和模态相互型特征，模态友好型特征能够使所获得的特征之间的统计特性方面与输入的更相似，模态相互型特征能够得到在原始输入实例中丢失的相互信息，将两种特征进行融合得到混合特征，通过多个双模态自动编码获得最后的共享特征。本发明实施例利用堆叠式的受限玻尔兹曼机提取各个模态的内部特征，采用深度置信网络挖掘模态之间丢失的相互信息，将两种特征进行融合，构造出适合进行跨模态检索的混合特征，利用多层双模态的自动编码网络挖掘跨模态的复杂信息，有效提高了跨模态检索任务的准确性和检索的速度。

Description

一种跨模态检索方法及系统

技术领域

本发明属于检索技术领域，尤其涉及一种跨模态检索方法及系统。

背景技术

跨模态检索是一种新型的检索方法，其能够检索多模态数据。例如，输入图像，在文本数据库中检索对应的文本；给定文本，在图像数据库中找到相应的图像。

当前，基于深度神经网络的跨模态检索方法主要包含两个步骤：(1)提取各个模态的内部特征以及模态之间的特征；(2)在两个模态之间建立各自的共享特征。但是，在第一步骤中，往往丢失了模态之间的相互信息；在第二步骤中，目前的方法使用的都是比较浅层的网络，难以挖掘跨模态的复杂信息。

发明内容

本发明所要解决的技术问题在于提供一种跨模态检索方法及系统，旨在解决现有技术在进行跨模态检索时丢失模态之间的相互关系，难以挖掘跨模态的复杂信息的问题。

本发明是这样实现的，一种跨模态检索方法，包括：

分别对图像和文本进行预处理，得到图像特征和文本特征；

根据所述图像特征和所述文本特征，利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征，及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征；

利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合，得到所述图像的混合特征，及将所述文本的模态友好型特征和模态相互型特征结合，得到所述文本的混合特征；

采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系，得到所述图像和所述文本的共享特征；

根据所述共享特征进行跨模态检索。

进一步地，对图像进行预处理，得到图像特征的步骤包括：

采用VGGNet模型提取所述图像FC7层的卷积特征。

进一步地，对文本进行预处理，得到文本特征的步骤包括：

采用bag of words模型提取所述文本1000维的文本特征。

进一步地，所述堆叠式的受限玻尔兹曼机包括三层受限玻尔兹曼机，根据所述图像特征和所述文本特征，利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征包括：

利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取所述图像特征和所述文本特征；

利用简单的受限玻尔兹曼机移除所述图像特征和所述文本特征各自模态的特性，以获得高层次的语义特征；

完成堆叠式的受限玻尔兹曼机的训练，得到所述图像的模态友好型特征

和所述文本的模态友好型特征

进一步地，根据所述图像特征和所述文本特征，利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征包括：

分别采用所述图像和所述文本的深度置信网络提取各自模态的特征；

在顶层采用联合的受限玻尔兹曼机进行模态相互型特征的学习，得到所述图像的模态相互型特征

和所述文本的模态相互型特征

进一步地，所述利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合，得到所述图像的混合特征，及将所述文本的模态友好型特征和模态相互型特征结合，得到所述文本的混合特征包括：

利用联合的自动编码器将所述图像或所述文本各自的模态友好型特征和模态相互型特征结合，得到所述图像的混合特征和所述文本的混合特征；

利用带有softmax层的三层前向神经网络通过有监督学习，挖掘出所述图像和所述文本更有用的混合特征。

进一步地，所述采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系，得到所述图像和所述文本的共享特征包括：

采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系；

根据所述相互关系进行所述图像和所述文本的跨模态的共享特征的学习，得到所述图像和所述文本的共享特征。

进一步地，在提取共享特征时，双模态自动编码网络的输入维度和输出维度一致，共享特征层的维度是输入维度的一半，从共享特征层中，学习得到最后的跨模态的共享特征。

进一步地，将softmax层与最后的输出层连接，优化所述共享特征。

本发明实施例还提供了一种跨模态检索系统，包括：

预处理单元，用于分别对图像和文本进行预处理，得到图像特征和文本特征；

特征提取单元，用于根据所述图像特征和所述文本特征，利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征，及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征；

特征结合单元，用于利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合，得到所述图像的混合特征，及将所述文本的模态友好型特征和模态相互型特征结合，得到所述文本的混合特征；

特征挖掘单元，用于采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系，得到所述图像和所述文本的共享特征；

特征检索单元，用于根据所述共享特征进行跨模态检索。

本发明与现有技术相比，有益效果在于：本发明实施例采用堆叠式的受限玻尔兹曼机和多模态的深度置信网络提取图像和文本各自的模态友好型特征和模态相互型特征，其中模态友好型特征能够使所获得的特征之间的统计特性方面比输入实例之间的更相似，而模态相互型特征能够得到在原始输入实例中丢失的相互信息，将所得到的这两种特征进行融合，得到混合特征，进一步通过多个双模态自动编码获得最后的共享特征。本发明实施例利用堆叠式的受限玻尔兹曼机提取各个模态的内部特征，采用多模态的深度置信网络挖掘模态之间丢失的相互信息，将两种特征进行融合，并构造出适合进行跨模态检索的混合特征，利用多层双模态的自动编码网络挖掘跨模态之间的相互关系，从而获得适合跨模态检索的共享特征，有效提高了跨模态检索任务的准确性，提高了检索的速度。

附图说明

图1是本发明实施例提供的一种跨模态检索方法的流程图；

图2是本发明实施例提供的堆叠式的受限玻尔兹曼机的示意图；

图3是本发明实施例提供的多模态的深度置信网络的示意图；

图4是本发明实施例提供的双模态自动编码网络的示意图；

图5是本发明实施例提供的一种跨模态检索系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的一种跨模态检索方法，包括：

S101，分别对图像和文本进行预处理，得到图像特征和文本特征；

S102，根据所述图像特征和所述文本特征，利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征，及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征；

S103，利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合，得到所述图像的混合特征，及将所述文本的模态友好型特征和模态相互型特征结合，得到所述文本的混合特征；

S104，采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系，得到所述图像和所述文本的共享特征；

S105，根据所述共享特征进行跨模态检索。

下面结合图2到图4对本发明实施例进行进一步地阐述：

一、预处理阶段：

(1)对于图像，采用VGGNet模型对原始图像提取“fc7”层的卷积特征；

(2)对于文本，采用bag of words模型提取1000维的文本特征。

当输入的图片或者文本不同时，其大小、维度是不一致的，因此预处理阶段，对图像和文本进行预处理后分别得到的卷积特征和文本特征是为了获得统一大小的维度特征，如图像是4096，文本是1000。同时，预处理也能够获得图像和文本比较浅层次的特征。

二、模态友好型特征和模态相互型特征的学习：

(1)模态友好型特征学习：

如图2所示，利用堆叠式的受限玻尔兹曼机提取该卷积特征和文本特征的模态友好型特征，以通过堆叠式的受限玻尔兹曼机的提取操作，获得较高层次的特征。在前两层，堆叠式的受限玻尔兹曼机利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取该卷积特征和该文本特征。然后，在第三层，利用简单的受限玻尔兹曼机移除模态各自的特性，从而获得高层次的语义特征，该语义特征即为模态友好型特征，其相对于原始的图像和文本输入具有更好的统计特性。在这包括三层受限玻尔兹曼机进行模态友好型学习的过程中，每一个模态的堆叠式受限玻尔兹曼机的输出概率如下：

其中，v_i、v_t分别表示图像特征和文本特征的输入，

表示图像通道的第j层隐含层的输出特征，

表示文本通道的第j层隐含层的输出特征。

在训练完堆叠式受限玻尔兹曼机之后，能够得到图像的模态友好型特征

文本的模态友好型特征

其模态友好型特征的统计特性比输入的图像和文本的原始模态的统计特性更相似。具体地，图像和文本的模态友好型特征在统计特性方面这两者之间更相似，统计特性的相似性指的是两种模态之间的，并不是特指某一模态，如输入图像和图像的模态友好型特征之间的统计特性。

在本步骤中，第三层受限玻尔兹曼机的输入是第二层的输出，前两层的输入是预处理步骤中得到的卷积特征或者文本特征，经过本步骤的操作，可以认为第三层移除的是原始图像和原始文本的特性，使得最后的输出特征在统计特性方面的距离更近，更具有一般性。

(2)模态相互型特征学习：

如图3所示，利用多模态的深度置信网络提取该卷积特征和文本特征的模态相互型特征。该多模态的深度置信网络分别采用图像和文本利用自身的深度置信网络提取各自模态的特征，然后在顶层采用联合的受限玻尔兹曼机学习模态相互型特征。例如，在给定文本特征v_t的情况下，生成的图像，其条件概率分布如下：

其中，W表示权重，a表示偏置，σ(x)＝1/(1+e^-x)，将

作为图像的模态相互型特征

同理，可以得到文本的模态相互型特征

三、混合特征学习：

首先，利用联合的自动编码器将模态友好型特征和模态相互型特征结合起来，得到混合特征。例如，对于文本通道，其联合分布如下：

其中，v₁表示文本的模态友好型特征

v₂表示文本的模态相互型特征

图像通道同理可得其联合分布。

其次，利用一个带有softmax层的三层前向神经网络通过有监督学习，挖掘出更有用的混合特征。具体地，上述其他步骤所有的操作都没有用到标签信息，即都是无标签的学习，又叫无监督学习，而在本步骤中，第一次使用标签信息，也叫有监督学习，将两种特征进行融合的时候，可以得到比较初级的混合特征，其效果相对差一些，然后再通过前向神经网络的处理能够得到更高级、有用的混合特征，其效果有助于提升整个系统的检索结果。

四、跨模态的共享特征学习：

图4为单个双模态自动编码网络，通过采用多个双模态自动编码网络挖掘模态之间的相互关系，从而学习到跨模态的共享特征，其概率分布如下式所示：

其中，s表示共享特征，v_i表示图像的输入特征，v_t表示文本的输入特征。

接着重建图像、文本特征，获得共享特征层，最后生成各自模态的适合跨模态检索的共享特征。其中，在重建图像、文本特征时，双模态自动编码网络的输入维度和输出维度一致，共享特征层的维度是输入维度的一半，从共享特征层中，可以学习到各自模态的共享特征。另外，使用softmax层与最后的输出层连接，从而能够进一步优化学习到的共享特征。通过多个双模态自动编码网络的叠加，可以不断对学习到的共享特征进行降维，这样操作可以使得最终学习到的共享特征维度比较小，从而提高检索的速度。

在图2至图4中，图像通道和文本通道分别指的是预处理过程中得到的图像的卷积特征和文本的文本特征。

本发明实施例还提供了如图5所示的一种跨模态检索系统，包括：

预处理单元501，用于分别对图像和文本进行预处理，得到图像特征和文本特征；

特征提取单元502，用于根据所述图像特征和所述文本特征，利用堆叠式的受限玻尔兹曼机提取所述图像的模态友好型特征和所述文本的模态友好型特征，及利用多模态的深度置信网络提取所述图像的模态相互型特征和所述文本的模态相互型特征；

特征结合单元503，用于利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合，得到所述图像的混合特征，及将所述文本的模态友好型特征和模态相互型特征结合，得到所述文本的混合特征；

特征挖掘单元504，用于采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系，得到所述图像和所述文本的共享特征；

特征检索单元505，用于根据所述共享特征进行跨模态检索。

具体地，预处理单元501具体用于：

采用VGGNet模型提取所述图像FC7层的卷积特征；

采用bag of words模型提取所述文本1000维的文本特征。

进一步地，所述堆叠式的受限玻尔兹曼机包括三层受限玻尔兹曼机，特征提取单元502具体用于：

和所述文本的模态友好型特征

特征提取单元502还用于：

和所述文本的模态相互型特征

特征结合单元503具体用于：

特征挖掘单元504具体用于：

进一步地，特征挖掘单元504在提取共享特征时，双模态自动编码网络的输入维度和输出维度一致，共享特征层的维度是输入维度的一半，从共享特征层中，学习得到最后的跨模态的共享特征。

进一步地，特征挖掘单元504还用于将softmax层与最后的输出层连接，优化所述共享特征。

本发明提供的上述实施例可以应用在以图搜文、以文搜图、视频检索、图片标注的等领域，本发明实施例采用堆叠式受限玻尔兹曼机和多模态深度置信网络各自提取模态友好型和模态相互型特征，其中模态友好型特征能够使所获得的特征在统计特性方面比输入实例之间的更相似，而模态相互型特征能够得到在原始输入实例中丢失的相互信息。接着，将所得到的这两种特征进行融合，得到混合特征，进一步通过多个双模态自动编码获得最后的共享特征。本发明实施例能有效提高跨模态检索任务的准确性，如以图搜文、以文搜图等，以及提高检索的速度。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种跨模态检索方法及系统的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种跨模态检索方法，其特征在于，包括：

分别对图像和文本进行预处理，得到图像特征和文本特征；

根据所述图像特征和所述文本特征，利用高斯的受限玻尔兹曼机和重复的softmax的受限玻尔兹曼机分别提取所述图像特征和所述文本特征；利用受限玻尔兹曼机移除所述图像特征和所述文本特征各自模态的特性，以获得高层次的语义特征；完成堆叠式的受限玻尔兹曼机的训练，得到所述图像的模态友好型特征和所述文本的模态友好型特征；

根据所述图像特征和所述文本特征，分别采用所述图像和所述文本的深度置信网络提取各自模态的特征；在顶层采用联合的受限玻尔兹曼机进行模态相互型特征的学习，得到所述的图像的模态相互型特征和所述文本的模态相互型特征；

根据所述共享特征进行跨模态检索。

2.如权利要求1所述的跨模态检索方法，其特征在于，对图像进行预处理，得到图像特征的步骤包括：

采用VGGNet模型提取所述图像FC7层的卷积特征。

3.如权利要求1所述的跨模态检索方法，其特征在于，对文本进行预处理，得到文本特征的步骤包括：

采用bag of words模型提取所述文本1000维的文本特征。

4.如权利要求1所述的跨模态检索方法，其特征在于，所述利用联合的自动编码器将所述图像的模态友好型特征和模态相互型特征结合，得到所述图像的混合特征，及将所述文本的模态友好型特征和模态相互型特征结合，得到所述文本的混合特征包括：

5.如权利要求1所述的跨模态检索方法，其特征在于，所述采用多个双模态自动编码网络挖掘所述图像的混合特征与所述文本的混合特征中模态之间的相互关系，得到所述图像和所述文本的共享特征包括：

6.如权利要求5所述的跨模态检索方法，其特征在于，在提取共享特征时，双模态自动编码网络的输入维度和输出维度一致，共享特征层的维度是输入维度的一半，从共享特征层中，学习得到最后的跨模态的共享特征。

7.如权利要求6所述的跨模态检索方法，其特征在于，将softmax层与最后的输出层连接，优化所述共享特征。

8.一种跨模态检索系统，其特征在于，包括：

特征检索单元，用于根据所述共享特征进行跨模态检索。