CN112035728A

CN112035728A - 一种跨模态检索方法、装置及可读存储介质

Info

Publication number: CN112035728A
Application number: CN202010848870.XA
Authority: CN
Inventors: 李阳阳; 张鹏; 黄森; 高阳阳; 金昊; 杨腾飞; 刘弋锋; 谢海永
Original assignee: Electronic Science Research Institute of CTEC
Current assignee: Electronic Science Research Institute of CTEC
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-04
Anticipated expiration: 2040-08-21
Also published as: CN112035728B

Abstract

本发明公开了一种跨模态检索方法、装置及可读存储介质，其中，方法包括，根据预处理之后的待检索模态数据通过预先构建的神经网络模型确定待检索模态数据的哈希码；根据所述待检索模态数据的哈希码与预设数据集中的哈希码进行对比，以确定与待检索模态数据对应的其他模态数据，本发明通过根据待检索模态数据的哈希码与预设数据集中的哈希码进行对比，由此确定与待检索模态数据对应的其他模态数据，由此实现了跨模态检索，本发明方法不仅能减少存储的消耗，而且能够有效提高检索的效率。

Description

一种跨模态检索方法、装置及可读存储介质

技术领域

本发明涉及数据检索技术领域，尤其涉及一种跨模态检索方法、装置及可读存储介质。

背景技术

近些年，随着移动设备、社交网络和自媒体平台的快速发展，文本、图像、视频和音频等多媒体数据呈现爆炸式增长。其中，YouTube每分钟有长达400小时的视频增量；Snapchat等图片分享网站每天有上十亿的图片上传；Facebook、Twitter等社交媒体网站上，用户每天都分享着海量文本、图片和视频等多媒体数据。不同类型的数据通常同时用于描述同一个物体或同一个事件，如网页通常由文字、图像或视频来共同表达同一个事件或主题。

面对如此巨大而相互关联的多媒体数据，用户迫切希望能够利用其中一种模态(如文本)同时检索到与之关联的其他模态结果(如图像、视频和音频等)，即实现跨模态智能检索。单模态检索方法仅能处理单个模态数据的检索，无法满足此种需要。多模态方法能够同时处理多种模态的媒体数据，但无法关联异构的多模态数据，不能实现跨不同模态数据之间的智能检索。

当前，检索软件可以做到使用图像进行检索，但是其本质上做的检索实际上都是基于内容的检索，不管是图像还是文本，只会在相同的模态中进行相似内容的检索。跨模态检索的优势在于可以直接比较文本和图像等不同模态的数据。

国内外针对跨模态检索的研究已经有很多，但是大部分研究停留在对图文两个模态进行检索，并没有对全部的模态进行研究，不能满足用户全部的检索需求。

发明内容

本发明实施例提供一种跨模态检索方法、装置及可读存储介质，用以跨模态检索，提高检索的效率。

第一方面，本发明实施例提供一种跨模态检索方法，包括如下步骤：

根据预处理之后的待检索模态数据通过预先构建的神经网络模型确定待检索模态数据的哈希码；

根据所述待检索模态数据的哈希码与预设数据集中的哈希码进行对比，以确定与待检索模态数据对应的其他模态数据。

可选的，预先构建神经网络模型，包括：

对已有训练数据集中的不同模态数据进行特征提取以获得特征向量；

基于所述特征向量通过全连接网络进行哈希转换，以获得二值哈希码；

通过所述二值哈希码对跨模态检索网络进行训练，以获得所述神经网络模型。

可选的，基于所述特征向量通过全连接网络进行哈希转换以获得二值哈希码之前，还包括：

基于对抗网络将每两个不同模态对应的所述特征向量进行语义关联。

可选的，对已有训练数据集中的不同模态数据进行特征提取以获得特征向量，包括：

将已有训练数据集中的图像数据剪裁至预设大小；

根据剪裁后的图像数据的三通道均值进行去均值；

通过剪裁后的图像特征提取网络对去均值之后的图像数据进行特征提取；

和/或；

对已有训练数据集中的文本数据中的无用信息进行过滤处理；

根据处理后的文本数据确定BOW向量；

通过文本特征提取网络基于所述BOW向量进行特征提取。

对已有训练数据集中的视频数据进行截帧；

将截帧获取的视频帧剪裁为设定大小；

随机对剪裁后的视频帧进行提取以获得视频图片；

通过剪裁后的视频特征提取网络根据所述视频图片进行特征提取；

和/或；

对已有训练数据集中的音频数据进行随机裁剪以获取剪裁音频；

对所述取剪裁音频进行特征转换以获得音频特征；

通过音频特征提取网络根据所述音频特征进行特征提取。

可选的，对待检索模态数据进行预处理，包括：

基于待检索模态数据的数据类型进行相应的预处理。

可选的，根据所述待检索模态数据的哈希码与预设数据集中的哈希码进行对比，以确定与待检索模态数据对应的其他模态数据，包括：

根据所述待检索模态数据的哈希码与预设数据集中的哈希码的相似度进行排序；

根据排序结果确定与待检索模态数据对应的其他模态数据。

可选的，存储所述待检索模态数据、哈希码以及其他模态数据。

第二方面，本发明实施例提供一种跨模态检索装置，包括：

特征提取及哈希转换模块，用于根据预处理之后的待检索模态数据通过预先构建的神经网络模型确定待检索模态数据的哈希码；

跨模态检索模块，用于根据所述待检索模态数据的哈希码与预设数据集中的哈希码进行对比，以确定与待检索模态数据对应的其他模态数据。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现前述的方法的步骤。

本发明实施例通过根据待检索模态数据的哈希码与预设数据集中的哈希码进行对比，由此确定与待检索模态数据对应的其他模态数据，由此实现了跨模态检索，本发明方法不仅能减少存储的消耗，而且能够有效提高检索的效率，取得了积极的技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明第一实施例流程图；

图2为本发明第一实施例特征提取总流程图；

图3为本发明第一实施例图像部分特征提取流程图；

图4为本发明第一实施例文本部分特征提取流程图；

图5为本发明第一实施例视频部分特征提取流程图；

图6为本发明第一实施例音频部分特征提取流程图；

图7为本发明第二实施例装置结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

本发明第一实施例提供一种跨模态检索方法如图1所示，包括以下具体步骤：

S1、根据预处理之后的待检索模态数据通过预先构建的神经网络模型确定待检索模态数据的哈希码；

S2、根据所述待检索模态数据的哈希码与预设数据集中的哈希码进行对比，以确定与待检索模态数据对应的其他模态数据。

本发明方法通过根据待检索模态数据的哈希码与预设数据集中的哈希码进行对比，由此确定与待检索模态数据对应的其他模态数据，由此实现了跨模态检索，本发明方法不仅能减少存储的消耗，而且能够有效提高检索的效率。

可选的，预先构建神经网络模型，包括：

S11、对已有训练数据集中的不同模态数据进行特征提取以获得特征向量；

S12、基于所述特征向量通过全连接网络进行哈希转换，以获得二值哈希码；

S13、通过所述二值哈希码对跨模态检索网络进行训练，以获得所述神经网络模型。

具体的说，在本实施例中，预先构建神经网络模型，包括：

首先将数据集中的数据通过预处理转换为数值向量，然后利用预设的特征提取方法，分别对不同模态数据进行特征提取，生成相同维度的特征向量。以此特征向量作为预定特征，送入后续网络进行处理。

然后将不同模态的预定特征送入全连接网络，进行哈希转换，生成同维度的二值哈希码；

最后将已有数据集中多模态数据对应的二值哈希码输入到所述的跨模态检索网络中进行训练，得到训练好的模型。

具体的说，对于提取到的模态的特征向量，在每两个模态间加入对抗网络以增强其语义关联性，例如本实施例中可以是GAN对抗网络，分为generator(生成)和discriminator(对抗)两部分网络，通过两个网络的对抗达到最好的生成效果，本实施例中通过使用discriminator网络，使得不同语言的特征向量分布相似，通过损失函数将分布差异很大的特征向量分布趋于一致。

将已有训练数据集中的图像数据剪裁至预设大小；

根据剪裁后的图像数据的三通道均值进行去均值；

和/或；

根据处理后的文本数据确定BOW向量；

通过文本特征提取网络基于所述BOW向量进行特征提取。

对已有训练数据集中的视频数据进行截帧；

将截帧获取的视频帧剪裁为设定大小；

随机对剪裁后的视频帧进行提取以获得视频图片；

和/或；

对所述取剪裁音频进行特征转换以获得音频特征；

通过音频特征提取网络根据所述音频特征进行特征提取。

具体的说，在本发明一种可选的实施例中，已有训练数据集中的不同模态数据进行特征提取，流程图如图2所示，对于已有训练数据集中的图像数据，特征提取包括如下步骤，如图3所示：

S102、将已有训练数据集中的图像数据剪裁至预设大小；

根据剪裁后的图像数据的三通道均值进行去均值；对于每张图像的大小不一，例如在一种可选的实施方案中对每张图像裁剪为224X224大小，并计算图像三通道的均值，对每张图像进行去均值操作。

S103、通过剪裁后的图像特征提取网络对去均值之后的图像数据进行特征提取；

对图像部分，首先对现有的图像特征提取网络进行剪裁以获得满足精度和速度需求的图像特征提取网络，本实施例中可以采用经过ImageNet预训练过的VGG网络进行特征提取，使用后续的全连接层，生成4096维的特征向量。

然后获取图像数据对应的二值哈希码，S104、将特征向量送入哈希转换网络，将高维的特征向量转换为低维的二值哈希码，提供快速检索功能。

对于已有训练数据集中的文本数据，特征提取包括如下步骤，如图4所示：

S202、对已有训练数据集中的文本数据中的无用信息进行过滤处理；根据处理后的文本数据确定词袋模型(BOW)向量；本步骤包含去除停顿词、BOW向量转换。具体的，针对文本数据，去除无用的停顿词如：啊，吧之类的词，并将相似语义的词语使用相同的表示。对处理后的词进行BOW向量的处理，生成BOW向量。

S203、通过文本特征提取网络基于所述BOW向量进行特征提取，在具体实施过程中，例如，由于CNN没有关于文本部分的预处理网络，本实施例中可以采用一下简单的CNN网络，并堆叠网络深度，充分利用每一次的特征。

然后获取文本数据对应的二值哈希码，S204、将特征向量送入哈希转换网络，将高维的特征向量转换为低维的二值哈希码，提供快速检索功能。

对于已有训练数据集中的视频数据，特征提取包括如下步骤，如图5所示：

S302、对已有训练数据集中的视频数据进行截帧；

将截帧获取的视频帧剪裁为设定大小；

随机对剪裁后的视频帧进行提取以获得视频图片；

具体的，在本发明的一种可选的实施方式中视频选用包含单语义的短视频。

首先对视频进行截帧，每秒4-5帧，然后对截取的帧裁剪为112X112大小，将每个视频截的帧进行随机抽取，抽取后的多种图片送入网络中进行特征提取。

S303、通过剪裁后的视频特征提取网络根据所述视频图片进行特征提取；

本实施例中，首先对现有的视频特征提取网络进行剪裁以获得满足精度和速度需求的视频特征提取网络，为了充分利用时间维度的信息，在实施过程中可以采用3D CNN网络进行特征提取保留其在时间维度上的信息，图像部分对全局特征和局部特征进行结合共同作为特征向量，生成质量更好的特征向量。

然后获取视频数据对应的二值哈希码，S304、将特征向量送入哈希转换网络，将高维的特征向量转换为低维的二值哈希码，提供快速检索功能。

对于已有训练数据集中的音频数据，特征提取包括如下步骤，如图6所示：

S402、对已有训练数据集中的音频数据进行随机裁剪以获取剪裁音频；对所述取剪裁音频进行特征转换以获得音频特征；具体的，本实施例中对音频随机裁剪一部分音频，对该部分进行梅尔频率倒谱系数(MFCC)特征的转换，生成二维的数值向量，作为神经网络的输入。

S403、通过音频特征提取网络根据所述音频特征进行特征提取。

本实施例中由于传入的特征是二维的形式，可以直接采用CNN网络对其进行特征提取。

然后获取音频数据对应的二值哈希码，S404、将特征向量送入哈希转换网络，将高维的特征向量转换为低维的二值哈希码，提供快速检索功能。

本实施例中对数据的特征向量进行哈希转换，转换成维度较低的哈希码，可以达到便于进行快速检索，占用较小的内存空间。

可选的，对待检索模态数据进行预处理，包括：

基于待检索模态数据的数据类型进行相应的预处理。

具体的说，在本发明另一种可选的实施方式中，对于待检索模态数据的数据类型，例如图片、文本、视频以及音频中的一种分别根据其数据类型进行预处理，例如图片剪裁，文本过滤，视频帧提取或者音频特征转换。

根据排序结果确定与待检索模态数据对应的其他模态数据。

具体的说，在本实施例中，可以通过Tensorflow加载训练好的神经网络模型；

对数据的特征向量进行哈希转变，并与数据集中的哈希值进行比对；

对比对结果进行排序，返回与输入语义相关的其他模态的数据给用户。

在具体实施过程中，可以根据相似度排序结果，选择相似度高的几个其他模态的数据反馈给用户。

具体的说，可以对检索过程中的中间数据进行保存，提高用户的检索效率，提高用户体验。

本发明采用深度学习的方式对多模态数据进行特征提取，并将特征进行哈希码转换,将高维特征映射到对应的二值哈希码上，这种方法不仅能减少存储的消耗，而且能够有效提高检索的效率；在进行检索时，使用对抗网络的方式对语义进行关联，通过设置对抗网络使得同语义下不同模态特征的分布趋于一致，映射到的哈希码也就有了相似的值，利用哈希码比对，可实现跨模态智能检索。

本发明检索方法，能够对同语义下不同模态数据进行检索，在MIR Flickr数据集上可达80％以上的精确度。相比于现有的方法，本发明在保证准确率的同时，满足了用户对跨模态检索的需求且具有更好的灵活性。

实施例二

本发明第二实施例提供一种跨模态检索装置，如图7所示，包括：

具体的说，在本实施例中，提出一种实现前述基于深度学习的跨模态智能检索方法的装置，包括：

如图7所示，跨模态检索装置分为六个模块：页面显示模块、用户管理模块、预处理模块、数据特征提取及哈希转换模块、跨模态检索模块、文件管理模块。

页面显示模块,用于显示相应的页面，分为登录主界面和检索主界面，为用户提供登录及检索结果显示的功能。

用户管理模块，用于用户信息管理，分为增加用户、查询用户信息、删除用户、个人信息修改，实现对用户进行管理的功能。

预处理模块，用于对不同类型的数据进行预处理，分为图像预处理、文本预处理、视频预处理、音频预处理，主要负责对模态数据进行预处理，将数据转化为数值向量。

数据特征提取及哈希转换模块，用于特征提取以及哈希转换，具体的根据预处理之后的待检索模态数据通过预先构建的神经网络模型确定待检索模态数据的哈希码,分为图像特征提取、文本特征提取、视频特征提取、音频特征提取和哈希转换，对数值向量进行特征提取，并将特征向量进行哈希转换。

跨模态检索模块，用于实现检索功能，具体的用于根据所述待检索模态数据的哈希码与预设数据集中的哈希码进行对比，分为相似性检索和评价指标计算，对哈希码进行比对，返回相似的数据。

文件管理模块，用于对文件进行管理，分为查询文件、删除文件和添加文件，用于对数据集进行扩充。

基于本实施例跨模态检索装置，用户进行检索交互的具体流程如下：

步骤S001：训练网络模型及权值加载。使用Tensorflow对训练好的模型和权值进行加载，导入相关数据。

步骤S002：输入检索的模态数据。用户在页面显示模块上传输入的模态数据，传入S001加载的训练模型中进行后续处理。

步骤S003：预处理。自动分析输入数据属于哪种模态，并使用相应的预处理方法将数据转换为预处理数值向量。

步骤S004：特征提取。将S003处理过的数值向量送入各自的特征提取网络，提取到统一维度的数据特征。

步骤S005：哈希码转换。将S004提取的特征送入几层全连接网络中进行哈希转换，生成维度较低的哈希码。

步骤S006：与预设数据集中数据的哈希码对比。将输入数据的哈希码，与数据集中生成的哈希码进行比对，并将结果返回给页面显示模块反馈给用户。

步骤S007：结果显示。将S006步骤计算的结果显示给用户。

本发明检索装置，能够对同语义下不同模态数据进行检索，在MIR Flickr数据集上可达80％以上的精确度。相比于现有的方法，在保证准确率的同时，满足了用户对跨模态检索的需求且具有更好的灵活性。

实施例三

本发明第三实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现前述的方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种跨模态检索方法，其特征在于，包括如下步骤：

2.如权利要求1所述的方法，其特征在于，预先构建神经网络模型，包括：

3.如权利要求2所述的方法，其特征在于，基于所述特征向量通过全连接网络进行哈希转换以获得二值哈希码之前，还包括：

4.如权利要求2或3所述的方法，其特征在于，对已有训练数据集中的不同模态数据进行特征提取以获得特征向量，包括：

将已有训练数据集中的图像数据剪裁至预设大小；

根据剪裁后的图像数据的三通道均值进行去均值；

和/或；

根据处理后的文本数据确定BOW向量；

通过文本特征提取网络基于所述BOW向量进行特征提取。

5.如权利要求2或3所述的方法，其特征在于，对已有训练数据集中的不同模态数据进行特征提取以获得特征向量，包括：

对已有训练数据集中的视频数据进行截帧；

将截帧获取的视频帧剪裁为设定大小；

随机对剪裁后的视频帧进行提取以获得视频图片；

和/或；

对所述取剪裁音频进行特征转换以获得音频特征；

通过音频特征提取网络根据所述音频特征进行特征提取。

6.如权利要求1所述的方法，其特征在于，对待检索模态数据进行预处理，包括：

基于待检索模态数据的数据类型进行相应的预处理。

7.如权利要求1所述的方法，其特征在于，根据所述待检索模态数据的哈希码与预设数据集中的哈希码进行对比，以确定与待检索模态数据对应的其他模态数据，包括：

根据排序结果确定与待检索模态数据对应的其他模态数据。

8.如权利要求1所述的方法，其特征在于，所述方法还包括，存储所述待检索模态数据、哈希码以及其他模态数据。

9.一种跨模态检索装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息传递的实现程序，所述程序被处理器执行时实现如权利要求1至8中任一项所述的方法的步骤。