CN110442741A

CN110442741A - 一种基于张量融合和重排序的跨模态图文互搜方法

Info

Publication number: CN110442741A
Application number: CN201910661723.9A
Authority: CN
Inventors: 杨阳; 汪政; 徐行; 王谭
Original assignee: Chengdu Macao Haichuan Technology Co Ltd
Current assignee: Chengdu Macao Haichuan Technology Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-11-12
Anticipated expiration: 2039-07-22
Also published as: CN110442741B

Abstract

本发明公开了一种基于张量融合和重排序的跨模态图文互搜方法，首先构建一个基于张量融合构建跨模态图文互搜模型，采用基于整体特征(global feature)的张量融合对特征向量以及特征向量分别进行融合。本发明不再依靠对图片文本的细微特征匹配来达到整体的配对，而是直接在图片和文本整体之间利用基于张量的特征融合来实现两个模态之间的鸿沟跨越。同时，在检索阶段，现有方法利用训练好的模型在数据库中直接进行跨模态的检索。但我在这种情况下很多信息没有得到充分利用，本发明在检索阶段提出了一个跨模态的重排序方法，将图片文本在模型训练阶段的信息充分利用起来，无需额外花费时间就可以实现效果的提升，兼顾准确性和匹配速度。

Description

一种基于张量融合和重排序的跨模态图文互搜方法

技术领域

本发明属于图文互搜技术领域，更为具体地讲，涉及一种基于张量融合和重排序的跨模态图文互搜方法。

背景技术

针对图片文本匹配以及跨模态的图文互搜，目前常用的有两类方法：一种是直接预测的方法，即把图片和文本两种特征经过线性融合成一个特征向量后直接判断一张图片和一个句子是否互相匹配，相当于把图文互搜问题转化为了一种二分类的问题；另一种是子空间嵌入方法，即构建一个独立于两个模态之外的共同子空间，将两种模态的信息各自投影到子空间中进而进行相互的相似度的度量。

直接预测的方法在早期使用很多，是一种非常直接的方法，但是由于图片和文本两种模态之间存在着非常巨大的语义鸿沟，这种方法很难适用于所有的图片文本对，效果比较差。

子空间嵌入法因为相比于直接预测的方法有更好的匹配效果而在近几年被广泛运用。但是为每个图片和文本建立一个共同的子空间明显太难了，即使建立了这样一个子空间，在这样一个高维空间里简单的使用距离度量，例如cosine距离或者马氏距离不一定能很好的反映每个点之间的相似程度。同时，正因为空间建立的复杂性，优化训练和迭代也显得更加困难，反映在其对于参数的设置非常敏感，训练费时费力。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于张量融合和重排序的跨模态图文互搜方法，以更加高效的方法来实现图文互搜，同时兼顾准确性和匹配速度。

为实现上述发明目的，本发明基于张量融合和重排序的跨模态图文互搜方法，其特征在于，包括以下步骤：

(1)、基于张量融合构建跨模态图文互搜模型

所述跨模态图文互搜模型包括：

一图片特征提取层，用于提取输入的图片的特征，形成图片特征向量v；

第一文本特征提取层，用于提取输入的文本的特征，形成文本特征向量t；

第二文本特征提取层，用于提取输入的文本的特征，形成文本特征向量t′；

三个特征映射层，分别将图片特征向量v、文本特征向量t、文本特征向量t′映射到一个新的共用的特征空间，得到特征向量以及

第一组R个张量融合模块，每个张量融合模块均对特征向量进行点乘操作，得到R个融合向量，然后用加法器将R个融合向量相加，得到图片-文本融合向量f；

第二组R个张量融合模块，每个张量融合模块均对特征向量进行点乘操作，得到R个融合向量，然后用加法器将R个融合向量相加，得到文本-文本融合向量f′；

第一相似度预测模块，针对图片-文本融合向量f进行直接预测，得到图片-文本相似度S_IT；

第二相似度预测模块，针对文本-文本融合向量f′进行直接预测，得到文本-文本相似度S_TT；

(2)、训练跨模态图文互搜模型

将数据库中的图片及对应的两个描述该图片的文本输入到构建的跨模态图文互搜模型中，其中，图片输入到图片特征提取层、两个描述图片的文本分别输入到两个文本特征提取层，以输出图片-文本相似度S_IT、文本-文本相似度S_TT均为1对构建的跨模态图文互搜模型进行训练，得到训练好的跨模态图文互搜模型；

(3)、跨模态重排序的图文互搜

3.1)、图片到文本检索

将需要检索的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的n个描述图片的文本作为检索到的文本，并按图片-文本相似度S_IT的大小进行检索优先级排序；

将每一检索到的文本与数据库中的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的图片，如果该图片为需要检索的图片，则保留该检索到的文本，否则，该检索到的文本从排序中取出；将所有被取出的检索到的文本按照图片-文本相似度S_IT的大小排序到保留的检索到的文本检索优先级排序之后，再选择排在前n₁个检索到的文本作为最终的文本检索结果；

3.2)、文本到图片检索

将需要检索的文本与数据库中的的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的m张图片作为检索到的图片，并按图片-文本相似度S_IT的大小进行检索优先级排序；

将每一检索到的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的描述图片的文本，如果该文本为需要检索的文本，则保留该检索到的图片，如果不是，则进一步将该文本与需要检索的文本送入训练好的跨模态图文互搜模型的第一文本特征提取层、第二文本特征提取层，经过训练好的跨模态图文互搜模型得到文本-文本相似度S_IT，如果文本-文本相似度S_TT大于设定的阈值，则保留该检索到的图片，否则，该检索到的图片从排序中取出；将所有被取出的检索到的图片按照图片-文本相似度S_IT的大小排序到保留的检索到的图片检索优先级排序之后，再选择排在前m₁个检索到的图片作为最终的图片检索结果。

本发明的目的是这样实现的。

本发明基于张量融合和重排序的跨模态图文互搜方法，首先构建一个基于张量融合构建跨模态图文互搜模型，采用基于整体特征(global feature)的张量融合对特征向量以及特征向量分别进行融合。现有方法因为采用过多的局部细节的特征匹配而造成了极大的时间浪费以及信息冗余，本发明不再依靠对图片文本的细微特征匹配来达到整体的配对，而是直接在图片和文本整体之间利用基于张量的特征融合来实现两个模态之间的鸿沟跨越。同时，在检索阶段，现有方法利用训练好的模型在数据库中直接进行跨模态的检索。但我在这种情况下很多信息没有得到充分利用，本发明在检索阶段提出了一个跨模态的重排序方法，将图片文本在模型训练阶段的信息充分利用起来，无需额外花费时间就可以实现效果的提升，兼顾准确性和匹配速度。

附图说明

图1是本发明基于张量融合和重排序的跨模态图文互搜方法一种具体实施方式流程图；

图2是本发明中所述跨模态图文互搜模型一种实施方式架构图；

图3是跨模态重排序的图文互搜一具体实例；

图4是本发明与现有方法训练时间对比曲线图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

图1是本发明基于张量融合和重排序的跨模态图文互搜方法一种具体实施方式流程图。

在本实施例中，如图1所示，本发明基于张量融合和重排序的跨模态图文互搜方法包括以下步骤：

步骤S1：基于张量融合构建跨模态图文互搜模型

在本实施例中，如图2所示，所述的跨模态图文互搜模型包括图片特征提取层C₁、第一文本特征提取层T₁、第二文本特征提取层T₂、三个特征映射层M₁、M₂、M₃、第一组R个张量融合模块TE₁、第二组R个张量融合模块TE₂，加法器A₁、A₂、第一相似度预测模块S₁、第二相似度预测模块S₂。

图片特征提取层C₁提取输入的图片的特征，形成图片特征向量v；第一文本特征提取层T₁，提取输入的文本的特征，形成文本特征向量t；第二文本特征提取层T₂提取输入的文本的特征，形成文本特征向量t′。在本实施例中，图片特征提取层C₁采用卷积神经网络(Convolutional Neural Networks，简称CNN)，而第一文本特征提取层T₁、第二文本特征提取层T₂均采用门控循环单元(Gated Recurrent Unit，简称GRU)。

三个特征映射层M₁、M₂、M₃分别将图片特征向量v、文本特征向量t、文本特征向量t′映射到一个新的共用的特征空间，得到特征向量以及

第一组R个张量融合模块TE₁，每个张量融合模块均对特征向量进行点乘操作，得到R个融合向量，然后用加法器A₁将R个融合向量相加，得到图片-文本融合向量f。

第二组R个张量融合模块TE₂，每个张量融合模块均对特征向量进行点乘操作，得到R个融合向量，然后用加法器A₂将R个融合向量相加，得到文本-文本融合向量f′。

第一相似度预测模块S₁针对图片-文本融合向量f进行直接预测，得到图片-文本相似度S_IT。

第二相似度预测模块S₂针对文本-文本融合向量f′进行直接预测，得到文本-文本相似度S_TT。

在本发明中，得到两种模态的融合向量即图片-文本融合向量f、文本-文本融合向量f′后，没有使用现在常用的距离度量的方式来衡量两种模态的相似程度，而是直接使用了相似度预测模块来直接预测相似数值，最终得到图片-文本相似度S_IT以及文本-文本相似度S_TT。

步骤S2：训练跨模态图文互搜模型

将数据库中的图片及对应的两个描述该图片的文本输入到构建的跨模态图文互搜模型中，其中，图片输入到图片特征提取层、两个描述图片的文本分别输入到两个文本特征提取层，以输出图片-文本相似度S_IT、文本-文本相似度S_TT均为1对构建的跨模态图文互搜模型进行训练，得到训练好的跨模态图文互搜模型。

步骤S3：跨模态重排序的图文互搜

在图文互搜索阶段，现有的方法都是直接对数据库检索进行一次性的评价，即按照模型训练的方法进行一次图片到文本以及文本到图片的检索。但这是不充分的，进行一次从图片检索到文本和从文本检索到图片，信息没有得到充分的利用。本发明在在图文互搜索阶段，提出了跨模态的重排序，来对结果进行提纯，且基本无需额外花费时间，具体流程如下：

步骤S3.1：图片到文本检索

将需要检索的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的n个描述图片的文本作为检索到的文本，并按图片-文本相似度S_IT的大小进行检索优先级排序。在本实施例中，n为10，即选择图片-文本相似度S_IT最大的10个描述图片的文本作为检索到的文本。

将每一检索到的文本与数据库中的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的图片，如果该图片为需要检索的图片，则保留该检索到的文本，否则，该检索到的文本从排序中取出；将所有被取出的检索到的文本按照图片-文本相似度S_IT的大小排序到保留的检索到的文本检索优先级排序之后，再选择排在前n₁个检索到的文本作为最终的文本检索结果。在本实施例中，n₁为3，即选择排在前3个检索到的文本作为最终的文本检索结果。

步骤S3.2：文本到图片检索

将需要检索的文本与数据库中的的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的m张图片作为检索到的图片，并按图片-文本相似度S_IT的大小进行检索优先级排序。在本实施例中，m为10，即选择图片-文本相似度S_IT最大的10张图片作为检索到的图片。

将每一检索到的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的描述图片的文本，如果该文本为需要检索的文本，则保留该检索到的图片，如果不是，则进一步将该文本与需要检索的文本送入训练好的跨模态图文互搜模型的第一文本特征提取层、第二文本特征提取层，经过训练好的跨模态图文互搜模型得到文本-文本相似度S_IT，如果文本-文本相似度S_TT大于设定的阈值，则保留该检索到的图片，否则，该检索到的图片从排序中取出；将所有被取出的检索到的图片按照图片-文本相似度S_IT的大小排序到保留的检索到的图片检索优先级排序之后，再选择排在前m₁个检索到的图片作为最终的图片检索结果。在本实施例中，m₁为4，即选择排在前4个检索到的图片作为最终的图片检索结果。

在本实施例中，如图3所示，采用现有的方法进行检索，得到的正确文本和图片分别在第三位和第四位。通过跨模态的重排序方式，就达到了对检索结果进行重新验证的目的，从图3可以看到，经过反向检索过程后，正确结果都变成了第一位。

实验比较

在本实施例中，把统计得到的结果同之前的国际最好方法进行对比，结果如下表1所示：

表1

表1中，Flickr30k dataset以及MSCOCO dataset为两个图片数据库，I2T表示从图片到文本检索，T2I表示从文本到图片检索，R@1表示正确图片或文本排在第一的准确率，R@5表示正确图片或文本排在前五的准确率，R@10表示正确图片或文本排在前十的准确率，mR为平均识别率。从表1可以看出，本发明在各个指标上都有一定的提高。

如图4所示，同时和目前最好的方法比，本发明同时大幅度降低了训练所需的时间，从将近50个小时缩短为了不到10个小时。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于张量融合和重排序的跨模态图文互搜方法，其特征在于，包括以下步骤：

(1)、基于张量融合构建跨模态图文互搜模型

所述跨模态图文互搜模型包括：

第二文本特征提取层，用于提取输入的文本的特征，形成文本特征向量t'；

三个特征映射层，分别将图片特征向量v、文本特征向量t、文本特征向量t'映射到一个新的共用的特征空间，得到特征向量以及

第一组R个张量模块，每个张量融合模块均对特征向量进行点乘操作，得到R个融合向量，然后用加法器将R个融合向量相加，得到图片-文本融合向量f；

第二组R个张量融合模块，每个张量融合模块均对特征向量进行点乘操作，得到R个融合向量，然后用加法将R个融合向量相加，得到文本-文本融合向量f'；

第二相似度预测模块，针对文本-文本融合向量f'进行直接预测，得到文本-文本相似度S_TT'；

(2)、训练跨模态图文互搜模型

将数据库中的图片及对应的两个描述该图片的文本输入到构建的跨模态图文互搜模型中，其中，图片输入到图片特征提取层、两个描述图片的文本分别输入到两个文本特征提取层，以输出图片-文本相似度S_IT、文本-文本相似度S_TT'均为1对构建的跨模态图文互搜模型进行训练，得到训练好的跨模态图文互搜模型；

(3)、跨模态重排序的图文互搜

3.1)、图片到文本检索

3.2)、文本到图片检索

将每一检索到的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层，经过训练好的跨模态图文互搜模型得到图片-文本相似度S_IT，选择图片-文本相似度S_IT最大的描述图片的文本，如果该文本为需要检索的文本，则保留该检索到的图片，如果不是，则进一步将该文本与需要检索的文本送入训练好的跨模态图文互搜模型的第一文本特征提取层、第二文本特征提取层，经过训练好的跨模态图文互搜模型得到文本-文本相似度S_TT'，如果文本-文本相似度S_TT'大于设定的阈值，则保留该检索到的图片，否则，该检索到的图片从排序中取出；将所有被取出的检索到的图片按照图片-文本相似度S_IT的大小排序到保留的检索到的图片检索优先级排序之后，再选择排在前m₁个检索到的图片作为最终的图片检索结果。