CN110442741A - 一种基于张量融合和重排序的跨模态图文互搜方法 - Google Patents

一种基于张量融合和重排序的跨模态图文互搜方法 Download PDF

Info

Publication number
CN110442741A
CN110442741A CN201910661723.9A CN201910661723A CN110442741A CN 110442741 A CN110442741 A CN 110442741A CN 201910661723 A CN201910661723 A CN 201910661723A CN 110442741 A CN110442741 A CN 110442741A
Authority
CN
China
Prior art keywords
text
picture
cross
module state
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910661723.9A
Other languages
English (en)
Other versions
CN110442741B (zh
Inventor
杨阳
汪政
徐行
王谭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Macao Haichuan Technology Co Ltd
Original Assignee
Chengdu Macao Haichuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Macao Haichuan Technology Co Ltd filed Critical Chengdu Macao Haichuan Technology Co Ltd
Priority to CN201910661723.9A priority Critical patent/CN110442741B/zh
Publication of CN110442741A publication Critical patent/CN110442741A/zh
Application granted granted Critical
Publication of CN110442741B publication Critical patent/CN110442741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于张量融合和重排序的跨模态图文互搜方法,首先构建一个基于张量融合构建跨模态图文互搜模型,采用基于整体特征(global feature)的张量融合对特征向量以及特征向量分别进行融合。本发明不再依靠对图片文本的细微特征匹配来达到整体的配对,而是直接在图片和文本整体之间利用基于张量的特征融合来实现两个模态之间的鸿沟跨越。同时,在检索阶段,现有方法利用训练好的模型在数据库中直接进行跨模态的检索。但我在这种情况下很多信息没有得到充分利用,本发明在检索阶段提出了一个跨模态的重排序方法,将图片文本在模型训练阶段的信息充分利用起来,无需额外花费时间就可以实现效果的提升,兼顾准确性和匹配速度。

Description

一种基于张量融合和重排序的跨模态图文互搜方法
技术领域
本发明属于图文互搜技术领域,更为具体地讲,涉及一种基于张量融合和重排序的跨模态图文互搜方法。
背景技术
针对图片文本匹配以及跨模态的图文互搜,目前常用的有两类方法:一种是直接预测的方法,即把图片和文本两种特征经过线性融合成一个特征向量后直接判断一张图片和一个句子是否互相匹配,相当于把图文互搜问题转化为了一种二分类的问题;另一种是子空间嵌入方法,即构建一个独立于两个模态之外的共同子空间,将两种模态的信息各自投影到子空间中进而进行相互的相似度的度量。
直接预测的方法在早期使用很多,是一种非常直接的方法,但是由于图片和文本两种模态之间存在着非常巨大的语义鸿沟,这种方法很难适用于所有的图片文本对,效果比较差。
子空间嵌入法因为相比于直接预测的方法有更好的匹配效果而在近几年被广泛运用。但是为每个图片和文本建立一个共同的子空间明显太难了,即使建立了这样一个子空间,在这样一个高维空间里简单的使用距离度量,例如cosine距离或者马氏距离不一定能很好的反映每个点之间的相似程度。同时,正因为空间建立的复杂性,优化训练和迭代也显得更加困难,反映在其对于参数的设置非常敏感,训练费时费力。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于张量融合和重排序的跨模态图文互搜方法,以更加高效的方法来实现图文互搜,同时兼顾准确性和匹配速度。
为实现上述发明目的,本发明基于张量融合和重排序的跨模态图文互搜方法,其特征在于,包括以下步骤:
(1)、基于张量融合构建跨模态图文互搜模型
所述跨模态图文互搜模型包括:
一图片特征提取层,用于提取输入的图片的特征,形成图片特征向量v;
第一文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t;
第二文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t′;
三个特征映射层,分别将图片特征向量v、文本特征向量t、文本特征向量t′映射到一个新的共用的特征空间,得到特征向量 以及
第一组R个张量融合模块,每个张量融合模块均对特征向量 进行点乘操作,得到R个融合向量,然后用加法器将R个融合向量相加,得到图片-文本融合向量f;
第二组R个张量融合模块,每个张量融合模块均对特征向量 进行点乘操作,得到R个融合向量,然后用加法器将R个融合向量相加,得到文本-文本融合向量f′;
第一相似度预测模块,针对图片-文本融合向量f进行直接预测,得到图片-文本相似度SIT
第二相似度预测模块,针对文本-文本融合向量f′进行直接预测,得到文本-文本相似度STT
(2)、训练跨模态图文互搜模型
将数据库中的图片及对应的两个描述该图片的文本输入到构建的跨模态图文互搜模型中,其中,图片输入到图片特征提取层、两个描述图片的文本分别输入到两个文本特征提取层,以输出图片-文本相似度SIT、文本-文本相似度STT均为1对构建的跨模态图文互搜模型进行训练,得到训练好的跨模态图文互搜模型;
(3)、跨模态重排序的图文互搜
3.1)、图片到文本检索
将需要检索的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的n个描述图片的文本作为检索到的文本,并按图片-文本相似度SIT的大小进行检索优先级排序;
将每一检索到的文本与数据库中的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的图片,如果该图片为需要检索的图片,则保留该检索到的文本,否则,该检索到的文本从排序中取出;将所有被取出的检索到的文本按照图片-文本相似度SIT的大小排序到保留的检索到的文本检索优先级排序之后,再选择排在前n1个检索到的文本作为最终的文本检索结果;
3.2)、文本到图片检索
将需要检索的文本与数据库中的的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的m张图片作为检索到的图片,并按图片-文本相似度SIT的大小进行检索优先级排序;
将每一检索到的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的描述图片的文本,如果该文本为需要检索的文本,则保留该检索到的图片,如果不是,则进一步将该文本与需要检索的文本送入训练好的跨模态图文互搜模型的第一文本特征提取层、第二文本特征提取层,经过训练好的跨模态图文互搜模型得到文本-文本相似度SIT,如果文本-文本相似度STT大于设定的阈值,则保留该检索到的图片,否则,该检索到的图片从排序中取出;将所有被取出的检索到的图片按照图片-文本相似度SIT的大小排序到保留的检索到的图片检索优先级排序之后,再选择排在前m1个检索到的图片作为最终的图片检索结果。
本发明的目的是这样实现的。
本发明基于张量融合和重排序的跨模态图文互搜方法,首先构建一个基于张量融合构建跨模态图文互搜模型,采用基于整体特征(global feature)的张量融合对特征向量 以及特征向量 分别进行融合。现有方法因为采用过多的局部细节的特征匹配而造成了极大的时间浪费以及信息冗余,本发明不再依靠对图片文本的细微特征匹配来达到整体的配对,而是直接在图片和文本整体之间利用基于张量的特征融合来实现两个模态之间的鸿沟跨越。同时,在检索阶段,现有方法利用训练好的模型在数据库中直接进行跨模态的检索。但我在这种情况下很多信息没有得到充分利用,本发明在检索阶段提出了一个跨模态的重排序方法,将图片文本在模型训练阶段的信息充分利用起来,无需额外花费时间就可以实现效果的提升,兼顾准确性和匹配速度。
附图说明
图1是本发明基于张量融合和重排序的跨模态图文互搜方法一种具体实施方式流程图;
图2是本发明中所述跨模态图文互搜模型一种实施方式架构图;
图3是跨模态重排序的图文互搜一具体实例;
图4是本发明与现有方法训练时间对比曲线图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于张量融合和重排序的跨模态图文互搜方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明基于张量融合和重排序的跨模态图文互搜方法包括以下步骤:
步骤S1:基于张量融合构建跨模态图文互搜模型
在本实施例中,如图2所示,所述的跨模态图文互搜模型包括图片特征提取层C1、第一文本特征提取层T1、第二文本特征提取层T2、三个特征映射层M1、M2、M3、第一组R个张量融合模块TE1、第二组R个张量融合模块TE2,加法器A1、A2、第一相似度预测模块S1、第二相似度预测模块S2
图片特征提取层C1提取输入的图片的特征,形成图片特征向量v;第一文本特征提取层T1,提取输入的文本的特征,形成文本特征向量t;第二文本特征提取层T2提取输入的文本的特征,形成文本特征向量t′。在本实施例中,图片特征提取层C1采用卷积神经网络(Convolutional Neural Networks,简称CNN),而第一文本特征提取层T1、第二文本特征提取层T2均采用门控循环单元(Gated Recurrent Unit,简称GRU)。
三个特征映射层M1、M2、M3分别将图片特征向量v、文本特征向量t、文本特征向量t′映射到一个新的共用的特征空间,得到特征向量 以及
第一组R个张量融合模块TE1,每个张量融合模块均对特征向量 进行点乘操作,得到R个融合向量,然后用加法器A1将R个融合向量相加,得到图片-文本融合向量f。
第二组R个张量融合模块TE2,每个张量融合模块均对特征向量 进行点乘操作,得到R个融合向量,然后用加法器A2将R个融合向量相加,得到文本-文本融合向量f′。
第一相似度预测模块S1针对图片-文本融合向量f进行直接预测,得到图片-文本相似度SIT
第二相似度预测模块S2针对文本-文本融合向量f′进行直接预测,得到文本-文本相似度STT
在本发明中,得到两种模态的融合向量即图片-文本融合向量f、文本-文本融合向量f′后,没有使用现在常用的距离度量的方式来衡量两种模态的相似程度,而是直接使用了相似度预测模块来直接预测相似数值,最终得到图片-文本相似度SIT以及文本-文本相似度STT
步骤S2:训练跨模态图文互搜模型
将数据库中的图片及对应的两个描述该图片的文本输入到构建的跨模态图文互搜模型中,其中,图片输入到图片特征提取层、两个描述图片的文本分别输入到两个文本特征提取层,以输出图片-文本相似度SIT、文本-文本相似度STT均为1对构建的跨模态图文互搜模型进行训练,得到训练好的跨模态图文互搜模型。
步骤S3:跨模态重排序的图文互搜
在图文互搜索阶段,现有的方法都是直接对数据库检索进行一次性的评价,即按照模型训练的方法进行一次图片到文本以及文本到图片的检索。但这是不充分的,进行一次从图片检索到文本和从文本检索到图片,信息没有得到充分的利用。本发明在在图文互搜索阶段,提出了跨模态的重排序,来对结果进行提纯,且基本无需额外花费时间,具体流程如下:
步骤S3.1:图片到文本检索
将需要检索的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的n个描述图片的文本作为检索到的文本,并按图片-文本相似度SIT的大小进行检索优先级排序。在本实施例中,n为10,即选择图片-文本相似度SIT最大的10个描述图片的文本作为检索到的文本。
将每一检索到的文本与数据库中的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的图片,如果该图片为需要检索的图片,则保留该检索到的文本,否则,该检索到的文本从排序中取出;将所有被取出的检索到的文本按照图片-文本相似度SIT的大小排序到保留的检索到的文本检索优先级排序之后,再选择排在前n1个检索到的文本作为最终的文本检索结果。在本实施例中,n1为3,即选择排在前3个检索到的文本作为最终的文本检索结果。
步骤S3.2:文本到图片检索
将需要检索的文本与数据库中的的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的m张图片作为检索到的图片,并按图片-文本相似度SIT的大小进行检索优先级排序。在本实施例中,m为10,即选择图片-文本相似度SIT最大的10张图片作为检索到的图片。
将每一检索到的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的描述图片的文本,如果该文本为需要检索的文本,则保留该检索到的图片,如果不是,则进一步将该文本与需要检索的文本送入训练好的跨模态图文互搜模型的第一文本特征提取层、第二文本特征提取层,经过训练好的跨模态图文互搜模型得到文本-文本相似度SIT,如果文本-文本相似度STT大于设定的阈值,则保留该检索到的图片,否则,该检索到的图片从排序中取出;将所有被取出的检索到的图片按照图片-文本相似度SIT的大小排序到保留的检索到的图片检索优先级排序之后,再选择排在前m1个检索到的图片作为最终的图片检索结果。在本实施例中,m1为4,即选择排在前4个检索到的图片作为最终的图片检索结果。
在本实施例中,如图3所示,采用现有的方法进行检索,得到的正确文本和图片分别在第三位和第四位。通过跨模态的重排序方式,就达到了对检索结果进行重新验证的目的,从图3可以看到,经过反向检索过程后,正确结果都变成了第一位。
实验比较
在本实施例中,把统计得到的结果同之前的国际最好方法进行对比,结果如下表1所示:
表1
表1中,Flickr30k dataset以及MSCOCO dataset为两个图片数据库,I2T表示从图片到文本检索,T2I表示从文本到图片检索,R@1表示正确图片或文本排在第一的准确率,R@5表示正确图片或文本排在前五的准确率,R@10表示正确图片或文本排在前十的准确率,mR为平均识别率。从表1可以看出,本发明在各个指标上都有一定的提高。
如图4所示,同时和目前最好的方法比,本发明同时大幅度降低了训练所需的时间,从将近50个小时缩短为了不到10个小时。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于张量融合和重排序的跨模态图文互搜方法,其特征在于,包括以下步骤:
(1)、基于张量融合构建跨模态图文互搜模型
所述跨模态图文互搜模型包括:
一图片特征提取层,用于提取输入的图片的特征,形成图片特征向量v;
第一文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t;
第二文本特征提取层,用于提取输入的文本的特征,形成文本特征向量t';
三个特征映射层,分别将图片特征向量v、文本特征向量t、文本特征向量t'映射到一个新的共用的特征空间,得到特征向量以及
第一组R个张量模块,每个张量融合模块均对特征向量进行点乘操作,得到R个融合向量,然后用加法器将R个融合向量相加,得到图片-文本融合向量f;
第二组R个张量融合模块,每个张量融合模块均对特征向量进行点乘操作,得到R个融合向量,然后用加法将R个融合向量相加,得到文本-文本融合向量f';
第一相似度预测模块,针对图片-文本融合向量f进行直接预测,得到图片-文本相似度SIT
第二相似度预测模块,针对文本-文本融合向量f'进行直接预测,得到文本-文本相似度STT'
(2)、训练跨模态图文互搜模型
将数据库中的图片及对应的两个描述该图片的文本输入到构建的跨模态图文互搜模型中,其中,图片输入到图片特征提取层、两个描述图片的文本分别输入到两个文本特征提取层,以输出图片-文本相似度SIT、文本-文本相似度STT'均为1对构建的跨模态图文互搜模型进行训练,得到训练好的跨模态图文互搜模型;
(3)、跨模态重排序的图文互搜
3.1)、图片到文本检索
将需要检索的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的n个描述图片的文本作为检索到的文本,并按图片-文本相似度SIT的大小进行检索优先级排序;
将每一检索到的文本与数据库中的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的图片,如果该图片为需要检索的图片,则保留该检索到的文本,否则,该检索到的文本从排序中取出;将所有被取出的检索到的文本按照图片-文本相似度SIT的大小排序到保留的检索到的文本检索优先级排序之后,再选择排在前n1个检索到的文本作为最终的文本检索结果;
3.2)、文本到图片检索
将需要检索的文本与数据库中的的每一张图片分别输入到训练好的跨模态图文互搜模型的第一文本特征提取层、图片特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的m张图片作为检索到的图片,并按图片-文本相似度SIT的大小进行检索优先级排序;
将每一检索到的图片与数据库中的每一描述图片的文本分别输入到训练好的跨模态图文互搜模型的图片特征提取层、第一文本特征提取层,经过训练好的跨模态图文互搜模型得到图片-文本相似度SIT,选择图片-文本相似度SIT最大的描述图片的文本,如果该文本为需要检索的文本,则保留该检索到的图片,如果不是,则进一步将该文本与需要检索的文本送入训练好的跨模态图文互搜模型的第一文本特征提取层、第二文本特征提取层,经过训练好的跨模态图文互搜模型得到文本-文本相似度STT',如果文本-文本相似度STT'大于设定的阈值,则保留该检索到的图片,否则,该检索到的图片从排序中取出;将所有被取出的检索到的图片按照图片-文本相似度SIT的大小排序到保留的检索到的图片检索优先级排序之后,再选择排在前m1个检索到的图片作为最终的图片检索结果。
CN201910661723.9A 2019-07-22 2019-07-22 一种基于张量融合和重排序的跨模态图文互搜方法 Active CN110442741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910661723.9A CN110442741B (zh) 2019-07-22 2019-07-22 一种基于张量融合和重排序的跨模态图文互搜方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910661723.9A CN110442741B (zh) 2019-07-22 2019-07-22 一种基于张量融合和重排序的跨模态图文互搜方法

Publications (2)

Publication Number Publication Date
CN110442741A true CN110442741A (zh) 2019-11-12
CN110442741B CN110442741B (zh) 2022-10-18

Family

ID=68430851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910661723.9A Active CN110442741B (zh) 2019-07-22 2019-07-22 一种基于张量融合和重排序的跨模态图文互搜方法

Country Status (1)

Country Link
CN (1) CN110442741B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613451A (zh) * 2020-12-29 2021-04-06 民生科技有限责任公司 一种跨模态文本图片检索模型的建模方法
CN114969417A (zh) * 2020-09-23 2022-08-30 华为技术有限公司 图像重排序方法、相关设备及计算机可读存储介质
CN115270754A (zh) * 2022-09-19 2022-11-01 科大讯飞(苏州)科技有限公司 跨模态匹配方法及相关装置、电子设备、存储介质
CN117992805A (zh) * 2024-04-07 2024-05-07 武汉商学院 基于张量积图融合扩散的零样本跨模态检索方法、系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253491A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for enabling search and retrieval from image files based on recognized information
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20160210532A1 (en) * 2015-01-21 2016-07-21 Xerox Corporation Method and system to perform text-to-image queries with wildcards
US20170286860A1 (en) * 2016-03-29 2017-10-05 Microsoft Corporation Multiple-action computational model training and operation
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107885764A (zh) * 2017-09-21 2018-04-06 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法
US10062039B1 (en) * 2017-06-28 2018-08-28 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents
CN108694200A (zh) * 2017-04-10 2018-10-23 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
US20180349477A1 (en) * 2017-06-06 2018-12-06 Facebook, Inc. Tensor-Based Deep Relevance Model for Search on Online Social Networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253491A1 (en) * 2005-05-09 2006-11-09 Gokturk Salih B System and method for enabling search and retrieval from image files based on recognized information
US7814040B1 (en) * 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
US20160210532A1 (en) * 2015-01-21 2016-07-21 Xerox Corporation Method and system to perform text-to-image queries with wildcards
US20170286860A1 (en) * 2016-03-29 2017-10-05 Microsoft Corporation Multiple-action computational model training and operation
CN108694200A (zh) * 2017-04-10 2018-10-23 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
US20180349477A1 (en) * 2017-06-06 2018-12-06 Facebook, Inc. Tensor-Based Deep Relevance Model for Search on Online Social Networks
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
US10062039B1 (en) * 2017-06-28 2018-08-28 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using word embedding within text-based documents and multimodal documents
CN107885764A (zh) * 2017-09-21 2018-04-06 银江股份有限公司 基于多任务深度学习快速哈希车辆检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAN WANG等: "Matching Images and Text with Multi-modal Tensor Fusion and Re-ranking", 《ARXIV:1908.04011V1》 *
金汉均 等: "卷积神经网络在跨媒体检索中的应用研究", 《电子测量技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969417A (zh) * 2020-09-23 2022-08-30 华为技术有限公司 图像重排序方法、相关设备及计算机可读存储介质
CN112613451A (zh) * 2020-12-29 2021-04-06 民生科技有限责任公司 一种跨模态文本图片检索模型的建模方法
CN115270754A (zh) * 2022-09-19 2022-11-01 科大讯飞(苏州)科技有限公司 跨模态匹配方法及相关装置、电子设备、存储介质
CN117992805A (zh) * 2024-04-07 2024-05-07 武汉商学院 基于张量积图融合扩散的零样本跨模态检索方法、系统

Also Published As

Publication number Publication date
CN110442741B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN110442741A (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN113239181B (zh) 基于深度学习的科技文献引文推荐方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN103336795B (zh) 基于多特征的视频索引方法
CN105095204B (zh) 同义词的获取方法及装置
CN104537116B (zh) 一种基于标签的图书搜索方法
US20150074112A1 (en) Multimedia Question Answering System and Method
CN105917327A (zh) 用于将文本输入到电子设备中的系统和方法
CN111858888B (zh) 一种值机场景的多轮对话系统
CN105393263A (zh) 计算机-人交互式学习中的特征完成
CN103051969B (zh) 一种节目搜索方法及具有节目搜索功能的电视
CN104199965A (zh) 一种语义信息检索方法
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN108446316A (zh) 联想词的推荐方法、装置、电子设备及存储介质
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN108573020A (zh) 融合装配信息的三维装配模型检索方法
CN102314464B (zh) 歌词搜索方法及搜索引擎
WO2014201109A1 (en) Search term clustering
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
CN114840747A (zh) 一种基于对比学习的新闻推荐方法
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant