CN112488133B - 一种视频/图片-文本跨模态检索方法 - Google Patents

一种视频/图片-文本跨模态检索方法 Download PDF

Info

Publication number
CN112488133B
CN112488133B CN202011501900.6A CN202011501900A CN112488133B CN 112488133 B CN112488133 B CN 112488133B CN 202011501900 A CN202011501900 A CN 202011501900A CN 112488133 B CN112488133 B CN 112488133B
Authority
CN
China
Prior art keywords
text
picture
video
similarity
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011501900.6A
Other languages
English (en)
Other versions
CN112488133A (zh
Inventor
杨阳
位纪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Guangdong Electronic Information Engineering Research Institute of UESTC
Original Assignee
Guizhou University
Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University, Guangdong Electronic Information Engineering Research Institute of UESTC filed Critical Guizhou University
Priority to CN202011501900.6A priority Critical patent/CN112488133B/zh
Publication of CN112488133A publication Critical patent/CN112488133A/zh
Application granted granted Critical
Publication of CN112488133B publication Critical patent/CN112488133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频/图片‑文本跨模态检索方法,在损失函数设计的两个关键准则下(损失函数的值随着与正对相似度分数成反比,与负对相似度分数成正比;不同的相似度分数应有不同的惩罚强度)构建了一个新的指数损失函数,该指数损失函数能为不同的视频/图片、文本依据它们的相似度分配不同的权重值,从而加速深度度量学习模型收敛,并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数,提高跨模态检索精度,同时,极大减少了深度度量学习过程中的超参数,在保证精度和收敛速度的前提下,减少实验验证超参数的工作量。

Description

一种视频/图片-文本跨模态检索方法
技术领域
本发明属于视频/图片-文本跨模态检索技术领域,更为具体地讲,涉及一种视频/图片-文本跨模态检索方法。
背景技术
跨模态检索是指不同模态的数据相互检索的过程。当前主流的跨模态检索方法是学习一个公共的共享空间,将不同模态的特征映射到共享空间内以消除模态间的语义鸿沟,并计算不同模态特征之间的相似度分数。这通常是由度量学习驱动的,通过训练,将匹配对彼此拉近,将不匹配对相互分开,度量模型能够学习到高度鲁棒的多模态表征。
现有的视频/图片-文本跨模态检索方法可以分类两类:全局对齐和局部对齐。全局对齐方法将视频/图片特征、文本特征映射分别映射为一个全局向量,并在全局向量上计算视频/图片-文本之间的相似度分数;局部对齐方法是提取视频/图片的局部区域特征,并计算视频/图片的局部特征和文本的单词特征之间的相似度分数。
深度度量学习是跨模态检索的一个重要成分,通过深度度量学习可以获取视频/图片映射、文本映射的网络参数,将视频/图片特征、文本特征映射到共享空间。通常来说,深度度量学习方法都是通过设计一个基于成对或者三元组的代理来实现。在现有技术中,深度度量学习主要通过设计样本采样策略和样本加权策略来实现。这些方法大都具有多个超参数,难以在实际中进行应用。
尽管现有视频/图片-文本跨模态检索方法取得了极大的成就,但是深度度量学习模型采用的都是无权重的三元组损失。无权重的三元组损失平等对待所有的视频/图片-文本对,忽略了不同对之间的差别,导致深度度量学习模型收敛速度较慢且跨模态检索精度较低。
同时,现有视频/图片-文本跨模态检索方法中,跨模态的深度度量学习含有大量的超参数。而超参数的选取是非常困难的,需要大量的实验验证。
发明内容
本发明的目的在于克服现有技术的不足,提供一种视频/图片-文本跨模态检索方法,以提高深度度量学习模型的收敛速度,并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数,提高跨模态检索精度,同时,减少深度度量学习过程中的超参数,减少实验验证超参数的工作量。
为实现上述发明目的,本发明视频/图片-文本跨模态检索方法,其特征在于,包括以下步骤:
(1)、视频/图片特征、文本特征提取及映射
依次输入N个视频/图片-文本对,对视频/图片-文本对中视频/图片进行特征提取,得到视频/图片特征Fi V,然后经过视频/图片网络映射(编码),得到视频/图片编码dvi;对视频/图片-文本对中文本进行词转向量(Doc2Vec),得到文本特征Fi T,然后经过文本网络映射(编码),得到文本编码dti;其中,i=1,2,...,N,为视频/图片-文本对的序号;
(2)、计算正对相似度以及负对相似度
计算视频/图片编码dvi与文本编码dti相似度并作为正对相似度sii
计算视频/图片编码dvi与文本编码dtj,j≠i的相似度并作为负对相似度sij,选择负对相似度sij最大的作为最难负样本,记为
Figure BDA0002843722530000022
其中,
Figure BDA0002843722530000023
为最大的负对相似度sij对应的文本编码序号;
计算视频/图片编码dvi,i≠j与文本编码dtj的相似度并作为负对相似度sij,选择负对相似度sij最大的作为最难负样本,记为
Figure BDA0002843722530000024
其中,
Figure BDA0002843722530000025
为最大的负对相似度sij对应的视频/图片编码序号;
(3)、计算指数损失Lexp
Figure BDA0002843722530000021
其中,α,β,τ为超参数;
(4)、训练视频/图片网络、文本网络
不断输入N个视频/图片-文本对,按照步骤(1)~(3)计算出损失,依据计算出的损失,通过后向传播更新视频/图片网络、文本网络,直至收敛;
(5)、视频/图片文本跨模态检索
5.1)、构建视频/图片、文本检索库
使用训练好的视频/图片网络,对一定数量的视频/图片分别进行特征提取、映射,依据得到的视频/图片编码构建视频/图片检索库,同时,使用训练好的文本网络,对一定数量的文本进行词转向量、映射,得到的文本编码构建文本检索库;
5.2)、跨模态检索
对于一视频/图片,经过特征提取、映射后得到视频/图片编码,然后计算与文本检索库中文本编码之间的余弦距离,进而根据余弦距离的大小顺序,依次输出视频/图片-文本检索结果;
对于一个文本,词转向量、映射,得到的文本编码,然后计算与图片检索库中视频/图片编码之间的余弦距离,进而根据余弦距离的大小顺序,依次输出文本-视频/图片检索结果。
本发明的目的是这样实现的。
本发明视频/图片-文本跨模态检索方法,在损失函数设计的两个关键准则下(损失函数的值与正对相似度分数成反比,与负对相似度分数成正比;不同的相似度分数应有不同的惩罚强度)构建了一个新的指数损失函数,该指数损失函数能为不同的视频/图片、文本依据它们的相似度分配不同的权重值,从而加速深度度量学习模型收敛,并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数,提高跨模态检索精度,同时,极大减少了深度度量学习过程中的超参数,在保证精度和收敛速度的前提下,减少实验验证超参数的工作量。
附图说明
图1是本发明视频/图片-文本跨模态检索方法一种具体实施方式流程图;
图2是现有三元组损失与本发明中指数损失的原理示意图,其中,(a)是现有(经典)的三元组损失原理示意图,(b)是本发明中指数损失的原理示意图;
图3是指数损失与现有三元组损失在标准数据集上的收敛速度对比图,其中,(a)为MS-COCO数据集,(b)为TGIF数据集。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
度量学习的优化目标是极大化正负样本对之间相似度分数的鸿沟,通常是极大化正对之间的相似度分数,同时极小化负对之间的相似度分数。这可以通过减小一个预定义的损失函数来实现。因此,用于损失函数的一个基本准则就是,损失函数的值随着与正对相似度分数成反比,与负对相似度分数成正比。
最近的研究表明,不同的样本对在度量模型训练过程中所占的比重不同,因此,在计算损失的时候,不同的样本对应有不同的惩罚强度。而加权策略可以为不同的样本对分配不同的权重,是学习鲁棒特征的一个关键因子。
这样设计损失函数有两个关键准则:(1)损失函数的值随着与正对相似度分数成反比,与负对相似度分数成正比;(2)不同的相似度分数应有不同的惩罚强度。其数学表现形式如下:
Figure BDA0002843722530000041
其中,N为训练时批的大小,Sii和Sij,i≠j分别为正样本对和负样本对的相似度分数,Wp和Wn分别为相似度的权重系数,λ为常数,下表加号为取非零数,即是正数不变,是负数则取值为0。Wp和Wn的值随着相似度分数的变化。Wp随着正对相似度分数的增加而下降,Wn随着负对相似度的增加而增加。通常,模型对相似度较大的正对和相似度较小的负对拟合较好,这些样本在训练中应具有较小的比重。相反,度量模型对相似度较小的正对和相似度较大的负对拟合效果较差,这些样本在训练中应具有较大的比重。Wp和Wn可以定义为相似度分数的函数:
Figure BDA0002843722530000042
其中,Θp和Θn是超参数的集合。注意的是,Wp和Wn都是有符号的,对于常用的三元组损失来说,Wp=-1,Wn=1,Wp和Wn的函数形式是离散的,但它们都满足以下约束,即:
Figure BDA0002843722530000051
将以上两个约束带入L中,可以得到:
Figure BDA0002843722530000052
其中,F满足以下约束条件:
Figure BDA0002843722530000053
上述公式是一个通用的公式,它可以将已有的损失函数整合到一个统一的公式内,是损失函数通用权重框架。
在损失函数设计的两个关键准则下,本发明为视频/图片-文本跨模态检索方法设计了一个新的指数损失函数,在本实施例中,如图1所示,本发明视频/图片-文本跨模态检索方法具体为:
步骤S1:视频/图片特征、文本特征提取及映射
依次输入N个视频/图片-文本对,对视频/图片-文本对中视频/图片进行特征提取,得到视频/图片特征Fi V,然后经过视频/图片网络映射(编码),得到视频/图片编码dvi;对视频/图片-文本对中文本进行词转向量(Doc2Vec),得到文本特征Fi T,然后经过文本网络映射(编码),得到文本编码dti;其中,i=1,2,...,N,为视频/图片-文本对的序号。
步骤S2:计算正对相似度以及负对相似度
计算视频/图片编码dvi与文本编码dti相似度并作为正对相似度sii
难负样本是模型学习鲁棒和丰富表征的关键因素。因此,本发明在设计的指数损失函数中,采用难样本挖掘策略来选择mini-batch内的最难负样本进行训练。
计算视频/图片编码dvi与文本编码dtj,j≠i的相似度并作为负对相似度sij,选择负对相似度sij最大的作为最难负样本,记为
Figure BDA0002843722530000054
其中,
Figure BDA0002843722530000055
为最大的负对相似度sij对应的文本编码序号。
计算视频/图片编码dvi,i≠j与文本编码dtj的相似度并作为负对相似度sij,选择负对相似度sij最大的作为最难负样本,记为
Figure BDA0002843722530000061
其中,
Figure BDA0002843722530000062
为最大的负对相似度sij对应的视频/图片编码序号。
步骤S3:计算指数损失Lexp
理论上来说,广义度量框架中的F(·;Θ)可以是自相似度分数的函数,也可以是相对相似度的函数。在本发明中,为了减少超参数的数量,设计一个指数函数来将权重和自相似度分数关联起来。本发明设计的指数损失Lexp可以表示如下:
Figure BDA0002843722530000063
其中,α,β,τ为超参数。
公式(6)即本发明设计的指数损失函数包含两项:第一项表示视频/图片检索文本的损失,第二项表示文本检索视频/图片的损失。而标准的三元组损失通过相减操作Sij-Sii来使正负样本相互对抗。不同于三元组损失,本发明中的指数损失提供了一种新的正负样本对抗方式,即:
Figure BDA0002843722530000064
且Lexp∝Sij
图2是现有三元组损失与本发明中指数损失的原理图。
如图2(a)所示,经典的三元组损失通过将作为正样本的文本编码P和作为负样本的文本编码N1、N2推向两个同心圆的边界来优化度量学习模型,其中,作为正样本的文本编码P推向内圈同心圆的边界,作为负样本的文本编码N1、N2推向外圈同心圆的边界。如图2(b)所示,本发明中指数损失通过将作为正样本的文本编码P推向内圈同心圆的边界内,作为负样本的文本编码N1、N2推向外圈同心圆的边界外,这样通过极大化正样本对的相似度,同时极小化负样本的相似度来优化度量学习模型。相比经典的三元组损失,指数损失能极大化正负对之间的差距,加速深度度量学习模型收敛,并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数,提高跨模态检索精度。
步骤S4:训练视频/图片网络、文本网络
不断输入N个视频/图片-文本对,按照步骤(1)~(3)计算出损失,依据计算出的损失,通过后向传播更新视频/图片网络、文本网络,直至收敛;
步骤S5:视频/图片文本跨模态检索
步骤S5.1:构建视频/图片、文本检索库
使用训练好的视频/图片网络,对一定数量的视频/图片分别进行特征提取、映射,依据得到的视频/图片编码构建视频/图片检索库,同时,使用训练好的文本网络,对一定数量的文本进行词转向量、映射,得到的文本编码构建文本检索库。
步骤S5.2:跨模态检索
对于一视频/图片,经过特征提取、映射后得到视频/图片编码,然后计算与文本检索库中文本编码之间的余弦距离,进而根据余弦距离的大小顺序,依次输出视频/图片-文本检索结果。
对于一个文本,词转向量、映射,得到的文本编码,然后计算与视频/图片检索库中视频/图片编码之间的余弦距离,进而根据余弦距离的大小顺序,依次输出文本-视频/图片检索结果。
对比
为了公平比较,对于所有的方法,我们保持网络结构不变,仅将原先采用的三元组损失替换为本发明的指数损失。此外,采用与原方法相同的实验设定,具体包括,相同的batchsize,相同的优化器,相同的学习率等。我们采用Recall@k(k=1,5,10)来评价模型的性能,Recall@k是跨模态检索领域最常用的评价指标,它表示在返回的前k个结果中有正确标签的查询样例所占的比例。我们分别在图片-文本检索任务和视频-文本检索任务上验证指数损失的优越性。对于图片-文本检索任务,我们在两个数据集上验证模型,Flickr30K和MS-COCO。这两个数据集是当前使用最频繁的数据集。将指数损失应用于当前性能最好的GSMN模型上来验证其优越性。在两个数据集上的实验结果分别如表1和表2所示。
Figure BDA0002843722530000071
Figure BDA0002843722530000081
表1
Figure BDA0002843722530000082
表2
表1是Flickr30K数据集上的实验结果,表2是在MS-COCO数据集上的实验结果。
从表1、2的实验结果可以看出,本发明中设计的指数损失能显著提高GSMN的检索性能。在Flickr30K数据集上,对于图片检索文本任务,GSMN能将Recall@1提高1.8。在大规模检索数据集MS-COCO上,对于文本检索图片任务,GSMN能个Recall@1提高1.0。
为进一步验证指数损失的泛化性能,我们将其应用到三个视频文本匹配方法上,CE,MMT和HGR。为保证公平,我们依然采用与方法相同的网络结构,并使用相同的实验设定。对于CE模型,我们在大规模视频-文本匹配数据集MSR-VTT上进行训练。对于MMT,我们在视频动作-文本检索数据集上进行训练,以验证模型的泛化性能。对于HGR我们在具有GIF格式视频的TGIF数据集上进行训练。实验结果分别总结在表3、4、5中。
Figure BDA0002843722530000091
表3
Figure BDA0002843722530000092
表4
Figure BDA0002843722530000093
Figure BDA0002843722530000101
表5
表3是本发明在ActivityNet-Captions数据集上的实验结果,表4是本发明在MSR-VTT数据集上的实验结果,表5本发明在TGIF数据集上的实验结果。从表3、4、5的实验结果可以看出,经过将三元组损失替换为本发明提出的指数损失,多个模型能获得一致的性能提升。
此外,为了验证本发明的收敛性能,我们画出其在验证集上的性能上升曲线。曲线呈现在图3中,从图3中可以看出,本发明提出的指数损失比三元组损失收敛更快且最终的效果更好。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种视频/图片-文本跨模态检索方法,其特征在于,包括以下步骤:
(1)、视频/图片特征、文本特征提取及映射
依次输入N个视频/图片-文本对,对视频/图片-文本对中视频/图片进行特征提取,得到视频/图片特征Fi V,然后经过视频/图片网络映射,得到视频/图片编码dvi;对视频/图片-文本对中文本进行词转向量,得到文本特征Fi T,然后经过文本网络映射,得到文本编码dti;其中,i=1,2,...,N,为视频/图片-文本对的序号;
(2)、计算正对相似度以及负对相似度
计算视频/图片编码dvi与文本编码dti相似度并作为正对相似度sii
计算视频/图片编码dvi与文本编码dtj,j≠i的相似度并作为负对相似度sij,选择负对相似度sij最大的作为最难负样本,记为
Figure FDA0003586359220000011
其中,
Figure FDA0003586359220000012
为最大的负对相似度sij对应的文本编码序号;
计算视频/图片编码dvi,i≠j与文本编码dtj的相似度并作为负对相似度sij,选择负对相似度sij最大的作为最难负样本,记为
Figure FDA0003586359220000013
其中,
Figure FDA0003586359220000014
为最大的负对相似度sij对应的视频/图片编码序号;
(3)、计算指数损失Lexp
Figure FDA0003586359220000015
其中,α,β,τ为超参数;
(4)、训练视频/图片网络、文本网络
不断输入N个视频/图片-文本对,按照步骤(1)~(3)计算出损失,依据计算出的损失,通过后向传播更新视频/图片网络、文本网络,直至收敛;
(5)、视频/图片文本跨模态检索
5.1)、构建视频/图片、文本检索库
使用训练好的视频/图片网络,对一定数量的视频/图片分别进行特征提取、映射,依据得到的视频/图片编码构建视频/图片检索库,同时,使用训练好的文本网络,对一定数量的文本进行词转向量、映射,得到的文本编码构建文本检索库;
5.2)、跨模态检索
对于一视频/图片,经过特征提取、映射后得到视频/图片编码,然后计算与文本检索库中文本编码之间的余弦距离,进而根据余弦距离的大小顺序,依次输出视频/图片-文本检索结果;
对于一个文本,词转向量、映射,得到的文本编码,然后计算与图片检索库中视频/图片编码之间的余弦距离,进而根据余弦距离的大小顺序,依次输出文本-视频/图片检索结果。
CN202011501900.6A 2020-12-18 2020-12-18 一种视频/图片-文本跨模态检索方法 Active CN112488133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011501900.6A CN112488133B (zh) 2020-12-18 2020-12-18 一种视频/图片-文本跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011501900.6A CN112488133B (zh) 2020-12-18 2020-12-18 一种视频/图片-文本跨模态检索方法

Publications (2)

Publication Number Publication Date
CN112488133A CN112488133A (zh) 2021-03-12
CN112488133B true CN112488133B (zh) 2022-06-14

Family

ID=74914729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011501900.6A Active CN112488133B (zh) 2020-12-18 2020-12-18 一种视频/图片-文本跨模态检索方法

Country Status (1)

Country Link
CN (1) CN112488133B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377990B (zh) * 2021-06-09 2022-06-14 电子科技大学 基于元自步学习的视频/图片-文本跨模态匹配训练方法
CN113723344A (zh) * 2021-09-08 2021-11-30 北京有竹居网络技术有限公司 视频的识别方法、装置、可读介质和电子设备
CN113806579A (zh) * 2021-09-17 2021-12-17 中国电信集团系统集成有限责任公司 文本图像检索方法和装置
CN114782719B (zh) * 2022-04-26 2023-02-03 北京百度网讯科技有限公司 一种特征提取模型的训练方法、对象检索方法以及装置
CN115470365B (zh) * 2022-11-09 2023-04-07 南京码极客科技有限公司 一种基于深度度量学习的细粒度跨媒体检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111242033A (zh) * 2020-01-13 2020-06-05 南京大学 一种基于视频和文字对判别分析的视频特征学习方法
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593340B (zh) * 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461157A (zh) * 2019-01-22 2020-07-28 大连理工大学 一种基于自学习的跨模态哈希检索方法
CN110059157A (zh) * 2019-03-18 2019-07-26 华南师范大学 一种图文跨模态检索方法、系统、装置和存储介质
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN111242033A (zh) * 2020-01-13 2020-06-05 南京大学 一种基于视频和文字对判别分析的视频特征学习方法
CN111309971A (zh) * 2020-01-19 2020-06-19 浙江工商大学 一种基于多级编码的文本到视频的跨模态检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度哈希算法的图像—文本跨模态检索研究;姚伟娜;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20190115;全文 *
跨模态检索中的相关度计算研究;董建锋;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20190115;全文 *

Also Published As

Publication number Publication date
CN112488133A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112488133B (zh) 一种视频/图片-文本跨模态检索方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
WO2020143137A1 (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN108733766B (zh) 一种数据查询方法、装置和可读介质
WO2021128729A9 (zh) 确定搜索结果的方法、装置、设备和计算机存储介质
CN108701161B (zh) 为搜索查询提供图像
AU2019366858B2 (en) Method and system for decoding user intent from natural language queries
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
WO2019114430A1 (zh) 自然语言提问的理解方法、装置及电子设备
CN105068997B (zh) 平行语料的构建方法及装置
CN106708929B (zh) 视频节目的搜索方法和装置
CN110580340A (zh) 一种基于多注意力机制的神经网络关系抽取方法
CN106997379B (zh) 一种基于图片文本点击量的相近文本的合并方法
CN110442741B (zh) 一种基于张量融合和重排序的跨模态图文互搜方法
CN102693321A (zh) 一种跨媒体间信息分析与检索的方法
CN116611024A (zh) 一种基于事实和情感对立性的多模态反讽检测方法
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
WO2019173085A1 (en) Intelligent knowledge-learning and question-answering
CN116595975A (zh) 一种基于句信息进行词信息增强的方面级情感分析方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN111160859A (zh) 一种基于svd++和协同过滤的人力资源岗位推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant