CN113157959A - 基于多模态主题补充的跨模态检索方法、装置及系统 - Google Patents

基于多模态主题补充的跨模态检索方法、装置及系统 Download PDF

Info

Publication number
CN113157959A
CN113157959A CN202011504383.8A CN202011504383A CN113157959A CN 113157959 A CN113157959 A CN 113157959A CN 202011504383 A CN202011504383 A CN 202011504383A CN 113157959 A CN113157959 A CN 113157959A
Authority
CN
China
Prior art keywords
text
image
theme
feature
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011504383.8A
Other languages
English (en)
Other versions
CN113157959B (zh
Inventor
宁学成
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202011504383.8A priority Critical patent/CN113157959B/zh
Publication of CN113157959A publication Critical patent/CN113157959A/zh
Application granted granted Critical
Publication of CN113157959B publication Critical patent/CN113157959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于多模态主题补充的跨模态检索方法、装置及系统,该方法:获得第一图像特征和第一图像主题矩阵;获得第一文本特征和第一文本主题矩阵;基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;将第二图像特征和第二文本特征映射公共子空间,衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,距离最近的图像文本对作为检索结果。本发明通过图像主题和文本主题之间的相互补充,生成融合不同模态主题的多模态特征向量,从而提高跨模态检索的效果,解决了海量数据中的跨模态检索问题。

Description

基于多模态主题补充的跨模态检索方法、装置及系统
技术领域
本发明书一个或多个实施例涉及数据处理技术领域,尤其涉及基于多模态主题补充的跨模态检索方法、装置及系统。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
如今,随着信息化社会的不断推进,各种类型数据在互联网上广泛存在,如文本、图像、声音和地理位置数据等等。同一语义内容往往通过不同类型数据来进行表达,因此跨媒体检索成为一种需求。比如,根据文本去检索与文本所包含语义相关的图像,或者根据图像去检索与图像有关的文本新闻报道。
现有的检索方法大多针对单一类型媒体数据,如文本检索文本或图像检索图像。最近,也出现了若干跨模态方法,如一些方法将不同模态的数据简单映射到同一个多模态公共子空间中,采用距离函数来度量多模态数据之间的相关性,再根据距离生成排序表来显示检索结果。
但上述技术存在以下问题:
现有的跨模态检索方法,映射到公共子空间中的多模态特征往往包含许多冗余信息,语义相同的多模态特征无法很好地关联在一起;
没有考虑到多模态主题信息对文本和图像特征的引导作用,生成的多模态向量容易受到局部信息的影响,偏离了文本和图像本身的主题。
有鉴于此,亟需一种基于多模态主题的跨模态检索方法,可以在多模态特征处理的过程中,引入外部知识来进行主题补充,从而实现更好的检索效果。
发明内容
本说明书一个或多个实施例描述了一种本发明实现一种基于多模态主题补充的跨模态检索方法、装置及系统,其通过图像主题和文本主题之间的相互补充,生成融合不同模态主题的多模态特征向量,从而提高跨模态检索的效果。
本说明书一个或多个实施例提供的技术方案如下:
第一方面,本发明提供了一种基于多模态主题补充的跨模态检索方法,所述方法包括:
获得第一图像特征和第一图像主题矩阵;
获得第一文本特征和第一文本主题矩阵;
基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;
基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;
将第二图像特征和第二文本特征映射公共子空间,衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,距离最近的图像文本对作为检索结果。
优选地,所述获得第一图像特征和第一图像主题矩阵,具体为:
从图像样本中提取第三图像特征,并初始化一个第三图像主题矩阵;
将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入,获得第一图像特征和第一图像主题矩阵。
优选地,所述获得第一文本特征和第一文本主题矩阵,具体为:
将文本样本中提取第三文本特征,并初始化一个第三文本主题矩阵;
将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入,获得第一文本特性和第一文本主题矩阵。
优选地,所述基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;具体为:
将所述第二图像特征和所述第二文本主题矩阵,作为图像Transformer输入,生成融合了文本主题的第三图像特征;
将所述第二文本特征和所述第而图像主题矩阵,作为文本Transformer输入,生成融合了图像主题的第三文本特征。
优选地,对比损失函数的定义如下:
Figure RE-GDA0002968601330000031
其中,c代表第三文本特征,v代表第三图像特征,d(c,v)代表成对匹配的图像文本对之间的距离,
Figure RE-GDA0002968601330000032
Figure RE-GDA0002968601330000033
代表不匹配的图像文本对之间的距离,α是一个常数,+代表困难样本采样方式。
第二方面,本发明提供了一种基于多模态主题补充的跨模态检索装置,所述装置包括图像主题生成模块、文本主题生成模块、多模态主题补充模块和相似度量模块;其中
所述图像主题生成模块,用于获得第一图像特征和第一图像主题矩阵;
所述文本主题生成模块,用于获得第一文本特征和第一文本主题矩阵;
所述多模态主题补充模块,用于基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;以及
基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;
所述相似度量模块,用于将第二图像特征和第二文本特征映射公共子空间,衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,距离最近的图像文本对作为检索结果。
优选地,所述图像主题生成模块包括第一提取单元和第一生成单元;其中
所述第一提取单元,用于从图像样本中提取第三图像特征,并初始化一个第三图像主题矩阵;
所述第一生成单元,用于将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入,获得第一图像特征和第一图像主题矩阵。
优选地,所述文本主题生成模块包括第二提取单元和第二生成单元;其中
所述第二提取单元,用于将文本样本中提取第三文本特征,并初始化一个第三文本主题矩阵;
所述第二生成单元,用于将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入,输入,获得第一文本特性和第一文本主题矩阵。
优选地,所述相似度量模块具体用于将所述第二图像特征和所述第二文本主题矩阵,作为图像Transformer输入,生成融合了文本主题的第三图像特征;以及
将所述第二文本特征和所述第而图像主题矩阵,作为文本Transformer输入,生成融合了图像主题的第三文本特征。
第三方面,本发明提供了一种基于多模态主题补充的跨模态检索系统,包括至少一个处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序时实现如第一方面中一个或多个所述的基于多模态主题补充的跨模态检索方法。
第三方面,本发明提供了一种芯片,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如第一方面中一个或多个所述的方法。
第五方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如第三方面所述的系统执行,以实现如第一方面中一个或多个所述的方法。
本发明实施例提供的方法通过跨模态主题信息的引导和补充,使得生成的图像和文本特征具有主题相关性,使得内容相关、主题统一的图像文本对之间的距离尽可能得小,而内容无关、主题不同的图像文本对之间的距离尽可能得大,从而显著提升跨模态检索的效果。
附图说明
图1为本发明实施例提供的基于多模态主题补充的跨模态检索方法流程示意图之一;
图2为获得第一图像特征和第一图像主题矩阵的流程示意图;
图3为获得第一文本特征和第一文本主题矩阵的流程示意图;
图4为本发明实施例提供的基于多模态主题补充的跨模态检索方法流程示意图之二;
图5为本发明实施例提供的基于多模态主题补充的跨模态检索装置结构示意图;
图6为本发明实施例提供的图像主题生成模块的结构示意图;
图7为本发明实施例提供的文本主题生成模块的结构示意图;
图8为本发明实施例提供的基于多模态主题补充的跨模态检索系统结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
另外,文中的“第一”、“第二”和“第三”等,仅为了区分,并不代表先后顺序。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出一个实施例的基于多模态主题补充的跨模态检索方法流程图,所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图1所示,所述方法包括以下步骤:
步骤10,获得第一图像特征和第一图像主题矩阵。
如图2所示,具体的,该步骤包括如下步骤:
步骤101,从图像样本中提取第三图像特征,并初始化一个第三图像主题矩阵。
具体的,针对图像样本,卷积神经网络会使用多个卷积层的运算,最后得到图像在各个不同尺度的抽象表示,从而得到图像的特征向量,即从图像样本中提取第三图像特征。
第三主题矩阵是随机初始化一个和上述图像特征维度一致的主题矩阵,在通过后续的Transformer来更新保存图像特征中的关键信息。
步骤102,将所述第三图像特征和第三图像主题矩阵作为图像Transformer 输入,获得第一图像特征和第一图像主题矩阵。
该步骤,主要是融合主题信息生成更好的图像向量,使得多模态空间中匹配的图像文本向量之间的距离更近,不匹配的距离得更远。
具体的,按如下公式获得第一图像特征:
Figure RE-GDA0002968601330000071
其中,Q为图像/文本特征,K为图像/文本主题矩阵,Q和K的向量维度是一样的,V=K;T代表矩阵转置运算,dk为K矩阵的列数;Attention为 Multi-head Self Attention,同Transformer。此处的Q为第三图像特征,K为第三图像主题矩阵。
第一图像特征和第三图像特征的区别与联系是:经过Transformer后,第三图像特征一方面从原始图像向量中提取了关键信息,存储到主题矩阵中,另一方面又利用了主题矩阵的存储的关键信息,来更新图像特征,得到第一图像特征。
步骤20,获得第一文本特征和第一文本主题矩阵。
如图3所示,具体的,该步骤包括如下步骤:
步骤201,将文本样本中提取第三文本特征,并初始化一个第三文本主题矩阵。
具体的,采用词向量模型(如CBOW)将文本初始化为单词向量,再利用循环神经网络简单提取文本特征,即从文本样本中提取第三文本特征。
文本指的是自然语言描述的原始的句子,比如咱平时说的话。我们会通过词向量模型把文本中的单词一个个拆开,一个单词对应一个单词向量。
第三文本主题矩阵和第三图像主题矩阵一样,都是随机生成的和特征向量维度一致的向量。
步骤202,将所述第三文本特征和所述第三文本主题矩阵作为文本 Transformer输入,获得第一文本特性和第一文本主题矩阵。
该步骤,主要是融合主题信息生成更好的文本向量,使得多模态空间中匹配的图像文本向量之间的距离更近,不匹配的距离得更远。
具体的,按如下公式获得第一文本特征:
Figure RE-GDA0002968601330000081
其中,Q为图像/文本特征,K为图像/文本主题矩阵,Q和K的向量维度是一样的,V=K;T代表矩阵转置运算,dk为K矩阵的列数;Attention为 Multi-head Self Attention,同Transformer。此处的Q为第三文本特征,K为第三文本主题矩阵。
同上述的图像,更新后的文本既融合了文本自身的关键信息,又融合了图像那边的关键信息;这样生成的匹配的图像和文本向量之间的距离会更近,不匹配的会更远。
步骤30,基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征。
具体的,模型中文本特征和图像特征依次要通过两个transformer,第一次就是各自更新主题矩阵中的信息,第二次是文本主题引导图像。
具体的,按如下公式进行融合:
Figure RE-GDA0002968601330000082
其中,Q为图像/文本特征,K为图像/文本主题矩阵,Q和K的向量维度是一样的,V=K;T代表矩阵转置运算,dk为K矩阵的列数;Attention为 Multi-head Self Attention,同Transformer。此处的Q为第一图像特征,K为第一文本主题矩阵。
步骤40,基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征。
具体的,模型中文本特征和图像特征依次要通过两个transformer,第一次就是各自更新主题矩阵中的信息,第二次是图像主题引导文本。
具体的,按如下公式进行融合:
Figure RE-GDA0002968601330000083
其中,Q为图像/文本特征,K为图像/文本主题矩阵,Q和K的向量维度是一样的,V=K;T代表矩阵转置运算,dk为K矩阵的列数;Attention为 Multi-head Self Attention,同Transformer。此处的Q为第一文本特征,K为第一图像主题矩阵。
步骤50,将第二图像特征和第二文本特征映射公共子空间,衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,距离最近的图像文本对作为检索结果。
具体的,将文本特征和图像特征分别映射到公共子空间中,采用距离度量函数来衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,通过训练这种约束关系使得成对匹配的图像文本对之间的距离尽可能小,而不匹配的图像文本对之间的距离尽可能大。最后做检索时,输入一个文本或图像会计算与所有图像文本之间得距离,再做一个排序,距离最近的就是我们检索的结果。
对比损失函数的定义如下:
Figure RE-GDA0002968601330000091
其中,c代表文本特征,v代表图像特征,d(c,v)代表成对匹配的图像文本对之间的距离,
Figure RE-GDA0002968601330000092
Figure RE-GDA0002968601330000093
代表不匹配的图像文本对之间的距离,α是一个常数,+代表困难样本采样方式。
其中,距离度量函数具体为:d(c,v)=c·v。
需要说明的是,该方法的实施可以不按上述描述的步骤顺序进行,可根据实际操作进行顺序的调整,比如可以先执行步骤20,后执行步骤10。也可以先执行步骤40,后执行步骤30。
本发明提供的方法,可以很好的解决现有技术中存在的问题,这是因为:
如图4所示,本发明通过图像Transformer和文本Transformer的叠加,能够还好地消除图像和文本冗余,更好地提取图像和文本特征。
而且通过跨模态主题信息的引导和补充,使得生成的图像和文本特征具有主题相关性,使得内容相关、主题统一的图像文本对之间的距离尽可能得小,而内容无关、主题不同的图像文本对之间的距离尽可能得大,从而显著提升跨模态检索的效果。
与上述实施例方法对应的,本发明还提供了基于多模态主题补充的跨模态检索装置,如图5所示,该装置包括:图像主题生成模块51、文本主题生成模块52、多模态主题补充模块53和相似度量模块54;其中
所述图像主题生成模块51,用于获得第一图像特征和第一图像主题矩阵。
具体的,如图6所示,图像主题生成模块51包括第一提取单元511和第一生成单元512;其中
所述第一提取单元511,用于从图像样本中提取第三图像特征,并初始化一个第三图像主题矩阵;
所述第一生成单元512,用于将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入,获得第一图像特征和第一图像主题矩阵。
所述文本主题生成模块52,用于获得第一文本特征和第一文本主题矩阵.
具体的,如图7所示,所述文本主题生成模块52包括第二提取单元521 和第二生成单元522;其中
所述第二提取单元521,用于将文本样本中提取第三文本特征,并初始化一个第三文本主题矩阵;
所述第二生成单元522,用于将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入,输入,获得第一文本特性和第一文本主题矩阵。
所述多模态主题补充模块53,用于基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;以及
基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;
所述相似度量模块54,用于将第二图像特征和第二文本特征映射公共子空间,衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,距离最近的图像文本对作为检索结果。
通过训练这种约束关系使得不匹配的图像文本对之间的距离尽可能得大,匹配的图像文本对之间的距离尽可能得小。
最后做检索时,输入一个文本或图像会计算与所有图像文本之间得距离,再做一个排序,距离最近的就是我们检索的结果。
本发明实施例提供的基于多模态主题补充的跨模态检索装置中各部件所执行的功能均已在上述方法中做了详细介绍,因此这里不做过多赘述。
与上述实施例相对应的,本发明实施例、还提供了基于多模态主题补充的跨模态检索系统,具体如图8所示,该系统包括至少一个处理器81和存储器82;
存储器81,用于存储计算机程序;
处理器82,用于执行该计算机程序程序时实现如上述实施例所介绍的基于多模态主题补充的跨模态检索方法中的任一方法步骤。
与上述实施例相对应的,本发明实施例还提供了一种芯片,该芯片与上述系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如上述实施例所介绍的基于多模态主题补充的跨模态检索方法。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包括一个或多个程序,其中,一个或多个程序指令用于被基于多模态主题补充的跨模态检索系统执行如上介绍的基于多模态主题补充的跨模态检索方法。
本发明提供的基于多模态主题补充的跨模态检索方案,其在多模态特征处理的过程中引入外部知识来进行主题补充,通过图像主题和文本主题之间的相互补充,生成融合不同模态主题的多模态特征向量,从而提高跨模态检索的效果,解决了海量数据中的跨模态检索问题。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器 (RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程 ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.基于多模态主题补充的跨模态检索方法,其特征在于,所述方法包括:
获得第一图像特征和第一图像主题矩阵;
获得第一文本特征和第一文本主题矩阵;
基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;
基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;
将第二图像特征和第二文本特征映射公共子空间,衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,距离最近的图像文本对作为检索结果。
2.根据权利要求1所述的方法,其特征在于,所述获得第一图像特征和第一图像主题矩阵,具体为:
从图像样本中提取第三图像特征,并初始化一个第三图像主题矩阵;
将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入,获得第一图像特征和第一图像主题矩阵。
3.根据权利要求1所述的方法,其特征在于,所述获得第一文本特征和第一文本主题矩阵,具体为:
将文本样本中提取第三文本特征,并初始化一个第三文本主题矩阵;
将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入,获得第一文本特性和第一文本主题矩阵。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;具体为:
将所述第二图像特征和所述第二文本主题矩阵,作为图像Transformer输入,生成融合了文本主题的第三图像特征;
将所述第二文本特征和所述第而图像主题矩阵,作为文本Transformer输入,生成融合了图像主题的第三文本特征。
5.根据权利要求1所述的方法,其特征在于,对比损失函数的定义如下:
Figure RE-FDA0002968601320000021
其中,c代表第三文本特征,v代表第三图像特征,d(c,v)代表成对匹配的图像文本对之间的距离,
Figure RE-FDA0002968601320000022
Figure RE-FDA0002968601320000023
代表不匹配的图像文本对之间的距离,α是一个常数,+代表困难样本采样方式。
6.基于多模态主题补充的跨模态检索装置,其特征在于,所述装置包括图像主题生成模块、文本主题生成模块、多模态主题补充模块和相似度量模块;其中
所述图像主题生成模块,用于获得第一图像特征和第一图像主题矩阵;
所述文本主题生成模块,用于获得第一文本特征和第一文本主题矩阵;
所述多模态主题补充模块,用于基于所述第一图像特征和所述第一文本主题矩阵,生成融合了文本主题的第二图像特征;以及
基于所述第一文本特征和所述第一图像主题矩阵,生成融合了图像主题的第二文本特征;
所述相似度量模块,用于将第二图像特征和第二文本特征映射公共子空间,衡量不同模态特征之间的相似性距离,并采用对比损失函数对图像文本对进行约束,距离最近的图像文本对作为检索结果。
7.根据权利要求6所述的装置,其特征在于,所述图像主题生成模块包括第一提取单元和第一生成单元;其中
所述第一提取单元,用于从图像样本中提取第三图像特征,并初始化一个第三图像主题矩阵;
所述第一生成单元,用于将所述第三图像特征和第三图像主题矩阵作为图像Transformer输入,获得第一图像特征和第一图像主题矩阵。
8.根据权利要求6所述的装置,其特征在于,所述文本主题生成模块包括第二提取单元和第二生成单元;其中
所述第二提取单元,用于将文本样本中提取第三文本特征,并初始化一个第三文本主题矩阵;
速搜第二生成单元,用于将所述第三文本特征和所述第三文本主题矩阵作为文本Transformer输入,输入,获得第一文本特性和第一文本主题矩阵。
9.根据权利要求6所述的装置,其特征在于,所述相似度量模块具体用于将所述第二图像特征和所述第二文本主题矩阵,作为图像Transformer输入,生成融合了文本主题的第三图像特征;以及
将所述第二文本特征和所述第而图像主题矩阵,作为文本Transformer输入,生成融合了图像主题的第三文本特征。
10.基于多模态主题补充的跨模态检索系统,其特征在于,包括至少一个处理器和存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序时实现如权利要求1至5中一个或多个所述的基于多模态主题补充的跨模态检索方法。
11.一种芯片,其特征在于,所述芯片与系统中的存储器耦合,使得所述芯片在运行时调用所述存储器中存储的程序指令,实现如权利要求1至5中一个或多个所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括一个或多个程序指令,所述一个或多个程序指令可被如权利要求10所述的系统执行,以实现如权利要求1至5中一个或多个所述的方法。
CN202011504383.8A 2020-12-17 2020-12-17 基于多模态主题补充的跨模态检索方法、装置及系统 Active CN113157959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011504383.8A CN113157959B (zh) 2020-12-17 2020-12-17 基于多模态主题补充的跨模态检索方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011504383.8A CN113157959B (zh) 2020-12-17 2020-12-17 基于多模态主题补充的跨模态检索方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113157959A true CN113157959A (zh) 2021-07-23
CN113157959B CN113157959B (zh) 2024-05-31

Family

ID=76882634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011504383.8A Active CN113157959B (zh) 2020-12-17 2020-12-17 基于多模态主题补充的跨模态检索方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113157959B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129976A (zh) * 2022-05-25 2022-09-30 腾讯科技(深圳)有限公司 一种资源召回方法、装置、设备及存储介质
CN115858839A (zh) * 2023-02-16 2023-03-28 上海蜜度信息技术有限公司 一种跨模态logo检索方法、系统、终端及存储介质
CN117726721A (zh) * 2024-02-08 2024-03-19 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158739A1 (en) * 2010-12-15 2012-06-21 Xerox Corporation System and method for multimedia information retrieval
CN103559192A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于跨模态稀疏主题建模的跨媒体检索方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN110188210A (zh) * 2019-05-10 2019-08-30 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN110222222A (zh) * 2019-06-18 2019-09-10 西安电子科技大学 基于深层主题自编码模型的多模态检索方法
CN110442736A (zh) * 2019-08-16 2019-11-12 北京工商大学 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158739A1 (en) * 2010-12-15 2012-06-21 Xerox Corporation System and method for multimedia information retrieval
CN103559192A (zh) * 2013-09-10 2014-02-05 浙江大学 一种基于跨模态稀疏主题建模的跨媒体检索方法
CN105760507A (zh) * 2016-02-23 2016-07-13 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN110188210A (zh) * 2019-05-10 2019-08-30 山东师范大学 一种基于图正则化与模态独立的跨模态数据检索方法及系统
CN110222222A (zh) * 2019-06-18 2019-09-10 西安电子科技大学 基于深层主题自编码模型的多模态检索方法
CN110442736A (zh) * 2019-08-16 2019-11-12 北京工商大学 一种基于二次判别分析的语义增强子空间跨媒体检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOKUN WANG等: "Adversarial Cross-Modal Retrieval", PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, pages 154 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115129976A (zh) * 2022-05-25 2022-09-30 腾讯科技(深圳)有限公司 一种资源召回方法、装置、设备及存储介质
CN115858839A (zh) * 2023-02-16 2023-03-28 上海蜜度信息技术有限公司 一种跨模态logo检索方法、系统、终端及存储介质
CN117726721A (zh) * 2024-02-08 2024-03-19 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质
CN117726721B (zh) * 2024-02-08 2024-04-30 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质

Also Published As

Publication number Publication date
CN113157959B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话系统
US11373047B2 (en) Method, system, and computer program for artificial intelligence answer
CN113157959B (zh) 基于多模态主题补充的跨模态检索方法、装置及系统
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN111488468B (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN111488742B (zh) 用于翻译的方法和装置
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN115544303A (zh) 用于确定视频的标签的方法、装置、设备及介质
JP2020071839A (ja) 探索装置、探索方法、探索プログラムおよび記録媒体
US20230153534A1 (en) Generating commonsense context for text using knowledge graphs
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN111460224B (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN113609873A (zh) 翻译模型训练方法、装置及介质
US20230130662A1 (en) Method and apparatus for analyzing multimodal data
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
KR101983477B1 (ko) 단락 기반 핵심 개체 식별을 이용한 한국어 주어의 생략 성분 복원 방법 및 시스템
CN115712713A (zh) 一种文本匹配方法、装置、系统以及存储介质
CN114398903A (zh) 意图识别方法、装置、电子设备及存储介质
JP2018124922A (ja) 情報処理装置、情報処理方法、およびプログラム
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
CN117891905A (zh) 对话响应处理方法、装置、电子设备及存储介质
CN116956914A (zh) 命名实体的识别方法、装置、设备、介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant