CN113627151A - 跨模态数据的匹配方法、装置、设备及介质 - Google Patents

跨模态数据的匹配方法、装置、设备及介质 Download PDF

Info

Publication number
CN113627151A
CN113627151A CN202111199899.0A CN202111199899A CN113627151A CN 113627151 A CN113627151 A CN 113627151A CN 202111199899 A CN202111199899 A CN 202111199899A CN 113627151 A CN113627151 A CN 113627151A
Authority
CN
China
Prior art keywords
data
matched
candidate
matching
quantum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111199899.0A
Other languages
English (en)
Other versions
CN113627151B (zh
Inventor
蒋永余
王俊艳
王璋盛
曹家
罗引
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN202111199899.0A priority Critical patent/CN113627151B/zh
Publication of CN113627151A publication Critical patent/CN113627151A/zh
Application granted granted Critical
Publication of CN113627151B publication Critical patent/CN113627151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种跨模态数据的匹配方法、装置、设备及介质。其中,跨模态数据的匹配方法包括:获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;基于分布信息,提取待匹配数据与候选数据之间的量子干涉特征数据;在量子干涉特征数据满足预设匹配条件的情况下,确定候选数据和待匹配数据相匹配。根据本公开实施例,能够提高跨模态信息的匹配精度。

Description

跨模态数据的匹配方法、装置、设备及介质
技术领域
本公开涉及信息匹配技术领域,尤其涉及一种跨模态数据的匹配方法、装置、设备及介质。
背景技术
在信息匹配技术的发展过程中,如何进行跨模态信息匹配的问题逐渐引起相关人员的注意。
现阶段,往往采用采用神经网络模型计算跨模态信息相似度,进而根据相似度进行跨模态信息匹配。然而,由于跨模态信息匹配的模式复杂、不同模态信息之间存在较大认知差异等问题的存在,往往导致该方案在跨模态信息匹配技术中计算精度较低。
因此,需要一种能够提高跨模态信息的匹配精度的技术方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种跨模态数据的匹配方法、装置、设备及介质。
第一方面,本公开提供了一种跨模态数据的匹配方法,包括:
获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;
对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;
基于分布信息,提取待匹配数据与候选数据之间的量子干涉特征数据;
在量子干涉特征数据满足预设匹配条件的情况下,确定候选数据和待匹配数据相匹配。
第二方面,本公开提供了一种跨模态数据的匹配装置,包括:
数据获取单元,配置为获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;
量子化表示单元,配置为对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;
特征提取单元,配置为基于分布信息,提取待匹配数据与候选数据之间的量子干涉特征数据;
数据匹配单元,配置为在量子干涉特征数据满足预设匹配条件的情况下,确定候选数据和待匹配数据相匹配。
第三方面,本公开提供了一种跨模态数据的匹配设备,包括:
处理器;
存储器,用于存储可执行指令;
其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现第一方面的跨模态数据的匹配方法。
第四方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的跨模态数据的匹配方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的跨模态数据的匹配方法、装置、设备及介质,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到候选数据和待匹配数据之间的量子干涉特征数据。由于量子干涉特征数据能够反映用户对跨模态数据所共同表达信息的认知,从而利用量子干涉特征能够从认知层面对候选数据和待匹配数据进行匹配,提高了跨模态信息的匹配精度。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1示出了光的双缝干涉实验的示意图;
图2示出了本公开实施例提供的一种跨模态数据的匹配方法的流程示意图;
图3示出了本公开实施例提供的另一种跨模态数据的匹配方法的流程示意图;
图4示出了本公开实施例提供的又一种跨模态数据的匹配方法的流程示意图;
图5示出了本公开实施例提供的再一种跨模态数据的匹配方法的流程示意图;
图6示出了本公开实施例提供的再一种跨模态数据的匹配方法的流程示意图;
图7示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的逻辑示意图;
图8示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的流程示意图;
图9示出了本公开实施例提供的一种待发布新闻文本的示意图;
图10示出了本公开实施例提供的一种待发布新闻文本与数据库中新闻图片的图文匹配示意图;
图11示出了本公开实施例提供的一种可发布新闻信息的示意图;
图12示出了本公开实施例提供的一种跨模态数据的匹配装置的结构示意图;
图13示出了本公开实施例提供的一种跨模态数据的匹配设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在信息传播领域的发展过程中,由于相对于单一模态的数据,多模态数据能够更加准确和直观地传达信息,因此跨模态信息得到了快速发展。比如,随着媒体行业的不断发展,各类线上媒体平台的数量与日俱增,电子新闻的数量也呈指数增长,也成为用户日常生活中获取信息的主要来源之一。不同于以往的只通过文本形式传递信息,媒体平台越来越倾向于使用多种模态形式数据(如文本-图像对,文本-视频对等)共同表达他们的新闻信息。
在跨模态信息领域,如何进行跨模态信息匹配的问题逐渐引起各行各界相关人员的注意。比如,如何给新闻文本选取最合适的新闻图片,是媒体行业的研究方向之一。
以文本与图像之间的跨模态信息匹配为例,过去通常采用人工搜索的方式,根据文本内容在海量图像中进行筛选,这会耗费人类大量的时间和精力。近年来,随着人工智能技术的进步,如何利用计算机帮助相关人员减轻图像筛选工作负担、提高效率成为迫切需求,也吸引了众多研究者的目光。因此,研究者提出了根据文本内容推荐合适图像的图文匹配技术,该任务一般需要解决的有两个基本问题:如何对文本和图像进行表征;如何联合文本和图像的特征,并精准地度量两者的相关性。
目前用于学习图像和文本的相关关系的图文匹配方法,大致可以分为两种:全局相关和局部相关。全局相关主要学习整个图像和句子之间的相关关系,即将整个图像和句子映射到一个通用语义空间在进行图文相关关系的计算。
在一种相关技术中,可以使用深度卷积神经网络(Convolutional NeuralNetworks,CNN)对图像进行编码和递归神经网络网络(Recurrent Neural Network,RNN)对句子进行编码,然后使用Hinge-based Triplet Ranking Loss(即一种基于铰链理论的三元组度量学习损失函数)作为距离度量指标度量图像与文本的匹配程度。
在另一种相关技术中,在三元组损失(Triplet Loss)函数中利用了难分样本(hard negatives),并显著改善了匹配效果。
在又一种相关技术中,可以将生成过程结合到跨模态特征嵌入中,以学习全局抽象特征和局部层次特征。局部相关主要学习图像局部区域和单词之间的相关关系,即在图像局部区域和单词的水平上考虑潜在的视觉语言相关关系。
在再一种相关技术中,可以基于SCAN模型(即一种图像文本匹配模型),使用Faster R-CNN(即一种目标检测网络)检测和编码图像区域,提取其特征,使用Bi-GRU(即一种循环神经网络)模型提取句子中每个单词的特征,最后通过堆叠交叉型的注意力机制(Stack Crossing Attention)得到图像和文本的匹配程度。
但是,申请人经过研究发现,诸如图文匹配任务的跨模态匹配任务,其不仅是数据之间的匹配过程,其同样是一个复杂而主观的多模态认知过程。
申请人通过研究发现,现有图文匹配技术计算得到的跨模态数据的相关性与真实实验结果存在差距。经研究,其该差异主要是由下述两方面原因引起的:一方面,不同模态纠缠在一起所共同表达的信息影响着信息表达者的真实表达意图;另一方面,不同模态纠缠在一起所共同表达信息会影响信息阅读者最终的信息理解过程。因此,用户对多模态信息共同表达的认知影响着跨模态数据的匹配精度。
申请人将这种现象称为认知干涉现象,即在用户认知状态下,用户的相关性判断并不是简单的匹配证据(例如,共现证据)叠加,也无法用经典概率理论解释。然而上述相关技术所使用的全局相关和局部相关图文匹配模型主要围绕着多模态特征的提取方式和如何训练优秀的相关性计算网络来提高跨模态数据的相关性计算精度,没有考虑跨模态信息间的认知干涉效应,因此所提出的模型没有从认知层面上看待跨模态数据匹配任务,往往会造成跨模态数据相关性判断的误差,进而导致跨模态数据匹配精度的误差。
基于此,申请人提出了一种跨模态数据的匹配方案,可以应用于跨模态数据匹配场景中。示例性地,可以应用于为新闻文本匹配上合适的新闻图像的具体场景中。本公开实施例提出的跨模态数据的匹配方案,由于量子干涉特征数据能够反映用户对跨模态数据所共同表达信息的认知,从而利用量子干涉特征能够从认知层面对候选数据和待匹配数据进行匹配,提高了跨模态信息的匹配准确率。
在开始介绍本公开实施例提供的跨模态数据的匹配方案之前,为了便于理解,本公开实施例先对涉及的相关技术属于进行说明。
一、量子干涉效应。
其来源于物理学史上著名的“光的双缝干涉实验”。图1示出了光的双缝干涉实验的示意图。如图1所示,双缝干涉实验其实很简单,找一支蜡烛101点亮,在蜡烛101后面放第一张纸102,其中,第一张纸102上开有一个小孔,从而使得蜡烛101发出的光透过第一张纸102之后即形成了一个点光源。然后在第一张纸102后面再放第二张纸103,不同的是,第二张纸103开了两条平行的缝隙。在想象中蜡烛101的光通过这两条缝隙后,一定会在墙104上留下两道平行而对应的亮纹。但是,实验的结果并非如此。当光通过两条缝隙后,墙104上留下的竟然是一排排平行的“斑马线”亮纹。
图2示出了本公开实施例提供的一种跨模态数据的匹配方法的流程示意图。
在本公开实施例中,跨模态数据的匹配方法各步骤的执行主体可以是台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
如图2所示,该跨模态数据的匹配方法可以包括如下步骤。
S210,获取待匹配数据和候选数据。
在本公开实施例中,待匹配数据和候选数据的数据模态不同。也就是说,待匹配数据和候选数据可以为不同类型的多媒体数据。
在一些实施例中,待匹配数据和候选数据分别为文本数据、图像数据、视频数据和音频数据中的任意一种。示例性地,若待匹配数据为文本数据,候选数据为文本数据、图像数据、视频数据和音频数据中除文本数据之外的任意一种。比如,候选数据可以是图像数据。
在一个示例中,在新闻发布场景中,待匹配数据可以是新闻文本,候选数据可以是新闻图片。
在一些实施例中,为了能够为待匹配数据匹配到匹配度较高的候选数据,可以将候选数据集中的多个可选模态数据分别作为候选数据,并依据本公开实施例的跨模态匹配方法对待匹配数据和候选数据进行匹配。其中,候选数据集中的数据与待匹配数据的模态不同。可选地,候选数据集可以是候选数据库中的数据所组成的集合。比如,在新闻发布场景中,候选数据库可以是媒体平台的图片库或者是网页的图片库,对其不作限定。
S220,对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息。其中,量子复合系统可以为由待匹配数据和候选数据构成的量子系统。
在一些实施例中,若可以从待匹配数据中提取出l个第一数据特征,分别为P 1 P 2 、…、P l ;从候选数据中提取出m个第二数据特征,分别为I 1 I 2 、…、I m 。则该量子复合系统可以视为定义在由l个第一特征数据的向量和m个第二特征数据的向量所构成的向量空间内的量子系统。其中,lm为大于1的整数。
具体地,若任意第一数据特征的向量、任意第二数据特征可以构成该量子复合系统内的一个量子复合态向量。则可以用该量子复合系统内的多个量子复合态向量构成的叠加态向量来表示待匹配数据与候选数据在量子复合系统内的分布信息。
相应地,该叠加态向量
Figure 611693DEST_PATH_IMAGE001
可以表述为下述公式(1):
Figure 855592DEST_PATH_IMAGE002
(1)
在公式(1),
Figure 123894DEST_PATH_IMAGE003
表示第i个第一数据特征P i 对应的权重系数,
Figure 289296DEST_PATH_IMAGE004
表示第j个第二数 据特征I j 对应的权重系数,
Figure 183302DEST_PATH_IMAGE005
表示张量积运算。其中,
Figure 999818DEST_PATH_IMAGE006
表示由第i个第一数 据特征P i 和第j个第二数据特征I j 组成的量子复合态向量。可选地,
Figure 688288DEST_PATH_IMAGE003
Figure 340986DEST_PATH_IMAGE004
可以是预先设置 的或者是训练得到的,对其具体设置方式不作限定。其中,i为不大于l的任意正整数,j为不 大于m的任意正整数。
申请人经研究表明,这种通过张量积形式对跨模态数据进行量子化表示的方法, 可以利用叠加态向量
Figure 789416DEST_PATH_IMAGE001
表征跨模态数据的特征向量在各维度之间的交互作用,从而能够对 跨模态数据的所有可能的组合高级语义进行建模,因此所得到的叠加态向量
Figure 211170DEST_PATH_IMAGE001
对跨模态数 据所构成的共同表达信息具有较强的表达能力。
在一个示例中,为了保证符合量子系统的相关约束,权重系数需要满足相应地归一化条件。
具体的,l个第一特征数据对应的权重系数之间满足下述公式(2):
Figure 273804DEST_PATH_IMAGE007
(2)
以及,m个第二特征数据对应的权重系数之间满足下述公式(3):
Figure 451015DEST_PATH_IMAGE008
(3)
相应地,S220具体包括下述步骤A1至步骤A3。
步骤A1,获取待匹配数据的多个第一数据特征和候选数据的多个第二数据特征。
在一个实施例中,可以对待匹配数据进行特征提取,得到l个第一数据特征。相应地,可以用l个第一数据特征所构成的第一数据特征集合P来表示待匹配数据。
第一数据特征集合P可以如公式(4)所示:
P={P 1 ,P 2 ,…,P l }(4)
在一个示例中,若待匹配数据为文本数据,则可以提取该文本的l个段落的特征,又或者可以提取该文本的每个句子的特征,又或者可以提取该文本的每个词的特征,对其特征提取粒度不作具体限定。可选地,可以利用预先训练的Transformer的双向编码表示(Bidirectional Encoder Representation from Transformers,Bert)模型等来进行文本特征提取。需要说明的是,还可以适用诸如词频-逆向文件频率(TF-IDF)、将单词转换成向量的(word to vector,Word2Vec)模型、Countvectorizer(即一种文本特征抽取函数)等文本特征提取方法进行特征提取,对具体提取方式不作限定。
在一个具体地示例中,可以将文本数据的第i个段落p i 经过去符号、分词和词典映射等操作之后,通过Bert模型进行编码得到第i个段落的特征向量P i
相应地,第i个段落的特征向量P i 可以表示为下述公式(5):
P i =bert(p i )(5)
在另一个示例中,若待匹配数据为图像,则可以提取该图像的m个图像区域的特征。具体的,可以采用预先训练的Faster RCNN模型提取图像特征。需要说明的是,本公开实施例还可以采用尺度不变特征变换(Scale-Invariant Features Transform,SIFT)模型、加速稳健特征(Speeded Up Robust Features,SURF)模型、方向梯度直方图(Histogram ofOriented Gradient、HOG)算法、高斯函数的差分(Difference of Gaussian,DOG)算法、局部二值模式(Local Binary Pattern,LBP)特征提取算法等方式提取图像特征,对具体特征提取方式不作限定。
在又一个示例中,若待匹配数据为视频,则可以利用上述图像提取算法提取一个或多个视频帧的特征,又或者可以将视频数据输入预先训练的视频特征提取模型,得到视频数据的特征,对其特征提取方式不作具体限定。其中,视频特征提取模型可以是三维卷积网络(3D Convolutional Neural Network,3D CNN)模型。
在再一个示例中,若待匹配数据为音频,则可以利用语音识别(Automatic SpeechRecognition,ASR)算法将音频数据转换为文本,再对其进行文本特征提取,得到l个第一数据特征。其中,文本特征提取算法可以参见本公开实施例上述部分的相关说明,对此不再赘述。又或者,可以利用预先训练好的语言特征提取模型或者语音特征提取算法提取音频的特征,对此不作具体限定。其中,语音特征提取算法可以是线性预测分析(LinearPrediction Coefficients,LPC)算法、感知线性预测系数(Perceptual LinearPredictive,PLP)算法等能够提取语音特征的方法,对其不作具体限定。
在另一个实施例中,可以对候选数据进行特征提取,得到m个第二数据特征。相应地,可以用m个第二数据特征所构成的第二数据特征集合I来表示待匹配数据。
第二数据特征集合I可以如公式(6)所示:
I={I 1 ,I 2 ,…,I m }(6)
其中,候选数据的具体特征提取内容可以参见本公开实施例上述部分对候选数据的特征提取方式的相关描述,在此不再赘述。
在一个示例中,若候选数据为图片,则将目标检测框在该图片中框选的第j个图像区域i j 输入预先训练的Faster RCNN模型得到的特征向量I j 可以如公式(7)所示:
i j =Faster_RCNN(I j )(7)
步骤A2,对任意第一数据特征和任意第二数据特征进行组合,得到多个特征组。
示例性地,第1个第一数据特征可以分别与m个第二特征数据组成m个特征组,第2个第一数据特征可以分别与m个第二特征数据组成m个特征组,同理地,第l个第一数据特征可以分别与m个第二特征数据组成m个特征组。
步骤A3,对多个第一数据特征和多个第二数据特征进行特征融合,得到叠加态向量,以及将叠加态向量作为向量形式的分布信息。
在一个示例中,可以基于上述公式(1)计算得到叠加态向量。相应地,步骤A3可以包括步骤A31至A33。
步骤A31,针对每一特征组,对每一特征组中的第一数据特征和每一特征组中的第二数据特征,进行张量积运算处理,得到一个量子复合态向量。
示例性地,以第i个第一数据特征和第j个第二数据特征I j 组成的特征组为例,步骤A3可以包括步骤A311和步骤A312。
步骤A311,对第i个第一数据特征进行加权处理,即计算第i个第一数据特征与第i 个第一数据特征对应的权重系数
Figure 890086DEST_PATH_IMAGE009
的乘积,得到第i个第一加权特征
Figure 431926DEST_PATH_IMAGE010
以及,步骤A32,对第j个第二数据特征进行加权处理,即计算第j个第二数据特征 与第j个第二数据特征对应的权重系数
Figure 478510DEST_PATH_IMAGE011
的乘积,得到第j个第二加权特征
Figure 840222DEST_PATH_IMAGE012
步骤A32,对每一第一加权特征和每一第二加权特征,进行张量积运算,得到一个量子复合态向量。
继续上一示例,对第i个第一加权特征
Figure 128989DEST_PATH_IMAGE010
和第j个第二加权特征
Figure 525336DEST_PATH_IMAGE012
进行张 量积运算,得到第i个第一数据特征P i 和第j个第二数据特征I j 组成的量子复合态向量
Figure 929772DEST_PATH_IMAGE013
步骤A33,将根据多个第一加权特征和多个第二加权特征得到的多个量子复合态向量进行累加,得到如公式(1)示出的叠加态向量。
需要说明的是,还可以通过其他形式,基于多个第一特征数据和第二特征数据得到叠加态向量,本申请实施例对叠加态向量的具体计算公式以及计算步骤不作具体限定。
在另一些实施例中,S220还可以具体包括:将待匹配数据和候选数据输入预先训练的量子化表示模型,得到上述叠加态向量。其中,量子化表示模型可以是能够在输入匹配模态数据和候选数据时对应输出叠加态向量的神经网络模型,比如CNN模型、RNN模型、深度神经网络(Deep Neural Networks,DNN)、或者上述网络的改进型网络来进行量子化表示,本公开实施例对提取有效概率分布特征的模型类型不作具体限定对其具体类型不作限定。
S230,基于分布信息,提取待匹配数据与候选数据之间的量子干涉特征数据。
在一些实施例中,量子复合系统包括由待匹配数据的数据特征构成的第一子系统和由候选数据的数据特征构成的第二子系统。
相应地,图3示出了本公开实施例提供的另一种跨模态数据的匹配方法的流程示意图。图3与图2的不同之处在于,S230可以具体包括S231至S233。
S231,对分布信息进行概率分布计算,得到待匹配数据与候选数据在量子复合系统内的在量子复合系统的概率密度分布参数。
示例性地,待匹配数据与候选数据在量子复合系统的概率密度分布参数,可以表 示为
Figure 591829DEST_PATH_IMAGE014
S232,对量子复合系统的概率密度分布参数进行降维处理,得到候选数据在第二子系统维度的概率密度分布参数。
示例性地,可以通过对步骤B1的运算结果
Figure 107124DEST_PATH_IMAGE014
进行偏迹运算,得到约化密度算子ρ I 即表示候选数据在第二子系统维度的概率密度分布参数。
具体地,约化密度算子ρ I 可以如公式(8)所示:
Figure 420294DEST_PATH_IMAGE015
(8)
其中,
Figure 513408DEST_PATH_IMAGE016
。系数
Figure 849711DEST_PATH_IMAGE017
。其中,M s 为经典的相似度匹配特 征矩阵,其用于表示待匹配数据与候选数据之间在现有跨模态匹配模型所使用到的、符合 经典概率理论的、在数据匹配层面上的数据匹配特征。M IN 为量子干涉特征矩阵,其用于表示 待匹配数据与候选数据、在用户认知层面上的量子干涉特征数据。
需要说明的是,直接利用该叠加态向量进行后续计算的方案,往往因量子复合系统的叠加态向量的维度较高导致对计算资源要求比较高。而本公开实施例通过步骤B2可以对量子复合系统的叠加态向量进行降维处理,进而减小了后续步骤对计算资源的要求,提高了计算效率。
S233,对第二子系统维度的概率密度分布参数进行特征提取,得到量子干涉特征数据。
在一个实施例中,图4示出了本公开实施例提供的又一种跨模态数据的匹配方法的流程示意图。图4与图3的不同之处在于,S233可以具体包括S2331至S2332。
步骤S233可以具体实现为S2331和S2332。
S2331,将第二子系统维度的概率密度分布参数输入预先训练的特征提取模型,得到候选数据的有效概率分布特征。
在一个示例中,可以利用n重卷积网络(n-gram Window Convolution Network)来提取候选数据中的有效概率分布特征。具体地,可以利用n个不同尺寸的卷积核组合从ρ I 中提取得到n-gram相关性特征作为候选数据中的有效概率分布特征。
可选地,卷积层尺寸h对应的卷积核大小为h*h,n个卷积核尺寸h构成集合{2,3,4,5},即卷积核尺寸h∈{2,3,4,5},通过CNN层将ρ I 映射到算n-gram相关性特征的具体公式如下述公式(9)和公式(10)所示:
Figure 231014DEST_PATH_IMAGE018
(9)
Figure 87106DEST_PATH_IMAGE019
(10)
其中,
Figure 895662DEST_PATH_IMAGE020
表示以卷积核大小为h*h进行卷积运算的第一层卷积层的输出结果,函 数
Figure 453682DEST_PATH_IMAGE021
表示第一层卷积层中的Max-pooling操作(即CNN网络中的一种下采样操作),符号
Figure 91206DEST_PATH_IMAGE022
代表合并操作,G 2 表示第二层卷积层的运算输出结果。需要说明的,在本公开实施例还可以 采用除Max-pooling操作之外的其他下采样操作,或者不采用下采样操作,对其不作限定。 需要说明的是,通过Max-pooling操作,可以在第一层卷积层的输出结果中提取较强特征, 抛弃较弱特征,从而提高了匹配精度和计算效率。
在本实施例中,利用n-gram Window Convolution Network网络,可以更细致地、多粒度地捕捉ρ I 中有效概率分布特征,提高了匹配精度。
需要说明的是,还可以使用其他模型来提取候选数据中的有效概率分布特征,比如CNN模型、RNN模型、DNN模型、或者上述网络的改进型网络来提取有效特征,本公开实施例对提取有效概率分布特征的模型类型不作具体限定。
S2332,利用注意力机制(Text Attention Mechanism)和待匹配数据的数据特征,对候选数据的有效概率分布特征进行处理,得到量子干涉特征数据。其中,量子干涉特征数据包括待匹配数据和候选数据之间的量子干涉特征。又或者,量子干涉特征数据可以包括待匹配数据和候选数据之间的量子干涉特征,以及现有跨模态匹配模型中常用的、在数据匹配层面上的数据匹配特征。
可选地,量子干涉特征数据可以表示为特征向量x att ,其满足下述公式(11)和公式(12):
Figure 316651DEST_PATH_IMAGE023
(11)
Figure 296108DEST_PATH_IMAGE024
(12)
其中,测量算子
Figure 357736DEST_PATH_IMAGE025
Figure 80841DEST_PATH_IMAGE026
可以表示第i个第一数据特征P i 在第二子 系统维度的概率密度分布参数。
通过公式(12)计算得到的特征向量x att ,不仅包含了现有跨模态匹配模型中常用的、在数据匹配层面上的数据匹配特征,还包含了用户认知层面上的量子干涉特征,进而利用该特征向量x att 能够从认知层面和数据匹配层面上进行跨模态数据匹配,从而可以实现多个层面上的跨模态数据匹配,提高了匹配精度。
在另一个实施例中,除了上述步骤S2331和2332提取量子干涉特征之外,还可以利用预先训练得到的特征提取模型,来从第二子系统维度的概率密度分布参数中提取出量子干涉特征。其中,特征提取模型可以是使用诸如CNN模型、RNN模型、DNN模型、长短期记忆(Long Short-Term Memory,LSTM)模型或者上述模型的改进型模型等,对其不作限定。
在另一些实施例中,图5示出了本公开实施例提供的再一种跨模态数据的匹配方法的流程示意图。图5与图2的不同之处在于,S230可以具体包括S234和S235。
S234,对分布信息进行概率分布计算,得到待匹配数据与候选数据在量子复合系统的概率密度分布参数。
其中,S234与S231类似,可参见本公开上述部分对S231的相关说明,在此不再赘述。
S235,对待匹配数据与候选数据在量子复合系统的概率密度分布参数进行特征提取处理,得到量子干涉特征数据。
其中,S235的具体实施方式与S232-S233类似,不同之处在于,在得到待匹配数据 与候选数据在量子复合系统的概率密度分布参数
Figure 160793DEST_PATH_IMAGE014
之后,可以不对其进行降维处理,直 接利用其进行特征提取处理,得到量子干涉特征数据,提高了匹配精度。
在又一些实施例中,还可以通过预先训练好的模型来实现S230,具体地,可以将该分布信息输入预先训练的特征提取模型,得到该量子干涉特征。其中,特征提取模型可以是能够在输入该分布信息时对应输出量子干涉特征数据的神经网络模型,比如CNN模型、RNN模型、DNN模型、或者上述网络的改进型网络,对其具体类型不作限定。
S240,在量子干涉特征数据满足预设匹配条件的情况下,确定候选数据和待匹配数据相匹配。
在本公开实施例中,预设匹配条件为当候选数据和待匹配数据相匹配时,量子干涉特征所需要满足的条件。
在一些实施例中,预设匹配条件包括量子干涉特征数据对应的匹配度得分满足预设分数条件。
相应地,图6示出了本公开实施例提供的再一种跨模态数据的匹配方法的流程示意图。图6与图2的不同之处在于,S240可以具体包括S241和S242。
S241,将量子干涉特征数据输入预先训练的匹配度预测模型,得到待匹配数据与候选数据的匹配度得分。
在一个实施例中,该匹配度预测模型可以是多层感知器(MultilayerPerceptron,MLP)。具体地,可以将通过公式(12)计算得到的特征向量x att 输入多层感知器,经过一系列线性和非线性计算后,得到待匹配数据与候选数据的匹配度得分S(I,T)。
具体地,多层感知器可以执行如公式(13)所示的运算步骤:
S(I,T)=f(x att ) =2·tanh(W T ·x att +b)(13)
其中,W T 为权重矩阵,b为偏置向量,W T b可以是训练得到的。
需要说明的是,本公开实施例还可以使用RNN模型、LSTM模型或者各类预测模型的改进模型作为匹配度预测模型,对匹配度预测模型的具体类型不作限定。
在一个示例中,匹配度预测模型的训练过程可以包括如下步骤B1-步骤B5。
步骤B1、获取多组训练数据,每组训练数据包括对应的待匹配模态样本数据和候选模态样本数据。
在一个示例中,对于每组训练数据,若其是正样本,则组训练数据中对应的待匹配模态样本数据和候选模态样本数据可以是预选确定好相互匹配的待匹配模态样本数据和候选模态样本数据。比如,可以是人工确认的相互匹配的文本-图像对。
在另一个示例中,对于每组训练数据,若其是负样本,则组训练数据中对应的待匹配模态样本数据和候选模态样本数据可以是预选确定好的不匹配的待匹配模态样本数据和候选模态样本数据。比如,可以是人工确认的不匹配地、所传达信息相差较大的文本-图像对。
步骤B2、对每组训练数据进行量子干涉表示以及特征提取,得到每组训练数据的量子干涉特征数据。其中,步骤B2的具体内容与S220-S230的具体内容类似,对此不再赘述。
步骤B3、将多组训练数据各自的量子干涉特征数据输入待训练的匹配度预测模型,得到多组训练数据各自的匹配度得分。
其中,步骤B3的具体内容与S241的具体内容类似,对此不再赘述。
步骤B4、基于多组训练数据各自的匹配度得分与多组训练数据的匹配度分数标签判断损失函数是否满足预设要求。
在一个示例中,各组训练数据的匹配度分数标签可以是人工预先设置的。
在一个示例中,损失函数可以是三元组损失(Triplet Loss)函数,具体地,可以表示为公式(14):
Figure 766611DEST_PATH_IMAGE027
(14)
其中,
Figure 361540DEST_PATH_IMAGE028
以及
Figure 826020DEST_PATH_IMAGE029
代表待匹配数据与候选模态不匹配的相关性得分。α为超 参数。[x]+≡max(x,0)。模型训练的目标是S(I,T)尽可能的增大,让
Figure 511210DEST_PATH_IMAGE028
尽可能减小。最 后模型通过Adam优化器来更新模型的参数。
需要说明的是,本公开实施例还可以选用对比损失(Contrastive Loss)函数、逻辑回归损失(Softmax Loss)函数、合页损失(Hinge Loss)函数等,对其不作具体限定。
步骤B5、在损失函数不满足预设要求的情况下,调整匹配度预测模型的模型参数,并利用重新获取的多组训练数据再返回步骤B1对调整后的匹配度预测模型进行训练,直到损失函数满足预设要求,得到训练完成的匹配度预测模型。
继续上一示例,模型训练的目标是S(I,T)尽可能的增大,让
Figure 98049DEST_PATH_IMAGE028
以及
Figure 117958DEST_PATH_IMAGE029
尽 可能减小。也就是说,当S(I,T)足够大,
Figure 432133DEST_PATH_IMAGE028
以及
Figure 221098DEST_PATH_IMAGE029
足够小时,得到训练完成的匹 配度预测模型。
在一个示例中,在损失函数不满足预设要求的情况下,可以利用adam优化器调整匹配度预测模型的模型参数。又或者,可以根据实际场景或者具体需求选用动量(Momentum)优化器、Adagrad优化器等对匹配度预测模型的模型参数进行调整,本公开实施例对此不作具体限定。
S242,在匹配度得分满足预设分数条件的情况下,待匹配数据与候选数据相互匹配。
在一个示例中,若候选数据属于候选数据集,则预设分数条件包括:量子干涉特征数据对应的匹配度得分在候选待模态数据集对应的匹配度得分中的排序位置小于或等于前预设数量。其中,前预设数量可以是候选待模态数据集对应的匹配度得分中的前Q个。其中,Q可以根据实际场景和具体需求设置,对其不作限定。
其中,候选待模态数据集对应的匹配度得分可以是将候选数据集中的多个可选模态数据各自对应的匹配度得分、按照从大到小顺序进行排序后排序结果。可选地,候选待模态数据集对应的匹配度得分可以以数组形式进行存储。
具体地,若量子干涉特征数据对应的匹配度得分S(I,T)在候选待模态数据集对应的匹配度得分中、按照从大到小的顺序排列在第1位-第Q位之间,则认为量子干涉特征数据对应的匹配度得分满足预设分数条件。
在另一个示例中,匹配度特征参数对应的匹配度得分大于预设分数阈值。其中,分数阈值可以是预先设定的,或者是根据候选待模态数据集对应的匹配度得分设置的中间值、平均值等,对其具体设置方式不作限定。
在另一些实施例中,除了上述S241至S242示出的匹配方法之外,还可以将量子干涉特征数据输入预先训练好的、具有匹配度分数计算能力以及分类能力的匹配模型。
可选地,匹配模型可以包括用于计算待匹配数据与候选数据的匹配度得分的卷积层,以及根据待匹配模态数据与候选模态数据的匹配得分确定待匹配模态数据与候选模态数据是否相匹配的全连接层。其中,全连接层可以基于诸如Softmax函数、logistic分类函数等分类函数进行分类,对其不作具体限定。
本公开实施例提供的跨模态数据的匹配方法,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到候选数据和待匹配数据之间的量子干涉特征数据。由于量子干涉特征数据以量子概率理论为基础,其能够反映用户对跨模态数据所共同表达信息的认知,从而利用量子干涉特征能够从认知层面对候选数据和待匹配数据进行匹配,提高了跨模态信息的匹配精度。
为了便于整体了解本公开实施例提供的跨模态数据的匹配方法,下面以为新闻文本匹配新闻图片为例,对本申请实施例提供的跨模态数据的匹配逻辑展开具体说明。
图7示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的逻辑示意图。如图7所示,对于待发布新闻文本,可以利用BERT模型提取待发布新闻文本的l个第一数据特征P 1 ,P 2 ,…,P l 。对于数据库中的图片1-图像N,可以利用Faster RCNN模型分别提取每张图片的m个第二特征数据I 1 ,I 2 ,…,I m 。对于每张图片,可以利用本公开实施例提供的跨模态数据的匹配方法,可以基于该张图片m个第二特征数据I 1 ,I 2 ,…,I m 与待发布新闻文本的l个第一数据特征P 1 ,P 2 ,…,P l 构建该张图片与待发布新闻文本的量子干涉特征数据,并基于待发布新闻文本与该张图片的量子干涉特征数据计算得到待发布新闻文本与候选数据的匹配度得分。比如,图片1对应匹配度得分S 1 ,图片2对应匹配度得分S 2 ,同理地,图片N对应匹配度得分S N
然后,将待发布新闻文本分别与图片1-图像N的匹配度得分S 1 -S N 存入数组,并在数组中对匹配度得分S 1 -S N 按照由大到小的顺序排序。若与匹配度得分S 1 -S N 排序结果一一对应的图片排序结果(即按照图片所对应的匹配度得分从大到小的顺序对图片进行排序的结构)为图2、图N、……、图片i,若选用匹配度得分最高的图片与待发布新闻文本进行配对,则可以为待发布新闻文本推荐图2。
图8示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的流程示意图。
在本公开实施例中,台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块。
如图8所示,该跨模态数据的匹配方法可以包括如下步骤。
S810,获取待匹配数据和候选数据。其中,S810的具体内容与S210的具体内容类似,对此不再赘述。
S820,分别对待匹配数据和候选数据进行特征提取,得到待匹配数据的l个第一数据特征和候选数据的m个第二数据特征。其中,S820的具体内容与步骤A1的具体内容类似,对此不再赘述。
示例性地,通过S820,可以提取得到第一数据特征集合P={P 1 ,P 2 ,…,P l },以及第二数据特征集合I={I 1 ,I 2 ,…,I m }。
S830,基于l个第一数据特征和m个第二数据特征,构建叠加态向量。其中,S830的具体内容与步骤A2-A5的具体内容类似,对此不再赘述。
示例性地,通过步骤830构建的叠加态向量可以如下述公式(1)所示。
S840,通过对叠加态向量进行密度算符运算以及偏迹运算,得到叠加态向量的约化密度算子。其中,S840的具体内容与S231至S233的具体内容类似,对此不再赘述。
示例性地,通过步骤840计算得到的约化密度算子可以如下述公式(8)所示。
S850,利用多尺度特征提取模型,提取约化密度算子对应的有效概率分布特征。其中,S850的具体内容与S2331的具体内容类似,对此不再赘述。
示例性地,通过步骤850计算得到的有效概率分布特征可以如下述公式(10)所示。
S860,利用文本注意力机制对有效概率分布特征进行处理,得到量子干涉特征数据。其中,S860的具体内容与S2332的具体内容类似,对此不再赘述。
示例性地,通过步骤860计算得到的量子干涉特征数据可以如下述公式(12)所示。
S870,将量子干涉特征数据输入预先训练的匹配度预测模型,得到待匹配数据与候选数据的匹配度得分。
其中,S870的具体内容与S241的具体内容类似,对此不再赘述。
示例性地,通过步骤870计算得到的匹配度得分可以如下述公式(13)所示。
S880,在匹配度得分满足预设分数条件的情况下,待匹配数据与候选数据相互匹配。
其中,S880的具体内容与S242的具体内容类似,对此不再赘述。
本公开实施例提供的跨模态数据的匹配方法,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到候选数据和待匹配数据之间的量子干涉特征数据。由于量子干涉特征数据以量子概率理论为基础,其能够反映用户对跨模态数据所共同表达信息的认知,从而利用量子干涉特征能够从认知层面对候选数据和待匹配数据进行匹配,提高了跨模态信息的匹配精度。
为了便于理解,接下来本公开实施例以新闻发布场景为例,通过图9-图11对本公开实施例提供的跨模态数据的匹配方法展开具体说明。
图9示出了本公开实施例提供的一种待发布新闻文本的示意图。如图9所示,待发布新闻文本901的新闻内容为“9月30日在CC市举办的篮球比赛中,A队以24:16的比分大胜B队,赢得了本场比赛的……”。在获取该待发布新文本901之后,基于待发布新文本901之后的图文匹配过程可以如图10所示。
图10示出了本公开实施例提供的一种待发布新闻文本与数据库中新闻图片的图文匹配示意图。如图10所示,在获取该待发布新文本901之后,为了筛选出待发布新文本901与相匹配的新闻图片,则可以利用本公开实施例通过图2-图8所示的跨模态数据的匹配方法从数据库1010的多个新闻图片1001-1003中,筛选出与待发布新文本901匹配度最高的新闻图片1003。从而可以快速而准确地向新闻创作者推荐与其写作内容相关的新闻图片,从而对于快速撰写带有图文信息的文章有很大帮助,进而提高了新闻发布效率。
可选地,若基于待发布新文本901和匹配得到的新闻图片1003可以自动生成可发布新闻信息,则其生成的可发布新闻信息如图11所示。
图11示出了本公开实施例提供的一种可发布新闻信息的示意图。如图11所示,可发布新闻信息1101可以包括待发布新文本901以及穿插在待发布新文本901中的新闻图片1003,自动生成的可发布新闻信息1101可以从图、文两个维度对待发布新闻进行准确表述,提高了可发布新闻信息的可读性。
本公开实施例还提供了一种用于实现上述的跨模态数据的匹配方法的跨模态数据的匹配装置,下面结合图12进行说明。
在本公开实施例中,跨模态数据的匹配装置可以为电子设备,例如,该的多媒体显示装置可以为诸如台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块。
图12示出了本公开实施例提供的一种跨模态数据的匹配装置的结构示意图。
如图12所示,该跨模态数据的匹配装置1200可以包括数据获取单元1210、量子化表示单元1220、特征提取单元1230和数据匹配单元1240。
数据获取单元1210,配置为获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;
量子化表示单元1220,配置为对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,量子复合系统为由待匹配数据和候选数据构成的量子系统;
特征提取单元1230,配置为基于分布信息,提取待匹配数据与候选数据之间的量子干涉特征数据;
数据匹配单元1240,配置为在量子干涉特征数据满足预设匹配条件的情况下,确定候选数据和待匹配数据相匹配。
本公开实施例的跨模态数据的匹配装置,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到候选数据和待匹配数据之间的量子干涉特征数据。由于量子干涉特征数据以量子概率理论为基础,其能够反映用户对跨模态数据所共同表达信息的认知,从而利用量子干涉特征能够从认知层面对候选数据和待匹配数据进行匹配,提高了跨模态信息的匹配精度。
在本公开一些实施例中,特征提取单元1230,可以进一步包括第一计算子单元以及第一特征提取子单元。
第一计算子单元,配置为对分布信息进行概率分布计算,得到待匹配数据与候选数据在量子复合系统的概率密度分布参数。
第一特征提取子单元,配置为对概率密度分布参数进行特征提取处理,得到量子干涉特征数据。
在本公开一些实施例中,量子复合系统包括由待匹配数据的数据特征构成的第一子系统和由候选数据的数据特征构成的第二子系统。
相应地,特征提取单元1230,可以进一步包括第二计算子单元、第三计算子单元以及第二特征提取子单元。
第二计算子单元,配置为对分布信息进行概率分布计算,得到待匹配数据与候选数据在量子复合系统内的在量子复合系统的概率密度分布参数。
第三计算子单元,配置为对量子复合系统的概率密度分布参数进行降维处理,得到候选数据在第二子系统维度的概率密度分布参数。
第二特征提取子单元,配置为对第二子系统维度的概率密度分布参数进行特征提取,得到量子干涉特征数据。
可选地,第二特征提取子单元,可以进一步被配置为:
将第二子系统维度的概率密度分布参数输入预先训练的特征提取模型,得到候选数据的有效概率分布特征;
利用注意力机制和待匹配数据的数据特征,对候选数据的有效概率分布特征进行处理,得到量子干涉特征数据。
在本公开一些实施例中,量子化表示单元1220可以进一步配置为:
获取待匹配数据的多个第一数据特征和候选数据的多个第二数据特征;
对任意第一数据特征和任意第二数据特征进行组合,得到多个特征组;
针对每一特征组,对每一特征组中的第一数据特征和每一特征组中的第二数据特征,进行张量积运算处理,得到一个量子复合态向量;
将多个特征组各自的量子复合态向量进行累加,得到用于表示量子复合系统内的分布信息的叠加态向量。
在本公开一些实施例中,预设匹配条件包括量子干涉特征数据对应的匹配度得分满足预设分数条件;
相应地,数据匹配单元1240可以进一步配置为:
在量子干涉特征数据满足预设匹配条件的情况下,确定候选数据和待匹配数据相匹配,具体包括:
将量子干涉特征数据输入预先训练的匹配度预测模型,得到待匹配数据与候选数据的匹配度得分;
在匹配度得分满足预设分数条件的情况下,待匹配数据与候选数据相互匹配。
可选地,候选数据属于候选数据集,预设分数条件包括:
量子干涉特征数据对应的匹配度得分在候选待模态数据集对应的匹配度得分中的排序位置小于或等于前预设数量;或者,匹配度特征参数对应的匹配度得分大于预设分数阈值。
在本公开一些实施例中,待匹配数据和候选数据分别为文本数据、图像数据、视频数据和音频数据中的任意一种。
需要说明的是,图12所示的跨模态数据的匹配装置1200可以执行图2-图8所示的方法实施例中的各个步骤,并且实现图2-图8所示的方法实施例中的各个过程和效果,在此不做赘述。
图13示出了本公开实施例提供的一种跨模态数据的匹配设备的结构示意图。
在本公开一些实施例中,图13所示的跨模态数据的匹配设备可以为台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块。
如图13所示,该跨模态数据的匹配设备可以包括处理器1301以及存储有计算机程序指令的存储器1302。
具体地,上述处理器1301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本公开实施例的一个或多个集成电路。
存储器1302可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器1302可以包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器1302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1302可在综合网关设备的内部或外部。在特定实施例中,存储器1302是非易失性固态存储器。在特定实施例中,存储器1302包括只读存储器(Read-Only Memory,ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable ROM,PROM)、可擦除PROM(Electrical Programmable ROM,EPROM)、电可擦除PROM(Electrically ErasableProgrammable ROM,EEPROM)、电可改写ROM(Electrically Alterable ROM,EAROM)或闪存,或者两个或及其以上这些的组合。
处理器1301通过读取并执行存储器1302中存储的计算机程序指令,以执行本公开实施例所提供的跨模态数据的匹配方法的步骤。
在一个示例中,该跨模态数据的匹配设备还可包括收发器1303和总线1304。其中,如图13所示,处理器1301、存储器1302和收发器1303通过总线1304连接并完成相互间的通信。
总线1304包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture,EISA)总线、前端总线(Front Side BUS,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industrial Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low Pin Count,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、外围控件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment,SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1304可包括一个或多个总线。尽管本公开实施例描述和示出了特定的总线,但本公开考虑任何合适的总线或互连。
本公开实施例还提供了一种计算机可读存储介质,该存储介质可以存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的跨模态数据的匹配方法。
上述的存储介质可以例如包括计算机程序指令的存储器1302,上述指令可由跨模态数据的匹配设备的处理器1301执行以完成本公开实施例所提供的跨模态数据的匹配方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact Disc ROM,CD-ROM)、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种跨模态数据的匹配方法,其特征在于,包括:
获取待匹配数据和候选数据,所述待匹配数据和所述候选数据的数据模态不同;
对所述待匹配数据和候选数据进行量子化表示,得到所述待匹配数据与所述候选数据在量子复合系统内的分布信息;
基于所述分布信息,提取所述待匹配数据与所述候选数据之间的量子干涉特征数据;
在所述量子干涉特征数据满足预设匹配条件的情况下,确定所述候选数据和所述待匹配数据相匹配。
2.根据权利要求1所述的方法,其特征在于,所述基于所述分布信息,提取所述待匹配数据与所述候选数据之间的量子干涉特征数据,包括:
对所述分布信息进行概率分布计算,得到所述待匹配数据与所述候选数据在所述量子复合系统的概率密度分布参数;
对所述概率密度分布参数进行特征提取处理,得到所述量子干涉特征数据。
3.根据权利要求1所述的方法,其特征在于,所述量子复合系统包括由所述待匹配数据的数据特征构成的第一子系统和由候选数据的数据特征构成的第二子系统。
4.根据权利要求3所述的方法,其特征在于,所述基于所述分布信息,提取所述待匹配数据与所述候选数据之间的量子干涉特征数据,具体包括:
对所述分布信息进行概率分布计算,得到所述待匹配数据与所述候选数据在量子复合系统内的在所述量子复合系统的概率密度分布参数;
对所述量子复合系统的概率密度分布参数进行降维处理,得到所述候选数据在第二子系统维度的概率密度分布参数;
对所述第二子系统维度的概率密度分布参数进行特征提取,得到所述量子干涉特征数据。
5.根据权利要求4所述的方法,其特征在于,
所述对所述第二子系统维度的概率密度分布参数进行特征提取,得到所述量子干涉特征数据,具体包括:
将所述第二子系统维度的概率密度分布参数输入预先训练的特征提取模型,得到所述候选数据的有效概率分布特征;
利用注意力机制和所述待匹配数据的数据特征,对所述候选数据的有效概率分布特征进行处理,得到所述量子干涉特征数据。
6.根据权利要求1所述的方法,其特征在于,所述分布信息以向量形式表示;
所述对所述待匹配数据和候选数据进行量子化表示,得到所述待匹配数据与所述候选数据在量子复合系统内的分布信息,包括:
获取所述待匹配数据的多个第一数据特征和所述候选数据的多个第二数据特征;
对所述多个第一数据特征和所述多个第二数据特征进行特征融合,得到叠加态向量;
将所述叠加态向量作为向量形式的分布信息。
7.根据权利要6所述的方法,其特征在于,所述对所述多个第一数据特征和所述多个第二数据特征进行特征融合,得到叠加态向量,包括:
对任意第一数据特征和任意第二数据特征进行组合,得到多个特征组;针对每一特征组,对所述每一特征组中的第一数据特征和所述每一特征组中的第二数据特征,进行张量积运算处理,得到一个量子复合态向量;
将所述多个特征组各自的量子复合态向量进行累加,得到所述叠加态向量。
8.根据权利要求1所述的方法,其特征在于,所述预设匹配条件包括所述量子干涉特征数据对应的匹配度得分满足预设分数条件;
所述在所述量子干涉特征数据满足预设匹配条件的情况下,确定所述候选数据和所述待匹配数据相匹配,具体包括:
将所述量子干涉特征数据输入预先训练的匹配度预测模型,得到所述待匹配数据与所述候选数据的匹配度得分;
在所述匹配度得分满足所述预设分数条件的情况下,所述待匹配数据与所述候选数据相互匹配。
9.根据权利要求8所述的方法,其特征在于,
所述候选数据属于候选数据集,所述预设分数条件包括:
所述量子干涉特征数据对应的匹配度得分在所述候选待数据集对应的匹配度得分中的排序位置小于或等于前预设数量;或者,
所述匹配度特征参数对应的匹配度得分大于预设分数阈值。
10.根据权利要求1所述的方法,其特征在于,
所述待匹配数据和所述候选数据分别为文本数据、图像数据、视频数据和音频数据中的任意一种。
11.一种跨模态数据的匹配装置,其特征在于,包括:
数据获取单元,配置为获取待匹配数据和候选数据,所述待匹配数据和所述候选数据的数据模态不同;
量子化表示单元,配置为对所述待匹配数据和候选数据进行量子化表示,得到所述待匹配数据与所述候选数据在量子复合系统内的分布信息;
特征提取单元,配置为基于所述分布信息,提取待匹配数据与所述候选数据之间的量子干涉特征数据;
数据匹配单元,配置为在所述量子干涉特征数据满足预设匹配条件的情况下,确定所述候选数据和所述待匹配数据相匹配。
12.一种跨模态数据的匹配设备,其特征在于,包括:
处理器;
存储器,用于存储可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-10中任一项所述的跨模态数据的匹配方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-10中任一项所述的跨模态数据的匹配方法。
CN202111199899.0A 2021-10-14 2021-10-14 跨模态数据的匹配方法、装置、设备及介质 Active CN113627151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111199899.0A CN113627151B (zh) 2021-10-14 2021-10-14 跨模态数据的匹配方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111199899.0A CN113627151B (zh) 2021-10-14 2021-10-14 跨模态数据的匹配方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113627151A true CN113627151A (zh) 2021-11-09
CN113627151B CN113627151B (zh) 2022-02-22

Family

ID=78391303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111199899.0A Active CN113627151B (zh) 2021-10-14 2021-10-14 跨模态数据的匹配方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113627151B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281944A (zh) * 2021-12-27 2022-04-05 北京中科闻歌科技股份有限公司 文档匹配模型的构建方法、装置、电子设备及存储介质
CN116775980A (zh) * 2022-03-07 2023-09-19 腾讯科技(深圳)有限公司 一种跨模态搜索方法及相关设备
CN117150145A (zh) * 2023-10-31 2023-12-01 成都企软数字科技有限公司 一种基于大语言模型的个性化新闻推荐方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314204B1 (en) * 1998-11-03 2001-11-06 Compaq Computer Corporation Multiple mode probability density estimation with application to multiple hypothesis tracking
US20050254708A1 (en) * 2004-04-09 2005-11-17 Marie-Pierre Jolly Segmentation of the left ventricle in apical echocardiographic views using a composite time-consistent active shape model
US20060217925A1 (en) * 2005-03-23 2006-09-28 Taron Maxime G Methods for entity identification
CN107230223A (zh) * 2017-06-09 2017-10-03 中国科学院苏州生物医学工程技术研究所 基于不连续运动的肝部三维多模态图像配准方法
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109933802A (zh) * 2019-03-25 2019-06-25 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN111783548A (zh) * 2020-06-04 2020-10-16 河海大学 基于改进特征提取和博弈论超图的sar图像与可见光图像匹配方法
CN112001279A (zh) * 2020-08-12 2020-11-27 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法
CN112884010A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于自编码器的多模态自适应融合深度聚类模型及方法
CN113094486A (zh) * 2021-04-12 2021-07-09 天津大学 一种量子干涉启发的文本问答匹配系统
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113343012A (zh) * 2021-08-05 2021-09-03 人民网科技(北京)有限公司 一种新闻配图方法、装置、设备及存储介质
CN113496285A (zh) * 2021-07-07 2021-10-12 北京百度网讯科技有限公司 基于量子电路的数据处理方法及装置、电子设备和介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6314204B1 (en) * 1998-11-03 2001-11-06 Compaq Computer Corporation Multiple mode probability density estimation with application to multiple hypothesis tracking
US20050254708A1 (en) * 2004-04-09 2005-11-17 Marie-Pierre Jolly Segmentation of the left ventricle in apical echocardiographic views using a composite time-consistent active shape model
US20060217925A1 (en) * 2005-03-23 2006-09-28 Taron Maxime G Methods for entity identification
CN107230223A (zh) * 2017-06-09 2017-10-03 中国科学院苏州生物医学工程技术研究所 基于不连续运动的肝部三维多模态图像配准方法
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN109783655A (zh) * 2018-12-07 2019-05-21 西安电子科技大学 一种跨模态检索方法、装置、计算机设备和存储介质
CN109933802A (zh) * 2019-03-25 2019-06-25 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN111783548A (zh) * 2020-06-04 2020-10-16 河海大学 基于改进特征提取和博弈论超图的sar图像与可见光图像匹配方法
CN112001279A (zh) * 2020-08-12 2020-11-27 山东省人工智能研究院 基于双重属性信息的跨模态行人重识别方法
CN112884010A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于自编码器的多模态自适应融合深度聚类模型及方法
CN113094486A (zh) * 2021-04-12 2021-07-09 天津大学 一种量子干涉启发的文本问答匹配系统
CN113157739A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 跨模态检索方法、装置、电子设备及存储介质
CN113496285A (zh) * 2021-07-07 2021-10-12 北京百度网讯科技有限公司 基于量子电路的数据处理方法及装置、电子设备和介质
CN113343012A (zh) * 2021-08-05 2021-09-03 人民网科技(北京)有限公司 一种新闻配图方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
YANG LI等: "Kernel-based multifactor analysis for image synthesis and recognition", 《TENTH IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV"05)》 *
刘大山等: "QPSO算法识别环境激励下结构模态参数", 《苏州科技学院学报(工程技术版)》 *
吴飞等: "基于张量表示的直推式多模态视频语义概念检测", 《软件学报》 *
廖秀秀等: "基于隐含形状表示和边缘信息融合的非刚体图像配准", 《中国生物医学工程学报》 *
李彬等: "基于自适应自由变形法和梯度下降法的胸部多模医学图像配准", 《计算机应用研究》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114281944A (zh) * 2021-12-27 2022-04-05 北京中科闻歌科技股份有限公司 文档匹配模型的构建方法、装置、电子设备及存储介质
CN116775980A (zh) * 2022-03-07 2023-09-19 腾讯科技(深圳)有限公司 一种跨模态搜索方法及相关设备
CN116775980B (zh) * 2022-03-07 2024-06-07 腾讯科技(深圳)有限公司 一种跨模态搜索方法及相关设备
CN117150145A (zh) * 2023-10-31 2023-12-01 成都企软数字科技有限公司 一种基于大语言模型的个性化新闻推荐方法及系统
CN117150145B (zh) * 2023-10-31 2024-01-02 成都企软数字科技有限公司 一种基于大语言模型的个性化新闻推荐方法及系统

Also Published As

Publication number Publication date
CN113627151B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
Al-Ayyoub et al. Deep learning for Arabic NLP: A survey
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
Alhumoud et al. Arabic sentiment analysis using recurrent neural networks: a review
CN111897964A (zh) 文本分类模型训练方法、装置、设备及存储介质
Zhang et al. Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network.
Karayiğit et al. Detecting abusive Instagram comments in Turkish using convolutional Neural network and machine learning methods
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111126067B (zh) 实体关系抽取方法及装置
Nasim et al. Sentiment analysis on Urdu tweets using Markov chains
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
Islam et al. Deep learning for multi-labeled cyberbully detection: Enhancing online safety
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Kasnesis et al. Transformer-based identification of stochastic information cascades in social networks using text and image similarity
CN113535949B (zh) 基于图片和句子的多模态联合事件检测方法
Lin et al. Ensemble making few-shot learning stronger
CN111523311B (zh) 一种搜索意图识别方法及装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Liu et al. LIRIS-Imagine at ImageCLEF 2011 Photo Annotation Task.
US20230368003A1 (en) Adaptive sparse attention pattern
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
CN115269833A (zh) 基于深度语义和多任务学习的事件信息抽取方法及系统
Singh et al. Visual content generation from textual description using improved adversarial network
Mahalakshmi et al. Twitter sentiment analysis using conditional generative adversarial network
Ahmed et al. Hateful meme prediction model using multimodal deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant