CN113656660A - 跨模态数据的匹配方法、装置、设备及介质 - Google Patents
跨模态数据的匹配方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113656660A CN113656660A CN202111199634.0A CN202111199634A CN113656660A CN 113656660 A CN113656660 A CN 113656660A CN 202111199634 A CN202111199634 A CN 202111199634A CN 113656660 A CN113656660 A CN 113656660A
- Authority
- CN
- China
- Prior art keywords
- data
- matched
- correlation
- candidate
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种跨模态数据的匹配方法、装置、设备及介质。其中,跨模态数据的匹配方法包括:获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;基于分布信息,进行相关性特征计算,得到待匹配数据与候选数据之间的相关性特征参数;在相关性特征参数满足预设匹配条件的情况下,确定待匹配数据与候选数据相互匹配。根据本公开实施例,能够提高跨模态信息的匹配精度。
Description
技术领域
本公开涉及信息匹配技术领域,尤其涉及一种跨模态数据的匹配方法、装置、设备及介质。
背景技术
在信息匹配技术的发展过程中,如何进行跨模态信息匹配的问题逐渐引起相关人员的注意。
现阶段,往往采用采用神经网络模型计算跨模态信息相似度,进而根据相似度进行跨模态信息匹配。然而,由于跨模态信息匹配的模式复杂、不同模态信息之间在认知层面上存在较大语义差异等问题的存在,往往导致该方案在跨模态信息匹配技术中计算精度较低。
因此,需要一种能够提高跨模态信息匹配的匹配准确率的技术方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种跨模态数据的匹配方法、装置、设备及介质。
第一方面,本公开提供了一种跨模态数据的匹配方法,包括:
获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;
对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;
基于分布信息,进行匹配度特征计算,得到待匹配数据与候选数据之间的相关性特征参数,相关性特征参数用于表征待匹配数据与候选数据之间的双向相关性特征;
在相关性特征参数满足预设匹配条件的情况下,确定待匹配数据与候选数据相互匹配。
第二方面,本公开提供了一种跨模态数据的匹配装置,包括:
数据获取单元,配置为获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;
量子化表示单元,配置为对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;
参数计算单元,配置为基于分布信息进行匹配度特征计算,得到待匹配数据与候选数据之间的相关性特征参数,相关性特征参数用于表征待匹配数据与候选数据之间的双向相关性特征;
数据匹配单元,配置为在相关性特征参数满足预设匹配条件的情况下,确定待匹配数据与候选数据相互匹配。
第三方面,本公开提供了一种跨模态数据的匹配设备,包括:
处理器;
存储器,用于存储可执行指令;
其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现第一方面的跨模态数据的匹配方法。
第四方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的跨模态数据的匹配方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的跨模态数据的匹配方法、装置、设备及介质,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到相关性特征参数。由于相关性特征参数能够表征待匹配数据与候选数据之间的双向相关性特征,即相关性特征参数能够在用户认知层面上,表征用户依次认知待匹配数据、候选数据时二者表达信息的相关性,以及用户依次认知候选数据、待匹配模态数时二者表达信息的相关性,因此利用相关性特征参数进行跨模态数据匹配时,能够充分考虑候选数据和待匹配数据之间认知次序对二者相关性的影响,进而提高了跨模态信息的匹配精度。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1示出了文本中的第i个文本词项相对于图像中的第j个图像区域的相关性的示意图;
图2示出了图像中的第j个图像区域相对于文本中的第i个文本词项的相关性的示意图;
图3示出了本公开实施例提供的一种跨模态数据的匹配方法的流程示意图;
图4示出了本公开实施例提供的另一种跨模态数据的匹配方法的流程示意图;
图5示出了本公开实施例提供的又一种跨模态数据的匹配方法的流程示意图;
图6示出了本公开实施例提供的再一种跨模态数据的匹配方法的流程示意图;
图7示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的逻辑示意图;
图8示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的流程示意图;
图9示出了本公开实施例提供的一种待发布新闻文本的示意图;
图10示出了本公开实施例提供的一种待发布新闻文本与数据库中新闻图片的图文匹配示意图;
图11示出了本公开实施例提供的一种可发布新闻信息的示意图;
图12示出了本公开实施例提供的一种跨模态数据的匹配装置的结构示意图;
图13示出了本公开实施例提供的一种跨模态数据的匹配设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在信息匹配技术的发展过程中,如何进行跨模态信息匹配的问题逐渐引起相关人员的注意。比如,图像-文本匹配技术,即一种测量图像和文本之间的视觉-语义相似度的技术,可以在跨模态匹配、图像标注、文本生成图像和多模态神经机器翻译等各种视觉和语言任务中起到越来越重要的作用。
尽管近年来跨模态数据匹配研究取得了很大的进展,但由于跨模态匹配模式复杂,跨模态数据之间存在较大的语义差异,因此跨模态数据匹配仍然是一个具有挑战性的问题。
为了便于说明,接下来以图文匹配技术为例,对跨模态数据匹配的相关技术展开具体说明。
在一种相关技术中,为了准确地建立图像和文本之间的关联,可以利用深度神经网络首先将图像和文本编码成稠密表示,然后学习度量它们的相似度。在一个示例性的相关技术中,可以将整个图像和整个句子映射到一个公共向量空间,并计算全局表示之间的余弦相似度。
在另一种相关技术中,为了提高统一嵌入的判别能力,可以通过语义概念学习和区域关系推理等策略,融合局部区域语义增强视觉特征。
然而,当人们描述他们所看到的事物时,经常涉及到图像中的物体和其他突出的东西,以及它们的属性和动作。从某种意义上说,句子描述是一种弱注释,句子中的单词对应于图像中某些特定但未知的区域。通过捕捉视觉和语言之间的细粒度相互作用,推断图像区域和词语之的细粒度相互作用,推断图像区域和词语之间的潜在对应关系是实现更易于解释的图像-文本匹配的关键。
基于上述发现,在又一种相关技术中,提出了发现图像区域和句子片段之间所有可能的对齐作为上下文,去推断图像-文本相似度。这种方法产生了极好的检索结果,并激发了探索更精确的细粒度对应的工作热潮。
然而,申请人通过研究发现,上述相关技术虽然通过设计各种机制来编码更强大的特征或捕获更准确的对齐已经取得了显著的改进,但是这些相关技术忽略了图像-文本匹配等跨模态匹配任务不仅是一个跨模态的匹配任务,同样是一个复杂而主观的跨模态认知过程。
具体地,不同模态数据所传达的信息会同时影响用户最终的信息理解过程,比如用户对跨模态数据以不同顺序阅读时,可能产生不同的相关性判断。申请人将这种现象称为认知次序效应,即用户的相关性判断并不是简单的匹配证据(例如,共现证据)叠加,也无法用经典概率理论解释。
然而,申请人发现,现有的图文匹配模型主要围绕着提取更强大的多模态特征、捕获更准确的对齐和训练优秀的相关性计算网络展开的,而没有对认知次序效应对进行考虑和建模,因此无法在认知层面给出模型的可解释性依据,从而上述相关技术中的图片匹配技术往往会导致计算得到的图像-文本相关性与用户的真实实验结果存在差异,影像跨模态数据的匹配精度。
基于此,申请人提出了一种跨模态数据的匹配方案,可以应用于跨模态数据匹配场景中。示例性地,可以应用于为新闻文本匹配上合适的新闻图像的具体场景中。本公开实施例提出的跨模态数据的匹配方案,由于相关性特征参数能够表征待匹配数据与候选数据之间的双向相关性特征,即相关性特征参数能够在用户认知层面上,表征用户依次认知待匹配数据、候选数据时二者表达信息的相关性,以及用户依次认知候选数据、待匹配模态数时二者表达信息的相关性,因此利用相关性特征参数进行跨模态数据匹配时,能够充分考虑候选数据和待匹配数据之间认知次序对二者相关性的影响,进而提高了跨模态信息的匹配精度。
在开始介绍本公开实施例提供的跨模态数据的匹配方案之前,为了便于理解,本公开实施例先对涉及的相关技术属于进行说明。
一、认知次序效应。
图1示出了文本中的第i个文本词项相对于图像中的第j个图像区域的相关性的示意图。其中,向量I j 用于表示第j个图像区域所表示的语义,向量T i 用于表示第i个文本词项所表示的语义,向量S表示图像和文本的联合语义。
如图1所示,该投影测量的过程可以视为将向量S沿着虚线①的垂直方向在向量T i 上进行投影,得到第一投影量。再将第一投影量沿着虚线②的垂直方向在向量I j 上进行投影,得到第二投影量。
其中,图1中用括号在向量I j 上括出的线段即为第二投影量。相应地,第二投影量的长度可表示第i个文本词项相对于第j个图像区域的相关性。
图2示出了图像中的第j个图像区域相对于文本中的第i个文本词项的相关性的示意图。
如图2所示,该投影测量的过程可以视为向量S沿着虚线③的垂直方向在向量I j 上进行投影,得到第三投影量。再将第三投影量沿着虚线④的垂直方向在向量T i 上进行投影,得到第四投影量。
其中,图2中用括号在向量T i 上括出的线段即为第四投影量。相应地,第四投影量的长度可表示第j个图像区域相对于第i个文本词项的相关性。
通过图1和图2对比可知,第二投影量的长度和第四投影量的长度不同,相应地,。由于表示了先接触文本再接触图片该认知次序下图片和文本
的相关性,表示了先接触图片再接触文本该认知次序下图片和文本的相关性。因
此,通过图1和图2对比可知,跨模态数据的认知次序对跨模态数据的匹配精度存在影响。
图3示出了本公开实施例提供的一种跨模态数据的匹配方法的流程示意图。
在本公开实施例中,跨模态数据的匹配方法各步骤的执行主体可以是台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
如图3所示,该跨模态数据的匹配方法可以包括如下步骤。
S310,获取待匹配数据和候选数据。
在本公开实施例中,待匹配数据和候选数据的数据模态不同。也就是说,待匹配数据和候选数据可以为不同类型的多媒体数据。
在一些实施例中,待匹配数据和候选数据分别为文本数据、图像数据、视频数据和音频数据中的任意一种。示例性地,若待匹配数据为文本数据,候选数据为文本数据、图像数据、视频数据和音频数据中除文本数据之外的任意一种。比如,候选数据可以是图像数据。
在一个示例中,在新闻发布场景中,待匹配数据可以是新闻文本,候选数据可以是新闻图片。
在一些实施例中,为了能够为待匹配数据匹配到匹配度较高的候选数据,可以将候选数据集中的多个可选模态数据分别作为候选数据,并依据本公开实施例的跨模态匹配方法对待匹配数据和候选数据进行匹配。其中,候选数据集中的数据与待匹配数据的模态不同。可选地,候选数据集可以是候选数据库中的数据所组成的集合。比如,在新闻发布场景中,候选数据库可以是媒体平台的图片库或者是网页的图片库,对其不作限定。
S320,对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息。其中,量子复合系统为由待匹配数据和候选数据构成的量子系统。
在一些实施例中,若待匹配数据包括l个第一数据单元,则l个第一数据单元的数据特征可以作为从待匹配数据中提取出l个第一数据特征,分别为e 1 、e 2 、…、e l ;若候选数据包括k个第二数据单元,则k个第二数据单元的数据特征可以作为从候选数据中提取出k个第二数据特征,分别为v 1 、v 2 、…、v k 。则该量子复合系统可以视为定义在由l个第一特征数据的向量和k个第二特征数据的向量所构成的向量空间内的量子系统。其中,l和k为大于1的整数。
具体地,若任意第一数据特征的向量、任意第二数据特征可以构成该量子复合系统内的一个量子复合态向量。则可以用该量子复合系统内的多个量子复合态向量构成的叠加态向量来表示待匹配数据与候选数据在量子复合系统内的分布信息。
P ij 表示量子复合态向量的权重值。可选地,P ij 可以为第i个第一数据特征的特征向量与第j个第二数据特征的特征向量间的相似度。
相应地,P ij 可以如下述公式(2)所示:
s ij 可以如下述公式(3)所示:
其中,公式(3)中i的取值范围为[1,k],j的取值范围为[1,l]。
需要说明的是,量子复合态向量的权重值还可以预先设置的固定值、或者是训练得到的值,对其获取方式不作具体限定。
申请人经研究表明,这种通过张量积形式对跨模态数据进行量子化表示的方法,
可以利用叠加态向量表征跨模态数据的特征向量在各维度之间的交互作用,从而能够对
跨模态数据的所有可能的组合高级语义进行建模,因此所得到的叠加态向量对跨模态数
据所构成的共同表达信息具有较强的表达能力。
相应地,在一个实施例中,S220具体包括下述步骤A1至步骤A2。
步骤A1,获取待匹配数据的多个第一数据特征和候选数据的多个第二数据特征。
在一个实施例中,可以对待匹配数据进行特征提取,得到l个第一数据特征。相应地,可以用l个第一数据特征所构成的第一数据特征集合T来表示待匹配数据。
第一数据特征集合T可以如公式(4)所示:
T={e 1 ,e 2 ,…,e l }(4)
在一个示例中,若待匹配数据为文本数据,则可以提取该文本的l个词项的特征,又或者可以提取该文本的l个句子的特征,又或者可以提取该文本的l个段落的特征,对其特征提取粒度不作具体限定。可选地,可以利用预先训练的Transformer的双向编码表示(Bidirectional Encoder Representation from Transformers,Bert)模型等来进行文本特征提取。需要说明的是,还可以适用诸如词频-逆向文件频率(TF-IDF)、将单词转换成向量的(word to vector,Word2Vec)模型、Countvectorizer(即一种文本特征抽取函数)等文本特征提取方法进行特征提取,对具体提取方式不作限定。
在一个具体地示例中,可以将文本数据的第i个词项w i 通过Bert模型进行编码得到第i个词项的特征向量w i 。
相应地,第i个词项的特征向量P i 可以表示为下述公式(5):
e i =bert(w i )(5)
在另一个示例中,若待匹配数据为图像,则可以提取该图像的l个图像区域的特征。具体的,可以采用预先训练的Faster RCNN模型提取图像特征。需要说明的是,本公开实施例还可以采用尺度不变特征变换(Scale-Invariant Features Transform,SIFT)模型、加速稳健特征(Speeded Up Robust Features,SURF)模型、方向梯度直方图(Histogram ofOriented Gradient、HOG)算法、高斯函数的差分(Difference of Gaussian,DOG)算法、局部二值模式(Local Binary Pattern,LBP)特征提取算法等方式提取图像特征,对具体特征提取方式不作限定。
在又一个示例中,若待匹配数据为视频,则可以利用上述图像提取算法提取一个或多个视频帧的特征,又或者可以将视频数据输入预先训练的视频特征提取模型,得到视频数据的特征,对其特征提取方式不作具体限定。其中,视频特征提取模型可以是三维卷积网络(3D Convolutional Neural Network,3D CNN)模型。
在再一个示例中,若待匹配数据为音频,则可以利用语音识别(Automatic SpeechRecognition,ASR)算法将音频数据转换为文本,再对其进行文本特征提取,得到l个第一数据特征。其中,文本特征提取算法可以参见本公开实施例上述部分的相关说明,对此不再赘述。又或者,可以利用预先训练好的语言特征提取模型或者语音特征提取算法提取音频的特征,对此不作具体限定。其中,语音特征提取算法可以是线性预测分析(LinearPredictionCoefficients,LPC)算法、感知线性预测系数(PerceptualLinearPredictive,PLP)算法等能够提取语音特征的方法,对其不作具体限定。
在另一个实施例中,可以对候选数据进行特征提取,得到k个第二数据特征。相应地,可以用k个第二数据特征所构成的第二数据特征集合I来表示待匹配数据。
第二数据特征集合I可以如公式(7)所示:
I={v 1 ,v 2 ,…,v k }(7)
其中,候选数据的具体特征提取内容可以参见本公开实施例上述部分对候选数据的特征提取方式的相关描述,在此不再赘述。
在一个示例中,若候选数据为图片,则将目标检测框在该图片中框选的第j个图像区域i j 输入预先训练的Faster RCNN模型得到的特征向量v j 可以如公式(8)所示:
v j =Faster_RCNN(i j )(8)
步骤A2,对多个第一数据特征和多个第二数据特征进行特征融合,得到叠加态向量,将叠加态向量作为向量形式的分布信息。
在一个示例中,可以基于上述公式(1)计算得到叠加态向量。相应地,步骤A2可以包括步骤A21至A23。
步骤A21,对任意第一数据特征和任意第二数据特征进行组合,得到多个特征组。
示例性地,第1个第一数据特征可以分别与k个第二特征数据组成k个特征组,第2个第一数据特征可以分别与k个第二特征数据组成k个特征组,同理地,第l个第一数据特征可以分别与k个第二特征数据组成k个特征组。
步骤A22,针对任一特征组,对该特征组中的第一数据特征和每一特征组中的第二数据特征,进行张量积运算处理,得到该特征组对应的量子复合态向量。
步骤A23,将多个特征组各自对应的量子复合态向量进行累加,得到一个量子复合态向量。
继续上一示例,可以先对各量子复合态向量进行加权处理,得到各量子复合态加权向量。然后将多个特征组各自的量子复合态加权向量进行累加,得到如公式(1)示出的量子叠加态向量。
需要说明的是,还可以通过其他形式,基于多个第一特征数据和第二特征数据得到叠加态向量,本申请实施例对叠加态向量的具体计算公式以及计算步骤不作具体限定。
在另一些实施例中,S220还可以具体包括:将待匹配数据和候选数据输入预先训练的量子化表示模型,得到上述叠加态向量。其中,量子化表示模型可以是能够在输入匹配模态数据和候选数据时对应输出叠加态向量的神经网络模型,比如CNN模型、RNN模型、深度神经网络(Deep Neural Networks,DNN)、或者上述网络的改进型网络来进行量子化表示,本公开实施例对提取有效概率分布特征的模型类型不作具体限定对其具体类型不作限定。
S330,基于分布信息进行相关性特征计算,得到相关性特征参数。
在本公开实施例中,相关性特征参数用于表征待匹配数据与候选数据之间的双向相关性特征。也就是说,相关性特征参数能够在用户认知层面上,表征用户依次认知待匹配数据、候选数据时二者表达信息的相关性,以及用户依次认知候选数据、待匹配模态数时二者表达信息的相关性。可选地,相关性特征参数包括待匹配数据相对于候选数据的第一相关性特征、以及候选数据相对于待匹配数据的第二相关性特征。
在一些实施例中,由于量子复合系统的叠加态向量的维度较高,为了便于计算,可以先对叠加态向量进行降维表示。示例性地,可以采用稠密向量表示、稀疏向量表示等方式对叠加态向量进行降维表示,对其具体降维方式不作限定。
在一个实施例中,为了便于计算,图4示出了本公开实施例提供的另一种跨模态数据的匹配方法的流程示意图。图4与图3的不同之处在于,S330可以具体包括S331至S332。
S331,对分布信息进行稠密表示,得到稠密向量。
具体地,分布信息对应的稠密向量S可以表示为下述公式(9):
S332,基于稠密向量进行匹配度特征计算,得到相关性特征参数。需要说明的是,利用稠密向量构建相关性特征参数的方式与利用分布信息构建匹配度特征的方式相似,对此不再赘述。
需要说明的是,直接利用该叠加态向量进行后续计算的方案,往往因量子复合系统的叠加态向量的维度较高导致对计算资源要求比较高。而本公开实施例通过上述实施例示出的诸如稠密向量表示等降维表示方法,可以对量子复合系统的叠加态向量进行降维处理,进而减小了后续步骤对计算资源的要求,提高了计算效率。
此外,由于S330中还涉及到匹配度特征计算的问题,接下来,本公开实施例的下述部分将结合多个实施例对如何进行匹配度特征计算的具体实施步骤展开具体说明。
在一些实施例中,图5示出了本公开实施例提供的又一种跨模态数据的匹配方法的流程示意图。图5与图3的不同之处在于,S330可以具体包括S333至S335。
S333,对分布信息进行待匹配数据相对于候选数据的相关性计算,得到第一相关性特征。
其中,第一相关性特征可以用来描述在以待匹配数据为基准对候选数据进行搜索匹配的过程中、待匹配数据与候选数据之间相似性。比如,第一相关性特征可以为以文搜图时图像与文本之间的匹配度特征。需要说明的是,由于以待匹配数据为基准对候选数据进行搜索匹配的过程代表着先认知待匹配数据、再认知候选模态数的认知过程,对该过程的第一相关性特征能够表征用户依次认知待匹配数据、候选数据时二者表达信息的相关性。
在S333中,可以将分布信息由量子复合系统所表征的全向量空间内映射到由待匹配数据组成第一向量空间,得到待匹配数据与候选数据在第一向量空间内的第一向量。再将该第一向量表示由第一向量空间映射到由候选数据形成的第二向量空间,即得到第二向量。该第二向量即可表示第一相关性特征。
在一个实施例中,待匹配数据包括多个第一数据单元,候选数据包括多个第二数据单元。比如,待匹配数据为文本时,第一数据单元可以是文本中的词项、句子、段落等。又比如,若候选数据为图片时,第二数据单元可以是图片中的图像区域。
相应地,S333具体包括步骤B1至步骤B3。
步骤B1,针对k个第二数据单元中的任一第二数据单元,对分布信息进行由待匹配数据向该第二数据单元的投影测量计算,得到待匹配数据相对于该第二数据单元的第一相关性数据。
在公式(10)中,表示第i个第一数据单元的权重系数。可选地,第i个第一数
据单元的权重系数可以是预选设置的、或者训练得到的。又或者,可以以利用多个第二数据
单元计算每个第一数据单元的重要性的方式得到的。相应地,满足公式(11):
步骤B11,针对l个第一数据单元中的任一第一数据单元,对分布信息进行由该第一数据单元向该第二数据单元的投影测量计算,得到该第二数据单元相对于该第一数据单元的第一相关性数据单元。
步骤B12,利用该第二数据单元对应的权重值,分别对l个第一相关性数据单元进行加权处理,得到l个第一加权数据单元。其中,l个第一相关性数据单元包括:该第二数据单元相对于第1个第一数据单元的第一相关性数据单元、该第二数据单元相对于第2个第一数据单元的第一相关性数据单元、……、该第二数据单元相对于第l个第一数据单元的第一相关性数据单元。
步骤B13,将l个第一加权数据单元进行叠加处理,得到第一相关性数据。
其具体计算方式可以参见本公开实施例上述步骤对公式(10)的相关描述,在此不再赘述。
另一示例性地,为了提高计算速率,相对于公式(10),可以不采用第i个第一数据单元的权重系数,直接计算待匹配数据相对于第j个第二数据单元的相关性数据。
又一示例性地,可以将分布信息输入利用预先训练好的计算模型,得到待匹配数据相对于任一第二数据单元的相关性数据。其中,该计算模型可以是能够在输入该分布信息时对应输出待匹配数据相对于任一第二数据单元的相关性数据的神经网络模型,比如CNN模型、RNN模型、DNN模型、或者上述网络的改进型网络,对其具体类型不作限定。
步骤B2,将k个第一相关性数据进行拼接,得到第一相关性特征。其中,k个第一相关性数据包括:待匹配数据相对于第1个第二数据单元的第一相关性数据、待匹配数据相对于第2个第二数据单元的第一相关性数据、……、待匹配数据相对于第k个第二数据单元的第一相关性数据。
其中,函数concat()表示张量合并操作。需要说明的是,本公开实施例还可以采用其他数据拼接方式,拼接得到第一相关性特征,对其具体拼接方式不作限定。
在另一个实施例,除了利用步骤B1和步骤B2提取第一相关性特征之外,可以将分布信息输入利用预先训练好的特征提取模型,得到该第一相关性特征。其中,该特征提取模型可以是能够在输入该分布信息时对应输出第一相关性特征的神经网络模型,比如CNN模型、RNN模型、DNN模型、或者上述网络的改进型网络,对其具体类型不作限定。
S334,对分布信息进行第二相关性特征数据相对于待匹配数据的相关性计算,得到第二相关性特征。
其中,第二相关性特征可以用来描述在以候选数据为基准对待匹配数据进行搜索匹配的过程中、待匹配数据与候选数据之间相似性。比如,第二相关性特征可以为以图搜文时图像与文本之间的匹配度特征。另外,由于以候选数据为基准对待匹配数据进行搜索匹配代表着先认知候选数据、再认知待匹配数据的认知过程,对该过程的第二相关性特征能够表征用户依次认知候选数据、待匹配模态数时二者表达信息的相关性。
在S334中,可以将分布信息由量子复合系统所表征的全向量空间内映射到由候选数据形成的第二向量空间,得到待匹配数据与候选数据在第二向量空间内的第三向量。再将该第三向量由第二向量空间映射到由待匹配数据形成的第一向量空间,即得到四向量。该第四向量即可表示第二相关性特征。
在一个实施例中,S334具体包括步骤C1和步骤C2。
步骤C1,针对l个第一数据单元中的任一第一数据单元,对分布信息进行由候选数据向该一数据单元的投影测量计算,得到候选数据相对于该第一数据单元的第二相关性数据。
在公式(14)中,表示第j个第二数据单元的权重系数。可选地,第j个第二数
据单元的权重系数可以是预选设置的、或者训练得到的。又或者,可以以利用多个第二数据
单元计算每个第一数据单元的重要性的方式得到的。相应地,满足公式(15):
步骤C11,针对k个第二数据单元中的任一第二数据单元,对分布信息进行由该第二数据单元向该第一数据单元的投影测量计算,得到该第一数据单元相对于该第二数据单元的第二相关性数据单元。
步骤C12,利用该第一数据单元对应的权重值,分别对k个第二相关性数据单元进行加权处理,得到k个第二加权数据单元。其中,k个第二相关性数据单元包括:该第一数据单元相对于第1个第二数据单元的第二相关性数据单元、该第一数据单元相对于第2个第二数据单元的第二相关性数据单元、……、该第一数据单元相对于第k个第二数据单元的第二相关性数据单元。
步骤C13,将k个第二相关性数据单元进行叠加处理,得到第二相关性数据。
其具体计算方式可以参见本公开实施例上述步骤对公式(14)的相关描述,在此不再赘述。
另一示例性地,为了提高计算速率,相对于公式(14),可以不采用第j个第二数据单元的权重系数,直接计算候选数据相对于第i个第一数据单元的相关性数据。
又一示例性地,可以将分布信息输入利用预先训练好的计算模型,得到候选数据相对于第i个第一数据单元的相关性数据。其中,该计算模型可以是能够在输入该分布信息时对应输出候选数据相对于任一第一数据单元的相关性数据的神经网络模型,比如CNN模型、RNN模型、DNN模型、或者上述网络的改进型网络,对其具体类型不作限定。
步骤C2,将l个第二相关性数据进行拼接,得到第二相关性特征。其中,l个第二相关性数据包括:候选数据相对于第1个第一数据单元的第二相关性数据、候选数据相对于第2个第一数据单元的第二相关性数据、……、候选数据相对于第k个第一数据单元的第二相关性数据。
需要说明的是,本公开实施例还可以采用其他数据拼接方式,拼接得到第二相关性特征,对其具体拼接方式不作限定。
S335,将第一相关性特征和第二相关性特征拼接,得到相关性特征参数。
在一些实施例中,可以利用张量合并操作对第一相关性特征和第二相关性特征进行拼接。
需要说明的是,本公开实施例还可以采用其他数据拼接方式,拼接得到相关性特征参数,对其具体拼接方式不作限定。
在又一些实施例中,还可以通过预先训练好的模型来实现S330,具体地,可以将该分布信息输入预先训练的特征提取模型,得到该相关性特征参数。其中,特征提取模型可以是能够在输入该分布信息时对应输出相关性特征参数的神经网络模型,比如CNN模型、RNN模型、DNN模型、或者上述网络的改进型网络,对其具体类型不作限定。
S340,在相关性特征参数满足预设匹配条件的情况下,确定待匹配数据与候选数据相互匹配。
在本公开实施例中,预设匹配条件为当候选数据和待匹配数据相匹配时,相关性特征参数所需要满足的条件。
在一些实施例中,预设匹配条件包括相关性特征参数对应的匹配度得分满足预设分数条件。
相应地,图6示出了本公开实施例提供的再一种跨模态数据的匹配方法的流程示意图。图6与图2的不同之处在于,S240可以具体包括S241和S242。
S241,将相关性特征参数输入预先训练的匹配度预测模型,得到待匹配数据与候选数据的匹配度得分。
其中,匹配度得分的取值区间为(0,1),输出层激活函数为sigmoid。F(·)为全连接网络作为相关性预测器,计算图像文本最终的相关性得分。
需要说明的是,本公开实施例还可以使用RNN模型、LSTM模型或者各类预测模型的改进模型作为匹配度预测模型,对匹配度预测模型的具体类型不作限定。
在一个示例中,匹配度预测模型的训练过程可以包括如下步骤D1-步骤D5。
步骤D1、获取多组训练数据,每组训练数据包括对应的待匹配模态样本数据和候选模态样本数据。
在一个示例中,对于每组训练数据,若其是正样本,则组训练数据中对应的待匹配模态样本数据和候选模态样本数据可以是预选确定好相互匹配的待匹配模态样本数据和候选模态样本数据。比如,可以是人工确认的相互匹配的文本-图像对。
在另一个示例中,对于每组训练数据,若其是负样本,则组训练数据中对应的待匹配模态样本数据和候选模态样本数据可以是预选确定好的不匹配的待匹配模态样本数据和候选模态样本数据。比如,可以是人工确认的不匹配地、所传达信息相差较大的文本-图像对。
步骤D2、对每组训练数据进行量子干涉表示以及特征提取,得到每组训练数据的相关性特征参数。其中,步骤D2的具体内容与S220-S230的具体内容类似,对此不再赘述。
步骤D3、将多组训练数据各自的相关性特征参数输入待训练的匹配度预测模型,得到多组训练数据各自的匹配度得分。
其中,步骤D3的具体内容与S241的具体内容类似,对此不再赘述。
步骤D4、基于多组训练数据各自的匹配度得分与多组训练数据的匹配度分数标签判断损失函数是否满足预设要求。
在一个示例中,各组训练数据的匹配度分数标签可以是人工预先设置的。
在一个示例中,损失函数可以是三元组损失(Triplet Loss)函数,具体地,可以表示为公式(20):
需要说明的是,本公开实施例还可以选用对比损失(Contrastive Loss)函数、逻辑回归损失(Softmax Loss)函数、合页损失(Hinge Loss)函数等,对其不作具体限定。
步骤D5、在损失函数不满足预设要求的情况下,调整匹配度预测模型的模型参数,并利用重新获取的多组训练数据再返回步骤B1对调整后的匹配度预测模型进行训练,直到损失函数满足预设要求,得到训练完成的匹配度预测模型。
在一个示例中,在损失函数不满足预设要求的情况下,可以利用adam优化器调整匹配度预测模型的模型参数。又或者,可以根据实际场景或者具体需求选用动量(Momentum)优化器、Adagrad优化器等对匹配度预测模型的模型参数进行调整,本公开实施例对此不作具体限定。
可选地,本公开在MS-COCO和Flickr30K数据集上对方法进行了评估。Flickr30K包含了从Flickr网站上收集的31000张图片,每张图片都有5个标题。本公开使用1000张图像进行验证,1000张图像用于测试,其余的用于训练。MS-COCO包含123,287张图片,每张图片都有5个文本描述。在本发明中,数据集被分为82783张训练图像、5000张验证图像和5000张测试图像。
S242,在匹配度得分满足预设分数条件的情况下,待匹配数据与候选数据相互匹配。
在一个示例中,若候选数据属于候选数据集,则预设分数条件包括:相关性特征参数对应的匹配度得分在候选待模态数据集对应的匹配度得分中的排序位置小于或等于前预设数量。其中,前预设数量可以是候选待模态数据集对应的匹配度得分中的前Q个。其中,Q可以根据实际场景和具体需求设置,对其不作限定。
其中,候选待模态数据集对应的匹配度得分可以是将候选数据集中的多个可选模态数据各自对应的匹配度得分、按照从大到小顺序进行排序后排序结果。可选地,候选待模态数据集对应的匹配度得分可以以数组形式进行存储。
在另一个示例中,相关性特征参数对应的匹配度得分大于预设分数阈值。其中,分数阈值可以是预先设定的,或者是根据候选待模态数据集对应的匹配度得分设置的中间值、平均值等,对其具体设置方式不作限定。
在另一些实施例中,除了上述S241至S242示出的匹配方法之外,还可以将相关性特征参数输入预先训练好的、具有匹配度分数计算能力以及分类能力的匹配模型。
可选地,匹配模型可以包括用于计算待匹配数据与候选数据的匹配度得分的卷积层,以及根据待匹配数据与候选数据的匹配得分确定待匹配数据与候选数据是否相匹配的全连接层。其中,全连接层可以基于诸如Softmax函数、logistic 分类等分类函数进行分类,对其不作具体限定。
本公开实施例的跨模态数据的匹配方法,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到相关性特征参数。由于相关性特征参数能够表征待匹配数据与候选数据之间的双向相关性特征,即相关性特征参数能够在用户认知层面上,表征用户依次认知待匹配数据、候选数据时二者表达信息的相关性,以及用户依次认知候选数据、待匹配模态数时二者表达信息的相关性,因此利用相关性特征参数进行跨模态数据匹配时,能够充分考虑候选数据和待匹配数据之间认知次序对二者相关性的影响,进而提高了跨模态信息的匹配精度。
此外,本公开在跨模态数据匹配领域中引入量子概率理论,从而以数学形式对认知次序效应进行了表示以及建模,从而构建了相关性特征参数特征用于相关性判断。
图7示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的逻辑示意图。如图7所示,对于待发布新闻文本,可以利用BERT模型提取待发布新闻文本的l个第一数据特征e 1 、e 2 、…、e l 。对于数据库中的图片1-图像N,可以利用Faster RCNN模型分别提取每张图片的k个第二特征数据v 1 、v 2 、…、v k 。对于每张图片,可以利用本公开实施例提供的跨模态数据的匹配方法,可以基于该张图片k个第二特征数据v 1 、v 2 、…、v k 与待发布新闻文本的l个第一数据特征e 1 、e 2 、…、e l 构建该张图片与待发布新闻文本的量子干涉特征数据,并基于待发布新闻文本与该张图片的量子干涉特征数据计算得到待发布新闻文本与候选数据的匹配度得分。比如,图片1对应匹配度得分S 1 ,图片2对应匹配度得分S 2 ,同理地,图片N对应匹配度得分S N 。
然后,将待发布新闻文本分别与图片1-图像N的匹配度得分S 1 -S N 存入数组,并在数组中对匹配度得分S 1 -S N 按照由大到小的顺序排序。若与匹配度得分S 1 -S N 排序结果一一对应的图片排序结果(即按照图片所对应的匹配度得分从大到小的顺序对图片进行排序的结构)为图2、图N、……、图片i,若选用匹配度得分最高的图片与待发布新闻文本进行配对,则可以为待发布新闻文本推荐图2。
图8示出了本公开实施例提供的一种示例性地跨模态数据的匹配方法的流程示意图。
在本公开实施例中,台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块。
如图8所示,该跨模态数据的匹配方法可以包括如下步骤。
S801,获取待匹配数据和候选数据。其中,S801的具体内容与S310的具体内容类似,对此不再赘述。
S802,分别对待匹配数据和候选数据进行特征提取,得到待匹配数据的l个第一数据特征和候选数据的k个第二数据特征。其中,S802的具体内容与步骤A1的具体内容类似,对此不再赘述。
S803,基于l个第一数据特征和候选数据的k个第二数据特征,构建叠加态向量。其中,S803的具体内容与步骤A2-A5的具体内容类似,对此不再赘述。
示例性地,通过S803构建的叠加态向量可以如下述公式(1)所示。
S804,对叠加态向量进行稠密表示,得到稠密向量。其中,S804的具体内容与S331的具体内容类似,对此不再赘述。
S805,计算任一第一数据单元的权重系数。其中,S805可参见本公开实施例上述部分对公式(11)的相关描述,对此不再赘述。
S806,利用稠密向量以及由任一第一数据单元向任一第二数据单元的投影测量算法,计算得到任一第一数据单元相对于任一第二数据单元的相关性数据。其中,S806的具体内容与步骤B11的具体内容类似,对此不再赘述。
S807,利用任一第一数据单元的权重系数,对任一第一数据单元相对于任一第二数据单元的相关性数据进行加权处理以及叠加处理,计算得到第一相关性特征。其中,S807的具体内容与步骤B12-B13以及步骤B2的具体内容类似,对此不再赘述。
S808,计算任一第二数据单元的权重系数。其中,S808可参见本公开实施例上述部分对公式(15)的相关描述,对此不再赘述。
S809,利用稠密向量以及由任一第二数据单元向任一第一数据单元的投影测量算法,计算得到任一第一数据单元相对于任一第二数据单元的相关性数据。其中,S09的具体内容与步骤C11的具体内容类似,对此不再赘述。
S810,利用每一第二数据单元的权重系数,对每一第一数据单元相对于每一第二数据单元的相关性数据进行加权处理以及叠加处理,计算得到第二相关性特征。其中,S810的具体内容与步骤C12-C13以及步骤C2的具体内容类似,对此不再赘述。
S811,对计算得到的第一相关性特征以及第二相关性特征进行联合拼接,得到相关性特征参数。其中,S811的具体内容与S335的具体内容类似,对此不再赘述。
S812,将相关性特征参数输入预先训练的匹配度预测模型,得到待匹配数据与候选数据的匹配度得分。
其中,S812的具体内容与S341的具体内容类似,对此不再赘述。
S813,在匹配度得分满足预设分数条件的情况下,待匹配数据与候选数据相互匹配。
其中,S813的具体内容与S242的具体内容类似,对此不再赘述。
本公开实施例的跨模态数据的匹配方法,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到相关性特征参数。由于相关性特征参数能够表征待匹配数据与候选数据之间的双向相关性特征,即相关性特征参数能够在用户认知层面上,表征用户依次认知待匹配数据、候选数据时二者表达信息的相关性,以及用户依次认知候选数据、待匹配模态数时二者表达信息的相关性,因此利用相关性特征参数进行跨模态数据匹配时,能够充分考虑候选数据和待匹配数据之间认知次序对二者相关性的影响,进而提高了跨模态信息的匹配精度。
为了便于理解,接下来本公开实施例以新闻发布场景为例,通过图9-图11对本公开实施例提供的跨模态数据的匹配方法展开具体说明。
图9示出了本公开实施例提供的一种待发布新闻文本的示意图。如图9所示,待发布新闻文本901的新闻内容为“9月30日在CC市举办的篮球比赛中,A队以24:16的比分大胜B队,赢得了本场比赛的……”。在获取该待发布新文本901之后,基于待发布新文本901之后的图文匹配过程可以如图10所示。
图10示出了本公开实施例提供的一种待发布新闻文本与数据库中新闻图片的图文匹配示意图。如图10所示,在获取该待发布新文本901之后,为了筛选出待发布新文本901与相匹配的新闻图片,则可以利用本公开实施例通过图3-图8所示的跨模态数据的匹配方法从数据库1010的多个新闻图片1001-1003中,筛选出与待发布新文本901匹配度最高的新闻图片1003。从而可以快速而准确地向新闻创作者推荐与其写作内容相关的新闻图片,从而对于快速撰写带有图文信息的文章有很大帮助,进而提高了新闻发布效率。
可选地,若基于待发布新文本901和匹配得到的新闻图片1003可以自动生成可发布新闻信息,则其生成的可发布新闻信息如图11所示。
图11示出了本公开实施例提供的一种可发布新闻信息的示意图。如图11所示,可发布新闻信息1101可以包括待发布新文本901以及穿插在待发布新文本901中的新闻图片1003,自动生成的可发布新闻信息1101可以从图、文两个维度对待发布新闻进行准确表述,提高了可发布新闻信息的可读性。
本公开实施例还提供了一种用于实现上述的跨模态数据的匹配方法的跨模态数据的匹配装置,下面结合图12进行说明。
在本公开实施例中,跨模态数据的匹配装置可以为电子设备,例如,该的多媒体显示装置可以为诸如台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块。
图12示出了本公开实施例提供的一种跨模态数据的匹配装置的结构示意图。
如图12所示,该跨模态数据的匹配装置1200可以包括数据获取单元1210、量子化表示单元1220、参数计算单元1230和数据匹配单元1240。
数据获取单元1210,配置为获取待匹配数据和候选数据,待匹配数据和候选数据的数据模态不同;
量子化表示单元1220,配置为对待匹配数据和候选数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息;
参数计算单元1230,配置为基于分布信息进行匹配度特征计算,得到待匹配数据与候选数据之间的相关性特征参数,相关性特征参数用于表征待匹配数据与候选数据之间的双向相关性特征;
数据匹配单元1240,配置为在相关性特征参数满足预设匹配条件的情况下,确定待匹配数据与候选数据相互匹配。
本公开实施例的跨模态数据的匹配装置,能够通过对待匹配数据和跨模态数据进行量子化表示,得到待匹配数据与候选数据在量子复合系统内的分布信息,并从该分布信息中提取得到相关性特征参数。由于相关性特征参数能够表征待匹配数据与候选数据之间的双向相关性特征,即相关性特征参数能够在用户认知层面上,表征用户依次认知待匹配数据、候选数据时二者表达信息的相关性,以及用户依次认知候选数据、待匹配模态数时二者表达信息的相关性,因此利用相关性特征参数进行跨模态数据匹配时,能够充分考虑候选数据和待匹配数据之间认知次序对二者相关性的影响,进而提高了跨模态信息的匹配精度。
在本公开一些实施例中,参数计算单元1320可以进一步包括第一计算子单元、第二计算子单元以及数据拼接子单元。
第一计算子单元,配置为对分布信息进行待匹配数据相对于候选数据的相关性计算,得到第一相关性特征;
第二计算子单元,配置为对分布信息进行第二相关性特征数据相对于待匹配数据的相关性计算,得到第二相关性特征;
数据拼接子单元,配置为将第一相关性特征和第二相关性特征拼接,得到相关性特征参数。
可选地,候选数据包括多个第二数据单元。
相应地,第一计算子单元可以进一步配置为:
针对任一第二数据单元,对分布信息进行由待匹配数据向任一第二数据单元的投影测量计算,得到待匹配数据相对于任一第二数据单元的第一相关性数据;
将多个第一相关性数据进行拼接,得到第一相关性特征。
可选地,待匹配数据包括多个第一数据单元,第一计算子单元可以进一步配置为:
针对任一第一数据单元,对分布信息进行由任一第一数据单元向任一第二数据单元的投影测量计算,得到任一第二数据单元相对于任一第一数据单元的第一相关性数据单元;
利用任一第二数据单元对应的权重值,分别对多个第一相关性数据单元进行加权处理,得到多个第一加权数据单元;
将多个第一加权数据单元进行叠加处理,得到第一相关性数据。
可选地,待匹配数据包括多个第一数据单元;相应地,第二计算子单元可以进一步配置为:
针对任一第一数据单元,对分布信息进行由候选数据向任一第一数据单元的投影测量计算,得到候选数据相对于任一第一数据单元的第二相关性数据;
将多个第一相关性数据进行拼接,得到第二相关性特征。
可选地,候选数据包括多个第二数据单元;第二计算子单元可以进一步配置为:
针对任一第二数据单元,
对分布信息进行由任一第二数据单元向任一第一数据单元的投影测量计算,得到任一第一数据单元相对于任一第二数据单元的第二相关性数据单元;
利用任一第一数据单元对应的权重值,分别对多个第二相关性数据单元进行加权处理,得到多个第二加权数据单元;
将多个第二加权数据单元进行叠加处理,得到第二相关性数据。
在本公开一些实施例中,参数计算单元1320可以进一步配置为:
基于分布信息进行匹配度特征计算,得到待匹配数据与候选数据之间的相关性特征参数,具体包括:
对分布信息进行稠密表示,得到稠密向量;
基于稠密向量进行匹配度特征计算,得到待匹配数据与候选数据之间的相关性特征参数。
在本公开一些实施例中,量子化表示单元1220可以进一步配置为:
获取待匹配数据的多个第一数据特征和候选数据的多个第二数据特征;
对多个第一数据特征和多个第二数据特征进行特征融合,得到叠加态向量;
将叠加态向量作为向量形式的分布信息。
可选地,量子化表示单元1220可以进一步配置为:
对任意第一数据特征和任意第二数据特征进行组合,得到多个特征组;
针对任一特征组,对任一特征组中的两个数据特征,进行张量积运算处理,得到任一特征组对应的量子复合态向量;
将多个量子复合态向量进行累加,得到叠加态向量。
在本公开一些实施例中,预设匹配条件包括相关性特征参数对应的匹配度得分满足预设分数条件。
相应地,数据匹配单元1240可以进一步配置为:
将相关性特征参数输入预先训练的匹配度预测模型,得到待匹配数据与候选数据的匹配度得分;
在匹配度得分满足预设分数条件的情况下,待匹配数据与候选数据相互匹配。
可选地,候选数据属于候选数据集,
预设分数条件包括:
相关性特征参数对应的匹配度得分在候选数据集对应的匹配度得分中的排序位置位于前预设数量;或者,
相关性特征参数对应的匹配度得分大于预设分数阈值。
在本公开一些实施例中,待匹配数据和候选数据分别为文本数据、图像数据、视频数据和音频数据中的任意一种。
需要说明的是,图12所示的跨模态数据的匹配装置1200可以执行图3-图8所示的方法实施例中的各个步骤,并且实现图3-图8所示的方法实施例中的各个过程和效果,在此不做赘述。
图13示出了本公开实施例提供的一种跨模态数据的匹配设备的结构示意图。
在本公开一些实施例中,图13所示的跨模态数据的匹配设备可以为台式计算器、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块。
如图13所示,该跨模态数据的匹配设备可以包括处理器1301以及存储有计算机程序指令的存储器1302。
具体地,上述处理器1301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本公开实施例的一个或多个集成电路。
存储器1302可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器1302可以包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器1302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1302可在综合网关设备的内部或外部。在特定实施例中,存储器1302是非易失性固态存储器。在特定实施例中,存储器1302包括只读存储器(Read-Only Memory,ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable ROM,PROM)、可擦除PROM(Electrical Programmable ROM,EPROM)、电可擦除PROM(Electrically ErasableProgrammable ROM,EEPROM)、电可改写ROM(Electrically Alterable ROM,EAROM)或闪存,或者两个或及其以上这些的组合。
处理器1301通过读取并执行存储器1302中存储的计算机程序指令,以执行本公开实施例所提供的跨模态数据的匹配方法的步骤。
在一个示例中,该跨模态数据的匹配设备还可包括收发器1303和总线1304。其中,如图13所示,处理器1301、存储器1302和收发器1303通过总线1304连接并完成相互间的通信。
总线1304包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture,EISA)总线、前端总线(Front Side BUS,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industrial Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low Pin Count,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、外围控件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment,SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1304可包括一个或多个总线。尽管本公开实施例描述和示出了特定的总线,但本公开考虑任何合适的总线或互连。
本公开实施例还提供了一种计算机可读存储介质,该存储介质可以存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的跨模态数据的匹配方法。
上述的存储介质可以例如包括计算机程序指令的存储器1302,上述指令可由跨模态数据的匹配设备的处理器1301执行以完成本公开实施例所提供的跨模态数据的匹配方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact DiscROM,CD-ROM)、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种跨模态数据的匹配方法,其特征在于,包括:
获取待匹配数据和候选数据,所述待匹配数据和所述候选数据的数据模态不同;
对所述待匹配数据和所述候选数据进行量子化表示,得到所述待匹配数据与所述候选数据在量子复合系统内的分布信息;
基于所述分布信息,进行相关性特征计算,得到相关性特征参数,所述相关性特征参数用于表征所述待匹配数据与所述候选数据之间的双向相关性特征;
在所述相关性特征参数满足预设匹配条件的情况下,确定所述待匹配数据与所述候选数据相互匹配。
2.根据权利要求1所述的方法,其特征在于,所述基于所述分布信息进行相关性特征计算,得到相关性特征参数,包括:
对所述分布信息进行所述待匹配数据相对于所述候选数据的相关性计算,得到所述第一相关性特征;
对所述分布信息进行所述候选数据相对于所述待匹配数据的相关性计算,得到所述第二相关性特征;
将所述第一相关性特征和所述第二相关性特征拼接,得到所述相关性特征参数。
3.根据权利要求2所述的方法,其特征在于,所述候选数据包括多个第二数据单元;
所述对所述分布信息进行所述待匹配数据相对于所述候选数据的相关性计算,得到所述第一相关性特征,包括:
针对任一第二数据单元,对所述分布信息进行由所述待匹配数据向所述任一第二数据单元的投影测量计算,得到所述待匹配数据相对于所述任一第二数据单元的第一相关性数据;
将多个所述第一相关性数据进行拼接,得到所述第一相关性特征。
4.根据权利要求3所述的方法,其特征在于,所述待匹配数据包括多个第一数据单元;
所述对所述分布信息进行由搜索待匹配数据向所述任一第二数据单元的投影测量计算,得到所述待匹配数据相对于所述任一第二数据单元的第一相关性数据,包括:
针对任一第一数据单元,对所述分布信息进行由所述任一第一数据单元向所述任一第二数据单元的投影测量计算,得到所述任一第二数据单元相对于所述任一第一数据单元的第一相关性数据单元;
利用所述任一第二数据单元对应的权重值,分别对多个所述第一相关性数据单元进行加权处理,得到多个第一加权数据单元;
将所述多个第一加权数据单元进行叠加处理,得到所述第一相关性数据。
5.根据权利要求2所述的方法,其特征在于,
所述待匹配数据包括多个第一数据单元;
所述对所述分布信息进行所述第二相关性特征数据相对于所述待匹配数据的相关性计算,得到所述第二相关性特征,包括:
针对任一第一数据单元,对所述分布信息进行由候选数据向所述任一第一数据单元的投影测量计算,得到所述候选数据相对于所述任一第一数据单元的第二相关性数据;
将多个所述第一相关性数据进行拼接,得到所述第二相关性特征。
6.根据权利要求5所述的方法,其特征在于,所述候选数据包括多个第二数据单元;
所述对所述分布信息进行由候选数据向所述任一第一数据单元的投影测量计算,得到所述候选数据相对于所述任一第一数据单元的第二相关性数据,包括:
针对任一第二数据单元,
对所述分布信息进行由所述任一第二数据单元向所述任一第一数据单元的投影测量计算,得到所述任一第一数据单元相对于所述任一第二数据单元的第二相关性数据单元;
利用所述任一第一数据单元对应的权重值,分别对多个所述第二相关性数据单元进行加权处理,得到多个第二加权数据单元;
将所述多个第二加权数据单元进行叠加处理,得到所述第二相关性数据。
7.根据权利要求1所述的方法,其特征在于,所述基于所述分布信息进行匹配度特征计算,得到相关性特征参数,包括:
对所述分布信息进行稠密表示,得到稠密向量;
基于所述稠密向量进行匹配度特征计算,得到所述相关性特征参数。
8.根据权利要求1所述的方法,其特征在于,所述分布信息以向量形式表示;
所述对所述待匹配数据和候选数据进行量子化表示,得到所述待匹配数据与所述候选数据在量子复合系统内的分布信息,包括:
获取所述待匹配数据的多个第一数据特征和所述候选数据的多个第二数据特征;
对所述多个第一数据特征和所述多个第二数据特征进行特征融合,得到叠加态向量;
将所述叠加态向量作为向量形式的分布信息。
9.根据权利要8所述的方法,其特征在于,所述对所述多个第一数据特征和所述多个第二数据特征进行特征融合,得到叠加态向量,包括:
对任意第一数据特征和任意第二数据特征进行组合,得到多个特征组;
针对任一特征组,对所述任一特征组中的两个数据特征,进行张量积运算处理,得到所述任一特征组对应的量子复合态向量;
将多个所述量子复合态向量进行累加,得到所述叠加态向量。
10.根据权利要求1所述的方法,其特征在于,
所述预设匹配条件包括所述相关性特征参数对应的匹配度得分满足预设分数条件;
所述在所述相关性特征参数满足预设匹配条件的情况下,确定所述候选数据和所述待匹配数据相匹配,具体包括:
将所述相关性特征参数输入预先训练的匹配度预测模型,得到所述待匹配数据与所述候选数据的匹配度得分;
在所述匹配度得分满足所述预设分数条件的情况下,所述待匹配数据与所述候选数据相互匹配。
11.根据权利要求10所述的方法,其特征在于,所述候选数据属于候选数据集,
所述预设分数条件包括:
所述相关性特征参数对应的匹配度得分在候选数据集对应的匹配度得分中的排序位置位于前预设数量;或者,
所述相关性特征参数对应的匹配度得分大于预设分数阈值。
12.根据权利要求1所述的方法,其特征在于,所述待匹配数据和所述候选数据分别为文本数据、图像数据、视频数据和音频数据中的任意一种。
13.一种跨模态数据的匹配装置,其特征在于,包括:
数据获取单元,配置为获取待匹配数据和候选数据,所述待匹配数据和所述候选数据的数据模态不同;
量子化表示单元,配置为对所述待匹配数据和所述候选数据进行量子化表示,得到所述待匹配数据与所述候选数据在量子复合系统内的分布信息;
参数计算单元,配置为基于所述分布信息进行匹配度特征计算,得到相关性特征参数,其中,所述相关性特征参数用于表征所述待匹配数据与所述候选数据之间的双向相关性特征;
数据匹配单元,配置为在所述相关性特征参数满足预设匹配条件的情况下,确定所述待匹配数据与所述候选数据相互匹配。
14.一种跨模态数据的匹配设备,其特征在于,包括:
处理器;
存储器,用于存储可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-12中任一项所述的跨模态数据的匹配方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-12中任一项所述的跨模态数据的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111199634.0A CN113656660B (zh) | 2021-10-14 | 2021-10-14 | 跨模态数据的匹配方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111199634.0A CN113656660B (zh) | 2021-10-14 | 2021-10-14 | 跨模态数据的匹配方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656660A true CN113656660A (zh) | 2021-11-16 |
CN113656660B CN113656660B (zh) | 2022-06-28 |
Family
ID=78494559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111199634.0A Active CN113656660B (zh) | 2021-10-14 | 2021-10-14 | 跨模态数据的匹配方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113656660B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169336A (zh) * | 2021-12-13 | 2022-03-11 | 郑州大学 | 用户自定义多模态分布式半自动标注系统 |
CN114281944A (zh) * | 2021-12-27 | 2022-04-05 | 北京中科闻歌科技股份有限公司 | 文档匹配模型的构建方法、装置、电子设备及存储介质 |
CN114723986A (zh) * | 2022-03-16 | 2022-07-08 | 平安科技(深圳)有限公司 | 文本图像匹配方法、装置、设备及存储介质 |
CN117150145A (zh) * | 2023-10-31 | 2023-12-01 | 成都企软数字科技有限公司 | 一种基于大语言模型的个性化新闻推荐方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62107386A (ja) * | 1985-11-05 | 1987-05-18 | Toshiba Corp | 画像マツチング方法 |
US6292186B1 (en) * | 1998-11-06 | 2001-09-18 | International Business Machines Corporation | Universal information appliance with parser |
CN103488713A (zh) * | 2013-09-10 | 2014-01-01 | 浙江大学 | 一种可直接度量不同模态数据间相似性的跨模态检索方法 |
CN109783655A (zh) * | 2018-12-07 | 2019-05-21 | 西安电子科技大学 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
CN110083692A (zh) * | 2019-04-22 | 2019-08-02 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
CN111294053A (zh) * | 2018-12-06 | 2020-06-16 | 英韧科技(上海)有限公司 | 硬件友好的数据压缩方法、系统及装置 |
-
2021
- 2021-10-14 CN CN202111199634.0A patent/CN113656660B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62107386A (ja) * | 1985-11-05 | 1987-05-18 | Toshiba Corp | 画像マツチング方法 |
US6292186B1 (en) * | 1998-11-06 | 2001-09-18 | International Business Machines Corporation | Universal information appliance with parser |
CN103488713A (zh) * | 2013-09-10 | 2014-01-01 | 浙江大学 | 一种可直接度量不同模态数据间相似性的跨模态检索方法 |
CN111294053A (zh) * | 2018-12-06 | 2020-06-16 | 英韧科技(上海)有限公司 | 硬件友好的数据压缩方法、系统及装置 |
CN109783655A (zh) * | 2018-12-07 | 2019-05-21 | 西安电子科技大学 | 一种跨模态检索方法、装置、计算机设备和存储介质 |
CN110083692A (zh) * | 2019-04-22 | 2019-08-02 | 齐鲁工业大学 | 一种金融知识问答的文本交互匹配方法及装置 |
Non-Patent Citations (3)
Title |
---|
FURUIT: "CNN理论基础", 《CSDN BLOG.CSDN.NET/FU6543210/ARTICLE/DETAILS/80512113》 * |
TADAS BALTRUSAITIS等: "Multimodal Machine Learning:A Survey and Taxonomy", 《ARXIV.ORG/ABS/1705.09406》 * |
段小佳: "量子图像处理及其应用:边缘检测", 《量子客 QTUMIST.COM/POST/4771》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169336A (zh) * | 2021-12-13 | 2022-03-11 | 郑州大学 | 用户自定义多模态分布式半自动标注系统 |
CN114281944A (zh) * | 2021-12-27 | 2022-04-05 | 北京中科闻歌科技股份有限公司 | 文档匹配模型的构建方法、装置、电子设备及存储介质 |
CN114723986A (zh) * | 2022-03-16 | 2022-07-08 | 平安科技(深圳)有限公司 | 文本图像匹配方法、装置、设备及存储介质 |
CN117150145A (zh) * | 2023-10-31 | 2023-12-01 | 成都企软数字科技有限公司 | 一种基于大语言模型的个性化新闻推荐方法及系统 |
CN117150145B (zh) * | 2023-10-31 | 2024-01-02 | 成都企软数字科技有限公司 | 一种基于大语言模型的个性化新闻推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113656660B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
Wang et al. | Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval | |
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
CN113627151B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
Dornaika et al. | Transfer learning and feature fusion for kinship verification | |
CN112329460A (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
CN111105013A (zh) | 对抗网络架构的优化方法、图像描述生成方法和系统 | |
CN109614611B (zh) | 一种融合生成非对抗网络与卷积神经网络的情感分析方法 | |
WO2020063524A1 (zh) | 一种法律文书的确定方法及系统 | |
JP6172332B2 (ja) | 情報処理方法及び情報処理装置 | |
CN109271624A (zh) | 一种目标词确定方法、装置及存储介质 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
Qin et al. | SHREC’22 track: Sketch-based 3D shape retrieval in the wild | |
Huang et al. | Deep multimodal embedding model for fine-grained sketch-based image retrieval | |
CN110347825A (zh) | 一种短英文影评分类方法及装置 | |
CN112396091B (zh) | 社交媒体图像流行度预测方法、系统、存储介质及应用 | |
CN116578738B (zh) | 一种基于图注意力和生成对抗网络的图文检索方法和装置 | |
CN113761124A (zh) | 文本编码模型的训练方法、信息检索方法及设备 | |
CN117521012A (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
CN115100664B (zh) | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 | |
Zhao et al. | Multi-label node classification on graph-structured data | |
CN116383517A (zh) | 动态传播特征增强的多模态谣言检测方法及系统 | |
CN116416334A (zh) | 一种基于原型的嵌入网络的场景图生成方法 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |