CN113642603B - 一种数据匹配方法、装置、存储介质及电子设备 - Google Patents
一种数据匹配方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113642603B CN113642603B CN202110757520.7A CN202110757520A CN113642603B CN 113642603 B CN113642603 B CN 113642603B CN 202110757520 A CN202110757520 A CN 202110757520A CN 113642603 B CN113642603 B CN 113642603B
- Authority
- CN
- China
- Prior art keywords
- data
- sub
- matched
- dividing
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本说明书公开了一种数据匹配方法、装置、存储介质及电子设备。采用若干种方式划分待匹配数据以得到所划分出的子数据,根据各子数据之间的注意力权重确定出各子数据的融合数据特征,并根据各子数据的融合数据特征确定待匹配数据之间的匹配结果。采用不同划分方式所划分出的同一模态的子数据之间能够实现信息互补,从而避免在根据仅通过一种划分方式所划分出的子数据来确定待匹配数据的匹配结果时,由划分方式的固有缺陷所带来的匹配结果偏差。
Description
技术领域
本说明书涉及数据处理领域,尤其涉及一种数据匹配方法、装置、存储介质及电子设备。
背景技术
与人类可以通过眼睛、耳朵和鼻子来感知信息相类似,人工智能也可以接收多模态的信号,例如图像模态、文本模态或音频模态等等。而由于不同模态的信号中所包含的数据对信息描述的方式不同,来自于多模态信号的数据(以下简称多模态数据)之间所包含的信息存在交叉互补,因此相比于来自于单一模态信号的数据(以下简称单模态数据),多模态数据能够描述更丰富的信息。
但理解多模态数据之前,需要先获知各模态的数据之间的对应关系,也就是将各模态的数据进行匹配。例如电影视频和字幕在时间维度上的对应关系,或是图像和对图像所进行描述的文本之间的对应关系,显然,只有在建立了对应关系的基础之上,才能够融合并理解多模态数据。
以为图像和文本确定匹配关系为例,在现有技术中,通常采用目标检测算法从图像中截取出若干包含完整语义的局部图像,并根据各局部图像中所包含的语义与文本的语义的近似程度来判断整体图像与文本是否匹配。
但这种方法对于目标检测算法本身的依赖程度过大,当目标检测算法漏截取了局部图像,就会导致局部图像中所包含的信息丢失,从而导致所确定出的整体图像与文本的匹配结果出现偏差。
可以看出,如何匹配来自不同模态的数据是一个亟待解决的问题。
发明内容
本说明书提供一种数据匹配方法、装置、存储介质及电子设备,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种数据匹配方法,包括:
确定由不同模态类型的待匹配数据所构成的待匹配数据对;
针对每个待匹配数据,针对预先设定的每种划分方式,采用该划分方式划分该待匹配数据,得到所划分出的子数据,并将所划分出的子数据加入子数据集;
提取子数据集中各子数据的数据特征,并将所提取出的数据特征输入预先训练的数据匹配模型;
根据各子数据的数据特征,针对每个子数据,通过所述数据匹配模型,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据的融合数据特征;
根据各子数据的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
可选地,预先设定的各划分方式中至少包括第一划分方式;
采用第一划分方式划分待匹配数据,具体包括:
将该待匹配数据自身划分为该待匹配数据的子数据。
可选地,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该待匹配数据,具体包括:
确定该待匹配数据的模态类型,作为目标模态类型;
根据预先设定的所述目标模态类型对应的各划分方式,将所述目标模态类型对应的各划分方式作为该待匹配数据对应的划分方式;
针对该待匹配数据对应的每种划分方式,采用该划分方式划分该待匹配数据。
可选地,当所述目标模态类型为图像模态时,目标模态类型对应的各划分方式包括第一划分方式、第二划分方式以及第三划分方式中的至少两种;
采用第一划分方式划分该待匹配数据,具体包括:
将该待匹配数据自身划分为该待匹配数据的子数据;
采用第二划分方式划分该待匹配数据,具体包括:
通过目标检测算法检测图像中所包含的目标,将所检测出的目标所在的区域作为该待匹配数据的子数据;
采用第三划分方式划分该待匹配数据,具体包括:
以预设的图像尺寸将该待匹配数据划分为若干尺寸相同的单元区域,并将所划分出的单元区域作为该待匹配数据的子数据。
可选地,所述数据匹配模型包括由若干顺次相连的各注意力子网所构成的注意力网络;
确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据的融合数据特征,具体包括:
针对每个注意力子网,根据输入该注意力子网的各子数据的待融合数据特征,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据在该注意力子网下的融合数据特征,其中,当该注意力子网为第一个注意力子网时,输入该注意力子网的各子数据的待融合数据特征为各子数据的数据特征;
根据各子数据的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果,具体包括:
根据各子数据在最后一个注意力子网下的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
可选地,提取子数据集中各子数据的数据特征,具体包括:
确定各子数据之间的间隔符;
将各间隔符作为子数据加入所述子数据集,并提取子数据集中各子数据的数据特征;
根据各子数据的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果,具体包括:
从各间隔符中选择出指定间隔符;
根据所述指定间隔符的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
可选地,预先训练数据匹配模型,具体包括:
确定由不同模态类型的样本数据所构成的样本数据对,以及所述样本数据对中不同模态的样本数据的标注匹配结果;
针对每个样本数据,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该样本数据,并得到所划分出的样本子数据,并将所划分出的子数据加入样本子数据集;
提取样本子数据集中各样本子数据的数据特征,并将所提取出的数据特征输入数据匹配模型;
根据各样本子数据的数据特征,针对每个样本子数据,通过所述数据匹配模型,确定该样本子数据对各样本子数据的注意力权重,并根据该样本子数据对各样本子数据的注意力权重确定该样本子数据的融合数据特征;
根据各样本子数据的融合数据特征,确定所述样本数据对中不同模态的样本数据的匹配结果,作为预测匹配结果;
以所述预测匹配结果和标注匹配结果之前的差异最小为目标,调整所述数据匹配模型中的参数。
本说明书提供了一种数据匹配装置,包括:
数据确定模块,用于确定由不同模态类型的待匹配数据所构成的待匹配数据对;
数据划分模块,用于针对每个待匹配数据,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该待匹配数据,并得到所划分出的子数据,并将所划分出的子数据加入子数据集;
特征提取模块,用于提取子数据集中各子数据的数据特征,并将所提取出的数据特征输入预先训练的数据匹配模型;
特征融合模块,用于根据各子数据的数据特征,针对每个子数据,通过所述数据匹配模型,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据的融合数据特征;
数据匹配模块,用于根据各子数据的融合数据特征,确定所述待匹配数据对之间的匹配结果。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据匹配方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据匹配方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的数据匹配方法中,采用若干种方式划分待匹配数据以得到所划分出的子数据,根据各子数据之间的注意力权重确定出各子数据的融合数据特征,并根据各子数据的融合数据特征确定待匹配数据之间的匹配结果。采用不同划分方式所划分出的同一模态的子数据之间能够实现信息互补,从而避免在根据仅通过一种划分方式所划分出的子数据来确定待匹配数据的匹配结果时,由划分方式的固有缺陷所带来的匹配结果偏差
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种数据匹配方法的流程示意图;
图2为本说明书提供的一种数据匹配装置的示意图;
图3为本说明书提供的电子设备的结构示意图。
具体实施方式
本说明书一实施例中,可以根据不同模态类型的待匹配数据所包含的语义来确定待匹配数据之间的匹配结果,待匹配数据所包含的语义越相近,则待匹配数据就越匹配。
仍然以图像模态的待匹配数据为例,除了可以通过上述目标检测算法从图像中截取包含完整语义的局部图像,还可以以固定的图像尺寸将图像划分为若干个尺寸相同的局部图像,此时,由于各局部图像的合集即为该待匹配数据本身,则各局部图像不会丢失待匹配数据中所包含的信息,但由于局部图像的截取并不基于图像所描述的语义,在此情形下共同构成同一语义的图像部分可能会被截取至不同的局部图像中,从而对图像中所表征的完整语义进行破坏。
可以看出,在图像模态中,根据单一的划分方式难以准确确定待匹配数据的匹配结果。当然,以上仅举出了图像模态的例子,但实际在划分各模态类型的待匹配数据时都会面临相同的问题。
以待匹配数据为中文的文本模态为例,当采用分词算法的方式划分待匹配数据时,所划分出的中文词汇能够表征出语义信息,但仍然会面临过于依赖分词算法的分词准确度这一问题。而当将待匹配数据划分为单字时,则每个单字又无法表征文本的语义。
基于对上述问题的认识,本说明书实施例中摒弃上述仅通过一种划分方式对待匹配数据进行划分,而是采用至少两种划分方式分别划分待匹配数据,并根据所划分出的子数据确定待匹配数据对之间的匹配结果。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中一种数据匹配方法的流程示意图,具体包括以下步骤:
S100:确定由不同模态类型的待匹配数据所构成的待匹配数据对。
本说明书实施例所提供的数据匹配方法,可以由服务器执行,也可以由电子设备执行,例如,笔记本电脑、手机、服务器等,本说明书对此不不作限制。为方便描述,以下部分以执行主体为服务器为例对本说明书所提供的数据匹配方法进行说明。
在广义上,模态的定义指事物存在或发生的方式,而具体到数据的模态,则可以认为数据的模态即为数据的来源或承载形式,也就是说,在广义上对于相同承载形式的数据来说,若该相同承载形式的数据来源不同也可以认为该数据属于不同的模态类型,例如可以认为直接来源于加速度计的加速度数据和通过速度数据差分得到的加速度数据分别属于不同的模态类型。但具体到本说明书实施例所提出的数据匹配方法,由于本说明书中仅关心不同模态类型的数据是否相匹配,从而对相匹配的多模态数据进行融合,因此,本说明书实施例中不同模态类型的数据即为不同承载形式的数据,可以包括图像形式、视频形式、文本形式以及音频形式等等形式所承载的数据,都可以视作本说明书中属于对应的模态类型的数据。
本说明书实施例中,在执行步骤S100之前,可以接收一对不同模态的待匹配信号,并将待匹配信号中所包含的数据作为构成待匹配数据对的待匹配数据。而当所接收到的信号包括至少三个不同模态的待匹配信号时,则可以将其中任意一对待匹配信号中所包含的数据作为构成待匹配数据对的待匹配数据。
本说明书实施例中,并不限定待匹配数据对中的待匹配数据分别为哪一模态,而仅作为示例,以下以所述待匹配数据对包含图像模态的待匹配数据和文本模态的待匹配数据为例,对本说明书提供的数据匹配方法进行说明。
S102:针对每个待匹配数据,针对预先设定的每种划分方式,采用该划分方式划分该待匹配数据,得到所划分出的子数据,并将所划分出的子数据加入子数据集。
本说明书实施例中,对待匹配数据进行划分的各划分方式为预先设置的。其中,各划分方式可以被设定为通用的划分方式,即在划分待匹配数据时不考虑待匹配数据的模态类型,直接采用预先设定的划分方式进行划分,例如,将待匹配数据划分为固定存储单位的若干子数据。当然,还可以预设有各模态类型,并针对每个模态类型,预设该模态类型对应的各划分方式,在执行步骤S102时,可以确定待匹配数据的模态类型作为目标模态类型,将目标模态类型对应的各划分方式作为该待匹配数据对应的划分方式,并采用该待匹配数据对应的各划分方式划分该待匹配数据。
需要说明的是,预先设置的划分方式中可以包括第一划分方式,当采用第一划分方式划分待匹配数据时,所划分出的待匹配数据的子数据为该待匹配数据自身,即所述第一划分方式为不划分待匹配数据。当为各模态类型所设定对应的划分方式为上述的通用的划分方式时,则为每一待匹配数据都采用第一划分方式进行划分,而当各模态类型被分别预设有对应的划分方式时,则可以仅有至少部分模态类型对应有该第一划分方式,此时本说明书并不限定哪些模态类型被预设与该第一划分方式对应。
本说明书以下实施例中,以每个模态类型被分别预先设置有该模态类型自身对应的划分方式为例进行说明。
示例性的,对于图像模态的待匹配数据来说,除了可以采用上述第一划分方式划分图像模态的待匹配数据,还可以采用第二划分方式和第三划分方式对图像模态的待匹配数据进行划分。
其中,当采用第二划分方式划分待匹配数据时,可以通过目标检测算法检测图像中所包含的目标,将所检测出的目标所在的区域作为该待匹配数据的子数据。本说明书实施例中,目标检测算法所检测出的目标为包含完整语义的图像对象,当任一现有算法能够检测出图像中所包含的目标并确定出目标所在的图像区域时,本说明书实施例并不限制目标检测算法为何种算法。
而当采用第三划分方式划分待匹配数据时,则可以以预设的图像尺寸将该待匹配数据划分为若干尺寸相同的单元区域,并将所划分出的单元区域作为该待匹配数据的子数据。所述预设的图像尺寸可以为单元区域的图像尺寸,此时,该预设的图像尺寸不大于作为被划分对象的待匹配数据自身,当然,此外该第三划分方式也可以为所划分出的单元区域的个数,而并不限制其中每个单元区域的图像尺寸。
在执行步骤S102之前,本说明书实施例中设置有一子数据集,当采用上述任一方式划分出子数据之后,可以将所划分出的子数据加入子数据集。需要说明的是,本说明书实施例中的子数据集中包含由各划分方式所划分出的子数据,也就是说,根据各划分方式所划分出的子数据所加入的子数据集为同一子数据集,而非每种划分方式分别将通过该划分方式所划分出的子数据加入仅该划分方式所对应的子数据集。
为方便描述,本说明书以下部分所称子数据均为子数据集中的子数据。
S104:提取子数据集中各子数据的数据特征,并将所提取出的数据特征输入预先训练的数据匹配模型。
可以采用任一现有方式提取各子数据的数据特征。例如,当子数据为图像模态时,可以将子数据输入残差网络,并将输入残差网络中分类器之前的特征作为所提取出的该子数据的特征。再例如,当子数据为文本模态时,可以根据该子数据在预先构建的文本集合中的位置确定该子数据的数据特征,仅示例性的,当子数据为单字时,可以根据所述文本合集为该子数据确定出独热码作为该子数据的数据特征。当然,以上仅为示例,本说明书实施例并不限制如何提取各子数据的数据特征。
被划分出的子数据为待匹配数据中的部分数据,当待匹配数据为图像模态时,其子数据为待匹配数据中的局部图像,当待匹配数据为文本模态时,其子数据则为待匹配数据中的部分文本。本领域技术人员可以理解的,子数据在待匹配数据中所占据的位置也能够表征子数据的信息,仍然以待匹配数据为图像模态为例,当两个子数据分别包含一个人的图像和一个球的图像时,球若位于人上方,则该球更有可能为篮球,而若球位于人的下方,则该球更有可能为足球。
因此,本说明书实施例中,子数据的数据特征中还包含该子数据相对于划分出该子数据的待匹配数据的位置特征。更进一步的,本说明书另一实施例中,还可以根据各子数据相对于划分出各子数据的待匹配数据的位置特征针对每个子数据确定出该子数据相对于各子数据的位置特征,并加入该子数据的数据特征。
接着,可以将所确定出的各子数据的数据特征输入预先训练的数据匹配模型。本说明书一实施例中,所述数据匹配模型包括注意力网络,在确定出各子数据的数据特征之后,则将各数据特征输入该注意力网络。本说明书实施例中所述注意力网络可以为任一能够确定各子数据之间注意力权重的网络,例如编-解码(Encoder-Decoder)、自注意力(self-attention)模型等等。
S106:根据各子数据的数据特征,针对每个子数据,通过所述数据匹配模型,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据的融合数据特征。
可以理解的,子数据的数据特征中包含了子数据自身的特征信息,因此,可以通过子数据之间的注意力权重来反映各子数据之间的匹配程度,即,所确定出的子数据之间的注意力权重越高,则可以认为子数据之间的匹配程度就越高。而更进一步的,不同模态的子数据之间的注意力权重越高,则可以认为待匹配数据对中的不同模态的待匹配数据的匹配程度也就越大。
本说明书一实施例中,根据不同模态类型的待匹配数据中所包含的语义的相似程度来确定待匹配数据的匹配结果,具体的,待匹配数据中所包含的语义越相近,待匹配数据的匹配程度也就越大。而由于子数据是由待匹配数据所划分出的,即子数据是待匹配数据的子集,可以理解的,可以根据不同模态的子数据中所包含的语义的相似程度来确定不同模态的待匹配数据中所包含的语义的相似程度。而本说明书实施例中,针对每个子数据,确定该子数据对各子数据的注意力权重即为确定该子数据与各子数据中所包含的语义的相似程度。当然,上述语义的相似程度不仅仅可以包含语义本身是否表示相似的含义,还可以包含语义之间的联系的强弱。
而两个子数据之间的注意力权重可以相等也可以不同,以第一子数据和第二子数据这一子数据对为例,在本说明书一实施例中,可以认为第二子数据对第一子数据的注意力权重即为第一子数据对第二子数据的注意力权重,也就是说二者之间的匹配程度是相等的,此时,注意力网络可以确定各子数据两两之间的注意力权重。
在本说明书另一实施例中,第一子数据和第二子数据这一对子数据之间的注意力权重还可以并不相等,即第一子数据对第二子数据的注意力权重与第二子数据对第一子数据的注意力权重不一定相同。此时,注意力子网可以分别为每个子数据确定该子数据对各子数据的注意力权重。本说明书实施例中,每个子数据所确定出的对各子数据的注意力权重中可以包含该子数据对于自身的注意力权重。
接着,针对每个子数据,可以根据各子数据的注意力权重确定该子数据的融合数据特征,本说明书一实施例中,可以直接以该子数据与各子数据的注意力特征对各子数据的数据特征加权,并根据加权后的各子数据的数据特征确定该子数据的融合数据特征。
S108:根据各子数据的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
可以理解的,由于待匹配数据的子数据中包含了待匹配数据的特征信息,因此根据不同模态的子数据之间的注意力权重所确定出的子数据的融合数据特征则能够表征不同模态的待匹配数据的匹配程度,简单来说,当子数据的融合特征表征不同模态的子数据之间的匹配程度较高,则可以认为不同模态的待匹配数据之间的匹配程度较高。
而另一方面,对于相同模态的子数据来说,由于在划分子数据时,采用若干种划分方式对待匹配数据进行划分,因此,根据相同模态的子数据之间的注意力权重所确定出的子数据的融合数据特征中,能够表征通过不同划分方式所划分出的各子数据之间的互补信息,从而避免融合数据特征中仅包括采用一种划分方式所划分出的子数据带来的信息缺失。
本说明书一实施例中,可以根据所述注意力网络输出的各子数据的融合数据特征确定出所述待匹配数据对的综合匹配特征,并根据所述综合匹配特征确定该待匹配数据对中不同模态的待匹配数据的匹配结果。具体的,该综合匹配特征可以是注意力子网输出的各子数据的融合数据特征中的一个,也可以通过拼接各子数据的融合数据特征,并将拼接后的各子数据的融合数据特作为该待匹配数据对的综合匹配特征。
接着,可以根据所述综合匹配特征确定出所述待匹配数据对中不同模态的待匹配数据的匹配结果。本说明书一实施例中,可以将所述综合匹配特征输入数据匹配模型的分类器,并获得分类器所输出的匹配结果,即该待匹配数据对中的待匹配数据匹配或不匹配。
基于图1所示的数据匹配方法,采用若干种方式划分待匹配数据以得到所划分出的子数据,根据各子数据之间的注意力权重确定出各子数据的融合数据特征,并根据各子数据的融合数据特征确定待匹配数据之间的匹配结果。采用不同划分方式所划分出的同一模态的子数据之间能够实现信息互补,从而避免在根据仅通过一种划分方式所划分出的子数据来确定待匹配数据的匹配结果时,由划分方式的固有缺陷所带来的匹配结果偏差。
本说明书一实施例中,待匹配数据对的待匹配数据的模态类型可以分别为文本模态和图像模态。本说明书一实施例中,待匹配数据对中的一个待匹配数据可以为查询数据,当接收到该查询数据时,可以针对每个候选数据,将该候选数据作为待匹配数据对中的另一待匹配数据,并确定该候选数据与该查询数据的匹配结果,并根据该查询数据与各候选数据的匹配结果,将与该查询数据匹配程度最高的候选数据作为该查询数据的查询结果。
本领域技术人员可以理解的,为了提取子数据之间更深层的关联,所述注意力网络通常可以并不仅仅只有一层。本说明书一实施例中,所述注意力网络可以由若干顺次相连的注意力子网构成。
在注意力网络中,各注意力子网根据输入自身的待融合数据特征,针对每个子数据,确定该子数据对各子数据的注意力权重,并输出该子数据在该注意力子网下的融合数据特征。其中,第一个注意力子网以各子数据的数据特征为所输入的待融合数据特征,并输出各子数据在该注意力子网下的融合数据特征,而其他每层注意力子网则以前一层注意力子网所输出的融合数据特征为输入自身的待融合数据特征,并输出在该注意力子网下的融合数据特征,其中,最后一个注意力子网所输出的融合数据特征即为所述注意力网络输出的融合数据特征,因此,可以根据各子数据在最后一个注意力子网下的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
本说明书一实施例中,各子数据之间包括间隔符,例如两种模态类型的子数据之间,或通过两种划分方式所划分出的子数据之间都可以被预设有间隔符。此外,在子数据集中各子数据前还可以被设置有间隔符,以使在各子数据的数据特征被输入数据识别模型中是,表征该所输入的特征为子数据的数据特征。
本说明书一实施例中,可以将所确定出的各间隔符作为子数据加入所述子数据集,从而在提取子数据的数据特征时一并提取作为子数据的间隔符的数据特征,并将各子数据的数据特征输入所述数据匹配模型。
可以看出,由于间隔符仅起到对子数据进行间断和分割的作用,而间隔符自身并不具有语义,因此为间隔符所确定出的融合数据特征可以表示出间隔符以外的其他子数据之间的匹配程度。本说明书一实施例中,在通过上述任一方式确定出间隔符的融合数据特征之后,可以间隔符的融合数据特征确定待匹配数据对中不同模态的待匹配数据的匹配结果。
当然,也可以预先选择出通过间隔符中的哪一指定间隔符的融合数据特征来确定所述匹配结果,本说明书一实施例中,可以将各子数据前的第一个间隔符作为指定间隔符。
在采用上述数据匹配模型确定待匹配数据对中不同模态的待匹配数据的匹配结果之前,可以预先对所述数据匹配模型进行训练,以提高所述数据匹配模型的匹配精度。本说明书实施例提供一种数据匹配模型的训练方法包括:
S200:确定由不同模态类型的样本数据所构成的样本数据对,以及所述样本数据对中不同模态的样本数据的标注匹配结果。
本说明书一实施例中,标注匹配结果包括匹配和不匹配。通常来说,样本数据对中各样本数据的模态类型可以根据所述数据匹配模型在实际使用过程中所要确定匹配结果的待匹配数据的模态类型来设置,即与实际使用过程中的待匹配数据的模态类型相同。
其中,可以将样本数据中所包含的语义相似的样本数据对作为所述标注结果为匹配的样本数据对,仍然以图像模态和文本模态为例,标注结果为匹配的样本数据对中可以包括图像以及对图像所进行描述的文本而标注结果为不匹配的样本数据对中则可以为图像的语义以及文本的语义之间关联度较弱的图像和文本。
S202:针对每个样本数据,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该样本数据,并得到所划分出的样本子数据,并将所划分出的子数据加入样本子数据集。
S204:提取样本子数据集中各样本子数据的数据特征,并将所提取出的数据特征输入数据匹配模型。
S206:根据各样本子数据的数据特征,针对每个样本子数据,通过所述数据匹配模型,确定该样本子数据对各样本子数据的注意力权重,并根据该样本子数据对各样本子数据的注意力权重确定该样本子数据的融合数据特征。
S208:根据各样本子数据的融合数据特征,确定所述样本数据对中不同模态的样本数据的匹配结果,作为预测匹配结果。
S210:以所述预测匹配结果和标注匹配结果之前的差异最小为目标,调整所述数据匹配模型中的参数。
以上为本说明书的一个或多个实施例提供的数据匹配方法,基于同样的思路,本说明书还提供了相应的数据匹配装置,如图2所示。
图2为本说明书提供的一种数据匹配装置示意图,该装置包括:数据确定模块、数据划分模块、特征提取模块、特征融合模块以及数据匹配模块,其中:
数据确定模块200,用于确定由不同模态类型的待匹配数据所构成的待匹配数据对;
数据划分模块202,用于针对每个待匹配数据,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该待匹配数据,并得到所划分出的子数据,并将所划分出的子数据加入子数据集;
特征提取模块204,用于提取子数据集中各子数据的数据特征,并将所提取出的数据特征输入预先训练的数据匹配模型;
特征融合模块206,用于根据各子数据的数据特征,针对每个子数据,通过所述数据匹配模型,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据的融合数据特征;
数据匹配模块208,用于根据各子数据的融合数据特征,确定所述待匹配数据对之间的匹配结果。
可选地,预先设定的各划分方式中至少包括第一划分方式,所述数据划分模块202具体用于,将该待匹配数据自身划分为该待匹配数据的子数据。
可选地,所述数据划分模块202具体用于,确定该待匹配数据的模态类型,作为目标模态类型;根据预先设定的所述目标模态类型对应的各划分方式,将所述目标模态类型对应的各划分方式作为该待匹配数据对应的划分方式;针对该待匹配数据对应的每种划分方式,采用该划分方式划分该待匹配数据。
可选地,当所述目标模态类型为图像模态时,目标模态类型对应的各划分方式包括第一划分方式、第二划分方式以及第三划分方式中的至少两种;可选地,所述数据划分模块202具体用于,将该待匹配数据自身划分为该待匹配数据的子数据;通过目标检测算法检测图像中所包含的目标,将所检测出的目标所在的区域作为该待匹配数据的子数据;以预设的图像尺寸将该待匹配数据划分为若干尺寸相同的单元区域,并将所划分出的单元区域作为该待匹配数据的子数据。
可选地,所述数据匹配模型包括由若干顺次相连的各注意力子网所构成的注意力网络;所述特征融合模块206具体用于,针对每个注意力子网,根据输入该注意力子网的各子数据的待融合数据特征,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据在该注意力子网下的融合数据特征,其中,当该注意力子网为第一个注意力子网时,输入该注意力子网的各子数据的待融合数据特征为各子数据的数据特征;所述数据匹配模块208具体用于,根据各子数据在最后一个注意力子网下的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
可选地,特征提取模块204具体用于,确定各子数据之间的间隔符;将各间隔符作为子数据加入所述子数据集,并提取子数据集中各子数据的数据特征;所述数据匹配模块208具体用于,从各间隔符中选择出指定间隔符;根据所述指定间隔符的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
可选地,所述数据确定模块200具体用于,确定由不同模态类型的样本数据所构成的样本数据对,以及所述样本数据对中不同模态的样本数据的标注匹配结果;针对每个样本数据,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该样本数据,并得到所划分出的样本子数据,并将所划分出的子数据加入样本子数据集;提取样本子数据集中各样本子数据的数据特征,并将所提取出的数据特征输入数据匹配模型;根据各样本子数据的数据特征,针对每个样本子数据,通过所述数据匹配模型,确定该样本子数据对各样本子数据的注意力权重,并根据该样本子数据对各样本子数据的注意力权重确定该样本子数据的融合数据特征;根据各样本子数据的融合数据特征,确定所述样本数据对中不同模态的样本数据的匹配结果,作为预测匹配结果;以所述预测匹配结果和标注匹配结果之前的差异最小为目标,调整所述数据匹配模型中的参数。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的数据匹配方法。
本说明书还提供了图3所示的电子设备的结构示意图。如图2所示,在硬件层面,该电子设备包括处理器、内部总线、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1提供的数据匹配方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (4)
1.一种数据匹配方法,其特征在于,包括:
确定由不同模态类型的待匹配数据所构成的待匹配数据对,所述待匹配数据为图像形式的数据;
针对每个待匹配数据,针对预先设定的每种划分方式,采用该划分方式划分该待匹配数据,得到所划分出的子数据,并将所划分出的子数据加入子数据集;
提取子数据集中各子数据的数据特征,并将所提取出的数据特征输入预先训练的数据匹配模型;
根据各子数据的数据特征,针对每个子数据,通过所述数据匹配模型,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据的融合数据特征;
根据各子数据的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果;
其中,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该待匹配数据,具体包括:
确定该待匹配数据的模态类型,作为目标模态类型;
根据预先设定的所述目标模态类型对应的各划分方式,将所述目标模态类型对应的各划分方式作为该待匹配数据对应的划分方式;
针对该待匹配数据对应的每种划分方式,采用该划分方式划分该待匹配数据;
当所述目标模态类型为图像模态时,目标模态类型对应的各划分方式包括第一划分方式、第二划分方式以及第三划分方式中的至少两种;
采用第一划分方式划分该待匹配数据,具体包括:
将该待匹配数据自身划分为该待匹配数据的子数据;
采用第二划分方式划分该待匹配数据,具体包括:
通过目标检测算法检测图像中所包含的目标,将所检测出的目标所在的区域作为该待匹配数据的子数据;
采用第三划分方式划分该待匹配数据,具体包括:
以预设的图像尺寸将该待匹配数据划分为若干尺寸相同的单元区域,并将所划分出的单元区域作为该待匹配数据的子数据;
所述预先训练的数据匹配模型,具体包括:
确定由不同模态类型的样本数据所构成的样本数据对,以及所述样本数据对中不同模态的样本数据的标注匹配结果;
针对每个样本数据,针对预先设定的各划分方式中的每种划分方式,采用该划分方式划分该样本数据,并得到所划分出的样本子数据,并将所划分出的子数据加入样本子数据集;
提取样本子数据集中各样本子数据的数据特征,并将所提取出的数据特征输入数据匹配模型;
根据各样本子数据的数据特征,针对每个样本子数据,通过所述数据匹配模型,确定该样本子数据对各样本子数据的注意力权重,并根据该样本子数据对各样本子数据的注意力权重确定该样本子数据的融合数据特征;
根据各样本子数据的融合数据特征,确定所述样本数据对中不同模态的样本数据的匹配结果,作为预测匹配结果;
以所述预测匹配结果和标注匹配结果之前的差异最小为目标,调整所述数据匹配模型中的参数。
2.如权利要求1所述的方法,其特征在于,预先设定的各划分方式中至少包括第一划分方式;
采用第一划分方式划分待匹配数据,具体包括:
将该待匹配数据自身划分为该待匹配数据的子数据。
3.如权利要求1所述的方法,其特征在于,所述数据匹配模型包括由若干顺次相连的各注意力子网所构成的注意力网络;
确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据的融合数据特征,具体包括:
针对每个注意力子网,根据输入该注意力子网的各子数据的待融合数据特征,确定该子数据对各子数据的注意力权重,并根据该子数据对各子数据的注意力权重确定该子数据在该注意力子网下的融合数据特征,其中,当该注意力子网为第一个注意力子网时,输入该注意力子网的各子数据的待融合数据特征为各子数据的数据特征;
根据各子数据的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果,具体包括:
根据各子数据在最后一个注意力子网下的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
4.如权利要求1所述的方法,提取子数据集中各子数据的数据特征,具体包括:
确定各子数据之间的间隔符;
将各间隔符作为子数据加入所述子数据集,并提取子数据集中各子数据的数据特征;
根据各子数据的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果,具体包括:
从各间隔符中选择出指定间隔符;
根据所述指定间隔符的融合数据特征,确定所述待匹配数据对中不同模态的待匹配数据的匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757520.7A CN113642603B (zh) | 2021-07-05 | 2021-07-05 | 一种数据匹配方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757520.7A CN113642603B (zh) | 2021-07-05 | 2021-07-05 | 一种数据匹配方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642603A CN113642603A (zh) | 2021-11-12 |
CN113642603B true CN113642603B (zh) | 2023-04-28 |
Family
ID=78416725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110757520.7A Active CN113642603B (zh) | 2021-07-05 | 2021-07-05 | 一种数据匹配方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642603B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414731B (zh) * | 2019-07-23 | 2021-02-02 | 北京三快在线科技有限公司 | 订单分配的方法、装置、计算机可读存储介质及电子设备 |
CN111259851B (zh) * | 2020-01-23 | 2021-04-23 | 清华大学 | 一种多模态事件检测方法及装置 |
CN111310456B (zh) * | 2020-02-13 | 2023-06-20 | 支付宝(杭州)信息技术有限公司 | 一种实体名称匹配方法、装置及设备 |
CN111563551B (zh) * | 2020-04-30 | 2022-08-30 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
-
2021
- 2021-07-05 CN CN202110757520.7A patent/CN113642603B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113642603A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308113A (zh) | 一种基于半监督的目标识别方法、设备及介质 | |
CN115828162B (zh) | 一种分类模型训练的方法、装置、存储介质及电子设备 | |
CN116303989A (zh) | 一种面向多种检索场景的专利检索方法、装置、设备 | |
CN115600157A (zh) | 一种数据处理的方法、装置、存储介质及电子设备 | |
CN116049761A (zh) | 数据处理方法、装置及设备 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
CN116186330B (zh) | 一种基于多模态学习的视频去重方法及装置 | |
CN116630480B (zh) | 一种交互式文本驱动图像编辑的方法、装置和电子设备 | |
CN116863484A (zh) | 一种字符识别的方法、装置、存储介质及电子设备 | |
CN113642603B (zh) | 一种数据匹配方法、装置、存储介质及电子设备 | |
CN115221523B (zh) | 数据处理方法、装置及设备 | |
CN115238250B (zh) | 一种模型的处理方法、装置及设备 | |
CN116662657A (zh) | 一种模型训练和信息推荐的方法、装置、存储介质及设备 | |
CN114926437A (zh) | 一种图像质量评价方法及装置 | |
CN115358777A (zh) | 虚拟世界的广告投放处理方法及装置 | |
CN111652074B (zh) | 一种人脸识别方法、装置、设备及介质 | |
CN115017915B (zh) | 一种模型训练、任务执行的方法及装置 | |
CN111598092A (zh) | 图像中目标区域的确定方法、目标识别方法及装置 | |
CN111539962A (zh) | 一种目标图像分类方法、装置以及介质 | |
CN116795972B (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN117076650B (zh) | 一种基于大语言模型的智能对话方法、装置、介质及设备 | |
CN117037046B (zh) | 一种视听事件检测方法、装置、存储介质及电子设备 | |
CN117576790A (zh) | 一种生物攻击检测方法、装置及设备 | |
CN118069824A (zh) | 一种风险识别的方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |