CN113569554A - 一种数据库中实体对匹配方法、装置、电子设备及存储介质 - Google Patents

一种数据库中实体对匹配方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113569554A
CN113569554A CN202111118039.XA CN202111118039A CN113569554A CN 113569554 A CN113569554 A CN 113569554A CN 202111118039 A CN202111118039 A CN 202111118039A CN 113569554 A CN113569554 A CN 113569554A
Authority
CN
China
Prior art keywords
entity
loss function
vector representation
sample
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111118039.XA
Other languages
English (en)
Other versions
CN113569554B (zh
Inventor
白强伟
薛小娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhizhi Heshu Technology Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202111118039.XA priority Critical patent/CN113569554B/zh
Publication of CN113569554A publication Critical patent/CN113569554A/zh
Application granted granted Critical
Publication of CN113569554B publication Critical patent/CN113569554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据库中实体对匹配方法、装置、电子设备及存储介质,包括:获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示;计算所述向量表示的相似度;根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。通过根据所述实体对的对比损失函数和实体属性的对比损失函数训练BERT模型,避免了向量表示并不能体现出不同属性的特点的问题,进而提高了所述向量表示对的准确性,提高了匹配结果的准确性。避免了现有技术中需要多次判断的过程,提高了实体匹配效率。

Description

一种数据库中实体对匹配方法、装置、电子设备及存储介质
技术领域
本申请涉及数据识别技术领域,尤其是涉及一种数据库中实体对匹配方法、装置、电子设备及存储介质。
背景技术
随着信息化技术的不断发展,全世界的企业都面临着数字化转型的大浪潮。显然,这个过程中会产生大量的数据。若要利用好这些数据来推动数字化转型,那么就必需要进行数据治理,从而为企业提供统一、干净的数据源。在数据治理的领域中存在着一个重要的问题,称为实体匹配(Entity Matching)或者实体消解(Entity Resolution)。实体匹配的目标是确定数据库中的两个实体是否指向现实世界中的同一实体。
现有技术中对于实体匹配采用无监督实体匹配和有监督实体匹配两种方式,而无监督实体匹配判断两个实体是否指现实中的同一个人时,先判断名字是否完全相同,若名字相同则再计算住址的字符串相似度,若高于某个阈值则继续通过其他属性进行判断,由此可见,无监督实体匹配需要为不同的判断方式设置不同的判断条件,而且判断过程需要多次判断,存在效率低下的问题。而有监督实体匹配方式虽然效果显著,但是存在标注成本高且难度大的问题。
发明内容
有鉴于此,本申请的目的在于提供一种数据库中实体对匹配方法、装置、电子设备及存储介质,通过获取待匹配实体对的文本对,其中,所述待匹配实体对为数据库集合中相对应的一对实体;将实体转换为文本便于后续为每个实体学习到一个更好的向量表示,也便于后续对文本语义的分析;将所述文本对输入预设训练模型得到所述待匹配实体对的向量表示对,其中,所述预设训练模型为根据所述实体对的整体对比损失函数和所述实体对的属性对比损失函数完成训练的BERT模型;通过获取实体属性的对比损失函数,使得完成训练的BERT模型能够满足更高要求的实体匹配;根据所述向量表示对计算所述向量表示对的相似度;比较所述相似度与阈值,得到匹配结果。将对比学习引入实体匹配任务中,从而改善了无监督实体匹配的效果。
本申请实施例提供了一种数据库中实体对匹配方法,包括:
获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;
将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,其中,所述向量表示学习模型为根据实体对比损失函数和属性对比损失函数完成训练的BERT模型;
计算所述向量表示的相似度;
根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。
可选的,所述将所述实体对进行转化,得到文本序列的步骤,包括:
对所述待匹配实体进行序列化转化,得到文本序列,其中,所述文本序列中不包含标签信息。
可选的,在所述将所述文本对输入向量表示学习模型得到所述待匹配实体对的向量表示对的步骤之前,还包括:
获取所述两个目标实体所在的两个目标集合;
合并所述两个目标实体所在的两个目标集合,得到实体集合;
在所述实体集合中采用随机采样法确定样本集合;
根据所述样本集合计算所述实体对比损失函数和所述属性对比损失函数;
基于所述实体对比损失函数和所述属性对比损失函数训练所述BERT模型,得到所述向量表示学习模型。
可选的,所述根据所述样本集合计算所述实体对比损失函数的步骤,包括:
对所述样本集合进行属性值打乱处理,得到增强样本对数据集;
根据所述增强样本对数据集确定所述增强样本对数据集的向量表示;
基于所述增强样本对数据集的向量表示计算所述实体对比损失函数。
可选的,所述根据所述样本集合计算所述属性对比损失函数的步骤,包括:
抽取出所述样本集合中所有实体的目标属性的取值,基于所述取值构造新的属性数据集;
基于所述目标属性的相似度度量方式和所述属性数据集构建相似样本对数据集;
根据所述相似样本对数据集确定所述相似样本对数据的向量表示;
根据所述相似样本对数据的向量表示计算所述属性对比损失函数。
可选的,所述基于所述增强样本对数据集的向量表示对计算所述实体对比损失函数的步骤,包括:
计算所述增强样本对数据集内单个样本的对比损失函数:
Figure M_210923155524713_713079001
其中,
Figure M_210923155524775_775575001
Figure M_210923155524791_791201002
为所述增强样本对数据集的向量表示对,
Figure M_210923155524822_822458003
是衡量向量相似度的函数,
Figure M_210923155524855_855169004
为指示函数,i代表当前样本为所述增强样本对数据集内的第i个样本,N代表所述增强样本对数据集包含N个样本;
基于所述单个样本的对比损失函数计算所述实体对比损失函数:
Figure M_210923155524870_870797001
其中,N代表所述增强样本对数据集包含N个样本,
Figure M_210923155524902_902046001
为所述增强样本对数据集内单个样本的对比损失函数。
可选的,所述根据所述相似样本对数据的向量表示计算所述属性对比损失函数的步骤,包括:
根据所述相似样本对数据的向量表示计算单个样本在目标属性上的对比损失函数:
Figure M_210923155524933_933287001
其中,
Figure M_210923155524980_980165001
Figure M_210923155525011_011433002
为所述相似样本对数据的向量表示,
Figure M_210923155525044_044593003
是衡量向量相似度的函数,
Figure M_210923155525060_060732004
为指示函数,i代表当前样本为所述增强样本对数据集内的第i个样本,N代表所述增强样本对数据集包含N个样本;
基于单个样本在目标属性上的对比损失函数计算所有样本在目标属性上的对比损失函数:
Figure M_210923155525091_091989001
根据所有样本在目标属性上的对比损失函数计算所述属性对比损失函数:
Figure M_210923155525107_107654001
其中,m为实体中属性的种类数。
第二方面,本申请实施例还提供一种数据库中实体对匹配装置,包括:
数据采集模块,用于获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;
输入模块,用于将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,其中,所述向量表示学习模型为根据实体对比损失函数和属性对比损失函数完成训练的BERT模型;
计算模块,用于计算所述向量表示对的相似度;
比较模块,用于根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的数据库中实体对匹配方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的数据库中实体对匹配方法的步骤。
本申请实施例提供的数据库中实体对匹配方法及装置,与现有技术中的无监督实体匹配和有监督实体匹配方法相比,通过所述实体对的对比损失函数和实体属性的对比损失函数对训练模型进行训练,与基于相似度和规则的无监督实体匹配方法相比提高了实体匹配的效果;与需要标注的有监督实体匹配方法相比,减少了标注过程,降低了成本和实体匹配的难度,提高了数据处理能力,也提高了数据融合能力。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据库中实体对匹配方法的流程图;
图2示出了本申请实施例所提供的一种数据库中实体对匹配装置的结构示意图;
图3示出了本申请实施例所提供的一种电子设备的结构示意图;
图4示出了本申请实施例所提供的一种存储介质的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于数据治理。
经研究发现,无监督实体匹配需要为不同的判断方式设置不同的判断条件,而且判断过程为多次判断过程,存在效率低下的问题。而有监督实体匹配方式虽然效果显著,但是存在标注成本高且难度大的问题。例如:给定两个实体,分别为实体1(姓名:张三,年龄:30,住址:北京市朝阳区,职业:程序员)、实体2(姓名:张三,年龄:31,住址:北京市海淀区,职业:程序员)。无监督实体匹配需要先判断姓名是否相同,若姓名相同,则判断地址是否相同,若地址相同,则继续判断职业是否相同,进而需要多次判断,存在效率低下的问题。而本申请通过获取两个实体的文本序列,即,实体1(姓名张三年龄30住址北京市朝阳区职业程序员)、实体2(姓名张三年龄31住址北京市海淀区职业程序员),将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,基于向量表示计算所述向量表示的相似度,进而不需要多次判断的过程,当实体属性较多的情况下,也不需要对每个属性都进行比较,进而提高了实体匹配的效率。
基于此,本申请实施例提供了一种数据库中实体对匹配方法,以在不对实体进行标注的前提下,提高实体匹配的效率和效果。
匹配实体指一定的要素,正是通过对这些要素的比较以确定对应(或同名)的共轭实体。这些要索包括数字影像的灰度值及其分布模式,描述数字影像上特定对象成特征的特征向量(即特征属性或特征描述参数)、数字影像上特征之间的关系等。
匹配实体就是为了确定同名共轭实体(或在确定共轭实体的过程中)所比较的那些东西与要素。比如说,要确定两个人是不是很相似(很像),可以比较两个人的身高、长相、肤色、声音等。此时,该两个人即是共轭实体,而进行比较的那些“指标”一身高、长相、肤色、声音等则是匹配实体。在以点为共轭实体的数字影像匹配中,可以通过比较像点(或像素)周围局部范围内影像的灰度值及其分布来确定同名点;如常用的相关系数匹配,这时数字影像局部范围内的灰度值及其分布模式就是被比较的要素,即为匹配实体。
请参阅图1,图1为本申请实施例所提供的一种数据库中实体对匹配方法的流程图。所如图1中所示,本申请实施例提供的数据库中实体对匹配方法,包括:
S101、获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;
示例性的,设每个实体
Figure M_210923155525138_138860001
为key-value对的集合,那么该实体可以表示为:
Figure M_210923155525170_170107001
其中,
Figure M_210923155525201_201357001
是实体中属性的个数,
Figure M_210923155525216_216987002
是属性名,
Figure M_210923155525250_250183003
是属性值。
则实体序列化的过程可以形式化的表示为:
Figure M_210923155525265_265805001
举例来说,假设实体
Figure M_210923155525312_312686001
为{(姓名,张三),(年龄,30)},那么
Figure M_210923155525328_328313002
则为“[COL]姓名[VAL]张三[COL]年龄[VAL]30”。
S102、将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,其中,所述向量表示学习模型为根据实体对比损失函数和属性对比损失函数完成训练的BERT模型;
示例性的,基于对比学习技术,以数据增强的方式为某个实体生成2个增强样本,然后利用损失函数拉近这两个样本,同时拉远其他样本与这两个样本的距离。
示例性的,所述预设训练模型为对比学习框架SimCLR,具体地,所述SimCLR框架的工作过程为:
(1) 从数据集中随机采样
Figure M_210923155525359_359587001
个图片,组成样本集合
Figure M_210923155525375_375181002
(2) 对样本集合
Figure M_210923155525406_406434001
中的任一样本
Figure M_210923155525439_439615002
,使用数据增强方式生成两个增强样本
Figure M_210923155525455_455758003
Figure M_210923155525487_487001004
,并组成正样本对
Figure M_210923155525502_502643005
(3) 所有的增强样本对构造新的数据集
Figure M_210923155525533_533887001
(4) 使用一个神经网络编码器
Figure M_210923155525565_565134001
能够将原始输入转换为向量表示,即
Figure M_210923155525596_596386002
(5) 使用一个全连接神经网络
Figure M_210923155525627_627630001
Figure M_210923155525644_644202002
Figure M_210923155525660_660344003
映射至统一的向量空间,即
Figure M_210923155525691_691603004
Figure M_210923155525722_722849005
(6) 计算每对样本的对比损失函数:
Figure M_210923155525754_754095001
其中,
Figure M_210923155525800_800973001
是相似度度量函数,
Figure M_210923155525816_816597002
为指示函数。
(7) 将所有正样本对的对比损失函数相加,即为用于训练的损失函数
Figure M_210923155525849_849802001
S103、计算所述向量表示对的相似度;
示例性的,根据所述向量表示对计算两个向量的相似度
Figure M_210923155525881_881048001
S104、根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。
在一种可能的实施方式中,所述比较所述相似度与阈值,得到匹配结果的步骤,包括:
若所述相似度大于等于阈值,则所述待匹配实体对相匹配;
若所述相似度小于阈值,则所述待匹配实体对不匹配。
示例性的,若
Figure M_210923155525896_896672001
,则认为两个实体匹配,否则是不匹配。其中,
Figure M_210923155525927_927918002
是人工指定的相似度阈值。
通过获取数据库中待匹配的任意两个实体作为实体对,将所述实体对进行转化,得到文本对,其中,所述文本对中不包含标签信息;将实体转换为文本便于后续为每个实体学习到一个更好的向量表示,也便于后续对文本语义的分析;将所述文本对输入预设训练模型得到所述待匹配实体对的向量表示对,其中,所述预设训练模型为根据所述实体对的整体对比损失函数和所述实体对的属性对比损失函数完成训练的BERT模型;通过获取实体对的属性对比损失函数,将预训练语言模型与人工规则有机的集合,使得完成训练的BERT模型能够满足更高要求的实体匹配;根据所述向量表示对计算所述向量表示对的相似度;比较所述相似度与阈值,得到匹配结果。将对比学习引入实体匹配任务中,从而改善了无监督实体匹配的效果。
在一种可能的实施方式中,所述获取待匹配实体对的文本对的步骤,包括:
对所述待匹配实体进行序列化转化,得到文本序列,其中,所述文本序列中不包含标签信息。
示例性的,获取待匹配实体对后,采用序列化方法将所述待匹配实体对转化为文本对时,不同于实体匹配系统DITTO,在序列化实体时并不加入特殊标签[COL]和[VAL],所以对于实体
Figure M_210923155525959_959172001
,序列化结果为:
Figure M_210923155525990_990440001
举例来说,假设实体
Figure M_210923155526021_021679001
为{(姓名,张三),(年龄,30)},那么
Figure M_210923155526054_054393002
的结果为“姓名张三年龄30”。
在一种可能的实施方式中,在所述将所述文本对输入向量表示学习模型得到所述待匹配实体对的向量表示对的步骤之前,还包括:
获取所述两个目标实体所在的两个目标集合;
合并所述两个目标实体所在的两个目标集合,得到实体集合;
在所述实体集合中采用随机采样法确定样本集合;
根据所述样本集合计算所述实体对比损失函数和所述属性对比损失函数;
基于所述实体对比损失函数和所述属性对比损失函数训练所述BERT模型,得到所述向量表示学习模型。
示例性的,模型的最终损失函数为
Figure M_210923155526070_070011001
,通过最小化
Figure M_210923155526101_101260002
来不断优化模型,其中,
Figure M_210923155526132_132516003
为所述实体对的对比损失函数,
Figure M_210923155526179_179399004
为实体属性的对比损失函数。
在一种可能的实施方式中,获取所述实体对的整体对比损失函数的步骤,包括:
对所述样本集合进行属性值打乱处理,得到增强样本对数据集;
根据所述增强样本对数据集确定所述增强样本对数据集的向量表示;
基于所述增强样本对数据集的向量表示计算所述实体对比损失函数。
示例性的,将实体集合
Figure M_210923155526195_195026001
合并至
Figure M_210923155526226_226261002
,即
Figure M_210923155526244_244305003
从实体集合
Figure M_210923155526276_276074001
中随机挑选出
Figure M_210923155526307_307315002
个样本,组成样本集
Figure M_210923155526322_322961003
对于实体
Figure M_210923155526354_354205001
,采用属性值打乱方式获得两个数据增强样本,即
Figure M_210923155526385_385456002
Figure M_210923155526401_401068003
构建增强样本对数据集
Figure M_210923155526433_433268001
使用实体序列化模块将所有实体序列化为文本,得到文本对数据集
Figure M_210923155526480_480674001
,其中
Figure M_210923155526511_511923002
,
Figure M_210923155526543_543173003
将BERT作为编码器,将序列化后的实体转换为向量表示,即
Figure M_210923155526574_574415001
Figure M_210923155526605_605661001
由于模型BERT在训练的过程会启用dropout,因此
Figure M_210923155526638_638339001
Figure M_210923155526670_670131002
均是通过dropout进行数据增强的样本。
计算单个样本的对比损失函数:
单个样本对的损失函数为:
Figure M_210923155526701_701363001
Figure M_210923155526748_748245001
是衡量向量相似度的函数,通常使用
Figure M_210923155526772_772629002
相似度;
Figure M_210923155526804_804398003
为指示函数。
计算所有样本的对比损失函数:
Figure M_210923155526836_836590001
获取
Figure M_210923155526868_868358001
作为所述实体对的整体对比损失函数。
在一种可能的实施方式中,获取所述实体对的属性对比损失函数的步骤,包括:
抽取出所述样本集合中所有实体的目标属性的取值,基于所述取值构造新的属性数据集;
基于所述目标属性的相似度度量方式和所述属性数据集构建相似样本对数据集;
根据所述相似样本对数据集确定所述相似样本对数据的向量表示;
根据所述相似样本对数据的向量表示计算所述属性对比损失函数。
示例性的,抽取出样本集
Figure M_210923155526899_899620001
中所有实体在属性
Figure M_210923155526930_930854002
上的取值,构造新的属性数据集
Figure M_210923155526946_946487003
对于属性
Figure M_210923155527024_024617001
,通过相似度来挑选出最相似的样本,即
Figure M_210923155527057_057328001
Figure M_210923155527104_104205001
主要用于从集合
Figure M_210923155527135_135463002
中挑选出与
Figure M_210923155527166_166702003
最相似的样本,该函数由人工指定。相似度的度量方式根据属性的不同而不同。例如,若属性为数值型,那么相似度的度量就为两个数字的绝对距离;若属性为字符串,那么相似度的度量为字符串相似度。
构建相似样本数据集
Figure M_210923155527197_197955001
使用BERT获取不同属性值的向量表示
Figure M_210923155527229_229215001
Figure M_210923155527261_261911001
计算单个样本在目标属性上的对比损失函数
Figure M_210923155527308_308794001
计算所有样本在目标属性上的对比损失函数
Figure M_210923155527340_340043001
计算所有样本在所有属性的对比损失函数
上面计算了属性
Figure M_210923155527371_371290001
上的对比损失函数
Figure M_210923155527402_402536002
,那么所有属性的对比损失函数为
Figure M_210923155527434_434733001
获取
Figure M_210923155527450_450934001
作为所述实体属性的对比损失函数。
在一种可能的实施方式中,所述预设训练模型为通过最小化所述实体对的对比损失函数与实体属性的对比损失函数之和的方法完成训练的BERT模型。
示例性的,在进行数据整理时,获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,其中,所述向量表示学习模型为根据实体对比损失函数和属性对比损失函数完成训练的BERT模型;计算所述向量表示的相似度;根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。若所述两个目标实体匹配,则认定所述两个目标实体为同一现实实体,则将所述两个目标实体对应的信息进行整理,便于数据管理。
在一种可能的实施方式中,如图2所示,本申请实施例还提供一种数据库中实体对匹配装置,包括:
数据采集模块201,用于获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;
输入模块202,用于将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,其中,所述向量表示学习模型为根据实体对比损失函数和属性对比损失函数完成训练的BERT模型;
计算模块203,用于计算所述向量表示对的相似度;
比较模块204,用于根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。
在一种可能的实时方式中,如图3所示,本申请实施例提供了一种电子设备300,包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311,处理器320执行计算机程序311时,实现:获取数据库中待匹配的任意两个实体作为实体对,将所述实体对进行转化,得到文本对,其中,所述文本对中不包含标签信息;将所述文本对输入向量表示学习模型得到所述待匹配实体对的向量表示对,其中,所述向量表示学习模型为根据所述实体对的整体对比损失函数和所述实体对的属性对比损失函数完成训练的BERT模型;计算所述向量表示对的相似度;比较所述相似度与阈值,确定所述任意两个实体是否匹配。
在一种可能的实时方式中,如图4所示,本申请实施例提供了一种计算机可读存储介质400,其上存储有计算机程序411,该计算机程序411被处理器执行时实现:获取数据库中待匹配的任意两个实体作为实体对,将所述实体对进行转化,得到文本对,其中,所述文本对中不包含标签信息;将所述文本对输入向量表示学习模型得到所述待匹配实体对的向量表示对,其中,所述向量表示学习模型为根据所述实体对的整体对比损失函数和所述实体对的属性对比损失函数完成训练的BERT模型;计算所述向量表示对的相似度;比较所述相似度与阈值,确定所述任意两个实体是否匹配。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据库中实体对匹配方法,其特征在于,包括:
获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;
将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,其中,所述向量表示学习模型为根据实体对比损失函数和属性对比损失函数完成训练的BERT模型;
计算所述向量表示的相似度;
根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。
2.根据权利要求1所述的数据库中实体对匹配方法,其特征在于,所述将所述实体对进行转化,得到文本序列的步骤,包括:
对所述待匹配实体进行序列化转化,得到文本序列,其中,所述文本序列中不包含标签信息。
3.根据权利要求1所述的数据库中实体对匹配方法,其特征在于,在所述将所述文本对输入向量表示学习模型得到所述待匹配实体对的向量表示对的步骤之前,还包括:
获取所述两个目标实体所在的两个目标集合;
合并所述两个目标实体所在的两个目标集合,得到实体集合;
在所述实体集合中采用随机采样法确定样本集合;
根据所述样本集合计算所述实体对比损失函数和所述属性对比损失函数;
基于所述实体对比损失函数和所述属性对比损失函数训练所述BERT模型,得到所述向量表示学习模型。
4.根据权利要求3所述的数据库中实体对匹配方法,其特征在于,所述根据所述样本集合计算所述实体对比损失函数的步骤,包括:
对所述样本集合进行属性值打乱处理,得到增强样本对数据集;
根据所述增强样本对数据集确定所述增强样本对数据集的向量表示;
基于所述增强样本对数据集的向量表示计算所述实体对比损失函数。
5.根据权利要求3所述的数据库中实体对匹配方法,其特征在于,所述根据所述样本集合计算所述属性对比损失函数的步骤,包括:
抽取出所述样本集合中所有实体的目标属性的取值,基于所述取值构造新的属性数据集;
基于所述目标属性的相似度度量方式和所述属性数据集构建相似样本对数据集;
根据所述相似样本对数据集确定所述相似样本对数据的向量表示;
根据所述相似样本对数据的向量表示计算所述属性对比损失函数。
6.根据权利要求4所述的数据库中实体对匹配方法,其特征在于,所述基于所述增强样本对数据集的向量表示对计算所述实体对比损失函数的步骤,包括:
计算所述增强样本对数据集内单个样本的对比损失函数:
Figure M_210923155521978_978216001
其中,
Figure M_210923155522246_246254001
Figure M_210923155522293_293650002
为所述增强样本对数据集的向量表示对,
Figure M_210923155522324_324896003
是衡量向量相似度的函数,
Figure M_210923155522371_371774004
为指示函数,i代表当前样本为所述增强样本对数据集内的第i个样本,N代表所述增强样本对数据集包含N个样本;
基于所述单个样本的对比损失函数计算所述实体对比损失函数:
Figure M_210923155522451_451848001
其中,N代表所述增强样本对数据集包含N个样本,
Figure M_210923155522498_498735001
为所述增强样本对数据集内单个样本的对比损失函数。
7.根据权利要求4所述的数据库中实体对匹配方法,其特征在于,所述根据所述相似样本对数据的向量表示计算所述属性对比损失函数的步骤,包括:
根据所述相似样本对数据的向量表示计算单个样本在目标属性上的对比损失函数:
Figure M_210923155522529_529973001
其中,
Figure M_210923155522683_683776001
Figure M_210923155522746_746267002
为所述相似样本对数据的向量表示,
Figure M_210923155522777_777535003
是衡量向量相似度的函数,
Figure M_210923155522808_808781004
为指示函数,i代表当前样本为所述增强样本对数据集内的第i个样本,N代表所述增强样本对数据集包含N个样本;
基于单个样本在目标属性上的对比损失函数计算所有样本在目标属性上的对比损失函数:
Figure M_210923155522840_840981001
根据所有样本在目标属性上的对比损失函数计算所述属性对比损失函数:
Figure M_210923155522872_872750001
其中,m为实体中属性的种类数。
8.一种数据库中实体对匹配装置,其特征在于,包括:
数据采集模块,用于获取数据库中待匹配的两个目标实体,将两个所述实体分别去除属性标签得到对应文本序列;
输入模块,用于将所述文本序列输入向量表示学习模型得到所述待匹配实体的向量表示,其中,所述向量表示学习模型为根据实体对比损失函数和属性对比损失函数完成训练的BERT模型;
计算模块,用于计算所述向量表示对的相似度;
比较模块,用于根据所述两个目标实体的向量表示之间的相似度和阈值的差值,确定所述两个目标实体是否匹配。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任一项所述的数据库中实体对匹配方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据库中实体对匹配方法。
CN202111118039.XA 2021-09-24 2021-09-24 一种数据库中实体对匹配方法、装置、电子设备及存储介质 Active CN113569554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111118039.XA CN113569554B (zh) 2021-09-24 2021-09-24 一种数据库中实体对匹配方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111118039.XA CN113569554B (zh) 2021-09-24 2021-09-24 一种数据库中实体对匹配方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113569554A true CN113569554A (zh) 2021-10-29
CN113569554B CN113569554B (zh) 2021-12-28

Family

ID=78174196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111118039.XA Active CN113569554B (zh) 2021-09-24 2021-09-24 一种数据库中实体对匹配方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113569554B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595293A (zh) * 2022-03-03 2022-06-07 阿里巴巴(中国)有限公司 数据处理方法、装置、设备及介质
CN116028596A (zh) * 2023-03-27 2023-04-28 云筑信息科技(成都)有限公司 一种实体匹配分块的实现方法
CN116127334A (zh) * 2023-02-22 2023-05-16 佛山科学技术学院 一种半结构化文本匹配方法及系统
CN117114728A (zh) * 2023-08-18 2023-11-24 广东数鼎科技有限公司 一种车辆版型特征补充方法及装置
CN118093897A (zh) * 2024-04-28 2024-05-28 浙江大华技术股份有限公司 一种数据元匹配方法、电子设备及计算机可读存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN110489755A (zh) * 2019-08-21 2019-11-22 广州视源电子科技股份有限公司 文本生成方法和装置
CN110704559A (zh) * 2019-09-09 2020-01-17 武汉大学 一种多尺度矢量面数据匹配方法
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN111737457A (zh) * 2020-05-19 2020-10-02 北京明略软件系统有限公司 数据表与实体的匹配方法及相关设备
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN112052682A (zh) * 2020-09-02 2020-12-08 平安资产管理有限责任公司 事件实体联合抽取方法、装置、计算机设备及存储介质
CN112084746A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种实体识别方法、系统、存储介质及设备
CN112100321A (zh) * 2020-07-31 2020-12-18 东南大学 一种基于网络表示学习的相似案例推荐方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112287119A (zh) * 2020-06-23 2021-01-29 北京理工大学 一种在线资源相关信息抽取的知识图谱生成方法
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN112733550A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
US20210192321A1 (en) * 2019-12-18 2021-06-24 X Development Llc Generation and utilization of code change intents
CN113420128A (zh) * 2021-08-23 2021-09-21 腾讯科技(深圳)有限公司 文本匹配方法、装置、存储介质及计算机设备

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN110489755A (zh) * 2019-08-21 2019-11-22 广州视源电子科技股份有限公司 文本生成方法和装置
CN110704559A (zh) * 2019-09-09 2020-01-17 武汉大学 一种多尺度矢量面数据匹配方法
US20210192321A1 (en) * 2019-12-18 2021-06-24 X Development Llc Generation and utilization of code change intents
CN111737457A (zh) * 2020-05-19 2020-10-02 北京明略软件系统有限公司 数据表与实体的匹配方法及相关设备
CN111709243A (zh) * 2020-06-19 2020-09-25 南京优慧信安科技有限公司 一种基于深度学习的知识抽取方法与装置
CN112287119A (zh) * 2020-06-23 2021-01-29 北京理工大学 一种在线资源相关信息抽取的知识图谱生成方法
CN112100321A (zh) * 2020-07-31 2020-12-18 东南大学 一种基于网络表示学习的相似案例推荐方法
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质
CN112052682A (zh) * 2020-09-02 2020-12-08 平安资产管理有限责任公司 事件实体联合抽取方法、装置、计算机设备及存储介质
CN112084746A (zh) * 2020-09-11 2020-12-15 广东电网有限责任公司 一种实体识别方法、系统、存储介质及设备
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112287680A (zh) * 2020-10-23 2021-01-29 微医云(杭州)控股有限公司 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN112733550A (zh) * 2020-12-31 2021-04-30 科大讯飞股份有限公司 基于知识蒸馏的语言模型训练方法、文本分类方法及装置
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN112926327A (zh) * 2021-03-02 2021-06-08 首都师范大学 一种实体识别方法、装置、设备及存储介质
CN113420128A (zh) * 2021-08-23 2021-09-21 腾讯科技(深圳)有限公司 文本匹配方法、装置、存储介质及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
O. T. TRAN: "A BERT-based Hierarchical Model for Vietnamese Aspect Based Sentiment Analysis", 《2020 12TH INTERNATIONAL CONFERENCE ON KNOWLEDGE AND SYSTEMS ENGINEERING (KSE)》 *
代雨柔等: "基于自监督学习的社交网络用户轨迹预测模型", 《计算机应用》 *
胡扬等: "面向金融知识图谱的实体和关系联合抽取算法", 《重庆理工大学学报(自然科学)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114595293A (zh) * 2022-03-03 2022-06-07 阿里巴巴(中国)有限公司 数据处理方法、装置、设备及介质
CN116127334A (zh) * 2023-02-22 2023-05-16 佛山科学技术学院 一种半结构化文本匹配方法及系统
CN116127334B (zh) * 2023-02-22 2024-07-05 佛山科学技术学院 一种半结构化文本匹配方法及系统
CN116028596A (zh) * 2023-03-27 2023-04-28 云筑信息科技(成都)有限公司 一种实体匹配分块的实现方法
CN116028596B (zh) * 2023-03-27 2023-08-18 云筑信息科技(成都)有限公司 一种实体匹配分块的实现方法
CN117114728A (zh) * 2023-08-18 2023-11-24 广东数鼎科技有限公司 一种车辆版型特征补充方法及装置
CN117114728B (zh) * 2023-08-18 2024-01-30 广东数鼎科技有限公司 一种车辆版型特征补充方法及装置
CN118093897A (zh) * 2024-04-28 2024-05-28 浙江大华技术股份有限公司 一种数据元匹配方法、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113569554B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN113569554B (zh) 一种数据库中实体对匹配方法、装置、电子设备及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
Akrim et al. Classification of Tajweed Al-Qur'an on Images Applied Varying Normalized Distance Formulas
CN116129141B (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
CN114913942A (zh) 患者招募项目智能匹配方法及装置
CN110188357A (zh) 对象的行业识别方法及装置
CN111814821A (zh) 深度学习模型的建立方法、样本处理方法及装置
CN113836929B (zh) 命名实体识别方法、装置、设备及存储介质
CN114464326A (zh) 基于多模态颈动脉数据的冠心病预测系统
CN118016224A (zh) 一种基于医疗大数据平台的智能病例分析辅助系统
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113722507A (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
CN117390213A (zh) 基于oscar的图文检索模型的训练方法和实现图文检索的方法
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
CN116152551A (zh) 分类模型训练方法、分类方法、装置、设备及介质
Hassan et al. Rsfs: A soft biometrics-based relative support features set for person verification
CN115631370A (zh) 一种基于卷积神经网络的mri序列类别的识别方法及装置
CN111582404B (zh) 内容分类方法、装置及可读存储介质
CN116108843B (zh) 信息处理方法、装置、计算机设备及存储介质
CN117011575B (zh) 一种小样本目标检测模型的训练方法及相关装置
CN117975204B (zh) 一种模型训练方法、缺陷检测方法以及相关装置
CN117556275B (zh) 相关度模型数据处理方法、装置、计算机设备和存储介质
Kulkarni et al. Digitization of Physical Notes: A Comprehensive Approach Using OCR, CNN, RNN, and NMF
CN115757700A (zh) 识别文本匹配的方法、装置、电子设备及存储介质
CN118430038A (zh) 用于识别模型修正的图像处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220608

Address after: 15, second floor, east side of clean coal workshop, No. 68, Shijingshan Road, Shijingshan District, Beijing 100043 (cluster registration)

Patentee after: Beijing Zhizhi Heshu Technology Co.,Ltd.

Address before: A1002, 10th floor, building 1, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd.

TR01 Transfer of patent right