CN108897810A - 一种实体匹配方法、系统、介质及设备 - Google Patents

一种实体匹配方法、系统、介质及设备 Download PDF

Info

Publication number
CN108897810A
CN108897810A CN201810628817.1A CN201810628817A CN108897810A CN 108897810 A CN108897810 A CN 108897810A CN 201810628817 A CN201810628817 A CN 201810628817A CN 108897810 A CN108897810 A CN 108897810A
Authority
CN
China
Prior art keywords
phrase
participle
entity
data block
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810628817.1A
Other languages
English (en)
Inventor
李直旭
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810628817.1A priority Critical patent/CN108897810A/zh
Publication of CN108897810A publication Critical patent/CN108897810A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实体匹配方法、系统、介质及设备,该方法包括:根据待匹配数据表中各实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;利用逆文档频率算法提取第一数据块和第二数据块中文本数据的关键信息,利用关键信息构建比较向量,计算与各个比较向量对应实体对的第一相似度;对第一数据块和第二数据块中的文本数据进行切分,得到分词短语,根据各分词短语的关联度挖掘各分词短语所属的子主题,计算与各个子主题对应实体对的第二相似度;判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;若是,则将实体对判定为同一实体。通过该方法,能够大大提高实体匹配的准确率。

Description

一种实体匹配方法、系统、介质及设备
技术领域
本发明涉及数据库技术领域,特别涉及一种实体匹配方法、系统、介质及设备。
背景技术
随着经济的不断发展,人们生活当中围绕着大量的数据,而数据之间的不一致以及数据的大量冗余,给人们的生活带来诸多不便。为了将不同来源的数据进行融合,人们在实体匹配方面做了大量的研究工作,其目的在于发现不同数据集中表示同一实体的实体对。
目前大部分的实体匹配方法是基于结构化数据的,但是,当数据集中的结构化数据较少,不能反映待匹配的实体关系时,以往方法的匹配结果就会大大降低。所以,通过怎样的一种方法来提高实体的匹配准确率,是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种实体匹配方法、系统、介质及设备,以提高实体匹配的准确率。其具体方案如下:
一种实体匹配方法,包括:
根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,所述待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;
利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;
对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;
判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;
若是,则将所述实体对判定为同一实体。
优选的,所述根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块的过程,包括:
利用所述待匹配数据表中结构化数据的属性信息,将所述待匹配数据表中具有相同属性值的实体进行分块处理,得到第一目标数据块;
利用所述待匹配数据表中结构化数据的属性信息,将所述待匹配数据表中具有空缺值的实体进行分块处理,得到第二目标数据块;
将所述第一目标数据块中具有同一属性的相同属性值的实体进行分块处理,得到所述第一数据块;
将所述第二目标数据块中除去空缺值之外的其它具有同一属性的相同属性值的实体进行分块处理,得到所述第二数据块。
优选的,所述利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度的过程,包括:
利用所述逆文档频率算法提取所述第一数据块和所述第二数据块中任意实体所对应文本数据中的关键信息wj;其中,wj为提取到的第j个关键信息,j为提取到的关键信息的个数;
将所述第一数据块和所述第二数据块中满足预设字符串长度范围的文本数据作为候选短语;
以候选短语所在位置的所述第一数据块或所述第二数据块为文档库,利用所述逆文档频率算法获取各个候选短语的逆文档频率得分;
利用逆文档频率得分大于预设逆文档频率得分的候选短语构造全局短语向量;
其中,所述全局短语向量的表达式为:
Pg={w1,w2,...,wg};
式中,wi为逆文档频率得分超过所述预设逆文档频率得分的第i个候选短语,g为逆文档频率得分超过所述预设逆文档频率得分的候选短语的个数,i≥1,g≥1,1≤i≤g;
判断关键信息wj是否存在于所述全局短语向量中,并根据判断结果构造所述第一数据块或所述第二数据块中任意实体的特征向量,并利用特征向量构建任意实体对的比较向量;
其中,任意实体的特征向量的表达式为:
Vk={bool(rk,w1),bool(rk,w2),...,bool(rk,wk)},
式中,rk为所述待匹配数据表中的第k个实体,wk为所述第k个实体的关键信息,1≤k≤g;
利用第一相似度模型计算与各个比较向量对应实体对的第一相似度;
其中,所述第一相似度模型的表达式为:
式中,ri和rj为所述第一数据块或所述第二数据块中的任意两个实体,Vi和Vj为实体ri和实体rj所对应的特征向量,wp和wq分别为与实体ri和实体rj对应的候选短语,1≤p≤g,1≤q≤g。
优选的,所述对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并计算与各个子主题对应实体对的第二相似度的过程,包括:
利用第一预设分词工具对任一实体所对应的文本数据进行粗粒度切分,得到分词片段;
利用第二预设分词工具对各个分词片段进行细粒度切分,得到分词短语;
若分词短语中的第一分词短语和第二分词短语出现在同一个分词片段中,则在所述第一分词短语和所述第二分词短语之间添加边;其中,所述第一分词短语和所述第二分词短语为分词短语中的任意两个分词短语;
利用第一频繁度模型计算所述第一分词短语和所述第二分词短语在分词片段中出现的第一频率;
其中,所述第一频繁度模型的表达式为:
式中,ct为任一实体所对应的文本数据,pi为所述第一分词短语,pj为所述第二分词短语,gapct(pi,pj)为所述第一分词短语pi和所述第二分词短语pj在文本数据ct中的距离,为惩罚因子,bool(pi,pj)为减少所述第一分词短语pi和所述第二分词短语pj的影响因子,1≤i≤n,1≤j≤n,n为切分所得的分词短语的个数;
将所述第一频率输入至第二频繁度模型,输出得到所述第一分词短语和所述第二分词短语在文档库中出现的第二频率;其中,所述文档库为所述第一分词短语或所述第二分词短语所属位置的所述第一数据块或所述第二数据块;
所述第二频繁度模型的表达式为:
Freq(pi,pj)=Σct∈Tfreq(ct,pi,pj);
式中,ct为任一实体所对应的文本数据,pi为所述第一分词短语,pj为所述第二分词短语,T为所述文档库;
将所述第二频率输入至短语关联度模型,输出得到所述第一分词短语和所述第二分词短语的关联度,并利用所述关联度对所述第一分词短语和所述第二分词短语之间的边进行标记;
其中,所述短语关联度模型的表达式为:
式中,pi为所述第一分词短语,pj为所述第二分词短语,p为分词短语中除去所述第一分词短语pi和所述第二分词短语pj的其它分词短语,为所述第一分词短语pi和所述第二分词短语pj的频繁度占所述第一分词短语pi与除去所述第一分词短语pi和所述第二分词短语pj之外的其它分词短语p的总频繁度的比例,为惩罚所述第二分词短语pj与除去所述第一分词短语pi和所述第二分词短语pj之外的其它分词短语p共同出现的一个数值,Adj(pj)为与所述第二分词短语pj共现的短语集合;
根据各个分词短语之间的关联度,构建短语共现图;
通过目标函数模型对能够使得所述短语共现图的平均关联度增大的边进行删除,以使得所述短语共现图中所有分词短语之间边的平均关联度达到最大,得到短语共现子图;
其中,所述目标函数模型的表达式为:
式中,pm和pn为任意的两个分词短语,pg为所述全局短语向量,PAD(pm,pn)为所述分词短语pm和所述分词短语pn的关联度,p为分词短语中除去所述分词短语pm和所述分词短语pn之外的其它分词短语,dis(pm)为所述分词短语pm与除去所述分词短语pm和所述分词短语pn之外的其他分词短语p的距离,Adj(pm)为与所述分词短语pm共现的短语集合,PAD(pm,p)为所述分词短语pm与除去所述分词短语pm和所述分词短语pn之外的其它分词短语p的关联度,dis(pn)为所述分词短语pn与除去所述分词短语pm和所述分词短语pn之外的其它分词短语p的距离,Adj(pn)为与所述分词短语pn共现的短语集合,PAD(pn,p)为分词短语pn与除去所述分词短语pm和所述分词短语pn之外的其它分词短语p的关联度;
利用短语共现子图挖掘各个分词短语所属的子主题,及各个子主题中的属性信息;其中,属性信息包括子主题的值和子主题的权重;
每一个子主题对应权重的计算公式为:
式中,wi为每一个子主题的权重,subT(i)为所述短语共现子图中的子主题,PossubT(i)为实体中满足实体对ri[i]=rj[i]的个数,NegsubT(i)为实体中不满足实体对ri[i]=rj[i]的个数,1≤i≤K,K为从所述短语共现子图中获取到的子主题的个数;
将属性信息输入至第二相似度模型,输出得到与各个子主题对应实体对的第二相似度;
其中,所述第二相似度模型的表达式为:
式中,ri和rj为所述第一数据块或所述第二数据块中的任意两个实体,Sim(ri,rj)为实体ri和实体rj的相似度,ai为与每一个子主题对应的权重,ri[k]为第i个实体第k个子主题的值,rj[k]为第j个实体第k个子主题的值,1≤k≤K,K为从所述短语共现子图中获取到的子主题的个数。
优选的,所述通过目标函数模型对能够使得所述短语共现图的平均关联度增大的边进行删除,以使得所述短语共现图中所有分词短语之间边的平均关联度达到最大,得到短语共现子图的过程,包括:
利用内敛力得分模型计算所述短语共现图中每一个分词短语指向同一个主题的能力,得到每一个分词短语的内敛力得分;
其中,所述内敛力得分模型的表达式为:
式中,PAD(Pm,Pn)为所述短语共现图中所述分词短语pm和所述分词短语pn的关联度,α为避免所述内敛力得分模型中分母为零的平衡因子,PGpar为所述短语共现图中的短语集合;
若所述分词短语pm和所述分词短语pn的内敛力得分满足预设筛选条件l(GPar),则对所述分词短语pm和所述分词短语pn之间的边进行删除;
其中,所述预设筛选条件l(Gpar)为:
式中,Gparm和Gparn为Gpar在具有最小关联度的边被分割而得的两个子图;
迭代删除所述短语共现图中具有最小关联度的边,直至短语共现图中的所有边不满足预设筛选条件l(GPar)为止,得到短语共现子图。
优选的,所述第一预设分词工具为标点符号和/或停顿词。
优选的,还包括:
若利用短语共现子图未获取到短语共现子图中的子主题,则利用概率模型获取短语共现子图中的子主题;
其中,所述概率模型的表达式为:
式中,P(t)为短语共现子图t中识别到的分词短语的集合,subT为短语共现子图t所属的子主题,Pr(pk|subT)为子主题subT中出现分词短语pk的概率,Pr(subT)为子主题subT的先验概率。
相应的,本发明还公开了一种实体匹配系统,包括:
预处理模块,用于根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,所述待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;
第一计算模块,用于利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;
第二计算模块,用于对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;
判断模块,用于判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;
结果输出模块,用于若是,则将所述实体对判定为同一实体。
相应的,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述公开的实体匹配方法的步骤。
相应的,本发明还公开了一种实体匹配设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前述公开的实体匹配方法的步骤。
在本发明中,一种实体匹配方法,包括:根据待匹配数据表中各个实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;利用逆文档频率算法提取第一数据块和第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;对第一数据块和第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;若是,则将实体对判定为同一实体。
可见,在本发明中,首先是根据待匹配数据表中实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块,以减少在实体匹配过程中的不必要的比较。当对待匹配数据表中的实体进行分块以后,首先是利用逆文档频率算法提取第一数据块和第二数据块中文本数据的关键信息,然后利用提取到的关键信息构建任意两个实体的比较向量,并计算与比较向量对应的实体对的第一相似度。为了进一步提高实体的匹配效率,在本发明中,对第一数据块和第二数据块中文本数据进行切分,得到分词短语,然后通过挖掘各个分词短语所属的子主题,进一步的挖掘文本数据中的有效信息,再利用这些有效信息计算各个子主题对应实体的第二相似度。最后判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;若是,则将实体对判定为同一实体,通过将实体对的第一相似度和第二相似度与预设相似度阈值进行比较,从而判断实体对是否匹配,显然,通过本发明中的方法,有效利用了实体中存在的大量文本数据,所以,能够提高实体匹配的准确性和有效性。相应的,本发明公开的一种实体匹配系统、介质及设备,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一提供的一种实体匹配方法的流程图;
图2为本发明实施例二提供的一种实体匹配方法的流程图;
图3为本发明实施例三提供的一种实体匹配方法的流程图;
图4为本发明实施例四提供的一种实体匹配方法的流程图;
图5为本发明实施例五提供的一种实体匹配方法的流程图;
图6为本发明实施例提供的一种实体匹配系统的结构图;
图7为本发明实施例提供的一种实体匹配设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例一公开了一种实体匹配方法,如图1所示,该方法包括:
步骤S11:根据待匹配数据表中各个实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;
其中,待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;
本实施例中的待匹配数据表是待匹配实体的一个集合,也即,待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;需要说明的是,在现有技术当中,对实体进行匹配时,大多是利用结构化数据来对实体进行匹配,如数字、日期、短字符串,但是当结构化数据较少,利用结构化数据来对实体进行匹配时,就会使得实体的匹配结果大大降低。
但是,每个实体会对应很多文本数据,而且,在这些文本数据中蕴含着大量的有效信息。文本数据是符合人们语言描述习惯的自然语言语句所组成的文本,其表达方式复杂多变、灵活多样,而且,文本数据相比于结构化数据会存在大量的空缺值和噪声数据,所以很难直接从这些文本数据中提取出有效信息。而现有技术当中,也没有较好的方法从文本数据中提取出有效信息。所以,在本实施例的主要目的是提取实体中文本数据的有效信息,然后利用这些有效信息来提高实体的匹配准确率。需要说明的是,此处的文本数据是指非结构化数据。
具体的,在本实施例中,首先是根据待匹配数据表中各个实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块,以此来减少在实体匹配过程中的一些不必要的比较。
此处列举一个例子进行具体的说明,假设待匹配数据表为T={r1,r2,...,rn},ri(1≤i≤n)为待匹配数据表T中的任一实体,其中,待匹配数据表T的模式为S={[A1,A2,...,Am],AU},Ak(1≤k≤m)为模式S中具有结构化数据的任一属性,AU为模式S中文本数据的集合,在本实施例中,步骤S11的目的就是利用待匹配数据表T中的结构化数据的属性信息,来对待匹配数据表中的实体进行分块处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块。显然,通过这样的预处理方式,能够极大的减少待匹配数据表中不必要的实体匹配,大大减少计算机资源的消耗。
步骤S12:利用逆文档频率算法提取第一数据块和第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;
在本实施例中,当对待匹配数据表进行预处理之后,首先是利用逆文档频率算法(IDF,inverse document frequency)提取第一数据块中各个实体的文本数据的关键信息和第二数据块中各个实体的文本数据的关键信息,然后通过提取到的关键信息来构建待匹配数据表中各个实体之间的比较向量,也即,通过构建比较向量的方式来计算实体对的相似度。
能够想到的是,利用此种方法对实体进行匹配时,可以充分利用文本数据中的信息,通过提取文本数据中的有效信息,并以文本数据中的有效信息构建比较向量,弥补了利用结构化数据对实体进行匹配的不足,极大的提高了实体的匹配准确率。
需要说明的是,作为一种优选的实施方式,可以利用余弦相似度来计算比较向量对应实体的第一相似度,当然,此处也可以通过其它的方法来计算各个比较向量对应实体的第一相似度,此处不作具体的限定。
步骤S13:对第一数据块和第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;
能够想到的是,由于文本数据的复杂多样以及中文语言的灵活多变,不同的文本数据中,可能隐含着相同的语义,而且,由于实体的来源不同,相同实体由于各种描述文本的不同,所以,在很多情况下,存在不能将相同实体进行正确匹配的问题。而步骤S13的主要目的是对文本数据中的有效信息进行挖掘,以提取出文本数据中能够标识实体的更深层次的有效信息。
具体的,在步骤S13中,首先是对第一数据块中的文本数据和第二数据块中的文本数据进行切分,将文本数据转化成计算机可读的脚本语言,在实际操作当中,可以利用预先设置好的分词工具来对文本数据进行切分,得到分词短语,其次,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,然后,根据计算子主题的相似性推断文本数据的相似性,并由文本数据的相似性推断与各个子主题相对应的实体对的相似性,也即,通过计算各个子主题之间的相似性,得到与各个子主题对应实体对的第二相似度。
需要说明的是,此处的短语关联度是指各个分词短语之间的联系,此处列举一个例子进行说明,假设两个分词短语总是出现在同一个文本数据当中,那么这两个分词短语之间就会存在一定的关联性,所以,根据此思想就能够挖掘得到各个分词短语所隶属的子主题,然后再计算实体对在对应子主题下的相似性,最后通过子主题的相似性判定实体对的相似度。
显然,步骤S12是从提取的文本数据中的关键信息的维度上计算实体对的相似性,而步骤S13由于考虑了文本数据中短语之间的关系,挖掘了文本数据中短语所属的子主题,所以,步骤S13中的方法,能够从文本数据短语所属子主题的维度上考虑实体对的相似性,从而能够进一步的判断实体对的相似性。
步骤S14:判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;
步骤S15:若是,则将实体对判定为同一实体。
可以理解的是,当计算得到第一数据块和第二数据块中各实体对的第一相似度和第二相似度之后,需要将实体对的第一相似度和第二相似度与预设相似度阈值进行比较,以此来判断实体对是否为同一个实体。需要说明的是,此处的预设相似度阈值是根据先验知识预先设置的阈值。
可见,在本实施例中,首先是根据待匹配数据表中实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块,以减少在实体匹配过程中的不必要的比较。当对待匹配数据表中的实体进行分块以后,首先是利用逆文档频率算法提取第一数据块和第二数据块中文本数据的关键信息,然后利用提取到的关键信息构建任意两个实体的比较向量,并计算与比较向量对应的实体对的第一相似度。为了进一步提高实体的匹配效率,在本实施例中,对第一数据块和第二数据块中文本数据进行切分,得到分词短语,然后通过挖掘各个分词短语所属的子主题,进一步的挖掘文本数据中的有效信息,再利用这些有效信息计算各个子主题对应实体的第二相似度。最后判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;若是,则将实体对判定为同一实体,通过将实体对的第一相似度和第二相似度与预设相似度阈值进行比较,从而判断实体对是否匹配,显然,通过本实施例中的方法,有效利用了实体中存在的大量文本数据,所以,能够提高实体匹配的准确性和有效性。
在上述实施例一的基础上,实施例二对技术方案作了进一步的说明与优化,具体的,如图2所示,上述步骤S11:根据待匹配数据表中各个实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块的过程,包括步骤S111至步骤S114。
步骤S111:利用待匹配数据表中结构化数据的属性信息,将待匹配数据表中具有相同属性值的实体进行分块处理,得到第一目标数据块;
步骤S112:利用待匹配数据表中结构化数据的属性信息,将待匹配数据表中具有空缺值的实体进行分块处理,得到第二目标数据块;
步骤S113:将第一目标数据块中具有同一属性的相同属性值的实体进行分块处理,得到第一数据块;
步骤S114:将第二目标数据块中除去空缺值之外的其它具有同一属性的相同属性值的实体进行分块处理,得到第二数据块。
在本实施例中,首先是利用待匹配数据表中的结构化数据对待匹配数据表中的实体进行分块处理,也即,将待匹配数据表中结构化数据中具有相同属性值的实体划分到第一目标数据块中,将待匹配数据表中具有空缺值的实体划分到第二目标数据块中,然后将第一目标数据块中具有同一属性的相同属性值的实体划分到第一数据块中,将第二目标数据块中除去空缺值之外的其它具有同一属性的相同属性值的实体划分到第二数据块中,换言之,将待匹配数据表中的实体按照实体的属性信息可以将实体划分为多个小的数据块,然后再对这些小的数据块中的实体进行操作,显然,通过此种方法能够大大减少对实体的一些不必要比较,减少实体匹配的复杂度,显著提高实体的匹配效率。
此处,假设待匹配数据表为T={r1,r2,...,rn},ri(1≤i≤n)为待匹配数据表T中的任一实体,其中,待匹配数据表T的模式为S={[A1,A2,...,Am],AU},Ak(1≤k≤m)为模式S中具有结构化数据的任一属性,AU为模式S中文本数据的集合。如果实体对(ri,rj)在属性Ak下具有相同的属性值,则将在这些属性下具有相同属性值的实体ri和rj分组到同一个数据块中,也即,第一目标数据块中。如果待匹配数据表T={r1,r2,...,rn}中的某一个实体ri的某一属性具有空缺值,则将该实体ri分块到第二目标数据块中,然后,将第一目标数据块中在同一属性下具有相同属性值的实体划分到第一数据块中,再将第二目标数据块中除去空缺值之外的其它属于同一属性下具有相同属性值的实体划分到第二数据块中,然后再对这些小的数据块进行相应的后续操作。
在上述实施例一的基础上,实施例三对技术方案作了进一步的说明与优化,如图3所示,具体的,上述步骤S12:利用逆文档频率算法提取第一数据块和第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度的过程,包括步骤S121至步骤S126。
步骤S121:利用逆文档频率算法提取第一数据块和第二数据块中任意实体所对应文本数据中的关键信息wj
其中,wj为提取到的第j个关键信息,j为提取到的关键信息的个数;
步骤S122:将第一数据块和第二数据块中满足预设字符串长度范围的文本数据作为候选短语;
步骤S123:以候选短语所在位置的第一数据块或第二数据块为文档库,利用逆文档频率算法获取各个候选短语的逆文档频率得分;
步骤S124:利用逆文档频率得分大于预设逆文档频率得分的候选短语构造全局短语向量;
其中,全局短语向量的表达式为:
Pg={w1,w2,...,wg};
式中,wi为逆文档频率得分超过预设逆文档频率得分的第i个候选短语,g为逆文档频率得分超过预设逆文档频率得分的候选短语的个数,i≥1,g≥1,1≤i≤g;
可以理解的是,实体对应的文本数据中存在着大量的有效信息,所以,在本实施例中,是通过构建实体间的比较向量,以实体对比较向量的值来判断实体对之间的相似性。具体的,首先是利用逆文档频率算法提取第一数据块和第二数据块中任意实体所对应文本数据中的关键信息wj,其次,在第一数据块和第二数据块中筛选满足预设字符串长度范围的文本数据作为候选短语,然后,以第一数据块或第二数据块内的文档为文档库,计算各个候选短语的逆文档频率得分。
具体的,可以将预设字符串长度范围设置为2~6个,也即,将文本数据中单词长度范围在2~6个的短语作为候选短语,然后,计算这些候选短语在在第一数据块或第二数据块中的逆文档频率得分。能够想到的是,候选短语的逆文档频率得分越高,该候选短语中包含的有效信息就越多,所以,在本实施例中,是利用逆文档频率得分大于预设逆文档频率得分的候选短语构造全局短语向量Pg={w1,w2,...,wg}。当然,预设字符串长度范围可以根据实际情况进行具体的调整,此处不作具体的限定。
步骤S125:判断关键信息wj是否存在于全局短语向量中,并根据判断结果构造第一数据块或第二数据块中任意实体的特征向量,并利用特征向量构建任意实体对的比较向量;
其中,任意实体的特征向量的表达式为:
Vk={bool(rk,w1),bool(rk,w2),...,bool(rk,wk)},
式中,rk为待匹配数据表中的第k个实体,wk为第k个实体的关键信息,1≤k≤g;
步骤S126:利用第一相似度模型计算与各个比较向量对应实体对的第一相似度;
其中,第一相似度模型的表达式为:
式中,ri和rj为第一数据块或第二数据块中的任意两个实体,Vi和Vj为实体ri和实体rj所对应的特征向量,wp和wq分别为与实体ri和实体rj对应的候选短语,1≤p≤g,1≤q≤g。
在本实施例中,通过判断提取的关键信息wj是否存在于全局短语向量中,可以构造任意实体rk的特征向量。也即,如果候选短语wk存在于全局向量Pg={w1,w2,...,wg}中,则实体rk在以该候选短语wk的维度上的值为1,如果候选短语wk不存在于全局向量Pg={w1,w2,...,wg}中,则实体rk在该候选短语wk的维度上的值为0,换言之,通过此方法能够构造任意实体rk在候选短语wk的维度上的布尔向量。能够想到的是,当构造得到任意实体rk的特征向量时,就能够得到任意实体对的比较向量,然后,利用第一相似度模型计算与比较向量所对应实体对的相似度,最后,将该相似度与预设相似度阈值进行比较,判断该实体对是否为同一个实体。
需要说明的是,当第一数据块或第二数据块中的任意两个实体r1和r2匹配成功时,实体r1和实体r2会合并成为一个实体,那么原来不在同一个数据块中的实体也会合并到同一个数据块中,由于实体r1和r2的合并会导致第一数据块或第二数据块所依赖的文档库发生变化,从而影响候选短语的逆文档频率得分;而且,由于实体r1和实体r2的合并,有利于发现更多可能匹配的实体对,所以在本实施例中,还可以以交互的方式迭代更新候选短语的逆文档频率得分,直至候选短语的逆文档频率得分不再发生变化,停止迭代候选短语的逆文档频率得分,以此来提高实体的匹配效率。
在上述实施例一的基础上,实施例四对技术方案作了进一步的说明与优化,如图4所示,具体的,上述步骤S13:对第一数据块和第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并计算与各个子主题对应实体对的第二相似度的过程,包括步骤S1301至步骤S1310。
步骤S1301:利用第一预设分词工具对任一实体所对应的文本数据进行粗粒度切分,得到分词片段;
步骤S1302:利用第二预设分词工具对各个分词片段进行细粒度切分,得到分词短语;
可以理解的是,对于待匹配数据表中的任意一个实体对应的文本数据,由于其文本过长,计算机不能直接对其进行识别处理,所以,需要将其进行切分,以便计算机能够对文本数据中的有效信息进行识别处理。
具体的,在本实施例中,首先是利用第一预设分词工具对任一实体所对应的文本数据进行粗粒度的切分,得到分词片段。也即,此处的分词片段是由第一预设分词工具对所有实体所对应的文本数据的切分后所得的分词片段,然后,利用第二预设分词工具对各个分词片段再进行细粒度切分,得到分词短语,而且,此处的分词短语是由第二预设分词工具对所有分词片段进行切分后所得的分词短语。
优选的,第一预设分词工具为标点符号和/或停顿词。
可以理解的是,由于文本数据较长,所以可以利用预先设置好的分词工具对文本数据进行切分。在本实施例中,是利用文本数据中的标点符号和/或停顿词对文本数据进行切分。能够想到的是,文本数据中的标点符号和/或停顿词能够在一定意义上代表文本数据中的语言表达习惯,所以利用标点符号和/或停顿词对文本数据进行粗粒度的切分,能够加快对文本数据的切分速度。当然,此处还可以利用其它的分词工具对文本数据进行切分,此处不作具体的限定。
当利用第一预设分词工具对任一实体所对应的文本数据进行粗粒度的切分,得到分词片段之后,再利用第二预设分词工具对分词片段进行细粒度的切分,得到分词短语,此处第二预设分词工具可以为IK正向迭代最细粒度切分算法,亦或者是其他的分词工具来对分词片段进行切分,此处不作具体的限定。
步骤S1303:若分词短语中的第一分词短语和第二分词短语出现在同一个分词片段中,则在第一分词短语和第二分词短语之间添加边;
其中,第一分词短语和第二分词短语为分词短语中的任意两个分词短语;
可以理解的是,如果两个分词短语总是出现在同一个文本数据中,那么这两个分词短语之间必然存在着一定的联系,所以,在本实施例中,是以“边”的形式来对具有相互关联的分词短语进行标记,以此来表明这两个分词短语存在一定的关联。而且,此处的“边”只是建立短语共现图中各个分词短语之间联系的一种表现形式,在实际操作当中,还可以通过其他的表现形式来标记各个分词短语之间的关联度,此处不作具体的限定。
步骤S1304:利用第一频繁度模型计算第一分词短语和第二分词短语在分词片段中出现的第一频率;
其中,第一频繁度模型的表达式为:
式中,ct为任一实体所对应的文本数据,pi为第一分词短语,pj为第二分词短语,gapct(pi,pj)为第一分词短语pi和第二分词短语pj在文本数据ct中的距离,为惩罚因子,bool(pi,pj)为减少第一分词短语pi和第二分词短语pj的影响因子,1≤i≤n,1≤j≤n,n为切分所得的分词短语的个数;
步骤S1305:将第一频率输入至第二频繁度模型,输出得到第一分词短语和第二分词短语在文档库中出现的第二频率;
其中,文档库为第一分词短语或第二分词短语所属位置的第一数据块或第二数据块;
第二频繁度模型的表达式为:
Freq(pi,pj)=Σct∈T|freq(ct,pi,pj);
式中,ct为任一实体所对应的文本数据,pi为第一分词短语,pj为第二分词短语,T为文档库;
步骤S1306:将第二频率输入至短语关联度模型,输出得到第一分词短语和第二分词短语的关联度,并利用关联度对第一分词短语和第二分词短语之间的边进行标记;
其中,短语关联度模型的表达式为:
式中,pi为第一分词短语,pj为第二分词短语,p为分词短语中除去第一分词短语pi和第二分词短语pj的其它分词短语,为第一分词短语pi和第二分词短语pj的频繁度占第一分词短语pi与除去第一分词短语pi和第二分词短语pj之外的其它分词短语p的总频繁度的比例,为惩罚第二分词短语pj与除去第一分词短语pi和第二分词短语pj之外的其它分词短语p共同出现的一个数值,Adj(pj)为与第二分词短语pj共现的短语集合;
步骤S1307:根据各个分词短语之间的关联度,构建短语共现图;
可以理解的是,任意的两个分词短语之间的关联程度必然有高有低,所以可以利用短语关联度模型来计算每两个分词短语之间的相互关联程度,以关联度来标记任意两个分词短语之间的关联程度,当对所有的分词短语添加了边,并且对各个边标记了关联度以后,即可得到短语共现图。
在本实施例中,以分词短语中的任意两个分词短语为例进行具体的说明,也即,第一分词短语pi和第二分词短语pj为例,首先,是通过第一频繁度模型计算第一分词短语pi和第二分词短语pj在同一个文本数据中出现的频率freq(ct,pi,pj),当计算得到第一分词短语pi和第二分词短语pj在同一个文本数据中出现的频率freq(ct,pi,pj)后,再利用第二频繁度模型计算第一分词短语pi和第二分词短语pj在同一个数据块中出现的频率,也即,第一分词短语pi和第二分词短语pj在所属位置的第一数据块或第二数据块中的出现的频率Freq(pi,pj),然后,利用短语关联度模型计算第一分词短语pi和第二分词短语pj之间的关联度,也即,PAD(pi,pj),显然,通过此种方法,能够得到第一分词短语pi和第二分词短语pj之间的关联度,最后,对第一数据块和第二数据块中的其他分词短语利用同样的方法,计算出第一数据块或第二数据块中任意两个分词短语之间边的关联度,最终得到短语共现图。
需要说明的是,本实施例中的第一分词短语pi和第二分词短语pj代表第一数据块或第二数据块中的任意实体所对应的文本数据,此处只是以第一分词短语pi和第二分词短语pj为例进行具体的说明,第一分词短语pi和第二分词短语pj具有普适性,而且,在中底数可以是2,也可以是其它的自然数,可以根据实际情况进行具体的调整,在此进行说明。
步骤S1308:通过目标函数模型对能够使得短语共现图的平均关联度增大的边进行删除,以使得短语共现图中所有分词短语之间边的平均关联度达到最大,得到短语共现子图;
其中,目标函数模型的表达式为:
式中,pm和pn为任意的两个分词短语,pg为全局短语向量,PAD(pm,pn)为分词短语pm和分词短语pn的关联度,p为分词短语中除去分词短语pm和分词短语pn之外的其它分词短语,dis(pm)为与分词短语pm与除去分词短语pm和分词短语pn之外的其它分词短语p的距离,Adj(pm)为与分词短语pm共现的短语集合,PAD(pm,p)为分词短语pm与除去分词短语pm和分词短语pn之外的其它分词短语p的关联度,dis(pn)为分词短语pn与除去分词短语pm和分词短语pn之外的其他分词短语p的距离,Adj(pn)为与分词短语pn共现的短语集合,PAD(pn,p)为分词短语pn与除去分词短语pm和分词短语pn之外的其它分词短语p的关联度;
需要说明的是,在本实施例中将短语共现图用Gpar表示,能够想到的是,通过步骤S1301至步骤S1307得到短语共现图之后,由于短语共现图中存在一些关联度PAD较小的值,如果将具有关联度PAD较小的边删除后,短语共现图的平均关联度会有所提高,所以,步骤S1308的目的就是找出这样的边,并且将这些边进行删除,来提高短语共现图的平均关联度,所以,此时分割短语共现图的问题就可以转化为求解目标函数模型的极值问题。显然,通过目标函数模型对能够使得短语共现图的平均关联度增大的边进行删除,并且,当短语共现图中分词短语的平均关联度达到最大时,就能够得到短语共现子图。
步骤S1309:利用短语共现子图挖掘各个分词短语所属的子主题,及各个子主题中的属性信息;其中,属性信息包括子主题的值和子主题的权重;
每一个子主题对应权重的计算公式为:
式中,ai为每一个子主题的权重,subT(i)为短语共现子图中的子主题,PossubT(i)为实体中满足实体对ri[i]=rj[i]的个数,NegsubT(i)为实体中不满足实体对ri[i]=rj[i]的个数,1≤i≤K,K为从短语共现子图中获取到的子主题的个数;
步骤S1310:将属性信息输入至第二相似度模型,输出得到与各个子主题对应实体对的第二相似度;
其中,第二相似度模型的表达式为:
式中,ri和rj为第一数据块或第二数据块中的任意两个实体,Sim(ri,rj)为实体ri和实体rj的相似度,ai为与每一个子主题对应的权重,ri[k]为第i个实体第k个子主题的值,rj[k]为第j个实体第k个子主题的值,1≤k≤K,K为从短语共现子图中获取到的子主题的个数。
需要说明的是,利用短语共现子图能够挖掘得到各个短语共现子图所对应的子主题,当从短语共现子图当中获取到与短语共现子图所对应的子主题时,选择具有最大平均关联度的分词短语作为对应于该短语共现子图的子主题,并将该短语共现子图中除该分词短语的其它分词短语作为该子主题的值。
也即,将原有的短语共现图分割成为多个短语共现子图之后,能够通过短语共现子图获取该短语共现子图的子主题。具体的,假设从短语共现子图中获取到了K个子主题,此时,将这K个子主题表示为:<subT1,subT2,...,subTK>,并且与每一个子主题对应权重的表达式为:<a1,a2,...,aK>,然后利用公式计算与每一个子主题对应的权重,然后,通过短语关联度模型计算短语共现子图中各个分词短语之间的关联度,再选择具有最大平均短语关联度的分词短语作为对应于该短语共现子图的子主题,并将该短语共现子图中除该分词短语的其它短语作为该子主题的值ri[k]。最后,通过第二相似度模型计算任意实体对ri和rj的第二相似度。
在上述实施例四的基础上,实施例五对技术方案作了进一步的说明与优化,如图5所示,具体的,上述实施例步骤S1308:通过目标函数模型对能够使得短语共现图之间边的平均关联度增大的边进行删除,以使得短语共现图中所有分词短语的平均关联度达到最大,得到短语共现子图的过程,包括步骤S01至步骤S03。
步骤S01:利用内敛力得分模型计算短语共现图中每一个分词短语指向同一子主题的能力,得到分词短语的内敛力得分;
其中,内敛力得分模型的表达式为:
式中,PAD(Pm,Pn)为短语共现图Gpar中分词短语pm和分词短语pn的关联度,α为避免内敛力得分模型中分母为零的平衡因子,PGar为短语共现图Gpar中短语分词的短语集合;
步骤S02:若分词短语pm和分词短语pn的内敛力得分满足预设筛选条件l(GPar),则对分词短语pm和分词短语pn之间的边进行删除;
其中,预设筛选条件l(Gpar)为:
式中,Gparm和Gparn为Gpar在具有最小关联度的边被分割而得的两个子图;
步骤S03:迭代删除短语共现图中具有最小关联度的边,直至短语共现图中的所有边不满足预设筛选条件l(GPar)为止,得到短语共现子图。
显然,求解目标函数模型的极值是一个NP难问题。具体的,在本实施例中,提出利用贪心算法来解决这个问题,也即,选取具有最小关联度的分词短语的边,执行分割算法,此处定义Gpar中分词短语指向同一子主题的能力为内敛力得分(Cohesion Score,CSore),然后利用内敛力得分模型计算各个分词短语指向同一子主题的能力,如果短语共现图中的分词短语pm和分词短语pn满足预设筛选条件l(GPar),则对分词短语pm和分词短语pn之间的边进行删除,然后迭代删除短语共现图中具有最小关联度的边,直至短语共现图中的所有边不满足预设筛选条件l(GPar)为止,得到短语共现子图。
在上述实施例一的基础上,本实施例对技术方案作了进一步的说明与优化,具体的,该技术方案还包括:
若利用短语共现子图未获取到短语共现子图中的子主题,则利用概率模型获取短语共现子图中的子主题;
其中,概率模型的表达式为:
式中,P(t)为短语共现子图t中识别到的分词短语的集合,subT为短语共现子图t所属的子主题,Pr(pk|subT)为子主题subT中出现分词短语pk的概率,Pr(subT)为子主题subT的先验概率。
可以理解的是,在一个短语共现子图当中,可能没有明显的子主题出现,此种情况下会导致计算结果的不准确,也即,利用上述实施例中步骤S1309没有获取到短语共现子图中的子主题。所以,为了解决这一问题,在本实施例中,是使用概率模型推导出各个短语共现子图中的子主题。
假设短语共现子图t利用步骤S1309中的方法没有获取到短语共现子图t的子主题,则可以根据概率模型来计算短语共现子图t可能所属的多个子主题,然后在这多个子主题中,选取具有最大概率值的子主题作为该短语共现子图t的子主题,最后利用第二相似度模型计算实体对的相似度。显然,通过此概率模型可以使得本发明中的技术方案更加的完整,提高了本技术方案的普适性。需要说明的是,分词短语pk的概率可以通过先验知识得到。
相应的,本发明还公开了一种实体匹配系统,如图6所示,该系统包括:
预处理模块61,用于根据待匹配数据表中各个实体的属性信息对待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;
第一计算模块62,用于利用逆文档频率算法提取第一数据块和第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;
第二计算模块63,用于对第一数据块和第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;
判断模块64,用于判断第一相似度或第二相似度是否大于预设相似度阈值;
结果获取模块65,用于若是,则将大于预设相似度阈值所对应的实体对判定为同一实体。
相应的,本发明还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述公开的实体匹配方法的步骤。
相应的,本发明还公开了一种实体匹配设备,如图7所示,该设备包括:
存储器71,用于存储计算机程序;
处理器72,用于执行所述计算机程序时实现如前述公开的实体匹配方法的步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种实体匹配方法、系统、介质及设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种实体匹配方法,其特征在于,包括:
根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,所述待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;
利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;
对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;
判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;
若是,则将所述实体对判定为同一实体。
2.根据权利要求1所述的方法,其特征在于,所述根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块的过程,包括:
利用所述待匹配数据表中结构化数据的属性信息,将所述待匹配数据表中具有相同属性值的实体进行分块处理,得到第一目标数据块;
利用所述待匹配数据表中结构化数据的属性信息,将所述待匹配数据表中具有空缺值的实体进行分块处理,得到第二目标数据块;
将所述第一目标数据块中具有同一属性的相同属性值的实体进行分块处理,得到所述第一数据块;
将所述第二目标数据块中除去空缺值之外的其它具有同一属性的相同属性值的实体进行分块处理,得到所述第二数据块。
3.根据权利要求1所述的方法,其特征在于,所述利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度的过程,包括:
利用所述逆文档频率算法提取所述第一数据块和所述第二数据块中任意实体所对应文本数据中的关键信息wj;其中,wj为提取到的第j个关键信息,j为提取到的关键信息的个数;
将所述第一数据块和所述第二数据块中满足预设字符串长度范围的文本数据作为候选短语;
以候选短语所在位置的所述第一数据块或所述第二数据块为文档库,利用所述逆文档频率算法获取各个候选短语的逆文档频率得分;
利用逆文档频率得分大于预设逆文档频率得分的候选短语构造全局短语向量;
其中,所述全局短语向量的表达式为:
Pg={w1,w2,...,wg};
式中,wi为逆文档频率得分超过所述预设逆文档频率得分的第i个候选短语,g为逆文档频率得分超过所述预设逆文档频率得分的候选短语的个数,i≥1,g≥1,1≤i≤g;
判断关键信息wj是否存在于所述全局短语向量中,根据判断结果构造所述第一数据块或所述第二数据块中任意实体的特征向量,并利用特征向量构建任意实体对的比较向量;
其中,任意实体的特征向量的表达式为:
Vk={bool(rk,w1),bool(rk,w2),...,bool(rk,wk)},
式中,rk为所述待匹配数据表中的第k个实体,wk为所述第k个实体的关键信息,1≤k≤g;
利用第一相似度模型计算与各个比较向量对应实体对的第一相似度;
其中,所述第一相似度模型的表达式为:
式中,ri和rj为所述第一数据块或所述第二数据块中的任意两个实体,Vi和Vj为实体ri和实体rj所对应的特征向量,wp和wq分别为与实体ri和实体rj对应的候选短语,1≤p≤g,1≤q≤g。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并计算与各个子主题对应实体对的第二相似度的过程,包括:
利用第一预设分词工具对任一实体所对应的文本数据进行粗粒度切分,得到分词片段;
利用第二预设分词工具对各个分词片段进行细粒度切分,得到分词短语;
若分词短语中的第一分词短语和第二分词短语出现在同一个分词片段中,则在所述第一分词短语和所述第二分词短语之间添加边;其中,所述第一分词短语和所述第二分词短语为分词短语中的任意两个分词短语;
利用第一频繁度模型计算所述第一分词短语和所述第二分词短语在分词片段中出现的第一频率;
其中,所述第一频繁度模型的表达式为:
式中,ct为任一实体所对应的文本数据,pi为所述第一分词短语,pj为所述第二分词短语,gapct(pi,pj)为所述第一分词短语pi和所述第二分词短语pj在文本数据ct中的距离,为惩罚因子,bool(pi,pj)为减少所述第一分词短语pi和所述第二分词短语pj的影响因子,1≤i≤n,1≤j≤n,n为切分所得的分词短语的个数;
将所述第一频率输入至第二频繁度模型,输出得到所述第一分词短语和所述第二分词短语在文档库中出现的第二频率;其中,所述文档库为所述第一分词短语或所述第二分词短语所属位置的所述第一数据块或所述第二数据块;
所述第二频繁度模型的表达式为:
Freq(pi,pj)=Σct∈Tfreq(ct,pi,pj);
式中,ct为任一实体所对应的文本数据,pi为所述第一分词短语,pj为所述第二分词短语,T为所述文档库;
将所述第二频率输入至短语关联度模型,输出得到所述第一分词短语和所述第二分词短语的关联度,并利用所述关联度对所述第一分词短语和所述第二分词短语之间的边进行标记;
其中,所述短语关联度模型的表达式为:
式中,pi为所述第一分词短语,pj为所述第二分词短语,p为分词短语中除去所述第一分词短语pi和所述第二分词短语pj的其它分词短语,为所述第一分词短语pi和所述第二分词短语pj的频繁度占所述第一分词短语pi与除去所述第一分词短语pi和所述第二分词短语pj之外的其它分词短语p的总频繁度的比例,为惩罚所述第二分词短语pj与除去所述第一分词短语pi和所述第二分词短语pj之外的其它分词短语p共同出现的一个数值,Adj(pj)为与所述第二分词短语pj共现的短语集合;
根据各个分词短语之间的关联度,构建短语共现图;
通过目标函数模型对能够使得所述短语共现图的平均关联度增大的边进行删除,以使得所述短语共现图中所有分词短语之间边的平均关联度达到最大,得到短语共现子图;
其中,所述目标函数模型的表达式为:
式中,pm和pn为任意的两个分词短语,pg为所述全局短语向量,PAD(pm,pn)为所述分词短语pm和所述分词短语pn的关联度,p为分词短语中除去所述分词短语pm和所述分词短语pn之外的其它分词短语,dis(pm)为所述分词短语pm与除去所述分词短语pm和所述分词短语pn之外的其它分词短语p的距离,Adj(pm)为与所述分词短语pm共现的短语集合,PAD(pm,p)为所述分词短语pm与除去所述分词短语pm和所述分词短语pn之外的其它分词短语p的关联度,dis(pn)为所述分词短语pn与除去所述分词短语pm和所述分词短语pn之外的其它分词短语p的距离,Adj(pn)为与所述分词短语pn共现的短语集合,PAD(pn,p)为所述分词短语pn与除去所述分词短语pm和所述分词短语pn之外的其它分词短语p的关联度;
利用短语共现子图挖掘各个分词短语所属的子主题,及各个子主题的属性信息;其中,属性信息包括子主题的值和子主题的权重;
每一个子主题对应权重的计算公式为:
式中,ai为每一个子主题的权重,subT(i)为所述短语共现子图中的子主题,PossubT(i)为实体中满足实体对ri[i]=rj[i]的个数,NegsubT(i)为实体中不满足实体对ri[i]=rj[i]的个数,1≤i≤K,K为从所述短语共现子图中获取到的子主题的个数;
将属性信息输入至第二相似度模型,输出得到与各个子主题对应实体对的第二相似度;
其中,所述第二相似度模型的表达式为:
式中,ri和rj为所述第一数据块或所述第二数据块中的任意两个实体,Sim(ri,rj)为实体ri和实体rj的相似度,ai为与每一个子主题对应的权重,ri[k]为第i个实体第k个子主题的值,rj[k]为第j个实体第k个子主题的值,1≤k≤K,K为从所述短语共现子图中获取到的子主题的个数。
5.根据权利要求4所述的方法,其特征在于,所述通过目标函数模型对能够使得所述短语共现图的平均关联度增大的边进行删除,以使得所述短语共现图中所有分词短语之间边的平均关联度达到最大,得到短语共现子图的过程,包括:
利用内敛力得分模型计算所述短语共现图中每一个分词短语指向同一个主题的能力,得到每一个分词短语的内敛力得分;
其中,所述内敛力得分模型的表达式为:
式中,PAD(Pm,Pn)为所述短语共现图中所述分词短语pm和所述分词短语pn的关联度,α为避免所述内敛力得分模型中分母为零的平衡因子,PGpar为所述短语共现图中的短语集合;
若所述分词短语pm和所述分词短语pn的内敛力得分满足预设筛选条件l(GPar),则对所述分词短语pm和所述分词短语pn之间的边进行删除;
其中,所述预设筛选条件l(Gpar)为:
式中,Gparm和Gparn为Gpar在具有最小关联度的边被分割而得的两个子图;
迭代删除所述短语共现图中具有最小关联度的边,直至短语共现图中的所有边不满足预设筛选条件l(GPar)为止,得到短语共现子图。
6.根据权利要求4所述的方法,其特征在于,所述第一预设分词工具为标点符号和/或停顿词。
7.根据权利要求4所述的方法,其特征在于,还包括:
若利用短语共现子图未获取到短语共现子图中的子主题,则利用概率模型获取短语共现子图中的子主题;
其中,所述概率模型的表达式为:
式中,P(t)为短语共现子图t中识别到的分词短语的集合,subT为短语共现子图t所属的子主题,Pr(pk|subT)为子主题subT中出现分词短语pk的概率,Pr(subT)为子主题subT的先验概率。
8.一种实体匹配系统,其特征在于,包括:
预处理模块,用于根据待匹配数据表中各个实体的属性信息对所述待匹配数据表进行预处理,得到不存在空缺值的第一数据块和存在空缺值的第二数据块;其中,所述待匹配数据表包括n个实体以及与各个实体所对应的结构化数据和文本数据,n≥2;
第一计算模块,用于利用逆文档频率算法提取所述第一数据块和所述第二数据块中文本数据的关键信息,利用关键信息构建各个实体之间的比较向量,并计算与各个比较向量对应实体对的第一相似度;
第二计算模块,用于对所述第一数据块和所述第二数据块中的文本数据进行切分,得到分词短语,根据各个分词短语之间的关联度挖掘各个分词短语所属的子主题,并利用子主题计算与各个子主题对应实体对的第二相似度;
判断模块,用于判断是否存在第一相似度或第二相似度大于预设相似度阈值的实体对;
结果输出模块,用于若是,则将所述实体对判定为同一实体。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的实体匹配方法的步骤。
10.一种实体匹配设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的实体匹配方法的步骤。
CN201810628817.1A 2018-06-19 2018-06-19 一种实体匹配方法、系统、介质及设备 Pending CN108897810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810628817.1A CN108897810A (zh) 2018-06-19 2018-06-19 一种实体匹配方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810628817.1A CN108897810A (zh) 2018-06-19 2018-06-19 一种实体匹配方法、系统、介质及设备

Publications (1)

Publication Number Publication Date
CN108897810A true CN108897810A (zh) 2018-11-27

Family

ID=64345056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810628817.1A Pending CN108897810A (zh) 2018-06-19 2018-06-19 一种实体匹配方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN108897810A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110414004A (zh) * 2019-07-31 2019-11-05 阿里巴巴集团控股有限公司 一种核心信息提取的方法和系统
CN110609998A (zh) * 2019-08-07 2019-12-24 中通服建设有限公司 一种电子文档信息的数据提取方法、电子设备及存储介质
CN111191454A (zh) * 2020-01-06 2020-05-22 精硕科技(北京)股份有限公司 一种实体匹配的方法及装置
CN111814477A (zh) * 2020-07-06 2020-10-23 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
WO2023159888A1 (zh) * 2022-02-28 2023-08-31 中国银联股份有限公司 一种数据匹配方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207860A (zh) * 2012-01-11 2013-07-17 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨强: "基于多形态非主属性数据的实体匹配算法研究", 《中国优秀硕士学位论文全文数据库基础科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN110414004A (zh) * 2019-07-31 2019-11-05 阿里巴巴集团控股有限公司 一种核心信息提取的方法和系统
CN110414004B (zh) * 2019-07-31 2022-11-18 创新先进技术有限公司 一种核心信息提取的方法和系统
CN110609998A (zh) * 2019-08-07 2019-12-24 中通服建设有限公司 一种电子文档信息的数据提取方法、电子设备及存储介质
CN111191454A (zh) * 2020-01-06 2020-05-22 精硕科技(北京)股份有限公司 一种实体匹配的方法及装置
CN111814477A (zh) * 2020-07-06 2020-10-23 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN111814477B (zh) * 2020-07-06 2022-06-21 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
WO2023159888A1 (zh) * 2022-02-28 2023-08-31 中国银联股份有限公司 一种数据匹配方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108897810A (zh) 一种实体匹配方法、系统、介质及设备
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN107862027B (zh) 检索意图识别方法、装置、电子设备及可读存储介质
CN110097085B (zh) 歌词文本生成方法、训练方法、装置、服务器及存储介质
CN106383817B (zh) 利用分布式语义信息的论文标题生成方法
Litvak et al. Graph-based keyword extraction for single-document summarization
CN108647205A (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
US9575947B2 (en) System and method of automatically mapping a given annotator to an aggregate of given annotators
CN110032639A (zh) 将语义文本数据与标签匹配的方法、装置及存储介质
CN109213866A (zh) 一种基于深度学习的税务商品编码分类方法和系统
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN105550170A (zh) 一种中文分词方法及装置
CN112463976A (zh) 一种以群智感知任务为中心的知识图谱构建方法
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN106445915A (zh) 一种新词发现方法及装置
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN109829151A (zh) 一种基于分层狄利克雷模型的文本分割方法
CN110399433A (zh) 一种基于深度学习的数据实体关系抽取方法
CN114997288A (zh) 一种设计资源关联方法
CN110674251A (zh) 一种基于语义信息的计算机辅助密点标注方法
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN109543002A (zh) 简写字符的还原方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181127

WD01 Invention patent application deemed withdrawn after publication