CN115934970A - 一种基于多视图可视化的交互式实体对齐方法 - Google Patents

一种基于多视图可视化的交互式实体对齐方法 Download PDF

Info

Publication number
CN115934970A
CN115934970A CN202310166988.8A CN202310166988A CN115934970A CN 115934970 A CN115934970 A CN 115934970A CN 202310166988 A CN202310166988 A CN 202310166988A CN 115934970 A CN115934970 A CN 115934970A
Authority
CN
China
Prior art keywords
entity
alignment
neighborhood
source entity
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310166988.8A
Other languages
English (en)
Other versions
CN115934970B (zh
Inventor
廖志芳
孔恩培
张蓉
赵颖
骆逸欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310166988.8A priority Critical patent/CN115934970B/zh
Publication of CN115934970A publication Critical patent/CN115934970A/zh
Application granted granted Critical
Publication of CN115934970B publication Critical patent/CN115934970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于知识图谱技术领域,提供了一种基于多视图可视化的交互式实体对齐方法。通过将三元组信息输入实体对齐模型,得到源实体对应的候选对齐实体;针对每个源实体和候选对齐实体,分别绘制结构比较视图、邻域比较视图和词云比较视图;基于图编辑距离算法,在节点替换开销矩阵中引入对齐特征,并将候选对齐实体的替换开销置零,得到结构相似度量;利用样本相似度算法对邻域比较视图进行计算,得到邻域相似度量;利用集合匹配算法对词云比较视图进行计算,得到词云相似度量;根据上述三个相似度量,计算融合相似度量;根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,进行实体对齐。本申请能够能提高实体对齐的准确性。

Description

一种基于多视图可视化的交互式实体对齐方法
技术领域
本申请属于知识图谱技术领域,尤其涉及一种基于多视图可视化的交互式实体对齐方法。
背景技术
如今图谱种类数量繁多,在面临复杂需求时,往往需要融合多个异构图谱,融合后的图谱质量直接影响后续分析结果的准确性。因此,实现高质量的图谱融合至关重要。
图谱融合的关键在于实体对齐,其目标是合并指向同一真实世界对象的不同实体。实体对齐作为强认知任务,要求用户有足够的上下文信息和领域知识才能做出准确的判断,传统的数据表格验证方法耗时耗力,复杂度高,已成为实体对齐中的一个瓶颈。而目前实体对齐的研究大多集中在算法模型的提升,然而提升的收益越来越小且没有办法实现完全准确的匹配对齐。
发明内容
本申请实施例提供了一种基于多视图可视化的交互式实体对齐方法,可以解决目前实体对齐方法复杂度高,准确性低的问题。
第一方面,本申请实施例提供了一种基于多视图可视化的交互式实体对齐方法,包括:
将多个源知识图谱的三元组信息输入实体对齐模型,得到每个源实体对应的多个候选对齐实体;其中,每个源知识图谱包括多个源实体;
分别针对每个源实体执行以下步骤:
对该源实体以及该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图和词云比较视图;
根据结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将该源实体对应的多个候选对齐实体的替换开销置零,得到该源实体与该源实体对应的多个候选对齐实体之间的结构相似度量;
利用样本相似度算法对邻域比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量;
利用集合匹配算法对词云比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的词云相似度量;
根据结构相似度量、邻域相似度量以及词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量;
根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对该源实体进行实体对齐。
可选的,三元组信息包括关系三元组信息与属性三元组信息。
可选的,根据结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将该源实体对应的多个候选对齐实体的替换开销置零,得到该源实体与该源实体对应的多个候选对齐实体之间的结构相似度量,包括:
通过计算公式
得到结构相似度量,其中表示节点替换开销计算函数, 表示源实体邻域子图的第个实体,表示源实体邻域子图中实体的总数量,表示候选对齐实体邻域子图的第个实体,表示候选对齐实体邻域子图中实体的总数量,表示图编辑距离算法得到的编辑路径,表示源实体邻域子图,表示候选对齐实体邻域子图,表示第条编辑路径,N表示编辑路径总数,
可选的,利用样本相似度算法对邻域比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量,包括:
通过计算公式
 
得到邻域相似度量,其中,表示源实体与候选对齐实体邻域中存在的置信对齐,置信对齐表示源实体与候选对齐实体邻域中存在的正确对齐与高相似对齐的集合,表示第对置信对齐的源实体,表示第对置信对齐的对齐实体,表示置信对齐的总对数,表示中不在置信对齐中的第个其余实体,表示其余实体的总数量,表示对齐模型输出的的相似度,表示实体对应度数。
可选的,利用集合匹配算法对词云比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的词云相似度量,包括:
通过计算公式
得到所述词云相似度量,其中,其中,是最大匹配算法得到的词语匹配对,表示词云比较视图中的第个词语,表示词云比较视图中词语的总数量,表示词云比较视图中的第个词语,表示词云比较视图中词语的总数量,表示最大匹配算法。
可选的,融合相似度量包括总相似度和不确定性。
可选的,根据结构相似度量、邻域相似度量以及词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量,包括:
通过计算公式
得到该源实体与该源实体对应的多个候选对齐实体之间的总相似度量
对总相似度量进行排序,并通过计算公式
得到该源实体与该源实体对应的多个候选对齐实体之间的不确定性;其中,表示第个候选对齐实体,共有个候选对齐实体,表示第个候选对齐实体在结构相似度量、邻域相似度量以及词云相似度量下的排序标准差,表示第个候选对齐实体在所述结构相似度量、邻域相似度量以及所述词云相似度量下的排序平均值。
可选的,在对该源实体以及该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图和词云比较视图,本申请提供的实体对齐方法还包括:
通过计算公式
 
得到该源实体与该源实体对应的多个候选对齐实体之间的置信对齐;其中,表示正确对齐,来源于已知的以及用户已验证的对齐,共有对,表示第对正确对齐的源实体,表示第对正确对齐的对齐实体,表示高相似对齐,来源于相似度高于特定阈值的对齐,共有对,表示第对高相似对齐的源实体,表示第对高相似对齐的对齐实体,表示对齐是否正确,表示实体间的相似度,表示高相似对齐的阈值;
针对该源实体和该源实体对应的多个候选对齐实体,根据置信对齐,分别绘制结构视图和邻域视图。
第二方面,本申请实施例提供了一种基于多视图可视化的交互式实体对齐装置,包括:
初始实体对齐模块:用于将多个源知识图谱的三元组信息输入实体对齐模型,得到每个源实体对应的多个候选对齐实体;其中,每个源知识图谱包括多个源实体;
绘制模块:用于对该源实体以及该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图和词云比较视图;
结构相似度量模块:用于根据结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将该源实体对应的多个候选对齐实体的替换开销置零,得到该源实体与该源实体对应的多个候选对齐实体之间的结构相似度量;
邻域相似度量模块:用于利用样本相似度算法对邻域比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量;
词云相似度量模块:用于利用集合匹配算法对词云比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的词云相似度量;
融合相似度量模块:用于根据结构相似度量、邻域相似度量以及词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量;
最终实体对齐模块:用于根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对该源实体进行实体对齐。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的基于多视图可视化的交互式实体对齐方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的基于多视图可视化的交互式实体对齐方法。
本申请的上述方案有如下的有益效果:
通过对每个源实体和该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图以及词云比较视图,能够将实体的上下文信息可视化,降低实体对齐的复杂度;根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对源知识图谱进行实体对齐,能够为实体对齐提供更为精确的数据支撑,提高实体对齐的准确性。
本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的基于多视图可视化的交互式实体对齐方法的流程图;
图2为本申请一实施例提供的结构比较视图;
图3为本申请一实施例提供的邻域比较视图;
图4为本申请一实施例提供的词云比较视图;
图5为本申请一实施例提供的基于多视图可视化的交互式实体对齐装置的结构示意图;
图6为本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
针对目前实体对齐方法复杂度高,准确性低的问题,本申请提供了一种基于多视图可视化的交互式实体对齐方法,通过对每个源实体和该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图以及词云比较视图,能够将实体的上下文信息可视化,降低实体对齐的复杂度;根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对源知识图谱进行实体对齐,能够为实体对齐提供更为精确的数据支撑,提高实体对齐的准确性。
如图1所示,本申请提供的基于多视图可视化的交互式实体对齐方法主要包括以下步骤:
步骤11,多个源知识图谱的三元组信息输入实体对齐模型,得到每个源实体对应的多个候选对齐实体。
上述三元组信息包括关系三元组信息(包含图谱中的所有实体及其关系信息)与属性三元组信息(包含图谱中所有实体及其对应的属性信息)。在本申请的一些实施例中,关系三元组信息的表现形式可以是(头实体,关系,尾实体),示例性的,(头实体:小明,关系:毕业,尾实体:中心小学);属性三元组信息的表现形式可以是(实体,属性,值),示例性的,(实体:某公司,属性:员工,值:6000)。
需要说明的是,目前实体对齐模型输出的结果(每个源实体以及该源实体对应的TOPK候选对齐实体)并不能达到精确匹配的效果,所以不能直接作为实体对齐的结果,后续还需进行筛选、判断等操作。
利用实体对齐模型求解源实体对应的候选对齐实体属于常见的技术手段,在此不再进行赘述,在本申请的实施例中,上述实体对齐模型可以是目前任一种实体对齐模型,在此不对其进行限定。
在本申请的实施例中,以下步骤(步骤12至步骤17)针对的是经过步骤11得到的每个源实体。
步骤12,对该源实体以及该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图和词云比较视图。
在本申请的一些实施例中,执行步骤12之前,还包括:
步骤a,通过计算公式
得到该源实体与该源实体对应的多个候选对齐实体之间的置信对齐;其中,表示正确对齐,来源于已知的以及用户已验证的对齐,共有对,表示第对正确对齐的源实体,表示第对正确对齐的对齐实体,表示高相似对齐,来源于相似度高于特定阈值的对齐,共有对,表示第对高相似对齐的源实体,表示第对高相似对齐的对齐实体,表示对齐是否正确,表示实体间的相似度,表示高相似对齐的阈值;
步骤b,针对该源实体和该源实体对应的多个候选对齐实体,根据置信对齐,分别绘制结构视图和邻域视图。
需要说明的是,上述比较视图(结构比较视图、邻域比较视图和词云比较视图),是由该源实体的视图(结构视图、邻域视图和词云视图)和该源实体对应的多个候选对齐实体的视图(结构视图、邻域视图和词云视图)构成的。示例性的,假设有一源实体对应三个候选对齐实体,则先绘制该源实体的结构视图A1,再绘制该源实体对应的多个候选对齐实体的结构视图(B1、B2、B3),那么该源实体及其对应的候选对齐实体的结构比较视图为C={A1、B1、B2、B3}。在此仅以结构比较视图为例做示例性说明,邻域比较视图和词云比较视图同理。
下面对绘制结构视图的具体过程做示例性说明。
步骤i,通过计算公式
得到该源实体与该源实体对应的多个候选对齐实体之间的置信对齐;其中,表示正确对齐,来源于已知的以及用户已验证的对齐,共有对,表示第对正确对齐的源实体,表示第对正确对齐的对齐实体,表示高相似对齐,来源于相似度高于特定阈值的对齐,共有对,表示第对高相似对齐的源实体,表示第对高相似对齐的对齐实体,表示对齐是否正确,表示实体间的相似度,表示高相似对齐的阈值。
步骤ii,使用力导引布局(一种适用于任何逻辑示意图类型的逻辑示意图布局算法),可视化源实体一跳邻域子图,并且在力导引布局的每一轮布局迭代中执行如下步骤:
a)保存源实体相对与视图画布的位置
其中,表示源实体在视图画布的横坐标,表示源实体在视图画布的纵坐标,表示视图画布的宽度,表示视图画布的高度。
b)对于子图中的邻域实体,如果实体在置信对齐中,保存该邻域实体相对于中心实体的位置向量
其中,表示邻域实体在视图画布的横坐标,表示邻域实体在视图画布的纵坐标。
c)对于子图中的邻域实体,如果实体在置信对齐中,使用扇形图编码其在所有候选对齐实体中出现的次数,并标识其独特性。
步骤iii,使用力导引布局可视化多个候选对齐实体一跳邻域子图,并在力导引布局的每一轮布局迭代中执行如下步骤:
d)同步待对齐实体相对于视口的位置
 
其中,表示视图画布的宽度与高度。
e)对于子图中的邻域实体,如果实体在置信对齐中,使用相对位置向量计算其同步位置,并使用函数(用于将某个值“钳”住、限制在某个区间)约束该邻域实体布局在同步位置附近个单位距离内:
 
其中,表示置信对齐中的对齐实体,表示对齐实体在视图画布的横纵坐标,表示计算同步位置时的约束距离。
f)对于子图中的邻域实体,如果实体在置信对齐中,使用单独的颜色与星形标记编码实体节点。
示例性的,在本申请的一实施例中,经过上述步骤得到的结构比较视图如图2所示。
下面对绘制邻域比较视图的具体过程做示例性说明。
步骤A,邻域比较视图置信对齐的计算过程同上。
步骤B,将画布水平均分为5栏,从左到右依次放置普通邻域实体、源实体、置信对齐实体对、目标实体、普通邻域实体,每一栏中的实体在垂直方向上均匀分布。
步骤C,对于中间的置信对齐栏,按照正确对齐、高相似对齐的顺序由上到下均匀放置,其中正确对齐使用特殊颜色编码高亮,高相似对齐按相似度由高到低排布,并使用扇形图编码其相似度,扇形图角度的计算过程如下:
 其中, 表示第对置信对齐的源实体,表示第对置信对齐的对齐实体,共有对置信对齐,表示实体间的相似度。
示例性的,在本申请的一实施例中,经过上述步骤得到的邻域比较视图如图3所示。
下面对绘制词云比较视图的具体过程做示例性说明。
步骤①,根据图谱中的实体名称初始化词典。
步骤②,获取源实体与候选实体的属性三元组,对与每个实体三元组中的属性值,使用基于词典的分词算法,进行分词处理,得到词语列表
步骤③,使用TF-IDF(term frequency–inverse document frequency,一种用于信息检索与数据挖掘的常用加权技术)算法计算词语列表中词语的重要性。
步骤④对源实体与候选对齐实体,使用词云可视化,其中使用重要性与词频编码词云中词语大小,词语大小计算过程如下:
 ;其中,表示词语使用算法的统计值,表示词语的出现次数。
步骤⑤对于词云中出现的相同词语,使用相同颜色编码突出显示。
示例性的,在本申请的一实施例中,经过上述步骤得到的词云比较视图如图4所示。
步骤13,根据结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将该源实体对应的多个候选对齐实体的替换开销置零,得到该源实体与该源实体对应的多个候选对齐实体之间的结构相似度量。
在本申请的一些实施例中,上述图编辑距离算法可以是A star算法(一种静态路网中求解最短路最有效的方法)。
具体的,步骤13的执行过程为:
通过计算公式
 
得到结构相似度量,其中表示节点替换开销计算函数, 表示源实体邻域子图的第个实体,表示源实体邻域子图中实体的总数量,表示候选对齐实体邻域子图的第个实体,表示候选对齐实体邻域子图中实体的总数量,表示图编辑距离算法得到的编辑路径,表示源实体邻域子图,表示候选对齐实体邻域子图,表示第条编辑路径,N表示编辑路径总数,
值得一提的是,通过在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将正确对齐实体的替换开销置零,能够提升结构相似度量计算的准确度。
步骤14,利用样本相似度算法对邻域比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量。
在本申请的一些实施例中,上述样本相似度算法可以是Jaccard相似度算法。
具体的,基于Jaccard相似度进行改进,其中分子为邻域交集,值为邻域中置信对齐的相似度求和,分母为邻域差集,值为邻域中非置信对齐的重要性(基于节点度)求和。
示例性的,步骤14的执行过程为:
通过计算公式
得到邻域相似度量,其中,表示源实体与候选对齐实体邻域中存在的置信对齐,置信对齐表示源实体与候选对齐实体邻域中存在的正确对齐与高相似对齐的集合,表示第对置信对齐的源实体,表示第对置信对齐的对齐实体,表示置信对齐的总对数,表示中不在置信对齐中的第个其余实体,表示其余实体的总数量,表示对齐模型输出的的相似度,表示实体对应度数。
步骤15,利用集合匹配算法对词云比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的词云相似度量。
在本申请的一些实施例中,上述集合匹配算法可以是匈牙利算法(Hungary,一种在多项式时间内求解任务分配问题的组合优化算法)。
具体的,针对词云中的词,两两比较,使用句子嵌入模型(LaBSE,Languageagnostic BERT Sentence Embedding:一套支持109中语言的新语言不可知论内嵌模型)预训练模型计算词之间的语义相似度,进而构建出一个二部图,二部图中边权重则为词间语义相似度,再使用二部图最大匹配匈牙利算法计算最大匹配得到词云总体相似度。
示例性的,词云相似度的计算过程如下:
通过计算公式
得到词云相似度量,其中,是最大匹配算法得到的词语匹配对,表示词云比较视图中的第个词语,表示词云比较视图中词语的总数量,表示词云比较视图中的第y个词语,表示词云比较视图中词语的总数量,表示最大匹配算法。
步骤16,根据结构相似度量、邻域相似度量以及词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量。
上述融合相似度量包括总相似度和不确定性。
具体的,根据用户设置的自定义权重,加权融合三种度量(结构相似度量、邻域相似度量以及词云相似度量)得到总相似度并排序,同时计算度量排序的不确定性,通过候选对齐实体在三种度量下的排序一致性,衡量候选对齐实体的不确定性。
步骤17,根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对该源实体进行实体对齐。
具体的,步骤17.1,根据融合相似度量对候选对齐列表进行排序,用户根据相似度量由低到高验证对齐正确性。
步骤17.2,用户通过三个比较视图(结构比较视图、邻域比较视图和词云比较视图)进行协同分析。在结构比较视图中,审查候选对齐邻域子图与源实体子图是否相似,具体表现为在视图中存在与源实体子图结构相似的部分。在邻域比较视图中,审查候选对齐邻域与源实体邻域重合度,具体表现为在视图的中间栏置信对齐数量占比高。在词云比较视图中,审查候选对齐属性与源实体属性是否存在一致或相似的词语,具体表现为在视图上存在颜色相同且字体较大的词语。同时,融合相似度量与排序不确定性能够对用户验证提供数据支撑,辅助对齐决策。
步骤17.3,重复上述步骤,对于每个源实体与该源实体对应的多个候选对齐实体,用户能够验证源实体与该源实体对应的每个候选对齐实体之间对齐的正确性,也可以从每个源实体对应的多个候选对齐实体中选择正确的对齐实体,还可以将错误对齐丢弃,最终输出高质量的实体对齐结果。
下面对步骤16(根据结构相似度量、邻域相似度量以及词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量)的具体过程做示例性说明。
步骤16.1,通过计算公式
 ;
得到该源实体与该源实体对应的多个候选对齐实体之间的总相似度量
步骤16.2,对总相似度量进行排序,并通过计算公式
 ;
得到该源实体与该源实体对应的多个候选对齐实体之间的不确定性
其中,表示第个候选对齐实体,共有个候选对齐实体,表示第个候选对齐实体在结构相似度量、邻域相似度量以及词云相似度量下的排序标准差,表示第个候选对齐实体在结构相似度量、邻域相似度量以及词云相似度量下的排序平均值。
如图5所示,本申请的实施例还提供了一种基于多视图可视化的交互式装置,该装置500包括:
初始实体对齐模块501:用于将多个源知识图谱的三元组信息输入实体对齐模型,得到每个源实体对应的多个候选对齐实体;其中,每个源知识图谱包括多个源实体。
绘制模块502:用于对该源实体以及该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图和词云比较视图。
结构相似度量模块503:用于根据结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将该源实体对应的多个候选对齐实体的替换开销置零,得到该源实体与该源实体对应的多个候选对齐实体之间的结构相似度量。
邻域相似度量模块504:用于利用样本相似度算法对邻域比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量。
词云相似度量模块505:用于利用集合匹配算法对词云比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的词云相似度量。
融合相似度量模块506:用于根据结构相似度量、邻域相似度量以及词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量。
最终实体对齐模块507:用于用于根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对该源实体进行实体对齐。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
如图6所示,本申请的实施例提供了一种终端设备,如图6所示,该实施例的终端设备D10包括:至少一个处理器D100(图6中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102,所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。
具体的,所述处理器D100执行所述计算机程序D102时,通过将多个源知识图谱的三元组信息输入实体对齐模型,得到每个源实体对应的多个候选对齐实体,然后针对每个源实体和该源实体对应的多个候选对齐实体,分别绘制结构比较视图、邻域比较视图和词云比较视图,再根据结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将候选对齐实体的替换开销置零,得到每个源实体与该源实体对应的多个候选对齐实体之间的结构相似度量,然后利用样本相似度算法对邻域比较视图进行计算,得到每个源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量,再利用集合匹配算法对词云比较视图进行计算,得到每个源实体与该源实体对应的多个候选对齐实体之间的词云相似度量,然后根据结构相似度量、邻域相似度量以及词云相似度量,计算每个源实体与该源实体对应的多个候选对齐实体之间的融合相似度量,最后根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对多个源知识图谱进行实体对齐。其中,通过对每个源实体和该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图以及词云比较视图,能够将实体的上下文信息可视化,降低实体对齐的复杂度;根据结构比较视图、邻域比较视图、词云比较视图以及融合相似度量,对源知识图谱进行实体对齐,能够为实体对齐提供更为精确的数据支撑,提高实体对齐的准确性。
所称处理器D100可以是中央处理单元(CPU,Central Processing Unit),该处理器D100还可以是其他通用处理器、数字信号处理器 (DSP,Digital Signal Processor)、专用集成电路 (ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元,例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备,例如所述终端设备D10上配备的插接式硬盘,智能存储卡(SMC,SmartMedia Card ),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到基于多视图可视化的交互式实体对齐装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本申请提供的基于多视图可视化的交互式实体对齐方法可以将实体对齐时所需的复杂上下文信息转化为简单形象的视觉元素,大幅降低了用户分析与理解门槛,提高对齐效率与质量。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (7)

1.一种基于多视图可视化的交互式实体对齐方法,其特征在于,包括:
将多个源知识图谱的三元组信息输入实体对齐模型,得到每个源实体对应的多个候选对齐实体;其中,每个源知识图谱包括多个源实体;
分别针对每个源实体执行以下步骤:
对该源实体以及该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图和词云比较视图;
根据所述结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将该源实体对应的多个候选对齐实体的替换开销置零,得到该源实体与该源实体对应的多个候选对齐实体之间的结构相似度量;
利用样本相似度算法对所述邻域比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量;
利用集合匹配算法对所述词云比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的词云相似度量;
根据所述结构相似度量、所述邻域相似度量以及所述词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量;
根据所述结构比较视图、所述邻域比较视图、所述词云比较视图以及所述融合相似度量,对该源实体进行实体对齐。
2.根据权利要求1所述的实体对齐方法,其特征在于,所述三元组信息信息包括关系三元组信息与属性三元组信息。
3.根据权利要求1所述的实体对齐方法,其特征在于,所述根据所述结构比较视图,基于图编辑距离算法,在图编辑距离的节点替换开销矩阵中引入预先设置的对齐特征,并将该源实体对应的多个候选对齐实体的替换开销置零,得到该源实体与该源实体对应的多个候选对齐实体之间的结构相似度量,包括:
通过计算公式
得到结构相似度量,其中表示节点替换开销计算函数, 表示源实体邻域子图的第个实体,表示源实体邻域子图中实体的总数量,表示候选对齐实体邻域子图的第个实体,表示候选对齐实体邻域子图中实体的总数量,表示图编辑距离算法得到的编辑路径,表示源实体邻域子图,表示候选对齐实体邻域子图,表示第条编辑路径,N表示编辑路径总数,
4. 根据权利要求3所述的实体对齐方法,其特征在于,所述利用样本相似度算法对所述邻域比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的邻域相似度量,包括:
通过计算公式
得到所述邻域相似度量,其中,表示源实体与候选对齐实体邻域中存在的置信对齐,所述置信对齐表示源实体与候选对齐实体邻域中存在的正确对齐与高相似对齐的集合,表示第对置信对齐的源实体,表示第对置信对齐的对齐实体,表示置信对齐的总对数,表示中不在置信对齐中的第个其余实体,表示其余实体的总数量,表示对齐模型输出的的相似度,表示实体对应度数。
5.根据权利要求4所述的实体对齐方法,其特征在于,所述利用集合匹配算法对所述词云比较视图进行计算,得到该源实体与该源实体对应的多个候选对齐实体之间的词云相似度量,包括:
通过计算公式
得到所述词云相似度量,其中,是最大匹配算法得到的词语匹配对,表示词云比较视图中的第个词语,表示词云比较视图中词语的总数量,表示词云比较视图中的第个词语,表示词云比较视图中词语的总数量,表示最大匹配算法。
6.根据根据权利要求5所述的实体对齐方法,其特征在于,所述融合相似度量包括总相似度和不确定性;
所述根据所述结构相似度量、所述邻域相似度量以及所述词云相似度量,计算该源实体与该源实体对应的多个候选对齐实体之间的融合相似度量,包括:
通过计算公式
得到该源实体与该源实体对应的多个候选对齐实体之间的总相似度量
对所述总相似度量进行排序,并通过计算公式
得到该源实体与该源实体对应的多个候选对齐实体之间的不确定性;其中,表示第个候选对齐实体,共有个候选对齐实体,表示第个候选对齐实体在所述结构相似度量、所述邻域相似度量以及所述词云相似度量下的排序标准差,表示第个候选对齐实体在所述结构相似度量、所述邻域相似度量以及所述词云相似度量下的排序平均值。
7.根据根据权利要求1所述的实体对齐方法,其特征在于,在对该源实体以及该源实体对应的多个候选对齐实体,绘制结构比较视图、邻域比较视图和词云比较视图,所述实体对齐方法还包括:
通过计算公式
得到该源实体与该源实体对应的多个候选对齐实体之间的置信对齐;其中,表示正确对齐,来源于已知的以及用户已验证的对齐,共有对,表示第对正确对齐的源实体,表示第对正确对齐的对齐实体,表示高相似对齐,来源于相似度高于特定阈值的对齐,共有对,表示第对高相似对齐的源实体,表示第对高相似对齐的对齐实体,表示对齐是否正确,表示实体间的相似度,表示高相似对齐的阈值;
针对该源实体和该源实体对应的多个候选对齐实体,根据所述置信对齐,分别绘制结构视图和邻域视图。
CN202310166988.8A 2023-02-27 2023-02-27 一种基于多视图可视化的交互式实体对齐方法 Active CN115934970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310166988.8A CN115934970B (zh) 2023-02-27 2023-02-27 一种基于多视图可视化的交互式实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310166988.8A CN115934970B (zh) 2023-02-27 2023-02-27 一种基于多视图可视化的交互式实体对齐方法

Publications (2)

Publication Number Publication Date
CN115934970A true CN115934970A (zh) 2023-04-07
CN115934970B CN115934970B (zh) 2023-06-02

Family

ID=85823733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310166988.8A Active CN115934970B (zh) 2023-02-27 2023-02-27 一种基于多视图可视化的交互式实体对齐方法

Country Status (1)

Country Link
CN (1) CN115934970B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060995A1 (en) * 2015-08-31 2017-03-02 Raytheon Company Systems and methods for identifying similarities using unstructured text analysis
CN111553158A (zh) * 2020-04-21 2020-08-18 中国电力科学研究院有限公司 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统
CN112733006A (zh) * 2019-10-14 2021-04-30 中国移动通信集团上海有限公司 用户画像的生成方法、装置、设备及存储介质
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN114092283A (zh) * 2021-10-28 2022-02-25 湘潭大学 一种基于知识图谱匹配的法律案例相似度计算方法及系统
CN114840688A (zh) * 2022-05-16 2022-08-02 吉林大学 一种计算机构建的嵌入式对齐方法
CN114942998A (zh) * 2022-04-25 2022-08-26 西北工业大学 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN115271071A (zh) * 2022-08-08 2022-11-01 中南大学 基于图神经网络的知识图谱实体对齐方法、系统及设备
WO2022267976A1 (zh) * 2021-06-21 2022-12-29 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060995A1 (en) * 2015-08-31 2017-03-02 Raytheon Company Systems and methods for identifying similarities using unstructured text analysis
CN112733006A (zh) * 2019-10-14 2021-04-30 中国移动通信集团上海有限公司 用户画像的生成方法、装置、设备及存储介质
CN111553158A (zh) * 2020-04-21 2020-08-18 中国电力科学研究院有限公司 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
WO2022267976A1 (zh) * 2021-06-21 2022-12-29 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质
CN114092283A (zh) * 2021-10-28 2022-02-25 湘潭大学 一种基于知识图谱匹配的法律案例相似度计算方法及系统
CN114942998A (zh) * 2022-04-25 2022-08-26 西北工业大学 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN114840688A (zh) * 2022-05-16 2022-08-02 吉林大学 一种计算机构建的嵌入式对齐方法
CN115271071A (zh) * 2022-08-08 2022-11-01 中南大学 基于图神经网络的知识图谱实体对齐方法、系统及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Z. LIAO 等: "How to Construct Software Knowledge Graph: A Case Study", 《2020 IEEE WORLD CONGRESS ON SERVICES (SERVICES)》 *
李丽霞;任卓明;张子柯;: "基于关键词的知识图谱挖掘信息技术学科演化趋势", 电子科技大学学报 *
谭元珍 等: "基于邻域聚合的实体对齐方法", 《计算机工程》 *
鹿旭东 等: "大数据驱动的创新方法论与创新服务平台", 《数据与计算发展前沿》 *

Also Published As

Publication number Publication date
CN115934970B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
US7720773B2 (en) Partitioning data elements of a visual display of a tree using weights obtained during the training state and a maximum a posteriori solution for optimum labeling and probability
CN110609902A (zh) 一种基于融合知识图谱的文本处理方法及装置
CN112651373B (zh) 一种建筑图纸文本信息的识别方法及装置
CN106919957B (zh) 处理数据的方法及装置
CN111340054A (zh) 数据标注方法、装置及数据处理设备
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN111651641B (zh) 一种图查询方法、装置及存储介质
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN108776660B (zh) 一种基于ArcGIS的批量匹配道路属性的方法
CN111144109B (zh) 文本相似度确定方法和装置
CN109308311A (zh) 一种多源异构数据融合系统
CN109871743B (zh) 文本数据的定位方法及装置、存储介质、终端
US11048730B2 (en) Data clustering apparatus and method based on range query using CF tree
CN113760891A (zh) 一种数据表的生成方法、装置、设备和存储介质
CN115934970A (zh) 一种基于多视图可视化的交互式实体对齐方法
CN115995092A (zh) 图纸文字信息提取方法、装置、设备
CN110598194A (zh) 一种非满格表格内容提取方法、装置及终端设备
CN112766385B (zh) 一种众源矢量线数据几何匹配与属性融合方法
CN115237355A (zh) 一种基于闪存数据类识别的定向交换方法及系统
RU2679383C1 (ru) Самокорректирующиеся способ и устройство распознавания для устройства распознавания ценных документов
CN112287005A (zh) 一种数据处理方法、装置、服务器及介质
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN113761169A (zh) 一种价格识别方法和装置
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant