CN112765362B - 基于改进自编码器的知识图谱实体对齐方法及相关设备 - Google Patents

基于改进自编码器的知识图谱实体对齐方法及相关设备 Download PDF

Info

Publication number
CN112765362B
CN112765362B CN202110039051.5A CN202110039051A CN112765362B CN 112765362 B CN112765362 B CN 112765362B CN 202110039051 A CN202110039051 A CN 202110039051A CN 112765362 B CN112765362 B CN 112765362B
Authority
CN
China
Prior art keywords
knowledge
graph
node
similarity
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110039051.5A
Other languages
English (en)
Other versions
CN112765362A (zh
Inventor
黄健
马可
张中杰
刘权
郝建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110039051.5A priority Critical patent/CN112765362B/zh
Publication of CN112765362A publication Critical patent/CN112765362A/zh
Application granted granted Critical
Publication of CN112765362B publication Critical patent/CN112765362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种基于改进自编码器的知识图谱实体对齐方法及相关设备。所述方法包括:获取第一知识图谱和第二知识图谱;基于第一知识图谱与第二知识图谱中的相同节点,将第一知识图谱与第二知识图谱连接合并,生成第三知识图谱;基于第一算法模型,计算第三知识图谱中分别属于第一知识图谱与第二知识图谱的任意两个节点的第一相似度排名列表;基于第二算法模型,计算第三知识图谱中分别属于第一知识图谱与第二知识图谱的任意两个节点的第二相似度排名列表;判断任意两个节点在第一相似度排名与第二相似度排名中的相似度排名是否均为最高的结果为是,则该两个节点为相同节点。本实施例能够很好的识别出知识图谱中的重复节点。

Description

基于改进自编码器的知识图谱实体对齐方法及相关设备
技术领域
本说明书一个或多个实施例涉及技术领域,尤其涉及一种基于改进自编码器的知识图谱实体对齐方法及相关设备。
背景技术
随着智能化时代的到来,战争形态在20世纪中发生了较大的变化,现代战争的核心变成了如何取得对敌情报优势,这就使得需要指挥员在战场中处理的信息量呈直线上升,而其中的关键是指挥信息系统需具备自动分析处理敌情信息的能力,尤其是对敌目标信息的自动识别。
然而,现有技术中的目标识别方法不能很好的识别出知识图谱中的重复节点,在识别中易出现较多的误判。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种基于改进自编码器的知识图谱实体对齐方法及相关设备。
基于上述目的,本说明书一个或多个实施例提供了一种基于改进自编码器的知识图谱实体对齐方法,包括:
获取第一知识图谱和第二知识图谱;
基于所述第一知识图谱与所述第二知识图谱中的相同节点,将所述第一知识图谱与所述第二知识图谱连接合并,生成第三知识图谱;
基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名列表;
基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表;
判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为最高的结果为是,则该两个节点为相同节点。
可选的,所述任意两个节点包括第一节点以及第二节点,所述第一节点为所述第一知识图谱中与所述第二知识图谱不同的任一节点,所述第二节点为所述第二知识图谱中与所述第一知识图谱不同的任一节点。
可选的,所述基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名,包括:
根据SimRank算法模型计算所述第三知识图谱的相似度矩阵;
在所述相似度矩阵中选择第一节点以及第二节点的相似度计算结果;
根据所述相似度计算结果获得所述第一相似性排名列表。
可选的,所述基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表,包括:
将所述第三知识图谱的网络邻接矩阵输入到SDNE算法模型中,获得重构后的邻接矩阵;
基于构后的邻接矩阵,采用聚类算法计算第一节点和第二节点的距离作为第一节点和第二节点之间的相似度计算结果;
根据所述相似度计算结果获得所述第二相似性排名列表。
可选的,所述基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表之前,还包括:将所述第三知识图谱中的节点嵌入低维密集向量空间中。
可选的,第一子集包括所述第一知识图谱中与所述第二知识图谱不同的全部节点,第二子集包括所述第二知识图谱中与所述第一知识图谱不同的全部节点;所述采用聚类算法计算第一节点和第二节点的距离,包括:
将所述第一子集的全部节点聚集到所述第二子集中的每个聚类中心点,获得第一子相似度值;
将所述第二子集的全部节点聚集到所述第一子集中的每个聚类中心点,获得第二子相似度值;
获取所述第一节点和所述第二节点的之间的第一子相似度值及第二子相似度值的平均值,作为所述第一节点和第二节点之间的相似度计算结果。
可选的,所述将所述第一子集的全部节点聚集到所述第二子集中的每个聚类中心点的聚类数目为所述第二子集中的节点个数;
所述将所述第二子集的全部节点聚集到所述第一子集中的每个聚类中心点的聚类数目为所述第一子集中的节点个数。
可选的,还包括:判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为第一的结果为否,则该两个节点为不同节点。
本说明书一个或多个实施例还提供了一种基于改进自编码器的知识图谱实体对齐装置,包括:
获取模块,被配置为获取第一知识图谱和第二知识图谱;
连接模块,被配置为基于所述第一知识图谱与所述第二知识图谱中的相同节点,将所述第一知识图谱与所述第二知识图谱连接合并,生成第三知识图谱;
第一计算模块,被配置为基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名列表;
第二计算模块,基于第二算法模型,被配置为计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表;
判断模块,被配置为判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为最高的结果为是,则该两个节点为相同节点。
本说明书一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的基于知识图谱的目标识别方法。
本说明书实施例所述基于改进自编码器的知识图谱实体对齐方法及相关设备,通过两种不同的算法模型分别计算任一属于第一知识图谱的节点以及任一属于第二知识图谱的节点之间的相似性,分别获得两个不同的相似度排名列表。若对于某一对分别属于第一知识图谱及第二知识图谱的节点来说,其相似度排名均为第一,即通过两种算法模型计算出来的两节点之间的相似度均为最高的,则这两个节点为同一节点。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例基于改进自编码器的知识图谱实体对齐方法的流程示意图。
图2为本说明书一个或多个实施例所述知识图谱合并示意图;
图3为本说明书一个或多个实施例SDNE模型示意图;
图4为本说明书一个或多个实施例融合模型示意图;
图5为F1 Score结果对比示意图;
图6为Recall结果对比示意图;
图7为Accuracy Rate结果对比示意图;
图8为是未知武器种类的准确度对比示意图;
图9为已知武器种类的准确度对比示意图;
图10为本说明书一个或多个实施例基于改进自编码器的知识图谱实体对齐装置的结构示意图;
图11为本说明书一个或多个实施例所述电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,目前,研究人员提出的目标识别方法主要有基于隶属度和D-S理论的目标识别,基于规则策略方法,基于贝叶斯网络的目标识别、模糊聚类和模糊模式识别、图像融合的目标识别和神经网络的目标自动识别方法等。其中基于各种规则的算法很难由系统完全枚举且缺乏灵活的规则扩展能力,而基于神经网络技术虽然效果好,但是大多数情况下需要标签数据才能使用,在缺乏标签数据情况下,往往难以使用。这些方法综合运用目标的物理特征和战术特征对目标进行识别将可以提高对目标类型识别的准确性和科学性,但同时也增加了指标的复杂性和综合分析的难度。
传感器技术的发展使海外战场可以获得的目标信息空前广泛,涉及运动特征、电磁特征、声响特征、影像特征等各个方面;将传感器得到的信息全部用于对目标的识别,其中冗余信息的加入使得识别复杂性增加,识别速度大大减慢,无关信息的加入甚至会使目标识别中出现较多的误判。
2012年5月17日,Google正式提出知识图谱(Knowledge Graph,KG)的概念以后,通过知识图谱,大大改进了机器的理解和解释能力。机器理解数据的本质是建立起从数据到知识库中的知识要素(包括实体、概念和关系)映射的一个过程。将知识库中的知识与问题或者数据加以关联的过程。根据知识图谱的图结构信息特点,目前做图中重复节点识别的主要有三种方法:一是将拓扑图结构信息映射到实数空间中的密集低维向量,然后直接使用数学表达式来计算实体之间的相似性,例如SE,TransE,TransH;二是使用图的拓扑信息来测量任意两个节点之间的相似度,即如果两个节点具有相似的相邻边结构,则判定两个节点相似,且与节点具有最高相似度的为节点本身,例如PageRank,SimRank;三是使用自编码器,将三元组的图结构信息输入到自编码器,就可以自动获得嵌入知识图后的矢量结果,然后根据结果计算节点之间的相似性,例如SDNE和使用其他更简单的线性模型代替GCN模型的自编码器。
针对如何将图结构嵌入向量空间,SE使用两个不同的矩阵投影描述头和尾实体,很难协同优化得到理想结果,并且通常无法准确地描述两个实体之间的语义关系。尽管TransE在知识表示上既简单又有效,但是它不能很好地处理一对多,多对一,多对多和自反关系。TransH可以弥补这些缺点,但是TransH存在梯度向量计算复杂的特点,导致使用起来非常麻烦。而相似度计算方法中,著名的Google引擎使用PageRank算法根据人们的期望对搜索结果进行排序,但该算法主要是针对网页设计的。因此,上述目标识别方法不能很好的识别出知识图谱中的重复节点。
申请人在实现本公开的过程中发现,SimRank在计算相似度方面与PageRank相似,但与前者相比具有更好的适用性。具有链接结构的任何数据都可以用来衡量相似性。在自编码器模型中,SDNE模型因为使用的是图神经网络(GCN模型)理论,所以拥有计算简单、效果好的特性。因此本说明书实施例采用SDNE模型和SimRank模型来解决对知识图谱中的重复节点进行识别的问题。
以下,通过具体的实施例进一步详细说明本公开的技术方案。
本说明书一个或多个实施例提供了一种基于改进自编码器的知识图谱实体对齐方法。如图1所示,所述方法包括:
步骤S101,获取第一知识图谱和第二知识图谱。
在本实施例中,首先基于采集到的数据构建第一知识图谱以及第二知识图谱。如图2所示,第一知识图谱KGA包括多个节点以及节点之间的关系,其中KGA={VA,EA},VA表示第一知识图谱KGA的节点集合,EA表示第一知识图谱KGA的边的集合。第二知识图谱KGB包括多个节点以及节点之间的关系,其中KGB={VB,EB},VB表示第二知识图谱KGB的节点集合,EB表示第二知识图谱KGB的边的集合。
步骤S102,基于所述第一知识图谱与所述第二知识图谱中的相同节点,将所述第一知识图谱与所述第二知识图谱连接合并,生成第三知识图谱。
如图2所示,第一知识图谱KGA和第二知识图谱KGB之间包括相同节点,因此基于相同节点可将第一知识图谱KGA和第二知识图谱KGB连接合并从而生成第三知识图谱KGC,其中KGC={VC,EC},VC表示第三知识图谱KGC的节点集合,EC表示第三知识图谱KGC的边的集合。
步骤S103,基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名列表。
本步骤中,对于第一知识图谱中的任一第一节点,采用第一算法模型计算其与第二知识图谱中每个节点的相似性结果,并对该相似性结果进行排序,从而获得该第一节点与第二知识图谱中每个节点的第一相似度排名列表。
步骤S104,基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表。
本步骤中,对于第一知识图谱中的任一第一节点,采用第二算法模型计算其与第二知识图谱中每个节点的相似性结果,并对该相似性结果进行排序,从而获得该第一节点与第二知识图谱中每个节点的第二相似度排名列表。
步骤S105,判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度是否均为最高的结果为是,则该两个节点为相同节点。
对于第一知识图谱中的第一节点以及第二知识图谱中的第二节点,若两者之间的相似性在第一相似度排名列表以及第二相似度排名列表之中均为高,则说明第一节点和第二节点为相同节点。
在本实施例中,通过两种不同的算法模型分别计算任一属于第一知识图谱的节点以及任一属于第二知识图谱的节点之间的相似性,分别获得两个不同的相似度排名列表。若对于某一对分别属于第一知识图谱及第二知识图谱的节点来说,其相似度排名均为第一,即通过两种算法模型计算出来的两节点之间的相似度均为最高的,则这两个节点为同一节点。
在一些实施例中,可以基于已知的武器种类以及武器属性信息构建第一知识图谱,即第一知识图谱中各节点为已知的武器种类及武器属性信息;根据传感器探测到的武器属性信息以及未知的武器种类构建第二知识图谱,即第二知识图谱的节点为未知的武器种类,除了与第一知识图谱中相同节点以外的其他节点为未知目标,这样通过判断第二知识图谱的未知目标是否与第一知识图谱中各已知目标是否相同,则可知确认第二知识图谱的未知目标的武器种类。
在另一些实施例中,在已建立第一知识图谱中和第二知识图谱中,分别存在已知目标种类的节点,例如第一知识图谱中的“苹果”以及第二知识图谱中的“apple”,但是不知道该“苹果”与“apple”是否为同一含义。这样利用上述实施例中所述的方法进行实体对齐,则可判定第一知识图谱中的“苹果”与第二知识图谱中的“apple”是否为相同的节点,即通过本说明书实施例所述实体对齐方法可将用不同名称描述但是实质相同的目标确定为同一目标。
可选的,所述任意两个节点包括第一节点以及第二节点,所述第一节点为所述第一知识图谱中与所述第二知识图谱不同的任一节点,所述第二节点为所述第二知识图谱中与所述第一知识图谱不同的任一节点。可选的,第一子集
Figure BDA0002894949540000081
包括所述第一知识图谱中与所述第二知识图谱不同的全部节点,即/>
Figure BDA0002894949540000093
A表示第一知识图谱中的全部节点,B表示第二知识图谱中的全部节点;第二子集/>
Figure BDA0002894949540000094
包括所述第二知识图谱中与所述第一知识图谱不同的全部节点,即/>
Figure BDA0002894949540000095
相同节点子集/>
Figure BDA00028949495400000911
包括所述第一知识图谱与所述第二知识图谱中的相同节点。因此,第一节点属于第一子集/>
Figure BDA00028949495400000910
第二节点属于第二子集/>
Figure BDA0002894949540000096
第三知识图谱KGC中包括第一子集/>
Figure BDA0002894949540000099
第二子集/>
Figure BDA0002894949540000098
以及相同节点子集/>
Figure BDA0002894949540000097
在本说明书的一些可选实施例中,步骤S103中所述基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名,包括:
步骤S201,根据SimRank算法模型计算所述第三知识图谱的相似度矩阵。
其中,SimRank算法模型是一个基于图的拓扑结构信息的模型,用于测量任何两个对象之间的相似性。SimRank相似性的核心思想是:如果两个对象被相似的对象引用(即,它们在相邻结构中具有相似的对象),则两个对象也相似。
SimRank模型基于以下递归思想定义两个节点的相似性:如果节点c指向节点a,则节点d指向节点b,节点c和节点d相似,则节点a和节点b也被视为相似。该递归定义的初始条件是每个节点与其自身最相似。
如果使用I(a)表示指向节点a的节点集合,并使用两个对象之间的SimRank相似度s(a,b),则s(a,b)可以表示如下:
Figure BDA0002894949540000091
其中,C∈(0,1)是阻尼因子,通常为0.6~0.8。SimRank的迭代公式如下:
Figure BDA0002894949540000092
Figure BDA0002894949540000101
Rk(*,*)是k,
Figure BDA0002894949540000102
的单调不变函数。在实践中发现Rk(*,*)收敛很快,不需要将k设置得太大。
以下矩阵形式更便于计算。
Figure BDA0002894949540000103
Figure BDA0002894949540000104
/>
Figure BDA0002894949540000105
Figure BDA0002894949540000106
其中c∈(0,1)是阻尼因子,通常为0.6~0.8。
Figure BDA0002894949540000107
是相似度矩阵,Sij表示知识图集中Node第i个节点和第j个节点之间的相似性。/>
Figure BDA0002894949540000108
是转移概率矩阵,每列的总和为1。/>
Figure BDA0002894949540000109
是|Node|维标识矩阵。如果可以将节点i转移到节点j,并且有n个这样的节点i,则/>
Figure BDA00028949495400001010
其中,
Figure BDA00028949495400001011
代表实数域集合,也就是全体实数的集合。|Node|代表,Node这个节点结合里面的元素数目,即节点总数。S矩阵是|Node|×|Node|维度的,也就是有|Node|行,|Node|列,所以相当于由|Node|×|Node|维的实数组成的,所以矩阵S属于/>
Figure BDA0002894949540000111
这个集合。这个集合代表|Node|×|Node|个维度的实数域。
步骤S202,在所述相似度矩阵中选择第一节点以及第二节点的相似度计算结果。即在相似度矩阵中选择选择属于第一子集
Figure BDA0002894949540000115
第二子集/>
Figure BDA0002894949540000116
中节点的结果。
步骤S203,根据所述相似度计算结果获得所述第一相似性排名列表。
排序后,获得第一相似性排名列表R1,其中第一相似性排名列表R1如下:
Figure BDA0002894949540000112
其中,R1[i][j]表示
Figure BDA0002894949540000113
中第j个相似节点的唯一标识号。
在本说明书的一些可选实施例中,步骤S104中所述基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表,包括:
步骤S301,将所述第三知识图谱的网络邻接矩阵输入到SDNE算法模型中,获得重构后的邻接矩阵。
如图3所示,SDNE算法模型的输入是第三知识图谱的网络邻接矩阵,输出是重构后的邻接矩阵,通过优化重建损失,可以保留顶点的整体结构特征。从中间一行看,
Figure BDA0002894949540000114
是需要的嵌入向量。该模型使用一阶损失函数使嵌入向量与相邻的顶点相对应,以保持顶点的局部结构特征。
步骤S302,基于构后的邻接矩阵,采用聚类算法计算第一节点和第二节点的距离作为第一节点和第二节点之间的相似度计算结果。
可选的,本步骤中采用聚类算法计算第一节点和第二节点的距离包括:
步骤S401,将所述第一子集的全部节点聚集到所述第二子集中的每个聚类中心点,获得第一子相似度值。其中,所述将所述第一子集
Figure BDA0002894949540000117
的全部节点聚集到所述第二子集/>
Figure BDA0002894949540000118
中的每个聚类中心点的聚类数目为所述第二子集中的节点个数/>
Figure BDA0002894949540000121
步骤S402,将所述第二子集的全部节点聚集到所述第一子集中的每个聚类中心点,获得第二子相似度值。其中,所述将所述第二子集
Figure BDA0002894949540000122
的全部节点聚集到所述第一子集/>
Figure BDA0002894949540000123
中的每个聚类中心点的聚类数目为所述第一子集中的节点个数/>
Figure BDA0002894949540000124
本步骤中,使用K-means聚类算法的思想,将计算
Figure BDA0002894949540000125
中任何节点到/>
Figure BDA0002894949540000126
中任何节点的距离等效于将/>
Figure BDA0002894949540000127
中的节点聚集到/>
Figure BDA0002894949540000128
中/>
Figure BDA0002894949540000129
个聚类中心点以及将/>
Figure BDA00028949495400001210
中的节点聚集到/>
Figure BDA00028949495400001211
中间/>
Figure BDA00028949495400001212
聚类中心点。
步骤S403,获取所述第一节点和所述第二节点的之间的第一子相似度值及第二子相似度值的平均值,作为所述第一节点和第二节点之间的相似度计算结果。
在本步骤中,使用距离相似度阈值判断是否是重复节点。在计算任意两点之间的距离相似度值之后,将阈值选择为最大值和最小值的平均值。
步骤S303,根据所述相似度计算结果获得所述第二相似性排名列表。
可选的,步骤S104中所述基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表之前,还包括:将所述第三知识图谱中的节点嵌入低维密集向量空间中。
可选的,步骤S105中所述判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为第一的结果为否,则该两个节点为不同节点。
通过使用SDNE模型将图KGC嵌入到低维向量空间中之后,通过计算任意两个点之间的距离来获得任意两个节点之间的相似度。选择属于
Figure BDA00028949495400001214
和/>
Figure BDA00028949495400001215
的节点相似性结果。排序后,可以获得具有公式(3)中的定义的相似性列表R2,
Figure BDA00028949495400001213
其中,R1和R2的维数最多为len2×len1,len1=|A|,len2=|B|。
如图4所示,经过选择和排序后,R1和R2中的第i行对应于
Figure BDA0002894949540000131
中第i个节点的相似排名列表。令E2,j代表/>
Figure BDA0002894949540000132
中的第j个节点,E1,i代表/>
Figure BDA0002894949540000136
中的第i个节点。然后可以得到R1和R2,其中r11,1的值为E1,9,r1m,1的值为E1,54,依此类推。而且,R1中每一行中的元素数量不相等。原因是因为根据SimRank算法,两个节点之间的相似性结果可能为0,这意味着S中的某些元素可能为sij=0。因此,获得的相似节点排名中的某些行中的元素数小于len1。
最后,比较R1[i][0]和R2[i][0],如果它们相同,则认为由R1[i][0]或R2[i][0]表示的节点属于
Figure BDA0002894949540000133
而/>
Figure BDA0002894949540000134
中的i节点是同一节点。否则,/>
Figure BDA0002894949540000135
中的第i个节点是非重复节点。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一些具体实施例中,首先从已知数据库中中随机抽取在战场上出现的武器种类,例如随机抽取100种。然后根据战场上出现的武器种类,每次随机在这些种类中进行选取。最后根据确定的武器装备种类,对其所有的属性项,按照一定概率采纳当作战场上获取的信息。根据以上步骤,重复两次以后,便可以得到两个战场信息三元组知识图谱,作为第一知识图谱KGA和第二知识图谱KGB。总共重复30次,共获得30组输入数据。
在本实施例中,使用准确率Accuracy_Rate和F1_Score来评价实验结果。其中F1_Score是由精确度Precision和召回率Recall来确定的。
令nTUweapondp代表正确识别的Uweapondp总个数即TP,nUweapondp代表Uweapondp的总个数,即TP+TN。令nTUweaponndp代表正确识别的Uweaponndp总个数即FP,nUweaponndp代表Uweaponndp的总个数,即FP+FN。
Figure BDA0002894949540000141
Figure BDA0002894949540000142
Figure BDA0002894949540000143
Figure BDA0002894949540000144
Figure BDA0002894949540000145
Figure BDA0002894949540000146
对应相应评价指标的结果如图9所示。如图8所示,在Uweaponndp的识别中,SDNE模型基本上是无法得到结果的,而融合模型可以得到较高的准确率,原因在于融合模型识别Uweapondp时的要求非常严格,所以如图9所示,在Uweapondp的识别中,融合模型的准确率要略低于SDNE模型和SimRank模型。结合评价指标中Accuracy_Rate的计算公式,这是融合模型能够取得很好Accuracy_Rate指标的关键。所以最终从图7的结果可以看出,在使用SDNE和SimRank融合模型判断时,能够获得比其他模型更好的准确率。
从图6的结果来看,在召回率方面,SDNE和SimRank融合模型能够取得比其他三个模型更好的结果。从图5中可以看出,在F1_Score指标中,融合模型能够有很好的表现。所以根据实验结果,这个融合能够很好的解决知识图谱中重复节点的目标识别。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种基于改进自编码器的知识图谱实体对齐装置。如图10所示,所述装置包括:
获取模块11,被配置为获取第一知识图谱和第二知识图谱。
连接模块12,被配置为基于所述第一知识图谱与所述第二知识图谱中的相同节点,将所述第一知识图谱与所述第二知识图谱连接合并,生成第三知识图谱。
第一计算模块13,被配置为基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名列表。
第二计算模块14,基于第二算法模型,被配置为计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表。
判断模块15,被配置为判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为最高的结果为是,则该两个节点为相同节点。
可选的,所述任意两个节点包括第一节点以及第二节点,所述第一节点为所述第一知识图谱中与所述第二知识图谱不同的任一节点,所述第二节点为所述第二知识图谱中与所述第一知识图谱不同的任一节点。
可选的,所述第一计算模块13还被配置为:根据SimRank算法模型计算所述第三知识图谱的相似度矩阵;在所述相似度矩阵中选择第一节点以及第二节点的相似度计算结果;根据所述相似度计算结果获得所述第一相似性排名列表。
可选的,所述第二计算模块14还被配置为:将所述第三知识图谱的网络邻接矩阵输入到SDNE算法模型中,获得重构后的邻接矩阵;基于构后的邻接矩阵,采用聚类算法计算第一节点和第二节点的距离作为第一节点和第二节点之间的相似度计算结果;根据所述相似度计算结果获得所述第二相似性排名列表。
可选的,所述基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表之前,还包括:将所述第三知识图谱中的节点嵌入低维密集向量空间中。
可选的,第一子集包括所述第一知识图谱中与所述第二知识图谱不同的全部节点,第二子集包括所述第二知识图谱中与所述第一知识图谱不同的全部节点;所述采用聚类算法计算第一节点和第二节点的距离,包括:将所述第一子集的全部节点聚集到所述第二子集中的每个聚类中心点,获得第一子相似度值;将所述第二子集的全部节点聚集到所述第一子集中的每个聚类中心点,获得第二子相似度值;获取所述第一节点和所述第二节点的之间的第一子相似度值及第二子相似度值的平均值,作为所述第一节点和第二节点之间的相似度计算结果。
可选的,所述将所述第一子集的全部节点聚集到所述第二子集中的每个聚类中心点的聚类数目为所述第二子集中的节点个数;所述将所述第二子集的全部节点聚集到所述第一子集中的每个聚类中心点的聚类数目为所述第一子集中的节点个数。
可选的,所述判断模块15还被配置为:判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为第一的结果为否,则该两个节点为不同节点。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于改进自编码器的知识图谱实体对齐方法。
图11示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (7)

1.一种基于改进自编码器的知识图谱实体对齐方法,其特征在于,包括:
获取第一知识图谱和第二知识图谱;
基于所述第一知识图谱与所述第二知识图谱中的相同节点,将所述第一知识图谱与所述第二知识图谱连接合并,生成第三知识图谱;
基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名列表;
基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表;
判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为最高的结果为是,则该两个节点为相同节点;所述任意两个节点包括第一节点以及第二节点,所述第一节点为所述第一知识图谱中与所述第二知识图谱不同的任一节点,所述第二节点为所述第二知识图谱中与所述第一知识图谱不同的任一节点;
所述基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名列表,包括:根据SimRank算法模型计算所述第三知识图谱的相似度矩阵;在所述相似度矩阵中选择第一节点以及第二节点的相似度计算结果; 根据所述相似度计算结果获得所述第一相似度排名列表;
所述基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表,包括:将所述第三知识图谱的网络邻接矩阵输入到SDNE算法模型中,获得重构后的邻接矩阵;基于构后的邻接矩阵,采用聚类算法计算第一节点和第二节点的距离作为第一节点和第二节点之间的相似度计算结果;根据所述相似度计算结果获得所述第二相似度排名列表;
基于已知的武器种类以及武器属性信息构建第一知识图谱,第一知识图谱中各节点为已知的武器种类及武器属性信息;根据传感器探测到的武器属性信息以及未知的武器种类构建第二知识图谱,第二知识图谱的节点为未知的武器种类,除了与第一知识图谱中相同节点以外的其他节点为未知目标,通过判断第二知识图谱的未知目标与第一知识图谱中各已知目标是否相同,确认第二知识图谱的未知目标的武器种类。
2.根据权利要求1所述的方法,其特征在于,所述基于第二算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表之前,还包括:
将所述第三知识图谱中的节点嵌入低维密集向量空间中。
3.根据权利要求1所述的方法,其特征在于,第一子集包括所述第一知识图谱中与所述第二知识图谱不同的全部节点,第二子集包括所述第二知识图谱中与所述第一知识图谱不同的全部节点;所述采用聚类算法计算第一节点和第二节点的距离,包括:
将所述第一子集的全部节点聚集到所述第二子集中的每个聚类中心点,获得第一子相似度值;
将所述第二子集的全部节点聚集到所述第一子集中的每个聚类中心点,获得第二子相似度值;
获取所述第一节点和所述第二节点的之间的第一子相似度值及第二子相似度值的平均值,作为所述第一节点和第二节点之间的相似度计算结果。
4.根据权利要求3所述的方法,其特征在于,
所述将所述第一子集的全部节点聚集到所述第二子集中的每个聚类中心点的聚类数目为所述第二子集中的节点个数;
所述将所述第二子集的全部节点聚集到所述第一子集中的每个聚类中心点的聚类数目为所述第一子集中的节点个数。
5.根据权利要求1所述的方法,其特征在于,还包括:
判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为第一的结果为否,则该两个节点为不同节点。
6.一种基于改进自编码器的知识图谱实体对齐装置,其特征在于,包括:
获取模块,被配置为获取第一知识图谱和第二知识图谱;
连接模块,被配置为基于所述第一知识图谱与所述第二知识图谱中的相同节点,将所述第一知识图谱与所述第二知识图谱连接合并,生成第三知识图谱;
第一计算模块,被配置为基于第一算法模型,计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第一相似度排名列表;
第二计算模块,基于第二算法模型,被配置为计算所述第三知识图谱中分别属于所述第一知识图谱与所述第二知识图谱的任意两个节点的第二相似度排名列表;
判断模块,被配置为判断任意两个节点在所述第一相似度排名与所述第二相似度排名中的相似度排名是否均为最高的结果为是,则该两个节点为相同节点;所述任意两个节点包括第一节点以及第二节点,所述第一节点为所述第一知识图谱中与所述第二知识图谱不同的任一节点,所述第二节点为所述第二知识图谱中与所述第一知识图谱不同的任一节点;
所述第一计算模块,还被配置为:根据SimRank算法模型计算所述第三知识图谱的相似度矩阵;在所述相似度矩阵中选择第一节点以及第二节点的相似度计算结果; 根据所述相似度计算结果获得所述第一相似度排名列表;
所述第二计算模块,还被配置为:将所述第三知识图谱的网络邻接矩阵输入到SDNE算法模型中,获得重构后的邻接矩阵;基于构后的邻接矩阵,采用聚类算法计算第一节点和第二节点的距离作为第一节点和第二节点之间的相似度计算结果;根据所述相似度计算结果获得所述第二相似度排名列表;
基于已知的武器种类以及武器属性信息构建第一知识图谱,第一知识图谱中各节点为已知的武器种类及武器属性信息;根据传感器探测到的武器属性信息以及未知的武器种类构建第二知识图谱,第二知识图谱的节点为未知的武器种类,除了与第一知识图谱中相同节点以外的其他节点为未知目标,通过判断第二知识图谱的未知目标与第一知识图谱中各已知目标是否相同,确认第二知识图谱的未知目标的武器种类。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的基于改进自编码器的知识图谱实体对齐方法。
CN202110039051.5A 2021-01-12 2021-01-12 基于改进自编码器的知识图谱实体对齐方法及相关设备 Active CN112765362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110039051.5A CN112765362B (zh) 2021-01-12 2021-01-12 基于改进自编码器的知识图谱实体对齐方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110039051.5A CN112765362B (zh) 2021-01-12 2021-01-12 基于改进自编码器的知识图谱实体对齐方法及相关设备

Publications (2)

Publication Number Publication Date
CN112765362A CN112765362A (zh) 2021-05-07
CN112765362B true CN112765362B (zh) 2023-06-13

Family

ID=75699858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110039051.5A Active CN112765362B (zh) 2021-01-12 2021-01-12 基于改进自编码器的知识图谱实体对齐方法及相关设备

Country Status (1)

Country Link
CN (1) CN112765362B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036307B (zh) * 2021-09-17 2022-09-13 清华大学 一种知识图谱实体对齐方法及装置
WO2024073338A1 (en) * 2022-09-29 2024-04-04 Visa International Service Association Entity linking using subgraph matching

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN111046186A (zh) * 2019-10-30 2020-04-21 平安科技(深圳)有限公司 知识图谱的实体对齐方法、装置、设备及存储介质
CN111813962A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种用于知识图谱融合的实体相似度计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457486A (zh) * 2019-07-05 2019-11-15 中国人民解放军战略支援部队信息工程大学 基于知识图谱的人物实体对齐方法及装置
CN110955780A (zh) * 2019-10-12 2020-04-03 中国人民解放军国防科技大学 一种用于知识图谱的实体对齐方法
CN111046186A (zh) * 2019-10-30 2020-04-21 平安科技(深圳)有限公司 知识图谱的实体对齐方法、装置、设备及存储介质
CN111813962A (zh) * 2020-09-07 2020-10-23 北京富通东方科技有限公司 一种用于知识图谱融合的实体相似度计算方法

Also Published As

Publication number Publication date
CN112765362A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN110162695B (zh) 一种信息推送的方法及设备
CN110689081B (zh) 一种基于分歧学习的弱监督目标分类和定位方法
TW202007178A (zh) 用戶特徵的生成方法、裝置、設備及儲存介質
CN107944485B (zh) 基于聚类群组发现的推荐系统及方法、个性化推荐系统
CN112765362B (zh) 基于改进自编码器的知识图谱实体对齐方法及相关设备
CN109165309B (zh) 负例训练样本采集方法、装置及模型训练方法、装置
CN107590505B (zh) 联合低秩表示和稀疏回归的学习方法
CN111553279B (zh) 兴趣点的表征学习、识别方法、装置、设备及存储介质
CN112529068B (zh) 一种多视图图像分类方法、系统、计算机设备和存储介质
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN112287014A (zh) 产品信息可视化处理方法、装置、计算机设备
Zhu et al. Age estimation algorithm of facial images based on multi-label sorting
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN109635004B (zh) 一种数据库的对象描述提供方法、装置及设备
CN110135428B (zh) 图像分割处理方法和装置
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN115393903A (zh) 图像底库的更新方法、装置、设备及存储介质
CN116186297A (zh) 一种基于图流形学习的文献关系发现方法及系统
US11709858B2 (en) Mapping of unlabeled data onto a target schema via semantic type detection
CN111708745B (zh) 一种跨媒体数据共享表示方法及用户行为分析方法、系统
WO2022110492A1 (zh) 指静脉身份识别方法、装置、计算机设备和存储介质
CN114268625B (zh) 特征选择方法、装置、设备及存储介质
CN115082999A (zh) 合影图像人物分析方法、装置、计算机设备和存储介质
Yang et al. Adaptive density peak clustering for determinging cluster center
CN115878989A (zh) 模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant