CN112395433B - 基于翻译模型的知识图谱消歧方法及相关设备 - Google Patents
基于翻译模型的知识图谱消歧方法及相关设备 Download PDFInfo
- Publication number
- CN112395433B CN112395433B CN202110078520.4A CN202110078520A CN112395433B CN 112395433 B CN112395433 B CN 112395433B CN 202110078520 A CN202110078520 A CN 202110078520A CN 112395433 B CN112395433 B CN 112395433B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- graph
- entity node
- node
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于翻译模型的知识图谱消歧方法及相关设备。所述方法包括:获取第一知识图谱和第二知识图谱,第一知识图谱及第二知识图谱具有相同的第一属性节点;对第一知识图谱进行向量向量化获得第一向量化结果;根据第一向量化结果及所述第一属性节点进行向量迁移,获得第二知识图谱的第二向量化结果;基于所述第一向量化结果及所述第二向量化结果,采用聚类算法对第一知识图谱中的第一实体节点以及第二实体节点进行聚类计算;根据聚类计算结果,获得第一实体节点与第二实体节点之间的关系。本发明所述方法改善了聚类消歧效果。
Description
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种基于翻译模型的知识图谱消歧方法及相关设备。
背景技术
本发明涉及知识图谱技术领域,尤其涉及一种基于翻译模型的知识图谱消歧方法及相关设备。
但是,现有技术中,在对知识图谱向量化后直接进行聚类分析,导致聚类效果不理想。
发明内容
有鉴于此,本发明的目的在于提出一种基于翻译模型的知识图谱消歧方法及相关设备,解决聚类效果不理想的问题。
基于上述目的,本发明提供了一种基于翻译模型的知识图谱消歧方法,包括:
获取第一知识图谱和第二知识图谱,所述第一知识图谱及所述第二知识图谱具有相同的第一属性节点;
对所述第一知识图谱进行向量化获得第一向量化结果;
根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果;
基于所述第一向量化结果及所述第二向量化结果,采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的第二实体节点进行聚类计算;
根据聚类计算结果,获得所述第一实体节点与所述第二实体节点之间的关系。
本发明提供了一种基于翻译模型的知识图谱消歧装置,包括:
获取模块,被配置为获取第一知识图谱和第二知识图谱,所述第一知识图谱及所述第二知识图谱具有相同的第一属性节点;
向量化模块,被配置为对所述第一知识图谱进行向量化获得第一向量化结果;
向量迁移模块,被配置为根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果;
聚类模块,被配置为基于所述第一向量化结果及所述第二向量化结果,采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的所述第二实体节点进行聚类计算;
结果获得模块,被配置为根据聚类计算结果,获得所述第一实体节点与所述第二实体节点之间的关系。
本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的基于翻译模型的知识图谱消歧方法。
本发明所述基于翻译模型的知识图谱消歧方法及相关设备,改善了聚类消歧效果,通过确定的聚类中心数目更好的反应数据的真实情况;通过向量迁移的方法,在保证了聚类效果的前提下减少算法所耗时间。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于翻译模型的知识图谱消歧方法的流程示意图;
图2为本发明知识图谱融合中同类节点聚类问题定义示意图;
图3为本发明使用向量迁移的知识图谱聚类消歧算法示意图;
图4为本发明向量迁移操作示意图;
图5为本发明不能进行向量迁移的同类节点聚类问题定义示意图;
图6为本发明不使用向量迁移的知识图谱聚类消歧算法示意图;
图7为本发明使用武器装备数据集在不同方法下时间开销的比较示意图
图8为本发明使用武器装备数据集在不同方法下轮廓系数的比较示意图;
图9为本发明使用武器装备数据集在不同方法下兰德系数的比较示意图;
图10为本发明使用 GTD 数据集在不同方法下时间开销的比较示意图;
图11为本发明使用 GTD 数据集在不同方法下轮廓系数的比较示意图;
图12为本发明使用 GTD 数据集在不同方法下兰德系数的比较示意图;
图13为本发明军事装备数据集中轮廓、兰德系数与聚类中心点数目之间的关系示意图;
图14为本发明GTD 数据集中轮廓与兰德系数在不同聚类中心点数目下关系示意图;
图15为本发明GTD 数据集中在不同的主成分累计贡献度下轮廓与兰德系数关系示意图;
图16为本发明GTD 数据集中在不同的主成分累计贡献度下轮廓系数变化情况示意图;
图17为本发明在节点度数不同的情况下轮廓系数的比较示意图;
图18为本发明GTD 数据集采用向量迁移后轮廓与兰德系数在不同聚类中心点数目下关系示意图;
图19为本发明基于翻译模型的知识图谱消歧装置的结构示意图;
图20为本发明电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1所示,本发明提供了一种基于翻译模型的知识图谱消歧方法,包括:
步骤S101,获取第一知识图谱和第二知识图谱,所述第一知识图谱及所述第二知识图谱具有相同的第一属性节点。
在本发明中,首先基于采集到的数据构建第一知识图谱以及第二知识图谱。如图2所示,第一知识图谱KGA包括多个节点以及节点之间的关系,其中KG A = {N A , E A },N A 表示第一知识图谱KGA的节点集合,E A 表示第一知识图谱KGA的边的集合。第二知识图谱KGB包括多个节点以及节点之间的关系,其中KG B = {N B , E B },N B 表示第二知识图谱KGB的节点集合,E B 表示第二知识图谱KGB的边的集合。N Ent A表示第一知识图谱KGA中的实体节点,N Ent B表示第二知识图谱KGB中的实体节点,N Att A表示第一知识图谱KGA中的属性节点,N Att B表示第二知识图谱KGB中的属性节点,则KG A = {N A , E A } = {N Att A , N Ent A , E A },KG B = {N B , E B } = {N Att B , N Ent B , E B }。第一知识图谱KGA与第二知识图谱KGB之间存在相同的第一属性节点N Att overlap,其中N Att overlap= N A ∩ N B =N Att A ∩ N Att B,且第一知识图谱KGA与第二知识图谱KGB之间的相同节点均为属性节点。
本发明中,若第一属性节点N Att overlap = ∅,则无法得到第一知识图谱KGA与第二知识图谱KGB之间的相似性,则无法基于第一属性节点N Att overlap获得N Ent A和N Ent B中的节点是否为同类实体节点。因此本发明中N Att overlap ≠ ∅,从而可以根据第一属性节点N Att overlap找到第一知识图谱KGA与第二知识图谱KGB之间的相似性。
其中,基于第一属性节点N Att overlap将第一知识图谱KGA与第二知识图谱KGB连接合并后获得第三知识图谱KGC。第三知识图谱KGC的节点N C 中包括实体节点N Ent C以及属性节点N Att C,因此KG C = {N C ,E C } = {N Att C , N Ent C , E C },E C 表示第三知识图谱KGC的边的集合,且N A ∩ N B = N Att A ∩ N Att B = N Att overlap ∈ N Att C。
步骤S102,对所述第一知识图谱进行向量化获得第一向量化结果。
本步骤中,如图3所示,首先基于TransH 模型,对第一知识图谱KGA进行向量化操作,将第一知识图谱KGA从拓扑图结构,嵌入到低维稠密的向量空间里面,从而获得第一知识图谱KGA的第一向量化结果。
步骤S103,根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果。
本步骤中,对向量化后的第一知识图谱KGA进行向量迁移,通过解方程组的方式将第二知识图谱KGB中的实体节点N Ent B的向量结果计算出来,从而获得第二向量化结果。通过向量迁移获得第二知识图谱KGB的第二向量化结果,无需对第二知识图谱KGB直接进行向量化操作,因此可以减少算法所耗时间,提高运算效率。
步骤S104,基于所述第一向量化结果及所述第二向量化结果,采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的第二实体节点进行聚类计算。
本步骤中,在获得第二知识图谱KGB中的第二实体节点N Ent B的第二向量化结果之后,根据向量化后的 N Att overlap 集合的情况,将第一知识图谱KGA和第二知识图谱KGB的向量化结果拼接成一个统一的第三向量化结果。其中,第三向量化结果与第三知识图谱KGC的向量化结果相同。
本发明中,令 C(i) 代表第三知识图谱KGC中实体节点聚类以后的第 i 个聚类,其中第三知识图谱KGC中实体节点即为第一知识图谱KGA和第二知识图谱KGB中的全部实体节点。其中,
步骤S105,根据聚类计算结果,获得所述第一实体节点与所述第二实体节点之间的关系。
在本发明中,根据聚类结果,可知任一第一知识图谱中的第一实体节点与任一第二知识图谱中的所述第二实体节点是否相同,若相同,则证明二者为同一节点,反之为不同节点。
本发明所述基于翻译模型的知识图谱消歧方法,改善了聚类消歧效果,通过确定的聚类中心数目更好的反应数据的真实情况;通过向量迁移的方法,在保证了聚类效果的前提下减少算法所耗时间。
在一些实施例中,可以基于已知的武器种类以及武器属性信息构建第一知识图谱,即第一知识图谱中各节点为已知的武器种类及武器属性信息;根据传感器探测到的武器属性信息以及未知的武器种类构建第二知识图谱,即第二知识图谱的实体节点为未知的武器种类,除了与第一知识图谱中相同的属性节点以外的实体节点为未知目标,这样通过判断第二知识图谱的未知实体节点是否与第一知识图谱中各已知实体节点是否相同,则可知确认第二知识图谱的未知实体节点的武器种类。
在另一些实施例中,在已建立第一知识图谱中和第二知识图谱中,均存在已知目标种类的实体节点,例如“苹果”,但是不知道该“苹果”是水果中的苹果还是苹果公司的苹果,这样利用上述实施例中所述的方法进行实体消歧,若两个表示“苹果”的实体节点相同且已知第一知识图谱中的实体节点“苹果”表示苹果公司,那么即可确定第二知识图谱中的实体节点“苹果”也表示苹果公司。在本说明书的一些可选实施例中,步骤S101中所述获取第一知识图谱和第二知识图谱之后,还包括:使用字符编码距离对所述第一知识图谱和所述第二知识图谱中的节点的名称进行检查,以获得潜在同类实体节点列表。即在对第一知识图谱KGA和第二知识图谱KGB进行向量迁移之前,需先对两个知识图谱中的实体节点进行编辑距离的计算检查,根据编辑距离的检查结果,得到可能是重复节点的节点。例如有三个节点分别是A:“歼-10”,B:“歼10”,C:“飞机”,根据字符编辑距离计算公式,A变成B需要将“-”去掉,所以字符编辑距离为1。而将B变成C需要换掉两个字符变成飞机,然后再去掉第三个字符,所以字符编辑距离是3。所以根据字符编辑距离,越短的,就越有可能是同类节点。因此通过字符编码距离进行检查可以提供一个更可能是相同实体节点的列表,从而提高实体消歧的效率。
此外,还需对两个知识图谱中的属性节点进行检查,从而确定二者之间相同的属性节点,即第一属性节点N Att overlap。这是因为在获取数据集的时候,有的时候某些行可能会出现只有两个元素的情况。所以需要用程序进行数据的检查,针对异常的数据进行输出检查。
可选的,步骤S101中所述获取第一知识图谱和第二知识图谱之后,还包括:
将所述第一知识图谱及所述第二知识图谱中XML 及 JSON 格式文件转换为(head,relation,tail)形式的每行一个三元组的 txt 文本文件,其中head表示三元组中的头实体节点,tail表示三元组中的尾实体节点,relation表示头实体节点与尾实体节点之间的关系。
当数据中存在 XML 或者 JSON 格式文件时,将数据文件读入后转换成(head,relation,tail)形式的每行一个三元组的 txt 文本形式。
在一些可选的实施例中,步骤S102中所述对所述第一知识图谱进行向量化获得第一向量化结果,并根据所述第一向量化结果获得所述第二知识图谱中第二实体节点的第二向量化结果,如图4所示,包括:
步骤S201,获取所述第二知识图谱中所述第二实体节点的三元组;其中,所述第二实体节点的三元组,包括(N Ent B (i), relation, N Att overlap (1))、(N Ent B (i), relation, N Att overlap (2))、……、(N Ent B (i), relation, N Att overlap (j))。
步骤S202,基于所述第二实体节点的多个三元组确定向量化约束条件;其中,根据head+ relation= tail,可得向量化约束条件包括N Ent B (i) (k) + relation =N Att overlap (k) k = 1, 2, · · · , j。
步骤S203,根据所述向量化约束条件,确定所述第二实体节点的向量迁移公式;第二实体节点的向量迁移公式包括N Ent B (i) (k) = N Att overlap (k) − relation k = 1, 2, · · · , j。
步骤S204,对每个所述第二实体节点的三元组的向量迁移公式进行求解获得所述第二化结果。第二向量化结果包括
在本说明书的另一些可选实施例中,步骤S101中所述获取第一知识图谱和第二知识图谱之后,还包括:
步骤S301,判断所述第二实体节点中,是否存在与所述第一属性节点不具有关联关系的实体节点。其中,令 NE∗ nt代表第二实体节点中与所述第一属性节点不具有关联关系的实体节点。
若是,则跳转至步骤S302,如图6所示,基于所述第一属性节点将所述第一知识图谱与所述第二知识图谱连接合并获得第三知识图谱,将所述第三知识图谱嵌入到向量空间中获得第三向量化结果。
本发明中,其中采用三元组(head,relation,tail)形式的文本,其head、tail 和relation 都采用唯一标识符进行表示,从而保证在第一知识图谱 KG A 和第二知识图谱KG B 中具有相同唯一标识符的节点进行了合并,将第一知识图谱KG A 和第二知识图谱KG B 连接成了一个统一的知识图谱等待去重的处理。
若否,则跳转至步骤S102,对所述第一知识图谱进行向量化获得第一向量化结果,根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果。
在另一些可选的实施例中,步骤S103中所述获得第二向量化结果之后,还包括:采用主成分分析法对所述第一向量化结果、所述第二向量化结果进行主成分提取,在向量空间中提取出最有效的主成分,使得知识图谱中的实体节点能够更好的区分开来,从而可以提高聚类效果。
在另一些可选的实施例中,步骤S104中所述采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的所述第二实体节点进行聚类计算时,基于轮廓系数与兰德系数的和确定最佳聚类中心数目。
聚类算法最重要的是确定聚类中心点数目,聚类主要是将实体节点语义相近的尽可能聚到一类,不相同的尽可能的分开,所以采用了可以表达这一特征的轮廓系数指标和兰德系数,通过最大化轮廓系数与兰德系数的和来确定聚类中心点数目,即:max({SRindex i |i = 1, 2, · · · })。
由于轮廓系数存在不随聚类中心点数目的增加而收敛的情况,为了得到最优的聚类效果,采用轮廓系数与兰德系数的综合系数 SRindex 来确定最佳聚类中心点数目。其中SRindex = Sindex + Rindex,Sindex表示轮廓系数,Rindex表示兰德系数,因为Sindex 和Rindex 值的范围相同为 [−1, 1],所以综合系数采用了两者的和,来确定最佳聚类中心点数目。
其中,轮廓系数(Silhouette Coefficient)结合内聚度和分离度两种因素,用来在相同数据集上评价不同算法对聚类结果产生的影响。
根据式(1),令 C(k) 代表聚类以后获得的第 k 个聚类集合,c kj 代表第 k 个聚类中第 j 个节点,则令 a k (i) 代表第 k 个聚类中第 i 个节点的簇内相似度,即内聚度,则可以得到下式。
其中,n k 代表聚类中心点数目,那么第 k 个聚类中第 i 个节点的轮廓系数为:
聚类结果总的轮廓系数如下:
对于于集合NEntC,假设 U = {u 1 , u 2 , · · · u p } 和 V = {v 1 , v 2 , · · ·v q } 表示 N EntC 的外部评价标准 true_label和聚类结果,则满足下列等式,
其中,p表示集合U中的元素个数,q表示集合V中的元素个数,i*表示一个不同于i的取值,j*表示一个不同于j的取值。
参照下表所示,
T P 为在 U 中为同一类且在 V 中也为同一类别的数据点对数;F P 为在 U 中为同一类但在 V 中为不同类别的数据点对数;F N 为在 U 中不在同一类但在 V 中为同一类别的数据点对数;T N 为在 U 中不在同一类且在 V 中为不同类别的数据点对数。此时,兰德系数为:
兰德系数的取值范围为 [0, 1],当聚类结果完美匹配时,兰德系数为 1。
由于两个随机划分的兰德系数不接近于 0,Hubert 和 Arabie 在 1985 年提出了调整兰德系数,调整兰德系数假设模型的超分布为随机模型,即 U 和 V 的划分为随机的,那么各类别和各簇的数据点数目是固定的。
假设 nij 表示同在类别 ui 和 vj 内的数据点数目,ni为类 ui 的数据点数目,n.j 为类 vj 的数目,如下表所示。
调整的兰德系数Rindex为:
算法的伪代码如下所示:
基于翻译模型基础上引入主成分分析算法的实体消歧算法 TPK
已知: 待融合图谱 KGA 和 KGB 的三元组 SA 和 SB
求: 同类节点列表
1: 初始化 train1 = SA,train2 = SB
2: if 符合使用向量迁移条件 then
3: vec1=TransH(train1)
4: vec2=Vector_Migrate(train2)
5: vec3=vec1+vec2
6: else
7: train3 = SA + SB
8: vec3=TransH(train3)
9: end if
10: pca_result=PCA(vec3)
11: Output=K-means(pca_result)
需要说明的是,本发明的方法可以由单个设备执行,例如一台计算机或服务器等。本发明的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一些具体实施例中,根据开源军事装备图谱的内容,对数据进行预处理,随机选择 100 种武器装备得到集合 W s,然后从这 W s 中,选取 20 种武器装备为两个图谱中共同出现的武器装备类型。此外第一知识图谱KG A 和第二知识图谱KG B 中分别有40 种武器装备类型。这样第一知识图谱KG A 和第二知识图谱KG B 分别有 20 种相同的武器装备候选集合和40 个不同的武器装备候选集合Ws A 和 W s B ,可以得到以下等式。
W s = W s A ∪ W s B |W s| = 100 |W s A ∩ W s B | = 20
|W s A \ (W s A ∩ W s B )| = |W s B \ (W s A ∩ W s B )| = 40
对于第一知识图谱KG A 和第二知识图谱KG B ,根据 W s A 和 W s B ,分别随机选取1000 个实体作为N Ent A 和 N Ent B 。然后针对每一个实体,随机按照 80% 的概率来选择拥有该实体的属性项,根据每个实体节点选出来的属性节点,便可以得到相应的 N Att A 和N Att B。整个第一知识图谱KG A 和第二知识图谱KG B 构建完毕。之后采用本发明所述基于翻译模型的知识图谱消歧方法,其实验结果如图7、图8、图9所示。
使用 GTD 数据库进行实验验证的时候,本节采用了 1998 年的数据集 GT D 1998进行实验。随机打乱 30 次恐怖主义事件顺序,然后将事件数据集一分为二后进行知识图谱构建得到 KG A 和 KG B 。然后进行相应的聚类消歧实验,最终得到的结果如图10、图11、图12所示。
根据实验结果可以看出,由于 TransH 需要使用传统的约束方程构建损失函数,再使用梯度下降方法进行参数的优化,因而在时间的消耗上要远高于使用神经网络的自编码器,但准确率更高。而通过 TransH 模型或者自编码器获得的知识图谱编码结果,在评价指标兰德系数上,高于 SDNE 自编码器模型的。而通过K-means 聚类得到的结果是高于SOM 的结果。因此本发明采用的模型是:首先使用TransH 完成图谱的嵌入向量化,然后通过 PCA 来提高使用聚类算法进行聚类分群的时候的准确度,最后使用聚类算法 K-means进行聚类。
根据产生的数据集,在武器装备数据集形成的 30 个不同的图上分别进行了在不同聚类中心点数目下,轮廓系数、兰德系数与聚类中心数目的关系,结果如图13所示。图13中(a)、(b)、(c)展示的是 30 个图中部分图的结果,在聚类中心点数目从 2 变化到 150时候的情况。根据如图13的结果,可以看到当兰德系数的值是随轮廓系数进行变化的,所以使用轮廓系数来判断聚类中心点数目多少合适这种方法是可行的。
但是同样的实验,在 GTD 数据库上进行实验以后,得到的结果如图14中(a)、(b)、(c)所示。根据实验结果可以发现,当数据集结构聚集性不强的时候,轮廓系数可能存在一直在增长的情况,不存在极值点,这样无法判断合适的聚类中心点数目,针对这种情况,说明书实施例提出了新的综合指标轮廓系数与兰德系数的和 SRindex 综合指数来进行判断,可以解决上述的问题。
在主成分分析中,选取多少个主成分,是由选取的主成分贡献累计度决定的, 针对不同的主成分比例进行了实验,得到的结果如图15和图16所示,图15以及图16中(a) 中累计贡献度为 0.999,(b) 中累计贡献度为 0.99,(c) 中累计贡献度为 0.9 。由实验结果可以得到结论,主成分分析法中的累积贡献度的选取不用太高,在向量化时选择100维的时候,0.999一般只能够去掉一个主成分,即存在99 个主成分,但是在0.9 的时候,只剩下50个主成分。在不同的累计贡献度0.999,0.99,0.9 下,因为结果差别不大,所以可以选取累计贡献度 0.9 即可。
如图17所示,第一个图在聚类中心点数目变化情况下,选取不同节点度数值,(a)中节点度数大于 10,(b) 中节点度数大于 20,(c) 中节点度数大于 30,(d) 中节点度数大于 50,(e) 中节点度数大于 100 情况轮廓系数变化情况的比较。根据图17可以得到结论:当节点度数达到足够多的时候,轮廓系数才会呈现先上升后下降的趋势, 这个情况下才能使用轮廓系数来判断最佳聚类中心点数目。否则,轮廓系数呈现 上升特点时,是无法使用轮廓系数来判断最佳聚类中心点数目的。
在采用向量迁移后,使用 GTD 数据集中1998 年的数据进行计算,得到的轮廓系数与兰德系数的结果如图18所示。其中数据集在前面实验中都有使用过,同样是挑选了30组实验中的其中三组结果进行的展示。由实验结果可以得出结论,在满足使用向量迁移的条件下,采用向量迁移后得到的关于兰德系轮廓系 数与聚类中心点数目之间的变化规律与不使用向量迁移相同。可以使用同样的方 法来确定最佳聚类中心点数目。是否使用向量迁移得到的结果对比数据见下表,其中每一行代表 30 组实验中其中一组实验结果。
本发明分析基于无监督条件下进行多源知识图谱融合的现状后,提出了一种基于翻译模型、主成分分析与聚类算法融合的聚类消歧算法 TPK(TransH + PCA+ K-means)。TPK 算法首先使用 TransH 模型对知识图谱进行向量化,然后引入PCA 算法对向量化结果进行主成分提取,最后使用 K-means 算法进行聚类。TPK 算法主要解决单纯使用翻译模型对知识图谱进行向量化后直接进行聚类效果不理想的问题,通过在进行知识图谱向量化嵌入后引入 PCA 算法来进行主成分提取 提高了聚类效果;其次,针对聚类算法,提出使用轮廓系数的变化趋势来确定合理的聚类中心点数目。因此,采用本发明所述基于知识图谱的实体消歧方法进行知识图谱进行聚类消歧,较其他算法能够获得更好的聚类消歧效果。
基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种基于翻译模型的知识图谱消歧装置,如图19所示,包括:
获取模块11,被配置为获取第一知识图谱和第二知识图谱,所述第一知识图谱及所述第二知识图谱具有相同的第一属性节点。
向量化模块12,被配置为对所述第一知识图谱进行向量化获得第一向量化结果。
向量迁移模块13,被配置为根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果。
聚类模块14,被配置为基于所述第一向量化结果及所述第二向量化结果,采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的所述第二实体节点进行聚类计算。
结果获得模块15,被配置为根据聚类计算结果,获得所述第一实体节点与所述第二实体节点之间的关系。
可选的,所述获取第一知识图谱和第二知识图谱之后,还包括:使用字符编码距离对所述第一知识图谱和所述第二知识图谱中的节点的名称进行检查,以获得潜在同类实体节点列表。
可选的,所述获取第一知识图谱和第二知识图谱之后,还包括:将所述第一知识图谱及所述第二知识图谱中XML 及 JSON 格式文件转换为(head,relation,tail)形式的每行一个三元组的 txt 文本文件,其中head表示三元组中的头实体节点,tail表示三元组中的尾实体节点,relation表示头实体节点与尾实体节点之间的关系。
可选的,还包括:获取所述第二知识图谱中所述第二实体节点的三元组;基于所述第二实体节点的多个三元组确定向量化约束条件; 根据所述向量化约束条件,确定所述第二实体节点的向量迁移公式;对每个所述第二实体节点的三元组的向量迁移公式进行求解获得所述第二向量化结果。
可选的,所述第二实体节点的三元组,包括(N Ent B (i), relation, N Att overlap (1))、(N Ent B (i), relation, N Att overlap (2))、……、(N Ent B (i), relation, N Att overlap (j));所述向量化约束条件包括N Ent B (i) (k) + relation = N Att overlap (k) k = 1, 2, · · · , j;所述第二实体节点的向量迁移公式包括N Ent B (i) (k) =N Att overlap (k) − relation k = 1, 2, · · · , j;所述第二向量化结果包括;其中,N Ent B (i) 表示第i个第二实体节点,N Att overlap表示第一属性节点的集合,j表示第j个属性节点,NC表示第一知识图谱和第二知识图谱连接后的节点的集合。
可选的,所述获取第一知识图谱和第二知识图谱之后,还包括:判断所述第二实体节点中,是否存在与所述第一属性节点不具有关联关系的实体节点;
若是,则基于所述第一属性节点将所述第一知识图谱与所述第二知识图谱连接合并获得第三知识图谱,将所述第三知识图谱嵌入到向量空间中获得第三向量化结果;
若否,则对所述第一知识图谱进行向量化获得第一向量化结果,根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果。
可选的,所述获得第二向量化结果之后,还包括:采用主成分分析法对所述第一向量化结果、所述第二向量化结果进行主成分提取。
可选的,所述采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的所述第二实体节点进行聚类计算时,基于轮廓系数与兰德系数的和确定最佳聚类中心数目。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于翻译模型的知识图谱消歧方法。
图20示出了本发明所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本发明所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (7)
1.一种基于翻译模型的知识图谱消歧方法,其特征在于,包括:
获取第一知识图谱和第二知识图谱,所述第一知识图谱及所述第二知识图谱具有相同的第一属性节点;
对所述第一知识图谱进行向量化获得第一向量化结果;
根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果;
基于所述第一向量化结果及所述第二向量化结果,采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的第二实体节点进行聚类计算;
根据聚类计算结果,获得所述第一实体节点与所述第二实体节点之间的关系;
所述获取第一知识图谱和第二知识图谱之后,还包括:将所述第一知识图谱及所述第二知识图谱中XML 及 JSON 格式文件转换为(head,relation,tail)形式的每行一个三元组的 txt 文本文件,其中head表示三元组中的头实体节点,tail表示三元组中的尾实体节点,relation表示头实体节点与尾实体节点之间的关系;
还包括:获取所述第二知识图谱中所述第二实体节点的三元组;基于所述第二实体节点的多个三元组确定向量化约束条件;根据所述向量化约束条件,确定所述第二实体节点的向量迁移公式;对每个所述第二实体节点的三元组的向量迁移公式进行求解获得所述第二向量化结果;
所述第二实体节点的三元组,包括(N Ent B (i), relation, N Att overlap (1))、(N Ent B (i), relation, N Att overlap (2))、……、(N Ent B (i), relation, N Att overlap (j));
所述向量化约束条件包括N Ent B (i)(k) + relation = N Att overlap (k),k = 1, 2, · · · , j;
所述第二实体节点的向量迁移公式包括N Ent B (i)(k) = N Att overlap (k) –relation,k = 1, 2, · · · , j;
其中,N Ent B (i) 表示第i个第二实体节点,N Att overlap表示第一属性节点的集合,j表示第j个属性节点,NC表示第一知识图谱和第二知识图谱连接后的节点的集合。
2.根据权利要求1所述的方法,其特征在于,所述获取第一知识图谱和第二知识图谱之后,还包括:
使用字符编码距离对所述第一知识图谱和所述第二知识图谱中的节点的名称进行检查,以获得潜在同类实体节点列表。
3.根据权利要求1所述的方法,其特征在于,所述获取第一知识图谱和第二知识图谱之后,还包括:
判断所述第二实体节点中,是否存在与所述第一属性节点不具有关联关系的实体节点;
若是,则基于所述第一属性节点将所述第一知识图谱与所述第二知识图谱连接合并获得第三知识图谱,将所述第三知识图谱嵌入到向量空间中获得第三向量化结果;
若否,则对所述第一知识图谱进行向量化获得第一向量化结果,根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果。
4.根据权利要求1所述的方法,其特征在于,所述获得第二向量化结果之后,还包括:采用主成分分析法对所述第一向量化结果、所述第二向量化结果进行主成分提取。
5.根据权利要求1所述的方法,其特征在于,所述采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的所述第二实体节点进行聚类计算时,基于轮廓系数与兰德系数的和确定最佳聚类中心数目。
6.一种基于翻译模型的知识图谱消歧装置,其特征在于,包括:
获取模块,被配置为获取第一知识图谱和第二知识图谱,所述第一知识图谱及所述第二知识图谱具有相同的第一属性节点;
向量化模块,被配置为对所述第一知识图谱进行向量化获得第一向量化结果;
向量迁移模块,被配置为根据所述第一向量化结果及所述第一属性节点进行向量迁移,获得所述第二知识图谱的第二向量化结果;
聚类模块,被配置为基于所述第一向量化结果及所述第二向量化结果,采用聚类算法对所述第一知识图谱中的第一实体节点以及所述第二知识图谱中的第二实体节点进行聚类计算;
结果获得模块,被配置为根据聚类计算结果,获得所述第一实体节点与所述第二实体节点之间的关系;
所述获取第一知识图谱和第二知识图谱之后,还包括:将所述第一知识图谱及所述第二知识图谱中XML 及 JSON 格式文件转换为(head,relation,tail)形式的每行一个三元组的 txt 文本文件,其中head表示三元组中的头实体节点,tail表示三元组中的尾实体节点,relation表示头实体节点与尾实体节点之间的关系;
还包括:获取所述第二知识图谱中所述第二实体节点的三元组基于所述第二实体节点的多个三元组确定向量化约束条件;根据所述向量化约束条件,确定所述第二实体节点的向量迁移公式;对每个所述第二实体节点的三元组的向量迁移公式进行求解获得所述第二向量化结果;
所述第二实体节点的三元组,包括(N Ent B (i), relation, N Att overlap (1))、(N Ent B (i), relation, N Att overlap (2))、……、(N Ent B (i), relation, N Att overlap (j));
所述向量化约束条件包括N Ent B (i)(k)+relation=N Att overlap (k),k = 1, 2, · ·· , j;
所述第二实体节点的向量迁移公式包括N Ent B (i)(k) =N Att overlap (k)–relation,k = 1, 2, · · · , j;
其中,N Ent B (i) 表示第i个第二实体节点,N Att overlap表示第一属性节点的集合,j表示第j个属性节点,NC表示第一知识图谱和第二知识图谱连接后的节点的集合。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任意一项所述的基于翻译模型的知识图谱消歧方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110078520.4A CN112395433B (zh) | 2021-01-21 | 2021-01-21 | 基于翻译模型的知识图谱消歧方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110078520.4A CN112395433B (zh) | 2021-01-21 | 2021-01-21 | 基于翻译模型的知识图谱消歧方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395433A CN112395433A (zh) | 2021-02-23 |
CN112395433B true CN112395433B (zh) | 2021-04-13 |
Family
ID=74625561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110078520.4A Active CN112395433B (zh) | 2021-01-21 | 2021-01-21 | 基于翻译模型的知识图谱消歧方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395433B (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10803135B2 (en) * | 2018-09-11 | 2020-10-13 | Apple Inc. | Techniques for disambiguating clustered occurrence identifiers |
CN109255033B (zh) * | 2018-11-05 | 2021-10-08 | 桂林电子科技大学 | 一种基于位置服务领域的知识图谱的推荐方法 |
CN111782817B (zh) * | 2020-05-30 | 2022-06-14 | 国网福建省电力有限公司信息通信分公司 | 一种面向信息系统的知识图谱构建方法、装置及电子设备 |
-
2021
- 2021-01-21 CN CN202110078520.4A patent/CN112395433B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112395433A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Der Maaten | Barnes-hut-sne | |
JP2018533153A (ja) | 機械学習に基づくネットワークモデル構築方法及び装置 | |
US9563822B2 (en) | Learning apparatus, density measuring apparatus, learning method, computer program product, and density measuring system | |
US10191966B2 (en) | Enabling advanced analytics with large data sets | |
CN109697451B (zh) | 相似图像聚类方法及装置、存储介质、电子设备 | |
CN113313053B (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
US9858479B2 (en) | Global-scale damage detection using satellite imagery | |
CN112800231B (zh) | 电力数据校验方法、装置、计算机设备和存储介质 | |
CN112529068B (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
US10671831B2 (en) | High speed reference point independent database filtering for fingerprint identification | |
JP2015203946A (ja) | ヒストグラムの重心を計算する方法 | |
CN110598061A (zh) | 一种多元图融合的异构信息网嵌入方法 | |
WO2015001416A1 (en) | Multi-dimensional data clustering | |
CN108805280B (zh) | 一种图像检索的方法和装置 | |
CN112766421A (zh) | 基于结构感知的人脸聚类方法和装置 | |
CN114547365A (zh) | 一种图像检索方法和设备 | |
CN114722794A (zh) | 数据提取方法和数据提取装置 | |
CN112395433B (zh) | 基于翻译模型的知识图谱消歧方法及相关设备 | |
CN116310462B (zh) | 一种基于秩约束自表示的图像聚类方法及装置 | |
CN111709473A (zh) | 对象特征的聚类方法及装置 | |
CN113160987B (zh) | 健康状态预测方法、装置、计算机设备及存储介质 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN112149566A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN116415624A (zh) | 模型训练方法及装置、内容推荐方法及装置 | |
CN107995181B (zh) | 一种基于步态的身份验证方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |