CN109389151B - 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 - Google Patents

一种基于半监督嵌入表示模型的知识图谱处理方法和装置 Download PDF

Info

Publication number
CN109389151B
CN109389151B CN201810999830.8A CN201810999830A CN109389151B CN 109389151 B CN109389151 B CN 109389151B CN 201810999830 A CN201810999830 A CN 201810999830A CN 109389151 B CN109389151 B CN 109389151B
Authority
CN
China
Prior art keywords
graph
entity
knowledge
order proximity
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810999830.8A
Other languages
English (en)
Other versions
CN109389151A (zh
Inventor
朱佳
赵美华
郑泽涛
伦家琪
黄昌勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN201810999830.8A priority Critical patent/CN109389151B/zh
Publication of CN109389151A publication Critical patent/CN109389151A/zh
Application granted granted Critical
Publication of CN109389151B publication Critical patent/CN109389151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于半监督嵌入表示模型的知识图谱处理方法和装置,所述方法包括计算知识图谱的一阶邻近度和二阶邻近度,计算一阶邻近度的监督损失和二阶邻近度的监督损失,建立一阶邻近度的监督损失和二阶邻近度的监督损失的线性组合,在所述线性组合最小化的条件下对知识图谱进行优化等步骤。通过计算知识图谱中任两个顶点之间的一阶邻近度,以及根据知识图谱中任两个顶点的邻域结构计算二阶邻近度,同时考虑一阶邻近度和二阶邻近度而对知识图谱进行联合优化,从而保留知识图谱的局部和全局结构信息,克服了现有技术中知识图谱因对每个顶点的特征的依赖以及各顶点之间关系信息的缺乏所带来的缺陷。本发明广泛应用于图像识别领域。

Description

一种基于半监督嵌入表示模型的知识图谱处理方法和装置
技术领域
本发明涉及信息处理技术领域,尤其是一种基于半监督嵌入表示模型的知识图谱处理方法和装置。
背景技术
知识图谱(KnowledgeGraph,知识图谱)不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好地组织、管理、利用和融合跨信息源的海量信息的方式。目前知识图谱技术主要被用于支撑自动问答、智能语义搜索和推荐系统等高级应用。典型的知识图谱以符号形式描述物理世界中的实体及其关系,其基本组成单元通常用表示成三元组(头实体,关系,尾实体),即(h,r,t)。实体间通过关系相互联结,构成网状的知识结构。
近年来,尤其以机器学习为代表的知识图谱嵌入表示技术异军突起,取得了重大进展,已被证明可以进一步改善基于知识图谱的应用的性能。它旨在将图谱的语义信息表示为稠密低维实值向量,用来捕获和保留图谱结构,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。
然而,现有的大多数知识图谱嵌入表示方法严重依赖于图中每个顶点的特征,没有考虑两个顶点之间的关系信息,这是知识图谱的典型特征。因此,最近提出的一些知识图谱嵌入表示的方法在处理几乎没有三元组事例的实体时仍然捉襟见肘。究其根本是这些方法的主要问题是它们实际上关注头部和尾部的结构信息,这意味着它们只考虑局部结构而不考虑全局结构。但是,好的实体嵌入表示应需共同考虑局部和全局结构的信息。也就是说,以往这些方法并不完全适用于知识图谱嵌入表示,因此该方向仍然面临着极大的挑战。
图1是电影《SleeplessinSeattle》的一些资料所构成的知识图谱。图1中,实体“TomHanks”在电影《SleeplessinSeattle》中扮演的角色,实体“MegRyan”实际上也是这部电影中的演员,但是,按照现有的知识图谱技术很难预测“MegRyan”和《SleeplessinSeattle》之间是否存在联系,因为现有知识图谱嵌入表示方法无法充分利用此知识图谱中“TomHanks”的全局结构信息,因为他们只考虑“TomHanks”的邻域实体。根据图1这个示例,可以得出结论,现有的知识图谱技术中,由于仅使用邻域实体的信息来学习知识图谱的嵌入表示,其性能受到限制,尤其是在应对链路预测等特定任务时缺点更加明显。
发明内容
为了解决上述技术问题,本发明的目在于提供一种基于半监督嵌入表示模型的知识图谱处理方法和装置。
本发明所采取的第一技术方案是:
一种基于半监督嵌入表示模型的知识图谱处理方法,所述知识图谱包括多个顶点以及其中至少部分顶点之间形成的边,包括以下步骤:
计算知识图谱的一阶邻近度;
计算知识图谱的二阶邻近度;
计算一阶邻近度的监督损失;
计算二阶邻近度的监督损失;所述一阶邻近度的监督损失和二阶邻近度的监督损失之间存在一交易因子;
以所述交易因子为参数,建立一阶邻近度的监督损失和二阶邻近度的监督损失的线性组合;
在所述线性组合最小化的条件下对知识图谱进行优化。
进一步地,所述线性组合具体为Loverall=Lfirst+λLsecond,其中Lfirst为一阶邻近度的监督损失,Lsecond为二阶邻近度的监督损失,λ为一阶邻近度的监督损失和二阶邻近度的监督损失之间的交易因子。
进一步地,所述计算知识图谱的一阶邻近度这一步骤,具体包括:
计算与知识图谱上各顶点对应的实体向量组;
计算实体向量组中各实体向量对应的邻域实体,从而得到邻域实体集合;
计算实体向量组与邻域实体集合中具有对应关系的各实体向量与邻域实体之间的欧几里得度量,从而得到知识图谱上各对应顶点之间的紧密度得分;
计算所有紧密度得分之间的平均值,将大于平均值的紧密度得分所对应的邻域实体作为邻域实体集合的局部结构特征;
计算邻域实体集合的全体结构特征;
连接所述局部结构特征和全体结构特征,从而得到一阶邻近度。
进一步地,所述计算与知识图谱上各顶点对应的实体向量组这一步骤,是通过Deepwalk算法进行的。
进一步地,所述计算知识图谱的二阶邻近度这一步骤,具体包括:
将知识图谱重构为无向二分图;
计算与知识图谱上各顶点对应的实体向量组;
为知识图谱分配关系顶点,并计算关系顶点的独热向量;
将实体向量组和独热向量输入到图卷积神经网络中,从而输出二阶邻近度。
进一步地,所述图卷积神经网络包括多个网络层,所述各网络层对应的非线性函数为H(l+1)=f(H(l),M),所述图卷积神经网络的传播规则为f(H(l),M)=ReLU(MH(l)W(l)),其中,H(l)为第l个网络层的输出值,M为知识图谱的邻接矩阵,ReLU为激活函数,W(l)为第l个网络层的权重函数。
进一步地,所述传播规则中,与M有关的乘法包括对邻域实体的特征求和,不包括对知识图谱上各顶点本身的特征求和;所述传播规则具体为
Figure BDA0001782694930000031
其中,
Figure BDA0001782694930000032
I为单位矩阵,D为
Figure BDA0001782694930000033
的对角顶点度矩阵。
进一步地,所述一阶邻近度的监督损失,其计算公式为:
Figure BDA0001782694930000034
式中Lfirst为一阶邻近度的监督损失,(vi,vj)为知识图谱上的两个顶点,yi为与vi对应的实体向量,yj为与vj对应的实体向量,
Figure BDA0001782694930000035
进一步地,所述二阶邻近度的监督损失,其计算公式为:
Figure BDA0001782694930000036
式中Lsecond为二阶邻近度的监督损失,L为网络层的总层数。
本发明所采取的第二技术方案是:
一种基于半监督嵌入表示模型的知识图谱处理装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行第一技术方案所述方法。
本发明的有益效果是:通过计算知识图谱中任两个顶点之间的一阶邻近度,以及根据知识图谱中任两个顶点的邻域结构计算二阶邻近度,同时考虑一阶邻近度和二阶邻近度而对知识图谱进行联合优化,从而保留知识图谱的局部和全局结构信息,克服了现有技术中知识图谱因对每个顶点的特征的依赖以及各顶点之间关系信息的缺乏所带来的缺陷。
附图说明
图1为电影《SleeplessinSeattle》的一些资料所构成的知识图谱结构图;
图2为本发明方法流程图;
图3为实施例1所用图卷积神经网络的原理图;
图4为本发明方法用于实体分类的性能表现示意图;
图5为本发明方法用于链路预测的性能表现示意图。
具体实施方式
实施例1
在图论角度,知识图谱本质是一个图,可以表达为G=(V,E),其中V代表图中的顶点集合,且V=v1,...,vn,E表示图中的边集合,E=e1,....,en。对于知识图谱,每个顶点v表示一个实体,每条边e表示两个实体之间的关系。
本发明中所述一阶邻近度和二阶邻近度的几何意义如下:
一阶邻近度:一级邻近度描述了一对实体之间的相似性。对于任何一对实体,如果在vi和vj之间存在边,这意味着在vi和vj之间存在关系,则在vi和vj之间一阶邻近度为正的。否则,vi和vj之间的一阶邻近度为0。
根据上述定义,可以很容易知道,计算一阶邻近度的关键是计算一对实体之间的相似度。与其他类型的图不同的是,由于知识图谱中的每个顶点都附加了一个实体描述,因此需要设计一个特定的方法来执行计算。
另外,还定义了二阶邻近度,它可以被用来特定地表征知识图谱的全局结构,如定义2所示。
二阶邻近度:二阶邻近度描述了一对实体的邻域实体集合之间的相似性。设Ni和Nj分别表示vi和vj的邻域顶点集合,然后二阶邻近度由Ni和Nj的相似性确定。
从上述定义,知道如果一对实体共享许多共同邻域实体,则一对实体之间的二阶邻近度很高。即使一对实体没有被边连接,但二阶邻近度已被证明是一个很好的度量被用来定义这对顶点的相似性,因此它可以高度丰富顶点之间的关系。
参照图2,本发明处理方法包括以下步骤:
计算知识图谱的一阶邻近度;
计算知识图谱的二阶邻近度;
计算一阶邻近度的监督损失;
计算二阶邻近度的监督损失;所述一阶邻近度的监督损失和二阶邻近度的监督损失之间存在一交易因子;
以所述交易因子为参数,建立一阶邻近度的监督损失和二阶邻近度的监督损失的线性组合;
在所述线性组合最小化的条件下对知识图谱进行优化。
所得的线性组合为Loverall=Lfirst+λLsecond,其中Lfirst为一阶邻近度的监督损失,Lsecond为二阶邻近度的监督损失,λ为一阶邻近度的监督损失和二阶邻近度的监督损失之间的交易因子。通过求解Loverall最小化时的条件来对知识图谱进行调整,从而实现知识图谱的优化。由于实际上Loverall是根据知识图谱的一阶邻近度和二阶邻近度计算出来的,因此知识图谱的优化过程考虑了知识图谱局部和全局结构的信息,克服了现有知识图谱的缺陷。
进一步作为优选的实施方式,所述计算知识图谱的一阶邻近度这一步骤,具体包括:
计算与知识图谱上各顶点对应的实体向量组;
计算实体向量组中各实体向量对应的邻域实体,从而得到邻域实体集合;
计算实体向量组与邻域实体集合中具有对应关系的各实体向量与邻域实体之间的欧几里得度量,从而得到知识图谱上各对应顶点之间的紧密度得分;
计算所有紧密度得分之间的平均值,将大于平均值的紧密度得分所对应的邻域实体作为邻域实体集合的局部结构特征;
计算邻域实体集合的全体结构特征;
连接所述局部结构特征和全体结构特征,从而得到一阶邻近度。
以一个由文本信息构成的知识图谱为例,对一阶邻近度的计算进行说明。
知识图谱中的每个实体都附有文本描述,因此,为了计算一对实体之间的相似性,不仅需要考虑局部结构,还需要考虑一对实体之间文本描述的字符串的相似性。
显然,为了正确获取某实体的局部结构信息,需要知道它的哪些邻域实体是重要的或与它类似的。由于DeepWalk已经在社交网络和图分析中得到了成功验证,因此可以使用基于DeepWalk算法生成的实体向量方法,从每个实体的邻域实体中选择重要的实体。DeepWalk采用短随机游走流学习实体的向量表示,并对其编码映射到低维的连续向量空间中。
设G=(V,E)为一个图,v∈V表示实体。H是v的邻域实体的集合,hi∈H,n是v的邻域实体的数量。基于DeepWalk生成的v的向量,计算v和hi之间的欧几里德度量,得到两个顶点的紧密度得分
Figure BDA0001782694930000062
最后,将具有紧密度得分高于全部邻域顶点的平均紧密度得分的邻域实体保持为表示实体v的局部结构的特征One
关于文本描述信息,可以从原始文本中删除所有停用词,并采用经典TF-IDF的词袋(BOW)模型来选择前n个关键词作为每个实体的特征Ot。然后,将Ot和One连接在一起,以获得每个实体顶点的特征Oe=One∪Ot。使用Oe来表示一阶邻近度并且在向量空间中重新表示一对顶点的相似性。此外,One可以为二阶邻近度计算提供监督信息,因为可以将每个实体中的一个视为实体的标签。
本实施例这种计算一阶邻近度的方法,具备以下优点:采用基于DeepWalk邻域实体选择算法,以选择具有高紧密度特征分数的邻域实体。选择好邻域实体后,基于头实体和尾实体的向量,将这些邻域实体与文本描述相结合以获得局部结构和描述信息。此外,由于邻域实体可以充当该实体的标签,邻域实体选择算法的结果可以提供计算二阶邻近度的监督信息。
进一步作为优选的实施方式,所述计算知识图谱的二阶邻近度这一步骤,具体包括:
将知识图谱重构为无向二分图;
计算与知识图谱上各顶点对应的实体向量组;
为知识图谱分配关系顶点,并计算关系顶点的独热向量;
将实体向量组和独热向量输入到图卷积神经网络中,从而输出二阶邻近度。
二阶邻近度是指一对顶点的邻域结构有多相似。因此,为了模拟二阶邻近度,需要对每个顶点的邻域建模。给定图G=(V,E),可以得到它的邻接矩阵M,它包含n个实例m1,...,mn。对于每个实例
Figure BDA0001782694930000061
当且仅当vi和vj之间存在链接时,mi,j>0。mi描述了顶点vi的邻域结构,M提供了每个顶点的邻域结构的信息。本发明中,可以使用基于图卷积神经网络的自动编码器计算G的二阶邻近度。
图卷积神经网络可以利用隐藏变量,并且能够学习图的解释性的隐藏表示。但是,现有的图卷积神经网络模型仅适用于无向图,不适用于知识图谱。因此,在的图卷积神经网络模型中,将知识图谱设置为无向二分图,其中附加节点表示原图中的关系。换句话说,即重构原知识图谱的结构。
例如,假设三元组(e1,r,e2),为这个三元组分配单独的关系顶点r1和r2为(e1,r1)和(e2,r2),每个实体顶点由稀疏特征向量表示,每个关系顶点由唯一的独热(one-hot)表示。将每个实体和关系的文本描述信息的所有单词都放入表T中。T中的每个单词都有一个数字i∈1,...,|T|,然后每个单词表示成一个|T|长度的独热向量,这个向量的第i个元素是1,其他是0。定义每个关系顶点的描述文本表示是它的描述文本加上直接连接实体的描述文本。如果以图1中的<“TomHanks”,“Actedin”,“SleeplessinSeattle”>为例,那么关系顶点r1的描述文本表示是“TomHanksActedin”,关系顶点r2的描述文本表示是“ActedinSleeplessinSeattle”。由于每个实体名称在知识图谱中都是唯一的,可以很容易从T中获得每个关系顶点对应的唯一独热表示。
对于这个重构的图,使用每个实体顶点的特征向量表示,以及每个关系顶点的唯一独热表示作为图卷积神经网络的输入。关系顶点可以表示在两个实体顶点之间具有相同关系信息的邻域的数量。在l卷积层编码之后,可以得到从图中学习包括实体顶点和关系顶点的信息的嵌入表示。
本实施例中所用的预处理架构,即图卷积神经网络的原理如图3所示。图中空心的圆形表示实体顶点,实心的圆形表示关系顶点,内部标有交叉线的圆形表示特定范围内具有最高等级的顶点,且这些特定范围内具有最高等级的顶点用作质心来构造邻域图。首先将实体顶点特征读取为通道,然后使用Weisfeiler-Lehman算法构造一组邻域图来对每个实体顶点进行排名。归一化后,可以得到每个邻域图的接受域列表作为卷积网络的输入。
整个图卷积神经网络可以使用以下方法来建模。
给定一个图G=(V,E),包含N=|V|顶点。有一个G的邻接矩阵M和一个N×D矩阵X作为输入。利用随机隐藏变量zi,可以得出一个N×F输出矩阵Z,其中F是输出特征的数量。
在这个定义中,D是每个顶点的特征数。由于特征是基于所选择的邻域顶点和每个实体顶点的文本描述,并且每个关系顶点只有一个唯一的单一表示,因此每个顶点的特征数量是不同的。对所有顶点的特征执行并集操作,然后将此并集中的元素数设置为D的值。构造X时,如果顶点没有特征,对于这些特征则为零值,以完成矩阵构造。然后可以将每个网络层写为非线性函数:
H(l+1)=f(H(l),M) (1)
其中H(0)=X且H(L)=Z,L是层数。然后设置以下传播规则:
f(H(l),M)=ReLU(MH(l)W(l)) (2)
其中W(l)是第l个网络层的权重矩阵,ReLU是激活函数。注意,与M的乘法仅对所有邻域顶点的所有特征求和,而不是顶点本身。因此,需要向M添加单位矩阵l.然后,等式(2)变为:
Figure BDA0001782694930000081
其中
Figure BDA0001782694930000082
D是
Figure BDA0001782694930000083
的对角顶点度矩阵。例如,如果设置L=3,则意味着网络有三个卷积层来重构M的结构以获得Z.如果想要保留当前层上前一层的一半接收域,在三个卷积层之后,可以很容易得到
Figure BDA0001782694930000084
本实施例这种计算二阶邻近度的方法,具备以下优点:基于图卷积神经网络的自动编码器,可以根据两个实体顶点的邻域结构对全局图谱结构进行编码。与其他只能处理无向图的类似方法不同,本实施例方法也可以使用结构重构过程处理有向图,比如知识图谱。另外,由于本实施例方法可以从一阶邻近度的计算过程中获得监督信息,因此自动编码器可以更正确有效地学习知识图谱全局结构的隐藏表示。
本发明的目标之一是需要保留知识图谱的局部和全局结构,即需要同时优化一阶和二阶邻近度。
可以采用图的Laplacianregularizationtermlossfunction来进行联合优化:
Loverall=Lfirst+λLsecond (4)
其中Lfirst表示一阶邻近度的监督损失,这是图的标记部分。Lsecond表示二阶邻近度的无监督损失,较小的Lsecond是基于图卷积神经网络从图的全局结构中学习到更好的解释性的隐藏表示。λ是Lfirst和Lsecond之间的交易因子。
对于损失函数Lfirst,只是根据LaplacianEigenmaps[1]的思想来定义它,当相似的顶点向量被映射到向量空间中距离很远时会产生惩罚:
Figure BDA0001782694930000085
式中Lfirst为一阶邻近度的监督损失,(vi,vj)为知识图谱上的两个顶点,yi为与vi对应的实体向量,yj为与vj对应的实体向量,
Figure BDA0001782694930000091
对于Lsecond,可以将其定义为:
Figure BDA0001782694930000092
式中Lsecond为二阶邻近度的监督损失,L为网络层的总层数。
其中H(0)=N×D,并且如果想要在每层之后仅保留一半特征,则
Figure BDA0001782694930000093
显然,H(0)和H(l)的维数是不同的,因此,通过使用0元素进行填充来将较小矩阵H(l)的大小增加到和H(0)的大小相同,确保可以在两个矩阵之间执行的减法。
的目标是将Loverall最小化,θ是整体参数。根据等式(3),等式(5)和等式(6),知道关键步骤是计算偏导数
Figure BDA0001782694930000094
对于
Figure BDA0001782694930000095
可以写成如下:
Figure BDA0001782694930000096
其中Y=σ(Yl-1)W(l)+b(l),Yl-1是第(l-1)层隐藏表示,σ是S形非线性激活函数,bl是l层偏置。对于等式(7)的第一项,有:
Figure BDA0001782694930000097
其中Loss是模型重构误差的损失函数。类似地,有
Figure BDA0001782694930000098
其中X是输入数据,
Figure BDA0001782694930000099
是重构的数据。对于第一项
Figure BDA00017826949300000910
有:
Figure BDA00017826949300000911
其中B是
Figure BDA00017826949300000912
的矩阵的数学形式。如果si,j=0,则bi,j=1,否则bi,j>β,β>1.在的模型中,β是在联合优化的参数之一。因为Loverall可以简单地看作
Figure BDA0001782694930000101
为了找到一个好的参数空间区域,可以使用
Figure BDA0001782694930000102
通过反向网络传播以获得更新的参数θ直到收敛。
对于超参数优化,将所有层的损失率,每层的L2正则化因子和隐藏单元的数量都设置为0.2。最后,使用Adamoptimizer[10]训练模型并在尝试许多不同的设置后尽快停止,最多是100个训练次数,学习率设为0.01,窗口大小设为10。
实施例2
本实施例中,使用实施例1所述方法来实现知识图谱的一个典型应用——实体分类,应用的对象为FB15K和WIN18这两个流行语料库。首先对这两个流行语料库进行预处理,从中剔除掉所有没有关联三元组描述的实体。经过预处理后的语料库的参数如表1所示。
表1
语料库 #Rel #Ent #Train #Valid #Test
FB15K 1336 14885 472860 50000 57800
WIN18 18 40100 140975 5000 5000
为了形成对比,本实施例中选择了目前几种最先进的方法进行比较:包括TransE、TransD、DKRL(CNN)、Jointly(LSTM)和Jointly(ALSTM)。所有模型进行训练使用的参数都是获得最佳性能时使用的参数设置。
实体分类的任务是旨在预测实体类型的多标签分类任务。几乎每个实体都有一个知识图谱类型。本实施例中,根据实体类型频率高低从FB15K和WIN18中选择前50种分类类型。前50种类型分别覆盖FB15K的13,306个实体和WIN18的38158个实体。然后,使用10字交叉验证来进行评估。
由于它是一个多标签分类任务,使用Softmax函数作为分类器,并使用平均精度均值(MAP)作为评估指标。从表2中可以观察到在两个数据集上,实施例1方法的效果优于所有其他方法。实施例1方法实现了比第二最佳模型Jointly(A-LSTM)高约5%的MAP值,并且比TransE至少高25%。结果表明,实施例1方法生成的特征更能捕获实体信息,并具有更好的鲁棒性。原因在于,为了更好地理解实体,图卷积神经网络在描述KGs时编码了结构信息和文本描述信息。一些模型也利用这两种信息,但仅仅考虑局部结构信息,或者不能对描述文本信息进行编码嵌入表示,比如TransE就只关注局部结构信息。
表2
算法 FB15K WIN18
TransE 61.5 70
TransD 68.2 75.6
DKRL(CNN) 73.5 80.1
Jointly(LSTM) 75 83
Jointly(A-LSTM) 76.8 84.5
本发明方法 80.4 88.8
实施例3
本实施例中,使用实施例1所述方法来实现知识图谱的另一个典型应用——链路预测,应用的对象仍然是FB15K和WIN18这两个流行语料库,并且同实施例2一样对这两个流行语料库进行预处理,预处理后这两个流行语料库的参数如表1所示。
链接预测是完善知识图谱的三元组(h,r,t)的典型任务,其中h或t缺失,即给定(h,r)预测t。此任务更多地强调从知识图谱中对一组候选实体进行排名。本实施例使用两个度量作为评估指标,即MeanRank和Hits@10,其中MeanRank为正确的实体或关系排序数的平均,Hits@10为在预测中排名前p个的有效实体或关系的比例。在本实施例中,为实体设置p=10,为关系设置p=1。一个好的嵌入表示模型应该达到较低的MeanRank和较高的Hits@10,评估结果报告在表3中。
从结果中,观察到对于链路预测任务,实施例1方法比现有方法在所有度量标准上都要好。例如,在FB15K上,实施例1方法实现的Hits@10值比TransE高出至少60%。这个实验也表明实施例1方法在MeanRank和Hits@10上实现了实质性的改进,因为实施例1方法,特别是二阶邻近计算的设计,非常适合KGs嵌入表示。在WIN18上,Jointly(LSTM)比联合(A-LSTM)表现更好,因为该数据集中的关系数量相对较少。因此,Jointly(A-LSTM)的注意机制没有明显的优势。
表3
Figure BDA0001782694930000111
Figure BDA0001782694930000121
实施例4
在知识图谱的实际应用中,知识图谱所要处理的数据通常是缺少标记的,这为知识图谱的应用带来的困难,而本发明所要解决的技术问题之一便是利用半监督学习方法使得知识图谱可以处理缺少标记的数据。本实施例中,使用具有不同百分比的标记数据来对知识图谱进行训练,这意味着只将特征分配给特定百分比的顶点,以生成实体分类和链接预测任务的监督信息,以评估通过本发明方法在这种环境下的性能,测试结果分别如图4和图5所示。图4为仅部分数据被标记的情况下,本发明方法用于实体分类的性能表现(MAP),图5为仅部分数据被标记的情况下,本发明方法用于链路预测的性能表现(Hits@10)。
从图4和图5中可以看到,即使标记数据为1%,本发明方法也能很好地完成实体分类和链路预测这两项任务。在FB15K和WIN18数据集上,对于实体分类任务,本发明方法仍然可以达到大约60MAP值,对于链接预测任务至少达到50的Hits@10值,这几乎与TransE相媲美。图4和图5所示数据表明了本发明方法在实际应用中的鲁棒性和实用性。
实施例5
本实施例一种基于半监督嵌入表示模型的知识图谱处理装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行所述处理方法。
综上,本发明的有益效果是:
通过计算知识图谱中任两个顶点之间的一阶邻近度,以及根据知识图谱中任两个顶点的邻域结构计算二阶邻近度,同时考虑一阶邻近度和二阶邻近度而对知识图谱进行联合优化,从而保留知识图谱的局部和全局结构信息,克服了现有技术中知识图谱因对每个顶点的特征的依赖以及各顶点之间关系信息的缺乏所带来的缺陷。
以上是对本发明的较佳实施进行了具体说明,但对本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种基于半监督嵌入表示模型的知识图谱处理方法,所述知识图谱包括多个顶点以及其中至少部分顶点之间形成的边,其特征在于,包括以下步骤:
计算知识图谱的一阶邻近度;
计算知识图谱的二阶邻近度;所述知识图谱中的每个实体都附有文本描述;
计算一阶邻近度的监督损失;
计算二阶邻近度的监督损失;所述一阶邻近度的监督损失和二阶邻近度的监督损失之间存在一交易因子;
以所述交易因子为参数,建立一阶邻近度的监督损失和二阶邻近度的监督损失的线性组合;
在所述线性组合最小化的条件下对知识图谱进行优化;
所述计算知识图谱的二阶邻近度,包括:
将具有紧密度得分高于全部邻域顶点的平均紧密度得分的邻域实体保持为表示实体
Figure 569951DEST_PATH_IMAGE001
的局部结构的特征
Figure 67929DEST_PATH_IMAGE002
使用
Figure 777259DEST_PATH_IMAGE002
来表示所述二阶邻近度;
所述计算知识图谱的一阶邻近度,包括:
从原始文本中删除所有停用词;
采用经典TF-IDF的词袋模型来选择前
Figure 413383DEST_PATH_IMAGE003
个关键词作为每个实体的特征
Figure 295888DEST_PATH_IMAGE004
Figure 586055DEST_PATH_IMAGE005
Figure 528604DEST_PATH_IMAGE006
连接在一起,以获得每个实体顶点的特征
Figure 153489DEST_PATH_IMAGE007
使用
Figure 574106DEST_PATH_IMAGE008
来表示所述一阶邻近度。
2.根据权利要求1所述的一种基于半监督嵌入表示模型的知识图谱处理方法,其特征 在于,所述线性组合具体为
Figure 46676DEST_PATH_IMAGE009
,其中
Figure 97808DEST_PATH_IMAGE010
为一阶邻近度的监督损失,
Figure 23039DEST_PATH_IMAGE011
为二阶邻近度的监督损失,
Figure 935762DEST_PATH_IMAGE012
为一阶邻近度的监督损失和二阶邻近度的监督损失之间 的交易因子。
3.根据权利要求1所述的一种基于半监督嵌入表示模型的知识图谱处理方法,其特征在于,所述计算知识图谱的一阶邻近度这一步骤,具体包括:
计算与知识图谱上各顶点对应的实体向量组;
计算实体向量组中各实体向量对应的邻域实体,从而得到邻域实体集合;
计算实体向量组与邻域实体集合中具有对应关系的各实体向量与邻域实体之间的欧几里得度量,从而得到知识图谱上各对应顶点之间的紧密度得分;
计算所有紧密度得分之间的平均值,将大于平均值的紧密度得分所对应的邻域实体作为邻域实体集合的局部结构特征;
计算邻域实体集合的全体结构特征;
连接所述局部结构特征和全体结构特征,从而得到一阶邻近度。
4.根据权利要求3所述的一种基于半监督嵌入表示模型的知识图谱处理方法,其特征在于,所述计算与知识图谱上各顶点对应的实体向量组这一步骤,是通过Deepwalk算法进行的。
5.根据权利要求1-4任一项所述的一种基于半监督嵌入表示模型的知识图谱处理方法,其特征在于,所述计算知识图谱的二阶邻近度这一步骤,具体包括:
将知识图谱重构为无向二分图;
计算与知识图谱上各顶点对应的实体向量组;
为知识图谱分配关系顶点,并计算关系顶点的独热向量;
将实体向量组和独热向量输入到图卷积神经网络中,从而输出二阶邻近度。
6.根据权利要求5所述的一种基于半监督嵌入表示模型的知识图谱处理方法,其特征 在于,所述图卷积神经网络包括多个网络层,所述各网络层对应的非线性函数为
Figure 997259DEST_PATH_IMAGE013
,所述图卷积神经网络的传播规则为
Figure 219293DEST_PATH_IMAGE014
, 其中,
Figure 631820DEST_PATH_IMAGE015
为第
Figure 846770DEST_PATH_IMAGE016
个网络层的输出值,
Figure 28352DEST_PATH_IMAGE017
为知识图谱的邻接矩阵,
Figure 155708DEST_PATH_IMAGE018
为激活函数,
Figure 55531DEST_PATH_IMAGE019
为第
Figure 307127DEST_PATH_IMAGE016
个网络层的权重函数。
7.根据权利要求5所述的一种基于半监督嵌入表示模型的知识图谱处理方法,其特征在于,所述一阶邻近度的监督损失,其计算公式为:
Figure 608796DEST_PATH_IMAGE020
式中
Figure 907053DEST_PATH_IMAGE010
为一阶邻近度的监督损失,
Figure 294172DEST_PATH_IMAGE021
为知识图谱上的两个顶点,
Figure 850924DEST_PATH_IMAGE022
为与
Figure 741520DEST_PATH_IMAGE023
对应 的实体向量,
Figure 476258DEST_PATH_IMAGE024
为与
Figure 85094DEST_PATH_IMAGE025
对应的实体向量,
Figure 258586DEST_PATH_IMAGE026
8.根据权利要求5所述的一种基于半监督嵌入表示模型的知识图谱处理方法,其特征在于,所述二阶邻近度的监督损失,其计算公式为:
Figure 957683DEST_PATH_IMAGE027
式中
Figure 863322DEST_PATH_IMAGE028
为二阶邻近度的监督损失,
Figure 959454DEST_PATH_IMAGE029
为网络层的总层数。
9.一种基于半监督嵌入表示模型的知识图谱处理装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-8任一项所述方法。
CN201810999830.8A 2018-08-30 2018-08-30 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 Active CN109389151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810999830.8A CN109389151B (zh) 2018-08-30 2018-08-30 一种基于半监督嵌入表示模型的知识图谱处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810999830.8A CN109389151B (zh) 2018-08-30 2018-08-30 一种基于半监督嵌入表示模型的知识图谱处理方法和装置

Publications (2)

Publication Number Publication Date
CN109389151A CN109389151A (zh) 2019-02-26
CN109389151B true CN109389151B (zh) 2022-01-18

Family

ID=65417674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810999830.8A Active CN109389151B (zh) 2018-08-30 2018-08-30 一种基于半监督嵌入表示模型的知识图谱处理方法和装置

Country Status (1)

Country Link
CN (1) CN109389151B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008999B (zh) * 2019-03-07 2021-07-27 腾讯科技(深圳)有限公司 目标帐号的确定方法、装置、存储介质及电子装置
CN109992670B (zh) * 2019-04-04 2021-04-09 西安交通大学 一种基于知识图谱邻域结构的图谱完备化方法
CN110188200A (zh) * 2019-05-27 2019-08-30 哈尔滨工程大学 一种使用社交上下文特征的深度微博情感分析方法
CN110600121B (zh) * 2019-08-15 2022-05-03 浙江工业大学 一种基于知识图谱病因初步诊断方法
CN111368074B (zh) * 2020-02-24 2022-06-10 西安电子科技大学 一种基于网络结构和文本信息的链路预测方法
CN111639196B (zh) * 2020-06-03 2022-03-15 核工业湖州勘测规划设计研究院股份有限公司 一种多层渐进增强的地灾知识图谱及其自动补全方法
CN111949307B (zh) * 2020-07-06 2021-06-25 北京大学 一种开源项目知识图谱的优化方法和系统
CN111784081B (zh) * 2020-07-30 2022-03-01 南昌航空大学 一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法
CN112287043B (zh) * 2020-12-29 2021-06-18 成都数联铭品科技有限公司 基于领域知识的图编码自动生成方法及系统、电子设备
CN113761221B (zh) * 2021-06-30 2022-02-15 中国人民解放军32801部队 基于图神经网络的知识图谱实体对齐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171010A (zh) * 2017-12-01 2018-06-15 华南师范大学 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878309B2 (en) * 2017-01-03 2020-12-29 International Business Machines Corporation Determining context-aware distances using deep neural networks
CN107633263A (zh) * 2017-08-30 2018-01-26 清华大学 基于边的网络图嵌入方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171010A (zh) * 2017-12-01 2018-06-15 华南师范大学 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法

Also Published As

Publication number Publication date
CN109389151A (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN108108854B (zh) 城市路网链路预测方法、系统及存储介质
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN111127142B (zh) 一种基于广义神经注意力的物品推荐方法
CN110807154A (zh) 一种基于混合深度学习模型的推荐方法与系统
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN113705772A (zh) 一种模型训练方法、装置、设备及可读存储介质
CN113918833B (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
Zhang et al. Flexible auto-weighted local-coordinate concept factorization: A robust framework for unsupervised clustering
CN112800344B (zh) 一种基于深度神经网络的电影推荐方法
Zhang et al. Dual-constrained deep semi-supervised coupled factorization network with enriched prior
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN113869424A (zh) 基于双通道图卷积网络的半监督节点分类方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN112905906B (zh) 一种融合局部协同与特征交叉的推荐方法及系统
CN113128667A (zh) 一种跨域自适应的图卷积平衡迁移学习方法与系统
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN116595479A (zh) 基于图双重自编码器的社区发现方法、系统、设备及介质
CN114882288B (zh) 基于分层图增强堆叠自编码器的多视图图像分类方法
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法
CN115564013B (zh) 提高网络表示学习表示能力的方法、模型训练方法和系统
Liang et al. A normalizing flow-based co-embedding model for attributed networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant