CN103824115B - 面向开放网络知识库的实体间关系推断方法及系统 - Google Patents
面向开放网络知识库的实体间关系推断方法及系统 Download PDFInfo
- Publication number
- CN103824115B CN103824115B CN201410072412.6A CN201410072412A CN103824115B CN 103824115 B CN103824115 B CN 103824115B CN 201410072412 A CN201410072412 A CN 201410072412A CN 103824115 B CN103824115 B CN 103824115B
- Authority
- CN
- China
- Prior art keywords
- entity
- candidate
- relation
- attribute
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种面向开放网络知识库的实体间关系推断方法。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;根据待推断的目标关系从所述知识库中找出的所有存在所述目标关系的实体对;以及综合考虑所找出的各实体对间的关系路径信息以及各实体的属性信息来从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体。该方法利用知识库中已有的实体关系和实体的属性自动对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。
Description
技术领域
本发明涉及开放网络知识库,尤其涉及开放网络知识库中实体间关系推断的方法。
背景技术
知识库(Knowledge Base)是知识工程中一种结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储,组织,管理和使用的互联关系的知识片集合。这些知识片包括与领域相关的理论知识,实时数据,由专家经验得到的启发式知识,如某领域内有相关定义,定理和运算法则以及常识性知识等。知识库的主要作用有以下几点:知识库使信息和知识有序化,是知识库对信息组织的首要贡献;知识库加快知识和信息的流动,有利于知识共享与交流;知识库还有利于实现不同组织的协作与沟通;知识库可以帮助企业实现对客户知识的有效管理。但是普通的知识库有知识类型简单,内容单一,专业性较强等缺点,而面向开放网络的知识库是通过对于开放网络中的各种知识进行抽取,提炼,分析,最终构建一个知识内容丰富,结构统一的知识网络。
基于开放网络知识库的实体间关系推断,对于知识库的丰富与完善、潜在知识的挖掘具有重要意义。在基于开放网络知识库的关系推理中,知识库实体类型主要有人物、事件、组织机构、地点等,而它们之间的关系类型则十分多样化。针对不同的实体类型,所关注的关系也是不同的,对于人物实体之间,常见关系有亲人及朋友关系;对于人与组织机构之间,常见关系有工作单位、毕业院校;对于组织机构之间,常见关系有下属机构、相关机构等。这些已知的实体间的关系在原始的知识网络中比较稀疏,而实际上实体间还存在大量的隐含关系,可以通过知识库中已有的知识和关系,来发掘这些隐含关系。最常用的挖掘方法是基于规则的方法,即通过对已有知识的分析,制定合适的推断规则,最终由这些规则推出实体间的关系。但这种方法由人工来制定规则,工作量很大且能制定的规则数量有限,涵盖范围较小,具有较大的局限性。有研究者提出了基于实体间的路径关系进行推断的方法,该方法可省去复杂的人为制定规则的过程,自动学习到推理规则来对实体间的关系进行推理,但当实体间路径数量较少,或实体间关系信息缺乏时,这种方法的推断效果会非常差。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的面向开放网络知识库的实体间关系推断方法。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种面向开放网络知识库的实体间关系推断方法,包括:
步骤1,根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;
步骤2,根据待推断的目标关系构造训练实体对集合,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;
步骤3,基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体。
上述方法中,所述步骤3可包括:
步骤31,基于所述训练实体对集合中各实体对间的关系,训练关系路径模型;其中该关系路径模型用于判断两个实体之间存在所述目标关系的概率;
步骤32,基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分;
步骤33,根据所述训练实体对集合中各实体的属性信息,训练关系属性模型,并根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,其中该关系属性模型用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率;
步骤34,基于所述目标关系对应的显著属性集,计算每个候选实体的属性相似度得分;
步骤35,基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。
上述方法中,所述开放式网络知识库可以以图的形式来表示,图中的节点表示知识库中的实体,图中的边表示实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径。
上述方法中,所述训练实体对集合中还可包括从知识库中随机选择的若干个其之间关系不是所述目标关系的实体对。
上述方法中,所述步骤31可包括:
步骤311)基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集;其中,所述训练数据集中包括与所述训练实体对集合中的每个实体对相对应的路径特征向量,该路径特征向量是由该实体对的两个实体之间所有可能存在的长度小于l的路径的概率值构成的;其中l为大于1的自然数;
步骤312)基于所构造的训练数据集来训练关系路径模型。
上述方法中,所述步骤311)中,可以下面的迭代的方式计算所述两个实体之间某条路径的概率值:
对于实体对(s,e),若存在长度为m的路径:Path=R1R2...Rm,m≤l,则从实体s以路径Path到达实体e的概率Ps,path(e)为:
其中,Path'=R1R2...Rm-1;P(e|e';Rl)=Rl(e',e)/|Rl(e',·)|表示从节点e'以关系Rl达到节点e的概率,Rl(e',e)代表是否存在实体e'以关系Rl达到实体e,如果存在则为1,否则为0;·代表任意实体;如果e=s,则Ps,path(e)=1。
上述方法中,所述步骤312)中所述关系路径模型可以为逻辑回归模型、线性回归模型、支持向量机模型或朴素贝叶斯模型。
上述方法中,所述步骤32可包括:基于训练好的关系路径模型来计算所述候选实体集中每个候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。
上述方法中,所述步骤32可包括:
对于所述候选实体集中每个候选实体,构造由该候选实体与所述目标实体构成的实体对的路径特征向量;并根据该路径特征向量,利用训练好的关系路径模型来计算该候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。
上述方法中,所述步骤33可包括:。
步骤331)根据所述训练实体对集合中各实体的属性信息,构造用于训练关系属性模型的训练数据集;
步骤332)基于所构造的训练数据集来训练关系属性模型;
其中,所述步骤331)包括:
找出训练实体对集合中各个实体的所有出现过的属性作为候选属性,构成候选属性集;
对于训练实体对集合中每个实体对,构造属性特征向量,该属性特征向量的每个维度对应候选属性集中的每个候选属性;其中对于每个候选属性,若该实体对的两个实体均含有这个属性,且属性值相同,则将该候选属性对应的维度值置为1,否则将该属性对应的维度值置为0;所述训练数据集中包括训练实体对集合中所有实体对的属性特征向量。
上述方法中,所述步骤33中所述目标关系对应的显著属性集可以由从候选属性集中选择的其相应概率较大的若干个候选属性组成,其中每个候选属性的相应概率为根据训练好的关系属性模型计算的、对于该候选属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率。
上述方法中,所述步骤34可包括:
对于候选实体集中每个候选实体,基于所述显著属性集构造由目标实体与该候选实体构成的实体对的属性特征向量;其中该属性特征向量的每个维度对应与所述显著属性集中的每个属性;对于显著属性集中的每个属性,若目标实体与该候选实体同时存在该属性且属性值相同,则该属性对应的维度值为1,否则为0;
计算该属性特征向量与标准属性向量的相似度来作为该候选实体的属性相似度得分;其中,所述标准属性征向量为相对于显著属性集,维度值全为1的属性特征向量。
上述方法中,所述步骤35可包括:
步骤351)对每个候选实体的关系路径得分和属性相似度得分进行线性加权,以得到每个候选实体的综合评分;
步骤352)从所述候选实体集中选出其综合评分高的候选实体作为所推断的与该目标实体存在所述目标关系的实体。
上述方法中,所述步骤352)中,若训练实体对集合中存在丰富的关系路径信息,关系路径得分的权重设置为大于属性相似度得分的权重;若训练实体对集合中实体属性信息更丰富,则关系路径得分的权重设置为小于属性相似度得分的权重。
又一方面,本发明提供了一种面向开放网络知识库的实体间关系推断系统,包括:
用于根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集的装置;
用于根据待推断的目标关系构造训练实体对集合的装置,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;
用于基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体的装置。
与现有技术相比,本发明的优点在于:
利用知识库中已有的实体关系和实体的属性自动学习推断规则,这样学到的推断规则更全面,基于这样的学到的推断规则来对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。同时,该方法还省去了人为制定规则的过程,减小了人为的工作量。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1为根据本发明实施例的面向开放网络知识库的实体间关系推断方法的流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的一个实施例中,提供了一种面向开放网络知识库的实体间关系推断方法,基于知识库中已有的实体间关系与实体属性来推断实体之间的隐含关系。其中,开放网络知识库中的知识通常是以图的形式表示的(下文将该图称为知识图),知识图中的节点代表知识库中的实体,边代表实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径。例如,知识库中两个实体间的关系可以由一个实体对表示,例如记为R(s,t),s,t分别是实体,R表示实体间关系的类型。如果存在两个关系对R1(s,t),R2(t,m),则可认为实体s与实体m之间存在一条长度为2的关系路径Path(R1,R2)。另外,对于图中的每个节点还可包括该节点对应的实体的属性信息,例如,A(s,v)表示实体s的属性,A为属性类型,v为该属性的值。
图1给出了根据本发明实施例的面向开放网络知识库的实体间关系推断方法的流程示意图。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的实体作为候选实体集(S101);根据待推断的目标关系构造训练实体对集合(S102),所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集并基于该数据集来训练关系路径模型(S103);基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分(S104);根据所述训练实体对集合中各实体的属性信息,构造用于训练关系属性模型的训练数据集并基于该数据集来训练关系属性模型(S105);根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,并基于所述显著属性集,计算每个候选实体相对于目标实体的属性相似度得分(S106);以及基于候选实体的关系路径得分和属性相似度得分,计算所述候选实体集中每个候选实体的评分,选择具有最高评分的候选实体作为所推断的与该目标实体存在所述目标关系的实体(S107)。
现参考图1,在步骤S101,根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的实体作为候选实体集。假设要进行推断的目标实体为实体s,找出从知识库中找出所有与实体s有关系路径相连的实体作为候选实体集。例如,可以从知识图中找出所有与实体s有路径相连的实体,作为推断的候选实体,构成候选实体集。
在步骤S102,根据待推断的目标关系构造训练实体对集合,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对。在一个实施例中,假设要进行推断的关系类型为R,可以找出知识库中所有存在R关系的实体对来组成训练实体对集合,以用于后续的训练。在又一个实施例中,为了更好地提高训练的效果,可以找出知识库中所有存在R关系的实体对作为正例,然后随机抽取知识库中的部分关系不是R的实体对作为反例,这些正例与反例共同组成训练实体对集合。
在步骤S103,基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集并基于该数据集来训练关系路径模型。其中,该关系路径模型主要用于判断两个实体之间存在所述目标关系的可能性或概率。可以采用机器学习领域中的很多用于分类的模型来作为关系路径模型,例如逻辑回归,线性回归模型,支持向量机、朴素贝叶斯等等。下面以逻辑(logistic)回归模型为例来进行说明训练数据的构造及模型的训练过程。
首先要构建用于训练关系路径模型的训练数据集,该训练数据集中的每个数据实际上是适用于该logistic回归模型的一个特征向量。假设知识图中存在K个实体,那么该知识图中任意两个实体间可能存在的长度小于l的所有路径(假设共n条路径),构成了一个路径集PATH,其中每条路径代表用于该关系路径模型的特征向量中的一维特征,其中,l可根据需要而设定,其中l为自然数且大于1,通常,可以取l为2、3或4等。但如果l太大,则路径过长,会造成实体间的关联关系太弱,对于推断没有太大意义。对于训练实体对集合中的每个实体对,基于该路径集PATH构建适用于该关系路径模型的一个路径特征向量,所有实体对的路径特征向量组成了用于该关系路径模型的训练数据集。
在一个实施例中,构造用于该关系路径模型的训练数据集的步骤可包括:对于训练实体对集合中的每个实体对,获取两个实体之间所有可能存在的长度小于l的路径来作为该实体对的路径特征向量的维度。其中,对于每条路径,如果该训练实体对之间存在这样的关系路径,则该路径对应的维度值为1,否则维度值为0。这样,每个实体对可得到一个由0和1组成的路径特征向量,所有的这些向量构成训练数据集。
在又一个实施例中,为了更准备地表达实体对之间存在某种关系的可能性,可根据随机游走的思想,计算出在每个训练实体对之间,对应路径集PATH中每条关系路径产生的概率,若该实体对之间没有这条路径则概率为0。因此对于每个实体对可得到一个路径特征向量。其中,构造用于该关系路径模型的训练数据集的步骤包括:
1)对于训练实体对集合中的每个实体对,计算这两个实体之间所有可能存在的长度小于l的路径的概率值,也就是从一个实体沿某个路径到达另一个实体的概率。如该实体对之间不存在这样的路径,则概率值为0,否则,以下面的方式来计算该概率值:
假设对于实体对(s,e),若存在路径集PATH中第n条路径,其长度为m(m≤l),则该路径可表示为:Path=R1R2...Rm,则该第n条路径的概率值Ps,path(e),也可记为Pn,可由以下迭代的方法求得,其迭代式为:
其中,Path'=R1R2...Rm-1,P(e|e';Rl)=Rl(e',e)/|Rl(e',·)|,即从节点e'以关系Rl达到节点e的概率,Rl(e',e)代表是否存在实体e'以关系Rl达到实体e,而式中·代表任意实体。如果e=s,则Ps,path(e)=1。
以上迭代关系可以计算出两实体间不同路径的概率值,对于训练实体对集合中的每个实体对,这两个实体间所有可能存在的长度小于l的路径的概率值可构成一个向量这个向量可称为路径特征向量。训练实体对集合中所有实体对的路径特征向量放在一起构成关系路径模型的训练数据集。如果训练实体对集合包括正例与反例,则该路径特征向量中还包括一个维度来指示正例或反例,例如,正例为1,反例为0,该路径特征向量为n+1维。
这样,对于一个实体对(t1,t2),可能存在关系R的概率为:
其中Pn代表实体t1沿路径集PATH中的第n条路径到达实体t2的概率。
然后,利用所构造的训练数据集,通过logistic回归训练得到中参数的值。例如,在回归计算中,参数可采用最大似然的方法来估计,其正则表达式如下:
通过基于所构造的训练数据集进行训练,最终得到针对关系R的,不同路径的权重
在步骤S104,基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分。在一个实施例中,利用训练好的关系路径模型计算目标实体与候选实体之间存在所述目标关系的概率,将该概率作为该候选实体的关系路径得分。又例如,该针对某一候选实体t,采用上述步骤S103所介绍的方法,计算出目标实体q与t之间的每条路径的概率,构造路径特征向量根据公式计算出该候选实体t的关系路径得分。
在步骤S105,根据所述训练实体对集合中各实体的属性信息,构造用于训练关系属性模型的训练数据集并基于该数据集来训练关系属性模型。其中,该关系属性模型主要用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的可能性或概率。可以采用机器学习领域中的很多用于分类的模型作为关系属性模型,例如支持向量机、决策树、朴素贝叶斯、逻辑回归模型等等。通过该关系属性模型找出与所述目标关系对应的显著属性集。
其中,构建用于训练关系属性模型的训练数据集的步骤包括:
1)找出训练实体对集合中各个实体的所有出现过的属性作为候选属性,构成候选属性集。
2)对于训练实体对集合中每个实体对,构造属性特征向量。针对候选属性集中的每个候选属性,若该实体对的两个实体均含有这个属性,且属性值相同,则将该候选属性对应的维度值置为1,否则将该属性对应的维度值置为0,这样,就得到了与该实体对相对应的一个属性特征向量也就是说,针对每个候选属性an,若实体对的两个实体均含有这个属性,且属性值相同,则将an的值置为1,否则将该属性对应的值置为0,y为正例和反例的标志位,若为正例,则y为1,反之y为0。所有实体对的属性特征向量构成了用于关系属性模型的训练数据集。
接着,基于所构建的训练数据集,训练关系属性模型,以找出与所述目标关系对应的显著属性集。实际上训练该关系属性模型的过程就是对候选属性集进行筛选。对于每个候选属性,根据该关系属性模型来确定存在所述目标关系的两个实体同时具有某种属性且属性值相同的概率的大小,从候选属性集中找出概率值大的若干个属性作为该目标关系对应的显著属性集。这样,在后期进行推断时,可以基于这些显著属性来计算目标实体s相对于候选实体间属性的相似度得分。
在一个实施例中,在所构建的训练数据集上,对于每个候选属性,存在集合A={s1=0,s2=1,...,sm=0},其中sm表示训练集中第i个实体对对应的元素,如果该实体对具有该属性且属性值相同,则该元素sm取值为1否则取值为0。对于这个候选属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率可以采用如下公式来计算为:(s1+s2+…+sm)/m,其中m为训练集中实体对的总数。对于候选属性集中每个候选属性计算出该候选属性相应的概率之后,从候选属性集中选出其相应概率超过某一设定阈值的属性作为该目标关系对应的显著属性,构成该目标关系对应的显著属性集。
在又一个实施例中,采用决策树的方法来训练关系属性模型并得到所述目标关系对应的显著属性集。其中,整个训练数据集可以看作一个矩阵,该矩阵的每一行为一个实体对的属性特征向量,每个列代表候选集中的某个候选属性,矩阵中的每个元素某个实体对的某一个属性的属性值是否相同,该元素为1,代表相同,该元素为0代表不同。基于该训练数据集,利用决策树方法,计算候选属性集中每个属性的信息增益,选择信息增益较高的属性构成显著属性集。其中,在该训练集上对于单一属性a,存在集合A={s1=0,s2=1,...,sm=0},其中sm表示训练集中第i个实体对对应的元素,如果该实体对具有该属性且属性值相同,则该元素sm取值为1否则取值为0,每个实体对对应的元素构成了集合A,该属性a的信息增益为:
Gain(A)=Info(D)-Info(A);
其中,D表示这样一个集合,该集合中的元素识别训练数据集上各个实体对之间是否存在某种关系的变量y的值构成,即D={y1=0,y2=1,...,ym=0},实际上变量y用于识别每个实体对是正例还是反例。
其中,
相似地,其中,|D|表示集合D中元素的个数,即m,|A|表示集合A中元素的个数,即m,在本实施例中,m实际上就是训练实体对集合中实体对的个数。
对于候选属性集中每个候选属性计算出该候选属性的信息增益之后,从候选属性集中选出其信息增益超过某一设定阈值的属性作为该目标关系对应的显著属性,构成该目标关系对应的显著属性集。
在步骤S106,根据所述目标关系对应的显著属性集,计算每个候选实体相对于目标实体的属性相似度得分。例如首先基于该显著属性集构造目标实体与候选实体这个实体对的属性特征向量,该属性特征向量的构造方法与步骤S105中属性特征向量的构造方法基本相同,即对于显著属性集中的每个属性,若目标实体q与候选实体t同时存在该属性且属性值相同,则该属性对应的维度值为1,否则为0。这样,就得到了目标实体q与候选实体t这个实体对的属性特性向量然后将计算该属性特性向量与所述目标关系对应的属性特征向量的相似度,其中与所述目标关系对应的属性特征向量实际上是相对于显著属性集,维度值全为1的属性特征向量。
其中可采用欧式距离,余弦相似度等方法来计算两个属性特征向量之间的相似度。下面以余弦相似度方法为例来说明如何计算候选实体t相对于目标实体q的属性相似度得分,其公式如下:
其中,代表目标实体q与候选实体t这个实体对的属性特性向量;表示相对于所述目标关系的显著属性集,所构造的维度值全为1的属性特征向量。其中||||表示对向量取模,得到向量的长度。
在步骤S107,基于候选实体的关系路径得分和属性相似度得分,获取候选实体的综合得分,选择排名最高的候选实体作为推断结果。例如,通过对候选实体t的关系路径得分和属性相似度得分进行线性加权,可以得到对候选实体t的综合得分为:
score=α·RPscore+β·ASscore,
其中,α+β=1,α和β的具体的值受训练数据集的影响,若数据集中存在丰富的关系路径信息,则α>β,若数据集中属性信息更丰富,则α<β。
对所有的候选实体,根据最终得分score做排序,选择排名最高的实体作为推断结果。这里作为推断结果的实体个数,可因情况而定,若为一一对应关系,如配偶,则选择排名最高的一个实体,若为一对多类型的关系,如同事,子女等,则可适当增加推断结果的个数。
在本发明的又一个实施例中,还提供了面向开放网络知识库的实体间关系推断系统,所述系统包括训练装置和推断装置。其中训练装置可以根据待推断的目标关系构造训练实体对集合;利用上文所述的方法来基于所述训练实体对集合中各实体对间的关系,训练关系路径模型以及根据所述训练实体对集合中各实体的属性信息,训练关系属性模型。所述推断装置可以根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;以及根据上文所述的方法基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分;根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,并基于所述目标关系对应的显著属性集,计算每个候选实体的属性相似度得分;基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。
为了更好地说明本发明的效果,发明人在Freebase数据集上进行了实验。Freebase数据集是一个开源且不断更新的开放知识库,内容全面,结构统一是现有知识库的典型代表。发明人于2013年9月18从freesbase网站下载了当时最新的版本的知识库原始数据,采用从Freebase中抽取出的关于人物的相关知识,包括人物关系和人物属性,约100万条数据来进行实验。选择其中比较常见的父母、子女等关系作为推断的目标关系,采用十折交叉验证的方法,以MAP(mean average precision,平均正确率)作为衡量指标,对本申请所讨论的推断方法进行测试,得到该推断方法的MAP为0.71,与现有的基于实体间关系路径的推理方法相比,将平均正确率提高20%左右,极大的提高了知识库中关系推的效果。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。
Claims (13)
1.一种面向开放网络知识库的实体间关系推断方法,所述方法包括:
步骤1,根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;
步骤2,根据待推断的目标关系构造训练实体对集合,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;
步骤3,基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体;
其中所述开放式网络知识库以图的形式来表示,图中的节点表示知识库中的实体,图中的边表示实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径;
其中所述步骤3包括:
步骤31,基于所述训练实体对集合中各实体对间的关系,训练关系路径模型;其中该关系路径模型用于判断两个实体之间存在所述目标关系的概率;
步骤32,基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分;
步骤33,根据所述训练实体对集合中各实体的属性信息,训练关系属性模型,并根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,其中该关系属性模型用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率;
步骤34,基于所述目标关系对应的显著属性集,计算每个候选实体的属性相似度得分;
步骤35,基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。
2.根据权利要求1所述的方法,所述训练实体对集合中还包括从知识库中随机选择的若干个其之间关系不是所述目标关系的实体对。
3.根据权利要求1所述的方法,所述步骤31包括:
步骤311)基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集;其中,所述训练数据集中包括与所述训练实体对集合中的每个实体对相对应的路径特征向量,该路径特征向量是由该实体对的两个实体之间所有可能存在的长度小于l的路径的概率值构成的;其中l为大于1的自然数;
步骤312)基于所构造的训练数据集来训练关系路径模型。
4.根据权利要求3所述的方法,所述步骤311)中,以下面的迭代的方式计算所述两个实体之间某条路径的概率值:
对于实体对(s,e),若存在长度为m的路径:Path=R1R2...Rm,m≤l,则从实体s以路径Path到达实体e的概率Ps,path(e)为:
其中,Path'=R1R2...Rm-1;P(e|e';Rl)=Rl(e',e)/|Rl(e',·)|表示从节点e'以关系Rl达到节点e的概率,Rl(e',e)代表是否存在实体e'以关系Rl达到实体e,如果存在则为1,否则为0;·代表任意实体;如果e=s,则Ps,path(e)=1。
5.根据权利要求3所述的方法,所述步骤312)中所述关系路径模型为逻辑回归模型、线性回归模型、支持向量机模型或朴素贝叶斯模型。
6.根据权利要求1所述的方法,所述步骤32包括:基于训练好的关系路径模型来计算所述候选实体集中每个候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。
7.根据权利要求3所述的方法,所述步骤32包括:
对于所述候选实体集中每个候选实体,构造由该候选实体与所述目标实体构成的实体对的路径特征向量;并根据该路径特征向量,利用训练好的关系路径模型来计算该候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。
8.根据权利要求1所述的方法,所述步骤33包括:
步骤331)根据所述训练实体对集合中各实体的属性信息,构造用于训练关系属性模型的训练数据集;
步骤332)基于所构造的训练数据集来训练关系属性模型;
其中,所述步骤331)包括:
找出训练实体对集合中各个实体的所有出现过的属性作为候选属性,构成候选属性集;
对于训练实体对集合中每个实体对,构造属性特征向量,该属性特征向量的每个维度对应候选属性集中的每个候选属性;其中对于每个候选属性,若该实体对的两个实体均含有这个属性,且属性值相同,则将该候选属性对应的维度值置为1,否则将该属性对应的维度值置为0;所述训练数据集中包括训练实体对集合中所有实体对的属性特征向量。
9.根据权利要求8所述的方法,所述步骤33中所述目标关系对应的显著属性集由从候选属性集中选择的其相应概率较大的若干个候选属性组成,其中每个候选属性的相应概率为根据训练好的关系属性模型计算的、对于该候选属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率。
10.根据权利要求1或9所述的方法,所述步骤34包括:
对于候选实体集中每个候选实体,基于所述显著属性集构造由目标实体与该候选实体构成的实体对的属性特征向量;其中该属性特征向量的每个维度对应与所述显著属性集中的每个属性;对于显著属性集中的每个属性,若目标实体与该候选实体同时存在该属性且属性值相同,则该属性对应的维度值为1,否则为0;
计算该属性特征向量与标准属性向量的相似度来作为该候选实体的属性相似度得分;其中,所述标准属性征向量为相对于显著属性集,维度值全为1的属性特征向量。
11.根据权利要求1所述的方法,所述步骤35包括:
步骤351)对每个候选实体的关系路径得分和属性相似度得分进行线性加权,以得到每个候选实体的综合评分;
步骤352)从所述候选实体集中选出其综合评分高的候选实体作为所推断的与该目标实体存在所述目标关系的实体。
12.根据权利要求11所述的方法,所述步骤352)中,若训练实体对集合中存在丰富的关系路径信息,关系路径得分的权重设置为大于属性相似度得分的权重;若训练实体对集合中实体属性信息更丰富,则关系路径得分的权重设置为小于属性相似度得分的权重。
13.一种面向开放网络知识库的实体间关系推断系统,所述系统包括:
用于根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集的装置;
用于根据待推断的目标关系构造训练实体对集合的装置,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;
用于基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体的装置;
其中所述开放式网络知识库以图的形式来表示,图中的节点表示知识库中的实体,图中的边表示实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径;
其中所述用于基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体的装置被配置为:
基于所述训练实体对集合中各实体对间的关系,训练关系路径模型;其中该关系路径模型用于判断两个实体之间存在所述目标关系的概率;
基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分;
根据所述训练实体对集合中各实体的属性信息,训练关系属性模型,并根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,其中该关系属性模型用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率;
基于所述目标关系对应的显著属性集,计算每个候选实体的属性相似度得分;
基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410072412.6A CN103824115B (zh) | 2014-02-28 | 2014-02-28 | 面向开放网络知识库的实体间关系推断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410072412.6A CN103824115B (zh) | 2014-02-28 | 2014-02-28 | 面向开放网络知识库的实体间关系推断方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103824115A CN103824115A (zh) | 2014-05-28 |
CN103824115B true CN103824115B (zh) | 2017-07-21 |
Family
ID=50759167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410072412.6A Active CN103824115B (zh) | 2014-02-28 | 2014-02-28 | 面向开放网络知识库的实体间关系推断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103824115B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636466B (zh) * | 2015-02-11 | 2020-07-31 | 中国科学院计算技术研究所 | 一种面向开放网页的实体属性抽取方法和系统 |
CN105989373B (zh) * | 2015-02-15 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 利用训练模型实现的获取设备指纹方法及装置 |
CN107544992A (zh) * | 2016-06-27 | 2018-01-05 | 阿里巴巴集团控股有限公司 | 数据分析的方法和装置 |
CN107957998A (zh) * | 2016-10-14 | 2018-04-24 | 富士通株式会社 | 生成关系计算模型的方法和估计实体对之间关系的方法 |
CN106886572B (zh) * | 2017-01-18 | 2020-06-19 | 中国人民解放军信息工程大学 | 基于Markov逻辑网的知识图谱关系类型推测方法及其装置 |
CN107145977B (zh) * | 2017-04-28 | 2020-07-31 | 电子科技大学 | 一种对在线社交网络用户进行结构化属性推断的方法 |
CN109147953A (zh) * | 2017-06-28 | 2019-01-04 | 京东方科技集团股份有限公司 | 一种推理规则自动发现方法及系统 |
CN108073711B (zh) * | 2017-12-21 | 2022-01-11 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN108228877B (zh) * | 2018-01-22 | 2020-08-04 | 北京师范大学 | 基于学习排序算法的知识库补全方法及装置 |
CN108304933A (zh) * | 2018-01-29 | 2018-07-20 | 北京师范大学 | 一种知识库的补全方法及补全装置 |
CN109033166B (zh) * | 2018-06-20 | 2022-01-07 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN108921213B (zh) * | 2018-06-28 | 2021-06-22 | 国信优易数据股份有限公司 | 一种实体分类模型训练方法及装置 |
CN109783624A (zh) * | 2018-12-27 | 2019-05-21 | 联想(北京)有限公司 | 基于知识库的答案生成方法、装置和智能会话系统 |
CN109726398B (zh) * | 2018-12-27 | 2023-07-07 | 奇安信科技集团股份有限公司 | 一种实体识别及属性判断方法、系统、设备及介质 |
CN109919175B (zh) * | 2019-01-16 | 2020-10-23 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN111680164A (zh) * | 2020-04-28 | 2020-09-18 | 国网内蒙古东部电力有限公司 | 一种基于路径排序技术的电力科技知识图谱实体关系预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779161A (zh) * | 2012-06-14 | 2012-11-14 | 杜小勇 | 基于rdf知识库的语义标注方法 |
CN102844755A (zh) * | 2010-04-27 | 2012-12-26 | 惠普发展公司,有限责任合伙企业 | 提取命名实体的方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
-
2014
- 2014-02-28 CN CN201410072412.6A patent/CN103824115B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102844755A (zh) * | 2010-04-27 | 2012-12-26 | 惠普发展公司,有限责任合伙企业 | 提取命名实体的方法 |
CN102779161A (zh) * | 2012-06-14 | 2012-11-14 | 杜小勇 | 基于rdf知识库的语义标注方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
Non-Patent Citations (2)
Title |
---|
农业垂直搜索引擎语义化若干问题的研究与实现;胡宜敏;《中国科学技术大学博士学位论文》;20120501;第3-6章 * |
大数据的研究体系与现状;靳小龙等;《信息通信技术 》;20131215;第35-41页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103824115A (zh) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103824115B (zh) | 面向开放网络知识库的实体间关系推断方法及系统 | |
Min et al. | Multi-hop reading comprehension through question decomposition and rescoring | |
Pandey et al. | A decision tree algorithm pertaining to the student performance analysis and prediction | |
Ahmad et al. | The prediction of students’ academic performance using classification data mining techniques | |
Wheeler | Systematics: a course of lectures | |
Cortez et al. | Using data mining to predict secondary school student performance | |
Morrison et al. | Wildlife-habitat relationships: concepts and applications | |
CN108229582A (zh) | 一种面向医学领域的多任务命名实体识别对抗训练方法 | |
Lee | A scientometric study of the research performance of the Institute of Molecular and Cell Biology in Singapore | |
Suhaimi et al. | Review on predicting students’ graduation time using machine learning algorithms | |
CN106779166A (zh) | 一种基于数据驱动的知识点掌握状态的预测系统及方法 | |
CN106779079A (zh) | 一种基于多模型数据驱动的知识点掌握状态的预测系统及方法 | |
CN107247972A (zh) | 一种基于众包技术的分类模型训练方法 | |
CN106407482B (zh) | 一种基于多特征融合的网络学术报告分类方法 | |
CN107368521A (zh) | 一种基于大数据和深度学习的知识推介方法及系统 | |
Ganeshan et al. | An intelligent student advising system using collaborative filtering | |
Guang-yu et al. | The behavior analysis and achievement prediction research of college students based on XGBoost gradient lifting decision tree algorithm | |
Kumar et al. | Performance analysis of students using machine learning & data mining approach | |
Mankad | Predicting learning behaviour of students: Strategies for making the course journey interesting | |
Xiao et al. | The application of CART algorithm in analyzing relationship of MOOC learning behavior and grades | |
CN105528615A (zh) | 行为数据的路径寻优方法 | |
Suvorova | Models for respondents' behavior rate estimate: bayesian network structure synthesis | |
Liu et al. | Prediction and assessment of student learning outcomes in calculus a decision support of integrating data mining and Bayesian belief networks | |
Osman | An evaluation model of tecaching assistant using artificial neural network | |
Tol | Rise of the Kniesians: The professor-student network of Nobel laureates in economics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |