CN108304933A - 一种知识库的补全方法及补全装置 - Google Patents

一种知识库的补全方法及补全装置 Download PDF

Info

Publication number
CN108304933A
CN108304933A CN201810085005.7A CN201810085005A CN108304933A CN 108304933 A CN108304933 A CN 108304933A CN 201810085005 A CN201810085005 A CN 201810085005A CN 108304933 A CN108304933 A CN 108304933A
Authority
CN
China
Prior art keywords
entity
characteristic value
entity attribute
attribute characteristic
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810085005.7A
Other languages
English (en)
Inventor
王志春
黄勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Priority to CN201810085005.7A priority Critical patent/CN108304933A/zh
Publication of CN108304933A publication Critical patent/CN108304933A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明提供了一种知识库的补全方法及补全装置。方法包括:获取目标关系对应实体对集合中实体对的关系路径特征和关系路径特征向量;获取实体对中头实体对应的实体属性特征值和尾实体对应的实体属性特征值以及头实体的归一化实体属性特征值、尾实体的归一化实体属性特征值和归一化实体属性特征值的差值;头实体和尾实体的归一化实体属性特征值和差值形成实体属性特征向量;将关系路径特征向量和实体属性特征向量输入至分类器训练模型中,获取三元组的补全预测值;将补全预测值大于0.5的三元组确定为知识库的补全三元组。本发明通过将关系路径特征和实体属性特征结合并对知识库中实体关系进行预测,实现补全了知识库并提高了补全结果的准确性。

Description

一种知识库的补全方法及补全装置
技术领域
本发明涉及知识库补全技术领域,具体涉及一种知识库的补全方法及补全装置。
背景技术
大规模的知识库一般通过自动构建技术建立,包含大量的实体、关系和属性值。知识库使用三元组的形式对现实世界中实体的各种知识进行表示,三元组包括关系型和属性型两大类。关系型三元组形如<XX大学,位于,XX市>,其中“XX大学”和“XX市”分别表示关系型三元组的头实体和尾实体,“位于”表示关系型三元组中头实体和尾实体之间的关系;属性型三元组形如<XX大学,建校于,XX年>,其中“XX大学”是头实体,“建校于”是实体属性特征,“XX年”是具体的实体属性特征值。虽然知识库的规模很大,但知识库仍然是不完备的,需要对现有的知识库进行补全。
知识库的补全包括两种方法:基于符号逻辑的方法和基于表示学习的方法。基于符号逻辑的方法主要包括AMIE和PRA等;其中,AMIE方法通过从知识库中挖掘关联规则进行知识库补全,PRA方法基于连接实体的关系路径特征来预测实体之间的关系。基于表示学习的方法是通过学习实体和关系的低维度向量,用向量的相似度计算预测实体之间的关系,常见表示学习的方法有TransE、TransH、TransR等。两类知识库补全的方法都只利用了关系型三元组进行知识库补全,知识库中大量存在的属性型三元组并未得到有效利用,因此降低了知识库扩充的准确性。
发明内容
针对现有技术中的缺陷,本发明提供一种知识库的补全方法及补全装置,实现获得更加精确的知识库补全结果。
为实现上述目的,本发明提供以下技术方案:
一方面,本发明提供了一种知识库的补全方法,包括:
确定知识库中的目标关系以及所述目标关系对应的实体对集合;
获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;
在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;
对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;
其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值;
根据所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;
将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;
将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
进一步的,获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量,包括:
采用随机游走法抽取所述实体对集合中每个实体对的关系路径特征。
进一步的,所述关系路径特征的长度在2到6个关系路径之间。
进一步的,在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值,包括:
所述头实体不存在对应的实体属性特征值,则将头实体对应的实体属性特征值设置为零;
所述尾实体不存在对应的实体属性特征值,则将尾实体对应的实体属性特征值设置为零。
进一步的,基于知识库中三元组样本,采用逻辑回归算法对所述分类器训练模型进行训练,获取所述分类器训练模型的权重。
进一步的,所述分类器训练模型的逻辑回归函数为:
其中,f(v,w)为三元组的补全预测值,v为基于关系路径特征向量和实体属性特征向量形成的向量[Vr Vl],w为分类器训练模型的权重,Vr为关系路径特征向量,Vl为实体属性特征向量。
另一方面,本发明还提供了一种知识库的补全装置,包括:
输入单元,用于确定知识库中的目标关系以及所述目标关系对应的实体对集合;
第一参数单元,用于获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;
获取单元,用于在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;
处理单元,用于对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;
其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值;
第二参数单元,用于所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;
预测单元,用于将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;
补全单元,用于将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
进一步的,所述第一参数单元,包括:
抽取模块,用于采用随机游走法抽取所述实体对集合中每个实体对的关系路径特征。
另一方面,本发明还提供了一种电子设备,包括:处理器、存储器和总线;其中,
处理器和存储器通过总线完成相互间的通信;
处理器用于调用存储器中的程序指令,以执行上述知识库的补全方法。
另一方面,本发明还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述知识库的补全方法。
由上述技术方案可知,本发明所述的一种知识库的补全方法及补全装置,通过一个将知识库中的关系路径特征和实体属性特征相结合的知识库补全模型,对知识库中的实体关系进行预测,从而进行知识库的补全,能更加有效补全知识库中未知的关系实体对,使得知识库补全和关系预测具有更高的平均准确率和平均召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一个实施例提供的一种知识库的补全方法的流程示意图;
图2是本发明第二个实施例提供的一种知识库的补全装置的结构示意图;
图3是本发明第三个实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一个实施例提供的一种知识库的补全方法,参见图1,该补全方法具体包括如下步骤:
S101:确定知识库中的目标关系以及所述目标关系对应的实体对集合;
在本步骤中,选定一个目标关系,根据目标关系确定关系对应的实体对集合IS,Is={(hj,tj)|<hj,tj>∈KB},基于实体对集合提取出连接头尾实体对的关系路径特征。
其中,实体对是指三元组中头实体和尾实体,关系是关系型三元组中头实体和尾实体之间的连接;hj为第j个头实体,tj为第j个尾实体,KB为知识库。
S102:获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;
在本步骤中,采用随机游走法抽取所述实体对集合中每个实体对的关系路径特征,通过对多个关系路径特征进行随机排列组合形成关系路径特征向量。
对于目标关系,抽取的关系路径特征向量记为Vr(hi,ti),表示从第i个头实体hi到第i个尾实体ti有关系路径特征进行连接。
进一步的,由于连接头尾实体对之间的路径数量很大,通常需要限定关系路径的长度,因此将关系路径特征的长度设置在2-6个关系路径之间。
S103:在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;
在本步骤中,根据步骤S101中确定的实体对,枚举不同的实体属性特征,从知识库中搜索包括实体对和枚举的实体属性特征的属性三元组,并从属性三元组中提取实体对所对应的实体属性特征值。
其中,实体对包括头实体和尾实体,获取包括头实体的属性三元组,并提取头实体对应的实体属性特征值;
获取包括尾实体的属性三元组,并提取尾实体对应的实体属性特征值。
除此之外,对于很多头实体或尾实体在不同实体属性特征上的缺失值,即不存在头实体或尾实体对应的实体属性特征值,则将缺失值进行了补0处理,期望获得更优结果;
其中,所述头实体不存在对应的实体属性特征值,则将头实体对应的实体属性特征值设置为零;
所述尾实体不存在对应的实体属性特征值,则将尾实体对应的实体属性特征值设置为零。
S104:对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;
其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值;
在本步骤中,对步骤S103中的头实体和尾实体分别对应的实体属性特征值,针对实体属性特征值的名称信息或属性信息不一致,则对实体属性特征值进行归一化处理,处理后的实体属性特征值限定在[0.1,1]的之间,通过头实体的实体属性特征值与尾实体的实体属性特征值计算归一化实体属性特征值的差值。
其中,在归一化处理下的头实体和尾实体的实体属性特征值对应的向量分别记为Vl(hi)和Vl(ti),其中hi和ti分别表示给定关系l的第i个头实体和第i个尾实体,同时对第i个头实体和第i个尾实体进行相减,计算获得归一化实体属性特征值的差值对应的向量Vl(hi-ti)。
S105:根据所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;
在本步骤中,根据所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值对应的向量,对Vl(hi-ti)、Vl(hi)和Vl(ti)进行随机排列组合形成实体属性特征向量Vl
S106:将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;
在本步骤中,根据上述步骤获得的关系路径特征向量和实体属性特征向量,通过预先训练好的分类器训练模型对基于关系路径特征向量和实体属性特征向量形成的三元组的补全预测值。
进一步的,所述分类器训练模型的逻辑回归函数为:
其中,f(v,w)为三元组的补全预测值,v为基于关系路径特征向量和实体属性特征向量形成的向量[Vr Vl],w为分类器训练模型的权重,Vr为关系路径特征向量,Vl为实体属性特征向量。
S107:将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
在本步骤中,通过上述步骤S106,实现通过预先训练好的分类器训练模型对基于关系路径特征向量和实体属性特征向量形成的三元组的补全预测值,该补全预测值在[0,1]之间,因此将补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
从上述描述可知,本发明实施例提供的一种知识库的补全方法,通过一个将知识库中的关系路径特征和实体属性特征相结合的知识库补全模型,对知识库中的实体关系进行预测,从而进行知识库的补全,能更加有效补全知识库中未知的关系实体对,使得知识库补全和关系预测具有更高的平均准确率和平均召回率。
在上述实施例的基础上,提供了一种应用在知识库的补全方法的建模方法,具体包括:
S201:获取知识库中三元组的样本;
在本步骤中,从知识库中的每种关系中抽取正实体对,对于每个正实体对<头实体,尾实体>,生成10个负实体对,其中5个随机替换头实体对,5个随机替换尾实体对。基于这种方法,生成了训练样本和测试样本,比例为4:1。
其中,正实体对为知识库中存在的、具有连接关系的头实体和尾实体,正实体对的补全预测值为1;负实体对为知识库中不存在的头实体和尾实体,负实体对的补全预测值为0。
S202:基于知识库中三元组样本,采用逻辑回归算法对所述分类器训练模型进行训练,获取所述分类器训练模型的权重。
在本步骤中,构建一个分类器训练模型,学习每个连接头实体和尾实体之间的关系和这个关系包含的实体对集合,将预测关系问题转化成一个分类预测问题。其中,表示关系1至N所有的实体对集合,yi∈{0,1}表示为补全预测值,其中,0表示负实体对,即知识库中并不是实际存在的三元组,1表示正实体对,表示在知识库中实际存在的实体对。通过对知识库中的正负实体对进行分类器训练学习,可以获得测试集合中实体对的打分情况。通常这个分类器采用逻辑回归算法分类器训练模型进行训练。
具体来说,对于每个关系的实体对,通过上述步骤S101至步骤S105得到的关系路径特征向量Vr和实体属性特征向量Vl,以及正负实体对的补全预测值,通过定义如下的逻辑回归函数和每个关系下的实体对的补全预测值得到分类器训练模型的权重;
其中,f(v,w)为三元组的补全预测值,v为基于关系路径特征向量和实体属性特征向量形成的向量[Vr Vl],w为分类器训练模型的权重,Vr为关系路径特征向量,Vl为实体属性特征向量。
并采用对数损失函数来学习关系路径特征和实体属性特征的权重以及采用l1和l2的正则化模型,防止分类器训练模型的过拟合;在通过如下公式作为每个关系学习的损失函数;
其中,Lr表示给定关系r的损失函数,α和β分别是l1和l2的正则化模型中正则化惩罚项的权重,对于每个关系r采用随机梯度下降算法使得整个训练样本对数损失最小,同时结合l1和l2防止过拟合。最终可以学习得到每个关系r下的关系路径特征和实体属性特征的权重w。
从上述描述可知,结合实体属性特征和关系路径特征的分类器训练模型的补全方法相比只采用关系路径特征的补全方法有更高的准确性。
为更近一步的对本发明的方法进行详细说明,本法明提供一种知识库的补全方法的具体应用实例,具体内容如下:
在具体应用中构建了一个面向YAGO的知识库补全实例。YAGO是一个从网页上抽取的、包含地理名词、WordNet等数据的知识库。而YAGO2是YAGO的一个实例,当前YAGO2包括超过千万的实体和超过1.2亿的实体知识,使用了其中实体的关系型三元组和属性型三元组共有4,484,914条、37种关系型三元组的事实描述,同时有3,353,659条、35种属性性三元组的事实描述。
为了生成测试评价数据集,首先从每种关系中抽取正实体对,对于每个正实体对<头实体,尾实体>,生成10个负实体对,其中5个随机替换头实体对,5个随机替换尾实体对。基于这种方法,生成了训练集和测试集,比例为4:1,这个数据集被称为YAGOall数据集。此外,还考虑到很多实体对缺少实体属性特征数据,在结合关系路径特征和实体属性特征中预测效果提升不明显,因而采用算法过滤掉YAGOall中缺失实体属性特征的实体对,构建了第二个知识图谱补全数据集合,称之为YAGOlit
如上所述,模型抽取方法分为三步,第一步,基于PRA和SFE算法对YAGO2中出现的三十多种关系分别进行关系路径特征抽取,并计算这些关系路径特征相应的特征值。第二步,对于每个实体对hi和ti,计算这个实体对的实体属性特征,将属性特征和关系特征结合,组成新的特征矩阵作为模型训练的特征矩阵。第三步,对于每个给定关系抽取的特征矩阵构建逻辑回归模型,进行模型训练,从而预测知识库中新的三元组。
表1展示了测试样本中关系的种类,训练数据集和测试数据集的大小,其中包含两个数据集一个是YAGO2全量数据集称之为YAGOall,一个是选择头尾实体有更多属性特征的数据集合称之为YAGOlit
表1评测数据详情
表格2展示了四种测评实验方法。实验方法称为IRL,并将IRL方法和PRA、SFE进行比较,同时也测试了将实体属性特征进行标准化和不进行标准化的情况下,最终实验结果的差异。抽取关系路径特征和PRA、SFE抽取方法相同,都是基于随机游走方法进行处理关系特征,因此考虑了采用不同关系路径特征抽取方法对实验结果的影响。
表2 IRL四种评测实验
本发明采用MAP对预测结果进行评价,MAP同时考虑到知识图谱补全中的精度和召回度,计算每个正实体对在所有实体对中出现的序列的平均值进行评价,数值越大,表明模型预测的新三元组准确性更高,MAP被很多知识图谱补全技术作为评价指标。本发明算法和路径排序算法PRA和子图特征抽取SFE方法进行对比。表3展示了两个实验数据集的规模。
本发明展示了YAGOall和YAGOlit两种不同方法的结果,方法和对比方法被分为两组,PRA、IRLPRA和SFE、IRLSFE在同一个组中使用相同的关系路径特征,在表2中使用比较了不同的方法的平均精度即MAP在不同方法下的计算结果。结果显示,结合实体属性特征和关系路径特征的补全技术,相比只采用关系路径特征的补全技术有更高的准确性。
表3 YAGOall和YAGOlit知识库补全MAP评测结果
结果显示,结合实体属性特征的知识图谱补全方法相比于只基于路径特征的知识图谱补全方法,结果有较大的提升。在YAGOall数据集合上,相比其他模型,有着较大的提升结果,在YAGOlit数据集合上,结果显示IRLSFE都获得了非常显著的结果提升。同时IRLPRA获得了5%的结果提升,而IRLSFE获得了6%的提升。
基于上述实验可以获得如下结论:预测知识库中新三元组通过结合关系路径特征和实体属性特征能更加的精确有效。其次,由于YAGOlit相比YAGOall数据集合,有更加的多的属性事实进行关系预测,因此,结合属性事实和关系事实进行预测是非常重要的。第三,对于某些特殊的关系,进行标准化处理是非常有效的,但是并非对于所有的属性事实进行标准化有效。
本发明的实验结果表明,对于多数YAGO2中的关系来说,本发明属性事实不仅可以用来预测关系事实,而且还能调整原来的关系特征的路径权重,使得模型预测更加合理。结合属性事实和关系特征事实能非常大的提高模型预测的准确度。因此,结合属性事实和更丰富的关系特征能获得更好的知识库补全结果。
本发明实施例二提供了一种知识库的补全装置,参见图2,该补全装置具体包括:
输入单元10,用于确定知识库中的目标关系以及所述目标关系对应的实体对集合;
第一参数单元20,用于获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;
获取单元30,用于在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;
处理单元40,用于对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;
其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值;
第二参数单元50,用于所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;
预测单元60,用于将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;
补全单元70,用于将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
所述第一参数单元20,包括:
抽取模块,用于采用随机游走法抽取所述实体对集合中每个实体对的关系路径特征。
由上述技术方案可知,本发明所述的一种知识库的补全装置,通过一个将知识库中的关系路径特征和实体属性特征相结合的知识库补全模型,对知识库中的实体关系进行预测,从而进行知识库的补全,能更加有效补全知识库中未知的关系实体对,使得知识库补全和关系预测具有更高的平均准确率和平均召回率。
本发明实施例三提供了一种电子设备,参见图3,该电子设备可以包括:处理器11、存储器12、总线13及存储在存储器12上并可在处理器11上运行的计算机程序;
其中,所述处理器11,存储器12通过所述总线13完成相互间的通信;
所述处理器11执行所述计算机程序时实现上述各方法实施例所提供的方法,例如包括:确定知识库中的目标关系以及所述目标关系对应的实体对集合;获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值;根据所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
本发明实施例五提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例所提供的方法,例如包括:确定知识库中的目标关系以及所述目标关系对应的实体对集合;获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值;根据所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置/系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种知识库的补全方法,其特征在于,包括:
确定知识库中的目标关系以及所述目标关系对应的实体对集合;
获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;
在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;
对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;
其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值进行归一化;
根据所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;
将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;
将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
2.根据权利要求1所述的补全方法,其特征在于,获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量,包括:
采用随机游走法抽取所述实体对集合中每个实体对的关系路径特征。
3.根据权利要求2所述的补全方法,其特征在于,所述关系路径特征的长度在2到6个关系路径之间。
4.根据权利要求1所述的补全方法,其特征在于,在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值,包括:
所述头实体不存在对应的实体属性特征值,则将头实体对应的实体属性特征值设置为零;
所述尾实体不存在对应的实体属性特征值,则将尾实体对应的实体属性特征值设置为零。
5.根据权利要求1所述的补全方法,其特征在于,基于知识库中三元组样本,采用逻辑回归算法对所述分类器训练模型进行训练,获取所述分类器训练模型的权重。
6.根据权利要求5所述的补全方法,其特征在于,所述分类器训练模型的逻辑回归函数为:
其中,f(v,w)为三元组的补全预测值,v为基于关系路径特征向量和实体属性特征向量形成的向量[Vr Vl],w为分类器训练模型的权重,Vr为关系路径特征向量,Vl为实体属性特征向量。
7.一种知识库的补全装置,其特征在于,包括:
输入单元,用于确定知识库中的目标关系以及所述目标关系对应的实体对集合;
第一参数单元,用于获取所述实体对集合中每个实体对的关系路径特征,多个所述关系路径特征形成关系路径特征向量;
获取单元,用于在所述知识库中获取所述每个实体对中头实体所对应的实体属性特征值和尾实体所对应的实体属性特征值;
处理单元,用于对所述头实体对应的实体属性特征值和所述尾实体对应的实体属性特征值分别进行归一化处理,获取所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值;
其中,所述归一化实体属性特征值的差值为:所述头实体的实体属性特征值与所述尾实体的实体属性特征值之间的差值;
第二参数单元,用于所述头实体的归一化实体属性特征值、所述尾实体的归一化实体属性特征值以及归一化实体属性特征值的差值形成实体属性特征向量;
预测单元,用于将所述关系路径特征向量和所述实体属性特征向量作为输入特征矩阵,输入至分类器训练模型中,获取基于所述关系路径特征向量和所述实体属性特征向量形成的三元组的补全预测值;
补全单元,用于将所述补全预测值大于0.5的所述三元组确定为所述知识库的补全三元组。
8.根据权利要求7所述的补全装置,其特征在于,所述第一参数单元,包括:
抽取模块,用于采用随机游走法抽取所述实体对集合中每个实体对的关系路径特征。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线;其中,
处理器和存储器通过总线完成相互间的通信;
处理器用于调用存储器中的程序指令,以执行权利要求1-6任一项所述的知识库的补全方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1-6任一项所述的知识库的补全方法。
CN201810085005.7A 2018-01-29 2018-01-29 一种知识库的补全方法及补全装置 Pending CN108304933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810085005.7A CN108304933A (zh) 2018-01-29 2018-01-29 一种知识库的补全方法及补全装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810085005.7A CN108304933A (zh) 2018-01-29 2018-01-29 一种知识库的补全方法及补全装置

Publications (1)

Publication Number Publication Date
CN108304933A true CN108304933A (zh) 2018-07-20

Family

ID=62866992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810085005.7A Pending CN108304933A (zh) 2018-01-29 2018-01-29 一种知识库的补全方法及补全装置

Country Status (1)

Country Link
CN (1) CN108304933A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582802A (zh) * 2018-11-30 2019-04-05 国信优易数据有限公司 一种实体嵌入方法、装置、介质及设备
CN109614495A (zh) * 2018-08-08 2019-04-12 广州初星科技有限公司 一种结合知识图谱和文本信息的相关公司挖掘方法
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN110008351A (zh) * 2019-03-08 2019-07-12 浙江大学 一种面向隐式冲突检测的结构化功能知识补全方法
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110427524A (zh) * 2019-08-05 2019-11-08 北京百度网讯科技有限公司 知识图谱补全的方法、装置、电子设备及存储介质
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111522959A (zh) * 2020-07-03 2020-08-11 科大讯飞(苏州)科技有限公司 实体分类方法、系统和计算机可读存储介质
CN111612493A (zh) * 2019-02-26 2020-09-01 北京嘀嘀无限科技发展有限公司 一种用户分群方法及装置
CN111640511A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质
CN111680164A (zh) * 2020-04-28 2020-09-18 国网内蒙古东部电力有限公司 一种基于路径排序技术的电力科技知识图谱实体关系预测方法
CN112131399A (zh) * 2020-09-04 2020-12-25 牛张明 基于知识图谱的老药新用分析方法和系统
CN112148883A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种知识图谱的嵌入表示方法及相关设备
CN112417171A (zh) * 2020-11-23 2021-02-26 南京大学 面向知识图谱表示学习的数据增广方法
CN112487787A (zh) * 2020-08-21 2021-03-12 中国银联股份有限公司 一种基于知识图谱确定目标信息的方法和装置
CN112567355A (zh) * 2018-09-04 2021-03-26 北京京东尚科信息技术有限公司 用于知识库补全的端到端的结构感知卷积网络
CN113495963A (zh) * 2020-03-19 2021-10-12 复旦大学 网络安全知识图谱的嵌入表示方法及装置
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN104036051A (zh) * 2014-07-04 2014-09-10 南开大学 一种基于标签传播的数据库模式摘要生成方法
CN105550227A (zh) * 2015-12-07 2016-05-04 中国建设银行股份有限公司 一种命名实体识别方法及装置
EP3101128A1 (en) * 2006-12-21 2016-12-07 BASF Enzymes LLC Amylases and glucoamylases, nucleic acids encoding them and methods for making and using them
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN106951783A (zh) * 2017-03-31 2017-07-14 国家电网公司 一种基于深度神经网络的伪装入侵检测方法及装置
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN107506372A (zh) * 2017-07-11 2017-12-22 哈尔滨工业大学深圳研究生院 一种机器人客服在混合类型会话下的自动会话切换方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3101128A1 (en) * 2006-12-21 2016-12-07 BASF Enzymes LLC Amylases and glucoamylases, nucleic acids encoding them and methods for making and using them
CN103824115A (zh) * 2014-02-28 2014-05-28 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN104036051A (zh) * 2014-07-04 2014-09-10 南开大学 一种基于标签传播的数据库模式摘要生成方法
CN105550227A (zh) * 2015-12-07 2016-05-04 中国建设银行股份有限公司 一种命名实体识别方法及装置
CN106909622A (zh) * 2017-01-20 2017-06-30 中国科学院计算技术研究所 知识图谱向量表示方法、知识图谱关系推理方法及系统
CN106951499A (zh) * 2017-03-16 2017-07-14 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
CN106951783A (zh) * 2017-03-31 2017-07-14 国家电网公司 一种基于深度神经网络的伪装入侵检测方法及装置
CN107506372A (zh) * 2017-07-11 2017-12-22 哈尔滨工业大学深圳研究生院 一种机器人客服在混合类型会话下的自动会话切换方法
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614495A (zh) * 2018-08-08 2019-04-12 广州初星科技有限公司 一种结合知识图谱和文本信息的相关公司挖掘方法
CN109614495B (zh) * 2018-08-08 2023-11-28 深圳市宏骏大数据服务有限公司 一种结合知识图谱和文本信息的相关公司挖掘方法
CN112567355A (zh) * 2018-09-04 2021-03-26 北京京东尚科信息技术有限公司 用于知识库补全的端到端的结构感知卷积网络
CN109582802B (zh) * 2018-11-30 2020-11-03 国信优易数据股份有限公司 一种实体嵌入方法、装置、介质及设备
CN109582802A (zh) * 2018-11-30 2019-04-05 国信优易数据有限公司 一种实体嵌入方法、装置、介质及设备
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN111612493A (zh) * 2019-02-26 2020-09-01 北京嘀嘀无限科技发展有限公司 一种用户分群方法及装置
CN111612493B (zh) * 2019-02-26 2023-10-27 北京嘀嘀无限科技发展有限公司 一种用户分群方法及装置
CN110008351B (zh) * 2019-03-08 2021-05-18 浙江大学 一种面向隐式冲突检测的结构化功能知识补全方法
CN110008351A (zh) * 2019-03-08 2019-07-12 浙江大学 一种面向隐式冲突检测的结构化功能知识补全方法
CN112148883A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种知识图谱的嵌入表示方法及相关设备
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110427524A (zh) * 2019-08-05 2019-11-08 北京百度网讯科技有限公司 知识图谱补全的方法、装置、电子设备及存储介质
CN113495963A (zh) * 2020-03-19 2021-10-12 复旦大学 网络安全知识图谱的嵌入表示方法及装置
CN113495963B (zh) * 2020-03-19 2023-03-14 复旦大学 网络安全知识图谱的嵌入表示方法及装置
CN111680164A (zh) * 2020-04-28 2020-09-18 国网内蒙古东部电力有限公司 一种基于路径排序技术的电力科技知识图谱实体关系预测方法
CN111476035B (zh) * 2020-05-06 2023-09-05 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111476035A (zh) * 2020-05-06 2020-07-31 中国人民解放军国防科技大学 中文开放关系预测方法、装置、计算机设备和存储介质
CN111640511A (zh) * 2020-05-29 2020-09-08 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质
CN111640511B (zh) * 2020-05-29 2023-08-04 北京百度网讯科技有限公司 医疗事实验证的方法、装置、电子设备及存储介质
CN111522959A (zh) * 2020-07-03 2020-08-11 科大讯飞(苏州)科技有限公司 实体分类方法、系统和计算机可读存储介质
CN111522959B (zh) * 2020-07-03 2021-05-28 科大讯飞(苏州)科技有限公司 实体分类方法、系统和计算机可读存储介质
CN112487787A (zh) * 2020-08-21 2021-03-12 中国银联股份有限公司 一种基于知识图谱确定目标信息的方法和装置
CN112131399A (zh) * 2020-09-04 2020-12-25 牛张明 基于知识图谱的老药新用分析方法和系统
CN112417171B (zh) * 2020-11-23 2023-10-03 南京大学 面向知识图谱表示学习的数据增广方法
CN112417171A (zh) * 2020-11-23 2021-02-26 南京大学 面向知识图谱表示学习的数据增广方法
CN113901151A (zh) * 2021-09-30 2022-01-07 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质
CN113901151B (zh) * 2021-09-30 2023-07-04 北京有竹居网络技术有限公司 用于关系抽取的方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN108304933A (zh) 一种知识库的补全方法及补全装置
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
TWI746814B (zh) 電腦可讀介質、車險風險預測裝置及伺服器
CN103927394B (zh) 一种基于svm的多标签主动学习分类方法及系统
CN109145171B (zh) 一种多尺度地图数据更新方法
CN104798043B (zh) 一种数据处理方法和计算机系统
CN105069470A (zh) 分类模型训练方法及装置
CN108228877A (zh) 基于学习排序算法的知识库补全方法及装置
CN111667050B (zh) 度量学习方法、装置、设备及存储介质
CN107844653A (zh) 一种油藏水驱开发潜力综合评价方法及装置
CN108647800A (zh) 一种基于节点嵌入的在线社交网络用户缺失属性预测方法
CN106600052A (zh) 一种基于时空轨迹的用户属性与社会网络检测系统
EP4322031A1 (en) Recommendation method, recommendation model training method, and related product
CN114944053A (zh) 一种基于时空超图神经网络的交通流预测方法
CN110580489A (zh) 一种数据对象的分类系统、方法以及设备
CN107203558A (zh) 对象推荐方法和装置、推荐信息处理方法和装置
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
WO2022100607A1 (zh) 一种神经网络结构确定方法及其装置
CN109885745A (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN106776757A (zh) 用户完成网银操作的指示方法及装置
Sharif et al. CaFIRST: A context-aware hybrid fuzzy inference system for the similarity measure of multivariate trajectories
Wu et al. Weakly-and Semi-supervised Graph CNN for identifying basal cell carcinoma on pathological images
CN108229572B (zh) 一种参数寻优方法及计算设备
CN109886299A (zh) 一种用户画像方法、装置、可读存储介质及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180720