CN110110092A

CN110110092A - 一种知识图谱构建方法及相关设备

Info

Publication number: CN110110092A
Application number: CN201811160745.9A
Authority: CN
Inventors: 韩旭红
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-08-09
Anticipated expiration: 2038-09-30
Also published as: CN110110092B

Abstract

本发明公开了一种知识图谱构建方法及相关装置，方法包括：获取语料数据；对语料数据中的多个语句利用预设的实体对关系进行实体对匹配，得到匹配结果；利用训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果，训练结果至少包括语句中各词语在语句中的权重值；基于权重值满足第一预设条件的词语生成关系模板；基于正例语句及其概率值和负例语句及其概率值，计算关系模板的概率值；确定关系模板中概率值满足第三预设条件的目标关系模板，并对语句中的实体对利用目标关系模板计算相应实体对关系的比例值；选取实体对关系的比例值满足第四预设条件的实体对进行知识图谱的构建。

Description

一种知识图谱构建方法及相关设备

技术领域

本申请涉及数据处理技术领域，特别涉及一种知识图谱构建方法及相关设备。

背景技术

知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。知识图谱技术是人工智能技术的组成部分，其强大的语义处理和互联组织能力，为智能化信息应用提供了基础。最近，大规模知识图谱库的研究和应用在学术界和工业界引起了足够的注意力。一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。随着人工智能的技术发展和应用，知识图谱作为关键技术之一，已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。

知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发，采用一系列自动或者半自动的技术手段，从原始数据库和第三方数据库中提取知识事实，并将其存入知识库的数据层和模式层。当前知识图谱构建方法主要有以下几种：一种为人工构建，通过人工整理结构化数据得到，这种方案通常存在耗时耗力构建效率较低的问题；另一种为自动构建，主要通过NLP技术对数据进行实体抽取，再通过模板匹配或者分类模型获取实体之间的关系，从而构建知识图谱，这种方案中虽然能够提高构建效率，但是分类模型仍然需要大量人工标注训练语料，导致仍然存在效率较低的问题，而且通过模板匹配或分类模型对从数据抽取到的实体进行关系获取时会产生很多噪声，导致构建准确率较低。

因此，亟需一种能够准确构建知识图谱的实现方案。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的知识图谱的构建准确率较低的技术问题。

借由上述技术方案，本发明提供的一种知识图谱构建方法，包括：

获取语料数据，所述语料数据中包括多个语句；

对所述多个语句利用预设的实体对关系进行实体对匹配，得到匹配结果，所述匹配结果表明所述语句是否包含实体正例或者实体负例；

利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果，所述训练结果至少包括所述语句为正例语句或负例语句的概率值以及所述语句中各词语在所述语句中的权重值；

基于所述权重值满足第一预设条件的词语、所述语句中实体词语中间的词语及其前后词语中N个参数值满足第二预设条件的词语，生成关系模板，N为大于或等于1的正整数；

基于所述正例语句及其概率值和所述负例语句及其概率值，计算所述关系模板的概率值；

确定所述关系模板中概率值满足第三预设条件的目标关系模板，并对所述语句中的实体对利用所述目标关系模板计算相应实体对关系的比例值；

选取所述实体对关系的比例值满足第四预设条件的实体对进行知识图谱的构建。

上述方法，优选的，在计算所述关系模板的概率值之后，所述方法还包括：

基于所述关系模板的概率值，调整所述语料数据中的语句，并基于调整后的语料数据重新计算所述关系模板的概率值，直到所述关系模板的概率值满足第五预设条件。

上述方法，优选的，所述第五预设条件，包括：所述关系模板概率值高于预设阈值且所述关系模板的概率值收敛。

上述方法，优选的，所述关系模板包括正例关系模板和负例关系模板；

所述基于所述关系模板的概率值，调整所述语料数据中的语句，包括：

基于所述正例关系模板的概率值和所述负例关系模板的概率值，增加或减少所述语料数据中与所述正例关系模板相对应的语句，和/或，增加或减少所述语料数据中与所述负例关系模板相对应的语句。

上述方法，优选的，利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果，包括：

对包含实体正例的语句和包含实体负例的语句中的实体对使用对应的替代词语代替；

获取所述替代词语在所述语句中相邻的多个词语；

获取所述多个词语的逆文本频率指数；

获取所述语句中实体对的实体位置和距离标识；

将所述多个词语、所述多个词语的逆文本频率指数、所述实体位置和所述距离标识作为训练特征输入到预设的深度学习模型中，并运行所述深度学习模型，得到训练结果。

上述方法，优选的，运行所述深度学习模型，包括：

执行所述深度学习模型并在所述深度学习模型中执行预设的注意力机制，得到训练结果，所述训练结果包括至少包括所述语句为正例语句或负例语句的概率值以及所述语句中各词语在所述注意力机制下的权重值。

上述方法，优选的，基于所述正例语句及其概率值和所述负例语句及其概率值，计算所述关系模板的概率值，包括：

利用计算所述关系模型的概率值；

其中，probability_positive表示训练为正例语句的概率值，probability_negative表示训练为负例语句的概率值，Counter(pred_positive)表示训练为正例语句的语句数量，Counter(pred_negative)表示训练为负例语句的语句数量，p_m为所述关系模型的概率值。

上述方法，优选的，所述目标关系模板中包括目标正例关系模板和目标负例关系模板；

其中，所述对所述语句中的实体对利用所述目标关系模板计算相应实体对关系的比例值，包括：

抽取所述语句中的实体对；

利用比例值＝(匹配所述目标正例关系模板的语句数量-匹配所述目标负例关系模板的语句数量)/匹配所述目标关系模板的语句数量，得到实体对关系的比例值。

本申请还提供了一种知识图谱构建装置，包括：

语料获取单元，用于获取语料数据，所述语料数据中包括多个语句；

实体对匹配单元，用于对所述多个语句利用预设的实体对关系进行实体对匹配，得到匹配结果，所述匹配结果表明所述语句是否包含实体正例或实体负例；

深度学习单元，用于利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果，所述训练结果至少包括所述语句为正例语句或负例语句的概率值以及所述语句中各词语在所述语句中的权重值；

模板生成单元，用于基于所述权重值满足第一预设条件的词语、所述语句中实体词语中间的词语及其前后词语中N个参数值满足第二预设条件的词语，生成关系模板，N为大于或等于1的正整数；

模板概率计算单元，用于基于所述正例语句及其概率值和所述负例语句及其概率值，计算所述关系模板的概率值；

比例值计算单元，用于确定所述关系模板中概率值满足第三预设条件的模板关系模板，并对所述语句中的实体对利用所述目标关系模板计算相应实体对关系的比例值；

图谱构建单元，用于选取所述实体对关系的比例值满足第四预设条件的实体对进行知识图谱的构建。

本申请还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的知识图谱构建方法。

本申请还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的知识图谱构建方法。

由以上方案可知，本申请提供的一种知识图谱构建方法及相关设备，首先通过预设的实体对关系对语句进行实体对匹配，进而对包含实体正例和实体负例的语句进行深度学习训练，进而得到语句为正例语句或负例语句的概率值以及各词语在语句中的权重值，进而基于权重值满足第一预设条件的词语生成具有相应特征词语的关系模板，并利用概率值满足相应条件的目标关系模板来对语句中的实体对进行比例值计算，进而将比例值满足条件的实体对构建成知识图谱。可见，本申请中通过预设实体对关系实现半监督的知识图谱构建，并结合深度学习模型来得到语句为正例或负例的概率以及各词语的权重值，从而生成准确率较高的关系模板，由此提高利用该关系模板所构建的知识图谱的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例一提供的一种知识图谱构建方法的流程图；

图2示出了本申请实施例一的另一流程图；

图3示出了本申请实施例一的部分流程图；

图4示出了本申请实施例二提供的一种知识图谱构建装置的流程图；

图5示出了本申请实施例提供的一种存储介质的结构示意图；

图6示出了本申请实施例提供的一种处理器的结构示意图；

图7示出了本申请实施例提供的一种设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参考图1，为本申请实施例一提供的一种知识图谱构建方法的实现流程图，该方法适用于对海量语料数据进行实体对抽取并构建相应的知识图谱，用于人工智能领域。相应的，本实施例中的方法可以运行在具有数据处理能力的计算机、服务器等设备中。

具体的，本实施例中的方法可以包括以下步骤：

步骤101：获取语料数据。

其中，语料数据中可以包括有多个语句。本实施例中可以通过网络爬虫等技术在网络上或者预设的数据库中获取多个语句，即语料数据。

步骤102：对多个语句利用预设的实体对关系进行实体匹配，得到匹配结果。

其中，匹配结果表明语句是否包含实体正例或实体负例，包含实体正例的语句是指：语句中包含实体对关系中的所有实体词语，包含实体负例的语句是指：语句中没有包含实体对关系中的所有实体词语，如只包含一个实体词语。例如，对于实体1和实体2组成的实体对关系，语句A中包含实体1和实体2，语句B中包含实体1，此时，语句A即为包含实体正例的语句，语句B为包含实体负例的语句。

具体的，例如，本实施例中根据已有的实体对关系，比如“首都”关系中，“中国”-“北京”、“日本”-“东京”、“英国”-“伦敦”是当前知识图谱中确定已有的“首都”实体对关系。通过爬取大量语料数据后，对当前已有的实体对匹配，保留实体对成分共现的句子作为初始实体正例，保留只包含实体对其一的句子作为初始实体负例。另外，将实体对成分用符号或替代词语代替，例如，上述关系中，“中国”、“日本”、“英国”用“country”替代，“北京”、“东京”、“伦敦”用“capital”代替。

步骤103：利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果。

其中，训练结果中至少包括有语句为正例语句或负例语句的概率值，还包括有：语句中各词语在语句中的权重值。

具体的，本实施例中可以利用深度学习模型或其他机器学习分类模型如长短期记忆网络LSTM(Long Short-Term Memory)等模型对上述匹配出的包含实体正例的语句和包含实体负例的语句进行分类训练，得到的训练结果中包含每个语句属于正例语句或负例语句的概率值，本实施例中的这些概率值表征语句属于正例语句或负例语句的置信度，即认为语句为正例语句或负例语句的可能性；另外，本实施例中可以利用深度学习模型中的attention机制对包含实体正例的语句和包含实体负例的语句进行训练，以得到在注意力机制各词语在其语句中的权重值。

步骤104：基于权重值满足第一预设条件的词语、语句中实体词语中间的词语及其前后词语中N个参数值满足第二预设条件的词语，生成关系模板。

其中，第一预设条件可以为：权重值高于预设的权重阈值，如注意力机制下的词语权重值大于预设的权重阈值；第二预设条件可以为参数值大于预设的参数阈值，如逆文本频率指数tfidf大于预设的指数阈值等，而N为大于或等于1的正整数。

需要说明的是，本实施例中除了可以利用attention机制计算语句中词语在注意力机制下的权重值作为生成关系模板的特征词语，本实施例中也可以利用其它机器学习分类算法来对语句中的各词语的特征值进行计算作为权重值，从而生成关系模板。另外，本实施例中除了可以使用tfidf值作为参数值来区分正例或负例词语之外，还可以采用卡方或信息熵等方案来得到相应的参数值，以此来选取相应的词语作为关系模板生成的基础数据。

而语句中实体词语是指语句中表示为实体意义的词语，而实体词语中间的词语的前后词语是指，在实体词语中间的词语前后相邻的词语，非实体词语。

需要说明的是，此时所生成的关系模板中可以有多个，可以分别对应于一个或多个语句，当然根据所对应的正例语句或负例语句，关系模板至少可以分为正例关系模板和负例关系模板。

步骤105：基于正例语句及其概率值和负例语句及其概率值，计算关系模板的概率值。

其中，本实施例中可以通过对这些正例语句的概率值及负例语句的概率值采用相应的算法或公式进行计算，以得到关系模板的概率值，当然包括正例关系模板的概率值及负例关系模板的概率值。

步骤106：确定关系模板中概率值满足第三预设条件的目标关系模板。

其中，第三预设条件可以为：关系模板的概率值高于预设的模板概率阈值。也就是说，本实施例中在所有生成的关系模板中对概率值进行比较，从而选取出概率值高于预设的模板概率阈值的一个关系模板作为目标关系模板。

步骤107：对语句中的实体对利用目标关系模板计算相应实体对关系的比例值。

其中，这里的比例值可以表征实体对在语料数据中语句中实体对与目标关系模板相一致的占比，占比越大，表明语料数据中包含目标关系模板的语句越到，那么语句中与目标关系模板相一致的实体对的置信度越高。

步骤108：选取实体对关系的比例值满足第四预设条件的实体对进行知识图谱的构建。

其中，第四预设条件可以为比例值高于预设的比例阈值。

由以上方案可知，本申请实施例一提供的一种知识图谱构建方法，首先通过预设的实体对关系对语句进行实体对匹配，进而对包含实体正例和实体负例的语句进行深度学习训练，进而得到语句为正例语句或负例语句的概率值以及各词语在语句中的权重值，进而基于权重值满足第一预设条件的词语生成具有相应特征词语的关系模板，并利用概率值满足相应条件的目标关系模板来对语句中的实体对进行比例值计算，进而将比例值满足条件的实体对构建成知识图谱。可见，本实施例中通过预设实体对关系实现半监督的知识图谱构建，并结合深度学习模型来得到语句为正例或负例的概率以及各词语的权重值，从而生成准确率较高的关系模板，由此提高利用该关系模板所构建的知识图谱的准确率。

在一种实现方式中，在步骤105之后，所述方法还可以包括有以下步骤，如图2中所示：

步骤109：基于关系模板的概率值，调整语料数据中的语句，并返回步骤102至步骤105，以基于调整后的语料数据重新计算关系模板的概率值，直到关系模板的概率值满足第五预设条件。

其中，第五预设条件可以为：关系模板的概率值高于预设阈值如0.8且高于预设阈值的概率值收敛。这里的概率值收敛可以理解为：相邻两次计算得到的关系模板的概率值之间的差值小于预设的差值阈值如0.01等。

另外，本实施例中还可以对计算得到的关系模板的概率值进行人工修正，例如使得修正后的关系模板概率值(权重)设为1，或者，对概率值过高的关系模板设置限制阈值，由此不仅可以加快迭代收敛速度，还可以防止关系模板概率值过高出现异常，从而提高后续知识图谱构建的准确性及效率。

基于前文中描述，关系模板可以包括有正例关系模板和负例关系模板，相应的，本实施例中的步骤109在调整语料数据中的语句时，具体可以通过以下方式实现：

基于正例关系模板的概率值和负例关系模板的概率值，增加或减少语料数据中与正例关系模板相对应的语句，和/或，增加或减少语料数据中与负例关系模板相对应的语句。

具体的，基于正例关系模板的概率值与负例关系模板的概率值之间的大小关系或比例关系，相应的，对正例关系模板对应的语句进行增加或减少，和/或，对负例关系模板对应的语句进行增加或减少。

例如，如果正例关系模板的概率值高于负例关系模板的概率值，在新的语料中爬取正例关系模板对应的语句或者增加语料数据中正例关系模板对应的语句，和/或，减少语料数据中负例关系模板对应的语句，以拉开重新计算的正例关系模板的概率值和负例关系模板的概率值之间的差距；

如果正例关系模板的概率值高于负例关系模板的概率值，在新的语料中爬取正例关系模板对应的语句或者增加语料数据中正例关系模板对应的语句，和/或，在新的语料中爬取负例关系模板对应的语句或者增加语料数据中负例关系模板对应的语句，以拉开重新计算的正例关系模板的概率值和负例关系模板的概率值之间的差距；

如果正例关系模板的概率低于负例关系模板的概率值，在新的语料中爬取正例关系模板对应的语句或者增加语料数据中正例关系模板对应的语句，和/或，减少负例关系模板对应的语句或少量增加负例关系模板对应的语句，以使得重新计算的正例关系模板的概率值高于负例关系模板的概率值；

如果正例关系模板的概率值高于负例关系模板的概率值，减少语料数据中正例关系模板对应的语句，和/或，在新的语料中爬取负例关系模板对应的语句或者增加语料数据中负例关系模板对应的语句，以拉开重新计算的正例关系模板的概率值和负例关系模板的概率值之间的差距；

如果正例关系模板的概率值高于负例关系模板的概率值，减少语料数据中正例关系模板对应的语句，和/或，减少语料数据中负例关系模板对应的语句，以拉开重新计算的正例关系模板的概率值和负例关系模板的概率值之间的差距，等等。

在一种实现方式中，图1中的步骤103在利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练时，具体可以通过以下步骤实现，如图3中所示：

步骤301：对包含实体正例的语句和包含实体负例的语句中的实体对使用对应的替代词语代替。

其中，替代词语可以为预设的实体对关系中的实体词语，如“首都”和“国家”等，以这些替代词语替代语句中相应的词语，例如，在语句“记者从丹麦名为哥本哈根的位置发来报道”中，将“丹麦”替换为“国家”，将“哥本哈根”替换为“首都”，等等。

步骤302：获取替代词语所在语句中相邻的多个词语。

其中，本实施例中可以在语句中提取出替代后的替代词语前后多个词语进行获取，如获取“丹麦”和“哥本哈根”的前后6个词语：“从”、“名为”、“的”、“位置”、“发来”和“报道”。

需要说明的是，本实施例中在获得多个词语之后，还可以将预设的停用词去掉，如“的”和“了”等词语。另外，本实施例中可以在这些多个词语中选取M个词语。

其中，这里的M的值可以根据需求来预先设置，或者，这里的M即为语句中所包含的替代词语在语句中相邻的词语数量。

步骤303：获取多个词语的逆文本频率指数。

其中，本实施例中除了可以获取词语的逆文本频率指数来表征词语在语料中的出现频次，也可以获得多个词语的其他参数值表征词语在语句或语料中出现的频次参数。

步骤304：获取语句中实体对的实体位置和距离标识。

其中，实体位置和距离标识是指实体对在语句中以目标位置为坐标原点进行标记的相对位置和距离标识。例如，语句“中国的首都是北京。”中，“的”是停用词，去掉，分词去停用词之后的结果是“中国首都是北京。”对应的实体对，以北京为例，位置和距离标识分别为“-3 -2 -1 0 1”，即将当前词设置位置为0，前面词位置为相对于当前词语的位置即为实体位置，相应的距离标识即为实体位置相对于所设置的当前词的距离。当然对于另一实体词“中国”也需要添加同样的特征。

步骤305：将多个词语、多个词语的逆文本频率指数、实体位置和距离标识作为训练特征输入到预设的深度学习训练模型中，并运行深度学习模型，得到训练结果。

也就是说，本实施例中将前文中所获得到的各种特征都输入到深度学习模型中，由此运行深度学习模型得到训练结果。

具体的，本实施例中在运行深度学习模型时具体可以通过以下方式实现：

执行深度学习模型并在深度学习模型中执行预设的注意力机制，得到训练结果，由此得到的训练结果中至少包括有：语句为正例语句或负例语句的概率值，以及语句中各词语在注意力机制下的权重值。

例如，利用深度学习模型中的lstm模型对以上输入特征进行分类训练，得到每个语句属于正例语句或负例语句的概率值，并利用深度学习模型中的attention机制对以上输入特征进行注意力机制运行，得到attention权重值。

在一种实现方式中，本实施例中在步骤105在基于正例语句及其概率值和负例语句及其概率值，计算关系模板的概率值时，可以通过以下方式实现：

利用计算关系模型的概率值；

其中，probabity_positive表示训练为正例语句的概率值，probability_negative表示训练为负例语句的概率值，Counter(pred_positive)表示训练为正例语句的语句数量，Counter(pred_negative)表示训练为负例语句的语句数量，p_m为关系模型的概率值。

在一种实现方式中，关系模板中可以包括有正例关系模板和负例关系模板，相应的，目标关系模板中可以包括有目标正例关系模板和目标负例关系模板，本实施例中步骤107中在对语句中的实体对利用目标关系模板计算相应的实体对关系的比例值时，具体可以通过以下方式实现：

首先，抽取语句中的实体对。具体的，可以采用预收的实体词语抽取算法对语句中的实体词语进行抽取，进而抽取到语句中的实体对。

之后，利用以下公式进行计算：

比例值＝(匹配目标正例关系模板的语句数量-匹配目标负例关系模板的语句数量)/匹配目标关系模板的语句数量；

即：获取语料数据中匹配目标正例关系模板的语句数量、获得语料数据中匹配目标负例关系模板的语句数量，再获得匹配任一目标关系模板的语句数量，进而将这些语句数量填入到以上公式中，得到实体对关系的比例值。

参考图4，为本申请实施例二提供的一种知识图谱构建装置的结构示意图，该装置适用于对海量语料数据进行实体对抽取并构建相应的知识图谱，用于人工智能领域。相应的，本实施例中的方法可以运行在具有数据处理能力的计算机、服务器等设备中。

具体的，本实施例中的装置可以包括以下结构：

语料获取单元401，用于获取语料数据。

实体对匹配单元402，用于对多个语句利用预设的实体对关系进行实体对匹配，得到匹配结果。

深度学习单元403，用于利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果。

模板生成单元404，用于基于权重值满足第一预设条件的词语、语句中实体词语中间的词语及其前后词语中N个参数值满足第二预设条件的词语，生成关系模板。

模板概率计算单元405，用于基于正例语句及其概率值和负例语句及其概率值，计算关系模板的概率值。

比例值计算单元406，用于确定关系模板中概率值满足第三预设条件的模板关系模板，并对语句中的实体对利用目标关系模板计算相应实体对关系的比例值。

这里的比例值可以表征实体对在语料数据中语句中实体对与目标关系模板相一致的占比，占比越大，表明语料数据中包含目标关系模板的语句越到，那么语句中与目标关系模板相一致的实体对的置信度越高。

图谱构建单元407，用于选取实体对关系的比例值满足第四预设条件的实体对进行知识图谱的构建。

其中，第四预设条件可以为比例值高于预设的比例阈值。

由以上方案可知，本申请实施例二提供的一种知识图谱构建装置，首先通过预设的实体对关系对语句进行实体对匹配，进而对包含实体正例和实体负例的语句进行深度学习训练，进而得到语句为正例语句或负例语句的概率值以及各词语在语句中的权重值，进而基于权重值满足第一预设条件的词语生成具有相应特征词语的关系模板，并利用概率值满足相应条件的目标关系模板来对语句中的实体对进行比例值计算，进而将比例值满足条件的实体对构建成知识图谱。可见，本实施例中通过预设实体对关系实现半监督的知识图谱构建，并结合深度学习模型来得到语句为正例或负例的概率以及各词语的权重值，从而生成准确率较高的关系模板，由此提高利用该关系模板所构建的知识图谱的准确率。

需要说明的是，知识图谱构建装置包括处理器和存储器，上述语料获取单元401、实体对匹配单元402、深度学习单元403、模板生成单元404、模板概率计算单元405、比例值计算单元406及图谱构建单元407等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来通过预设的实体对关系对语句进行实体对匹配，进而对包含实体正例和实体负例的语句进行深度学习训练，进而得到语句为正例语句或负例语句的概率值以及各词语在语句中的权重值，进而基于权重值满足第一预设条件的词语生成具有相应特征词语的关系模板，并利用概率值满足相应条件的目标关系模板来对语句中的实体对进行比例值计算，进而将比例值满足条件的实体对构建成知识图谱。由此，处理器通过预设实体对关系实现半监督的知识图谱构建，并结合深度学习模型来得到语句为正例或负例的概率以及各词语的权重值，从而生成准确率较高的关系模板，由此提高利用该关系模板所构建的知识图谱的准确率。

而存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，如图5中所示，其上存储有程序，该程序运行时控制存储介质所在设备执行如图1-3中所示的知识图谱构建方法。

本发明实施例提供了一种处理器，如图6中所示，所述处理器用于运行如图5中所示的存储介质中存储的程序，其中，该程序运行时执行如图1-3中所示的知识图谱构建方法。

本发明实施例提供了一种设备，如图7中所示，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取语料数据，语料数据中包括多个语句；对多个语句利用预设的实体对关系进行实体对匹配，得到匹配结果，匹配结果表明语句是否包含实体正例或者实体负例；利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果，训练结果至少包括语句为正例语句或负例语句的概率值以及语句中各词语在语句中的权重值；基于权重值满足第一预设条件的词语、语句中实体词语中间的词语及其前后词语中N个参数值满足第二预设条件的词语，生成关系模板，N为大于或等于1的正整数；基于正例语句及其概率值和负例语句及其概率值，计算关系模板的概率值；确定关系模板中概率值满足第三预设条件的目标关系模板，并对语句中的实体对利用目标关系模板计算相应实体对关系的比例值；选取实体对关系的比例值满足第四预设条件的实体对进行知识图谱的构建；

其中，在计算关系模板的概率值之后，还包括：基于关系模板的概率值，调整语料数据中的语句，并基于调整后的语料数据重新计算关系模板的概率值，直到关系模板的概率值满足第五预设条件；

其中，第五预设条件，包括：关系模板概率值高于预设阈值且关系模板的概率值收敛；

其中，关系模板包括正例关系模板和负例关系模板；基于关系模板的概率值，调整语料数据中的语句，包括：基于正例关系模板的概率值和负例关系模板的概率值，增加或减少语料数据中与正例关系模板相对应的语句，和/或，增加或减少语料数据中与负例关系模板相对应的语句；

其中，利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果，包括：对包含实体正例的语句和包含实体负例的语句中的实体对使用对应的替代词语代替；获取替代词语在语句中相邻的多个词语；获取多个词语的逆文本频率指数；获取语句中实体对的实体位置和距离标识；将多个词语、多个词语的逆文本频率指数、实体位置和距离标识作为训练特征输入到预设的深度学习模型中，并运行深度学习模型，得到训练结果；

其中，运行深度学习模型，包括：执行深度学习模型并在深度学习模型中执行预设的注意力机制，得到训练结果，训练结果包括至少包括语句为正例语句或负例语句的概率值以及语句中各词语在注意力机制下的权重值；

其中，基于正例语句及其概率值和负例语句及其概率值，计算关系模板的概率值，包括：

利用计算关系模型的概率值；其中，probability_positive表示训练为正例语句的概率值，probability_negative表示训练为负例语句的概率值，Counter(pred_positive)表示训练为正例语句的语句数量，Counter(pred_negative)表示训练为负例语句的语句数量，p_m为关系模型的概率值；

其中，目标关系模板中包括目标正例关系模板和目标负例关系模板；对语句中的实体对利用目标关系模板计算相应实体对关系的比例值，包括：抽取语句中的实体对；利用比例值＝(匹配目标正例关系模板的语句数量-匹配目标负例关系模板的语句数量)/匹配目标关系模板的语句数量，得到实体对关系的比例值。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种知识图谱构建方法，其特征在于，包括：

获取语料数据，所述语料数据中包括多个语句；

2.根据权利要求1所述的方法，其特征在于，在计算所述关系模板的概率值之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述第五预设条件，包括：所述关系模板概率值高于预设阈值且所述关系模板的概率值收敛。

4.根据权利要求2所述的方法，其特征在于，所述关系模板包括正例关系模板和负例关系模板；

5.根据权利要求1或2所述的方法，其特征在于，利用预设的训练学习模型对包含实体正例的语句和包含实体负例的语句进行训练，得到训练结果，包括：

获取所述替代词语在所述语句中相邻的多个词语；

获取所述多个词语的逆文本频率指数；

获取所述语句中实体对的实体位置和距离标识；

6.根据权利要求5所述的方法，其特征在于，运行所述深度学习模型，包括：

7.根据权利要求1所述的方法，其特征在于，基于所述正例语句及其概率值和所述负例语句及其概率值，计算所述关系模板的概率值，包括：

利用计算所述关系模型的概率值；

8.根据权利要求1所述的方法，其特征在于，所述目标关系模板中包括目标正例关系模板和目标负例关系模板；

抽取所述语句中的实体对；

9.一种知识图谱构建装置，其特征在于，包括：

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的知识图谱构建方法。