CN111625659B

CN111625659B - 知识图谱处理方法、装置、服务器及存储介质

Info

Publication number: CN111625659B
Application number: CN202010768634.7A
Authority: CN
Inventors: 陈曦; 文瑞; 张子恒; 卢睿轩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-11-13
Anticipated expiration: 2040-08-03
Also published as: CN111625659A

Abstract

本申请提供了一种知识图谱处理方法、装置、服务器及存储介质，属于人工智能技术领域。该方法包括：基于知识图谱中的任一知识元组，获取知识元组对应的多个目标文本语料，知识元组包括知识图谱的多个实体中的任一实体对以及该实体对中实体之间的参考关系，目标文本语料包括实体对；基于多个目标文本语料进行关系抽取，将多个目标文本语料所表达的实体之间的关系属于参考关系的关系类别的概率，确定为关系参数；基于关系参数确定知识元组的置信度；将置信度满足目标处理条件的知识元组确定为待处理的知识元组。本申请基于包括知识元组中实体对的目标文本语料，确定知识元组的置信度，进而处理置信度满足条件的知识元组，能够提高知识图谱的准确性。

Description

知识图谱处理方法、装置、服务器及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种知识图谱处理方法、装置、服务器及存储介质。

背景技术

知识图谱是一种揭示实体之间关系的语义网络，已广泛应用于医疗、搜索、智能问答、个性化推荐等场景。随着人工智能技术的发展，知识图谱的自动化创建水平不断提高，但面临着准确性的挑战。

当前，为提高知识图谱的准确性，在知识图谱创建完成之后，会基于知识图谱中已有的知识，进行知识推理，来发现知识图谱中的矛盾关系，对矛盾关系进行纠正。

上述技术方案，仅基于知识图谱中已有的知识，进行准确性的校验，在噪声较大，也即错误知识较多的情况下，并不能准确的校验出错误知识，进而也无法进行纠正，因此，经过上述技术方案的处理之后，知识图谱的准确性仍然较低。

发明内容

本申请实施例提供了一种知识图谱处理方法、装置、服务器及存储介质，能够提高知识图谱的准确性。所述技术方案如下。

一方面，提供了一种知识图谱处理方法，所述方法包括：基于知识图谱中的任一知识元组，获取所述知识元组对应的多个目标文本语料，所述知识图谱包括多个实体以及所述实体之间的参考关系，所述知识元组包括所述多个实体中的任一实体对以及所述实体对中实体之间的参考关系，所述目标文本语料包括所述实体对；基于所述多个目标文本语料，进行关系抽取，得到所述多个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，所述多个关系类别包括所述参考关系的关系类别；将所述多个目标文本语料所表达的实体之间的关系属于所述参考关系的关系类别的概率，确定为所述多个目标文本语料对应的关系参数；基于所述关系参数，确定所述知识元组的置信度，所述置信度用于表示所述知识元组所包括的参考关系的可信程度；将所述置信度满足目标处理条件的知识元组确定为待处理的知识元组。

一方面，提供了一种知识图谱处理装置，所述装置包括：获取模块，用于基于知识图谱中的任一知识元组，获取所述知识元组对应的多个目标文本语料，所述知识图谱包括多个实体以及所述实体之间的参考关系，所述知识元组包括所述多个实体中的任一实体对以及所述实体对中实体之间的参考关系，所述目标文本语料包括所述实体对；关系抽取模块，用于基于所述多个目标文本语料，进行关系抽取，得到所述多个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，所述多个关系类别包括所述参考关系的关系类别；第一确定模块，用于将所述多个目标文本语料所表达的实体之间的关系属于所述参考关系的关系类别的概率，确定为所述多个目标文本语料对应的关系参数；第二确定模块，用于基于所述关系参数，确定所述知识元组的置信度，所述置信度用于表示所述知识元组所包括的参考关系的可信程度；第三确定模块，用于将所述置信度满足目标处理条件的知识元组确定为待处理的知识元组。

在一种可选的实现方式中，所述获取模块，用于：将所述知识元组所包括的所述实体对作为关键字进行搜索，得到所述知识元组对应的多个初始文本语料；对所述多个初始文本语料进行实体抽取，得到每个初始文本语料中的实体；将满足第一目标条件的初始文本语料确定为所述目标文本语料，所述第一目标条件为抽取到的实体中存在分别与所述实体对中的两个实体相同的实体。

在另一种可选的实现方式中，所述知识元组还包括所述实体对中实体的实体类型，所述目标文本语料还满足第二目标条件，所述第二目标条件为抽取到的实体对应的实体类型与所述知识元组所包括的所述实体对应的实体类型相同。

在另一种可选的实现方式中，所述获取模块，用于：基于所述实体对中的任一实体，获取所述实体对应的同义实体，所述同义实体与所述实体对中的另一实体的关系等同于所述参考关系；将所述实体替换为对应的同义实体，得到所述知识元组对应的扩充知识元组；将所述扩充知识元组对应的文本语料确定为所述目标文本语料，所述扩充知识元组对应的文本语料包括所述扩充知识元组中的实体对。

在另一种可选的实现方式中，所述装置还包括：识别模块，用于识别所述知识图谱对应的多个目标文本语料的句子结构；筛选模块，用于保留句子结构相同的多个目标文本语料中的一个。

在另一种可选的实现方式中，所述关系抽取模块，包括：第一关系抽取子模块，用于对所述多个目标文本语料分别进行关系抽取，得到每个目标文本语料所表达的实体之间的关系分别属于所述多个关系类别的概率；所述第一确定模块，用于：将每个目标文本语料所表达的实体之间的关系属于所述参考关系的关系类别的概率，确定为所述多个目标文本语料对应的第一关系参数。

在另一种可选的实现方式中，所述第一关系抽取子模块，用于：将每个目标文本语料输入到第一关系抽取模型中，得到每个目标文本语料所表达的实体之间的关系分别属于所述多个关系类别的概率，所述第一关系抽取模型用于对所述目标文本语料中的实体对的关系进行分类。

在另一种可选的实现方式中，所述关系抽取模块，包括：第二关系抽取子模块，用于对所述多个目标文本语料组成的包，进行关系抽取，得到所述包所表达的关系分别属于所述多个关系类别的概率，所述包所表达的关系为所述实体对的关系；所述第一确定模块，用于：将所述包所表达的关系属于所述参考关系的关系类别的概率，确定为所述多个目标文本语料对应的第二关系参数。

在另一种可选的实现方式中，所述第二关系抽取子模块，用于：将所述包输入到第二关系抽取模型中，得到所述包所表达的关系分别属于所述多个关系类别的概率，所述第二关系抽取模型用于对所述包所表达的关系进行分类。

在另一种可选的实现方式中，所述第二确定模块，用于：确定所述目标文本语料所属的数据源；获取所述数据源对应的来源参数，所述来源参数用于表示所述数据源的可靠程度；基于所述来源参数和所述关系参数，确定所述知识元组的置信度。

在另一种可选的实现方式中，所述第二确定模块，用于：获取所述目标文本语料的语料特征参数，所述语料特征参数用于表示所述目标文本语料的词序的合理程度；基于所述语料特征参数和所述关系参数，确定所述知识元组的置信度。

在另一种可选的实现方式中，所述第二确定模块，用于：将所述关系参数输入到置信度判别模型中，得到所述知识元组的置信度。

一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一可选的实现方式所述的知识图谱处理方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一可选的实现方式所述的知识图谱处理方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，服务器的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该服务器执行上述任一可选的实现方式所述的知识图谱处理方法。

本申请实施例提供的技术方案，对于知识图谱中的任一知识元组，获取包括该知识元组中的实体对的多个目标文本语料，将该多个目标文本语料作为判别知识元组的可信程度的参考语料，丰富了判别知识元组的可信程度的参考语料的来源，进而通过关系抽取，得到该多个目标文本语料所表达的关系为参考关系的概率，对知识元组的可信程度进行判别，降低了错误知识对知识元组可信程度判别的干扰，提高了判别知识元组可信程度的准确性，进而基于知识元组的可信程度，对知识图谱进行处理，能够提高知识图谱的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种知识图谱处理方法的流程图；

图3是本申请实施例提供的一种知识图谱处理方法的流程图；

图4是本申请实施例提供的一种确定知识元组的置信度的示意图；

图5是本申请实施例提供的一种BERT模型的示意图；

图6是本申请实施例提供的一种关系抽取模型的示意图；

图7是本申请实施例提供的一种确定知识元组的置信度的示意图；

图8是本申请实施例提供的一种置信度判别模型的示意图；

图9是本申请实施例提供的一种知识图谱处理装置的框图；

图10是本申请实施例提供的一种服务器的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任意变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

知识图谱是一种揭示实体之间关系的语义网络，对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库，具有强大的语义处理能力与开放互联能力，在自然语言处理、人工智能等领域展现了巨大潜力。知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式，使得网络的智能化水平更高，更加接近于人类的认知思维。要形成高质量的知识，还需要对知识图谱进行质量评估，其意义在于，通过对知识的可信度进行量化，保留置信度较高的，舍弃置信度较低的，来有效确保知识的质量。

目前，知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用，成为支撑这些应用发展的动力源泉。在医疗、金融、电商等垂直行业中，依靠特定行业的数据，构建行业知识图谱，使得知识图谱具有特定的行业意义。

本申请实施例提供的方案涉及人工智能的知识图谱、机器学习、深度学习等技术，具体通过如下实施例进行说明。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括服务器101和终端102。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务器101至少具有知识图谱的质量评估功能，能够对知识图谱中知识元组的可信程度进行量化，得到知识元组的置信度，通过保留置信度较高的，舍弃置信度较低的，来确保知识图谱的准确性。另外，知识图谱的构建功能、基于知识图谱为终端102提供后台服务的功能可以由服务器101实现，也可以由与服务器101关联的其他服务器实现。在本申请实施例中，以服务器101具有知识图谱的构建功能、质量评估功能以及基于知识图谱提供后台服务的功能为例进行说明。

终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。可选地，终端102上运行有客户端，如浏览器客户端、医疗类客户端或者购物类客户端等。终端102以及服务器101可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。可选地，服务器101基于知识图谱为终端102上运行的客户端提供后台服务。

在一种可选的实现方式中，服务器101基于医疗知识图谱为终端102上运行的医疗类客户端提供例如临床决策支持、医疗信息搜索、医疗问答等服务。以医疗信息搜索为例，用户通过终端102上的医疗类客户端，输入搜索信息，执行搜索操作；终端102响应于搜索操作，获取搜索信息，向服务器101发送携带该搜索信息的搜索请求；服务器101基于接收到的搜索请求中的搜索信息，从医疗知识图谱中查询该搜索信息对应的实体、实体之间的关系以及实体的属性等，得到搜索结果，向终端102返回该搜索结果。

在另一种可选的实现方式中，服务器101基于商品知识图谱为终端102上运行的购物类客户端提供例如智能客服、智能商品推荐等服务。以智能客服为例，用户通过终端102上的购物类客户端，进行客服聊天界面，输入问题信息，执行客服询问操作；终端102响应于客服询问操作，获取问题信息，向服务器101发送携带问题信息的问答请求；服务器101基于接收到的问答请求中的问题信息，从商品知识图谱中查询该问题信息对应的实体、实体之间的关系以及实体的属性等，得到回答结果，向终端102返回该回答结果。

图2是本申请实施例提供的一种知识图谱处理方法的流程图。在本申请实施例中，以服务器为执行主体为例进行说明，参见图2，该实施例包括以下步骤。

201、服务器基于知识图谱中的任一知识元组，获取该知识元组对应的多个目标文本语料，该知识图谱包括多个实体以及实体之间的参考关系，该知识元组包括多个实体中的任一实体对以及该实体对中实体之间的参考关系，该目标文本语料包括上述实体对。

知识图谱能够表示多个实体之间的关系。其中，知识图谱中的实体作为节点，两个实体之间的关系作为边，将对应的两个节点连接起来，形成一种结构化的知识网络。基于知识图谱中实体之间的关系，能够进行知识检索。

知识元组为知识图谱中的一个知识单元，用于表示两个实体之间的关系，上述两个实体组成一个实体对。例如，知识元组a为“<实体1，实体2，实体1与实体2的关系>”。可选地，不同的知识元组之间存在一个相同的实体，例如，知识图谱中的另一知识元组b为“<实体1，实体3，实体1与实体3的关系>”，知识元组a和知识元组b在知识图谱中表现为从实体1的节点延伸出的两条边，且上述两条边中一条边的另一端为实体2的节点，另一条边的另一端为实体3的节点。

知识元组对应的目标文本语料是判定该知识元组的可信程度的参考语料，该目标文本语料也包括该知识元组所包括的实体对。

202、服务器基于多个目标文本语料，进行关系抽取，得到多个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，多个关系类别包括参考关系的关系类别。

服务器在获取到知识元组对应的多个目标文本语料之后，对目标文本语料所包括的实体对的关系进行抽取，得到多个关系类别的概率，每个关系类别的概率用于表示目标文本语料所表达的实体之间的关系属于该关系类别的可能性。

203、服务器将多个目标文本语料所表达的实体之间的关系属于参考关系的关系类别的概率，确定为多个目标文本语料对应的关系参数。

服务器从多个关系类别的概率中，获取参考关系的关系类别的概率；将参考关系的关系类别的概率，确定为多个目标文本语料对应的关系参数。

204、服务器基于关系参数，确定知识元组的置信度，该置信度用于表示该知识元组所包括的参考关系的可信程度。

目标文本语料所包括的实体对与知识元组所包括的实体对相同，若目标文本语料所表达的实体之间的关系为参考关系的概率越大，则表示参考关系对实体之间关系的表达越准确，参考关系的可信程度越高。

205、服务器将置信度满足目标处理条件的知识元组确定为待处理的知识元组。

服务器基于置信度，确定出需要进行处理的知识元组，进而对确定出的知识元组进行处理，以提高知识图谱的准确性。

图3是本申请实施例提供的一种知识图谱处理方法的流程图。在本申请实施例中，以服务器为执行主体为例进行说明，参见图3，该实施例包括以下步骤。

301、对于知识图谱中的任一知识元组，服务器将该知识元组所包括的实体对作为关键字进行搜索，得到该知识元组对应的多个初始文本语料。

可选地，知识元组以三元组或五元组的形式来表示两个实体之间的关系，上述两个实体组成实体对。若知识元组为三元组的形式，该知识元组包括实体对以及该实体对的关系，该知识元组表示为“<实体1，实体2，实体1与实体2的关系>”，上述实体1和实体2组成实体对。

若知识元组为五元组的形式，该知识元组包括实体对、实体对中实体的实体类型以及该实体对的关系，该知识元组表示为“<实体1，实体2，实体1类型，实体2类型，实体1与实体2的关系>”，例如，在医疗知识图谱中，知识元组表示为“<硝苯地平，高血压，药品，疾病，药品-适应症-疾病>”。在本申请实施例中，以知识元组为五元组的形式为例进行说明。

文本语料为非结构化的文本数据。在一种可选的实现方式中，服务器预先存储有该知识图谱对应的原始文本语料，服务器将知识元组包括的实体对作为关键字，从预先存储的原始文本语料中进行搜索，得到知识元组对应的多个初始文本语料。例如，知识元组包括的实体对为硝苯地平和高血压，将该实体对作为关键字搜索得到的多个初始文本语料包括“老一代高血压药主要有硝苯地平片”、“高血压患者可以按期服用硝苯地平片”等。

可选地，服务器预先存储的原始文本语料是利用爬虫技术从多个不同的数据源中爬取得到的，多个不同的数据源包括搜索引擎、行业相关网站等。例如，对于医疗知识图谱，服务器从多个不同的搜索引擎和医学网站中爬取医疗相关的文本语料，作为该医疗知识图谱对应的原始文本语料。

本申请实施例提供的技术方案，从多个不同的数据源中，获取用于判别知识元组可信程度的参考语料，丰富了参考语料的来源，降低了数据来源的单一性，进而综合利用多源多领域的语料，对知识元组的可信程度进行判定，提高了确定知识元组的置信度的准确性，进而基于所确定的置信度，对知识图谱进行处理，能够进一步提高知识图谱的准确性。

需要说明的是，服务器需要从海量的原始文本语料进行筛选，以得到目标文本语料。服务器先基于关键字进行搜索，通过模糊匹配或者部分匹配的方式，得到多个初始文本语料，再从该多个初始文本语料中筛选得到目标文本语料，以提高目标文本语料的获取效率。由于通过模糊匹配或者部分匹配的方式进行搜索，初始文本语料中的文本内容与知识元组的实体对相匹配，但该初始文本语料中的实体对与知识元组中的实体对不一定相同，因此，还需要对初始文本语料进行实体抽取，以得到与知识元组中的实体对相同的目标文本语料。

302、服务器对上述多个初始文本语料进行实体抽取，得到每个初始文本语料中的实体以及实体的实体类型。

实体抽取的目的是从文本语料中识别出具有特定意义的实体。一个文本语料中通常能够识别出多个实体。服务器能够通过NER（Named Entity Recognition，命名实体识别）模型进行实体抽取，相应的，上述步骤302为：服务器将每个初始文本语料输入到NER模型中，得到每个初始文本语料中的实体以及实体的实体类型。

303、服务器基于初始文本语料中的实体以及实体的实体类型，将满足目标条件的初始文本语料确定为目标文本语料。

在一种可选的实现方式中，服务器将满足第一目标条件的初始文本语料确定为目标文本语料，第一目标条件为抽取到的实体中存在分别与实体对中的两个实体相同的实体，该实体对为知识元组所包括的实体对。例如，知识元组包括的实体对为硝苯地平和高血压，则从目标文本语料中抽取出的实体中包括硝苯地平和高血压。

需要说明的是，步骤301中的初始文本语料是以知识元组所包括的实体对作为关键字，进行搜索得到的，该初始文本语料中的文本内容与知识元组的实体对相匹配，但该初始文本语料中的实体与知识元组所包括的实体可能不同。因此，需要通过步骤302对初始文本语料进行实体抽取，得到该初始文本语料中的实体。若从一条初始文本语料中抽取到的实体中存在分别与知识元组中的两个实体相同的实体，才将该初始文本语料确定为目标文本语料。

例如，知识元组中的实体对为糖尿病和胰岛素，基于该实体对搜索得到的一个初始文本语料为“口服降糖药失效的II型糖尿病患者原用的口服降糖药剂量不变，还需要注射胰岛素进行联合治疗”，从该初始文本语料中抽取到的实体包括II型糖尿病、口服降糖药和胰岛素，初始文本语料中的实体“II型糖尿病”与知识元组中的实体“糖尿病”不同，该初始文本语料不满足第一目标条件，则该初始文本语料不能作为该知识元组对应的目标文本语料。

本申请实施例提供的技术方案，通过对初始文本语料进行实体抽取，在抽取到的实体中存在与知识元组中的两个实体相同的实体时，才将该初始文本语料作为用于判定知识元组的可信程度的目标文本语料，确保了目标文本语料具有与知识元组相同的实体，从而能够以相同实体为基础，判定知识元组中的参考关系的可信程度，减少由于实体不同导致实体之间的关系不同，进而错误判定参考关系的准确性的情况，提高确定知识元组的置信度的准确性，进而基于所确定的置信度，对知识图谱进行处理，能够进一步提高知识图谱的准确性。

在另一种可选的实现方式中，服务器将与知识元组中的实体相同且实体类型相同的初始文本语料确定为目标文本语料。相应的，目标文本语料还满足第二目标条件，第二目标条件为抽取到的实体对应的实体类型与知识元组所包括的该实体对应的实体类型相同。

例如，知识元组为“<硝苯地平，高血压，药品，疾病，药品-适应症-疾病>”，其中，硝苯地平对应的实体类型为药品，高血压对应的实体类型为疾病，若初始文本语料抽取到的实体中包括硝苯地平和高血压，且抽取到的硝苯地平对应的实体类型为药品，抽取到的高血压对应的实体类型为疾病，则将该初始文本语料确定为该知识元组对应的目标文本语料。

本申请实施例提供的技术方案，在知识元组包括实体类型时，还能够将与知识元组中的实体相同且实体类型相同的初始文本语料确定为目标文本语料，确保了目标文本语料具有与知识元组相同的实体以及实体类型，从而能够在相同实体和相同实体类型的基础上，判定知识元组中参考关系的可信程度，提高确定知识元组的置信度的准确性，进而基于所确定的置信度，对知识图谱进行处理，能够进一步提高知识图谱的准确性。

需要说明的一点是，在一种可选的实现方式中，服务器将任一知识元组扩充为与该知识元组同义的多个扩充知识元组，将该多个扩充知识元组对应的文本语料都作为该知识元组的目标文本语料。相应的，服务器获取知识元组对应的多个目标文本语料通过以下步骤1至步骤3实现。

步骤1、服务器基于知识元组所包括的实体对中的任一实体，获取该实体对应的同义实体，其中，同义实体与实体对中的另一实体的关系等同于参考关系。

可选地，服务器关联有同义实体库，该同义实体库中对应存储有实体以及该实体对应的同义实体。服务器能够基于任一实体，从同义实体库中查找该实体对应的同义实体。

在一种可选的实现方式中，实体1与实体2的关系对于实体1的同义词与实体2同样适用，实体1的同义实体为实体1的同义词。例如，实体为感冒，该实体所属实体对中的另一实体为鼻塞，感冒与鼻塞的关系为疾病和症状的关系，该实体的同义实体为伤风，伤风与鼻塞的关系同样为疾病和症状的关系。

在另一种可选的实现方式中，实体1与实体2的关系对于实体1的上位词与实体2同样适用，或者对于实体1的下位词与实体2同样适用，实体1的同义实体为实体1的上位词或下位词。

步骤2、服务器将该实体替换为对应的同义实体，得到该知识元组对应的扩充知识元组。

例如，实体3为实体1的同义实体，知识元组为“<实体1，实体2，实体1类型，实体2类型，实体1与实体2的关系>”，则该知识元组对应的一个扩充知识元组为“<实体3，实体2，实体1类型，实体2类型，实体1与实体2的关系>”。

步骤3、服务器将扩充知识元组对应的文本语料确定为目标文本语料，其中，扩充知识元组对应的文本语料包括扩充知识元组中的实体对。

需要说明的是，服务器获取每个扩充知识元组对应的文本语料的过程与步骤301至步骤303同理。

本申请实施例提供的技术方案，对基本的知识元组进行扩充，将所得到的扩充知识元组对应的文本语料均作为该基本的知识元组的目标文本语料，从而能够基于该基本的知识元组，尽可能的召回更多相关的目标文本语料，进而充分考虑尽可能多的文本语料的影响，对知识元组的可信程度进行判定，提高确定知识元组的置信度的准确性，进而基于所确定的置信度，对知识图谱进行处理，能够进一步提高知识图谱的准确性。

304、服务器对所确定的多个目标文本语料进行筛选。

在一种可选的实现方式中，服务器筛选掉句子结构重复的目标文本语料，保留一种句子结构的一个目标文本语料。相应的，上述步骤304为：服务器识别知识图谱对应的多个目标文本语料的句子结构；保留句子结构相同的多个目标文本语料中的一个。

例如，目标文本语料1为“龙戟草别名遍地香”，目标文本语料2为“金钱草别名铜钱草”，目标文本语料3为“半夏别名守田”，上述目标文本语料的句子结构均为“A别名B”，则上述目标文本语料中保留一个即可。

本申请实施例提供的技术方案，通过筛选掉句子结构重复的文本语料，实现句子同结构去重，减少同结构的冗余数据，降低多个相同句子结构的文本语料对可信程度判定的干扰，提高确定知识元组的置信度的准确性，进而基于所确定的置信度，对知识图谱进行处理，能够进一步提高知识图谱的准确性。

在另一种可选的实现方式中，服务器基于实体的出现频次，对该实体对应的目标文本语料进行筛选。相应的，上述步骤304通过以下步骤3041至步骤3043实现。

步骤3041、服务器基于知识图谱对应的多个目标文本语料，确定知识图谱中任一实体的第一出现频次，该第一出现频次为命中该实体的目标文本语料的数量。

知识图谱中的任一实体能够被多个目标文本语料命中，命中某个实体的目标文本语料的数量即为该实体的第一出现频次。

步骤3042、服务器获取该实体的第二出现频次，该第二出现频次为该实体在知识图谱的创建过程中被抽取到的次数。

知识图谱中的知识来源于结构化、半结构化和非结构化的信息资源。服务器需要对上述信息资源进行实体抽取，得到多个实体，再对实体之间的关系进行抽取，形成知识图谱。在上述过程中，服务器能够记录每个实体被抽取到的次数，作为该实体的第二出现频次。

步骤3043、服务器响应于该实体的第一出现频次小于第一阈值，且第二出现频次小于第二阈值，从知识图谱中删除该实体，以及丢弃命中该实体的目标文本语料。

可选地，上述步骤3043中的第一阈值和第二阈值可以为预设的任一数值，例如，第一阈值为10，第二阈值为15。若某个实体在知识图谱创建过程中的出现频次很低，且该实体对应的目标文本语料的数量很少，则表明该实体属于较为冷门的知识，利用率较低，可以从知识图谱中删除，并且丢弃命中该实体的目标文本语料。

本申请实施例提供的技术方案，通过筛选掉知识图谱中出现频次较低的实体以及该实体对应的目标文本语料，减少了对利用率较低的知识进行验证所消耗的资源，能够提高资源利用率以及验证知识图谱准确性的效率。

在另一种可选的实现方式中，服务器基于目标文本语料的句子长度进行筛选，相应的，上述步骤304为：服务器确定目标文本语料的字符数；保留字符数小于第三阈值的目标文本语料。可选地，第三阈值为预设的任一数值，例如，第三阈值为120。

本申请实施例提供的技术方案，对目标文本语料的句子长度进行控制，使得用于判别知识元组准确性的目标文本语料包括有限数量的实体，从而减少句子中多个实体对关系抽取的干扰，并且，使得实体对中的两个实体在句子中存在有限距离，进而能够更加准确的确定出两个实体之间的关系，基于所确定的关系，对知识元组的可信程度进行判定，能够提高确定知识元组的置信度的准确性，进而基于所确定的置信度，对知识图谱进行处理，能够进一步提高知识图谱的准确性。

需要说明的一点是，在一种可选的实现方式中，服务器通过上述一种或者多种可选的实现方式的结合，来对所确定的多个目标文本语料进行筛选，以基于筛选后的多个目标文本语料，提高知识图谱的准确性，在该示例中，对服务器筛选目标文本语料的方式，不加以限定。在另一种可选的实现方式中，服务器不对所确定的多个目标文本语料进行筛选，也即服务器在执行步骤303之后，直接执行步骤305或步骤307。

需要说明的一点是，通过上述步骤301至步骤304得到目标文本语料的过程，也即是远程监督的过程，远程监督是一种利用知识图谱与非结构化的文本语料进行对齐，从而获取自动标注的文本语料的机器学习方法。本申请基于远程监督的方法，召回与知识元组相关的目标文本语料，基于目标文本语料，判别知识元组的可信程度。其中，知识元组对应的多个目标文本语料称为一个bag（包），组成bag的每个目标文本语料包含与知识元组相同的两个实体，可选地，组成bag的多个目标文本语料还包含与知识元组相同的两个实体的同义实体。bag中的每个目标文本语料称为instance（示例）。

为了使获取知识元组对应的多个目标文本语料的过程更加清晰，参见图4，图4是本申请实施例提供的一种确定知识元组的置信度的示意图，以知识元组是五元组为例，当输入一个五元组，将该五元组通过上下位扩充和同义词扩充中的一种或多种方式，得到该五元组对应的扩充知识元组；通过召回系统401，基于该五元组以及该五元组对应的扩充知识元组，获取该五元组对应的多个初始文本语料；通过步骤302至步骤304，对多个初始文本语料进行数据预处理，筛选得到多个目标文本语料。其中，召回系统401中存储有从多个不同的搜索引擎以及医学网站中爬取到的原始文本语料，可选地，该召回系统401基于Elasticsearch（一种分布式、高扩展、高实时的搜索与数据分析引擎）框架，从已存储的原始文本语料中进行搜索，得到知识元组对应的多个初始文本语料，以保证获取初始文本语料的高效性。

通过数据预处理得到知识元组对应的多个目标文本语料之后，基于关系抽取模型402，对多个目标文本语料进行关系抽取，得到第一关系参数和第二关系参数；基于第一关系参数和第二关系参数，得到知识元组的置信度。

305、服务器对筛选后的多个目标文本语料分别进行关系抽取，得到每个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率。

多个关系类别为基于知识图谱预设的关系类别。例如，知识图谱为医疗知识图谱，多个关系类别包括适应症、典型症状、发病机制、所属科室、病因、临床表现等。服务器能够基于目标文本语料所表达的实体之间的关系分别属于上述多个关系类别的概率，来确定目标文本语料所表达的实体之间的关系属于哪一种关系类别。

服务器能够基于关系抽取模型，对每个目标文本语料进行关系抽取，得到多个关系类别的概率。相应的，上述步骤305为：服务器将每个目标文本语料输入到第一关系抽取模型中，得到每个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，其中，第一关系抽取模型用于对目标文本语料中的实体对的关系进行分类。

可选地，第一关系抽取模型用于确定实体对的关系分别属于多个关系类别的概率。其中，多个关系类别中包括参考关系，每个关系类别的概率用于表示实体对的关系属于该关系类别的可能性。例如，目标文本语料为“老一代高血压药主要有硝苯地平片”，该目标文本语料中的实体对为高血压和硝苯地平，第一关系抽取模型对应的多个关系类别包括适应症、典型症状和发病机制，则将目标文本语料输入到第一关系抽取模型中，得到的输出包括适应症的概率为0.895，典型症状的概率为0.024，发病机制的概率为0.081。

在一种可选的实现方式中，第一关系抽取模型为基于BERT（BidirectionalEncoder Representation from Transformers，基于转换器的双向编码表示）模型的关系抽取模型。BERT模型是一种预训练语言表示模型，基于BERT模型得到的目标文本语料的向量，能够应用在关系抽取任务中，确定目标文本语料中实体对的关系。参见图5，图5是本申请实施例提供的一种BERT模型500的示意图，该BERT模型的输入为一个目标文本语料，也即Single Sentence（单个句子）；将该目标文本语料拆分为多个词，该多个词由Tok 1至Tok N来表示，N表示该目标文本语料所包括的词的数量，CLS位于多个词的首位，作为目标文本语料的标志位；将拆分出的词转换为对应的Embedding（嵌入）向量，由E1至EN表示；将多个词对应的Embedding向量通过BERT模型得到表征向量C；基于该表征向量C对实体对的关系进行分类，得到类别标签（Class Label）。可选地，类别标签为向量，向量的每一维分别为多个关系类别的概率。

需要说明的一点是，可选地，第一关系抽取模型基于其他关系抽取方法得到，例如，第一关系抽取模型为基于LSTM（Long Short-Term Memory，长短期记忆网络）的关系抽取模型。在本申请实施例中，仅以第一关系抽取模型为基于BERT模型的关系抽取模型为例进行说明，对第一关系抽取模型的训练方法及应用方法，不加以限定。

306、服务器将每个目标文本语料所表达的实体之间的关系属于参考关系的关系类别的概率，确定为多个目标文本语料对应的第一关系参数。

服务器从每个目标文本语料对应的多个关系类别的概率中，获取参考关系的关系类别的概率；将参考关系的关系类别的概率，确定为每个目标文本语料的第一关系参数。例如，多个关系类别的概率包括适应症的概率为0.895，典型症状的概率为0.024，发病机制的概率为0.081，参考关系为适应症，则多个目标文本语料对应的一个第一关系参数为0.895。

需要说明的一点是，任一目标文本语料的第一关系参数用于表示该目标文本语料所包括的实体对的关系为参考关系的概率，上述实体对与知识元组中包括的实体对相同。在多个目标文本语料中，部分目标文本语料真实表达的关系是参考关系，另一部分目标文本语料真实表达的关系不是参考关系，真实表达参考关系的目标文本语料的数量越多，多个目标文本语料中干净数据的比例越高，则表示参考关系越可信，因此，在每个目标文本语料的维度上，通过第一关系参数来表示参考关系的可信程度。

307、服务器对筛选后的多个目标文本语料组成的包，进行关系抽取，得到该包所表达的关系分别属于多个关系类别的概率。

该包所表达的关系为知识元组中的实体对的关系。服务器能够基于关系抽取模型，对多个目标文本语料组成的包进行关系抽取，得到多个关系类别的概率，相应的，上述步骤307为：服务器将多个目标文本语料组成的包输入到第二关系抽取模型中，得到该包所表达的关系分别属于多个关系类别的概率，该第二关系抽取模型用于对包所表达的关系进行分类。

在一种可选的实现方式中，第二关系抽取模型基于PCNN（PiecewiseConvolutional Neural Networks，分段式卷积神经网络）和Attention（注意力）机制训练得到。参见图6，图6是本申请实施例提供的一种关系抽取模型600的示意图，通过该关系抽取模型600，得到多个关系类别的概率的过程为：服务器将包中的多个目标文本语料输入到第二关系抽取模型中；对于每个目标文本语料，以目标文本语料中实体所在的位置为切分点，将目标文本语料切分为多个分段；基于第二关系抽取模型，确定多个分段的词向量和位置向量，得到多个分段的特征向量；通过卷积神经网络对多个分段的特征向量进行卷积操作，得到多个分段的卷积特征；对该卷积特征进行分段最大池化操作，得到目标文本语料的特征向量；获取每个目标文本语料对应的权重，该权重是基于Attention机制为每个目标文本语料赋予的；基于每个目标文本语料的特征向量以及每个目标文本语料对应的权重，得到该包的特征向量；将包的特征向量通过Softmax（一种逻辑回归模型）分类函数，得到该包所表达的关系分别属于多个关系类别的概率。可选地，服务器通过预训练好的word2vec（word to vector，用于产生词向量的相关模型），得到多个分段的特征向量。

需要说明的一点是，可选地，第二关系抽取模型基于其他关系抽取方法得到，例如，第二关系抽取模型基于强化学习的方法得到。在本申请实施例中，仅以第二关系抽取模型基于PCNN和Attention机制得到为例进行说明，对第二关系抽取模型的训练方法及应用方法，不加以限定。

308、服务器将该包所表达的关系属于参考关系的关系类别的概率，确定为多个目标文本语料对应的第二关系参数。

多个关系类别中包括参考关系的关系类别，服务器从多个关系类别的概率中，获取参考关系的关系类别的概率；将该参考关系的关系类别的概率确定为第二关系参数。

需要说明的另一点是，可选地，服务器基于第一关系参数或第二关系参数中的任意一种，来确定知识元组的置信度，则服务器执行步骤305至步骤306或步骤307至步骤308中任一即可。服务器能够基于第一关系参数，以单个目标文本语料为单位，对知识元组中参考关系的可信程度进行判别，但不同关系之间的噪声程度本身就存在差异，某些关系的平均噪声比例相比于其他关系较低，如果仅以单个目标文本语料为单位，对知识元组中参考关系的可信程度进行判别有失偏颇，因此，在第一关系参数的基础上，还综合考虑以多个目标语料这一整体为单位，对参考关系的可信程度进行判别，以进一步提高判别的准确性，在本申请实施例中，以服务器基于第一关系参数和第二关系参数，确定知识元组的置信度为例进行说明。

需要说明的另一点是，步骤305至步骤306与步骤307至步骤308没有严格的时间先后顺序，在一种可选的实现方式中，服务器先执行步骤305至步骤306，再执行步骤307至步骤308；在另一种可选的实现方式中，服务器先执行步骤307至步骤308，再执行步骤305至步骤306；在另一种可选的实现方式中，服务器同时执行步骤305至步骤306和步骤307至步骤308，在本申请实施例中，对步骤305至步骤306和步骤307至步骤308执行的先后顺序，不加以限定。

309、服务器基于第一关系参数和第二关系参数，确定知识元组的置信度，该置信度用于表示该知识元组所包括的参考关系的可信程度。

在一种可选的实现方式中，服务器通过置信度判别模型，对第一关系参数和第二关系参数进行处理，得到知识元组的置信度，相应的，上述步骤309为：服务器将第一关系参数和第二关系参数输入到置信度判别模型中，得到知识元组的置信度。可选地，该置信度为参考关系可信的概率。

例如，参见图7，图7是本申请实施例提供的一种确定知识元组的置信度的示意图，知识元组701为“<硝苯地平，高血压，药品，疾病，药品-适应症-疾病>”，多个目标文本语料702包括“老一代高血压药主要有硝苯地平片”、“高血压患者可以按期服用硝苯地平片”以及“研究表明硝苯地平片对高血压有降压效果”，上述多个目标文本语料702中每个目标文本语料对应的第一关系参数分别为0.895、0.887、0.986等，由上述多个目标文本语料组成的包对应的第二关系参数为0.932；基于该第一关系参数和第二关系参数，得到该知识元组的置信度为0.947，表示知识元组中的参考关系有0.947的概率可信。

本申请实施例提供的技术方案，基于第一关系参数和第二关系参数，确定知识元组的置信度，第二关系参数用于对一个包中的多个目标文本语料这一整体所表达的关系为参考关系的概率进行度量，结合第一关系参数和第二关系参数，对参考关系的可信程度的度量更加全面，能够提高确定参考关系的可信程度的准确性。

可选地，置信度判别模型为基于GBDT（Gradient Boosting Decision Tree，梯度提升迭代决策树）和LR（Logistic Regression，逻辑回归）的融合分类器。参见图8，图8是本申请实施例提供的一种置信度判别模型800的示意图，输入特征分别遍历GBDT的多个树分类器，得到多个预测结果，其中，每个预测结果分别落在每个树分类器的某一个叶子节点上，预测结果由0或1表示；上述多个预测结果构成用于输入LR的特征编码，该特征编码作为LR的输入特征，通过LR模型进行分类，得到知识元组的置信度。

例如，继续参见图8，输入特征遍历左边的树分类器，得到的预测结果落在w1对应的叶子节点上，该树分类器的预测结果为[0,1,0]；输入特征遍历右边的树分类器，得到的预测结果落在w4对应的叶子节点上，该树分类器的预测结果为[0,1]，则用于输入LR的特征编码为[0,1,0,0,1]，将该特征编码作为LR模型的输入，得到知识元组的置信度，该置信度为0.947，用于表示参考关系有0.947的概率可信。

可选地，该置信度判别模型基于XGBoost（eXtreme Gradient Boosting，极端梯度提升）训练得到。其中，XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。XGBootst实质上是一个并行加速的机器学习库，能够大幅度提高置信度判别模型的性能。

本申请实施例提供的技术方案，将关系参数作为判别知识元组置信度的特征，输入到机器学习得到的分类器中，进行参考关系的可信程度的判别，相较于基于关系参数的简单叠加进行判别，将关系参数更有力的融合到了参考关系可信程度的判别中，提高了确定参考关系的可信程度的准确性。

需要说明的一点是，可选地，置信度判别模型基于其他神经网络模型得到，在本申请实施例中，仅以置信度判别模型基于GBDT和LR得到为例进行说明，对置信度判别模型的训练方法及应用方法，不加以限定。

需要说明的另一点是，服务器在关系参数的基础上，还能够结合目标文本语料所属的数据源的可靠程度，对参考关系的可信程度进行判别。相应的，上述步骤309通过以下步骤30901至步骤30902实现。

步骤30901、服务器确定目标文本语料所属的数据源；获取该数据源对应的来源参数，该来源参数用于表示该数据源的可靠程度。

不同数据源的可靠程度不同，目标文本语料的可靠程度由其所属的数据源的可靠程度来进行表示。在一种可选的实现方式中，来源参数为针对数据源的可靠程度预设的数值。

在另一种可选的实现方式中，来源参数由数据源对应的平均关系语料准确率来表示，该平均关系语料准确率为衡量语料来源是否可信的数值特征。对于任一个数据源来说，平均关系语料准确率为多个关系语料准确率的平均值，任一种关系的关系语料准确率为多个正确表达该种关系的文本语料占该种关系对应的多个文本语料的比例。

例如，多个文本语料中来源于数据源X的文本语料的数量为100，其中，基于远程监督确定的表达A关系的文本语料的数量为40，正确表达A关系的文本语料的数量为30，关系A对应的关系语料准确率为0.75；基于远程监督确定的表达B关系的文本语料的数量为40，正确表达B关系的文本语料的数量为10，关系B对应的关系语料准确率为0.25；基于远程监督确定的表达C关系的文本语料的数量为30，正确表达C关系的文本语料的数量为18，关系C对应的关系语料准确率为0.6；则数据源X的来源参数为0.53，表示该数据源中的文本语料能够正确表达某种关系的概率为0.53。

需要说明的一点是，在一种可选的实现方式中，平均关系语料准确率基于各个数据源对应的多个目标文本语料确定。在另一种可选的实现方式中，平均关系语料准确率在基于来源参数进行知识元组的置信度判别之前，随机选取各个数据源中的多个文本语料，进行平均关系语料准确率的确定。

步骤30902、服务器基于该来源参数和关系参数，确定知识元组的置信度。

服务器将来源参数和关系参数作为置信度判别模型的输入，得到知识元组的置信度。上述步骤30902与服务器将第一关系参数和第二关系参数输入到置信度判别模型中，得到知识元组的置信度的步骤同理。

本申请实施例提供的技术方案，还结合目标文本语料所属的数据源的可靠程度，对目标文本语料对应的知识元组的可信程度进行判别，使得对于知识元组可信程度的判别所基于的特征更加全面，进而能够提高确定知识元组的置信度的准确性。

需要说明的另一点是，若所获得的目标文本语料难以理解，通顺程度过低，则该目标文本语料不是正常可靠的文本语料，进而认为该目标文本语料对应的知识元组是不可靠的，因此，服务器在关系参数的基础上，还能够结合目标文本语料的通顺程度，对参考关系的可信程度进行判别，相应的，上述步骤309通过以下步骤30911至步骤30912实现。

步骤30911、服务器获取目标文本语料的语料特征参数，该语料特征参数用于表示目标文本语料的词序的合理程度。

在一种可选的实现方式中，服务器基于N-Gram（N元模型，一种基于统计语言模型的算法）算法，确定目标文本语料的语料特征参数，该语料特征参数为表示目标文本语料的词序的合理程度的概率。其中，N-Gram算法能够判断句子中的词的出现顺序是否符合语序，也即是否通顺，在一定程度上表示语料质量。

步骤30912、服务器基于语料特征参数和关系参数，确定知识元组的置信度。

服务器通过上述步骤30911，分别获取多个目标文本语料中每个目标文本语料的语料特征参数，得到多个语料特征参数；将该多个语料特征参数的平均值作为该多个目标文本语料的平均语料特征参数；将平均语料特征参数和关系参数作为置信度判别模型的输入，得到知识元组的置信度。上述步骤30912与服务器将第一关系参数和第二关系参数输入到置信度判别模型中，得到知识元组的置信度的步骤同理。

本申请实施例提供的技术方案，还结合目标文本语料的词序的合理程度，对目标文本语料对应的知识元组的可信程度进行判别，使得判别知识元组可信程度所基于的特征更加全面，进而能够提高确定知识元组的置信度的准确性。

需要说明的另一点是，可选地，服务器在关系参数的基础上，结合目标文本语料所属的数据源以及目标文本语料的语料特征参数中的一种或多种，确定知识元组的置信度。

本申请实施例提供的技术方案，将深度学习的关系抽取模型和传统机器学习分类模型相结合，在人工数据标注较少的情况下构建鲁棒性更高的综合框架，综合第一关系参数、第二关系参数、来源参数以及语料特征参数对知识元组的置信度进行判定，以评估知识的准确性，实现了对知识图谱的自动化校验，基于模型的轻量优势，在现有知识图谱中，校验每个知识元组所需的时间仅为2毫秒，满足实时部署的要求，提高了判别知识元组的可信程度的效率；并且，能够通过类似的方法，对不同的知识图谱进行校验，相较于人工总结编写校验规则的方式，提高了可扩展性和可移植性。

310、服务器将置信度满足目标处理条件的知识元组确定为待处理的知识元组。

若该知识元组的置信度较高，则表示该知识元组的可信程度较高，为正确知识；若该知识元组的置信度较低，则表示该知识元组的可信程度较低，为错误知识。可选地，上述目标处理条件为置信度不大于目标处理阈值，步骤310为：服务器将置信度不大于目标处理阈值的知识元组确定为待处理的知识元组。其中，目标处理阈值为预设的数值，例如，目标处理阈值为0.95、0.98等。

服务器确定知识元组置信度的主要作用是识别知识图谱中的错误知识，以对错误知识进行处理，提高知识图谱的准确性和可靠性，相应的，服务器将置信度满足目标处理条件的知识元组确定为待处理的知识元组之后，对待处理的知识元组进行处理。在一种可选的实现方式中，服务器对知识图谱的处理方式为保留正确知识，删除错误知识，则服务器删除该待处理的知识元组。在另一种可选的实现方式中，服务器能够基于知识图谱中的正确知识，对错误知识进行推理和纠正，也即，服务器基于置信度不满足目标处理条件的知识元组，对置信度满足目标处理条件的知识元组进行推理和纠正。在另一种可选的实现方式中，服务器能够对错误知识进行标注，以通过人工辅助纠正该错误知识，相应的，服务器能够对置信度满足目标处理条件的知识元组进行标注，将标注后的知识元组发送至终端，以使终端对应的用户对该知识元组进行纠正。

本申请实施例提供的技术方案，针对自动化创建的知识图谱准确率较低、冲突知识较多的问题，提供了一种多源知识校验框架。在该多源知识校验框架的基础上，采用一定的召回策略，召回与知识元组相关的文本语料；再通过关系抽取模型，得到所召回的文本语料的关系参数；综合利用关系参数、文本语料的来源参数和语料特征参数等特征，对知识元组的置信度进行判别，剔除不可信的知识，从而提高知识图谱中知识的准确性和可靠性。上述技术方案不需要相关领域的专家进行知识图谱的人工校验，自动化程度较高，能够应用在大规模知识图谱的校验工作中，并且，利用多源多领域的文本语料综合判断知识图谱中知识的可靠程度，充分考虑尽可能多的数据影响，能够提高确定知识元组的置信度的准确性，进而基于所确定的置信度，对知识图谱进行处理，在知识图谱噪声较大的场景下，也能够保证知识图谱的质量，使其达到业务可用标准，进一步提高了知识图谱的准确性。

上述技术方案，对大规模的行业知识图谱进行校验的准确率已达到95%，提高了判别知识元组可信程度的准确性，进而基于知识元组的置信度，纠正可信程度较低的错误知识，在现有知识图谱中，已完成30%左右错误知识的纠正，极大的提高了知识图谱的准确性和可靠性。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图9是本申请实施例提供的一种知识图谱处理装置的框图。参见图9，该装置包括：获取模块901、关系抽取模块902、第一确定模块903、第二确定模块904以及第三确定模块905。

获取模块901，用于基于知识图谱中的任一知识元组，获取知识元组对应的多个目标文本语料，知识图谱包括多个实体以及实体之间的参考关系，知识元组包括多个实体中的任一实体对以及实体对中实体之间的参考关系，目标文本语料包括实体对。

关系抽取模块902，用于基于多个目标文本语料，进行关系抽取，得到多个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，多个关系类别包括参考关系的关系类别。

第一确定模块903，用于将多个目标文本语料所表达的实体之间的关系属于参考关系的关系类别的概率，确定为多个目标文本语料对应的关系参数。

第二确定模块904，用于基于关系参数，确定知识元组的置信度，置信度用于表示知识元组所包括的参考关系的可信程度。

第三确定模块905，用于将置信度满足目标处理条件的知识元组确定为待处理的知识元组。

在一种可选的实现方式中，获取模块901，用于：将知识元组所包括的实体对作为关键字进行搜索，得到知识元组对应的多个初始文本语料；对多个初始文本语料进行实体抽取，得到每个初始文本语料中的实体；将满足第一目标条件的初始文本语料确定为目标文本语料，第一目标条件为抽取到的实体中存在分别与实体对中的两个实体相同的实体。

在另一种可选的实现方式中，知识元组还包括实体对中实体的实体类型，目标文本语料还满足第二目标条件，第二目标条件为抽取到的实体对应的实体类型与知识元组所包括的实体对应的实体类型相同。

在另一种可选的实现方式中，获取模块901，用于：基于实体对中的任一实体，获取实体对应的同义实体，同义实体与实体对中的另一实体的关系等同于参考关系；将实体替换为对应的同义实体，得到知识元组对应的扩充知识元组；将扩充知识元组对应的文本语料确定为目标文本语料，扩充知识元组对应的文本语料包括扩充知识元组中的实体对。

在另一种可选的实现方式中，该装置还包括：识别模块，用于识别知识图谱对应的多个目标文本语料的句子结构；筛选模块，用于保留句子结构相同的多个目标文本语料中的一个。

在另一种可选的实现方式中，关系抽取模块902，包括：第一关系抽取子模块，用于对多个目标文本语料分别进行关系抽取，得到每个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率；第一确定模块903，用于：将每个目标文本语料所表达的实体之间的关系属于参考关系的关系类别的概率，确定为多个目标文本语料对应的第一关系参数。

在另一种可选的实现方式中，第一关系抽取子模块，用于：将每个目标文本语料输入到第一关系抽取模型中，得到每个目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，第一关系抽取模型用于对目标文本语料中的实体对的关系进行分类。

在另一种可选的实现方式中，关系抽取模块902，包括：第二关系抽取子模块，用于对多个目标文本语料组成的包，进行关系抽取，得到包所表达的关系分别属于多个关系类别的概率，包所表达的关系为实体对的关系；第一确定模块903，用于：将包所表达的关系属于参考关系的关系类别的概率，确定为多个目标文本语料对应的第二关系参数。

在另一种可选的实现方式中，第二关系抽取子模块，用于：将包输入到第二关系抽取模型中，得到包所表达的关系分别属于多个关系类别的概率，第二关系抽取模型用于对包所表达的关系进行分类。

在另一种可选的实现方式中，第二确定模块904，用于：确定目标文本语料所属的数据源；获取数据源对应的来源参数，来源参数用于表示数据源的可靠程度；基于来源参数和关系参数，确定知识元组的置信度。

在另一种可选的实现方式中，第二确定模块904，用于：获取目标文本语料的语料特征参数，语料特征参数用于表示目标文本语料的词序的合理程度；基于语料特征参数和关系参数，确定知识元组的置信度。

在另一种可选的实现方式中，第二确定模块904，用于：将关系参数输入到置信度判别模型中，得到知识元组的置信度。

需要说明的是：上述实施例提供的知识图谱处理装置在对知识图谱进行处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的知识图谱处理装置与知识图谱处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本申请实施例提供的一种服务器的框图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（Central Processing Units，CPU）1001和一个或一个以上的存储器1002，其中，存储器1002中存储有至少一条程序代码，至少一条程序代码由处理器1001加载并执行以实现上述各个方法实施例提供的知识图谱处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，上述至少一条程序代码可由服务器中的处理器执行以完成上述实施例中的知识图谱处理方法。例如，计算机可读存储介质可以是ROM（Read-OnlyMemory，只读存储器）、RAM（Random Access Memory，随机存取存储器）、CD-ROM（CompactDisc Read-Only Memory，只读光盘）、磁带、软盘和光数据存储设备等。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，服务器的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该服务器执行上述各个方法实施例中的知识图谱处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种知识图谱处理方法，其特征在于，所述方法包括：

基于知识图谱中的任一知识元组，获取所述知识元组对应的多个目标文本语料，所述知识图谱包括多个实体以及所述实体之间的参考关系，所述知识元组包括所述多个实体中的任一实体对以及所述实体对中实体之间的参考关系，所述目标文本语料包括所述实体对；

对所述多个目标文本语料分别进行关系抽取，得到每个所述目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，所述多个关系类别包括所述参考关系的关系类别；

分别将每个所述目标文本语料所表达的实体之间的关系属于所述参考关系的关系类别的概率，确定为每个所述目标文本语料对应的一个第一关系参数，得到多个第一关系参数；

基于所述多个第一关系参数，确定所述知识元组的置信度，所述置信度用于表示所述知识元组所包括的参考关系的可信程度；

将所述置信度满足目标处理条件的知识元组确定为待处理的知识元组。

2.根据权利要求1所述的方法，其特征在于，所述基于知识图谱中的任一知识元组，获取所述知识元组对应的多个目标文本语料，包括：

将所述知识元组所包括的所述实体对作为关键字进行搜索，得到所述知识元组对应的多个初始文本语料；

对所述多个初始文本语料进行实体抽取，得到每个初始文本语料中的实体；

将满足第一目标条件的初始文本语料确定为所述目标文本语料，所述第一目标条件为抽取到的实体中存在分别与所述实体对中的两个实体相同的实体。

3.根据权利要求2所述的方法，其特征在于，所述知识元组还包括所述实体对中实体的实体类型，所述目标文本语料还满足第二目标条件，所述第二目标条件为抽取到的实体对应的实体类型与所述知识元组所包括的所述实体对应的实体类型相同。

4.根据权利要求1所述的方法，其特征在于，所述基于知识图谱中的任一知识元组，获取所述知识元组对应的多个目标文本语料，包括：

基于所述实体对中的任一实体，获取所述实体对应的同义实体，所述同义实体与所述实体对中的另一实体的关系等同于所述参考关系；

将所述实体替换为对应的同义实体，得到所述知识元组对应的扩充知识元组；

将所述扩充知识元组对应的文本语料确定为所述目标文本语料，所述扩充知识元组对应的文本语料包括所述扩充知识元组中的实体对。

5.根据权利要求1所述的方法，其特征在于，所述对所述多个目标文本语料分别进行关系抽取，得到每个所述目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率之前，所述方法还包括：

识别所述知识图谱对应的多个目标文本语料的句子结构；

保留句子结构相同的多个目标文本语料中的一个。

6.根据权利要求1所述的方法，其特征在于，所述对所述多个目标文本语料分别进行关系抽取，得到每个所述目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，包括：

将每个目标文本语料输入到第一关系抽取模型中，得到每个目标文本语料所表达的实体之间的关系分别属于所述多个关系类别的概率，所述第一关系抽取模型用于对所述目标文本语料中的实体对的关系进行分类。

7.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一关系参数，确定所述知识元组的置信度之前，所述方法还包括：

对所述多个目标文本语料组成的包，进行关系抽取，得到所述包所表达的关系分别属于所述多个关系类别的概率，所述包所表达的关系为所述实体对的关系；

将所述包所表达的关系属于所述参考关系的关系类别的概率，确定为所述多个目标文本语料对应的第二关系参数；

所述基于所述多个第一关系参数，确定所述知识元组的置信度，包括：

基于所述第二关系参数以及所述多个第一关系参数，确定所述知识元组的置信度。

8.根据权利要求7所述的方法，其特征在于，所述对所述多个目标文本语料组成的包，进行关系抽取，得到所述包所表达的关系分别属于所述多个关系类别的概率，包括：

将所述包输入到第二关系抽取模型中，得到所述包所表达的关系分别属于所述多个关系类别的概率，所述第二关系抽取模型用于对所述包所表达的关系进行分类。

9.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一关系参数，确定所述知识元组的置信度，包括：

确定所述目标文本语料所属的数据源；

获取所述数据源对应的来源参数，所述来源参数用于表示所述数据源的可靠程度；

基于所述来源参数和所述多个第一关系参数，确定所述知识元组的置信度。

10.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一关系参数，确定所述知识元组的置信度，包括：

获取所述目标文本语料的语料特征参数，所述语料特征参数用于表示所述目标文本语料的词序的合理程度；

基于所述语料特征参数和所述多个第一关系参数，确定所述知识元组的置信度。

11.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一关系参数，确定所述知识元组的置信度，包括：

将所述多个第一关系参数输入到置信度判别模型中，得到所述知识元组的置信度。

12.一种知识图谱处理装置，其特征在于，所述装置包括：

获取模块，用于基于知识图谱中的任一知识元组，获取所述知识元组对应的多个目标文本语料，所述知识图谱包括多个实体以及所述实体之间的参考关系，所述知识元组包括所述多个实体中的任一实体对以及所述实体对中实体之间的参考关系，所述目标文本语料包括所述实体对；

关系抽取模块，用于对所述多个目标文本语料分别进行关系抽取，得到每个所述目标文本语料所表达的实体之间的关系分别属于多个关系类别的概率，所述多个关系类别包括所述参考关系的关系类别；

第一确定模块，用于分别将每个所述目标文本语料所表达的实体之间的关系属于所述参考关系的关系类别的概率，确定为每个所述目标文本语料对应的一个第一关系参数，得到多个第一关系参数；

第二确定模块，用于基于所述多个第一关系参数，确定所述知识元组的置信度，所述置信度用于表示所述知识元组所包括的参考关系的可信程度；

第三确定模块，用于将所述置信度满足目标处理条件的知识元组确定为待处理的知识元组。

13.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1-11任一项所述的知识图谱处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1-11任一项所述的知识图谱处理方法。