CN114925210A

CN114925210A - 知识图谱的构建方法、装置、介质及设备

Info

Publication number: CN114925210A
Application number: CN202210284978.XA
Authority: CN
Inventors: 马冲; 王兵; 薛艳茹; 武巍; 钱兵; 程明康; 任思聪; 谢汉垒
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-08-19
Anticipated expiration: 2042-03-21
Also published as: CN114925210B

Abstract

本申请的实施例揭示了一种知识图谱的构建方法、装置、介质及设备。该方法包括：获取原始文本数据，原始文本数据包括已标注文本以及未标注文本；基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系，得到实体关系集合；计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系；基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。进而节约了人工标记成本，提高了知识图谱的构建效率，构建出高精度和高质量的知识图谱。

Description

知识图谱的构建方法、装置、介质及设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种知识图谱的构建方法、装置、计算机可读存储介质及电子设备。

背景技术

知识图谱(knowledge graph)是指以实体、概念作为节点，以节点之间关系作为边的树状拓扑网络。知识图谱使得知识获取更直接，从而实现数据搜索的便捷化、智能化和人性化。

在进行信息搜索时，可以根据预先构建的知识图谱，搜索与用户输入的搜索关键词有关联关系的信息。目前在构建知识图谱时是采用人工构建方式，人工获取大量的关键词，将获取到的关键词作为知识图谱的节点；以及人工设置的两个节点之间的关系，将具有关联关系的两个节点进行连线作为知识图谱的边；在生成节点和边之后完成知识图谱的构建。但是，采用人工构建的方式得到的知识图谱包含的信息数量和类型都有很大的局限性，构建得到的知识图谱过于单一。

发明内容

为解决上述技术问题，本申请的实施例提供了一种知识图谱的构建方法、装置、计算机可读存储介质及电子设备，以在节约人工标注成本的前提下，构建精准度更高的知识图谱。

根据本申请实施例的一个方面，提供了一种知识图谱的构建方法，方法包括：获取原始文本数据，原始文本数据包括已标注文本以及未标注文本；基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系，得到实体关系集合；计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系；基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。

在一些实施例中，计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，包括：基于实体关系集合以及已标注文本得到正样本以及负样本；基于正样本以及负样本对预设网络模型进行训练，得到语义相似度模型；基于语义相似度模型计算未标注文本与实体关系集合中含有的各个实体的语义相似度。

在一些实施例中，基于实体关系集合以及已标注文本得到正样本以及负样本，包括：将任一已标注文本作为当前已标注文本；基于实体关系集合中属于当前已标注文本的至少两个实体及至少两个实体之间的关联关系，得到正样本。

在一些实施例中，基于实体关系集合以及已标注文本得到正样本以及负样本，包括：将任一已标注文本作为当前已标注文本，将其它已标注文本作为对比已标注文本；获取实体关系集合中属于对比已标注文本的至少两个实体及至少两个实体之间的关联关系；计算当前已标注文本与对比已标注文本的至少两个实体及至少两个实体之间的关联关系的匹配度；基于匹配度小于匹配度阈值的至少两个实体及至少两个实体之间的关联关系，得到负样本。

在一些实施例中，语义相似度模型包括第一特征提取网络以及第二特征提取网络，第一特征提取网络以及第二特征提取网络的网络模型参数相同；基于语义相似度模型计算未标注文本与实体关系集合中各个实体的语义相似度，包括：基于第一特征提取网络对未标注文本进行特征提取，得到文本语义特征；基于第二特征提取网络对实体关系集合中各个实体进行特征提取，得到实体语义特征；基于文本语义特征以及实体语义特征得到未标注文本与实体关系集合中各个实体的语义相似度。

在一些实施例中，计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，包括：对未标注文本进行字符拆分处理，得到第一字符串；以及对实体关系集合中各个实体进行字符拆分处理，得到第二字符串；计算第一字符串与第二字符串之间的编辑距离以及最长公共子序列长度；基于编辑距离以及最长公共子序列长度得到未标注文本与实体关系集合中各个实体的文本相似度。

在一些实施例中，基于文本相似度以及语义相似度得到未标注文本对应的实体及实体之间的关联关系，包括：基于预设文本相似度阈值以及文本相似度，对实体关系集合中各个实体进行筛选得到候选实体关系集合；基于语义相似度对候选实体关系集合中的各个实体进行排序，得到排序结果；基于排序结果得到未标注文本对应的实体及实体之间的关联关系。

根据本申请实施例的一个方面，提供了一种知识图谱的构建装置，装置包括：原始文本获取模块，配置为获取原始文本数据，原始文本数据包括已标注文本以及未标注文本；实体关系获取模块，配置为基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系，得到实体关系集合；计算模块，配置为计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系；图谱构建模块，配置为基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上的知识图谱的构建方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被电子设备执行时，使得电子设备实现如上的知识图谱的构建方法。

在本申请的实施例提供的技术方案中，通过获取原始文本数据，原始文本数据包括已标注文本以及未标注文本；基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系，得到实体关系集合，以通过已标注文本得到更加准确的实体关系集合，使后续对未标注文本进行实体及关系抽取时，得到的未标注文本的实体及实体之间的关联关系更加准确。然后，计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系，以结合文本相似度以及语义相似度，保证了得到的未标注文本的实体及实体之间的关联关系的正确性。最后基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱，节约了人工标记成本，提高了知识图谱的构建效率，构建出高精度和高质量的知识图谱。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是可以应用本申请实施例的技术方案的示例性应用环境的示意图；

图2是本申请的一示例性实施例示出的知识图谱的构建方法的流程图；

图3是本申请的一示例性实施例示出的计算语义相似度的流程示意图；

图4是本申请的一示例性实施例示出的一具体实施例中计算语义相似度的流程示意图；

图5是本申请的一示例性实施例示出的一具体实施例中计算文本相似度的流程示意图；

图6是本申请的一示例性实施例示出的一具体实施例中根据三元组构建的知识图谱示意图

图7是本申请的一示例性实施例示出的知识图谱的构建方法的流程示意图；

图8是本申请的一示例性实施例示出的知识图谱的构建装置的框图；

图9是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相同的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相同的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用应用程序形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是，在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

可选地，在本实施例中，上述知识图谱的构建方法可以应用于如图1所示的由服务端110和终端120所构成的硬件环境中。图1是本申请实施例的一种知识图谱的构建方法的硬件环境的示意图，如图1所示，服务端110通过网络与终端120进行连接，上述网络包括但不限于：广域网、城域网或局域网。

其中，服务端110指的是知识图谱的构建方法所对应的服务器；其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，简称CDN)以及大数据和人工智能平台等基础云计算服务的云服务器，本申请对此不进行限定。

其中，终端120可以是智能手机、平板、笔记本电脑、计算机、车载终端等电子设备，本申请对此不进行限定。

本申请实施例的知识图谱的构建方法可以由服务端110来执行，也可以由终端120来执行，还可以是由服务端110和终端120共同执行。其中，终端120执行本申请实施例的知识图谱的构建方法也可以是由安装在其上的客户端来执行。

请参阅图2，图2是本申请的一个实施例示出的知识图谱的构建方法的流程图。如图2所示，知识图谱的构建方法至少包括步骤S210至步骤S240，详细介绍如下：

步骤S210、获取原始文本数据，原始文本数据包括已标注文本以及未标注文本。

本申请中的原始文本数据可以为同一领域的文本数据，例如计算机技术领域、网络诊断领域、医疗领域等。比如，在网络诊断领域中，可以获取网络的请求次数、上行数据传输速率、下行数据传输速率、各个网络节点的运行情况等文本数据。可以理解的是，该处的文本数据只是举例说明，只要是可以构建知识图谱的文本数据都可以获取。

其中，获取原始文本数据的方式可以根据具体场景而有所不同。例如，可以预先将原始文本数据保存至计算机设备中的存储器中，如此，获取原始文本数据，即为获取计算机设备的存储器中保存的原始文本数据；还可以是用户直接输入原始文本数据，当计算机设备需要获取原始文本数据时，接收用户的数据输入操作，以得到原始文本数据；还可以是计算机设备通过网络连接其他设备，并从该其他设备中获取对应的原始文本数据。计算机设备还可以通过其他的方式获取原始文本数据，如通过网页爬取的方式获取，本申请不对原始文本数据的获取方式进行限定。

进一步地，所获取的原始文本数据可以是已经过预处理的文本数据，也可以是未经过预处理的文本数据。若所获取的原始文本数据是未经过预处理的文本数据，该知识图谱的构建方法还包括将所获取的原始文本数据进行预处理的步骤。示例性地，将所获取的原始文本数据进行预处理，可以包括将所获取的原始文本数据进行数据清洗。例如，对原始文本数据进行数据清洗包括检查文本数据的一致性，处理无效值和缺失值，处理重复数据，处理停用词等。示例性地，将所获取的原始文本数据进行预处理，还可以包括将原始文本数据转换为统一的文本格式，例如，对文本中的英文字符、数字等进行统一转换，如对英文“the 4th generation mobile communication technolog”通过正则表达式进行英文缩写的提取，得到转换后的结果为“4G”。

将所获取的原始文本数据进行数据清洗，以避免原始文本数据本身存在的缺陷导致的后续处理出现误差的情况。将所获取的原始文本数据进行数据清洗后，将经过数据清洗的原始文本数据转换为统一的文本格式，以便于后续的统一处理。

本申请实施例中，原始文本数据包括已标注文本以及未标注文本。已标注文本包含有标注信息，标注信息用于表征已标注文本的文本内容所包含的实体以及实体之间的关联关系；未标注文本则仅包含文本内容。其中，已标注文本的标注信息，通常由人工打标得到，或者可以利用打标网络生成。

步骤S220、基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系，得到实体关系集合。

本申请实施例通过已标注文本的标注信息对已标注文本中的实体以及实体之间的关系进行提取，以根据提取结果得到实体关系集合，因此，实体关系集合中包括多个实体以及各个实体之间的关联关系。

示例性地，原始文本数据为网络诊断领域的文本数据，已标注文本中包括多种类型的实体，如网络现象、网络异常原因、异常解决方法等，通过已标注文本的标注信息得到已标注文本中含有的不同类型的实体，并根据实体的类型得到各个实体之间的关联关系。

例如，已标注文本为“...设备A指标异常(网络现象)；疑似是设备A网络接口接触不良(网络异常原因)；经现场维护以及远程调整后，设备A指标正常(异常解决方法)”，其中，括号中的内容为已标注文本的标注信息。因此得到的实体包括：“设备A指标异常”、“设备A网络接口接触不良”、“现场维护以及远程调整”；其中，“设备A指标异常”与“设备A网络接口接触不良”之间的关联关系为网络现象的异常原因；“设备A指标异常”与“现场维护以及远程调整”之间的关联关系为网络现象的异常解决方法；“设备A网络接口接触不良”与“现场维护以及远程调整”之间的关联关系为网络异常原因的异常解决方法。

通过对原始文本数据中的已标注文本进行实体以及实体关联关系的提取得到实体关系集合，以便于后续根据该实体关系集合对未标注文本进行实体以及实体关联关系的提取。

步骤S230、计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系。

其中，文本相似度用于衡量未标注文本的文字信息与实体关系集合中各个实体的文字信息之间的相似程度，语义相似度用于衡量未标注文本的语义信息与实体关系集合中各个实体的语义信息之间的相似程度。因此，文本相似度是从文本的结构上对未标注文本及实体关系集合中各个实体进行对比判断，语义相似度是从文本的语义层面上对未标注文本及实体关系集合中各个实体进行对比判断。

通过同时考虑未标注文本及实体关系集合中各个实体之间的文本相似度以及语义相似度，使得到的未标注文本含有的实体及实体之间的关联关系更加准确。且通过已标注文本得到实体关系集合，以保证实体关系集合中的实体及实体之间的关联关系的准确性，进而根据实体关系集合对未标注文本进行实体及实体之间的关联关系的提取，以在节约人工标记成本的前提下，保证提取出的实体及实体之间的关联关系的质量及准确性。

在一些实施方式中，请参阅图3，图3为计算未标注文本与实体关系集合中含有的各个实体的语义相似度的流程示意图，包括步骤S310至步骤S330：

步骤S310、基于实体关系集合以及已标注文本得到正样本以及负样本；

步骤S320、基于正样本以及负样本对预设网络模型进行训练，得到语义相似度模型；

步骤S330、基于语义相似度模型计算未标注文本与实体关系集合中含有的各个实体的语义相似度。

示例性地，每个已标注文本均对应若干数量的正样本以及负样本，已标注文本对应的正样本是指实体关系集合中与该已标注文本匹配的实体及实体之间的关联关系；已标注文本对应的负样本是指实体关系集合中与该已标注文本不匹配的实体及实体之间的关联关系。

在一些实施方式中，基于实体关系集合以及已标注文本得到正样本以及负样本，包括：将任一已标注文本作为当前已标注文本；基于实体关系集合中属于当前已标注文本的至少两个实体及至少两个实体之间的关联关系，得到正样本。

可以理解的是，当前已标注文本中包含的实体及实体之间的关联关系必定和该当前已标注文本相匹配，因此可以根据属于当前已标注文本的实体及实体之间的关联关系，得到正样本。其中，正样本可以是“当前已标注文本-实体/关系”的文本对。

其中，可以是实体关系集合中的实体及实体之间的关系标明有来源，如实体A来源于已标注文本A，以通过实体关系集合中的实体及实体之间的关系的来源信息，得到属于当前已标注文本中包含的实体及实体之间的关联关系；还可以是根据当前已标注文本的标注信息对当前已标注文本进行实体的拆分，进而根据拆分结果得到属于当前已标注文本中包含的实体及实体之间的关联关系。本申请获取属于当前已标注文本的实体及实体之间的关联关系的方法可以根据实际情况进行选择，本申请对此不做限定。

在一些实施方式中，基于实体关系集合以及已标注文本得到正样本以及负样本，包括：将任一已标注文本作为当前已标注文本，将其它已标注文本作为对比已标注文本；获取实体关系集合中属于对比已标注文本的至少两个实体及至少两个实体之间的关联关系；计算当前已标注文本与对比已标注文本的至少两个实体及至少两个实体之间的关联关系的匹配度；基于匹配度小于匹配度阈值的至少两个实体及至少两个实体之间的关联关系，得到负样本。

示例性地，可以根据预设匹配度计算算法，对当前已标注文本与对比已标注文本的至少两个实体及至少两个实体之间的关联关系的匹配度进行计算。例如，实体关系集合中的实体及实体之间的关系标明有来源，如实体A来源于已标注文本A，通过实体关系集合中的实体及实体之间的关系的来源信息，得到属于对比已标注文本中包含的实体，然后对当前已标注文本进行字符拆分处理，得到当前已标注文本字符串，以及对对比已标注文本中包含的实体进行字符拆分处理，得到对比已标注文本字符串；计算当前已标注文本字符串与对比已标注文本字符串之间的编辑距离以及最长公共子序列长度；基于编辑距离以及最长公共子序列长度，得到当前已标注文本与对比已标注文本的至少两个实体及至少两个实体之间的关联关系的匹配度。

可以理解的是，匹配度越高，则表明当前已标注文本与对比已标注文本的实体之间的差异越小；反之匹配度越低，则表明当前已标注文本与对比已标注文本的实体之间的差异越大，将匹配度小于匹配度阈值的至少两个实体及至少两个实体之间的关联关系作为该当前已标注文本的负样本。其中，负样本可以是“当前已标注文本-实体/关系”的文本对。

需要说明的是，上述获取正样本以及负样本的方法仅是示例性说明，还可以通过其它方法进行获取，例如计算当前已标注文本与其它已标注文本之间的匹配度，将文本之间的匹配度大于阈值的其它已标注文本中的实体及实体之间的关联关系作为当前已标注文本的正样本，将相似度小于阈值的其它已标注文本中的实体及实体之间的关联关系作为当前已标注文本的负样本，本申请不对获取正样本以及负样本的方法进行限定。

然后，通过正样本以及负样本对预设网络模型进行训练，以得到语义相似度模型。其中，预设网络模型是指训练未完成的语义相似度模型，其经过训练后满足训练完成条件，或者其训练过程满足训练完成条件后，将其确定为语义相似度模型。

本申请中需要语义相似度模型输出文本与实体及实体间的关联关系之间的语义相似度，因此，可以对输入预设网络模型的正样本以及负样本添加不同的样本标签，如正样本可以添加标签“1”，以表征正样本中的实体及实体之间的关联关系与正样本中的已标注文本的语义相似度为100％；负样本可以添加标签“0”，以表征负样本中的实体及实体之间的关联关系与负样本中的已标注文本的语义相似度0％。以将带样本标签的正样本以及负样本输入预设网络模型，并根据预设网络模型的输出以及样本标签确认损失值，并根据损失值调整预设网络模型的模型参数，直至损失收敛。

其中，根据损失函数计算损失值，该损失函数可以为triplet loss损失函数(三重损失函数)，或者还可以为交叉熵损失函数等其他损失函数。

在一些实施方式中，语义相似度模型包括第一特征提取网络以及第二特征提取网络，第一特征提取网络以及第二特征提取网络的网络模型参数相同；基于语义相似度模型计算未标注文本与实体关系集合中各个实体的语义相似度，包括：基于第一特征提取网络对未标注文本进行特征提取，得到文本语义特征；基于第二特征提取网络对实体关系集合中各个实体进行特征提取，得到实体语义特征；基于文本语义特征以及实体语义特征得到未标注文本与实体关系集合中各个实体的语义相似度。

基于上述实施例，语义相似度模型可以为孪生神经网络(Siamese neuralnetwork)，孪生神经网络是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。通常情况下，孪生神经网络由两个结构相同，且权重共享的神经网络拼接而成。因此在进行参数调节时，首先利用损失值对第一特征提取网络进行参数调节，在调节完成后，根据第一特征提取网络，对第二特征提取网络进行权重共享。权重共享即为将第二特征提取网络的参数更换为第一特征提取网络的参数，即利用调节后的第一特征提取网络参数，对第二特征提取网络进行参数替换。

可以理解的是，语义相似度模型中可以仅包括一个特征提取网络，当输入为未标注文本时，该特征网络为第一特征提取网络，以得到第一特征提取网络输出的文本语义特征；当输入为实体关系集合中各个实体时，该特征网络为第二特征提取网络，以得到第二特征提取网络输出的实体语义特征。需要说明的是，本实施例中，第一特征提取网络和第二特征提取网络可以更换，即对第二特征提取网络进行参数调节，并对第一特征提取网络进行权重共享。

示例性地，第一特征提取网络和第二特征提取网络可以包括预处理层以及特征提取层，其中，预处理层用于对输入的文本进行预处理，以将文本转换为计算机可以识别的形式；特征提取层用于提取文本的语义特征。由此，将文本输入语义相似度模型中的特征提取层，便可得到文本的语义特征。该语义特征用于实现对文本所表达的语义的准确描述，进而在数字信息上唯一地标识该文本。可以理解，如果文本的语义特征不同，则文本也会有所差别。

例如，请参阅图4，图4为一具体实施例中计算语义相似度的流程示意图。如图4所示，待处理的未标注文本a为“该扇区存在超远覆盖问题，致使volte语音上下行丢包率异常”，待处理的实体b为“volte上下行丢包率高”；通过预处理层对未标注文本a以及实体b进行字符拆分操作，分别得到第一字符串a以及第二字符串b，并对第一字符串a以及第二字符串b进行向量表示，得到向量a以及向量b；然后将向量a以及向量b输入特征提取层，以根据特征提取层提取得到未标注文本a的文本语义特征以及实体b的实体语义特征。

举例来说，对第一字符串a以及第二字符串b进行向量表示的具体步骤可以为：确定第一字符串a以及第二字符串b的字在字向量表中的字位置，以及确定字在第一字符串a以及第二字符串b中的文本位置；采用独热one-hot编码，将字的字位置映射为字的内容向量，以及将字的文本位置映射为字的位置向量；根据第一字符串a以及第二字符串b中字的内容向量和位置向量，生成第一字符串a以及第二字符串b的文本向量为向量a以及向量b。

其中，字位置反映了第一字符串a以及第二字符串b中字的语义表达，且由于文本不同位置的相同字可能存在相同或者不同的语义表达，文本相同位置出现不同字也可能造成该文本存在不同的语义表达，例如，“我讨厌你”和“你讨厌我”就存在语义表达上的差异。由此，本实施例中，对于第一字符串a以及第二字符串b中的每一个字而言，除了该字在字向量表中的字位置，还会为该字增加其在第一字符串a以及第二字符串b中的文本位置。

进一步地，将向量a以及向量b输入特征提取层进行语义特征提取，特征提取层包括但不限于TextCNN、LSTM、BERT、ALBERT等等模型。

举例来说，第一特征提取网络以及第二特征提取网络的特征提取层为ALBERT模型，ALBERT模型是基于BERT模型的一个轻量化改良版，可以保证在中央处理器(CentralProcessing Unit，简称CPU)上的计算速度满足计算要求。ALBERT作为特征提取层，分别对未标注文本a以及实体b进行语义特征提取。

在图4中，以文本中的每一个字(例如410)作为输入文本，通过字向量表的查询，进行字的内容向量420和位置向量430的映射以及相加，从而得到未标注文本a以及实体b中字的向量a以及向量b，以进一步地作为ALBERT模型的输入。

该ALBERT模型包括依次堆叠的预设数量个Transformer编码器440，以此实现文本的语义特征提取。其中，该预设数量可以根据应用场景的实际需要灵活地调整。以向量a以及向量b或者前一个Transformer编码器的输出作为当前一个Transformer编码器的输入，根据Transformer编码器进行语义特征提取，直至最后一个Transformer编码器输出，得到未标注文本a的文本语义特征以及实体b的实体语义特征。

最后，根据文本语义特征以及实体语义特征计算未标注文本a以及实体b之间的语义相似度。

示例性地，可以通过计算文本语义特征以及实体语义特征之间的距离，得到计算结果，并通过Sigmod函数将计算结果映射到0-1区间内，以表示未标注文本a以及实体b之间的语义相似度。

其中，计算文本语义特征以及实体语义特征之间的距离可以采用欧式距离算法、曼哈顿距离算法、切比雪夫距离算法等方式进行计算。

通过计算未标注文本与实体关系集合中各个实体之间的语义相似度，以从语义层面上衡量未标注文本与实体关系集合中各个实体之间的相似程度。

在一些实施方式中，计算未标注文本与实体关系集合中含有的各个实体的文本相似度，包括：对未标注文本进行字符拆分处理，得到第一字符串；以及对实体关系集合中各个实体进行字符拆分处理，得到第二字符串；计算第一字符串与第二字符串之间的编辑距离以及最长公共子序列长度；基于编辑距离以及最长公共子序列长度得到未标注文本与实体关系集合中各个实体的文本相似度。

其中，本实施例中编辑距离的计算方法包括但不限于采用Leveinshtein距离方法：计算将源字符串转化为目标字符串所需要付出的代价，其中包括插入、删除、替换，这里的代价越低相似度越高，代价越高相似度越低。在本实施例中，包括但不限于是计算将第一字符串转化为第二字符串所需的代价。

其中，最长公共子序列长度是两个字符串的最长公共子序列。比如字符串1：BDCABA；字符串2：ABCBDAB，则这两个字符串的最长公共子序列长度为4，最长公共子序列是：BCBA。

在一些实施方式中，请参阅图5，图5为一具体实施例中计算文本相似度的流程示意图。如图5所示，未标注文本a为“该扇区存在超远覆盖问题，致使volte语音上下行丢包率异常”，待处理的实体b为“volte上下行丢包率高”，对未标注文本a以及实体b进行字符拆分操作，分别得到第一字符串a以及第二字符串b。然后，计算第一字符串a以及第二字符串b之间的编辑距离，得到编辑距离的计算结果为“18”；以及计算第一字符串a以及第二字符串b之间的最长公共子序列长度，得到最长公共子序列长度的计算结果为“6”，然后根据编辑距离计算第一实体匹配度并根据最长公共子序列长度计算第二实体匹配度。

可选的，根据编辑距离计算第一实体匹配度的计算公式可以为公式1：

公式1、

其中，len_a表示第一字符串a的文本长度，len_b表示第二字符串b的文本长度，lev_distance表示计算得到的编辑距离。通过将第一字符串a和第二字符串b中的最大文本长度减去编辑距离，并与第一字符串a和第二字符串b中的最短文本长度做除，得到编辑距离的第一实体匹配度。

可选的，根据最长公共子序列长度计算第二实体匹配度的计算公式可以为公式2：

公式2、

其中，len_a表示第一字符串a的文本长度，len_b表示第二字符串b的文本长度，comm_seq_len表示计算得到的最长公共子序列长度。通过最长公共子序列长度与第一字符串a和第二字符串b中的最短文本长度做除，得到最长公共子序列的第二实体匹配度。

然后，根据第一实体匹配度和第二实体匹配度得到文本相似度。例如，可以将第一实体匹配度和第二实体匹配度中的最大值作为文本相似度，还可以对第一实体匹配度和第二实体匹配度进行加权计算，将计算结果作为文本相似度。

例如，在图5中，根据编辑距离计算得到的第一实体匹配度为0.857，根据最长公共子序列长度计算第二实体匹配度为0.857，取第一实体匹配度和第二实体匹配度中的最大值作为文本相似度，则文本相似度为0.857。

可以理解的是，还可以采用其它计算方法计算未标注文本与实体关系集合中含有的各个实体的文本相似度，例如，计算未标注文本与实体关系集合中含有的各个实体的hamming距离、Jaro距离、Jaro-Winkler距离、Jaccard系数等。

在一些实施方式中，实体关系集合中每个实体对应至少一个实体关键词，例如实体“VOLTE下行丢包率较高”的实体关键词包括“VOLTE”、“下行”等。可以通过检测未标注文本中是否存在待处理的实体所对应的实体关键词，若未标注文本中存在实体关键词，则对该未标注文本以及该待处理的实体进行文本相似度以及语义相似度的计算；若未标注文本中不存在实体关键词，则不对该未标注文本以及该待处理的实体进行文本相似度以及语义相似度的计算，进而可以节省计算资源，以提高计算效率。

步骤S240、基于文本相似度以及语义相似度得到未标注文本对应的实体及实体之间的关联关系，以基于未标注文本对应的实体及实体之间的关联关系构建知识图谱。

知识图谱本质上是一种经过加工的语义网络，是一种基于图的数据结构，由节点和边组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边表示为实体与实体之间的“关系”。

本实施例中，通过文本相似度以及语义相似度对实体关系集合中的实体进行筛选，以将筛选得到的实体作为未标注文本对应的实体，并根据筛选得到的实体的类型信息得到实体之间的关联关系。然后，通过抽取每个未标注文本对应的实体及实体之间的关联关系，将抽取出的实体及实体之间的关联关系以节点和边的形式进行保存，以完成知识图谱的构建。

示例性地，请参见表1，表1为未标注文本与实体关系集合中的各个实体之间的文本相似度以及语义相似度计算结果：

表1

其中，根据文本相似度以及语义相似度对实体关系集合中的实体进行筛选，可以是将文本相似度以及语义相似度均大于阈值的实体作为未标注文本的实体，例如，预设文本相似度阈值为0.5，预设语义相似度阈值为0.9，则对表1进行筛选后，得到未标注文本“CQI优良比不达标”对应的实体包括“CQI优良率低”，其中实体“CQI优良率低”为网络现象类型的实体，因此与该未标注文本的其它实体之间的关联关系为网络现象。

其中，根据文本相似度以及语义相似度对实体关系集合中的实体进行筛选，还可以是基于预设文本相似度阈值以及文本相似度，对实体关系集合中各个实体进行筛选得到候选实体关系集合；基于语义相似度对候选实体关系集合中的各个实体进行排序，得到排序结果；基于排序结果得到未标注文本对应的实体及实体之间的关联关系。例如，预设文本相似度阈值为0.5，则对表1进行筛选后，得到未标注文本“CQI优良比不达标”对应的候选实体关系集合中包括实体“CQI优良率低”，且通过语义相似度对候选实体关系集合中的各个实体进行排序，得到排序结果中实体“CQI优良率低”的语义相似度最高，因此，未标注文本包含实体“CQI优良率低”。

可以理解的是，本申请实施例对根据文本相似度以及语义相似度得到未标注文本对应的实体及实体之间的关联关系的具体计算方法不做限制，例如还可以对实体关系集合中每个实体进行文本相似度以及语义相似度的加权计算，以根据加权计算结果进行实体的筛选，进而得到未标注文本对应的实体及实体之间的关联关系。

然后，根据抽取出实体以及实体之间的关系得到三元组。例如，根据实体关系集合对未标注文本进行实体抽取得到网络现象类型的实体为现象A，得到网络异常原因类型的实体为原因A、异常解决方法的实体为方法A；根据抽取到的实体的类型信息，得到实体之间的关联关系，如现象A与原因A之间的关联关系为网络现象的异常原因；现象A与方法A之间的关联关系为网络现象的异常解决方法；原因A与方法A之间的关联关系为网络异常原因的解决方法。

因此，根据(实体，关联关系，实体)的方式得到的三元组可以包括：

现象A，网络现象的异常原因，原因A；

现象A，网络现象的解决方法，方法A；

原因A，网络异常原因的解决方法，方法A。

进一步地，以实体为节点，以关联关系为边，根据三元组进行知识图谱的构建，例如，请参阅图6，图6为根据三元组构建的知识图谱示意图。

以下对本申请实施例的一个具体应用场景进行详细说明：

请参阅图7，获取原始文本数据，根据原始文本数据中的已标注文本得到实体关系集合，以根据实体关系集合得到正样本以及负样本。然后，根据正样本以及负样本对预设网络模型进行训练，得到语义相似度模型。进一步地，根据文本相似度模型对原始文本数据中的未标注文本以及实体关系集合中的实体进行文本相似度计算，根据文本相似度计算结果得到候选实体关系集合，其中文本相似度模型包含有预设的文本相似度计算公式；以及根据语义相似度模型对原始文本数据中的未标注文本以及候选实体关系集合中的实体进行语义相似度计算，并根据语义相似度计算结果得到未标注文本对应的实体及实体之间的关联关系。

本申请提供的知识图谱的构建方法，通过获取原始文本数据，原始文本数据包括已标注文本以及未标注文本；基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系，得到实体关系集合，以通过已标注文本得到更加准确的实体关系集合，使后续对未标注文本进行实体及关系抽取时，得到的未标注文本的实体及实体之间的关联关系更加准确。然后，计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系，以结合文本相似度以及语义相似度，保证了得到的未标注文本的实体及实体之间的关联关系的正确性。最后基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱，节约了人工标记成本，提高了知识图谱的构建效率，构建出高精度和高质量的知识图谱。

图8是本申请的一个实施例示出的知识图谱的构建装置的框图，如图8所示，该装置包括：

原始文本获取模块810，配置为获取原始文本数据，原始文本数据包括已标注文本以及未标注文本；

实体关系获取模块820，配置为基于已标注文本的标注信息提取已标注文本含有的至少两个实体以及至少两个实体之间的关联关系，得到实体关系集合；

计算模块830，配置为计算未标注文本与实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于文本相似度以及语义相似度得到未标注文本含有的至少两个实体及至少两个实体之间的关联关系；

图谱构建模块840，配置为基于未标注文本含有的至少两个实体及至少两个实体之间的关联关系构建知识图谱。

在本申请的一个实施例中，计算模块830可以包括：

样本获取单元，配置为基于实体关系集合以及已标注文本得到正样本以及负样本；

模型训练单元，配置为基于正样本以及负样本对预设网络模型进行训练，得到语义相似度模型；

语义相似度获取单元，配置为基于语义相似度模型计算未标注文本与实体关系集合中含有的各个实体的语义相似度。

在本申请的一个实施例中，样本获取单元可以包括：

第一确认单元，配置为将任一已标注文本作为当前已标注文本；

正样本获取单元，配置为基于实体关系集合中属于当前已标注文本的至少两个实体及至少两个实体之间的关联关系，得到正样本。

在本申请的一个实施例中，样本获取单元可以包括：

第二确认单元，配置为将任一已标注文本作为当前已标注文本，将其它已标注文本作为对比已标注文本；

实体及关系获取单元，配置为获取实体关系集合中属于对比已标注文本的至少两个实体及至少两个实体之间的关联关系；

实体及关系匹配度计算单元，配置为计算当前已标注文本与对比已标注文本的至少两个实体及至少两个实体之间的关联关系的匹配度；

负样本获取单元，配置为基于匹配度小于匹配度阈值的至少两个实体及至少两个实体之间的关联关系，得到负样本。

在本申请的一个实施例中，语义相似度模型包括第一特征提取网络以及第二特征提取网络，第一特征提取网络以及第二特征提取网络的网络模型参数相同；语义相似度获取单元可以包括：

第一特征提取单元，配置为基于第一特征提取网络对未标注文本进行特征提取，得到文本语义特征；

第二特征提取单元，配置为基于第二特征提取网络对实体关系集合中各个实体进行特征提取，得到实体语义特征；

结果获取单元，配置为基于文本语义特征以及实体语义特征得到未标注文本与实体关系集合中各个实体的语义相似度。

在本申请的一个实施例中，计算模块830可以包括：

拆分处理单元，配置为对未标注文本进行字符拆分处理，得到第一字符串；以及对实体关系集合中各个实体进行字符拆分处理，得到第二字符串；

字符串计算单元，配置为计算第一字符串与第二字符串之间的编辑距离以及最长公共子序列长度；

文本相似度获取单元，配置为基于编辑距离以及最长公共子序列长度得到未标注文本与实体关系集合中各个实体的文本相似度。

在本申请的一个实施例中，图谱构建模块840可以包括：

筛选单元，配置为基于预设文本相似度阈值以及文本相似度，对实体关系集合中各个实体进行筛选得到候选实体关系集合；

排序单元，配置为基于语义相似度对候选实体关系集合中的各个实体进行排序，得到排序结果；

目标结果获取单元，配置为基于排序结果得到未标注文本对应的实体及实体之间的关联关系。

图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元910)的总线930、显示单元940。

其中，存储单元存储有程序代码，程序代码可以被处理单元910执行，使得处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。

存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)921和/或高速缓存存储单元922，还可以进一步包括只读存储单元(ROM)923。

存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924，这样的程序模块925包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备970(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或应用程序模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机应用程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在该计算机程序被处理单元910执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

描述于本申请实施例中所涉及到的单元可以通过应用程序的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前的知识图谱的构建方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的知识图谱的构建方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种知识图谱的构建方法，其特征在于，所述方法包括：

获取原始文本数据，所述原始文本数据包括已标注文本以及未标注文本；

基于所述已标注文本的标注信息提取所述已标注文本含有的至少两个实体以及所述至少两个实体之间的关联关系，得到实体关系集合；

计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于所述文本相似度以及所述语义相似度得到所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系；

基于所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系构建知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度，包括：

基于所述实体关系集合以及所述已标注文本得到正样本以及负样本；

基于所述正样本以及所述负样本对预设网络模型进行训练，得到语义相似度模型；

基于所述语义相似度模型计算所述未标注文本与所述实体关系集合中含有的各个实体的语义相似度。

3.根据权利要求2所述的方法，其特征在于，所述基于所述实体关系集合以及所述已标注文本得到正样本以及负样本，包括：

将任一已标注文本作为当前已标注文本；

基于所述实体关系集合中属于所述当前已标注文本的至少两个实体及所述至少两个实体之间的关联关系，得到所述正样本。

4.根据权利要求2所述的方法，其特征在于，所述基于所述实体关系集合以及所述已标注文本得到正样本以及负样本，包括：

将任一已标注文本作为当前已标注文本，将其它已标注文本作为对比已标注文本；

获取所述实体关系集合中属于所述对比已标注文本的至少两个实体及所述至少两个实体之间的关联关系；

计算所述当前已标注文本与所述对比已标注文本的至少两个实体及所述至少两个实体之间的关联关系的匹配度；

基于所述匹配度小于匹配度阈值的至少两个实体及所述至少两个实体之间的关联关系，得到所述负样本。

5.根据权利要求2所述的方法，其特征在于，所述语义相似度模型包括第一特征提取网络以及所述第二特征提取网络，所述第一特征提取网络以及第二特征提取网络的网络模型参数相同；所述基于所述语义相似度模型计算所述未标注文本与所述实体关系集合中各个实体的语义相似度，包括：

基于所述第一特征提取网络对所述未标注文本进行特征提取，得到文本语义特征；

基于所述第二特征提取网络对所述实体关系集合中各个实体进行特征提取，得到实体语义特征；

基于所述文本语义特征以及所述实体语义特征得到所述未标注文本与所述实体关系集合中各个实体的语义相似度。

6.根据权利要求1所述的方法，其特征在于，所述计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度，包括：

对所述未标注文本进行字符拆分处理，得到第一字符串；以及对所述实体关系集合中各个实体进行字符拆分处理，得到第二字符串；

计算所述第一字符串与所述第二字符串之间的编辑距离以及最长公共子序列长度；

基于所述编辑距离以及所述最长公共子序列长度得到所述未标注文本与所述实体关系集合中各个实体的文本相似度。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述基于所述文本相似度以及所述语义相似度得到所述未标注文本对应的实体及所述实体之间的关联关系，包括：

基于预设文本相似度阈值以及所述文本相似度，对所述实体关系集合中各个实体进行筛选得到候选实体关系集合；

基于所述语义相似度对所述候选实体关系集合中的各个实体进行排序，得到排序结果；

基于所述排序结果得到所述未标注文本对应的实体及所述实体之间的关联关系。

8.一种知识图谱的构建装置，其特征在于，所述装置包括：

原始文本获取模块，配置为获取原始文本数据，所述原始文本数据包括已标注文本以及未标注文本；

实体关系获取模块，配置为基于所述已标注文本的标注信息提取所述已标注文本含有的至少两个实体以及所述至少两个实体之间的关联关系，得到实体关系集合；

计算模块，配置为计算所述未标注文本与所述实体关系集合中含有的各个实体的文本相似度以及语义相似度，并基于所述文本相似度以及所述语义相似度得到所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系；

图谱构建模块，配置为基于所述未标注文本含有的至少两个实体及所述至少两个实体之间的关联关系构建知识图谱。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的知识图谱的构建方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的知识图谱的构建方法。