CN113220900A

CN113220900A - 实体消歧模型的建模方法和实体消歧预测方法

Info

Publication number: CN113220900A
Application number: CN202110507344.1A
Authority: CN
Inventors: 赵洋; 朱继刚; 包荣鑫; 陈龙; 王宇
Original assignee: Shenzhen Valueonline Technology Co ltd
Current assignee: Shenzhen Valueonline Technology Co ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-08-06
Anticipated expiration: 2041-05-10
Also published as: CN113220900B

Abstract

本申请实施例适用于信息技术领域，提供了一种实体消歧模型的建模方法和实体消歧预测方法，所述实体消歧模型的建模方法包括：获取包含待识别实体的原始文本；根据预先构建的知识图谱和原始文本，生成训练语料，训练语料标注有待识别实体与原始文本之间的匹配信息；采用BERT模型层对训练语料进行训练，得到包括多个向量的输出序列；依次采用第一全连接层和第二全连接层对多个向量中的第一个向量进行处理，得到用于表征待识别实体与原始文本匹配关系的概率值；根据匹配信息和概率值计算模型误差，并通过多次迭代使模型误差小于预设值，以完成实体消歧模型的建模。采用上述方法构建的实体消歧模型进行实体消歧预测，准确率较高。

Description

实体消歧模型的建模方法和实体消歧预测方法

技术领域

本申请属于信息技术领域，特别是涉及一种实体消歧模型的建模方法和实体消歧预测方法。

背景技术

实体消歧(entity disambiguation)主要是把具有歧义的命名性实体映射到它真实所指的实体概念上，用于解决一个命名实体对应有多个实体概念导致一词多义的情况，解决文本分析中实体的多样性与歧义性造成的干扰问题。

以公司名称为例，公司名称(特别是公司简称)常常存在不同的真实含义，容易对文本及舆情分析造成干扰。例如，在“三棵树涂料市值首次突破500亿元！”和“每人每年必须至少种三棵树，你还欠着吗？”两条新闻中，“三棵树”的真实含义就完全不同。

传统的实体消歧主要使用规则进行匹配，需要相关领域专家通过制定并维护匹配规则，来判断文本中所属实体的真实概念。近年来，针对实体消歧这一问题，衍生出了依存句法分析和文本向量化两种解决方式。前者可以通过分析文本中的句法结构及句子中的主谓宾等句法实体来进行辅助判断，而后者则依靠预训练的向量化模型，通过判断两个文本的空间距离来识别两个实体的含义是否相同。但是，上述各方法在实际应用过程中使用到的规则、模型等均需要长期的人工维护与微调，耗费人力物力资源较多；并且，这些方法在分析复杂语境中文本的结构及实体的真实概念时，准确率也较低。

发明内容

有鉴于此，本申请实施例提供了一种实体消歧模型的建模方法和实体消歧预测方法，用以提高实体消歧预测的准确率。

本申请实施例的第一方面提供了一种实体消歧模型的建模方法，所述实体消歧模型包括BERT模型层，以及与所述BERT模型层依次连接的第一全连接层和第二全连接层，所述方法包括：

获取包含待识别实体的原始文本；

根据预先构建的知识图谱和所述原始文本，生成训练语料，所述训练语料标注有所述待识别实体与所述原始文本之间的匹配信息；

采用所述BERT模型层对所述训练语料进行训练，得到包括多个向量的输出序列；

依次采用所述第一全连接层和所述第二全连接层对所述多个向量中的第一个向量进行处理，得到用于表征所述待识别实体与所述原始文本匹配关系的概率值；

根据所述匹配信息和所述概率值计算模型误差，并通过多次迭代使所述模型误差小于预设值，以完成所述实体消歧模型的建模。

本申请实施例的第二方面提供了一种实体消歧预测方法，其特征在于，包括：

获取待预测的文本数据，所述文本数据包括待预测的实体；

基于预先构建的知识图谱和所述待预测的文本数据，生成待预测的输入数据；

将所述待预测的输入数据输入至已训练好的实体消歧模型中，得到所述待预测的实体与所述待预测的文本数据之间的匹配结果；

其中，所述实体消歧模型包括BERT模型层，以及与所述BERT模型层依次连接的第一全连接层和第二全连接层，所述实体消歧模型通过如下方式建模得到：

获取包含待识别实体的原始文本；

本申请实施例的第三方面提供了一种实体消歧模型的建模装置，所述实体消歧模型包括BERT模型层，以及与所述BERT模型层依次连接的第一全连接层和第二全连接层，所述装置包括：

获取模块，用于获取包含待识别实体的原始文本；

生成模块，用于根据预先构建的知识图谱和所述原始文本，生成训练语料，所述训练语料标注有所述待识别实体与所述原始文本之间的匹配信息；

训练模块，用于采用所述BERT模型层对所述训练语料进行训练，得到包括多个向量的输出序列；

处理模块，用于依次采用所述第一全连接层和所述第二全连接层对所述多个向量中的第一个向量进行处理，得到用于表征所述待识别实体与所述原始文本匹配关系的概率值；

迭代模块，用于根据所述匹配信息和所述概率值计算模型误差，并通过多次迭代使所述模型误差小于预设值，以完成所述实体消歧模型的建模。

本申请实施例的第四方面提供了一种实体消歧预测装置，包括：

文本数据获取模块，用于获取待预测的文本数据，所述文本数据包括待预测的实体；

输入数据生成模块，用于基于预先构建的知识图谱和所述待预测的文本数据，生成待预测的输入数据；

模型预测模块，用于将所述待预测的输入数据输入至已训练好的实体消歧模型中，得到所述待预测的实体与所述待预测的文本数据之间的匹配结果；

其中，所述实体消歧模型包括BERT模型层，以及与所述BERT模型层依次连接的第一全连接层和第二全连接层，所述实体消歧模型通过调用如下模块建模得到：

获取模块，用于获取包含待识别实体的原始文本；

本申请实施例的第五方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面和/或第二方面所述的方法。

本申请实施例的第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面和/或第二方面所述的方法。

本申请实施例的第七方面提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面和/或第二方面所述的方法。

与现有技术相比，本申请实施例包括以下优点：

本申请实施例，在获取包含待识别实体的原始文本后，根据预先构建的知识图谱和上述原始文本，可以生成标注有待识别实体与原始文本之间的匹配信息的训练语料。这些训练语料可以作为后续训练有监督的实体消歧模型的输入数据。其次，本申请实施例的实体消歧模型在BERT模型基础上进行改进，并依次连接有两个全连接层，可以解决神经网络中的非线性问题并增强模型的非线性表达能力，提高模型预测的准确率。以预先构建的知识图谱为与公司名称相关的知识图谱，采用本申请实施例提供的实体消歧模型的建模方法进行模型构建，并基于该模型进行实体消歧预测，可以解决公司名称造成的多样性及歧义问题，有效地提高分析的准确性。本申请实施例可广泛应用于舆情分析系统、文本分类系统、热点话题及指数分析系统等多种和公司、机构主体相关的文本处理系统中。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的一种实体消歧模型的建模方法的步骤流程示意图；

图2是本申请一个实施例的一种实体消歧模型的架构示意图；

图3是本申请一个实施例的一种知识图谱的示意图；

图4是本申请一个实施例的一种知识图谱的查询结果示意图；

图5是本申请一个实施例的一种实体消歧预测方法的步骤流程示意图；

图6是本申请一个实施例的一种实体消歧算法的示意图；

图7是本申请一个实施例的一种实体消歧模型的建模装置的示意图；

图8是本申请一个实施例的一种实体消歧预测装置的示意图；

图9是本申请一个实施例的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域技术人员应当清楚，在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

现有技术中，基于依存句法分析和文本向量化两种解决方式实现的实体消歧都是采用无监督的算法来完成的，需要长期的人工维护与微调。并且，无监督算法中先验知识的不足也导致了采用这些算法难以分析复杂语境中文本的结构以及实体的真实概念。针对上述问题，本申请实施例基于知识图谱，并对BERT模型进行改进，提出了一种实体消歧模型的建模方法和实体消歧预测方法，用以提高实体消歧预测的准确率。首先，本申请实施例针对特定领域构建出该领域的知识图谱，知识图谱中除了本领域的各个实体的名称外，还包括与该实体相关的多种实体属性以及相互之间的实体关系，如每个实体的业务、主营产品、事件、人物、地区、机构、行业、金融产品等等。基于知识图谱中的相关实体，可以构建出每个实体的描述性文本。在此之后，通过改进BERT模型的输入模式进行有监督训练，利用实体匹配语料构建训练数据集，在预测时将待预测文本和知识图谱描述性文本进行语义匹配，进而判断文本中包含的实体与知识图谱中的实体是否为同一概念，保证后续分析及展示的准确性。

下面通过具体实施例来说明本申请的技术方案。

参照图1，示出了本申请一个实施例的一种实体消歧模型的建模方法的步骤流程示意图，具体可以包括如下步骤：

S101、获取包含待识别实体的原始文本。

需要说明的是，本申请实施例中的实体消歧模型是在对BERT模型进行改进的基础上构建得到的。BERT模型是由谷歌公司提出的一种预训练语言模型，现有技术中已有大量的相关知识对该模型进行介绍，本申请实施例对此不再赘述。

如图2所示，是本申请实施例的一种实体消歧模型的架构示意图，该模型包括BERT模型层，以及与该BERT模型层依次连接的第一全连接层和第二全连接层。本申请实施例的目的即是对图2所示的实体消歧模型进行训练，使其具备处理实体消歧预测的能力，并保证预测的准确率。

通常，对于模型训练，首先需要采集一定数量的训练语料。因此，在本申请实施例中，可以通过获取一定数量的原始文本，并在此基础上，构建出可用于实体消歧模型训练的训练语料。

在本申请实施例的一种可能的实现方式中，可以首先确定一些待识别实体，然后通过网络爬取的方式，从海量网络信息中爬取包含上述待识别实体的原始文本。这些原始文本可以是新闻报道、舆论、网络热搜的标题等等，本申请实施例对此不作限定。

示例性地，可以首先确定待识别实体，如“三棵树”，然后从网络信息中爬取包含“三棵树”这一词语的信息，如“三棵树涂料市值首次突破500亿元！”这一新闻标题，作为后续处理的原始文本。

在本申请实施例的另一种可能的实现方式中，也可以不预先确定待识别实体，而是直接爬取大量的网络信息，通过对每条信息进行分词等处理，然后将每个分词与词典进行匹配，得到其中包含的实体。

例如，在不预先确定待识别实体的情况下，从网络信息中爬取到“三棵树涂料市值首次突破500亿元！”这条新闻，然后通过分词和词典匹配，得知“三棵树”可以作为待识别实体，从而将上述“三棵树涂料市值首次突破500亿元！”这条新闻作为后续处理的原始文本。

S102、根据预先构建的知识图谱和所述原始文本，生成训练语料，所述训练语料标注有所述待识别实体与所述原始文本之间的匹配信息。

在本申请实施例中，知识图谱可以是根据不同行业或领域分别构建的。知识图谱中记录有多个实体之间的实体关系，任一实体具有相应的实体属性。例如，在证券行业，需要对新闻中出现的实体进行识别，以判断该条新闻是否与某公司相关，则可以对与各个公司相关的数据进行整合，统计出相关的实体及关系，构建出知识图谱。

示例性地，可以根据业务需求对知识图谱进行设计。例如，可以设计如下表一所示的八种实体和如下表二所示的十种实体关系。

表一，实体及相关实体属性示例：

实体名称	数据类型	实体属性
			机构	实体	公司名称、公司简称、公司类型等
业务	字符串	业务名称
			主营产品	字符串	产品名称、产品介绍、产品类型等
事件	事件	事件名称、关系开始事件、关系结束时间等
			人物	实体	人物姓名、性别、出生日期等
地区	实体	地区名称、地区代码
			行业	字符串	行业名称、行业代码、行业类别等
金融产品	字符串	产品名称、产品代码、发布日期等

表二，实体关系示例：

基于上述实体和实体关系构建出的知识图谱可以如图3所示。其中，图3中每个正方形中的文字表示实体，各个实体之间的连接线表示实体关系，各个实体旁边的表格表示该实体具有的实体属性。

本申请实施例在基于设计出的上述知识图谱架构，将数据导出为csv格式，并使用Neo4J图数据库进行存储及可视化展示后，最终构建出的实体数量可以超过百万个，知识图谱总大小为2.91GB。

在本申请实施例中，可以根据预先构建的知识图谱和获取到的可能包含待识别实体的原始文本，共同来构建训练语料。

在具体实现中，可以根据知识图谱，生成用于描述待识别实体的图谱文本，然后通过确定待识别实体与原始文本之间的匹配信息，从而将上述图谱文本、原始文本、待识别实体和匹配信息组合成训练语料。

在本申请实施例中，可以通过在知识图谱中，查询待识别实体一跳内的多个关联实体，根据多个关联实体的实体属性，生成图谱文本。其中，一跳是指在由多个实体构成的知识图谱中，待识别实体与关联实体之间仅通过一条边连接。

通常，连接两个实体所需要的边的数量称作“跳”。如果两个实体之间仅通过一条边即可连接，称作“一跳”。例如，张三与张小三为父子关系，张三为张氏集团的董事长，则可以构建出如下所示的图谱关系，即：

(张小三)-[父亲]->(张三)-[董事长]->(张氏集团)

那么，在上述示例中，张小三与张三在查询中为一跳操作，而张小三与张氏集团在查询中需要两跳操作。

在本申请实施例中，以“三棵树涂料市值首次突破500亿元！”这条新闻为例，对于待识别实体为“三棵树”，则通过查询“三棵树”这一实体一跳内的所有实体可知，包括所属行业、主营产品、事件等多种类型的几十个实体。查询结果如图4所示，包括“主营产品：{防水材料、仿石涂料、胶黏剂、家具涂料等}，事件：{股权转让、重大合同、IPO等}，行业：{涂料涂漆、化工}”等等。

基于上述查询结果，由于原始文本中存在非待识别实体“涂料”，能够与待识别实体“三棵树”一跳内的其他实体匹配上或能够模糊匹配，则可以认为查询得到的其他实体属于“三棵树”这一实体的关联实体，则可以根据匹配上的一跳内的所有实体构建出图谱文本：“三棵树的公司名为三棵树涂料股份有限公司，所属行业为涂料涂漆，它的主营产品包括内墙涂料、工程涂料、家具涂料、防水涂料、装饰涂料、外墙涂料、仿石涂料等”。

当然，对于未能匹配或模糊匹配的实体，则可以采用默认的构建方式，使用指定的实体属性及关系构建出图谱文本，包括公司全称、公司地址、所属行业和公司CEO等一跳内的实体。例如，对于“每人每年必须至少种三棵树！你还欠着吗？”这条新闻，知识图谱中没有与之匹配或模糊匹配的实体，则可以选择默认构建方式，构建出的图谱文本可以为：“三棵树的公司名为三棵树涂料股份有限公司，它位于福建省莆田市，所属行业为涂料涂漆，CEO为洪杰。”

在本申请实施例中，构建出的训练语料包括上述图谱文本、原始文本、待识别实体和匹配信息共四列。其中，匹配信息可以用于表示待识别实体与原始文本之间是否匹配。例如，待识别实体“三棵树”与原始文本“三棵树涂料市值首次突破500亿元！”之间的匹配关系为“匹配”，而待识别实体“三棵树”与原始文本“每人每年必须至少种三棵树！你还欠着吗？”之间的匹配关系为“不匹配”。

因此，根据上述示例构建出的两条训练语料可以表示如下：

[“三棵树的公司名为三棵树涂料股份有限公司，所属行业为涂料涂漆，它的主营产品包括内墙涂料、工程涂料、家具涂料、防水涂料、装饰涂料、外墙涂料、仿石涂料等”，“三棵树涂料市值首次突破500亿元！”，“三棵树”，“匹配”]

[“三棵树的公司名为三棵树涂料股份有限公司，它位于福建省莆田市，所属行业为涂料涂漆，CEO为洪杰。”，“每人每年必须至少种三棵树！你还欠着吗？”，“三棵树”，“不匹配”]

依照上述方式，可以构建出多条有标注的语料用于之后的有监督的实体消歧模型的训练。

S103、采用所述BERT模型层对所述训练语料进行训练，得到包括多个向量的输出序列。

在本申请实施例中，针对实体消歧模型的训练其中一个重要环节是实体匹配。实体匹配可以看作是一个文本分析中的二分类任务。本申请实施例可以将构建出的训练语料中的前三列作为输入数据，而最后一列作为转换为独热编码的预测值，是否匹配将会被映射为{“匹配”：1，“不匹配”：0}。

本申请实施例使用BERT构建实体匹配模型，BERT本身是一个生成字向量及句向量的模型，因此在输入端和后续任务都需要自行额外设计符合业务需求的网络结构。

在本申请实施例中，可以根据训练语料生成用于模型训练的输入数据，使待识别实体位于生成的输入数据的第一分隔位。

由于BERT模型对于靠前的序列信息学习效果要好于靠后的序列信息，将待识别实体放置于第一分隔位所获得的模型训练效果较好。并且，待识别实体是要做嵌入表示的核心实体，如果将其放在第二或第三个分隔位，对于不同的训练语料，前面的长度是不同的，会造成BERT模型的输入表示长度不统一的情况。退一步讲，如果要保证长度统一需要加空的占位符，但是BERT模型对于短序列的表示能力要强于长序列。因此将待识别实体放在前面是最为合理的输入方式。

在具体实现中，首先可以将训练语料中的待识别实体、原始文本和图谱文本顺序排序，得到数据序列。

例如，根据上述示例，可以得到如下的数据序列：

“三棵树三棵树涂料市值首次突破500亿元！三棵树的公司名为三棵树涂料股份有限公司，所属行业为涂料涂漆，它的主营产品包括内墙涂料、工程涂料、家具涂料、防水涂料、装饰涂料、外墙涂料、仿石涂料等”

“三棵树每人每年必须至少种三棵树！你还欠着吗？三棵树的公司名为三棵树涂料股份有限公司，它位于福建省莆田市，所属行业为涂料涂漆，CEO为洪杰。”

然后，在上述数据序列前插入第一标记符，并在待识别实体、原始文本和图谱文本之间以及数据序列后插入第二标记符，得到输入数据，上述第一标记符与第二标记符不同。

示例性地，第一标记符可以为使用特定的分类token([CLS])作为标记，用在每个数据序列的开头，以便在后续模型训练时，在输出端起到聚集输入表征信息的作用。第二标记符可以使用分隔token([SEP])作为标记，用以分辨不同的句子，同时对不同句子实行可学习可分割的嵌入向量。

因此，上述示例中的输入数据可以被表示如下：

“[CLS]三棵树[SEP]三棵树涂料市值首次突破500亿元！[SEP]三棵树的公司名为三棵树涂料股份有限公司，所属行业为涂料涂漆，它的主营产品包括内墙涂料、工程涂料、家具涂料、防水涂料、装饰涂料、外墙涂料、仿石涂料等[SEP]”

“[CLS]三棵树[SEP]每人每年必须至少种三棵树！你还欠着吗？[SEP]三棵树的公司名为三棵树涂料股份有限公司，它位于福建省莆田市，所属行业为涂料涂漆，CEO为洪杰。[SEP]”

在构建出上述输入数据后，可以将将输入数据输入至BERT模型层进行处理，得到包括多个向量的输出序列。

在本申请实施例的实体消歧模型中，BERT模型层可以看做一个向量编码器，其内部结构及代码已经完全公开，可以视作一个黑盒。

BERT模型层的输出数据为一个序列，该序列包括多个向量。在本申请实施例的后续训练过程中，只需要使用输出序列中的第一个向量，序列之后的其他向量在整个训练及预测过程中没有使用也无需关注。这是由于第一个向量作为开始标记是经过预训练的，BERT中特殊的内部结构使得该第一个向量完整保留了句子中的语义信息。

S104、依次采用所述第一全连接层和所述第二全连接层对所述多个向量中的第一个向量进行处理，得到用于表征所述待识别实体与所述原始文本匹配关系的概率值。

如图2所示的实体消歧模型的架构，针对BERT模型层输出的序列中的第一个向量C，可以将其作为下一个全连接层(第一全连接层)的输入数据，也就是将多个向量中的第一个向量C输入至第一全连接层中。

在本申请实施例中，可以使用tanh()函数进行激活，该激活函数的作用是解决神经网络中的非线性问题。tanh()函数被称为双正切曲线函数，其函数表达式如下所示：

在本申请实施例中，可以令第一全连接层的权重为W₁，偏置为b₁，则采用第一全连接层进行处理，得到的前向传播后的输出结果为：

Y₁＝tanh(W₁C+b₁)

在本申请实施例中，如图2所示，为了增强模型的非线性表达能力，在第一全连接层后，可以再接一个全连接层(第二全连接层)。

与第一全连接层类似，针对第二全连接层，可以训练参数W₁和b₁。因此，将上述输出结果输入至第二全连接层中并使用归一化指数函数softmax()进行激活，可以将最终的结果映射为分类个数：

Y₂＝softmax(W₂Y₁+b₂)

两个分类分别为“匹配”和“不匹配”，可以经过独热编码变为1和0。

其中，softmax()函数的表达式为：

经过第一全连接层和第二全连接层的处理后，可以得到两个输出值，该输出值即是用于表征待识别实体与原始文本匹配关系的概率值，分别对应‘实体匹配’和‘实体不匹配’的概率，并且两个概率相加的和为1。例如，输出[0.93，0.07]，表示两句中所属实体属于同一概念的概率为0.93。

S105、根据所述匹配信息和所述概率值计算模型误差，并通过多次迭代使所述模型误差小于预设值，以完成所述实体消歧模型的建模。

在本申请实施例中，由于输入数据具有人工标注的匹配信息，因此在得到模型输出的概率值后，可以根据输出的概率值与匹配信息进行模型误差的计算。迭代多次即可逐渐使模型误差变小，直至模型训练完成。

需要说明的是，在进行模型误差计算后，还可以进行反向传播。反向传播算法根据模型最后一层输出的误差，反向传播到每一个可训练的参数中，并不断迭代调整可训练参数的具体数值，最终收敛至参数不再变化的过程。反向传播是训练过程中需要使用的算法，为通用做法，本申请实施例对此不再赘述。

至此，实体消歧模型便训练完成了。后续，可以采用该实体消歧模型进行实体消歧预测。

参照图5，示出了本申请一个实施例的一种实体消歧预测方法的步骤流程示意图，具体可以包括如下步骤：

S501、获取待预测的文本数据，所述文本数据包括待预测的实体。

需要说明的是，本申请实施例介绍的是基于已训练好的实体消歧模型进行实体消歧预测的过程。上述实体消歧模型包括BERT模型层，以及与BERT模型层依次连接的第一全连接层和第二全连接层，该实体消歧模型通过如下方式建模得到：

获取包含待识别实体的原始文本；

上述训练好的实体消歧模型可以是按照前述实施例中S101-S105构建的实体消歧模型。因此，关于本申请实施例中的实体消歧模型的具体构建方式，可以参见前述实施例的描述，本申请实施例对此不再赘述。

在本申请实施例中，在进行实体消歧预测时，可以首先获取待预测的文本数据，该文本数据中包括待预测的实体。

示例性地，待预测的文本数据为“星期六义务劳动志愿者风采”，经过分词和词典匹配等处理，可以初步认为“星期六”为某一公司名，也就是本步骤中的待预测的实体。

S502、基于预先构建的知识图谱和所述待预测的文本数据，生成待预测的输入数据。

为了使用已训练好的实体消歧模型进行预测，可以针对待预测的文本数据，采用预先构建的知识图谱，生成待预测的输入数据。上述待预测的输入数据也就是后续输入至实体消歧模型的输入数据。

在具体实现中，在基于预先构建的知识图谱和待预测的文本数据，生成待预测的输入数据时，可以首先在知识图谱中查询待预测的实体的一跳内的所有实体，确定是否存在与之匹配的关联实体。若存在关联实体，则可以根据关联实体的实体属性，生成图谱文本；否则，则可以根据指定实体的实体属性生成图谱文本，进而生成待预测的输入数据。

示例性地，对于上述待预测的实体“星期六”，在知识图谱中查询其一跳内的其他实体，未查询到与其匹配的关联实体，则可以使用“星期六”这一公司名称的默认描述“星期六的公司名为星期六股份有限公司，它位于广东省佛山市，所属行业为鞋类，CEO为于洪涛。”，构建出如下所示的待预测的输入数据：

“[CLS]星期六[SEP]星期六义务劳动志愿者风采[SEP]星期六的公司名为星期六股份有限公司，它位于广东省佛山市，所属行业为鞋类，CEO为于洪涛。[SEP]”

需要说明的是，基于预先构建的知识图谱和待预测的文本数据，生成待预测的输入数据的具体方式，可以参见前述实施例中S102的介绍。

S503、将所述待预测的输入数据输入至已训练好的实体消歧模型中，得到所述待预测的实体与所述待预测的文本数据之间的匹配结果。

将构造好的输入数据输入至已训练好的实体消歧模型中，可以得到待预测的实体与待预测的文本数据之间的匹配结果。

例如，针对上述待预测的输入数据“[CLS]星期六[SEP]星期六义务劳动志愿者风采[SEP]星期六的公司名为星期六股份有限公司，它位于广东省佛山市，所属行业为鞋类，CEO为于洪涛。[SEP]”，模型输出的匹配结果为[0.02，0.98]。该匹配结果表示两个句子所属的“星期六”为同一概念的概率只有0.02，从而可以判断所描述的实体不匹配。

为了便于理解，下面结合本申请实施例提供的实体消歧算法，对实体消歧模型的建模过程和预测过程作一详细介绍。

如图6所示，是本申请一个实施例的一种实体消歧算法的示意图，本算法包括训练流程和预测流程两部分。其中，训练流程即是按照S101-S105进行实体消歧模型的建模过程，预测流程则是在前述训练得到的实体消歧模型基础上，采用模型进行实际预测的过程。

一、训练流程：

如图6所示，在实体消歧模型的训练流程中，首先需要构建知识图谱。以识别网络信息中的新闻、报道、舆论中的各个实体是否包括公司名称为例，需要基于公司名称及其相关的其他实体，构建出公司知识图谱。

在进行模型训练时，可以从网络信息中爬取新闻标题作为原始文本，并通过分词等处理，获取新闻中可能包含的公司主体(即公司名称)，作为待识别实体。然后，可以在知识图谱中查询该公司主体的一跳内是否存在能够与该新闻匹配或模糊匹配的关联实体。

若存在关联实体，则可以根据关联实体的实体属性，拼接得到描述性文本，即图谱文本；否则，可以根据默认的指定实体，拼接得到图谱文本。在此基础上，将公司主体、新闻标题、描述性文本组合成训练语料，并人工标注该语料中公司主体与新闻标题之间的匹配信息。

按照上述方式，可以得到多条有监督的训练语料。多条训练语料被输入至实体消歧模型进行处理，实体消歧模型在经过前向传输后，可以得到用于表征公司主体与新闻标题匹配关系的概率值。根据上述概率值以及预先标注的匹配信息，可以计算模型误差。若模型误差未满足停止条件，例如，上述模型误差大于或等于预设值，则可以继续进行迭代处理，直到模型误差小于预设值。至此，实体消歧模型的训练就完成了。

二、预测流程：

如图6所示，在基于实体消歧模型的预测流程中，可以首先获取新闻中包含的公司主体。然后，在知识图谱中查询该公司主体一跳范围内是否存在能够与该新闻匹配的关联实体。若存在，则可以根据关联实体的实体属性拼接得到描述性文本，即图谱文本；否则，可以根据默认的指定实体，拼接得到图谱文本。

在拼接得到上述描述性文本后，可以将公司主体、新闻、描述性文本组合成待预测的输入数据。上述输入数据在被输入至前述训练好的实体消歧模型进行预测后，可以得到模型的输出值。根据该输出值，可以确定上述公司主体与新闻是否匹配。

需要说明的是，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

参照图7，示出了本申请一个实施例的一种实体消歧模型的建模装置的示意图，所述实体消歧模型包括BERT模型层，以及与所述BERT模型层依次连接的第一全连接层和第二全连接层，所述装置具体可以获取模块701、生成模块702、训练模块703、处理模块704和迭代模块705，其中：

获取模块，用于获取包含待识别实体的原始文本；

在本申请实施例中，所述生成模块具体可以用于：根据所述知识图谱，生成用于描述所述待识别实体的图谱文本；确定所述待识别实体与所述原始文本之间的匹配信息；将所述图谱文本、所述原始文本、所述待识别实体和所述匹配信息组合成所述训练语料。

在本申请实施例中，所述知识图谱中记录有多个实体之间的实体关系，任一实体具有相应的实体属性；所述生成模块还可以用于：在所述知识图谱中，查询所述待识别实体一跳内的多个关联实体，所述一跳是指在由所述多个实体构成的知识图谱中，所述待识别实体与所述关联实体之间仅通过一条边连接；根据所述多个关联实体的实体属性，生成所述图谱文本。

在本申请实施例中，所述训练模块具体可以用于：根据所述训练语料生成用于模型训练的输入数据，所述待识别实体位于所述输入数据的第一分隔位；将所述输入数据输入至所述BERT模型层进行处理，得到包括多个向量的输出序列。

在本申请实施例中，所述训练模块还可以用于：将所述训练语料中的所述待识别实体、所述原始文本和所述图谱文本顺序排序，得到数据序列；在所述数据序列前插入第一标记符，并在所述待识别实体、所述原始文本和所述图谱文本之间以及所述数据序列后插入第二标记符，得到所述输入数据，所述第一标记符与所述第二标记符不同。

在本申请实施例中，所述处理模块具体可以用于：将所述多个向量中的第一个向量输入至所述第一全连接层中并使用双正切曲线函数进行激活，得到前向传播后的输出结果；将所述输出结果输入至所述第二全连接层中并使用归一化指数函数进行激活，得到用于表征所述待识别实体与所述原始文本匹配关系的概率值。

参照图8，示出了本申请一个实施例的一种实体消歧预测装置的示意图，所述装置具体可以包括文本数据获取模块801、输入数据生成模块802和模型预测模块803，其中：

获取模块，用于获取包含待识别实体的原始文本；

对于装置实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例部分的说明即可。

参照图9，示出了本申请一个实施例的一种终端设备的示意图。如图9所示，本实施例的终端设备900包括：处理器910、存储器920以及存储在所述存储器920中并可在所述处理器910上运行的计算机程序921。所述处理器910执行所述计算机程序921时实现上述实体消歧模型的建模方法和/或实体消歧预测方法各个实施例中的步骤，例如图1所示的步骤S101至S105、图5所示的步骤S501至S503。或者，所述处理器910执行所述计算机程序921时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块701至705的功能、图8所示模块801至803的功能。

示例性的，所述计算机程序921可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器920中，并由所述处理器910执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段可以用于描述所述计算机程序921在所述终端设备900中的执行过程。例如，所述计算机程序921可以被分割成获取模块、生成模块、训练模块、处理模块和迭代模块，各模块具体功能如下：

获取模块，用于获取包含待识别实体的原始文本；

或者，所述计算机程序921可以被分割成文本数据获取模块、输入数据生成模块和模型预测模块，各模块具体功能如下：

模型预测模块，用于将所述待预测的输入数据输入至已训练好的实体消歧模型中，得到所述待预测的实体与所述待预测的文本数据之间的匹配结果。

所述终端设备900可以是桌上型计算机、云端终端设备等计算设备。所述终端设备900可包括，但不仅限于，处理器910、存储器920。本领域技术人员可以理解，图9仅仅是终端设备900的一种示例，并不构成对终端设备900的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备900还可以包括输入输出设备、网络接入设备、总线等。

所述处理器910可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器920可以是所述终端设备900的内部存储单元，例如终端设备900的硬盘或内存。所述存储器920也可以是所述终端设备900的外部存储设备，例如所述终端设备900上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等等。进一步地，所述存储器920还可以既包括所述终端设备900的内部存储单元也包括外部存储设备。所述存储器920用于存储所述计算机程序921以及所述终端设备900所需的其他程序和数据。所述存储器920还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还公开了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述各个实施例所述的实体消歧模型的建模方法和/或实体消歧预测方法。

本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前述各个实施例所述的实体消歧模型的建模方法和/或实体消歧预测方法。

本申请实施例还公开了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行前述各个实施例所述的实体消歧模型的建模方法和/或实体消歧预测方法。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种实体消歧模型的建模方法，其特征在于，所述实体消歧模型包括BERT模型层，以及与所述BERT模型层依次连接的第一全连接层和第二全连接层，所述方法包括：

获取包含待识别实体的原始文本；

2.根据权利要求1所述的方法，其特征在于，所述根据预先构建的知识图谱和所述原始文本，生成训练语料，包括：

根据所述知识图谱，生成用于描述所述待识别实体的图谱文本；

确定所述待识别实体与所述原始文本之间的匹配信息；

将所述图谱文本、所述原始文本、所述待识别实体和所述匹配信息组合成所述训练语料。

3.根据权利要求2所述的方法，其特征在于，所述知识图谱中记录有多个实体之间的实体关系，任一实体具有相应的实体属性；所述根据所述知识图谱，生成用于描述所述待识别实体的图谱文本，包括：

在所述知识图谱中，查询所述待识别实体一跳内的多个关联实体，所述一跳是指在由所述多个实体构成的知识图谱中，所述待识别实体与所述关联实体之间仅通过一条边连接；

根据所述多个关联实体的实体属性，生成所述图谱文本。

4.根据权利要求2或3所述的方法，其特征在于，所述采用所述BERT模型层对所述训练语料进行训练，得到包括多个向量的输出序列，包括：

根据所述训练语料生成用于模型训练的输入数据，所述待识别实体位于所述输入数据的第一分隔位；

将所述输入数据输入至所述BERT模型层进行处理，得到包括多个向量的输出序列。

5.根据权利要求4所述的方法，其特征在于，所述根据所述训练语料生成用于模型训练的输入数据，包括：

将所述训练语料中的所述待识别实体、所述原始文本和所述图谱文本顺序排序，得到数据序列；

在所述数据序列前插入第一标记符，并在所述待识别实体、所述原始文本和所述图谱文本之间以及所述数据序列后插入第二标记符，得到所述输入数据，所述第一标记符与所述第二标记符不同。

6.根据权利要求1-3或5任一项所述的方法，其特征在于，所述依次采用所述第一全连接层和所述第二全连接层对所述多个向量中的第一个向量进行处理，得到用于表征所述待识别实体与所述原始文本匹配关系的概率值，包括：

将所述多个向量中的第一个向量输入至所述第一全连接层中并使用双正切曲线函数进行激活，得到前向传播后的输出结果；

将所述输出结果输入至所述第二全连接层中并使用归一化指数函数进行激活，得到用于表征所述待识别实体与所述原始文本匹配关系的概率值。

7.一种实体消歧预测方法，其特征在于，包括：

获取待预测的文本数据，所述文本数据包括待预测的实体；

获取包含待识别实体的原始文本；

8.一种实体消歧模型的建模装置，其特征在于，所述实体消歧模型包括BERT模型层，以及与所述BERT模型层依次连接的第一全连接层和第二全连接层，所述装置包括：

获取模块，用于获取包含待识别实体的原始文本；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。