CN113806562B

CN113806562B - 模型训练方法、装置、设备及存储介质

Info

Publication number: CN113806562B
Application number: CN202111364141.8A
Authority: CN
Inventors: 谭传奇; 刘一佳; 袁正; 黄松芳; 黄非
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-04-15
Anticipated expiration: 2041-11-17
Also published as: CN113806562A

Abstract

本公开涉及一种模型训练方法、装置、设备及存储介质，该方法包括：利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测；从字符预测完成的输入文本中提取实体；对提取的实体进行预测，得到所述提取的实体是否属于所述知识图谱中的实体。通过本公开提供的模型训练方法可提高实体的识别精度。

Description

模型训练方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种模型训练方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，语言模型在自然语言处理中占有重要的地位，它的任务是预测一个句子在语言中出现的概率。

但是，本申请的发明人发现，现有技术中的语言模型是通过文本训练得到的，导致训练出的语言模型无法对文本中实体的内涵进行准确理解和推断。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种模型训练方法、装置、设备及存储介质，通过本公开提供的模型训练方法可提高实体的识别精度。

第一方面，本公开实施例提供一种模型训练方法，包括：

利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测；

从字符预测完成的输入文本中提取实体；

对提取的实体进行预测，得到提取的实体是否属于所述知识图谱中的实体。

第二方面，本公开实施例提供一种模型训练装置，包括：

第一预测模块，用于利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测；

实体提取模块，用于从字符预测完成的输入文本中提取实体；

第二预测模块，用于对提取的实体进行预测，得到提取的实体是否属于所述知识图谱中的实体。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的模型训练方法、装置、设备及存储介质，通过利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测；从字符预测完成的输入文本中提取实体；对提取的实体进行预测，得到所述提取的实体是否属于知识图谱中的实体的技术手段，实现了提高实体识别精度的目的。进而可使得下游任务获得较准确的输出。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的模型训练方法流程图；

图2为本公开实施例提供的模型训练方法流程图；

图3为本公开实施例提供的一种模型训练的流程架构图；

图4为本公开实施例提供的模型训练方法流程图；

图5为本公开实施例提供的模型训练方法流程图；

图6为本公开另一实施例提供的模型训练方法流程图；

图7为本公开实施例提供的模型训练装置的结构示意图；

图8为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

随着科技的不断发展，语言模型在自然语言处理中占有重要的地位，它的任务是预测一个句子在语言中出现的概率。通常情况下，语言模型是通过文本训练得到的，导致训练出的语言模型无法对文本中实体的内涵进行准确理解和推断。例如在医学领域，语言模型只使用医学文本进行预训练（包括医学论文和医学病历）。然而在医学中沉淀了许多医学知识图谱，其中包含了丰富的医学同义词和医学概念间的关系。这些结构化的知识并没有被语言模型直接学习到，因此，只使用医学文本进行预训练的语言模型缺失了知识图谱中的结构化知识，不能对医学实体背后的内涵进行理解和推断，但这些同义词知识和关系知识能够让语言模型对医学文本有更好的理解。针对该问题，本公开实施例提供了一种模型训练方法，旨在在模型训练过程中引入知识图谱（知识图谱是一种反应实体间的关系的网络，一般由实体和实体间的关系构成），以使训练得到的模型能够对待识别文本中实体的内涵进行准确理解和推断，从而提高实体的识别精度。下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的模型训练方法流程图。本实施例可适用于对各种领域中的语言模型进行训练的情况，该方法可以由模型训练装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如终端，具体包括手机、电脑或平板电脑等。或者，本实施例可适用于服务端中对各种领域中的语言模型进行训练的情况，该方法可以由模型训练装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器。

如图1所示，该方法具体步骤如下：

S101、利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测。

知识图谱是一种反应实体间关系的网络，一般由实体和实体间的关系构成。其中，本公开中的知识图谱可以是医学领域的知识图谱，基于医学领域的知识图谱中的实体训练后的语言模型可以对医学实体进行检测或识别。另外，知识图谱还可以是煤矿领域的知识图谱或电力行业的知识图谱，从而使得基于知识图谱中的实体训练后的语言模型可以对煤矿领域的实体或电力行业的实体进行检测或识别。

输入文本指在语言模型的使用阶段，输入至语言模型的文本。对输入文本进行字符预测包括对输入文本中的单词、子词或汉子等进行预测。单词和子词的区别是：单词的粒度比子词的粒度大，即子词可以组成单词。

S102、从字符预测完成的输入文本中提取实体。

S103、对提取的实体进行预测，得到提取的实体是否属于知识图谱中的实体。

本实施例提供的模型训练方法，通过利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测；从字符预测完成的输入文本中提取实体；对提取的实体进行预测，得到所述提取的实体是否属于知识图谱中的实体的技术手段，实现了提高实体识别精度的目的。

进一步的，可通过如下模型训练方法获得基于知识图谱中的实体训练后的语言模型。在一种实施方式中，参考图2所示的一种模型训练方法的流程示意图，该方法包括如下步骤：

S201、获得输入句子中每个字符分别对应的第一编码信息，并利用每个字符分别对应的第一编码信息预测句子中每个字符的标注。

其中，输入句子指在模型训练阶段，输入至语言模型的句子，该句子可以称为训练样本或者样本文本。可根据语言模型的应用领域针对性的获取某具体领域内的常用文本作为样本文本。例如在医学领域，样本文本可以是医学论文的摘要；在科技领域，样本文本可以是科技论文的摘要等；在煤炭领域，样本文本可以是煤炭领域内的论文摘要、期刊简介等；在电力领域，样本文本可以是电力领域内的论文摘要、期刊简介等。本公开以医学领域的语言模型为例进行说明。

样本文本可以是一篇医学论文的摘要，假设一篇医学论文的摘要包括5句话，该5句话一起作为样本文本；也可以是多篇医学论文分别对应的摘要。在样本文本是多篇医学论文分别对应的摘要的情况下，为了提高模型的训练速度，预先对多篇医学论文分别对应的摘要进行预处理，以规范样本文本的格式。具体的，假设样本文本是10篇医学论文分别对应的摘要构成的集合，如果每篇医学论文的摘要包括5句话，可以将每5句话构成一行，得到一个10*5的矩阵，该矩阵为样本文本，作为语言模型的输入。

具体的，可利用待训练的语言模型确定样本文本中每个字符分别对应的第一编码信息。示例性的，参考如图3所示的一种模型训练的流程架构图，上述的样本文本即为图3所示待训练语言模型的“输入”。本公开实施例以待训练的语言模型是医学语言模型为例进行说明。

样本文本包括多个字符，假设样本文本记为

，表示样本文本x包括n个字符，每个字符可以是一个单词、一个子词或者一个汉字。单词和子词的区别是：单词的粒度比子词的粒度大，即子词可以组成单词，本公开实施例以字符是单词为例进行说明。如图3所示，样本文本x包括6个字符，即

依次是“MASK”、“MASK”、“cause”、“coronary”、“artery”、“disease”。

以图3为例，语言模型通过Transformers模型（Transformers模型是一种基于自注意力（self-attention）的序列建模模型）对输入的样本文本进行文本编码，获得样本文本中每个字符分别对应的第一编码信息。样本文本中每个字符分别对应的第一编码信息即为图3所示的h层。

通过Transformers模型对输入的样本文本进行文本编码，获得样本文本中每个字符分别对应的第一编码信息的过程可通过如下公式（1）进行表达：

其中，样本文本记为

，每个字符

和第一编码信息

一一对应，例如第一编码信息

是字符

对应的第一编码信息，第一编码信息

也称为字符

对应的嵌入；第一编码信息

是字符

对应的第一编码信息，第一编码信息

也称为字符

对应的嵌入。

S202、根据句子中每个字符的标注，确定句子中的一个或多个样本实体。

其中，一个样本实体由一个或多个字符构成，例如在医学领域，样本实体具体可以是“肺结核”、“冠心病”等。样本实体“肺结核”由三个字符“肺”、“结”、“核”构成；样本实体“冠心病”由三个字符“冠”、“心”“病”构成。每个字符的标注用于表示字符与样本实体的位置关系，例如字符“冠”位于样本实体“冠心病”的第一个位置，字符“心”位于样本实体“冠心病”的第二个位置，字符“病”位于样本实体“冠心病”的第三个位置，如此根据每个字符分别对应的标注可确定句子中的样本实体。

具体的，在一些实施方式中，通过命名实体识别工具和实体链接工具确定样本文本中的每个样本实体。在将样本文本输入至语言模型之前，通过命名实体识别工具和实体链接工具可以预先标注出样本文本中的一个或多个样本实体m。任一样本实体m可以表示为

。例如，命名实体识别工具和实体链接工具在样本文本中预先标注出两个样本实体，每个样本实体用一个虚线框表示，如图3所示，两个字符“MASK”外有一个虚线框，样本文本的后三个字符外有一个虚线框，每个虚线框内的字符构成一个样本实体。一个样本实体可以由一个或多个字符构成，一个样本实体对应一个实体编号。例如，样本实体m包括3个字符，

表示该样本实体m所包括的3个字符中的第一个字符，

表示样本实体m中的最后一个字符。通过命名实体识别工具和实体链接工具标注出样本实体后，进一步，通过实体链接工具标注出每个样本实体的实体编号，实体链接工具给每个样本实体标注的实体编号属于知识图谱。

在另一些实施方式中，确定样本文本中的每个样本实体包括：语言模型根据每个字符分别对应的第一编码信息确定每个字符分别对应的标注，根据每个字符分别对应的标注确定样本文本中的每个样本实体。具体的，语言模型利用每个字符分别对应的第一编码信息预测每个字符的标注（标注包括B、I或者O，B代表该字符在某一实体的开头，I代表该字符在某一实体的中间，O代表该字符不在任何实体的开头或中间）。语言模型利用每个字符分别对应的第一编码信息预测每个字符的标注可以通过如下公式（2）进行：

其中，

表示线性参数。

。

表示每个字符分别对应的第一编码信息

中的第i个。

表示在输入样本文本的条件下该样本文本中的第i个字符被标注为B、I和O的概率。也就是说，当

为B时，

表示第i个字符被标注为B的概率。当

为I时，

表示第i个字符被标注为I的概率。当

为O时，

表示第i个字符被标注为O的概率。对应的，图3中的“实体检测”层是指语言模型基于每个字符分别对应的第一编码信息

预测每一个字符的标注（B、I或者O）。针对同一个字符，例如，第i个字符，语言模型预测出3个概率，即第i个字符被标注为B的概率、被标注为I的概率和被标注为O的概率。此时，可以选择一个概率最大的标注结果作为语言模型给第i个字符的标注。

在一些实施方式中，样本文本中的每个样本实体可以在将样本文本输入至语言模型之前通过预设方法确定并进行标注。具体的，确定样本文本中的每个样本实体包括：通过命名实体识别工具和实体链接工具确定样本文本中的每个样本实体。其中，命名实体识别工具和实体链接工具是与语言模型相互独立的工具，在本公开实施例中认为通过命名实体识别工具和实体链接工具确定的样本文本中的每个样本实体是准确的，在模型训练阶段，命名实体识别工具和实体链接工具指能够得到正确的样本实体的工具；在模型使用阶段，命名实体识别工具和实体链接工具不参与运算。

S203、针对句子中的每个样本实体，根据样本实体的第一实体向量，在知识图谱的参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体。

可选的，根据句子中的每个字符分别对应的第一编码信息，确定句子中每个样本实体分别对应的第一实体向量，样本实体由一个或多个字符构成。

每个样本实体分别对应的第一实体向量可以是一个由几百维数字组成的向量，第一实体向量由组成样本实体的每个字符分别对应的第一编码信息预先确定，可存储于知识图谱。故基于组成样本实体的每个字符分别对应的第一编码信息可以查找到该样本实体对应的第一实体向量。可选的，样本实体的第一实体向量是根据样本实体包括的第一个字符的第一编码信息和样本实体包括的最后一个字符的第一编码信息得到的。

其中，样本文本中每个样本实体分别对应的第一实体向量为图3所示的“实体表示”层。样本文本中的每个样本实体对应图3中的标号210和220。其中，样本实体210由两个字符（分别是“MASK”、“MASK”）构成，实体编号为C1532253；样本实体220由三个字符（分别是“coronary”、“artery”、“disease”）构成，实体编号为C0010054。知识图谱可以根据具体的应用领域确定，例如若语言模型应用在医学领域，则知识图谱为医学知识图谱；若语言模型应用在科技领域，则知识图谱为科技知识图谱。知识图谱是一种反应实体间的关系的网络，一般由实体和实体间的关系构成。

在模型训练阶段，若只基于样本文本对语言模型进行训练，则训练获得的模型缺失知识图谱中的结构化知识，便不能对实体背后的内涵进行理解和推断。针对该问题，在本公开提供的模型训练方法中，结合预设的知识图谱对输入的文本样本中的每个第一实体向量进行处理，以将知识图谱中包含的丰富的同义词和概念间的结构化关系引入语言模型，使语言模型能够学习到知识图谱中的结构化知识，从而使得训练好的语言模型能够对待识别文本中实体的内涵进行准确理解和推断。

知识图谱中包括很多个参考实体，由于知识图谱中包含有丰富的同义词和概念间的结构化关系，因此从参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体，可为使样本实体包含丰富的同义词和概念间的结构化关系提供参考数据，从而为提高语言模型的处理精度提供数据基础。

S204、根据样本实体对应的待选实体，确定样本实体的第二实体向量。

可选的，可将样本实体对应的待选实体的向量直接确定为样本实体的第二实体向量，或者对待选实体的向量以及样本实体对应的第一实体向量进行融合处理获得样本实体的第二实体向量，以使样本实体包含丰富的同义词和概念间的结构化关系的实体，从而为提高语言模型的处理精度提供数据基础。

示例性的，每个样本实体分别对应的第二实体向量对应图3所示的“额外实体表示”层。

S205、根据句子中每个样本实体的第二实体向量，对语言模型进行训练。

本公开实施例通过将样本文本和知识图谱同时作为语言模型的训练数据对语言模型进行训练，既可以利用到知识图谱中的结构化知识，也可以利用到自由文本，从而使得训练获得的语言模型可输出较为精准的结果，该结果可作为下游任务的输入，通过为下游任务提供较为精准的输入，可提高下游任务的处理精度。

图4为本公开另一实施例提供的模型训练方法流程图。在本实施例中，针对上述实施例的步骤S205“根据句子中每个样本实体的第二实体向量，对语言模型进行训练”给出一种可选实施方式。如图4所示，该方法具体步骤如下：

S401、获得输入句子中每个字符分别对应的第一编码信息，并利用每个字符分别对应的第一编码信息预测句子中每个字符的标注。

S402、根据句子中每个字符的标注，确定句子中的一个或多个样本实体。

S403、针对句子中的每个样本实体，根据样本实体的第一实体向量，在知识图谱的参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体。

S404、根据样本实体对应的待选实体，确定样本实体的第二实体向量。

S405、根据句子中每个样本实体的第二实体向量，确定句子中每个字符分别对应的目标编码信息，至少根据句子中部分字符对应的目标编码信息对语言模型进行训练。

具体的，在获得每个样本实体分别对应的第二实体向量之后，对第二实体向量进行解码或者说是反编码，可获得每个字符分别对应的目标编码信息，每个字符分别对应的目标编码信息与每个字符分别对应的第一编码信息进行比较，若两者越接近，则表示语言模型被训练的越好，语言模型的性能越好；若两者相差越远，则表示语言模型有待继续进行训练，并可基于两者之间的差优化模型参数，从而达到对模型进行训练的目的。

其中，目标编码信息对应如图3所示的

层。其中，在将文本样本输入至语言模型之前，可将文本样本中的部分字符进行掩码，以使语言模型基于剩余的、未被掩码的字符对被掩码的字符进行预测，并基于预测结果对语言模型进行优化训练，因此在对语言模型进行训练时基于部分字符（即被掩码的字符）对应的目标编码信息进行。

在一种实施方式中，根据句子中每个样本实体的第二实体向量，确定句子中每个字符分别对应的目标编码信息，包括：

若字符属于任一样本实体，则根据字符对应的第一编码信息和所述任一样本实体对应的第二实体向量，确定字符对应的第二编码信息；若字符不属于任一样本实体，则字符对应的第二编码信息是字符对应的第一编码信息；根据字符对应的第二编码信息，确定字符对应的目标编码信息。

在一些实施方式中，示例性的，按照如下公式（3）根据样本实体m对应的第二实体向量

和样本文本中每个字符分别对应的第一编码信息

得到每个字符分别对应的第二编码信息：

其中，

表示样本文本中第i个字符对应的第二编码信息，

表示第i个字符对应的第一编码信息，

和

分别表示线性参数，

表示样本实体m对应的第二实体向量，如果第i个字符属于某个样本实体m，则第i个字符对应的第二编码信息为

；如果第i个字符不属于任何样本实体，则第i个字符对应的第二编码信息为第i个字符对应的第一编码信息。

进一步的，通过另一个Transformers模型，每个字符对应的第二编码信息

作为该Transformers模型的输入，Transformers模型的输出为每个字符对应的目标编码信息，如表达式（4）所示：得到输入文本中每个单词最终的文本编码表示：

其中，

表示输入至语言模型的样本文本中第一个字符对应的目标编码信息，

表示输入至语言模型的样本文本中第二个字符对应的目标编码信息……，

表示输入至预设模型的样本文本中第n个字符对应的目标编码信息；

和

一一对应。

需要说明的是，参考图3所示，其中，h层表示样本文本中每个字符分别对应的第一编码信息，即

，其中，

表示样本文本中第一个字符对应的第一编码信息，

表示样本文本中第二个字符对应的第一编码信息，以此类推，

表示样本文本中第n个字符对应的第一编码信息；图3中的

层表示样本文本中每个字符分别对应的第二编码信息，

表示样本文本中第一个字符对应的第二编码信息，

表示样本文本中第二个字符对应的第二编码信息……，

表示样本文本中第n个字符对应的第二编码信息；图3中的

层表示样本文本中每个字符分别对应的目标编码信息，

表示输入至语言模型的样本文本中第二个字符对应的目标编码信息，以此类推，

表示输入至语言模型的样本文本中第n个字符对应的目标编码信息。针对同一个字符的第一编码信息、第二编码信息或者目标编码信息可以是该字符对应的编号或数字表示，其中，该编号或该数字表示可以是一个向量。

本实施例针对上述步骤S205“根据句子中每个样本实体的第二实体向量，对语言模型进行训练”给出一种可选实施方式，具体的，若字符属于任一样本实体，则根据字符对应的第一编码信息和所述任一样本实体对应的第二实体向量，确定字符对应的第二编码信息；若字符不属于任一样本实体，则字符对应的第二编码信息是字符对应的第一编码信息；根据字符对应的第二编码信息，确定字符对应的目标编码信息；至少根据句子中部分字符对应的目标编码信息对语言模型进行训练。

图5为本公开另一实施例提供的模型训练方法流程图。在本实施例中，针对上述步骤S405中的“至少根据句子中部分字符对应的目标编码信息对语言模型进行训练”给出一种可选实施方式。如图5所示，该方法具体步骤如下：

S501、获得输入句子中每个字符分别对应的第一编码信息，并利用每个字符分别对应的第一编码信息预测句子中每个字符的标注。

S502、根据句子中每个字符的标注，确定句子中的一个或多个样本实体。

S503、针对句子中的每个样本实体，根据样本实体的第一实体向量，在知识图谱的参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体。

S504、根据样本实体对应的待选实体，确定样本实体的第二实体向量。

S505、根据句子中每个样本实体的第二实体向量，确定句子中每个字符分别对应的目标编码信息，根据句子中的一个或多个掩码分别对应的目标编码信息，预测一个或多个掩码分别对应的原始字符。

S506、根据预测到的一个或多个掩码分别对应的原始字符、以及原始句子中的一个或多个原始字符，确定第一损失函数，至少根据第一损失函数对语言模型进行训练。

其中，样本文本是对原始句子中的一个或多个原始字符分别替换为掩码后得到的。如图3所示，原始句子为“Sedentary lifestyle causes coronary artery disease”，将第一个单词Sedentary替换为掩码MASK，将第二个单词lifestyle替换为掩码MASK，将“MASK MASK causes coronary artery disease”作为语言模型的样本文本。Sedentarylifestyle分别是替换为掩码的原始句子中的原始字符。

在一些实施方式中，至少根据第一损失函数对语言模型进行训练，包括：根据第二损失函数和第三损失函数中的至少一个、以及第一损失函数对语言模型进行训练；第二损失函数是根据语言模型确定的句子中每个字符的标注、以及命名实体识别工具确定的每个字符分别对应的标注得到的；第三损失函数是根据预设的知识图谱中多个参考实体分别与样本实体的第一相似度、以及实体链接工具给样本实体标注的实体编号得到的。

具体的，经过上述步骤S501-S505的处理可获得每个字符分别对应的目标编码信息。进一步，语言模型中的掩码语言模型可以利用

（即图3左起第一个掩码MASK对应的目标编码信息）预测第1个掩码MASK对应的原始字符，利用

（即图3左起第二个掩码MASK对应的目标编码信息）预测第2个掩码MASK对应的原始字符。进一步，掩码语言模型根据其预测出的两个原始字符和真实被替换掉的两个原始字符（例如，Sedentary和lifestyle），得到第一损失函数。至少根据第一损失函数对语言模型进行训练。

进一步的，在上述实施例中“根据每个字符分别对应的第一编码信息，确定样本文本中每个样本实体分别对应的第一实体向量”的实施方式中，语言模型利用每个字符分别对应的第一编码信息预测每个字符的标注可以通过公式（2）进行：

其中，

表示线性参数。

。

表示每个字符分别对应的第一编码信息

中的第i个。

为B时，

表示第i个字符被标注为B的概率。当

为I时，

表示第i个字符被标注为I的概率。当

为O时，

预测每一个字符的标注（B、I或者O）。针对同一个字符，例如，第i个字符，语言模型预测出3个概率，即第i个字符被标注为B的概率、被标注为I的概率和被标注为O的概率。此时，可以选择一个概率最大的标注结果作为语言模型给第i个字符的标注。同时，针对每个字符也可以通过命名实体识别工具给出一种标注结果，根据语言模型给出的标注结果和命名实体识别工具给出的标注结果之间的差可以确定第二损失函数。需要说明的是，在本公开的实施例中认为通过命名实体识别工具（该工具还可替换为其它具备上述标注功能的工具）给出的标注结果是正确的，可以作为金标准使用。

进一步的，如上述实施例所述，样本实体m对应的第一实体向量记为

，对

进行线性变换得到

，在语言模型计算

从知识图谱中选出的参考实体分别对应的第三实体向量之间的内积时，即在计算

和

（从知识图谱中选出的参考实体分别对应的实体编号组成集合

）中每个实体编号对应的第三实体向量之间的內积时，得到t个相似度（即知识图谱中多个参考实体分别与样本实体的第一相似度），即t个相似度中的第i个相似度是

和

中的第i个实体编号对应的第三实体向量之间的內积。进一步，将t个相似度中的每个相似度转换成一个概率，可得到t个概率。该t个概率中的第i个概率表示样本实体m是

中的第i个实体编号对应的参考实体（即第二实体）的概率。同时基于实体链接工具可识别样本实体m对应的实体编码，即通过实体链接工具（该工具还可以替换为其它具备实体标注功能的工具）可给样本实体m标注实体编号，该实体编码用于表示样本实体m的真实实体，在本实施例中认为通过实体链接工具给样本实体m标注的实体编号是准确的。进一步，根据实体链接工具给样本实体m标注的实体编号和上述t个概率，可得到第三损失函数。具体的如图3所示的知识图谱230，假设实体链接工具给样本实体m标注的实体编号为C0010200，说明实体链接工具认为样本实体m是实体“cough”的概率为100%，样本实体m是其他实体的概率为0，从而构建出一组概率。根据该组概率和上述t个概率构建第三损失函数。上述t个概率可以记为另一组概率。

进一步，根据第一损失函数、第二损失函数和第三损失函数，得到总的损失函数，总的损失函数可以是第一损失函数、第二损失函数和第三损失函数的加权和，通过总的损失函数对语言模型进行训练，即对语言模型中的参数进行优化。通过将样本文本和知识图谱同时作为语言模型的训练数据对语言模型进行训练，使得语言模型既可以利用到知识图谱中的结构化知识，也可以利用到自由文本，从而使得训练获得的语言模型可输出较为精准的结果，该结果可作为下游任务的输入，通过为下游任务提供较为精准的输入，可提高下游任务的处理精度。

在上述各实施例的基础上，语言模型可以是医学语言模型，预设的知识图谱可以是医学知识图谱，通过融入医学知识图谱可以使得医学语言模型在下游自然语言任务（例如命名实体识别任务、关系提取任务）上的效果更好，更具有可解释性。除了本公开实施例所述的在模型训练时结合知识图谱的方式之外，还可以使用其他方式向语言模型加入知识图谱，例如ERNIE、KNOWBERT等。

以语言模型是医学语言模型，预设的知识图谱是医学知识图谱为例，图3所示的是一种医学语言模型的训练过程示意图，在在医学语言模型的训练阶段，掩码语言模型包括在医学语言模型内部。当医学语言模型被训练好之后，例如在医学语言模型的使用阶段，掩码语言模型可以被替换为下游自然语言任务，例如，分类模型。本案通过知识谱图和样本文本对医学语言模型进行训练，使得医学语言模型输出的目标编码信息

更精准，从而使得医学语言模型在使用阶段，

作为下游自然语言任务的输入，即给下游自然语言任务提供更精准的输入，从而使得下游自然语言任务输出的结果更精准。图3中的“实体检测”层指医学语言模型基于每个字符的第一编码信息

预测样本文本中每个字符的B、I或者O的标注信息。“实体表示”层指样本文本中每个字符第一实体向量。“额外实体表示”层指样本文本中每个字符第二实体向量。图3中的230表示医学知识图谱中的多个参考实体，每个参考实体包括第二实体、实体编码和第三实体向量，230中每个参考实体的实体编号组成集合

，在语言模型的训练阶段和使用阶段，230中的内容不变。图3中的“实体链接”是指：从“实体表示”变为“额外实体表示”的过程，该过程需要用到230中的内容。图3中的“实体链接”和本公开中的 “实体链接工具”是同一概念。实体链接是一个线型层，在医学语言模型的训练阶段中，实体链接也被训练。

图6为本公开另一实施例提供的模型训练方法流程图。在本实施例中，针对上述实施例的步骤S203“针对句子中的每个样本实体，根据样本实体的第一实体向量，在知识图谱的参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体以及步骤S204“根据样本实体对应的待选实体，确定样本实体的第二实体向量”给出一种可选实施方式。如图6所示，该方法具体步骤如下：

S601、获得输入句子中每个字符分别对应的第一编码信息，并利用每个字符分别对应的第一编码信息预测句子中每个字符的标注，根据句子中每个字符的标注，确定句子中的一个或多个样本实体。

S602、根据样本实体的第一实体向量、以及知识图谱中的多个参考实体分别对应的第三实体向量，确定多个参考实体分别与样本实体的第一相似度。

S603、根据多个参考实体分别与样本实体的第一相似度，从多个参考实体中确定出一个或多个待选实体，待选实体与样本实体的第一相似度大于或等于预设阈值。

S604、将一个或多个待选实体分别与样本实体的第一相似度进行标准化处理，得到每个待选实体分别与样本实体的第二相似度；根据每个待选实体分别与样本实体的第二相似度、以及每个待选实体分别对应的第三实体向量，确定样本实体的第二实体向量。

其中，知识图谱中包括很多个参考实体以及每个参考实体对应的实体编号，例如图3右下角的230中的内容是从预设的知识图谱中选出的6个参考实体以及每个参考实体对应的实体编号。例如，“cough”是参考实体， “C0010200”是参考实体“cough”对应的实体编号；“coronary sclerosis”是参考实体，“C0010054”是参考实体“coronary sclerosis”对应的实体编号。将从知识图谱中选出的这些参考实体分别对应的实体编号组成集合

，记为

，其中，

表示一个参考实体的实体编号，

表示另一个参考实体的实体编号。

中的每个实体编号对应一个第三实体向量，一个第三实体向量可以是一个几百维的数字。

中每个实体编号对应的第三实体向量可由TransE模型在知识图谱上预先训练得到。

对于输入到语言模型的样本文本中的每个样本实体

，将

作为样本实体m对应的第一实体向量（具体是将

和

进行拼接，拼接后的结果为

）。进一步，对

进行线性变换得到

，计算

和

中的实体编号

所对应的第三实体向量之间的內积（内积即为相似度，内积越大，表示相似度越大），得到样本实体m和实体编号

对应的参考实体（例如记为参考实体1）之间的相似度（例如记为相似度1）。同理，计算

和

中的实体编号

所对应的第三实体向量之间的內积，得到样本实体m和实体编号

对应的参考实体（例如记为参考实体2）之间的相似度（例如记为相似度2）。以此类推，计算

和

中实体编号

对应的参考实体（例如参考实体t）之间的相似度（例如记为相似度t）。即一共可得到t个相似度。进一步，对t个相似度从大到小进行排序，选出排序后的前k个相似度，从而得到与样本实体m相似的k个参考实体，该k个参考实体的实体编号构成集合

。该k个参考实体是在计算该k个相似度时，

中参与计算的k个参考实体编号所对应的参考实体。该k个参考实体即为从多个参考实体中确定出的一个或多个待选实体，待选实体与样本实体的第一相似度大于或等于预设阈值。

其中，输入到语言模型的样本文本中的每个样本实体

可以是通过命名实体识别工具和实体链接工具标注出来的实体；也可以是语言模型在进行实体检测之后，根据实体检测得到的每个字符对应的B、I、O标注预测出的实体。但是，经过多次试验发现，基于语言模型检测出的实体准确度不如基于命名实体识别工具和实体链接工具标注出来的实体准确度高，故优选的，输入到语言模型的样本文本中的每个样本实体

可以是通过命名实体识别工具和实体链接工具标注出来的实体。

其中，根据一个或多个待选实体分别对应的第三实体向量，确定样本实体对应的第二实体向量，包括：将一个或多个待选实体分别与样本实体的第一相似度进行标准化处理，得到每个待选实体分别与样本实体的第二相似度；根据每个待选实体分别与样本实体的第二相似度、以及每个待选实体分别对应的第三实体向量，确定样本实体对应的第二实体向量。

示例性的，按照如下公式（5）对样本实体m和

中的每个待选实体之间的第一相似度进行标准化处理，得到第二相似度：

其中，

表示样本实体m和

中的第j个待选实体的第二相似度，

表示线性参数，

表示样本实体m对应的第一实体向量，

可以记为上述的

，

表示集合

中第i个待选实体对应的第三实体向量，

表示集合

中第j个待选实体对应的第三实体向量。

表示

和

的內积，

表示

和

的內积。

进一步的，按照如下公式（6），根据

中的k个待选实体分别对应的第三实体向量以及每个待选实体分别与样本实体的第二相似度得到样本实体m对应的第二实体向量

：

其中，

表示样本实体m对应的第二实体向量，

表示样本实体m和

中的第i个待选实体的第二相似度,

表示集合

中第i个待选实体对应的第三实体向量。

样本文本中每个样本实体分别对应的第二实体向量对应图3中的“额外实体表示”层,样本文本中每个样本实体分别对应的第一实体向量对应图3中的“实体表示”层。图3中的“实体链接”是指：从“实体表示”变为“额外实体表示”的过程，该过程需要用到230中的内容，即上述根据每个样本实体分别对应的第一实体向量、以及预设的知识图谱，确定每个样本实体分别对应的第二实体向量的过程。

S605、根据句子中每个样本实体的第二实体向量，对语言模型进行训练。

本实施例针对S203“针对句子中的每个样本实体，根据样本实体的第一实体向量，在知识图谱的参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体以及步骤S204“根据样本实体对应的待选实体，确定样本实体的第二实体向量”给出一种可选实施方式，具体的，根据样本实体对应的第一实体向量、以及预设的知识图谱中多个参考实体分别对应的第三实体向量，确定多个参考实体分别与样本实体的第一相似度；根据多个参考实体分别与样本实体的第一相似度，从多个参考实体中确定出一个或多个待选实体，待选实体与样本实体的第一相似度大于或等于预设阈值；根据一个或多个待选实体分别对应的第三实体向量，确定样本实体对应的第二实体向量。实现了将知识图谱作为语言模型训练的参考信息，即本公开实施例将样本文本和知识图谱同时作为语言模型的训练数据对语言模型进行训练，使得语言模型既可以利用到知识图谱中的结构化知识，也可以利用到自由文本，从而使得训练获得的语言模型可输出较为精准的结果，该结果可作为下游任务的输入，通过为下游任务提供较为精准的输入，可提高下游任务的处理精度。

图7为本公开实施例提供的语言训练装置的结构示意图。本公开实施例提供的语言训练装置可以执行语言训练方法实施例提供的处理流程，如图7所示，装置700包括：第一预测模块710、实体提取模块720和第二预测模块730。

其中，第一预测模块710，用于利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测；实体提取模块720，用于从字符预测完成的输入文本中提取实体；第二预测模块730，用于对提取的实体进行预测，得到所述提取的实体是否属于所述知识图谱中的实体。

可选的，还包括：

第三预测模块，用于获得输入句子中每个字符分别对应的第一编码信息，并利用每个字符分别对应的第一编码信息预测句子中每个字符的标注；第一确定模块，用于根据句子中每个字符的标注，确定句子中的一个或多个样本实体；寻找模块，用于针对句子中的每个样本实体，根据样本实体的第一实体向量，在知识图谱的参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体；第二确定模块，用于根据样本实体对应的待选实体，确定样本实体的第二实体向量；训练模块，用于根据句子中每个样本实体的第二实体向量，对语言模型进行训练。

可选的，训练模块，包括：

第一确定单元，用于根据句子中每个样本实体的第二实体向量，确定句子中每个字符分别对应的目标编码信息；训练单元，用于至少根据句子中部分字符对应的目标编码信息对语言模型进行训练。

可选的，样本实体的第一实体向量是根据样本实体包括的第一个字符的第一编码信息和样本实体包括的最后一个字符的第一编码信息得到的。

可选的，寻找模块包括：第二确定单元，用于根据样本实体的第一实体向量、以及知识图谱中的多个参考实体分别对应的第三实体向量，确定多个参考实体分别与样本实体的第一相似度；根据多个参考实体分别与样本实体的第一相似度，从多个参考实体中确定出一个或多个待选实体，待选实体与样本实体的第一相似度大于或等于预设阈值。

可选的，第二确定模块包括：处理单元，用于将一个或多个待选实体分别与样本实体的第一相似度进行标准化处理，得到每个待选实体分别与样本实体的第二相似度；根据每个待选实体分别与样本实体的第二相似度、以及每个待选实体分别对应的第三实体向量，确定样本实体的第二实体向量。

可选的，第一确定单元具体用于：若字符属于任一样本实体，则根据字符对应的第一编码信息和任一样本实体对应的第二实体向量，确定字符对应的第二编码信息；若字符不属于任一样本实体，则字符对应的第二编码信息是字符对应的第一编码信息；根据字符对应的第二编码信息，确定字符对应的目标编码信息。

可选的，句子是对原始句子中的一个或多个原始字符分别替换为掩码后得到的；训练单元具体包括：预测子单元，用于根据所述句子中的一个或多个掩码分别对应的目标编码信息，预测所述一个或多个掩码分别对应的原始字符；确定子单元，用于根据预测到的所述一个或多个掩码分别对应的原始字符、以及所述原始句子中的所述一个或多个原始字符，确定第一损失函数；训练子单元，用于至少根据所述第一损失函数对所述语言模型进行训练。

可选的，训练子单元具体用于：根据第二损失函数和第三损失函数中的至少一个、以及所述第一损失函数对所述语言模型进行训练；其中，所述第二损失函数是根据所述语言模型确定的所述句子中每个字符的标注、以及命名实体识别工具确定的所述句子中每个字符的标注得到的；所述第三损失函数是根据所述知识图谱中多个参考实体分别与所述样本实体的第一相似度、以及实体链接工具给所述样本实体标注的实体编号得到的。

图7所示实施例的语言训练装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了语言训练装置的内部功能和结构，该装置可实现为一种电子设备。

图8为本公开实施例提供的电子设备实施例的结构示意图。如图8所示，该电子设备包括存储器151和处理器152。

存储器151，用于存储程序。除上述程序之外，存储器151还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器151可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器152，与存储器151耦合，执行存储器151所存储的程序，以用于：

利用基于知识图谱中的实体训练后的语言模型，对输入文本进行字符预测；从字符预测完成的输入文本中提取实体；对提取的实体进行预测，得到所述提取的实体是否属于所述知识图谱中的实体。

进一步，如图8所示，电子设备还可以包括：通信组件153、电源组件154、音频组件155、显示器156等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。

通信组件153被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件153经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件153还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件154，为电子设备的各种组件提供电力。电源组件154可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件155被配置为输出和/或输入音频信号。例如，音频组件155包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器151或经由通信组件153发送。在一些实施例中，音频组件155还包括一个扬声器，用于输出音频信号。

显示器156包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的语言训练方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练方法，其中，所述方法包括：

从字符预测完成的输入文本中提取实体；

对提取的实体进行预测，得到所述提取的实体是否属于所述知识图谱中的实体；

其中，通过如下方法训练所述语言模型：

获得输入句子中每个字符分别对应的第一编码信息，并利用所述每个字符分别对应的第一编码信息预测所述句子中每个字符的标注；

根据所述句子中每个字符的标注，确定所述句子中的一个或多个样本实体；

针对所述句子中的每个样本实体，根据所述样本实体的第一实体向量，在所述知识图谱的参考实体中寻找与所述样本实体的相似度大于或等于预设阈值的待选实体；

根据所述样本实体对应的待选实体，确定所述样本实体的第二实体向量；

根据所述句子中每个样本实体的第二实体向量，对所述语言模型进行训练。

2.根据权利要求1所述的方法，其中，根据所述句子中每个样本实体的第二实体向量，对所述语言模型进行训练，包括：

根据所述句子中每个样本实体的第二实体向量，确定所述句子中每个字符分别对应的目标编码信息；

至少根据所述句子中部分字符对应的目标编码信息对所述语言模型进行训练。

3.根据权利要求1所述的方法，其中，所述样本实体的第一实体向量是根据所述样本实体包括的第一个字符的第一编码信息和所述样本实体包括的最后一个字符的第一编码信息得到的。

4.根据权利要求1所述的方法，其中，根据所述样本实体的第一实体向量，在所述知识图谱的参考实体中寻找与所述样本实体的相似度大于或等于预设阈值的待选实体，包括：

根据所述样本实体的第一实体向量、以及所述知识图谱中的多个参考实体分别对应的第三实体向量，确定所述多个参考实体分别与所述样本实体的第一相似度；

根据所述多个参考实体分别与所述样本实体的第一相似度，从所述多个参考实体中确定出一个或多个待选实体，所述待选实体与所述样本实体的第一相似度大于或等于预设阈值。

5.根据权利要求4所述的方法，其中，根据所述样本实体对应的待选实体，确定所述样本实体的第二实体向量，包括：

将所述一个或多个待选实体分别与所述样本实体的第一相似度进行标准化处理，得到每个待选实体分别与所述样本实体的第二相似度；

根据所述每个待选实体分别与所述样本实体的第二相似度、以及所述每个待选实体分别对应的第三实体向量，确定所述样本实体的第二实体向量。

6.根据权利要求2所述的方法，其中，根据所述句子中每个样本实体的第二实体向量，确定所述句子中每个字符分别对应的目标编码信息，包括：

若所述字符属于任一样本实体，则根据所述字符对应的第一编码信息和所述任一样本实体对应的第二实体向量，确定所述字符对应的第二编码信息；

若所述字符不属于任一样本实体，则所述字符对应的第二编码信息是所述字符对应的第一编码信息；

根据所述字符对应的第二编码信息，确定所述字符对应的目标编码信息。

7.根据权利要求2所述的方法，其中，所述句子是对原始句子中的一个或多个原始字符分别替换为掩码后得到的；

至少根据所述句子中部分字符对应的目标编码信息对所述语言模型进行训练，包括：

根据所述句子中的一个或多个掩码分别对应的目标编码信息，预测所述一个或多个掩码分别对应的原始字符；

根据预测到的所述一个或多个掩码分别对应的原始字符、以及所述原始句子中的所述一个或多个原始字符，确定第一损失函数；

至少根据所述第一损失函数对所述语言模型进行训练。

8.根据权利要求7所述的方法，其特征在于，至少根据所述第一损失函数对所述语言模型进行训练，包括：

根据第二损失函数和第三损失函数中的至少一个、以及所述第一损失函数对所述语言模型进行训练；

其中，所述第二损失函数是根据所述语言模型确定的所述句子中每个字符的标注、以及命名实体识别工具确定的所述句子中每个字符的标注得到的；

所述第三损失函数是根据所述知识图谱中多个参考实体分别与所述样本实体的第一相似度、以及实体链接工具给所述样本实体标注的实体编号得到的。

9.一种模型训练装置，其中，包括：

第二预测模块，用于对提取的实体进行预测，得到所述提取的实体是否属于所述知识图谱中的实体；

第三预测模块，用于获得输入句子中每个字符分别对应的第一编码信息，并利用每个字符分别对应的第一编码信息预测句子中每个字符的标注；

第一确定模块，用于根据句子中每个字符的标注，确定句子中的一个或多个样本实体；

寻找模块，用于针对句子中的每个样本实体，根据样本实体的第一实体向量，在知识图谱的参考实体中寻找与样本实体的相似度大于或等于预设阈值的待选实体；

第二确定模块，用于根据样本实体对应的待选实体，确定样本实体的第二实体向量；

训练模块，用于根据句子中每个样本实体的第二实体向量，对语言模型进行训练。

10.一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。