CN116956915A

CN116956915A - 实体识别模型训练方法、装置、设备、存储介质及产品

Info

Publication number: CN116956915A
Application number: CN202310101696.6A
Authority: CN
Inventors: 周洁; 田乐; 周霄
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-02
Filing date: 2023-02-02
Publication date: 2023-10-27
Also published as: WO2024159858A1

Abstract

本申请公开了一种实体识别模型训练方法、装置、设备、存储介质及产品，涉及信息提取领域。该方法包括：获取样本文本数据，所述样本文本数据中包括实体文本内容，所述样本文本数据标注有实体划分标签；通过候选实体识别模型对所述样本文本数据进行实体识别，得到所述样本文本数据对应的实体识别结果；基于所述实体划分标签和所述实体识别结果之间的差异，确定识别损失值；获取所述样本文本数据对应的样本质量评分，并基于所述样本质量评分对所述识别损失值进行损失调整，得到预测损失值，所述样本质量评分用于指示所述识别损失值对应的损失权重；基于所述预测损失值对所述候选实体模型进行训练，得到目标实体识别模型，提高了实体识别的准确性。

Description

实体识别模型训练方法、装置、设备、存储介质及产品

技术领域

本申请涉及信息提取领域，特别涉及一种实体识别模型训练方法、装置、设备、存储介质及产品。

背景技术

实体识别是一种信息提取技术，全称为命名实体识别(Named EntityRecognition，NER)，指对查询词中的具有特定意义的语义实体进行识别，常用于从文本数据中获取人名、地名等实体数据，是自然语言处理中一个非常重要且基础的问题。

相关技术中，通过预训练语言模型以及其他词嵌入方式将离散的文本转为向量序列，基于预设的编码器和解码器，从文本中抽取短语进行分类，在此过程中，基于多个模型多路召回和知识词典，构建模型通过实体短语之间的差异性来纠正标签，从大批量无标注数据中构建弱监督数据来提升模型训练效果。

然而，上述方法在样本数据较少的场景下，依赖于数据扩增，容易引入较多噪声数据，对模型识别结果影响较大，实体识别模型的训练效率较低，实体识别的准确性较低。

发明内容

本申请实施例提供了一种实体识别模型训练方法、装置、设备、存储介质及产品，能够使训练所得的目标实体识别模型对输入的文本数据进行实体识别。所述技术方案如下。

一方面，提供了一种实体识别模型训练方法，所述方法包括：

获取样本文本数据，所述样本文本数据中包括实体文本内容，所述样本文本数据标注有实体划分标签，所述实体划分标签用于指示所述样本文本数据中所述实体文本内容的分布情况；

通过候选实体识别模型对所述样本文本数据进行实体识别，得到所述样本文本数据对应的实体识别结果；

基于所述实体划分标签和所述实体识别结果之间的差异，确定识别损失值；

获取所述样本文本数据对应的样本质量评分，并基于所述样本质量评分对所述识别损失值进行损失调整，得到预测损失值，所述样本质量评分用于指示所述识别损失值对应的损失权重；

基于所述预测损失值对所述候选实体模型进行训练，得到目标实体识别模型，所述目标实体识别模型用于对输入的文本数据进行实体识别。

另一方面，提供了一种实体识别模型训练装置，所述装置包括：

样本文本数据获取模块，用于获取样本文本数据，所述样本文本数据中包括实体文本内容，所述样本文本数据标注有实体划分标签，所述实体划分标签用于指示所述样本文本数据中所述实体文本内容的分布情况；

实体识别结果获取模块，用于通过候选实体识别模型对所述样本文本数据进行实体识别，得到所述样本文本数据对应的实体识别结果；

识别损失值确定模块，用于基于所述实体划分标签和所述实体识别结果之间的差异，确定识别损失值；

预测损失值获取模块，用于获取所述样本文本数据对应的样本质量评分，并基于所述样本质量评分对所述识别损失值进行损失调整，得到预测损失值，所述样本质量评分用于指示所述识别损失值对应的损失权重；

实体识别模型训练模块，用于基于所述预测损失值对所述候选实体模型进行训练，得到目标实体识别模型，所述目标实体识别模型用于对输入的文本数据进行实体识别。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的实体识别模型训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的实体识别模型训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的实体识别模型训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过候选识别模型对获取的样本文本数据进行实体识别，得到样本文本数据对应的实体识别结果，基于实体划分标签和实体识别结果之间的差异，确定识别损失值，获取样本文本数据对应的样本质量评分，并基于样本质量评分对识别损失值进行损失调整，得到预测损失值，基于预测损失值对候选实体识别模型进行训练，得到目标实体识别模型，在引入较多噪声数据的情况下，实现了基于样本质量评分调整了不同质量的样本文本数据对应的损失权重，从而降低了噪声数据对实体识别结果的影响，提高了实体识别模型的训练效率和实体识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的实体识别模型训练方法的流程图；

图3是本申请一个示例性实施例提供的预测损失值获取方法的流程图；

图4是本申请一个示例性实施例提供的质量评分模型获取方法流程图；

图5是本申请一个示例性实施例提供的实体识别模型训练框架示意图；

图6是本申请一个示例性实施例提供的样本文本数据获取方法流程图；

图7是本申请一个示例性实施例提供的基于词典的数据扩充示意图；

图8是本申请一个示例性实施例提供的基于文本提示预训练语言模型的数据扩充示意图；

图9是本申请一个示例性实施例提供的基于多模型召回的数据扩充示意图；

图10是本申请一个示例性实施例提供的实体识别模型训练装置的结构框图；

图11是本申请一个示例性实施例提供的实体识别模型训练装置模块的结构框图；

图12是本申请一个示例性实施例提供的终端的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

应当理解，尽管在本公开可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

实体识别是一种信息提取技术，全称为命名实体识别，指对查询词中的具有特定意义的语义实体进行识别，常用于从文本数据中获取人名、地名等实体数据，是自然语言处理中一个非常重要且基础的问题。相关技术中，通过预训练语言模型以及其他词嵌入方式将离散的文本转为向量序列，基于预设的编码器和解码器，从文本中抽取短语进行分类，在此过程中，基于多个模型多路召回和知识词典，构建模型通过实体短语之间的差异性来纠正标签，从大批量无标注数据中构建弱监督数据来提升模型训练效果。然而，上述方法在样本数据较少的场景下，依赖于数据扩增，容易引入较多噪声数据，对模型识别结果影响较大，实体识别模型的训练效率较低，实体识别的准确性较低。

本申请实施例中提供的排版评估模型的训练方法，通过候选识别模型对获取的样本文本数据进行实体识别，得到样本文本数据对应的实体识别结果，基于实体划分标签和实体识别结果之间的差异，确定识别损失值，获取样本文本数据对应的样本质量评分，并基于样本质量评分对识别损失值进行损失调整，得到预测损失值，基于预测损失值对候选实体识别模型进行训练，得到目标实体识别模型，在引入较多噪声数据的情况下，实现了基于样本质量评分调整了不同质量的样本文本数据对应的损失权重，从而降低了噪声数据对实体识别结果的影响，提高了实体识别模型的训练效率和实体识别的准确性。

首先，对本申请实施环境进行介绍。请参考图1，其示出了本申请一个示例性实施例提供的实施环境示意图，该实施环境中包括：终端110。

终端110中部署有候选实体识别模型111，样本文本数据101存储在终端110中，终端110获取样本文本数据101，样本文本数据101中标注有实体划分标签103，用于指示样本文本数据101中实体文本内容的分布情况，通过候选实体识别模型111对样本文本数据101进行实体识别，得到对应的实体识别结果102，候选实体识别模型111用于对输入的样本文本数据101进行实体识别，输出得到的实体识别结果102用于表示候选实体识别模型111预测的样本文本数据101中实体文本内容的分布情况，基于实体识别结果102和样本文本数据101对应的实体划分标签103之间的差异，确定识别损失值105，获取样本文本数据101对应的样本质量评分104，样本质量评分104用于指示识别损失值105对应的损失权重，基于样本质量评分104对识别损失值105进行损失调整，得到对应的预测损失值106，基于预测损失值106对候选实体识别模型111进行训练，得到目标候选模型。

在一些实施例中，该实施环境中还包括服务器120和通信网络130。服务器120中存储有样本文本数据101和对应的实体划分标签103、样本质量评分104，终端110通过通信网络130从服务器120中获取样本文本数据101和对应的实体划分标签103、样本质量评分104，用于对终端110中部署的候选实体识别模型进行训练，得到目标候选模型。

上述终端是可选的，终端可以是台式计算机、膝上型便携计算机、手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层4)播放、智能电视、智能车载等多种形式的终端设备，本申请实施例对此不加以限定。

值得注意的是，上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云安全、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到操作数据和帐号信息等都是在充分授权的情况下获取的。

进一步进行说明，本申请在收集用户的相关数据(例如：本申请中涉及到的帐号信息、历史操作数据和实时操作数据等)之前以及在收集用户的相关数据的过程中，都可以显示提示界面、弹窗或输出语音提示信息，该提示界面、弹窗或语音提示信息用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则(即未获取到用户对该提示界面或者弹窗发出的确认操作时)，结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

示意性的，请参考图2，其示出了本申请一个示例性实施例提供的实体识别模型训练方法的流程图，该方法可以应用于终端，也可以应用于服务器，也可以同时应用于终端和服务器，本申请实施例以该方法应用于终端为例进行说明，如图2所示，该方法包括如下步骤：

步骤210，获取样本文本数据。

其中，样本文本数据中包括实体文本内容，样本文本数据标注有实体划分标签，实体划分标签用于指示样本文本数据中实体文本内容的分布情况。

在一些实施例中，样本文本数据是标注有实体划分标签的自然语言文本段，实体文本内容是用于指示具体事物的文本内容，具有特定意义，包括人名、地名、机构名、专有名词等，实体划分标签用于指示实体文本内容在样本文本数据中的边界信息，即相对位置，以及实体文本内容对应的实体类别，其中，边界信息包括开头、结尾、句中等，实体类别包括影视、体育、教育、艺术等各个领域的实体类别，如演员名、影视名、体育馆名、学校名等。

示意性的，样本文本数据实现为文本“近日演员A主演的影视B非常火”，其中，实体划分标签用于标注“演员A”和“影视B”是实体文本内容，并标注“演员A”对应的实体类别为演员名，“影视B”对应的实体类别为影视名。

在一些实施例中，样本文本数据的获取方式包括从预设的文本数据库中获取，或基于文本数据库中的文本数据进行文本数据扩充中的至少一种。

示意性的，从指定的公开文本数据集中随机抽取数据作为样本文本数据，或者，在符合语义条件的情况下将现有文本数据中的实体文本内容进行替换，并对现有文本数据中的非实体文本内容进行同义替换，得到样本文本内容，如将现有文本数据“近日演员A出演的影视B非常火”中的实体文本内容“演员A”和“影视B”进行替换，将非实体文本内容中“出演的”同义替换为“参演的”，“近日”同义替换为“近期”，得到样本文本数据“近期演员C参演的影视D非常火”，其中“演员A”和“影视B”符合出演关系，“演员C”和“影视D”符合参演关系，即上述替换符合语义条件。

步骤220，通过候选实体识别模型对样本文本数据进行实体识别，得到样本文本数据对应的实体识别结果。

在一些实施例中，实体识别结果用于表示候选实体识别模型预测样本文本数据中实体文本内容的分布情况，示意性的，将样本文本数据“小红是腾云公司的最佳员工”输入候选实体识别模型进行实体识别，输出得到实体识别结果为“小红”是实体，实体类型为人名，“腾云公司”是实体，实体类型为公司名，“最佳员工”是实体，实体类型为头衔名，并标注上述实体在该样本文本内容中的边界信息。

步骤230，基于实体划分标签和实体识别结果之间的差异，确定识别损失值。

在一些实施例中，实体划分标签是预先标注好的标签，能够指示样本文本数据中实体文本内容的实际分布情况，实体识别结果是候选实体识别模型预测的结果，能够指示样本文本数据中实体文本内容的预测分布情况，实体划分标签和实体识别结果之间的差异用于指示候选实体识别模型预测的准确性，可选地，实体划分标签和实体识别结果之间的差异越大，对应的识别损失值越大。

步骤240，获取样本文本数据对应的样本质量评分，并基于样本质量评分对识别损失值进行损失调整，得到预测损失值。

其中，样本质量评分用于指示识别损失值对应的损失权重。

在一些实施例中，样本质量评分的获取方式包括如下方式中的至少一种：

第一种，样本质量评分是预设的与样本文本数据对应的质量评分，获取样本文本数据的同时获取对应的样本质量评分。

第二种，通过预设的质量评分模型对样本文本数据进行质量评分，得到对应的样本质量评分。

第三种，通过预设的质量评分表获取样本质量评分，质量评分表中包括样本文本数据和样本质量评分的对应关系。

在一些实施例中，样本质量评分表示样本文本数据的数据质量，示意性的，样本质量评分越高，样本文本数据的数据质量越好，即样本文本数据的噪声越低，基于样本质量评分对识别损失值进行损失调整时，该样本文本数据的损失权重小，能够提升基于得到预测损失值对候选实体识别模型的训练效果。

步骤250，基于预测损失值对候选实体模型进行训练，得到目标实体识别模型。

其中，目标实体识别模型用于对输入的文本数据进行实体识别。

在一些实施例中，基于所述预测损失值对所述候选实体模型进行训练，直到符合训练要求，得到目标实体识别模型。可选地，训练要求包括预测损失值收敛，或者，预测损失值达到指定阈值中的至少一种。

在一些实施例中，在得到目标实体识别模型后，获取目标文本数据，将目标文本数据输入目标实体识别模型进行实体识别，输出得到对应的实体识别预测结果，其中，实体识别预测结果用于指示目标文本数据中实体文本内容的分布情况。

示意性的，从指定文本库中随机抽取一个文本段作为目标文本数据，如“最近，小明出演的电视剧X大受欢迎”，输入目标实体识别模型进行实体识别，输出得到实体文本内容“小明”“电视剧X”在该目标文本数据中的分布情况，包括指示“小明”“电视剧X”是实体文本内容，“小明”的实体类型为人名，“电视剧X”的实体类型为影视名，以及“小明”和“电视剧X”在该目标文本数据中的位置。

综上所述，本申请实施例提供的方法，通过候选识别模型对获取的样本文本数据进行实体识别，得到样本文本数据对应的实体识别结果，基于实体划分标签和实体识别结果之间的差异，确定识别损失值，获取样本文本数据对应的样本质量评分，并基于样本质量评分对识别损失值进行损失调整，得到预测损失值，基于预测损失值对候选实体识别模型进行训练，得到目标实体识别模型，在引入较多噪声数据的情况下，实现了基于样本质量评分调整了不同质量的样本文本数据对应的损失权重，从而降低了噪声数据对实体识别结果的影响，提高了实体识别模型的训练效率和实体识别的准确性。

请参考图3，图3是本申请一个示例性实施例提供的预测损失值获取方法的流程图，如图3所示，在一些实施例中，上述步骤240包括如下步骤：

步骤241，通过质量评分模型对样本文本数据进行质量评分，得到样本质量评分。

在一些实施例中，质量评分模型是预设的评分模型，或者质量评分模型是通过对预设的候选质量评分模型进行训练得到的评分模型。可选地，质量评分模型实现为实体识别模型中的一部分，或者实现为独立的评分模型。

示意性的，样本质量评分实现为0-1分，将样本文本数据输入质量评分模型进行质量评分，输出得到该样本文本数据对应的样本质量评分为1分。

步骤242，基于样本质量评分对识别损失值进行损失调整，得到预测损失值。

在一些实施例中，步骤242实现为以下两步：

第一步，基于样本质量评分确定识别损失值对应的损失权重。

可选地，样本质量评分越高，识别损失值对应的损失权重越大。

在一些实施例中，将样本质量评分作为表示识别损失值的损失权重的权重参数，或者，将样本质量评分与预设的调整因子的乘积作为表示识别损失值的损失权重的权重参数。

示意性的，样本质量评分的取值范围预设为0-1分，样本质量评分实现为0.4分，将0.4作为表示识别损失值的损失权重的权重参数；样本质量评分的取值范围预设为0-100分，将样本质量评分的取值90与预设的调整因子0.01的乘积0.9作为表示识别损失值的损失权重的权重参数。

第二步，对损失权重和识别损失值进行融合，得到预测损失值。

在一些实施例中，对损失权重和识别损失值进行融合实现为通过预设算法对损失权重和识别损失值进行融合，如将损失权重对应的权重参数与识别损失值相乘。可选地，预测损失值实现为多个样本文本数据分别对应的多个预测损失值的和，示意性的，预测损失值L实现为三个样本文本数据A、B、C分别对应的预测损失值L₁、L₂、L₃的和，L₁实现为样本文本数据A对应的损失权重的权重参数a与识别损失值l₁的乘积，L₂实现为样本文本数据B对应的损失权重的权重参数b与识别损失值l₂的乘积，L₃实现为样本文本数据C对应的损失权重的权重参数c与识别损失值l₃的乘积，即预测损失值L的计算方式实现为如下公式：L＝L₁+L₂+L₃＝a*l₁+b*l₂+c*l₃。

在一些实施例中，上述步骤241之前，还包括质量评分模型的获取过程，请参考图4，图4是本申请一个示例性实施例提供的质量评分模型获取方法流程图，如图4所示，该过程包括如下步骤：

步骤410，获取预设的标准文本数据。

其中，标准文本数据标注有标准评分标签，标准评分标签用于指示标准文本数据对应的质量评分。

在一些实施例中，预设的标准文本数据是经过人工效验的文本数据集，标准评分标签用于指示标准文本数据的数据质量是高质量的，示意性的，用0-1分表示质量评分的取值范围，分数越高数据质量越高，则标准文本数据的标准评分标签指示该标准文本数据的质量评分为1分。

步骤420，基于标准文本数据对候选质量评分模型进行训练，得到质量评分模型。

在一些实施例中，标准文本数据用于使候选质量评分模型学习质量评分能力，即与标准文本数据的实体分布情况越相似的文本数据，对应的质量评分越高。

在一些实施例中，上述步骤420实现为以下三步：

第一步，通过候选评分模型对标准文本数据进行质量评分，得到标准文本数据对应的标准质量评分。

示意性的，将标准文本数据输入候选评分模型进行质量评分，输出得到该标准文本数据对应的标准质量评分为0.8。

第二步，基于标准质量评分和标准评分标签之间的差异，确定质量评分损失值。

示意性的，基于标准质量评分0.8和标准评分标签1之间的差异，确定质量评分损失值。

可选地，标准质量评分和标准评分标签之间的差异越大，质量评分损失值越大，反之，则越小。

第三步，基于质量评分损失值对候选评分模型进行训练，得到质量评分模型。

在一些实施例中，基于质量评分损失值调整候选评分模型的模型参数，并对候选评分模型进行迭代训练，其中，质量评分损失值越大，对模型参数的调整幅度越大。

综上所述，本申请实施例提供的方法，通过质量评分模型对样本文本数据进行质量评分，得到样本质量评分，基于样本质量评分对识别损失值进行损失调整，得到预测损失值，提供了样本质量评分的获取方法，提高了样本质量评分的获取效率。

本申请实施例提供的方法，基于样本质量评分确定识别损失值对应的损失权重，对损失权重和识别损失值进行融合，得到预测损失值，实现了基于样本质量评分调整了不同质量的样本文本数据对应的损失权重，从而降低了噪声数据对实体识别结果的影响，提高了实体识别模型的训练效率和实体识别的准确性。

本申请实施例提供的方法，通过获取预设的标准文本数据，基于标准文本数据对候选质量评分模型进行训练，得到质量评分模型，提供了质量评分模型的获取方法，提高了样本质量评分的获取效率。

本申请实施例提供的方法，通过候选评分模型对标准文本数据进行质量评分，得到标准文本数据对应的标准质量评分，基于标准质量评分和标准评分标签之间的差异确定质量评分损失值，基于质量评分损失值对候选评分模型进行训练，得到质量评分模型，提供了质量评分模型的训练方法，使候选评分模型能够基于标准文本数据学习质量评分能力，提高了质量评分的效率和准确性。

示意性的，请参考图5，图5是本申请一个示例性实施例提供的实体识别模型训练框架示意图，如图5所示，候选实体识别模型500中包括文本编码器510、文本解码器520和质量评分模块530，将样本文本数据和标准文本数据输入文本编码器510，文本编码器510输出对应的文本表示，将文本表示输入文本解码器520得到对应的识别结果，基于识别结果和实体划分标签之间的差异确定识别损失值，将文本表示输入质量评分模块530得到对应的质量评分，基于质量评分调整对应的识别损失值，得到预测损失值。

在一些实施例中，文本编码器510实现为预训练语言模型(Pretrained LanguageModel，PLM)，文本解码器520实现为线性层(Linear)和条件随机场(Conditional RandomFields，CRF)模块，质量评分模块530包括多层感知器(Multilayer Perceptron，MLP)，文本编码器510和文本解码器520用于执行实体识别任务，样本文本数据实现为扩充数据集A，标准文本数据实现为干净子集C，假定干净子集C有M个样本，而扩充数据集A有N个样本，数量上呈现M<<N。将干净子集C中每批次干净数据样本X_c，输入预训练语言模型获取关于各样本文本表示为/>再将池化后的中间表示作为整体文本表示输入到质量判别器MLP层，得到各样本得分/>计算公式如下：

其中，c表示干净子集C中每批次干净数据样本的数量，i表示序号，即X_c中的第i个样本，/>表示/>的第(j+1)个文本表示，/>是/>池化后的中间表示，/>是/>输入MLP后得到的隐性表示，/>是/>的得分，W_p ^T、b_p和b_q是预设的参数。干净数据样本/>在MLP的训练目标是干净数据得分为1，在MLP的损失函数为L_quality-c，在实体识别任务中的损失函数为L_NER-c，计算公式如下：

将扩充数据集A中每批次扩充数据样本X_a，输入预训练语言模型获取关于各样本文本表示为/>再将池化后的中间表示作为整体文本表示输入到质量判别器MLP层，得到各样本得分/>计算公式如下：

其中，a表示扩充数据集A中每批次扩充数据样本的数量，i表示序号，即X_a中的第i个样本，/>表示/>的第(j+1)个文本表示，/>是/>池化后的中间表示，/>是/>输入MLP后得到的隐性表示，/>是/>的得分，W_p ^T、b_p和b_q是预设的参数。假定每批次扩充样本数量为k，在扩充数据上每批次训练对各样本得分进行归一化，即在当前批次中突出高质量数据权重，降低低质量数据权重，调整原始批次归一化所有样本等价权重的训练方式，各样本权重为/>计算公式如下：

扩充样本在实体识别任务中的损失函数为L_NER-a，计算公式如下：

整合干净子集C和扩充数据集A，每批次数据的总体模型训练目标为预测损失值L，计算公式如下：

L＝L_NER-c+L_NER-a+α·L_quality-c。

其中，α是预设的参数，用于调整质量判别器的影响程度。

请参考图6，图6是本申请一个示例性实施例提供的样本文本数据获取方法流程图，如图6所示，在一些实施例中，上述步骤210包括以下步骤：

步骤211，获取预设的原始文本数据。

其中，原始文本数据中包括实体类别内容和非实体文本内容，原始文本数据标注有实体类别划分标签和非实体划分标签，实体类别划分标签用于指示原始文本数据中实体类别内容的分布情况，非实体划分标签用于指示原始文本数据中非实体文本内容的分布情况。

在一些实施例中，原始文本数据是包括实体类别内容和非实体文本内容的句式模板，如“最近新开的【地点名】非常火”、“最近【演员名】出演的【影视名】非常火”，其中地点名、演员名、影视名即为实体类别内容。

步骤212，基于实体类别划分标签和非实体划分标签对原始文本数据进行实体填充，得到样本文本数据。

在一些实施例中，上述步骤212实现为以下三步：

第一步，获取实体填充内容和非实体填充内容。

在一些实施例中，实体填充内容是基于原始文本数据中的语义条件在指定知识库中检索得到的符合语义条件的实体文本内容，非实体填充内容是基于词典检索得到的与非实体文本内容符合近义关系的非实体内容。

第二步，基于实体类别划分标签将原始文本数据中的实体类别内容替换为实体填充内容，得到第一填充数据。

示意性的，基于实体类别划分标签将原始文本数据“最近新开的【地点名】非常火”中的实体类别内容“地点名”替换为实体填充内容“饭馆A”，得到第一填充数据“最近新开的饭馆A非常火”。

第三步，基于非实体划分标签将第一填充数据中的非实体文本内容替换为非实体填充内容，得到样本文本数据。

示意性的，基于非实体划分标签将第一填充数据“最近新开的饭馆A非常火”中的非实体文本内容“非常火”替换为非实体填充内容“十分火爆”，得到样本文本数据“最近新开的饭馆A十分火爆”。

综上所述，本申请实施例提供的方法，通过获取预设的原始文本数据，基于实体类别划分标签和非实体划分标签对原始文本数据进行实体填充，得到样本文本数据，提供了样本文本数据的获取方法，实现了数据扩充。

本申请实施例提供的方法，通过获取实体填充内容和非实体填充内容，基于实体类别标签将原始文本数据中的实体类别内容替换为实体填充内容，得到第一填充数据，基于非实体划分标签将第一填充数据中的非实体文本内容替换为填充非实体内容，得到样本文本数据，提供了对原始文本数据的实体填充方法，保障了数据扩充的质量。

在一些实施例中，上述样本文本数据获取方法实现为数据扩充过程，可选地，数据扩充过程包括基于词典扩充、基于文本提示预训练语言模型扩充和基于多模型召回扩充三种数据扩充方式，接下来，对三种数据扩充方式进行说明：

一、基于词典扩充

在一些实施例中，基于词典扩充即使用同义词词典和实体词词典来进行数据扩充，给定标注数据，在非实体词上通过分词来划分文本为词语序列，选取序列中部分通过同义词词典随机替代非实体词，从而扩充标注模板，再通过实体词知识库来填充标注模板，从而生成扩充数据。

示意性的，请参考图7，图7是本申请一个示例性实施例提供的基于词典的数据扩充示意图，如图7所示，基于同义词词典对句式模板710中的非实体词进行同义词替换，得到新增模板720，即对“最近【演员名】出演的【影视名】非常火”中的非实体词随机进行同义词替换，得到“近期【演员名】主演的【影视名】非常火”、“近日【演员名】出演的【影视名】非常火”、“最近【演员名】参演的【影视名】非常热门”，基于新增模板720中标定的实体类别，查询对应的影视领域中演员名和影视名的组合关系，用实体词知识库中符合组合关系的实体词填充新增模板720，得到扩充数据730，即“最近演员A出演的影视X非常火”、“近日演员B出演的影视Y非常火”、“最近演员C参演的影视Z非常热门”。

二、基于文本提示预训练语言模型扩充

在一些实施例中，借助预训练语言模型来填充文本中挖空位置，预训练语言模型通过大数据量的预训练任务，在语言建模上有着出色的表现，因而借助于预训练模型可以生成更高质量的扩充数据。同时，在预训练语言模型的输入上拼接关于当前实体词的文本提示(Prompt)，合并基于词典扩充中的扩充模板和填充实体词的步骤，在扩充句式模板时结合当前实体词语义表示和实体类目，来生成更合理的扩增数据。对于给定标注文本，构造相对的标注模板，针对模板中的实体槽位从知识库中随机抽取相关实体词，填充文本并生成对应的文本提示，对于非实体词部分进行随机挖空并填入随机长度的掩码(MASK)，输入到预训练语言模型，模型将结合文本提示和文本来填充掩码位置，生成扩增样本。基于此生成的扩充样本语境与实体词强相关，缓解了基于词典扩充中随机替换同义词造成的语境冲突问题，并更贴切真实文本场景。

示意性的，请参考图8，图8是本申请一个示例性实施例提供的基于文本提示预训练语言模型的数据扩充示意图，如图8所示，基于原始文本810的语义信息，从知识库中获取文本提示820，即基于“最近新开的【地点名】非常火”获取关于当前实体词的文本提示“体育馆A是运动场所。最近新开的体育馆A非常火”，对文本提示820进行随机挖空得到模板文本830，即“体育馆A是运动场所。最近新开的体育馆A[MASK][MASK][MASK][MASK][MASK]”，将模板文本830输入预训练语言模型800中，输出得到扩增文本840，即“最近新开的体育馆A球场特别棒”。

三、基于多模型召回扩充

在一些实施例中，通过已训练的实体识别(NER)模型从无监督数据中召回数据，将识别到有实体的文本记作可能的正样例。但这样可能会导致引入误召数据，直接用于训练可能会降低模型的精确度，同时单一模型可识别的实体分布是有局限性的，只用单一模型召回的话数据会有偏，并不利于模型继续训练。因此在本申请实施例中，首先通过知识库检索的形式来进行实体词消歧，尽可能过滤掉部分误召实体。其次，通过多模型多路召回的方式来扩大覆盖面。或用多路召回的高置信度数据分布来进行数据扩增，针对低置信部分进行人工验证再进一步扩增，从而对于模型边界样本训练效果不断提升。

示意性的，请参考图9，图9是本申请一个示例性实施例提供的基于多模型召回的数据扩充示意图，如图9所示，基于样本数据910进行模型召回，对多个NER模型的召回数据合并实体得到合并数据920，若合并数据920有实体词，则对合并数据920进行实体消歧，得到扩充的正样例数据930，若合并数据920没有实体词，则将合并数据920作为扩充的负样例数据940；基于样本数据910进行领域过滤，得到扩充的负样例数据950。

图10是本申请一个示例性实施例提供的实体识别模型训练装置的结构框图，如图10所示，该装置包括如下部分：

样本文本数据获取模块1010，用于获取样本文本数据，所述样本文本数据中包括实体文本内容，所述样本文本数据标注有实体划分标签，所述实体划分标签用于指示所述样本文本数据中所述实体文本内容的分布情况；

实体识别结果获取模块1020，用于通过候选实体识别模型对所述样本文本数据进行实体识别，得到所述样本文本数据对应的实体识别结果；

识别损失值确定模块1030，用于基于所述实体划分标签和所述实体识别结果之间的差异，确定识别损失值；

预测损失值获取模块1040，用于获取所述样本文本数据对应的样本质量评分，并基于所述样本质量评分对所述识别损失值进行损失调整，得到预测损失值，所述样本质量评分用于指示所述识别损失值对应的损失权重；

实体识别模型训练模块1050，用于基于所述预测损失值对所述候选实体模型进行训练，得到目标实体识别模型，所述目标实体识别模型用于对输入的文本数据进行实体识别。

请参考图11，图11是本申请一个示例性实施例提供的实体识别模型训练装置模块的结构框图，如图11所示，在一些实施例中，所述预测损失值获取模块1040，包括：

质量评分获取单元1041，用于通过质量评分模型对所述样本文本数据进行质量评分，得到所述样本质量评分，所述质量评分模型是预先训练得到的模型，所述质量评分模型用于对输入的文本数据进行质量评分；

预测损失值获取单元1042，用于基于所述样本质量评分对所述识别损失值进行损失调整，得到所述预测损失值。

在一些实施例中，所述预测损失值获取单元1042，用于基于所述样本质量评分确定所述识别损失值对应的损失权重；对所述损失权重和所述识别损失值进行融合，得到所述预测损失值。

在一些实施例中，所述装置还包括质量评分模型获取模块1060，所述质量评分模型获取模块1060，包括：

标准文本数据获取单元1061，用于获取预设的标准文本数据，所述标准文本数据标注有标准评分标签，所述标准评分标签用于指示所述标准文本数据对应的质量评分；

质量评分模型训练单元1062，用于基于所述标准文本数据对候选质量评分模型进行训练，得到所述质量评分模型。

在一些实施例中，所述质量评分模型训练单元1062，用于通过所述候选评分模型对所述标准文本数据进行质量评分，得到所述标准文本数据对应的标准质量评分；基于所述标准质量评分和所述标准评分标签之间的差异，确定质量评分损失值；基于所述质量评分损失值对所述候选评分模型进行训练，得到所述质量评分模型。

在一些实施例中，所述实体识别模型训练模块1050，用于基于所述预测损失值对所述候选实体模型进行训练，直到所述预测损失值收敛，得到目标实体识别模型；或者，基于所述预测损失值对所述候选实体模型进行训练，直到所述预测损失值达到指定阈值，得到目标实体识别模型。

在一些实施例中，所述样本文本数据获取模块1010，包括：

原始文本数据获取单元1011，用于获取预设的原始文本数据，所述原始文本数据中包括实体类别内容和非实体文本内容，所述原始文本数据标注有实体类别划分标签和非实体划分标签，所述实体类别划分标签用于指示所述原始文本数据中所述实体类别内容的分布情况，所述非实体划分标签用于指示所述原始文本数据中所述非实体文本内容的分布情况；

实体填充单元1012，用于基于所述实体类别划分标签和所述非实体划分标签对所述原始文本数据进行实体填充，得到所述样本文本数据。

在一些实施例中，所述实体填充单元1012，用于获取实体填充内容和非实体填充内容；基于所述实体类别划分标签将所述原始文本数据中的实体类别内容替换为所述实体填充内容，得到第一填充数据；基于所述非实体划分标签将所述第一填充数据中的所述非实体文本内容替换为所述非实体填充内容，得到所述样本文本数据。

在一些实施例中，所述装置，还包括实体识别模块1070，所述实体识别模块1070用于获取目标文本数据；将所述目标文本数据输入到所述目标实体识别模型进行实体识别，输出得到对应的实体识别预测结果，所述实体识别预测结果用于指示所述目标文本数据中实体文本内容的分布情况。

综上所述，本申请实施例提供的装置，通过候选识别模型对获取的样本文本数据进行实体识别，得到样本文本数据对应的实体识别结果，基于实体划分标签和实体识别结果之间的差异，确定识别损失值，获取样本文本数据对应的样本质量评分，并基于样本质量评分对识别损失值进行损失调整，得到预测损失值，基于预测损失值对候选实体识别模型进行训练，得到目标实体识别模型，在引入较多噪声数据的情况下，实现了基于样本质量评分调整了不同质量的样本文本数据对应的损失权重，从而降低了噪声数据对实体识别结果的影响，提高了实体识别模型的训练效率和实体识别的准确性。

需要说明的是：上述实施例提供的实体识别模型训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

图12示出了本申请一个示例性实施例提供的终端1200的结构框图。该终端1200可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的xxxx方法。

在一些实施例中，终端1200还包括其他组件，本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请的实施例还提供了一种计算机设备，该计算机设备可以实现为如图1所示的终端或者服务器。该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的实体识别模型训练方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的实体识别模型训练方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的实体识别模型训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种实体识别模型训练方法，其特征在于，所述方法包括：

基于所述预测损失值对所述候选实体识别模型进行训练，得到目标实体识别模型，所述目标实体识别模型用于对输入的文本数据进行实体识别。

2.根据权利要求1所述的方法，其特征在于，所述获取所述样本文本数据对应的样本质量评分，并基于所述样本质量评分对所述样本识别损失值进行损失调整，得到预测损失值，包括：

通过质量评分模型对所述样本文本数据进行质量评分，得到所述样本质量评分，所述质量评分模型是预先训练得到的模型，所述质量评分模型用于对输入的文本数据进行质量评分；

基于所述样本质量评分对所述识别损失值进行损失调整，得到所述预测损失值。

3.根据权利要求2所述的方法，其特征在于，所述通过质量评分模型对所述样本文本数据进行质量评分，得到所述样本质量评分之前，还包括：

获取预设的标准文本数据，所述标准文本数据标注有标准评分标签，所述标准评分标签用于指示所述标准文本数据对应的质量评分；

基于所述标准文本数据对候选质量评分模型进行训练，得到所述质量评分模型。

4.根据权利要求3所述的方法，其特征在于，所述基于所述标准文本数据对候选质量评分模型进行训练，得到所述质量评分模型，包括：

通过所述候选评分模型对所述标准文本数据进行质量评分，得到所述标准文本数据对应的标准质量评分；

基于所述标准质量评分和所述标准评分标签之间的差异，确定质量评分损失值；

基于所述质量评分损失值对所述候选评分模型进行训练，得到所述质量评分模型。

5.根据权利要求2所述的方法，其特征在于，所述基于所述样本质量评分对所述识别损失值进行损失调整，得到预测损失值，包括：

基于所述样本质量评分确定所述识别损失值对应的损失权重；

对所述损失权重和所述识别损失值进行融合，得到所述预测损失值。

6.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述预测损失值对所述候选实体模型进行训练，得到目标实体识别模型，包括：

基于所述预测损失值对所述候选实体模型进行训练，直到所述预测损失值收敛，得到目标实体识别模型；或者，

基于所述预测损失值对所述候选实体模型进行训练，直到所述预测损失值达到指定阈值，得到目标实体识别模型。

7.根据权利要求1至5任一所述的方法，其特征在于，所述获取样本文本数据，包括：

获取预设的原始文本数据，所述原始文本数据中包括实体类别内容和非实体文本内容，所述原始文本数据标注有实体类别划分标签和非实体划分标签，所述实体类别划分标签用于指示所述原始文本数据中所述实体类别内容的分布情况，所述非实体划分标签用于指示所述原始文本数据中所述非实体文本内容的分布情况；

基于所述实体类别划分标签和所述非实体划分标签对所述原始文本数据进行实体填充，得到所述样本文本数据。

8.根据权利要求7所述的方法，其特征在于，所述基于所述实体类别划分标签和非实体划分标签对所述原始文本数据进行实体填充，得到所述样本文本数据，包括：

获取实体填充内容和非实体填充内容；

基于所述实体类别划分标签将所述原始文本数据中的实体类别内容替换为所述实体填充内容，得到第一填充数据；

基于所述非实体划分标签将所述第一填充数据中的所述非实体文本内容替换为所述非实体填充内容，得到所述样本文本数据。

9.根据权利要求1至5任一所述的方法，其特征在于，基于所述预测损失值对所述候选实体识别模型进行训练，得到目标实体识别模型之后，还包括：

获取目标文本数据；

将所述目标文本数据输入到所述目标实体识别模型进行实体识别，输出得到对应的实体识别预测结果，所述实体识别预测结果用于指示所述目标文本数据中实体文本内容的分布情况。

10.一种实体识别模型训练装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的实体识别模型训练方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至9任一所述的实体识别模型训练方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一所述的实体识别模型训练方法。