CN113656544B

CN113656544B - 嵌套命名实体识别模型的训练方法、装置、设备和介质

Info

Publication number: CN113656544B
Application number: CN202110921590.1A
Authority: CN
Inventors: 单波; 罗杰; 魏文轩; 徐森; 何亮; 张勇
Original assignee: Xinjiang University; Unisound Intelligent Technology Co Ltd; State Grid Xinjiang Electric Power Co Ltd
Current assignee: Xinjiang University; Unisound Intelligent Technology Co Ltd; State Grid Xinjiang Electric Power Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2024-03-15
Anticipated expiration: 2041-08-11
Also published as: CN113656544A

Abstract

本发明涉及嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质，该方法包括：获取标注好的数据集，根据数据集确定第一数据集，根据第一数据集确定实体词边界预测结果；根据实体词边界预测结果确定实体类型预测结果；根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失；根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。本申请实施例没有使用堆叠式的模型，避免了堆叠式LSTM+CRF错误传递的问题，并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型，因为模型联合了实体词边界与实体类型的信息，提高了嵌套命名实体识别能力。

Description

嵌套命名实体识别模型的训练方法、装置、设备和介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质。

背景技术

目前，现有的嵌套命名实体识别技术普遍采用多层堆叠的BiLSTM+CRF，速度较慢，并且因为堆叠式模型存在错误传递的情况，因此导致指标会较低。

嵌套命名实体识别难度较大，目前的技术对于这类问题普遍没有较好的解决方案。

发明内容

本发明提供一种嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质，能够解决上述嵌套命名实体识别难度较大、堆叠式模型存在错误传递的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供了一种嵌套命名实体识别模型的训练方法，包括：

获取标注好的数据集，数据集包括：文字样本和文字样本对应的实体标签；

根据数据集确定第一数据集，第一数据集包括：文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示；

根据第一数据集确定实体词边界预测结果；

根据实体词边界预测结果确定实体类型预测结果；

根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失；

根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。

在一些实施例中，上述一种嵌套命名实体识别模型的训练方法中，所述根据所述第一数据集确定实体词边界预测结果，包括：

根据第一数据集确定第一数据集对应的字向量；

将第一数据集对应的字向量中每个字向量分别输入全连接层和softmax函数得到实体词边界预测结果。

在一些实施例中，上述一种嵌套命名实体识别模型的训练方法中，所述根据所述实体词边界预测结果确定实体类型预测结果，包括：

根据实体词边界预测结果中实体开始位置和实体结束位置确定实体区间；

将实体区间输入全连接层和softmax函数得到实体类型预测结果。

在一些实施例中，上述一种嵌套命名实体识别模型的训练方法中，所述根据所述数据集确定第一数据集，包括：

将数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体词结束的标签；

根据只标注实体词开始的标签和实体词结束的标签确定实体标签边界对应的位置坐标表示；

数据集和实体词标签边界对应的位置坐标表示组成了第一数据集。

在一些实施例中，上述一种嵌套命名实体识别模型的训练方法中，根据第一数据集确定第一数据集对应的字向量，包括：

将第一数据集中的文字样本输入到预训练BERT模型中；

通过前向计算得到文字样本中每个字对应的字向量。

在一些实施例中，上述一种嵌套命名实体识别模型的训练方法中，根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失，包括：

根据第一数据集和所述实体词边界预测结果计算得到实体词边界预测损失；

根据第一数据集和所述实体类型预测结果计算得到实体类型预测损失。

在一些实施例中，上述一种嵌套命名实体识别模型的训练方法中，

根据实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型，包括：

根据实体词边界预测损失和实体类型预测损失求和后的损失调整模型参数得到嵌套命名实体识别模型。

第二方面，本发明实施例还提供了一种嵌套命名实体识别模型的训练装置，包括：

获取模块：用于获取标注好的数据集，所述数据集包括：文字样本和文字样本对应的实体标签；

第一确定模块：用于根据数据集确定第一数据集，第一数据集包括：文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示；

第二确定模块：用于根据第一数据集确定实体词边界预测结果；

第三确定模块：用于根据实体词边界预测结果确定实体类型预测结果；

计算模块：用于根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失；

调整模块：用于根据实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述一种嵌套命名实体识别模型的训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述一种嵌套命名实体识别模型的训练方法。

本发明的有益效果是：本发明涉及本发明涉及嵌套命名实体识别模型的训练方法、装置、电子设备和存储介质，该方法包括：获取标注好的数据集，根据数据集确定第一数据集，根据第一数据集确定实体词边界预测结果；根据实体词边界预测结果确定实体类型预测结果；根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失；根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。本申请实施例没有使用堆叠式的模型，避免了堆叠式LSTM+CRF错误传递的问题，并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型，因为模型联合了实体词边界与实体类型的信息，提高了嵌套命名实体识别能力。

附图说明

图1为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图一；

图2为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图二；

图3为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图三；

图4为本发明实施例提供的一种嵌套命名实体识别模型的训练装置图；

图5为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图一。

第一方面，结合图1，本发明实施例提供了一种嵌套命名实体识别模型的训练方法，包括S101至S106六个步骤：

S101：获取标注好的数据集，数据集包括：文字样本和文字样本对应的实体标签；

具体的，本申请实施例中，标注好的数据集可以表示为：

其中，X_i表示一条文字样本，Y_i表示X_i样本对应的实体标签；分别表示一个字，与这个字对应的实体标签。如：

标注好的数据集X＝[我,要,去,石,家,庄,万,达,广,场],Y＝[4,6,CITY||4,10,LOCATION]。

S102：根据数据集确定第一数据集，第一数据集包括：文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示；

具体的，本申请实施例中，根据数据集(X_i,Y_i)确定第一数据集(X_i,Y_i,L_i)，L_i表示实体标签边界对应的位置坐标表示。

S103：根据第一数据集确定实体词边界预测结果。

具体的，本申请实施例中，根据第一数据集(X_i,Y_i,L_i)确定实体词边界预测结果

S104：根据实体词边界预测结果确定实体类型预测结果；

具体的，本申请实施例中，根据实体词边界预测结果确定实体类型预测结果

S105：根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失；

具体的，本申请实施例中，根据第一数据集(X_i,Y_i,L_i)、和/>计算实体词边界预测损失loss₁和实体类型预测损失loss₂。

S106：根据实体词边界预测损失和实体类型预测损失调整模型参数得到嵌套命名实体识别模型。

具体的，本申请实施例中，根据实体词边界预测损失loss₁和实体类型预测损失loss₂，调整模型参数得到嵌套命名实体识别模型，本申请实施例没有使用堆叠式的模型，避免了堆叠式LSTM+CRF错误传递的问题，并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型，因为嵌套命名实体识别模型联合了实体词边界与实体类型的信息，提高了嵌套命名实体识别能力。

图2为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图二。

在一些实施例中，结合图2，上述一种嵌套命名实体识别模型的训练方法中，所述根据所述第一数据集确定实体词边界预测结果，包括S201至S202两个步骤：

S201：根据第一数据集确定第一数据集对应的字向量；

具体的，本申请实施例中，根据第一数据集确定第一数据集对应的字向量，包括：将第一数据集中的文字样本输入到预训练BERT模型中；通过前向计算得到文字样本中每个字对应的字向量。

S202：将第一数据集对应的字向量中每个字向量分别输入全连接层和softmax函数得到实体词边界预测结果。

具体的，本申请实施例中，将第一数据集中的X作为输入，使用预训练BERT模型得到每一条数据的字向量的表示(X_i,Y_i,L_i)的向量表示V_i；

V_i＝f(θ,X_i)

其中，θ为BERT模型的参数，f(θ,X_i)表示对于第一数据集(X_i,Y_i,L_i)通过前向计算，得到每个字的字向量。输出V_i为n_i，n_i表示数据(X_i,Y_i)的字个数个向量，即每个字对应一个向量j表示第j个字。

对于数据(X_i,Y_i,L_i)的字向量V_i针对L_i进实体标签边界对应的位置坐标表示进行预测，其中的每个字向量分别输入全连接层，得到隐层表示，隐层表示经过softmax函数，得到实体词边界预测结果

其中，δ为全连接层的模型参数。FC1()表示经过全连接层和softmax函数。

图3为本发明实施例提供的一种嵌套命名实体识别模型的训练方法图三。

在一些实施例中，结合图3，上述一种嵌套命名实体识别模型的训练方法中，所述根据所述实体词边界预测结果确定实体类型预测结果，包括S301至S302两个步骤。

S301：根据实体词边界预测结果中实体词开始位置和实体词结束位置确定实体区间；

S302：将实体区间输入全连接层和softmax函数得到实体类型预测结果。

具体的，本申请实施例中，上述S201至S202步骤得到了第一数据集数据(X_i,Y_i,L_i)的实体词边界预测结果接着将实体词边界预测结果/>中的实体词开始位置“B”,实体词结束位置“E”连接成区间，得到区间表示R(s,e)，其中s表示实体词开始的位置，e表示实体词结束的位置，得到区间的表示，即字向量V_ik求平均：

得到了实体区间的表示后，将/>输入全连接层，之后再输入softmax函数得到实体类型预测结果/>

其中，α为全连接层的模型参数。FC2()表示经过全连接层和softmax函数。

将数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体结束的标签；

具体的，本申请实施例中，将数据集中的实体标签进行处理。将实体词的标签，替换为只标注实体词开始结束的标签“BOE”。用“B”表示实体词的开始，“E”表示实体词的结束，其余均替换为“O”，得到数据(X_i,Y_i)的新表示(X_i,Y_i,L_i)。举例说明：X_i＝[我,要,去,石,家,庄,万,达,广,场],Y_i＝Y＝[4,6,CITY||4,10,LOCATION]，将Y_i变换为L_i＝[O O O B O EO O O E]。

具体的，本申请实施例中，实体词边界预测损失表示为：

该公式表示针对第一数据集(X_i,Y_i,L_i)以及对应的实体词边界预测结果求得的实体词边界预测损失loss₁

具体的，本申请实施例中，实体类型预测损失表示为：

该公式表示针对第一数据集(X_i,Y_i,L_i)以及对应的实体类型预测结果求得的实体类型预测损失loss₂。

具体的，实体词边界预测损失和实体类型预测损失求和后的损失表示为：

loss＝loss₁+loss₂

根据loss调整模型参数得到嵌套命名实体识别模型,因为嵌套命名实体识别模型联合了实体词边界与实体类型的信息，提高了嵌套命名实体识别能力。

图4为本发明实施例提供的一种嵌套命名实体识别模型的训练装置图。

第二方面，结合图4，本发明实施例还提供了一种嵌套命名实体识别模型的训练装置，包括：

获取模块401：用于获取标注好的数据集，所述数据集包括：文字样本和文字样本对应的实体标签；

具体的，本申请实施例中，获取模块401获取标注好的数据集可以表示为：

第一确定模块402：用于根据数据集确定第一数据集，第一数据集包括：文字样本、文字样本对应的实体标签和实体标签边界对应的位置坐标表示；

具体的，本申请实施例中，第一确定模块402根据数据集(X_i,Y_i)确定第一数据集(X_i,Y_i,L_i)，L_i表示实体标签边界对应的位置坐标表示。

第二确定模块403：用于根据第一数据集确定实体词边界预测结果；

具体的，本申请实施例中，第二确定模块403根据第一数据集(X_i,Y_i,L_i)确定实体词边界预测结果

第三确定模块404：用于根据实体词边界预测结果确定实体类型预测结果；

具体的，本申请实施例中，第三确定模块404根据实体词边界预测结果确定实体类型预测结果/>

计算模块405：用于根据第一数据集、实体词边界预测结果和实体类型预测结果计算实体词边界预测损失和实体类型预测损失；

具体的，本申请实施例中，计算模块405根据第一数据集(X_i,Y_i,L_i)、和计算实体词边界预测损失loss₁和实体类型预测损失loss₂。

调整模块406：用于根据实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。

具体的，本申请实施例中，调整模块406根据实体词边界预测损失loss₁和实体类型预测损失loss₂，调整模型参数得到嵌套命名实体识别模型，本申请实施例没有使用堆叠式的模型，避免了堆叠式LSTM+CRF错误传递的问题，并将实体词边界预测损失与实体类型预测损失结合起来调整模型参数得到嵌套命名实体识别模型，因为嵌套命名实体识别模型联合了实体词边界与实体类型的信息，提高了嵌套命名实体识别能力。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的嵌套命名实体识别模型的训练方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的嵌套命名实体识别模型的训练方法各实施例的步骤。

根据第一数据集确定实体词边界预测结果；

根据实体词边界预测结果确定实体类型预测结果；

本申请实施例提供的嵌套命名实体识别模型的训练方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的嵌套命名实体识别模型的训练方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成嵌套命名实体识别模型的训练方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种嵌套命名实体识别模型的训练方法，其特征在于，包括：

获取标注好的数据集，所述数据集包括：文字样本和所述文字样本对应的实体标签；

将所述数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体词结束的标签；

根据所述只标注实体词开始的标签和实体词结束的标签确定实体词标签边界对应的位置坐标表示；

所述数据集和实体词标签边界对应的位置坐标表示组成了第一数据集；

根据所述第一数据集确定所述第一数据集对应的字向量；

将第一数据集对应的字向量中每个字向量分别输入全连接层和softmax函数得到实体词边界预测结果；

根据所述实体词边界预测结果中实体词开始位置和实体词结束位置确定实体区间；

将所述实体区间输入全连接层和softmax函数得到实体类型预测结果；

根据所述第一数据集、所述实体词边界预测结果和所述实体类型预测结果计算实体词边界预测损失和实体类型预测损失；

根据所述实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。

2.根据权利要求1所述的一种嵌套命名实体识别模型的训练方法，其特征在于，所述根据所述第一数据集确定所述第一数据集对应的字向量，包括：

将所述第一数据集中的文字样本输入到预训练BERT模型中；

通过前向计算得到文字样本中每个字对应的字向量。

3.根据权利要求1所述的一种嵌套命名实体识别模型的训练方法，其特征在于，所述根据所述第一数据集、所述实体词边界预测结果和所述实体类型预测结果计算实体词边界预测损失和实体类型预测损失，包括：

根据所述第一数据集和所述实体词边界预测结果计算得到实体词边界预测损失；

根据所述第一数据集和所述实体类型预测结果计算得到实体类型预测损失。

4.根据权利要求1所述的一种嵌套命名实体识别模型的训练方法，其特征在于，根据所述实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型，包括：

根据所述实体词边界预测损失和所述实体类型预测损失求和后的损失调整模型参数得到嵌套命名实体识别模型。

5.一种嵌套命名实体识别模型的训练装置，其特征在于，包括：

获取模块：用于获取标注好的数据集，所述数据集包括：文字样本和所述文字样本对应的实体标签；

第一确定模块：用于将所述数据集中文字样本对应的实体词标签替换为只标注实体词开始的标签和实体词结束的标签；

第二确定模块：用于根据所述第一数据集确定所述第一数据集对应的字向量；

第三确定模块：

计算模块：用于根据所述第一数据集、所述实体词边界预测结果和所述实体类型预测结果计算实体词边界预测损失和实体类型预测损失；

调整模块：用于根据所述实体词边界预测损失和所述实体类型预测损失调整模型参数得到嵌套命名实体识别模型。

6.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至4任一项所述嵌套命名实体识别模型的训练方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至4任一项所述一种嵌套命名实体识别模型的训练方法。