CN116306653A

CN116306653A - 一种正则化领域知识辅助的命名实体识别方法

Info

Publication number: CN116306653A
Application number: CN202310267754.2A
Authority: CN
Inventors: 冯建周; 徐甘霖
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-06-23

Abstract

本发明提供了一种正则化领域知识辅助的命名实体识别方法，属于自然语言处理领域。该方法主要包括知识标注、知识提取和知识传递三个步骤。1)知识标注：使用人工注释的正则表达式规则生成句子中实体提及的伪标签；2)知识提取；用带有伪标签的句子训练神经网络模型，将正则化领域知识嵌入到神经网络模型中；3)知识传递：使用知识蒸馏方式将神经网络中存储的领域知识传递到实体识别模型中，增强命名实体识别的准确性。本发明提供的正则化领域知识领域的命名实体识别方法，相比其他外部知识辅助命名实体方法，可以基于已有的训练数据获得正则化领域知识，有效提升现有的多种类型命名实体识别模型的性能。

Description

一种正则化领域知识辅助的命名实体识别方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种正则化领域知识辅助的命名实体识别方法。

技术背景

命名实体识别旨在识别句子中的实体提及并归类到预定义的类，例如人物、组织、地点等。例如，对于给定而句子“某某是一个篮球运动员，出生于某地”，命名实体识别的任务是识别出“某某”是一个人物类型实体，“某地”是一个地点类型实体。命名实体识别是信息抽取、问答系统、句法分析、机器翻译等下游任务的基础，在自然语言处理技术走向实用化的过程中占有重要地位。

随着进一步研究，越来越多的研究主要聚焦在特定领域任务。然而，传统的监督学习方法在这项任务中仍有很大的提升空间。这些受监督学习方法只关注训练语料库本身，这限制了模型探索外部真实世界场景。先前的工作学习如何利用外部数据，如未标记和有噪声的数据，以推动命名实体识别任务，这不可避免地引入了不相关的信息。此外，一些方法将知识图谱中的三元组视为外部知识并将其引入到模型中，以提高模型的性能，但它们有一定的局限性。一方面，大多数的现有模型都使用一般知识图谱，但它们缺乏领域知识，因此不适合于特定领域的任务。另一方面，领域知识图谱尚未普及，因此无法支持所有领域特定任务。对于特定领域的命名实体识别任务，构建领域知识图谱也是耗时且计算昂贵的。

发明内容

本发明的目的在于提供一种正则化领域知识辅助的命名实体识别方法，从而开发命名实体识别模型的性能。本发明基于已有的训练数据，利用正则表达式规则挖掘其中的正则化的领域知识，使其推动命名实体识别任务。

为实现上述目的，采用了以下技术方案：

本发明提供了一种涉及一种正则化领域知识辅助的命名实体识别方法，包括：

S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及，为句子中每个字符生成伪标签；

S2、用上述带有伪标签的训练数据训练预训练模型(教师模型)，将正则化的领域知识嵌入到教师模型中；

S3、使用知识蒸馏方式，训练命名实体识别模型(学生模型)的同时，将教师模型中的领域知识传递到命名实体识别模型(学生模型)中，实现了实体识别性能的增强。

本发明的进一步改进在于，基于所述的正则表达式的知识标注方法工作步骤如下：

S1.1、基于已有的训练数据，人工注释若干正则表达式规则；

S1.2、将输入句子与上述的若干正则表达式逐一匹配，生成对应字符的伪标签并识别出相应的实体，使用上述的正则表达式匹配后抽取的实体；

S1.3、对抽取出的实体采用BIO方法进行标注，其中,“B”(begin)代表实体的开头，“I”(inside)代表实体的中间或结尾，“O”(other)表该词为非实体词。

本发明的进一步改进在于，所述教师模型为EBRT模型，知识提取方法的工作步骤如下：

S2.1、对于给定的输入句子序列x＝<x₁,x₂,…,x_i,…,x_|X|>，对应的伪标签为

将(x,y)输入并训练BERT模型，|X|是序列的长度；

S2.2、通过最小化交叉熵损失

来训练BERT模型：

其中，

代表指示函数，如果/>

则输出1，否则输出0；/>

表示是字符标签的集合；/>

是模型输出的所有标签的概率分布；W和b是可学习的参数；h_i是x_i在预训练模型中对应的输出，经过训练的BERT模型作为教师模型。

本发明的进一步改进在于，基于知识蒸馏的知识传递方法的工作步骤如下：

S3.1、将原始训练集同时输入到的BERT模型和命名实体识别模型，其中，预训练的BERT模型作为教师模型，命名实体模型作为学生模型；

S3.2、学生模型在线性层输出每个字符预测的概率序列P＝(P₁,P₂,…,P_|X|)，教师模型层每个字符的预测标签软标签

S3.3、将学生模型输出的概率序列P,分别与真实标签y＝<y₁,y₂,…,y_i,…,y_|X|>和软标签

分别计算交叉熵损失/>

其中，

序列标注模型的损失部分，/>

表示交叉熵损失函数，α和β是权重系数，用于衡量模型的贡献程度，T代表知识蒸馏中的温度参数，其值越大，概率序列越平滑。

本发明的有益效果：

本发明提供的一种正则化领域知识辅助的命名实体识别方法，合理地利用已有的训练数据。与其他外部知识辅助方法相比，该方法不需要额外的外部知识库，只需要少量的人工注释的正则表达式规则便能深度挖掘应有数据集中的正则化领域知识。基于知识蒸馏方法，使存储在神经网络模型的领域知识能够有效传递到命名实体识别模型中，推动模型性能提升。

附图说明

图1为本发明所述一种正则化领域知识辅助的命名实体识别方法的框架图；

图2为本发明所述的模型网络结构示意图。

具体实施方式

为了更加清晰明确地说明本发明的技术方案和优势，下面将详细阐述本发明的实施方式，并在附图中展示实施方式的示例。需要明确的是，附图中描述的实施方式仅为示例，旨在说明本发明的实施方式，而不应被视为对本发明的限制。

图1为本发明提供的一种正则化领域知识辅助的命名实体识别方法流程框架图，所述方法包括：

在本发明实施例中，不带标签的训练集示例，输入到知识标注模块中。知识标注模块是包含了多条人工注释的正则表达式规则，这些正规则蕴含了丰富的专家领域知识，它用来标注句子中的实体提及，生成对应字符的伪标签。例如，输入句子为“本药内所含人参、白芍、反藜芦”，使用正则表达式“(.*)本药内所含(.+)、(.+)、(.+)，(.*)”匹配后，识别出实体提及“人参”、“白芍”、“藜芦”为DRUG_INGREDIENT类型。伪标签使用BIO方式进行标注,其中,“B”(begin)代表实体的开头，“I”(inside)代表实体的中间或结尾，“O”(other)表该词为非实体词。

S2、用上述带有伪标签的训练数据训练预训练模型(教师模型)，将正则化的领域知识嵌入到神经网络模型中；

在本发明实施例中，知识标注模块生成的带伪标签的输入序列x,y)用来训练实体抽取模块，其中，x＝<x₁,x₂,…,x_i,…,x_|X|>，对应的伪标签为

它用BERT作为基础网络骨架，后面接了一个线性层。模型通过微调的方式学习正则化领域知识，并且捕捉下上文语义信息，这样使得模型更关注输入句子中的噪声信息。

具体方法是该模块通过如下最小化交叉熵损失

进行训练：

其中，

代表指示函数，如果/>

则输出1，否则输出0；/>

表示是字符标签的集合；/>

S3、使用知识蒸馏方式，训练命名实体识别模型(学生模型)的同时，将教师模型中的领域知识传递到命名实体识别模型中。

在本发明实施例中，如附图2所示，在虚线右侧，预训练的BERT模型作为教师模型，负责向学生模型传递内部存储的正则化领域知识。命名实体识别模型采用BERT/BiLSTM-CRF模型，作为学生模型，接收教师模型传递的知识。

训练集中的输入序列同时输入到BERT模型(教师模型)和命名实体识别模型(学生模型)中。在学生模型的训练过程中，教师模型参数保持不变，只向学生模型传递软标签。学生模型在线性层输出每个字符预测的概率序列P＝(P₁,P₂,…,P_|X|)与硬标签y＝<y₁,y₂,…,y_i,…,y_|X|>和软标签

分别计算交叉熵损失，最终的损失/>

如下：

其中，

序列标注模型的损失部分，/>

最后应说明的是：以上实施例只是用来说明本发明的技术方案，并不对其进行限制。尽管参照前述实施例已经详细说明了本发明的技术方案，本领域的普通技术人员可以理解：在相应技术方案的本质不脱离本发明各实施例技术方案的精神和范围的情况下，可以对上述各实施例进行多种变换，修改、变形或者同等替换其中部分技术特征。