CN116306653A - 一种正则化领域知识辅助的命名实体识别方法 - Google Patents

一种正则化领域知识辅助的命名实体识别方法 Download PDF

Info

Publication number
CN116306653A
CN116306653A CN202310267754.2A CN202310267754A CN116306653A CN 116306653 A CN116306653 A CN 116306653A CN 202310267754 A CN202310267754 A CN 202310267754A CN 116306653 A CN116306653 A CN 116306653A
Authority
CN
China
Prior art keywords
model
knowledge
named entity
entity recognition
regularized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310267754.2A
Other languages
English (en)
Inventor
冯建周
徐甘霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202310267754.2A priority Critical patent/CN116306653A/zh
Publication of CN116306653A publication Critical patent/CN116306653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种正则化领域知识辅助的命名实体识别方法,属于自然语言处理领域。该方法主要包括知识标注、知识提取和知识传递三个步骤。1)知识标注:使用人工注释的正则表达式规则生成句子中实体提及的伪标签;2)知识提取;用带有伪标签的句子训练神经网络模型,将正则化领域知识嵌入到神经网络模型中;3)知识传递:使用知识蒸馏方式将神经网络中存储的领域知识传递到实体识别模型中,增强命名实体识别的准确性。本发明提供的正则化领域知识领域的命名实体识别方法,相比其他外部知识辅助命名实体方法,可以基于已有的训练数据获得正则化领域知识,有效提升现有的多种类型命名实体识别模型的性能。

Description

一种正则化领域知识辅助的命名实体识别方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种正则化领域知识辅助的命名实体识别方法。
技术背景
命名实体识别旨在识别句子中的实体提及并归类到预定义的类,例如人物、组织、地点等。例如,对于给定而句子“某某是一个篮球运动员,出生于某地”,命名实体识别的任务是识别出“某某”是一个人物类型实体,“某地”是一个地点类型实体。命名实体识别是信息抽取、问答系统、句法分析、机器翻译等下游任务的基础,在自然语言处理技术走向实用化的过程中占有重要地位。
随着进一步研究,越来越多的研究主要聚焦在特定领域任务。然而,传统的监督学习方法在这项任务中仍有很大的提升空间。这些受监督学习方法只关注训练语料库本身,这限制了模型探索外部真实世界场景。先前的工作学习如何利用外部数据,如未标记和有噪声的数据,以推动命名实体识别任务,这不可避免地引入了不相关的信息。此外,一些方法将知识图谱中的三元组视为外部知识并将其引入到模型中,以提高模型的性能,但它们有一定的局限性。一方面,大多数的现有模型都使用一般知识图谱,但它们缺乏领域知识,因此不适合于特定领域的任务。另一方面,领域知识图谱尚未普及,因此无法支持所有领域特定任务。对于特定领域的命名实体识别任务,构建领域知识图谱也是耗时且计算昂贵的。
发明内容
本发明的目的在于提供一种正则化领域知识辅助的命名实体识别方法,从而开发命名实体识别模型的性能。本发明基于已有的训练数据,利用正则表达式规则挖掘其中的正则化的领域知识,使其推动命名实体识别任务。
为实现上述目的,采用了以下技术方案:
本发明提供了一种涉及一种正则化领域知识辅助的命名实体识别方法,包括:
S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;
S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到教师模型中;
S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型(学生模型)中,实现了实体识别性能的增强。
本发明的进一步改进在于,基于所述的正则表达式的知识标注方法工作步骤如下:
S1.1、基于已有的训练数据,人工注释若干正则表达式规则;
S1.2、将输入句子与上述的若干正则表达式逐一匹配,生成对应字符的伪标签并识别出相应的实体,使用上述的正则表达式匹配后抽取的实体;
S1.3、对抽取出的实体采用BIO方法进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。
本发明的进一步改进在于,所述教师模型为EBRT模型,知识提取方法的工作步骤如下:
S2.1、对于给定的输入句子序列x=<x1,x2,…,xi,…,x|X|>,对应的伪标签为
Figure BDA0004133548620000031
将(x,y)输入并训练BERT模型,|X|是序列的长度;
S2.2、通过最小化交叉熵损失
Figure BDA0004133548620000032
来训练BERT模型:
Figure BDA0004133548620000033
Figure BDA0004133548620000034
其中,
Figure BDA0004133548620000035
代表指示函数,如果/>
Figure BDA0004133548620000036
则输出1,否则输出0;/>
Figure BDA0004133548620000037
表示是字符标签的集合;/>
Figure BDA0004133548620000038
是模型输出的所有标签的概率分布;W和b是可学习的参数;hi是xi在预训练模型中对应的输出,经过训练的BERT模型作为教师模型。
本发明的进一步改进在于,基于知识蒸馏的知识传递方法的工作步骤如下:
S3.1、将原始训练集同时输入到的BERT模型和命名实体识别模型,其中,预训练的BERT模型作为教师模型,命名实体模型作为学生模型;
S3.2、学生模型在线性层输出每个字符预测的概率序列P=(P1,P2,…,P|X|),教师模型层每个字符的预测标签软标签
Figure BDA0004133548620000039
Figure BDA00041335486200000310
S3.3、将学生模型输出的概率序列P,分别与真实标签y=<y1,y2,…,yi,…,y|X|>和软标签
Figure BDA0004133548620000041
分别计算交叉熵损失/>
Figure BDA0004133548620000045
Figure BDA0004133548620000042
其中,
Figure BDA0004133548620000043
序列标注模型的损失部分,/>
Figure BDA0004133548620000044
表示交叉熵损失函数,α和β是权重系数,用于衡量模型的贡献程度,T代表知识蒸馏中的温度参数,其值越大,概率序列越平滑。
本发明的有益效果:
本发明提供的一种正则化领域知识辅助的命名实体识别方法,合理地利用已有的训练数据。与其他外部知识辅助方法相比,该方法不需要额外的外部知识库,只需要少量的人工注释的正则表达式规则便能深度挖掘应有数据集中的正则化领域知识。基于知识蒸馏方法,使存储在神经网络模型的领域知识能够有效传递到命名实体识别模型中,推动模型性能提升。
附图说明
图1为本发明所述一种正则化领域知识辅助的命名实体识别方法的框架图;
图2为本发明所述的模型网络结构示意图。
具体实施方式
为了更加清晰明确地说明本发明的技术方案和优势,下面将详细阐述本发明的实施方式,并在附图中展示实施方式的示例。需要明确的是,附图中描述的实施方式仅为示例,旨在说明本发明的实施方式,而不应被视为对本发明的限制。
图1为本发明提供的一种正则化领域知识辅助的命名实体识别方法流程框架图,所述方法包括:
S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;
在本发明实施例中,不带标签的训练集示例,输入到知识标注模块中。知识标注模块是包含了多条人工注释的正则表达式规则,这些正规则蕴含了丰富的专家领域知识,它用来标注句子中的实体提及,生成对应字符的伪标签。例如,输入句子为“本药内所含人参、白芍、反藜芦”,使用正则表达式“(.*)本药内所含(.+)、(.+)、(.+),(.*)”匹配后,识别出实体提及“人参”、“白芍”、“藜芦”为DRUG_INGREDIENT类型。伪标签使用BIO方式进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。
S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到神经网络模型中;
在本发明实施例中,知识标注模块生成的带伪标签的输入序列x,y)用来训练实体抽取模块,其中,x=<x1,x2,…,xi,…,x|X|>,对应的伪标签为
Figure BDA0004133548620000051
它用BERT作为基础网络骨架,后面接了一个线性层。模型通过微调的方式学习正则化领域知识,并且捕捉下上文语义信息,这样使得模型更关注输入句子中的噪声信息。
具体方法是该模块通过如下最小化交叉熵损失
Figure BDA0004133548620000052
进行训练:
Figure BDA0004133548620000061
Figure BDA0004133548620000062
其中,
Figure BDA0004133548620000063
代表指示函数,如果/>
Figure BDA0004133548620000064
则输出1,否则输出0;/>
Figure BDA0004133548620000065
表示是字符标签的集合;/>
Figure BDA0004133548620000066
是模型输出的所有标签的概率分布;W和b是可学习的参数;hi是xi在预训练模型中对应的输出,经过训练的BERT模型作为教师模型。
S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型中。
在本发明实施例中,如附图2所示,在虚线右侧,预训练的BERT模型作为教师模型,负责向学生模型传递内部存储的正则化领域知识。命名实体识别模型采用BERT/BiLSTM-CRF模型,作为学生模型,接收教师模型传递的知识。
训练集中的输入序列同时输入到BERT模型(教师模型)和命名实体识别模型(学生模型)中。在学生模型的训练过程中,教师模型参数保持不变,只向学生模型传递软标签。学生模型在线性层输出每个字符预测的概率序列P=(P1,P2,…,P|X|)与硬标签y=<y1,y2,…,yi,…,y|X|>和软标签
Figure BDA0004133548620000067
分别计算交叉熵损失,最终的损失/>
Figure BDA0004133548620000068
如下:
Figure BDA0004133548620000069
其中,
Figure BDA00041335486200000610
序列标注模型的损失部分,/>
Figure BDA00041335486200000611
表示交叉熵损失函数,α和β是权重系数,用于衡量模型的贡献程度,T代表知识蒸馏中的温度参数,其值越大,概率序列越平滑。
最后应说明的是:以上实施例只是用来说明本发明的技术方案,并不对其进行限制。尽管参照前述实施例已经详细说明了本发明的技术方案,本领域的普通技术人员可以理解:在相应技术方案的本质不脱离本发明各实施例技术方案的精神和范围的情况下,可以对上述各实施例进行多种变换,修改、变形或者同等替换其中部分技术特征。

Claims (4)

1.一种正则化领域知识辅助的命名实体识别方法,其特征在于,包括:
S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;
S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到教师模型中;
S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型(学生模型)中,实现了实体识别性能的增强。
2.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于所述的正则表达式的知识标注方法工作步骤如下:
S1.1、基于已有的训练数据,人工注释若干正则表达式规则;
S1.2、将输入句子与上述的若干正则表达式逐一匹配,生成对应字符的伪标签并识别出相应的实体,使用上述的正则表达式匹配后抽取的实体;
S1.3、对抽取出的实体采用BIO方法进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。
3.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,所述教师模型为EBRT模型,知识提取方法的工作步骤如下:
S2.1、对于给定的输入句子序列x=<x1,x2,…,xi,…,x|X|>,对应的伪标签为
Figure FDA0004133548600000021
将(x,y)输入并训练BERT模型,|X|是序列的长度;
S2.2、通过最小化交叉熵损失
Figure FDA0004133548600000022
来训练BERT模型:
Figure FDA0004133548600000023
Figure FDA0004133548600000024
其中,
Figure FDA0004133548600000025
代表指示函数,如果/>
Figure FDA0004133548600000026
则输出1,否则输出0;/>
Figure FDA0004133548600000027
表示是字符标签的集合;/>
Figure FDA0004133548600000028
是模型输出的所有标签的概率分布;W和b是可学习的参数;hi是xi在预训练模型中对应的输出,经过训练的BERT模型作为教师模型。
4.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于知识蒸馏的知识传递方法的工作步骤如下:
S3.1、将原始训练集同时输入到的BERT模型和命名实体识别模型,其中,预训练的BERT模型作为教师模型,命名实体模型作为学生模型;
S3.2、学生模型在线性层输出每个字符预测的概率序列P=(P1,P2,…,P|X|),教师模型层每个字符的预测标签软标签
Figure FDA0004133548600000029
Figure FDA00041335486000000210
S3.3、将学生模型输出的概率序列P,分别与真实标签y=<y1,y2,…,yi,…,y|X|>和软标签
Figure FDA00041335486000000211
分别计算交叉熵损失/>
Figure FDA00041335486000000212
Figure FDA00041335486000000213
其中,
Figure FDA0004133548600000031
序列标注模型的损失部分,/>
Figure FDA0004133548600000032
表示交叉熵损失函数,α和β是权重系数,用于衡量模型的贡献程度,T代表知识蒸馏中的温度参数,其值越大,概率序列越平滑。
CN202310267754.2A 2023-03-20 2023-03-20 一种正则化领域知识辅助的命名实体识别方法 Pending CN116306653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310267754.2A CN116306653A (zh) 2023-03-20 2023-03-20 一种正则化领域知识辅助的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310267754.2A CN116306653A (zh) 2023-03-20 2023-03-20 一种正则化领域知识辅助的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN116306653A true CN116306653A (zh) 2023-06-23

Family

ID=86833910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310267754.2A Pending CN116306653A (zh) 2023-03-20 2023-03-20 一种正则化领域知识辅助的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN116306653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313732A (zh) * 2023-11-29 2023-12-29 南京邮电大学 一种医疗命名实体识别方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313732A (zh) * 2023-11-29 2023-12-29 南京邮电大学 一种医疗命名实体识别方法、装置及存储介质
CN117313732B (zh) * 2023-11-29 2024-03-26 南京邮电大学 一种医疗命名实体识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111078875B (zh) 一种基于机器学习的从半结构化文档中提取问答对的方法
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN114943230B (zh) 一种融合常识知识的中文特定领域实体链接方法
CN111914074B (zh) 基于深度学习与知识图谱的限定领域对话生成方法及系统
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN112101044A (zh) 一种意图识别方法、装置及电子设备
CN113971394A (zh) 文本复述改写系统
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN113641809A (zh) 一种基于XLNet-BiGRU-CRF的智能问答方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN114579706B (zh) 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN116150308A (zh) 识别模型的训练方法、识别方法和装置
CN113990420A (zh) 一种电子病历命名实体识别方法
CN113971405A (zh) 基于albert模型融合的医疗命名实体识别系统及其方法
CN113011141A (zh) 佛经注解模型训练方法、佛经注解生成方法及相关设备
CN116745773A (zh) 跨语言装置和方法
CN117473096B (zh) 一种融合latex标签的知识点标注方法及其模型
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination