CN116306653A - 一种正则化领域知识辅助的命名实体识别方法 - Google Patents
一种正则化领域知识辅助的命名实体识别方法 Download PDFInfo
- Publication number
- CN116306653A CN116306653A CN202310267754.2A CN202310267754A CN116306653A CN 116306653 A CN116306653 A CN 116306653A CN 202310267754 A CN202310267754 A CN 202310267754A CN 116306653 A CN116306653 A CN 116306653A
- Authority
- CN
- China
- Prior art keywords
- model
- knowledge
- named entity
- entity recognition
- regularized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000014509 gene expression Effects 0.000 claims abstract description 16
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000012546 transfer Methods 0.000 claims abstract description 4
- 238000003062 neural network model Methods 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 2
- 244000236658 Paeonia lactiflora Species 0.000 description 2
- 235000008598 Paeonia lactiflora Nutrition 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229940057613 veratrum Drugs 0.000 description 2
- 241000489523 Veratrum Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种正则化领域知识辅助的命名实体识别方法,属于自然语言处理领域。该方法主要包括知识标注、知识提取和知识传递三个步骤。1)知识标注:使用人工注释的正则表达式规则生成句子中实体提及的伪标签;2)知识提取;用带有伪标签的句子训练神经网络模型,将正则化领域知识嵌入到神经网络模型中;3)知识传递:使用知识蒸馏方式将神经网络中存储的领域知识传递到实体识别模型中,增强命名实体识别的准确性。本发明提供的正则化领域知识领域的命名实体识别方法,相比其他外部知识辅助命名实体方法,可以基于已有的训练数据获得正则化领域知识,有效提升现有的多种类型命名实体识别模型的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种正则化领域知识辅助的命名实体识别方法。
技术背景
命名实体识别旨在识别句子中的实体提及并归类到预定义的类,例如人物、组织、地点等。例如,对于给定而句子“某某是一个篮球运动员,出生于某地”,命名实体识别的任务是识别出“某某”是一个人物类型实体,“某地”是一个地点类型实体。命名实体识别是信息抽取、问答系统、句法分析、机器翻译等下游任务的基础,在自然语言处理技术走向实用化的过程中占有重要地位。
随着进一步研究,越来越多的研究主要聚焦在特定领域任务。然而,传统的监督学习方法在这项任务中仍有很大的提升空间。这些受监督学习方法只关注训练语料库本身,这限制了模型探索外部真实世界场景。先前的工作学习如何利用外部数据,如未标记和有噪声的数据,以推动命名实体识别任务,这不可避免地引入了不相关的信息。此外,一些方法将知识图谱中的三元组视为外部知识并将其引入到模型中,以提高模型的性能,但它们有一定的局限性。一方面,大多数的现有模型都使用一般知识图谱,但它们缺乏领域知识,因此不适合于特定领域的任务。另一方面,领域知识图谱尚未普及,因此无法支持所有领域特定任务。对于特定领域的命名实体识别任务,构建领域知识图谱也是耗时且计算昂贵的。
发明内容
本发明的目的在于提供一种正则化领域知识辅助的命名实体识别方法,从而开发命名实体识别模型的性能。本发明基于已有的训练数据,利用正则表达式规则挖掘其中的正则化的领域知识,使其推动命名实体识别任务。
为实现上述目的,采用了以下技术方案:
本发明提供了一种涉及一种正则化领域知识辅助的命名实体识别方法,包括:
S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;
S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到教师模型中;
S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型(学生模型)中,实现了实体识别性能的增强。
本发明的进一步改进在于,基于所述的正则表达式的知识标注方法工作步骤如下:
S1.1、基于已有的训练数据,人工注释若干正则表达式规则;
S1.2、将输入句子与上述的若干正则表达式逐一匹配,生成对应字符的伪标签并识别出相应的实体,使用上述的正则表达式匹配后抽取的实体;
S1.3、对抽取出的实体采用BIO方法进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。
本发明的进一步改进在于,所述教师模型为EBRT模型,知识提取方法的工作步骤如下:
其中,代表指示函数,如果/>则输出1,否则输出0;/>表示是字符标签的集合;/>是模型输出的所有标签的概率分布;W和b是可学习的参数;hi是xi在预训练模型中对应的输出,经过训练的BERT模型作为教师模型。
本发明的进一步改进在于,基于知识蒸馏的知识传递方法的工作步骤如下:
S3.1、将原始训练集同时输入到的BERT模型和命名实体识别模型,其中,预训练的BERT模型作为教师模型,命名实体模型作为学生模型;
本发明的有益效果:
本发明提供的一种正则化领域知识辅助的命名实体识别方法,合理地利用已有的训练数据。与其他外部知识辅助方法相比,该方法不需要额外的外部知识库,只需要少量的人工注释的正则表达式规则便能深度挖掘应有数据集中的正则化领域知识。基于知识蒸馏方法,使存储在神经网络模型的领域知识能够有效传递到命名实体识别模型中,推动模型性能提升。
附图说明
图1为本发明所述一种正则化领域知识辅助的命名实体识别方法的框架图;
图2为本发明所述的模型网络结构示意图。
具体实施方式
为了更加清晰明确地说明本发明的技术方案和优势,下面将详细阐述本发明的实施方式,并在附图中展示实施方式的示例。需要明确的是,附图中描述的实施方式仅为示例,旨在说明本发明的实施方式,而不应被视为对本发明的限制。
图1为本发明提供的一种正则化领域知识辅助的命名实体识别方法流程框架图,所述方法包括:
S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;
在本发明实施例中,不带标签的训练集示例,输入到知识标注模块中。知识标注模块是包含了多条人工注释的正则表达式规则,这些正规则蕴含了丰富的专家领域知识,它用来标注句子中的实体提及,生成对应字符的伪标签。例如,输入句子为“本药内所含人参、白芍、反藜芦”,使用正则表达式“(.*)本药内所含(.+)、(.+)、(.+),(.*)”匹配后,识别出实体提及“人参”、“白芍”、“藜芦”为DRUG_INGREDIENT类型。伪标签使用BIO方式进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。
S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到神经网络模型中;
在本发明实施例中,知识标注模块生成的带伪标签的输入序列x,y)用来训练实体抽取模块,其中,x=<x1,x2,…,xi,…,x|X|>,对应的伪标签为它用BERT作为基础网络骨架,后面接了一个线性层。模型通过微调的方式学习正则化领域知识,并且捕捉下上文语义信息,这样使得模型更关注输入句子中的噪声信息。
其中,代表指示函数,如果/>则输出1,否则输出0;/>表示是字符标签的集合;/>是模型输出的所有标签的概率分布;W和b是可学习的参数;hi是xi在预训练模型中对应的输出,经过训练的BERT模型作为教师模型。
S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型中。
在本发明实施例中,如附图2所示,在虚线右侧,预训练的BERT模型作为教师模型,负责向学生模型传递内部存储的正则化领域知识。命名实体识别模型采用BERT/BiLSTM-CRF模型,作为学生模型,接收教师模型传递的知识。
训练集中的输入序列同时输入到BERT模型(教师模型)和命名实体识别模型(学生模型)中。在学生模型的训练过程中,教师模型参数保持不变,只向学生模型传递软标签。学生模型在线性层输出每个字符预测的概率序列P=(P1,P2,…,P|X|)与硬标签y=<y1,y2,…,yi,…,y|X|>和软标签分别计算交叉熵损失,最终的损失/>如下:
最后应说明的是:以上实施例只是用来说明本发明的技术方案,并不对其进行限制。尽管参照前述实施例已经详细说明了本发明的技术方案,本领域的普通技术人员可以理解:在相应技术方案的本质不脱离本发明各实施例技术方案的精神和范围的情况下,可以对上述各实施例进行多种变换,修改、变形或者同等替换其中部分技术特征。
Claims (4)
1.一种正则化领域知识辅助的命名实体识别方法,其特征在于,包括:
S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;
S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到教师模型中;
S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型(学生模型)中,实现了实体识别性能的增强。
2.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于所述的正则表达式的知识标注方法工作步骤如下:
S1.1、基于已有的训练数据,人工注释若干正则表达式规则;
S1.2、将输入句子与上述的若干正则表达式逐一匹配,生成对应字符的伪标签并识别出相应的实体,使用上述的正则表达式匹配后抽取的实体;
S1.3、对抽取出的实体采用BIO方法进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。
4.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于知识蒸馏的知识传递方法的工作步骤如下:
S3.1、将原始训练集同时输入到的BERT模型和命名实体识别模型,其中,预训练的BERT模型作为教师模型,命名实体模型作为学生模型;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267754.2A CN116306653A (zh) | 2023-03-20 | 2023-03-20 | 一种正则化领域知识辅助的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310267754.2A CN116306653A (zh) | 2023-03-20 | 2023-03-20 | 一种正则化领域知识辅助的命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116306653A true CN116306653A (zh) | 2023-06-23 |
Family
ID=86833910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310267754.2A Pending CN116306653A (zh) | 2023-03-20 | 2023-03-20 | 一种正则化领域知识辅助的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306653A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313732A (zh) * | 2023-11-29 | 2023-12-29 | 南京邮电大学 | 一种医疗命名实体识别方法、装置及存储介质 |
-
2023
- 2023-03-20 CN CN202310267754.2A patent/CN116306653A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313732A (zh) * | 2023-11-29 | 2023-12-29 | 南京邮电大学 | 一种医疗命名实体识别方法、装置及存储介质 |
CN117313732B (zh) * | 2023-11-29 | 2024-03-26 | 南京邮电大学 | 一种医疗命名实体识别方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920460B (zh) | 一种多类型实体识别的多任务深度学习模型的训练方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN111563383A (zh) | 一种基于BERT与SemiCRF的中文命名实体识别方法 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN114943230B (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN111078875A (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
CN111709242A (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN113641809A (zh) | 一种基于XLNet-BiGRU-CRF的智能问答方法 | |
CN113971394A (zh) | 文本复述改写系统 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN116628207A (zh) | 文本分类模型的训练方法和装置、电子设备及存储介质 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN114880994B (zh) | 一种直白文本到反讽文本的文本风格转换方法及装置 | |
CN114579706B (zh) | 一种基于bert神经网络和多任务学习的主观题自动评阅方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |