CN117973388A - 面向嵌套命名实体识别的数据增强方法、系统及存储介质 - Google Patents

面向嵌套命名实体识别的数据增强方法、系统及存储介质 Download PDF

Info

Publication number
CN117973388A
CN117973388A CN202410226655.4A CN202410226655A CN117973388A CN 117973388 A CN117973388 A CN 117973388A CN 202410226655 A CN202410226655 A CN 202410226655A CN 117973388 A CN117973388 A CN 117973388A
Authority
CN
China
Prior art keywords
nested
sentence
sentences
data
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410226655.4A
Other languages
English (en)
Inventor
阳爱民
林楠铠
刘伟中
廖兴明
周栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Technology
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology, Guangdong University of Foreign Studies filed Critical Guangdong University of Technology
Priority to CN202410226655.4A priority Critical patent/CN117973388A/zh
Publication of CN117973388A publication Critical patent/CN117973388A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种面向嵌套命名实体识别的数据增强方法、系统及存储介质,其中,所述方法包括:利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,并提取注意力图,确定与命名实体相关的关键字;使用复合嵌套标签分类方法对目标句子和相似句子进行处理,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板;使用CNL模型生成增强数据样本;采用置信度过滤机制对生成的增强数据样本进行过滤,得到高置信度的Sliver数据集,与原始训练集样本连接,构建最终的训练数据集。本发明通过相似性过滤、注意力图提取、复合嵌套标签分类和置信度过滤等步骤生成高质量增强数据样本,可以用于训练NER模型。

Description

面向嵌套命名实体识别的数据增强方法、系统及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种面向嵌套命名实体识别的数据增强方法、系统及存储介质。
背景技术
在当今数字化时代,大量的文本数据被创建和共享,这些数据包括了从社交媒体帖子到医疗记录等各种文本形式。对这些文本数据进行自动化处理和分析已经成为许多领域的核心需求。
数据增强指通过对已有数据添加微小改动或从已有数据新创建合成数据,以增加数据量的方法。目前,序列标记任务数据增强技术:利用弱标记数据增强技术,通过预测实体标签和数据增强操作,从社交媒体文本中提取命名实体,并通过重新训练NER模型来改善低资源NER任务的性能;多语言的嵌入语言模型数据增强技术:利用多语言嵌入语言模型生成合成数据,并将其与原始标注数据合并,用于重新训练NER模型,以改善低资源条件下的命名实体识别性能,并减少标签错位的问题。
现有技术存在的缺陷:弱标记数据的质量不高,弱标记数据通常来自社交媒体等非结构化文本,其标注质量可能不够准确和完整,导致生成的扩充数据存在噪声和错误;标签噪声的传递,如果初始模型在弱标记数据上产生了错误的预测,这些错误可能会通过数据增强传递到扩充的训练数据集中,进一步影响模型的性能;数据合成的准确性低,在生成合成数据时,将预测的实体标签嵌入到未标注数据中,可能会引入一定的噪声和错误,这可能会影响模型在合成数据上的性能和泛化能力;领域的局限性,MELM方法主要针对多语言环境,对于单语言或特定语言的低资源NER任务,可能需要额外的适配和调整。目前在嵌套命名识别(NNER)领域的带注释的数据资源有限,嵌套命名实体识别难度较大,现有的数据增强技术无法直接应用于嵌套命名识别的任务。
发明内容
本发明提供一种面向嵌套命名实体识别的数据增强方法、系统及存储介质,通过引入复合嵌套标签分类、复合嵌套学习和置信度过滤机制,对嵌套实体进行数据增强,解决了嵌套命名识别(NNER)方法的带注释资源有限的问题。
一方面,本发明提供一种面向嵌套命名实体识别的数据增强方法,所述方法包括:
S1,利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,并提取注意力图,确定与命名实体相关的关键字;
S2,使用复合嵌套标签分类方法对目标句子和相似句子进行处理,在每个命名实体之前和之后分别添加标签标记;进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板;
S3,基于目标句子模板以及合并后的模板,使用CNL模型生成增强数据样本;
S4,采用置信度过滤机制对生成的增强数据样本进行过滤,得到高置信度的Sliver数据集,与原始训练集样本连接,构建最终的训练数据集。
进一步地,所述S1中,利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,具体包括:
遍历原始训练集样本的语料库中所有句子,使用多语言Sentence-BERT提取每个句子的嵌入,使用以下方法计算语义相似度:
其中,sim(·)代表两个嵌入的余弦相似度,Sa表示目标句子a的嵌入,Sb表示任一候选句子b的嵌入,a、b∈N,其中a≠b且N是原始训练集样本的大小;
基于语义相似度进行排序,确定与目标句子a相似度最高的前n个候选句子,作为相似句子。
进一步地,所述S1中,提取注意力图,确定与命名实体相关的关键字,具体包括:
利用RoBERTa模型提取的注意力图中提取的注意力分数来评估上下文依赖性;
将无命名实体的注意力分数排序中前k%的无命名实体描述为关键字;
将停用词、标点符号和其它的非前k%的无命名实体排除在关键字之外,得到最终的关键字集合。
进一步地,所述S2中,在每个命名实体之前和之后分别添加标签标记,具体包括:
对包含嵌套标签的标签用外部实体对应的标签标记表示;嵌套标签采用内部嵌套实体对应的标签标记表示,这些标签标记用于指示命名实体的开始和结束位置,以及命名实体的类型。
进一步地,所述S2中,进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板,具体包括:
将目标句子和相似句子中的非关键字用掩码令牌替换,然后消除连续的掩码令牌;
进行CNLC序列线性化,将标签标记信息纳入微调和增强生成的过程;
在CNLC序列线性化后,通过对高斯分布ε的动态掩蔽率进行采样:
其中,公式(2)指代的是高斯分布的概率密度函数,f(x)表示概率密度函数的值,μ表示分布的均值,σ表示分布的标准差,σ设置为1/K,x代表CNLC处理模板的关键字索引列表;
将目标句子和相似句子分为两部分,其中一部分,目标句子的选定关键字被动态屏蔽,而另一部分则是通过使用FUSION机制将目标句子与相似句子合并而得到的。
进一步地,所述CNL模型包括双向编码器以及自然回归解码器。
另一方面,本发明提供一种面向嵌套命名实体识别的数据增强系统,包括面向嵌套命名实体识别的数据增强框架,所述面向嵌套命名实体识别的数据增强框架具体包括:
注意力图提取模块,用于利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,并提取注意力图,确定与命名实体相关的关键字;
复合嵌套标签分类模块,用于使用复合嵌套标签分类方法对目标句子和相似句子进行处理,在每个命名实体之前和之后分别添加标签标记;进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板;
复合嵌套学习模块,用于基于目标句子模板以及合并后的模板,使用CNL模型生成增强数据样本;
置信度过滤模块,用于采用置信度过滤机制对生成的增强数据样本进行过滤,得到高置信度的Sliver数据集,与原始训练集样本连接,构建最终的训练数据集。
本发明还提供一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述面向嵌套命名实体识别的数据增强方法。
本发明还提供一种计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上述面向嵌套命名实体识别的数据增强方法。
本发明的有益效果为:
本发明提供的面向嵌套命名实体识别的数据增强方法及系统,通过引入复合嵌套标签分类结构、复合嵌套学习和置信度过滤机制,提出了一种改进的低资源NNER数据增强方法,通过相似性过滤、注意力图提取、复合嵌套标签分类和置信度过滤等步骤生成的高质量增强样本,可以用于训练NER模型。这种方法在模拟嵌套实体语义结构和扩充数据集方面具有显著的优势,扩大了现有技术的应用范围,可适用于其他模型并提供更有价值的样本,从而提高模型的性能,缓解样本不平衡的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种面向嵌套命名实体识别的数据增强方法的流程示意图;
图2是本发明实施例注意力提取模块框架图;
图3是本发明实施例标签标记结构示意图;
图4是本发明实施例复合嵌套分类模块框架图;
图5是本发明实施例复合嵌套学习模型框架图;
图6是本发明实施例置信度过滤模块框架图;
图7是本发明实施例ACE2004生成的Sliver数据集参数搜索结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图6描述本发明的面向嵌套命名实体识别的数据增强方法及系统。
图1是本发明提供的面向嵌套命名实体识别的数据增强方法的流程示意图。
如图1所示,本实施例提供的一种面向嵌套命名实体识别的数据增强方法,可以由面向嵌套命名实体识别的数据增强框架执行,至少包括以下步骤:
S1,利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,并提取注意力图,确定与命名实体相关的关键字;
S2,使用复合嵌套标签分类方法对目标句子和相似句子进行处理,在每个命名实体之前和之后分别添加标签标记;进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板;
S3,基于目标句子模板以及合并后的模板,使用CNL模型生成增强数据样本;
S4,采用置信度过滤机制对生成的增强数据样本进行过滤,得到高置信度的Sliver数据集,与原始训练集样本连接,构建最终的训练数据集。
其中,所述S1主要目标是通过相似性过滤机制和注意力图的分析提供于命名实体相关的重要关键词的注意图。首先采用了一种相似性过滤机制来挖掘语料库中与目标句子相似的句子。用于扩充训练数据,使模型能够更好地学习不同语境下的命名实体。之后,通过计算句子之间的相似性度量(如余弦相似度)来筛选出与目标句子最相似的候选句子。在获取了相似句子后,使用微调后的RoBERTa模型来提取与命名实体相关的关键词的注意力图。这个过程帮助我们理解模型在识别命名实体时所关注的重要信息。通过分析注意力图,可以确定哪些词对于命名实体的识别和分类起着关键作用,流程图如图2所示。
其中,利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,具体包括:
遍历原始训练集样本的语料库中所有句子,使用多语言Sentence-BERT提取每个句子的嵌入,使用以下方法计算语义相似度:
其中,sim(·)代表两个嵌入的余弦相似度,Sa表示目标句子a的嵌入,Sb表示任一候选句子b的嵌入,a、b∈N,其中a≠b且N是原始训练集样本的大小;
基于语义相似度进行排序,确定与目标句子a相似度最高的前n个候选句子,作为相似句子。
进一步地,提取注意力图,确定与命名实体相关的关键字,具体包括:
当无命名实体(n-NE)标记对句子中的命名实体(NE)具有最大的上下文意义时,它被定义为关键字。通过利用从RoBERTa模型衍生的注意力图中提取的注意力分数来评估上下文依赖性,用人工标注数据集对RoBERTa模型进行微调。其目标是将n-NE token(非命名实体词汇)的注意力分数中前k%(例如0.3%)的n-NE token描述为关键字。然后将停用词、标点符号和其它的非前k%的n-NE的NE排除在关键字集之外,得到最终的关键字集。最终得到k个n-NE的关键字和E个实体token,然后为了构建模板,将非关键字用掩码令牌替换,然后消除连续的掩码令牌。其中为了保证稳健性,确保在单个token上不会有超过10%的注意力集中。
步骤S1,提取注意力图的过程中,采用了注意力机制模型,原始文本数据(语料库)首先被输入到一个注意力机制模型中,这个模型是预训练的RoBERTa模型会分析文本并输出一个注意力图,这个图显示了句子中各个词之间的相互关系和重要性。
举例:对于句子“tempers flared early on afterthe republican chairmanofthe canvassingboard announced in advance that it was impossible to meettomorrow's p.m.deadline”,模型会识别关键词,如“republican chairman”、“canvassingboard”和“deadline”。
步骤S2的关键在于动态掩蔽和复合嵌套标签序列化:在动态掩蔽阶段,根据注意力图,选择部分词汇进行掩蔽。掩蔽率是动态决定的,通常从一个预设的分布中进行随机采样。随后,根据掩蔽的词汇,使用复合嵌套标签分类器对文本进行序列化处理,生成标记了实体和关系的序列。
举例:可能会选择掩蔽“republican chairman”和“deadline”,然后按照实体类别标记它们,如“[ORG]republican chairman[ORG]”、“[TIME]deadline[TIME]”。
所述步骤S2的主要目标是对句子进行处理,将每个实体之前和之后添加标签标记,并将句子分为两部分,以更好地建模嵌套实体的语义结构。首先,在句子中的每个实体之前和之后添加标签标记。对包含嵌套标签的标签用外部实体对应的标签标记表示;嵌套标签采用内部嵌套实体对应的标签标记表示,这些标签标记用于指示命名实体的开始和结束位置,以及命名实体的类型。通过标签标记,模型可以准确地识别和定位嵌套实体,如图3所示。
然后对句子进行分割,将句子分为两部分。第一部分是目标句子模板,经过进一步的屏蔽处理,其中一部分关键字被动态屏蔽。流程图如4所示;第二部分是通过使用FUSION机制将目标句子与相似句子合并而得到的。这样的句子分割可以帮助模型更好地理解句子中的嵌套结构和语义关系。最后,在句子中引入复合嵌套标签分类结构,增强了对嵌套实体的建模能力。这种结构能够捕捉实体之间的层次关系和嵌套结构,使得模型能够更准确地识别和理解嵌套实体。
其中,复合嵌套标签分类方法:通过嵌套词和嵌套标签组合,以对嵌套实体进行建模处理。如图3和图4所示,复合嵌套标签分类(CNLC)方法通过在句子中添加标签标记并将句子分为两部分,既丰富了实体信息的表示,又增加了句子的上下文和语义背景。这种处理方式能够帮助模型更好地理解句子中的实体结构和语义关系,提高命名实体识别任务的准确性和泛化能力。
具体地,所述S2中,进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板,具体包括:
将目标句子和相似句子中的非关键字用掩码令牌替换,然后消除连续的掩码令牌;
进行CNLC序列线性化,将标签标记信息纳入微调和增强生成的过程;
在CNLC序列线性化后,通过对高斯分布ε的动态掩蔽率进行采样来启动此过程,也就是,在对CNLC处理模板进行序列线性化后,采取一种机制来动态决定哪些关键词将被掩蔽。这里的动态掩蔽率ε是从一个高斯分布中采样得到的,如同下列的公式:
其中,公式(2)指代的是高斯分布的概率密度函数,f(x)表示概率密度函数的值,μ表示分布的均值,σ表示分布的标准差,设置为1/K,x代表CNLC处理模板的关键字索引列表;
随后,根据掩码率ε从句子中的K个关键字集中随机选择token,用掩码token替换,然后剔除连续的掩码token,得到动态屏蔽选定关键字的目标句子模板,该步骤具备以下两个主要目的:(1)它允许创建不同的模板,从而生成更多样化的句子集并增强句子的多样性,(2)关键字和实体的各种组合激活了模型的生成能力;
通过使用FUSION机制将目标句子与相似句子合并而得到的新的组合句子模板c,形成全新的上下文丰富的句子。同样,c被输入到CNL模型中,允许模型重新生成句子。
掩码率ε是通过从高斯分布中进行采样来决定的,阈值是动态的,一般取0.5。此处的句子不是原始的目标句子,是在数据增强阶段,所使用的句子模板是由CNLC处理模板生成的。
本发明发现标签之间存在一定程度的相关性,于是提出了CNLC的处理模板,如同图3,CNLC先对输入序列进行线性化处理,然后在序列中插入标签令牌。这些标签令牌不仅在每个实体令牌的前后插入,而且还被视为句子中常规上下文的一部分。这为跨越多个词汇的命名实体提供了边界监督,具体如下:
1.序列线性化(Composite-Nested-Label Sequence Linearization):输入的句子通过这一步被转换成一个线性的标签序列。每个词汇都被分配了一个或多个标签,这些标标签代表了词汇的实体类型。例如,“Chinese”这个词被标记为FAC(设施)和GPE(地理政治实体)类型。这一步骤的关键在于能够表示嵌套实体关系,也就是一个词汇可以属于多个实体类别。
2.标签组合(Composite-Nested-Label):在处理模板中,实体标签被组合在一起,以表示嵌套结构。比如"FAC-GPE",它表示“Chinese”既是FAC类型也是GPE类型。这种组合标签允许模型能够处理并识别嵌套实体。
3.嵌套实体分类器(Composite-Nested Label Classifier):在这一步中,根据序列线性化的输出,分类器将识别并分类句子中的实体。它会根据上下文和实体间的关系来确定每个词汇的最终实体类别。
所述CNL模型包括双向编码器以及自然回归解码器。
所述步骤S3,CNL模型可以在保持原始文本意义的同时,生成变形或增强的文本版本。
举例:CNL模型可能会生成“the republican chairman of the canvassingboard made it clear well in advance that the evening deadline would notbefeasible”。
如图5所示,使用CNL模型生成增强数据样本的具体过程为:
1.Bi-directional Encoder:原始文本数据首先经过一个双向编码器进行处理,这个编码器能够捕捉句子中单词的上下文信息。这种编码器通常是一个双向的LSTM(长短期记忆网络)或者是BERT(双向编码器表示从Transformer)这样的模型,能够理解单词在前文和后文中的含义。
2.Auto-regressive Decoder:编码器的输出随后被送入一个自回归解码器。这个解码器是一个生成模型,能够一步一步地生成句子,每次生成一个词汇,同时考虑到已经生成的词汇。这样的解码器通常也基于LSTM或者Transformer模型,能够基于当前的上下文不断地预测下一个最可能的词汇。
3.Text Reconstruction and Sample Generation:在文本重建阶段,模型使用编码器和解码器生成的上下文信息来重建原始文本,并且在这个过程中引入了一些变化,从而生成新的文本样本。这些变化包括词汇的替换、插入或删除,以此来创建语义上相似但表面形式不同的新句子。
步骤S4:置信度过滤:生成的样本会经过一个置信度过滤机制,这一机制会评估每个生成的样本是否保持了原文的意义和语境的准确性。
举例:若生成的样本与原文意义相悖,如“the republican chairman will meetthe deadline”,则会被置信度过滤掉,因为它与原句意义不符。
步骤S4的目标是使用置信度过滤机制(CFM)对样本进行过滤,构建一个高置信度的Sliver数据集,最初,我们计算模型预测标签与原始句子的人为标注的标签相比的准确性。这会产生两个子集:“Sliver”样本和“none-Sliver”样本。由于“Sliver”类别仅包含标签匹配的句子,从而这些句子的伪对数似然分数(PLL)较低,因此,我们提出CFM来有效缓解上述问题。通过将生成的样本输入到模块中并根据PPL进行过滤,我们可以构建一个“高置信度Sliver”数据集,如图6所示。
在采集数据增强样本后,随后使用CFM对样本进行过滤。在样本过滤过程中,具有低PLL的句子被排除,高置信度的句子被保留为我们的最终Sliver数据集。当“高置信度Sliver”样本与原始训练集样本连接时,得到了一个丰富的NNER数据集。可以将增强数据作为其输入的一部分输入到Model M中。
通过步骤S4筛选后的增强样本被送入模型M进行训练,这有助于提高模型对不同表述方式的鲁棒性。
举例:模型M会使用过滤后的增强样本,比如“the republican chairman ofthecanvassing board made it clear well in advance that the evening deadlinewould notbe feasible”,来进行训练,以提高对实体和事件的识别能力。
本发明所述方法适用领域包括:
生物医学信息提取:在医学和生物领域,文本中包含了大量的生物学实体和关系,如基因、蛋白质、药物等。嵌套命名识别可以用于自动提取这些实体并建立它们之间的关联,从而支持药物研发、疾病诊断等方面的研究。
法律文本分析:在法律领域,文本数据中包含了法规、合同、案例等信息,嵌套命名识别可用于自动标识文件中的法律条款、当事人和关键日期,以支持法律研究和合规审查。
金融数据分析:金融领域的文本数据中包含了大量的金融实体和事件,如公司名称、股票代码、经济指标等。嵌套命名识别可用于自动提取这些信息,帮助投资者更好地理解市场动态。
科学文献挖掘:科学研究领域需要分析大量的科学文献,以识别关键概念、实验和发现。嵌套命名识别可以用于自动提取文献中的关键信息,加速研究过程。
智能助手和虚拟助手:虚拟助手和智能助手需要理解用户提出的问题或命令,并识别其中的实体,以提供准确的回应和支持。
本发明不仅在技术上领先,而且具有很强的泛化性,适用于其他模型并可以提供更有价值的样本。通过这些样本,可以提高模型的性能,缓解样本不平衡的问题。
另一方面,本发明提供一种面向嵌套命名实体识别的数据增强系统,包括面向嵌套命名实体识别的数据增强框架(Framework for Data Augmentation based onNestedNamed Entity Recognition,FDAN-NER),所述面向嵌套命名实体识别的数据增强框架具体包括:
注意力图提取模块,用于利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,并提取注意力图,确定与命名实体相关的关键字;
复合嵌套标签分类模块,用于使用复合嵌套标签分类方法对目标句子和相似句子进行处理,在每个命名实体之前和之后分别添加标签标记;进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板;
复合嵌套学习模块,用于基于目标句子模板以及合并后的模板,使用CNL模型生成增强数据样本;
置信度过滤模块,用于采用置信度过滤机制对生成的增强数据样本进行过滤,得到高置信度的Sliver数据集,与原始训练集样本连接,构建最终的训练数据集。
在FDAN-NER框架中,采用了多个步骤来生成并筛选增强数据,以作为模型的输入。首先,在微调RoBERTa模型的过程中,利用相似性过滤机制从语料库中获取相似的句子,并使用微调后的模型提取与命名实体(NEs)相关的重要关键词的注意力图。接着,使用复合嵌套标签分类(CNLC)方法对句子进行处理。在每个实体之前和之后添加标签标记,然后将句子分为两部分。原始句子模板经过进一步屏蔽,其中的一部分关键字被动态屏蔽,而另一部分则是通过使用FUSION机制将句子与相似的句子合并而得到的。之后,使用CNL模型生成增强数据。这个模型能够利用复合嵌套标签分类结构来生成具有丰富语义结构的句子,以更好地模拟嵌套实体。生成的样本在第四步中通过置信度过滤机制(CFM)进一步筛选,以获得高置信度的句子。只有通过置信度过滤的句子才会与人工标注的数据连接起来,以构建最终的训练数据集。
最后,将经过筛选和连接的最终数据作为模型M的输入。这些数据包含了通过相似性过滤、注意力图提取、复合嵌套标签分类和置信度过滤等步骤生成的高质量增强样本,可以用于训练NER模型。
整个流程中,每个模块的输出都直接连接作为下一个模块的输入,这样的设计保证了信息在整个处理链中的无缝传递和逐步精化,从而实现了高效且准确的嵌套实体识别的数据增强。
本发明构建的面向嵌套命名实体识别的数据增强框架,基于标签的相关性,使用复合嵌套标签分类方法结合了嵌套标签和嵌套词去处理嵌套实体。并且使用数据增强技术和置信度过滤机制去筛选出高质量的可用数据,此发明构建的数据样本可以适用于其他模型,从而提升模型的性能并且缓解样本不平衡的问题。可以作为嵌套命名实体识别任务的一种新的数据增强方法。
实施例:
使用FDAN-NER对数据集ACE2004进行数据增强:FDAN-FER的表现在跨度级精度(Pr.)达到了次优得分87.12,比PromptNER方法提升了0.21的得分。在召回率(Rec.)和F1-Score达到了最优的得分88.27和87.29,比之前最优的方法PromptNER分别提升了0.60和0.40的得分,达到了目前的最先进水平。
使用FDAN-NER对数据集ACE2005进行数据增强:FDAN-NER的表现在跨度级精度(Pr.)和召回率(Rec.)以及F1-Score都达到了最优的得分85.93、88.60和87.25。比之前最优的方法PromptNER分别提升了0.71、0.57和0.65的得分,达到了目前的最先进水平。
实验数据集:
所采用的数据集如表1。使用的数据集为ACE2004和ACE2005。在数据增强阶段,由于没有考虑过于复杂的情况,因此在对ACE2004和ACE2005数据集进行标签过滤时排除了单个标记具有三个以上嵌套标签的句子。进行数据增强后,将增强后的语料库与原始训练数据连接起来,得到一个全新的数据集。
表1.ACE2004和ACE2005的数据统计表
其中的#代表数据的统计信息,*表示Sliver数据的统计数据。我们报告了两个数据集上的句子数量(#S,*S)、包含嵌套实体的句子数量(#NS,*NS)、实体数量(#E,*E)和嵌套实体数量(#NE,*NE)。
实验设置:
在FDAN-NER的注意力选择模块采用了带有附加线性头的XLM-RoBERTa-large模型,并且将任务视为令牌级的分类,然后使用BIO的标记方法。在实验过程中,优化器使用Adam,设置固定学习率为le-2,训练批量大小设置为8,总共训练了100个epoch,注意力掩码率设置为0.3。此外,我们使用配备条件生成头的mBart-50-large模型去增强FDAN-NER的性能。FDAN-NER的微调过程中,训练了8个epoch,优化器使用Adam,学习率为1e-5。数据集ACE2004批量大小设置为16,数据集ACE2005批量大小设置为8。在FUSION模块中,注意力掩码率设置为0.3。
实验评估指标:
本实验使用跨度级精度(Pr.)、召回率(Rec.)和F1-Score作为嵌套实体识别的数据增强任务的评估指标。跨度级精度(span-level precision)是指在命名实体识别任务中,模型正确预测的实体跨度数量与模型预测的实体跨度总数之比。召回率(recall)是指在命名实体识别任务中,模型正确预测的实体跨度数量与数据集中实际存在的实体跨度总数之比。F1-Score是精度和召回率的调和平均值,它是评估模型性能的综合指标。
基线方法:
本实验选择6种最近的具有竞争性的模型作为基线方法。其中,PromptNER被选为实验的模型M,我们的方法基于PromptNER进行改进。其余五种模型包含基于解析的、基于生成的、基于span的和提示引导的模型,如下:
Biaffine:一种基于双向自注意力机制的序列标注模型,它可以同时考虑上下文信息和实体之间的关系,从而提高命名实体识别的准确率。
BARTNER:一种基于BART模型的序列到序列模型,它可以将命名实体识别任务转化为序列生成问题,并使用指针网络来解决实体跨度不确定的问题。
UIE:一种基于无监督迭代训练的序列标注模型,它可以自动学习实体之间的关系。
BuParser:一种基于双向LSTM和条件随机场的序列标注模型,它可以同时考虑上下文信息和实体之间的关系。
ERPG:一种基于图神经网络的序列标注模型,它可以将实体之间的关系建模为图结构,并使用图卷积网络来提取特征,从而提高命名实体识别的准确率。
表2列出了本发明的性能,以及六种基线方法进行比较。
结果表明,该方法优于比较方法,FDAN-FER在数据集ACE2004进行数据增强的表现在跨度级精度(Pr.)达到了次优得分87.12,比PromptNER方法提升了0.21的得分。在召回率(Rec.)和F1-Score达到了最优的得分88.27和87.29,比之前最优的方法PromptNER分别提升了0.60和0.40的得分,达到了目前的最先进水平。使用FDAN-NER在数据集ACE2005进行数据增强的表现在跨度级精度(Pr.)和召回率(Rec.)以及F1-Score都达到了最优的得分85.93、88.60和87.25。比之前最优的方法PromptNER分别提升了0.71、0.57和0.65的得分,达到了目前的最先进水平。
表2.标准嵌套实体识别结果
消融实验:
在增强数据后,生成的新的Sliver数据集存在重复的简单单词和短语的句子,这些句子由于缺乏连贯性,参考价值较低。对于这些低置信度样本,我们引入了CFM来为样本分配置信度分数。因此,为了探讨Sliver样品比例的占比对样本采样的影响,去探寻最优的样本。我们分别使用了50%、60%、70%、75%的占比在数据集ACE2004中进行实验,我们使用模型M对其进行测试,获得不同比例的F-micro和F-macro分数。实验结果如图7所示。
为了探讨标签之间相关性的问题,我们设置了如下的实验。其中,Outside表示包含嵌套标签,Inside表示嵌套标签,实验结果如表3所示:
表3.标签相关性分析
可以看出“PER”标签与“PER”标签和“ORG”标签高度相关。同时,在某些情况下,某些标签几乎没有相关性,因此我们可以推断标签之间存在一定程度的相关性。并且从表1中可以看出,数据集的分布倾向于表现出对前几个类别的偏向,导致模型过度倾向于多数类别。为了增强模型在不同类别之间的平衡且在一定程度上缓解样本不平衡的问题。通过表4中的数据增强方法,我们适当地扩展了一些代表性不足的标签,在数据集ACE2004和ACE2005上进行实验,其中ACE2004和ACE2005的实验结果是模型M得出的结果,ACE2004*和ACE2005*的实验结果是FDAN-NER的方法得出的结果,实验结果如表4所示。
表4.样本不平衡性查询结果
从实验结果可知,FDAN-NER的方法在ACE2004和ACE2005两个数据集上的F-macro的得分相较于模型PromptNER分别提升了0.61和1.31,说明FDAN-NER框架在处理不同类别的样本时表现更加平衡和稳定。
本发明还提供一种电子设备,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述面向嵌套命名实体识别的数据增强方法。
处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明还提供一种计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上述面向嵌套命名实体识别的数据增强方法。
任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成面向嵌套命名实体识别的数据增强方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种面向嵌套命名实体识别的数据增强方法,其特征在于,包括以下步骤:
S1,利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,并提取注意力图,确定与命名实体相关的关键字;
S2,使用复合嵌套标签分类方法对目标句子和相似句子进行处理,在每个命名实体之前和之后分别添加标签标记;进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板;
S3,基于目标句子模板以及合并后的模板,使用CNL模型生成增强数据样本;
S4,采用置信度过滤机制对生成的增强数据样本进行过滤,得到高置信度的Sliver数据集,与原始训练集样本连接,构建最终的训练数据集。
2.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法,其特征在于,所述S1中,利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,具体包括:
遍历原始训练集样本的语料库中所有句子,使用多语言Sentence-BERT提取每个句子的嵌入,使用以下方法计算语义相似度:
其中,sim(·)代表两个嵌入的余弦相似度,Sa表示目标句子a的嵌入,Sb表示任一候选句子b的嵌入,a、b∈N,其中a≠b且N是原始训练集样本的大小;
基于语义相似度进行排序,确定与目标句子a相似度最高的前n个候选句子,作为相似句子。
3.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法,其特征在于,所述S1中,提取注意力图,确定与命名实体相关的关键字,具体包括:
利用RoBERTa模型提取的注意力图中提取的注意力分数来评估上下文依赖性;
将无命名实体的注意力分数排序中前k%的无命名实体描述为关键字;
将停用词、标点符号和其它的非前k%的无命名实体排除在关键字之外,得到最终的关键字集合。
4.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法,其特征在于,所述S2中,在每个命名实体之前和之后分别添加标签标记,具体包括:
对包含嵌套标签的标签用外部实体对应的标签标记表示;嵌套标签采用内部嵌套实体对应的标签标记表示,这些标签标记用于指示命名实体的开始和结束位置,以及命名实体的类型。
5.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法,其特征在于,所述S2中,进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板,具体包括:
将目标句子和相似句子中的非关键字用掩码令牌替换,然后消除连续的掩码令牌;
进行CNLC序列线性化,将标签标记信息纳入微调和增强生成的过程;
在CNLC序列线性化后,通过对高斯分布ε的动态掩蔽率进行采样:
其中,公式(2)指代的是高斯分布的概率密度函数,f(x)表示概率密度函数的值,μ表示分布的均值,σ表示分布的标准差,σ设置为1/K,x代表CNLC处理模板的关键字索引列表;
将目标句子和相似句子分为两部分,其中一部分,目标句子的选定关键字被动态屏蔽,而另一部分则是通过使用FUSION机制将目标句子与相似句子合并而得到的。
6.根据权利要求1所述的面向嵌套命名实体识别的数据增强方法,其特征在于,所述CNL模型包括双向编码器以及自然回归解码器。
7.一种面向嵌套命名实体识别的数据增强系统,其特征在于,包括面向嵌套命名实体识别的数据增强框架,所述面向嵌套命名实体识别的数据增强框架具体包括:
注意力图提取模块,用于利用相似性过滤机制从原始训练集样本的语料库中获取目标句子的相似句子,并提取注意力图,确定与命名实体相关的关键字;
复合嵌套标签分类模块,用于使用复合嵌套标签分类方法对目标句子和相似句子进行处理,在每个命名实体之前和之后分别添加标签标记;进行句子分割,得到动态屏蔽选定关键字的目标句子模板以及使用FUSION机制将目标句子与相似句子合并后的模板;
复合嵌套学习模块,用于基于目标句子模板以及合并后的模板,使用CNL模型生成增强数据样本;
置信度过滤模块,用于采用置信度过滤机制对生成的增强数据样本进行过滤,得到高置信度的Sliver数据集,与原始训练集样本连接,构建最终的训练数据集。
8.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述面向嵌套命名实体识别的数据增强方法。
9.一种计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至6任一项所述面向嵌套命名实体识别的数据增强方法。
CN202410226655.4A 2024-02-29 2024-02-29 面向嵌套命名实体识别的数据增强方法、系统及存储介质 Pending CN117973388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410226655.4A CN117973388A (zh) 2024-02-29 2024-02-29 面向嵌套命名实体识别的数据增强方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410226655.4A CN117973388A (zh) 2024-02-29 2024-02-29 面向嵌套命名实体识别的数据增强方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN117973388A true CN117973388A (zh) 2024-05-03

Family

ID=90859428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410226655.4A Pending CN117973388A (zh) 2024-02-29 2024-02-29 面向嵌套命名实体识别的数据增强方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN117973388A (zh)

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
CN110298033B (zh) 关键词语料标注训练提取系统
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
US11551151B2 (en) Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
EP3968244A1 (en) Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
CN110889275A (zh) 一种基于深度语义理解的信息抽取方法
EP3965024A1 (en) Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN116894495A (zh) 用注释增强机器学习管道的方法、计算机可读介质和系统
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN117973388A (zh) 面向嵌套命名实体识别的数据增强方法、系统及存储介质
CN113688242A (zh) 一种通过网络搜索结果的文本分类来分类医学术语的方法
Bruchansky Political footprints: Political discourse analysis using pre-trained word vectors
Ekbal et al. Rapid adaptation of ne resolvers for humanities domains using active annotation
Worke INFORMATION EXTRACTION MODEL FROM GE’EZ TEXTS
US11392358B1 (en) Machine learning pipeline skeleton instantiation
CN118503454B (zh) 一种数据查询方法、设备、存储介质及计算机程序产品
US20220269982A1 (en) Machine learning pipeline skeleton instantiation
US20220269981A1 (en) Machine learning pipeline skeleton instantiation
Kuparinen et al. Corpus-based dialectometry with topic models
Rafi et al. Optimizing abstractive summarization with fine-tuned PEGASUS
CN118838993A (zh) 一种用于构建关键词库的方法及其相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination