CN114676700A - 基于混合多原型的小样本命名实体识别方法 - Google Patents
基于混合多原型的小样本命名实体识别方法 Download PDFInfo
- Publication number
- CN114676700A CN114676700A CN202210269420.4A CN202210269420A CN114676700A CN 114676700 A CN114676700 A CN 114676700A CN 202210269420 A CN202210269420 A CN 202210269420A CN 114676700 A CN114676700 A CN 114676700A
- Authority
- CN
- China
- Prior art keywords
- prototype
- class
- entity
- embedding
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于混合多原型的小样本命名实体识别方法,包括以下步骤:从训练和测试数据集中采样片段,片段包括支持集和查询集;对于支持集,采用实体标签扩充序列,以丰富句子的语义;使用编码器来嵌入支持集和查询集中的序列,产生具有上下文信息的符号和标签嵌入;基于具有上下文信息的符号和标签嵌入,生成所有类的混合多原型表示;根据符号与混合多原型类表示的距离来预测查询集中词的标签。本发明方法提出了一种新的多原型类表示策略,以减少潜在的表示偏差,提高单原型方法的表达能力;设计了一种混合策略来构造实体类和非实体类的多原型,由此使得本发明识别效果非常高。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及基于混合多原型的小样本命名实体识别方法。
背景技术
命名实体识别(Named entity recognition,NER)是信息抽取的基本任务之一,它从非结构化文本序列中定位文本区间,并将这些文本区间用预定义的实体类(如Film和Person)或非实体类(如Outside,也简称为O)进行分类(Tjong Kim Sang and De Meulder2003)。在监督学习的设定下,有一系列的方法,特别是基于深度神经网络的方法,能够很好地处理NER任务。然而,训练这些监督学习模型的前提是大量的人工标注数据,这些数据的获取既费时又费力。因此,如何在只有少量标记样本作为参考的情况下,增强从大量内容中识别从未见过的实体的能力,也称为小样本学习,是需要研究的关键问题。
近年来越来越多的研究对小样本NER任务做出了贡献。这些研究将NER视为一个序列标记问题,限制(句子中的)每个词最多属于一个类,并使用基于度量的元学习来解决它(Huang et al.2020)。其中,一个具有代表性的研究(Fritzler,Logacheva,and Kretov2019)(又称ProtoNER)提出使用支持示例为每个类构造一个原型(Prototype)并以此来表示对应的类。然后,给定查询,根据它们与类原型的距离,使用最近邻搜索预测它们的标签(即类)。
然而,ProtoNER有两个值得注意的问题:(1)ProtoNER只为每个类构建单个原型,这些原型表示为该类中所有词的平均嵌入,其表达能力有限,甚至存在偏差。(2)非实体类O包含具有不相关(甚至不一致)含义的词,因此词嵌入的平均值可能导致O类的原型表示存在大量噪音。
另外,在现有技术的小样本NER实验设定中,N-way K-shot片段式采样策略存在一个不能忽视的问题(Hou et al.2020;Yang and Katiyar 2020;Ding et al.2021;Tong etal.2021)。那就是,为了保持NER任务中上下文的完整性,进行了句子级的抽样,而这种抽样策略很难准确地满足Nway K-shot的约束。因此,放松了对K的限制,只要求每个实体类的最终示例数(K*)大于K,但这中策略会为每一类提供更多的示例(K*>K),这无形中降低了这个任务的难度。这又会导致评价结果的虚高。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了基于混合多原型的小样本命名实体识别方法。所述方法对于实体类,不是使用单个原型来表示类中的所有实体区间,而是为每个文本区间构建实体级和标签级原型,从而产生类的多原型表示。具体地说,通过在支持集的句子中插入标签来更好地利用标签信息,从而使词和标签嵌入可以通过更多的上下文信息来学习。然后对每个实体,取带有上下文信息的词嵌入的平均来表示其实体级原型,而具有上下文信息的标签嵌入则被视为实体的标签级原型。一个类中所有实体的原型集合构成了这个实体类的多原型。对于非实体类,直接使用词嵌入集合来表示它,其中多原型指的是多个词嵌入。通过区别对待实体类和非实体类的混合多原型策略,可以从支持示例中提取更精确的类表示,从而促进查询集中的推断。
本发明的技术方案如下,基于混合多原型的小样本命名实体识别方法,包括以下步骤:
步骤1,从训练和测试数据集中采样片段,片段包括支持集和查询集;
步骤2,对于支持集,采用实体标签扩充序列,以丰富句子的语义;
步骤3,使用编码器来嵌入支持集和查询集中的序列,产生具有上下文信息的符号和标签嵌入;
步骤4,基于具有上下文信息的符号和标签嵌入,生成所有类的混合多原型表示;
步骤5,根据符号与混合多原型类表示的距离来预测查询集中词的标签。
步骤2中,给定支持集(x,y),扩充后的序列表示为x'={x1,x2,y1,…,xn,yk},包括n个符号和k个插入的标签,步骤3中编码器编码后的具有上下文信息的符号和标签嵌入表示为:fθ(·)表示编码器,表示嵌入。
步骤4中所述的所有类包括实体类和非实体类,实体类的多原型表示为c:其中,e表示实体,εc表示支持集中被标注为c的实体,ee表示实体级原型,为实体e的符号{x1,x2,…,x|e|}的具有上下文信息的嵌入的平均,le表示标签级原型,为实体e的标签ye的具有上下文信息的嵌入;非实体类的多原型表示使用符号嵌入来表示类,令O={x1,x2,…,xo}是支持集中被标注为o的符号,则类o的多原型表示为:
其中,mindis表示符号嵌入与这个类的多原型表示之间的最小距离,cj表示第j个类的多原型。
在训练阶段,使用负对数似然损失来更新编码器中参数:
步骤1中所述的采样的过程表述为:给定一个具有M类的集合C+是全部实体类,数据集D,M和K,采样支持集S;具体采样的步骤为:对(x,y)∈D进行随机迭代采样,直到满足以下条件:被标注为c的实体数量在[K,2K]内,接下来,按照以下条件删除支持集S中的(x,y)对:任何类的实体不会因为从S中删除(x,y)而小于K;最后,当S中的(x,y)不能被删除时,结束采样。
对于每个类,仅在α个实体区间之后插入标签,α为预设值。
与现有方法相比,本发明方法的优点在于:提出了一种称为混合多原型的类表示方法。具体来说,对于实体类,为实体跨度构建实体级和标签级的原型,从而产生类的多原型表示,而对于非实体类,直接使用词嵌入集合来表示它,这种情况下多原型指的是多个词嵌入。此外,通过提供严格的采样策略,建立了更严格、更合理的小样本NER实验设定,使得本发明方法的命名识别达到了非常好的性能。
附图说明
图1示出了本发明实施例的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本实施例中,遵循以往研究的设定,将NER表述为一个序列标记问题。因此,原NER问题中的句子可以看作是符号序列。形式上的,给定一个符号序列x={x1,x2,…,xn},xi∈χ,i∈[1,n],其中χ是所有符号的集合。序列标记分类模型将标签yi∈C赋给xi,生成y={y1,y2,…,yn},其中C是预定义类的集合。相应地,(x,y)表示一个句子及其标签序列。值得注意的是,C可以拆分为实体类C+(例如,Film,Person)和非实体类Outside(简称为O)的集合。一个实体是一个序列中属于同一个实体类的符号区间,而一个实体的标签就是它对应的实体类。
本实施例中使用常见的迭代的N-way K-shot片段式小样本NER训练范式。给定类集合ci∈C+,数据集D(所有(x,y)),在训练的每一步中采样一个片段(Strain和Qtrain)来训练模型,具体来说,是查询集,其中Strain∩Qtrain,需要注意的是,在Strain中,对于任意类ci,标记为ci的实体书必须等于K。模型Strain作为参考,使用Qtrain进行训练,训练过程中获取到Strain和Qtrain中所有信息,在测试阶段,Stest和Qtest按照训练阶段的方式被构造,但需要保证训练阶段的类集合与测试阶段的不相交。小样本NER的最终目标是在给定x∈Qtest的情况下使用训练好的模型和Stest预测y。
为了使评价条件更接近原始的N-way K-shot设定,本实施例提出了一种严格的抽样算法,使最终示例数K*的平均值更加接近设定K。给定一个具有M类的集合C+是全部实体类,数据集D,M和K,采样支持集S;具体采样的步骤为:对(x,y)∈D进行随机迭代采样,直到满足以下条件:被标注为c的实体数量在[K,2K]内,接下来,按照以下条件删除支持集S中的(x,y)对:任何类的实体不会因为从S中删除(x,y)而小于K;最后,当S中的(x,y)不能被删除时,结束采样。这样的抽样策略可以防止不平衡的类分布引起的采样波动,并提供一个更接近原始N-way K-shot设定的评估条件。这是因为采用了上限2K,以避免在一些常见类中采样太多的实体。更重要的是,通过删除多余的示例进一步优化了采样结果,使每个类的平均实体数尽可能接近设定K。这种抽样方法比现有抽样策略更合理、更现实,能够降低以往模型的性能虚高,并提供更公平的评估条件。
本实施例中的技术方案,如图1所示,基于混合多原型的小样本命名实体识别方法,包括以下步骤:
步骤1,从训练和测试数据集中采样片段,片段包括支持集和查询集;
步骤2,对于支持集,采用实体标签扩充序列,以丰富句子的语义;
步骤3,使用编码器来嵌入支持集和查询集中的序列,产生具有上下文信息的符号和标签嵌入;
步骤4,基于具有上下文信息的符号和标签嵌入,生成所有类的混合多原型表示;
步骤5,根据符号与混合多原型类表示的距离来预测查询集中词的标签。
序列扩充和嵌入
首先,我们提出将实体标签插入到支持集中的原始序列中,以获得扩充后的序列。这是因为标签可以丰富句子语义,并帮助学习更精确的词的语义嵌入。例如,在序列扩充之前符号Titanic既可以指船,也可以指电影,而用Film这个标签来丰富句子,语义就更加清晰了。具体来说,对于每个类,我们只在α个实体区间之后插入标签。这是因为插入太多的类标签可能会损害句子的原始含义。
形式上,给定支持集的(x,y),我们将扩充后的序列表示为x'={x1,x2,y1,…,xn,yk},包括n个符号和k个插入的标签。通过利用标签信息来指导符号的嵌入学习,从而更好地利用标签信息。
接下来,我们将扩展的序列集输入到一个编码器,即BERT(Devlin et al.2019),以获得符号和标签的具有上下文信息的嵌入。具体来说,扩充后的序列集的具有上下文信息的嵌入为:其中fθ(·)是编码器,表示嵌入。
混合多原型表示
给定上下文嵌入,目标是使用支持集为类生成混合多原型表示。我们使用混合来强调,我们根据实体类和非实体类的具体特征,分别设计了不同的处理方法。实体类的多原型.给定一个实体类c∈C+,我们使用εc来表示支持集中被标注为c的实体。对于每一个实体e∈εc,我们将实体级原型ee表示为其符号{x1,x2,…,x|e|}的具有上下文信息的嵌入的平均,将标签级原型le表示为其标签ye的具有上下文信息的嵌入。因此,实体类中所有实体的实体级和标签级原型构成了这个实体类的多原型表示
多原型可以减少潜在的表示偏差,提高单原型方法的表达能力。通过对实体级原型的计算,解决了实体中单个符号难以表示对应类的问题,并获得了一个特定的类表示。同时,利用标签级原型提高了模型的泛化能力和表达能力,因为标签中包含的类的通用信息。仅用几个例子很难完全代表类,因此单一原型可能会偏向大多数相似实体。幸运的是,多原型表示方法可以保留少数实体的表示。
非实体类的多原型:对于非实体类o,使用符号嵌入来表示类,其中多原型指的是多个符号嵌入。令O={x1,x2,…,xo}是支持集中被标注为o的符号。那么类o的多原型表示为多个符号嵌入缓解了单一原型无法表示类o中的没有统一含义的符号的问题。
预测
给定查询序列和它们的符号嵌入为了预测符号的标签,我们首先计算它属于每个类别的概率,然后把概率最高的类别赋值给具体来说,符号属于类c的概率计算如下:其中mindis表示符号嵌入与这个类的多原型表示之间的最小距离。在本实施例中,采用欧几里得距离的平方来度量距离。mindis越低,概率越高。此外,标签预测是一个连续的过程,标签相关性会影响预测结果。例如,标签Education出现在标签Airport后面的概率较低。因此,本实施例遵循(Yang and Katiyar 2020),采用额外的无需训练的维特比解码器来处理标签之间的依赖关系,以做出更准确的预测。
本实施例使用三个数据集Few-NERD(包含Few-NERD(INTER)和Few-NERD(INTRA))(Ding et al.2021),WNUT(Derczynski et al.2017)和re3d(Science and Laborator2017)来验证本发明方法。我们使用片段式评估对模型进行了测试。片段式评估是在小样本学习中广泛采用的评估方法,我们采用严格的采样策略来生成片段中的支持集和查询集。我们采样15000个片段用于训练,5000个片段用于测试。注意,训练和测试数据的类集是不相交的。此外,由于Few-NERD的类有两个层次结构,我们在INTER中使用粗粒度和细粒度标签,而在INTRA中只使用细粒度标签,来计算标签级原型。也就是说,我们在INTER上为每个实体计算两个标签级原型。对于WNUT和re3d,我们只使用这些数据集的测试集来评估我们的模型。我们采用uncased BERT-Base作为我们的主干来获取序列的上下文表示,并采用(Ding et al.2021)记录的最佳超参数值。我们使用PyTorch来实现模型,所有的模型都可以适用于带有32G内存的V100 GPU。每个设定下的训练持续数小时。我们将超参数α设置为2,所有的实验都采用不同的随机种子重复5次,计算精度(P)、召回率(R)和micro F1的均值和标准差。我们记录了所有实验的F1,并根据之前的研究设定选择性记录P和R。
基线在我们的实验中使用了五个具有竞争力的模型。ProtoNER(Fritzler,Logacheva,and Kretov 2019)使用Prototype Network为每个类计算原型,并根据与原型的相似性对符号进行分类。LTC(Hou etal.2020)使用标签表示来改进原型质量,并考虑标签依赖关系。NNShot(Yang and Katiyar 2020)直接使用符号之间的相似性对查询进行分类。Struct(Yangand Katiyar 2020)用维特比解码器对NNShot进行改进,以获得最可能的标签序列。MUCO(Tong et al.2021)利用组分类器从类O中挖掘未定义类,提高分类器的识别能力。可以观察到,本发明方法在所有评估设定下一贯优于最先进的模型。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (8)
1.基于混合多原型的小样本命名实体识别方法,其特征在于,包括以下步骤:
步骤1,从训练和测试数据集中采样片段,片段包括支持集和查询集;
步骤2,对于支持集,采用实体标签扩充序列,以丰富句子的语义;
步骤3,使用编码器来嵌入支持集和查询集中的序列,产生具有上下文信息的符号和标签嵌入;
步骤4,基于具有上下文信息的符号和标签嵌入,生成所有类的混合多原型表示;
步骤5,根据符号与混合多原型类表示的距离来预测查询集中词的标签。
7.根据权利要求1所述的基于混合多原型的小样本命名实体识别方法,其特征在于,对于每个类,仅在α个实体区间之后插入标签,α为预设值。
8.根据权利要求2所述的基于混合多原型的小样本命名实体识别方法,其特征在于,所述的编码器为BERT编码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269420.4A CN114676700A (zh) | 2022-03-18 | 2022-03-18 | 基于混合多原型的小样本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269420.4A CN114676700A (zh) | 2022-03-18 | 2022-03-18 | 基于混合多原型的小样本命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114676700A true CN114676700A (zh) | 2022-06-28 |
Family
ID=82075022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210269420.4A Pending CN114676700A (zh) | 2022-03-18 | 2022-03-18 | 基于混合多原型的小样本命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114676700A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432656A (zh) * | 2023-06-13 | 2023-07-14 | 河海大学 | 面向大坝应急响应的小样本命名实体识别方法 |
CN117114004A (zh) * | 2023-10-25 | 2023-11-24 | 江西师范大学 | 一种基于门控纠偏的少样本两阶段命名实体识别方法 |
-
2022
- 2022-03-18 CN CN202210269420.4A patent/CN114676700A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432656A (zh) * | 2023-06-13 | 2023-07-14 | 河海大学 | 面向大坝应急响应的小样本命名实体识别方法 |
CN116432656B (zh) * | 2023-06-13 | 2023-08-29 | 河海大学 | 面向大坝应急响应的小样本命名实体识别方法 |
CN117114004A (zh) * | 2023-10-25 | 2023-11-24 | 江西师范大学 | 一种基于门控纠偏的少样本两阶段命名实体识别方法 |
CN117114004B (zh) * | 2023-10-25 | 2024-01-16 | 江西师范大学 | 一种基于门控纠偏的少样本两阶段命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
Mysore et al. | Automatically extracting action graphs from materials science synthesis procedures | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN114676700A (zh) | 基于混合多原型的小样本命名实体识别方法 | |
Paul et al. | Lesicin: A heterogeneous graph-based approach for automatic legal statute identification from indian legal documents | |
CN113434858B (zh) | 基于反汇编代码结构和语义特征的恶意软件家族分类方法 | |
JP7303195B2 (ja) | 対象領域およびクライアント固有のアプリケーション・プログラム・インタフェース推奨の促進 | |
CN113254934B (zh) | 基于图匹配网络的二进制代码相似性检测方法及系统 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN115292520B (zh) | 一种面向多源移动应用知识图谱构建方法 | |
CN116149669B (zh) | 一种基于二进制文件的软件成分分析方法、装置以及介质 | |
Meng et al. | [Retracted] A Deep Learning Approach for a Source Code Detection Model Using Self‐Attention | |
Guo et al. | Loglg: Weakly supervised log anomaly detection via log-event graph construction | |
Yuan et al. | DeCban: prediction of circRNA-RBP interaction sites by using double embeddings and cross-branch attention networks | |
Lazreg et al. | Combining a context aware neural network with a denoising autoencoder for measuring string similarities | |
Mao et al. | Explainable software vulnerability detection based on attention-based bidirectional recurrent neural networks | |
Li et al. | Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
Liu | Automatic argumentative-zoning using word2vec | |
CN116595189A (zh) | 基于两阶段的零样本关系三元组抽取方法及系统 | |
CN116882402A (zh) | 基于多任务的电力营销小样本命名实体识别方法 | |
CN113986345B (zh) | 一种预训练增强的代码克隆检测方法 | |
Sondhi et al. | A constrained hidden Markov model approach for non-explicit citation context extraction | |
Liu et al. | Exploring segment representations for neural semi-Markov conditional random fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |