CN116882413A - 一种中文实体识别方法、装置及设备 - Google Patents
一种中文实体识别方法、装置及设备 Download PDFInfo
- Publication number
- CN116882413A CN116882413A CN202310862618.8A CN202310862618A CN116882413A CN 116882413 A CN116882413 A CN 116882413A CN 202310862618 A CN202310862618 A CN 202310862618A CN 116882413 A CN116882413 A CN 116882413A
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- model
- tag
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000012512 characterization method Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 24
- 230000000873 masking effect Effects 0.000 claims description 45
- 230000007246 mechanism Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 239000012633 leachable Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013265 extended release Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种中文实体识别方法、装置及设备,所述方法包括:基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本;获得关于实体标签的领域扩展释义;将原始样本、增强样本及领域扩展释义输入至识别模型进行训练,并基于识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导识别模型学习并生成包含实体标签的语义信息的样本表征;基于样本表征及预设的调节因子对识别模型的训练损失进行调整,使识别模型对易分辨实体类型和难分辨实体类型的损失权重具有自适应调优功能;基于训练后的识别模型执行中文实体识别任务。本发明的方法能够使识别模型支持低资源训练,且能够学习标签语义信息,提升识别精度。
Description
技术领域
本发明实施例涉及命名实体识别技术领域,特别涉及一种中文实体识别方法、装置及设备。
背景技术
对于当前主流的基于深度学习的命名实体识别模型而言如要实现良好的性能效果,需大量的来自领域内的高质量标注数据来对模型进行训练。然而面向一些低资源的领域或者语言,这种高质量的标注数据获取困难,其不仅依赖丰富的领域内知识、专家经验指导等,而且人工标注成本高昂,这些方法会由于无法充分学习隐藏的特征表示而出现性能显著下降的情况。数据增强是解决低资源问题直接有效的方法之一,其核心思想是对给定的数据进行删除、替换、插入、回译等操作从而进行样本扩增。
近年来,数据增强方法成功应用在许多自然语言处理任务上,比如句子分类、机器翻译、对话生成等任务。这些任务在数据增强时,删除、替换、插入、回译等操作不会改变其句子语义层面的原始标签。对于命名实体识别任务而言,则需要对序列样本中每一个字符的标签进行预测,但传统的数据增强操作可能会破坏字符级别的语义导致模型无法准确预测。此外,回译或者生成式的数据增强方法在应用于命名实体识别此类字符级别的任务时,往往会出现实体标签不对齐的问题,无法达到理想效果。有些方法提出利用标签名称中的语义信息作为输入模型的额外信号和先验知识,也有些方法提出引入实体标注的细粒度类型信息可以作为辅助增强,这有助于模型理解文本语义。但现有的细粒度标注数据集绝大部分都是英文的,尽管有少部分其他语言的相关标注数据集,其规模无法和英文的相媲美。而且,这些方法在如何有效利用标签语义信息的问题上,通常将标签语义嵌入和样本原始嵌入进行简单拼接。这种方式虽然简单直接,但并不能很好地起到引导模型学习的作用,而且会增加训练输入的样本长度。此外,低资源场景下的实体识别样本更容易出现类别分布不均匀,即长尾分布问题,将导致模型无法准确学习到那些出现频率低的样本信息,进而无法更准确地对中文实体边界进行识别。
发明内容
本发明实际解决的技术问题为提供一种能够在低资源环境下有效扩充训练数据,并具有标签语义分析能力,以结合标签语义信息进行高精度的中文实体识别的中文实体识别方法、装置及设备。
为了解决上述问题,本发明提供了一种中文实体识别方法,包括:
基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,所述原始样本中具有第一实体,所述第二实体与第一实体不同;
获得关于所述实体标签的领域扩展释义;
将所述原始样本、增强样本及领域扩展释义输入至识别模型进行训练,并基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征;
基于所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,使所述识别模型对易分辨实体类型和难分辨实体类型的损失权重具有自适应调优功能;
基于训练后的所述识别模型对待测文本进行中文实体识别。
作为一可选实施例,还包括:
在所述原始样本中线性嵌入与第一实体对应的实体标签,并对所述原始样本中的第一实体进行掩蔽;
所述基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,包括:
将包含所述实体标签且掩蔽了第一实体的原始样本输入至所述掩蔽实体生成语言模型中,使所述掩蔽实体生成语言模型基于输入的原始样本而对应生成第二实体,并将所述第二实体嵌入至所述原始样本中被掩蔽的第一实体处,进而形成所述增强样本。
作为一可选实施例,所述使所述掩蔽实体生成语言模型基于输入的原始样本而对应生成包含所述第二实体的增强样本,包括:
所述掩蔽实体生成语言模型基于所述原始样本中未掩蔽的文本数据及线性嵌入的实体标签的语义信息进行分析,并基于分析结果预测生成与所述第一实体同类别的第二实体;
所述掩蔽实体生成语言模型基于所述第二实体及输入的原始样本处理形成所述增强样本。
作为一可选实施例,所述标签语义融合模块具有共享参数的孪生编码器,用于分别对样本数据和标签扩展释义进行处理,以提取出所述样本数据及标签扩展释义的隐藏层特征。
作为一可选实施例,所述基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征,包括:
基于所述标签语义融合模块中的孪生编码器处理所述输入数据得到分别对应所述样本数据及标签扩展释义的隐藏层特征;
对所述样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含所述实体标签的语义信息的样本表征。
作为一可选实施例,所述对所述样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含所述实体标签的语义信息的样本表征,包括:
以所述标签扩展释义的隐藏层特征作为交叉注意力机制的查询状态,并以所述样本数据的隐藏层特征HX作为交叉注意力机制的键、值状态,结合下述公式生成加权后的样本表征C'j:
其中,d为模型维度,WQ,WK,WV均为可学习参数;
将所述加权后的样本表征作为交叉注意力机制的键、值状态,HX为查询状态,再次执行注意力机制,得到包含所述实体标签的语义信息的样本表征。
作为一可选实施例,所述基于所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,包括:
基于所述样本表征、预设的调节因子,同时结合不确定性加权策略对所述识别模型的训练损失进行调整。
作为一可选实施例,所述基于所述样本表征、预设的调节因子,同时结合不确定性加权策略对所述识别模型的训练损失进行调整,包括:
基于所述样本表征及调节因子利用下述公式实现对所述识别模型的训练损失调整:
其中,为每个实体类别对应的模型预测概率,C为样本表征,W和b均为可学习参数,L为所述识别模型的损失函数,γ为调节因子,取值范围为[0,5],t为实体类别总数,αj为超参数,表示不同实体标签类别的损失权重,I(·)为指示函数,当j=y时,y为实体标签类别,I(j==y)的值为1,否则为0,若/>趋近于1,则实体类别j为易分辨的类型,对应的损失权重减小,若/>趋近于1,则实体类别j为难分辨的类型,对应的损失权重增大。
本发明另一实施例同时提供一种中文实体识别装置,包括:
处理模块,用于通过掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,所述原始样本中具有第一实体,所述第二实体与第一实体不同;
获得模块,用于获得关于所述实体标签的领域扩展释义;
输入模块,用于将所述原始样本、增强样本及领域扩展释义输入至识别模型进行训练,并基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征;
调整模块,用于根据所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,使所述识别模型对易分辨实体类型和难分辨实体类型的损失权重具有自适应调优功能;
识别模块,用于通过训练后的所述识别模型对待测文本进行中文实体识别。
本发明另一实施例还提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如上文中任一项实施例所述的中文实体识别方法。
基于上述实施例的公开可以获知,本发明实施例具备的有益效果包括:通过掩蔽实体语言生成模型对原始样本进行处理以生成增强样本,不仅可以有效扩充训练数据,而且可以保证文本实体与原始标签对齐。其次,通过设置标签语义融合模块使得原始样本中的实体标签的标签语义信息被识别充分利用与学习,提升中文实体识别精度。另外,对于低资源场景中的长尾分布问题,本实施例的方法优化了训练损失函数,使识别模型能够自适应地对样本数据中难分辨的实体标签类别赋予更高的损失权重,进一步提升了识别模型的识别精度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中的中文实体识别方法流程图。
图2为本发明实施例中的中文实体识别方法的应用过程图。
图3为本发明实施例中基于原始样本生成增强样本的过程图。
图4为本发明实施例中的中文实体识别装置的结构框图。
具体实施方式
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本发明实施例。
如图1所示,本发明实施例提供一种中文实体识别方法,包括:
S100:基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,原始样本中具有第一实体,第二实体与第一实体不同;
S101:获得关于实体标签的领域扩展释义;
S102:将原始样本、增强样本及领域扩展释义输入至识别模型进行训练,并基于识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导识别模型学习并生成包含实体标签的语义信息的样本表征;
S103:基于样本表征及预设的调节因子对识别模型的训练损失进行调整,使识别模型对易分辨实体类型和难分辨实体类型的损失权重具有自适应调优功能;
S104:基于训练后的识别模型对待测文本进行中文实体识别。
由上述实施例公开的内容可知,本实施例的方法具备的有益效果包括通过掩蔽实体语言生成模型对原始样本进行处理以生成增强样本,不仅可以有效扩充训练数据,而且可以保证文本实体与原始标签对齐。其次,通过设置标签语义融合模块使得原始样本中的实体标签的标签语义信息被识别充分利用与学习,提升中文实体识别精度。另外,对于低资源场景中的长尾分布问题,本实施例的方法优化了训练损失函数,使识别模型能够自适应地对样本数据中难分辨的实体标签类别赋予更高的损失权重,进一步提升了识别模型的识别精度。在实际应用时,用户可以将待测数据,如包含多个不同实体(字符、词汇)的中文语句,输入至识别模型中,通过识别模型的识别计算便可输出对应该中文语句的标签序列,该标签序列中包含每个实体的标签。即使语句中某个实体的标签所属类别由于注释样本资源非常有限,导致识别难度较大时,本实施例的识别模型依然可以基于该有限资源进行充分的学习训练,使其具有准确识别该类实体,预测该类实体标签的能力。
如图2所示,本实施例中的识别模型的训练过程可以分为两个阶段,首先第一阶段是基于掩蔽实体生成语言模型增强样本数据,实现训练数据的扩充。在第二阶段,本实施例引入实体标签的领域扩展释义作为额外的领域先验知识,与增强样本、原始样本一同作为识别模型的输入,以在此阶段通过标签语义融合模块进行标签语义融合,引导模型学习包含标签语义信息的样本表征,以实现后续对待测文本进行准确的命名实体识别。另外针对低资源场景中数据的长尾分布问题,本实施例优化了模型的训练损失函数,使模型能够自适应地对难分辨类别样本赋予更高的损失权重,不仅解决了长尾分布问题,而且进一步提升了模型的识别精度。
进一步地,数据增强是解决低资源问题最直接有效的方法之一,但由于命名实体识别任务聚焦于字符层面语义,传统数据增强方法应用在该任务上时,通常出现增强后的样本与原始标签不符合的情况。因此,本实施例提出将实体标签线性化嵌入到原始样本中,这样不仅能够在数据增强时约束生成的新样本,还能达到增强中文实体边界的目的。其过程包括:
S105:在原始样本中线性嵌入与第一实体对应的实体标签,并对原始样本中的第一实体进行掩蔽;
基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,包括:
S106:将包含实体标签且掩蔽了第一实体的原始样本输入至掩蔽实体生成语言模型中,使掩蔽实体生成语言模型基于输入的原始样本而对应生成第二实体,并将第二实体嵌入至原始样本中被掩蔽的第一实体处,进而形成增强样本。
其中,使掩蔽实体生成语言模型基于输入的原始样本而对应生成包含第二实体的增强样本,包括:
S107:掩蔽实体生成语言模型基于原始样本中未掩蔽的文本数据及线性嵌入的实体标签的语义信息进行分析,并基于分析结果预测生成与第一实体同类别的第二实体;
S108:掩蔽实体生成语言模型基于第二实体及输入的原始样本处理形成增强样本。
例如,上述过程可被定义为:
式中x2为实体,其对应标签类型为s2。
结合图3所示,首先对原始样本的字符序列和相对应的标签序列进行线性化操作,然后将标签序列中存在语义的实体类型(即除了图中O类型的实体类型)的标签嵌入到字符序列中。如对原始样本中的第一实体“巴黎”两个字符的前后分别插入对应的实体标签。接着,将线性化后的样本X'输入掩蔽实体生成语言模型中,该模型是一个序列到序列的生成模型。当该模型获得输入的数据后首先利用掩蔽标识符[Mask]对除O类型的实体中的字符进行随机替换,其次模型会最大化被掩蔽实体字符与线性化样本序列之间的概率,使得模型能够利用未掩蔽的原始样本的上下文以及线性化嵌入的标签语义信息来预测掩蔽字符,以此生成新的实体,即第二实体,如图中的“北京”。该过程可描述为下述公式:
式中θ为掩蔽实体生成语言模型的参数。X表示原始样本,xi是X中的字符。ki为0-1的整数,若ki=1表明xi被掩蔽标识符[Mask]替换;若ki=1则表明该字符保持不变。n代表X'中的字符数量。
进一步地,由于掩蔽实体语言生成模型是在原训练语料上预训练学习形成的,因此预测出的掩蔽实体字符很有可能为原始样本中的实体字符,也就是第一实体与第二实体相同。而为了让模型能够生成与原始样本不同且连贯丰富的增强样本,本实施例会提高候选实体概率的阈值,增加候选实体字符集合,并对该集合采用随机策略选取候选实体字符。同时应用高斯分布对实体字符掩蔽率进行采样,以此获取动态变化的实体掩蔽率,进而提高增强样本的多样性,避免预测实体与原实体相同。
继续结合图3所示,完成对掩蔽实体的预测后,生成的新样本同样是经过线性化处理的,该种方式可以保证原始样本与增强样本中实体标签对齐,而为了与原始训练样本保持一致,需要重新转化为原始样本的格式,也就是最终生成的增强样本是与原始样本格式统一的,之后所有样本数据会一同作为后续标签语义融合阶段的输入。
目前,命名实体识别任务,即中文实体识别任务,中的标签通常是对实体类别的高度概括,但用户在对实体进行理解时,通常会预先判断实体所在领域,并对抽象的实体标签赋予更多领域相关的具象含义。比如“每个人在各自的岗位上发光发热”中的实体“发热”,在新闻领域等一些领域中“发热”一般不作为实体进行标注,但在医疗领域中则为很重要的症状类型实体。
此外,相同的实体在不同的领域内可能会有不一样的具体含义。例如,“苹果”在食品领域的标签类型为水果,而在金融领域为公司或是品牌类型。为了让模型能够尽可能地模拟人类的思维过程,本实施例引入了实体标签的领域扩展释义作为额外的先验知识。在实际应用中,标签的领域扩展释义是容易获取和更换的,其能够提高模型的领域泛化性,具体的标签扩展释义可参考下表:
进一步地,本实施例中的标签语义融合模块设置有孪生编码器,这是因为与原始训练集相比,标签及其领域扩展释义的语料规模是很小的,其不足以训练出一个优秀的编码器。因此,本实施例提出在该模块中采用孪生编码器,因为其孪生的形式能够有效应对小规模数据以及类别数据不平衡的情况。在本实施例中,孪生编码器包括标签扩展释义编码器和原始训练样本的编码器,两个编码器结构相似,并共享模型参数,用于分别对样本数据和标签扩展释义进行处理,以提取出样本数据及标签扩展释义的隐藏层特征。
例如,给定输入的样本序列(即前述的样本数据)和标签扩展释义序列,利用孪生编码器分别提取出其隐藏层特征,具体过程如公式所示:
其中,PLM为编码器采用的神经网络模型,其可以根据任务以及数据集特点进行更换,本实施例中采用的是RoBERTa模型。式中,HX表示样本序列的隐藏层特征,n表示样本序列X的长度,d为编码器的向量维度。/> 表示第j个标签类别sj下的标签扩展释义的隐藏层特征;sj∈S,S则为该实体标签类型集合,|S|为该实体标签类型集合的元素个数,即标签类型数量,m表示标签扩展释义的长度,n为输入的样本数据的文本长度,即字符个数,xn表示第n个字符,/>表示第n个字符的隐藏层特征。/>表示该标签类型的第j个扩展释义,/>表示该第j个扩展释义的隐藏层特征。
进一步地,本实施例中,基于识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导识别模型学习并生成包含实体标签的语义信息的样本表征时,包括:
S109:基于标签语义融合模块中的孪生编码器处理输入数据得到分别对应样本数据及标签扩展释义的隐藏层特征;
S110:对样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含实体标签的语义信息的样本表征。
其中,对样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含实体标签的语义信息的样本表征,包括:
S111:以标签扩展释义的隐藏层特征作为交叉注意力机制的查询状态,并以样本数据的隐藏层特征HX作为交叉注意力机制的键、值状态,结合下述公式生成加权后的样本表征C'j:
其中,d为模型维度,WQ,WK,WV均为可学习参数;
S112:将加权后的样本表征作为交叉注意力机制的键、值状态,HX为查询状态,再次执行注意力机制,得到包含实体标签的语义信息的样本表征。
例如,获取样本序列和标签释义序列的隐藏层特征之后,现有方法大多采用直接相乘或者拼接的方式,但是该种方式是没有充分学习标签的语义信息的,而且还会增加输入序列的长度。为解决该问题,本实施例提出一种新的融合策略,其可利用交叉注意力机制处理输入序列,以使得模型能够更关注样本数据最核心的部分,而忽略其他冗余部分,还能够将标签语义知识集成到生成的样本表征中。与此同时,该种融合策略还能够保持样本的固定长度和结构。
具体地,本实施例是先以标签扩展释义的隐藏层特征作为交叉注意力机制的查询状态,并将样本字符序列的隐藏层特征HX作为交叉注意力机制的键、值状态。如公式所示:
其中,d为模型维度,WQ,WK,WV均为可学习参数,Q,K,V分别为注意力机制中的查询值及键值,T为矩阵转置符号,维度为在获取到加权后的样本表征C'j后,将其作为交叉注意力机制的键、值状态,HX为查询状态,再次执行注意力机制,以此得到对应样本数据中实体标签类型的样本表征Cj,具体过程如下式所示:
Cj=Attention(HXWQ,C'jWK,C'jWV).
进一步地,在低资源场景中样本类别不均匀的问题是十分突出的,如图3中的样本数据中“O类型”的实体占大多数。因此相比较于其他具备更丰富语义的实体类型,识别模型预测“O类型”的实体字符的标签是相对简单的。然而,以往的识别模型并没有对实体类别的分辨难易程度进行区分,所以常会造成模型在整个训练过程中都围绕容易分辨的“O类型”,无法对样本中其他实体类型进行充分学习。为解决该问题,本实施例特别引入调节因子γ,使得模型更聚焦于难分辨的实体类型,达到自适应权重调优的效果。
具体地,本实施例在基于样本表征及预设的调节因子对识别模型的训练损失进行调整时,包括:
S112:基于样本表征、预设的调节因子,同时结合不确定性加权策略对识别模型的训练损失进行调整。
例如,基于公式:先对样本表征C添加线性层,并计算每个实体类别对应的模型预测概率/>式中W和b均为可学习参数。接着基于预测概率/>计算模型的损失函数L:
其中γ为调节因子,取值范围为[0,5],其值优选为2,当γ值为零的时候,上述公式即为常见的交叉熵损失函数。t为实体类别总数,αj为超参数,表示不同实体标签类别的损失权重,I(·)为指示函数,当j=y时,I(j==y)的值为1,否则为0,j表示第j个实体类别,y表示实体标签的类别。式中的为不为第j个实体类别的概率,其用于降低易分辨实体类别的损失贡献。具体地,若/>趋近于1,则表明对应实体的类别j为易分辨的类型,此时/>将趋近于0,该实体类别对损失的贡献较小,也即对应的损失权重减小,若趋近于1,则表明该实体类别j为难分辨的类型,故对应的损失权重增大,也即,模型应更关注该类实体、实体标签的学习。
如图4所示,本发明另一实施例同时提供一种中文实体识别装置100,包括:
处理模块,用于通过掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,所述原始样本中具有第一实体,所述第二实体与第一实体不同;
获得模块,用于获得关于所述实体标签的领域扩展释义;
输入模块,用于将所述原始样本、增强样本及领域扩展释义输入至识别模型进行训练,并基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征;
调整模块,用于根据所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,使所述识别模型对易分辨实体类型和难分辨实体类型的损失权重具有自适应调优功能;
识别模块,用于通过训练后的所述识别模型对待测文本进行中文实体识别。
作为一可选实施例,还包括:
嵌入模块,用于在所述原始样本中线性嵌入与第一实体对应的实体标签,并对所述原始样本中的第一实体进行掩蔽;
所述基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,包括:
将包含所述实体标签且掩蔽了第一实体的原始样本输入至所述掩蔽实体生成语言模型中,使所述掩蔽实体生成语言模型基于输入的原始样本而对应生成包含所述第二实体的增强样本。
作为一可选实施例,所述使所述掩蔽实体生成语言模型基于输入的原始样本而对应生成包含所述第二实体的增强样本,包括:
所述掩蔽实体生成语言模型基于所述原始样本中未掩蔽的文本数据及线性嵌入的实体标签的语义信息进行分析,并基于分析结果预测生成与所述第一实体同类别的第二实体;
所述掩蔽实体生成语言模型基于所述第二实体及输入的原始样本处理形成所述增强样本。
作为一可选实施例,所述标签语义融合模块具有共享参数的孪生编码器,用于分别对样本数据和标签扩展释义进行处理,以提取出所述样本数据及标签扩展释义的隐藏层特征。
作为一可选实施例,所述基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征,包括:
基于所述标签语义融合模块中的孪生编码器处理所述输入数据得到分别对应所述样本数据及标签扩展释义的隐藏层特征;
对所述样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含所述实体标签的语义信息的样本表征。
作为一可选实施例,所述对所述样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含所述实体标签的语义信息的样本表征,包括:
以所述标签扩展释义的隐藏层特征作为交叉注意力机制的查询状态,并以所述样本数据的隐藏层特征HX作为交叉注意力机制的键、值状态,结合下述公式生成加权后的样本表征C'j:
其中,d为模型维度,WQ,WK,WV均为可学习参数;
将所述加权后的样本表征作为交叉注意力机制的键、值状态,HX为查询状态,再次执行注意力机制,得到包含所述实体标签的语义信息的样本表征。
作为一可选实施例,所述基于所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,包括:
基于所述样本表征、预设的调节因子,同时结合不确定性加权策略对所述识别模型的训练损失进行调整。
作为一可选实施例,所述基于所述样本表征、预设的调节因子,同时结合不确定性加权策略对所述识别模型的训练损失进行调整,包括:
基于所述样本表征及调节因子利用下述公式实现对所述识别模型的训练损失调整:
其中,为每个实体标签类别对应的模型预测概率,C为样本表征,W和b均为可学习参数,L为所述识别模型的损失函数,γ为调节因子,取值范围为[0,5],t为实体类别总数,αj为超参数,表示不同实体标签类别的损失权重,I(·)为指示函数,当j=y时,y为实体标签类别,I(j==y)的值为1,否则为0,若/>趋近于1,则实体标签j为易分辨的类型,对应的损失权重减小,若/>趋近于1,则实体标签j为难分辨的类型,对应的损失权重增大。
本发明另一实施例还提供一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如上文中任一项实施例所述的中文实体识别方法。
进一步地,本发明一实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的中文实体识别方法。应理解,本实施例中的各个方案具有上述方法实施例中对应的技术效果,此处不再赘述。
进一步地,本发明实施例还提供了一种计算机程序产品,所述计算机程序产品被有形地存储在计算机可读介质上并且包括计算机可读指令,所述计算机可执行指令在被执行时使至少一个处理器执行诸如上文所述实施例中的中文实体识别方法。
需要说明的是,本发明的计算机存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、天线、光缆、RF等等,或者上述的任意合适的组合。
另外,本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (10)
1.一种中文实体识别方法,其特征在于,包括:
基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,所述原始样本中具有第一实体,所述第二实体与第一实体不同;
获得关于所述实体标签的领域扩展释义;
将所述原始样本、增强样本及领域扩展释义输入至识别模型进行训练,并基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征;
基于所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,使所述识别模型对易分辨实体类型和难分辨实体类型的损失权重具有自适应调优功能;
基于训练后的所述识别模型对待测文本进行中文实体识别。
2.根据权利要求1所述的中文实体识别方法,其特征在于,还包括:
在所述原始样本中线性嵌入与第一实体对应的实体标签,并对所述原始样本中的第一实体进行掩蔽;
所述基于掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,包括:
将包含所述实体标签且掩蔽了第一实体的原始样本输入至所述掩蔽实体生成语言模型中,使所述掩蔽实体生成语言模型基于输入的原始样本而对应生成第二实体,并将所述第二实体嵌入至所述原始样本中被掩蔽的第一实体处,进而形成所述增强样本。
3.根据权利要求2所述的中文实体识别方法,其特征在于,所述使所述掩蔽实体生成语言模型基于输入的原始样本而对应生成包含所述第二实体的增强样本,包括:
所述掩蔽实体生成语言模型基于所述原始样本中未掩蔽的文本数据及线性嵌入的实体标签的语义信息进行分析,并基于分析结果预测生成与所述第一实体同类别的第二实体;
所述掩蔽实体生成语言模型基于所述第二实体及输入的原始样本处理形成所述增强样本。
4.根据权利要求1所述的中文实体识别方法,其特征在于,所述标签语义融合模块具有共享参数的孪生编码器,用于分别对样本数据和标签扩展释义进行处理,以提取出所述样本数据及标签扩展释义的隐藏层特征。
5.根据权利要求4所述的中文实体识别方法,其特征在于,所述基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征,包括:
基于所述标签语义融合模块中的孪生编码器处理所述输入数据得到分别对应所述样本数据及标签扩展释义的隐藏层特征;
对所述样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含所述实体标签的语义信息的样本表征。
6.根据权利要求5所述的中文实体识别方法,其特征在于,所述对所述样本数据及标签扩展释义的隐藏层特征采用交叉注意力机制进行处理,进而生成包含所述实体标签的语义信息的样本表征,包括:
以所述标签扩展释义的隐藏层特征作为交叉注意力机制的查询状态,并以所述样本数据的隐藏层特征HX作为交叉注意力机制的键、值状态,结合下述公式生成加权后的样本表征C'j:
其中,d为模型维度,WQ,WK,WV均为可学习参数;
将所述加权后的样本表征作为交叉注意力机制的键、值状态,HX为查询状态,再次执行注意力机制,得到包含所述实体标签的语义信息的样本表征。
7.根据权利要求1所述的中文实体识别方法,其特征在于,所述基于所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,包括:
基于所述样本表征、预设的调节因子,同时结合不确定性加权策略对所述识别模型的训练损失进行调整。
8.根据权利要求7所述的中文实体识别方法,其特征在于,所述基于所述样本表征、预设的调节因子,同时结合不确定性加权策略对所述识别模型的训练损失进行调整,包括:
基于所述样本表征及调节因子利用下述公式实现对所述识别模型的训练损失调整:
其中,为每个实体类别对应的模型预测概率,C为样本表征,W和b均为可学习参数,/>为所述识别模型的损失函数,γ为调节因子,取值范围为[0,5],t为实体类别总数,αj为超参数,表示不同实体标签类别的损失权重,I(·)为指示函数,当j=y时,y为实体标签类别,I(j==y)的值为1,否则为0,若/>趋近于1,则实体类别j为易分辨的类型,对应的损失权重减小,若/>趋近于1,则实体类别j为难分辨的类型,对应的损失权重增大。
9.一种中文实体识别装置,其特征在于,包括:
处理模块,用于通过掩蔽实体生成语言模型处理包含实体标签的原始样本,以生成具有第二实体的增强样本,所述原始样本中具有第一实体,所述第二实体与第一实体不同;
获得模块,用于获得关于所述实体标签的领域扩展释义;
输入模块,用于将所述原始样本、增强样本及领域扩展释义输入至识别模型进行训练,并基于所述识别模型中的标签语义融合模块对输入数据进行标签语义融合,引导所述识别模型学习并生成包含所述实体标签的语义信息的样本表征;
调整模块,用于根据所述样本表征及预设的调节因子对所述识别模型的训练损失进行调整,使所述识别模型对易分辨实体类型和难分辨实体类型的损失权重具有自适应调优功能;
识别模块,用于通过训练后的所述识别模型对待测文本进行中文实体识别。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行以实现如权利要求1-8任一项所述的中文实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310862618.8A CN116882413A (zh) | 2023-07-13 | 2023-07-13 | 一种中文实体识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310862618.8A CN116882413A (zh) | 2023-07-13 | 2023-07-13 | 一种中文实体识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116882413A true CN116882413A (zh) | 2023-10-13 |
Family
ID=88261697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310862618.8A Pending CN116882413A (zh) | 2023-07-13 | 2023-07-13 | 一种中文实体识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116882413A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171653A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
-
2023
- 2023-07-13 CN CN202310862618.8A patent/CN116882413A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171653A (zh) * | 2023-11-02 | 2023-12-05 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
CN117171653B (zh) * | 2023-11-02 | 2024-01-23 | 成方金融科技有限公司 | 一种识别信息关系的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
CN106919673B (zh) | 基于深度学习的文本情绪分析系统 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
Kumar et al. | Automating reading comprehension by generating question and answer pairs | |
CN112711660B (zh) | 文本分类样本的构建方法和文本分类模型的训练方法 | |
CN112926327B (zh) | 一种实体识别方法、装置、设备及存储介质 | |
CN112417132B (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN111695335A (zh) | 一种智能面试方法、装置及终端设备 | |
CN116882413A (zh) | 一种中文实体识别方法、装置及设备 | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
CN113947086A (zh) | 样本数据生成方法、训练方法、语料生成方法和装置 | |
Ye et al. | Chinese Named Entity Recognition Based on Character‐Word Vector Fusion | |
US8386232B2 (en) | Predicting results for input data based on a model generated from clusters | |
Di Martino et al. | A machine learning based methodology for automatic annotation and anonymisation of privacy-related items in textual documents for justice domain | |
Xue et al. | A method of chinese tourism named entity recognition based on bblc model | |
CN116362246A (zh) | 一种面向多源威胁情报的实体识别及关系抽取方法 | |
CN113919351A (zh) | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 | |
Kashihara et al. | Automated corpus annotation for cybersecurity named entity recognition with small keyword dictionary | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
Feng et al. | Improved neural machine translation with pos-tagging through joint decoding | |
CN113627185A (zh) | 一种用于肝癌病理文本命名的实体识别方法 | |
Wei et al. | A self-adaptive intrusion detection model based on bi-LSTM-CRF with historical access logs | |
Zhu | RNN Language Processing Model‐Driven Spoken Dialogue System Modeling Method | |
Zhou et al. | Nested causality extraction on traffic accident texts as question answering | |
Peng et al. | Named entity recognition based on reinforcement learning and adversarial training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |