CN115238696A - 中文命名实体识别方法、电子设备及存储介质 - Google Patents
中文命名实体识别方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115238696A CN115238696A CN202210929813.3A CN202210929813A CN115238696A CN 115238696 A CN115238696 A CN 115238696A CN 202210929813 A CN202210929813 A CN 202210929813A CN 115238696 A CN115238696 A CN 115238696A
- Authority
- CN
- China
- Prior art keywords
- context
- word
- named entity
- feature
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 90
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 7
- 238000002474 experimental method Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 7
- NHGXDBSUJJNIRV-UHFFFAOYSA-M tetrabutylammonium chloride Chemical compound [Cl-].CCCC[N+](CCCC)(CCCC)CCCC NHGXDBSUJJNIRV-UHFFFAOYSA-M 0.000 description 7
- 101100397240 Arabidopsis thaliana ISPD gene Proteins 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 102100022493 Mucin-6 Human genes 0.000 description 1
- 108010008692 Mucin-6 Proteins 0.000 description 1
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供一种基于注意力机制的中文命名实体识别方法、电子设备及存储介质,包括:将待识别文本输入到嵌入层,得到词向量;采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;采用Bi‑LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。本申请提出的基于注意力机制的中文命名实体识别方法,实现全局语义信息和方向信息深度融合。为了获取更多的上下文信息和解决一词多义问题,使用了RoBERTa‑wwm预训练模型作为字符级嵌入,提升了模型识别效果。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于注意力机制的中文命名实体识别方法、电子设备及存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是一项旨在文本中确定实体的边界并将实体准确归类的任务。命名实体识别任务是许多自然语言处理(NaturalLanguage Processing,NLP)任务的基础,例如信息抽取、问答、信息检索、知识图谱等,因此在自然语言处理领域受到了广泛的关注和研究。
“命名实体”(Named Entity,NE)最早是在第六届信息理解会议(MUC-6)上使用,用于识别文本中人名、地名和组织机构名等。在早期,命名实体识别的方法都是基于规则和统计学习的。传统方法虽然取得了一定的效果,但是有着人工特征构建困难、高度依赖专业领域知识、模型难以迁移等问题。近些年随着计算机的计算能力不断增长,基于深度学习的命名实体识别方法已逐步取代传统方法成为主流。
在基于深度学习的命名实体识别方法中,命名实体识别一般被视为是序列标注任务。其一般框架是分为输入分布式表示(Distributed representations of input)、上下文编码器(Context encoder)、以及标签解码器(Tag Decoder)三个部分。
随着自然语言处理技术在中文领域的发展和应用,中文命名实体识别也受到国内外学者的广泛关注。与英文相比,中文词语之间不存在明显的分界,因此中文命名实体识别更具有挑战性。在最开始,中文命名实体识别任务需要先进行中文分词(Chinese wordsegmentation,CWS),然后采用词级别的向量表示作为输入。后续的研究表明,相较于词级别的向量表示,字符级嵌入通常有着更好的表现。这是因为中文分词不可避免会出现错误,这将导致实体边界的预测出现问题。因此使用字符级嵌入作为中文命名实体识别方法的输入成为了研究者们的首选。
基于字符级嵌入的方法虽然避免了中文分词带来的误差,但同样丢失了词汇信息。而实体边界一般是词汇的边界,这将对实体边界的预测带来挑战,而近年来最为流行的BERT预训练模型也不能解决这一问题。因为BERT模型是以字符为最小粒度进行切分,而不是词。所以使用BERT预训练模型仅能获得字符级嵌入,无法获得中文的词汇信息。而RoBERTa-wwm模型作为BERT的一种改进模型,在中文文本上使用全词遮蔽策略和动态遮蔽策略,这样该模型便获得了一定的词汇信息和更多的语义信息,更适用于中文命名实体识别任务。
在对中文文本进行向量表示的研究取得突破的同时,上下文编码器作为中文命名实体识别的重要组成部分也进展迅速。双向长短期记网络(BidirectionalLong-ShortTerm Memory,BiLSTM)作为中文命名实体识别任务中最常用的上下文编码器,有着良好的序列建模能力,能够很好地利用上下文特征,保留文本的顺序信息。虽然BiLSTM使用了前向和后向的网络架构,但只是把前向信息和后向信息拼接起来,对于序列中某个字或词来说,并没有同时与上下文联系起来,缺少全局信息。近年来,Transformer网络因其良好的并行能力和全局建模能力,在机器翻译、预训练模型等自然语言处理任务十分盛行,Transformer架构和注意力机制也开始应用在命名实体识别任务中。然而Transformer架构更加关注全局语义,对位置和方向信息不敏感。在命名实体识别任务中,字符之间的相对方向和距离非常重要,有助于模型识别实体。例如‘在’之后的词语,往往为地点类别的实体。因此有必要改进Transformer编码器,使之适用于中文命名实体识别任务。
以上传统的命名实体识别方式存在以下技术问题:
对于Transformer来说,要区分上下文信息来自上文或者下文并不容易。
而BiLSTM可以有区别地从当前字词的上文和下文收集上下文信息,但缺少全局语义信息。
发明内容
本申请旨在提供一种一种基于注意力机制的中文命名实体识别方法、电子设备及存储介质,旨在解决现有技术中中文命名实体识别准确率第的问题。
一方面,本申请提供一种基于注意力机制的中文命名实体识别方法,待识别文本输入到嵌入层,得到词向量;
采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;
采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;
对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;
对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。
进一步地,所述采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征包括:
采用预设的计算公式得到每个字符的相对位置编码;
采用Transformer编码器对所述词向量和所述相对位置编码进行分析,得到注意力分数,以得到所述第一上下文特征。
进一步地,所述采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征包括:
采用所述Bi-LSTM模型对所述词向量分别采用前向和后向输入,通过计算得到前向向量和后向向量,将前向向量和后向向量进行拼接,以得到所述第二上下文特征。
进一步地,所述对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征包括:
采用注意力机制得到注意力分数,将注意力分数作为融合参数;
动态分配所述第一上下文特征的第一融合参数和所述第二上下文特征的第二融合参数;
根据所述第一融合参数和所述第二融合参数对所述第一上下文特征和所述第二上下文特征进行动态融合。
进一步地,所述对所述融合特征进行解码包括:
使用条件随机场对所述融合特征进行解码,并输出相应的标签。
进一步地,所述将待识别文本输入到嵌入层,得到词向量包括:
对所述待识别文本进行分析,得到字符级嵌入和二元字符级词嵌入,其中,字符级嵌入以字为单位,二元字符级词嵌入则以双字为单位;
将字符级嵌入和二元字符级词嵌入拼接起来得到词向量。
进一步地,Word2Vector词向量和预训练模型作为嵌入层。
进一步地,所述Transformer编码器在计算注意力分数的时候,把将词向量与相对位置编码分开计算,并增加相对距离和方向的偏置项。
一方面,本申请还提供一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的方法。
一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项所述的方法中的步骤。
区别于现有技术,本申请提供一种基于注意力机制的中文命名实体识别方法、电子设备及存储介质,包括:将待识别文本输入到嵌入层,得到词向量;采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。
本申请提出的基于注意力机制的中文命名实体识别方法,考虑到原始的Transformer编码器拥有全局建模能力,但是对位置和方向信息不敏感,所以使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,同时利用BiLSTM进一步增强方向信息;最后使用注意力机制动态融合上下文特征,实现全局语义信息和方向信息深度融合。为了获取更多的上下文信息和解决一词多义问题,使用了RoBERTa-wwm预训练模型作为字符级嵌入,提升了模型识别效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的中文命名实体识别系统的场景示意图;
图2是本申请实施例提供的基于注意力机制的中文命名实体识别方法的一个实施例流程示意图;
图3是本申请实施例提供TBAC模型一个实施例结构示意图;
图4是本申请实施例中数据集的示意图;
图5是本申请实施例中超参数设置示意图;
图6是本申请实施例中基于Word2Vector词向量的对比实验结果的示意图;
图7是本申请实施例中基于预训练模型的对比实验结果的示意图;
图8是本申请实施例中消融实验结果的示意图;
图9是本申请实施例中提供的电子设备的一个实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
需要说明的是,本申请实施例方法由于是在电子设备中执行,各电子设备的处理对象均以数据或信息的形式存在,例如时间,实质为时间信息,可以理解的是,后续实施例中若提及尺寸、数量、位置等,均为对应的数据存在,以便电子设备进行处理,具体此处不作赘述。
本申请实施例提供一种基于注意力机制的中文命名实体识别方法、电子设备及存储介质,以下分别进行详细说明。
请参阅图1,图1为本申请实施例所提供的中文命名实体识别系统的场景示意图,该系统可以包括电子设备100,电子设备100中集成有中文命名实体识别方法的装置,如图1中的电子设备。
本申请实施例中,该电子设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本申请实施例中所描述的电子设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。
本领域技术人员可以理解,图1中示出的应用环境,仅仅是本申请方案的一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的电子设备,例如图1中仅示出1个电子设备,可以理解的,该系统还可以包括一个或多个其他服务器,具体此处不作限定。
另外,如图1所示,该系统还可以包括存储器200,用于存储数据。
需要说明的是,图1所示的系统的场景示意图仅仅是一个示例,本申请实施例描述的系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
首先,本申请实施例中提供一种基于注意力机制的中文命名实体识别方法,该方法的执行主体为中文命名实体识别装置,该中文命名实体识别装置应用于电子设备,该中文命名实体识别方法包括:采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。
参阅图2,图2是本申请实施例提供的方法的一个实施例流程示意图。结合图2~图8,该方法包括:
步骤S201:将待识别文本输入到嵌入层,得到词向量;
在本实施例中,对所述待识别文本进行分析,得到字符级嵌入和二元字符级词嵌入,其中,字符级嵌入以字为单位,二元字符级词嵌入则以双字为单位;将字符级嵌入和二元字符级词嵌入拼接起来得到词向量。
具体来讲,本实施例所采用的TBAC模型的整体架构如图3所示,模型主要由四个部分组成,分别是嵌入层、上下文编码层、特征融合层和解码层。模型首先将文本输入到嵌入层获取字符级词嵌入表示,然后在上下文编码层分别使用Transformer和Bi-LSTM抽取上下文特征,一起送入特征融合层使用注意力机制进行融合,最后在解码层使用条件随机场进行解码输出标签。
本实施例采用了Word2Vector词向量和预训练模型作为嵌入层,其中预训练模型使用预训练的RoBERTa-wwm模型。假设模型初始输入为句子S=(x1,x2…xn),使用RoBERTa-wwm模型时,输出为向量R=(r1,r2…rn)。使用Word2Vector词向量时,同样的得到字符级嵌入和二元字符级词嵌入分别为c=(c1,c2…cn)和b=(b1,b2…bn),其中字符级嵌入以字为单位,二元字符级词嵌入则以双字为单位,拼接起来得到最后的词向量。
Vec=[c;b]
步骤S202:采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;
在本实施例中,采用改进的Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征,其中改进后的Transformer编码器在计算注意力分数的时候,把将词向量与相对位置编码分开计算,并增加相对距离和方向的偏置项,在计算注意力时,不进行缩放。
采用预设的计算公式得到每个字符的相对位置编码;采用Transformer编码器对所述词向量和所述相对位置编码进行分析,得到注意力分数,以得到所述第一上下文特征。
具体地,Transformer编码器的一层结构如图2模型的上下文编码层左侧所示,其中包括多头自注意力层、前馈神经网络层,并且使用了层归一化和残差连接。原始的Transformer编码器使用绝对编码的方式来生成位置编码,第t个字符的位置编码可以用以下等式表示:
PEt,2i=sin(t/100002i/d)
PEt,2i+1=cos(t/100002i/d)
其中i的取值范围为[0,d/2],d为输入词向量维度。将得到的位置编码和词向量按位相加得到多头自注意力层的输入矩阵H∈Rl×d,其中l为序列长度。将H映射为Q、K、V,方式如下:
Q,K,V=HWq,HWk,HWv
当使用多头自注意力时,其计算公式如下:
D(h)=Attn(Q(h),K(h),V(h))
FFN(x)=max(0,xW1+b1)W2+b2
在本实施例中,采用相对位置编码和修改注意力计算公式对原始的Transformer编码器进行改进。首先将H映射为Q、K、V时,K不进行线性变换,目的是打破对称性,加强距离感知,变换公式如下:
其中t是目标字符的索引,j是上下文字符的索引,i的取值范围为[0,dk/2]。在计算注意力分数的时候,把将词向量与相对位置编码分开计算,并且加了偏置项,计算公式如下:
最后在计算注意力时,不进行缩放,计算公式如下:
Attn(Q,K,V)=softmax(Arel)V
通过上述方式采用相对位置编码和修改注意力计算公式提升了Transformer编码器的位置感知和方向感知,使得Transformer适用于中文命名实体识别任务。
步骤S203:采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;
在本实施例中,采用所述Bi-LSTM模型对所述词向量分别采用前向和后向输入,通过计算得到前向向量和后向向量,将前向向量和后向向量进行拼接,以得到所述第二上下文特征。
长短期记忆网络(Long-Short Term Memory,LSTM)是一种特殊的循环神经网络(Recurrent neural networks,RNN),LSTM可以缓解传统RNN遇到的梯度消失和梯度爆炸的问题。在LSTM中引入遗忘门(Forget Gate)控制信息流从而有选择地记忆信息。
在中文命名实体识别任务中,对于目标字符我们不仅需要上文的信息还需要下文的信息。所以我们使用双向长短期记忆网络(BiLSTM)作为上下文编码器,其结构如图3模型整体架构的上下文编码层右侧所示。BiLSTM对于嵌入层输出的字符级嵌入分别采用前向和后向输入,通过计算得到前向向量和后向向量,然后将两个向量进行拼接并作为隐藏层的输出,其实现如下:
步骤S204:对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;
在本实施例中,采用注意力机制得到注意力分数,将注意力分数作为融合参数;动态分配所述第一上下文特征的第一融合参数和所述第二上下文特征的第二融合参数;根据所述第一融合参数和所述第二融合参数对所述第一上下文特征和所述第二上下文特征进行动态融合。
其中,Transformer可以建模任意距离的依赖,但对位置和方向信息不太敏感;Bi-LSTM可以很好地捕获方向信息,但是不能捕捉到全局信息,使用注意力机制来动态融合Transformer编码器和Bi-LSTM抽取的上下文特征,实现优势互补。注意力机制动态融合实现方式如下:
Wz为可以学习的权重矩阵,σ为sigmoid激活函数;Xt是Transformer编码器输出的向量,xb是BiLSTM输出的向量。向量z的维数与Xt和xb的维数相同,它是两个向量之间的权值,使得模型可以动态地决定从Transformer编码器或Bi-LSTM中使用多少信息,从而记住重要信息,避免造成信息冗余。
步骤S205:对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。
在本实施例后,使用条件随机场对所述融合特征进行解码,并输出相应的标签。为了利用不同标签之间的依赖性,本实施例使用了条件随机场(CRF)作为解码层。对于给定序列s=[s1,s2,…,sT],相应标签序列是y=[y1,y2,…,yT],Y(s)表示所有有效的标签序列,y的概率由以下等式计算
其中f(yt-1,yt,s)是计算从yt-1到yt的状态转换分数以及yt的分数,其目标是P(y|s)。解码时,使用维特比算法求得全局最优序列。
本申请提出的基于注意力机制的中文命名实体识别方法,考虑到原始的Transformer编码器拥有全局建模能力,但是对位置和方向信息不敏感,所以使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,同时利用BiLSTM进一步增强方向信息;最后使用注意力机制动态融合上下文特征,实现全局语义信息和方向信息深度融合。为了获取更多的上下文信息和解决一词多义问题,使用了RoBERTa-wwm预训练模型作为字符级嵌入,提升了模型识别效果。在Resume和Weibo数据集的实验结果表明,在没有使用词典等外部资源的情况下,本实施例的模型相比于当前主流的深度学习模型仍取得了较好的效果,证明了本申请提出的方法在中文命名实体识别任务中的有效性。
在本实施例中,使用Weibo数据集和Resume数据集,这两者均为公开的中文命名实体识别数据集。Resume数据集是从新浪财经上收集并进行标注的中国股市上市公司高管的简历数据集,包括八种命名实体。Weibo数据集是基于新浪微博中的文本构建的,包含4种实体。实验使用的数据集使用BMESO(Begin,Middle,End,Single,Outside)方法进行标注。两个数据集的详细统计和划分如图4所示。
实验使用精确率(Precision)、召回率(Recall)、F1值(F-Measure)作为评估指标。本实验使用Pytorch 1.10框架搭建模型,并使用NVIDIA的GeForce RTX2080Ti GPU进行加速,其主要的超参数如图5所示。
为了描述方便,这里用TBAC表示本实施例所提出的Transformer-BiLSTM-Attention-CRF模型。我们为了验证本实施例提出的方法的有效性,我们在Weibo数据集和Resume数据集上与其他中文命名实体识别方法进行对比,其中包括使用Word2Vector词向量的方法和使用预训练模型的方法。还进行了消融实验验证模型各部分的必要性。其中对比模型简介如下
(1)Bi-LSTM:使用Bi-LSTM网络作为编码器,CRF作为解码器,是最为经典的命名实体识别模型。
(2)ID-CNN:使用膨胀卷积神经网络代替Bi-LSTM网络作为编码器,充分利用GPU的并行性提高了运算效率。
(3)Transformer:使用原始Transformer架构作为编码器,CRF作为解码器。
(4)Lattice LSTM:使用LSTM在上下文编码层建模字词图,显式融合词汇信息,最后使用CRF作为解码器。
(5)CAN-NER:使用具有局部注意力层的卷积神经网络和具有全局自注意力层的双向门控递归单元(Bi-GRU)作为编码器。
(6)FLAT:将所有潜在词汇使用相对跨度编码的方法融入序列输入中,然后使用Transformer编码器建模符与词汇间的交互,引入词汇信息。
(7)MECT:将字、词、汉字结构信息作为多元嵌入,并使用Cross-Transformer作为编码器。
基于Word2Vector词向量的对比分析
使用Bi-LSTM,ID-CNN,Transformer,Lattice LSTM和CAN-NER这五种模型进行对比实验。这五种模型均使用文献中在中文语料库使用Word2Vector方法预训练得到字符级嵌入和二元字符级嵌入,Lattice LSTM使用了外部词典进行词汇增强,CAN-NER使用了分词信息。使用Lattice LSTM和CAN-NER原文中的实验数据进行对比。
Transformer在Resume和Weibo数据集上的F1值分别为92.89%和47.66%,均低于Bi-LSTM和ID-CNN模型,说明原始的Transformer编码器不太适合命名实体任务,我们有必要使用相对位置等方法改进Transformer编码器,发挥Transformer编码器感知全局信息的优势。
如下图6所示,为基于Word2Vector词向量的对比实验结果。
从表中数据分析可知:本申请所提供的方法在Resume和Weibo数据集上分别取得了95.26%和60.24%的F1值,均要优于其他对比模型。在Resume数据集,本实施例提出的模型F1值比经典的Bi-LSTM和ID-CNN模型分别提高0.78和1.12;比使用了词汇信息的LatticeLSTM和CAN-NER分别提高0.8和0.32。在Weibo数据集上,本实施例提出的模型F1值比经典的Bi-LSTM和ID-CNN模型分别高4.12和4.98;比使用了词汇信息的Lattice LSTM和CAN-NER分别提高1.45和0.93。实验结果说明本实施例提出的模型可以捕捉到更多的上下文特征信息,有效识别中文文本中的实体,相比与使用了词汇信息的方法也具有竞争力。
从实验结果可以发现在Weibo数据集的各个模型F1值相较于Resume数据集相差更大,造成这一现象的原因可能是Weibo数据集使用的是社交媒体领域文本,存在大量不规则的语法和新词,识别难度较大。从图6可以知道各个模型在Weibo数据集的精确率较高,召回率较低,这也是因为Weibo数据集识别难度较高的原因。
基于预训练模型的对比分析,本申请使用FLAT,MECT和BiLSTM、ID-CNN模型这四种模型进行对比实验,实验数据来源于原文。FLAT和MECT使用BERT-wwm预训练模型进行微调。BiLSTM和ID-CNN使用RoBERTa-wwm预训练模型进行微调。本实施例提出的模型TBAC分别使用BERT-wwm预训练模型和RoBERTa-wwm预训练模型进行对比实验,如图7所示为基于预训练模型的对比实验结果。
如上图7所示,使用BERT-wwm预训练模型时,本实施例提出的模型在Weibo数据集上F1值比FLAT和MECT模型高了2.09和0.21,在Resume数据集上F1值比FLAT和MECT模型高了0.53和0.41。实验结果表明我们提出的模型与这些基于词汇增强方法的方法仍有竞争力。
TBAC模型使用RoBERTa-wwm预训练模型在Weibo和Resume数据集上的F1值分别为71.29%和96.68%,与使用BERT-wwm预训练模型相比效果更好。这是因为RoBERTa预训练模型使用动态遮蔽策略和中文全词遮蔽策略,并使用了更多的文本进行预训练,获得了更多的词汇和上下文信息。与经典BiLSTM和ID-CNN模型相比,也取得了更好的识别效果,表明我们提出的TBAC模型可以提取更多的上下文语义特征。
为了验证本申请提出的模型各部分的有效性,进行了消融实验,消融实验的结果如图8所示。其中-BiLSTM用Transformer编码器代替Bi-LSTM网络,-Transformer表示用Bi-LSTM网络代替Transformer,-Attention代表用直接拼接代替Attention进行特征融合。
如上图8所示,不使用Bi-LSTM网络,在Resume和Weibo数据集上分别降低了0.82和3.45,这表明Bi-LSTM网络抽取的上下文特征和方向信息对于命名实体识别任务是重要的,使用Bi-LSTM网络替代改进后的Transformer编码器后,在Resume和Weibo数据集F1值分别降低了0.64和5.86。说明改进后的Transformer编码器带来的全局语义信息可以提高F1值。不使用注意力机制动态融合特征后F1值在Resume和Weibo数据集上分别降低了0.53和2.07。实验表明注意力机制很好融合了方向信息和全局语义信息,并且舍弃了一部分冗余信息,提升了模型识别效果。
本申请实施例还提供一种电子设备,如图9所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器501是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
电子设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:将待识别文本输入到嵌入层,得到词向量;采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。
进一步地,所述采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征包括:
采用Transformer编码器对所述词向量进行分析,得到每个字符的相对位置编码;
分别计算所述词向量和所述相对位置编码的注意力分数,以得到所述第一上下文特征。
进一步地,所述采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征包括:
采用所述Bi-LSTM模型对所述词向量分别采用前向和后向输入,通过计算得到前向向量和后向向量,将前向向量和后向向量进行拼接,以得到所述第二上下文特征。
进一步地,所述对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征包括:
动态分配所述第一上下文特征的第一融合参数和所述第二上下文特征的第二融合参数;
根据所述第一融合参数和所述第二融合参数对所述第一上下文特征和所述第二上下文特征进行动态融合。
进一步地,所述对所述融合特征进行解码包括:
使用条件随机场对所述融合特征进行解码,并输出相应的标签。
进一步地,所述将待识别文本输入到嵌入层,得到词向量包括:
对所述待识别文本进行分析,得到字符级嵌入和二元字符级词嵌入,其中,字符级嵌入以字为单位,二元字符级词嵌入则以双字为单位;
将字符级嵌入和二元字符级词嵌入拼接起来得到词向量。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:将待识别文本输入到嵌入层,得到词向量;采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。
具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种基于注意力机制的中文命名实体识别方法、电子设备及存储介质,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于注意力机制的中文命名实体识别方法,其特征在于,包括:
将待识别文本输入到嵌入层,得到词向量;
采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征;
采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征;
对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征;
对所述融合特征进行解码,得到所述待识别文本所对应的中文命名实体。
2.如权利要求1所述的中文命名实体识别方法,其特征在于,所述采用Transformer编码器对所述词向量进行特征抽取,得到第一上下文特征包括:
采用预设的计算公式得到每个字符的相对位置编码;
采用Transformer编码器对所述词向量和所述相对位置编码进行分析,得到注意力分数,以得到所述第一上下文特征。
3.如权利要求1所述的中文命名实体识别方法,其特征在于,所述采用Bi-LSTM模型对所述词向量进行特征抽取,得到第二上下文特征包括:
采用所述Bi-LSTM模型对所述词向量分别采用前向和后向输入,通过计算得到前向向量和后向向量,将前向向量和后向向量进行拼接,以得到所述第二上下文特征。
4.如权利要求1所述的中文命名实体识别方法,其特征在于,所述对所述第一上下文特征和所述第二上下文特征进行融合,得到融合特征包括:
采用注意力机制得到注意力分数,将注意力分数作为融合参数;
动态分配所述第一上下文特征的第一融合参数和所述第二上下文特征的第二融合参数;
根据所述第一融合参数和所述第二融合参数对所述第一上下文特征和所述第二上下文特征进行动态融合。
5.如权利要求1所述的中文命名实体识别方法,其特征在于,所述对所述融合特征进行解码包括:
使用条件随机场对所述融合特征进行解码,并输出相应的标签。
6.如权利要求1所述的中文命名实体识别方法,其特征在于,所述将待识别文本输入到嵌入层,得到词向量包括:
对所述待识别文本进行分析,得到字符级嵌入和二元字符级词嵌入,其中,字符级嵌入以字为单位,二元字符级词嵌入则以双字为单位;
将字符级嵌入和二元字符级词嵌入拼接起来得到词向量。
7.如权利要求1所述的中文命名实体识别方法,其特征在于,Word2Vector词向量和预训练模型作为嵌入层。
8.如权利要求1所述的中文命名实体识别方法,其特征在于,所述Transformer编码器在计算注意力分数的时候,把将词向量与相对位置编码分开计算,并增加相对距离和方向的偏置项。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至8任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929813.3A CN115238696A (zh) | 2022-08-03 | 2022-08-03 | 中文命名实体识别方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929813.3A CN115238696A (zh) | 2022-08-03 | 2022-08-03 | 中文命名实体识别方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238696A true CN115238696A (zh) | 2022-10-25 |
Family
ID=83679462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210929813.3A Pending CN115238696A (zh) | 2022-08-03 | 2022-08-03 | 中文命名实体识别方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238696A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935992A (zh) * | 2022-11-23 | 2023-04-07 | 贝壳找房(北京)科技有限公司 | 命名实体识别方法、装置及存储介质 |
-
2022
- 2022-08-03 CN CN202210929813.3A patent/CN115238696A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115935992A (zh) * | 2022-11-23 | 2023-04-07 | 贝壳找房(北京)科技有限公司 | 命名实体识别方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Application of convolutional neural network in natural language processing | |
Chang et al. | Chinese named entity recognition method based on BERT | |
Zhou et al. | A C-LSTM neural network for text classification | |
US9720907B2 (en) | System and method for learning latent representations for natural language tasks | |
CN111709243B (zh) | 一种基于深度学习的知识抽取方法与装置 | |
Wang et al. | Common sense knowledge for handwritten chinese text recognition | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
Zhang et al. | Deep feature fusion model for sentence semantic matching | |
He et al. | A survey on recent advances in sequence labeling from deep learning models | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN113268586A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
Grzegorczyk | Vector representations of text data in deep learning | |
WO2020149897A1 (en) | A deep learning model for learning program embeddings | |
Sun et al. | Probabilistic Chinese word segmentation with non-local information and stochastic training | |
Guo et al. | Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling | |
Chen et al. | Clause sentiment identification based on convolutional neural network with context embedding | |
Qiu et al. | Chinese Microblog Sentiment Detection Based on CNN‐BiGRU and Multihead Attention Mechanism | |
do Carmo Nogueira et al. | A reference-based model using deep learning for image captioning | |
CN115238696A (zh) | 中文命名实体识别方法、电子设备及存储介质 | |
CN112800244A (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
CN117251522A (zh) | 一种基于潜层关系增强的实体和关系联合抽取模型的方法 | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
Xiao et al. | Introduction to Transformers: an NLP Perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |