CN112699685B - 基于标签引导的字词融合的命名实体识别方法 - Google Patents
基于标签引导的字词融合的命名实体识别方法 Download PDFInfo
- Publication number
- CN112699685B CN112699685B CN202110027765.4A CN202110027765A CN112699685B CN 112699685 B CN112699685 B CN 112699685B CN 202110027765 A CN202110027765 A CN 202110027765A CN 112699685 B CN112699685 B CN 112699685B
- Authority
- CN
- China
- Prior art keywords
- word
- information
- labeling
- vectors
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 87
- 230000011218 segmentation Effects 0.000 claims abstract description 64
- 238000002372 labelling Methods 0.000 claims abstract description 39
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000005484 gravity Effects 0.000 abstract description 2
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 7
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于标签引导的字词融合的命名实体识别方法,用于解决以往分词工具不准确造成的分词错误的问题。具体采用标注信息对句子的分词结果进行分组,并对组内信息进行融合,能够有效的获得这个位置词的信息;将位置词信息与当前字的信息进行融合,增强位置词的信息表达;采用注意力机制,对每个位置词进行分配权重,使其更加关注正确的词的标签;采用Gated Mechanism来动态的权衡字特征与位置词向量特征的比重,最后通过BiLSTM与CRF找到最优序列。本发明改善了词边界识别错误的问题,并能够减少未登陆词(OOV)的产生。
Description
技术领域
本发明属于自然语言处理领域,特别涉及命名实体识别技术和文本挖掘技术。
背景技术
命名实体识别(Named Entity Recognition,NER)旨在识别出非结构化文本序列中具有特殊含义的实体,并为这些实体分配相应的类别,比如人名、地名、组织机构名等等。由于命名实体识别在对话生成、关系抽取、知识图谱、共指消解等任务中起着基础支撑作用,因此命名实体识别在自然语言处理(Natural Language Processing,NLP)领域得到了广泛的研究。
对于命名实体识别任务,常用的方法是把它作为有监督的序列标注问题来求解。一般来说,监督数据越多,模型训练的效果就越好。但由于代价高,无法获得大规模的标注数据。因此,人工设计特征和特定领域内的语言资源被研究者广泛的运用于NER任务中。在新语言和新领域下开发特定的语言资源和特征的代价很大,这使得命名实体识别的研究也更具有挑战性。
近年来,随着计算机算力的提升和算法技术的发展,基于深度学习的模型在命名实体识别领域中得到了更加广泛的应用。2003年Hammerton提出了LSTM模型,首次将神经网络引入NER任务中来。Lample在2016年提出了BiLSTM-CRF的模型,并取得了较好的性能。但是由于中文不同于英文,上述NER模型应用于中文存在一些问题。中文是一种符号语言,其字与字之间蕴含了丰富的语义信息。现有的高性能命名实体识别系统主要是针对英文设计的,英文拥有明确的分割标识,首字母大写、词与词之间用空格分割的特性决定了英文的信息提取比较简单。但是中文不存在明显的单词边界,无法充分利用词的信息,因此现有的NER系统大多都是基于字符操作,然后对序列进行标记,一些科研人员决定将词的信息也融入进去,首先采用分词技术对句子进行分词处理,然后同样采用英文的方式进行模型的训练。这种方式虽然利用了词的信息,但是经研究发现,中文分词系统不可避免地会产生一些错误的分词,进而影响NER系统识别效果。在国内每天都会有新词的产生,虽然使用分词技术,但是对于新词的产生问题无法解决。
发明内容
为了解决现有方法不适用于中文实体识别,识别率低的问题,本发明提出了一种基于标签引导的字词融合的命名实体识别方法。该方法首次利用标注信息对句子的分词结果进行分组,得到当前字所在词中的具体位置信息,将其定义为位置词。将位置词信息与字信息进行交互,用来学习标签引导的词信息与字的信息融合结果;其次,我们在信息融合之后结合了注意力机制,学习字在不同位置词下的关注程度,使其对正确标注结果关注度较高;最后,通过使用Gated Mechanism来进行合并操作,能够动态的权衡和决定词向量所占的比重。该方法的提出,主要解决的问题是分词工具分词结果不准确,大量未登陆词(OOV)的产生。
本发明的贡献是通过增加位置词信息实现了语义扩充,能够减少分词不准确的现象。此模型中创新点有两点:一、利用了BIE标注法对通过分词得到的结果进行分组,通过查找表查找每个组内词的向量表示,这些词向量中即包含了词的信息又包含了标注信息。将分组后的结果再与字向量融合,能够得到当前字中所包含的语义扩充信息。二、通过门控单元来控制字向量与位置词向量对模型的影响程度。具体如步骤二和步骤三所示。具体技术内容如下:
步骤一:通过BERT模型对待识别的句子进行预训练,得到句中每个字的特征向量:
以句子为单位进行输入,输入的序列X={x1,x2,…,xn},其中n代表一句话中字的个数,得到输入序列的特征C={c1,c2,…,ci,…,cn},其中ci为经过BERT预训练后第i个字的特征向量;
步骤二:以待识别句子中的每一个字为对象,对包含这个字的所有的分词结果进行BIE格式标注,得到每个字的分词标注结果;然后根据BIE格式类别,对每个字的分词结果进行分组;其中,对于第i个字xi,A为分词结果中包含xi的一个词,则对A进行BIE格式标注的具体过程为:如果xi为A中的第一个字符,则A被标注为B;如果xi为A中的中间字符,即非开始与结尾部分,则A被标注为I;如果xi为A中的结尾字符,则A被标注为E;
步骤三、对步骤二得到的分组结果提取每个组内所有分词的特征向量,将每个组内的所有分词的特征向量与当前字的特征向量进行融合,采用注意力机制来控制每个组的贡献程度,最后将每个组信息融合,得到每一个词的融合词向量;
步骤四:通过门控机制对字特征与融合词向量进行处理,得到所有字的门控单元的输出特征向量;
步骤五:通过BiLSTM与CRF模块对步骤四得到的所有字的融合词向量进行序列标注,得到最优序列标注,实现命名实体识别。
进一步的,步骤三具体包括如下步骤:
(1)提取句子中所有分词结果的词特征向量W={w1,w2,…,wI},其中I代表句子中所有的分词结果;
(2)在步骤二中得到了基于当前字的分词标注结果,提取分词标注结果中每个词的词向量,其中,分词标注结果一共分为三类,即B,I,E,每一类包含0个或多个词,如果分词标注类别中包含多个结果,即多个词向量,则将其进行融合,即
其中指的是当前字i下针对每个c融合的词特征向量,c代表标注的类别,tag代表分组类别,N代表每个标注内包含的分词个数,当前字包含的词向量的集合为:
(3)对于每一个标注类别c,通过当前字的特征向量与c所属组的特征向量进行拼接,计算权重
其中,为训练的参数,σ是一个sigmoid函数,ci为当前字的特征向量;
(4)对所有类型的标签tag进行softmax操作,得到相应的注意力系数具体如下:
(5)将得到的每个类别的权重系数与对应的位置词向量进行融合,这个可以更加准确的表达当前字包含的位置词全部信息,具体如下:
其中,si是融合所有标注的位置词的输出,即当前第i个字xi的融合词向量。
进一步的,步骤四所述的当前第i个字xi的门控单元的输出特征向量oi表示如下:
其中,代表element-wise相乘,也就是对应元素相乘,/>代表向量的拼接操作;
ri=σ(W1·ci+W2·si+b)
其中W1,W2为模型训练参数,b为偏置系数。
本发明提出的基于标签引导的字词融合模型在识别的效率上有较大的提升,其中主要原因是我们通过添加标签信息与词信息能够提取更多的语义信息并通过门控单元控制字与词的贡献程度。本发明通过此方法能够改善词边界识别错误的问题并能够减少未登陆词(OOV)的产生。
附图说明
图1:本发明方法流程图;
图2:基于语义扩充的字词融合的命名实体识别模型;
图3:基于标签分组的方法;
具体实施方式
本发明提出的标签引导的字词融合的命名实体识别方法能够解决以往分词工具不准确造成的分词错误的问题。采用标注信息对句子的分词结果进行分组,并对组内信息进行融合,能够有效的获得这个位置词的信息;将位置词信息与当前字的信息进行融合,增强位置词的信息表达;采用注意力机制,对每个位置词进行分配权重,使其更加关注正确的词的标签;采用Gated Mechanism来动态的权衡字特征与位置词向量特征的比重,最后通过BiLSTM与CRF找到最优序列。图1给出了基于标签引导的字词融合的命名实体识别流程图。
本发明通过以下技术方案实现:
首先对其数据集进行分词处理,得到每句话的分词结果。通过预训练模型获得每句话的字向量与词向量,并对词向量按照BIE标注法进行分组,通过分组后的位置词向量与当前字向量进行拼接然后进行归一化操作。采用注意力机制为每组位置词分配权重,得到的位置词融合特征后与当前字的特征采用Gated Mechanism进行结合,将得到的最终特征输入到BiLSTM与CRF单元中,输出预测的最优标签。其具体步骤如下:
步骤一:通过现有技术BERT模型进行预训练来得到每个字的特征向量
我们按照以句子为单位进行输入,输入的序列X={x1,x2,…,xn},其中n代表一句话中字的个数。我们采用BERT模型进行预训练,来获取每个字的特征向量。我们采用的是Google在大型中文语料库中训练好的模型chinese_L-12_H-768_A-12,得到字序列的特征为C={c1,c2,…,ci,…,cn},其中ci为经过BERT预训练后每个字的特征向量,维度为300。
BERT模型是自然语言处理预训练语言表征模型。它能够计算词语之间的相互关系,通过左右文本内容联合调节进行训练,其训练得到的模型可从文本中提取更精准的语言信息特征。此外,BERT利用了自注意力机制的结构来进行预训练,基于所有层融合左右两侧语境来预训练深度双向表征,比起以往的预训练模型。它捕捉到的是真正意义上的上下文信息,并能够学习到连续文本片段之间的关系。
步骤二:以句子中每一个字为对象,通过BIE标注法对包含这个字的所有的分词结果进行格式标注,得到每个字的分词标注结果。
该部分的创新点有两个,其一是我们保留了分词之后所有的结果,没有去掉出现频次较低的词语,这种方式有效的减少了OOV的产生。其二是我们根据当前字的分词结果对其分组处理,以便在利用词信息的同时也应用标签信息,扩充了语义信息并捕获深层次的语义信息,提高模型的精度。
由于模型是按照句子进行输入,首先我们对每个句子进行分词处理。采用jieba分词工具,此分词工具在中文上表现优异。经过jieba分词处理完毕后,我们需要保留所有的分词结果,以“重庆市长江大桥”为例,分词结果为[“重庆”,“重庆市”,“市长”,“重庆市长”,“长江”,“长江大桥”,“江大桥”,“大桥”]。
在分词完成之后,我们根据标注schema对分词结果进行分组,以句子中每一个字为对象,对包含这个字的所有的分词结果进行格式标注。具体标注格式为BIE,其中B代表实体中的第一个字符,I代表实体的中间部门,即非开始与结尾部分,E代表实体中的结尾字符。得到每个字的分词标注结果。我们需要判断分词结果中包含当前字的位置,查看这个字在分词结果中所处的位置,然后按照BIE对分词结果进行分组。以“重庆市长江大桥”为例,我们当识别“江”这个字,其包含的分词结果包含[“长江”,“江大桥”,“长江大桥”],按照标注法进行分组得到的结果为{B:[江大桥],I:[长江大桥],E:[长江]},通过这种方法我们可以充分的利用标注信息以及词信息。
步骤三、通过步骤二得到的分组结果提取每个组内特征向量,将每个组内的信息与当前字信息进行融合,采用注意力机制来控制每个组的贡献程度,最后将每个组信息融合,得到词的特征向量。
该部分的创新点有两个,其一我们将获取的组内特征向量与字特征向量采用拼接进行融合,融合之后通过激活函数对其进行处理映射到(0,1)范围内。其二,我们应用了注意力机制,我们需要注意每个组内信息对于我们当前字的重要程度,在训练过程中不断的调整其权重系数,把注意力放在更重要的信息上。
我们对句子中所有分词结果进行词向量获取,采用与字训练相同的方式,得到词的特征向量W={w1,w2,…,wI},其中I代表句子中所有的分词结果,维度设置为300。在步骤二中,我们得到了基于当前字的分词标注结果,我们提取分词标注结果中每个词的词向量。分词标注结果一共分为三类,即B,I,E,其中每一类包含一个或多个词,如果分词标注类别中包含多个结果,即多个词向量,我们将其进行融合,即
其中指的是当前字i下针对每个c融合的词特征向量,c代表标注的类别,tag代表分组类别,N代表每个标注内包含的分词个数。当前字包含的词向量的集合为:
之后,对于每一个标注类别c,通过当前字的特征向量与c所属组的特征向量进行拼接,计算权重
其中,为训练的参数,首先随机初始化其参数,随着模型的训练,通过反向传播去不断调整参数。σ是一个sigmoid函数,ci为当前字的特征向量。然后,对所有类型的标签tag进行softmax操作,得到相应的注意力系数/>
最后,我们将得到的每个类别的权重系数与对应的位置词向量进行融合,这个可以更加准确的表达当前字包含的位置词全部信息。
其中,si是融合所有标注的位置词的输出,即融合词向量。
步骤四:通过门控机制对字符特征与融合词特征进行处理,得到门控单元的输出特征向量。
在步骤三中,我们采用了注意力机制来区分不同标注对于位置词向量的影响,把注意力放在更重要的信息上。为了提高模型的表达能力,我们提出了一种门控单元机制(GatedMechanism)将我们得到的融合词特征向量si与字向量ci放入门控单元中去,具体如图2所示,我们期望这样的机制能够动态地权衡和决定如何利用位置词信息和字信息。
ri=σ(W1·ci+W2·si+b)
其中W1,W2为模型训练参数,b为偏置系数,ci为字的特征向量,si为融合词特征向量,σ是一个sigmoid函数。我们使用oi来控制它们之间的贡献,公式如下所示:
oi是输入字符xi经过门控机制的输出,代表element-wise相乘,也就是对应元素相乘,/>代表向量的拼接操作,通过这种方式,我们就可以决定是那种信息对于模型更加重要。
步骤五:跟以往的方法一样,通过BiLSTM与CRF模块进行序列标注,得到最优序列标注
在经过步骤四之后,我们得到了字符特征向量与位置词的特征向量oi,接下来与以往的方法一样,没有创新点。通过双向LSTM(长短期记忆循环神经网络)学习序列特征,提取上下文的信息。CRF(条件随机场)用于提取全局最优序列,最终得到最优的序列标注,进而实现命名实体识别。具体的实现如下:
LSTM的核心为以下结构:遗忘门、输入门、输出门以及记忆Cell。输入门与遗忘门两者的共同作用就是舍弃无用的信息,把有用的信息传到下一时刻,对于整个结构的输出,主要是记忆Cell的输出和输出门的输出相乘所得到的。其结构用公式表达如下:
it=σ(Wxiot+Whiht-1+Wcict-1+bi)
zt=tanh(Wxcot+Whcht-1+bc)
ft=σ(Wxfot+Whfht-1+bf)
ct=ftct-1+itzt
pt=tanh(Wxpot+Whpht-1+Wcpct+bp)
ht=pt tanh(ct)
其中,σ为激活函数,W是权重矩阵,b是偏置向量,zt是待增加的内容,ct是t时刻的更新状态,it,ft,ot分别是输入门、遗忘门及输出门的输出结果,ht则是整个LSTM单元t时刻的输出。我们在模型中定义了BiLSTM的层数为1层,隐层节点数为300,而且采用的是双向的LSTM,即每一时刻都对应着前向和后向的信息,其输出如下式所示:
在得到序列信息之后,我们经过一个全连接层将其映射到标签对应维度,也就是对于每一个字获得每个字对应的标签的得分。最通过CRF模块来处理输出标签之间的依赖关系,获得一个最优的预测序列。对于一个输入序列X={x1,x2,…,xn},假定P是BiLSTM的输出得分矩阵,P的大小为n*k,其中n为词的个数,k为标签个数,Pij表示第i个字的第j个标签的分数,对预测序列Y={y1,y2,…,yn}而言,得到它的分数函数为:
其中,A表示转移分数矩阵,Aij代表标签i转移为标签j的分数,A的大小为k+2,预测序列Y产生的概率为:
两头取对数得到预测序列的似然函数:
式中,表示真实的标注序列,YX表示所有可能得标注序列,解码后得到最大分数的输出序列:
本发明对上述方法进行了实验验证,并取得了明显的效果。本发明使用2006年SIGHAN中文命名实体识别评测的MSRA语料库和Weibo数据集,其中MSRA数据集属于新闻领域,有三种实体类型:人名(PER)、地名(LOC)和组织名(ORG)。Weibo数据集属于社交媒体领域,有四种实体类型:人名(PER)、组织名(ORG)、地名(LOC)和地缘政治(GPE),且每个类型分别由特定实体和指代实体组成。上述两个数据集均包含人工标注的标签信息,由于MSRA数据集中没有验证集,我们在训练集中分出20%作为验证数据集。
本发明充分了利用标签信息,所以采用BIEO标注法则进行标注,其中B代表着“实体中的第一个字符”,I代表着“实体中间的字符”,E代表着“实体末尾的字符”,O代表着“其他字符”。我们采用此标注法包含了更加丰富的标注信息,能够对实体进行更加细化的划分。本发明是用了在MUC评测会议上所提出的命名实体识别评价指标,即精确率(Precision,P),召回率(Recall,R)和F1值(F1值为召回率和精确率的加权调和平均值),具体的公式如下:
本发明做了相关实验,对比了当前效果最优的几种方法,其中包括2013年Zhang和2016年Zhou所提出的模型,这些模型利用了丰富的手工特性;以及对比了最近基于深度学习效果最好的模型。由于因为我们的模型使用BERT作为预训练,我们采用BERT模型和BERT-BiLSTM-CRF模型作为baseline。其中在MSRA数据集上我们模型的实验结果如表1,在Weibo数据集上实验结果如表2所示。
从实验结果来看,我们提出的模型(OURS)在MSRA和Weibo数据集上都优于其他网络模型。这证明了通过标签引导的字词融合模型以及注意力机制能够学习到更好的语义信息,采用门控机制能够动态的更新字与位置词的贡献程度,从而能够捕获更多的特征上下文信息。
表1 MSRA数据集上的实体识别性能
Model | P | R | F1 |
Zhang et al.(2006) | 92.20 | 90.18 | 91.18 |
Zhou et al.(2013) | 91.86 | 88.75 | 90.28 |
Dong et al.(2016) | 91.28 | 90.62 | 90.95 |
Lattice-LSTM(2018) | 93.57 | 92.79 | 93.18 |
CAN-NER(2019) | 93.53 | 92.42 | 92.97 |
LR-CNN(2019) | 94.50 | 92.93 | 93.71 |
BERT | 93.4 | 94.12 | 93.76 |
BERT-BiLSTM-CRF | 95.06 | 94.61 | 94.83 |
OURS | 95.23 | 95.10 | 95.15 |
表2 Weibo数据集上的实体识别性能
Claims (2)
1.基于标签引导的字词融合的命名实体识别方法,其特征在于包括以下步骤:
步骤一:通过BERT模型对待识别的句子进行预训练,得到句中每个字的特征向量:
以句子为单位进行输入,输入的序列X={x1,x2,…,xn},其中n代表一句话中字的个数,得到输入序列的特征C={c1,c2,…,ci,…,cn},其中ci为经过BERT预训练后第i个字的特征向量;
步骤二:以待识别句子中的每一个字为对象,对包含这个字的所有的分词结果进行BIE格式标注,得到每个字的分词标注结果;然后根据BIE格式类别,对每个字的分词结果进行分组;其中,对于第i个字xi,A为分词结果中包含xi的一个词,则对A进行BIE格式标注的具体过程为:如果xi为A中的第一个字符,则A被标注为B;如果xi为A中的中间字符,即非开始与结尾部分,则A被标注为I;如果xi为A中的结尾字符,则A被标注为E;
步骤三、对步骤二得到的分组结果提取每个组内所有分词的特征向量,将每个组内的所有分词的特征向量与当前字的特征向量进行融合,采用注意力机制来控制每个组的贡献程度,最后将每个组信息融合,得到每一个词的融合词向量;
步骤四:通过门控机制对字特征与融合词向量进行处理,得到所有字的门控单元的输出特征向量;
步骤五:通过BiLSTM与CRF模块对步骤四得到的所有字的融合词向量进行序列标注,得到最优序列标注,实现命名实体识别;
步骤三具体包括如下步骤:
(1)提取句子中所有分词结果的词特征向量W={w1,w2,…,wI},其中I代表句子中所有的分词结果;
(2)在步骤二中得到了基于当前字的分词标注结果,提取分词标注结果中每个词的词向量,其中,分词标注结果一共分为三类,即B,I,E,每一类包含0个或多个词,如果分词标注类别中包含多个结果,即多个词向量,则将其进行融合,即
其中指的是当前字i下针对每个c融合的词特征向量,c代表标注的类别,tag代表分组类别,N代表每个标注内包含的分词个数,当前字包含的词向量的集合为:
(3)对于每一个标注类别c,通过当前字的特征向量与c所属组的特征向量进行拼接,计算权重
其中,为训练的参数,σ是一个sigmoid函数,ci为当前字的特征向量;
(4)对所有类型的标签tag进行softmax操作,得到相应的注意力系数具体如下:
(5)将得到的每个类别的权重系数与对应的位置词向量进行融合,表达当前字包含的位置词全部信息,具体如下:
其中,si是融合所有标注的位置词的输出,即当前第i个字xi的融合词向量。
2.根据权利要求1所述的基于标签引导的字词融合的命名实体识别方法,其特征在于步骤四所述的当前第i个字xi的门控单元的输出特征向量oi表示如下:
其中,代表element-wise相乘,也就是对应元素相乘,/>代表向量的拼接操作;
ri=σ(W1·ci+W2·si+b)
其中W1,W2为模型训练参数,b为偏置系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110027765.4A CN112699685B (zh) | 2021-01-08 | 2021-01-08 | 基于标签引导的字词融合的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110027765.4A CN112699685B (zh) | 2021-01-08 | 2021-01-08 | 基于标签引导的字词融合的命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699685A CN112699685A (zh) | 2021-04-23 |
CN112699685B true CN112699685B (zh) | 2024-03-29 |
Family
ID=75513667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110027765.4A Active CN112699685B (zh) | 2021-01-08 | 2021-01-08 | 基于标签引导的字词融合的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699685B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255294B (zh) * | 2021-07-14 | 2021-10-12 | 北京邮电大学 | 命名实体识别模型训练方法、识别方法及装置 |
CN115292518A (zh) * | 2022-08-18 | 2022-11-04 | 国家电网有限公司 | 基于知识型信息抽取的配电网故障处理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
CN111243699A (zh) * | 2020-01-14 | 2020-06-05 | 中南大学 | 基于字词信息融合的中文电子病历实体抽取方法 |
CN111582232A (zh) * | 2020-05-21 | 2020-08-25 | 南京晓庄学院 | 一种基于像素级语义信息的slam方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
-
2021
- 2021-01-08 CN CN202110027765.4A patent/CN112699685B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024704A1 (zh) * | 2017-08-03 | 2019-02-07 | 阿里巴巴集团控股有限公司 | 实体标注方法、意图识别方法及对应装置、计算机存储介质 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN111243699A (zh) * | 2020-01-14 | 2020-06-05 | 中南大学 | 基于字词信息融合的中文电子病历实体抽取方法 |
CN111582232A (zh) * | 2020-05-21 | 2020-08-25 | 南京晓庄学院 | 一种基于像素级语义信息的slam方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
Non-Patent Citations (1)
Title |
---|
基于BERT的中文命名实体识别方法;王子牛 等;计算机科学;20191130;第46卷(第11A期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112699685A (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11941522B2 (en) | Address information feature extraction method based on deep neural network model | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN109800437A (zh) | 一种基于特征融合的命名实体识别方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN111881262A (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN113673254B (zh) | 基于相似度保持的知识蒸馏的立场检测方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN114625882B (zh) | 提高图像文本描述独特多样性的网络构建方法 | |
Ye et al. | Chinese named entity recognition based on character-word vector fusion | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
Wei et al. | Sentiment classification of tourism reviews based on visual and textual multifeature fusion | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
CN115422939B (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN116579342A (zh) | 基于双特征联合提取的电力营销命名实体识别方法 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |