CN111783462B

CN111783462B - 基于双神经网络融合的中文命名实体识别模型及方法

Info

Publication number: CN111783462B
Application number: CN202010608591.6A
Authority: CN
Inventors: 赵丹丹; 孟佳娜; 刘爽; 张志浩
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-07-04
Anticipated expiration: 2040-06-30
Also published as: CN111783462A

Abstract

基于双神经网络融合的中文命名实体识别模型及方法,属于命名实体识别领域，用于解决现有单个模型往往存在特征表示不足的问题，包括Bert嵌入层，用于将句子从一个字符序列转换到一个密集向量序列；带有自注意力机制的Bi_LSTM层，从全程上下文学习字的隐性表示，并处理句子层信息，获取具有长距离依赖特征的上、下文信息；堆叠DCNN层，将更广泛的上下文信息合并到标记中表示，并抽取文字的局部信息，获取具有广泛局部特征的上、下文信息；CRF解码层，将双模型输出解码为序列标记，将命名实体通过序列标记标注的标签显性输出，效果是增强了模型在字符序列间隐式获取上下文表示的能力。

Description

基于双神经网络融合的中文命名实体识别模型及方法

技术领域

本发明属于命名实体识别领域，涉及一种基于双神经网络融合的中文命名实体识别模型及方法。

背景技术

命名实体识别(NER)作为信息抽取的一项基础性工作，近年来一直受到人们的关注。NER的任务是从文本中识别实体名，并将其类型分为不同的类别，如人名、地名、组织机构名等。例如，给定一句话“史蒂夫·乔布斯是苹果的创始人”，NER的任务是识别出“史蒂夫·乔布斯”是一个人名实体，“苹果”是一个公司名实体。NER是自然语言处理(NLP)领域中的一个基础而重要的任务，可以用于许多下游的NLP任务，如实体链接、关系抽取和问题回答。

对命名实体识别的研究已进行了很久，研究者也使用了各种方法，包括隐马尔可夫模型(HMMs)、最大熵模型(ME)和条件随机场(CRF)，效果不尽理想。随着深度学习的发展，神经网络被引入到命名实体识别任务中。例如，(Huang等人，2015)提出了一个使用Bi_LSTMCRF的英文命名实体识别模型，(Ma和Hovy，2016)提出利用CNN网络的特点学习字符级特征，并提出了一种BiLSTM-CNNs-CRF神经模型。在其方法中，词的特征包括词嵌入和利用CNN网络从字符中学习到的字嵌入。由于传统CNN提取长序列输入特征的能力较弱，(Strubell等人，2017)提出使用扩展卷积来增加感受野以缓解长距就离依赖问题。然而，这些方法在学习更好的描述能力上仍然较弱。

对比英文文本的命名实体识别，中文的命名实体识别更困难。首先，中文中没有像英文一样自然分割符，这使得词边界模棱两可。例如：在句子中“人民广场”是一个地名类型的命名实体，但在不同的分词软件中，它可能被分割为两个词，分别是“人民”和“广场”。很多时候，分词粒度难以确定和统一。此外，基于词的模型会受到未登录词问题的困扰，因为汉语词汇量巨大，命名实体是未登录词的重要来源。其次，中文命名实体对上下文依赖性更高。如句子“文章主演雪豹”中的“文章”是人名实体。然而，在大多数的中文句子中“文章”一词代表非命名实体的意思，对模型而言很难学到这种不同的上下文的表示。

发明内容

为了解决上述问题，本发明提出用神经网络融合的方法来识别中文命名实体，在提出的BERT-Dual-CRF框架中，对中文命名实体学习上下文相关的字表示。

一种基于双神经网络融合的中文命名实体识别模型，包括：Bert嵌入层，用于将句子从一个字符序列转换到一个密集向量序列；带有自注意力机制的Bi_LSTM层，从全程上下文学习字的隐性表示，并处理句子层信息，获取具有长距离依赖特征的上、下文信息；堆叠DCNN层，将更广泛的上下文信息合并到标记中表示，并抽取文字的局部信息，获取具有广泛局部特征的上、下文信息；CRF解码层，将双模型输出解码为序列标记，将命名实体通过序列标记标注的标签显性输出。

进一步的，输入的句子为X＝{x₁，x₂，…，x_N},其中

代表句子X中的第i个字，N代表句子长度，/>

表示整个汉字空间；标签序列Y＝{y₁,y₂,…,y_N}，其中/>

代表在所有可能标签集合/>

中第i个字的标签；目标是学习一个函数f_θ:X→Y来获取输入文本中所有字的实体类型。

进一步的，

根据实验所用的语料集不同而有区别，如/>

分别代表人名的开始字，人名中间字，地名开始字，地名中间字，组织名开始字，组织名中间字，非人名、地名、组织名字。

进一步的，Bert嵌入层：预训练的BERT模型用一个双向的transformer作编码层，每个字符的表示能将字左右两侧的信息相融合，设定每个字的输入向量由x_i组成，BERT词向量层输出表示为e_i＝BERT(x_i)。

进一步的，带有自注意力机制的Bi_LSTM层：用双向的LSTM从全程上下文来学习字的隐性表示，其计算表示如下：

e_i代表从Bert嵌入层输出的第i个字，

分别代表LSTM的正向输出和逆向输出；

LSTM单元的计算如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

i、f、o分别代表输入门、遗忘门和输出门，x_t代表t时刻的输入向量，W_i、W_f、W_o、W_c和b_i、b_f、b_o、b_c分别表示输入连接、遗忘连接、输出连接、候选输出连接的训练参数矩阵和偏置向量，

代表t时刻的候选输出值，C_t代表第t个单词的记忆单元，h_t代表第t个字的隐层输出向量；

σ代表sigmoid激活函数，tanh表示双曲正切激活函数，·表示点乘；

输入门和输出门乘以存储单元的输入向量和输出向量后得到当前时刻实际的输入值和输出值；

遗忘门乘以前一时刻的存储单元向量得到实际有用的历史信息；

将Bi_LSTM的正向输出

与逆向输出/>

的首尾相连进行拼接，即将逆向输出放在正向输出末尾，得到第i个字的隐性表示向量h_i：

Bi_LSTM的输出层是h＝[h₁,h₂,…,h_N]，

S是LSTM输出向量的维度；

自注意机制描述为将查询和一组键值对映射到输出，其中查询、键、值和输出都是向量，输出计算为值的加权和，其中分配给每个值的权重由查询与相应的键计算获得，

给定Bi_LSTM层的输出层h＝[h₁,h₂,…,h_N]，采用线性变换获得查询、键和对应的值，相应的计算如下：

q_i＝W_qh_i+b_q

k_i＝W_kh_i+b_k

v_i＝W_vh_i+b_v

其中，q_i、k_i、v_i分别代表查询向量、键向量和值向量，W_q、W_k和W_v分别为随机初始化的对应参数矩阵，b_q、b_k和b_v分别为对应的偏置向量；

应用全局自注意力机制处理字在句子层隐性表示如下：

i＝1,2,…,N代表句子中所有的字，

是第i个字attention层输出，v_i为上面得到的值向量,a_i,j为attention得分系数，其计算如下：

其中s为两个向量间的点积运算，以获得向量间关联。

进一步的，

堆叠DCNN层：通过BERT嵌入层，输入的句子被表示为e＝{e₁,e₂,…,e_N}，第j个扩展的卷积层扩展宽度δ为D_δ ^(j)，网络的第一层的扩展卷积为D₁ ⁽⁰⁾，将向量表示转换为隐层表示h⁽¹⁾：

最高L层的扩展卷积在前一层输出的基础上应用带有ReLU的激活函数：

其中，j∈{1,2,…,L-1}，将最后一层的输出表示为：

h^dcnn＝h^(L)

进一步的，CRF解码和训练层：用一个CRF层来做序列标记，表示自注意力层的输出为

DCNN层的输出为/>

将双模型的输出进行融合拼接，其结果表示为：

h^f＝[h^attn,h^dcnn]

h^f为CRF层的输入。设标签序列Y＝{y₁,y₂,…,y_N},对给定输入h^f，标签序列Y的计算如下：

其中，Y(s)是句子s的一组所有可能标签序列，并且，

是函数得分，其计算如下：

其中，W是输入值与当前输出间的转换矩阵,T是前项输出与当前输出间的转换矩阵。

进一步的，训练中利用负对数似然目标函数作为损失函数，对于给定的一组训练集

K为训练集长度，损失函数Loss定义如下：

进一步的，BERT后的嵌入大小为768，最大长度为128，双向LSTM隐藏状态的维数为128，对于自注意机制将维度设置为300，CNN模型设置池大小为32，核大小k为3，其膨胀率分别为1、1、2的3层，LSTM和CNN的丢失率是0.5。

一种基于双神经网络融合的中文命名实体识别方法，包括如下步骤：

将句子从一个字符序列转换到一个密集向量序列；

从全程上下文学习字的隐性表示，并处理句子层信息，获取具有长距离依赖特征的上、下文信息；

将更广泛的上下文信息合并到标记中表示，并抽取文字的局部信息，获取具有广泛局部特征的上、下文信息；

将双模型输出解码为序列标记，将命名实体通过序列标记标注的标签显性输出。

有益效果：本发明对中文实体识别较现有方法在精确度(P)、召回率(R)和F1值作为评估标准有所提高。

附图说明

图1模型架构图。

具体实施方式

中文命名实体识别：多种以前的工作因为中文各个词之间没有如空格之类的分隔符而试图将中文句子视为一个字符串来解决问题。传统模型依赖于规则或手工抽取的特征(如词格、词形、词性标记等)。基于这些特征，许多机器学习算法已应用于有监督的NER，包括HMMs，SVM和CRF。最近几年，神经网络方法已应用于英文NER。这表明善于自动挖掘隐藏特征的神经网络可以无需手工特征就胜出传统的机器学习方法。基于深度学习的模型将NER任务视为序列标注任务，包括分布式词表示的输入、上下文编码和标记解码。

输入的分布式表示：根据粒度的不同，大多数模型可以分为两类：基于词的模型和基于字符的模型。在基于单词的模型中，(Collobert和Weston，2008年)提出了第一个基于单词的命名实体识别模型，其特征由正字法特征、字典和词典构成。(翟等人，2017)设计了一个用于序列组块的神经模型，该模型包括两个子任务：分割和标记。该神经模型可以采用SENNA嵌入或随机初始化嵌入。此外，GloVe(Li et al.，2017)和fastText(Wang et al.，2018)也广泛应用于NER任务。然而，当上述模型应用于中文NER时，都因为必须进行中文分词存在分词错误。在基于字的模型中，(Ma和Hovy,2016)用CNN来抽取词的字符级表示。然后，字符的向量表示与词向量拼接作为RNN编码器的输入。(He和Sun,2017)加入字符位置的考虑。近来，ELMo的词表示(Peters et al.,2018)被用于命名实体识别，它在具有字符卷积的两层双向语言模型上进行计算。然而，基于字符的模型仍然缺乏学习更好的表示的能力，因为汉语单词包含了许多对汉语命名实体识别有用的信息。

上下文编码：基于深度学习方法，广泛应用的上下文编码框架包含卷积神经网络、循环神经网络和深度transformer.(Collobert et al.,2011)提出了一种考虑整句的词性标注网络。(Strubell et al.,2017)提出了一种迭代扩张卷积神经网络(ID-CNNs)，它在上下文和结构化预测方面比传统CNNs具有更好的性能。为了更好地模拟序列信息，(Lampleet al.,2016)提出用双向长短时记忆模型(Bi-LSTM)来编码序列上下文信息。最近，基于transformer(Vaswani et al.,2017)，自注意力机制被应用于进一步提高准确率和效率(Kitaev and Klein,2018)。

标签解码：标签解码是命名实体识别模型的最后一步。它将上下文相关的表示作为输入，并生成与输入序列对应的标记序列。早期引入的许多命名实体识别模型(Blancoet al.，2015；Li et al.，2017；Xu et al.，2017)使用MLP+Softmax作为标签解码器。由于命名实体识别任务在输出标签之间有很强的依赖性，许多模型使用CRF层作为标签解码器(Zheng et al.，2017；Akbik et al.，2018)。

注意力机制相关模型：注意力机制在包括翻译、阅读理解和自然语言处理的相关的广泛任务(Tan et al.,2018；Seo et al.,2016)中都有很好的表现。神经注意力机制使神经网络能够专注于其输入的子集。命名实体识别模型可以捕获输入中信息量最大的元素。注意机制在NER任务中的应用还有很多其他的方法。(Rei et al.,2016)提出了一种采用注意机制将基于字符的表示与单词嵌入相结合而不是简单地连接起来的模型。这种方法允许模型动态地决定每个单词使用哪一个信息源，因此比以前的工作中使用的连接方法有更好的性能。(Zhang等人，2018)通过自适应共同注意网络，将微博中的图片用作外部信息，以决定是否以及如何将图片集成到模型中。这种方法只能应用于像Tweets这样有文本相关图片的网站，但是这样的资源是不够的。(Zukov Gregoric等人，2017年)探讨了命名实体识别中的自注意力机制，其中权重依赖于单个序列(而不是两个序列之间的关系)。(Xu等人，2018)提出了一种基于注意力的神经网络架构，以利用文档级的全局信息。特别地，文档级信息是从预先训练好的具有神经注意的双向语言模型表示的文档中获取的。

扩张卷积神经网络相关模型：提取低层次和合适的特征对于许多NLP任务非常重要，例如句子分类(Kim，2014；Kalchbrenner et al.，2014；Zhang et al.，2015；Toutanovaet al.，2015)、情感分析(Dos Santos and Gatti，2014；Severyn and Moschitti，2015；Poria et al.，2015；Ouyang et al.，2015)、语音识别(Abdel Hamid等，2014年；AbdelHamid等人，2012年；Swietojanski等人，2014年)。传统CNN使用池化操作来降低原始文本的维数，然而却因信息损失而影响结果。(Lei等人，2015)提出了一种CNN变体，其中卷积自适应地跳过相邻单词，并采用具有指数增长扩展宽度的叠加扩展卷积的上下文模块。由于扩张卷积神经网络具有更好的表达能力，因此越来越多的模型采用了它。扩张卷积最近被应用于语音生成任务(Oord等人，2016年)，机械翻译(Kalchbrenner等人，2016年)。已有的研究表明，扩张卷积对NER任务也有很好的影响(Blanco等人，2015年)。

深度学习用于命名实体识别：近来，在命名实体识别中用深度学习技术的方法还有很多，包括深度多任务学习、深度迁移学习、深度主动学习、深层对抗学习与深层强化学习。多任务学习是一组相关任务组合起来学习的方法。(Yang et al.,2016)提出多任务联合模型，学习特定语言规则，联合训练词性标注、组块和命名实体识别任务。迁移学习的目标是利用从源域学习到的知识在目标域上执行机器学习任务。(Qu et al.,2016)观察到相关的命名实体类型通常共享词汇和上下文特征。他们的方法使用两层神经网络学习源和目标命名实体类型之间的相关性。主动学习是一种机器学习算法，它能以较少的训练数据表现出更好的性能。(Shen等人，2017年)提出对每批新标签的命名实体识别进行增量训练。对抗学习的目的是使模型对攻击更为鲁棒，或者减少模型在干净输入下的测试误差。强化学习也是一种机器学习，其思想是一个agent通过与环境交互并通过执行动作获得奖励来从环境中学习。

基于上述技术路线，由于中文实体名称高度依赖于上下文，而且中文文本缺少分隔符来分隔单词，这一点非常具有挑战性。此外，单个模型往往存在特征表示不足的问题。故而本文提出一种双神经网络融合方法来提高中文命名实体识别性能。在提出的BERT-Dual-CRF框架中，对中文命名实体学习上下文相关的字表示。该模型包含三层四个模型：第一层是预训练BERT层用来学习独立于上下文的字表示；中间层采用一个双向长短时记忆和自注意力机制学习长距离依赖的上下文相关字表示，用一个扩张的卷积神经网络层从局部的上下文来学习与语境相关的字表示；将输出的中间层双模型结果输入最后一层CRF来联合解码出字标签。

请参见图1，是本发明所述模型架构图，底层是用BERT获得的嵌入层；然后通过两个编码层，一个是Bi_LSTM+Attention层,另一个是DCNN层；最后拼接两种词表示并通过CRF层解码。在中文的命名实体识别(NER)任务中，表示输入的句子为X＝{x₁,x₂,…,x_N},其中

代表句子X中的第i个字，N代表句子长度，/>

表示整个汉字空间。对应的，用Y＝{y₁,y₂,…,y_N}表示标签序列，其中/>

代表在所有可能标签集/>

中第i个字的标签；目标是学习一个函数f_θ:X→Y来获取输入文本中所有所有字的实体类型。其中，/>

根据实验所用的语料集不同而有区别，如/>

为了更好地获得输入句子的特征表示，为中文命名实体识别提出了双神经网络模型。模型架构如图1所示。

Bert嵌入层：第一层是嵌入层，其目标是将句子从一个字符序列转换到一个密集向量序列。为了通过预训练获得先验知识，本发明提出用BERT作为词嵌入层。预训练的BERT模型用一个双向的transformer作编码层，所以每个字符的表示能将字左右两侧的信息相融合。设定每个字的输入向量由Xi组成，BERT词向量层输出表示为e_i，于是其计算如下：

e_i＝BERT(x_i)

对比其他语言模型，BERT预训练语言模型能够充分利用字的左右两侧信息，以获得字的更好的分布式表示。

双模融合编码层，其包括带有自注意力机制的Bi_LSTM层和堆叠DCNN层：

为了更好的获得句子的特征表示，本发明提出用双模融合的方法来对此向量编码。一个模型用带注意力的双向长短时记忆(Bi_LSTM)，另一个是用扩张的卷积(DCNN)。于是，通过两个网络获得字的向量表示，使这两个不同的神经网络能获得更好的特征表示。

Bi_LSTM+自注意力机制

在这个模型中，本发明提出一个带有自注意力机制的Bi_LSTM架构。LSTM是一种能够获取长距离信息的特殊循环神经网络，并对序列数据处理非常有效。另外，由于左右上下文对识别命名实体都有用，因此，用双向的LSTM(Bi-LSTM)从全程上下文来学习字的隐性表示。其计算如下：

e_i代表从BERT层输出的第i个字，

代表LSTM的前项和后向输出。

LSTM单元的计算如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

i、f、o分别代表输入门、遗忘门和输出门，x_t代表t时刻的输入向量，W_i、W_f、W_o、W_c和b_i、b_f、b_o、b_c分别表示输入连接、遗忘连接、输出连接、候选输出连接的训练参数和偏置向量，

将Bi_LSTM的正向输出

与逆向输出/>

Bi_LSTM的输出层是h＝[h₁,h₂,…,h_N]，

S是LSTM输出向量的维度；

注意力是人类不可或缺的一种复杂的认知功能，是指人们在注意某些信息的同时忽略某些信息的能力。在神经网络处理大量输入信息时，也可以仿照人脑的注意机制，只选择一些关键的输入信息进行处理，以提高神经网络的效率。

自注意力机制描述为将查询和一组键值对映射到输出，其中查询(query,记为q)、键(key,记为k)、值(value,记为v)和输出(记为

)都是向量，输出计算为值(v)的加权和，其中分配给每个值(v)的权重由查询(q)与相应的键(k)计算，

特别地，给定Bi_LSTM层的输出层h＝[h₁,h₂,…,h_N]，我们首先采用线性变换获得查询、键和对应的值，相应的计算如下：

q_i＝W_qh_i+b_q

k_i＝W_kh_i+b_k

v_i＝W_vh_i+b_v

其中，q_i、k_i、v_i分别代表h_i对应的查询向量、键向量和值向量，W_q、W_k和W_v分别为随机初始化的对应参数矩阵，b_q、b_k和b_v分别为对应的偏置向量；

应用全局自注意力层处理句子层信息如下：

i＝1,2,…,N代表句子中所有的字，

是第i个字的attention层输出，v_i为上面得到的值向量,a_i,j为attention得分系数，其计算如下：

其中s为两个向量间的点积运算，以获得向量间关联。

DCNN层：卷积神经网络已经被广泛地应用于计算机视觉来抽取图片的局部信息。受扩展的卷积神经网络(DCNN)启发，本发明提出使用堆叠DCNN进一步增加感受野，以将更广泛的上下文合并到token的表示中，而不是简单的卷积。

经过BERT嵌入层，输入的句子被表示为e＝{e₁,e₂,…,e_N}.本发明表示第j个扩展的卷积层扩展宽度δ为D_δ ^(j)网络的第一层是扩展是D₁ ⁽⁰⁾，它将向量表示转换为隐层表示h⁽¹⁾：

接着，L层的扩展卷积被应用于带有ReLU激活函数的前一层输出：

其中，j∈{1,2,…,L-1}，最后的输出表示如下：

h⁽¹⁾＝h^(L)

CRF解码和训练层：考虑连续标签之间的依赖性，本发明用一个CRF层来做序列标记。本发明表示自注意力层的输出为

DCNN层的输出为

将双模型的输出进行融合拼接，其结果表示为：

h^f＝[h^attn,h^dcnn]

其中，Y(s)是句子s的一组所有可能标签序列，并且，

是函数得分，其计算如下：

训练中利用负对数似然目标函数作为损失函数。对于给定的一组训练集

K为训练集长度，损失函数L定义如下：

本发明将传统的双向LSTM结构和自注意力机制与扩展卷积神经网络相结合，以更好地捕捉具有特征的上下文信息。此外，利用目前Google最强大的NLP预训练模型BERT作为嵌入层。通过提出的更强大的神经网络模型提高了性能。本发明的主要贡献概括如下：

1)提出了一种新的中文命名实体识别框架，称为双神经网络融合方法，以增强该模型在字符序列间隐式获取上下文表示的能力。

2)在两个基准数据集上进行的大量实验表明，本发明的模型得到的F1值超过了先前的最优模型。

以下通过实验及实验数据表明本发明的效果：

实验设置：

数据集：通过两个不同领域的数据集来评估本发明的模型。在新闻领域，本发明在2006 SIGHAN MSRA数据集上实验。为了更广的实验领域，本发明使用了中文简历数据集。

中文简历数据集中标注了八种不同的实体类型：国家、教育机构、人名、地名、机构名、职业、民族、职位名称。MSRA数据集中仅包含三种标注实体类型：人名、地名、机构名。开发子集在MSRA数据集中不可用。两个数据集的详细信息列于表1。

DataSet	Train Sent	Dev Sent	Test Sent
				Chinese resume	3821	463	477
MSRA	46364	-	4365

表1数据集统计

实现细节：本发明使用了Google发布的BERT预训练的标记器和字嵌入。为加速训练和测试模型，当训练模型时，BERT的参数被冻结以减少预先训练的语言模型的影响。实验设置如表2所示：

表2实验设置

对于超参数配置，本发明根据中文实体识别任务在开发集的性能进行调整。BERT后的嵌入大小为768，最大长度为128，双向LSTM隐藏状态的维数为128。对于自注意机制，本发明将维度设置为300。对于CNN模型，设置池大小为32，核大小k为3，和其膨胀率分别为1、1、2的3层。为了避免过度拟合，本发明对LSTM和CNN都采用了0.5的丢失率。在实验中采用精确度(P)、召回率(R)和F1值作为评估标准，对于本发明训练的模型，本发明给出的F1值来自10次以上随机重新启动获得的F1值的平均。

实验结果：本发明会给出本发明提出模型的实验结果和以前在中文简历数据集和MSRA数据集上最先进方法的实验结果。本发明以本发明双模型融合方法作为基准。-LSTM代表基线模型无BiLSTM和自注意力机制，-DCNN代表无DCNN的基线模型。

表3表明最近标注的中文简历数据集结果。与Lattice model(Zhang and Yang,2018)、CAN Model(Zhu andWang,2019)和WC-LSTM+longest(Liu et al.,2019)三个最优结果相比较，本发明的模型不用附加的词法数据和词嵌入信息，取得了96.41％的F1值，高于以上三个模型，表明本发明提出模型的有效性。

Models	P	R	F1
				Lattice(Zhang and Yang,2018)	94.81	94.11	94.46
CAN Model(Zhu andWang,2019)	95.05	94.82	94.94
				WC-LSTM+longest(Liu et al.,2019)	95.27	95.15	95.21
Baseline	96.57	96.37	96.41
				-LSTM	94.02	96.66	95.09
-DCNN	94.19	94.34	94.27

表3中文简历数据集结果

表4列出了MSRA数据集上的实验结果。在上半部分中，本发明给出以前模型在MSRA中文实体识别任务上的表现。(Chen et al.,2006)、(Zhang et al.,2006)和(Zhou etal.,2013)使用了丰富的手工特征，(Dong et al.,2016)在LSTM-CRF中引入了全新特征。(Yang et al.,2018)提出了一种基于字符的CNN-BiLSTM-CRF模型，用于融合笔划嵌入和生成n-gram特征，(Zhang and Yang,2018)引入网格结构，将词汇信息融入到神经网络中，神经网络实际上包含了单词的嵌入信息。第二部分本发明列出了本发明提出模型的结果。从中可以看出，本发明的方法超出以前的方法，取得94.52％的F1值。

Models	P	R	F1
				(Chen et al.,2006)	91.22	81.71	86.20
(Zhang et al.,2006)	92.20	90.18	91.18
				(Zhou et al.,2013)	91.86	88.75	90.28
(Dong et al.,2016)	91.28	90.62	90.95
				.(Yang et al.,2018)	92.04	91.31	91.67
(Zhang and Yang,2018)	93.57	92.79	93.18
				Baseline	94.58	94.47	94.52
-LSTM	94.49	93.29	93.88
				-DCNN	90.63	91.48	90.78

表4 MSRA数据集上的实验结果

本发明提出一个融合双神经网络的方法来提高中文命名实体识别模型的性能。在本发明的模型中，利用预先训练得到的先验知识，利用Bi LSTM+自注意力机制和DCNN来获取具有特征的上下文信息。实验表明，本发明的模型在不同领域的数据集上都优于最先进的系统。对于未来的工作，计划进一步改进所提出的方法，例如探索一些策略，将字级特征与模型结合起来。此外，本发明提出的方法还可以进一步推广到其他中文自然语言处理任务，如CWS、文本分类和情感分析。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。