CN111783462B - 基于双神经网络融合的中文命名实体识别模型及方法 - Google Patents

基于双神经网络融合的中文命名实体识别模型及方法 Download PDF

Info

Publication number
CN111783462B
CN111783462B CN202010608591.6A CN202010608591A CN111783462B CN 111783462 B CN111783462 B CN 111783462B CN 202010608591 A CN202010608591 A CN 202010608591A CN 111783462 B CN111783462 B CN 111783462B
Authority
CN
China
Prior art keywords
output
layer
word
vector
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010608591.6A
Other languages
English (en)
Other versions
CN111783462A (zh
Inventor
赵丹丹
孟佳娜
刘爽
张志浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN202010608591.6A priority Critical patent/CN111783462B/zh
Publication of CN111783462A publication Critical patent/CN111783462A/zh
Application granted granted Critical
Publication of CN111783462B publication Critical patent/CN111783462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

基于双神经网络融合的中文命名实体识别模型及方法,属于命名实体识别领域,用于解决现有单个模型往往存在特征表示不足的问题,包括Bert嵌入层,用于将句子从一个字符序列转换到一个密集向量序列;带有自注意力机制的Bi_LSTM层,从全程上下文学习字的隐性表示,并处理句子层信息,获取具有长距离依赖特征的上、下文信息;堆叠DCNN层,将更广泛的上下文信息合并到标记中表示,并抽取文字的局部信息,获取具有广泛局部特征的上、下文信息;CRF解码层,将双模型输出解码为序列标记,将命名实体通过序列标记标注的标签显性输出,效果是增强了模型在字符序列间隐式获取上下文表示的能力。

Description

基于双神经网络融合的中文命名实体识别模型及方法
技术领域
本发明属于命名实体识别领域,涉及一种基于双神经网络融合的中文命名实体识别模型及方法。
背景技术
命名实体识别(NER)作为信息抽取的一项基础性工作,近年来一直受到人们的关注。NER的任务是从文本中识别实体名,并将其类型分为不同的类别,如人名、地名、组织机构名等。例如,给定一句话“史蒂夫·乔布斯是苹果的创始人”,NER的任务是识别出“史蒂夫·乔布斯”是一个人名实体,“苹果”是一个公司名实体。NER是自然语言处理(NLP)领域中的一个基础而重要的任务,可以用于许多下游的NLP任务,如实体链接、关系抽取和问题回答。
对命名实体识别的研究已进行了很久,研究者也使用了各种方法,包括隐马尔可夫模型(HMMs)、最大熵模型(ME)和条件随机场(CRF),效果不尽理想。随着深度学习的发展,神经网络被引入到命名实体识别任务中。例如,(Huang等人,2015)提出了一个使用Bi_LSTMCRF的英文命名实体识别模型,(Ma和Hovy,2016)提出利用CNN网络的特点学习字符级特征,并提出了一种BiLSTM-CNNs-CRF神经模型。在其方法中,词的特征包括词嵌入和利用CNN网络从字符中学习到的字嵌入。由于传统CNN提取长序列输入特征的能力较弱,(Strubell等人,2017)提出使用扩展卷积来增加感受野以缓解长距就离依赖问题。然而,这些方法在学习更好的描述能力上仍然较弱。
对比英文文本的命名实体识别,中文的命名实体识别更困难。首先,中文中没有像英文一样自然分割符,这使得词边界模棱两可。例如:在句子中“人民广场”是一个地名类型的命名实体,但在不同的分词软件中,它可能被分割为两个词,分别是“人民”和“广场”。很多时候,分词粒度难以确定和统一。此外,基于词的模型会受到未登录词问题的困扰,因为汉语词汇量巨大,命名实体是未登录词的重要来源。其次,中文命名实体对上下文依赖性更高。如句子“文章主演雪豹”中的“文章”是人名实体。然而,在大多数的中文句子中“文章”一词代表非命名实体的意思,对模型而言很难学到这种不同的上下文的表示。
发明内容
为了解决上述问题,本发明提出用神经网络融合的方法来识别中文命名实体,在提出的BERT-Dual-CRF框架中,对中文命名实体学习上下文相关的字表示。
一种基于双神经网络融合的中文命名实体识别模型,包括:Bert嵌入层,用于将句子从一个字符序列转换到一个密集向量序列;带有自注意力机制的Bi_LSTM层,从全程上下文学习字的隐性表示,并处理句子层信息,获取具有长距离依赖特征的上、下文信息;堆叠DCNN层,将更广泛的上下文信息合并到标记中表示,并抽取文字的局部信息,获取具有广泛局部特征的上、下文信息;CRF解码层,将双模型输出解码为序列标记,将命名实体通过序列标记标注的标签显性输出。
进一步的,输入的句子为X={x1,x2,…,xN},其中
Figure BDA0002561603390000021
代表句子X中的第i个字,N代表句子长度,/>
Figure BDA0002561603390000022
表示整个汉字空间;标签序列Y={y1,y2,…,yN},其中/>
Figure BDA0002561603390000023
代表在所有可能标签集合/>
Figure BDA0002561603390000024
中第i个字的标签;目标是学习一个函数fθ:X→Y来获取输入文本中所有字的实体类型。
进一步的,
Figure BDA0002561603390000025
根据实验所用的语料集不同而有区别,如/>
Figure BDA0002561603390000026
Figure BDA0002561603390000027
分别代表人名的开始字,人名中间字,地名开始字,地名中间字,组织名开始字,组织名中间字,非人名、地名、组织名字。
进一步的,Bert嵌入层:预训练的BERT模型用一个双向的transformer作编码层,每个字符的表示能将字左右两侧的信息相融合,设定每个字的输入向量由xi组成,BERT词向量层输出表示为ei=BERT(xi)。
进一步的,带有自注意力机制的Bi_LSTM层:用双向的LSTM从全程上下文来学习字的隐性表示,其计算表示如下:
Figure BDA0002561603390000028
Figure BDA0002561603390000029
ei代表从Bert嵌入层输出的第i个字,
Figure BDA00025616033900000210
分别代表LSTM的正向输出和逆向输出;
LSTM单元的计算如下:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
ot=σ(Wo·[ht-1,xt]+bo)
Figure BDA00025616033900000211
Figure BDA00025616033900000212
ht=ot*tanh(Ct)
i、f、o分别代表输入门、遗忘门和输出门,xt代表t时刻的输入向量,Wi、Wf、Wo、Wc和bi、bf、bo、bc分别表示输入连接、遗忘连接、输出连接、候选输出连接的训练参数矩阵和偏置向量,
Figure BDA0002561603390000031
代表t时刻的候选输出值,Ct代表第t个单词的记忆单元,ht代表第t个字的隐层输出向量;
σ代表sigmoid激活函数,tanh表示双曲正切激活函数,·表示点乘;
输入门和输出门乘以存储单元的输入向量和输出向量后得到当前时刻实际的输入值和输出值;
遗忘门乘以前一时刻的存储单元向量得到实际有用的历史信息;
将Bi_LSTM的正向输出
Figure BDA0002561603390000032
与逆向输出/>
Figure BDA0002561603390000033
的首尾相连进行拼接,即将逆向输出放在正向输出末尾,得到第i个字的隐性表示向量hi
Figure BDA0002561603390000034
Bi_LSTM的输出层是h=[h1,h2,…,hN],
Figure BDA0002561603390000035
S是LSTM输出向量的维度;
自注意机制描述为将查询和一组键值对映射到输出,其中查询、键、值和输出都是向量,输出计算为值的加权和,其中分配给每个值的权重由查询与相应的键计算获得,
给定Bi_LSTM层的输出层h=[h1,h2,…,hN],采用线性变换获得查询、键和对应的值,相应的计算如下:
qi=Wqhi+bq
ki=Wkhi+bk
vi=Wvhi+bv
其中,qi、ki、vi分别代表查询向量、键向量和值向量,Wq、Wk和Wv分别为随机初始化的对应参数矩阵,bq、bk和bv分别为对应的偏置向量;
应用全局自注意力机制处理字在句子层隐性表示如下:
Figure BDA0002561603390000036
i=1,2,…,N代表句子中所有的字,
Figure BDA0002561603390000037
是第i个字attention层输出,vi为上面得到的值向量,ai,j为attention得分系数,其计算如下:
Figure BDA0002561603390000038
其中s为两个向量间的点积运算,以获得向量间关联。
进一步的,
堆叠DCNN层:通过BERT嵌入层,输入的句子被表示为e={e1,e2,…,eN},第j个扩展的卷积层扩展宽度δ为Dδ (j),网络的第一层的扩展卷积为D1 (0),将向量表示转换为隐层表示h(1)
Figure BDA0002561603390000049
最高L层的扩展卷积在前一层输出的基础上应用带有ReLU的激活函数:
Figure BDA0002561603390000041
其中,j∈{1,2,…,L-1},将最后一层的输出表示为:
hdcnn=h(L)
进一步的,CRF解码和训练层:用一个CRF层来做序列标记,表示自注意力层的输出为
Figure BDA0002561603390000042
DCNN层的输出为/>
Figure BDA0002561603390000043
将双模型的输出进行融合拼接,其结果表示为:
hf=[hattn,hdcnn]
hf为CRF层的输入。设标签序列Y={y1,y2,…,yN},对给定输入hf,标签序列Y的计算如下:
Figure BDA0002561603390000044
其中,Y(s)是句子s的一组所有可能标签序列,并且,
Figure BDA0002561603390000045
是函数得分,其计算如下:
Figure BDA0002561603390000046
其中,W是输入值与当前输出间的转换矩阵,T是前项输出与当前输出间的转换矩阵。
进一步的,训练中利用负对数似然目标函数作为损失函数,对于给定的一组训练集
Figure BDA0002561603390000047
K为训练集长度,损失函数Loss定义如下:
Figure BDA0002561603390000048
进一步的,BERT后的嵌入大小为768,最大长度为128,双向LSTM隐藏状态的维数为128,对于自注意机制将维度设置为300,CNN模型设置池大小为32,核大小k为3,其膨胀率分别为1、1、2的3层,LSTM和CNN的丢失率是0.5。
一种基于双神经网络融合的中文命名实体识别方法,包括如下步骤:
将句子从一个字符序列转换到一个密集向量序列;
从全程上下文学习字的隐性表示,并处理句子层信息,获取具有长距离依赖特征的上、下文信息;
将更广泛的上下文信息合并到标记中表示,并抽取文字的局部信息,获取具有广泛局部特征的上、下文信息;
将双模型输出解码为序列标记,将命名实体通过序列标记标注的标签显性输出。
有益效果:本发明对中文实体识别较现有方法在精确度(P)、召回率(R)和F1值作为评估标准有所提高。
附图说明
图1模型架构图。
具体实施方式
中文命名实体识别:多种以前的工作因为中文各个词之间没有如空格之类的分隔符而试图将中文句子视为一个字符串来解决问题。传统模型依赖于规则或手工抽取的特征(如词格、词形、词性标记等)。基于这些特征,许多机器学习算法已应用于有监督的NER,包括HMMs,SVM和CRF。最近几年,神经网络方法已应用于英文NER。这表明善于自动挖掘隐藏特征的神经网络可以无需手工特征就胜出传统的机器学习方法。基于深度学习的模型将NER任务视为序列标注任务,包括分布式词表示的输入、上下文编码和标记解码。
输入的分布式表示:根据粒度的不同,大多数模型可以分为两类:基于词的模型和基于字符的模型。在基于单词的模型中,(Collobert和Weston,2008年)提出了第一个基于单词的命名实体识别模型,其特征由正字法特征、字典和词典构成。(翟等人,2017)设计了一个用于序列组块的神经模型,该模型包括两个子任务:分割和标记。该神经模型可以采用SENNA嵌入或随机初始化嵌入。此外,GloVe(Li et al.,2017)和fastText(Wang et al.,2018)也广泛应用于NER任务。然而,当上述模型应用于中文NER时,都因为必须进行中文分词存在分词错误。在基于字的模型中,(Ma和Hovy,2016)用CNN来抽取词的字符级表示。然后,字符的向量表示与词向量拼接作为RNN编码器的输入。(He和Sun,2017)加入字符位置的考虑。近来,ELMo的词表示(Peters et al.,2018)被用于命名实体识别,它在具有字符卷积的两层双向语言模型上进行计算。然而,基于字符的模型仍然缺乏学习更好的表示的能力,因为汉语单词包含了许多对汉语命名实体识别有用的信息。
上下文编码:基于深度学习方法,广泛应用的上下文编码框架包含卷积神经网络、循环神经网络和深度transformer.(Collobert et al.,2011)提出了一种考虑整句的词性标注网络。(Strubell et al.,2017)提出了一种迭代扩张卷积神经网络(ID-CNNs),它在上下文和结构化预测方面比传统CNNs具有更好的性能。为了更好地模拟序列信息,(Lampleet al.,2016)提出用双向长短时记忆模型(Bi-LSTM)来编码序列上下文信息。最近,基于transformer(Vaswani et al.,2017),自注意力机制被应用于进一步提高准确率和效率(Kitaev and Klein,2018)。
标签解码:标签解码是命名实体识别模型的最后一步。它将上下文相关的表示作为输入,并生成与输入序列对应的标记序列。早期引入的许多命名实体识别模型(Blancoet al.,2015;Li et al.,2017;Xu et al.,2017)使用MLP+Softmax作为标签解码器。由于命名实体识别任务在输出标签之间有很强的依赖性,许多模型使用CRF层作为标签解码器(Zheng et al.,2017;Akbik et al.,2018)。
注意力机制相关模型:注意力机制在包括翻译、阅读理解和自然语言处理的相关的广泛任务(Tan et al.,2018;Seo et al.,2016)中都有很好的表现。神经注意力机制使神经网络能够专注于其输入的子集。命名实体识别模型可以捕获输入中信息量最大的元素。注意机制在NER任务中的应用还有很多其他的方法。(Rei et al.,2016)提出了一种采用注意机制将基于字符的表示与单词嵌入相结合而不是简单地连接起来的模型。这种方法允许模型动态地决定每个单词使用哪一个信息源,因此比以前的工作中使用的连接方法有更好的性能。(Zhang等人,2018)通过自适应共同注意网络,将微博中的图片用作外部信息,以决定是否以及如何将图片集成到模型中。这种方法只能应用于像Tweets这样有文本相关图片的网站,但是这样的资源是不够的。(Zukov Gregoric等人,2017年)探讨了命名实体识别中的自注意力机制,其中权重依赖于单个序列(而不是两个序列之间的关系)。(Xu等人,2018)提出了一种基于注意力的神经网络架构,以利用文档级的全局信息。特别地,文档级信息是从预先训练好的具有神经注意的双向语言模型表示的文档中获取的。
扩张卷积神经网络相关模型:提取低层次和合适的特征对于许多NLP任务非常重要,例如句子分类(Kim,2014;Kalchbrenner et al.,2014;Zhang et al.,2015;Toutanovaet al.,2015)、情感分析(Dos Santos and Gatti,2014;Severyn and Moschitti,2015;Poria et al.,2015;Ouyang et al.,2015)、语音识别(Abdel Hamid等,2014年;AbdelHamid等人,2012年;Swietojanski等人,2014年)。传统CNN使用池化操作来降低原始文本的维数,然而却因信息损失而影响结果。(Lei等人,2015)提出了一种CNN变体,其中卷积自适应地跳过相邻单词,并采用具有指数增长扩展宽度的叠加扩展卷积的上下文模块。由于扩张卷积神经网络具有更好的表达能力,因此越来越多的模型采用了它。扩张卷积最近被应用于语音生成任务(Oord等人,2016年),机械翻译(Kalchbrenner等人,2016年)。已有的研究表明,扩张卷积对NER任务也有很好的影响(Blanco等人,2015年)。
深度学习用于命名实体识别:近来,在命名实体识别中用深度学习技术的方法还有很多,包括深度多任务学习、深度迁移学习、深度主动学习、深层对抗学习与深层强化学习。多任务学习是一组相关任务组合起来学习的方法。(Yang et al.,2016)提出多任务联合模型,学习特定语言规则,联合训练词性标注、组块和命名实体识别任务。迁移学习的目标是利用从源域学习到的知识在目标域上执行机器学习任务。(Qu et al.,2016)观察到相关的命名实体类型通常共享词汇和上下文特征。他们的方法使用两层神经网络学习源和目标命名实体类型之间的相关性。主动学习是一种机器学习算法,它能以较少的训练数据表现出更好的性能。(Shen等人,2017年)提出对每批新标签的命名实体识别进行增量训练。对抗学习的目的是使模型对攻击更为鲁棒,或者减少模型在干净输入下的测试误差。强化学习也是一种机器学习,其思想是一个agent通过与环境交互并通过执行动作获得奖励来从环境中学习。
基于上述技术路线,由于中文实体名称高度依赖于上下文,而且中文文本缺少分隔符来分隔单词,这一点非常具有挑战性。此外,单个模型往往存在特征表示不足的问题。故而本文提出一种双神经网络融合方法来提高中文命名实体识别性能。在提出的BERT-Dual-CRF框架中,对中文命名实体学习上下文相关的字表示。该模型包含三层四个模型:第一层是预训练BERT层用来学习独立于上下文的字表示;中间层采用一个双向长短时记忆和自注意力机制学习长距离依赖的上下文相关字表示,用一个扩张的卷积神经网络层从局部的上下文来学习与语境相关的字表示;将输出的中间层双模型结果输入最后一层CRF来联合解码出字标签。
请参见图1,是本发明所述模型架构图,底层是用BERT获得的嵌入层;然后通过两个编码层,一个是Bi_LSTM+Attention层,另一个是DCNN层;最后拼接两种词表示并通过CRF层解码。在中文的命名实体识别(NER)任务中,表示输入的句子为X={x1,x2,…,xN},其中
Figure BDA0002561603390000071
代表句子X中的第i个字,N代表句子长度,/>
Figure BDA0002561603390000072
表示整个汉字空间。对应的,用Y={y1,y2,…,yN}表示标签序列,其中/>
Figure BDA0002561603390000073
代表在所有可能标签集/>
Figure BDA0002561603390000074
中第i个字的标签;目标是学习一个函数fθ:X→Y来获取输入文本中所有所有字的实体类型。其中,/>
Figure BDA0002561603390000075
根据实验所用的语料集不同而有区别,如/>
Figure BDA0002561603390000076
Figure BDA0002561603390000077
分别代表人名的开始字,人名中间字,地名开始字,地名中间字,组织名开始字,组织名中间字,非人名、地名、组织名字。
为了更好地获得输入句子的特征表示,为中文命名实体识别提出了双神经网络模型。模型架构如图1所示。
Bert嵌入层:第一层是嵌入层,其目标是将句子从一个字符序列转换到一个密集向量序列。为了通过预训练获得先验知识,本发明提出用BERT作为词嵌入层。预训练的BERT模型用一个双向的transformer作编码层,所以每个字符的表示能将字左右两侧的信息相融合。设定每个字的输入向量由Xi组成,BERT词向量层输出表示为ei,于是其计算如下:
ei=BERT(xi)
对比其他语言模型,BERT预训练语言模型能够充分利用字的左右两侧信息,以获得字的更好的分布式表示。
双模融合编码层,其包括带有自注意力机制的Bi_LSTM层和堆叠DCNN层:
为了更好的获得句子的特征表示,本发明提出用双模融合的方法来对此向量编码。一个模型用带注意力的双向长短时记忆(Bi_LSTM),另一个是用扩张的卷积(DCNN)。于是,通过两个网络获得字的向量表示,使这两个不同的神经网络能获得更好的特征表示。
Bi_LSTM+自注意力机制
在这个模型中,本发明提出一个带有自注意力机制的Bi_LSTM架构。LSTM是一种能够获取长距离信息的特殊循环神经网络,并对序列数据处理非常有效。另外,由于左右上下文对识别命名实体都有用,因此,用双向的LSTM(Bi-LSTM)从全程上下文来学习字的隐性表示。其计算如下:
Figure BDA0002561603390000081
Figure BDA0002561603390000082
ei代表从BERT层输出的第i个字,
Figure BDA0002561603390000083
代表LSTM的前项和后向输出。
LSTM单元的计算如下:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
ot=σ(Wo·[ht-1,xt]+bo)
Figure BDA0002561603390000084
Figure BDA0002561603390000085
ht=ot*tanh(Ct)
i、f、o分别代表输入门、遗忘门和输出门,xt代表t时刻的输入向量,Wi、Wf、Wo、Wc和bi、bf、bo、bc分别表示输入连接、遗忘连接、输出连接、候选输出连接的训练参数和偏置向量,
Figure BDA0002561603390000091
代表t时刻的候选输出值,Ct代表第t个单词的记忆单元,ht代表第t个字的隐层输出向量;
σ代表sigmoid激活函数,tanh表示双曲正切激活函数,·表示点乘;
输入门和输出门乘以存储单元的输入向量和输出向量后得到当前时刻实际的输入值和输出值;
遗忘门乘以前一时刻的存储单元向量得到实际有用的历史信息;
将Bi_LSTM的正向输出
Figure BDA0002561603390000092
与逆向输出/>
Figure BDA0002561603390000093
的首尾相连进行拼接,即将逆向输出放在正向输出末尾,得到第i个字的隐性表示向量hi
Figure BDA0002561603390000094
Bi_LSTM的输出层是h=[h1,h2,…,hN],
Figure BDA0002561603390000095
S是LSTM输出向量的维度;
注意力是人类不可或缺的一种复杂的认知功能,是指人们在注意某些信息的同时忽略某些信息的能力。在神经网络处理大量输入信息时,也可以仿照人脑的注意机制,只选择一些关键的输入信息进行处理,以提高神经网络的效率。
自注意力机制描述为将查询和一组键值对映射到输出,其中查询(query,记为q)、键(key,记为k)、值(value,记为v)和输出(记为
Figure BDA0002561603390000096
)都是向量,输出计算为值(v)的加权和,其中分配给每个值(v)的权重由查询(q)与相应的键(k)计算,
特别地,给定Bi_LSTM层的输出层h=[h1,h2,…,hN],我们首先采用线性变换获得查询、键和对应的值,相应的计算如下:
qi=Wqhi+bq
ki=Wkhi+bk
vi=Wvhi+bv
其中,qi、ki、vi分别代表hi对应的查询向量、键向量和值向量,Wq、Wk和Wv分别为随机初始化的对应参数矩阵,bq、bk和bv分别为对应的偏置向量;
应用全局自注意力层处理句子层信息如下:
Figure BDA0002561603390000097
i=1,2,…,N代表句子中所有的字,
Figure BDA0002561603390000101
是第i个字的attention层输出,vi为上面得到的值向量,ai,j为attention得分系数,其计算如下:
Figure BDA0002561603390000102
其中s为两个向量间的点积运算,以获得向量间关联。
DCNN层:卷积神经网络已经被广泛地应用于计算机视觉来抽取图片的局部信息。受扩展的卷积神经网络(DCNN)启发,本发明提出使用堆叠DCNN进一步增加感受野,以将更广泛的上下文合并到token的表示中,而不是简单的卷积。
经过BERT嵌入层,输入的句子被表示为e={e1,e2,…,eN}.本发明表示第j个扩展的卷积层扩展宽度δ为Dδ (j)网络的第一层是扩展是D1 (0),它将向量表示转换为隐层表示h(1)
Figure BDA0002561603390000103
接着,L层的扩展卷积被应用于带有ReLU激活函数的前一层输出:
Figure BDA0002561603390000104
其中,j∈{1,2,…,L-1},最后的输出表示如下:
h(1)=h(L)
CRF解码和训练层:考虑连续标签之间的依赖性,本发明用一个CRF层来做序列标记。本发明表示自注意力层的输出为
Figure BDA0002561603390000105
DCNN层的输出为
Figure BDA0002561603390000106
将双模型的输出进行融合拼接,其结果表示为:
hf=[hattn,hdcnn]
hf为CRF层的输入。设标签序列Y={y1,y2,…,yN},对给定输入hf,标签序列Y的计算如下:
Figure BDA0002561603390000107
其中,Y(s)是句子s的一组所有可能标签序列,并且,
Figure BDA0002561603390000108
是函数得分,其计算如下:
Figure BDA0002561603390000109
其中,W是输入值与当前输出间的转换矩阵,T是前项输出与当前输出间的转换矩阵。
训练中利用负对数似然目标函数作为损失函数。对于给定的一组训练集
Figure BDA0002561603390000111
K为训练集长度,损失函数L定义如下:
Figure BDA0002561603390000112
本发明将传统的双向LSTM结构和自注意力机制与扩展卷积神经网络相结合,以更好地捕捉具有特征的上下文信息。此外,利用目前Google最强大的NLP预训练模型BERT作为嵌入层。通过提出的更强大的神经网络模型提高了性能。本发明的主要贡献概括如下:
1)提出了一种新的中文命名实体识别框架,称为双神经网络融合方法,以增强该模型在字符序列间隐式获取上下文表示的能力。
2)在两个基准数据集上进行的大量实验表明,本发明的模型得到的F1值超过了先前的最优模型。
以下通过实验及实验数据表明本发明的效果:
实验设置:
数据集:通过两个不同领域的数据集来评估本发明的模型。在新闻领域,本发明在2006 SIGHAN MSRA数据集上实验。为了更广的实验领域,本发明使用了中文简历数据集。
中文简历数据集中标注了八种不同的实体类型:国家、教育机构、人名、地名、机构名、职业、民族、职位名称。MSRA数据集中仅包含三种标注实体类型:人名、地名、机构名。开发子集在MSRA数据集中不可用。两个数据集的详细信息列于表1。
DataSet Train Sent Dev Sent Test Sent
Chinese resume 3821 463 477
MSRA 46364 - 4365
表1数据集统计
实现细节:本发明使用了Google发布的BERT预训练的标记器和字嵌入。为加速训练和测试模型,当训练模型时,BERT的参数被冻结以减少预先训练的语言模型的影响。实验设置如表2所示:
Figure BDA0002561603390000113
Figure BDA0002561603390000121
表2实验设置
对于超参数配置,本发明根据中文实体识别任务在开发集的性能进行调整。BERT后的嵌入大小为768,最大长度为128,双向LSTM隐藏状态的维数为128。对于自注意机制,本发明将维度设置为300。对于CNN模型,设置池大小为32,核大小k为3,和其膨胀率分别为1、1、2的3层。为了避免过度拟合,本发明对LSTM和CNN都采用了0.5的丢失率。在实验中采用精确度(P)、召回率(R)和F1值作为评估标准,对于本发明训练的模型,本发明给出的F1值来自10次以上随机重新启动获得的F1值的平均。
实验结果:本发明会给出本发明提出模型的实验结果和以前在中文简历数据集和MSRA数据集上最先进方法的实验结果。本发明以本发明双模型融合方法作为基准。-LSTM代表基线模型无BiLSTM和自注意力机制,-DCNN代表无DCNN的基线模型。
表3表明最近标注的中文简历数据集结果。与Lattice model(Zhang and Yang,2018)、CAN Model(Zhu andWang,2019)和WC-LSTM+longest(Liu et al.,2019)三个最优结果相比较,本发明的模型不用附加的词法数据和词嵌入信息,取得了96.41%的F1值,高于以上三个模型,表明本发明提出模型的有效性。
Models P R F1
Lattice(Zhang and Yang,2018) 94.81 94.11 94.46
CAN Model(Zhu andWang,2019) 95.05 94.82 94.94
WC-LSTM+longest(Liu et al.,2019) 95.27 95.15 95.21
Baseline 96.57 96.37 96.41
-LSTM 94.02 96.66 95.09
-DCNN 94.19 94.34 94.27
表3中文简历数据集结果
表4列出了MSRA数据集上的实验结果。在上半部分中,本发明给出以前模型在MSRA中文实体识别任务上的表现。(Chen et al.,2006)、(Zhang et al.,2006)和(Zhou etal.,2013)使用了丰富的手工特征,(Dong et al.,2016)在LSTM-CRF中引入了全新特征。(Yang et al.,2018)提出了一种基于字符的CNN-BiLSTM-CRF模型,用于融合笔划嵌入和生成n-gram特征,(Zhang and Yang,2018)引入网格结构,将词汇信息融入到神经网络中,神经网络实际上包含了单词的嵌入信息。第二部分本发明列出了本发明提出模型的结果。从中可以看出,本发明的方法超出以前的方法,取得94.52%的F1值。
Models P R F1
(Chen et al.,2006) 91.22 81.71 86.20
(Zhang et al.,2006) 92.20 90.18 91.18
(Zhou et al.,2013) 91.86 88.75 90.28
(Dong et al.,2016) 91.28 90.62 90.95
.(Yang et al.,2018) 92.04 91.31 91.67
(Zhang and Yang,2018) 93.57 92.79 93.18
Baseline 94.58 94.47 94.52
-LSTM 94.49 93.29 93.88
-DCNN 90.63 91.48 90.78
表4 MSRA数据集上的实验结果
本发明提出一个融合双神经网络的方法来提高中文命名实体识别模型的性能。在本发明的模型中,利用预先训练得到的先验知识,利用Bi LSTM+自注意力机制和DCNN来获取具有特征的上下文信息。实验表明,本发明的模型在不同领域的数据集上都优于最先进的系统。对于未来的工作,计划进一步改进所提出的方法,例如探索一些策略,将字级特征与模型结合起来。此外,本发明提出的方法还可以进一步推广到其他中文自然语言处理任务,如CWS、文本分类和情感分析。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (5)

1.一种基于双神经网络融合的中文命名实体识别模型,其特征在于:
包括:
Bert嵌入层,用于将句子从一个字符序列转换到一个密集向量序列;
带有自注意力机制的Bi_LSTM层,从全程上下文学习字的隐性表示,并处理句子层信息,获取具有长距离依赖特征的上、下文信息;
堆叠DCNN层,将更广泛的上下文信息合并到标记中表示,并抽取文字的局部信息,获取具有广泛局部特征的上、下文信息;
CRF解码层,将双模型输出解码为序列标记,将命名实体通过序列标记标注的标签显性输出;
输入的句子为X={x1,x2,…,xN},其中
Figure FDA0004209748540000011
代表句子X中的第i个字,N代表句子长度,/>
Figure FDA0004209748540000012
表示整个汉字空间;
标签序列Y={y1,y2,…,yN},其中
Figure FDA0004209748540000013
代表在所有可能标签集合/>
Figure FDA0004209748540000014
中第i个字的标签;
目标是学习一个函数fθ:X→Y来获取输入文本中所有字的实体类型;
带有自注意力机制的Bi_LSTM层:用双向的LSTM从全程上下文来学习字的隐性表示,其计算表示如下:
Figure FDA0004209748540000015
Figure FDA0004209748540000016
ei代表从Bert嵌入层输出的第i个字,
Figure FDA0004209748540000017
分别代表LSTM的正向输出和逆向输出;
LSTM单元的计算如下:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
ot=σ(Wo·[ht-1,xt]+bo)
Figure FDA0004209748540000018
Figure FDA0004209748540000019
ht=ot*tanh(Ct)
i、f、o分别代表输入门、遗忘门和输出门,xt代表t时刻的输入向量,Wi、Wf、Wo、Wc和bi、bf、bo、bc分别表示输入连接、遗忘连接、输出连接、候选输出连接的训练参数和偏置向量,
Figure FDA00042097485400000110
代表t时刻的候选输出值,Ct代表第t个单词的记忆单元,ht代表第t个字的隐层输出向量;
σ代表sigmoid激活函数,tanh表示双曲正切激活函数,·表示点乘,
输入门和输出门乘以存储单元的输入向量和输出向量后得到当前时刻实际的输入值和输出值;
遗忘门乘以前一时刻的存储单元向量得到实际有用的历史信息;
将Bi_LSTM的正向输出
Figure FDA0004209748540000021
与逆向输出/>
Figure FDA0004209748540000022
的首尾相连进行拼接,使逆向输出放在正向输出末尾,得到第i个字的隐性表示向量hi
Figure FDA0004209748540000023
Bi_LSTM的输出层是h=[h1,h2,…,hN],
Figure FDA0004209748540000024
S是LSTM输出向量的维度;
自注意机制描述为将查询和一组键值对映射到输出,其中查询、键、值和输出都是向量,输出计算为值的加权和,其中分配给每个值的权重由查询与相应的键计算获得,
给定Bi_LSTM层的输出层h=[h1,h2,…,hN],采用线性变换获得查询、键和对应的值,相应的计算如下:
qi=Wqhi+bq
ki=Wkhi+bk
vi=Wvhi+bv
其中,qi、ki、vi分别代表查询向量、键向量和值向量,Wq、Wk和Wv分别为随机初始化的对应参数矩阵,bq、bk和bv分别为对应的偏置向量;
应用全局自注意力机制处理字在句子层隐性表示如下:
Figure FDA0004209748540000025
i=1,2,…,N代表句子中所有的字,
Figure FDA0004209748540000026
是第i个字attention层输出,vi为上面得到的值向量,ai,j为attention得分系数,其计算如下:
Figure FDA0004209748540000027
其中s为两个向量间的点积运算,以获得向量间关联;
堆叠DCNN层:
通过BERT嵌入层,输入的句子被表示为e={e1,e2,…,eN},第j个扩展的卷积层扩展宽度δ为Dδ (j),网络的第一层的扩展卷积为D1 (0),将向量表示转换为隐层表示h(1)
Figure FDA0004209748540000031
最高L层的扩展卷积在前一层输出的基础上应用带有ReLU的激活函数:
Figure FDA0004209748540000032
其中,j∈{1,2,…,L-1},将最后一层的输出表示为:
hdcnn=h(L)
CRF解码和训练层:用一个CRF层来做序列标记,
表示自注意力层的输出为
Figure FDA0004209748540000033
DCNN层的输出为
Figure FDA0004209748540000034
将双模型生成的输出进行融合拼接,其结果表示如下:
hf=[hattn,hdcnn]
hf为CRF层的输入,设标签序列Y={y1,y2,…,yN},对给定输入hf,标签序列Y的计算如下:
Figure FDA0004209748540000035
其中,Y(s)是句子s的一组所有可能标签序列,并且,
Figure FDA0004209748540000036
是函数得分,其计算如下:
Figure FDA0004209748540000037
其中,W是输入值与当前输出间的转换矩阵,T是前项输出与当前输出间的转换矩阵。
2.如权利要求1所述的基于双神经网络融合的中文命名实体识别模型,其特征在于:
y
Figure FDA00042097485400000310
根据实验所用的语料集不同而有区别,/>
Figure FDA0004209748540000038
Figure FDA0004209748540000039
分别代表人名的开始字,人名中间字,地名开始字,地名中间字,组织名开始字,组织名中间字,非人名、地名、组织名字。
3.如权利要求1所述的基于双神经网络融合的中文命名实体识别模型,其特征在于:
Bert嵌入层:预训练的BERT模型用一个双向的transformer作编码层,每个字符的表示能将字左右两侧的信息相融合,设定每个字的输入向量由xi组成,BERT词向量层输出表示为ei=BERT(xi)。
4.如权利要求1所述的基于双神经网络融合的中文命名实体识别模型,其特征在于:
训练中利用负对数似然目标函数作为损失函数,对于给定的一组训练集
Figure FDA0004209748540000041
K为训练集长度,损失函数Loss定义如下:
Figure FDA0004209748540000042
5.如权利要求4所述的基于双神经网络融合的中文命名实体识别模型,其特征在于:
BERT后的嵌入大小为768,最大长度为128,双向LSTM隐藏状态的维数为128,对于自注意机制将维度设置为300,CNN模型设置池大小为32,核大小k为3,其膨胀率分别为1、1、2的3层,LSTM和CNN的丢失率是0.5。
CN202010608591.6A 2020-06-30 2020-06-30 基于双神经网络融合的中文命名实体识别模型及方法 Active CN111783462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010608591.6A CN111783462B (zh) 2020-06-30 2020-06-30 基于双神经网络融合的中文命名实体识别模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010608591.6A CN111783462B (zh) 2020-06-30 2020-06-30 基于双神经网络融合的中文命名实体识别模型及方法

Publications (2)

Publication Number Publication Date
CN111783462A CN111783462A (zh) 2020-10-16
CN111783462B true CN111783462B (zh) 2023-07-04

Family

ID=72761118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010608591.6A Active CN111783462B (zh) 2020-06-30 2020-06-30 基于双神经网络融合的中文命名实体识别模型及方法

Country Status (1)

Country Link
CN (1) CN111783462B (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182346B (zh) * 2020-10-26 2024-07-19 上海蜜度数字科技有限公司 一种对突发事件的实体信息进行抽取的方法与设备
CN112270181A (zh) * 2020-11-03 2021-01-26 北京明略软件系统有限公司 序列标注方法、系统、计算机可读存储介质及计算机设备
CN112364654A (zh) * 2020-11-11 2021-02-12 安徽工业大学 一种面向教育领域的实体和关系联合抽取方法
CN112417874A (zh) * 2020-11-16 2021-02-26 珠海格力电器股份有限公司 命名实体的识别方法和装置、存储介质、电子装置
CN112347784A (zh) * 2020-11-18 2021-02-09 湖南国发控股有限公司 一种结合多任务学习的跨文档实体识别方法
CN112883732A (zh) * 2020-11-26 2021-06-01 中国电子科技网络信息安全有限公司 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112487796B (zh) * 2020-11-27 2022-02-18 北京智谱华章科技有限公司 一种用于序列标注的方法、装置和电子设备
CN112507126B (zh) * 2020-12-07 2022-11-15 厦门渊亭信息科技有限公司 一种基于循环神经网络的实体链接装置和方法
CN112560491B (zh) * 2020-12-11 2024-03-19 北京百炼智能科技有限公司 一种基于ai技术的信息抽取方法、装置和存储介质
CN112711948B (zh) * 2020-12-22 2022-11-11 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN112699685B (zh) * 2021-01-08 2024-03-29 北京工业大学 基于标签引导的字词融合的命名实体识别方法
CN112783327B (zh) * 2021-01-29 2022-08-30 中国科学院计算技术研究所 基于表面肌电信号进行手势识别的方法及系统
CN112818691A (zh) * 2021-02-01 2021-05-18 北京金山数字娱乐科技有限公司 命名实体识别模型训练方法及装置
CN112926324B (zh) * 2021-02-05 2022-07-29 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN112836056B (zh) * 2021-03-12 2023-04-18 南宁师范大学 一种基于网络特征融合的文本分类方法
CN113032559B (zh) * 2021-03-15 2023-04-28 新疆大学 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法
CN112989831B (zh) * 2021-03-29 2023-04-28 华南理工大学 一种应用在网络安全领域的实体抽取方法
CN113139050B (zh) * 2021-05-10 2022-07-19 桂林电子科技大学 基于命名实体识别附加标签和先验知识的文本摘要生成方法
CN113177120B (zh) * 2021-05-11 2024-03-08 中国人民解放军国防科技大学 一种基于中文文本分类的情报快速整编方法
CN113255294B (zh) * 2021-07-14 2021-10-12 北京邮电大学 命名实体识别模型训练方法、识别方法及装置
CN113515947B (zh) * 2021-07-23 2024-03-08 中国科学院计算技术研究所 一种用于级联地名实体识别模型的训练方法
CN113297369B (zh) * 2021-07-26 2022-04-01 中国科学院自动化研究所 基于知识图谱子图检索的智能问答系统
CN113609859A (zh) * 2021-08-04 2021-11-05 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法
CN113343643B (zh) * 2021-08-09 2021-11-02 浙江浙能技术研究院有限公司 一种基于有监督的多模型编码映射推荐方法
CN113343642B (zh) * 2021-08-09 2021-11-02 浙江浙能技术研究院有限公司 基于有监督序列生成网络的集团级kks编码自动映射方法
CN113657103B (zh) * 2021-08-18 2023-05-12 哈尔滨工业大学 一种基于ner的非标准中文快递寄件信息识别方法及系统
CN113673219B (zh) * 2021-08-20 2022-06-07 合肥中科类脑智能技术有限公司 一种停电计划文本解析方法
CN113822018B (zh) * 2021-09-16 2022-06-14 湖南警察学院 实体关系联合抽取方法
CN113919350A (zh) * 2021-09-22 2022-01-11 上海明略人工智能(集团)有限公司 一种实体识别方法、系统、电子设备及存储介质
CN113705541B (zh) * 2021-10-21 2022-04-01 中国科学院自动化研究所 基于Transformer的标记选择和合并的表情识别方法及系统
CN113889281B (zh) * 2021-11-17 2024-05-03 华美浩联医疗科技(北京)有限公司 一种中文医疗智能实体识别方法、装置及计算机设备
CN114169330B (zh) * 2021-11-24 2023-07-14 匀熵智能科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN114970528A (zh) * 2021-12-20 2022-08-30 昆明理工大学 基于BERT和Attention机制的中文命名实体识别方法
CN114510943B (zh) * 2022-02-18 2024-05-28 北京大学 一种基于伪样本重放的增量式命名实体识别方法
CN114548591B (zh) * 2022-03-01 2024-06-11 成都宓科网络科技服务有限公司 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统
CN114943229B (zh) * 2022-04-15 2024-03-12 西北工业大学 一种基于多级别特征融合的软件缺陷命名实体识别方法
CN114510946B (zh) * 2022-04-21 2022-08-23 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN115130462B (zh) * 2022-06-23 2023-09-01 成都信息工程大学 一种基于深度神经网络的信息抽取方法
CN115114909A (zh) * 2022-07-20 2022-09-27 广东工业大学 一种面向供应链知识获取的对抗式生成实体识别方法
CN115938365B (zh) * 2023-03-09 2023-06-30 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010179B2 (en) * 2018-04-20 2021-05-18 Facebook, Inc. Aggregating semantic information for improved understanding of users

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN和BiLSTM网络特征融合的文本情感分析;李洋;董红斌;;计算机应用(第11期);全文 *

Also Published As

Publication number Publication date
CN111783462A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111783462B (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN110263325B (zh) 中文分词系统
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
El Bazi et al. Arabic named entity recognition using deep learning approach.
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
Zhang et al. Chatbot design method using hybrid word vector expression model based on real telemarketing data
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
Liu et al. Research on advertising content recognition based on convolutional neural network and recurrent neural network
CN116955579B (zh) 一种基于关键词知识检索的聊天回复生成方法和装置
Park et al. Natural language generation using dependency tree decoding for spoken dialog systems
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
Nortje et al. Direct multimodal few-shot learning of speech and images
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
WO2023159759A1 (zh) 模型的训练方法、情感消息生成方法和装置、设备、介质
Che et al. Chinese word segmentation based on bidirectional GRU-CRF model
Wang et al. Chinese word segmentation based on deep learning
CN113033192B (zh) 一种序列标注的训练方法、装置及计算机可读存储介质
Verwimp et al. Reverse transfer learning: Can word embeddings trained for different nlp tasks improve neural language models?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant