CN111783459A - 一种基于改进Transformer+CRF的老挝语命名实体识别方法 - Google Patents

一种基于改进Transformer+CRF的老挝语命名实体识别方法 Download PDF

Info

Publication number
CN111783459A
CN111783459A CN202010390416.4A CN202010390416A CN111783459A CN 111783459 A CN111783459 A CN 111783459A CN 202010390416 A CN202010390416 A CN 202010390416A CN 111783459 A CN111783459 A CN 111783459A
Authority
CN
China
Prior art keywords
laos
vector
word
crf
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010390416.4A
Other languages
English (en)
Inventor
周兰江
杨志婥琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010390416.4A priority Critical patent/CN111783459A/zh
Publication of CN111783459A publication Critical patent/CN111783459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于改进Transformer+CRF的老挝语命名实体识别方法,属于自然语言处理中小语种识别领域。本发明采用改进的Transformer模型对老挝语进行编码,再用CRF(条件随机场)模型进行解码,获得最优的标注序列。本文发明首先用Transformer作为字符编码器对老挝语的单个字符进行字符编码,将编码得到的字符级向量与预训练的词向量拼接并进行位置编码,作为Transformer编码组件的输入,先后通过多头注意力层和前馈神经网络层的训练,最后将得到的向量集合输入到融合了老挝语人名地名机构名语言学特征的CRF模型中进行命名实体识别训练,得到了融合了老挝语语言规则的命名实体识别模型。本发明的识别效果比主流的BLSTM+CRF的命名实体识别方法有所提升。

Description

一种基于改进Transformer+CRF的老挝语命名实体识别方法
技术领域
本发明涉及一种基于改进Transformer+CRF的老挝语命名实体识别方法,属于自然语言处理中小语种识别领域。
背景技术
命名实体识别是自然语言处理的一项基本任务。目前命名实体常用的方法有基于规则和词典的方法,基于统计的方法,基于混合模型的方法和基于深度学习的方法。由于老挝语标注语料的匮乏,目前RNN、CNN、BiLSTM、BiGRU等深度模型被主要应用于老挝语命名实体识别的研究中,这种方法的优势在于不需要人工对数据进行标注,可由搭建好的神经网络模型自行训练并提取特征。随着并行效率更高的基于注意力机制的Transformer模型的提出,人们也开始用Transformer+CRF模型来完成自然语言处理的任务。对于命名实体识别任务,Transformer模型经过稍微的改进能够呈现出比其他深度模型更好的性能。但老挝语语言特点使得老挝语的语言规则归纳困难,并且老挝语的研究语料极其匮乏,目前在命名实体识别领域对老挝语的研究还很少,因此,老挝语的识别准确率还有很大的提升空间。
发明内容
本发明要解决的技术问题是提供一种基于改进的Transformer+CRF的老挝语命名实体识别方法,用于解决老挝语命名实体识别问题,能够有效提高老挝语命名实体识别的准确率。
本发明的技术方案是:一种基于改进的Transformer+CRF的老挝语命名实体识别方法,所述的方法的具体步骤如下:
Step1,对现有老挝语命名实体语料进行预处理并划分数据集,其中,训练集占90%,测试集占10%;
Step2,对老挝语句子进行分词,并通过Gensim的word2vec模型预训练词向量,训练出具有上下文语义的词向量;
Step3,将老挝语句子分词后每个词语的单个字符作为输入,采用Transformer作为字符编码器输出字符级特征向量;
Step4,将字符级特征向量和Step2训练好的词向量拼接形成词嵌入;
Step5,对Step4得到的词嵌入(word embedding)进行位置编码,在wordembedding上组合一个表示位置信息的位置向量,得到最终的带有位置信息的向量;
Step6,将带有位置信息的向量输入Transformer编码组件(Encoder)(编码组件包括多个编码器,每个编码器有一个自注意力层和一个前馈神经网络层)的Multi-HeadAttention层并进行带有方向与相对位置信息的自注意力值(Self-Atteniton)计算。
Step7,将Multi-Head Attention层输出的向量传递到Feed Forward Network层进行计算,输出编码好的向量集合。
Step8,将老挝语人名地名机构名的多个语言学特征融合到CRF模型中。
Step9,将Step7中Transformer模型输出的向量集合输入到Step8中融合了多特征的CRF模型中,进行老挝语命名实体的识别训练。
具体地,所述步骤Step1中对老挝语命名实体语料的预处理,主要是通过Python编码去除噪声。
具体地,所述步骤Step2首先通过老挝语分词工具将老挝语句子切分成词语,再遍历老挝语去除停用词表,去停用词,在Gensim包中调用Word2vec算法,将去停用词后的老挝词语作为Word2vec算法的输入,对词语的频率和上下文信息进行训练,最终输出具有了上下文语义特征的词向量。
具体地,所述步骤Step3将老挝语字符先后通过Transformer编码器的多头注意力层Multi-Head Attention,前馈神经网络层Feed Forward Network(两个子层使用残差连接)来提取字符特征。比起CNN字符编码器Transformer作为字符编码器不仅充分利用了GPU的并发能力,而且还具有识别不同语法和甚至不连续模式的潜力。
具体地,所述步骤Step4在Python环境中安装Numpy模块用于特征向量的拼接。特征向量的拼接实际是矩阵的计算,对Step3得到的字符级特征向量矩阵维度设置一个值,使Step2的词向量矩阵维度与其相同,进行矩阵拼接计算,即可得到拼接后的词嵌入。
具体地,所述步骤Step5对最终得到的词嵌入进行位置编码,即在词嵌入上再加一个位置向量,改进的Transformer模型与原始Transformer模型不同的是,改进的Transformer模型在位置编码上包括相对位置以及方向信息,编码公式如下:
Figure BDA0002482997510000031
其中,t是目标token的索引,j是上下文token的索引,Rt-j是相对位置编码,
Figure BDA0002482997510000032
i的范围是
Figure BDA0002482997510000033
dk为k的向量维度,T表示矩阵的转置。
具体地,所述步骤Step6将对每个词嵌入创建三个向量:查询向量(Query)、键向量(Key)和值向量(Value),这三个向量是通过每个词向量与各自的权重矩阵相乘后创建的。执行单个Head Attention就是将Q,K和V分别线性地投影,然后将多个Head Attention连接起来并再次投影,得到最终值,再对Multi-Head Attention层的输出结果进行残余连接和层归一化。Self-Atteniton计算公式如下:
Figure BDA0002482997510000034
Attn(Q,K,V)=softmax(Arel)V
其中Qt,Kj分别是t,j两个token的查询向量和键向量,
Figure BDA0002482997510000035
是可学习的参数,
Figure BDA0002482997510000036
表示两个token之间的注意力得分,
Figure BDA0002482997510000037
表示第t个token在一定相对距离上的偏差,
Figure BDA0002482997510000038
是第j个token的偏差,
Figure BDA0002482997510000039
表示特定距离和方向的偏差,Arel表示每个token对于当前token的相关性大小,V表示上文的值向量,改进的Transformer模型在计算self-attention时,去掉了键和值矩阵的点积除以的比例因子
Figure BDA00024829975100000310
因为在没有比例因子
Figure BDA00024829975100000311
的情况下,注意力将更加明显,模型的性能更好。
具体地,所述步骤Step7将Step6所得结果传递到Feed Forward Network层。Multi-Head Attention使模型可以共同关注来自不同位置的的子空间的不同表示信息,而Feed Forward Network层只需要一个矩阵,所以需要把多个矩阵压缩成一个矩阵,即把多个矩阵与一个附加的权重矩阵WO相乘,将多个矩阵组合到一起输入FeedForward Network层,再对于Feed Forward Network层的输出结果进行残余连接和层归一化。计算公式如下:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
FFN(x)=max(0,xW1+b1)W2+b2
其中,Q,K,V分别是查询向量,键向量,值向量,Wi Q,Wi K,Wi V为训练时的权值矩阵。W1,W2,b1,b2是可学习的参数
Figure BDA0002482997510000041
b2∈Rd,dff是超参数。
具体地,所述步骤Step8在CRF算法的基础上融合了最新整理的老挝语人名地名机构名的语言学特征,如:词特征、词性特征、通名特征、指界词特征等。将这些原子特征组合叠加得到特征模板,并融合到CRF算法中,用来提升对老挝语命名实体识别的准确率。
具体地,所述步骤Step9将Step7经改进Transformer模型编码的向量集合输入到融合了老挝语语言特征模板的CRF模型中进行训练,最终实现基于改进的Transformer+CRF的老挝语命名实体识别的方法。
本发明的有益效果是:
(1)该基于改进的Transformer+CRF的老挝语命名实体识别方法中,相较于目前主流的BLSTM+CRF模型在识别精度方面有明显的提高。
(2)该基于改进的Transformer+CRF的老挝语命名实体识别方法中,Transformer模型完全基于注意力机制,使得模型对输入的文本序列选择性学习,利用注意力机制快速筛选出有用信息,有助于后期模型训练,且能避免输入和输出序列的距离问题,不受输入序列长度的限制。加入融合了老挝语语言特征的CRF模型,能够使模型收敛加快,融合的语言特征也能提升老挝语命名实体识别的准确率。
(3)该基于改进的Transformer+CRF的老挝语命名实体识别方法中,增加了带有相对位置信息和方向信息的位置编码,方向信息以及相对位置信息对于命名实体识别任务是重要的,但是原始的Transformer模型无法捕获这些信息;丢弃了原始的Transformer模型的注意力比例因子,注意力比例因子的引入是为了得到分布相对均匀的attention权重,但是在命名实体识别中,并不需要关注所有词;另外,除了使用Transformer模型来建模词级别的上下文信息,还使用Transformer模型来建模字符级别的信息,不仅充分利用了GPU的并发能力,而且还具有识别不同语法和甚至不连续模式的潜力。
附图说明
图1为本发明中的流程图;
图2是本发明所使用的Transformer编码器的基本结构图;
图3是本发明所使用的改进Transformer+CRF模型的基本结构图。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的说明。
实施例1:如图1-3所示,一种基于改进Transformer+CRF的老挝语命名实体识别方法,具体步骤如下:
Step1,对现有老挝语命名实体语料进行预处理并划分数据集,其中,训练集占90%,测试集占10%。
Step2,对老挝语句子进行分词,并通过Gensim的word2vec模型预训练词向量,训练出具有上下文语义的词向量。
Step3,将老挝语句子分词后每个词语的单个字符作为输入,采用Transformer作为字符编码器输出字符级特征向量。
Step4,将字符级特征向量和Step2训练好的词向量拼接形成词嵌入。
Step5,对Step4得到的词嵌入(word embedding)进行位置编码,在wordembedding上组合一个表示位置信息的位置向量,得到最终的带有位置信息的向量。
Step6,将带有位置信息的向量输入Transformer编码组件(Encoder)(编码组件包括多个编码器,每个编码器有一个自注意力层和一个前馈神经网络层)的Multi-HeadAttention层并进行带有方向与相对位置信息的自注意力值(Self-Atteniton)计算。
Step7,将Multi-Head Attention层输出的向量传递到Feed Forward Network层进行计算,输出编码好的向量集合。
Step8,将老挝语人名地名机构名的多个语言学特征融合到CRF模型中。
Step9,将Transformer模型输出的向量集合输入到融合了多特征的CRF模型中,进行老挝语命名实体的识别训练。
进一步地,所述步骤Step1中对老挝语命名实体语料的预处理,主要是通过Python编码去除噪声。
进一步地,所述步骤Step2首先通过老挝语分词工具将老挝语句子切分成词语,再遍历老挝语去除停用词表,去停用词,在Gensim包中调用Word2vec算法,将去停用词后的老挝词语作为Word2vec算法的输入,对词语的频率和上下文信息进行训练,最终输出具有了上下文语义特征的词向量。
进一步地,所述步骤Step3将老挝语字符先后通过Transformer编码器的Multi-Head Attention层,Feed Forward Network层(两个子层使用残差连接)来提取字符特征。比起CNN字符编码器Transformer作为字符编码器不仅充分利用了GPU的并发能力,而且还具有识别不同语法和甚至不连续模式的潜力。
进一步地,所述步骤Step4在Python环境中安装Numpy模块用于特征向量的拼接。特征向量的拼接实际是矩阵的计算,对Step3得到的字符级特征向量矩阵维度设置一个值,使Step2的词向量矩阵维度与其相同,进行矩阵拼接计算,即可得到拼接后的词嵌入。
进一步地,所述步骤Step5对最终得到的词嵌入进行位置编码,即在词嵌入上再加一个位置向量,改进的Transformer模型与原始Transformer模型不同的是,改进的Transformer模型在位置编码上包括相对位置以及方向信息,编码公式如下:
Figure BDA0002482997510000061
其中,t是目标token的索引,j是上下文token的索引,Rt-j是相对位置编码,
Figure BDA0002482997510000062
i的范围是
Figure BDA0002482997510000063
dk为k的向量维度,T表示矩阵的转置。
进一步地,所述步骤Step6将对每个词嵌入创建三个向量:查询向量(Query)、键向量(Key)和值向量(Value),这三个向量是通过每个词向量与各自的权重矩阵相乘后创建的。执行单个Head Attention就是将Q,K和V分别线性地投影,然后将多个Head Attention连接起来并再次投影,得到最终值,再对Multi-Head Attention层的输出结果进行残余连接和层归一化。Self-Atteniton计算公式如下:
Figure BDA0002482997510000064
Attn(Q,K,V)=softmax(Arel)V
其中Qt,Kj分别是t,j两个token的查询向量和键向量,
Figure BDA0002482997510000065
是可学习的参数,
Figure BDA0002482997510000066
表示两个token之间的注意力得分,
Figure BDA0002482997510000067
表示第t个token在一定相对距离上的偏差,
Figure BDA0002482997510000068
是第j个token的偏差,
Figure BDA0002482997510000069
表示特定距离和方向的偏差,Arel表示每个token对于当前token的相关性大小,V表示上文的值向量,改进的Transformer模型在计算self-attention时,去掉了键和值矩阵的点积除以的比例因子
Figure BDA00024829975100000610
因为在没有比例因子
Figure BDA00024829975100000611
的情况下,注意力将更加明显,模型的性能更好。
进一步地,所述步骤Step7将Step6所得结果传递到Feed Forward Network层。Multi-Head Attention使模型可以共同关注来自不同位置的的子空间的不同表示信息,而Feed Forward Network层只需要一个矩阵,所以需要把多个矩阵压缩成一个矩阵,即把多个矩阵与一个附加的权重矩阵WO相乘,将多个矩阵组合到一起输入FeedForward Network层,再对于Feed Forward Network层的输出结果进行残余连接和层归一化。计算公式如下:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
FFN(x)=max(0,xW1+b1)W2+b2
其中,Q,K,V分别是查询向量,键向量,值向量。Wi Q,Wi K,Wi V为训练时的权值矩阵。W1,W2,b1,b2是可学习的参数,
Figure BDA0002482997510000071
b2∈Rd,dff是超参数。
进一步地,所述步骤Step8在CRF算法的基础上融合了最新整理的老挝语人名地名机构名的语言学特征,如:词特征、词性特征、通名特征、指界词特征等。将这些原子特征组合叠加得到特征模板,并融合到CRF算法中,用来提升对老挝语命名实体识别的准确率。
进一步地,所述步骤Step9将Step7经改进Transformer模型编码的向量集合输入到融合了老挝语语言特征模板的CRF模型中进行训练,最终实现基于改进的Transformer+CRF的老挝语命名实体识别的方法。
本发明提出一种基于改进的Transformer+CRF老挝语命名实体识别方法,减少了对老挝语语料人工标注的依赖,通过改进的Transformer模型对词向量的训练,用注意力机制更好地提取了文本特征,融合了老挝语语言特征的CRF模型使得命名实体识别任务得到最优的序列标注结果。
下面结合具体例子对本发明的方案就行解释说明。
如句子:
Figure BDA0002482997510000072
Figure BDA0002482997510000073
译为:昆明理工大学在云南省昆明市。将该老挝语句子分词如下:
Figure BDA0002482997510000074
(大学)
Figure BDA0002482997510000075
(理工)
Figure BDA0002482997510000076
(昆明)
Figure BDA0002482997510000077
(在)
Figure BDA0002482997510000081
(市)
Figure BDA0002482997510000082
(昆明),
Figure BDA0002482997510000083
(省)
Figure BDA0002482997510000084
(云南)。以
Figure BDA0002482997510000085
(大学)为例,再将该词语的每个字符
Figure BDA0002482997510000086
用Transformer进行编码,得到字符级特征向量,用Word2vec训练词语
Figure BDA0002482997510000087
(大学)得到词向量,并将该词的词向量和每个字符的字符向量拼接起来得到词嵌入,进行位置编码后的得到带有位置信息的词向量矩阵。把词向量矩阵作为Transformer编码器的输入,经过Multi-Head Attention层和Feed Forward Network层对矩阵的运算最终得到该词的最终表示向量。同样地,其他每个词也可通过上述过程得到最终的表示向量,将所有词的向量集合作为融合了老挝语语言特征的CRF层的输入,可得到最终对每个词的标记结果:
Figure BDA0002482997510000088
(大学,B-ORG)
Figure BDA0002482997510000089
(理工,I-ORG)
Figure BDA00024829975100000810
(昆明,I-ORG)
Figure BDA00024829975100000811
(在,O)
Figure BDA00024829975100000812
(市,B-LOC)
Figure BDA00024829975100000813
(昆明,I-LOC),
Figure BDA00024829975100000814
(省,B-LOC)
Figure BDA00024829975100000815
(云南,I-LOC)。其中O表示非实体,B-ORG表示组织机构名实体的开始,I-ORG表示组织机构名实体的内部,B-LOC表示地名实体的开始,I-LOC表示地名实体的内部。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:具体步骤如下:
Step1,对现有老挝语命名实体语料进行预处理并划分数据集,其中,训练集占90%,测试集占10%;
Step2,对老挝语句子进行分词,并通过Gensim的word2vec模型预训练词向量,训练出具有上下文语义的词向量;
Step3,将老挝语句子分词后每个词语的单个字符作为输入,采用Transformer作为字符编码器输出字符级特征向量;
Step4,将字符级特征向量和Step2训练好的词向量拼接形成词嵌入word embedding;
Step5,对Step4得到的词嵌入word embedding进行位置编码,在word embedding上组合一个表示位置信息的位置向量,得到最终的带有位置信息的向量;
Step6,将带有位置信息的向量输入Transformer编码组件Encoder的Multi-HeadAttention层并进行带有方向与相对位置信息的自注意力值Self-Atteniton计算;
Step7,将Multi-Head Attention层输出的向量传递到Feed Forward Network层进行计算,输出编码好的向量集合;
Step8,将老挝语人名地名机构名的多个语言学特征融合到CRF模型中;
Step9,将Step7中Transformer模型输出的向量输出的向量集合输入到Step8中融合了多特征的CRF模型中,进行老挝语命名实体的识别训练。
2.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:所述步骤Step1中对老挝语命名实体语料的预处理,是通过Python编码去除噪声。
3.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:所述步骤Step2,首先通过老挝语分词工具将老挝语句子切分成词语,再遍历老挝语去除停用词表,去停用词,在Gensim包中调用Word2vec算法,将去停用词后的老挝词语作为Word2vec算法的输入,对词语的频率和上下文信息进行训练,最终输出具有了上下文语义特征的词向量。
4.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:所述步骤Step3将老挝语字符先后通过Transformer编码器中使用残差连接的Multi-Head Attention层、Feed Forward Network层来提取字符特征。
5.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:所述步骤Step4在Python环境中安装Numpy模块用于特征向量的拼接,特征向量的拼接实际是矩阵的计算,对Step3得到的字符级特征向量矩阵维度设置一个值,使Step2的词向量矩阵维度与其相同,进行矩阵拼接计算,即可得到拼接后的词嵌入。
6.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:所述步骤Step5对最终得到的词嵌入进行位置编码,即在词嵌入上再加一个位置向量,改进的Transformer模型与原始Transformer模型不同的是,改进的Transformer模型在位置编码上包括相对位置以及方向信息,编码公式如下:
Figure FDA0002482997500000021
其中,t是目标token的索引,j是上下文token的索引,Rt-j是相对位置编码,
Figure FDA0002482997500000022
i的范围是
Figure FDA0002482997500000023
dk为k的向量维度,T表示矩阵的转置。
7.根据权利要求6所述基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:所述步骤Step6将对每个词嵌入创建三个向量:查询向量Query、键向量Key和值向量Value,这三个向量是通过每个词向量与各自的权重矩阵相乘后创建的,执行单个HeadAttention就是将Q,K和V分别线性地投影,然后将多个Head Attention连接起来并再次投影,得到最终值,再对Multi-Head Attention层的输出结果进行残余连接和层归一化,Self-Atteniton计算公式如下:
Figure FDA0002482997500000024
Attn(Q,K,V)=softmax(Arel)V
其中Qt,Kj分别是t,j两个token的查询向量和键向量,
Figure FDA0002482997500000025
是可学习的参数,
Figure FDA0002482997500000026
表示两个token之间的注意力得分,
Figure FDA0002482997500000027
表示第t个token在一定相对距离上的偏差,
Figure FDA0002482997500000028
是第j个token的偏差,
Figure FDA0002482997500000029
表示特定距离和方向的偏差,Arel表示每个token对于当前token的相关性大小,V表示上文的值向量,改进的Transformer模型在计算self-attention时,去掉了键和值矩阵的点积除以的比例因子
Figure FDA0002482997500000031
8.根据权利要求1所述基于改进Transformer+CRF的老挝语命名实体识别方法,其特征在于:所述步骤Step7将Step6所得结果传递到Feed Forward Network层,Multi-HeadAttention使模型可以共同关注来自不同位置的的子空间的不同表示信息,而FeedForward Network层只需要一个矩阵,所以需要把多个矩阵压缩成一个矩阵,即把多个矩阵与一个附加的权重矩阵WO相乘,将多个矩阵组合到一起输入Feed Forward Network层,再对于Feed Forward Network层的输出结果进行残余连接和层归一化,计算公式如下:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
FFN(x)=max(0,xW1+b1)W2+b2
其中,Q,K,V分别是查询向量,键向量,值向量,Wi Q,Wi K,Wi V为训练时的权值矩阵,W1,W2,b1,b2是可学习的参数,
Figure FDA0002482997500000032
b2∈Rd,dff是超参数。
CN202010390416.4A 2020-05-08 2020-05-08 一种基于改进Transformer+CRF的老挝语命名实体识别方法 Pending CN111783459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010390416.4A CN111783459A (zh) 2020-05-08 2020-05-08 一种基于改进Transformer+CRF的老挝语命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010390416.4A CN111783459A (zh) 2020-05-08 2020-05-08 一种基于改进Transformer+CRF的老挝语命名实体识别方法

Publications (1)

Publication Number Publication Date
CN111783459A true CN111783459A (zh) 2020-10-16

Family

ID=72753245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010390416.4A Pending CN111783459A (zh) 2020-05-08 2020-05-08 一种基于改进Transformer+CRF的老挝语命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111783459A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434525A (zh) * 2020-11-24 2021-03-02 平安科技(深圳)有限公司 模型推理加速方法、装置、计算机设备及存储介质
CN112560484A (zh) * 2020-11-09 2021-03-26 武汉数博科技有限责任公司 一种改进bert训练模型及一种命名实体识别方法、系统
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112883726A (zh) * 2021-01-21 2021-06-01 昆明理工大学 基于音节切分和词切分联合学习的多任务泰语分词方法
CN113343666A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 评分的置信度的确定方法、装置、设备及存储介质
CN113393445A (zh) * 2021-06-21 2021-09-14 上海交通大学医学院附属新华医院 乳腺癌影像确定方法及系统
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN113610081A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN114048750A (zh) * 2021-12-10 2022-02-15 广东工业大学 一种融合信息高级特征的命名实体识别方法
CN115329766A (zh) * 2022-08-23 2022-11-11 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN115687031A (zh) * 2022-11-15 2023-02-03 北京优特捷信息技术有限公司 一种告警描述文本的生成方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753650A (zh) * 2018-12-14 2019-05-14 昆明理工大学 一种融合多特征的老挝语人名地名实体识别方法
CN110298043A (zh) * 2019-07-03 2019-10-01 吉林大学 一种车辆命名实体识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753650A (zh) * 2018-12-14 2019-05-14 昆明理工大学 一种融合多特征的老挝语人名地名实体识别方法
CN110298043A (zh) * 2019-07-03 2019-10-01 吉林大学 一种车辆命名实体识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANG YAN等: "TENER: Adapting Transformer Encoder for Named Entity Recognition", 《ARXIV》, 10 December 2019 (2019-12-10), pages 2 - 3 *
李博等: "采用 Transformer-CRF 的中文电子病历命名实体识别", 《HTTP://KNS.CNKI.NET/KCMS/DETAIL/11.2127.TP.20191108.1109.002.HTML》, 8 November 2019 (2019-11-08), pages 1 - 10 *
王海宁等: "融合深度学习与规则的民族工艺品领域命名实体识别", 《云南师范大学学报 ( 自然科学版 )》, vol. 40, no. 02, 30 March 2020 (2020-03-30), pages 48 - 54 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560484A (zh) * 2020-11-09 2021-03-26 武汉数博科技有限责任公司 一种改进bert训练模型及一种命名实体识别方法、系统
CN112560484B (zh) * 2020-11-09 2024-03-01 武汉数博科技有限责任公司 用于命名实体识别的改进bert训练模型及命名实体识别方法
CN112434525A (zh) * 2020-11-24 2021-03-02 平安科技(深圳)有限公司 模型推理加速方法、装置、计算机设备及存储介质
CN112685549A (zh) * 2021-01-08 2021-04-20 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112685549B (zh) * 2021-01-08 2022-07-29 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112883726A (zh) * 2021-01-21 2021-06-01 昆明理工大学 基于音节切分和词切分联合学习的多任务泰语分词方法
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN113393445B (zh) * 2021-06-21 2022-08-23 上海交通大学医学院附属新华医院 乳腺癌影像确定方法及系统
CN113393445A (zh) * 2021-06-21 2021-09-14 上海交通大学医学院附属新华医院 乳腺癌影像确定方法及系统
CN113343666A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 评分的置信度的确定方法、装置、设备及存储介质
CN113610081A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN114048750A (zh) * 2021-12-10 2022-02-15 广东工业大学 一种融合信息高级特征的命名实体识别方法
CN115329766A (zh) * 2022-08-23 2022-11-11 中国人民解放军国防科技大学 一种基于动态词信息融合的命名实体识别方法
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN115688777B (zh) * 2022-09-28 2023-05-05 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN115687031A (zh) * 2022-11-15 2023-02-03 北京优特捷信息技术有限公司 一种告警描述文本的生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111783459A (zh) 一种基于改进Transformer+CRF的老挝语命名实体识别方法
CN110083831B (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
WO2020140487A1 (zh) 用于智能设备的人机交互语音识别方法及系统
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN111694924A (zh) 一种事件抽取方法和系统
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN111914555A (zh) 基于Transformer结构的自动化关系抽取系统
CN114297382B (zh) 基于生成式预训练模型参数精调整的可控文本生成方法
CN116340513A (zh) 一种基于标签与文本交互的多标签情感分类方法和系统
Zhao et al. Knowledge-aware bayesian co-attention for multimodal emotion recognition
CN114942990A (zh) 一种基于提示学习的少样本抽象对话摘要生成系统
CN112417125B (zh) 基于深度强化学习的开放域对话回复方法及系统
CN113177113A (zh) 任务型对话模型预训练方法、装置、设备及存储介质
CN117648469A (zh) 一种基于对比学习的交叉双塔结构答案选择方法
CN112613316B (zh) 一种生成古汉语标注模型的方法和系统
CN116204643A (zh) 一种基于多任务学习知识增强的级联标签分类方法
CN113761106B (zh) 一种强化自注意力的债券交易意图识别系统
CN114358006A (zh) 基于知识图谱的文本内容摘要生成方法
CN114168720A (zh) 一种基于深度学习的自然语言数据查询方法和存储设备
CN114860908A (zh) 一种融合槽位关联和语义关联的任务型对话状态跟踪方法
CN113806506B (zh) 一种面向常识推理的生成式人机对话回复生成方法
CN116976351B (zh) 基于学科实体的语言模型构建方法以及学科实体识别装置
CN113626560B (zh) 一种基于强化学习的多样性对话数据增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016