CN110134956A - 基于blstm-crf的地名组织名识别方法 - Google Patents

基于blstm-crf的地名组织名识别方法 Download PDF

Info

Publication number
CN110134956A
CN110134956A CN201910397611.7A CN201910397611A CN110134956A CN 110134956 A CN110134956 A CN 110134956A CN 201910397611 A CN201910397611 A CN 201910397611A CN 110134956 A CN110134956 A CN 110134956A
Authority
CN
China
Prior art keywords
moment
crf
layer
word
blstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910397611.7A
Other languages
English (en)
Inventor
李燕萍
沙淮
吴佳怡
张燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910397611.7A priority Critical patent/CN110134956A/zh
Publication of CN110134956A publication Critical patent/CN110134956A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种基于BLSTM‑CRF的地名组织名识别方法,包括训练阶段和识别阶段,使用BLSTM‑CRF模型,通过BLSTM能够较好地学习上下文的信息,通过CRF特有的转移特征能够考虑到输出label之间的顺序性,特别是用词特征与字特征结合作为输入特征,通过加入词特征能够更好地进行命名体的分界,提高命名体识别的精确度和召回率。此外,本方法运用基于地理位置的分词工具,分词更加精准。

Description

基于BLSTM-CRF的地名组织名识别方法
技术领域
本发明涉及一种地名组织名识别方法,特别是涉及一种基于BLSTM-CRF的地名组织名识别方法。
背景技术
NER、分词都可以看作是序列的标注问题,而这一类问题比较传统的方法是以马尔科夫模型(HMM)、条件随机场(CRF)为代表的概率图模型,还有最大熵隐马尔可夫模型(MEMM),这三者在之前都取得了非常不错的结果,近几年随着深度学习的兴起,深度神经网络也加入到NLP的任务中,跟CV一样,网络层起到的作用依然是特征提取的过程,深度神经网络+概率图模型成为处理NLP任务的一个非常好的解决方案。
现有的神经网络+概率图的命名体识别方法有基于LSTM-CRF的方法、BLSTM-softmax方法等。Softmax层的输出是相互独立的,即虽然BLSTM学习到了上下文的信息,但是输出相互之间并没有影响,它只是在每一步挑选一个最大概率值的label输出。这样就会导致如“B-x”后再接一个“B-x”的问题。而CRF中有转移特征,即它会考虑输出label之间的顺序性,所以考虑用CRF去做BLSTM的输出层。
基于BLSTM-CRF的方法能够很好地处理序列标注的问题,但是在地名组织名识别任务中,由于地名组织名作为一个整体,具有数量大,有规则性的特点,仅用字向量作为输出特征还存在一定的局限性,无法很好地判断特殊任务中命名体的边界。所以,在地名组织名的任务中,基于地名组织名的命名组成有一定的规律,可以考虑如何加入词向量特征以有效提升召回率和准确率。
发明内容
发明目的:本发明要解决的技术问题是提供一种基于BLSTM-CRF的地名组织名识别方法,解决目前识别方法中无法很好地判断特殊任务中命名体的边界的不足,加入词特征能够更好地进行命名体的分界,提高命名体识别的精确度和召回率。
技术方案:本发明所述的基于BLSTM-CRF的地名组织名识别方法,包括训练阶段和识别阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由字、分好的词以及字的标签组成;
(1.2)将所述的字和词通过词向量嵌入层编码成向量形式,分别获得字和词的特征序列并进行拼接为新的输入特征x′t,将所述的字的标签用数字表示,得到对应标签yt
(1.3)将输入特征x′t输入BLSTM模型得到输出的两层隐藏序列为将两层序列进行拼接为新的中间序列特征h′t,接着通过全连接层生成得分序列k为标签类别的个数;
(1.4)将得分序列输入CRF层,根据标签yt得到CRF得分;
(1.5)根据得分序列和CRF得分来最大化目标似然函数,更新词向量嵌入层参数、BLSTM模型和CRF转移矩阵
(1.6)重复步骤(1.2)至(1.5),直到达到迭代次数;
所述识别阶段包括以下步骤:
(2.1)将待识别语料分词为字和词序列,并通过所述词向量嵌入层得到特征序列
(2.2)将特征序列输入BLSTM模型,生成得分序列,将上述得分序列输入CRF层,根据已经训练好的CRF转移矩阵通过维特比算法求得最优输出 是所有序列得分中的最高得分时对应的序列;
(2.3)根据提取描述地名组织名的标签所在位置的字符,组成一个表示地名组织名的命名体。
进一步的,所述的BLSTM模型是双层LSTM结构的循环神经网络,两层的输出为:
其中,z1是第一层t时刻LSTM的输入和上一个时刻的输出拼接而成的,为 是第一层t时刻将词和字拼接后得到的新的输入特征,是第一层t-1时刻的LSTM的输出,分别代表第一层t时刻LSTM的输入门、遗忘门和输出门,是第一层的t时刻的c传输状态,是第一层的t时刻的c传输状态,是第一层t时刻的LSTM的输出;z2是第二层t时刻LSTM的输入和上一个时刻的输出拼接而成的,为 是第二层t时刻将词和字拼接后得到的新的输入特征,是第二层t-1时刻的LSTM的输出,分别代表第二层t时刻LSTM的输入门,遗忘门和输出门,是第二层的t时刻的c传输状态,是第二层的t时刻的c传输状态,是第二层t时刻的LSTM的输出。
进一步的,步骤(1.5)中的目标似然函数为:
其中,Yx为所有的输出序列,s(X,y)为正确的序列得分,为输出序列为任一的得分,
其中,为CRF每一个时刻t到下一个时刻t+1的转移概率和,为每一个时刻t属于真正的标签yt的得分,n为输入序列的个数。
进一步的,步骤(1.5)中的最大化方法为:
(1)将所述目标似然函数求对数,
(2)将上述目标似然函数运用梯度下降法求最大值,得到更新的模型参数和CRF的转移矩阵
进一步的,步骤(2.2)中通过维特比算法求得最优输出具体为:
进一步的,所述的词向量嵌入层为参数随机初始化的全连接层。
进一步的,所述词向量嵌入层的dropout系数为0.1,所述BLSTM模型的dropout系数为0.2。
有益效果:本发明使用BLSTM-CRF模型,通过BLSTM能够较好地学习上下文的信息,通过CRF特有的转移特征,能够考虑到输出label之间的顺序性,特别是用词特征与字特征结合作为输入特征,通过加入词特征能够更好地进行命名体的分界,提高命名体识别的精确度和召回率。此外,本方法运用基于地理位置的分词工具,分词更加精准。
附图说明
图1是本发明的网络结构图;
图2是本实施例语料编码示意图。
具体实施方式
如图1所示,本发明实施例所述的方法分为两个部分:训练部分用于得到地名组织名识别所需的参数和CRF转移概率,而识别部分用于实现地名组织名的识别。
训练阶段实施步骤为:
1.1)获取训练语料,训练语料是司乘上报的12万条语音通过kaldi识别成的文本,将文本预处理为json格式。训练语料包含字序列,词序列和标签序列。其中,每个字序列,词序列向量长度为该batch所有序列中最长的序列长度,长度不足的通过padding补零,向量维度为150维,用来描述地名组织名的标签有三种“B-x”,“I-x”,“O”。在命名体的第一个字位置对应“B-x”,中间部分对应“I-x”,其余部分对应“O”。如图2所示:“在南京我......”中南京为一个地名的命名体,即标注“南”为“B-x”,“京”为“I-x”,其余为“O”。
1.2)字序列训练语料和词序列训练语料通过词向量嵌入层编码成向量形式,获得字的特征序列和对应词的特征序列每个序列的维度为(最长长度*150),将字的特征序列和对应词的特征序列进行拼接得到输入的特征序列x′t,其中x′t的维度为(最长长度*300)。如图2所示,char特征和word特征通过concat拼接为新的输入特征序列。词向量嵌入层为参数随机初始化的全连接层。
1.3)本实施例中的BLSTM-CRF网络由两个部分组成:BLSTM层和CRF层。BLSTM可以生成属于不同标签得分对于命名体任务来说,仅仅根据前向的信息来退出后面的LSTM是不够的,因此通过双向的LSTM可以考虑到前向和后向的顺序,最大化标签选择的概率。但是仅仅得出每个标签的概率是不够的,该任务的标签含有限制条件,例如“B-x”后只能接“I-x”,“I-x”后不能“B-x”,因此使用CRF可以限定生成标签之间关系。
所述的BLSTM模型是双层LSTM结构的循环神经网络,两层的输出为:
其中,z1是第一层t时刻LSTM的输入和上一个时刻的输出拼接而成的,为 是第一层t时刻将词和字拼接后得到的新的输入特征,是第一层t-1时刻的LSTM的输出,z1的值和相等。分别代表第一层t时刻LSTM的输入门,遗忘门和输出门。是第一层的t时刻的c传输状态,是第一层的t时刻的c传输状态。是第一层t时刻的LSTM的输出,z2是第二层t时刻LSTM的输入和上一个时刻的输出拼接而成的,为其中是第二层t时刻将词和字拼接后得到的新的输入特征,是第二层t-1时刻的LSTM的输出。z2的值和相等。分别代表第二层t时刻LSTM的输入门,遗忘门和输出门。是第二层的t时刻的c传输状态,是第二层的t时刻的c传输状态。是第二层t时刻的LSTM的输出。
1.4)设置BLSTM的输出维度为300维。经BLSTM得到双层输出的维度为(最长长度*300)将拼接得到 维度为(最长长度*300),再将通过一个输出层为3维的全连接层,得到对应3种标签的输出序列的得分3个维度分别是属于不同标签的得分。接着初始化CRF层的转移概率,并将传入CRF层,根据标签yt计算CRF的得分。
1.5)假设输入为X=x1,x2...,xn,标签为y=y1,y2...,yn,模型的得分为:
其中,s(X,y)即为正确的序列得分包括两个部分,是CRF得分,是BLSTM输出的预测序列得分。左边的部分为CRF每一个时刻t到下一个时刻t+1的转移概率和,右边的部分为每一个时刻t属于真正的标签yt的得分。
将生成的所有得分通过Softmax,得出正确的序列的极大似然概率为:
将极大似然概率取对数得到目标函数:
将目标函数运用梯度下降法求最大值,得到模型的参数和CRF的转移概率矩阵,更新词向量嵌入层参数、BLSTM模型和CRF转移矩阵
1.6)重复1.2)、1.3)、1.4)和1.5)直至达到迭代次数,从而得到训练好的BLSTM-CRF网络,由于神经网络具体设置不同以及实验设备性能不同,选择的数据批量的大小和迭代次数也各不相同。本实验中选择迭数据批量的大小为128,代次数为15次。
转换阶段实施步骤为:
2.1)将待识别的文本语料分词为字和词序列,并通过词向量嵌入层得到特征序列
2.2)将2.1)中字和词特征序列拼接后输入模型,通过训练好的BLSTM得到输出的BLSTM得分序列为
2.3)将2.2)中得到的输入CRF层,根据已经训练好的转移矩阵通过维特比算法求得最优输出
其中,是在的条件下所有序列得分中的最高得分时对应的序列。
2.4)根据提取描述地名组织名的标签所在位置的字符,组成一个表示地名组织名的命名体。

Claims (7)

1.一种基于BLSTM-CRF的地名组织名识别方法,其特征在于:包括训练阶段和识别阶段,所述训练阶段包括以下步骤:
(1.1)获取训练语料,训练语料由字、分好的词以及字的标签组成;
(1.2)将所述的字和词通过词向量嵌入层编码成向量形式,分别获得字和词的特征序列并进行拼接为新的输入特征x′t,将所述的字的标签用数字表示,得到对应标签yt
(1.3)将输入特征x′t输入BLSTM模型得到输出的两层隐藏序列为将两层序列进行拼接为新的中间序列特征h′t,接着通过全连接层生成得分序列k为标签类别的个数;
(1.4)将得分序列输入CRF层,根据标签yt得到CRF得分;
(1.5)根据得分序列和CRF得分来最大化目标似然函数,更新词向量嵌入层参数、BLSTM模型和CRF转移矩阵
(1.6)重复步骤(1.2)至(1.5),直到达到迭代次数;
所述识别阶段包括以下步骤:
(2.1)将待识别语料分词为字和词序列,并通过所述词向量嵌入层得到特征序列
(2.2)将特征序列输入BLSTM模型,生成得分序列,将上述得分序列输入CRF层,根据已经训练好的CRF转移矩阵通过维特比算法求得最优输出 是所有序列得分中的最高得分时对应的序列;
(2.3)根据提取描述地名组织名的标签所在位置的字符,组成一个表示地名组织名的命名体。
2.根据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于:所述的BLSTM模型是双层LSTM结构的循环神经网络,两层的输出为:
其中,z1是第一层t时刻LSTM的输入和上一个时刻的输出拼接而成的,为 是第一层t时刻将词和字拼接后得到的新的输入特征,是第一层t-1时刻的LSTM的输出,分别代表第一层t时刻LSTM的输入门、遗忘门和输出门,是第一层的t时刻的c传输状态,是第一层的t时刻的c传输状态,是第一层t时刻的LSTM的输出;z2是第二层t时刻LSTM的输入和上一个时刻的输出拼接而成的,为 是第二层t时刻将词和字拼接后得到的新的输入特征,是第二层t-1时刻的LSTM的输出,分别代表第二层t时刻LSTM的输入门,遗忘门和输出门,是第二层的t时刻的c传输状态,是第二层的t时刻的c传输状态,是第二层t时刻的LSTM的输出。
3.根据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于步骤(1.5)中的目标似然函数为:
其中,Yx为所有的输出序列,s(X,y)为正确的序列得分,为输出序列为任一的得分,
其中,为CRF每一个时刻t到下一个时刻t+1的转移概率和,为每一个时刻t属于真正的标签yt的得分,n为输入序列的个数。
4.根据权利要求3所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于:步骤(1.5)中的最大化方法为:
(1)将所述目标似然函数求对数,
(2)将上述目标似然函数运用梯度下降法求最大值,得到更新的模型参数和CRF的转移矩阵
5.根据权利要求4所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于步骤(2.2)中通过维特比算法求得最优输出具体为:
6.根据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于:所述的词向量嵌入层为参数随机初始化的全连接层。
7.据权利要求1所述的基于BLSTM-CRF的地名组织名识别方法,其特征在于:所述词向量嵌入层的dropout系数为0.1,所述BLSTM模型的dropout系数为0.2。
CN201910397611.7A 2019-05-14 2019-05-14 基于blstm-crf的地名组织名识别方法 Pending CN110134956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910397611.7A CN110134956A (zh) 2019-05-14 2019-05-14 基于blstm-crf的地名组织名识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910397611.7A CN110134956A (zh) 2019-05-14 2019-05-14 基于blstm-crf的地名组织名识别方法

Publications (1)

Publication Number Publication Date
CN110134956A true CN110134956A (zh) 2019-08-16

Family

ID=67573811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910397611.7A Pending CN110134956A (zh) 2019-05-14 2019-05-14 基于blstm-crf的地名组织名识别方法

Country Status (1)

Country Link
CN (1) CN110134956A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082366A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN107885721A (zh) * 2017-10-12 2018-04-06 北京知道未来信息技术有限公司 一种基于lstm的命名实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李丽双等: "基于CNN-BLSTM-CRF模型的生物医学命名实体识别", 《中文信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082366A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于交互式与迭代式学习的地名标注语料库智能构建方法
WO2021082370A1 (zh) * 2019-10-28 2021-05-06 南京师范大学 基于百科知识库和词向量的中文地名语义消歧方法
JP2022532451A (ja) * 2019-10-28 2022-07-14 南京師範大学 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法
JP7228946B2 (ja) 2019-10-28 2023-02-27 南京師範大学 百科知識ベースと単語の埋め込みに基づく中国語地名語義の曖昧性解消方法

Similar Documents

Publication Publication Date Title
CN108984745B (zh) 一种融合多知识图谱的神经网络文本分类方法
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN108073711B (zh) 一种基于知识图谱的关系抽取方法和系统
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN109299262A (zh) 一种融合多粒度信息的文本蕴含关系识别方法
CN106897371B (zh) 中文文本分类系统及方法
CN109325547A (zh) 非机动车图像多标签分类方法、系统、设备及存储介质
CN105279554B (zh) 基于哈希编码层的深度神经网络的训练方法及装置
CN107145483A (zh) 一种基于嵌入式表示的自适应中文分词方法
CN107506414A (zh) 一种基于长短期记忆网络的代码推荐方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN107145484A (zh) 一种基于隐多粒度局部特征的中文分词方法
CN107293291A (zh) 一种基于自适应学习率的端到端的语音识别方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN110826338A (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN110070239A (zh) 一种基于a星搜索和深度学习的个性化路线推荐方法
CN113361685B (zh) 一种基于学习者知识状态演化表示的知识追踪方法及系统
CN109213997A (zh) 一种基于双向长短时记忆网络模型的中文分词方法
CN111798991A (zh) 基于lstm的新冠肺炎疫情群体态势预测方法
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN114491039B (zh) 基于梯度改进的元学习少样本文本分类方法
CN111753207A (zh) 一种基于评论的神经图协同过滤模型
CN110134956A (zh) 基于blstm-crf的地名组织名识别方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination