CN109117472A

CN109117472A - 一种基于深度学习的维吾尔文命名实体识别方法

Info

Publication number: CN109117472A
Application number: CN201810371094.1A
Authority: CN
Inventors: 买合木提·买买提; 艾山·吾买尔; 吐尔根·依布拉音; 王路路; 卡哈尔江·阿比的热西提
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2019-01-01

Abstract

本发明公开了一种基于深度学习的维吾尔文命名实体识别方法，该方法包括如下步骤：(1)对维吾尔文本进行分词，对词分别进行字符提取和音节切分；(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量，并将它们拼接到一起形成词语的音节向量表示；(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来对每个词语的上下文信息进行建模；(5)在LSTM神经网络的输出端，利用条件随机场来对整个句子进行命名实体标注；本发明由字符，音节及词向量的拼接作为神经网络的输入，提取了词语的丰富结构信息，因此本发明能在形态丰富语言的序列标注中有广泛应用。

Description

一种基于深度学习的维吾尔文命名实体识别方法

技术领域

本发明涉及自然语言处理，具体涉及一种基于深度学习的维吾尔文命名实体识别方法。

背景技术

随着互联网技术的快速发展，有关新疆少数民族语言的搜索引擎、翻译系统有了比较好的发展，但是在维吾尔语命名实体的识别方面，仍然缺少准确率高得命名实体识别方法。命名实体识别作为机器翻译、信息抽取及检索等研究的基础，具有重要的研究意义。

目前命名实体识别(Named Entity Recognition，NER)方法分为三种：基于规则的方法,基于统计的方法以及基于神经网络的方法。基于规则的命名实体识别的基本思路是人工编写上下文敏感的产生式，使用普通的命名实体(NE)数据库，都将不同的权值赋给不同的规则以便在产生规则冲突时可以选择具有最大权值的规则。基于统计的方法将专名识别看作一般模式识别中分类问题的一个特例，利用字标注的方法来进行命名实体识别。其基本步骤包括:特征选择、机器学习、标注、后处理。基于深度学习的方法通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示，需要比较大的数据规模。2011年在NER任务上开始使用神经网络来进行研究。当时研究主要包含了两种网络结构，分别是窗口方法与句子方法来进行NER任务。这两种方法主要区别在于窗口方法仅使用当前预测词的上下文窗口进行输入，再使用传统的神经网络结构；句子方法用整个句子作为当前预测词输入，加入了句子中相对位置特征来区分句子中的每个词，接着使用一层卷积神经网络(CNN)结构。训练时的优化目标函数也分为两种，其一是词级别的对数似然，其二是句子级别的对数似然。2015年左右关于NER的工作大多使用的是循环神经网络与条件随机场相结合的(RNN+CRF)结构进行研究，这里的RNN一般使用长短期记忆神经网络(LSTM)或GRU，它主要有Embedding层(主要有词向量，字符相量以及一些额外特征)，双向RNN层，tanh隐层以及最后的CRF层构成。其效果已经达到或者超过了基于丰富特征的CRF模型，已成为目前基于深度学习的NER方法中的最主流模型。这种模型在特征方面，无需额外的特征工程，仅使用词向量或字符相量就可以达到很好的效果。

维吾尔语命名实体识别具有独特的词法、语言特点，直接套用英语和汉语的方法并不合适。

目前维吾尔文命名实体识别研究相比于英文、中文的研究较少。国内有关维吾尔文命名实体识别主要集中在人名,时间表达式方面，也有基于规则的机构名、地名方面的研究。但是还没有基于深度学习的识别率比较高的识别方法出现，仍然无法满足应用需求。除此之外，汉语和英语命名实体识别最好的系统都使用字符级别的词语表示，但是根据维吾尔语词语的构词特点，词干和词缀往往是多余一个字符构成并且它们的前后连接具有一定的规律性，特别在命名实体上这些特点更加明显，因此可以通过音节向量来表示词语能够获取更丰富的词法信息，我们提出的基于深度学习的方法可以有效缓解维吾尔语命名实体识别中的词缀复杂等未登录词问题，提高了识别率。

发明内容

本发明的目的是为了对维吾尔文文本中的命名实体(人名，地名，机构名)进行检测并进行标注，以得到有效的识别性能，提出一种双向LSTM神经网络的输入由字符向量、音节向量和词语向量拼接组成的基于深度学习的维吾尔文命名实体识别方法。

基于深度学习的维吾尔文命名实体识别方法，包括如下步骤：

包括如下步骤：

S1.对待标注的维吾尔文文本数据进行分句、分词，并对词进行字符提取和音节切分；S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量，并将它们拼接到一起形成词语的音节向量表示；S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征；S5.针对步骤S4中得到的输出，利用条件随机场来对整个句子进行命名实体标注，标记出语句中的命名实体信息；

进一步的，在步骤S1中，进行所述字符提取和音节切分包括以下步骤：S11.采用自然语言处理工具对文本进行句子边界识别和词例化，使得数据集以句子和每句一个token分割来呈现；S12.对步骤S11中得到的句子以及单词进行统计，获取其对应的句表，单词表；S13.将步骤S12中的所述单词表进行字符统计，获取字符表；S14.按照音节进行切分，将步骤S12中的所述单词表中的音节进行统计，形成音节表；

进一步的，在步骤S4中，得到所述输入语句的信息特征包括以下步骤：S41.初始化：第t时刻的向量x_t由字符级向量音节级向量传统的词嵌入组成，如以下公式：其中，x_t∈Rⁿ为时刻t输入拼接向量，h_t隐藏层的向量，W_*为不同状态下对于输入x_t的权重矩阵，U_*为隐藏层状态层h_t的权重矩阵，b_*为偏置向量；S42.遗忘门：决定上一时刻的单元状态c_t-1丢弃了哪些信息，遗留哪些信息保留到当前时刻c_t的单元状态,其计算公式如下：f_t＝σ(W_fx_t+U_fh_t-1+b_f)；S43.输入门：确定哪些新信息被保存在的单元状态c_t中；首先，使用sigmoid激活函数确定哪些信息被更新；然后，用tanh正切函数描述当前输入的单元状态接着，更新当前时刻的单元状态c_t；其计算公式如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)；

S44.输出门；确定LSTM最终的输出值；首先利用sigmoid层确定细胞状态的输出，然后使用tanh层确定最终的输出，是由输出门和单元状态来共同确定；其计算公式如下：

o_t＝σ(W_ox_t+U_oh_t-1+b_o)；

h_t＝o_t·tanh(c_t)；

S45.基于以上步骤，利用反向传播层获取未来信息；S46.两个隐藏层信息通过级联获取最后的输出向量。

进一步的，,在步骤S5中,标记出语句中的命名实体信息的具体步骤为：S51.对于给定的观察序列X，计算所有可能的标记序列y上的条件概率p(y|x)；S52.极大化训练数据的对数似然函数来求模型参数；S53.在标记序列中找到条件概率最高的y来对序列进行标注。

本发明的有益效果是：与现有技术相比，针对维吾尔语命名实体识别，本发明技术方案使用一种基于音节表示的长短时记忆神经网络构造方法。其主要是采用基于端到端的序列化标注模型，使用双向LSTM对每个单词学习字符级向量、音节级向量，然后将字符级向量、音节向量和词向量结合起来，拼接成一个加强向量，输入到双向LSTM网络对命名实体识别进行建模，最后LSTM模型的输出标签序列输入到条件随机场中(CRF)进行解码。本发明不仅能够摒弃人工获取特征，而且应用场景广泛，能够解决不同领域的命名实体标注问题。

附图说明

图1是基于深度学习的维吾尔文命名实体识别的关键步骤流程图。

图2是获取音节向量表示的双向LSTM神经网络实例示意图。

图3是基于BI-LSTM-CRF的命名实体识别的实例示意图。

具体实施方式

如图所示，本实施例的基于深度学习的维吾尔文命名实体识别方法，包括如下步骤：

(1)对待标注的维吾尔文文本数据进行分句、分词，并对词进行字符提取和音节切分；

(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；

(3)用双向LSTM网络对切分的音节分别获得前向和反向音节向量，并将它们拼接到一起形成词语的音节向量表示；

(4)将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征；

(5)针对(4)中得到的输出，利用条件随机场来对整个句子进行命名实体标注，标记出语句中的命名实体信息。

上述各步骤具体采用如下技术方案实现：

对待标注的维吾尔文文本数据进行分句、分词，并对词进行字符提取和音节切分，其实现步骤如下：

(1)采用自然语言处理工具对文本进行句子边界识别和词例化，使得数据集以句子和每句一个token分割来呈现；

(2)对步骤(1)中得到的句子以及单词进行统计，获取其对应的句表，单词表；

(3)将步骤(2)中单词表进行字符统计，获取字符表；

(4)按照音节进行切分，将步骤(2)中单词表中的音节进行统计，形成音节表；

用双向LSTM网络对每个词的字符分别获得前向和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；用双向LSTM网络对每个词的音节分别获得前向和反向音节向量，并将它们拼接到一起形成词语的音节向量表示。

将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征，具体过程如下：

(1)初始化：x_t∈Rⁿ为时刻t输入拼接向量，h_t隐藏层的向量，W_*为不同状态下对于输入x_t的权重矩阵，U_*为隐藏层状态层h_t的权重矩阵，b_*为偏置向量。第t时刻的向量x_t由字符级向量音节级向量传统的词嵌入组成，如公式1。

(2)遗忘门：决定上一时刻的单元状态c_t-1丢弃了哪些信息，遗留哪些信息保留到当前时刻c_t的单元状态。计算公式如下：

f_t＝σ(W_fx_t+U_fh_t-1+b_f) (2)

(3)输入门：确定哪些新信息被保存在的单元状态c_t中。首先，使用sigmoid激活函数确定哪些信息被更新；然后，用tanh正切函数描述当前输入的单元状态接着，更新当前时刻的单元状态c_t。计算公式如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i) (3)

(4)输出门：确定LSTM最终的输出值。首先利用sigmoid层确定细胞状态的输出，然后使用tanh层确定最终的输出，是由输出门和单元状态来共同确定。计算公式如下：

o_t＝σ(W_ox_t+U_oh_t-1+b_o) (6)

h_t＝o_t·tanh(c_t) (7)

(5)基于以上步骤，利用反向传播层获取未来信息

(6)两个隐藏层信息通过级联获取最后的输出向量。

针对Bi-LSTM中得到的输出，利用条件随机场来对整个句子进行命名实体标注，标记出语句中的命名实体信息。

(1)对于给定的观察序列X，计算所有可能的标记序列y上的条件概率p(y|x)；

(2)极大化训练数据的对数似然函数来求模型参数；

(3)在标记序列中找到条件概率最高的y来对序列进行标注。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的维吾尔文命名实体识别方法，其特征在于，包括如下步骤：

S1.对待标注的维吾尔文文本数据进行分句、分词，并对词进行字符提取和音节切分；

S2.用双向LSTM网络对提取的字符分别获得前向字符向量和反向字符向量，并将它们拼接到一起形成词语的字符向量表示；

S3.用双向LSTM网络对切分的音节分别获得前向音节向量和反向音节向量，并将它们拼接到一起形成词语的音节向量表示；

S4.将字符向量、音节向量与词向量进行拼接并作为传到双向LSTM神经网络来训练得到输入语句的信息特征；

S5.针对步骤S4中得到的输出，利用条件随机场来对整个句子进行命名实体标注，标记出语句中的命名实体信息。

2.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法，其特征在于,在步骤S1中，进行所述字符提取和音节切分包括以下步骤：

S11.采用自然语言处理工具对文本进行句子边界识别和词例化，使得数据集以句子和每句一个token分割来呈现；

S12.对步骤S11中得到的句子以及单词进行统计，获取其对应的句表，单词表；

S13.将步骤S12中的所述单词表进行字符统计，获取字符表；

S14.按照音节进行切分，将步骤S12中的所述单词表中的音节进行统计，形成音节表。

3.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法，其特征在于,在步骤S4中，得到所述输入语句的信息特征包括以下步骤：

S41.初始化：第t时刻的向量x_t由字符级向量音节级向量传统的词嵌入组成，如以下公式：

其中，x_t∈Rⁿ为时刻t输入拼接向量，h_t隐藏层的向量，W_*为不同状态下对于输入x_t的权重矩阵，U_*为隐藏层状态层h_t的权重矩阵，b_*为偏置向量；

S42.遗忘门：决定上一时刻的单元状态c_t-1丢弃了哪些信息，遗留哪些信息保留到当前时刻c_t的单元状态,其计算公式如下：

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

S43.输入门：确定哪些新信息被保存在的单元状态c_t中；首先，使用sigmoid激活函数确定哪些信息被更新；然后，用tanh正切函数描述当前输入的单元状态接着，更新当前时刻的单元状态c_t；其计算公式如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)；

o_t＝σ(W_ox_t+U_oh_t-1+b_o)；

h_t＝o_t·tanh(c_t)；

S45.基于以上步骤，利用反向传播层获取未来信息；

S46.两个隐藏层信息通过级联获取最后的输出向量。

4.根据权利要求1所述的基于深度学习的维吾尔文命名实体识别方法，其特征在于,在步骤S5中,标记出语句中的命名实体信息的具体步骤为：

S51.对于给定的观察序列X，计算所有可能的标记序列y上的条件概率p(y|x)；

S52.极大化训练数据的对数似然函数来求模型参数；

S53.在标记序列中找到条件概率最高的y来对序列进行标注。