CN110083824A

CN110083824A - 一种基于多模型组合神经网络的老挝语分词方法

Info

Publication number: CN110083824A
Application number: CN201910201435.5A
Authority: CN
Inventors: 周兰江; 谭琪辉; 张建安; 周枫
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-08-02

Abstract

本发明公开了一种基于多模型组合神经网络的老挝语分词方法，属于自然语言处理和机器学习技术领域。本发明基于双向长短期记忆(Bi‑LSTM)神经网络结合attention模型和CRF模型，首先在待分词的老挝语料上进行字向量训练；然后引入去噪机制对输入的字嵌入量进行过滤调整；将过滤后的字嵌入向量输入Bi‑LSTM神经网络进行编码并输出音节序列，根据老挝语音节拼写规则将音节序列表示成特征词向量；引入attention模型对Bi‑LSTM网络的输入输出之间的相关性进行重要度计算，获取有效的老挝语词向量特征；最后由CRF层解码输出概率最大的标签序列，使用4词位标注集表达文本的词位信息。利用改进的attention‑Bi‑LSTM‑CRF神经网络建立的老挝语分词模型，可有效对老挝语进行分词。

Description

一种基于多模型组合神经网络的老挝语分词方法

技术领域

本发明涉及一种基于多模型组合神经网络的老挝语分词方法，属于自然语言处理和机器学习技术领域。

背景技术

所谓分词是指将未加工的自然语言文本分割成单词的顺序，分词作为信息处理任务中的一项基础工作，是自动问答、机器翻译、文本校对、摘要生成等任务的前提。在英语中，单词之间以空格作为的自然分隔符，但在老挝语中没有明显的分割标识，它和汉语句子在结构上相似，具有字符连续书写的特点。从深度学习角度来看，分词任务可转化成序列标注任务。序列标注任务指将观察序列中的每个元素在固定标签集合中为之赋予一个指定标签的过。目前，常用的解决序列标记任务的模型有隐马尔可夫模型、条件随机场模型和最大熵模型。然而，这些传统的模型需要使用大量的语言学知识来手工构造特征，因此不具有广泛的适用性。

发明内容

本发明要解决的技术问题是提供一种基于多模型组合神经网络的老挝语分词方法，用于将老挝语句子分割成词语序列，提高分词精度。

本发明采用的技术方案是：一种基于多模型组合神经网络的老挝语分词方法，包括如下步骤：

Step1、将老挝语分词语料预处理后进行数据集划分，随机抽取90％作为训练集，10％数据作为测试集；

Step2、将待分词的老挝语料上进行文本向量化，将文本中的每一个字映射成一个固定长度的短向量，以作为当前字的特征向量表示；

Step3、引入去噪机制对输入的字嵌入量进行过滤调整；

Step4、Bi-LSTM模型对过滤后的字向量片段进行编码并输出具有上下文语义特征的老挝语音节序列；根据老挝语音节拼写规则将音节序列表示成特征词向量；

Step5、引入attention模型对Bi-LSTM网络的输入输出之间的相关性进行重要度计算，获取有效的老挝语词向量特征；

Step6、将词向量特征输入CRF层，经过softmax变换，加入标签转移概率矩阵，选择词性概率分布中概率最大的标签序列作为输出，生成音节的标注标签序列，最后使用4词位标注集得到老挝语句子预测分词结果。

具体地，所述步骤Step2中字向量训练是将字符向量化，向量之间的映射关系反映出字符间的语义相关性，选择字符向量维度为128维，由Word2Vec生成字嵌入向量，对字嵌入向量使用Dropout方法。

具体地，所述步骤Step3中去噪机制实际为一个神经网络层，通过函数k_t＝f_t⊙x_t对字嵌入量进行筛选，得到字向量输出k_t，其中⊙表示逐点乘积操作，f_t定义为f_t＝f(w_fx_t+b_f)，f函数为f(x)＝|sin x|，w_f表示当前层的权值矩阵，b_f表示偏置向量，Step2中的x_t作为函数的向量参数，利用固定上下文窗口内的字表示当前字，对固定窗口内的信息进行调整，使得固定窗口内的字嵌入以一定概率出现，减少无效信息向量的出现。

具体地，所述步骤Step4中Bi-LSTM是递归神经网络，通过LSTM网络前向和后向进行传播，将输入序列中每一个点的完整的过去和未来的上下文信息提供给输出层。

具体地，所述步骤Step4中老挝语音节拼写规则是由辅音加声调、辅音与元音相拼、辅音与元音相拼加声调、辅音与元音相拼加死闭音节、辅音与元音相拼加活闭音节以及辅音与元音相拼加活闭音节及加声调的拼写规则构成，通过与老挝语音节拼写规则表比对，将音节序列组成一个一个的特征词向量。

具体地，所述步骤Step5中由所述步骤4中Bi-LSTM的输入字嵌入量与输出特征词向量来作为attention层的输入，首先用矩阵T来计算当前老挝词与输入文本中所有老挝词的相似性，然后根据重要度对每个向量赋予不同权重，其中重要度是指注意力权重系数a_ij，矩阵T的第i行第j列，最后输出权重语义向量。

具体地，所述步骤Step6中利用CRF模型对应窗口序列内的每个音节，分别输出4类标签概率，并用转移概率矩阵A_ij表示各音节标签概率间互相转化的概率，使用softmax函数来对标签概率的得分进行计算，针对每个音节的标签值，利用4词位标注集即{BMES}标注集，分别表示其在老挝词中的开始位置、中间位置、结束位置，单个音节则为一个独立词。

本发明的有益效果是：

1、该基于attention-Bi-LSTM-CRF神经网络模型的老挝语分词方法中，采用Bi-LSTM模型可以通过神经网络结构自动地获取老挝语文本特征，无论从获取速度还是效果上，都比传统深度学习模型优越。双向神经网络对句子进行分词时要好于单向神经网络，双向神经网络可以获得上下文语义的特征。

2、该基于attention-Bi-LSTM-CRF神经网络模型的老挝语分词方法中，能对老挝语语句上下文依赖信息进行建模，同时融合CRF模型考虑了句子字符前后的标签信息，对老挝语句子信息进行了推理，有效提高了分词效果。

3、该基于attention-Bi-LSTM-CRF神经网络模型的老挝语分词方法中，融合去噪机制对字嵌入向量进行过滤，去除无效信息量；引入attention模型以计算Bi-LSTM网络的输入和输出之间相关性的重要性，在获取文本整体特征时，相比其他老挝语分词算法效果更好，泛化能力更强。

附图说明

图1为本发明中的总体流程图；

图2为Bi-LSTM网络结构图和本发明中用于提取老挝语重要特征词向量的attention模型基本结构图；

图3为老挝语音节拼写规则表。

具体实施方式

为了更详细的描述本发明和便于本领域人员的理解，下面结合附图以及实施例对本发明作进一步的说明。

实施例1：如图1-图3所示，一种基于多模型组合神经网络的老挝语分词方法，包括如下步骤：

Step1、将老挝语分词语料预处理后进行数据集划分，将90％作为训练集，10％数据作为测试集；

Step2、将待分词的老挝语料上进行字符向量化，将老挝语句中的每一个字映射成一个固定长度的短向量，以作为当前字的特征向量表示；

Step3、引入去噪机制对输入的字嵌入量进行过滤调整；

Step6、将词向量特征输入CRF层，经过softmax变换，CRF模型加入标签转移概率矩阵，选择词性概率分布中概率最大的标签序列作为输出，生成音节的标注标签序列，最后使用4词位标注集得到老挝语句子预测分词结果。

进一步地，所述步骤Step1中，语料通过老挝语留学生手动标注获取，50000个老挝语词语，将90％作为训练集，10％数据作为测试集，其中测试集数据是不包含任何切分信息的老挝语语料。

进一步地，所述步骤Step2中，使用word2vec模型把测试集数据预先处理成字嵌入向量，t时刻输入字符c_t，窗口大小为m，字符序列在字嵌入层分别对应5个维度为d的子向量，每个子向量串联在一起，形成一个长向量其中向量空间H₁＝m×d。

进一步地，所述步骤Step3中去噪机制实际为一个神经网络层，通过函数k_t＝f_t⊙x_t对字嵌入量进行筛选，得到字向量输出k_t，其中⊙表示逐点乘积操作，f_t定义为f_t＝f(w_fx_t+b_f)，f函数为f(x)＝|sinx|，w_f表示当前层的权值矩阵，b_f表示偏置向量，Step2中的x_t作为函数的向量参数，利用固定上下文窗口内的字表示当前字，对固定窗口内的信息进行调整，使得固定窗口内的字嵌入以一定概率出现，减少无效信息向量的出现。在模型训练过程中对字嵌入向量使用Dropout方法以降低错误率，防止过拟合问题。

进一步地，所述步骤Step4中，将Step3中的字向量输出k_t作为Bi-LSTM网络的输入，该网络模型已通过训练集语料进行训练，通过Bi-LSTM网络变换后会得到一个输出序列h_t，如图2所示。将输出的音节序列与老挝语音节拼写规则表比对将其表示成特征词向量，老挝语音节拼写规则如图3所示。

进一步地，所述步骤Step5中，根据所述步骤4中Bi-LSTM的输入字嵌入量与输出特征词向量来作为attention层的输入，用矩阵T来计算当前目标词与输入文本中所有词的相似性，其中重要度是指注意力权重系数a_ij(矩阵T的第i行第j列)，它表示第i个目标输出与第j个输入的相似性。如图2所示，步骤4中的输出h_t与注意力权重系数a_tj计算得到时间序列u_t，然后u_t与h_t合并通过tanh函数得到e_t，然后输出更为有效的词向量特征。

进一步地，所述步骤Step6中，利用CRF模型对应窗口序列内的每个音节，分别输出4类标签概率，并用转移概率矩阵A_ij表示各音节标签概率间互相转化的概率。使用softmax函数来对标签概率的得分进行计算，针对每个音节的标签值，使用4词位标注集{BMES}，得到老挝语句子预测分词结果。

图3为老挝语拼音规则表，因为它是类似汉语拼音规则表一样的，不是单独的词，所以没有对应的中文解释，因此不增加对应的中文译文。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于多模型组合神经网络的老挝语分词方法，其特征在于：包括如下步骤：

Step3、引入去噪机制对输入的字嵌入量进行过滤调整；

2.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法，其特征在于：所述步骤Step2中字向量训练是将字符向量化，向量之间的映射关系反映出字符间的语义相关性，选择字符向量维度为128维，由Word2Vec生成字嵌入向量，对字嵌入向量使用Dropout方法。

3.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法，其特征在于：所述步骤Step3中去噪机制实际为一个神经网络层，通过函数k_t＝f_t⊙x_t对字嵌入量进行筛选，得到字向量输出k_t，其中⊙表示逐点乘积操作，f_t定义为f_t＝f(w_fx_t+b_f)，f函数为f(x)＝|sinx|，w_f表示当前层的权值矩阵，b_f表示偏置向量,Step2中的x_t作为函数的向量参数，利用固定上下文窗口内的字表示当前字，对固定窗口内的信息进行调整，使得固定窗口内的字嵌入以一定概率出现，减少无效信息向量的出现。

4.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法，其特征在于：所述步骤Step4中Bi-LSTM是递归神经网络，通过LSTM网络前向和后向进行传播，将输入序列中每一个点的完整的过去和未来的上下文信息提供给输出层。

5.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法，其特征在于：所述步骤Step4中老挝语音节拼写规则是由辅音加声调、辅音与元音相拼、辅音与元音相拼加声调、辅音与元音相拼加死闭音节、辅音与元音相拼加活闭音节以及辅音与元音相拼加活闭音节及加声调的拼写规则构成，通过与老挝语音节拼写规则表比对，将音节序列组成一个一个的特征词向量。

6.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法，其特征在于：所述步骤Step5中由所述步骤4中Bi-LSTM的输入字嵌入量与输出特征词向量来作为attention层的输入，首先用矩阵T来计算当前老挝词与输入文本中所有老挝词的相似性，然后根据重要度对每个向量赋予不同权重，其中重要度是指注意力权重系数a_ij，矩阵T的第i行第j列，最后输出权重语义向量。

7.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法，其特征在于：所述步骤Step6中利用CRF模型对应窗口序列内的每个音节，分别输出4类标签概率，并用转移概率矩阵A_ij表示各音节标签概率间互相转化的概率，使用softmax函数来对标签概率的得分进行计算，针对每个音节的标签值，利用4词位标注集即{BMES}标注集，分别表示其在老挝词中的开始位置、中间位置、结束位置，单个音节则为一个独立词。