CN109543151A

CN109543151A - 一种提高老挝语词性标注准确率的方法

Info

Publication number: CN109543151A
Application number: CN201811287367.0A
Authority: CN
Inventors: 周兰江; 王兴金; 张建安; 周枫
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2019-03-29
Anticipated expiration: 2038-10-31
Also published as: CN109543151B

Abstract

本发明公开了一种提高老挝语词性标注准确率的方法，属于自然语言处理和机器学习技术领域。本发明构建了基于BiLSTM的词预测模型，来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测，并将其替换参与词性标注的过程，在一定程度上可以解决词性标注小语料库的不足性，能够解决HMM模型由于出现未登记词而导致词性标注失败的问题，从而提高词性标注的准确率。

Description

一种提高老挝语词性标注准确率的方法

技术领域

本发明涉及一种提高老挝语词性标注准确率的方法，具体涉及一种利用基于BiLSTM构建的词预测模型来提高隐马尔可夫模型对老挝语词性标注准确率的方法，属于自然语言处理和机器学习技术领域。

背景技术

所谓词性标注就是根据句子的语义信息给句中的每个词确定一个最为合适的词性标记。词性标注是很多NLP任务的预处理步骤，它是为后续更重要的工作做准备，标注的准确度起到了至关重要的作用。词性标注的困难点主要是由词性兼类所引起的，也就是一个词在不同的语义下有不同的词性出现。词性兼类的消歧方法我们通常采用概率的方法，比如：隐马尔科夫模型，HMM有效性依赖于兼类词性的概率分布模型。在使用HMM对一个句子进行词性标注时，发现未登录词出现，那么未登录词及后序词的标注将会失败。

发明内容

本发明提供了一种提高老挝语词性标注准确率的方法，以用于通过该方法实现老挝语词性标注。

本发明的技术方案是：一种提高老挝语词性标注准确率的方法，所述方法具体步骤如下：

Step1、使用老挝语词性标注语料库构建HMM词性标注模型，该HMM词性标注模型具有以下五个基本要素：

①老挝语词性的隐藏状态数N，若S是词性状态集合，则S＝{S₁,S₂,…,S_N}；其中，S_N表示第N个词性；

②老挝词的观察状态数M，若V为观测词集合，则V＝{O₁,O₂,…,O_M}；其中，O_M表示第M个词；

③词性的初始概率分布π，π表示词性在句首的概率集合；

④观测概率矩阵B＝{b_i(O),1≤i≤N,O∈V}，b_i(O)＝count(O,i)/count(i)表示词O的词性为i的概率，count(O,i)表示统计的观测词集合中词O的词性为i的个数，count(i)表示统计的观测词集合中词的词性为i出现的次数；

⑤词性的状态转移矩阵A＝{a_ij},1≤i,j≤N，a_ij表示词性j到词性i的转换概率，a_ij＝count(j,i)/count(j)；其中，count(j,i)表示观测词集合中词的词性为j的右连接词性为i出现的次数，count(j)表示统计的观测词集合中词的词性为j出现的次数；

Step2、当为一个句子(W₁ W₂ W₃)进行词性标注时，分为两种情况：

第一种情况是句子中无未登录词：

当第一种情况时，Viterbi算法使用HMM词性标注模型中的五个要素计算出句子(W₁ W₂ W₃)的最佳词性标注序列，至此，词性标注完成；

第二种情况是句子中存在未登录词：

当第二种情况时，由于存在未登录词(假设是W₂)，使用基于BiLSTM结构来创建词预测模型，词预测模型根据未登录词的前后已登录词，来预测这个未登录词(W₂)的预测词(假设为W_p)，而预测词(W_p)在老挝语词性标注语料中已登录，将其替换未登录词，则存在未登录词的句子W₁ W₂ W₃替换为带预测词的句子W₁ W_p W₃，而带预测词的句子W₁ W_p W₃中的词都已经属于已登录词，将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注，计算出句子的最佳词性标注序列，至此，词性标注完成；其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。

本发明的有益效果是：本发明构建了基于BiLSTM的词预测模型，来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测，并将其替换参与词性标注的过程，在一定程度上可以解决词性标注小语料库的不足性，能够解决HMM模型由于出现未登记词而导致词性标注失败的问题，从而提高词性标注的准确率。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图和实施例，对本发明作进一步说明，但本发明的内容并不限于所述范围。

实施例1：如图1所示，一种提高老挝语词性标注准确率的方法，所述方法步骤如下：

Step1、若词性标注语料库拥有两个句子：句子一：名词动词形容词；句子二：名词形容词动词。使用该语料库来构建HMM词性标注模型的五个要素：

(1)隐藏状态数N等于3，S＝{名词、动词、形容词}；

(2)观察状态数M等于6，

(3)词性的初始概率分布π，π表示词性在句首的概率集合,π＝{名词：100％,动词：0，形容词：0}；

(4)观测概率矩阵B＝{b_i(O),1≤i≤3,O∈V}，假设i为“名词”的索引，O为词则b_i(O)＝1/2；

(5)词性的状态转移矩阵A，A＝{a_ij,1≤i,j≤3}，假设j为“名词”的索引，i为“动词”的，则a_ij＝1/2。

计算得到的观测概率矩阵B如下表所示：

表1观测概率矩阵B

计算得到的状态转移矩阵A如下表2所示：

表2状态转移矩阵A

	名词	动词	形容词
				名词	0	0.5	0.5
动词	0	0	0.5
				形容词	0	0.5	0

Step2、对某个句子进行词性标注时分为以下两种情况。

第一种情况：句子中的每个词都在词性标注语料库中出现(已登录词)，例如：句子由于每个词在词性标注语料库中出现，因此HMM模型的五个要素有每个词的信息，此时Viterbi算法使用HMM模型的五个要素便可以计算出句子的最佳词性(假设为：名词、动词、形容词)。

第二种情况：句子中存在未登录词，例如：句子它有三个词，由于词未在词性标注语料库中出现，因此在HMM模型的五个要素中无词的信息，导致Viterbi算法无法使用HMM词性标注模型的五个要素对这个句子进行词性标注。本文使用词预测模型来解决这个问题。首先，词预测模型使用未登录词周围的已登录词来预测未登录即：词预测模型使用来预测未登录词，假设得到预测词而在训练HMM模型的词性标注语料库中有出现。然后，使用预测词替换未登录词句子转换为而该句子中的词都已登录。此时，Viterbi算法可以成功使用HMM词性标注模型的五个要素对转换后的句子进行词性标注。

词预测模型构建使用BiLSTM结构，训练使用的语料库是标注语料的分词部分的两个句子，句子一：句子二：待词预测模型参数训练完成后，就可以使用词预测模型。因为训练词预测模型使用的语料库是训练HMM模型词性标注语料库中的分词部分，预测的词也将属于词性标注语料库中的词，因此预测的词属于已登录词。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种提高老挝语词性标注准确率的方法，其特征在于：所述方法具体步骤如下：

①老挝语词性的隐藏状态数N，若S是词性状态集合，则S＝{S₁，S₂，...，S_N}；其中，S_N表示第N个词性；

②老挝词的观察状态数M，若V为观测词集合，则V＝{O₁，O₂，...，O_M}；其中，O_M表示第M个词；

③词性的初始概率分布π，π表示词性在句首的概率集合；

④观测概率矩阵B＝{b_i(O)，1≤i≤N，O∈V}，b_i(O)＝count(O，i)/count(i)表示词O的词性为i的概率，count(O，i)表示统计的观测词集合中词O的词性为i的个数，count(i)表示统计的观测词集合中词的词性为i出现的次数；

⑤词性的状态转移矩阵A＝{a_ij}，1≤i，j≤N，a_ij表示词性j到词性i的转换概率，a_ii＝count(j，i)/count(j)；其中，count(j，i)表示观测词集合中词的词性为j的右连接词性为i出现的次数，count(j)表示统计的观测词集合中词的词性为j出现的次数；

Step2、当为一个句子进行词性标注时，分为两种情况：

第一种情况是句子中无未登录词：

当第一种情况时，Viterbi算法使用HMM词性标注模型中的五个要素计算出句子的最佳词性标注序列，至此，词性标注完成；

第二种情况是句子中存在未登录词：

当第二种情况时，由于存在未登录词，使用基于BiLSTM结构来创建词预测模型，词预测模型根据未登录词的前后已登录词，来预测这个未登录词的预测词，而预测词在老挝语词性标注语料中已登录，将其替换未登录词，则存在未登录词的句子替换为带预测词的句子，而带预测词的句子中的词都已经属于已登录词，将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注，计算出句子的最佳词性标注序列，至此，词性标注完成；其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。