CN108073570A

CN108073570A - 一种基于隐马尔可夫模型的词义消歧方法

Info

Publication number: CN108073570A
Application number: CN201810006804.0A
Authority: CN
Inventors: 陈宏�; 王宇轩
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2018-01-04
Filing date: 2018-01-04
Publication date: 2018-05-25

Abstract

基于隐马尔可夫模型的词义消歧方法，步骤如下：1)训练语料，利用SemEval‑2007#task5的测试语料集合对待消歧的句子进行解析；再对该句子进行分词处理；2)分词后找到句子中的歧义词，提取目标歧义词及其左右两侧的分词；训练语料，计算语义类‑词汇转移概率和语义类转移概率；3)从人工标注语料中提取包含歧义词的句子数，计算观测概率，计算歧义词左右两侧词汇的观测概率；4)利用前面语料训练出来的数值计算状态转移概率，提取到的初始状态概率、观测概率与状态转移概率，作为隐马尔可夫模型参数，将构建好的消歧模型，对测试语料中的语句进行消歧；5)利用相似度计算方法验证消歧结果的准确性。

Description

一种基于隐马尔可夫模型的词义消歧方法

技术领域

本发明涉及基于词典与机器学习理论的词义消歧方法，该方法在自然语言处理的问题上有较好的应用，如：机器翻译、信息抽取、语音识别和句法分析等，具有很强的扩展性与灵活性。

背景技术

自然语言中存在着大量的多义词，在不同的场景中，表达的含义不尽相同，如何在给定的上下文中，确定其中各个歧义词对应哪个词义作为该词的正确词义，是词义消歧所要解决的问题。一般处理词义消歧，如果这个歧义词的多个词义之间对应的词性不同，则选用正确的词义匹配，可以在词性标注阶段完成。目前，词义消歧广泛应用于自然语言处理领域，如：机器翻译、语义搜索、文本主题分析以及语音识别等。

语义词典给词义消歧的研究提供了语义支持，词典给出了词语的语义区分。WordNet是常见的英语词义词典，中文一般使用的词典有HowNet以及北京大学的“现代汉语语义词典”等。除了上述词典外，词义标注语料库标注了词的不同语义在文本中的使用情况，为后期有监督的词义消歧研究提供了数据支持，但是中文的词义标注语料库所收纳的歧义词相对较少，数据与特征决定算法上限，很大程度影响了词义消歧的结果。常见的英文词义标注语料库：Semcor(普林斯顿大学标注)和DSO(新加坡国立大学标注)；中文的词义标注语料库有哈尔滨工业大学与北京大学标注的词义消歧语料库。

(1)有监督词义消歧方法

有监督的词义消歧方法是用词义标注语料来训练词义消歧分类器，基于机器学习算法建立词义消歧模型。有监督的词义消歧方法的研究重点在于提取特征，也就是提取歧义词上下文特征，可以归纳为三种类型：1、待消解词上下窗口内(也就是词的上下文)出现的词及其词性；2、句法特征利用待消解词在上下文中的句法关系特征；3、语义特征在句法关系基础上添加了语义类信息，甚至是语义角色标注类信息。

词义消歧模型的训练需要大量词义标注语料数据，但是构建词义标注语料库需要投入大量的人力物力。由于语料库数据的不足，模型参数数据较为稀疏，使得该消歧方法不足以支撑大量消歧任务。典型的有监督词义消歧方法有决策树与朴素贝叶斯，这里简单介绍下贝叶斯模型。

贝叶斯分类器是以贝叶斯理论为基础的消歧概率模型，是贝叶斯公式的推广，适合处理单点分类问题。该模型是根据语义S_i所处的上下文信息Context_j的条件概率(先验概率推导后验概率)来确定歧义词的语义。贝叶斯模型应用于词义消歧当中，表述如下所示：

上式中，P(S_i)与P(Context_j|S_i)需要通过大量的语料训练得到，其中，P(S_i)表示歧义词语义为S_i的发生概率，而P(Context_j|S_i)表示歧义词在给定语义S_i的前提下选择上下文为Context_j的条件概率；如果语料中没有这个词的语义，则需要进行特殊处理。

(2)无监督词义消歧方法

相对于有监督的消歧算法而言，无监督词义消歧方法在不需要任何人工标注语料前提下利用聚类方法进行消歧，该方法实际上是将词义消歧看作是语义上的聚类问题。词义消歧常用的聚类算法有最大期望算法(Expectation Maximization,EM)和合并聚类算法(Agglomerative Clustering)。其中，EM算法通过利用反复迭代的方式来寻找概率模型参数的最大似然估计；合并聚类算法思想是使每个样本对应于一个类别集合，循环合并类别相似的集合来达到分类效果。

(3)深度学习方法

随着深度学习的发展，在自然语言处理领域上的应用愈发广泛，基于深度学习的词义消歧方法成为这一领域的热点。深度学习较机器学习避免了人工特征的提取，它可以将浅层的简单特征融合成复杂的特征，这样极大程度上减少了很多特征工程方面的工作量。

发明内容

本发明目的是，提出一种基于隐马尔可夫模型的词义消歧方法，利用基于深度学习的词义消歧方法；能够减少很多特征工程方面的工作量；相对于传统的基于词形消歧模型，隐马尔可夫模型的准确性会有很大提升。

本发明技术方案是，基于隐马尔可夫模型的词义消歧方法，可以参考大致流程如下图1：图1基于隐马尔可夫模型的词义消歧流程图。

步骤1训练语料，利用SemEval-2007#task5的测试语料集合对待消歧的句子进行解析；再对该句子进行分词处理；

步骤2分词后找到句子中的歧义词，提取目标歧义词及其左右两侧的分词；训练语料，计算语义类-词汇转移概率和语义类转移概率；

步骤3从(哈尔滨工业大学)人工标注语料中提取包含歧义词word_k的句子数Num(Sentence(word_k))，以及该词汇word_k对应的语义为sense_j的句子数Num(sense_j,word_k)，计算观测概率P(word_k|sense_j)(观测概率是词本身出现的概率，即在给定语义类sense_j的前提下，产生词汇word_k的概率，具体计算参照下文实施方式)；以同样的方式计算歧义词左右两侧词汇的观测概率，由语料库可以确定语义状态集合S(状态集合即是待消歧词语义的集合)；

步骤4利用前面语料训练出来的数值计算状态转移概率P(sense_i|sense_j)(状态转移概率表示人工标注语料中语义类sense_j出现在语义类sense_i左侧的概率，也就是说在给定左侧词汇的语义类sense_j的前提下，当前词汇的语义为sense_i的概率，具体计算参照下文实施方式)，提取到的初始状态概率、观测概率与状态转移概率，作为隐马尔可夫模型参数λ，将构建好的消歧模型，对测试语料中的语句进行消歧；

步骤5利用相似度计算方法验证消歧结果的准确性。

有益效果，本发明面向有监督学习的语义类预测问题，提出一种基于隐马尔可夫模型的词义消歧方法，相对于传统的基于词形消歧模型，隐马尔可夫模型的准确性有了很大提升。在后期检验中，消歧模型将词汇的语义类代码作为特征，同时考虑了代消歧词左右两个词汇的语义类别进行消歧，相对于传统词形模型正确率提高10％以上。

附图说明

图1基于隐马尔可夫模型的词义消歧流程图。

具体实施方式

根据以上所述的流程图，具体阐述本发明的实施方案。这里的实施方式仅为示例，基于本发明技术实质所做的等同变化，仍落入本发明保护范围。

预测问题的求解框架：在给定隐马尔可夫模型λ＝(A,B,π)(A和π是语义类序列，B是词汇序列)和观测序列O＝(o₁,o₂,…,o_n)的情况下，求解观测序列的条件概率P(Q|O)最大的隐藏状态序列，也就是语义序列。前面的概率是通过语料训练得到，隐藏序列的求解一般采用Viterbi算法，即是用动态规划解隐马尔可夫模型预测问题。

步骤1利用(哈工大)人工语义标注语料作为训练语料估计隐马尔可夫模型参数，同时，将SemEval-2007#task5作为测试集检验模型的优劣。

步骤2先将目标语句分词，在python中调用jieba函数包进行分词；以歧义词为中心向两侧提取成对特征的词窗，表现的形式为Word_-n,…Word_-1,Word₀,Word₁,…,Word_n。其中，Word₀为目标歧义词，Word_-n与Word_n分别表示目标歧义词左右侧第n个词汇。

步骤3隐马尔可夫模型λ＝(S,W,A,B,π)，S为包含有歧义词句子中所有词汇语义的集合，这里的语义代码是相互联系的，可以从一个语义转移到另一语义，即状态转移；W为包含有歧义词句子中所有词汇的集合；A＝[a_ij]是状态转移概率矩阵；B＝[b_jk]是观测概率矩阵，即是观测状态产生隐藏状态的概率矩阵，也称为混淆矩阵；π为初始状态概率。

基于隐马尔可夫模型词义消歧方法是在已知模型λ＝(S,W,A,B,π)(S为包含歧义词句子的所有词汇语义的集合；W为包含有歧义词句子的所有词汇的集合)、观测序列W_n＝word₁,word₂,…,word_n，求解隐藏序列S_n＝sense₁,sense₂,…,sense_n，使得条件概率P(S_n|W_n)最大，故有：

在这里，P(S_n)为语义序列的出现概率，即隐藏状态序列S_n的出现概率，P(W_n)为词汇序列的出现概率，即观测序列W_n的出现概率。

步骤4隐马尔可夫中的两个关键参数观测概率矩阵B＝[b_jk]和状态转移矩阵A＝[a_ij]，是通过训练语料确定参数。

状态转移概率a_ij计算如下：

词汇word_k选择语义类sense_k的观测概率b_jk的计算如下：

步骤5在测试语料中，“同义词词林”涵盖大部分的歧义词，而每个歧义词都会对应语义类代码编码。词义消歧方法的性能评定是通过测试语料歧义词语义与词林语义编码的相似度计算进行确定。

本发明并不限于上述实施方式，采用与本发明上述实施实例相同或近似的结构，而得到的其它结构设计，均在本发明的保护范围之内。

Claims

1.基于隐马尔可夫模型的词义消歧方法，其特征是步骤如下：

步骤1 训练语料，利用SemEval-2007#task5的测试语料集合对待消歧的句子进行解析；再对该句子进行分词处理；

步骤2 分词后找到句子中的歧义词，提取目标歧义词及其左右两侧的分词；训练语料，计算语义类-词汇转移概率和语义类转移概率；

步骤3 从人工标注语料中提取包含歧义词word_k的句子数Num(Sentence(word_k))，以及该词汇word_k对应的语义为sense_j的句子数Num(sense_j,word_k)，计算观测概率P(word_k|sense_j)，观测概率是词本身出现的概率，即在给定语义类sense_j的前提下，产生词汇word_k的概率；以同样的方式计算歧义词左右两侧词汇的观测概率，由语料库确定语义状态集合S，状态集合S即是待消歧词语义的集合；

步骤4 利用前面语料训练出来的数值计算状态转移概率P(sense_i|sense_j)，状态转移概率表示人工标注语料中语义类sense_j出现在语义类sense_i左侧的概率，也就是说在给定左侧词汇的语义类sense_j的前提下，当前词汇的语义为sense_i的概率，提取到的初始状态概率、观测概率与状态转移概率，作为隐马尔可夫模型参数λ，将构建好的消歧模型，对测试语料中的语句进行消歧；

步骤5 利用相似度计算方法验证消歧结果的准确性。

2.根据权利要求1所述的基于隐马尔可夫模型的词义消歧方法，其特征是步骤1中，利用哈工大人工语义标注语料作为训练语料估计隐马尔可夫模型参数，同时，将SemEval-2007#task5作为测试集检验模型的优劣；

先将目标语句分词，在python中调用jieba函数包进行分词；

步骤2中，以歧义词为中心向两侧提取成对特征的词窗，表现的形式为Word_-n,…Word_-1,Word₀,Word₁,…,Word_n；其中，Word₀为目标歧义词，Word_-n与Word_n分别表示目标歧义词左右侧第n个词汇。

3.根据权利要求1所述的基于隐马尔可夫模型的词义消歧方法，其特征是步骤4中，隐马尔可夫模型λ＝(S,W,A,B,π)，S为包含有歧义词句子中所有词汇语义的集合，这里的语义代码是相互联系的，可以从一个语义转移到另一语义，即状态转移；W为包含有歧义词句子中所有词汇的集合；A＝[a_ij]是状态转移概率矩阵；B＝[b_jk]是观测概率矩阵，即是观测状态产生隐藏状态的概率矩阵，也称为混淆矩阵；π为初始状态概率；

基于隐马尔可夫模型词义消歧方法是在已知模型λ＝(S,W,A,B,π)、观测序列W_n＝word₁,word₂,…,word_n，求解隐藏序列S_n＝sense₁,sense₂,…,sense_n，使得条件概率P(S_n|W_n)最大，故有：

<mrow> <munder> <mi>argmax</mi> <msub> <mi>S</mi> <mi>n</mi> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>argmax</mi> <msub> <mi>S</mi> <mi>n</mi> </msub> </munder> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&ap;</mo> <munder> <mi>argmax</mi> <msub> <mi>S</mi> <mi>n</mi> </msub> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

隐马尔可夫中的两个关键参数观测概率矩阵B＝[b_jk]和状态转移矩阵A＝[a_ij]，是通过训练语料确定参数；

状态转移概率a_ij计算如下：

<mrow> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>sense</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>sense</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>sense</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

词汇word_k选择语义类sense_k的观测概率b_jk的计算如下：

<mrow> <msub> <mi>b</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>sense</mi> <mi>j</mi> </msub> <mo>,</mo> <msub> <mi>word</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>e</mi> <mi>n</mi> <mi>c</mi> <mi>e</mi> <mo>(</mo> <mrow> <msub> <mi>word</mi> <mi>k</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

在测试语料中，“同义词词林”涵盖大部分的歧义词，而每个歧义词都会对应语义类代码编码；词义消歧方法的性能评定是通过测试语料歧义词语义与词林语义编码的相似度计算进行确定。