CN109086306A

CN109086306A - 基于混合隐马尔可夫模型的原子事件标签的提取方法

Info

Publication number: CN109086306A
Application number: CN201810649233.2A
Authority: CN
Inventors: 叶伟静; 张文杰; 梅峰; 卢新岱; 姚杨; 姚一杨; 戴波; 王彦波
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-12-25

Abstract

本发明涉及原子事件标签的提取方法，尤其涉及基于混合隐马尔可夫模型的原子事件标签的提取方法，包括以下步骤：预处理：获取训练语料库中的原子事件标签；对每个单词添加词性标签；对每个单词添加相应位置标签；将原子事件标签、词性标签和相应位置标签映射到一个隐藏状态序列中；将词性标签和相应位置标签映射到一个观测状态序列中；模型训练：建立二阶HMM模型；提取阶段：根据最优观测状态序列提取原子事件标签。通过使用本发明，可以实现以下效果：对词性和单词的相应位置进行考虑，提取准确度高；考虑到隐藏状态序列中的前后隐藏状态之间的关系，提高了提取的准确度；在原子事件标签提取之后进行检测和纠错，提高了提取的准确度。

Description

基于混合隐马尔可夫模型的原子事件标签的提取方法

技术领域

本发明涉及原子事件标签的提取方法，尤其涉及基于混合隐马尔可夫模型的原子事件标签的提取方法。

背景技术

事件标签提取是信息提取的子域，研究如何在结构上将自然语言文本表达为事件，该事件通常具有结构“[谁]对[谁][时间][地点]做了[什么]”。随着互联网的发展，事件标签提取在自然语言处理(NLP)中成为了研究热点。目前为止，事件标签提取在许多领域中得到了广泛的应用，例如文本蕴涵识别，社会网络分析，信息检索，股市预测和社区问题解答。

传统的事件标签提取方法通过机器学习方法或事件模板从文本中挖掘事件，只能解决某些领域，类型或主题中的事件提取问题。现有的事件标签提取方案，还存在以下缺点：由于只考虑到词性而没有考虑到单词的相应位置，提取准确度低；由于没有考虑到前后隐藏状态之间的关系，这会影响状态转移概率矩阵和词性标签的观察分布概率矩阵的计算，最后使得提取准确度低；没有纠错手段。

发明内容

本发明提出基于混合隐马尔可夫模型的原子事件标签的提取方法，用于解决提取准确度不高、提取错误的问题。

基于混合隐马尔可夫模型的原子事件标签的提取方法，包括以下步骤：

预处理：获取训练语料库中的原子事件标签；将语料库中的所有语句分割为单词，对每个单词添加词性标签；对每个单词在每个语句中的相应位置添加相应位置标签；对于训练语料库，将原子事件标签、词性标签和相应位置标签映射到一个隐藏状态序列中；对于测试语料库，将词性标签和相应位置标签映射到一个观测状态序列中；

模型训练：根据隐藏状态序列中的前后隐藏状态以及观测状态序列，建立二阶HMM模型；

提取阶段：基于二阶HMM模型，利用Viterbi算法计算得到测试语料库中的最优观测状态序列，根据最优观测状态序列提取词性标签、相应位置标签所对应的原子事件标签。

优选的，所述根据隐藏状态序列中的前后隐藏状态以及观测状态序列，建立二阶HMM模型包括以下步骤：在一个句子中，定义隐藏状态序列S＝{s₁,s₂,…,s_i,…s_T}，(1≤i≤T)，其中，s_i为隐藏状态，T是隐藏状态序列的长度；定义词性标签序列PO＝{po₁,po₂,…,po_i,…po_Q}，(1≤i≤Q)，其中，po_i是词性标签，Q是词性标签序列的长度；定义相应位置标签序列RO＝{ro₁,ro₂,…,ro_i,…ro_L}，(1≤i≤L)，其中ro_i是相应位置标签，L是相应位置标签序列的长度；计算初始状态分布概率π_i并转换为初始状态分布概率矩阵π：

其中，c(s_i)为从隐藏状态s_i开始的所有隐藏序列的总和，∑_j∈[0,N]c(s_j)为从任意隐藏状态开始的隐藏序列的总和；计算状态转移概率a_ijk并转换为状态转移概率矩阵a：

其中，c(s_i,s_j,s_k)为t－2时刻隐藏状态s_i、t－1时刻隐藏状态s_j和t时刻目的隐藏状态s_k的状态转移次数之和，∑_l∈[1,N]c(s_i,s_j,s_l)为t－2时刻隐藏状态s_i、t－1时刻隐藏状态s_j和t时刻任意类别原子事件标签的目的隐藏状态s_k的状态转移次数之和；计算词性标签的观察分布概率b_ij(k)并转换为词性标签的观察分布概率矩阵b：

其中，c(s_i,s_j,p_k)为t－1时刻隐藏状态s_i、t时刻隐藏状态s_j和t时刻词性标签p_k的状态转移次数之和，∑_l∈[1,M]c(s_i,s_j,p_l)为t－1时刻隐藏状态s_i、t时刻隐藏状态s_j和t时刻任意类型词性标签p_k的状态转移次数之和；计算相应位置标签观测分布概率c_j(k)并转换为相应位置标签观测分布矩阵c：

其中，c(e_j,r_k)为t时刻的状态隐藏状态s_i和相应位置标签r_k的状态转移次数之和，∑_l∈[1,L]c(e_j,r_l)为t时刻的隐藏状态e_j和任意相应位置标签r_k的状态转移次数之和；以隐藏状态序列S、词性标签序列PO、相应位置标签序列RO、初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为参数，建立二阶HMM模型。

优选的，在所述提取阶段之后还包括纠错阶段，具体包括以下步骤：依据正确原子事件标签类型，将错误事件分为六个父类；将每一父类的所有错误事件分为三个子类；利用K－msans聚类算法进行错误事件分析：利用K－msans聚类算法进行错误事件分析：根据二阶HMM模型，确定错误属于哪个父类；计算单词的上下文特征向量和三个子类聚类中心的距离，若距离小于阈值T则进行错误纠正，阈值T的计算公式如下：

其中，A是训练语料库中父类原子事件标签的数量，s是统计结果中错误分类的父类原子事件标签的数量，p_i是单词的上下文特征向量，m_j是第j子类聚类中心，η是协调两个观察者的影响的系数，k是聚类中心的数量。

通过使用本发明，可以实现以下效果：

1.利用混合隐马尔可夫模型，对词性和单词的相应位置进行考虑，实现了对原子事件标签的提取，提取准确度高；

2.由于在二阶HMM的建立过程中，考虑到隐藏状态序列中的前后隐藏状态之间的关系，计算得到的状态转移概率矩阵和词性标签的观察分布概率矩阵准确，提高了提取的准确度；

3.在原子事件标签提取之后进行检测和纠错，进一步提高了提取的准确度。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明的流程示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

本发明利用二阶隐马尔可夫模型(Hidden Markov Model，HMM)，对词性、单词的相应位置、前后隐藏状态之间的关系进行考虑，实现了对原子事件标签的提取，提取准确度高；在原子事件标签提取之后进行检测和纠错，进一步提高了提取的准确度。

图1是本发明的流程示意图，根据图1，可以看出本发明主要包括以下几个步骤。

S1.预处理：

获取训练语料库中的原子事件标签。训练语料库中的原子事件标签是事先标注好的，所以可以直接得到。

利用LTP云将语料库中的所有语句分割为单词，对每个单词添加词性标签，例如：名词、动词、形容词等。语言技术平台(LTP)提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。

对每个单词在每个语句中的相应位置添加相应位置标签。添加了相应位置标签后，只要根据标签就可以知道每个单词在所在句子中的位置。如果仅仅通过词性标签来提取语句中的原子事件标签，当该语句中包含单词数量较多时，提取到的原子事件标签中的单词的位置容易错乱，从而导致提取到的原子事件标签所记录的内容不准确。在一个句子中，原子事件由各个单词组成，例如：时间、地点、人物、具体发生的事情。每个单词都添加有词性标签以及位置标签，根据词性标签确实该单词是否为原子事件的子单元，最后提取词性标签和位置标签组成原子事件标签。而在本实施例中，将词性标签和相应位置标签相结合，能够准确的提取原子事件标签。

对于训练语料库，将原子事件标签、词性标签和相应位置标签映射到一个隐藏状态序列中。在一个句子中，定义隐藏状态序列S＝{s₁,s₂,…,s_i,…s_T}，(1≤i≤T)，其中，s_i为隐藏状态，T是隐藏状态序列的长度。对于测试语料库，将词性标签和相应位置标签映射到一个观测状态序列中。观测状态序列包括词性标签序列和相应位置标签序列。在一个句子中，定义词性标签序列PO＝{po₁,po₂,…,po_i,…po_Q}，(1≤i≤Q)，其中，po_i是词性标签，Q是词性标签序列的长度；定义相应位置标签序列RO＝{ro₁,ro₂,…,ro_i,…ro_L}，(1≤i≤L)，其中ro_i是相应位置标签，L是相应位置标签序列的长度。

S2.模型训练：

根据隐藏状态序列中的前后隐藏状态以及观测状态序列，建立二阶HMM模型具体的，建立二阶HMM模型的方法为：

计算初始状态分布概率π_i并转换为初始状态分布概率矩阵π：

其中，c(s_i)为从隐藏状态s_i开始的所有隐藏序列的总和，∑_j∈[0,N]c(s_j)为从任意隐藏状态开始的隐藏序列的总和。

计算状态转移概率a_ijk并转换为状态转移概率矩阵a：

其中，c(s_i,s_j,s_k)为t－2时刻隐藏状态s_i，t－1时刻隐藏状态s_j和t时刻目的隐藏状态s_k的状态转移次数之和，∑_l∈[1,N]c(s_i,s_j,s_l)为t－2时刻隐藏状态s_i，t－1时刻隐藏状态s_j和t时刻任意类别原子事件标签的目的隐藏状态s_k的次数之和。

计算词性标签的观察分布概率b_ij(k)并转换为词性标签的观察分布概率矩阵b：

其中，c(s_i,s_j,p_k)为t－1时刻隐藏状态s_i，t时刻隐藏状态s_j和t时刻词性标签p_k的状态转移次数之和，∑_l∈[1,M]c(s_i,s_j,p_l)为t－1时刻隐藏状态s_i，t时刻隐藏状态s_j和t时刻任意类型词性标签p_k的状态转移次数之和。

计算相应位置标签观测分布概率c_j(k)并转换为相应位置标签观测分布矩阵c：

其中，c(e_j,r_k)为t时刻的状态隐藏状态s_i和相应位置标签r_k的状态转移次数之和，∑_l∈[1,L]c(e_j,r_l)为t时刻的隐藏状态e_j和任意相应位置标签r_k的状态转移次数之和。

以隐藏状态序列S、词性标签序列PO、相应位置标签序列RO、初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为参数，建立二阶HMM模型

初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为分别由多个初始状态分布概率π_i、状态转移概率a_ijk、词性标签的观察分布概率b_ij(k)、相应位置标签观测分布概率c_j(k)组成。

如果没有考虑到前后隐藏状态之间的关系，这会影响状态转移概率矩阵和词性标签的观察分布概率矩阵的计算。在本实施例中，在状态转移概率a_ijk的计算过程中，考虑到了t－2时刻隐藏状态s_i，t－1时刻隐藏状态s_j和t时刻目的隐藏状态s_k，在词性标签的观察分布概率b_ij(k)的计算过程中，考虑到了t－1时刻隐藏状态s_i，t时刻隐藏状态s_j和t时刻词性标签p_k。结合了前后隐藏状态之间的关系，计算得到的状态转移概率矩阵和词性标签的观察分布概率矩阵准确，提高了提取的准确度。

S3.提取阶段：

将测试语料库中的语料输入二阶HMM模型，利用Viterbi算法计算得到测试语料库中的最优观测状态序列，最优观测状态序列包括最优的词性标签和相应位置标签，根据最优观测状态序列提取最优的词性标签、相应位置标签所对应的原子事件标签。利用Vitsrbi算法计算最优的观测状态序列公式如下：

其中，t为时间。

S4.纠错阶段：

在本实施例中，在提取阶段之后还包括纠错阶段，具体包括以下步骤：依据正确原子事件标签类型，将错误事件分为六个父类，每个父类都对应不同的纠正方法，例如：删除、替换等；将每一父类的所有错误事件分为三个子类；利用K－msans聚类算法进行错误事件分析：根据二阶HMM模型，确定错误属于哪个父类；计算单词的上下文特征向量和三个子类聚类中心的距离，若距离小于阈值T则根据所述父类的纠正方法进行错误纠正，阈值T的计算公式如下：

上下文特征向量为(e′,p,p¹,p²,p³,p⁴)，其中，e′表示提取的原子事件标签，p是词性标签，p¹和p²是前面两个单词的词性标签，p³和p⁴是后面两个单词的词性标签。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于混合隐马尔可夫模型的原子事件标签的提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于混合隐马尔可夫模型的原子事件标签的提取方法，其特征在于，所述根据隐藏状态序列中的前后隐藏状态以及观测状态序列，建立二阶HMM模型包括以下步骤：

在一个句子中，定义隐藏状态序列S＝{s₁,s₂,…,s_i,…s_T}，(1≤i≤T)，其中，s_i为隐藏状态，T是隐藏状态序列的长度；

定义词性标签序列PO＝{po₁,po₂,…,po_i,…po_Q}，(1≤i≤Q)，其中，po_i是词性标签，Q是词性标签序列的长度；

定义相应位置标签序列RO＝{ro₁,ro₂,…,ro_i,…ro_L}，(1≤i≤L)，其中ro_i是相应位置标签，L是相应位置标签序列的长度；

其中，c(s_i)为从隐藏状态s_i开始的所有隐藏序列的总和，∑_j∈[0,N]c(s_j)为从任意隐藏状态开始的隐藏序列的总和；

计算状态转移概率a_ijk并转换为状态转移概率矩阵a：

其中，c(s_i,s_j,s_k)为t-2时刻隐藏状态s_i、t-1时刻隐藏状态s_j和t时刻目的隐藏状态s_k的状态转移次数之和，∑_l∈[1,N]c(s_i,s_j,s_l)为t-2时刻隐藏状态s_i、t-1时刻隐藏状态s_j和t时刻任意类别原子事件标签的目的隐藏状态s_k的状态转移次数之和；

其中，c(s_i,s_j,p_k)为t-1时刻隐藏状态s_i、t时刻隐藏状态s_j和t时刻词性标签p_k的状态转移次数之和，∑_l∈[1,M]c(s_i,s_j,p_l)为t-1时刻隐藏状态s_i、t时刻隐藏状态s_j和t时刻任意类型词性标签p_k的状态转移次数之和；

其中，c(e_j,r_k)为t时刻的状态隐藏状态s_i和相应位置标签r_k的状态转移次数之和，∑_l∈[1,L]c(e_j,r_l)为t时刻的隐藏状态e_j和任意相应位置标签r_k的状态转移次数之和；

以隐藏状态序列S、词性标签序列PO、相应位置标签序列RO、初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为参数，建立二阶HMM模型。

3.根据权利要求1所述的基于混合隐马尔可夫模型的原子事件标签的提取方法，其特征在于，在所述提取阶段之后还包括纠错阶段，所述纠错阶段包括以下步骤：

依据正确原子事件标签类型，将错误事件分为六个父类；

将每一父类的所有错误事件分为三个子类；

利用K－msans聚类算法进行错误事件分析：根据二阶HMM模型，确定错误属于哪个父类；

计算单词的上下文特征向量和三个子类聚类中心的距离，若距离小于阈值T则进行错误纠正，阈值T的计算公式如下：