CN109086306A - 基于混合隐马尔可夫模型的原子事件标签的提取方法 - Google Patents
基于混合隐马尔可夫模型的原子事件标签的提取方法 Download PDFInfo
- Publication number
- CN109086306A CN109086306A CN201810649233.2A CN201810649233A CN109086306A CN 109086306 A CN109086306 A CN 109086306A CN 201810649233 A CN201810649233 A CN 201810649233A CN 109086306 A CN109086306 A CN 109086306A
- Authority
- CN
- China
- Prior art keywords
- label
- state
- corresponding position
- speech
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及原子事件标签的提取方法,尤其涉及基于混合隐马尔可夫模型的原子事件标签的提取方法,包括以下步骤:预处理:获取训练语料库中的原子事件标签;对每个单词添加词性标签;对每个单词添加相应位置标签;将原子事件标签、词性标签和相应位置标签映射到一个隐藏状态序列中;将词性标签和相应位置标签映射到一个观测状态序列中;模型训练:建立二阶HMM模型;提取阶段:根据最优观测状态序列提取原子事件标签。通过使用本发明,可以实现以下效果:对词性和单词的相应位置进行考虑,提取准确度高;考虑到隐藏状态序列中的前后隐藏状态之间的关系,提高了提取的准确度;在原子事件标签提取之后进行检测和纠错,提高了提取的准确度。
Description
技术领域
本发明涉及原子事件标签的提取方法,尤其涉及基于混合隐马尔可夫模型的原子事件标签的提取方法。
背景技术
事件标签提取是信息提取的子域,研究如何在结构上将自然语言文本表达为事件,该事件通常具有结构“[谁]对[谁][时间][地点]做了[什么]”。随着互联网的发展,事件标签提取在自然语言处理(NLP)中成为了研究热点。目前为止,事件标签提取在许多领域中得到了广泛的应用,例如文本蕴涵识别,社会网络分析,信息检索,股市预测和社区问题解答。
传统的事件标签提取方法通过机器学习方法或事件模板从文本中挖掘事件,只能解决某些领域,类型或主题中的事件提取问题。现有的事件标签提取方案,还存在以下缺点:由于只考虑到词性而没有考虑到单词的相应位置,提取准确度低;由于没有考虑到前后隐藏状态之间的关系,这会影响状态转移概率矩阵和词性标签的观察分布概率矩阵的计算,最后使得提取准确度低;没有纠错手段。
发明内容
本发明提出基于混合隐马尔可夫模型的原子事件标签的提取方法,用于解决提取准确度不高、提取错误的问题。
基于混合隐马尔可夫模型的原子事件标签的提取方法,包括以下步骤:
预处理:获取训练语料库中的原子事件标签;将语料库中的所有语句分割为单词,对每个单词添加词性标签;对每个单词在每个语句中的相应位置添加相应位置标签;对于训练语料库,将原子事件标签、词性标签和相应位置标签映射到一个隐藏状态序列中;对于测试语料库,将词性标签和相应位置标签映射到一个观测状态序列中;
模型训练:根据隐藏状态序列中的前后隐藏状态以及观测状态序列,建立二阶HMM模型;
提取阶段:基于二阶HMM模型,利用Viterbi算法计算得到测试语料库中的最优观测状态序列,根据最优观测状态序列提取词性标签、相应位置标签所对应的原子事件标签。
优选的,所述根据隐藏状态序列中的前后隐藏状态以及观测状态序列,建立二阶HMM模型包括以下步骤:在一个句子中,定义隐藏状态序列S={s1,s2,…,si,…sT},(1≤i≤T),其中,si为隐藏状态,T是隐藏状态序列的长度;定义词性标签序列PO={po1,po2,…,poi,…poQ},(1≤i≤Q),其中,poi是词性标签,Q是词性标签序列的长度;定义相应位置标签序列RO={ro1,ro2,…,roi,…roL},(1≤i≤L),其中roi是相应位置标签,L是相应位置标签序列的长度;计算初始状态分布概率πi并转换为初始状态分布概率矩阵π:
其中,c(si)为从隐藏状态si开始的所有隐藏序列的总和,∑j∈[0,N]c(sj)为从任意隐藏状态开始的隐藏序列的总和;计算状态转移概率aijk并转换为状态转移概率矩阵a:
其中,c(si,sj,sk)为t-2时刻隐藏状态si、t-1时刻隐藏状态sj和t时刻目的隐藏状态sk的状态转移次数之和,∑l∈[1,N]c(si,sj,sl)为t-2时刻隐藏状态si、t-1时刻隐藏状态sj和t时刻任意类别原子事件标签的目的隐藏状态sk的状态转移次数之和;计算词性标签的观察分布概率bij(k)并转换为词性标签的观察分布概率矩阵b:
其中,c(si,sj,pk)为t-1时刻隐藏状态si、t时刻隐藏状态sj和t时刻词性标签pk的状态转移次数之和,∑l∈[1,M]c(si,sj,pl)为t-1时刻隐藏状态si、t时刻隐藏状态sj和t时刻任意类型词性标签pk的状态转移次数之和;计算相应位置标签观测分布概率cj(k)并转换为相应位置标签观测分布矩阵c:
其中,c(ej,rk)为t时刻的状态隐藏状态si和相应位置标签rk的状态转移次数之和,∑l∈[1,L]c(ej,rl)为t时刻的隐藏状态ej和任意相应位置标签rk的状态转移次数之和;以隐藏状态序列S、词性标签序列PO、相应位置标签序列RO、初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为参数,建立二阶HMM模型。
优选的,在所述提取阶段之后还包括纠错阶段,具体包括以下步骤:依据正确原子事件标签类型,将错误事件分为六个父类;将每一父类的所有错误事件分为三个子类;利用K-msans聚类算法进行错误事件分析:利用K-msans聚类算法进行错误事件分析:根据二阶HMM模型,确定错误属于哪个父类;计算单词的上下文特征向量和三个子类聚类中心的距离,若距离小于阈值T则进行错误纠正,阈值T的计算公式如下:
其中,A是训练语料库中父类原子事件标签的数量,s是统计结果中错误分类的父类原子事件标签的数量,pi是单词的上下文特征向量,mj是第j子类聚类中心,η是协调两个观察者的影响的系数,k是聚类中心的数量。
通过使用本发明,可以实现以下效果:
1.利用混合隐马尔可夫模型,对词性和单词的相应位置进行考虑,实现了对原子事件标签的提取,提取准确度高;
2.由于在二阶HMM的建立过程中,考虑到隐藏状态序列中的前后隐藏状态之间的关系,计算得到的状态转移概率矩阵和词性标签的观察分布概率矩阵准确,提高了提取的准确度;
3.在原子事件标签提取之后进行检测和纠错,进一步提高了提取的准确度。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明利用二阶隐马尔可夫模型(Hidden Markov Model,HMM),对词性、单词的相应位置、前后隐藏状态之间的关系进行考虑,实现了对原子事件标签的提取,提取准确度高;在原子事件标签提取之后进行检测和纠错,进一步提高了提取的准确度。
图1是本发明的流程示意图,根据图1,可以看出本发明主要包括以下几个步骤。
S1.预处理:
获取训练语料库中的原子事件标签。训练语料库中的原子事件标签是事先标注好的,所以可以直接得到。
利用LTP云将语料库中的所有语句分割为单词,对每个单词添加词性标签,例如:名词、动词、形容词等。语言技术平台(LTP)提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术。
对每个单词在每个语句中的相应位置添加相应位置标签。添加了相应位置标签后,只要根据标签就可以知道每个单词在所在句子中的位置。如果仅仅通过词性标签来提取语句中的原子事件标签,当该语句中包含单词数量较多时,提取到的原子事件标签中的单词的位置容易错乱,从而导致提取到的原子事件标签所记录的内容不准确。在一个句子中,原子事件由各个单词组成,例如:时间、地点、人物、具体发生的事情。每个单词都添加有词性标签以及位置标签,根据词性标签确实该单词是否为原子事件的子单元,最后提取词性标签和位置标签组成原子事件标签。而在本实施例中,将词性标签和相应位置标签相结合,能够准确的提取原子事件标签。
对于训练语料库,将原子事件标签、词性标签和相应位置标签映射到一个隐藏状态序列中。在一个句子中,定义隐藏状态序列S={s1,s2,…,si,…sT},(1≤i≤T),其中,si为隐藏状态,T是隐藏状态序列的长度。对于测试语料库,将词性标签和相应位置标签映射到一个观测状态序列中。观测状态序列包括词性标签序列和相应位置标签序列。在一个句子中,定义词性标签序列PO={po1,po2,…,poi,…poQ},(1≤i≤Q),其中,poi是词性标签,Q是词性标签序列的长度;定义相应位置标签序列RO={ro1,ro2,…,roi,…roL},(1≤i≤L),其中roi是相应位置标签,L是相应位置标签序列的长度。
S2.模型训练:
根据隐藏状态序列中的前后隐藏状态以及观测状态序列,建立二阶HMM模型具体的,建立二阶HMM模型的方法为:
计算初始状态分布概率πi并转换为初始状态分布概率矩阵π:
其中,c(si)为从隐藏状态si开始的所有隐藏序列的总和,∑j∈[0,N]c(sj)为从任意隐藏状态开始的隐藏序列的总和。
计算状态转移概率aijk并转换为状态转移概率矩阵a:
其中,c(si,sj,sk)为t-2时刻隐藏状态si,t-1时刻隐藏状态sj和t时刻目的隐藏状态sk的状态转移次数之和,∑l∈[1,N]c(si,sj,sl)为t-2时刻隐藏状态si,t-1时刻隐藏状态sj和t时刻任意类别原子事件标签的目的隐藏状态sk的次数之和。
计算词性标签的观察分布概率bij(k)并转换为词性标签的观察分布概率矩阵b:
其中,c(si,sj,pk)为t-1时刻隐藏状态si,t时刻隐藏状态sj和t时刻词性标签pk的状态转移次数之和,∑l∈[1,M]c(si,sj,pl)为t-1时刻隐藏状态si,t时刻隐藏状态sj和t时刻任意类型词性标签pk的状态转移次数之和。
计算相应位置标签观测分布概率cj(k)并转换为相应位置标签观测分布矩阵c:
其中,c(ej,rk)为t时刻的状态隐藏状态si和相应位置标签rk的状态转移次数之和,∑l∈[1,L]c(ej,rl)为t时刻的隐藏状态ej和任意相应位置标签rk的状态转移次数之和。
以隐藏状态序列S、词性标签序列PO、相应位置标签序列RO、初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为参数,建立二阶HMM模型
初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为分别由多个初始状态分布概率πi、状态转移概率aijk、词性标签的观察分布概率bij(k)、相应位置标签观测分布概率cj(k)组成。
如果没有考虑到前后隐藏状态之间的关系,这会影响状态转移概率矩阵和词性标签的观察分布概率矩阵的计算。在本实施例中,在状态转移概率aijk的计算过程中,考虑到了t-2时刻隐藏状态si,t-1时刻隐藏状态sj和t时刻目的隐藏状态sk,在词性标签的观察分布概率bij(k)的计算过程中,考虑到了t-1时刻隐藏状态si,t时刻隐藏状态sj和t时刻词性标签pk。结合了前后隐藏状态之间的关系,计算得到的状态转移概率矩阵和词性标签的观察分布概率矩阵准确,提高了提取的准确度。
S3.提取阶段:
将测试语料库中的语料输入二阶HMM模型,利用Viterbi算法计算得到测试语料库中的最优观测状态序列,最优观测状态序列包括最优的词性标签和相应位置标签,根据最优观测状态序列提取最优的词性标签、相应位置标签所对应的原子事件标签。利用Vitsrbi算法计算最优的观测状态序列公式如下:
其中,t为时间。
S4.纠错阶段:
在本实施例中,在提取阶段之后还包括纠错阶段,具体包括以下步骤:依据正确原子事件标签类型,将错误事件分为六个父类,每个父类都对应不同的纠正方法,例如:删除、替换等;将每一父类的所有错误事件分为三个子类;利用K-msans聚类算法进行错误事件分析:根据二阶HMM模型,确定错误属于哪个父类;计算单词的上下文特征向量和三个子类聚类中心的距离,若距离小于阈值T则根据所述父类的纠正方法进行错误纠正,阈值T的计算公式如下:
其中,A是训练语料库中父类原子事件标签的数量,s是统计结果中错误分类的父类原子事件标签的数量,pi是单词的上下文特征向量,mj是第j子类聚类中心,η是协调两个观察者的影响的系数,k是聚类中心的数量。
上下文特征向量为(e′,p,p1,p2,p3,p4),其中,e′表示提取的原子事件标签,p是词性标签,p1和p2是前面两个单词的词性标签,p3和p4是后面两个单词的词性标签。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (3)
1.基于混合隐马尔可夫模型的原子事件标签的提取方法,其特征在于,包括以下步骤:
预处理:获取训练语料库中的原子事件标签;将语料库中的所有语句分割为单词,对每个单词添加词性标签;对每个单词在每个语句中的相应位置添加相应位置标签;对于训练语料库,将原子事件标签、词性标签和相应位置标签映射到一个隐藏状态序列中;对于测试语料库,将词性标签和相应位置标签映射到一个观测状态序列中;
模型训练:根据隐藏状态序列中的前后隐藏状态以及观测状态序列,建立二阶HMM模型;
提取阶段:基于二阶HMM模型,利用Viterbi算法计算得到测试语料库中的最优观测状态序列,根据最优观测状态序列提取词性标签、相应位置标签所对应的原子事件标签。
2.根据权利要求1所述的基于混合隐马尔可夫模型的原子事件标签的提取方法,其特征在于,所述根据隐藏状态序列中的前后隐藏状态以及观测状态序列,建立二阶HMM模型包括以下步骤:
在一个句子中,定义隐藏状态序列S={s1,s2,…,si,…sT},(1≤i≤T),其中,si为隐藏状态,T是隐藏状态序列的长度;
定义词性标签序列PO={po1,po2,…,poi,…poQ},(1≤i≤Q),其中,poi是词性标签,Q是词性标签序列的长度;
定义相应位置标签序列RO={ro1,ro2,…,roi,…roL},(1≤i≤L),其中roi是相应位置标签,L是相应位置标签序列的长度;
计算初始状态分布概率πi并转换为初始状态分布概率矩阵π:
其中,c(si)为从隐藏状态si开始的所有隐藏序列的总和,∑j∈[0,N]c(sj)为从任意隐藏状态开始的隐藏序列的总和;
计算状态转移概率aijk并转换为状态转移概率矩阵a:
其中,c(si,sj,sk)为t-2时刻隐藏状态si、t-1时刻隐藏状态sj和t时刻目的隐藏状态sk的状态转移次数之和,∑l∈[1,N]c(si,sj,sl)为t-2时刻隐藏状态si、t-1时刻隐藏状态sj和t时刻任意类别原子事件标签的目的隐藏状态sk的状态转移次数之和;
计算词性标签的观察分布概率bij(k)并转换为词性标签的观察分布概率矩阵b:
其中,c(si,sj,pk)为t-1时刻隐藏状态si、t时刻隐藏状态sj和t时刻词性标签pk的状态转移次数之和,∑l∈[1,M]c(si,sj,pl)为t-1时刻隐藏状态si、t时刻隐藏状态sj和t时刻任意类型词性标签pk的状态转移次数之和;
计算相应位置标签观测分布概率cj(k)并转换为相应位置标签观测分布矩阵c:
其中,c(ej,rk)为t时刻的状态隐藏状态si和相应位置标签rk的状态转移次数之和,∑l∈[1,L]c(ej,rl)为t时刻的隐藏状态ej和任意相应位置标签rk的状态转移次数之和;
以隐藏状态序列S、词性标签序列PO、相应位置标签序列RO、初始状态分布概率矩阵π、状态转移概率矩阵a、词性标签的观察分布概率矩阵b、相应位置标签观测分布矩阵c为参数,建立二阶HMM模型。
3.根据权利要求1所述的基于混合隐马尔可夫模型的原子事件标签的提取方法,其特征在于,在所述提取阶段之后还包括纠错阶段,所述纠错阶段包括以下步骤:
依据正确原子事件标签类型,将错误事件分为六个父类;
将每一父类的所有错误事件分为三个子类;
利用K-msans聚类算法进行错误事件分析:根据二阶HMM模型,确定错误属于哪个父类;
计算单词的上下文特征向量和三个子类聚类中心的距离,若距离小于阈值T则进行错误纠正,阈值T的计算公式如下:
其中,A是训练语料库中父类原子事件标签的数量,s是统计结果中错误分类的父类原子事件标签的数量,pi是单词的上下文特征向量,mj是第j子类聚类中心,η是协调两个观察者的影响的系数,k是聚类中心的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810649233.2A CN109086306A (zh) | 2018-06-22 | 2018-06-22 | 基于混合隐马尔可夫模型的原子事件标签的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810649233.2A CN109086306A (zh) | 2018-06-22 | 2018-06-22 | 基于混合隐马尔可夫模型的原子事件标签的提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109086306A true CN109086306A (zh) | 2018-12-25 |
Family
ID=64840122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810649233.2A Pending CN109086306A (zh) | 2018-06-22 | 2018-06-22 | 基于混合隐马尔可夫模型的原子事件标签的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086306A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737268A (zh) * | 2019-10-14 | 2020-01-31 | 哈尔滨工程大学 | 一种基于Viterbi算法的确定指令的方法 |
CN112990122A (zh) * | 2021-04-25 | 2021-06-18 | 之江实验室 | 一种基于视频基础单元分析的复杂行为识别方法 |
CN113869333A (zh) * | 2021-11-29 | 2021-12-31 | 山东力聚机器人科技股份有限公司 | 基于半监督关系度量网络的图像识别方法及装置 |
CN115273148A (zh) * | 2022-08-03 | 2022-11-01 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699606A (zh) * | 2015-03-06 | 2015-06-10 | 国网四川省电力公司电力科学研究院 | 一种基于隐马尔科夫模型的软件系统状态预测方法 |
CN107563801A (zh) * | 2017-08-23 | 2018-01-09 | 浙江大学城市学院 | 一种基于隐马尔可夫模型的消费者线下消费行为预测方法 |
-
2018
- 2018-06-22 CN CN201810649233.2A patent/CN109086306A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699606A (zh) * | 2015-03-06 | 2015-06-10 | 国网四川省电力公司电力科学研究院 | 一种基于隐马尔科夫模型的软件系统状态预测方法 |
CN107563801A (zh) * | 2017-08-23 | 2018-01-09 | 浙江大学城市学院 | 一种基于隐马尔可夫模型的消费者线下消费行为预测方法 |
Non-Patent Citations (1)
Title |
---|
张贺: ""基于改进HMMs的中文原子事件抽取方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737268A (zh) * | 2019-10-14 | 2020-01-31 | 哈尔滨工程大学 | 一种基于Viterbi算法的确定指令的方法 |
CN110737268B (zh) * | 2019-10-14 | 2022-07-15 | 哈尔滨工程大学 | 一种基于Viterbi算法的确定指令的方法 |
CN112990122A (zh) * | 2021-04-25 | 2021-06-18 | 之江实验室 | 一种基于视频基础单元分析的复杂行为识别方法 |
CN112990122B (zh) * | 2021-04-25 | 2021-08-17 | 之江实验室 | 一种基于视频基础单元分析的复杂行为识别方法 |
CN113869333A (zh) * | 2021-11-29 | 2021-12-31 | 山东力聚机器人科技股份有限公司 | 基于半监督关系度量网络的图像识别方法及装置 |
CN115273148A (zh) * | 2022-08-03 | 2022-11-01 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
CN115273148B (zh) * | 2022-08-03 | 2023-09-05 | 北京百度网讯科技有限公司 | 行人重识别模型训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107330011B (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN109598995B (zh) | 基于贝叶斯知识跟踪模型的智能教学系统 | |
CN104573028B (zh) | 实现智能问答的方法和系统 | |
CN109086306A (zh) | 基于混合隐马尔可夫模型的原子事件标签的提取方法 | |
CN106897559B (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN110210019A (zh) | 一种基于递归神经网络的事件要素抽取方法 | |
Zhou et al. | Chinese named entity recognition via joint identification and categorization | |
CN106202030B (zh) | 一种基于异构标注数据的快速序列标注方法及装置 | |
CN109165350A (zh) | 一种基于深度知识感知的信息推荐方法和系统 | |
CN108681537A (zh) | 一种基于神经网络及词向量的中文实体链接方法 | |
CN111723575A (zh) | 识别文本的方法、装置、电子设备及介质 | |
CN109739997A (zh) | 地址对比方法、装置及系统 | |
CN107169079A (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN110175246A (zh) | 一种从视频字幕中提取概念词的方法 | |
CN106294744A (zh) | 兴趣识别方法及系统 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN110941720A (zh) | 一种基于知识库的特定人员信息纠错方法 | |
CN109522417A (zh) | 一种公司名的商号抽取方法 | |
CN117149984B (zh) | 一种基于大模型思维链的定制化培训方法及装置 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN107665188A (zh) | 一种语义理解方法及装置 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN110298039A (zh) | 事件地的识别方法、系统、设备及计算机可读存储介质 | |
CN114780680A (zh) | 基于地名地址数据库的检索与补全方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181225 |