CN107807910A - 一种基于hmm的词性标注方法 - Google Patents

一种基于hmm的词性标注方法 Download PDF

Info

Publication number
CN107807910A
CN107807910A CN201710933336.7A CN201710933336A CN107807910A CN 107807910 A CN107807910 A CN 107807910A CN 201710933336 A CN201710933336 A CN 201710933336A CN 107807910 A CN107807910 A CN 107807910A
Authority
CN
China
Prior art keywords
mrow
msub
hmm
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710933336.7A
Other languages
English (en)
Inventor
龙华
吴睿
熊新
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201710933336.7A priority Critical patent/CN107807910A/zh
Publication of CN107807910A publication Critical patent/CN107807910A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于HMM的词性标注方法,属于信息处理技术领域。首先将词库中的词语按照unicode码进行排序,以便在分词的时候用二分法快速查找;然后引入HMM,以月标注好的语料库作为训练集和测试集,用以获得HMM的三个参数,从而得到HMM中若干可观测状态;其次进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,将没有查找到的新词引用最大熵模型进行标注;最后用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。本发明与现有技术相比,主要解决了单一的词性标注方法速度慢,对新词识别率低,从而使得标注结果准确率低的现象,以提高词性标注的高效性与准确性。

Description

一种基于HMM的词性标注方法
技术领域
本发明涉及一种基于HMM的词性标注方法,属于信息处理技术领域。
背景技术
现代社会,随着信息技术的快速发展,词性标注成为了自然语言处理中一个具有重要意义的研究方向,它作为自然语言处理的一项基础性工作,是后续语法分析、语音识别、文本分类、机器翻译等任务的必要准备。
一般地,基于HMM的词性标注效果虽然不错,但是对预测信息不足,识别新词能力差,从而使得词性标注的准确率不高;同样地,基于最大熵模型的词性标注虽然能有效地利用上下文信息,有较好的预测作用,但是存在着标注速度慢以及标注偏置等问题。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于HMM的词性标注方法,引入了HMM和最大熵模型的结合对词性标注方法进行改进,解决了单一的词性标注方法速度慢,对新词识别率低,从而使得标注结果准确率低的现象,以提高词性标注的高效性与准确性。
本发明的技术方案是:一种基于HMM的词性标注方法,利用HMM和最大熵模型的结合对词性标注方法进行改进,具体步骤为:
①输入待标注的词串,待标注的词串可以为任意词串;
②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分,得到初次分词结果;
③以标注好的语料库作为训练集和测试集,获得HMM的三个参数,从而得到HMM中若干可观测状态;
④进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,若仍存在未查找到的词,则作为新词引入最大熵模型进行标注;
⑤用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。
步骤②所述的词库使用unicode码排序,以便在分词时匹配词库时能实现快速查找。
所述的快速查找为二分法,在初次分词时,首先将词库读到内存中,然后将词串用正向最大匹配的方法匹配词库;由于词库按照unicode码排序,所以可以采用二分法快速查找词组,查找时,首先读取原始句子的第一个字,找到该字在词库中的起始位置和结束位置,然后进用二分法进行快速查找,在查找的过程中记录起始和结束位置之间所有词的最大长度,然后从最大长度开始查找词库,长度逐一递减,直到找到为止。
步骤③所述的获得HMM的三个参数为(PI,A,B),PI表示词性的先验概率,A表示词性之间的状态转移矩阵,B表示词性到词的混淆矩阵,获得以上三种参数的方式为有监督的方式,即通过统计语料库中的相关信息来训练参数。
所述的统计语料库中的相关信息为每个词性出现的次数,每个词性及其后继词性出现的次数和词性对应的词。统计完这些信息之后就可以用频率代替概率获得三个参数的值。
所述的词性的先验概率PI的计算公式为:
其中,N表示语料库中词性的总次数,N(St)表示词性St在语料库出现的次数。
所述的词性之间的状态转移矩阵A的计算公式为:
其中,P(St-1,St)表示不同的两个词性前后出现的概率,P(St-1)表示词性St-1出现的概率,N(St-1,St)表示不同的两个词性前后出现的次数。
所述的词性到词的混淆矩阵B的计算公式为:
其中,P(Ot,St)表示某个词和某个词性同时出现的概率,N(Ot,St)表示某个词和某个词性同时出现的次数。
步骤④所述的引入最大熵模型为已经训练好的模型。
步骤⑤所述的HMM的最优隐藏序列并不是HMM的标注结果,而是需要保存每一步计算过程中选择的最优状态,最后回溯后的结果才为HMM的标注结果。
本发明的有益效果是:与现有技术相比,通过引入HMM和最大熵模型的结合,主要解决了单一的词性标注方法速度慢,对新词识别率低,从而使得标注结果准确率低的现象,以提高词性标注的高效性与准确性。
附图说明
图1是本发明步骤流程图;
图2是本发明步骤②步骤流程图;
图3是本发明步骤③步骤流程图;
图4是本发明步骤④步骤流程图;
图5是本发明步骤⑤步骤流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:一种基于HMM的词性标注方法,该方法引入了HMM和最大熵模型的结合对词性标注方法进行改进,具体包括以下5个步骤:
①输入待标注的词串。
②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分,得到初次分词结果。
③以人民日报1998年1月标注好的语料库作为训练集和测试集,获得HMM的三个参数,从而得到HMM中若干可观测状态。
④进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,若仍存在未查找到的词,则作为新词引入最大熵模型进行标注。
⑤用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。
进一步地,步骤①所述的待标注的词串可以为任意词串。
进一步地,步骤②所述的词库使用unicode码排序,以便在分词时匹配词库时能实现快速查找。
进一步地,所述的快速查找为二分法。在初次分词时,首先将词库读到内存中,然后将词串用正向最大匹配的方法匹配词库。由于词库按照unicode码排序,所以可以采用二分法快速查找词组。查找时,首先读取原始句子的第一个字,找到该字在词库中的起始位置和结束位置,然后进用二分法进行快速查找。在查找的过程中记录起始和结束位置之间所有词的最大长度,然后从最大长度开始查找词库,长度逐一递减,直到找到为止。
进一步地,步骤③所述的获得HMM的三个参数为(PI,A,B),PI表示词性的先验概率,A表示词性之间的状态转移矩阵,B表示词性到词的混淆矩阵,获得以上三种参数的方式为有监督的方式,即通过统计语料库中的相关信息来训练参数。
进一步地,所述的统计语料库中的相关信息为每个词性出现的次数,每个词性及其后继词性出现的次数和词性对应的词。统计完这些信息之后就可以用频率代替概率获得三个参数的值。
进一步地,所述的词性的先验概率PI的计算公式为:
其中N表示语料库中词性的总次数,N(St)表示词性St在语料库出现的次数。
进一步地,所述的词性之间的状态转移矩阵A的计算公式为:
其中P(St-1,St)表示不同的两个词性前后出现的概率,P(St-1)表示词性St-1出现的概率,N(St-1,St)表示不同的两个词性前后出现的次数。
进一步地,所述的词性到词的混淆矩阵B的计算公式为:
其中P(Ot,St)表示某个词和某个词性同时出现的概率,N(Ot,St)表示某个词和某个词性同时出现的次数。
进一步地,步骤④所述的引入最大熵模型为已经训练好的模型。
进一步地,步骤⑤所述的HMM的最优隐藏序列并不是HMM的标注结果,而是需要保存每一步计算过程中选择的最优状态,最后回溯后的结果才为HMM的标注结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种基于HMM的词性标注方法,其特征在于:利用HMM和最大熵模型的结合对词性标注方法进行改进,具体步骤为:
①输入待标注的词串,待标注的词串可以为任意词串;
②使用词库用正向最大匹配的方法对输入的待标注的词串进行切分,得到初次分词结果;
③以标注好的语料库作为训练集和测试集,获得HMM的三个参数,从而得到HMM中若干可观测状态;
④进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,若仍存在未查找到的词,则作为新词引入最大熵模型进行标注;
⑤用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。
2.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤②所述的词库使用unicode码排序,以便在分词时匹配词库时能实现快速查找。
3.根据权利要求2所述的基于HMM的词性标注方法,其特征在于:所述的快速查找为二分法,在初次分词时,首先将词库读到内存中,然后将词串用正向最大匹配的方法匹配词库;由于词库按照unicode码排序,所以可以采用二分法快速查找词组,查找时,首先读取原始句子的第一个字,找到该字在词库中的起始位置和结束位置,然后进用二分法进行快速查找,在查找的过程中记录起始和结束位置之间所有词的最大长度,然后从最大长度开始查找词库,长度逐一递减,直到找到为止。
4.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤③所述的获得HMM的三个参数为(PI,A,B),PI表示词性的先验概率,A表示词性之间的状态转移矩阵,B表示词性到词的混淆矩阵,获得以上三种参数的方式为有监督的方式,即通过统计语料库中的相关信息来训练参数。
5.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的统计语料库中的相关信息为每个词性出现的次数,每个词性及其后继词性出现的次数和词性对应的词。统计完这些信息之后就可以用频率代替概率获得三个参数的值。
6.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的词性的先验概率PI的计算公式为:
<mrow> <mi>P</mi> <mi>I</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;ap;</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </mrow>
其中,N表示语料库中词性的总次数,N(St)表示词性St在语料库出现的次数。
7.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的词性之间的状态转移矩阵A的计算公式为:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>S</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&amp;ap;</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,P(St-1,St)表示不同的两个词性前后出现的概率,P(St-1)表示词性St-1出现的概率,N(St-1,St)表示不同的两个词性前后出现的次数。
8.根据权利要求4所述的基于HMM的词性标注方法,其特征在于:所述的词性到词的混淆矩阵B的计算公式为:
<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>O</mi> <mi>t</mi> </msub> <mo>|</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>O</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&amp;ap;</mo> <mfrac> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>O</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中,P(Ot,St)表示某个词和某个词性同时出现的概率,N(Ot,St)表示某个词和某个词性同时出现的次数。
9.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤④所述的引入最大熵模型为已经训练好的模型。
10.根据权利要求1所述的基于HMM的词性标注方法,其特征在于:步骤⑤所述的HMM的最优隐藏序列并不是HMM的标注结果,而是需要保存每一步计算过程中选择的最优状态,最后回溯后的结果才为HMM的标注结果。
CN201710933336.7A 2017-10-10 2017-10-10 一种基于hmm的词性标注方法 Pending CN107807910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710933336.7A CN107807910A (zh) 2017-10-10 2017-10-10 一种基于hmm的词性标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710933336.7A CN107807910A (zh) 2017-10-10 2017-10-10 一种基于hmm的词性标注方法

Publications (1)

Publication Number Publication Date
CN107807910A true CN107807910A (zh) 2018-03-16

Family

ID=61592629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710933336.7A Pending CN107807910A (zh) 2017-10-10 2017-10-10 一种基于hmm的词性标注方法

Country Status (1)

Country Link
CN (1) CN107807910A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063046A (zh) * 2018-07-17 2018-12-21 广州资宝科技有限公司 搜索方法、装置及智能终端
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法
CN109325225A (zh) * 2018-08-28 2019-02-12 昆明理工大学 一种通用的基于关联的词性标注方法
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN109543151A (zh) * 2018-10-31 2019-03-29 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN110489760A (zh) * 2019-09-17 2019-11-22 达而观信息科技(上海)有限公司 基于深度神经网络文本自动校对方法及装置
CN110751234A (zh) * 2019-10-09 2020-02-04 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN111814464A (zh) * 2020-05-25 2020-10-23 清华大学 一种基于隐马尔可夫模型的词性标注方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法
CN109063046A (zh) * 2018-07-17 2018-12-21 广州资宝科技有限公司 搜索方法、装置及智能终端
CN109325225A (zh) * 2018-08-28 2019-02-12 昆明理工大学 一种通用的基于关联的词性标注方法
CN109325225B (zh) * 2018-08-28 2022-04-12 昆明理工大学 一种通用的基于关联的词性标注方法
CN109388404A (zh) * 2018-10-10 2019-02-26 北京智能管家科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN109388404B (zh) * 2018-10-10 2022-10-18 北京如布科技有限公司 一种路径解码方法、装置、计算机设备及存储介质
CN109543151B (zh) * 2018-10-31 2021-05-25 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN109543151A (zh) * 2018-10-31 2019-03-29 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN109815483B (zh) * 2018-12-19 2023-08-08 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN110489760A (zh) * 2019-09-17 2019-11-22 达而观信息科技(上海)有限公司 基于深度神经网络文本自动校对方法及装置
CN110489760B (zh) * 2019-09-17 2023-09-22 达观数据有限公司 基于深度神经网络文本自动校对方法及装置
CN110751234A (zh) * 2019-10-09 2020-02-04 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN110751234B (zh) * 2019-10-09 2024-04-16 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN111814464A (zh) * 2020-05-25 2020-10-23 清华大学 一种基于隐马尔可夫模型的词性标注方法

Similar Documents

Publication Publication Date Title
CN107807910A (zh) 一种基于hmm的词性标注方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106649597B (zh) 一种基于图书内容的图书书后索引自动构建方法
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN106570179B (zh) 一种面向评价性文本的核心实体识别方法及装置
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN104933152B (zh) 命名实体识别方法及装置
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN107885721A (zh) 一种基于lstm的命名实体识别方法
CN111178074A (zh) 一种基于深度学习的中文命名实体识别方法
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN106257441B (zh) 一种基于词频的skip语言模型的训练方法
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN106502994A (zh) 一种文本的关键词提取的方法和装置
CN105718586A (zh) 分词的方法及装置
CN107180025A (zh) 一种新词的识别方法及装置
CN103646018A (zh) 一种基于hash散列表词典结构的中文分词方法
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN106445917B (zh) 一种基于模式的自举中文实体抽取方法
CN112818110B (zh) 文本过滤方法、设备及计算机存储介质
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN106909611A (zh) 一种基于文本信息抽取的酒店自动匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180316

RJ01 Rejection of invention patent application after publication