CN107861940A - 一种基于hmm的中文分词方法 - Google Patents

一种基于hmm的中文分词方法 Download PDF

Info

Publication number
CN107861940A
CN107861940A CN201710933306.6A CN201710933306A CN107861940A CN 107861940 A CN107861940 A CN 107861940A CN 201710933306 A CN201710933306 A CN 201710933306A CN 107861940 A CN107861940 A CN 107861940A
Authority
CN
China
Prior art keywords
word
hmm
cutting
chinese
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710933306.6A
Other languages
English (en)
Inventor
龙华
吴睿
邵玉斌
杜庆治
熊新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201710933306.6A priority Critical patent/CN107861940A/zh
Publication of CN107861940A publication Critical patent/CN107861940A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明涉及一种基于HMM的中文分词方法,属于信息处理技术领域。本发明创新性地引入了HMM和分词词典的融合对中文分词方法进行改进。首先使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;然后创新性地引入HMM对得到的若干种候选的分词结果进行计算;最后得到一个最有可能的分词结果。本发明与现有技术相比,通过引入HMM和分词词典的融合,主要解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。

Description

一种基于HMM的中文分词方法
技术领域
本发明涉及一种基于HMM的中文分词方法,属于信息处理技术领域。
背景技术
现代社会,中文分词在信息检索、机器翻译、信息过滤等信息处理中起着重要的作用,是信息处理的关键技术与难点。
一般地,作为主流的基于词典的中文分词虽然实现简单,但是过于依赖词典,容易造成歧义,导致错误切分,从而使得分词准确率低;同样地,基于统计模型的中文分词虽然在一定程度上能排除歧义,但是分词准确率也依赖于训练语料库,从而不能够达到理想的要求。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于HMM的中文分词方法,创新性地引入了HMM和分词词典的融合对中文分词方法进行改进,解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。
本发明的技术方案是:一种基于HMM的中文分词方法,利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:
①输入待切分的词串;
②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;
③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。
步骤①所述的待切分的词串可以为任意词串。
步骤②所述的得到若干种候选的分词结果的方法为全切分,用以确保切分结果集对正确切分结果100%的召回率。
所述全切分需要构建一棵多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。
所述构建多叉树的方法为递归,即首先从待切分的词串的第一个字开始切分,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;然后将切分的指针向右移动一个单位,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;以此类推,直到切分的指针向右移动一个单位后,左边不是一个词,则停止循环。
所述步骤③引入的HMM是一个五元组,即状态值集合S,观察值集合O,初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B。
所述状态值集合S为(B,M,E,S),作用是用来标注HMM,分别代表该字在词语中的位置,B代表该字是词的起始字,M代表是词的中间字,E代表是词的结束字,S代表是该字为单词,观察值集合O为所有汉字以及标点。
所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于(B,M,E,S)这四种状态的概率;转移概率矩阵A是一个4×4的二维矩阵,矩阵的横坐标和纵坐标为BEMS×BEMS,即每个状态之间的转移概率;发射概率矩阵B为每个汉字在每个状态的概率。并且所述的初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B都已经通过训练为已知。
步骤③所述的计算若干种候选的分词结果的算法为viterbi算法,结合步骤②得到的若干种候选的分词结果,确定每个字的位置,最后通过计算得到概率最大的那个分词结果,作为最终分词的结果。
本发明的有益效果是:本发明与现有技术相比,通过引入HMM和分词词典的融合,主要解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。
附图说明
图1是本发明步骤流程;
图2是本发明步骤②流程图;
图3是本发明步骤③流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于HMM的中文分词方法,利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:
①输入待切分的词串;
②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;
③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。
进一步地,步骤①所述的待切分的词串可以为任意词串。
进一步地,步骤②所述的得到若干种候选的分词结果的方法为全切分,用以确保切分结果集对正确切分结果100%的召回率。
进一步地,所述全切分需要构建一棵多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。
进一步地,所述构建多叉树的方法为递归,即首先从待切分的词串的第一个字开始切分,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;然后将切分的指针向右移动一个单位,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;以此类推,直到切分的指针向右移动一个单位后,左边不是一个词,则停止循环。
进一步地,所述步骤③引入的HMM是一个五元组,即状态值集合S,观察值集合O,初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B。
进一步地,所述状态值集合S为(B,M,E,S),作用是用来标注HMM,分别代表该字在词语中的位置,B代表该字是词的起始字,M代表是词的中间字,E代表是词的结束字,S代表是该字为单词,观察值集合O为所有汉字以及标点。
进一步地,所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于(B,M,E,S)这四种状态的概率;转移概率矩阵A是一个4×4的二维矩阵,矩阵的横坐标和纵坐标为BEMS×BEMS,即每个状态之间的转移概率;发射概率矩阵B为每个汉字在每个状态的概率。并且所述的初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B都已经通过训练为已知。
进一步地,步骤③所述的计算若干种候选的分词结果的算法为viterbi算法,结合步骤②得到的若干种候选的分词结果,确定每个字的位置,最后通过计算得到概率最大的那个分词结果,作为最终分词的结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.一种基于HMM的中文分词方法,其特征在于:利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:
①输入待切分的词串;
②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;
③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。
2.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤①所述的待切分的词串可以为任意词串。
3.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤②所述的得到若干种候选的分词结果的方法为全切分,用以确保切分结果集对正确切分结果100%的召回率。
4.根据权利要求3所述的基于HMM的中文分词方法,其特征在于:所述全切分需要构建一棵多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。
5.根据权利要求4所述的基于HMM的中文分词方法,其特征在于:所述构建多叉树的方法为递归,即首先从待切分的词串的第一个字开始切分,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;然后将切分的指针向右移动一个单位,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;以此类推,直到切分的指针向右移动一个单位后,左边不是一个词,则停止循环。
6.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:所述步骤③引入的HMM是一个五元组,即状态值集合S,观察值集合O,初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B。
7.根据权利要求6所述的基于HMM的中文分词方法,其特征在于:所述状态值集合S为(B,M,E,S),作用是用来标注HMM,分别代表该字在词语中的位置,B代表该字是词的起始字,M代表是词的中间字,E代表是词的结束字,S代表是该字为单词,观察值集合O为所有汉字以及标点。
8.根据权利要求6所述的基于HMM的中文分词方法,其特征在于:所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于(B,M,E,S)这四种状态的概率;转移概率矩阵A是一个4×4的二维矩阵,矩阵的横坐标和纵坐标为BEMS×BEMS,即每个状态之间的转移概率;发射概率矩阵B为每个汉字在每个状态的概率;
并且所述的初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B都已经通过训练为已知。
9.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤③所述的计算若干种候选的分词结果的算法为viterbi算法,结合步骤②得到的若干种候选的分词结果,确定每个字的位置,最后通过计算得到概率最大的那个分词结果,作为最终分词的结果。
CN201710933306.6A 2017-10-10 2017-10-10 一种基于hmm的中文分词方法 Pending CN107861940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710933306.6A CN107861940A (zh) 2017-10-10 2017-10-10 一种基于hmm的中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710933306.6A CN107861940A (zh) 2017-10-10 2017-10-10 一种基于hmm的中文分词方法

Publications (1)

Publication Number Publication Date
CN107861940A true CN107861940A (zh) 2018-03-30

Family

ID=61699749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710933306.6A Pending CN107861940A (zh) 2017-10-10 2017-10-10 一种基于hmm的中文分词方法

Country Status (1)

Country Link
CN (1) CN107861940A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647208A (zh) * 2018-05-09 2018-10-12 上海应用技术大学 一种基于中文的新型分词方法
CN109033085A (zh) * 2018-08-02 2018-12-18 北京神州泰岳软件股份有限公司 中文分词系统及中文文本的分词方法
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140117A (ja) * 2006-12-01 2008-06-19 National Institute Of Information & Communication Technology 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置
CN105045888A (zh) * 2015-07-28 2015-11-11 浪潮集团有限公司 一种用于hmm的分词训练语料标注方法
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008140117A (ja) * 2006-12-01 2008-06-19 National Institute Of Information & Communication Technology 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置
CN105045888A (zh) * 2015-07-28 2015-11-11 浪潮集团有限公司 一种用于hmm的分词训练语料标注方法
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JOHNSON0722: "中文分词的基本原理以及jieba分词的用法", 《HTTPS://BLOG.CSDN.NET/JOHN_XYZ/ARTICLE/DETAILS/54645527?UTM_MEDIUM=DISTRIBUTE》 *
我想我可以更强: "中文分词中的正向最大匹配与逆向最大匹配", 《HTTPS://BLOG.CSDN.NET/CHENGZHENG_HIT/ARTICLE/DETAILS/54752673》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647208A (zh) * 2018-05-09 2018-10-12 上海应用技术大学 一种基于中文的新型分词方法
CN109033085A (zh) * 2018-08-02 2018-12-18 北京神州泰岳软件股份有限公司 中文分词系统及中文文本的分词方法
CN109033085B (zh) * 2018-08-02 2022-09-30 鼎富智能科技有限公司 中文分词系统及中文文本的分词方法
CN109815483A (zh) * 2018-12-19 2019-05-28 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备
CN109815483B (zh) * 2018-12-19 2023-08-08 东软集团股份有限公司 合成词识别方法、装置、可读存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN103646018B (zh) 一种基于hash散列表词典结构的中文分词方法
CN107168957A (zh) 一种中文分词方法
CN107861940A (zh) 一种基于hmm的中文分词方法
CN106294350A (zh) 一种文本聚合方法及装置
CN105068997B (zh) 平行语料的构建方法及装置
WO2018201600A1 (zh) 信息挖掘方法、系统、电子装置及可读存储介质
CN106528647B (zh) 一种基于cedar双数组字典树算法进行术语匹配的方法
CN111680488B (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN107918604A (zh) 一种中文的分词方法及装置
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
Bellare et al. Learning extractors from unlabeled text using relevant databases
CN107807910A (zh) 一种基于hmm的词性标注方法
CN107423288A (zh) 一种基于无监督学习的中文分词系统及方法
CN111079386B (zh) 地址识别方法、装置、设备及存储介质
US20170193098A1 (en) System and method for topic modeling using unstructured manufacturing data
CN103823857A (zh) 基于自然语言处理的空间信息检索方法
WO2019201295A1 (zh) 文件识别方法和特征提取方法
CN111666759B (zh) 文本的关键信息的抽取方法、装置、电子设备及存储介质
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN106708798A (zh) 一种字符串切分方法及装置
CN113011194B (zh) 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN113553414A (zh) 智能对话方法、装置、电子设备和存储介质
CN109684928A (zh) 基于互联网检索的中文文档识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180330