CN107861940A

CN107861940A - 一种基于hmm的中文分词方法

Info

Publication number: CN107861940A
Application number: CN201710933306.6A
Authority: CN
Inventors: 龙华; 吴睿; 邵玉斌; 杜庆治; 熊新
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2018-03-30

Abstract

本发明涉及一种基于HMM的中文分词方法，属于信息处理技术领域。本发明创新性地引入了HMM和分词词典的融合对中文分词方法进行改进。首先使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分，得到若干种候选的分词结果；然后创新性地引入HMM对得到的若干种候选的分词结果进行计算；最后得到一个最有可能的分词结果。本发明与现有技术相比，通过引入HMM和分词词典的融合，主要解决了单一的中文分词方法分词存在歧义，导致错误切分，以及切分效率低，从而使得分词准确率低的现象，致力于提高分词的准确性与可靠性。

Description

一种基于HMM的中文分词方法

技术领域

本发明涉及一种基于HMM的中文分词方法，属于信息处理技术领域。

背景技术

现代社会，中文分词在信息检索、机器翻译、信息过滤等信息处理中起着重要的作用，是信息处理的关键技术与难点。

一般地，作为主流的基于词典的中文分词虽然实现简单，但是过于依赖词典，容易造成歧义，导致错误切分，从而使得分词准确率低；同样地，基于统计模型的中文分词虽然在一定程度上能排除歧义，但是分词准确率也依赖于训练语料库，从而不能够达到理想的要求。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种基于HMM的中文分词方法，创新性地引入了HMM和分词词典的融合对中文分词方法进行改进，解决了单一的中文分词方法分词存在歧义，导致错误切分，以及切分效率低，从而使得分词准确率低的现象，致力于提高分词的准确性与可靠性。

本发明的技术方案是：一种基于HMM的中文分词方法，利益HMM和分词词典的融合对中文分词方法进行改进，具体步骤为：

①输入待切分的词串；

②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分，得到若干种候选的分词结果；

③引入HMM，对步骤②得到的若干种候选的分词结果进行计算，得到最有可能的分词结果。

步骤①所述的待切分的词串可以为任意词串。

步骤②所述的得到若干种候选的分词结果的方法为全切分，用以确保切分结果集对正确切分结果100%的召回率。

所述全切分需要构建一棵多叉树，其中每一条从root到叶子节点的路径均为一种分词结果，所有root到叶子节点的路径就是全切分的结果。

所述构建多叉树的方法为递归，即首先从待切分的词串的第一个字开始切分，将剩下的词串用正向最大匹配的方法与分词字典进行匹配，列出所有可能；然后将切分的指针向右移动一个单位，将剩下的词串用正向最大匹配的方法与分词字典进行匹配，列出所有可能；以此类推，直到切分的指针向右移动一个单位后，左边不是一个词，则停止循环。

所述步骤③引入的HMM是一个五元组，即状态值集合S，观察值集合O，初始状态概率矩阵PI，转移概率矩阵A，发射概率矩阵B。

所述状态值集合S为（B，M，E，S），作用是用来标注HMM，分别代表该字在词语中的位置，B代表该字是词的起始字，M代表是词的中间字，E代表是词的结束字，S代表是该字为单词，观察值集合O为所有汉字以及标点。

所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于（B，M，E，S）这四种状态的概率；转移概率矩阵A是一个4×4的二维矩阵，矩阵的横坐标和纵坐标为BEMS×BEMS，即每个状态之间的转移概率；发射概率矩阵B为每个汉字在每个状态的概率。并且所述的初始状态概率矩阵PI，转移概率矩阵A，发射概率矩阵B都已经通过训练为已知。

步骤③所述的计算若干种候选的分词结果的算法为viterbi算法，结合步骤②得到的若干种候选的分词结果，确定每个字的位置，最后通过计算得到概率最大的那个分词结果，作为最终分词的结果。

本发明的有益效果是：本发明与现有技术相比，通过引入HMM和分词词典的融合，主要解决了单一的中文分词方法分词存在歧义，导致错误切分，以及切分效率低，从而使得分词准确率低的现象，致力于提高分词的准确性与可靠性。

附图说明

图1是本发明步骤流程；

图2是本发明步骤②流程图；

图3是本发明步骤③流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-3所示，一种基于HMM的中文分词方法，利益HMM和分词词典的融合对中文分词方法进行改进，具体步骤为：

①输入待切分的词串；

进一步地，步骤①所述的待切分的词串可以为任意词串。

进一步地，步骤②所述的得到若干种候选的分词结果的方法为全切分，用以确保切分结果集对正确切分结果100%的召回率。

进一步地，所述全切分需要构建一棵多叉树，其中每一条从root到叶子节点的路径均为一种分词结果，所有root到叶子节点的路径就是全切分的结果。

进一步地，所述构建多叉树的方法为递归，即首先从待切分的词串的第一个字开始切分，将剩下的词串用正向最大匹配的方法与分词字典进行匹配，列出所有可能；然后将切分的指针向右移动一个单位，将剩下的词串用正向最大匹配的方法与分词字典进行匹配，列出所有可能；以此类推，直到切分的指针向右移动一个单位后，左边不是一个词，则停止循环。

进一步地，所述步骤③引入的HMM是一个五元组，即状态值集合S，观察值集合O，初始状态概率矩阵PI，转移概率矩阵A，发射概率矩阵B。

进一步地，所述状态值集合S为（B，M，E，S），作用是用来标注HMM，分别代表该字在词语中的位置，B代表该字是词的起始字，M代表是词的中间字，E代表是词的结束字，S代表是该字为单词，观察值集合O为所有汉字以及标点。

进一步地，所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于（B，M，E，S）这四种状态的概率；转移概率矩阵A是一个4×4的二维矩阵，矩阵的横坐标和纵坐标为BEMS×BEMS，即每个状态之间的转移概率；发射概率矩阵B为每个汉字在每个状态的概率。并且所述的初始状态概率矩阵PI，转移概率矩阵A，发射概率矩阵B都已经通过训练为已知。

进一步地，步骤③所述的计算若干种候选的分词结果的算法为viterbi算法，结合步骤②得到的若干种候选的分词结果，确定每个字的位置，最后通过计算得到概率最大的那个分词结果，作为最终分词的结果。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于HMM的中文分词方法，其特征在于：利益HMM和分词词典的融合对中文分词方法进行改进，具体步骤为：

①输入待切分的词串；

2.根据权利要求1所述的基于HMM的中文分词方法，其特征在于：步骤①所述的待切分的词串可以为任意词串。

3.根据权利要求1所述的基于HMM的中文分词方法，其特征在于：步骤②所述的得到若干种候选的分词结果的方法为全切分，用以确保切分结果集对正确切分结果100%的召回率。

4.根据权利要求3所述的基于HMM的中文分词方法，其特征在于：所述全切分需要构建一棵多叉树，其中每一条从root到叶子节点的路径均为一种分词结果，所有root到叶子节点的路径就是全切分的结果。

5.根据权利要求4所述的基于HMM的中文分词方法，其特征在于：所述构建多叉树的方法为递归，即首先从待切分的词串的第一个字开始切分，将剩下的词串用正向最大匹配的方法与分词字典进行匹配，列出所有可能；然后将切分的指针向右移动一个单位，将剩下的词串用正向最大匹配的方法与分词字典进行匹配，列出所有可能；以此类推，直到切分的指针向右移动一个单位后，左边不是一个词，则停止循环。

6.根据权利要求1所述的基于HMM的中文分词方法，其特征在于：所述步骤③引入的HMM是一个五元组，即状态值集合S，观察值集合O，初始状态概率矩阵PI，转移概率矩阵A，发射概率矩阵B。

7.根据权利要求6所述的基于HMM的中文分词方法，其特征在于：所述状态值集合S为（B，M，E，S），作用是用来标注HMM，分别代表该字在词语中的位置，B代表该字是词的起始字，M代表是词的中间字，E代表是词的结束字，S代表是该字为单词，观察值集合O为所有汉字以及标点。

8.根据权利要求6所述的基于HMM的中文分词方法，其特征在于：所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于（B，M，E，S）这四种状态的概率；转移概率矩阵A是一个4×4的二维矩阵，矩阵的横坐标和纵坐标为BEMS×BEMS，即每个状态之间的转移概率；发射概率矩阵B为每个汉字在每个状态的概率；

并且所述的初始状态概率矩阵PI，转移概率矩阵A，发射概率矩阵B都已经通过训练为已知。

9.根据权利要求1所述的基于HMM的中文分词方法，其特征在于：步骤③所述的计算若干种候选的分词结果的算法为viterbi算法，结合步骤②得到的若干种候选的分词结果，确定每个字的位置，最后通过计算得到概率最大的那个分词结果，作为最终分词的结果。