CN107861940A - 一种基于hmm的中文分词方法 - Google Patents
一种基于hmm的中文分词方法 Download PDFInfo
- Publication number
- CN107861940A CN107861940A CN201710933306.6A CN201710933306A CN107861940A CN 107861940 A CN107861940 A CN 107861940A CN 201710933306 A CN201710933306 A CN 201710933306A CN 107861940 A CN107861940 A CN 107861940A
- Authority
- CN
- China
- Prior art keywords
- word
- hmm
- cutting
- chinese
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 42
- 238000011430 maximum method Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 32
- 230000007704 transition Effects 0.000 claims description 11
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种基于HMM的中文分词方法,属于信息处理技术领域。本发明创新性地引入了HMM和分词词典的融合对中文分词方法进行改进。首先使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;然后创新性地引入HMM对得到的若干种候选的分词结果进行计算;最后得到一个最有可能的分词结果。本发明与现有技术相比,通过引入HMM和分词词典的融合,主要解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。
Description
技术领域
本发明涉及一种基于HMM的中文分词方法,属于信息处理技术领域。
背景技术
现代社会,中文分词在信息检索、机器翻译、信息过滤等信息处理中起着重要的作用,是信息处理的关键技术与难点。
一般地,作为主流的基于词典的中文分词虽然实现简单,但是过于依赖词典,容易造成歧义,导致错误切分,从而使得分词准确率低;同样地,基于统计模型的中文分词虽然在一定程度上能排除歧义,但是分词准确率也依赖于训练语料库,从而不能够达到理想的要求。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种基于HMM的中文分词方法,创新性地引入了HMM和分词词典的融合对中文分词方法进行改进,解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。
本发明的技术方案是:一种基于HMM的中文分词方法,利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:
①输入待切分的词串;
②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;
③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。
步骤①所述的待切分的词串可以为任意词串。
步骤②所述的得到若干种候选的分词结果的方法为全切分,用以确保切分结果集对正确切分结果100%的召回率。
所述全切分需要构建一棵多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。
所述构建多叉树的方法为递归,即首先从待切分的词串的第一个字开始切分,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;然后将切分的指针向右移动一个单位,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;以此类推,直到切分的指针向右移动一个单位后,左边不是一个词,则停止循环。
所述步骤③引入的HMM是一个五元组,即状态值集合S,观察值集合O,初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B。
所述状态值集合S为(B,M,E,S),作用是用来标注HMM,分别代表该字在词语中的位置,B代表该字是词的起始字,M代表是词的中间字,E代表是词的结束字,S代表是该字为单词,观察值集合O为所有汉字以及标点。
所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于(B,M,E,S)这四种状态的概率;转移概率矩阵A是一个4×4的二维矩阵,矩阵的横坐标和纵坐标为BEMS×BEMS,即每个状态之间的转移概率;发射概率矩阵B为每个汉字在每个状态的概率。并且所述的初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B都已经通过训练为已知。
步骤③所述的计算若干种候选的分词结果的算法为viterbi算法,结合步骤②得到的若干种候选的分词结果,确定每个字的位置,最后通过计算得到概率最大的那个分词结果,作为最终分词的结果。
本发明的有益效果是:本发明与现有技术相比,通过引入HMM和分词词典的融合,主要解决了单一的中文分词方法分词存在歧义,导致错误切分,以及切分效率低,从而使得分词准确率低的现象,致力于提高分词的准确性与可靠性。
附图说明
图1是本发明步骤流程;
图2是本发明步骤②流程图;
图3是本发明步骤③流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于HMM的中文分词方法,利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:
①输入待切分的词串;
②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;
③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。
进一步地,步骤①所述的待切分的词串可以为任意词串。
进一步地,步骤②所述的得到若干种候选的分词结果的方法为全切分,用以确保切分结果集对正确切分结果100%的召回率。
进一步地,所述全切分需要构建一棵多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。
进一步地,所述构建多叉树的方法为递归,即首先从待切分的词串的第一个字开始切分,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;然后将切分的指针向右移动一个单位,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;以此类推,直到切分的指针向右移动一个单位后,左边不是一个词,则停止循环。
进一步地,所述步骤③引入的HMM是一个五元组,即状态值集合S,观察值集合O,初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B。
进一步地,所述状态值集合S为(B,M,E,S),作用是用来标注HMM,分别代表该字在词语中的位置,B代表该字是词的起始字,M代表是词的中间字,E代表是词的结束字,S代表是该字为单词,观察值集合O为所有汉字以及标点。
进一步地,所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于(B,M,E,S)这四种状态的概率;转移概率矩阵A是一个4×4的二维矩阵,矩阵的横坐标和纵坐标为BEMS×BEMS,即每个状态之间的转移概率;发射概率矩阵B为每个汉字在每个状态的概率。并且所述的初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B都已经通过训练为已知。
进一步地,步骤③所述的计算若干种候选的分词结果的算法为viterbi算法,结合步骤②得到的若干种候选的分词结果,确定每个字的位置,最后通过计算得到概率最大的那个分词结果,作为最终分词的结果。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.一种基于HMM的中文分词方法,其特征在于:利益HMM和分词词典的融合对中文分词方法进行改进,具体步骤为:
①输入待切分的词串;
②使用分词词典用正向最大匹配的方法对输入的待切分的词串进行切分,得到若干种候选的分词结果;
③引入HMM,对步骤②得到的若干种候选的分词结果进行计算,得到最有可能的分词结果。
2.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤①所述的待切分的词串可以为任意词串。
3.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤②所述的得到若干种候选的分词结果的方法为全切分,用以确保切分结果集对正确切分结果100%的召回率。
4.根据权利要求3所述的基于HMM的中文分词方法,其特征在于:所述全切分需要构建一棵多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。
5.根据权利要求4所述的基于HMM的中文分词方法,其特征在于:所述构建多叉树的方法为递归,即首先从待切分的词串的第一个字开始切分,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;然后将切分的指针向右移动一个单位,将剩下的词串用正向最大匹配的方法与分词字典进行匹配,列出所有可能;以此类推,直到切分的指针向右移动一个单位后,左边不是一个词,则停止循环。
6.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:所述步骤③引入的HMM是一个五元组,即状态值集合S,观察值集合O,初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B。
7.根据权利要求6所述的基于HMM的中文分词方法,其特征在于:所述状态值集合S为(B,M,E,S),作用是用来标注HMM,分别代表该字在词语中的位置,B代表该字是词的起始字,M代表是词的中间字,E代表是词的结束字,S代表是该字为单词,观察值集合O为所有汉字以及标点。
8.根据权利要求6所述的基于HMM的中文分词方法,其特征在于:所述初始状态概率矩阵PI是所述的待切分的词串的第一个字属于(B,M,E,S)这四种状态的概率;转移概率矩阵A是一个4×4的二维矩阵,矩阵的横坐标和纵坐标为BEMS×BEMS,即每个状态之间的转移概率;发射概率矩阵B为每个汉字在每个状态的概率;
并且所述的初始状态概率矩阵PI,转移概率矩阵A,发射概率矩阵B都已经通过训练为已知。
9.根据权利要求1所述的基于HMM的中文分词方法,其特征在于:步骤③所述的计算若干种候选的分词结果的算法为viterbi算法,结合步骤②得到的若干种候选的分词结果,确定每个字的位置,最后通过计算得到概率最大的那个分词结果,作为最终分词的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710933306.6A CN107861940A (zh) | 2017-10-10 | 2017-10-10 | 一种基于hmm的中文分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710933306.6A CN107861940A (zh) | 2017-10-10 | 2017-10-10 | 一种基于hmm的中文分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107861940A true CN107861940A (zh) | 2018-03-30 |
Family
ID=61699749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710933306.6A Pending CN107861940A (zh) | 2017-10-10 | 2017-10-10 | 一种基于hmm的中文分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107861940A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647208A (zh) * | 2018-05-09 | 2018-10-12 | 上海应用技术大学 | 一种基于中文的新型分词方法 |
CN109033085A (zh) * | 2018-08-02 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 中文分词系统及中文文本的分词方法 |
CN109815483A (zh) * | 2018-12-19 | 2019-05-28 | 东软集团股份有限公司 | 合成词识别方法、装置、可读存储介质及电子设备 |
CN111814486A (zh) * | 2020-07-10 | 2020-10-23 | 东软集团(上海)有限公司 | 一种基于语义分析的企业客户标签生成方法、系统及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
CN105183923A (zh) * | 2015-10-27 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
-
2017
- 2017-10-10 CN CN201710933306.6A patent/CN107861940A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
CN105183923A (zh) * | 2015-10-27 | 2015-12-23 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
Non-Patent Citations (2)
Title |
---|
JOHNSON0722: "中文分词的基本原理以及jieba分词的用法", 《HTTPS://BLOG.CSDN.NET/JOHN_XYZ/ARTICLE/DETAILS/54645527?UTM_MEDIUM=DISTRIBUTE》 * |
我想我可以更强: "中文分词中的正向最大匹配与逆向最大匹配", 《HTTPS://BLOG.CSDN.NET/CHENGZHENG_HIT/ARTICLE/DETAILS/54752673》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647208A (zh) * | 2018-05-09 | 2018-10-12 | 上海应用技术大学 | 一种基于中文的新型分词方法 |
CN109033085A (zh) * | 2018-08-02 | 2018-12-18 | 北京神州泰岳软件股份有限公司 | 中文分词系统及中文文本的分词方法 |
CN109033085B (zh) * | 2018-08-02 | 2022-09-30 | 鼎富智能科技有限公司 | 中文分词系统及中文文本的分词方法 |
CN109815483A (zh) * | 2018-12-19 | 2019-05-28 | 东软集团股份有限公司 | 合成词识别方法、装置、可读存储介质及电子设备 |
CN109815483B (zh) * | 2018-12-19 | 2023-08-08 | 东软集团股份有限公司 | 合成词识别方法、装置、可读存储介质及电子设备 |
CN111814486A (zh) * | 2020-07-10 | 2020-10-23 | 东软集团(上海)有限公司 | 一种基于语义分析的企业客户标签生成方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861940A (zh) | 一种基于hmm的中文分词方法 | |
CN111832292A (zh) | 文本识别处理方法、装置、电子设备和存储介质 | |
CN103646018B (zh) | 一种基于hash散列表词典结构的中文分词方法 | |
CN111680488B (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
WO2018201600A1 (zh) | 信息挖掘方法、系统、电子装置及可读存储介质 | |
CN106294350A (zh) | 一种文本聚合方法及装置 | |
CN111079386B (zh) | 地址识别方法、装置、设备及存储介质 | |
WO2019201295A1 (zh) | 文件识别方法和特征提取方法 | |
CN109933778B (zh) | 分词方法、装置以及计算机可读存储介质 | |
CN113011194B (zh) | 融合关键词特征和多粒度语义特征的文本相似度计算方法 | |
CN107807910A (zh) | 一种基于hmm的词性标注方法 | |
US20170193098A1 (en) | System and method for topic modeling using unstructured manufacturing data | |
CN103324632B (zh) | 一种基于协同学习的概念识别方法及装置 | |
CN103996021A (zh) | 一种多字符识别结果的融合方法 | |
CN103823857A (zh) | 基于自然语言处理的空间信息检索方法 | |
WO2017101541A1 (zh) | 文本聚类方法、装置及计算设备 | |
CN108197315A (zh) | 一种建立分词索引库的方法和装置 | |
Hewlett et al. | Fully unsupervised word segmentation with BVE and MDL | |
CN111160014A (zh) | 一种智能分词方法 | |
CN105956158B (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
Zhou et al. | Icdar 2015 text reading in the wild competition | |
CN109902292B (zh) | 中文词向量处理方法及其系统 | |
CN111190873A (zh) | 一种用于云原生系统日志训练的日志模式提取方法及系统 | |
CN107844475A (zh) | 一种基于lstm的分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |