CN114781371A

CN114781371A - 基于统计和基于词典的中文分词方法

Info

Publication number: CN114781371A
Application number: CN202210357755.1A
Authority: CN
Inventors: 李晓瑜; 尹青山; 冯落落; 冯卫森; 李沛; 高明; 王建华
Original assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Current assignee: Shandong New Generation Information Industry Technology Research Institute Co Ltd
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-07-22

Abstract

本发明提供了一种基于统计和基于词典的中文分词方法，结合基于统计和基于词典的分词方法，形成一个分词系统。一种基于统计和基于词典的中文分词方法，包括以下步骤：S1.输入需要待分词语句；S2.对本句话进行原子分词；S3.对输入的句子进行利用词典的机械分词，即使用双数组Trie树算法对句子进行正向最大匹配;S4.使用最短路径方法进行分词;S5.输出分词结果，词频后处理，人工纠正。

Description

基于统计和基于词典的中文分词方法

技术领域

本发明涉及一种分词方法或分词系统，具体涉及一种基于统计和基于词典的中文分词方法，属于自然语言处理分词技术领域。

背景技术

自然语言处理，即实现人机间自然语言通信，实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。对中文自然语言处理的领域来说，“分词”一直是一项十分重要且基础的步骤。分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。

当前中文分词主要有几种方法：基于词典的分词方法、基于统计的机器学习算法。本发明结合基于统计和基于词典的分词方法，形成一个分词系统。

发明内容

本发明目的是提供了一种基于统计和基于词典的中文分词方法，结合基于统计和基于词典的分词方法，形成一个分词系统。

本发明为实现上述目的，通过以下技术方案实现：

一种基于统计和基于词典的中文分词方法，包括以下步骤：

S1.输入需要待分词语句；

S2.对本句话进行原子分词；

S3. 对输入的句子进行利用词典的机械分词，即使用双数组Trie树算法对句子进行正向最大匹配;

S4.使用最短路径方法进行分词;

S5.输出分词结果，词频后处理，人工纠正。

所述基于统计和基于词典的中文分词方法优选方案，使用双数组Trie树算法对句子进行正向最大匹配具体过程如下：

在切分语句时，将语句的每个字符串与词表中的词逐一进行匹配，找到则切分，否则不予切分。正向最大匹配算法需要获取两部分，一个是分词词典，另一个是需要被分词的文档；

假定分词词典中的最长词有个汉字字符串，则用被处理文档的当前字符串中的前个字作为匹配字段，查找字典；

若此时分词词典中存在这样一个字符串，则匹配成功，而此时被匹配的字段切分出来；

如果匹配失败，将匹配字段中的最后一个字去掉，对此时剩下的字串重新与分词词典进行匹配，如此下去直到匹配成功，即是切分出一个词或剩余字串的长度为零为止，这个时候才是匹配了一轮；

接着进行下一个子字串的匹配，方法同上，直到文档被扫描完为止。

所述基于统计和基于词典的中文分词方法优选方案，使用最短路径方法进行分词具体过程如下：

根据算法思想，当我们拿到一个字串后，首先根据词典构造有向无环图；

字串分为单个的字，每个字用图中相邻的两个结点表示，因此对于长度为n的字串，需要n+1个结点；

两节点间若有边，则表示两节点间所包含的所有结点构成的词；

图构造出来后，接下来就要计算最短路径，N-最短路径是基于Dijkstra算法的一种简单扩展，它在每个结点处记录了N个最短路径值与该结点的前驱；

每条路径根据统计概率或日常词语规范，设置的权值不同，每个词的成词概率可以求出，进而整个有向图的路径可以求出，最终可以得到一个候补的N种字串划分结果，以继续后面的分词步骤。

本发明的优点在于：

前提需构造独家词典，构建分词系统的步骤为，首先输入待分词语句；接着对其进行原子分词；然后对输入的句子进行利用词典的机械分词，即使用双数组Trie树算法对句子进行正向最大匹配；继续使用最短路径方法进行分词；最后对完成分词的语句进行后处理，提高本分词方法的准确率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，一种基于统计和基于词典的中文分词方法,包括以下步骤：

S1.输入需要待分词语句；

S2.对本句话进行原子分词，即对语句中数字、ID、人名、组织机构名等进行识别，方便后续调用不同词典对这类词语进行精准识别，以完成分词；

S3. 对输入的句子进行利用词典的机械分词，即使用双数组Trie树算法对句子进行正向最大匹配， Trie树也称为字典树、前缀树，是一种常被用于词检索的树结构，其检索思想为：利用词的共同前缀以达到节省空间的目的，双数组树Double array trie结合了array查询效率高、list节省空间的优点，具体是通过两个数组来实现；

S4.使用最短路径方法进行分词;

S5.输出分词结果，词频后处理，人工纠正，通过以上步骤即可得到本分词系统运行后的分词语句结果，其可能会存在分词错误或不准确的问题，通过对分词结果的人工纠正，可为后续提高本分词方法的准确率提供帮助。

本实施例中，使用双数组Trie树算法对句子进行正向最大匹配具体过程如下：

本实施例中，使用最短路径方法进行分词具体过程如下：

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于统计和基于词典的中文分词方法，其特征在于，包括以下步骤：

S1.输入需要待分词语句；

S2.对本句话进行原子分词；

S4.使用最短路径方法进行分词;

S5.输出分词结果，词频后处理，人工纠正。

2.根据权利要求1所述基于统计和基于词典的中文分词方法，其特征在于：使用双数组Trie树算法对句子进行正向最大匹配具体过程如下：

在切分语句时，将语句的每个字符串与词表中的词逐一进行匹配，找到则切分，否则不予切分；

正向最大匹配算法需要获取两部分，一个是分词词典，另一个是需要被分词的文档；

3.根据权利要求1或2所述基于统计和基于词典的中文分词方法，其特征在于：使用最短路径方法进行分词具体过程如下：