CN107918604A

CN107918604A - 一种中文的分词方法及装置

Info

Publication number: CN107918604A
Application number: CN201711115252.9A
Authority: CN
Inventors: 杨良志; 汪志新; 丁德平; 王向军
Original assignee: POLYTRON TECHNOLOGIES Inc
Current assignee: POLYTRON TECHNOLOGIES Inc
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-04-17
Anticipated expiration: 2037-11-13
Also published as: CN107918604B

Abstract

本发明实施例公开了一种中文的分词方法及装置。所述方法包括：获取待分词文本的特征信息，其中，所述特征信息包括段落划分、标点符号或空格符中至少之一；根据特征信息，确定待分词文本中的所有自然区间；将自然区间划分为歧义区间和非歧义区间；确定歧义区间中的候选词，并将候选词与非歧义区间中的文本进行匹配；根据匹配结果确定候选词的分词规则，并按照分词规则对所述歧义区间的文本进行分词处理。通过采用上述技术方案，有效提高了分词结果与待分词文本语境之间的关联性，使得分词的准确度得到提升。相对于现有技术提供的分词方案，本发明实施例提供的技术方案计算量较小，在一定程度上也可以提高分词的快速性。

Description

一种中文的分词方法及装置

技术领域

本发明实施例涉及分词技术领域，尤其涉及一种中文的分词方法及装置。

背景技术

随着互联网的高速发展，网络应用趋向多元化，网上的信息量急剧增加。其中，分词是进行信息处理、信息检索的基础，所有的信息处理、信息检索工作都是在分词之后进行的。所以分词的错误会被叠加到后续的处理过程中，而且很难被消除。正因为这样所以对分词的准确率的追求是个持续的过程。

一般情况下，在英文的行文中，单词之间是以空格作为自然分界符的，中文中的字、句和段也可通过明显的分界符来简单划界，唯独中文中的词没有一个形式上的分界符。同时由于中文语言的固有特性，对于一个词而言，没有明确的词定义、词和词之间也没有分隔符。此外，新词，专有名词的不断涌现等因素也将导致分词很难做到100％的准确。

现有分词技术采用的主要方法是将字符匹配法、理解法以及统计相结合形成的复合型分词法。由于复合后的分词算法运算量较大，采用的语法规则也较为复杂，在保证分词准确度的基础上极易导致分词的效率降低。而若只采用上述分词算法中的其中一种或两种进行分词，虽然可以减少计算量，提高运算速度，但是在分词过程中所考虑的语境因素并不全面。因此，分词的准确度容易受到影响。所以，现有技术提供的分词方式并不能兼容分词的准确度和快速性。

发明内容

本发明实施例提供一种中文的分词方法及装置，实现了在保证分词准确度的同时，减少了分词过程中的计算量，提高了分词效率。

为实现上述目的，本发明实施例采用如下技术方案：

第一方面，本发明实施例提供了一种中文的分词方法，所述方法包括：

获取待分词文本的特征信息；

根据所述特征信息，确定所述待分词文本中的所有自然区间，其中，所述特征信息包括段落划分、标点符号或空格符中至少之一；

将所述自然区间划分为歧义区间和非歧义区间；

确定所述歧义区间中的候选词，并将所述候选词与所述非歧义区间中的文本进行匹配；

根据匹配结果确定所述候选词的分词规则，并按照所述分词规则对所述歧义区间的文本进行分词处理。

第二方面，本发明实施例提供了一种中文的分词装置，所述装置包括：

特征信息获取模块，用于获取待分词文本的特征信息；

自然区间确定模块，用于根据所述特征信息，确定所述待分词文本中的所有自然区间，其中，所述特征信息包括段落划分、标点符号或空格符中至少之一；

区间划分模块，用于将所述自然区间划分为歧义区间和非歧义区间；

候选词匹配模块，用于确定所述歧义区间中的候选词，并将所述候选词与所述非歧义区间中的文本进行匹配；

分词处理模块，用于根据匹配结果确定所述候选词的分词规则，并按照所述分词规则对所述歧义区间的文本进行分词处理。

本发明实施例的技术方案中，获取待分词文本的特征信息，该特征信息可以包括段落划分、标点符号或空格符中的一种或多种。根据上述特征信息，可确定文本中的所有自然区间。在将自然区间划分为歧义区间和非歧义区间后，通过确定出歧义区间中的候选词，并将候选词与非歧义区间中的文本进行匹配，可根据匹配结果确定候选词的分词规则。通过按照该分词规则对歧义区间中的文本进行分词处理后，可得到与文本语境密切相关的分词。通过采用上述技术方案，有效提高了分词结果与待分词文本语境之间的关联性，使得分词的准确度得到提升。相对于现有技术提供的分词方案，本发明实施例提供的技术方案计算量较小，在一定程度上也可以提高分词的快速性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1为本发明实施例一提供的一种中文的分词方法的流程示意图；

图2为本发明实施例二提供的一种中文的分词方法的流程示意图；

图3为本发明实施例三提供的一种中文的分词装置的结构框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例一提供的一种中文的分词方法的流程示意图。本实施例的方法可以中文的分词装置来执行，其中该装置可由软件和/或硬件实现，一般可集成在具有分词功能的搜索引擎中。如图1所示，该方法可以包括：

S110：获取待分词文本的特征信息。

其中，待分词文本可以为单个句子，也可以为由多个句子所构成的一个段落，还可以为由多个段落所构成的文章等。对于中文而言，存在对文本进行初步划分的至少一个划分标准，例如可根据段落划分、标点符号和空格等控制字符中的至少一种或多种对文本进行划分。上述控制字符均可作为文本的特征信息，用于将中文文本，即连续的字符串序列划分为多个字符串序列。其中，每个字符串序列均可作为文本中独立的个体，以供搜索引擎进行进一步的识别。

S120：根据特征信息，确定待分词文本中的所有自然区间。

其中，自然区间是在分词过程中，根据待分词文本的至少一种特征信息对文本进行初次划分后的多个序列。该多个序列相互之间不存在组合成词的可能性。例如，对于一个句子，“我今天在路上遇到了一名警察，他当时正面向市政府。”，通过识别标点符号(逗号)，可将上述句子划分为“我今天在路上遇到了一名警察”和“他当时正面向市政府”两个自然区间。

示例性的，在划分自然区间的过程中，可按照文本中字符的位置依次对每个字符进行识别，当识别出某个特征信息时，可将该特征信息之前的所有字符作为一个自然区间，并按照上述方式依次识别该特征信息之后的所有字符，直到确定待分词文本中的所有自然区间。

S130：将自然区间划分为歧义区间和非歧义区间。

示例性的，对于待分词文本中的所有自然区间而言，均存在歧义区间和非歧义区间两种不同的类型。

示例性的，可采用现有技术提供的分词词典对自然区间进行划分，具体可以为：对于每个自然区间，按照字符所在文本中的位置依次识别自然区间中的字符，并判断该字符与相邻字符所组成的词语在现有的分词词典中是否存在，若存在，则可表明某个字符可同时与相邻的字符构成词组，进而可将该字符及其相邻字符所构成的区间作为歧义区间；若不存在，则表明该字符为单个字或只属于某一个词，因此该字符可作为非歧义区间中的字符或词组。

具体的，仍以句子“我今天在路上遇到了一名警察，他当时正面向市政府。”为例，对于字符“面”，由于“正面”和“面向”均可作为词组，则可将“正面向”划分为歧义区间。而“我今天在路上遇到了一名警察”可作为非歧义区间。

优选的，将自然区间划分为歧义区间和非歧义区间的方式还可为：根据预设字符编码规则，将待分词文本中每个字符对应的字节信息存入字符矩阵，直到存入所有自然区间；在预设基础词典和预设分类词典中查询字符矩阵中的第N+K个字符与第N个字符是否可构成词组，若是，则将所构成词组的属性信息存储到与字符矩阵对应的关联矩阵；基于关联矩阵遍历自然区间，将自然区间划分为歧义区间和非歧义区间。

其中，预设字符编码规则是指GBK(Chinese Internal Code Specification，汉字编码字符集)或UTF8(8-bit Unicode Transformation Format，万国码)。在对文本信息中的字符依次识别的过程中，根据上述编码规则，可确定每个字符所对应的字节信息。其中，字节信息包括字符所占的字节数(可从字符对应首字节的信息中读出)，以及每个字符所对应字节在文本中的开始位置和结束位置。本实施例中通过采用字符矩阵可从字符的角度对待分词文本中的所有字符按照在文本中的位置依次进行存储。

其中，预设基础词典为现有的分词词典。预设分类词典为采用现有技术提供的分词算法对不同专业领域的文章进行分词预处理后，得到的分词的集合。

示例性的，本实施例中，对于每个自然区间中的任意第N个字符，如果通过查询预设基础词典和预设分类词典后，确定出第N+K个字符与第N个字符可构成词组，即第N个字符与第N+K个字符所组成的字符串在预设基础词典或预设分类词典中出现，则可将第N+K个字符与第N个字符所构成的词组存储于字符矩阵对应的关联矩阵中。

其中，关联矩阵是与字符矩阵相对应的二维矩阵，该关联矩阵可从词的角度描述字符与字符之间的关系。在关联矩阵中，可存储所能构成词组的属性信息，比如词头(head)属性，组成部分(part)属性、前缀属性以及后缀属性等。通过上述属性信息，可表示构成词组的字符在所构成的词组中所起到的作用，还可表示所构成的词组在其所在文本中的作用。示例性的，在关联矩阵中也可存储该词组对应的分类属性信息。例如词组A属于军事领域，词组B属于化学领域。上述分类属性信息可作为后续分词处理的依据，通过识别候选词的分类属性，可确定分类属性对应的预设分类词典，进而可确定候选词的检索范围，进而提升分词处理的速度。

需要说明的是，预设分类词典的建立为待分词文本提供了有效的分词依据，相对于直接采用预设基础词典进行分词的方式，通过查询预设分类词典可使得分词结果更符合专业领域的词汇要求，因此可进一步提供分词的准确性。此外，通过关联矩阵对所有可能构成词组的字符及其构成词组的属性信息进行存储，可为后续进一步进行分词处理提供查询依据。

优选的，由于构建的关联矩阵中存储有所有可能构成词的字符及其构成词组的属性信息，因此，可通过采用关联矩阵按照字符位置递增的方式依次遍历每个自然区间中的每个字符以确定歧义区间和非歧义区间。

具体的，对于某个自然区间中的任意字符，如果其在关联矩阵中为单个字符或只属于单个词，则可将该自然区间作为非歧义区间；而如果自然区间中的字符在关联矩阵中同时属于依次排列的至少两个词，则可将至少两个词所在的区间作为歧义区间。

S140：确定歧义区间中的候选词，并将候选词与非歧义区间中的文本进行匹配。

示例性的，在基于关联矩阵确定歧义区间的过程中，也可随之确定出歧义区间中的候选词，即对于某个字符，如果该字符在关联矩阵中同时属于依次排列的至少两个词，则可将该字符所属的至少两个词均作为候选词。仍以句子“我今天在路上遇到了一名警察，他当时正面向市政府。”为例，由于在关联矩阵中存储有所有可能构成的词组，即“正面”和“面向”均被存储于关联矩阵中，而字符“面”同时属于这两个词，因此将“正面向”作为歧义区间，同时可将“正面”和“面向”作为该歧义区间中的候选词。

示例性的，通过将确定的候选词与非歧义区间中的文本进行匹配，如果在非歧义区间中也存在该候选词，可说明该候选词可作为文本信息的目标分词；如果在非歧义区间中并不存在上述候选词，则可表明该候选词可能是文本中第一次出现的词组，也可能是与文本上下文的语境无关的词组，需进一步确认其作为目标分词的准确性。在本实施例中，通过将候选词与非歧义区间中的文本进行匹配的好处在于，可提高分词结果与待分词文本上下文语境的关联性，使得分词结果与文本的语境紧密相关，进而提高分词的准确度。

S150：根据匹配结果确定候选词的分词规则，并按照分词规则对歧义区间的文本进行分词处理。

其中，分词规则可通过候选词与非歧义区间中的文本的匹配结果而确定，具体可通过匹配成功的次数所确定。

具体的，对于候选词“正面”和“面向”，如果将“正面”和“面向”分别与非歧义区间中的文本进行匹配，在非歧义区间中同时存在“正面”和“面向”，即可表明上述两个候选词均匹配成功。而如果在非歧义区间中出现“正面”的次数为一次，出现“面向”的次数为五次，则可说明“面向”更符合文本上下文的语境，进而将歧义区间“正面向”中的“面向”作为目标分词，“正”作为单个字符进行分词处理。

本发明实施例提供了一种中文的分词方法，获取待分词文本的特征信息，该特征信息可以包括段落划分、标点符号或空格符中的一种或多种。根据上述特征信息，可确定文本中的所有自然区间。在将自然区间划分为歧义区间和非歧义区间后，通过确定出歧义区间中的候选词，并将候选词与非歧义区间中的文本进行匹配，可根据匹配结果确定候选词的分词规则。通过按照该分词规则对歧义区间中的文本进行分词处理后，可得到与文本语境密切相关的分词。通过采用上述技术方案，有效提高了分词结果与待分词文本的语境之间的关联性，使得分词的准确度得到提升。相对于现有技术提供的分词方案，本发明实施例提供的技术方案计算量较小，在一定程度上也可以提高分词的快速性。

进一步的，需要说明的是，在获取待分词文本的特征信息之前，可建立分类词典，该分词词典可供多个分词线程或分词进程同时使用。

优选的，分类词典建立的方法具体可以包括：基于爬虫算法，获取第一设定数量的不同专业领域的文章，并将所述文章按照对应的专业领域进行存储，得到分类文本；基于预设原始分词算法对所述分类文本进行第二分词预处理，获取不同专业对应的所述分类文本中的词组以及所述词组对应的词频；将超过第二设定数量的词频所对应的词组作为目标词组，并将不同专业对应的所有目标词组的集合确定为预设分类词典。

示例性的，不同专业领域可以包括但并不限于如下领域：政治、体育、军事、娱乐、科技、汽车、股票和法律等。基于爬虫算法，可从如新浪、搜狐和腾讯等各大网站中获取上述多个专业领域的文章(例如分别爬取不同专业领域的文章1万篇)，并将这些文章按照对应的专业领域以文本形式进行存储，进而完成初步的分类处理。

在初步分类得到分类文本后，可基于现有技术提供的预设原始分词算法(例如理解法或统计法等)可对分类文本进行分词预处理，并累加每个词组的词频。然后可将超过第二设定数量的词频(例如2000)所对应的词组作为目标词组。因此，不同专业领域对应的目标词组的集合即可作为分类高频词集合，即预设分类词典。

进一步的，可基于Spark(专为大规模数据处理而设计的快速通用的计算引擎)系统统计不同分类词典中的共享词汇，例如“激光”既可属于军事领域，又可属于电子信息领域。因此，对于上述共享词汇，优选将其归类到某个分类词典中，当然为了避免分词结果具有歧义，也可将其从分类词典中删除。

进一步的，对于上述分类词典中的每个词，可按照前两个字计算哈希值，并构造平衡二叉树。其中，平衡二叉树的每个节点可用于记录该词所对应的专业领域。相对于现有技术提供的分词技术，通过建立不同专业领域对应的预设分类词典，可在分词过程中同时检索多个分类词典，进而提高检索效率。通过采用哈希技术打散词典以形成多个较小的平衡二叉树的方式，可减小对每个预设分类词典的检索时间(例如，可将检索时间限制在纳秒级别)，进而提高分词过程中的检索速度，提高分词效率。

实施例二

图2为本发明实施例二提供的一种中文的分词方法的流程示意图。本实施例二对上述实施例进行了优化，参照图2，本发明实施例二具体包括：

S210：获取待分词文本的特征信息。

S220：根据特征信息，确定待分词文本中的所有自然区间。

S230：将自然区间划分为歧义区间和非歧义区间。

S240：确定歧义区间中的候选词，并判断候选词与非歧义区间中的文本是否相匹配，若是，则执行步骤S250；否则，执行步骤S270。

示例性的，在确定歧义区间中的候选词后，可将该候选词依次存入歧义区间链表中，以为后续依次对候选词进行匹配提供便利，进而提升检索速度。

其中，通过判断歧义区间中的候选词是否与非歧义区间中的文件相匹配，可确定该候选词与待分词文本语境的关联程度。候选词在非歧义区间中出现的次数越多，说明该候选词的分词规则的准确性越高，该候选词的语义越接近待分词文本的语境。

示例性的，如果歧义区间中的候选词与非歧义区间中的文本不匹配，则可说明该候选词在非歧义区间中从未出现过，此时，可将该候选词与预设分类词典中的分词进行匹配，进一步确定该候选词分词规则的准确性。

S250：统计候选词在非歧义区间中出现的第一频率。

其中，非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语，即在确定非歧义区间后，可进一步采用预设原始分词算法将非歧义区间中的字符串与预设基础词典或预设分类词典中的分词进行匹配，以确认非歧义区间中的词组是否为符合分词规则的词组，进而提升后续词组匹配的准确性。

S260：基于第一频率确定候选词所对应的候选切分规则的权重。

示例性的，针对每个候选词，其在非歧义区间中可能出现一次，也可能出现多次。出现的次数越多，说明该候选词与文本上下文所反映的语境越接近，即该候选词对应的候选切分规则相对于其他候选切分规则而言所占的权重越大。

具体的，对于歧义区间“正面向”中的候选词“正面”和“面向”，如果检索到“正面”在非歧义区间中出现2次，“面向”在非歧义区间中出现10次，则可确定该候选词“正面”对应的候选切分规则(切分为“正面”和“向”)所占比重为16％，而候选词“面向”对应的候选切分规则(切分为“正”和“面向”)所占的比重为84％。

S270：统计候选词在预设分类词典中出现的第二频率。

示例性的，由于关联矩阵中存储有可构成词组的所有字符，及其所构成词组的属性信息，因此可获取所有可作为候选分词的词组的属性信息，优选为分类属性信息，并设置与分类属性对应的分类权重计数器。

具体的，对于关联矩阵中的词组，若检索到这些词组绝大多数(例如百分之70的词组)在与军事领域对应的预设分类词典中出现，即与军事领域对应的分类权重计数器的计数值最大，因此，可将与军事相关的预设分类词典作为目标分类词典。后续将候选词与预设分类词典中的分词进行匹配时，采用目标分类词典进行匹配即可。通过确定候选词的分类属性，可缩小候选词的匹配范围，进而提升分词处理的速度。

需要说明的是，在基于第一频率确定出候选词所对应的候选切分规则的权重后，可进一步将该候选词与预设分类词典(优选为目标分类词典)中的分词进行匹配，并统计该候选词在目标分类词典中出现的第二频率。这样设置的好处在于：可进一步提升候选词对应的候选切分规则的准确性。

还需要说明的是，将候选词与非歧义区间中的分词进行匹配与预设分类词典中的分词进行匹配的动作不存在先后之分，可以顺序进行，也可同步进行。

S280：基于第二频率，累加候选切分规则的权重，得到权重最大的候选切分规则。

具体的，对于每个候选词，在将其与非歧义区间中的分词与目标分类词典中的分词进行匹配后，可确定不同候选词所对应的候选切分规则的权重，进而得到权重最大的候选切分规则。例如，仍以上述歧义区间“正面向”为例，其存在两种不同的候选切分规则，其中一种候选切分规则为“正面”和“向”，其权重为16％，另一种候选切分规则为“正”和“面向”，其权重为84％。因此，可将权重最大的候选切分规则“正”和“面向”作为该歧义区间的分词规则，以符合文本所反映的语境。

S290：按照权重最大的候选切分规则对歧义区间的文本进行分词处理。

本实施例二在上述实施例的基础上，针对歧义区间中的每个候选词，通过查找其在非歧义区间中出现的频率可得到候选词所对应的候选切分规则的权重。通过结合预设分类词典，将候选词进一步与预设分类词典中的分词进行匹配后，可得到候选词所对应候选切分规则的最大权重值，并按照该最大权重值对应的候选切分规则对歧义区间中的文本进行分词处理，保证了分词结果与待分词文本语境的关联性，提升了分词的准确度。

实施例三

图3为本发明实施例三提供的一种中文的分词装置的结构框图。该装置可由软件和/或硬件实现，一般可集成在具备分词功能的分词系统中。如图3所示，该装置包括：特征信息获取模块310、自然区间确定模块320、区间划分模块330、候选词匹配模块340和分词处理模块350。

其中，特征信息获取模块310，用于获取待分词文本的特征信息；自然区间确定模块320用于根据所述特征信息，确定所述待分词文本中的所有自然区间，其中，所述特征信息包括段落划分、标点符号或空格符中至少之一；区间划分模块330，用于将所述自然区间划分为歧义区间和非歧义区间；候选词匹配模块340，用于确定所述歧义区间中的候选词，并将所述候选词与所述非歧义区间中的文本进行匹配；分词处理模块350，用于根据匹配结果确定所述候选词的分词规则，并按照所述分词规则对所述歧义区间的文本进行分词处理。

本发明实施例提供了一种中文的分词装置，获取待分词文本的特征信息，该特征信息可以包括段落划分、标点符号或空格符中的一种或多种。根据上述特征信息，可确定文本中的所有自然区间。在将自然区间划分为歧义区间和非歧义区间后，通过确定出歧义区间中的候选词，并将候选词与非歧义区间中的文本进行匹配，可根据匹配结果确定候选词的分词规则。通过按照该分词规则对歧义区间中的文本进行分词处理后，可得到与文本语境密切相关的分词。通过采用上述技术方案，有效提高了分词结果与待分词文本的语境之间的关联性，使得分词的准确度得到提升。相对于现有技术提供的分词方案，本发明实施例提供的技术方案计算量较小，在一定程度上也可以提高分词的快速性。

在上述实施例的基础上，所述区间划分模块330具体包括：

第一存储单元，用于根据预设字符编码规则，将所述待分词文本中每个字符对应的字节信息存入字符矩阵，直到存入所有自然区间；

第二存储单元，用于在预设基础词典和预设分类词典中查询所述字符矩阵中的第N+K个字符与第N个字符是否可构成词组，若是，则将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵；其中，N和K为整数，用于表示字符矩阵中的字符个数；

区间划分单元，用于基于所述关联矩阵遍历所述自然区间，将所述自然区间划分为歧义区间和非歧义区间。

在上述实施例的基础上，所述区间划分单元具体用于：

对于所述自然区间中的任意字符，如果在所述关联矩阵中为单个字符或只属于单个词，则将所述自然区间作为非歧义区间；

如果所述自然区间中的字符在所述关联矩阵中同时属于依次排列的至少两个词，则将所述至少两个词所在的区间作为歧义区间；

相应的，所述确定所述歧义区间中的候选词，包括：

将所述关联矩阵中依次排列的，且包含有相同字符的至少两个词均作为所述歧义区间中的候选词。

在上述实施例的基础上，分词处理模块350具体用于：如果所述候选词与所述非歧义区间中的词语相匹配，则统计所述候选词在所述非歧义区间中出现的第一频率；其中，所述非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语；

基于所述第一频率确定所述候选词所对应的候选切分规则的权重，并按照权重最大的候选切分规则对所述歧义区间的文本进行分词处理。

在上述实施例的基础上，该装置还包括：第二频率统计模块，用于在基于所述第一频率确定所述候选词所对应的候选切分规则的权重之后，统计所述候选词在预设分类词典中出现的第二频率；最大候选切分规则确定模块，用于基于所述第二频率，累加所述候选切分规则的权重，得到权重最大的候选切分规则。

在上述实施例的基础上，该装置还包括：分类权重计数值累加模块，用于在将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵之后，读取所述属性信息，并累加与所述属性信息对应的分类权重计数器的计数值；

相应的，第二频率统计模块具体用于：将所述分类权重计数器的最大计数值所对应的预设分类词典作为目标分类词典；

统计所述候选词在所述目标分类词典中出现的第二频率。

在上述实施例的基础上，该装置还包括：文本分类模块，用于在获取待分词的文本信息之前，基于爬虫算法，获取第一设定数量的不同专业领域的文章，并将所述文章按照对应的专业领域进行存储，得到分类文本；

第二分词预处理模块，用于基于预设原始分词算法对所述分类文本进行第二分词预处理，获取不同专业对应的所述分类文本中的词组以及所述词组对应的词频；

分类词典确定模块，用于将超过第二设定数量的词频所对应的词组作为目标词组，并将不同专业对应的所有目标词组的集合确定为预设分类词典。

本发明实施例提供的中文的分词装置可执行本发明任意实施例所提供的中文的分词方法，具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的中文的分词方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种中文的分词方法，其特征在于，所述方法包括：

获取待分词文本的特征信息，其中，所述特征信息包括段落划分、标点符号或空格符中至少之一；

根据所述特征信息，确定所述待分词文本中的所有自然区间；

将所述自然区间划分为歧义区间和非歧义区间；

2.根据权利要求1所述的方法，其特征在于，所述将所述自然区间划分为歧义区间和非歧义区间，包括：

根据预设字符编码规则，将所述待分词文本中每个字符对应的字节信息存入字符矩阵，直到存入所有自然区间；

在预设基础词典和预设分类词典中查询所述字符矩阵中的第N+K个字符与第N个字符是否构成词组，若是，则将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵；其中，N和K均为整数，用于表示字符矩阵中的字符个数；

基于所述关联矩阵遍历所述自然区间中的每个字符，将所述自然区间划分为歧义区间和非歧义区间。

3.根据权利要求2所述的方法，其特征在于，基于所述关联矩阵遍历所述自然区间中的每个字符，将所述自然区间划分为歧义区间和非歧义区间，包括：

对于所述自然区间中的任意字符，如果在所述关联矩阵中为单个字符或只属于单个词，则将所述自然区间确定为非歧义区间；

如果所述自然区间中的字符在所述关联矩阵中同时属于依次排列的至少两个词，则将所述至少两个词所在的区间确定为歧义区间；

相应的，所述确定所述歧义区间中的候选词，包括：

4.根据权利要求2所述的方法，其特征在于，根据匹配结果确定所述候选词的分词规则，并按照所述分词规则对所述歧义区间的文本进行分词处理，包括：

如果所述候选词与所述非歧义区间中的词语相匹配，则统计所述候选词在所述非歧义区间中出现的第一频率；其中，所述非歧义区间中的词语为基于预设原始分词算法进行第一分词预处理后的词语；

5.根据权利要求4所述的方法，其特征在于，基于所述第一频率确定所述候选词所对应的候选切分规则的权重之后，所述方法还包括：

统计所述候选词在预设分类词典中出现的第二频率；

基于所述第二频率，累加所述候选切分规则的权重，得到权重最大的候选切分规则。

6.根据权利要求5所述的方法，其特征在于，所述将所构成词组的属性信息存储到与所述字符矩阵对应的关联矩阵之后，所述方法还包括：

读取所述属性信息，并累加与所述属性信息对应的分类权重计数器的计数值；

相应的，所述统计所述候选词在预设分类词典中出现的第二频率，包括：

将所述分类权重计数器的最大计数值所对应的预设分类词典作为目标分类词典；

统计所述候选词在所述目标分类词典中出现的第二频率。

7.根据权利要求1所述的方法，其特征在于，所述获取待分词文本的特征信息之前，所述方法还包括：

基于爬虫算法，获取第一设定数量的不同专业领域的文章，并将所述文章按照对应的专业领域进行存储，得到分类文本；

基于预设原始分词算法对所述分类文本进行第二分词预处理，获取不同专业对应的所述分类文本中的词组以及所述词组对应的词频；

将超过第二设定数量的词频所对应的词组作为目标词组，并将不同专业对应的所有目标词组的集合确定为预设分类词典。

8.一种中文的分词装置，其特征在于，所述装置包括：

特征信息获取模块，用于获取待分词文本的特征信息；

9.根据权利要求8所述的装置，其特征在于，所述区间划分模块包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

文本分类模块，用于在获取待分词的文本信息之前，基于爬虫算法，获取第一设定数量的不同专业领域的文章，并将所述文章按照对应的专业领域进行存储，得到分类文本；