CN113111651A

CN113111651A - 一种中文分词方法、装置以及搜索词库读取方法

Info

Publication number: CN113111651A
Application number: CN202110434688.4A
Authority: CN
Inventors: 叶群莉; 魏文华; 李彩秀; 刘宁; 农翠华
Original assignee: Shenzhen South China City Network Technology Co ltd
Current assignee: Shenzhen South China City Network Technology Co ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-07-13

Abstract

为了克服现有技术的不足，本发明提供了一种中文分词方法、装置以及搜索词库读取方法，包括：根据输入的最大词长，对待分词语句进行分词，得到第一次分词结果；将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果；将第一次分词结果直至第N次分词结果分别与词库比较，得到输出列表。本发明能够准确的对待分词语句进行分词，尤其能够提升位于待分词语句中间的固定词语的识别率。本发明所述的方法具有分词效率高，分词结果准确的优点。

Description

一种中文分词方法、装置以及搜索词库读取方法

技术领域

本发明涉及计算机技术领域，特别是一种中文分词方法及装置、系统、电子装置、可存储介质及搜索词库读取方法。

背景技术

分词技术属于自然语言理解技术的范畴,是语义理解的首要环节,它是能将语句中的词语正确切分开的一种技术。它是文本分类,信息检索,机器翻译,自动标引,文本的语音输入输出等领域的基础。而由于中文本身的复杂性及其书写习惯,使中文分词技术成为了分词技术中的难点。

中文分词基本算法近年来人们对中文分词技术有了一定的研究,提出了多种多样的中文分词算法。目前的基于词典的方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,该分词方法可以分为正向匹配和逆向匹配；按照长度的不同,可以分为最大匹配和最小匹配。

其中，正向最大匹配算法思想:(1)从左往右取待切分汉语句的m个字符作为匹配字段,其中m为机器可读词典中最长词条的汉字个数。(2)查找机器可读词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来；若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。

逆向最大匹配算法思想:该算法是对正向最大匹配算法的逆向思维,主要是从右往左对字符串进行最大匹配。匹配成功,则将这个匹配字段作为一个词切分出来；若匹配不成功,则将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。实验表明逆向最大匹配算法效果要优于正向最大匹配算法。

可见，对于正向最大匹配算法思想和逆向最大匹配算法思想而言，需要对待分词语句进行增加或者减少一个单字直至剩下一个单字再终止的过程，在这个过程中，如果遇到固定词汇在中间时，可能会出现误分词，影响分词结果的准确性。

发明内容

为了克服现有技术的不足，本发明提供了中文分词方法、装置以及搜索词库读取方法，用于解决前述技术问题中的至少一个。

具体地，其技术方案如下：

一种中文分词方法，包括：

根据输入的最大词长，对待分词语句进行分词，得到第一次分词结果；

将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果；

将第一次分词结果直至第N次分词结果分别与词库比较，得到输出列表。

所述“根据输入的最大词长，对待分词语句进行分词”，包括：

人为输入最大词长的长度，并进行标记，得到标记词长；

对所述待分词语句按照标记词长的长度进行分词，得到第一次分词结果；

将所述第一次分词结果与所述词库进行对比，得到所述待分词语句中的最长词。

所述“对所述待分词语句按照标记词长的长度进行分词，得到第一次分词结果”，包括：

根据语意顺序，以所述标记词长的长度正向分解所述待分词语句，得到正向分解后的分词结果；

根据语意顺序，以所述标记词长的长度逆向分解所述待分词语句，得到逆向分解后的分词结果；

将所述正向分解后的分词结果和逆向分解后的分词结果同时与所述词库进行比较，得到第一次分词结果。

所述“将所述第一次分词结果与所述词库进行对比，得到所述待分词语句中的最长词”，包括：

将所述第一次分词结果与所述词库中的数据进行对比：

当所述第一次分词结果中的某一个词在所述词库中存在，则将该词输出至输出列表，作为所述待分词语句中的最长词。

所述“将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果”，包括：

在所述最大词长的长度逐渐减少时，判断所述最大词长改变后的长度；

通过改变后的所述最大词长确定本次分词的长度；

根据语意顺序，以本次分词的长度为准，正向分解所述待分词语句，得到本次正向分解后的分词结果；

根据语意顺序，以本次分词的长度为准，逆向分解所述待分词语句，得到本次逆向分解后的分词结果；

将所述本次正向分解后的分词结果和本次逆向分解后的分词结果同时与所述词库进行比较，得到本次分词结果。

所述“在所述最大词长的长度逐渐减少时，判断所述最大词长改变后的长度”，包括：

将所述最大词长的长度依次减少，得到改变后的标记词长；

对所述改变后的标记词长进行长度判断：

若，所述改变后的标记词长等于零，则，将退出；

若，所述改变后的标记词长大于等于1，则，继续将所述最大词长的长度减少，以进行下一轮的分词。

一种搜索词库读取方法，包括：

以上述的中文分词方法作为分词原则；

将所述分词原则存储到数据库中；

利用搜索引擎实施实时调用所述数据库，完成词库搜索。

一种中文分词系统，包括：

输入模块，用于采集待分词语句以及分词时的最大词长；

第一分词模块，与所述输入模块数据交换，用于根据输入的最大词长对待分词语句进行分词，得到第一次分词结果；

逐步分词模块，与所述第一次分词模块数据交换，用于将所述最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果；

处理模块，与所述第一分词模块和所述逐步分词模块进行数据交换，用于将第一次分词结果直至第N次分词结果分别与词库比较，得到输出列表；

词库模块，与所述处理模块数据交换，用于根据所述输出列表更新词库内容。

一种中文分词电子装置，包括：

存储介质，用于存储计算机程序，

处理单元，与所述存储介质进行数据交换，用于在进行分词时，通过所述处理单元执行所述计算机程序，进行如上所述的中文分词方法的步骤。

一种计算机可读存储介质，

所述计算机可读存储介质内存储有计算机程序；

所述计算机程序在运行时，执行如上所述的中文分词方法的步骤。

本发明至少具有以下有益效果：

本发明所述的中文分词方法，根据输入的最大词长，对待分词语句进行第一次分词，得到第一次分词结果；然后，将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行一次分词过程，以此方式得到第N次分词结果；将第一次分词结果直至第N次分词结果分别与词库比较，得到输出列表；所述词库与所述输出列表进行匹配，以更新词库；通过本发明所述的方法，能够准确的对待分词语句进行分词，尤其能够提升位于待分词语句中间的固定词语的识别率。

本发明所述的方法具有分词效率高，分词结果准确的优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的流程图。

图2为第一次分词的流程图。

图3为获得第一次分词结果的流程图。

图4为最大词长的长度判断方法。

图5为本发明所述搜索词库读取方法的示意图。

图6为本发明所述系统的结构框图。

其中，100.输入模块；200.第一分词模块；300.逐步分词模块；400.处理模块；500.词库模块。

具体实施方式

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

如图1，一种中文分词方法，包括：根据输入的最大词长，对待分词语句进行分词，得到第一次分词结果；将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果；将第一次分词结果直至第N次分词结果分别与词库比较，得到输出列表；所述词库与所述输出列表进行匹配，以更新词库。

其中，所述的N为2，3……。

优选的，输入的最大词长可以是人为在输入端进行输入的指令；也可以根据需求，选在词库中最长的词语的词长作为第一次分词时的最大词长。

在实际工作中，对于短词，如两个字组成的，“中国”，利用正向最大匹配算法和你想最大匹配算法都较容易获得；但是，如果是“中华人民共和国国歌”，很容易就被分词为，“中华人民共和国”和“国歌”，使分词结果不准确。

如图2，基于此，所述“根据输入的最大词长，对待分词语句进行分词”，包括：在程序中，对最大词长的长度进行标记，得到标记词长；对所述待分词语句按照标记词长的长度进行分词，得到第一次分词结果；将所述第一次分词结果与所述词库进行对比，得到所述待分词语句中的最长词。

在进行第一次分词时，通过标记词长进行分词，使“中华人民共和国国歌”最终分解为一个整体，不会出现分解不准确的问题。

如图3，为了提升分词结果的准确性，所述“对所述待分词语句按照标记词长的长度进行分词，得到第一次分词结果”，包括：根据语意顺序，以所述标记词长的长度正向分解所述待分词语句，得到正向分解后的分词结果；根据语意顺序，以所述标记词长的长度逆向分解所述待分词语句，得到逆向分解后的分词结果；将所述正向分解后的分词结果和逆向分解后的分词结果同时与所述词库进行比较，得到第一次分词结果。

在此处，正向分解后的分词结果和逆向分解后的分词结果在与词库比较后，得到的结果取交集，获得最终的第一次分词结果；由于正向分解后的分词结果和逆向分解后的分词结果不可避免的出现相同的结果，那么只取相同的结果即可；或者，也可以在正向分解后的分词结果和逆向分解后的分词结果取交集后，再与词库进行对比，减少对比过程，提升效率；在运行成熟后，也可也仅仅运行正向分解或逆向分解，将正向分解或逆向分解获得的结果与词库对比即可获得最终分词结果。

所述“将所述第一次分词结果与所述词库进行对比，得到所述待分词语句中的最长词”，包括：将所述第一次分词结果与所述词库中的数据进行对比：当所述第一次分词结果中的某一个词在所述词库中存在，则将该词输出至输出列表，作为所述待分词语句中的最长词。

由于在标记词长的限制下，第一次分词结果中出现了多个满足标记词长的结果，那么这些结果都需要与词库进行比较，以防漏掉。

如图4，在完成第一次分词后，所述“将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果”，包括：在所述最大词长的长度逐渐减少时，判断所述最大词长改变后的长度；通过改变后的所述最大词长确定本次分词的长度；根据语意顺序，以本次分词的长度为准，正向分解所述待分词语句，得到本次正向分解后的分词结果；根据语意顺序，以本次分词的长度为准，逆向分解所述待分词语句，得到本次逆向分解后的分词结果；将所述本次正向分解后的分词结果和本次逆向分解后的分词结果同时与所述词库进行比较，得到本次分词结果。

完成了第一次分词后，得到待分词语句中的最长词；然后，标记词长对应的位进行减一操作，如第一次分词时采用的标记词长为5，则在第一次分词后，标记词长对应的位进行减一，变为4，进行第二次分词，以此类推。同样的，为了提升效率，可以将已经找到的最大词长的词在待分词语句中去掉，在进行下一次比较时，不再进行查找。

如“我在唱国歌时热泪盈眶”，标记词长为4，第一次分词得到“热泪盈眶”；第二次分词，标记词长为3，此时仅对“我在唱国歌时”进行分词，不再考虑“热泪盈眶”，以提升效率和准确率。

所述“在所述最大词长的长度逐渐减少时，判断所述最大词长改变后的长度”，包括：将所述最大词长的长度依次减少，得到改变后的标记词长；对所述改变后的标记词长进行长度判断：若，所述改变后的标记词长等于零，则，退出；若，所述改变后的标记词不等于零，则长大于等于1，继续将所述最大词长的长度减少，以进行下一轮的分词；在标记词长为1时，说明已经对待分词语句进行到单词的分解，如“我”，“在”，“唱”等，此时无法对词长标记进行减小。

在分词时，现有的搜索词库的方法是：每次需要补充自定义词语，后需要重启es，才能生效；本发明还提供一种搜索词库读取方法，包括：以上述的中文分词方法作为分词原则；将所述分词原则存储到数据库中；利用搜索引擎实施实时调用所述数据库，完成词库搜索；在进行自定义词语的补充时，将上述的分词原则与数据库结合，实现快速查询。

如图5，具体的，在字典树的基础上加上上述的分词原则，其中，字典树是一种结构相当简单的树型结构，用于构建词典，通过前缀字符逐一比较对方式，实现快速查找词。

具体实施例II：下面详细说说正向最大匹配法、逆向最大匹配法和双向最大匹配法具体是如何进行的：

先说说什么是最大匹配法：最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。

下面以“我们在野生动物园玩”详细说明一下这几种匹配方法：

1、正向最大匹配法：

正向即从前往后取词，从7->1，每次减一个字，直到词典命中或剩下1个单字。

第1次：“我们在野生动物”，扫描7字词典，无

第2次：“我们在野生动”，扫描6字词典，无

。。。。。。

第6次：“我们”，扫描2字词典，有

扫描中止，输出第1个词为“我们”，去除第1个词后开始第2轮扫描，即：

第2轮扫描：

第1次：“在野生动物园玩”，扫描7字词典，无

第2次：“在野生动物园”，扫描6字词典，无

。。。。。。

第6次：“在野”，扫描2字词典，有

扫描中止，输出第2个词为“在野”，去除第2个词后开始第3轮扫描，即：

第3轮扫描：

第1次：“生动物园玩”，扫描5字词典，无

第2次：“生动物园”，扫描4字词典，无

第3次：“生动物”，扫描3字词典，无

第4次：“生动”，扫描2字词典，有

扫描中止，输出第3个词为“生动”，第4轮扫描，即：

第4轮扫描：

第1次：“物园玩”，扫描3字词典，无

第2次：“物园”，扫描2字词典，无

第3次：“物”，扫描1字词典，无

扫描中止，输出第4个词为“物”，非字典词数加1，开始第5轮扫描，即：

第5轮扫描：

第1次：“园玩”，扫描2字词典，无

第2次：“园”，扫描1字词典，有

扫描中止，输出第5个词为“园”，单字字典词数加1，开始第6轮扫描，即：

第6轮扫描：

第1次：“玩”，扫描1字字典词，有

扫描中止，输出第6个词为“玩”，单字字典词数加1，整体扫描结束。

正向最大匹配法，最终切分结果为：“我们/在野/生动/物/园/玩”，其中，单字字典词为2，非词典词为1；可见，该方法没有取得“野生动物园”的特定词语，属于分词错误。

2、逆向最大匹配法：

逆向即从后往前取词，其他逻辑和正向相同。即：

第1轮扫描：“在野生动物园玩”

第1次：“在野生动物园玩”，扫描7字词典，无

第2次：“野生动物园玩”，扫描6字词典，无

。。。。。。

第7次：“玩”，扫描1字词典，有

扫描中止，输出“玩”，单字字典词加1，开始第2轮扫描

第2轮扫描：“们在野生动物园”

第1次：“们在野生动物园”，扫描7字词典，无

第2次：“在野生动物园”，扫描6字词典，无

第3次：“野生动物园”，扫描5字词典，有

扫描中止，输出“野生动物园”，开始第3轮扫描

第3轮扫描：“我们在”

第1次：“我们在”，扫描3字词典，无

第2次：“们在”，扫描2字词典，无

第3次：“在”，扫描1字词典，有

扫描中止，输出“在”，单字字典词加1，开始第4轮扫描

第4轮扫描：“我们”

第1次：“我们”，扫描2字词典，有

扫描中止，输出“我们”，整体扫描结束。

逆向最大匹配法，最终切分结果为：“我们/在/野生动物园/玩”，其中，单字字典词为2，非词典词为0；可见，该方法在第2论第3次找到“野生动物园”。

3.本申请所述方法：确定标定词长为5；

第1轮扫描：

第1次：“我们在野生”，扫描词库，无

第2次：“在野生动物”，扫描词库，无

第3次：“们在野生动”，扫描词库，无

第4次：“野生动物园”，扫描词库，有

第5次：“生动物园玩”，扫描词库，无

扫描中止，输出“野生动物园”，开始第2轮扫描，标定词长减一，变为4

第2轮扫描：扫描的内容“我们在”“玩”。

扫描词库，无

第3轮扫描：标定词长减一，变为3

第1次：“我们在”，扫描词库，无

开始第4轮扫描，标定词长为2

第4轮扫描：“我们在”“玩”，

第1次：“我们”，扫描词库，有

扫描中止，输出“我们”；

开始第5轮扫描：“在”“玩”。

第1次：“在”，“玩”，扫描词库，有

输出：“在”和“玩”

最终切分结果为：“我们/在/野生动物园/玩”；其中，单字字典词为2，非词典词为0；可见，本发明所述方法的步骤明显少于上述的两种方法，提升了分词效率和准确度。

如图6，一种中文分词系统，包括：输入模块100、第一分词模块200、逐步分词模块300、处理模块400以及词库模块500；其中，输入模块100用于采集待分词语句以及分词时的最大词长；第一分词模块200与所述输入模块100数据交换，用于根据输入的最大词长对待分词语句进行分词，得到第一次分词结果；逐步分词模块300与所述第一次分词模块200数据交换，用于将所述最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果；处理模块400与所述第一分词模块200和所述逐步分词模块300进行数据交换，用于将第一次分词结果直至第N次分词结果分别与词库比较，得到输出列表；词库模块500与所述处理模块400数据交换，用于根据所述输出列表更新词库内容。

本发明提供一种中文分词电子装置，包括：存储介质和处理单元；其中，存储介质用于存储计算机程序，优选为，移动硬盘或硬盘或U盘等存储设备；处理单元，优选为CPU，与所述存储介质进行数据交换，用于在进行中文分词时，通过所述处理单元执行所述计算机程序，进行如上所述的中文分词方法的步骤。

上述CPU可以根据存储在存储介质中的程序执行各种适当的动作和处理。所述电子设备还包括以下外设，包括键盘、鼠标等的输入部分，也可以包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；特别地，根据本发明公开的实施例，如图1～5中任一描述的过程可以被实现为计算机软件程序。

本发明提供一种实施例，包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行如图1～5中任一所述流程图所示的方法的程序代码。该计算机程序可以从网络上被下载和安装。在该计算机程序被CPU执行时，执行本发明的系统中限定的上述功能。

本发明提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序；所述计算机程序在运行时，执行如上所述的中文分词方法的步骤。

在本发明中，计算机可读的存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种中文分词方法，其特征在于，包括：

将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果，N＝2，3……；

2.根据权利要求1所述的一种中文分词方法，其特征在于，所述“根据输入的最大词长，对待分词语句进行分词”，包括：

人为输入最大词长的长度，并进行标记，得到标记词长；

3.根据权利要求2所述的一种中文分词方法，其特征在于，所述“对所述待分词语句按照标记词长的长度进行分词，得到第一次分词结果”，包括：

4.根据权利要求2所述的一种中文分词方法，其特征在于，所述“将所述第一次分词结果与所述词库进行对比，得到所述待分词语句中的最长词”，包括：

将所述第一次分词结果与所述词库中的数据进行对比：

5.根据权利要求1所述的一种中文分词方法，其特征在于，所述“将最大词长的长度逐渐减少，并且在每一次最大词长发生变化时，都对所述待分词语句进行分词，得到第N次分词结果”，包括：

通过改变后的所述最大词长确定本次分词的长度；

6.根据权利要求5所述的一种中文分词方法，其特征在于，所述“在所述最大词长的长度逐渐减少时，判断所述最大词长改变后的长度”，包括：

将所述最大词长的长度依次减少，得到改变后的标记词长；

对所述改变后的标记词长进行长度判断：

若，所述改变后的标记词长等于零，则退出；

7.一种搜索词库读取方法，其特征在于，包括：

以权利要求1～6所述的中文分词方法作为分词原则，得到的输出结果；

将所述输出结果存储到数据库中；

利用搜索引擎实施实时调用所述数据库，完成词库搜索。

8.一种中文分词系统，其特征在于，包括：

输入模块，用于采集待分词语句以及分词时的最大词长；

9.一种中文分词电子装置，其特征在于，包括：

存储介质，用于存储计算机程序，

处理单元，与所述存储介质进行数据交换，用于在进行分词时，通过所述处理单元执行所述计算机程序，进行如权利要求1～6中任一权利要求所述的中文分词方法的步骤。

10.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质内存储有计算机程序；

所述计算机程序在运行时，执行如权利要求1～6中任一权利要求所述的中文分词方法的步骤。