CN114386407B

CN114386407B - 文本的分词方法及装置

Info

Publication number: CN114386407B
Application number: CN202111593262.XA
Authority: CN
Inventors: 李刚
Original assignee: Beijing Jindi Technology Co Ltd
Current assignee: Beijing Jindi Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-04-11
Anticipated expiration: 2041-12-23
Also published as: CN114386407A

Abstract

本申请实施例提供了一种文本的分词方法及装置，涉及自然语言处理技术领域。其中，所述方法包括：获取待分词的文本的粗粒度分词结果和细粒度分词结果；对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度；根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果；根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果。本方案能够有效确保文本的分词粒度适中，从而有效提高文本的分词的准确率。

Description

文本的分词方法及装置

技术领域

本申请实施例涉及自然语言处理技术领域，尤其涉及一种文本的分词方法、装置、电子设备及计算机存储介质。

背景技术

在互联网高速发展的信息时代，搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取，其中的难点就是中文自动分词。一种良好的中文分词方式，可以有效的帮助搜索引擎增加信息检索准确性与时效性。

目前，搜索引擎中使用的中文分词方式为通过分词器进行分词，但是分词器过分依赖于词典，如果词典覆盖不全，则会导致分词结果为单字或者较长，即导致分词粒度过大或者过小，进而影响检索命中率。

由此可见，如何有效确保文本的分词结果粒度适中，从而有效提高检索命中率成为当前亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种文本的分词方法及装置，用以解决现有技术中存在的如何有效确保文本的分词结果粒度适中，从而有效提高检索命中率的技术问题。

根据本发明实施例的第一方面，提供了一种文本的分词方法，所述方法包括：获取待分词的文本的粗粒度分词结果和细粒度分词结果；对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度；根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果；根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果。

根据本发明实施例的第二方面，提供了一种文本的分词装置，所述装置包括：获取模块，用于获取待分词的文本的粗粒度分词结果和细粒度分词结果；遍历模块，用于对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度；修正模块，用于根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果；确定模块，用于根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果。

根据本发明实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的文本的分词方法对应的操作。

根据本发明实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的文本的分词方法。

通过本发明实施例提供的文本的分词方案，根据待分词的文本的粗粒度分词结果中的粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，并根据修正后的所述粗粒度分词结果和所述文本的细粒度分词结果，确定所述文本的最终分词结果，能够有效确保文本的分词结果粒度适中，从而有效提高检索命中率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为本实施例一中文本的分词方法的步骤流程图；

图1B为根据本实施例一提供的文本分词过程的示意图；

图2为本实施例二中文本的分词装置的结构示意图；

图3为本实施例三中电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

参照图1A，示出了本实施例一中文本的分词方法的步骤流程图。

具体地，本实施例提供的文本的分词方法包括以下步骤：

在步骤S101中，获取待分词的文本的粗粒度分词结果和细粒度分词结果。

在本实施例中，所述待分词的文本可为搜索语句或者基于搜索语句搜索得到的搜索文档。所述粗粒度分词结果可理解为采用粗粒度对文本进行分词所获得的结果，例如，“自然语言处理”可以切分为“自然语言”和“处理”。所述细粒度分词结果可理解为采用细粒度对文本进行分词所获得的结果。例如，语句“自然语言处理”可以切分为“自然”、“语言”和“处理”。在具体实现时，可通过IK分词器，对所述文本分别进行粗粒度切分和细粒度切分，以获得所述文本的粗粒度分词结果和细粒度分词结果。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在步骤S102中，对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度。

在本实施例中，可以采用用于遍历分词的线程，对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度。其中，所述粗粒度分词的字符长度可理解为所述粗粒度分词的字符数量。例如，“自然语言处理”的中文字符数量为6个，那么“自然语言处理”的字符长度为6。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在对所述粗粒度分词结果中的粗粒度分词进行遍历之前，所述方法还包括：对所述粗粒度分词结果中的粗粒度分词的数量进行统计，以获得所述粗粒度分词结果中的粗粒度分词的数量；对所述细粒度分词结果中的细粒度分词的数量进行统计，以获得所述细粒度分词结果中的细粒度分词的数量；响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量，执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。籍此，在确定所述粗粒度分词结果中的粗粒度分词的数量不为预设分词数量和/或所述细粒度分词结果中的细粒度分词的数量不为所述预设分词数量的情况下，执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤，而不是在任何情况下均执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤，能够有效提高文本的分词效率。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，所述方法还包括：响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量，执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理，以获得所述文本的分词结果的步骤。籍此，在确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量的情况下，执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理，以获得所述文本的分词结果的步骤，能够有效提高文本的分词效率。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，所述预设分词数量可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述预设分词数量可为1或2等。在对所述粗粒度分词结果和所述细粒度分词结果进行合并处理时，对所述粗粒度分词结果中的粗粒度分词和所述细粒度分词结果中的细粒度分词进行去重，以获得所述文本的分词结果。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，所述确定所述粗粒度分词的字符长度之前，所述方法还包括：响应于确定所述粗粒度分词为预设的词类型，将所述粗粒度分词添加到修正后的所述粗粒度分词结果；响应于确定所述粗粒度分词不为所述词类型，执行所述确定所述粗粒度分词的字符长度的步骤。籍此，在确定所述粗粒度分词为预设的词类型的情况下，将所述粗粒度分词添加到修正后的所述粗粒度分词结果，能够有效确保修正后的所述粗粒度分词结果的准确度。此外，在确定所述粗粒度分词不为所述词类型的情况下，执行所述确定所述粗粒度分词的字符长度的步骤，能够有效提高文本的分词效率。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，所述预设的词类型可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述预设的词类型可为地址分词或者非中文分词。一般而言，地址分词或者非中文分词的字符长度较大，且具有特定含义，无需再对地址分词或者非中文分词进行细粒度切分，以免影响词语自身的含义。因此，在确定所述粗粒度分词为地址分词或者非中文分词的情况下，无需再对所述粗粒度分词进行细粒度切分，以免影响对所述粗粒度分词结果修正的准确度。此外，在确定所述粗粒度分词是否为地址分词时，可以对预先配置的地址词表中的地址词汇进行遍历；响应于确定所述地址词表中存在所述粗粒度分词，确定所述粗粒度分词为地址分词；响应于确定所述地址词表中不存在所述粗粒度分词，确定所述粗粒度分词不为地址分词。在确定所述粗粒度分词是否为非中文分词时，可以通过非中文分词的正则表达式，确定所述粗粒度分词是否为非中文分词。具体地，响应于确定所述粗粒度分词与非中文分词的正则表达式匹配，确定所述粗粒度分词为非中文分词；响应于确定所述粗粒度分词与非中文分词的正则表达式不匹配，确定所述粗粒度分词不为非中文分词。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在步骤S103中，根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果。

在一些可选实施例中，在根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正时，响应于确定所述粗粒度分词的字符长度为第一预设字符长度，并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度，则将所述粗粒度分词添加到修正后的所述粗粒度分词结果；和/或，响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度，以及所述至少一个连续的粗粒度分词的数量不超过预设数量，粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果；和/或，响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度，并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。其中，所述第一预设字符长度可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述第一预设字符长度可为1或2或3等。籍此，本发明实施例能够有效避免分词为单字导致分词粒度过小的问题，有效确保文本的分词粒度适中，从而有效提高文本的分词的准确率。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1，并且与所当前粗粒度分词相邻的后一个粗粒度分词的字符长度大于1，则将当前粗粒度分词添加到修正后的粗粒度分词结果中。如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1，并且在当前粗粒度分词之后的相邻的粗粒度分词的字符长度为1，粘合连接当前粗粒度分词和在当前粗粒度分词之后的相邻的粗粒度分词，获得当前粗粒度分词的修正结果，并将当前粗粒度分词的修正结果添加到修正后的粗粒度分词结果中。如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1，并且在当前粗粒度分词之后的两个连续的粗粒度分词的字符长度均为1，粘合连接当前粗粒度分词和两个连续的粗粒度分词，获得当前粗粒度分词的修正结果，并将当前粗粒度分词的修正结果添加到修正后的粗粒度分词结果中。如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1，并且当前粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，粘合连接当前粗粒度分词和与当前粗粒度分词相邻的前一个粗粒度分词，获得当前粗粒度分词的修正结果，并将当前粗粒度分词的修正结果添加到修正后的粗粒度分词结果中。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正时，响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度，将所述粗粒度分词添加到修正后的所述粗粒度分词结果。其中，所述第二预设字符长度可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述第二预设字符长度可为2或3等。所述第三预设字符长度可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述第三预设字符长度可为3或4等。籍此，能够有效确保文本的分词粒度适中，从而有效提高文本的分词的准确率。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正时，响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度，以第五预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第一分词结果，并以第六预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第二分词结果，其中，所述第六预设字符长度大于所述第五预设字符长度；响应于确定所述第二分词结果中存在分词，并且所述分词存在于所述细粒度分词结果中，将所述分词添加到修正后的所述粗粒度分词结果；响应于确定所述第二分词结果中不存在分词，或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中，将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。籍此，能够有效避免分词过长导致分词粒度过大的问题，有效确保文本的分词粒度适中，从而有效提高文本的分词的准确率。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，所述第四预设字符长度可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述第四预设字符长度可为4。所述第五预设字符长度可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述第五预设字符长度可为2。所述第六预设字符长度可由本领域技术人员根据实际需要进行设定，本实施例对此不做任何限定。例如，所述第六预设字符长度可为3。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，设置第一最优词长optiLen和第二最优词长loptiLen。其中，optiLen可为2，loptiLen可为3。以optiLen设置的窗口，对粗粒度分词结果中的当前粗粒度分词进行遍历，以获得当前粗粒度分词的分词结果subToken。以loptiLen设置的窗口，对粗粒度分词结果中的当前粗粒度分词进行遍历，以获得当前粗粒度分词的分词结果lsubToken。如果lsubToken不为空，且存在细粒度分词结果中，则保留lsubToken，否则保留subToken。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，所述方法还包括：响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。籍此，在确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词的情况下，将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果中，能够有效提高文本的分词的准确率。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在步骤S104中，根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果。

在一些可选实施例中，在确定所述文本的最终分词结果时，对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重，以获得所述文本的最终分词结果。籍此，能够有效避免所述文本的最终分词结果的冗余，使得所述文本的最终分词结果更加简练。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，如图1B所示，本实施例提供的文本的分词过程如下：通过原始的IK分词器，以粗粒度和细粒度两种分词方式，分别对文本进行分词，获得文本的粗粒度分词结果ik_smart和细粒度分词结果ik_max_word。判断ik_smart和ik_max_word的分词数量是否均为1，如果均为1，则不进行处理，保留原结果，如果不都为1，则进行下一步。循环遍历ik_smart，如果当前粗粒度分词为地址词汇或者非中文词汇，则保留该当前粗粒度分词，转而对ik_smart中的下一个粗粒度分词进行词类型的判断，如果不满足条件，则进行下一步。计算当前粗粒度分词的长度，根据词汇长度进行不同的规则处理。如果当前粗粒度分词的长度为1，并且当前粗粒度分词为ik_smart中的最后一个粗粒度分词，则将当前粗粒度分词和当前粗粒度分词的相邻的前一个粗粒度分词粘合。如果当前粗粒度分词的相邻的后一个粗粒度分词的长度大于1，则保留当前粗粒度分词，继续对ik_smart中的下一个粗粒度分词进行处理。如果当前粗粒度分词的字符长度为1，并且在当前粗粒度分词之后的相邻的粗粒度分词的字符长度为1，粘合连接当前粗粒度分词和在当前粗粒度分词之后的相邻的粗粒度分词。如果当前粗粒度分词的长度为1，并且在当前粗粒度分词之后的两个连续的粗粒度分词的字符长度均为1，粘合连接当前粗粒度分词和两个连续的粗粒度分词。如果当前粗粒度分词的长度为2或者3，直接保留当前粗粒度分词，然后继续对ik_smart中的下一个粗粒度分词进行处理。如果当前粗粒度分词的长度为4，设置第一最优词长optiLen和第二最优词长loptiLen。其中，optiLen可为2，loptiLen可为3。以optiLen设置的窗口，对ik_smart中的当前粗粒度分词进行遍历，以获得当前粗粒度分词的分词结果subToken。以loptiLen设置的窗口，对ik_smart中的当前粗粒度分词进行遍历，以获得当前粗粒度分词的分词结果lsubToken。如果lsubToken不为空，且存在ik_max_word中，则保留lsubToken，否则保留subToken。如果确定当前粗粒度分词为ik_smart中的最后一个粗粒度分词，将当前粗粒度分词的修正结果和当前粗粒度分词添加到修正后的ik_smart中。最后，对ik_max_word和修正后的ik_smart进行去重，获得文本的最终分词结果。

通过本发明实施例提供的文本的分词方法，根据待分词的文本的粗粒度分词结果中的粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，并根据修正后的所述粗粒度分词结果和所述文本的细粒度分词结果，确定所述文本的最终分词结果，能够有效确保文本的分词粒度适中，从而有效提高文本的分词的准确率。

本实施例提供的文本的分词方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备等。

参照图2，示出了本实施例二中文本的分词装置的结构示意图。

本实施例提供的文本的分词装置包括：获取模块201，用于获取待分词的文本的粗粒度分词结果和细粒度分词结果；遍历模块202，用于对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度；修正模块203，用于根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果；确定模块204，用于根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果。

可选地，所述遍历模块202之前，所述装置还包括：第一统计模块，用于对所述粗粒度分词结果中的粗粒度分词的数量进行统计，以获得所述粗粒度分词结果中的粗粒度分词的数量；第二统计模块，用于对所述细粒度分词结果中的细粒度分词的数量进行统计，以获得所述细粒度分词结果中的细粒度分词的数量；第一执行模块，用于响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量，执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。

可选地，所述装置还包括：第二执行模块，用于响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量，执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理，以获得所述文本的分词结果的步骤。

可选地，所述遍历模块202之前，所述装置还包括：第一添加模块，用于响应于确定所述粗粒度分词为预设的词类型，将所述粗粒度分词添加到修正后的所述粗粒度分词结果；第三执行模块，用于响应于确定所述粗粒度分词不为所述词类型，执行所述确定所述粗粒度分词的字符长度的步骤。

可选地，所述修正模块203，具体用于：响应于确定所述粗粒度分词的字符长度为第一预设字符长度，并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度，则将所述粗粒度分词添加到修正后的所述粗粒度分词结果；和/或，响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度，以及所述至少一个连续的粗粒度分词的数量不超过预设数量，粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果；和/或，响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度，并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。

可选地，所述修正模块203，具体用于：响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度，将所述粗粒度分词添加到修正后的所述粗粒度分词结果。

可选地，所述修正模块203，具体用于：响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度，以第五预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第一分词结果，并以第六预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第二分词结果，其中，所述第六预设字符长度大于所述第五预设字符长度；响应于确定所述第二分词结果中存在分词，并且所述分词存在于所述细粒度分词结果中，将所述分词添加到修正后的所述粗粒度分词结果；响应于确定所述第二分词结果中不存在分词，或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中，将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。

可选地，所述装置还包括：第二添加模块，用于响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。

可选地，所述确定模块204，具体用于：对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重，以获得所述文本的最终分词结果。

本实施例提供的文本的分词装置用于实现前述多个方法实施例中相应的文本的分词方法，并具有相应的方法实施例的有益效果，在此不再赘述。

参照图3，示出了根据本发明实施例三的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图3所示，该电子设备可以包括：处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中：

处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。

通信接口304，用于与其它电子设备或服务器进行通信。

处理器302，用于执行程序310，具体可以执行上述文本的分词方法实施例中的相关步骤。

具体地，程序310可以包括程序代码，该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器306，用于存放程序310。存储器306可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行以下操作：获取待分词的文本的粗粒度分词结果和细粒度分词结果；对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度；根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果；根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果。

在一种可选的实施方式中，程序310还用于使得处理器302在对所述粗粒度分词结果中的粗粒度分词进行遍历之前，对所述粗粒度分词结果中的粗粒度分词的数量进行统计，以获得所述粗粒度分词结果中的粗粒度分词的数量；对所述细粒度分词结果中的细粒度分词的数量进行统计，以获得所述细粒度分词结果中的细粒度分词的数量；响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量，执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。

在一种可选的实施方式中，程序310还用于使得处理器302响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量，执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理，以获得所述文本的分词结果的步骤。

在一种可选的实施方式中，程序310还用于使得处理器302在确定所述粗粒度分词的字符长度之前，响应于确定所述粗粒度分词为预设的词类型，将所述粗粒度分词添加到修正后的所述粗粒度分词结果；响应于确定所述粗粒度分词不为所述词类型，执行所述确定所述粗粒度分词的字符长度的步骤。

在一种可选的实施方式中，程序310还用于使得处理器302在根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正时，响应于确定所述粗粒度分词的字符长度为第一预设字符长度，并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度，则将所述粗粒度分词添加到修正后的所述粗粒度分词结果；和/或，响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度，以及所述至少一个连续的粗粒度分词的数量不超过预设数量，粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果；和/或，响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度，并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。

在一种可选的实施方式中，程序310还用于使得处理器302在根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正时，响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度，将所述粗粒度分词添加到修正后的所述粗粒度分词结果。

在一种可选的实施方式中，程序310还用于使得处理器302在根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正时，响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度，以第五预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第一分词结果，并以第六预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第二分词结果，其中，所述第六预设字符长度大于所述第五预设字符长度；响应于确定所述第二分词结果中存在分词，并且所述分词存在于所述细粒度分词结果中，将所述分词添加到修正后的所述粗粒度分词结果；响应于确定所述第二分词结果中不存在分词，或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中，将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。

在一种可选的实施方式中，程序310还用于使得处理器302响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。

在一种可选的实施方式中，程序310还用于使得处理器302在根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果时，对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重，以获得所述文本的最终分词结果。

程序310中各步骤的具体实现可以参见上述文本的分词方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，根据待分词的文本的粗粒度分词结果中的粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，并根据修正后的所述粗粒度分词结果和所述文本的细粒度分词结果，确定所述文本的最终分词结果，能够有效确保文本的分词粒度适中，从而有效提高文本的分词的准确率。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的文本的分词方法。此外，当通用计算机访问用于实现在此示出的文本的分词方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的文本的分词方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种文本的分词方法，其特征在于，所述方法包括：

获取待分词的文本的粗粒度分词结果和细粒度分词结果；

对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度；

根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果；

根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果；

其中，所述根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果，包括：

响应于确定所述粗粒度分词的字符长度为第一预设字符长度，并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度，则将所述粗粒度分词添加到修正后的所述粗粒度分词结果；

和/或，

响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度，以及所述至少一个连续的粗粒度分词的数量不超过预设数量，粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果；

和/或，

响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度，并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词，获得所述粗粒度分词的修正结果，并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。

2.根据权利要求1所述的文本的分词方法，其特征在于，所述对所述粗粒度分词结果中的粗粒度分词进行遍历之前，所述方法还包括：

对所述粗粒度分词结果中的粗粒度分词的数量进行统计，以获得所述粗粒度分词结果中的粗粒度分词的数量；

对所述细粒度分词结果中的细粒度分词的数量进行统计，以获得所述细粒度分词结果中的细粒度分词的数量；

响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量，执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。

3.根据权利要求2所述的文本的分词方法，其特征在于，所述方法还包括：

响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量，执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理，以获得所述文本的分词结果的步骤。

4.根据权利要求1所述的文本的分词方法，其特征在于，所述确定所述粗粒度分词的字符长度之前，所述方法还包括：

响应于确定所述粗粒度分词为预设的词类型，将所述粗粒度分词添加到修正后的所述粗粒度分词结果；

响应于确定所述粗粒度分词不为所述词类型，执行所述确定所述粗粒度分词的字符长度的步骤。

5.根据权利要求1所述的文本的分词方法，其特征在于，所述根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果，包括：

响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度，将所述粗粒度分词添加到修正后的所述粗粒度分词结果。

6.根据权利要求1所述的文本的分词方法，其特征在于，所述根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果，包括：

响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度，以第五预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第一分词结果，并以第六预设字符长度设置的窗口，对所述粗粒度分词进行遍历，以获得所述粗粒度分词的第二分词结果，其中，所述第六预设字符长度大于所述第五预设字符长度；

响应于确定所述第二分词结果中存在分词，并且所述分词存在于所述细粒度分词结果中，将所述分词添加到修正后的所述粗粒度分词结果；

响应于确定所述第二分词结果中不存在分词，或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中，将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。

7.根据权利要求6所述的文本的分词方法，其特征在于，所述方法还包括：

响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词，将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。

8.根据权利要求1所述的文本的分词方法，其特征在于，所述根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果，包括：

对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重，以获得所述文本的最终分词结果。

9.一种文本的分词装置，其特征在于，所述装置包括：

获取模块，用于获取待分词的文本的粗粒度分词结果和细粒度分词结果；

遍历模块，用于对所述粗粒度分词结果中的粗粒度分词进行遍历，以确定所述粗粒度分词的字符长度；

修正模块，用于根据所述粗粒度分词的字符长度，对所述粗粒度分词结果进行修正，以获得修正后的所述粗粒度分词结果；

确定模块，用于根据所述细粒度分词结果和修正后的所述粗粒度分词结果，确定所述文本的最终分词结果；

和/或，

10.一种电子设备，其特征在于，所述设备包括：

处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8中任意一项权利要求所述的文本的分词方法对应的操作。

11.一种计算机存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-8中任意一项权利要求所述的文本的分词方法。