CN113486660A

CN113486660A - 适用于多用户自定义字典的中文分词词频方法及装置

Info

Publication number: CN113486660A
Application number: CN202110736452.6A
Authority: CN
Inventors: 王平; 潘成; 赵鹏
Original assignee: Shanghai Zhongyan Network Technology Co ltd
Current assignee: Shanghai Zhongyan Network Technology Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-08

Abstract

本发明公开了一种适用于多用户自定义字典的中文分词词频方法及装置，其中方法包括：初始化hanlp分词服务；采用Aho‑Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果；根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果；合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，得到最终中文分词词频结果。本发明通过Aho‑Corasick算法快速定位用户自定义字典在文本中的位置，并将原始文本替换为空格字符的方法，对于多用户自定义字典的分词服务，只需要一次初始化操作，即可实现高并发地支持多个用户的自定义字典的高性能分词词频服务。

Description

适用于多用户自定义字典的中文分词词频方法及装置

技术领域

本发明涉及中文分词技术领域，具体涉及一种适用于多用户自定义字典的中文分词词频方法及装置。

背景技术

目前，对于开源的中文分词器(如hanlp分词器、jieba分词器)提供的用户自定义字典的在线分词词频服务，其支持单用户自定义字典添加词条，但在启动的初始化阶段需要加载用户自定义字典，如果需要支持多个用户自定义字典的在线分词词频功能，就需要将每个用户自定义字典重新进行中文分词器的初始化操作，该过程耗费时间较长。

针对中文分词器提供多用户自定义字典的在线分词词频服务时，多次初始化操作耗费时间长的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种适用于多用户自定义字典的中文分词词频方法及装置，以解决现有中文分词器提供多用户自定义字典的在线分词词频服务时需要多次初始化操作、耗费时间长的问题。

为了实现上述目的，本发明的第一方面提供了一种适用于多用户自定义字典的中文分词词频方法，包括：

初始化hanlp分词服务；

采用Aho-Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果；

根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果；

合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，得到最终中文分词词频结果。

可选地，所述采用Aho-Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果，包括：

将第一文本和多用户自定义字典作为Aho-Corasick算法的输入，输出各用户自定义字典对应的trie树结果；

根据各用户自定义字典对应的trie树结果生成各用户自定义字典词频结果。

进一步地，所述将第一文本和多用户自定义字典作为Aho-Corasick算法的输入，输出各用户自定义字典对应的trie树结果，包括：

将第一文本、用户自定义停用词和用户自定义字典作为Aho-Corasick算法的输入，输出停用词trie树结果和字典trie树结果；

根据字典trie树结果，生成用户自定义字典词频结果。

可选地，所述根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果，包括：

根据第一文本和各用户自定义字典对应的trie树结果生成第二文本；

将所述第二文本通过hanlp分词服务，生成第二文本分词词频结果。

进一步地，所述根据第一文本和各用户自定义字典对应的trie树结果生成第二文本，包括：

合并停用词trie树结果和字典trie树结果，得到有序trie树结果；

根据所述第一文本和有序trie树结果，将所述第一文本中的用户自定义停用词和用户自定义字典替换为空格字符，得到第二文本。

可选地，所述合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，包括：

合并用户自定义字典词频结果和所述第二文本分词词频结果。

本发明的第二方面提供了一种适用于多用户自定义字典的中文分词词频装置，包括：

初始化单元，用于初始化hanlp分词服务；

第一生成单元，用于采用Aho-Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果；

第二生成单元，用于根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果；

合并单元，用于合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，得到最终中文分词词频结果。

可选地，所述第一生成单元，包括：

输出模块，用于将第一文本和多用户自定义字典作为Aho-Corasick算法的输入，输出各用户自定义字典对应的trie树结果；

生成模块，用于根据各用户自定义字典对应的trie树结果生成各用户自定义字典词频结果。

本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行第一方面任意一项提供的适用于多用户自定义字典的中文分词词频方法。

本发明的第四方面提供了一种电子设备，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行第一方面任意一项提供的适用于多用户自定义字典的中文分词词频方法。

在本发明实施例中，通过Aho-Corasick算法快速定位用户自定义字典在文本中的位置，并将原始文本替换为空格字符的方法，对于多用户自定义字典的分词服务，只需要一次初始化操作，即可实现高并发地支持多个用户的自定义字典的高性能分词词频服务，解决了现有中文分词器提供多用户自定义字典的在线分词词频服务时需要多次初始化操作、耗费时间长的问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的方法流程示意图；

图2为本发明实施例提供的装置框图；

图3为本发明实施例提供的电子设备框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本发明中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

目前，对于开源的中文分词器提供的用户自定义字典的在线分词词频服务，其支持单用户自定义字典添加词条，但在启动的初始化阶段需要加载用户自定义字典，如果需要支持多个用户自定义字典的在线分词词频功能，就需要将每个用户自定义字典重新进行中文分词器的初始化操作，该过程耗费时间较长。

为了解决现有中文分词器提供多用户自定义字典的在线分词词频服务时，多次初始化操作耗费时间长的问题，本发明实施例提供了一种适用于多用户自定义字典的中文分词词频方法，如图1所示，该方法包括如下的步骤S101至步骤S104：

步骤S101：初始化hanlp分词服务；在本发明中，针对多个用户的多个不同自定义字典，只需要进行一次hanlp分词服务初始化操作；

步骤S102：采用Aho-Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果；其中，第一文本为待分词文本，多用户自定义字典包括各个用户的自定义字典，

具体的，所述步骤S102，包括：

将第一文本和多用户自定义字典作为Aho-Corasick算法的输入，输出各用户自定义字典对应的trie树结果；通过Aho-Corasick算法生成对应的字典trie树；

其中，所述将第一文本和多用户自定义字典作为Aho-Corasick算法的输入，输出各用户自定义字典对应的trie树结果，包括：

将第一文本、用户自定义停用词和用户自定义字典作为Aho-Corasick算法的输入，输出停用词trie树结果和字典trie树结果；其中，用户自定义停用词包含用户自定义的停用词，停用词为不需要显示分词或统计词频的词汇，第一文本中的停用词不需要在最终中文分词词频结果中显示；

根据字典trie树结果，生成用户自定义字典词频结果。

步骤S103：根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果；

具体的，所述步骤S103，包括：

其中，所述根据第一文本和各用户自定义字典对应的trie树结果生成第二文本，包括：

通过有序trie树，快速定位各用户的自定义字典和自定义停用词在第一文本中的位置，并将第一文本中自定义字典和停用词包含的词替换为空格字符，高效地实现一个分词服务只需要一次初始化操作，且高并发支持多个用户的自定义字典的在线分词词频服务，解决了现有中文分词器提供多用户自定义字典的在线分词词频服务时需要多次初始化操作、耗费时间长的问题。

步骤S104：合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，得到最终中文分词词频结果。

其中，所述合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，包括：

本发明在中文分词服务处理过程中，根据第一文本和各用户自定义字典的输入，通过Aho-Corasick算法，生成字典对应的trie树；

通过有序trie树，快速定位各用户的自定义字典和自定义停用词在第一文本中的位置，并将第一文本中自定义字典和停用词包含的词替换为空格字符，高效地实现一个分词服务只需要一次初始化操作，且高并发支持多个用户的自定义字典的在线分词词频服务。

本发明再一实施例提供了一种适用于多用户自定义字典的中文分词词频方法，包括第一文本、自定义停用词列表和自定义字典列表，例如下述表1所示：

表1

根据上述表1，在第一文本中分别匹配自定义停用词列表、自定义字典列表，得出各停用词、字典在第一文本中的位置，按照位置的顺序生成结合停用词、字典后的有序trie树结果；

将第一文本中停用词、字典所在的位置替换为空格字符，得到第二文本，将第二文本输入hanlp分词算法，得到29个分词词频，将29个分词与自定义字典trie树结果合并，得到最终分词词频。

具体包括：

生成的停用词trie树结果：停用词“在”在文本中被匹配到1次，开始位置和结束位置分别是[10,11)；停用词“不仅”在文本中被匹配到1次，开始位置和结束位置分别是[53,55)；

字典trie树结果：字典“问卷网”在文本中被匹配到2次，这2次的开始位置和结束位置分别是[6,9)和[50,53)；字典“营销服务”在文本中被匹配到1次，开始位置和结束位置[45,49)；

结合停用词trie树结果和字典trie树结果，按照各停用词、字典在第一文本中的位置顺序生成有序trie树结果：“问卷网”[6,9)；“在”[10,11)；“营销服务”[45,49)；“问卷网”[50,53)；“不仅”[53,55)；

根据生成的有序trie树，将第一文本中包含的字典和停用词替换为空格字符，得到如下所示的第二文本：

“众言科技旗下以线调研技术为基础，积累用户数据和流量，为客户提供多样化的调研，技术及。可以进行各种满意度的问卷调查，还有报名登记表、投票评选、考试测评等丰富功能”；

根据上述第二文本，通过使用hanlp分词算法，得到29个分词词频：“众言科技”[0,4)；“旗下”[4,6)；“调研”[10,12)；“技术”[12,14)；“基础”[15,17)；“积累”[18,20)；“用户”[20,22)；“数据”[22,24)；“流量”[25,27)；“客户”[29,31)；“提供”[31,33)；“多样化”[33,36)；“调研”[37,39)；“技术”[40,42)；“”[45,47)；“可以”[47,49)；“进行”[49,51)；“各种”[51,53)；“满意度”[53,56)；“问卷调查”[57,61)；“还有”[62,64)；“报名”[64,66)；“登记表”[66,69)；“投票”[70,72)；“评选”[72,74)；“考试”[75,77)；“评等”[78,80)；“丰富”[80,82)；“功能”[82,84)；

合并上述29个分词词频和字典trie树结果得到最终分词词频结果。根据上述字典trie树结果可知，字典trie树结果包括3个分词词频：“问卷网”[6,9)；“营销服务”[45,49)；“问卷网”[50,53)；

合并得到32个分词词频，在最终分词词频结果中，包括所有分词和各分词对应的词频，例如：分词“问卷网”，对应词频为2；分词“调研”，对应词频为2；分词“基础”，对应词频为1；分词“营销服务”，对应词频为1。

从以上的描述中，可以看出，本发明实现了如下技术效果：

本发明通过Aho-Corasick算法快速定位用户自定义字典在文本中的位置，并将原始文本中的用户自定义字典替换为空格字符，对于多用户自定义字典的分词服务，只需要一次初始化操作，即可实现高并发地支持多个用户的自定义字典的高性能分词词频服务，解决了现有中文分词器提供多用户自定义字典的在线分词词频服务时需要多次初始化操作、耗费时间长的问题。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例还提供了一种用于实施上述适用于多用户自定义字典的中文分词词频方法的适用于多用户自定义字典的中文分词词频装置，如图2所示，该装置包括：

初始化单元21，用于初始化hanlp分词服务；

第一生成单元22，用于采用Aho-Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果；

第二生成单元23，用于根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果；

合并单元24，用于合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，得到最终中文分词词频结果。

具体的，所述第一生成单元22，包括：

本发明实施例还提供了一种电子设备，如图3所示，该电子设备包括一个或多个处理器31以及存储器32，图3中以一个处理器31为例。

该控制器还可以包括：输入装置33和输出装置34。

处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器31可以为中央处理器(Central Processing Unit，简称为CPU)，处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，简称为DSP)、专用集成电路(Application Specific Integrated Circuit，简称为ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称为FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合，通用处理器可以是微处理器或者任何常规的处理器。

存储器32作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的控制方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的适用于多用户自定义字典的中文分词词频方法。

存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置33可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。

一个或者多个模块存储在存储器32中，当被一个或者多个处理器31执行时，执行如图1所示的方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各电机控制方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，简称为ROM)、随机存储记忆体(Random AccessMemory，简称为RAM)、快闪存储器(Flash Memory，简称为FM)、硬盘(Hard Disk Drive，简称为HDD)或固态硬盘(Solid-State Drive，简称为SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种适用于多用户自定义字典的中文分词词频方法，其特征在于，包括：

初始化hanlp分词服务；

2.根据权利要求1所述的方法，其特征在于，所述采用Aho-Corasick算法，根据第一文本和多用户自定义字典生成各用户自定义字典词频结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述将第一文本和多用户自定义字典作为Aho-Corasick算法的输入，输出各用户自定义字典对应的trie树结果，包括：

根据字典trie树结果，生成用户自定义字典词频结果。

4.根据权利要求1所述的方法，其特征在于，所述根据第一文本和多用户自定义字典，通过hanlp分词服务生成第二文本分词词频结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据第一文本和各用户自定义字典对应的trie树结果生成第二文本，包括：

6.根据权利要求1所述的方法，其特征在于，所述合并所述各用户自定义字典词频结果和所述第二文本分词词频结果，包括：

7.一种适用于多用户自定义字典的中文分词词频装置，其特征在于，包括：

初始化单元，用于初始化hanlp分词服务；

8.根据权利要求7所述的装置，其特征在于，所述第一生成单元，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-6任意一项所述的适用于多用户自定义字典的中文分词词频方法。

10.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-6任意一项所述的适用于多用户自定义字典的中文分词词频方法。