CN112711944A

CN112711944A - 一种分词方法、系统、分词器生成方法及系统

Info

Publication number: CN112711944A
Application number: CN202110041089.6A
Authority: CN
Inventors: 沙剑剑
Original assignee: Shenzhen Foresight Information Co ltd
Current assignee: Shenzhen Foresight Information Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-27
Anticipated expiration: 2041-01-13
Also published as: CN112711944B

Abstract

本申请涉及一种分词方法、系统、分词器生成方法及系统，属于数据处理技术的领域，分词方法其包括获取待测目标文本；得到一个及一个以上的词项及每个词项的词频，并得到包含所有所述词项的初分词方案；得到单字词项和/或超低频词项，或将初分词方案中的词项一起作为最终分词结果；对超低频词项和单字词项进行处理得到特定词和再分词方案；得到初分词方案和每个再分词方案的词频值；得到最优分词方案，将最优分词方案中的结果词和初分词方案中未合并的词项一起作为最终分词结果。与相关技术相比，本申请具有改善专用领域文本搜索准确性较低的问题的效果。

Description

一种分词方法、系统、分词器生成方法及系统

技术领域

本申请涉及数据处理技术的领域，尤其是涉及一种分词方法、系统、分词器生成方法及系统。

背景技术

搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。

分词技术，又称分词方法，是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。常见的分词方法有三种，分别是字符串匹配的分词方法、词义分词法和统计分词法，其中，字符串匹配的分词方法又包括正向最大匹配法、反向最大匹配法和最短路径分词法。

针对上述中的相关技术，发明人认为搜索引擎自带分词器，但是自带的分词器效果一般，并且是针对通用领域的文本，当进行专用领域文本的搜索时，得到的搜索结果准确性往往比较低。

发明内容

为了改善专用领域文本搜索准确性较低的问题，本申请提供一种分词方法、系统、分词器生成方法及系统。

第一方面，本申请提供一种分词方法，采用如下的技术方案：

获取待测目标文本；

基于常用分词方法，对待测目标文本进行分词，得到一个及一个以上的词项及每个词项的词频，并得到包含所有所述词项的初分词方案；

根据词项和每个词项的词频，并基于超低频阈值，判断是否有单字词项和/或超低频词项，若有，则得到单字词项和/或超低频词项，否则，将初分词方案中的词项一起作为最终分词结果；

对超低频词项和单字词项进行处理得到特定词和再分词方案，所述特定词用于关键词搜索；

根据初分词方案和每个再分词方案得到相应的中间分词结果，并基于中间分词结果中各结果词的词频，得到初分词方案和每个再分词方案的词频值；以及，

根据初分词方案和每个再分词方案的词频值，得到最优分词方案，将最优分词方案中的结果词和初分词方案中未合并的词项一起作为最终分词结果。

通过采用上述技术方案，对待测目标文本用常用分词方法进行分词后，再根据词项和词频，判断是否有单字词项和/或超低频词项，若没有，则得所有词项一起作为最终分词结果，否则，对得到的单字词项和低频词项进行处理，得到多个再分词方案，再将得到的再分词方案与初分词方案的词频值进行比较，得到最优分词方案，并得到最终分词结果，通过多次分词，使得到的最终分词结果尽可能的对，且多次分词后得到短词项，以使尽可能地得到高频词，并在后续搜索中可以结合特定词，来进行关键词搜索，有助于极大地提高分词准确性，进而有助于改善专用领域文本搜索准确性较低的问题。

可选的，所述得到特定词和再分词方案的具体方法包括，

合并连续的单字词项和/或连续的超低频词项，得到合并词项及合并词项的长度L，其中，L是一个自然数；以及，

根据合并词项的长度L，对多个合并词项进行划分，得到特定词和多个再分词方案。

通过采用上述技术方案，得到单字词项和超低频词项后，将连续的单字词项和/或连续的超低频词项合并后，得到合并词项，再根据合并词项的长度L来进行划分，合并词项的组成词项是连续且有关联，再对有关联且连续的词项进行划分，得到特定词和多个再分词方案，使得得到的特定词和再分词方案能更贴合对的分词，从而有助于提高分词的准确性，进而有助于提高搜索的准确率。

可选的，所述得到特定词和多个再分词方案的具体方法包括，

根据合并词项的长度L，若1<L<5，则作为特定词；

若L>4，则对合并词项重新分词，得到再分词方案2，所述再分词方案2中包含合并词项重新分词后的结果词；

若L＝1，则与合并词项前一个词项p合并得到第一合并子词项，与合并词项后一个词项q合并得到第二合并子词项；以及，

对第一合并子词项重新分词，得到包含分词结果词的再分词方案3，对第二合并子词项重新分词，得到包含分词结果词的再分词方案4。

通过采用上述技术方案，将偏长的合并词项进行再分词，将偏短的合并词项与前后词项合并后再分词，将长度适中的合并词项作为特定词，使得得到的分词结果更加适应目标领域的文本，从而有助于提高分词的准确性，进而有助于提高搜索的准确率。

可选的，所述得到初分词方案和每个再分词方案的词频值的具体方法包括，

根据初分词方案和每个再分词方案，得到初分词方案和再分词方案中各个结果词的词频；以及，

将初分词方案和每个再分词方案中各个结果词的词频相乘，得到初分词方案和每个再分词方案的词频值。

通过采用上述技术方案，初分词方案和每个再分词方案的词频值由自身包含的所有结果词的词频相乘得到，将每个词项的词频都考虑进去，使得到的词频值更贴近实际目标文本的关键词的词频值，从而有助于提高分词的准确性，进而有助于提高搜索的准确率。

可选的，所述得到最优分词方案的具体方法包括，

将各个再分词方案的词频值与初分词方案的词频值分别做比较，词频值最大的为最优分词方案。

通过采用上述技术方案，词频值高的分词方案，说明分词方案中的结果词的分词准确性高，从而能够使得到的最优分词方案的分词准确性越高。

可选的，所述待测目标文本包括目标领域文本以及与目标领域文本有关联的文本。

通过采用上述技术方案，待测目标文本不仅仅包括目标领域文本，还包括与目标领域文本有关联的文本，能够增大分析语料，提高待测目标文本的覆盖率，从而有助于提高分词的准确性。

第二方面，本申请提供一种分词系统，采用如下的技术方案：

一种分词系统，所述分词系统包括，

文本获取模块，用于获取待测目标文本；

初分词模块，用于基于常用分词方法，对待测目标文本进行分词，得到一个及一个以上的词项及每个词项的词频，并得到包含所有所述词项的初分词方案；

判断模块，用于根据词项和每个词项的词频，并基于超低频阈值，判断是否有单字词项和/或超低频词项，若有，则得到单字词项和/或超低频词项，否则，将初分词方案中的词项一起作为最终分词结果；

再分词模块，用于对超低频词项和单字词项进行处理得到特定词和再分词方案，所述特定词用于关键词搜索；

词频值获取模块，用于根据初分词方案和每个再分词方案得到相应的中间分词结果，并基于中间分词结果中各结果词的词频，得到初分词方案和每个再分词方案的词频值；以及，

最终分词结果获取模块，用于根据初分词方案和每个再分词方案的词频值，得到最优分词方案，将最优分词方案中的结果词和初分词方案中未合并的词项一起作为最终分词结果。

通过采用上述技术方案，初分词模块对待测目标文本用常用分词方法进行分词后，判断模块根据词项和词频，判断是否有单字词项和/或超低频词项，若没有，则得所有词项一起作为最终分词结果，否则，得到单字词项和/或低频词项，再分词模块对得到的单字词项和低频词项进行处理，得到多个再分词方案，词频值获取模块得到的再分词方案与初分词方案的词频值，分词结果获取模块将再分词方案与初分词方案的词频值进行比较，得到最优分词方案，并得到分词结果，通过多次分词，使得到的最终分词结果尽可能的对，且多次分词后得到短词项，以尽可能的得到高频词，并在后续搜索中可以结合特定词，来进行关键词搜索，极大地提高分词准确性，从而能够改善专用领域文本搜索准确性较低的问题。

第三方面，本申请提供一种分词器生成方法，采用如下的技术方案：

一种分词器生成方法，将第一方面中任一种方法得到的所述最终分词结果作为有监督训练的训练集，基于深度学习方法，生成分词器。

第四方面，本申请提供一种分词器生成系统，采用如下的技术方案：

一种分词器生成系统，所述生成系统包括，

文本获取模块，用于获取待测目标文本；

词频值获取模块，用于根据初分词方案和每个再分词方案得到相应的中间分词结果，并基于中间分词结果中各结果词的词频，得到初分词方案和每个再分词方案的词频值；

最终分词结果获取模块，用于根据初分词方案和每个再分词方案的词频值，得到最优分词方案，将最优分词方案中的结果词和初分词方案中未合并的词项一起作为最终分词结果；以及，

分词器生成模块，用于将所述最终分词结果作为有监督训练的训练集，基于深度学习方法，生成分词器。

第五方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行如第一放方面中任一种方法的计算机程序。

附图说明

图1是本申请实施例的一种分词方法的第一流程框图。

图2是本申请实施例的一种分词方法的流程图。

图3是本申请实施例的一种分词方法的第二流程框图。

图4是本申请实施例的一种分词方法的第三流程框图。

图5是本申请实施例的一种分词方法的第四流程框图。

图6是本申请实施例的一种分词生成方法的第一应用框图。

图7是本申请实施例的一种分词方法的第二应用框图。

具体实施方式

以下结合附图1-7对本申请作进一步详细说明。

本申请实施例公开一种分词方法。参照图1和图2，分词方法包括如下步骤：

101、获取待测目标文本。

其中，待测目标文本包括目标领域文本以及与目标领域文本有关联的文本。目标领域文本一般保存在预先创建的数据库中，使用时，直接调用即可，而与目标领域文本有关联的文本可以使用爬虫技术从网上抓取。

目标领域文本可以是公司名，经营范围等等，后续搜索中一般是对这些文本的搜索。

102、基于常用分词方法，对待测目标文本进行分词，得到一个及一个以上的词项及每个词项的词频，并得到包含所有词项的初分词方案。

一般地，词项以及词项的词频都存储于词频库中，因此分词后得到的词项的词频可以直接调用词频库得到，对于不存在于词频库中的词项，其词频可以默认为1。

常用的分词方法包括字符串匹配的分词方法、词义分词法和统计分词法，其中，字符串匹配的分词方法又包括正向最大匹配法、反向最大匹配法和最短路径分词法。常用分词方法是现今已成熟的技术手段，本实施例中，不作详细的阐述。

103、根据词项和每个词项的词频，并基于超低频阈值，判断是否有单字词项和/或超低频词项，若有，则得到单字词项和/或超低频词项，否则，将初分词方案中的词项一起作为最终分词结果。

其中，超低频阈值为预先设置，且是根据大量的实际应用经验而设置的值。单字词项可能是单个汉字、单个数字、单个符号、单个化学符号、单个化学式或者单个标点等数据。

若是词项是单字词项，则无需将词项的词频与超低频阈值进行比较。若是词项不是单字词项，则将词项的词频与超低频阈值进行大小比较，若词项的词频小于超低频阈值，则该词项是超低频词项。

104、对超低频词项和单字词项进行处理得到特定词和再分词方案，特定词用于关键词搜索。

其中，特定词一般存储于一个辅助字段中。特定词一般比较重要，包含的信息量(信息熵)大，后续搜索可以结合原文本字段以及这个辅助字段，进行关键词搜索，能够提高搜索准确率。

得到的特定词和再分词方案可能是一个及一个以上，也可能是零个。

105、根据初分词方案和每个再分词方案得到相应的中间分词结果，并基于中间分词结果中各个结果词的词频，得到初分词方案和每个再分词方案的词频值。

其中，初分词方案的结果词即为用常用分词方法分词后，得到的各个词项，再分词方案的结果词，为合并词项再分词后得到的各个词项。

106、根据初分词方案和每个再分词方案的词频值，得到最优分词方案，将最优分词方案中的结果词和初分词方案中未合并的词项一起作为最终分词结果。

其中，具体地，将各个再分词方案的词频值与初分词方案的词频值分别做比较，词频值最大的为最优分词方案。

需要说明的是，如若最优分词方案是初分词方案，则无需进行合并，此时，初分词方案中的各个词项即为最终分词结果。

上述分词方法的实施方式中，对待测目标文本用常用分词方法进行分词后，再根据词项和词频，判断是否有单字词项和/或超低频词项，若没有，则得所有词项一起作为最终分词结果，否则，对得到的单字词项和低频词项进行处理，得到多个再分词方案，再将得到的再分词方案与初分词方案的词频值进行比较，得到最优分词方案，并得到最终分词结果，通过多次分词，使得到的最终分词结果尽可能的对，且多次分词后得到短词项，以使尽可能地得到高频词，并在后续搜索中可以结合特定词，来进行关键词搜索，有助于极大地提高分词准确性，进而有助于改善专用领域文本搜索准确性较低的问题。

参照图2和图3，作为得到特定词和再分词方案的一种实施方式，得到特定词和再分词方案的方法主要包括如下步骤：

201、合并连续的单字词项和/或连续的超低频词项，得到合并词项及合并词项的长度L。

其中，L是一个自然数，单个数字、汉字、符号、标点、化学符号等的长度都为1，即合并词项的长度L与合并词项中词的个数有关。

202、根据合并词项的长度L，对多个合并词项进行划分，得到特定词和多个再分词方案。

上述分词修正法的实施方式中，合并词项的组成词项是连续且有关联，再对有关联且连续的词项进行划分。得到的合并词项是一个文本，文本的长度不同，其包含的信息量也不同，且合并词项中的词各自组合后的信息量也不同，因此根据合并词项的长度L的大小，对多个合并词项进行划分，能够使得到的特定词和再分词方案能更贴合对的分词，从而有助于提高分词的准确性，进而有助于提高搜索的准确率。

参照图2和图4，作为得到特定词和多个再分词方案的一种实施方式，得到特定词和多个再分词方案的具体方法如下：

301、根据合并词项的长度L，若1<L<5，则作为特定词。

302、若L>4，则对合并词项重新分词，得到再分词方案2。

其中，再分词方案2中包含合并词项重新分词后的各个结果词。

303、若L＝1，则与合并词项前一个词项p合并，得到第一合并子词项，与合并词项后一个词项q合并，得到第二合并子词项。

需要说明的是，L＝1时，即为单字词项，且单字词项前后没有连续的单字词项，因此合并词项前一个词项p，即为单字词项前一个词项p，合并词项后一个词项q，即为单字词项后一个词项q。若1<L<5、若L>4和若L＝1这三个判断步骤可以进行互换，也可以同时进行。

304、对第一合并子词项重新分词，得到再分词方案3，对第二合并子词项重新分词，得到再分词方案4。

需要说明的是，对于单个合并词项，如果有特定词，则没有再分词方案2、再分词方案3和再分词方案4，如果有再分词方案2，则没有特定词、再分词方案3和再分词方案4，且再分词方案3和再分词方案4并存，此时没有再分词方案2和特定词。

上述得到特定词和多个再分词方案的实施方式中，将偏长的合并词项进行再分词，将偏短的合并词项与前后词项合并后再分词，将长度适中的合并词项作为特定词，使得得到的分词结果更加适应目标领域的文本，从而有助于提高分词的准确性，进而有助于提高搜索的准确率。

参照图2和图5，作为得到初分词方案和每个再分词方案的词频值的一种实施方式，具体包括：

401、根据初分词方案和每个再分词方案，得到初分词方案和再分词方案中各个结果词的词频。

其中，词频可以调用词频库，若词频库中无该结果词，则词频默认为1。

402、将初分词方案和每个再分词方案中各个结果词的词频相乘，得到初分词方案和每个再分词方案的词频值。

上述实施方式中，初分词方案和每个再分词方案的词频值由自身包含的所有结果词的词频相乘得到，将每个词项的词频都考虑进去，使得到的词频值更贴近实际专用文本的关键词的词频值，从而有助于提高分词的准确性，进而有助于提高搜索的准确率。

本实施例中，以下述应用场景，结合上述分词方法来进行说明：

令合并词项的文本为S，长度为L，待测目标文本用常用分词方法，得到的初分词方案，将初分词方案作为方案1，此合并词项中的词项的词频为W₁，W₂，…，W_n，

a)L≥5，对文本S重新分词，得到再分词方案2，再分词方案2的结果词词频为X₁，X₂，…，X_m，此时再分词方案2的词频值为X₁*X₂*…*X_m。

b)L＝1，合并文本S前一个词项p与文本S，得到的再分词方案3的结果词词频为y₁，y₂，…，y_r，再分词方案3的词频值为y₁*y₂*…*y_r*W_p；合并文本S后一个词项q与文本S，得到的再分词方案4的结果词词频为z₁，z₂，…，z_k，再分词方案4的结果词词频为z₁*z₂*…*z_k*W_q。

其中，m、n、r和k均为自然数。

本申请实施例还公开一种分词系统。分词系统包括:

文本获取模块，用于获取待测目标文本；

初分词模块，用于基于常用分词方法，对待测目标文本进行分词，得到一个及一个以上的词项及每个词项的词频，并得到包含所有词项的初分词方案；

上述分词系统的实施方式中,初分词模块对待测目标文本用常用分词方法进行分词后，判断模块根据词项和词频，判断是否有单字词项和/或超低频词项，若没有，则得所有词项一起作为最终分词结果，否则，得到单字词项和/或低频词项，再分词模块对得到的单字词项和低频词项进行处理，得到多个再分词方案，词频值获取模块得到的再分词方案与初分词方案的词频值，分词结果获取模块将再分词方案与初分词方案的词频值进行比较，得到最优分词方案，并得到分词结果，通过多次分词，使得到的最终分词结果尽可能的对，且多次分词后得到短词项，以尽可能的得到高频词，并在后续搜索中可以结合特定词，来进行关键词搜索，极大地提高分词准确性，从而能够改善专用领域文本搜索准确性较低的问题。

参照图6，本申请实施例还公开一种分词器生成方法,分词器生成方法包括,将根据一种分词方法中任一种方法中得到的最终分词结果作为有监督训练的训练集,基于深度学习方法，生成分词器。

其中，有监督训练，又称为监督学习，是一个机器学习中的方法，可以由训练资料中学到或监理一个模式(函数/learning model)，并依此模式推测新的实例。在机器学习中，一般将样本分成独立的三部分，即训练集(train set)、验证集(validation set)和测试集(test set)，其中，训练集用于建立模型。

深度学习(DL，Deep Learning)是机器学习领域中一个新的研究方向，被引入机器学习使其更接近最初的目标-人工智能。深度学习是学习样本数据的内在规律和表示层次，它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。常见的深度学习方法一般包括隐马尔可夫、条件随机场或循环神经网络等方法。

条件随机场(conditional random field，简称CRF),是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料。

隐马尔可夫(Hidden Markov Model，HMM)，是统计模型，用来描述一个含有位置参数的马尔可夫过程。马尔可夫过程(Markov process)是一类随机过程，是研究离散事件动态系统状态空间的重要方法。

循环神经网络(Recurrent Neural Network,RNN)是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

本申请实施例还公开了一种分词器生成系统，分词器生成系统包括，文本获取模块，用于获取待测目标文本；

再分词模块，用于对超低频词项和单字词项进行处理得到特定词和再分词方案，特定词用于关键词搜索；

参照图7，训练得到的分词器作为搜索引擎的一个分词器，可通过以插件的形式对搜索引擎进行扩展。这种以插件形式提供的自定义分词器本就比搜索引擎自带的分词器具有更好的分词效果，且由于重新训练，分词器将对目标领域的文本更加适应。

参照图6和图7，在对文本进行索引时，使用两个字段，其中一个字段用于存储目标文本的原文，索引时和搜索时均使用上述重新训练生成的分词器，另一个字段则是上文中所述的辅助字段，用于存储特定词，目标文本中可以有一个或多个特定词(没有特定词时，这个字段存储为空，不影响搜索)，辅助字段由于存储的是特定词，所以不需要分词，使用完整的精确匹配即可。由于特定词信息量大，所以辅助字段匹配的权重较大。

与常见的搜索引擎相比，具有重新训练生成的分词器的搜索引擎，具有以下优点：更加适应专用领域文本的搜索；且通过协同多匹配策略并设置不同权值，使得搜索结果(排名)更加准确；使用自定义的端到端分词器，不用后续处理，提高搜索响应速度；对搜索关键词容噪较大，即，核心词汇与噪声文本并存的时候也能搜索到满意结果。

且上文中得到的分词方法、分词系统、分词器生成方法和分词器生成系统可以应用于各类文本的搜索之中，不局限于专用领域文本或是通用领域文本。

本申请实施例还公开一种计算机可读存储介质，存储有能够被处理器加载并执行如一种分词方法中任一种方法的计算机程序。

计算机可读存储介质例如包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种分词方法，其特征在于：所述分词方法包括，

获取待测目标文本；

对超低频词项和单字词项进行处理得到特定词和再分词方案，所述特定词用于进行关键词搜索；

2.根据权利要求1所述的一种分词方法，其特征在于：所述得到特定词和再分词方案的具体方法包括，

3.根据权利要求2所述的一种分词方法，其特征在于：所述得到特定词和多个再分词方案的具体方法包括，

根据合并词项的长度L，若1<L<5，则作为特定词；

若L > 4，则对合并词项重新分词，得到再分词方案2，所述再分词方案2中包含合并词项重新分词后的结果词；

若L=1，则与合并词项前一个词项p合并得到第一合并子词项，与合并词项后一个词项q合并得到第二合并子词项；以及，

4.根据权利要求1所述的一种分词方法，其特征在于：所述得到初分词方案和每个再分词方案的词频值的具体方法包括，

5.根据权利要求1所述的一种分词方法，其特征在于：所述得到最优分词方案的具体方法包括，

6.根据权利要求1所述的一种分词方法，其特征在于：所述待测目标文本包括目标领域文本以及与目标领域文本有关联的文本。

7.一种分词系统，其特征在于：所述分词系统包括，

文本获取模块，用于获取待测目标文本；

8.一种分词器生成方法，其特征在于：将根据权利要求1至6中任一种方法得到的所述最终分词结果作为有监督训练的训练集，基于深度学习方法，生成分词器。

9.一种分词器生成系统，其特征在于：所述生成系统包括，

文本获取模块，用于获取待测目标文本；

10.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1至6中任一种方法的计算机程序。