CN106156002A

CN106156002A - 分词词库的选择方法和系统

Info

Publication number: CN106156002A
Application number: CN201610512054.5A
Authority: CN
Inventors: 张喆琳; 冀利刚; 张立宁; 余婧
Original assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Current assignee: LeTV Holding Beijing Co Ltd; LeTV Cloud Computing Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-11-23

Abstract

本发明实施例提供一种分词词库选择方法，涉及信息技术领域。该方法包括：设置一评估处理装置；将多个分词词库导入评估处理装置，生成与所述多个分词词库对应的多个评估值；从所述多个评估值中选取最大的评估值，并将所述最大的评估值对应的分词词库作为待选择的分词词库。本发明实施例还提供了一种分词词库选择系统。解决了现有技术中存在的不能直接对分词词库进行准确选择的问题，较之现有技术更加准确、方便、省时，不需要长时间统计用户行为特征，也对针对性的搜索集群有了可供验证的方法。

Description

分词词库的选择方法和系统

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种分词词库的选择方法和系统。

背景技术

对搜索文本的分词能力是影响搜索引擎中文检索质量的重要因素，能否准确、有效的分词对提高搜索效果和用户满意度都至关重要。现在常用的分词方法是依据词库，并通过添加自定义词库修正提高分词效果，因此词库的词汇量在很大程度上会影响搜索效果。

进一步地，发明人发现，如果能够对搜索结果做到精准定位，将会优化用户的搜索体验效果。从当前的状况来看，用户输入的查询语句，搜索系统首先会借助分词器对其进行分词，然后再进行搜索。因此，准确分词是搜索的关键条件。通常，分词器是基于词库结合新词识别算法进行分词的。新词识别功能很多时候无法很好的避免歧义词的产生和准确发现例如影视剧名称等新词，所以词库的质量将是影响分词效果的主要因素。

但是，目前对于词库的质量无直接的、行之有效的评估方法。现有线上的定量评估方法均基于分词准确度和检索性能成正相关的假设。通过测试检索性能，统计计算用户的“首页点击率”和“翻页率”来评估分词准确度，进一步评定词库效果，从而选择效果较好的分词词库。但此方法需要上线后，统计用户行为特征，测试时间长，且如果效果不好，存在流失一定用户的风险。

另外广泛应用于信息检索的度量指标“准确率”和“召回率”，虽然是线下操作，但关键在于对“相关阈值”的设定，必须有标准文档才能计算。但对于有针对性的搜索集群(如视频网站)，没有可供比对的标准文档，所以也很难进行词库选择。

这两种方法都不能直接的对词库进行准确的判断以供选择。

发明内容

为了解决现有技术中的上述至少一个技术问题，本发明实施例提供一种分词词库的选择方法和系统。

一方面，本发明实施例提供一种分词词库选择方法，包括：

设置一评估处理装置；

将多个分词词库导入评估处理装置，生成与所述多个分词词库对应的多个评估值；

从所述多个评估值中选取最大的评估值，并将所述最大的评估值对应的分词词库作为待选择的分词词库。

另一方面，本发明实施例提供一种分词词库选择系统，包括：

评估处理装置；

词库导入模块，用于将多个分词词库导入评估处理装置，生成与所述多个分词词库对应的多个评估值；

选择模块，用于从所述多个评估值中选取最大的评估值，并将所述最大的评估值对应的分词词库作为待选择的分词词库。

本发明实施例提供的分词词库的选择方法和系统，根据分词词库划分后的各类别下的词频数的分布均匀程度值来作为判断词库的评估值，解决了现有技术中存在的不能直接对分词词库进行准确选择的问题，较之现有技术更加准确、方便、省时，不需要长时间统计用户行为特征，也对针对性的搜索集群有了可供验证的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种分词词库的选择方法的流程图；

图2为图1中子流程实施例示意图；

图3为图2中子流程实施例示意图；

图4为本发明实施例中的另一种可选方法的实施例流程图；

图5为本发明实施例中的又一种可选方法的实施例流程图；

图6为本发明的实施例的一种分词词库的选择系统实施结构示意图；

图7为图6中特定模块的具体实施例的示意图；

图8为本发明实施例中的另一种分词词库的选择系统实施结构示意图；

图9为本发明实施例中的又一种分词词库的选择系统实施结构示意图；

图10为本发明实施例提供的一种用户设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出的是本发明实施例的一种分词词库的选择方法的流程图，方法可以包括以下步骤：

S11：设置一评估处理装置；

S12：将多个分词词库导入评估处理装置，生成与所述多个分词词库对应的多个评估值；

S13：从所述多个评估值中选取最大的评估值，并将所述最大的评估值对应的分词词库作为待选择的分词词库；

在本实施方式中，首先设置一评估处理装置，再将多个分词词库导入评估处理装置，经过评估处理装置的评估，生成与多个分词词库对应的评估值，选取评估值最大的分词词库作为待选择的分词词库。

图2为图1中的子流程的实施例示意图，如图2所示，图1中步骤S11可以包括：

S110：利用分词词库对测试文本进行分词；

S111：统计所述分词词库分词后每个词汇的词频数；

S112：基于每个词汇的词频数以及整个分词词库中的词汇数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值，将所述分布均匀程度值作为评估值，其中，词频数相同的为同一个类别。

在本实施方式中，在所述导入多个的分词词库后，对测试文本进行分词操作，从而统计出所述分词词库后，每个词汇的词频数，通过词频数以及整个分词词库的词汇数量，再确定出所述分词词库划分后各类别下的词频数的分布均匀程度值，从而进行下一步操作。

图3为图2中的子流程的实施例示意图，如图3所示，图2中步骤S112可以包括：

S1120：基于每个词汇的词频数，划分词频数的类别，其中，词频数相同的为同一个类别；

S1121：确定每个类别下的词频数所对应的词汇的数量，并确定各数量占整个分词词库中的词汇数量的比重；

S1122：根据所确定的比重和划分后的类别的数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值。

在本实施方式中，确定所述分词词库划分后的各类别下的词频数分布均匀程度值之后，将所确定的比重和所述分词词库划分后的各类的数量导入信息熵生成器，

H (a) = - Σ_{i = 1}^{n} P_{i} \log_{n} P_{i}

例如，上述分词词库的词汇总数为m，通过分词词库对测试文本进行分词，基于每个词汇的词频数，划分词频的类别，其中，词频数相同的为同一个类别，得到了n种类别的词汇，生成词频数集a＝(a₁，a₂，…，a_i…，a_n)，其中第i类词频出现的概率就是P_i(i＝1,2,3,…，n)等于词频a_i所对应的词汇的数量占整个分词词库中的词汇数量m的比重。

设词频a_i使用率的不确定性为H(a_i)＝-log_nP_i，

由n类词频组成概率系统产生的熵为

根据上述公式，从而获得与所述分词词库对应的熵值。

对于上述公式的具体应用场景，举例说明如下：

假设所述分词词库包含为：东皇太一，丞相，中国，之下，之子，卫庄，墨家，大将，天下，天下第一，天下第一剑，天明，最后，机关，李斯，楚国，殊不知，秦国，秦始皇，秦时明月，共计20个词(m＝20)。

测试文本为所及抓取的影视剧类别的描述文本：秦时明月，战国末期，荆轲刺秦失败牺牲。天下第一剑客盖聂受荆轲所托，护送荆轲之子荆天明躲避秦始皇追杀。在秦国边境残月谷，盖聂一人击退三百秦国铁骑，秦始皇震怒，命丞相李斯务必铲除两人。李斯在阴阳家东皇太一的指引下寻访到了盖聂的同门兄弟卫庄，卫庄剑术超群却始终居于盖聂之下，为夺得天下第一剑的名号，卫庄答应了李斯的要求，殊不知自己已经掉入了东皇太一的圈套。原来天明在出生之时，身上便被阴阳家偷偷种下“乾元玉煞”，“乾元玉煞”关系到一个巨大阴谋。逃亡路上，盖聂与天明结识了墨家众高手，以及楚国大将后人项少羽和墨家少女高月，一行人在命运的引领下进入被誉为世间最后一片净土的墨家机关城。机关城隐匿于绝岭雄峰之间，集结了墨家深厚的智慧，是天下所有反秦势力最后的堡垒，它也是墨家弟子最后的避难所。电视剧，秦时明月，古装，陆毅，陈妍希，蒋劲夫，高清影视剧，在线观看秦时明月第27集。

分词结果中，词库中各个词汇的使用次数如下：幽灵党：0，东皇太一：2，丞相：1，之下：1，卫庄：3，墨家：5，大将：1，天下：1，天下第一：1，天下第一剑：1，天明：3，最后：3，机关：2，李斯：3，楚国：1，殊不知：1，秦国：2，秦始皇：2，秦时明月：3，27：1。

得出词频种类为n＝5，词频数集a＝{0，1，2，3，5}。

其中，0出现的概率是1/20，1出现的概率是9/20，2出现的概率是4/20，3出现的概率是5/20，5出现的概率是1/20，根据所述公式得出词库熵值：

H (a) = - (\frac{1}{20} \log_{5} \frac{1}{20} + \frac{10}{20} \log_{5} \frac{10}{20} + \frac{4}{20} \log_{5} \frac{4}{20} + \frac{5}{20} \log_{5} \frac{5}{20} + \frac{1}{20} \log_{5} \frac{1}{20}) = 0.824737.

通过上述示例，可以看出本发明的方法可以确定多个分词词库的熵值，并从中选出最大熵值的词库作为待选择的分词词库。

图4示出的是图1所示方法中的一种可选实施例方法的流程图，在步骤S11之前，通过从内容库中的文本内容抓取部分文本内容，生成测试文本，具体实施过程为：

S10：从内容库中的文本内容中随机抓取部分文本内容，生成测试文本。

在本实施方式中，所述从内容库中的文本中随机抓取部分文本内容，生成测试文本，有了较好的测试文本，步骤S11中的评估才更快捷有效。测试文本的抓取可以为一次，当抓取为一次时，保证了效率；测试文本抓取也可以为两次，当抓取次数为多次时，可以保证测试文本的准确率，多次抓取文本内容要小于一次抓取内容是保证在不失效率的情况下，提高测试文本的准确率。

图5示出的是图1所示方法中的一种可选实施例方法的流程图，在步骤S13之后，进一步步骤S14：优化分词词库，例如包括：

根据删除指令，进一步删除所述待选择的分词词库中的至少一个词汇，生成更新的分词词库：

将所述更新的分词词库导入所述评估处理装置，生成更新评估值；

比较所述更新评估值与所述带选择的分词词库对应的评估值的大小；

若所述更新评估值较大，则将所述更新的分词词库作为选定词库；

若所述更新评估值较小，则将所述待选择的分词词库作为选定词库。

继续以上述示例为例：在不影响分词结果的情况下，这里可以删除数字“27”，词频为0的词“幽灵党”，保留最精准的分词：保留“天下第一剑”，删除“天下第一”。

词库分词结果统计如下m＝17。

东皇太一：2，丞相：1，之下：1，卫庄：3，墨家：5，大将：1，天下：1，天下第一剑：1，天明：3，最后：3，机关：2，李斯：3，楚国：1，殊不知：1，秦国：2，秦始皇：2，秦时明月：3。

结果：词频种类n＝4，词频数集a＝{1，2，3，5}。

1出现的概率是6/17，2出现的概率是5/17，3出现的概率是5/17，5出现的概率是1/17。

新词库熵值为：

H (a) = - (\frac{6}{17} \log_{4} \frac{6}{17} + \frac{5}{17} \log_{4} \frac{5}{17} + \frac{5}{17} \log_{4} \frac{5}{17} + \frac{1}{17} \log_{4} \frac{1}{17}) = 0.904642

这样，修正后的词库熵值大，对所选的这个测试文本来说，修正后词库保证的分词效果，又减少了存储空间。

图6为本发明的一种分词词库的选择系统实施结构示意图。如图6所示，用于一种分词词库的选择系统可以包括：评估处理装置12、词库导入模块13、选择模块14。其中，

词库导入模块13：用于将多个分词词库导入评估处理装置，生成与所述多个分词词库对应的多个评估值；

选择模块14：用于从所述多个评估值中选取最大的评估值，并将所述最大的评估值对应的分词词库作为待选择的分词词库。

图7所示，评估处理装置12可以包括：分词器120、统计器121、评估值生成器122。

分词器120配置以用于利用分词词库对测试文本进行分词；

统计器121配置以用于统计所述分词词库分词后每个词汇的词频数；

评估值生成器122配置以用于基于每个词汇的词频数以及整个分词词库中的词汇数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值，将所述分布均匀程度值作为评估值，其中，词频数相同的为同一个类别。

评估值生成器122用于：

基于每个词汇的词频数，划分词频数的类别，其中，词频数相同的为同一个类别；

确定每个类别下的词频数所对应的词汇的数量，并确定各数量占整个分词词库中的词汇数量的比重；

根据所确定的比重和划分后的类别的数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值。

在本实施方式中，在确定的比重和划分后的类别的数量导入信息熵生成器，则可以获得与所述分词词库对应的熵值。为模块14提供评估值。

图8所示出的是图6所示系统实施结例方法的另一种可选系统的实施例流程图，如图8所示，用于另一种分词词库的选择系统可以包括：测试文本生成模块11、评估处理装置12、词库导入模块13、选择模块14。其中，

测试文本生成模块11用于在评估处理模块配置评估处理装置之前，从内容库中的文本内容中随机抓取部分的文本内容，生成测试文本，其中，当所述抓取次数为一次时，所述部分的文本内容为第一部分的文本内容；当所述抓取次数为多次时，所述部分的文本内容为第二部分的文本内容；所述第一部分的文本内容大于多于所述第二部分的文本内容。

在本实施方式中，所述测试文本生成模块11在评估处理之前，从内容库中的文本内容随机抓取部分文本内容，为词库导入模块中的评估处理提供测试文本。

图9所示出的是图6所示系统实施结例方法的又一种可选系统的实施例流程图，如图9所示，用于又一种分词词库的选择系统可以包括：测试文本生成模块11、评估处理装置12、词库导入模块13、选择模块14、词库优化模块15。其中，

词库优化模块15用于在选择模块选取评估值最大的分词词库作为待选择词库后，根据删除指令，进一步删除所述待选择的分词词库中的至少一个词汇，生成更新的分词词库；

比较所述更新评估值与所述待选择的分词词库对应的评估值的大小；

若所述更新评估值小大，则将所述更新的分词词库作为选定词库，若所述更新评估值较小，则将所述待选择的分词词库作为选定词库。

在本实施方式中，在词库优化模块15中，保证了所选取待优化词库的精确值，又因为删除部分致使词库词量减少，加快词库的效率。

图10为本申请实施例提供的又一种用户设备1200的结构示意图，本申请具体实施例并不对用户设备1200的具体实现做限定。如图10所示，该用户设备1200可以包括：

处理器(processor)1210、通信接口(Communications Interface)1220、存储器(memory)1230、以及通信总线1240。其中：

处理器1210、通信接口1220、以及存储器1230通过通信总线1240完成相互间的通信。

通信接口1220，用于与比如客户端等的网元通信。

处理器1210，用于执行程序1232，具体可以执行上述方法实施例中的相关步骤。

具体地，程序1232可以包括程序代码，所述程序代码包括计算机操作指令。

处理器1210可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种分词词库选择方法，包括：

设置一评估处理装置；

2.根据权利要求1所述的方法，其中，所述评估处理装置用于：

利用分词词库对测试文本进行分词；

统计所述分词词库分词后每个词汇的词频数；

基于每个词汇的词频数以及整个分词词库中的词汇数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值，将所述分布均匀程度值作为评估值，其中，词频数相同的为同一个类别。

3.根据权利要求2所述的方法，其中，所述基于每个词汇的词频数以及整个分词词库中的词汇数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值包括：

4.根据权利要求3所述的方法，其中，所述根据所确定的比重和划分后的类别的数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值包括：

将所确定的比重和划分后的类别的数量导入信息熵生成器，获得与所述分词词库对应的熵值。

5.根据权利要求1所述的方法，其中，在设置一评估处理装置之前，还包括：从内容库中的文本内容中随机抓取部分的文本内容，生成测试文本，其中，

当所述抓取次数为一次时，所述部分的文本内容为第一部分的文本内容；

当所述抓取次数为多次时，所述部分的文本内容为第二部分的文本内容；

所述第一部分的文本内容多于所述第二部分的文本内容。

6.根据权利要求1-5中任一项所述的方法，其中，在将所述最大的评估值对应的分词词库作为待选择的分词词库后，还包括：

根据删除指令，进一步删除所述待选择的分词词库中的至少一个词汇，生成更新的分词词库；

7.一种分词词库选择系统，包括：

评估处理装置；

8.根据权利要求7所述的系统，其中，所述评估处理装置包括：

分词器，用于利用分词词库对测试文本进行分词；

统计器，用于统计所述分词词库分词后每个词汇的词频数；

评估值生成器，用于基于每个词汇的词频数以及整个分词词库中的词汇数量，确定所述分词词库划分后的各类别下的词频数的分布均匀程度值，将所述分布均匀程度值作为评估值，其中，词频数相同的为同一个类别。

9.根据权利要求8所述的系统，其中，所述评估值生成器用于：

10.根据权利要求9所述的系统，其中，所述评估值生成器用于：

11.根据权利要求7所述的系统，其中，所述系统还包括测试文本生成模块，用于：

在所述词库导入模块将多个分词词库导入评估处理装置之前，从内容库中的文本内容中随机抓取部分的文本内容，生成测试文本，其中，

所述第一部分的文本内容多于所述第二部分的文本内容。

12.根据权利要求7-11中任一项所述的系统，其中，所述系统还包括词库优化模块，用于：

在所述选择模块将所述最大的评估值对应的分词词库作为待选择的分词词库后，根据删除指令，进一步删除所述待选择的分词词库中的至少一个词汇，生成更新的分词词库；