CN107402945B

CN107402945B - 词库生成方法及装置、短文本检测方法及装置

Info

Publication number: CN107402945B
Application number: CN201710153105.4A
Authority: CN
Inventors: 郑丹丹
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-03-15
Filing date: 2017-03-15
Publication date: 2020-07-10
Anticipated expiration: 2037-03-15
Also published as: CN107402945A

Abstract

本申请实施例公开了词库生成方法及装置、短文本检测方法及装置。所述词库生成方法包括：获取短文本集合和第一词集合，所述短文本集合是根据语料的黑样本得到，所述第一词集合是对语料的白样本分词得到；对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合；根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重；获得由所述第二词集合中的词及其权重构成的词库。利用本申请实施例，可以采用基于循环分词所生成的带词权重的词库，对用户设置的短文本进行检测，相比于现有技术，可以提高召回率，实用效果较好，可以更有效地利用处理资源。

Description

词库生成方法及装置、短文本检测方法及装置

技术领域

本申请涉及计算机软件技术领域，尤其涉及词库生成方法及装置、短文本检测方法及装置。

背景技术

随着计算机技术和互联网技术的迅速发展，社交活动越来越多地基于互联网进行。基于互联网的社交产品中一般会提供用户账号、用户昵称、群名称、备注等短文本设置项，以满足用户交互过程中的个性化等需求。但是，一些用户出于新奇或者恶意等目的，所设置的短文本中可能包含不合适的内容，比如，暴力的内容、人身攻击的内容等，如此，容易使得其他用户不快，进而频繁向服务端举报，增加了服务端的处理压力。

在现有技术中，针对上面的问题，一般基于敏感词表对用户设置的短文本进行检测，以确定是否有敏感词包含在该短文本中，若有，则对该设置进行阻止或修改，以避免影响其他用户。

但是，现有技术中的短文本检测方式的召回率较低，实用效果较差，反而会造成处理资源的浪费。其中，所述召回率具体可以指：在一个被检测的短文本集合中，被检测出的包含不合适的内容的短文本的数量占包含不合适的内容的短文本的数量的比例。

发明内容

本申请实施例提供词库生成方法及装置、短文本检测方法及装置，用以解决现有技术中的短文本检测方式的召回率较低，实用效果较差，反而会造成处理资源的浪费的问题。

为解决上述技术问题，本申请实施例是这样实现的：

本申请实施例提供的一种词库生成方法，包括：

获取短文本集合和第一词集合，所述短文本集合根据从语料的黑样本得到，所述第一词集合是对语料的白样本分词得到；

对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合；

根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重；

获得由所述第二词集合中的词及其权重构成的词库。

本申请实施例提供的一种词库生成装置，包括：

获取模块，获取短文本集合和第一词集合，所述短文本集合是根据语料的黑样本得到，所述第一词集合是对语料的白样本分词得到；

循环分词模块，对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合；

权重确定模块，根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重；

获得模块，获得由所述第二词集合中的词及其权重构成的词库。

本申请实施例提供的一种短文本检测方法，包括：

对待检测短文本进行循环分词，得到所述待检测短文本对应的第三词集合；

在预先生成的所述词库中，确定所述第三词集合匹配的词；

根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算；

根据所述相似度计算的结果，确定对所述待检测短文本的检测结果。

本申请实施例提供的一种短文本检测装置，包括：

循环分词模块，对待检测短文本进行循环分词，得到所述待检测短文本对应的第三词集合；

第一确定模块，在预先生成的所述词库中，确定所述第三词集合匹配的词；

相似度计算模块，根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算；

第二确定模块，根据所述相似度计算的结果，确定对所述待检测短文本的检测结果。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：可以采用基于循环分词所生成的带词权重的词库，基于相似度对用户设置的短文本进行检测，相比于现有技术，可以提高召回率，实用效果较好，可以更有效地利用处理资源，因此，可以部分或全部地解决现有技术中的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种词库生成方法的流程示意图；

图2为本申请实施例提供的一种短文本检测方法的流程示意图；

图3为本申请实施例提供的一种实际应用场景下，生成词库以及基于该词库进行短文本检测的一种具体实施方案示意图；

图4为本申请实施例提供的图3中与词的权重确定相关的流程说明示意图；

图5为本申请实施例提供的图3中与索引建立相关的流程说明示意图；

图6为本申请实施例提供的对应于图1的一种词库生成装置的结构示意图；

图7为本申请实施例提供的对应于图2的一种短文本检测装置的结构示意图。

具体实施方式

本申请实施例提供一种信息处理方法及装置。

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的方案的核心思想是：根据语料的黑样本和白样本，通过对黑样本进行循环分词，生成带词权重的词库，进而基于该词库对待检测短文本进行相似度计算，以确定检测结果。由此可见，本申请的方案主要分为两部分：词库生成、基于该词库检测待检测短文本。下面分别对这两部分详细说明。

在本申请实施例中，对短文本的具体长度并不做限定，取决于应用场景。比如，在背景技术的场景下，互联网的社交产品的用户账号、用户昵称、群名称、备注都可以称为短文本，一般地，短文本中的字数不少于2，短文本中可能包含一个或多个词。本申请的方案主要用于中文场景。

图1为本申请实施例提供的一种词库生成方法的流程示意图，从程序角度而言，该流程的执行主体可以是服务端程序。从设备角度而言，该流程的执行主体可以包括但不限于可作为服务器以下设备：个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。对于背景技术中的场景，所述服务器比如可以是用于管控用户设置项的服务器等。

图1中的流程可以包括以下步骤：

S101：获取短文本集合和第一词集合，所述短文本集合是根据语料的黑样本得到，所述第一词集合是对语料的白样本分词得到。

在本申请实施例中，语料的黑样本可以是通过人工或机器方式确定的：包含背景技术中所述的不适合的内容的语料样本。反之，语料的白样本可以是通过人工或机器方式确定的：不包含背景技术中所述的不适合的内容的语料样本。

黑样本一般可以通过历史检测(比如，人工审核等)的语料直接得到。另外，黑样本可以是对审核未通过的语料进行诸如提纯、分割等处理间接得到。

在本申请实施例中，短文本集合中包含的每个短文本可以是一个黑样本的至少部分，所述至少部分包含有不适合的内容。

在实际应用中，为了提高后续处理的可靠性，可以对语料的样本进行文本预处理，再用以获取短文本集合和第一词集合。文本预处理比如可以是：去掉语料中的标点等非汉字非字母非数字的字符、汉字简繁转换等、字母大小写转换等处理。

S102：对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合。

在本申请实施例中，第二词集合中包含有：对所述短文本集合中的短文本进行循环分词所分出的各词。其中，“循环”可以指：短文本的首尾相接形成循环。

需要说明的是，相比于一般的分词，所述循环分词是本申请的方案提供的一种新的分词方式。通过循环分词，有利于分出更多的词，而且一定程度上有利于解决以下问题：某些用户采用将词中字序进行颠倒的方式，设置实际包含有不合适的内容的短文本，以图蒙混通过检测。

为了便于理解，列举循环分词的具体实施方式。比如，对短文本“张三李四”进行循环分词所分出的词可以包括：“张三”、“三李”、“李四”、“四张”等，可以看到，“四张”这个词是由“张三李四”的尾字“四”接首字“张”构成的，可以体现循环。在该例中，分出的词为2字词，精细程度较好，有利于细致地反映出对应短文本的特征。

S103：根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重。

在本申请实施例中，第一词集合可以反映白样本的特征，第二词集合可以反映黑样本的特征。可以将第二词集合中的词及其权重作为短文本检测的依据。

基于这样的目的，一般地，在黑白样本中通用性的词，权重可以较低，而对黑样本区分度越高的词，权重可以相应地越高。

在本申请实施例中，第二词集合中的词的权重的确定方式可以有多种。比如，可以基于第二词集合中的词在第一词集合和第二词集合中的交叉熵确定；再比如，可以按照一定的规则，为第二词集合中的词指定权重；等等。

S104：获得由所述第二词集合中的词及其权重构成的词库。

一般地，所述词库即为：第二词集合以及第二词集合中的词的权重。

通过图1的方法，可以生成基于循环分词所生成的带词权重的词库，该词库可以用于对用户设置的短文本进行检测，相比于现有技术，可以提高召回率，实用效果较好，可以更有效地利用处理资源。

基于图1的方法，本申请实施例还提供了该方法的一些具体实施方案，以及扩展方案，下面进行说明。

在本申请实施例中，对于步骤S102，所述对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合，具体可以包括：

分别针对所述短文本集合中的每个短文本执行：

根据该短文本，确定将该短文本首尾相接得到的循环文本；

对该循环文本进行分词，得到该短文本对应的第二词集合，其中，该第二词集合包含至少一个特定词，该特定词包含该短文本的首字和尾字，且所述尾字在该特定词中位于所述首字之前。

所述特定词即可以是体现循环的词，比如，在上面列举的例子中，“四张”即为特定词。

结合上面的说明，对于上面列举的例子中所采用的循环分词的一种具体实施方式，可以描述如下：

所述对该循环文本进行分词，得到该短文本对应的第二词集合，具体可以包括：将N个字长度的分词窗口在该循环文本上滑动，每次滑动1个字长度，滑动的总长度大于所述循环文本的长度，将分词窗口每次所包含所述循环文本中的内容作为分出的1个词，得到由分出的各词构成的该短文本对应的第二词集合。其中，N等于2。

当然，在实际应用中，分出的词也可以不限于2字词，也可以是3字词(也即，N也可以等于3)等，比如，对短文本“张三李四”进行循环分词所分出的各词也可以包括：“张三李”、“三李四”、“李四张”、“四张三”等，“李四张”和“四张三”可以体现循环。

循环分词也可以是从词的尾字逆序进行分词的。在这种情况下，比如，对短文本“张三李四”进行循环分词所分出的词可以包括：“四李”、“李三”、“三张”、“张四”等。

类似地，分词窗口每次滑动的字长度也可以变化，而不一定只限于1个字长度。

另外，需要说明的，对于上述的“将该短文本首尾相接，对该循环文本进行分词”、“将N个字长度的分词窗口在该循环文本上滑动”，这只是为了便于理解的一种形象的描述，在计算机代码实现时，通过循环语句等语句实现该描述对应的分词效果即可。

在本申请实施例中，第二集合中的词的权重确定方式可以有多种。列举两种作为示例。

第一种，基于交叉熵计算。具体地，对于步骤103，所述根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，可以包括：

分别针对所述第二词集合中的每个词，执行：

分别确定该词在所述第一词集合中出现的次数，以及该词在所述第二词集合中出现的次数；根据分别确定的次数，计算该词在所述第一词集合

和第二词集合中的交叉熵；根据所述交叉熵，确定该词的权重。

例如，可以采用以下公式计算该词在所述第一词集合和第二词集合中的交叉熵：p_b*logp_b+p_w*logp_w；其中，p_b为该词在第二词集合中出现的概率，可以根据该词在第二词集合中出现的次数计算得到，p_w为该词在第一词集合中出现的概率，可以根据该词在第一词集合中出现的次数计算得到。

交叉熵越大，表示该词对于第一词集合与第二词集合的区分度越大，一般地，可以将该词的交叉熵即作为该词的权重。

第二种，基于其他的指定规则计算。比如，对于步骤103，所述根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，具体可以包括：计算所述第一词集合中的词的逆向文档频率(Inverse Document Frequency，IDF)值；

分别针对所述第二词集合中的每个词，执行：

确定该词在所述第二词集合中出现的次数；根据确定的次数，以及所述第一词集合中的词的逆向文档频率IDF值，确定该词的权重。

例如，一般可以将log(N_b+1)作为该词的权重，其中，N_b为该词在第二词集合中出现的次数，另外，如果该词也包含在第一词集合中，且该词在第一词集合中的IDF值小于设定值时(比如，设定值可以为8)，可以认为该词是通用性较强的词，该词的权重相应地应该较小，可以指定相对较小的值(比如，log2)作为该词的权重。

另外，在计算词的权重的过程中，如果涉及对数项的计算，为了避免出现“log0”的异常，可以采取相应的平滑措施。比如，上例中log(N_b+1)中的“+1”即为一种平滑措施，可以使得log(N_b+1)不会等于log0。

在本申请实施例中，对于步骤S102，所述得到所述短文本对应的第二词集合后，还可以执行：以所述第二词集合中的词为索引项，为所述词在所述短文本集合中对应的短文本建立索引；其中，所述索引具体可以是倒排索引。这里建立索引是为了提高后续基于生成的词库进行短文本检测的效率，后面会进行说明。

进一步地，索引的索引项除了可以为所述词本身以外，还可以为所述词的其他表示形式或所述词的近似形式(比如，同音词、同义词、变形词等)。需要说明的是，所述词的其他表示形式未必唯一表示所述词，比如，所述词的其他表示形式可以是所述词的拼音、所述词的外文翻译词等。

例如，对于步骤S102，所述得到所述短文本对应的第二词集合后，还可以执行：以所述第二词集合中的词的拼音为索引项，为所述词在所述短文本集合中对应的短文本建立倒排索引。在这种情况下，“张三”及其拼音“zhangsan”都可以是短文本“张三李四”的索引项。另外，一个索引项有可能索引到一个或多个短文本，以索引项“zhangsan”为例，通过该索引项可以索引得到短文本“张三李四”，还可以索引得到包含拼音也为“zhangsan”的其他词(比如，“章三”等)的短文本等。

上面对本申请实施例提供的一种词库生成方法进行了说明。下面对进一步地将该词库应用于短文本检测的方案进行说明。

图2为本申请实施例提供的一种短文本检测方法的流程示意图，该流程的执行主体与图1中流程的执行主体可以相同，也可以不同。

图2中的流程可以包括以下步骤：

S201：对待检测短文本进行循环分词，得到所述待检测短文本对应的第三词集合。

在本申请实施例中，第三词集合中包含有：对所述待检测短文本进行循环分词所分出的各词。对待检测短文本的循环分词方式，优选地可以与生成词库时采用的循环分词方式相同，比如，循环分词所分出的词均可以是2字词。如此，可以便于后面匹配或者计算相似度。

对于背景技术中的场景，待检测短文本可以是用户在社交平台上设置的诸如用户账户、用户昵称等短文本。

S202：在预先生成的所述词库中，确定所述第三词集合匹配的词。

步骤S201和S202中所述的词库，以及后面段落中提到的词库可以是：图1的方法中的词库，或者图1的方法所对应的实施例中的词库。简明起见，后面不再赘述。

在本申请实施例中，所述第三词集合匹配的词也可以包括：在词库中，与第三词集合中的至少一个词的相似程度不小于设定阈值的词。优选地，所述第三词集合匹配的词可以是：既在第三词集合中也在词库中的词。

S203：根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算。

在本申请实施例中，可以结合词库中的权重，计算第三词集合与步骤S203中的第二词集合的相似度。这两种集合的相似度可以反映：待检测短文本与步骤S203中的第二词集合对应的短文本(是根据语料的黑样本得到的)的相似度。

步骤S203中的第二词集合可以有多个，可以分别针对每个第二词集合计算其与第三词集合的相似度。

S204：根据所述相似度计算的结果，确定对所述待检测短文本的检测结果。

在本申请实施例中，当计算出的相似度高于设定阈值时，可以判定检测出待检测短文本包含有不合适的内容，进而可以采取相应的管控措施。

通过图2的方法，可以采用基于循环分词所生成的带词权重的词库，基于相似度对用户设置的短文本进行检测，相比于现有技术，可以提高召回率，实用效果较好，可以更有效地利用处理资源。

基于图2的方法，本申请实施例还提供了该方法的一些具体实施方案，以及扩展方案，下面进行说明。

在本申请实施例中，如前所述，在采用图1的方法生成词库时，还可以第二词集合中的词为索引项，为所述词在短文本集合中对应的短文本建立倒排索引。可以利用建立的索引，加快图2中的流程的执行速度。

具体地，对于步骤S202，所述在预先生成的所述词库中，确定所述第三词集合匹配的词，可以包括：在所述索引项中，确定所述第三词集合匹配的索引项，其中，所述索引项是所述词库中的词；根据确定的索引项，索引得到对应的短文本，以及确定索引得到的短文本对应的所述第二词集合，作为所述第三词集合匹配的词所属的所述第二词集合。

类似地，如前所述，在采用图1的方法生成词库时，还可以第二词集合中的词的拼音为索引项(称为：拼音索引项)，为所述词在短文本集合中对应的短文本建立倒排索引。则对于步骤S203，所述根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算，具体可以包括：在所述拼音索引项中，确定所述第三词集合匹配的索引项；根据确定的索引项，索引得到对应的短文本，以及确定索引得到的短文本对应的所述第二词集合；根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合(也即，根据词的索引项确定的第二词集合)、所述索引得到的短文本对应的所述第二词集合(也即，根据拼音的索引项确定的第二词集合)，进行相似度计算。具体可以计算确定出的各第二词集合分别与第三词集合之间的相似度。

进一步地，如前所述，第二词集合中的词的权重能够反映所述词的黑样本区分度，因此，可以将词的权重也作为相似度计算的维度，如此，有利于提高相似度计算结果的可靠性。具体地，对于步骤S203，所述根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算，具体包括：根据所述词库，确定所述第三词集合匹配的词所属的所述第二词集合中的各词的权重；根据所述各词的权重，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算。

相似度的具体计算方式可以有多种。比如，可以将第三词集合和第二词集合分别表示为向量，然后通过计算向量余弦，确定第三词集合与第二词集合之间的相似度，其中，第二词集合的每个词及其权重可以用该第二词集合对应的向量中的一个或多个向量元素表示。再比如，可以基于神经网络分别对第三词集合和第二词集合进行分类，根据分类结果确定第三词集合与第二词集合之间的相似度。

上面理解，对本申请实施例提供的词库生成方法、短文本检测方法进行了说明。为了便于理解，结合图3，将这两种方法的一种具体实施方案在一个整体框架中进行表示。

图3为本申请实施例提供的一种实际应用场景下，生成词库以及基于该词库进行短文本检测的一种具体实施方案示意图。

图3中的步骤在上面都已经进行了详细说明，这里仅是简单地描述。

根据历史人工检测沉淀的语料可以得到各短黑语料，对各短黑语料进行文本预处理后得到短文本集合，对短文本集合中的短文本分别进行循环分词(N＝2)得到各第二词集合；以第二词集合中的词及词的拼音作为索引项，建立指向词对应的短文本的倒排索引；

对社交场景沉淀语料的白样本进行文本预处理以及分词，可以得到第一词集合；

根据各第二词集合和第一词集合，计算各第二词集合中的词的权重，得到第二词集合中的词及其权重构成的词库；

当接收到社交场景新产生的待检测语料时，可以通过对待检测语料进行文本预处理得到待检测短文本，进而对待检测短文本进行循环分词得到第三词集合(N＝2)；

根据第三词集合中的词在倒排索引的索引项中进行匹配，利用匹配成功的索引项索引到对应的第二词集合；

根据词库中的词的权重，分别计算索引到的各第二词集合与第三词集合的相似度；

根据计算的相似度，可以确定与待检测短文本最相似的黑语料短文本，判定对应的相似度是否高于设定阈值，进而可以确定检测结果。

进一步地，本申请的实施例还提供了图3中的部分流程说明示意图，如图4、图5所示。

图4为本申请实施例提供的图3中与词的权重确定相关的流程说明示意图。

在图4中，第一词集合具体可以是基于社交语料的白样本得到的，第二词集合具体可以是基于诸如用户昵称等语料的黑样本得到的。所进行的文本预处理具体可以包括：去掉标点等非字母、非汉字、非数字的字符。所采用词的权重确定方式可以是上面列举的方式。

图5为本申请实施例提供的图3中与索引建立相关的流程说明示意图。

在图5中，在得到第二词集合后，以第二词集合中的词为索引项，建立指向对应的短文本的倒排索引。

上面为本申请实施例提供的词库生成方法、短文本检测方法，基于同样的发明思路，本申请实施例还提供了对应的装置，如图6、图7所示。

图6为本申请实施例提供的对应于图1的一种词库生成装置的结构示意图，该装置可以位于图1中流程的执行主体，包括：

获取模块601，获取短文本集合和第一词集合，所述短文本集合是根据语料的黑样本得到，所述第一词集合是对语料的白样本分词得到；

循环分词模块602，对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合；

权重确定模块603，根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重；

获得模块604，获得由所述第二词集合中的词及其权重构成的词库。

可选地，所述循环分词模块602对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合，具体包括：

所述循环分词模块602分别针对所述短文本集合中的每个短文本执行：

根据该短文本，确定将该短文本首尾相接得到的循环文本；

可选地，所述循环分词模块602对该循环文本进行分词，得到该短文本对应的第二词集合，具体包括：

所述循环分词模块602将N个字长度的分词窗口在该循环文本上滑动，每次滑动1个字长度，滑动的总长度大于所述循环文本的长度，将分词窗口每次所包含所述循环文本中的内容作为分出的1个词，得到由分出的各词构成的该短文本对应的第二词集合。

可选地，所述N等于2。

可选地，所述权重确定模块603根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，具体包括：

所述权重确定模块603分别针对所述第二词集合中的每个词，执行：

分别确定该词在所述第一词集合中出现的次数，以及该词在所述第二词集合中出现的次数；

根据分别确定的次数，计算该词在所述第一词集合和第二词集合中的交叉熵；

根据所述交叉熵，确定该词的权重。

所述权重确定模块603计算所述第一词集合中的词的逆向文档频率IDF值；

分别针对所述第二词集合中的每个词，执行：

确定该词在所述第二词集合中出现的次数；

根据确定的次数，以及所述第一词集合中的词的逆向文档频率IDF值，确定该词的权重。

可选地，所述装置还包括：

索引模块605，在所述循环分词模块602得到所述短文本对应的第二词集合后，以所述第二词集合中的词为索引项，为所述词在所述短文本集合中对应的短文本建立倒排索引。

可选地，所述索引模块605在所述循环分词模块602得到所述短文本对应的第二词集合后，还以所述第二词集合中的词的拼音为索引项，为所述词在所述短文本集合中对应的短文本建立倒排索引。

图7为本申请实施例提供的对应于图2的一种短文本检测装置的结构示意图，该装置可以位于图2中流程的执行主体，包括：

循环分词模块701，对待检测短文本进行循环分词，得到所述待检测短文本对应的第三词集合；

第一确定模块702，在预先生成的所述词库中，确定所述第三词集合匹配的词；

相似度计算模块703，根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算；

第二确定模块704，根据所述相似度计算的结果，确定对所述待检测短文本的检测结果。

可选地，所述第一确定模块702在预先生成的所述词库中，确定所述第三词集合匹配的词，具体包括：

所述第一确定模块702在所述索引项中，确定所述第三词集合匹配的索引项，其中，所述索引项是所述词库中的词；

根据确定的索引项，索引得到对应的短文本，以及确定索引得到的短文本对应的所述第二词集合，作为所述第三词集合匹配的词所属的所述第二词集合。

可选地，所述相似度计算模块703根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算，具体包括：

所述相似度计算模块703在所述索引项中，确定所述第三词集合匹配的索引项；

根据确定的索引项，索引得到对应的短文本，以及确定索引得到的短文本对应的所述第二词集合；

根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合、所述索引得到的短文本对应的所述第二词集合，进行相似度计算。

所述相似度计算模块703根据所述词库，确定所述第三词集合匹配的词所属的所述第二词集合中的各词的权重；

根据所述各词的权重，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算。

本申请实施例提供的装置与方法是一一对应的，因此，装置也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种词库生成方法，其特征在于，包括：

获取短文本集合和第一词集合，所述短文本集合是根据语料的黑样本得到，所述第一词集合是对语料的白样本分词得到；

对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合，其中，所述循环分词包括将所述短文本的首尾相接形成循环所分出的词；

根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，所述第一词集合用于反映白样本的特征，第二词集合用于反映黑样本的特征；

获得由所述第二词集合中的词及其权重构成的词库。

2.如权利要求1所述的方法，其特征在于，所述对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合，具体包括：

分别针对所述短文本集合中的每个短文本执行：

根据该短文本，确定将该短文本首尾相接得到的循环文本；

3.如权利要求2所述的方法，其特征在于，所述对该循环文本进行分词，得到该短文本对应的第二词集合，具体包括：

将N个字长度的分词窗口在该循环文本上滑动，每次滑动1个字长度，滑动的总长度大于所述循环文本的长度，将分词窗口每次所包含所述循环文本中的内容作为分出的1个词，得到由分出的各词构成的该短文本对应的第二词集合。

4.如权利要求3所述的方法，其特征在于，所述N等于2。

5.如权利要求1所述的方法，其特征在于，所述根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，具体包括：

分别针对所述第二词集合中的每个词，执行：

根据所述交叉熵，确定该词的权重。

6.如权利要求1所述的方法，其特征在于，所述根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，具体包括：

计算所述第一词集合中的词的逆向文档频率IDF值；

分别针对所述第二词集合中的每个词，执行：

确定该词在所述第二词集合中出现的次数；

7.如权利要求1所述的方法，其特征在于，所述得到所述短文本对应的第二词集合后，所述方法还包括：

以所述第二词集合中的词为索引项，为所述词在所述短文本集合中对应的短文本建立倒排索引。

8.如权利要求7所述的方法，其特征在于，所述得到所述短文本对应的第二词集合后，所述方法还包括：

以所述第二词集合中的词的拼音为索引项，为所述词在所述短文本集合中对应的短文本建立倒排索引。

9.一种短文本检测方法，其特征在于，包括：

在预先生成的如权利要求1～8任一项所述的词库中，确定所述第三词集合匹配的词；

10.如权利要求9所述的方法，其特征在于，当所述词库为如权利要求8所述的词库时，所述在预先生成的如权利要求1～8任一项所述的词库中，确定所述第三词集合匹配的词，具体包括：

在如权利要求8所述的索引项中，确定所述第三词集合匹配的索引项，其中，所述索引项是所述词库中的词；

11.如权利要求10所述的方法，其特征在于，当所述词库为如权利要求9所述的词库时，所述根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算，具体包括：

在如权利要求9所述的索引项中，确定所述第三词集合匹配的索引项；

12.如权利要求9所述的方法，其特征在于，所述根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算，具体包括：

根据所述词库，确定所述第三词集合匹配的词所属的所述第二词集合中的各词的权重；

13.一种词库生成装置，其特征在于，包括：

循环分词模块，对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合，其中，所述循环分词包括将所述短文本的首尾相接形成循环所分出的词；

权重确定模块，根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，所述第一词集合用于反映白样本的特征，第二词集合用于反映黑样本的特征；

14.如权利要求13所述的装置，其特征在于，所述循环分词模块对所述短文本集合中的短文本进行循环分词，得到所述短文本对应的第二词集合，具体包括：

所述循环分词模块分别针对所述短文本集合中的每个短文本执行：

根据该短文本，确定将该短文本首尾相接得到的循环文本；

15.如权利要求14所述的装置，其特征在于，所述循环分词模块对该循环文本进行分词，得到该短文本对应的第二词集合，具体包括：

所述循环分词模块将N个字长度的分词窗口在该循环文本上滑动，每次滑动1个字长度，滑动的总长度大于所述循环文本的长度，将分词窗口每次所包含所述循环文本中的内容作为分出的1个词，得到由分出的各词构成的该短文本对应的第二词集合。

16.如权利要求15所述的装置，其特征在于，所述N等于2。

17.如权利要求13所述的装置，其特征在于，所述权重确定模块根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，具体包括：

所述权重确定模块分别针对所述第二词集合中的每个词，执行：

根据所述交叉熵，确定该词的权重。

18.如权利要求13所述的装置，其特征在于，所述权重确定模块根据所述第一词集合和所述第二词集合，确定所述第二词集合中的词的权重，具体包括：

所述权重确定模块计算所述第一词集合中的词的逆向文档频率IDF值；

分别针对所述第二词集合中的每个词，执行：

确定该词在所述第二词集合中出现的次数；

19.如权利要求13所述的装置，其特征在于，所述装置还包括：

索引模块，在所述循环分词模块得到所述短文本对应的第二词集合后，以所述第二词集合中的词为索引项，为所述词在所述短文本集合中对应的短文本建立倒排索引。

20.如权利要求19所述的装置，其特征在于，所述索引模块在所述循环分词模块得到所述短文本对应的第二词集合后，还以所述第二词集合中的词的拼音为索引项，为所述词在所述短文本集合中对应的短文本建立倒排索引。

21.一种短文本检测装置，其特征在于，包括：

第一确定模块，在预先生成的如权利要求13～20任一项所述的词库中，确定所述第三词集合匹配的词；

22.如权利要求21所述的装置，其特征在于，当所述词库为如权利要求20所述的词库时，所述第一确定模块在预先生成的如权利要求13～20任一项所述的词库中，确定所述第三词集合匹配的词，具体包括：

所述第一确定模块在如权利要求20所述的索引项中，确定所述第三词集合匹配的索引项，其中，所述索引项是所述词库中的词；

23.如权利要求22所述的装置，其特征在于，当所述词库为如权利要求21所述的词库时，所述相似度计算模块根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算，具体包括：

所述相似度计算模块在如权利要求21所述的索引项中，确定所述第三词集合匹配的索引项；

24.如权利要求21所述的装置，其特征在于，所述相似度计算模块根据所述词库，针对所述第三词集合、所述第三词集合匹配的词所属的所述第二词集合，进行相似度计算，具体包括：

所述相似度计算模块根据所述词库，确定所述第三词集合匹配的词所属的所述第二词集合中的各词的权重；