CN104008105A

CN104008105A - 一种识别垃圾文本的方法和装置

Info

Publication number: CN104008105A
Application number: CN201310058680.8A
Authority: CN
Inventors: 张湘念
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2013-02-25
Filing date: 2013-02-25
Publication date: 2014-08-27

Abstract

本申请公开了一种识别垃圾文本的方法和装置。该方法包括：预先采用签名算法计算垃圾文本的签名，在样本库中存储垃圾文本的签名信息，采用所述签名算法计算待处理文本的签名，确定待处理文本的签名与样本库中存储的签名信息之间的差异程度；根据所述差异程度识别待处理文本是否为垃圾文本；其中，采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。应用本发明能够提高垃圾文本的召回率。

Description

一种识别垃圾文本的方法和装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种识别垃圾文本的方法和装置。

背景技术

在互联网络中常常充斥着各种垃圾文本，例如垃圾评论信息等，如何识别出这些垃圾文本是目前急需解决的一个技术问题。

目前，一般根据敏感词库来识别垃圾文本，具体地：

预先根据已经确定的垃圾文本建立敏感词库，对于待处理文本，判断该待处理文本中是否出现了敏感词库中的词，如果是，则将该待处理文本识别为垃圾文本，否则，将该待处理文本识别为非垃圾文本。

可见，目前根据敏感词库来识别垃圾文本的方法存在以下的缺陷：

有些垃圾文本会通过不断变换关键词，来避免与敏感词库中的敏感词相同，例如，当某用户发送了垃圾广告评论“各种化妆品，尽在我的淘宝店”时，敏感词库编辑人员将“淘宝店”加入到敏感词库中，然而，当用户将评论内容改成“各种化妆品，尽在我的淘宝商店”，由于“淘宝商店”并不在敏感词库中，因此将导致敏感词库失效，即将本应为垃圾文本的“各种化妆品，尽在我的淘宝商店”识别为了非垃圾文本。

因此，目前识别垃圾文本的方法的垃圾文本召回率较低。

发明内容

本申请提供了一种识别垃圾文本的方法和装置，能够提高垃圾文本的召回率。

一种识别垃圾文本的方法，该方法包括：

预先采用签名算法计算垃圾文本的签名，在样本库中存储垃圾文本的签名信息，

采用所述签名算法计算待处理文本的签名，确定待处理文本的签名与样本库中存储的签名信息之间的差异程度；

根据所述差异程度识别待处理文本是否为垃圾文本；

其中，采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。

一种识别垃圾文本的装置，该装置包括样本库模块、差异程度确定模块和识别模块；

所述样本库模块，用于存储预先采用签名算法计算出的垃圾文本的签名信息；

所述差异程度确定模块，用于采用所述签名算法计算待处理文本的签名，确定待处理文本的签名与样本库模块中存储的签名信息之间的差异程度；

所述识别模块，用于根据所述差异程度识别待处理文本是否为垃圾文本；

由上述技术方案可见，本发明通过在样本库中存储垃圾文本的签名，计算待处理文本的签名，而且计算垃圾文本的签名和计算待处理文本的签名所采用的签名算法针对不同文本计算出的签名能够反映不同文本之间的差异程度信息，因此，通过确定待处理文本的签名与样本库中存储的签名信息之间的差异程度，根据所述差异程度能够识别待处理文本是否为垃圾文本。

由于本发明根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本，因此，即便待处理文本与垃圾文本不完全一致，只要两者的差异程度满足预定的条件，本发明也能够将所述待处理文本识别为垃圾文本，因此能够大大提高垃圾文本的召回率。

附图说明

图1是本发明提供的识别垃圾文本的方法流程图。

图2是本发明提供的识别垃圾文本的装置结构图。

具体实施方式

图1是本发明提供的识别垃圾文本的方法流程图。

如图1所示，该方法包括：

步骤101，预先采用签名算法计算垃圾文本的签名，在样本库中存储垃圾文本的签名信息。

步骤102，采用所述签名算法计算待处理文本的签名。

步骤103，确定待处理文本的签名与样本库中存储的签名信息之间的差异程度。

步骤104，根据所述差异程度识别待处理文本是否为垃圾文本。

可见，由于图1所示方法根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本，因此，即便待处理文本与垃圾文本不完全一致，只要两者的差异程度满足预定的条件，图1所示方法也能够将所述待处理文本识别为垃圾文本，因此能够大大提高垃圾文本的召回率。

其中，所采用的签名算法可以是SIMHASH签名算法，也可以是MINHASH签名算法。

其中，具体可以通过计算待处理文本的签名与垃圾文本的签名之间的汉明距离来确定待处理文本的签名与垃圾文本的签名之间的差异程度。

其中，所述汉明距离是两个等长字符串对应位置的字符不同的个数。比如，字符串A=”A1B2C3D4”与字符串B=“A2B1C3D4”的汉明距离为：2，所以汉明距离可以衡量字符串之间的相似度，即汉明距离越小，字符串相似度越高。

因此，确定待处理文本的签名与样本库中存储的签名信息之间的差异程度具体可以包括：

将待处理文本的签名和样本库中存储的签名信息转换为位数相同的二进制数，计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离，将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。

具体地，可以在将垃圾文本的签名信息存储在样本库中时，将垃圾文本的签名转换为目标位数的二进制数，在样本库中直接存储所述二进制数，在对待处理文本进行处理时，先采用计算垃圾文本签名的签名算法计算待处理文本的签名，然后将待处理文本的签名转换为目标位数的二进制数，由于样本库中存储的签名信息就是目标位数的二进制数，因此，可以将由待处理文本的签名转换得到的二进制数与样本库中存储的二进制数直接进行逐条比较（一个垃圾文本的签名转换得到的二进制数为一条二进制数），从而计算待处理文本的签名与垃圾文本的签名信息之间的汉明距离，将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。

也可以将由签名算法计算得到的垃圾文本签名直接存储在样本库中，在对待处理文本进行处理时，先采用计算垃圾文本签名的签名算法你计算待处理文本的签名，然后将待处理文本的签名转换为目标位数的二进制数，将样本库中的签名也转换为目标位数的二进制数，然后计算由待处理文本的签名转换得到的目标位数二进制数与由垃圾文本的签名转换得到的目标位数二进制数的汉明距离，将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。

其中，所述目标位数可以是32位，也可以是64位。

在根据所述差异程度识别待处理文本是否为垃圾文本时，如果由待处理文本中字符串的签名转换得到的二进制数与由样本库中存储的签名转换得到的二进制数之间的汉明距离小于预定值，则可以将所述待处理文本识别为垃圾文本。

当然，也可以在所述汉明距离的基础上，进一步结合其他条件判断待处理文本是否为垃圾文本。

为了提高本发明提供的识别垃圾文本的方法适应垃圾文本变化的能力，本发明还提出，在将待处理文本识别为垃圾文本之后，可以将识别为垃圾文本的待处理文本的签名信息存储在所述样本库中，从而实现样本库的自动更新，进而能够随着垃圾文本的变化而识别新的垃圾文本。

下面举一个具体的例子，对本发明提供的识别垃圾文本的方法进行示例性介绍。

在该例子中，预先对历史垃圾评论进行人工分拣，并计算分拣出的垃圾评论内容的签名，根据所述签名形成一个垃圾评论的样本库，即在样本库中存储SIM(A1)，SIM（A2）…SIM（Ai）…SIM（An），其中，SIM(A1)、SIM(A2)…SIM(An)为采用32位二进制数存储的垃圾评论内容A1、A2…An的SIMHASH值。

当某用户发送了一条评论B，首先计算出该评论的SIMHASH值：SIM(B)，然后将SIM（B）与垃圾评论的样本库中的SIMHASH值逐条比较，从而计算出评论B与垃圾评论库中各个评论SIMHASH值的汉明距离。

例如：样本库中有三条垃圾样本A1，A2和A3的签名，且签名值的十进制数分别为4074509321、3506987401、2495694113，假设评论B的SIMHASH值的十进制数为：SIM(B)=2433245321，那么它与A1、A2、A3的汉明距离分别为下表所示：

SIMHASH	十进制数	二进制值	与SIM(B)汉明距离
				SIM(B)	2433245321	10010001000010000110000010001001	0
SIM(A1)	4074509321	11110010110111000001010000001001	13
				SIM(A2)	3506987401	11010001000010000110000110001001	2
SIM(A3)	2495694113	10010100110000010100010100100001	12

当评论B的32位二进制SIMHASH值与样本库中某条32位二进制SIMHASH值的汉明距离小于预定值时，可以认为评论B与某个历史垃圾评论的相似度极高，因此可以将评论B识别为垃圾评论。其中，所述预定值可以依据经验而定，例如可以取为3，则在上表中，由于SIM(B)与SIM(A2)的汉明距离为2，所以可以判定评论B为垃圾评论。

其中，本发明所述的垃圾文本包括但不限于垃圾评论信息。

根据本发明提供的识别垃圾文本的方法，本发明还提供了一种识别垃圾文本的装置，具体请参见图2。

图2是本发明提供的识别垃圾文本的装置结构图。

如图2所示，该装置包括样本库模块201、差异程度确定模块202和识别模块203。

样本库模块201，用于存储预先采用签名算法计算出的垃圾文本的签名信息。

差异程度确定模块202，用于采用所述签名算法计算待处理文本的签名，确定待处理文本的签名与样本库模块201中存储的签名信息之间的差异程度。

识别模块203，用于根据所述差异程度识别待处理文本是否为垃圾文本。

其中，差异程度确定模块202，用于将待处理文本的签名和样本库模块中存储的签名信息转换为位数相同的二进制数，计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离，将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。

其中，所述汉明距离是两个等长字符串对应位置的字符不同的个数。

识别模块203，用于在由待处理文本中字符串的签名转换得到的二进制数与由样本库模块中存储的签名转换得到的二进制数之间的汉明距离小于预定值时，将所述待处理文本识别为垃圾文本。

该装置还可以包括样本更新模块。

所述样本更新模块，用于将识别为垃圾文本的待处理文本的签名信息存储在所述样本库模块中。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种识别垃圾文本的方法，其特征在于，该方法包括：

根据所述差异程度识别待处理文本是否为垃圾文本；

2.根据权利要求1所述的方法，其特征在于，所述确定待处理文本的签名与样本库中存储的签名信息之间的差异程度包括：

将待处理文本的签名和样本库中存储的签名信息转换为位数相同的二进制数，计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离，将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度；

3.根据权利要求2所述的方法，其特征在于，根据所述差异程度识别待处理文本是否为垃圾文本包括：

在由待处理文本中字符串的签名转换得到的二进制数与由样本库中存储的签名转换得到的二进制数之间的汉明距离小于预定值时，将所述待处理文本识别为垃圾文本。

4.根据权利要求3所述的方法，其特征在于，将所述待处理文本识别为垃圾文本之后，该方法还包括：

将识别为垃圾文本的待处理文本的签名信息存储在所述样本库中。

5.根据权利要求2至4任一权利要求所述的方法，其特征在于，所述位数相同的二进制数为32位二进制数或64位二进制数。

6.根据权利要求1所述的方法，其特征在于，所述签名算法包括SIMHASH签名算法、或者MINHASH签名算法。

7.一种识别垃圾文本的装置，其特征在于，该装置包括样本库模块、差异程度确定模块和识别模块；

8.根据权利要求7所述的装置，其特征在于，

所述差异程度确定模块，用于将待处理文本的签名和样本库模块中存储的签名信息转换为位数相同的二进制数，计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离，将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度；

9.根据权利要求8所述的装置，其特征在于，

所述识别模块，用于在由待处理文本中字符串的签名转换得到的二进制数与由样本库模块中存储的签名转换得到的二进制数之间的汉明距离小于预定值时，将所述待处理文本识别为垃圾文本。

10.根据权利要求7所述的装置，其特征在于，该装置还包括样本更新模块；