CN103309851A

CN103309851A - 短文本的垃圾识别方法及系统

Info

Publication number: CN103309851A
Application number: CN2013101731279A
Authority: CN
Inventors: 姜贵彬
Original assignee: Weibo Internet Technology China Co Ltd
Current assignee: Weibo Internet Technology China Co Ltd
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2013-09-18
Anticipated expiration: 2033-05-10
Also published as: CN103309851B

Abstract

本发明公开了一种短文本的垃圾识别方法及系统，所述方法包括：对网站平台上设定时间段内出现的短文本，分别计算各短文本的词语特征向量；根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分；其中，被划分到同一集合中的短文本被判定为内容相似；统计每个集合中的短文本的数量，将短文本的数量超过设定阈值的集合进行垃圾标识。由于对于内容相似的短文本统计数量后，若数量超过设定阈值，则进行垃圾标识；这种处理方式不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集，可以实时地对短文本进行垃圾识别，提高了短文本的内容的垃圾识别及时性。

Description

短文本的垃圾识别方法及系统

技术领域

本发明涉及互联网领域，尤其涉及一种短文本的垃圾识别方法及系统。

背景技术

互联网技术迅猛发展，网上信息爆炸式增长；随着生活、工作节奏的加快，人们越来越倾向于用简短的文字来沟通交流。以twitter（推特）和新浪微博为代表的以较小的短文本来生产、组织和传播信息的SNS（Social NetworkService，社会性网络服务）网站，获得网友的青睐。

目前，对互联网上的短文本内容进行自动垃圾识别的主要方法是，采用基于向量模型的方法，对于某个短文本内容将其分类为垃圾内容，或非垃圾内容；该方法包括：训练阶段和分类阶段。

在训练阶段，根据大量的短文本进行建模：对于训练集中已区分为垃圾内容，或非垃圾内容的各个短文本，进行分词，计算得到每个短文本的词语特征向量；基于训练集中每个短文本的词语特征向量建立向量模型，即基于训练集中每个短文本的词语特征向量建立垃圾文本集和非垃圾文本集；

在分类阶段，对于待判定短文本，进行分词后，计算出该待判定短文本的词语特征向量；根据该待判定短文本的词语特征向量，判定其属于垃圾文本集和非垃圾文本集的概率，从而确定出该待判定短文本是否为垃圾文本。

但是SNS网站由于其社交属性，在SNS网站上的短文本产生速度非常快，内容更新速度非常快，现有技术的基于训练、学习而后进行建模的短文本的垃圾识别方法无法达到实时更新，也就不能较为快速地对SNS网站上的短文本的内容进行垃圾识别，即不能及时地对SNS网站上的短文本的内容进行垃圾识别。

发明内容

针对上述现有技术存在的缺陷，本发明提供了一种短文本的垃圾识别方法及系统，用以提高对短文本的内容进行垃圾识别的及时性。

本发明的技术方案公开了一种短文本的垃圾识别方法，包括：

对网站平台上设定时间段内出现的短文本，分别提取各短文本的特征词，并计算出各短文本的词语特征向量；

根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分；其中，被划分到同一集合中的短文本被判定为内容相似；

统计每个集合中的短文本的数量，将短文本的数量超过设定阈值的集合进行垃圾标识。

较佳地，所述根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分具体包括：

对于所述设定时间段内出现的每个短文本，依据如下方法计算该短文本的文本指纹值：

将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数；其中，N为该短文本的特征词总数，n为预先设定的比特位数；

根据如下方法计算数组中各数组元素：对于第i个数组元素T_i，将T_i初始化为0后，依次读取由各特征词转换的无符号型整数的第i比特的数值；若读取的当前的无符号型整数的第i比特的数值为1，则将T_i增加w_j；否则，将T_i减去w_j；其中，i为1～n的自然数，w_j为读取的当前的无符号型整数所对应的特征词的权重值；

将所述数组中各数组元素进行二值化后，得到n位二进制数值作为该短文本的文本指纹值；

将文本指纹值相同的短文本划分到同一个集合中。

或者，所述根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分具体包括：

将该短文本的词语特征向量中的各特征词的权重值分别转换为N个n比特的无符号型整数；其中，N为该短文本的词语特征向量的元素总数，n为预先设定的比特位数；

根据如下方法计算数组中的第i个数组元素T_i：将T_i初始化为0后，依次读取各无符号型整数的第i比特的数值；若读取的当前的无符号型整数的第i比特的数值为1，则将T_i增加w_i；否则，将T_i减去w_i；其中，i为1～N的自然数，w_i为该短文本的词语特征向量中第i个特征词的权重值；

将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中。

较佳地，所述将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中，具体包括：

将第一文本指纹值中的各位二进制数值，分别与第二文本指纹值中的各位二进制数值进行比较；若比较结果为相同的数值个数超过设定值，则判定第一文本指纹值与第二文本指纹值重合度高于设定条件，将第一文本指纹值的短文本与第二文本指纹值的短文本划分到同一个集合中。

较佳地，所述将所述数组中各数组元素进行二值化具体包括：

对于所述数组中的第i个数组元素，判断该数组元素是否大于0；若是，确定第i位二进制数值为1；否则，确定第i位二进制数值为0。

较佳地，所述将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数具体为：

通过哈希算法将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数。

较佳地，所述分别计算各短文本的词语特征向量具体包括：

对于所述设定时间段内出现的每个短文本，对该短文本进行分词后得到该短文本的各特征词；对于每个特征词，计算该特征词的TF、IDF值，并根据计算的TF、IDF值计算出该特征词的权重；由各特征词的权重组成该短文本的词语特征向量。

本发明的技术方案还同时公开了一种短文本的垃圾识别系统，包括：

词语特征向量计算模块，用于对网站平台上设定时间段内出现的短文本，提取各短文本的特征词，并计算各短文本的词语特征向量；

集合划分模块，用于根据所述词语特征向量计算模块计算出的各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分；其中，被划分到同一集合中的短文本被判定为内容相似；

垃圾标识模块，用于对所述集合划分模块所划分出的集合，统计每个集合中的短文本的数量，将短文本的数量超过设定阈值的集合进行垃圾标识。

较佳地，所述集合划分模块具体包括：

整数转换单元，用于对于所述设定时间段内出现的每个短文本，将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数；其中，N为该短文本的特征词总数，n为预先设定的比特位数；

数组元素计算单元，用于根据如下方法计算数组中各数组元素：对于第i个数组元素T_i，将T_i初始化为0后，依次读取由各特征词转换的无符号型整数的第i比特的数值；若读取的当前的无符号型整数的第i比特的数值为1，则将T_i增加w_j；否则，将T_i减去w_j；其中，i为1～n的自然数，w_j为读取的当前的无符号型整数所对应的特征词的权重值；

二值化单元，用于对所述数组元素计算单元计算出的所述数组中的各数组元素进行二值化，得到n位二进制数值作为该短文本的文本指纹值；

文本指纹值比较单元，用于将所述二值化单元计算出的文本指纹值进行比较，将文本指纹值相同的短文本划分到同一个集合中。

较佳地，所述集合划分模块具体包括：

文本指纹值比较单元，用于将所述二值化单元计算出的文本指纹值进行比较，将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中。

本发明的技术方案中，对于内容相似的短文本统计数量；若数量超过设定阈值，则进行垃圾标识；这种处理方式不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集，可以实时地对短文本进行垃圾识别，提高了短文本的内容的垃圾识别及时性；尤其对于海量的短文本，提高垃圾识别及时性更明显。

进一步，通过比较各短文本的文本指纹值来确定短文本之间是否内容相似的方法，其复杂程度远小于现有技术中计算两个短文本的词语特征向量之间夹角的余弦值的复杂程度；因此，根据各短文本的文本指纹值能够更为快速地确定短文本之间是否内容相似。

附图说明

图1为本发明实施例的短文本的垃圾识别方法流程图；

图2a为本发明实施例的确定短文本之间是否内容相似的方法；

图2b为本发明实施例的N个n比特的无符号型整数的示意图；

图2c为本发明实施例的计算数组中各数组元素的方法的示意图；

图2d为本发明实施例的数组中各数组元素进行二值化的示意图；

图3为本发明实施例的短文本的垃圾识别系统的内部结构框图；

图4为本发明实施例的集合划分模块的内部结构框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内，一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。

本发明的主要思路为，对网站平台上设定时间段内出现的短文本，根据各短文本的词语特征向量判断它们之间的相似性；对于内容相似的短文本统计数量；若数量超过设定阈值，则进行垃圾标识，视为潜在垃圾，可做进一步的垃圾识别判断，如人工识别或关键字识别等。由于本发明的技术方案，在对短文本进行垃圾识别时，不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集，可以实时地对短文本进行垃圾识别，从而提高了短文本的内容的垃圾识别及时性；尤其对于海量的短文本，本发明的技术方案可以及时进行垃圾识别。

下面结合附图详细说明本发明的技术方案。本发明具体实施方式提供的短文本的垃圾识别方法，具体流程图如图1所示，具体包括如下步骤：

S101：对网站平台上设定时间段内出现的短文本，提取各短文本的特征词，并计算各短文本的词语特征向量。

具体地，可以周期性地对于网站平台上设定时间段内出现的每个短文本，计算各短文本的词语特征向量；本领域技术人员可以根据实际情况对设定时间段进行设置；例如，设置的设定时间段为1小时，或30分钟。

计算短文本的词语特征向量的具体方法可以采用TF-IDF方法：对该短文本进行文本预处理（全半角转化、繁简体转化、抹除干扰分词的标点符号）、分词、去除停用词、虚词后得到该短文本的各特征词，将该短文本的各特征词组成该短文本的词语集合；对于词语集合中的每个特征词，计算该特征词的TF、IDF值，并根据TF、IDF值计算出该特征词的权重：log(TF+1.0)×IDF；由各特征词的权重组成该短文本的词语特征向量。

其中，TF（Term Frequency，词频）值和IDF（Inverse Document Frequency，逆向文件频率）值的计算方法为本领域技术人员所熟知，此处不再赘述。

S102：根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分；其中，被划分到同一集合中的短文本被判定为内容相似。

具体地，根据各短文本的词语特征向量，来判断短文本之间的相似性；将内容相似的短文本划分到同一集合中。

判断两个短文本之间是否内容相似的一种方法，可以是应用现有技术中，通过计算两个短文本的词语特征向量之间的夹角，来确定两个短文本的词语特征向量之间的相似度，进而判断两个短文本之间是否内容相似，具体方法为：

根据如下公式1计算两个短文本的词语特征向量之间夹角的余弦值：

sim (X, Y) = \cos θ = \frac{Σ_{j} x_{j} y_{j}}{\sqrt[2]{Σ_{j} x_{j}^{2}} \times \sqrt[2]{Σ_{j} y_{j}^{2}}}

（公式1）

上述公式1中，X、Y分别表示两个短文本的词语特征向量，具体为X=（x₁,…,x_j,…,x_N），x_j表示两个短文本中的一个短文本的词语集合中第j个词语在该短文本中出现的概率；Y=(y₁,…,y_j,…,y_N)，y_j表示两个短文本中的另一个短文本的词语集合中第j个词语在该短文本中出现的概率；其中，j为1～N的自然数，N为两个短文本的词语特征向量的元素总数，sim（X,Y）表示词语特征向量X和词语特征向量Y之间的相似度，θ表示词语特征向量X与词语特征向量Y之间的夹角；

公式1计算得到的结果即为以词语特征向量X表征的短文本与以词语特征向量Y表征的短文本间的相似度，数值越大越接近1则表明两个短文本越相似；数值越小越接近0则表明两个短文本越不相似；

若计算得出的两个短文本间的相似度超过设定值，则判断两个短文本之间内容相似。其中，所述设定值由本领域技术人员根据实际情况进行设定。

更优地，本发明提供了一种可以更为快速地确定短文本之间是否内容相似的方法，该方法将在后续进行详细介绍。

S103：统计每个集合中的短文本的数量，将短文本的数量超过设定阈值的集合进行垃圾标识。

具体地，统计每个集合中的短文本的数量；若所述集合中的短文本的数量超过设定阈值，则对该集合进行垃圾标识，以便于后续的处理。

事实上，为了更进一步保证垃圾的识别的准确性，对于标识为垃圾的集合中的短文本还可做进一步的垃圾识别；例如，可以采用关键字匹配的方法，或者人工识别的方法，或者其它方法从标识为垃圾的集合的短文本中最终确定出垃圾文本。

下面详细介绍上述S102步骤中提到的另一种可以更为快速地确定短文本之间是否内容相似的方法，具体流程图如图2a所示，包括如下步骤：

S201：对于网站平台上设定时间段内出现的每个短文本，将该短文本的各特征词分别转换为无符号型整数。

具体地，通过哈希算法，例如，jenkins_hash算法（字符串散列算法，或直译为詹肯斯散列算法），将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数（如图2b所示）；其中，N为该短文本的特征词总数，n为预先设定的比特位数，例如，n可以是32或64。

S202：根据各短文本的词语特征向量中各特征词的权重值，计算数组中的各数组元素。

具体地，计算数组中各数组元素的方法具体为：对于第i个数组元素T_i，将T_i初始化为0后，依次读取由各特征词转换的无符号型整数的第i比特的数值；若读取的当前的无符号型整数的第i比特的数值为1，则将T_i增加w_j；否则，将T_i减去w_j；其中，i为1～n的自然数，w_j为读取的当前的无符号型整数所对应的特征词的权重值。图2c示出了数组中各数组元素的得到方法。

S203：将数组中各数组元素进行二值化，并计算各短文本的文本指纹值。

具体地，将所述数组中各数组元素进行二值化的示意图，如图2d所示，具体为：对于所述数组中的第i个数组元素，判断该数组元素是否大于0；若是，确定第i位二进制数值为1；否则，确定第i位二进制数值为0；将所述数组中各数组元素进行二值化后，得到n位二进制数值作为该短文本的文本指纹值。

S204：根据各短文本的文本指纹值，对短文本进行集合划分。

在本步骤中，可以将文本指纹值相同的短文本划分到同一个集合中，或者将文本指纹值重合度高于设定条件的短文本划分到同一个集合中。由于比较短文本之间的文本指纹值的运算量远小于现有技术中计算两个短文本的词语特征向量之间夹角的余弦值的运算量；因此，本发明所提供的根据短文本的文本指纹值确定短文本之间是否内容相似的方法更为快速。

其中，将文本指纹值重合度高于设定条件的短文本划分到同一个集合的具体方法为：将第一文本指纹值中的各位二进制数值，分别与第二文本指纹值中的各位二进制数值进行比较；若比较结果为相同的数值个数超过设定值，则判定第一文本指纹值与第二文本指纹值重合度高于设定条件，将第一文本指纹值的短文本与第二文本指纹值的短文本划分到同一个集合中。

依据上述的短文本的垃圾识别方法，本发明提供的短文本的垃圾识别系统的内部结构框图，如图3所示，包括：词语特征向量计算模块301，集合划分模块302和垃圾标识模块303。

词语特征向量计算模块301用于对网站平台上设定时间段内出现的短文本，提取各短文本的特征词，并计算各短文本的词语特征向量。

集合划分模块302用于根据词语特征向量计算模块301计算出的各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分；其中，被划分到同一集合中的短文本被判定为内容相似。

垃圾标识模块303用于对集合划分模块302所划分出的集合，统计每个集合中的短文本的数量，将短文本的数量超过设定阈值的集合进行垃圾标识。

上述短文本的垃圾识别系统中的集合划分模块302的内部结构框图，如图4所示，具体包括：整数转换单元401，数组元素计算单元402，二值化单元403和文本指纹值比较单元404。

整数转换单元401用于对于所述设定时间段内出现的每个短文本，将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数，分别记为M₁、M₂、M₃……M_N；其中，N为该短文本的特征词总数。

数组元素计算单元402用于根据如下方法计算数组中各数组元素：对于第i个数组元素T_i，将T_i初始化为0后，依次读取由各特征词转换的无符号型整数的第i比特的数值；若读取的当前的无符号型整数的第i比特的数值为1，则将T_i增加w_j；否则，将T_i减去w_j；其中，i为1～n的自然数，w_j为读取的当前的无符号型整数所对应的特征词的权重值。

二值化单元403用于对数组元素计算单元402计算出的数组中的各数组元素进行二值化，得到n位二进制数值作为该短文本的文本指纹值。

文本指纹值比较单元404用于将二值化单元403计算出的文本指纹值进行比较；将文本指纹值相同的短文本划分到同一个集合中；

或者文本指纹值比较单元404用于将二值化单元403计算出的文本指纹值进行比较；将文本指纹值重合度高于设定条件的短文本划分到同一个集合中。

进一步，本发明所提供的根据短文本的文本指纹值确定短文本之间是否内容相似的方法，由于比较短文本之间的文本指纹值的运算量远小于现有技术中计算两个短文本的词语特征向量之间夹角的余弦值的运算量，因此可以更为快速地进行垃圾识别。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种短文本的垃圾识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分具体包括：

将文本指纹值相同的短文本划分到同一个集合中。

3.如权利要求1所述的方法，其特征在于，所述根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分具体包括：

4.如权利要求3所述的方法，其特征在于，所述将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中，具体包括：

5.如权利要求2-4任一所述的方法，其特征在于，所述将所述数组中各数组元素进行二值化具体包括：

6.如权利要求2-4任一所述的方法，其特征在于，所述将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数具体为：

7.如权利要求1-4任一所述的方法，其中，所述分别计算各短文本的词语特征向量具体包括：

8.一种短文本的垃圾识别系统，其特征在于，包括：

9.如权利要求8所述的系统，其特征在于，所述集合划分模块具体包括：

10.如权利要求8所述的系统，其特征在于，所述集合划分模块具体包括：