CN103309851A - 短文本的垃圾识别方法及系统 - Google Patents

短文本的垃圾识别方法及系统 Download PDF

Info

Publication number
CN103309851A
CN103309851A CN2013101731279A CN201310173127A CN103309851A CN 103309851 A CN103309851 A CN 103309851A CN 2013101731279 A CN2013101731279 A CN 2013101731279A CN 201310173127 A CN201310173127 A CN 201310173127A CN 103309851 A CN103309851 A CN 103309851A
Authority
CN
China
Prior art keywords
short text
text
value
short
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101731279A
Other languages
English (en)
Other versions
CN103309851B (zh
Inventor
姜贵彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201310173127.9A priority Critical patent/CN103309851B/zh
Publication of CN103309851A publication Critical patent/CN103309851A/zh
Application granted granted Critical
Publication of CN103309851B publication Critical patent/CN103309851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种短文本的垃圾识别方法及系统,所述方法包括:对网站平台上设定时间段内出现的短文本,分别计算各短文本的词语特征向量;根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分;其中,被划分到同一集合中的短文本被判定为内容相似;统计每个集合中的短文本的数量,将短文本的数量超过设定阈值的集合进行垃圾标识。由于对于内容相似的短文本统计数量后,若数量超过设定阈值,则进行垃圾标识;这种处理方式不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集,可以实时地对短文本进行垃圾识别,提高了短文本的内容的垃圾识别及时性。

Description

短文本的垃圾识别方法及系统
技术领域
本发明涉及互联网领域,尤其涉及一种短文本的垃圾识别方法及系统。
背景技术
互联网技术迅猛发展,网上信息爆炸式增长;随着生活、工作节奏的加快,人们越来越倾向于用简短的文字来沟通交流。以twitter(推特)和新浪微博为代表的以较小的短文本来生产、组织和传播信息的SNS(Social NetworkService,社会性网络服务)网站,获得网友的青睐。
目前,对互联网上的短文本内容进行自动垃圾识别的主要方法是,采用基于向量模型的方法,对于某个短文本内容将其分类为垃圾内容,或非垃圾内容;该方法包括:训练阶段和分类阶段。
在训练阶段,根据大量的短文本进行建模:对于训练集中已区分为垃圾内容,或非垃圾内容的各个短文本,进行分词,计算得到每个短文本的词语特征向量;基于训练集中每个短文本的词语特征向量建立向量模型,即基于训练集中每个短文本的词语特征向量建立垃圾文本集和非垃圾文本集;
在分类阶段,对于待判定短文本,进行分词后,计算出该待判定短文本的词语特征向量;根据该待判定短文本的词语特征向量,判定其属于垃圾文本集和非垃圾文本集的概率,从而确定出该待判定短文本是否为垃圾文本。
但是SNS网站由于其社交属性,在SNS网站上的短文本产生速度非常快,内容更新速度非常快,现有技术的基于训练、学习而后进行建模的短文本的垃圾识别方法无法达到实时更新,也就不能较为快速地对SNS网站上的短文本的内容进行垃圾识别,即不能及时地对SNS网站上的短文本的内容进行垃圾识别。
发明内容
针对上述现有技术存在的缺陷,本发明提供了一种短文本的垃圾识别方法及系统,用以提高对短文本的内容进行垃圾识别的及时性。
本发明的技术方案公开了一种短文本的垃圾识别方法,包括:
对网站平台上设定时间段内出现的短文本,分别提取各短文本的特征词,并计算出各短文本的词语特征向量;
根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分;其中,被划分到同一集合中的短文本被判定为内容相似;
统计每个集合中的短文本的数量,将短文本的数量超过设定阈值的集合进行垃圾标识。
较佳地,所述根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分具体包括:
对于所述设定时间段内出现的每个短文本,依据如下方法计算该短文本的文本指纹值:
将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数;其中,N为该短文本的特征词总数,n为预先设定的比特位数;
根据如下方法计算数组中各数组元素:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值;
将所述数组中各数组元素进行二值化后,得到n位二进制数值作为该短文本的文本指纹值;
将文本指纹值相同的短文本划分到同一个集合中。
或者,所述根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分具体包括:
对于所述设定时间段内出现的每个短文本,依据如下方法计算该短文本的文本指纹值:
将该短文本的词语特征向量中的各特征词的权重值分别转换为N个n比特的无符号型整数;其中,N为该短文本的词语特征向量的元素总数,n为预先设定的比特位数;
根据如下方法计算数组中的第i个数组元素Ti:将Ti初始化为0后,依次读取各无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wi;否则,将Ti减去wi;其中,i为1~N的自然数,wi为该短文本的词语特征向量中第i个特征词的权重值;
将所述数组中各数组元素进行二值化后,得到n位二进制数值作为该短文本的文本指纹值;
将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中。
较佳地,所述将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中,具体包括:
将第一文本指纹值中的各位二进制数值,分别与第二文本指纹值中的各位二进制数值进行比较;若比较结果为相同的数值个数超过设定值,则判定第一文本指纹值与第二文本指纹值重合度高于设定条件,将第一文本指纹值的短文本与第二文本指纹值的短文本划分到同一个集合中。
较佳地,所述将所述数组中各数组元素进行二值化具体包括:
对于所述数组中的第i个数组元素,判断该数组元素是否大于0;若是,确定第i位二进制数值为1;否则,确定第i位二进制数值为0。
较佳地,所述将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数具体为:
通过哈希算法将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数。
较佳地,所述分别计算各短文本的词语特征向量具体包括:
对于所述设定时间段内出现的每个短文本,对该短文本进行分词后得到该短文本的各特征词;对于每个特征词,计算该特征词的TF、IDF值,并根据计算的TF、IDF值计算出该特征词的权重;由各特征词的权重组成该短文本的词语特征向量。
本发明的技术方案还同时公开了一种短文本的垃圾识别系统,包括:
词语特征向量计算模块,用于对网站平台上设定时间段内出现的短文本,提取各短文本的特征词,并计算各短文本的词语特征向量;
集合划分模块,用于根据所述词语特征向量计算模块计算出的各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分;其中,被划分到同一集合中的短文本被判定为内容相似;
垃圾标识模块,用于对所述集合划分模块所划分出的集合,统计每个集合中的短文本的数量,将短文本的数量超过设定阈值的集合进行垃圾标识。
较佳地,所述集合划分模块具体包括:
整数转换单元,用于对于所述设定时间段内出现的每个短文本,将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数;其中,N为该短文本的特征词总数,n为预先设定的比特位数;
数组元素计算单元,用于根据如下方法计算数组中各数组元素:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值;
二值化单元,用于对所述数组元素计算单元计算出的所述数组中的各数组元素进行二值化,得到n位二进制数值作为该短文本的文本指纹值;
文本指纹值比较单元,用于将所述二值化单元计算出的文本指纹值进行比较,将文本指纹值相同的短文本划分到同一个集合中。
较佳地,所述集合划分模块具体包括:
整数转换单元,用于对于所述设定时间段内出现的每个短文本,将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数;其中,N为该短文本的特征词总数,n为预先设定的比特位数;
数组元素计算单元,用于根据如下方法计算数组中各数组元素:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值;
二值化单元,用于对所述数组元素计算单元计算出的所述数组中的各数组元素进行二值化,得到n位二进制数值作为该短文本的文本指纹值;
文本指纹值比较单元,用于将所述二值化单元计算出的文本指纹值进行比较,将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中。
本发明的技术方案中,对于内容相似的短文本统计数量;若数量超过设定阈值,则进行垃圾标识;这种处理方式不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集,可以实时地对短文本进行垃圾识别,提高了短文本的内容的垃圾识别及时性;尤其对于海量的短文本,提高垃圾识别及时性更明显。
进一步,通过比较各短文本的文本指纹值来确定短文本之间是否内容相似的方法,其复杂程度远小于现有技术中计算两个短文本的词语特征向量之间夹角的余弦值的复杂程度;因此,根据各短文本的文本指纹值能够更为快速地确定短文本之间是否内容相似。
附图说明
图1为本发明实施例的短文本的垃圾识别方法流程图;
图2a为本发明实施例的确定短文本之间是否内容相似的方法;
图2b为本发明实施例的N个n比特的无符号型整数的示意图;
图2c为本发明实施例的计算数组中各数组元素的方法的示意图;
图2d为本发明实施例的数组中各数组元素进行二值化的示意图;
图3为本发明实施例的短文本的垃圾识别系统的内部结构框图;
图4为本发明实施例的集合划分模块的内部结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明的主要思路为,对网站平台上设定时间段内出现的短文本,根据各短文本的词语特征向量判断它们之间的相似性;对于内容相似的短文本统计数量;若数量超过设定阈值,则进行垃圾标识,视为潜在垃圾,可做进一步的垃圾识别判断,如人工识别或关键字识别等。由于本发明的技术方案,在对短文本进行垃圾识别时,不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集,可以实时地对短文本进行垃圾识别,从而提高了短文本的内容的垃圾识别及时性;尤其对于海量的短文本,本发明的技术方案可以及时进行垃圾识别。
下面结合附图详细说明本发明的技术方案。本发明具体实施方式提供的短文本的垃圾识别方法,具体流程图如图1所示,具体包括如下步骤:
S101:对网站平台上设定时间段内出现的短文本,提取各短文本的特征词,并计算各短文本的词语特征向量。
具体地,可以周期性地对于网站平台上设定时间段内出现的每个短文本,计算各短文本的词语特征向量;本领域技术人员可以根据实际情况对设定时间段进行设置;例如,设置的设定时间段为1小时,或30分钟。
计算短文本的词语特征向量的具体方法可以采用TF-IDF方法:对该短文本进行文本预处理(全半角转化、繁简体转化、抹除干扰分词的标点符号)、分词、去除停用词、虚词后得到该短文本的各特征词,将该短文本的各特征词组成该短文本的词语集合;对于词语集合中的每个特征词,计算该特征词的TF、IDF值,并根据TF、IDF值计算出该特征词的权重:log(TF+1.0)×IDF;由各特征词的权重组成该短文本的词语特征向量。
其中,TF(Term Frequency,词频)值和IDF(Inverse Document Frequency,逆向文件频率)值的计算方法为本领域技术人员所熟知,此处不再赘述。
S102:根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分;其中,被划分到同一集合中的短文本被判定为内容相似。
具体地,根据各短文本的词语特征向量,来判断短文本之间的相似性;将内容相似的短文本划分到同一集合中。
判断两个短文本之间是否内容相似的一种方法,可以是应用现有技术中,通过计算两个短文本的词语特征向量之间的夹角,来确定两个短文本的词语特征向量之间的相似度,进而判断两个短文本之间是否内容相似,具体方法为:
根据如下公式1计算两个短文本的词语特征向量之间夹角的余弦值:
sim ( X , Y ) = cos θ = Σ j x j y j Σ j x j 2 2 × Σ j y j 2 2                   (公式1)
上述公式1中,X、Y分别表示两个短文本的词语特征向量,具体为X=(x1,…,xj,…,xN),xj表示两个短文本中的一个短文本的词语集合中第j个词语在该短文本中出现的概率;Y=(y1,…,yj,…,yN),yj表示两个短文本中的另一个短文本的词语集合中第j个词语在该短文本中出现的概率;其中,j为1~N的自然数,N为两个短文本的词语特征向量的元素总数,sim(X,Y)表示词语特征向量X和词语特征向量Y之间的相似度,θ表示词语特征向量X与词语特征向量Y之间的夹角;
公式1计算得到的结果即为以词语特征向量X表征的短文本与以词语特征向量Y表征的短文本间的相似度,数值越大越接近1则表明两个短文本越相似;数值越小越接近0则表明两个短文本越不相似;
若计算得出的两个短文本间的相似度超过设定值,则判断两个短文本之间内容相似。其中,所述设定值由本领域技术人员根据实际情况进行设定。
更优地,本发明提供了一种可以更为快速地确定短文本之间是否内容相似的方法,该方法将在后续进行详细介绍。
S103:统计每个集合中的短文本的数量,将短文本的数量超过设定阈值的集合进行垃圾标识。
具体地,统计每个集合中的短文本的数量;若所述集合中的短文本的数量超过设定阈值,则对该集合进行垃圾标识,以便于后续的处理。
事实上,为了更进一步保证垃圾的识别的准确性,对于标识为垃圾的集合中的短文本还可做进一步的垃圾识别;例如,可以采用关键字匹配的方法,或者人工识别的方法,或者其它方法从标识为垃圾的集合的短文本中最终确定出垃圾文本。
下面详细介绍上述S102步骤中提到的另一种可以更为快速地确定短文本之间是否内容相似的方法,具体流程图如图2a所示,包括如下步骤:
S201:对于网站平台上设定时间段内出现的每个短文本,将该短文本的各特征词分别转换为无符号型整数。
具体地,通过哈希算法,例如,jenkins_hash算法(字符串散列算法,或直译为詹肯斯散列算法),将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数(如图2b所示);其中,N为该短文本的特征词总数,n为预先设定的比特位数,例如,n可以是32或64。
S202:根据各短文本的词语特征向量中各特征词的权重值,计算数组中的各数组元素。
具体地,计算数组中各数组元素的方法具体为:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值。图2c示出了数组中各数组元素的得到方法。
S203:将数组中各数组元素进行二值化,并计算各短文本的文本指纹值。
具体地,将所述数组中各数组元素进行二值化的示意图,如图2d所示,具体为:对于所述数组中的第i个数组元素,判断该数组元素是否大于0;若是,确定第i位二进制数值为1;否则,确定第i位二进制数值为0;将所述数组中各数组元素进行二值化后,得到n位二进制数值作为该短文本的文本指纹值。
S204:根据各短文本的文本指纹值,对短文本进行集合划分。
在本步骤中,可以将文本指纹值相同的短文本划分到同一个集合中,或者将文本指纹值重合度高于设定条件的短文本划分到同一个集合中。由于比较短文本之间的文本指纹值的运算量远小于现有技术中计算两个短文本的词语特征向量之间夹角的余弦值的运算量;因此,本发明所提供的根据短文本的文本指纹值确定短文本之间是否内容相似的方法更为快速。
其中,将文本指纹值重合度高于设定条件的短文本划分到同一个集合的具体方法为:将第一文本指纹值中的各位二进制数值,分别与第二文本指纹值中的各位二进制数值进行比较;若比较结果为相同的数值个数超过设定值,则判定第一文本指纹值与第二文本指纹值重合度高于设定条件,将第一文本指纹值的短文本与第二文本指纹值的短文本划分到同一个集合中。
依据上述的短文本的垃圾识别方法,本发明提供的短文本的垃圾识别系统的内部结构框图,如图3所示,包括:词语特征向量计算模块301,集合划分模块302和垃圾标识模块303。
词语特征向量计算模块301用于对网站平台上设定时间段内出现的短文本,提取各短文本的特征词,并计算各短文本的词语特征向量。
集合划分模块302用于根据词语特征向量计算模块301计算出的各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分;其中,被划分到同一集合中的短文本被判定为内容相似。
垃圾标识模块303用于对集合划分模块302所划分出的集合,统计每个集合中的短文本的数量,将短文本的数量超过设定阈值的集合进行垃圾标识。
上述短文本的垃圾识别系统中的集合划分模块302的内部结构框图,如图4所示,具体包括:整数转换单元401,数组元素计算单元402,二值化单元403和文本指纹值比较单元404。
整数转换单元401用于对于所述设定时间段内出现的每个短文本,将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数,分别记为M1、M2、M3……MN;其中,N为该短文本的特征词总数。
数组元素计算单元402用于根据如下方法计算数组中各数组元素:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值。
二值化单元403用于对数组元素计算单元402计算出的数组中的各数组元素进行二值化,得到n位二进制数值作为该短文本的文本指纹值。
文本指纹值比较单元404用于将二值化单元403计算出的文本指纹值进行比较;将文本指纹值相同的短文本划分到同一个集合中;
或者文本指纹值比较单元404用于将二值化单元403计算出的文本指纹值进行比较;将文本指纹值重合度高于设定条件的短文本划分到同一个集合中。
本发明的技术方案中,对于内容相似的短文本统计数量;若数量超过设定阈值,则进行垃圾标识;这种处理方式不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集,可以实时地对短文本进行垃圾识别,提高了短文本的内容的垃圾识别及时性;尤其对于海量的短文本,提高垃圾识别及时性更明显。
进一步,本发明所提供的根据短文本的文本指纹值确定短文本之间是否内容相似的方法,由于比较短文本之间的文本指纹值的运算量远小于现有技术中计算两个短文本的词语特征向量之间夹角的余弦值的运算量,因此可以更为快速地进行垃圾识别。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种短文本的垃圾识别方法,其特征在于,包括:
对网站平台上设定时间段内出现的短文本,分别提取各短文本的特征词,并计算出各短文本的词语特征向量;
根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分;其中,被划分到同一集合中的短文本被判定为内容相似;
统计每个集合中的短文本的数量,将短文本的数量超过设定阈值的集合进行垃圾标识。
2.如权利要求1所述的方法,其特征在于,所述根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分具体包括:
对于所述设定时间段内出现的每个短文本,依据如下方法计算该短文本的文本指纹值:
将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数;其中,N为该短文本的特征词总数,n为预先设定的比特位数;
根据如下方法计算数组中各数组元素:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值;
将所述数组中各数组元素进行二值化后,得到n位二进制数值作为该短文本的文本指纹值;
将文本指纹值相同的短文本划分到同一个集合中。
3.如权利要求1所述的方法,其特征在于,所述根据各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分具体包括:
对于所述设定时间段内出现的每个短文本,依据如下方法计算该短文本的文本指纹值:
将该短文本的词语特征向量中的各特征词的权重值分别转换为N个n比特的无符号型整数;其中,N为该短文本的词语特征向量的元素总数,n为预先设定的比特位数;
根据如下方法计算数组中的第i个数组元素Ti:将Ti初始化为0后,依次读取各无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wi;否则,将Ti减去wi;其中,i为1~N的自然数,wi为该短文本的词语特征向量中第i个特征词的权重值;
将所述数组中各数组元素进行二值化后,得到n位二进制数值作为该短文本的文本指纹值;
将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中。
4.如权利要求3所述的方法,其特征在于,所述将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中,具体包括:
将第一文本指纹值中的各位二进制数值,分别与第二文本指纹值中的各位二进制数值进行比较;若比较结果为相同的数值个数超过设定值,则判定第一文本指纹值与第二文本指纹值重合度高于设定条件,将第一文本指纹值的短文本与第二文本指纹值的短文本划分到同一个集合中。
5.如权利要求2-4任一所述的方法,其特征在于,所述将所述数组中各数组元素进行二值化具体包括:
对于所述数组中的第i个数组元素,判断该数组元素是否大于0;若是,确定第i位二进制数值为1;否则,确定第i位二进制数值为0。
6.如权利要求2-4任一所述的方法,其特征在于,所述将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数具体为:
通过哈希算法将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数。
7.如权利要求1-4任一所述的方法,其中,所述分别计算各短文本的词语特征向量具体包括:
对于所述设定时间段内出现的每个短文本,对该短文本进行分词后得到该短文本的各特征词;对于每个特征词,计算该特征词的TF、IDF值,并根据计算的TF、IDF值计算出该特征词的权重;由各特征词的权重组成该短文本的词语特征向量。
8.一种短文本的垃圾识别系统,其特征在于,包括:
词语特征向量计算模块,用于对网站平台上设定时间段内出现的短文本,提取各短文本的特征词,并计算各短文本的词语特征向量;
集合划分模块,用于根据所述词语特征向量计算模块计算出的各短文本的词语特征向量,对所述设定时间段内出现的短文本进行集合划分;其中,被划分到同一集合中的短文本被判定为内容相似;
垃圾标识模块,用于对所述集合划分模块所划分出的集合,统计每个集合中的短文本的数量,将短文本的数量超过设定阈值的集合进行垃圾标识。
9.如权利要求8所述的系统,其特征在于,所述集合划分模块具体包括:
整数转换单元,用于对于所述设定时间段内出现的每个短文本,将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数;其中,N为该短文本的特征词总数,n为预先设定的比特位数;
数组元素计算单元,用于根据如下方法计算数组中各数组元素:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值;
二值化单元,用于对所述数组元素计算单元计算出的所述数组中的各数组元素进行二值化,得到n位二进制数值作为该短文本的文本指纹值;
文本指纹值比较单元,用于将所述二值化单元计算出的文本指纹值进行比较,将文本指纹值相同的短文本划分到同一个集合中。
10.如权利要求8所述的系统,其特征在于,所述集合划分模块具体包括:
整数转换单元,用于对于所述设定时间段内出现的每个短文本,将该短文本的N个特征词分别对应转换为N个n比特的无符号型整数;其中,N为该短文本的特征词总数,n为预先设定的比特位数;
数组元素计算单元,用于根据如下方法计算数组中各数组元素:对于第i个数组元素Ti,将Ti初始化为0后,依次读取由各特征词转换的无符号型整数的第i比特的数值;若读取的当前的无符号型整数的第i比特的数值为1,则将Ti增加wj;否则,将Ti减去wj;其中,i为1~n的自然数,wj为读取的当前的无符号型整数所对应的特征词的权重值;
二值化单元,用于对所述数组元素计算单元计算出的所述数组中的各数组元素进行二值化,得到n位二进制数值作为该短文本的文本指纹值;
文本指纹值比较单元,用于将所述二值化单元计算出的文本指纹值进行比较,将文本指纹值位数重合度高于设定条件的短文本划分到同一集合中。
CN201310173127.9A 2013-05-10 2013-05-10 短文本的垃圾识别方法及系统 Active CN103309851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310173127.9A CN103309851B (zh) 2013-05-10 2013-05-10 短文本的垃圾识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310173127.9A CN103309851B (zh) 2013-05-10 2013-05-10 短文本的垃圾识别方法及系统

Publications (2)

Publication Number Publication Date
CN103309851A true CN103309851A (zh) 2013-09-18
CN103309851B CN103309851B (zh) 2016-01-27

Family

ID=49135090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310173127.9A Active CN103309851B (zh) 2013-05-10 2013-05-10 短文本的垃圾识别方法及系统

Country Status (1)

Country Link
CN (1) CN103309851B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372202A (zh) * 2016-08-31 2017-02-01 北京奇艺世纪科技有限公司 文本相似度计算方法及装置
CN107741933A (zh) * 2016-08-08 2018-02-27 北京京东尚科信息技术有限公司 用于检测文本的方法和装置
WO2018192448A1 (zh) * 2017-04-20 2018-10-25 杭州海康威视数字技术股份有限公司 一种人证比对的认证方法、系统及相机
CN109408795A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种文本识别方法、设备、计算机可读存储介质及装置
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN101046858A (zh) * 2006-03-29 2007-10-03 腾讯科技(深圳)有限公司 电子信息比较系统和方法以及反垃圾邮件系统
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN101516071A (zh) * 2008-02-18 2009-08-26 中国移动通信集团重庆有限公司 垃圾短消息的分类方法
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN102315953A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 基于帖子的出现规律来检测垃圾帖子的方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN101046858A (zh) * 2006-03-29 2007-10-03 腾讯科技(深圳)有限公司 电子信息比较系统和方法以及反垃圾邮件系统
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101516071A (zh) * 2008-02-18 2009-08-26 中国移动通信集团重庆有限公司 垃圾短消息的分类方法
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN102315953A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 基于帖子的出现规律来检测垃圾帖子的方法及设备
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘慧等: "《基于词频的权值计算在邮件过滤算法中的应用》", 《计算机工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107741933A (zh) * 2016-08-08 2018-02-27 北京京东尚科信息技术有限公司 用于检测文本的方法和装置
CN106372202A (zh) * 2016-08-31 2017-02-01 北京奇艺世纪科技有限公司 文本相似度计算方法及装置
CN106372202B (zh) * 2016-08-31 2020-04-17 北京奇艺世纪科技有限公司 文本相似度计算方法及装置
WO2018192448A1 (zh) * 2017-04-20 2018-10-25 杭州海康威视数字技术股份有限公司 一种人证比对的认证方法、系统及相机
CN108734067A (zh) * 2017-04-20 2018-11-02 杭州海康威视数字技术股份有限公司 一种人证比对的认证方法、系统及相机
US11256902B2 (en) 2017-04-20 2022-02-22 Hangzhou Hikvision Digital Technology Co., Ltd. People-credentials comparison authentication method, system and camera
CN109408795A (zh) * 2017-08-17 2019-03-01 中国移动通信集团公司 一种文本识别方法、设备、计算机可读存储介质及装置
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置

Also Published As

Publication number Publication date
CN103309851B (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN110223675B (zh) 用于语音识别的训练文本数据的筛选方法及系统
CN103309851B (zh) 短文本的垃圾识别方法及系统
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN101950312B (zh) 一种互联网网页内容解析方法
CN106844786A (zh) 一种基于文本相似度的舆情地域热点发现方法
CN103257957A (zh) 一种基于中文分词的文本相似性识别方法及装置
CN102033950A (zh) 电子产品命名实体自动识别系统的构建方法及识别方法
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103473317A (zh) 提取关键词的方法和设备
CN110516251B (zh) 一种电商实体识别模型的构建方法、构建装置、设备和介质
CN109508458A (zh) 法律实体的识别方法及装置
CN104881458A (zh) 一种网页主题的标注方法和装置
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN103136302A (zh) 试题重复输出的方法和装置
CN103853746A (zh) 词库生成方法及其系统、输入法及输入系统
CN103970801A (zh) 微博广告博文识别方法及装置
CN105046289A (zh) 一种文字域类型识别方法和文字域类型识别系统
CN104778164A (zh) 检测重复url的方法及装置
CN106372202A (zh) 文本相似度计算方法及装置
CN102646124A (zh) 一种自动识别地址信息的方法
CN109889471B (zh) 结构化查询语句sql注入检测方法和系统
CN101470699B (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN113360895A (zh) 站群检测方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant