CN104008105A - 一种识别垃圾文本的方法和装置 - Google Patents
一种识别垃圾文本的方法和装置 Download PDFInfo
- Publication number
- CN104008105A CN104008105A CN201310058680.8A CN201310058680A CN104008105A CN 104008105 A CN104008105 A CN 104008105A CN 201310058680 A CN201310058680 A CN 201310058680A CN 104008105 A CN104008105 A CN 104008105A
- Authority
- CN
- China
- Prior art keywords
- text
- signature
- rubbish
- sample storehouse
- difference degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种识别垃圾文本的方法和装置。该方法包括:预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息,采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度;根据所述差异程度识别待处理文本是否为垃圾文本;其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。应用本发明能够提高垃圾文本的召回率。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种识别垃圾文本的方法和装置。
背景技术
在互联网络中常常充斥着各种垃圾文本,例如垃圾评论信息等,如何识别出这些垃圾文本是目前急需解决的一个技术问题。
目前,一般根据敏感词库来识别垃圾文本,具体地:
预先根据已经确定的垃圾文本建立敏感词库,对于待处理文本,判断该待处理文本中是否出现了敏感词库中的词,如果是,则将该待处理文本识别为垃圾文本,否则,将该待处理文本识别为非垃圾文本。
可见,目前根据敏感词库来识别垃圾文本的方法存在以下的缺陷:
有些垃圾文本会通过不断变换关键词,来避免与敏感词库中的敏感词相同,例如,当某用户发送了垃圾广告评论“各种化妆品,尽在我的淘宝店”时,敏感词库编辑人员将“淘宝店”加入到敏感词库中,然而,当用户将评论内容改成“各种化妆品,尽在我的淘宝商店”,由于“淘宝商店”并不在敏感词库中,因此将导致敏感词库失效,即将本应为垃圾文本的“各种化妆品,尽在我的淘宝商店”识别为了非垃圾文本。
因此,目前识别垃圾文本的方法的垃圾文本召回率较低。
发明内容
本申请提供了一种识别垃圾文本的方法和装置,能够提高垃圾文本的召回率。
一种识别垃圾文本的方法,该方法包括:
预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息,
采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度;
根据所述差异程度识别待处理文本是否为垃圾文本;
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
一种识别垃圾文本的装置,该装置包括样本库模块、差异程度确定模块和识别模块;
所述样本库模块,用于存储预先采用签名算法计算出的垃圾文本的签名信息;
所述差异程度确定模块,用于采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库模块中存储的签名信息之间的差异程度;
所述识别模块,用于根据所述差异程度识别待处理文本是否为垃圾文本;
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
由上述技术方案可见,本发明通过在样本库中存储垃圾文本的签名,计算待处理文本的签名,而且计算垃圾文本的签名和计算待处理文本的签名所采用的签名算法针对不同文本计算出的签名能够反映不同文本之间的差异程度信息,因此,通过确定待处理文本的签名与样本库中存储的签名信息之间的差异程度,根据所述差异程度能够识别待处理文本是否为垃圾文本。
由于本发明根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本,因此,即便待处理文本与垃圾文本不完全一致,只要两者的差异程度满足预定的条件,本发明也能够将所述待处理文本识别为垃圾文本,因此能够大大提高垃圾文本的召回率。
附图说明
图1是本发明提供的识别垃圾文本的方法流程图。
图2是本发明提供的识别垃圾文本的装置结构图。
具体实施方式
图1是本发明提供的识别垃圾文本的方法流程图。
如图1所示,该方法包括:
步骤101,预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息。
步骤102,采用所述签名算法计算待处理文本的签名。
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
步骤103,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度。
步骤104,根据所述差异程度识别待处理文本是否为垃圾文本。
可见,由于图1所示方法根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本,因此,即便待处理文本与垃圾文本不完全一致,只要两者的差异程度满足预定的条件,图1所示方法也能够将所述待处理文本识别为垃圾文本,因此能够大大提高垃圾文本的召回率。
其中,所采用的签名算法可以是SIMHASH签名算法,也可以是MINHASH签名算法。
其中,具体可以通过计算待处理文本的签名与垃圾文本的签名之间的汉明距离来确定待处理文本的签名与垃圾文本的签名之间的差异程度。
其中,所述汉明距离是两个等长字符串对应位置的字符不同的个数。比如,字符串A=”A1B2C3D4”与字符串B=“A2B1C3D4”的汉明距离为:2,所以汉明距离可以衡量字符串之间的相似度,即汉明距离越小,字符串相似度越高。
因此,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度具体可以包括:
将待处理文本的签名和样本库中存储的签名信息转换为位数相同的二进制数,计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。
具体地,可以在将垃圾文本的签名信息存储在样本库中时,将垃圾文本的签名转换为目标位数的二进制数,在样本库中直接存储所述二进制数,在对待处理文本进行处理时,先采用计算垃圾文本签名的签名算法计算待处理文本的签名,然后将待处理文本的签名转换为目标位数的二进制数,由于样本库中存储的签名信息就是目标位数的二进制数,因此,可以将由待处理文本的签名转换得到的二进制数与样本库中存储的二进制数直接进行逐条比较(一个垃圾文本的签名转换得到的二进制数为一条二进制数),从而计算待处理文本的签名与垃圾文本的签名信息之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。
也可以将由签名算法计算得到的垃圾文本签名直接存储在样本库中,在对待处理文本进行处理时,先采用计算垃圾文本签名的签名算法你计算待处理文本的签名,然后将待处理文本的签名转换为目标位数的二进制数,将样本库中的签名也转换为目标位数的二进制数,然后计算由待处理文本的签名转换得到的目标位数二进制数与由垃圾文本的签名转换得到的目标位数二进制数的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。
其中,所述目标位数可以是32位,也可以是64位。
在根据所述差异程度识别待处理文本是否为垃圾文本时,如果由待处理文本中字符串的签名转换得到的二进制数与由样本库中存储的签名转换得到的二进制数之间的汉明距离小于预定值,则可以将所述待处理文本识别为垃圾文本。
当然,也可以在所述汉明距离的基础上,进一步结合其他条件判断待处理文本是否为垃圾文本。
为了提高本发明提供的识别垃圾文本的方法适应垃圾文本变化的能力,本发明还提出,在将待处理文本识别为垃圾文本之后,可以将识别为垃圾文本的待处理文本的签名信息存储在所述样本库中,从而实现样本库的自动更新,进而能够随着垃圾文本的变化而识别新的垃圾文本。
下面举一个具体的例子,对本发明提供的识别垃圾文本的方法进行示例性介绍。
在该例子中,预先对历史垃圾评论进行人工分拣,并计算分拣出的垃圾评论内容的签名,根据所述签名形成一个垃圾评论的样本库,即在样本库中存储SIM(A1),SIM(A2)…SIM(Ai)…SIM(An),其中,SIM(A1)、SIM(A2)…SIM(An)为采用32位二进制数存储的垃圾评论内容A1、A2…An的SIMHASH值。
当某用户发送了一条评论B,首先计算出该评论的SIMHASH值:SIM(B),然后将SIM(B)与垃圾评论的样本库中的SIMHASH值逐条比较,从而计算出评论B与垃圾评论库中各个评论SIMHASH值的汉明距离。
例如:样本库中有三条垃圾样本A1,A2和A3的签名,且签名值的十进制数分别为4074509321、3506987401、2495694113,假设评论B的SIMHASH值的十进制数为:SIM(B)=2433245321,那么它与A1、A2、A3的汉明距离分别为下表所示:
SIMHASH | 十进制数 | 二进制值 | 与SIM(B)汉明距离 |
SIM(B) | 2433245321 | 10010001000010000110000010001001 | 0 |
SIM(A1) | 4074509321 | 11110010110111000001010000001001 | 13 |
SIM(A2) | 3506987401 | 11010001000010000110000110001001 | 2 |
SIM(A3) | 2495694113 | 10010100110000010100010100100001 | 12 |
当评论B的32位二进制SIMHASH值与样本库中某条32位二进制SIMHASH值的汉明距离小于预定值时,可以认为评论B与某个历史垃圾评论的相似度极高,因此可以将评论B识别为垃圾评论。其中,所述预定值可以依据经验而定,例如可以取为3,则在上表中,由于SIM(B)与SIM(A2)的汉明距离为2,所以可以判定评论B为垃圾评论。
其中,本发明所述的垃圾文本包括但不限于垃圾评论信息。
根据本发明提供的识别垃圾文本的方法,本发明还提供了一种识别垃圾文本的装置,具体请参见图2。
图2是本发明提供的识别垃圾文本的装置结构图。
如图2所示,该装置包括样本库模块201、差异程度确定模块202和识别模块203。
样本库模块201,用于存储预先采用签名算法计算出的垃圾文本的签名信息。
差异程度确定模块202,用于采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库模块201中存储的签名信息之间的差异程度。
识别模块203,用于根据所述差异程度识别待处理文本是否为垃圾文本。
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
其中,差异程度确定模块202,用于将待处理文本的签名和样本库模块中存储的签名信息转换为位数相同的二进制数,计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度。
其中,所述汉明距离是两个等长字符串对应位置的字符不同的个数。
识别模块203,用于在由待处理文本中字符串的签名转换得到的二进制数与由样本库模块中存储的签名转换得到的二进制数之间的汉明距离小于预定值时,将所述待处理文本识别为垃圾文本。
该装置还可以包括样本更新模块。
所述样本更新模块,用于将识别为垃圾文本的待处理文本的签名信息存储在所述样本库模块中。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种识别垃圾文本的方法,其特征在于,该方法包括:
预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息,
采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度;
根据所述差异程度识别待处理文本是否为垃圾文本;
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
2.根据权利要求1所述的方法,其特征在于,所述确定待处理文本的签名与样本库中存储的签名信息之间的差异程度包括:
将待处理文本的签名和样本库中存储的签名信息转换为位数相同的二进制数,计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度;
其中,所述汉明距离是两个等长字符串对应位置的字符不同的个数。
3.根据权利要求2所述的方法,其特征在于,根据所述差异程度识别待处理文本是否为垃圾文本包括:
在由待处理文本中字符串的签名转换得到的二进制数与由样本库中存储的签名转换得到的二进制数之间的汉明距离小于预定值时,将所述待处理文本识别为垃圾文本。
4.根据权利要求3所述的方法,其特征在于,将所述待处理文本识别为垃圾文本之后,该方法还包括:
将识别为垃圾文本的待处理文本的签名信息存储在所述样本库中。
5.根据权利要求2至4任一权利要求所述的方法,其特征在于,所述位数相同的二进制数为32位二进制数或64位二进制数。
6.根据权利要求1所述的方法,其特征在于,所述签名算法包括SIMHASH签名算法、或者MINHASH签名算法。
7.一种识别垃圾文本的装置,其特征在于,该装置包括样本库模块、差异程度确定模块和识别模块;
所述样本库模块,用于存储预先采用签名算法计算出的垃圾文本的签名信息;
所述差异程度确定模块,用于采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库模块中存储的签名信息之间的差异程度;
所述识别模块,用于根据所述差异程度识别待处理文本是否为垃圾文本;
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
8.根据权利要求7所述的装置,其特征在于,
所述差异程度确定模块,用于将待处理文本的签名和样本库模块中存储的签名信息转换为位数相同的二进制数,计算由待处理文本的签名转换得到的二进制数与由样本库中存储的签名信息转换得到的二进制数之间的汉明距离,将所述汉明距离作为待处理文本的签名与样本库中存储的签名信息之间的差异程度;
其中,所述汉明距离是两个等长字符串对应位置的字符不同的个数。
9.根据权利要求8所述的装置,其特征在于,
所述识别模块,用于在由待处理文本中字符串的签名转换得到的二进制数与由样本库模块中存储的签名转换得到的二进制数之间的汉明距离小于预定值时,将所述待处理文本识别为垃圾文本。
10.根据权利要求7所述的装置,其特征在于,该装置还包括样本更新模块;
所述样本更新模块,用于将识别为垃圾文本的待处理文本的签名信息存储在所述样本库模块中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310058680.8A CN104008105A (zh) | 2013-02-25 | 2013-02-25 | 一种识别垃圾文本的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310058680.8A CN104008105A (zh) | 2013-02-25 | 2013-02-25 | 一种识别垃圾文本的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104008105A true CN104008105A (zh) | 2014-08-27 |
Family
ID=51368764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310058680.8A Pending CN104008105A (zh) | 2013-02-25 | 2013-02-25 | 一种识别垃圾文本的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104008105A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445908A (zh) * | 2015-08-07 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 文本识别方法和装置 |
CN106897258A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种文本差异性的计算方法及装置 |
CN106909575A (zh) * | 2015-12-23 | 2017-06-30 | 北京国双科技有限公司 | 文本聚类方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1922837A (zh) * | 2004-05-14 | 2007-02-28 | 布赖特梅有限公司 | 基于相似性量度过滤垃圾邮件的方法和装置 |
WO2008053426A1 (en) * | 2006-10-31 | 2008-05-08 | International Business Machines Corporation | Identifying unwanted (spam) sms messages |
CN101600178A (zh) * | 2009-06-26 | 2009-12-09 | 成都市华为赛门铁克科技有限公司 | 垃圾信息确认方法和装置、终端 |
-
2013
- 2013-02-25 CN CN201310058680.8A patent/CN104008105A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1922837A (zh) * | 2004-05-14 | 2007-02-28 | 布赖特梅有限公司 | 基于相似性量度过滤垃圾邮件的方法和装置 |
WO2008053426A1 (en) * | 2006-10-31 | 2008-05-08 | International Business Machines Corporation | Identifying unwanted (spam) sms messages |
CN101600178A (zh) * | 2009-06-26 | 2009-12-09 | 成都市华为赛门铁克科技有限公司 | 垃圾信息确认方法和装置、终端 |
Non-Patent Citations (1)
Title |
---|
董博等: "基于多SimHash指纹的近似文本检测", 《小型微型计算机系统》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445908A (zh) * | 2015-08-07 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 文本识别方法和装置 |
CN106445908B (zh) * | 2015-08-07 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 文本识别方法和装置 |
CN106909575A (zh) * | 2015-12-23 | 2017-06-30 | 北京国双科技有限公司 | 文本聚类方法和装置 |
CN106909575B (zh) * | 2015-12-23 | 2020-07-31 | 北京国双科技有限公司 | 文本聚类方法和装置 |
CN106897258A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种文本差异性的计算方法及装置 |
CN106897258B (zh) * | 2017-02-27 | 2020-05-29 | 郑州云海信息技术有限公司 | 一种文本差异性的计算方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2013019869A3 (en) | Data fingerpringting for copy accuracy assurance | |
CN109597983B (zh) | 一种拼写纠错方法及装置 | |
EP2849097A3 (en) | A method for operating storage resources in an in-memory warehouse system | |
CN105224518A (zh) | 文本相似度的计算方法及系统、相似文本的查找方法及系统 | |
CN103544213A (zh) | 网站内容更新检测评价方法及系统 | |
CN109635084B (zh) | 一种多源数据文档实时快速去重方法及系统 | |
CN101833579B (zh) | 一种自动检测学术不端文献的方法及系统 | |
CN103679012A (zh) | 一种可移植可执行文件的聚类方法和装置 | |
CN104021179B (zh) | 一种大数据集下相似性数据的快速识别算法 | |
US20160299907A1 (en) | Stochastic document clustering using rare features | |
US20150347493A1 (en) | System and method for processing data | |
CN110909540B (zh) | 短信垃圾新词识别方法、装置及电子设备 | |
CN104008105A (zh) | 一种识别垃圾文本的方法和装置 | |
CN107085568A (zh) | 一种文本相似度判别方法及装置 | |
CN104360993A (zh) | 一种从文本提取所需内容的方法 | |
CN108462624B (zh) | 一种垃圾邮件的识别方法、装置以及电子设备 | |
CN109670153A (zh) | 一种相似帖子的确定方法、装置、存储介质及终端 | |
CN110427622A (zh) | 语料标注的评估方法、装置及存储介质 | |
CN104899201A (zh) | 文本提取方法、敏感词判定方法、装置和服务器 | |
CN113312611A (zh) | 密码检测方法、装置、设备和计算机可读存储介质 | |
CN103116729B (zh) | 一种便携设备数据自动导出方法及系统 | |
CN105260878A (zh) | 辅助定密方法和装置 | |
CN103530345A (zh) | 短文本特征扩展及拟合特征库构建方法、装置 | |
CN108052644A (zh) | 数据模式日志文件系统的数据写入方法及系统 | |
US10241708B2 (en) | Storage of a data chunk with a colliding fingerprint |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140827 |
|
RJ01 | Rejection of invention patent application after publication |