CN104462062B - 一种文本反垃圾的方法 - Google Patents

一种文本反垃圾的方法 Download PDF

Info

Publication number
CN104462062B
CN104462062B CN201410763791.3A CN201410763791A CN104462062B CN 104462062 B CN104462062 B CN 104462062B CN 201410763791 A CN201410763791 A CN 201410763791A CN 104462062 B CN104462062 B CN 104462062B
Authority
CN
China
Prior art keywords
text
user
transmitting terminal
sent
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410763791.3A
Other languages
English (en)
Other versions
CN104462062A (zh
Inventor
赵自翔
邹涛
陈飞舟
朱燕灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xishanju Interactive Entertainment Technology Co Ltd
Zhuhai Kingsoft Digital Network Technology Co Ltd
Original Assignee
Zhuhai Kingsoft Online Game Technology Co Ltd
Chengdu Xishanju Interactive Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Kingsoft Online Game Technology Co Ltd, Chengdu Xishanju Interactive Entertainment Technology Co Ltd filed Critical Zhuhai Kingsoft Online Game Technology Co Ltd
Priority to CN201410763791.3A priority Critical patent/CN104462062B/zh
Publication of CN104462062A publication Critical patent/CN104462062A/zh
Application granted granted Critical
Publication of CN104462062B publication Critical patent/CN104462062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种文本反垃圾的方法,所述方法当服务器接收到用户发送端发送的文本时,判断该用户发送端是否为信任用户,若为信任用户,则直接将该文本发送至用户接收端,否则,则将该用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比,以判断该文本是否为垃圾文本,若为垃圾文本,则屏蔽过滤,否则,将该文本发送至对应的用户接收端。本发明可快速有效过滤文本垃圾,同时采用用户举报的机制自动循环更新标准垃圾库,大大降低了人工成本和滞后性。

Description

一种文本反垃圾的方法
技术领域
本发明涉及游戏应用领域,特别是一种文本反垃圾的方法。
背景技术
游戏中的文字聊天是玩家的主要交流方式。随着游戏的日益发展,游戏内必然充斥着各种垃圾广告,严重影响玩家体验,更有甚者,一些垃圾广告会在游戏内宣扬一些影响社会健康的观点。
目前对这些游戏垃圾的过滤主要依靠人工封号,由于游戏角色的低成本性,仅靠人工封号对厂商来说不但成本太高,且滞后严重。因此,目前针对聊天文本本身的反垃圾机制需求迫切。
另一方面,与反垃圾的传统应用领域电子邮件行业不同,游戏内聊天是一种即时通信行为,即时性要求极大限制了反垃圾机制的复杂性。
发明内容
为解决上述问题,本发明的目的在于提供一种文本反垃圾的方法,快速有效过滤文本垃圾。
本发明解决其问题所采用的技术方案是:
一种文本反垃圾的方法,包括当服务器接收到用户发送端发送的文本时,判断该用户发送端是否为信任用户,若为信任用户,则直接将该文本发送至用户接收端,否则,则将该用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比,以判断该文本是否为垃圾文本,若为垃圾文本,则屏蔽过滤,否则,将该文本发送至对应的用户接收端。
进一步,采用simhash算法将用户发送端发送的文本转换为对应的文本信息指纹。
进一步,所述方法还包括:
所述用户接收端在接收到文本后,若其举报该文本,则根据筛选规则判断该文本是否为可信文本,当其为不可信文本时,则通过simhash算法将该不可信文本转换为对应的文本信息指纹并存储至标准垃圾库,以循环更新标准垃圾库。
进一步,所述筛选规则包括关键词、举报者等级、被举报者等级、该文本被举报次数以及该举报者被举报次数。
进一步,所述simhash算法具体包括:
提前采用大量的样本,计算hash落在每一位上的概率;
对于需要转换的文本,每一次投影仅在它投影到的位上加1,在投影过程结束时,计算每一位上的投影次数与该文本总投影次数的比值,大于采用样本提前计算的对应位概率时则置为1,否则置为0。
进一步,所述将用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比时,若两者之间的汉明距离小于规定的阈值时,则判定该文本为垃圾文本。
进一步,所述用户接收端设置有白名单,所述服务器接收到用户发送端发送的文本时,判断该发送端是否在用户接收端所设置的白名单当中,若在,则判断该用户发送端是否为信任用户。
本发明的有益效果是:
本发明采用一种文本反垃圾的方法,形成信息指纹的时间和空间复杂度都是常数级,速度更快;整个反垃圾过程是一个用户参与举报的迭代循环自制过程,不需要人工干预,充分降低成本;信息指纹具有一定的模糊抗干扰性,可解决垃圾广告制造者改变部分关键词逃避检测的分词方法缺陷。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明所述方法流程示意图;
图2是本发明所述simhash算法的流程示意图。
具体实施方式
参照图1所示,本发明提供了一种文本反垃圾的方法,包括当服务器接收到用户发送端发送的文本时,判断该用户发送端是否为信任用户,若为信任用户,则直接将该文本发送至用户接收端,否则,则将该用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比,以判断该文本是否为垃圾文本,若为垃圾文本,则屏蔽过滤,否则,将该文本发送至对应的用户接收端。
当服务端接收到用户发送端向接收端发送的文本时,需要判断该用户是否为信任用户并后续决定是否进行对应的文本过滤,以提高用户之间的通信体验。本发明在所述用户接收端设置有白名单,所述服务器接收到用户发送端发送的文本时,判断该发送端是否在用户接收端所设置的白名单当中,若在,则判断该用户发送端是否为信任用户。
若为信任用户,则可以直接将文本发送至用户接收端。若非信用用户,则需要判断发送的文本是否为垃圾文本,若为垃圾文本,则需要屏蔽过滤。本发明主要是针对游戏过程中的即时聊天,因此,方便快捷是首要目的,为减小计算量,提高即时通信的体验质量,本发明采用将用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比,以判断该文本是否为垃圾文本。
本发明采用simhash算法将用户发送端发送的文本转换为对应的文本信息指纹。
所述用户接收端在接收到文本后,有可能举报该文本,也可能不举报该文本,若其举报该文本,则根据筛选规则判断该文本是否为不可信文本,当其为不可信文本时,则通过simhash算法将该可信文本转换为对应的文本信息指纹并存储至标准垃圾库,以循环更新标准垃圾库。服务端接收到用户举报的文本时,必须预防有人恶意乱举报,否则可能造成严重后果。因此,必须对文本进行筛选,以判断该用户所举报的内容确实是可信(垃圾)文本,然后才能进行后续的处理。因此,本发明首先通过筛选规则进行判断(是否恶意举报等),当其为可信文本时,则进行后续处理,否则,直接丢弃。为方便筛选,所述筛选规则包括关键词、举报者等级、被举报者等级、该文本被举报次数以及该举报者被举报次数。
信息指纹的形成过程实际上是一个simhash形成的过程,为将文本与标准垃圾库中存储的文本信息指纹进行对比,必须采用simhash算法将该文本转换为对应的文本信息指纹后再将其与标准垃圾库中存储的文本信息指纹进行对比。所述将对应文本转换为对应的文本信息指纹后与标准垃圾库中存储的文本信息指纹进行对比时,若两者之间的汉明距离小于规定的阈值时,则判定该文本为垃圾文本并进行过滤。
标准垃圾库中事先可以包含有可用于对比的标准垃圾文本,这些文本均是以文本信息指纹的方式进行存储。但标准垃圾库并不可能存储所有的标准垃圾文本,因此,需要对标准垃圾库中存储的标准垃圾文本实时更新,正基于此,本发明在所述用户接收端在接收到文本后,若其举报该文本,则根据筛选规则判断该文本是否为可信文本,当其为可信文本时,则通过simhash算法将该可信文本转换为对应的文本信息指纹并存储至标准垃圾库,以循环更新标准垃圾库。
传统的simhash方式,每一次投影时,会对指纹的每一位都做一次加或者减的过程。以256位信息指纹为例,假如投影N次,需要做256*N次计算。而由于即时聊天的复杂性要求,本发明将这个过程进行如下简化:
提前采用大量的样本,计算hash落在每一位上的概率(这里实际上是频率,以AVG代表);
实际使用时,对于需要转换的文本,每一次投影仅在它投影到的位上加1,在投影过程结束时,计算每一位上的投影次数与该文本总投影次数的比值,大于AVG中的对应位概率时则置为1,否则置为0。
以长度为5的为例,于nilsimsa的传统算法不同,本发明不再做窗口平移全组合,仅仅选择长度为5范围内的新组合,形成特征参与投影过程。其使hash次数减少一半以上,同时又保持了所有组合的特征,大大提高了算法效率。
参照图2所示,其为一个文本字符串形成指定宽度为5、指纹长度为256bit的信息指纹的生成过程,其中,round n实质上是以n为基准,与前面最远的4个字符组合的一轮投影过程。在反垃圾领域,改变关键词(包括使用同音字、通假字、偏旁部首组合等)是垃圾制造者用来逃避分词和反垃圾机制的最常用手段,而从图2所形成信息指纹的过程中可以看到,改变部分关键词,对最后的结果影响十分有限,这种模糊适应性对改变部分关键词的垃圾信息仍然有效。
信息指纹具有simhash的局部敏感性。例如,以如下fp代表各文本信息指纹:
the cat sat on the mat àfp1=00110010110000000011110001111110
the cat sat on a mat àfp2=00110010100000000011100001111000
we all scream for ice cream àfp3=00111010101101010110101110011000
则两两之间的汉明距离为(fp1,fp2)=4,(fp1,fp3)=16以及(fp2,fp3))=12。显然,前两句之间更为相似。本发明的垃圾判断过程是一个文本信息指纹之间计算汉明距离的过程。对于一个文本信息指纹,计算它与标准垃圾库中的文本信息指纹两两间的汉明距离,当汉明距离小于一定阈值时,认为它们足够相似,即为垃圾。
有时,用户发送端发送的文本并非垃圾文本,因此,如果再进行过滤,则增加了服务器的处理负担,而且延迟了用户发送端与用户接收端之间的交流,为此,用户接收端可以设置有白名单(白名单的设置即相当于在该白名单内部的人之间可以直接通信),如好友名单,自定义白名单。对于白名单用户发来的信息,可直接放过;否则进入标准垃圾库进行判断。因此,本发明所述服务器接收到用户发送端发送的文本时,判断该发送端是否在用户接收端所设置的白名单当中,若在,则直接将用户发送端发送的文本发送至用户接收端。
本发明可及时有效屏蔽垃圾聊天信息,提高用户体验。本发明利用循环迭代的自动化策略,大大节省了人工封号等操作的成本,同时有效提高了反应效率,能更快地屏蔽新的垃圾信息。信息指纹在存储、传输和比较上都更方便简单,适用于对算法复杂度要求较高的应用场景;比起传统反垃圾技术的分词和贝叶斯方法,信息指纹不再以关键词的形式判断文本特征,而是以一串0或1二进制值记录,这种hash是不可逆的,在安全和保密性上更高;同时信息指纹具备一定程度的模糊抗干扰性,在垃圾制造者改变部分关键词的情况下仍然有效。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

Claims (3)

1.一种文本反垃圾的方法,其特征在于,包括当服务器接收到用户发送端发送的文本时,判断该用户发送端是否为信任用户,若为信任用户,则直接将该文本发送至用户接收端,
所述用户接收端在接收到文本后,若其举报该文本,则根据筛选规则判断该文本是否为可信文本,当其为不可信文本时,则通过simhash算法将该可信文本转换为对应的文本信息指纹并存储至标准垃圾库,以循环更新标准垃圾库;
所述simhash算法包括将用户发送端发送的文本转换为对应的文本信息指纹,提前采用大量的样本,计算hash落在每一位上的概率,对于需要转换的文本,每一次投影仅在它投影到的位上加1,在投影过程结束时,计算每一位上的投影次数与该文本总投影次数的比值,大于采用样本提前计算的对应位概率时则置为1,否则置为0,以及,对文本长度为5范围内进行新组合,并形成特征参与投影过程;
否则,则将该用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比,以判断该文本是否为垃圾文本,若为垃圾文本,则屏蔽过滤,否则,将该文本发送至对应的用户接收端,其中所述筛选规则包括关键词、举报者等级、被举报者等级、该文本被举报次数以及该举报者被举报次数。
2.根据权利要求1所述的方法,其特征在于,所述将用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比时,若两者之间的汉明距离小于规定的阈值时,则判定该文本为垃圾文本。
3.根据权利要求1所述的方法,其特征在于,所述用户接收端设置有白名单,所述服务器接收到用户发送端发送的文本时,判断该发送端是否在用户接收端所设置的白名单当中,若在,则判断该用户发送端是否为信任用户。
CN201410763791.3A 2014-12-11 2014-12-11 一种文本反垃圾的方法 Active CN104462062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410763791.3A CN104462062B (zh) 2014-12-11 2014-12-11 一种文本反垃圾的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410763791.3A CN104462062B (zh) 2014-12-11 2014-12-11 一种文本反垃圾的方法

Publications (2)

Publication Number Publication Date
CN104462062A CN104462062A (zh) 2015-03-25
CN104462062B true CN104462062B (zh) 2018-02-13

Family

ID=52908132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410763791.3A Active CN104462062B (zh) 2014-12-11 2014-12-11 一种文本反垃圾的方法

Country Status (1)

Country Link
CN (1) CN104462062B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878347A (zh) * 2017-04-28 2017-06-20 北京奇虎科技有限公司 信息处理方法、系统、移动终端和服务器
CN109584594A (zh) * 2018-11-23 2019-04-05 软通动力信息技术有限公司 一种违章停车智能控制系统及其方法
CN110502624A (zh) * 2019-08-13 2019-11-26 出门问问(武汉)信息科技有限公司 一种对话处理方法及电子设备
CN111651598A (zh) * 2020-05-28 2020-09-11 上海勃池信息技术有限公司 一种通过中心向量相似度匹配的垃圾文本审核装置和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309280A (zh) * 2008-06-23 2008-11-19 华为技术有限公司 信息过滤服务器、方法、系统及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564167A (zh) * 2004-04-04 2005-01-12 俞盛 对付垃圾邮件的方法
US7668920B2 (en) * 2006-03-01 2010-02-23 Fortinet, Inc. Electronic message and data tracking system
CN103037339B (zh) * 2012-12-28 2017-11-17 彩讯科技股份有限公司 一种基于“用户信誉度和短信垃圾度”的短信息过滤方法
CN103024746B (zh) * 2012-12-30 2015-06-17 清华大学 一种电信运营商垃圾短信处理系统及处理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101309280A (zh) * 2008-06-23 2008-11-19 华为技术有限公司 信息过滤服务器、方法、系统及终端

Also Published As

Publication number Publication date
CN104462062A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462062B (zh) 一种文本反垃圾的方法
JP5397947B2 (ja) 迷惑情報の判定方法およびシステム
US7716297B1 (en) Message stream analysis for spam detection and filtering
Rasool et al. Multi-label fake news detection using multi-layered supervised learning
US7949718B2 (en) Phonetic filtering of undesired email messages
US11082368B2 (en) Semi-automatic communication using chatbot and consultant device
US8307459B2 (en) Botnet early detection using hybrid hidden markov model algorithm
CN105808649B (zh) 一种搜索结果排序方法及其设备
US9537970B2 (en) Publisher-based message data caching in a publish-subscription environment
CN104640092B (zh) 识别垃圾短信的方法、客户端、云端服务器和系统
US20120296965A1 (en) Detecting potentially abusive action in an online social network
CN104899499B (zh) 基于互联网图片搜索的Web验证码生成方法
US20150148006A1 (en) System and Method for Crowd-Sourcing Mobile Messaging Spam Detection and Defense
US11010687B2 (en) Detecting abusive language using character N-gram features
US20150134663A1 (en) Method, apparatus, and computer-readable storage medium for grouping social network nodes
CN106792579A (zh) 一种彩信拦截方法及装置
CN104980402A (zh) 一种识别恶意操作的方法及装置
CN105376137B (zh) 一种即时通信方法和装置
CN104463556B (zh) 电子邮件正文引用信息的整理和发现方法及系统
CN101795273B (zh) 一种垃圾邮件过滤方法及装置
CN108734186A (zh) 自动退出即时通信会话群的方法、装置和系统
CN105808580B (zh) 一种基于先验模型的信息判定方法及设备
US20120215858A1 (en) Caching potentially repetitive message data in a publish-subscription environment
CN115391674B (zh) 网络社区虚假信息高效抑制方法及装置、设备、存储介质
CN105228115B (zh) 发送短信的方法、服务器与终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 519000 Room 102, 202, 302 and 402, No. 325, Qiandao Ring Road, Tangjiawan Town, high tech Zone, Zhuhai City, Guangdong Province, Room 102 and 202, No. 327 and Room 302, No. 329

Patentee after: Zhuhai Jinshan Digital Network Technology Co.,Ltd.

Patentee after: CHENGDU XISHANJU INTERACTIVE ENTERTAINMENT TECHNOLOGY Co.,Ltd.

Address before: 519000 Jinshan software building, 8 Lanshan lane, Jida Jingshan Hill Road, Zhuhai, Guangdong

Patentee before: ZHUHAI KINGSOFT ONLINE GAME TECHNOLOGY Co.,Ltd.

Patentee before: CHENGDU XISHANJU INTERACTIVE ENTERTAINMENT TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address