CN102567534B - 互动产品用户生成内容拦截系统及其拦截方法 - Google Patents
互动产品用户生成内容拦截系统及其拦截方法 Download PDFInfo
- Publication number
- CN102567534B CN102567534B CN201110457236.4A CN201110457236A CN102567534B CN 102567534 B CN102567534 B CN 102567534B CN 201110457236 A CN201110457236 A CN 201110457236A CN 102567534 B CN102567534 B CN 102567534B
- Authority
- CN
- China
- Prior art keywords
- content
- interception
- url
- user
- contact method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种互动产品用户生成内容拦截系统,包括拦截器、内容库、特征库以及操作平台和内容生成器。其中,拦截器用于将分析用户生成内容,并利用分析结果判断是否对用户生成内容进行拦截;内容库用于存储用户生成内容;特征库用来存储用户生成内容的特征数据;操作平台用于修改拦截结果、设置拦截参数以及查看拦截结果;内容生成器用于将经拦截器判断为不予拦截的用户生成内容发送给互动产品接口。
Description
技术领域
本发明涉及一种互动产品用户生成内容UGC(User Generated Content)拦截系统及其拦截方法,尤其涉及一种针对互联网互动产品的特点,对灌水及广告等信息进行准确拦截的拦截系统及其拦截方法,属于网络信息安全技术领域。
背景技术
互联网门户类网站每天都有大量的文章转载需求,并且对文章的质量要求很高。现有很多抓取系统可以满足这个需求,但是它们都困扰于下面三个问题:现阶段互联网互动产品层出不穷,从博客、论坛,到当今的微博、轻博客。越来越多的商家看好互动产品。但随着知名度越来越高,将会有很多不良分子利用互动产品时效性强,为追求自身利益大规模地灌水、发布广告帖。扰乱了互联网互动产品的正常运作。
目前,各个网站针对此情况一般都是采用如下的技术措施:
1.验证码方式:在发布环节中,用户需要填写验证码才可发布。一般验证码是只有人类才可判别的一串数字或英文字符。
但在实际使用中验证码方式有以下不足:
容易被破解:由于模式识别技术的深入研究,验证码破解器也随之产生。很多验证码在投入使用较短时间内就会被破解。恶意灌水依旧无法解决。
过于复杂:将验证码设置复杂,不仅数字、字母位置重叠,写法也变化极大。这样会导致用户在输入时出错率加大,降低用户使用体验。
可能被绕过:若产品存在技术漏洞,黑客根据漏洞,绕过验证码进行发布。
2.网友举报禁言灌水用户:对于恶意灌水帖,网友可以进行举报,每人可举报一次,当举报数超过一定数量时,对被举报用户进行禁言措施。此种方法需要活跃用户自发参与,但若灌水数量太大或马甲灌水,单凭网友力量很难解决。
3.注册时邮箱激活:用户注册时需要提供不重复的邮箱地址,并且到邮箱激活才可发布内容。此种方式使注册需要人工处理,增加灌水的成本。但是若用户申请若干免费邮箱,分别注册,以不同用户发布广告或灌水,此方法束手无策。
4.关键词拦截方式:使用常见广告词汇作为关键词,包含关键词禁止发布。此种方法只能处理低级广告,若出现词变形或绕关键词,则无法识别。
针对现有技术的种种不足,本发明针对互动产品的发布环节,根据用户生成内容拦截大量重复的恶意灌水、广告帖)。需要解决如下问题:
1.恶意灌水帖的自动识别及拦截;
2.误拦截时的恢复功能;
3.拦截尺度的可设置化。
发明内容
本发明所要解决的技术问题在于提供一种互动产品用户生成内容拦截系统及其拦截方法,可以对广告及灌水等不良信息进行自动拦截。
为实现上述的发明目的,本发明采用下述的技术方案:
一种互动产品用户生成内容拦截系统,其特征在于:
所述互动产品用户生成内容拦截系统包括拦截器、内容库、特征库以及操作平台和内容生成器;其中,
拦截器用于将分析用户生成内容,并利用分析结果判断是否对用户生成内容进行拦截;
内容库用于存储用户生成内容;
特征库用来存储用户生成内容的特征数据;
操作平台用于修改拦截结果、设置拦截参数以及查看拦截结果;
内容生成器用于将经拦截器判断为不予拦截的用户生成内容发送给互动产品接口。
所述拦截器包括:XML解析器、URL提取器、有效URL次数统计模块、联系方式提取器、联系方式次数统计模块、相似文章提取器、相似文章次数统计模块、拦截结果生成模块、数据记录模块、拦截输出模块、回查器以及回查输出模块。
所述特征库具有用于快速匹配文本相似度的相似度倒排索引,以及
用于存储URL内容以及URL出现次数的URL库,和
用于存储联系方式内容、联系方式种类以及联系方式出现次数的联系方式库。
所述内容库存储了具有ID、标题、用户名、内容、用户ID、发表时间、拦截结果以及拦截原因的数据表,表内数据只保存一段时间。
所述URL提取器使用正则表达式从解析后的数据中识别出所有URL;
所述有效URL次数统计模块对每个URL进行次数统计,取URL库数据,做如下计算:
查询URL白名单表,若属于白名单,标记所有URL为正常,跳过否则,从URL库取数据,记录所有URL出现次数的最大值。
所述联系方式提取器可以提取解析后的数据中存在的联系方式;
所述联系方式次数统计模块用于统计从联系方式库中得到所有联系方式出现次数的最大值。
所述相似文章提取器用于提取用户生成内容数据中的特征词,供相似文章次数统计进行分析和统计;
所述相似文章次数统计模块用于分析和统计与当前用户生成内容数据相似的文章最大个数。
所述拦截结果生成模块可以根据预先设置的拦截参数对上述几个统计模块产生的值进行评判,判断所述用户生成内容是否为灌水帖或广告帖;
所述数据记录模块用于将拦截记录、用户生成内容以及特征数据分别写入内容库和特征库;
所述回查器根据拦截结果及拦截原因回查并修改内容库,并将需屏蔽ID集合提交至回查输出模块。
所述拦截输出模块根据拦截结果生成模块的拦截结果发送允许发布或拒绝发布的指令;
所述回查输出模块整理回查器提交的需屏蔽ID集合,并发送操作指令。
一种互动产品用户生成内容拦截方法,基于如上述的互动产品用户生成内容拦截系统实现,其特征在于包括如下的步骤:
a.接收XML格式的用户生成内容;
b.对XML格式的用户生成内容进行解析;
c.提取出URL并进行有效URL次数统计;
d.提取出联系方式并进行联系方式次数统计;
e.提取相似文章并进行相似文章次数统计;
f.根据有效URL次数、联系方式次数和相似文章次数生成拦截结果;
g.更新内容库和特征库;
h.输出拦截结果;
i.输出不予拦截的用户生成内容,由互动产品发布。
可以根据需要查看和修改拦截结果、设置拦截参数以及设置URL白名单。
所述步骤c中使用正则表达式从解析后的数据中提取出所有URL。
所述步骤f中的有效URL次数、联系方式次数和相似文章次数各自具有预先设定的阀值,只要上述任何一项的次数超出阀值时,进行拦截。
所述步骤g中更新内容库和特征库,包括以下步骤:
将拦截记录、用户生成内容以及特征文本分别写入内容库和特征库。
利用本发明所提供的互动产品用户生成内容拦截系统及其拦截方法可以有效解决背景技术中提及的三个问题:
本发明提供的互动产品用户生成内容拦截系统及其拦截方法使用相似内容、URL、联系方式发布次数对用户生成内容判断是否拦截;具有回查机制,待发现某类内容有问题时,将之前出现的此类内容做屏蔽处理,若有误拦截情况,也可以便捷地恢复内容;通过对拦截参数进行设置可以对拦截尺度进行调整。
下面结合附图和具体实施方式对本发明作进一步的详细说明。
附图说明
图1为本发明所提供的互动产品用户生成内容拦截系统的整体结构示意图;
图2为本发明所提供的互动产品用户生成内容拦截系统的拦截器的结构以及运行流程示意图;
图3为本发明所提供的互动产品用户生成内容拦截系统的操作平台的操作流程示意图。
具体实施方式
为了提高本发明对不良信息的拦截效果,发明人对大量互联网互动产品中的灌水、广告帖进行了分析,发现灌水或广告帖包括以下特点的一点或几点:
1.多次发布:灌水者希望更多的人看到其内容,会在多个版块、重复发相同或相似内容。
2.留有联系方式:包括座机号、手机号、QQ号等。
3.留有链接:大部分灌水者/发布广告者会留下链接供网友点击。
本发明使用的技术有:
1.文本相似度计算
顾名思义,文本相似度为测量若干文本间的相似程度。一般需要使用到的有,停用词拦截、特征选择、加权、相似度测量方法。本发明中采用简化模式,要求匹配速度。故采用了倒排索引的方法来记录特征词。
2.停用词
即已被认定为没有必要收录的词。若使用这些词作为特征,对效果有负面影响。
如:?()不会一他的又
3.ICTCLAS分词
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology,ChineseLexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。
4.Struts2
Struts2是一个Java Web框架Struts的第二个版本。Struts 2是Struts的下一代产品。Struts 2以WebWork为核心,采用拦截器的机制来处理用户的请求,这样的设计也使得业务逻辑控制器能够与Servlet API完全脱离开,所以Struts 2可以理解为WebWork的更新产品。
如附图1所示,本发明所提供的互动产品用户生成内容拦截系统包括拦截器、内容库、特征库以及操作平台和内容生成器。
拦截器用于将分析用户生成内容,并利用分析结果判断是否对用户生成内容进行拦截;内容库用于存储用户生成内容;特征库用来存储用户生成内容的特征数据;操作平台用于修改拦截结果、设置拦截参数以及查看拦截结果;内容生成器用于将经拦截器判断为不予拦截的用户生成内容发送给互动产品接口。
以论坛为例,本发明为提升响应速度,减少不必要的网络交互时间及带宽浪费,会架设在论坛服务器集群中。当网友发布帖子或回复时,论坛系统将用户生成内容(UGC)数据整合成XML的格式,所述UGC数据包括标题、用户名、内容、发布时间、用户ID,以Post的方式发送到本发明公开的互动产品用户生成内容拦截系统的接口,经过短时间的响应,互动产品用户生成内容拦截系统即可直接返回判断结果及原因。若返回“允许发布”,论坛发布该帖子或回复;若返回“拒绝发布”,论坛可以直接不将内容入库,减少负载。同时拦截器会保留30天内的内容,若出现误判,可以及时恢复。
操作平台
使用Struts2架构,操作平台嵌入到互动产品运营平台中。
●修改拦截结果
对于被屏蔽内容,进行恢复。
由于被拦截,互动产品数据库内无此类被屏蔽内容数据。
用户若发现有内容被误拦截,可以提交恢复申请,由运营人员进行恢复。
页面可以按“标题”、“用户名”、“用户ID”、“发帖时间”、“状态”提供查询。
提交查询后,在内容库中进行搜索,显示结果,包括:标题、内容、发表时间、用户名。
通过勾选某个查询结果后点击提交按钮,恢复数据。恢复流程如下:
1.修改内容库中对应字段值;
2.调用内容生成器,发送内容至互动产品;
3.操作平台提示内容已上线。
●设置拦截参数
设置URL白名单:
添加、查询、修改URL白名单。
●设置时间及次数参数
初始设置:
主题:12小时内,相似内容不超过5次,相同URL不超过5次,相同联系方式不超过3次。
回复:12小时内,相似内容不超过15次,相同URL不超过8次,相同联系方式不超过5次。
运营人员可以根据互动产品运营情况调整参数设置。
●查看拦截效果
拦截效果包括总数、通过数、拦截数、相似度拦截数、URL拦截数、联系方式拦截数。
显示用户输入时间段内每日拦截效果。
如:
日期 | 总数 | 通过数 | 拦截数 | 相似度 | URL | 联系方式 |
2011-1-1 | 10000 | 5000(50%) | 5000(50%) | 3000(30%) | 2000(20%) | 2000(20%) |
2011-1-2 | 15000 | 6000(40%) | 9000(60%) | 6000(40%) | 3000(20%) | 4500(30%) |
内容生成器
1.将标题、用户名、用户ID、发帖时间、内容整理为XML格式;
2.发送至互动产品接口,提交上线请求。
互动产品收到来自内容生成器的数据后,按上线流程进行发布此内容,不需要拦截。
下面结合附图2,进行详细说明拦截器的构成和工作流程:
所述拦截器包括:XML解析器、URL提取器、联系方式提取器、联系方式次数统计模块、相似文章提取器、相似文章次数统计模块、拦截结果生成模块、数据记录模块、拦截输出模块、回查器、回查输出模块。
在接收到XML格式的UGC数据后,由XML解析器对上述UGC数据进行解析;
URL提取器使用正则表达式从解析后的数据中识别出所有URL;
然后对每个URL进行次数统计,取URL库(缓存)数据,做如下计算:
查询URL白名单表,若属于白名单,标记所有URL为正常,跳过否则,从URL库(缓存)取数据,记录所有URL出现次数的最大值,记为NURL;
联系方式提取器可以提取解析后的数据中可能存在的联系方式:
联系方式可能包括:QQ号、手机号、座机号,这些一般都是由数字组成的,考虑到阿拉伯数字有很多种变形,广告帖经常会发布变形的数字,如1可以变为:一、壹、one、①,需要对上述变形进行转换。
例如:
联系电话:①③⑧①①②③④⑤⑥⑦
订购热线:010-陆肆柒贰玖捌玖捌
扣&扣:5*9*7*3*3*8*8*2*8
手机号识别:
手机号有固定构成形式,故用正则表达式识别,步骤如下:
1.按照变形词表,将文本内所有变形数字转为原始数字(如①->1)去掉多余空格及符号;
2.使用正则表达式识别;
[^\\d]1[^\\d]{0,2}([3|5][^\\d]{0,2}[0-9]{1}|8[^\\d]{0,2}0|8[^\\d]{0,2}5
|8[^\\d]{0,2}6|8[^\\d]{0,2}7|8[^\\d]{0,2}8|8[^\\d]{0,2}9)[^\\d]{0,2}
([0-9][^\\d]{0,2}){7}[0-9][^\\d]
QQ号、座机号识别:
并不是所有连续数字就是联系方式,也有可能是身份证,中奖号等。所以,存在名称词表:{“Q”,“Q”},{“企”,“鹅”},{“电”,“话”},{“致”,“电”}等,用于标记数字串的名称,一般出现在连续6位以上(包括6位)数字串前。
1.按照变形词表,将文本内所有变形数字转为原始数字;(如①->1)
2.对于每个连续6位以上(包括6位)数字串,位置在检查数字串前的5位字符串是否顺序包含名称词表内容;(\\d[^\\d]{0,2}){5,}\\d
3.若存在,则标记为联系方式。
变形词表:
0,零,O,o,◎,0;
1,一,壹,①,I,1;
2,二,贰,②,II,2;
3,三,叁,③,III,3;
4,四,肆,④,IV,4;
5,五,伍,⑤,V,5;
6,六,陆,⑥,VI,6;
7,七,柒,⑦,VII,7;
8,八,捌,⑧,VIII,8;
9,九,玖,⑨,IX,9;
类别词表:
{″Q″,″Q″},{″腾″,″讯″},{″Q″,″″},{″订″,″购″}
{″滕″,″讯″},{″滕″,″迅″},{″腾″,″迅″},{″手″,″机″},
{″pho″,″ne″},{″电″,″话″},{″移动″,″电话″},{″群″,″号″},
{″座″,″机″},{″请″,″拨″},{″联系″,″方式″},{″扣″,″扣″},
{″企″,″鹅″},{″交″,″流″},{″联″,″系″},{″热″,″线″},
{″短″,″信″},{″专″,″线″}
联系方式次数统计模块用于统计从联系方式库(缓存)中得到所有联系方式出现最大次数,将此值记为NContact。
相似文章提取器用于提取UGC数据中的特征词,供相似文章次数统计进行分析和统计;
特征词是指:词频前20的动词、名词、形容词或方位词。
相似文章提取器执行的方法如下:
1.使用汉语词法分析系统ICTCLAS进行分词;
2.过滤所有词中的停用词;
3.提取出名词、动词、形容词、方位词;
4.提交至相似文章次数统计进行相似度分析、文本内容分类。
相似文章次数统计模块用于分析和统计与当前UGC数据相似的文章个数,记为NSimilar。
相似文章次数统计执行方法如下:
1.取词频前20的词集合;
2.若词数大于5,依次相似度倒排索引中查询,得到文本ID集合;否则跳出;
3.查看文本集合中词命中次数大于阈值的文章ID集合,取集合大小为NSimilar。
拦截结果生成模块可以根据预先设置的拦截参数对上述几个统计模块产生的值进行评判,判断所述用户生成内容是否为广告帖或灌水帖。
拦截结果生成模块的执行方式如下:
加载设置,对于主题、回复的评判程度不同。
主题:每12小时内
相似文章超过5次
或,相同URL超过5次
或,相同联系方式超过3次
则判定为拒绝发布,原因为相似文章过多/URL出现次数过高/联系方式出现次数过高。
回复:每12小时内
相似文章超过15次
或,相同URL超过8次
或,相同联系方式超过5次
则判定为拒绝发布,原因为相似文章过多/URL出现次数过高/联系方式出现次数过高。
拦截效果计算,记录总通过数、总拦截数、各种拦截原因的拦截数。
数据记录模块用于将拦截记录、被拦截的UGC内容以及特征文本分别写入内容库和特征库。
数据记录模块具体记录内容如下:
●向内容库写入ID,标题、用户名、内容、用户ID、发帖时间、拦截结果、拦截原因,为操作平台提供数据;
●向特征库-相似度倒排索引加入本文索引;
●向特征库-URL库新建URL或次数+1,及添加ID;
●向特征库-联系方式库新建联系方式或次数+1,及添加ID。
拦截输出模块根据拦截结果生成模块的拦截结果发送允许发布或拒绝发布的指令:
●允许发布返回allow;
●拒绝发布返回refuse+原因。
回查器根据拦截结果及拦截原因回查并修改内容库,并提交需屏蔽ID集合:
此线程为异步处理:
●若判定为正常内容,跳过此步;
●若判定为恶意灌水,执行如下步骤:
◆由于相似文章过多拦截:
1.利用相似文章ID集合,修改内容库对应拦截结果字段;
2.提交至回查输出模块。
◆由于URL次数过多:
1.查询URL库中此URL对应的ID集合;
2.修改内容库对应ID集合的拦截结果字段;
3.提交至回查输出模块。
◆由于联系方式次数过多:
1.查询联系方式库中此联系方式对应的ID集合;
2.修改内容库对应ID集合的拦截结果字段;
3.提交至回查输出模块。
回查输出模块整理回查器提交的需屏蔽ID集合,并发送操作指令:
1.ID集合排重;
2.从内容库中依次取ID对应的用户ID和发帖时间;
3.整理成XML格式(由于拦截前互动产品没有生成内容ID,所以本发明中没有内容ID。将用户ID和发帖时间提交给互动产品查询,由互动产品操作屏蔽内容);
4.发送至互动产品。
特征库:
■相似度倒排索引
存储方式:
词1:文本IDa,文本IDb,......
词2:文本IDc,文本IDd,......
用于快速匹配文本相似度。
■URL库:使用缓存结构,存储内容为
●URL内容(如“http://www.abcd.com”)
●出现次数
■联系方式库:使用缓存结构,存储内容为
●联系方式内容(如“13811234567”)
●联系方式种类(如“手机”)
●出现次数
内容库
使用MySQL存储,内容库只有content一个表,表内包括
表内数据只保留30天。
附图3说明了操作平台的操作流程:
修改拦截结果:
1.运营人员/版主登录,通过用户验证;
2.点击“修改拦截结果”,转入修改拦截结果页面;
3.使用用户ID、用户名、内容、发表时间或标题查询用户生成内容;
4.在搜索结果中选中需恢复的内容,点击提交按钮;
5.提示恢复成功。
设置拦截参数:
1.运营人员/版主登录,通过用户验证;
2.点击“设置拦截参数”,转入设置拦截参数页面;
3.点击需设置的频道,如论坛主题、论坛回复、博文等;
4.修改设置内容,包括12小时内相似文章最大发布次数、同URL最大发布次数、同联系方式最大发布次数,及URL白名单;
5.点击提交按钮完成设置修改。
查询拦截效果:
1.运营人员/版主登录,通过用户验证;
2.点击“查询拦截效果”,转入查询拦截效果页面;
3.根据日期选框选择需查询时间段,点击确定按钮;
4.按顺序显示时间段内每日拦截状况。包括通过数、拦截数、相似度拦截数、URL拦截数、联系方式拦截数。如下表:
日期 | 总数 | 通过数 | 拦截数 | 相似度 | URL | 联系方式 |
2011-1-1 | 10000 | 5000(50%) | 5000(50%) | 3000(30%) | 2000(20%) | 2000(20%) |
2011-1-2 | 15000 | 6000(40%) | 9000(60%) | 6000(40%) | 3000(20%) | 4500(30%) |
以下再次用两个示例说明拦截流程以及用户请求恢复流程:
示例1:论坛帖子拦截流程
标题:说说为什么你们都喜欢iPhone呢?
用户名:siiihua258
用户ID:536748
发帖时间:2011-11-24 16:47:10
内容:
这两天我一直在玩同一个抽奖的活动,中奖率100%,在网站上注册都会送QQ币,还有手机充值卡什么的,所以我就换了很多马甲帐号在不停的抽奖抽奖,嘿嘿。。。(活动地址:http://www.kgcchina.com),或联系QQ:5*4*4*2*3*7*4*7,奖品就是iPhone,想不通的是几乎所有的活动,大奖好像都是iPhone和ipad之类的,不明白为什么大家都这么喜欢?
系统运行步骤:
■接口:
接收XML格式的用户生成内容
■XML解析器:
对XML格式的用户生成内容进行解析
■URL提取器:
提取出URL:http://www.kgcchina.com。
■有效URL次数统计:
查看白名单,不在白名单内;
查看URL12小时内,次数4次。
■联系方式提取器
提取出联系方式:QQ 54423747。
■联系方式次数统计
查看联系方式12小时内,次数4次。
■相似文章次数统计
分词、停用词拦截、词性拦截、取词频前20、倒排索引中查询,获得文本ID集合:536450,536498,536712,536740。集合大小为4。
■拦截结果生成
由于论坛主题规则为:相似文章不超过5次,相同URL不超过5次,相同联系方式超过3次。
相似度数量=4<5,URL=4<5,联系方式=4>3
所以,结果为拒绝发布。
拦截效果计算,总拦截数+1,联系方式拦截数+1。
■数据记录
更新缓存:相似索引添加、URL库添加(并记录此文ID)、联系方式库添加(并记录此文ID)。
更新内容库:写入文本数据。
■拦截输出
Refuse。
联系方式发布过高。
■回查器&回查输出
原因为联系方式过高,在联系方式表取出54423747对应的ID集合。
536450,536498,536712,536740。
在内容库中查找对应ID的用户ID和发帖时间。发送至论坛接口,提示删除。
示例2:被拦截论坛回复恢复过程
标题:泸沽湖的另一面,原始的风光原始的美好!
用户名:绮荷
用户ID:123456
发布时间:2011-11-24 16:56:10
内容:去年年底自己去了一次云南的泸沽湖,真的好美.这次准备去下四川盐源的泸沽湖。
运行步骤:
1.用户提交恢复申请,提供用户名,标题关键词
2.运营人员在页面查询
3.确认帖子不应被拦截后,重新生成发布内容
4.后台将指定ID数据整合成XML
5.发送至论坛接口
6.论坛解析XML,上线内容
7.上线成功
利用本发明所提供的互动产品用户生成内容拦截系统及其拦截方法可以有效解决背景技术中提及的三个问题:
本发明提供的互动产品用户生成内容拦截系统及其拦截方法使用相似内容、URL、联系方式发布次数对用户生成内容判断是否拦截;具有回查机制,当发现某类内容有问题时,将之前出现的此类内容做屏蔽处理,若有误拦截情况,也可以便捷地恢复内容;通过对拦截参数进行设置可以对拦截尺度进行调整。
此外,本发明提供的互动产品用户生成内容拦截系统及其拦截方法还具备如下几个特点:
1.无法被破解:因为使用拦截的依据是内容。灌水过程中内容与历史内容肯定存在着一定的联系。这是灌水者无论如何都无法绕过的规则。
2.不需要人工参与拦截过程,时效性高:此处人工包括版主、编辑、网友,拦截过程完全由程序解决,响应速度在0.1s以下。不会出现帖子等待审核或需要网友参与拦截的情况。
3.提升用户体验:不需要使用验证码、邮箱激活等方式拦截发帖机。而可以让更多用户参与注册,发表内容也更快捷。提升产品体验。同时,恶意灌水减少,用户能够更好的进行互动。
4.误拦截率低:拦截内容准确率高,正常下,不会拦截普通用户发表的内容。
以上对本发明所提供的本发明提供的互动产品用户生成内容拦截系统及其拦截方法进行了详细的说明。对本领域的技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
Claims (8)
1.一种互动产品用户生成内容拦截系统,其特征在于:
所述互动产品用户生成内容拦截系统包括拦截器、内容库、特征库以及操作平台和内容生成器;其中,
拦截器用于分析用户生成内容,并利用分析结果判断是否对用户生成内容进行拦截;
内容库用于存储用户生成内容;
特征库用来存储用户生成内容的特征数据;
操作平台用于修改拦截结果、设置拦截参数以及查看拦截结果;
内容生成器用于将经拦截器判断为不予拦截的用户生成内容发送给互动产品接口;
其中,所述拦截器包括:XML解析器、URL提取器、有效URL次数统计模块、联系方式提取器、联系方式次数统计模块、相似文章提取器、相似文章次数统计模块、拦截结果生成模块、数据记录模块、拦截输出模块、回查器以及回查输出模块,
所述URL提取器使用正则表达式从解析后的数据中识别出所有URL;
所述有效URL次数统计模块对每个URL进行次数统计,取URL库数据,做如下计算:
查询URL白名单表,若属于白名单,标记所有URL为正常,跳过否则,从URL库取数据,记录所有URL出现次数的最大值;
所述联系方式提取器可以提取解析后的数据中存在的联系方式;
所述联系方式次数统计模块用于统计从联系方式库中得到所有联系方式出现次数的最大值;
所述相似文章提取器用于提取用户生成内容数据中的特征词,供相似文章次数统计进行分析和统计;
所述相似文章次数统计模块用于分析和统计与当前用户生成内容数据相似的文章最大个数;
所述拦截结果生成模块可以根据预先设置的拦截参数对上述几个统计模块产生的值进行评判,判断所述用户生成内容是否为广告帖或灌水帖;
所述数据记录模块用于将拦截记录、用户生成内容以及特征数据分别写入内容库和特征库;
所述回查器根据拦截结果及拦截原因回查并修改内容库,并将需屏蔽ID集合提交至回查输出模块;
所述拦截输出模块根据拦截结果生成模块的拦截结果发送允许发布或拒绝发布的指令;
所述回查输出模块整理回查器提交的需屏蔽ID集合,并发送操作指令。
2.如权利要求1所述的互动产品用户生成内容拦截系统,其特征在于:
所述特征库具有用于快速匹配文本相似度的相似度倒排索引,以及
用于存储URL内容以及URL出现次数的URL库,和
用于存储联系方式内容、联系方式种类以及联系方式出现次数的联系方式库。
3.如权利要求1所述的互动产品用户生成内容拦截系统,其特征在于:
所述内容库存储了具有ID、标题、用户名、内容、发表时间、拦截结果以及拦截原因的数据表,表内数据只保存一段时间。
4.一种互动产品用户生成内容拦截方法,其特征在于包括如下的步骤:
a.接收XML格式的用户生成内容;
b.对XML格式的用户生成内容进行解析;
c.提取出URL并进行有效URL次数统计;
d.提取出联系方式并进行联系方式次数统计;
e.提取相似文章并进行相似文章次数统计;
f.根据有效URL次数、联系方式次数和相似文章次数生成拦截结果;
g.更新内容库和特征库;
h.输出拦截结果;
i.输出不予拦截的用户生成内容,由互动产品发布。
5.如权利要求4所述的互动产品用户生成内容拦截方法,其特征在于:
可以根据需要查看和修改拦截结果、设置拦截参数以及设置URL白名单。
6.如权利要求4所述的互动产品用户生成内容拦截方法,其特征在于:
所述步骤c中使用正则表达式从解析后的数据中提取出所有URL。
7.如权利要求4所述的互动产品用户生成内容拦截方法,其特征在于:
所述步骤f中的有效URL次数、联系方式次数和相似文章次数各自具有预先设定的阀值,只要上述任何一项的次数超出阀值时,进行拦截。
8.如权利要求5所述的互动产品用户生成内容拦截方法,其特征在于:
所述步骤g中更新内容库和特征库,包括以下步骤:
将拦截记录、用户生成内容以及特征文本分别写入内容库和特征库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110457236.4A CN102567534B (zh) | 2011-12-31 | 2011-12-31 | 互动产品用户生成内容拦截系统及其拦截方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110457236.4A CN102567534B (zh) | 2011-12-31 | 2011-12-31 | 互动产品用户生成内容拦截系统及其拦截方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102567534A CN102567534A (zh) | 2012-07-11 |
CN102567534B true CN102567534B (zh) | 2014-02-19 |
Family
ID=46412933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110457236.4A Active CN102567534B (zh) | 2011-12-31 | 2011-12-31 | 互动产品用户生成内容拦截系统及其拦截方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102567534B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103685151B (zh) * | 2012-09-03 | 2018-05-22 | 腾讯科技(深圳)有限公司 | 账号单点登录保护方法及装置 |
CN104426685B (zh) * | 2013-08-21 | 2018-07-03 | 深圳市腾讯计算机系统有限公司 | 信息管理方法及装置 |
CN106815242A (zh) * | 2015-11-30 | 2017-06-09 | 腾讯科技(深圳)有限公司 | 文本资源数据检测方法和装置 |
RU2634173C1 (ru) * | 2016-06-24 | 2017-10-24 | Акционерное общество "Лаборатория Касперского" | Система и способ обнаружения приложения удалённого администрирования |
CN106599156B (zh) * | 2016-12-07 | 2019-05-21 | 国云科技股份有限公司 | 一种基于struts2拦截器的动态拦截器管理方法 |
CN107067330A (zh) * | 2017-03-24 | 2017-08-18 | 宇龙计算机通信科技(深圳)有限公司 | 一种信息处理方法、及服务器 |
CN109446301A (zh) * | 2018-09-18 | 2019-03-08 | 沈文策 | 一种相似文章的查找方法及装置 |
CN111524310B (zh) * | 2019-02-01 | 2022-05-10 | 关卡系统股份有限公司 | 智能警报管理 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1416644A (zh) * | 2000-11-09 | 2003-05-07 | 皇家菲利浦电子有限公司 | 基于内容过滤以限制重复出现的方法和系统 |
CN1592229A (zh) * | 2003-08-25 | 2005-03-09 | 微软公司 | 基于url的电子通讯和网页过滤 |
CN1681335A (zh) * | 2004-04-10 | 2005-10-12 | 乐金电子(中国)研究开发中心有限公司 | 多媒体短信服务中广告消息的拦截方法 |
CN101035128A (zh) * | 2007-04-18 | 2007-09-12 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
CN101075981A (zh) * | 2006-08-18 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 一种信息过滤的方法及装置 |
CN102208992A (zh) * | 2010-06-13 | 2011-10-05 | 天津海量信息技术有限公司 | 面向互联网的不良信息过滤系统及其方法 |
-
2011
- 2011-12-31 CN CN201110457236.4A patent/CN102567534B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1416644A (zh) * | 2000-11-09 | 2003-05-07 | 皇家菲利浦电子有限公司 | 基于内容过滤以限制重复出现的方法和系统 |
CN1592229A (zh) * | 2003-08-25 | 2005-03-09 | 微软公司 | 基于url的电子通讯和网页过滤 |
CN1681335A (zh) * | 2004-04-10 | 2005-10-12 | 乐金电子(中国)研究开发中心有限公司 | 多媒体短信服务中广告消息的拦截方法 |
CN101075981A (zh) * | 2006-08-18 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 一种信息过滤的方法及装置 |
CN101035128A (zh) * | 2007-04-18 | 2007-09-12 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
CN102208992A (zh) * | 2010-06-13 | 2011-10-05 | 天津海量信息技术有限公司 | 面向互联网的不良信息过滤系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102567534A (zh) | 2012-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102567534B (zh) | 互动产品用户生成内容拦截系统及其拦截方法 | |
CN110298547A (zh) | 风险评估方法、装置、计算机装置及存储介质 | |
CN107944718A (zh) | 一种企业政策评估系统及方法 | |
CN104765729B (zh) | 一种跨平台微博社区账户匹配方法 | |
CN113127746B (zh) | 基于用户聊天内容分析的信息推送方法及其相关设备 | |
CN105512938A (zh) | 一种基于用户长期使用行为的在线信用风险评估方法 | |
US20220172090A1 (en) | Data identification method and apparatus, and device, and readable storage medium | |
CN102349087A (zh) | 自动提供与捕获的信息例如实时捕获的信息关联的内容 | |
CN102110140A (zh) | 基于网络离散文本的舆情信息分析方法 | |
CN111327514B (zh) | 微信图文消息群发方法、系统、服务器及存储介质 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN102890698A (zh) | 微博话题标签自动化描述方法 | |
CN108053545A (zh) | 证件验真方法和装置、服务器、存储介质 | |
AU2019419891B2 (en) | System and method for spatial encoding and feature generators for enhancing information extraction | |
CN106598946A (zh) | 一种内容提取方法及装置 | |
CN109873813A (zh) | 文本输入异常监控方法、装置、计算机设备及存储介质 | |
CN112434501A (zh) | 工单智能生成的方法、装置、电子设备及介质 | |
CN115238688B (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
CN106055664A (zh) | 一种基于用户评论的ugc垃圾内容过滤方法及系统 | |
CN106910135A (zh) | 用户推荐方法及装置 | |
CN107341157A (zh) | 一种客服对话聚类方法和装置 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
KR101169444B1 (ko) | 2차원 코드 검색 및 저장 장치 | |
CN105574112A (zh) | 一种通信过程的评论信息处理方法及系统 | |
CN113705164A (zh) | 一种文本处理方法、装置、计算机设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |