CN106055664A - 一种基于用户评论的ugc垃圾内容过滤方法及系统 - Google Patents

一种基于用户评论的ugc垃圾内容过滤方法及系统 Download PDF

Info

Publication number
CN106055664A
CN106055664A CN201610389812.9A CN201610389812A CN106055664A CN 106055664 A CN106055664 A CN 106055664A CN 201610389812 A CN201610389812 A CN 201610389812A CN 106055664 A CN106055664 A CN 106055664A
Authority
CN
China
Prior art keywords
user
comment
data
mapping relations
ugc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610389812.9A
Other languages
English (en)
Other versions
CN106055664B (zh
Inventor
梁传明
漆仁
尹鹏达
刘雪飘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610389812.9A priority Critical patent/CN106055664B/zh
Publication of CN106055664A publication Critical patent/CN106055664A/zh
Application granted granted Critical
Publication of CN106055664B publication Critical patent/CN106055664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于用户评论的UGC垃圾内容过滤方法,包括以下步骤:将发表正文数据的用户作为第一用户,将发表评论数据的用户作为第二用户,判断所述第一用户与第二用户是否为同一聚类,若是,则对所述评论数据进行分析,判断所述评论数据是否为垃圾内容,若是,则删除用户生产内容,所述用户生产内容包括正文数据和所有评论数据。相应地,本发明还公开了一种基于用户评论的UGC垃圾内容过滤系统。本发明方法及系统可以针对正文和评论进行一体化打击,能够识别并有力打击看似正常的垃圾内容,对垃圾内容实现有效管控,提高平台的生态健康和用户体验。

Description

一种基于用户评论的UGC垃圾内容过滤方法及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种基于用户评论的UGC垃圾内容过滤方法及系统。
背景技术
UGC(User Generated Content,用户生产内容)是当前国际主流媒体兴起的一种思路,即在编辑的规范和指导下,把内容的产生过程交付到用户手上,让用户获得主语权。每一个UGC内容平台在发展壮大之后,必然伴随着垃圾内容的滋生和成长。这些垃圾内容主要包括色情、广告、欺诈等。如果不能有效管控,垃圾内容的泛滥将严重影响平台的生态健康、用户体验,甚至危及平台的生存。
基于文本内容,通过机器学习手段,对正文进行分类并识别出垃圾内容。这种手段已经被广泛用于各大内容平台上。用户在发表新的内容之后,可以立刻通过事先训练好的分类模型判断其是否为垃圾内容。这种方法实现简单,对于有着明显文本特征的正文来说有着非常不错的效果。
然而,对抗的双方都会不断进化。实践中发现,恶意用户发明了一些新的形式来规避这种基于正文文本的打击。在这些形式中,正文通常并没有包括明显的恶意特征,甚至看起来非常健康,通过吸引人的故事,漂亮的图片吸引其他用户浏览与互动,而垃圾部分则被转移至评论。
例如,某社区帖子的正文为漂亮图片以及具有文艺气息的文本,从帖子正文来看,完全无法看得出这是一个护肤类的广告贴。然而,发帖者通过优质的图文引起读者的兴趣之后,通过小号的问答形式,在评论中打了一个非常明显的护肤类广告。此类广告形式已经在某些社区内产品中大量出现,对社区生态、用户体验,甚至用户的个人利益都造成了很大的伤害,需要有效的打击方法。然而目前的主流做法是针对正文和评论单独进行打击,对于这种形式的垃圾帖子无法成功识别。
针对正文的垃圾文本过滤在业界有着非常成熟的应用,基于图片内容的识别也在部分平台上有了尝试。此外,基于用户关系链的垃圾内容打击也在一些社交型内容平台上有应用。但是所有这些都是基于内容本身或者是用户维度的,对于本文所描述的新的垃圾内容形式无法做到有效打击。
发明内容
为了解决上述技术问题,本发明提供了一种基于用户评论的UGC垃圾内容过滤方法,包括以下步骤:
将发表正文数据的用户作为第一用户,将发表评论数据的用户作为第二用户,判断所述第一用户与第二用户是否为同一聚类,若是,则对所述评论数据进行分析,判断所述评论数据是否为垃圾内容,若是,则删除用户生产内容,所述用户生产内容包括正文数据和所有评论数据。
本发明方法中的第二用户在狭义上仅仅代表发表评论的第二用户,在广义上包括第一用户和第二用户,广义上的第二用户包括针对第二用户的评论进行回复的第一用户,此时第一用户则作为第二用户。在本发明中当判断第一用户与第二用户之间的互动是否频繁时,使用的是狭义上的第二用户,当判断第二用户与第二用户之间的互动是否频繁时,使用的是广义上的第二用户。另外,在本发明内容中没有注明是为狭义上的第二用户还是广义上的第二用户时,均为狭义上的第二用户。
进一步地,所述判断所述第二用户与第一用户是否为同一聚类的方法为:若所述第一用户和第二用户满足以下条件,则判断所述第一用户与第二用户是同一聚类:
所述第一用户与第二用户为同一用户,
所述第一用户与第二用户的登陆位置相同或基本相同,或
所述第一用户与第二用户或第二用户与第二用户之间的互动频繁。
进一步地,所述判断所述第一用户与第二用户是否为同一聚类之前还包括:
获取第一用户的用户信息和发表的正文数据,所述第一用户的用户信息包括第一用户的用户ID,所述正文数据包括正文内容和与正文内容对应的正文ID;建立第一用户的用户ID和正文ID的第一映射关系;存储第一用户的用户信息、第一映射关系和正文数据;
获取第二用户的用户信息和发表的评论数据,所述第二用户的用户信息包括第二用户的用户ID,所述评论数据包括评论内容;建立第二用户的用户ID和正文ID的第二映射关系;存储第二用户的用户信息、第二映射关系和评论数据。
进一步地,若所述第二用户为新用户,则根据所述新用户的注册信息判断所述新用户与所述第一用户是否为同一聚类。
进一步地,所述判断所述第一用户与第二用户是否为同一聚类,还包括:
若不是同一聚类,则丢弃第二用户的用户信息和第二映射关系。
进一步地,所述判断所述评论数据是否为垃圾内容,还包括:
若不是垃圾内容,则丢弃所述评论数据、第二用户的用户信息和第二映射关系。
进一步地,所述方法还包括:
在预设时间内,若所有第二用户发表的评论数据没有出现垃圾内容,则丢弃用户生产内容,所述用户生产内容包括第一用户的用户信息、第一映射关系、第二用户的用户信息和第二映射关系。其中,该处的第二用户则为广义上的第二用户。
相应地,本发明还提供了一种基于用户评论的UGC垃圾内容过滤系统,所述系统包括判断模块,
所述判断模块,用于将发表正文数据的用户作为第一用户,将发表评论数据的用户作为第二用户,判断所述第一用户与第二用户是否为同一聚类,若是,则对所述评论数据进行分析,判断所述评论数据是否为垃圾内容,若是,则删除用户生产内容,所述用户生产内容包括正文数据和所有评论数据。
进一步地,所述系统还包括获取模块、关系建立模块和存储模块,
所述获取模块,用于获取第一用户的用户信息和发表的正文数据,所述第一用户的用户信息包括第一用户的用户ID,所述正文数据包括正文内容和与正文内容对应的正文ID;还用于获取第二用户的用户信息和发表的评论数据,所述第二用户的用户信息包括第二用户的用户ID,所述评论数据包括评论内容;
所述关系建立模块,用于在建立第一用户的用户ID和正文ID的第一映射关系;还用于建立第二用户的用户ID和正文ID的第二映射关系;
所述存储模块,用于第一用户的用户信息、第一映射关系和正文数据;还用于存储第二用户的用户信息、第二映射关系和评论数据。
进一步地,所述判断模块,还用于:
若判断不是同一聚类,则丢弃第二用户的用户信息和第二映射关系;
若判断所述评论数据不是垃圾内容,则丢弃所述评论数据、第二用户的用户信息和第二映射关系;
若判断在预设时间内,所有第二用户发表的评论数据没有出现垃圾内容,则丢弃用户生产内容,所述用户生产内容包括第一用户的用户信息、第一映射关系、第二用户的用户信息和第二映射关系。其中,该处的第二用户则为广义上的第二用户。
本发明的基于用户评论的UGC垃圾内容过滤方法及系统,具有如下有益效果:
1、本发明方法及系统可以针对正文和评论进行一体化打击,对垃圾内容的识别精度高,首先确定第一用户与第二用户之间的关系,若为同一聚类,则判断同一聚类中第二用户的评论数据是否为垃圾内容,若为垃圾内容,则直接删除帖子,能够识别并有力打击看似正常的垃圾内容,对垃圾内容实现有效管控,提高平台的生态健康和用户体验。
2、本发明方法及系统能够有效打击第一用户利用小号发布垃圾内容的情况,对第一用户的小号、“托”以及垃圾内容识别精度都非常高,不仅判断第二用户与第一用户的关系,还判断第二用户与第二用户之间的关系,即便第一用户本身不发布垃圾内容,而利用小号进行发布,也会被识别出,进一步提高了平台的生态健康和用户体验,用时对垃圾内容实现了有效管控。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例一的基于用户评论的UGC垃圾内容过滤方法的流程图;
图2是本发明实施例一中的用户A发表的帖子正文效果图;
图3是本发明实施例一中的用户A发表的帖子正文中未显示部分的效果图;
图4是本发明实施例一中的用户C和D发表的评论效果图;
图5是本发明实施例三的基于用户评论的UGC垃圾内容过滤系统的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本发明提供了一种基于用户评论的UGC垃圾内容过滤方法,包括以下步骤:
S101、离线收集评论数据,并进行特征提取,通过机器学习方法进行训练,建立分类模型;
具体为:离线收集用户评论数据的正负样本,其中,正样本为垃圾评论,负样本为正常评论,评论数据包括但不限于文本、图片、视频等形式。提取正负样本中的相应特征,通过朴素贝叶斯算法进行训练;
从正样本和负样本中构成分类器,学习正负样本的结构和CPT,例如,正样本中的垃圾评论的特征包括但不限于“皮肤”c1、“最美俏佳人”c2、“美女”c3、“激情”c4、“代理”c5、“优惠券”c6、“有奖销售”c7、“处理”c8、“削价”c9,将上述特征进行归一化处理,将“皮肤”c1和“最美俏佳人”c2归为“护肤”广告x1,将“美女”c3和“激情”c4归为“色情”内容x2,将“代理”c5和“优惠券”c6归为“代理”广告x3,将“有奖销售”c7、“处理”c8和“削价”c9归为“欺诈”广告x4,则c1-c9可以构成类集合C,所述类集合归一化后组成一组节点X,即贝叶斯网络中包含类结点C,其中,C的取值来自于类集合(c1,c2,c3,c4…,c9),X的取值为(x1,x2,…,x4);与正样本的学习方式相同,负样本也通过朴素贝叶斯算法进行训练,从而建立分类模型。
S102、在发帖用户成功发表新帖子之后,后台服务器建立发帖用户ID和正文ID的第一映射关系,并存储所述新帖子的正文数据和所述第一映射关系,其中,正文ID即为帖子的正文ID;
在所述评论用户发表评论数据后,建立所述评论用户ID和正文ID的第二映射关系,并存储评论数据和所述第二映射关系,考虑到打击的时效性和服务器存储能力,只缓存最近N个小时(例如最近48个小时)的帖子发表的数据。
S103、对用户进行聚类,得到用户聚类结果,所述用户包括第一用户和若干第二用户,所述第一用户发表正文数据,所述第二用户发表评论数据,本实施例中的第一用户为发帖用户,第二用户为评论用户;
具体为:根据用户属性、行为,如用户ID、用户名称,用户注册时的其他资料信息,以及该用户与其他用户之间的互动等行为,对用户进行聚类,使得符合以下情况中任意一种的用户被聚类到同一类中:
1)发帖用户在真实世界中与评论用户为同一用户;
是否为用一用户,可以根据用户在注册时填写的资料或用户ID等信息进行判断,例如,发帖用户使用一个或多个小号,而该一个或多个小号与发帖用户在真实世界中实际上是同一个人。
2)所述发帖用户与评论用户的登陆位置基本相同或相同;
例如,A为发帖用户,B、C和D都是评论用户,若A、B、C和D用户的登陆位置都是在X处,或登陆IP相近,则该A、B、C和D用户可以被认为是同一聚类;
3)所述发帖用户与评论用户或评论用户与评论用户之间的互动频繁。
例如,A为发帖用户,B、C和D都是评论用户,若A与B、C和D中的任意一个或多个之间的互动非常频繁,互动包括浏览、评论、点赞、转发等行为,则B、C和D中的任意一个或多个非常有可能是A的“托”,则将B、C和D中的任意一个或多个与A归为同一聚类;
若B与C和D中的任意一个或两个之间的互动非常频繁,则B、C和D中的任意一个或多个非常有可能是A的“托”,或者B、C和D都有可能是A的小号,则将B、C和D中的任意一个或多个与A归为同一聚类。
S104、实时监控基于该帖子的用户评论,对于出现新的评论,则执行以下步骤:
S1041、若判断该用户评论是否为最近N个小时内的,若是在最近N个小时之前,则直接丢弃该数据并结束,否则,执行步骤S1042;
S1042、判断用户是否为新注册用户,若是,则执行步骤S1043,否则,根据离线的用户聚类结果,检查评论用户与发帖用户是否处于同一聚类中,若不在同一聚类中,则丢弃该数据并结束,否则,执行步骤S1044;
S1043、根据新用户在注册时填写的资料、登陆信息等,例如登陆IP、移动设备码等,对用户进行在线聚类,聚类有两种情况,一种是分配到已有的聚类中,另一种是自成一个新的聚类,若不在同一聚类中,则丢弃该数据并结束,否则转步骤S1044;
S1044、利用离线训练的评论分类模型,对评论内容进行分类,判断评论内容是否为垃圾内容,若不是,则丢弃该数据并结束,否则,转步骤S1045;
S1045、将正文标识为垃圾内容,进行下架处理,即删除用户生产内容UGC,其中,所述用户生产内容UGC包括正文数据和所有评论数据,同时将存储的所有用户信息和用户ID与正文ID的映射关系移除,防止历史数据占用内存过大。
例如,只缓存最近48小时内帖子数据,A为发帖用户,B、C和D都是评论用户,其中C为新注册用户,其他都为老用户,C在注册时登陆地址与A基本相同,B、C和D均与A互动很频繁,且他们发表的内容都是在48小时内的;
如图2和图3所示,A发表帖子的正文为一张美女图片和一句话,该句话的内容为“心若没有栖息的地方,到哪都是流浪。有些人一直没有机会见,等有机会见了,却又犹豫了,相见不如不见。有些话埋葬在心中好久,没有机会说,等有机会说的时候,却说不出口了。有些爱一直没有机会爱,等有机会了,已经不爱,真的不爱了吗?”;
B发表的评论内容为“彩虹的美丽,让我们都学会了坚强,坚强面对突如其来的爱情”;
如图4所示,C与A的其中一段对话为:C发表评论“姐姐好漂亮,皮肤真好,怎么保养的,好羡慕你啊,有没有什么秘方啊?”,A回复“谢谢夸奖啊,我也没有什么秘方,就是在最美俏佳人节目里认识一个达人,她教我的”;
D与A的其中一段对话为:D发表评论“我也好羡慕姐姐,皮肤真好,能否告诉我那位达人的联系方式啊?”,A回复“好吧,我告诉你们吧,她的QQ号为207864681,你看还能加上不?”;
按照发表评论的时间先后顺序依次执行本实施例方法,例如,先对A执行下述1)-3)的步骤,再对B执行下述1)-3)的步骤,再对C执行下述1)-3)的步骤,最后对D执行下述1)-3)的步骤,为了方便,下面就没有区分先后顺序,在一个方法中统一描述:
1)A、B、C和D发表的内容都是在48小时内的;
2)B、C和D中C属于新注册用户,则对于C,根据C在注册时填写的资料,以及登陆IP等信息,对C进行在线聚类,由于C在注册时登陆地址与A基本相同,则将C分配到已有的聚类中,即C与A属于同一聚类;
对于B和D,根据离线的用户聚类结果,B和D均与A互动很频繁,则将B和D分配到已有的聚类中,即B和D与A属于同一聚类;
判断完B、C和D的聚类之后,则对于B、C和D用户执行下一步骤;
3)利用离线训练的分类模型,对A、B、C和D的评论内容进行分类;
通过判断,B为正常内容,则丢弃B的评论内容,并结束;
通过判断,A、C和D的评论内容为垃圾内容,则将正文标识为垃圾内容,进行下架处理,即删除用户生产内容UGC,其中,所述用户生产内容UGC包括正文数据和所有评论数据,同时将存储的所有用户信息和用户ID与正文ID的映射关系移除,防止历史数据占用内存过大。
另外,还可以设置定时器或自动超时机制,对于在预设时间内没有出现垃圾评论的帖子,从内存中清除基于该帖子的用户生产内容UGC。
本发明实施例中的评论内容包括发帖用户对评论用户的回复和评论用户发表的评论,所以评论用户也属于广义上的评论用户,评论用户包括上述情况的发帖用户和评论用户,狭义上的评论用户仅指发表评论的用户。
本发明实施例中的基于用户评论的UGC垃圾内容过滤方法具有如下有益效果:本发明方法可以针对帖子正文和评论进行一体化打击,对垃圾内容的识别精度高,首先确定发帖用户与评论用户之间的关系,若为同一聚类,则判断同一聚类中评论用户的评论数据是否为垃圾内容,若为垃圾内容,则直接删除帖子,能够识别并有力打击看似正常的垃圾内容,对垃圾内容实现有效管控,提高平台的生态健康和用户体验。
实施例二:
本发明实施例与实施例一的区别在于:
本发明实施例在对样本进行训练时是通过神经网络算法进行训练,建立分类模型的。
例如,只缓存最近72小时内的帖子数据,A为发帖用户,B、C、D和E都是评论用户,其中B为新注册用户,其他都为老用户,根据B注册时的信息与登录IP等能够确定其与A不属于同一聚类,C在现实世界中与A是同一个用户,具体为C为A的小号,D和E与A的登陆位置基本相同或D和E与C的登陆位置基本相同,且与C的互动很频繁,但是与A的互动不频繁,所有这些用户发表的内容都是在48小时内的;
A发表帖子的正文为一段新闻和与该段话相关的图片,该段话的内容为“XX食药监局关于复原乳标注不醒目的通知引发热议”,图片的内容是市场上卖的各类牛奶的加工工艺以及如何挑选优质好牛奶;
B发表的评论内容为“我中招了,之前喝过好多都是什么乳、什么调制奶的,原来都算是饮料,不是牛奶”;
C与A的其中一段对话为:C发表评论“我之前喝过XX奶,是国外进口的,且价格也非常合理,我们一家人还到他们加工牛奶的工厂看过,非常安全,喝起来放心”;
D与C的其中一段对话为:D发表评论“现在市场上卖的都不放心啊,你喝的XX奶,在哪买的啊?”,C回复“好牛奶就要广泛推广,你可以到XX网站XX店购买”;
E与C的其中一段对话为:E发表评论“我们家刚在XX网站XX店购买了,正好赶上活动,第二件半价呢,非常划算,最重要的是,奶源很好啊”,C回复“还有活动,现在还有吗?正好我家的奶喝完了,去看看”;
按照发表评论的时间先后顺序依次执行本实施例方法,例如,先对A执行下述1)-3)的步骤,再对B执行下述1)-3)的步骤,再对C执行下述1)-3)的步骤,最后对D执行下述1)-3)的步骤,为了方便,下面就没有区分先后顺序,在一个方法中统一描述:
1)A、B、C、D和E发表的内容都是在48小时内的;
2)B、C、D和E中B属于新注册用户,则对于B,根据B在注册时填写的资料,以及登陆IP等信息,对B进行在线聚类,根据B注册时的信息与登录IP等能够确定其与A不属于同一聚类,则直接丢弃B的数据,并结束;
对于C、D和E,根据离线的用户聚类结果,由于C为A的小号,则C与A属于同一聚类,由于D和E与A的登陆位置基本相同或D和E与C的登陆位置基本相同,则D和E与A也属于同一聚类或D和E与C属于同一聚类;即当判断出C为A的小号或者“托”的时候,则可以将C作为A执行实施例一中的S102步骤,判断D和E与C是否为同一聚类;
3)利用离线训练的分类模型,对C、D和E的评论内容进行分类;
通过判断,C、D和E的评论内容为垃圾内容,则将正文标识为垃圾内容,进行下架处理,即删除用户生产内容UGC,其中,所述用户生产内容UGC包括正文数据和所有评论数据,同时将存储的所有用户信息和用户ID与正文ID的映射关系移除,防止历史数据占用内存过大;
或者删除C、D和E的评论内容的评论内容,同时移除C、D和E的用户信息和用户ID与正文ID的映射关系移除。
本发明实施例中的基于用户评论的UGC垃圾内容过滤方法具有如下有益效果:本发明方法有效打击发帖用户利用小号发布垃圾内容的情况,对发帖用户的小号、“托”以及垃圾内容识别精度都非常高,不仅判断评论用户与发帖用户的关系,还判断评论用户与评论用户之间的关系,即便发帖用户本身不发布垃圾内容,而利用小号进行发布,也会被识别出,进一步提高平台的生态健康和用户体验,用时对垃圾内容实现了有效管控。
实施例三:
相应地,如图5所示,本发明还提供了一种基于用户评论的UGC垃圾内容过滤系统,所述系统包括模型建立模块、聚类模块、判断模块、获取模块、关系建立模块和存储模块,
所述模型建立模块,用于离线收集评论数据,并进行特征提取,通过机器学习方法进行训练,建立分类模型;
具体地:所述模型建立模块,用于离线收集用户评论数据的正负样本,其中,正样本为垃圾评论,负样本为正常评论,评论数据包括但不限于文本、图片、视频等形式。提取正负样本中的相应特征,通过朴素贝叶斯算法进行训练;
所述模型建立模块,用于从正样本和负样本中构成分类器,学习正负样本的结构和CPT,例如,正样本中的垃圾评论的特征包括但不限于“皮肤”c1、“最美俏佳人”c2、“美女”c3、“激情”c4、“代理”c5、“优惠券”c6、“有奖销售”c7、“处理”c8、“削价”c9,将上述特征进行归一化处理,将“皮肤”c1和“最美俏佳人”c2归为“护肤”广告x1,将“美女”c3和“激情”c4归为“色情”内容x2,将“代理”c5和“优惠券”c6归为“代理”广告x3,将“有奖销售”c7、“处理”c8和“削价”c9归为“欺诈”广告x4,则c1-c9可以构成类集合C,所述类集合归一化后组成一组节点X,即贝叶斯网络中包含类结点C,其中,C的取值来自于类集合(c1,c2,c3,c4…,c9),X的取值为(x1,x2,…,x4);与正样本的学习方式相同,负样本也通过朴素贝叶斯算法进行训练,从而建立分类模型。
所述聚类模块,用于对用户进行聚类,得到用户聚类结果,所述用户包括第一用户和若干第二用户,所述第一用户发表正文数据,所述第二用户发表评论数据,本实施例中的第一用户为发帖用户,第二用户为评论用户;
具体为:所述聚类模块,用于根据用户属性、行为,如用户ID、用户名称,用户注册时的其他资料信息,以及该用户与其他用户之间的互动等行为,对用户进行聚类,使得符合以下情况中任意一种的用户被聚类到同一类中:
1)发帖用户在真实世界中与评论用户为同一用户;
是否为用一用户,可以根据用户在注册时填写的资料或用户ID等信息进行判断,例如,发帖用户使用一个或多个小号,而该一个或多个小号与发帖用户在真实世界中实际上是同一个人。
2)所述发帖用户与评论用户的登陆位置基本相同或相同;
例如,A为发帖用户,B、C和D都是评论用户,若A、B、C和D用户的登陆位置都是在X处,或登陆IP相近,则该A、B、C和D用户可以被认为是同一聚类;
3)所述发帖用户与评论用户或评论用户与评论用户之间的互动频繁。
例如,A为发帖用户,B、C和D都是评论用户,若A与B、C和D中的任意一个或多个之间的互动非常频繁,互动包括浏览、评论、点赞、转发等行为,则B、C和D中的任意一个或多个非常有可能是A的“托”,则将B、C和D中的任意一个或多个与A归为同一聚类;
若B与C和D中的任意一个或两个之间的互动非常频繁,则B、C和D中的任意一个或多个非常有可能是A的“托”,或者B、C和D都有可能是A的小号,则将B、C和D中的任意一个或多个与A归为同一聚类。
所述获取模块,用于获取第一用户的用户信息和发表的正文数据,所述第一用户的用户信息包括第一用户的用户ID,所述正文数据包括正文内容和与正文内容对应的正文ID;还用于获取第二用户的用户信息和发表的评论数据,所述第二用户的用户信息包括第二用户的用户ID,所述评论数据包括评论内容;
所述关系建立模块,用于在发帖用户成功发表新帖子之后,后台服务器建立发帖用户ID和正文ID的第一映射关系;
所述存储模块,用于存储所述新帖子的正文数据和所述第一映射关系,其中,内容为帖子,则正文ID即为帖子ID;
所述关系建立模块,还用于在所述评论用户发表评论数据后,建立所述评论用户ID和正文ID的第二映射关系;
所述存储模块,还用于存储评论数据和所述第二映射关系,考虑到打击的时效性和服务器存储能力,只缓存最近N个小时(例如最近48个小时)的帖子发表的数据。
所述判断模块,还用于对于出现新的评论,判断该用户评论是否为最近N个小时内的,若是在最近N个小时之前,则直接丢弃该数据并结束,否则,判断用户是否为新注册用户,
若是新注册用户,则根据新用户在注册时填写的资料、登陆信息等,例如登陆IP、移动设备码等,对用户进行在线聚类,聚类有两种情况,一种是分配到已有的聚类中,另一种是自成一个新的聚类,若不在同一聚类中,则丢弃该数据并结束,否则,利用离线训练的评论分类模型,对评论内容进行分类,判断评论内容是否为垃圾内容,若不是,则丢弃该数据并结束,否则,将正文标识为垃圾内容,进行下架处理,即删除用户生产内容UGC,其中,所述用户生产内容UGC包括正文数据和所有评论数据,同时将存储的所有用户信息和用户ID与正文ID的映射关系移除,防止历史数据占用内存过大。
若不是新注册用户,根据离线的用户聚类结果,检查评论用户与发帖用户是否处于同一聚类中,若不在同一聚类中,则丢弃该数据并结束,否则,利用离线训练的评论分类模型,对评论内容进行分类,判断评论内容是否为垃圾内容,若不是,则丢弃该数据并结束,否则,将正文标识为垃圾内容,进行下架处理,即删除用户生产内容UGC,其中,所述用户生产内容UGC包括正文数据和所有评论数据,同时将存储的所有用户信息和用户ID与正文ID的映射关系移除,防止历史数据占用内存过大。
另外,还可以设置定时器或自动超时机制,对于在预设时间内没有出现垃圾评论的帖子,从内存中清除基于该帖子的用户生产内容UGC。
本发明实施例中的评论内容包括发帖用户对评论用户的回复和评论用户发表的评论,所以评论用户也属于广义上的评论用户,评论用户包括上述情况的发帖用户和评论用户,狭义上的评论用户仅指发表评论的用户。
本发明实施例中的基于用户评论的UGC垃圾内容过滤系统具有如下有益效果:本发明系统可以针对帖子正文和评论进行一体化打击,对垃圾内容的识别精度高,首先确定发帖用户与评论用户之间的关系,若为同一聚类,则判断同一聚类中评论用户的评论数据是否为垃圾内容,若为垃圾内容,则直接删除帖子,能够识别并有力打击看似正常的垃圾内容,对垃圾内容实现有效管控,提高平台的生态健康和用户体验。
在另一实施例中,第一用户发表的正文内容可以包括文章、用户发表的状态等等。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基于用户评论的UGC垃圾内容过滤方法,其特征在于,包括以下步骤:
将发表正文数据的用户作为第一用户,将发表评论数据的用户作为第二用户,判断所述第一用户与第二用户是否为同一聚类,若是,则对所述评论数据进行分析,判断所述评论数据是否为垃圾内容,若是,则删除用户生产内容,所述用户生产内容包括正文数据和所有评论数据。
2.根据权利要求1所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述第二用户与第一用户是否为同一聚类的方法为:若所述第一用户和第二用户满足以下条件,则判断所述第一用户与第二用户是同一聚类:
所述第一用户与第二用户为同一用户,
所述第一用户与第二用户的登陆位置相同或基本相同,或
所述第一用户与第二用户或第二用户与第二用户之间的互动频繁。
3.根据权利要求1或2所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述第一用户与第二用户是否为同一聚类之前还包括:
获取第一用户的用户信息和发表的正文数据,所述第一用户的用户信息包括第一用户的用户ID,所述正文数据包括正文内容和与正文内容对应的正文ID;建立第一用户的用户ID和正文ID的第一映射关系;存储第一用户的用户信息、第一映射关系和正文数据;
获取第二用户的用户信息和发表的评论数据,所述第二用户的用户信息包括第二用户的用户ID,所述评论数据包括评论内容;建立第二用户的用户ID和正文ID的第二映射关系;存储第二用户的用户信息、第二映射关系和评论数据。
4.根据权利要求3所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,若所述第二用户为新用户,则根据所述新用户的注册信息判断所述新用户与所述第一用户是否为同一聚类。
5.根据权利要求4所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述第一用户与第二用户是否为同一聚类,还包括:
若不是同一聚类,则丢弃第二用户的用户信息和第二映射关系。
6.根据权利要求4所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述判断所述评论数据是否为垃圾内容,还包括:
若不是垃圾内容,则丢弃所述评论数据、第二用户的用户信息和第二映射关系。
7.根据权利要求4-6中任意一项所述的基于用户评论的UGC垃圾内容过滤方法,其特征在于,所述方法还包括:
在预设时间内,若所有第二用户发表的评论数据没有出现垃圾内容,则丢弃用户生产内容,所述用户生产内容包括第一用户的用户信息、第一映射关系、第二用户的用户信息和第二映射关系。
8.一种基于用户评论的UGC垃圾内容过滤系统,其特征在于,所述系统包括判断模块,
所述判断模块,用于判断所述第一用户与第二用户是否为同一聚类,若是,则对所述评论数据进行分析,判断所述评论数据是否为垃圾内容,若是,则删除用户生产内容,所述用户生产内容包括正文数据和所有评论数据,所述第一用户为发表正文数据的用户,所述第二用户为发表评论数据的用户。
9.根据权利要求8所述的基于用户评论的UGC垃圾内容过滤系统,其特征在于,所述系统还包括获取模块、关系建立模块和存储模块,
所述获取模块,用于获取第一用户的用户信息和发表的正文数据,所述第一用户的用户信息包括第一用户的用户ID,所述正文数据包括正文内容和与正文内容对应的正文ID;还用于获取第二用户的用户信息和发表的评论数据,所述第二用户的用户信息包括第二用户的用户ID,所述评论数据包括评论内容;
所述关系建立模块,用于在建立第一用户的用户ID和正文ID的第一映射关系;还用于建立第二用户的用户ID和正文ID的第二映射关系;
所述存储模块,用于第一用户的用户信息、第一映射关系和正文数据;还用于存储第二用户的用户信息、第二映射关系和评论数据。
10.根据权利要求8或9所述的基于用户评论的UGC垃圾内容过滤系统,其特征在于,所述判断模块,还用于:
若判断不是同一聚类,则丢弃第二用户的用户信息和第二映射关系;
若判断所述评论数据不是垃圾内容,则丢弃所述评论数据、第二用户的用户信息和第二映射关系;
若判断在预设时间内,所有第二用户发表的评论数据没有出现垃圾内容,则丢弃用户生产内容,所述用户生产内容包括第一用户的用户信息、第一映射关系、第二用户的用户信息和第二映射关系。
CN201610389812.9A 2016-06-03 2016-06-03 一种基于用户评论的ugc垃圾内容过滤方法及系统 Active CN106055664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610389812.9A CN106055664B (zh) 2016-06-03 2016-06-03 一种基于用户评论的ugc垃圾内容过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610389812.9A CN106055664B (zh) 2016-06-03 2016-06-03 一种基于用户评论的ugc垃圾内容过滤方法及系统

Publications (2)

Publication Number Publication Date
CN106055664A true CN106055664A (zh) 2016-10-26
CN106055664B CN106055664B (zh) 2019-03-08

Family

ID=57170045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610389812.9A Active CN106055664B (zh) 2016-06-03 2016-06-03 一种基于用户评论的ugc垃圾内容过滤方法及系统

Country Status (1)

Country Link
CN (1) CN106055664B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446969A (zh) * 2016-12-01 2017-02-22 北京小米移动软件有限公司 用户识别的方法及装置
CN107481037A (zh) * 2017-07-24 2017-12-15 北京京东尚科信息技术有限公司 原生广告插播方法和装置
CN108632639A (zh) * 2017-03-23 2018-10-09 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN113630336A (zh) * 2021-07-19 2021-11-09 上海德衡数据科技有限公司 基于光互联的数据分流方法及系统
CN114245163A (zh) * 2021-12-15 2022-03-25 四川启睿克科技有限公司 一种过滤机器人弹幕的方法
CN115168677A (zh) * 2022-06-09 2022-10-11 天翼爱音乐文化科技有限公司 一种评论分类方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510879A (zh) * 2009-03-26 2009-08-19 腾讯科技(深圳)有限公司 一种垃圾内容过滤的方法及装置
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
CN102541887A (zh) * 2010-12-20 2012-07-04 上海杉达学院 Bbs论坛管理系统
CN104281665A (zh) * 2014-09-25 2015-01-14 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法
US20150381539A1 (en) * 2012-01-25 2015-12-31 Bitdefender IPR Management Ltd. Systems and Methods for Spam Detection Using Frequency Spectra of Character Strings

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510879A (zh) * 2009-03-26 2009-08-19 腾讯科技(深圳)有限公司 一种垃圾内容过滤的方法及装置
CN102541887A (zh) * 2010-12-20 2012-07-04 上海杉达学院 Bbs论坛管理系统
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
US20150381539A1 (en) * 2012-01-25 2015-12-31 Bitdefender IPR Management Ltd. Systems and Methods for Spam Detection Using Frequency Spectra of Character Strings
CN104281665A (zh) * 2014-09-25 2015-01-14 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置
CN105183715A (zh) * 2015-08-31 2015-12-23 南京大学 一种基于词分布和文档特征的垃圾评论自动分类方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446969A (zh) * 2016-12-01 2017-02-22 北京小米移动软件有限公司 用户识别的方法及装置
CN106446969B (zh) * 2016-12-01 2020-06-19 北京小米移动软件有限公司 用户识别的方法及装置
CN108632639A (zh) * 2017-03-23 2018-10-09 北京小唱科技有限公司 一种视频类型判断方法及服务器
CN107481037A (zh) * 2017-07-24 2017-12-15 北京京东尚科信息技术有限公司 原生广告插播方法和装置
CN107481037B (zh) * 2017-07-24 2021-01-26 北京京东尚科信息技术有限公司 原生广告插播方法和装置
CN113630336A (zh) * 2021-07-19 2021-11-09 上海德衡数据科技有限公司 基于光互联的数据分流方法及系统
CN113630336B (zh) * 2021-07-19 2024-07-12 上海德衡数据科技有限公司 基于光互联的数据分流方法及系统
CN114245163A (zh) * 2021-12-15 2022-03-25 四川启睿克科技有限公司 一种过滤机器人弹幕的方法
CN114245163B (zh) * 2021-12-15 2023-06-09 四川启睿克科技有限公司 一种过滤机器人弹幕的方法
CN115168677A (zh) * 2022-06-09 2022-10-11 天翼爱音乐文化科技有限公司 一种评论分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106055664B (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN106055664A (zh) 一种基于用户评论的ugc垃圾内容过滤方法及系统
CN110909176B (zh) 数据推荐方法、装置、计算机设备以及存储介质
CN108595494B (zh) 答复信息的获取方法及装置
CN103793484B (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
Du et al. Understanding visual memes: An empirical analysis of text superimposed on memes shared on twitter
CN105069654A (zh) 一种基于用户识别的网站实时/非实时营销投放方法及系统
CN106294590B (zh) 一种基于半监督学习的社交网络垃圾用户过滤方法
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN106997549A (zh) 一种广告信息的推送方法及系统
CN108665064A (zh) 神经网络模型训练、对象推荐方法及装置
CN108427708A (zh) 数据处理方法、装置、存储介质和电子装置
CN106886518A (zh) 一种微博账号分类的方法
CN102567534B (zh) 互动产品用户生成内容拦截系统及其拦截方法
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN103544188A (zh) 移动互联网内容的用户偏好推送方法与装置
CN105589845B (zh) 垃圾文本识别方法、装置及系统
CN107563343A (zh) 基于人脸识别技术的FaceID数据库的自我完善方法和系统
CN110309114A (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN106506327A (zh) 一种垃圾邮件识别方法及装置
CN110472057B (zh) 话题标签的生成方法及装置
CN105160545A (zh) 投放信息样式确定方法及装置
CN110113634A (zh) 一种信息互动方法、装置、设备及存储介质
CN104270304A (zh) 一种图像邮件的检测分析方法
CN103177129A (zh) 互联网实时信息推荐预测系统
CN108109004A (zh) 相似人群扩展方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant