CN103077172A - 一种挖掘作弊用户的方法与装置 - Google Patents

一种挖掘作弊用户的方法与装置 Download PDF

Info

Publication number
CN103077172A
CN103077172A CN 201110329423 CN201110329423A CN103077172A CN 103077172 A CN103077172 A CN 103077172A CN 201110329423 CN201110329423 CN 201110329423 CN 201110329423 A CN201110329423 A CN 201110329423A CN 103077172 A CN103077172 A CN 103077172A
Authority
CN
China
Prior art keywords
user
cheating
content
mark
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110329423
Other languages
English (en)
Other versions
CN103077172B (zh
Inventor
张发喜
陈洪亮
杨志峰
余衍炳
杨娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201110329423.4A priority Critical patent/CN103077172B/zh
Publication of CN103077172A publication Critical patent/CN103077172A/zh
Application granted granted Critical
Publication of CN103077172B publication Critical patent/CN103077172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种挖掘作弊用户的方法及装置。该方法包括:获取各用户表征信息;根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户。应用本发明,可以有效识别作弊用户、提高社区的反作弊效率。

Description

一种挖掘作弊用户的方法与装置
技术领域
本发明涉及计算机通信技术,特别涉及一种挖掘作弊用户的方法与装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分,例如,用户通过登录社区,发布信息或回复其他用户提出的问题,可以进行信息交流与共享并获取相应积分。其中,社区是指一种由个人或者组织构成的社会网络结构体系,该社会网络结构体系中的人或者组织通过一种或者多种关系进行关联,这些关系包含但不限于友谊关系、亲戚关系、共同兴趣关系、金钱往来关系、喜恶关系等。社区可以包含但不限于博客社区、微博社区、论坛社区、问答社区等。
在社区中,绝大多数社区用户通过社区,进行了有益的信息交流与共享,促进了社区的和谐发展,但也存在一些通过发表堆砌文字、广告或色情等内容,以增加自身曝光量或推广商品或进行网站宣传为目的的恶意用户,将这类用户称之为作弊用户,作弊用户对社区的环境、社区的和谐以及信息的传递产生非常恶劣的影响,从而降低了社区的信任度。因此,需要采用有效的反作弊方法识别作弊用户,以维护社区环境、保证信息的传递,使得反作弊在信息领域成为一个重要的研究方向。
现有的反作弊方法通常是基于网页链接分析结合检测隐藏技术进行,简要来说,通过分析网页的锚文本内容、锚文本链接、隐藏文本的内容等信息,将综合的这些信息作为网页是否作弊的表征信息,通过采用贝叶斯分类等方法计算这些表征信息,获取与预先设置的作弊网页(集)的关联强度,当获取的关联强度超过预先设定的关联强度阈值时,将该关联强度对应的网页作为作弊网页。也就是说,通过贝叶斯分类等方法分析网页的锚文本内容、锚文本链接、隐藏文本的内容等信息,按照如下公式进行计算:
P i = P ( c j | d i ) = P ( d i | c j ) P ( c j ) P ( d i ) ∝ P ( d i | c j ) P ( c j )
式中,pi为第i个网页的关联强度,即第i个网页的作弊概率;
di是第i个网页的表征信息;
cj的值是0或者1,其中1表示作弊,如果计算得到该网页的关联强度超过预先设定的关联强度阈值,则表明该网页为作弊网页。
由上述可见,现有的反作弊方法,通过分析网页内容来确定该网页是否为作弊网页,对于确定为作弊的网页,进行过滤或删除,但未能对创建作弊网页的作弊用户进行有效识别,该作弊用户可以继续通过创建其他作弊网页进行作弊,使得用户作弊的概率较大、反作弊的效率较低;进一步地,由于社区网页中数据链接(锚文本链接)普遍较少,通过公式判别容易漏过锚文本链接少的作弊网页,而且用户水平参差不齐,创建作弊数据代价小,例如,很容易使用某个热门关键词在一篇日志中进行堆砌作弊,作弊方法层出不穷,因此,利用现有网页的链接及隐藏内容难以有效的发现作弊用户,反作弊的效率不高。
发明内容
有鉴于此,本发明的主要目的在于提出一种挖掘作弊用户的方法,有效识别作弊用户、提高社区的反作弊效率。
本发明的另一目的在于提出一种挖掘作弊用户的装置,有效识别作弊用户、提高社区的反作弊效率。
为达到上述目的,本发明提供了一种挖掘作弊用户的方法,该方法包括:
获取各用户表征信息;
根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;
将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户。
所述用户表征信息包括用户发表内容、和/或,用户行为。
当所述用户表征信息包括用户发表内容时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括:
计算用户发表内容中各单次发表内容的作弊分数;
根据各单次发表内容的作弊分数计算用户发表内容的作弊分数。
所述计算用户发表内容中各单次发表内容的作弊分数包括:
根据用户单次发表内容对应的文档中包含的文本内容,分别计算文档中的堆砌程度得分、文本文档广告或色情词汇得分、锚文本上广告或色情词汇得分、链接作弊得分以及词频分布得分,并采用机器学习模型的方法计算单次发表内容对应的作弊分数。
所述计算文档中的堆砌程度得分包括:
计算单次发表内容对应的文档中所有重复的片段数与该单次发表内容对应的文档中的所有片段数的商,所述商所述堆砌程度得分。
所述计算文本文档广告或色情词汇得分包括:
A1、获取单次发表内容对应的文本文档中包含的广告及色情词汇数与单次发表内容对应的文本文档中包含的词汇数的商;
A2、获取各广告及色情词汇长度的和与单次发表内容对应的文本文档的文本总长度的商;
A3、将步骤A1与步骤A2中得到的商相乘,所得的积为所述文本文档广告或色情词汇得分。
所述计算锚文本上广告或色情词汇得分包括:
B1、获取单次发表内容对应的锚文档中包含的广告及色情词汇数与单次发表内容对应的锚文档中包含的词汇数的商;
B2、获取各广告及色情词汇长度的和与单次发表内容对应的锚文档的锚文本总长度的商;
B3、将步骤B1与步骤B2中得到的商相乘,所得的积为所述锚文本上广告或色情词汇得分。
所述计算链接作弊得分包括:
当锚文本链接指向的统一资源定位器在预先设置的黑名单中,设置所述链接作弊得分为1,否则,设置所述链接作弊得分为0。
所述计算词频分布得分包括:
C1、获取用户单次发表内容对应的文档中单个词汇的词频与用户单次发表内容对应的文档中包含的词汇总数的商;
C2、获取用户单次发表内容对应的文档中单个词汇的词频与用户单次发表内容对应的文档中包含的词汇总数的商的对数;
C3、分别将步骤C1中得到的商与步骤C2中得到的商的对数相乘,所得的积为所述单个词汇的词频分布得分;
C4、将所有由步骤C3所得的积相加,所得的和为所述的词频分布得分。
所述计算用户发表内容的作弊分数包括:
D1、分别获取数值1与各单次发表内容对应的作弊分数的差;
D2、计算步骤D1中获取的各差的乘积,作为所述用户发表内容的作弊分数。
当所述用户表征信息进一步包括用户行为时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数进一步包括:
计算用户行为的作弊分数;
根据用户发表内容的作弊分数以及用户行为的作弊分数,计算用户作弊分数。
所述计算用户行为的作弊分数包括:
统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为ni,ni中关于热点话题的文档数记为mi,ni中原创的文档数记为oi,则计算用户行为的作弊分数的公式为:
userbehaviorspam = ( 1 - P Σ i = 1 P m i ) 2 × ( 1 + α × Σ i = 1 P ( n i - o i ) Σ i = 1 P n i )
式中,
α为用户行为作弊系数,α≥0。
当所述用户表征信息包括用户行为时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括:
计算用户行为的作弊分数;
根据用户行为的作弊分数,计算用户作弊分数。
所述计算用户行为的作弊分数包括:
统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为ni,ni中关于热点话题的文档数记为mi,ni中原创的文档数记为oi,则计算用户行为的作弊分数的公式为:
userbehaviorspam = ( 1 - P Σ i = 1 P m i ) 2 × ( 1 + α × Σ i = 1 P ( n i - o i ) Σ i = 1 P n i )
式中,
α为用户行为作弊系数,α≥0。
一种挖掘作弊用户的装置,该装置包括:用户表征信息获取模块、用户作弊分数计算模块以及作弊用户判断模块,其中,
用户表征信息获取模块,用于获取各用户表征信息;
用户作弊分数计算模块,用于根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;
作弊用户判断模块,用于将超过预先设置的作弊分数阈值的用户作弊分数对应的用户确定为作弊用户。
所述用户表征信息获取模块包括:用户发表内容获取单元、和/或,用户行为获取单元,其中,
用户发表内容获取单元,用于获取各用户发表内容;
用户行为获取单元,用于获取各用户行为。
所述用户作弊分数计算模块包括:内容作弊分数计算单元、行为作弊分数计算单元以及组合单元,其中,
内容作弊分数计算单元,用于根据预先设置的作弊策略计算出各用户发表内容的作弊分数;
行为作弊分数计算单元,用于基于用户行为计算用户行为的作弊分数;
组合单元,用于基于内容作弊分数计算单元以及行为作弊分数计算单元的结果,进行综合计算,得到用户的作弊分数。
所述用户作弊分数计算模块包括:内容作弊分数计算单元或行为作弊分数计算单元,其中,
内容作弊分数计算单元,用于根据预先设置的作弊策略计算出各用户发表内容的作弊分数,根据各用户发表内容的作弊分数,计算用户的作弊分数;
行为作弊分数计算单元,用于基于用户行为计算用户行为的作弊分数,根据用户行为的作弊分数,计算用户的作弊分数。
由上述的技术方案可见,本发明提供的一种挖掘作弊用户的方法及装置,获取各用户表征信息;根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户。这样,以用户为粒度挖掘作弊用户,避免了作弊用户创建作弊数据代价小的问题;进一步地,通过用户表征信息来挖掘作弊用户,对创建作弊网页的作弊用户进行了有效识别,并避免了容易漏过锚文本链接少的作弊网页,从而有效识别了作弊用户,降低了作弊用户作弊的概率,提升了社区的反作弊效率。
附图说明
图1为本发明实施例挖掘作弊用户的装置结构示意图。
图2为本发明实施例挖掘社区中作弊用户的方法流程示意图。
图3为本发明实施例挖掘社区中作弊用户的方法具体流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
针对现有社区基于网页链接分析结合检测隐藏技术进行反作弊的方法,未能有效识别作弊用户,本发明实施例中,提出以用户为粒度挖掘作弊用户的方法,通过综合分析用户发表内容、和/或,用户操作行为来挖掘作弊用户,从而降低作弊用户作弊的概率,解决社区网页中数据链接少及创建作弊数据代价小的问题,提升社区的反作弊效率,同时也从另外的视角提供了反作弊的方法。
图1为本发明实施例挖掘作弊用户的装置结构示意图。参见图1,该装置包括:用户表征信息获取模块、用户作弊分数计算模块以及作弊用户判断模块,其中,
用户表征信息获取模块,用于获取各用户表征信息;
用户作弊分数计算模块,用于根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;
作弊用户判断模块,用于将超过预先设置的作弊分数阈值的用户作弊分数对应的用户确定为作弊用户。
其中,
用户表征信息获取模块包括:用户发表内容获取单元、和/或,用户行为获取单元,其中,
用户发表内容获取单元,用于获取各用户发表内容;
用户行为获取单元,用于获取各用户行为。
用户作弊分数计算模块包括:内容作弊分数计算单元、和/或,行为作弊分数计算单元,其中,
内容作弊分数计算单元,用于获取各用户发表内容,根据预先设置的作弊策略计算出各用户发表内容的作弊分数;
本发明实施例中,用户发表内容为多个单次发表内容的总和,包括:用户发表的日志、小说、微博等各种社区类数据。内容作弊分数计算单元基于用户发表内容,例如,用户发表内容中的单次发表内容以及多个单次发表内容的总和,计算出该用户发表内容的作弊分数。单次发表内容是指用户一次发表的内容,例如,用户一次发表的一篇小说或在微博上发表的一句话。
行为作弊分数计算单元,用于获取用户行为,基于用户行为计算用户行为的作弊分数。
本发明实施例中,用户行为包括用户发表原创数据的行为以及用户转载其他用户的行为。行为作弊分数计算单元基于用户行为,计算出该用户行为的作弊分数。
本发明实施例中,当用户作弊分数计算模块包括内容作弊分数计算单元和行为作弊分数计算单元时,还包括:组合单元,
组合单元,用于基于内容作弊分数计算单元以及行为作弊分数计算单元的结果,进行综合计算,得到用户的作弊分数。
图2为本发明实施例挖掘社区中作弊用户的方法流程示意图。参见图2,该流程包括:
步骤201,获取各用户表征信息;
本步骤中,用户表征信息包括用户发表内容、和/或,用户行为。
步骤202,根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;
本步骤中,当用户表征信息为用户发表内容时,根据预先设置的计分策略计算用户发表内容的作弊分数,将该用户发表内容的作弊分数作为用户作弊分数;当用户表征信息为用户行为时,根据预先设置的计分策略计算用户行为的作弊分数,将该用户行为的作弊分数作为用户作弊分数;当用户表征信息为用户发表内容以及用户行为时,根据预先设置的计分策略分别计算用户发表内容的作弊分数以及用户行为的作弊分数,并对两者进行综合得到用户作弊分数。
步骤203,将超过预先设置的作弊分数阈值的用户作弊分数对应的用户确定为作弊用户。
本步骤中,预先设置的作弊分数阈值可根据用户表征信息的不同而不同,如果计算得到的一个用户的用户作弊分数超过该阈值,表明该用户为作弊用户,可以对该用户执行作弊处理,例如,将该用户QQ号码列入黑名单,过滤其发布的表征信息等。
以下举一具体实施例,对本发明做进一步说明。
图3为本发明实施例挖掘社区中作弊用户的方法具体流程示意图。参见图3,该流程包括:
步骤301,获取各用户发表内容及用户行为;
本步骤中,根据用户标识(ID),例如,用户QQ号码、MSN号码等,将同一用户在社区的所有发表内容进行归并聚集,并分别获取各用户行为。
步骤302,计算用户发表内容中各单次发表内容的作弊分数;
本步骤中,根据用户单次发表内容对应的文档中包含的文本内容,分别计算文档中的堆砌程度得分、文本文档广告或色情词汇得分、锚文本上广告或色情词汇得分、链接作弊得分以及词频分布得分等特征,并采用机器学习模型的方法计算单次发表内容对应的作弊分数docspam(d)。
其中,堆砌程度得分计算公式为:
dupscore ( d ) = K N
式中,
K为单次发表内容对应的文档中所有重复的片段数,N是单次发表内容对应的文档中的所有片段数,一个片段包括一个或多个词汇。
本发明实施例中,用户进行一次内容发表(单次发表内容),对应一篇文档,文档包括文本文档以及锚文档,文本文档为不具有链接关系的文档,锚文档为具有链接关系的文档,锚文档中的锚文本为建立了文本关键词与统一资源定位器(URL)链接关系的文本,例如,锚文本的代码可以为:<ahref=″URL链接″>文本关键词</a>。
文本文档广告或色情词汇得分计算公式为:
docdirtyscore ( d ) = K &prime; N &prime; &times; &Sigma; i = 1 K &prime; dirtyle n i DocLen
式中,
N′是单次发表内容对应的文本文档中包含的词汇数,DocLen为单次发表内容对应的文本文档的文本总长度,K′为单次发表内容对应的文本文档中包含的广告及色情词汇数,dirtyleni为第i个广告及色情词汇的长度,其中,1≤i≤K′。从文档中进行分词获取词汇,具体可参见相关技术文献,在此不再赘述。确定文本文档中包含的广告及色情词汇,可以通过将文本文档中包含的词汇与预先设置的广告及色情词汇集进行匹配获取。
锚文本上广告或色情词汇得分计算公式为:
anchordirtyscore ( d ) = K &prime; &prime; N &prime; &prime; &times; &Sigma; i = 1 K &prime; &prime; dirtylen i &prime; DocLen &prime;
式中,
N″是单次发表内容对应的锚文档中包含的词汇数,DocLen′为单次发表内容对应的锚文档的文本总长度,K″为单次发表内容对应的锚文档中包含的广告及色情词汇数,dirtylen′i为第i个广告及色情词汇的长度,其中,1≤i≤K″。
链接作弊得分计算公式为:
linkscore(d)=bBlackList
式中,
当锚文本链接指向的统一资源定位器(URL)在预先设置的黑名单中,表明该链接为作弊用户设置的链接,则设置bBlackList为1,否则,bBlackList为0。
词频分布得分计算公式为:
distributionscore ( d ) = - &Sigma; i = 1 M ( t f i L &times; log tf i L )
式中,
M为用户单次发表内容对应的文档中包含的不同词汇数,L为用户单次发表内容对应的文档中包含的词汇总数,tfi为第i个词汇的词频。
在分别得到堆砌程度得分、文本文档广告或色情词汇得分、锚文本上广告或色情词汇得分、链接作弊得分以及词频分布得分后,采用机器学习模型的方法进行计算,可以得到单次发表内容对应的作弊分数docspam(d)。例如,可以采用现有一些公开成熟的机器学习算法,如支持向量机(SVM,SupportVector Machine)算法等,根据上述计算得到的得分,训练一个模型,用该模型计算docspam(d),关于采用机器学习模型的方法计算docspam(d)的流程,具体可参见相关技术文献,在此不再赘述。
所应说明的是,计算docspam(d)的方法不仅限于机器学习模型的方法,也可以采用公式的方法。例如,可以采用如下公式将上述各得分分别与相应的得分系数相乘后再相加,得到的分数为docspam(d)。
docspam(d)=ξ1×dup(d)+ξ2×doc(d)+ξ3×anchor(d)+ξ4×link(d)+ξ5×dis(d)
式中,
ξ1、ξ2、ξ3、ξ4、ξ5为得分系数,可根据需要确定,例如,可进行归一化处理,使得
Figure BDA0000102398370000112
0≤ξi≤1;
dup(d)=dupscore(d);doc(d)=docdirtyscore(d);anchor(d)=anchordirtyscore(d);link(d)=linkscore(d);dis(d)=distributionscore(d)。
步骤303,计算用户发表内容的作弊分数;
本步骤中,根据步骤302得到该用户发表内容中各单次发表内容对应的作弊分数,计算得到用户发表内容的作弊分数,计算公式为:
usercontentspam = &Pi; d = 1 J ( 1 - docspam ( d ) )
式中,
J为用户发表内容中包含的发表次数。
步骤304,计算用户行为的作弊分数;
本步骤中,统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段,例如5分钟为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为ni,ni中关于热点话题的文档数记为mi,ni中原创的文档数记为oi,其中,关于热点话题的文档数包括用户发表原创热门话题的文档数以及用户转载其他用户原创热门话题的文档数,则计算用户行为的作弊分数的公式为:
userbehaviorspam = ( 1 - P &Sigma; i = 1 P m i ) 2 &times; ( 1 + &alpha; &times; &Sigma; i = 1 P ( n i - o i ) &Sigma; i = 1 P n i )
式中,
α为用户行为作弊系数,α≥0,具体取值可以根据实际需要进行确定。
步骤305,计算用户作弊分数,将超过预先设置的作弊分数阈值的用户作弊分数对应的用户确定为作弊用户。
本步骤中,结合步骤303以及步骤304,采用如下公式计算用户的作弊分数:
userspamrank=w1×usercontentspam+w2×userbehaviorspam
式中,
w1与w2为作弊权重系数,w2=1-w1,0≤w1≤1。如果当用户表征信息只包括用户行为时,则w1=0。
当然,实际应用中,用户的作弊分数计算不仅可以使用上述的线性加权,还可以使用非线性加权、基于统计或非统计中的一种或其任意组合方式计算用户的作弊分数。
例如,对于非线性加权,可以采用如下公式:
userspamrank=(1+a×usercontentspam)×(1+b×userbehaviorspam)
式中,
a、b为非线性加权系数。
基于统计可以利用逻辑回归方法,而基于非统计可以利用神经网络方法,具体可参见相关技术文献,在此不再赘述。
由上述可见,本发明实施例的挖掘作弊用户的方法及装置,获取各用户表征信息;根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;将超过预先设置的作弊分数阈值的用户作弊分数对应的用户确定为作弊用户。这样,以用户为粒度挖掘作弊用户,避免了作弊用户创建作弊数据代价小的问题;进一步地,通过综合分析用户发表内容、和/或,用户操作行为来挖掘作弊用户,对创建作弊网页的作弊用户进行了有效识别;而且,通过对用户表征信息进行计分,避免了容易漏过锚文本链接少的作弊网页,从而降低了作弊用户作弊的概率,解决了社区网页中数据链接少及创建作弊数据代价小的问题,提升了社区的反作弊效率。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种挖掘作弊用户的方法,其特征在于,该方法包括:
获取各用户表征信息;
根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;
将用户作弊分数超过预先设置的作弊分数阈值的用户确定为作弊用户。
2.如权利要求1所述的方法,其特征在于,所述用户表征信息包括用户发表内容、和/或,用户行为。
3.如权利要求2所述的方法,其特征在于,当所述用户表征信息包括用户发表内容时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括:
计算用户发表内容中各单次发表内容的作弊分数;
根据各单次发表内容的作弊分数计算用户发表内容的作弊分数。
4.如权利要求3所述的方法,其特征在于,所述计算用户发表内容中各单次发表内容的作弊分数包括:
根据用户单次发表内容对应的文档中包含的文本内容,分别计算文档中的堆砌程度得分、文本文档广告或色情词汇得分、锚文本上广告或色情词汇得分、链接作弊得分以及词频分布得分,并采用机器学习模型的方法计算单次发表内容对应的作弊分数。
5.如权利要求4所述的方法,其特征在于,所述计算文档中的堆砌程度得分包括:
计算单次发表内容对应的文档中所有重复的片段数与该单次发表内容对应的文档中的所有片段数的商,所述商为所述堆砌程度得分。
6.如权利要求4所述的方法,其特征在于,所述计算文本文档广告或色情词汇得分包括:
A1、获取单次发表内容对应的文本文档中包含的广告及色情词汇数与单次发表内容对应的文本文档中包含的词汇数的商;
A2、获取各广告及色情词汇长度的和与单次发表内容对应的文本文档的文本总长度的商;
A3、将步骤A1与步骤A2中得到的商相乘,所得的积为所述文本文档广告或色情词汇得分。
7.如权利要求4所述的方法,其特征在于,所述计算锚文本上广告或色情词汇得分包括:
B1、获取单次发表内容对应的锚文档中包含的广告及色情词汇数与单次发表内容对应的锚文档中包含的词汇数的商;
B2、获取各广告及色情词汇长度的和与单次发表内容对应的锚文档的锚文本总长度的商;
B3、将步骤B1与步骤B2中得到的商相乘,所得的积为所述锚文本上广告或色情词汇得分。
8.如权利要求4所述的方法,其特征在于,所述计算链接作弊得分包括:
当锚文本链接指向的统一资源定位器在预先设置的黑名单中,设置所述链接作弊得分为1,否则,设置所述链接作弊得分为0。
9.如权利要求4所述的方法,其特征在于,所述计算词频分布得分包括:
C1、获取用户单次发表内容对应的文档中单个词汇的词频与用户单次发表内容对应的文档中包含的词汇总数的商;
C2、获取用户单次发表内容对应的文档中单个词汇的词频与用户单次发表内容对应的文档中包含的词汇总数的商的对数;
C3、分别将步骤C1中得到的商与步骤C2中得到的商的对数相乘,所得的积为单个词汇的词频分布得分;
C4、将所有由步骤C3所得的积相加,所得的和为所述的词频分布得分。
10.如权利要求4所述的方法,其特征在于,所述计算用户发表内容的作弊分数包括:
D1、分别获取数值1与各单次发表内容对应的作弊分数的差;
D2、计算步骤D1中获取的各差的乘积,作为所述用户发表内容的作弊分数。
11.如权利要求3至10任一项所述的方法,其特征在于,当所述用户表征信息进一步包括用户行为时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数进一步包括:
计算用户行为的作弊分数;
根据用户发表内容的作弊分数以及用户行为的作弊分数,计算用户作弊分数。
12.如权利要求11所述的方法,其特征在于,所述计算用户行为的作弊分数包括:
统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为ni,ni中关于热点话题的文档数记为mi,ni中原创的文档数记为oi,则计算用户行为的作弊分数的公式为:
userbehaviorspam = ( 1 - P &Sigma; i = 1 P m i ) 2 &times; ( 1 + &alpha; &times; &Sigma; i = 1 P ( n i - o i ) &Sigma; i = 1 P n i )
式中,
α为用户行为作弊系数,α≥0。
13.如权利要求2所述的方法,其特征在于,当所述用户表征信息包括用户行为时,所述根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数包括:
计算用户行为的作弊分数;
根据用户行为的作弊分数,计算用户作弊分数。
14.如权利要求13所述的方法,其特征在于,所述计算用户行为的作弊分数包括:
统计用户发表内容中所有文档的发表时间,得到一个时间序列,以设定的时间段为间隔,统计各时间段中的发表文档数,设时间序列被分成P个时间段,第i个时间段发表的文档数为ni,ni中关于热点话题的文档数记为mi,ni中原创的文档数记为oi,则计算用户行为的作弊分数的公式为:
userbehaviorspam = ( 1 - P &Sigma; i = 1 P m i ) 2 &times; ( 1 + &alpha; &times; &Sigma; i = 1 P ( n i - o i ) &Sigma; i = 1 P n i )
式中,
α为用户行为作弊系数,α≥0。
15.一种挖掘作弊用户的装置,其特征在于,该装置包括:用户表征信息获取模块、用户作弊分数计算模块以及作弊用户判断模块,其中,
用户表征信息获取模块,用于获取各用户表征信息;
用户作弊分数计算模块,用于根据预先设置的计分策略计算各用户表征信息对应的用户作弊分数;
作弊用户判断模块,用于将超过预先设置的作弊分数阈值的用户作弊分数对应的用户确定为作弊用户。
16.如权利要求15所述的装置,其特征在于,所述用户表征信息获取模块包括:用户发表内容获取单元、和/或,用户行为获取单元,其中,
用户发表内容获取单元,用于获取各用户发表内容;
用户行为获取单元,用于获取各用户行为。
17.如权利要求16所述的装置,其特征在于,所述用户作弊分数计算模块包括:内容作弊分数计算单元、行为作弊分数计算单元以及组合单元,其中,
内容作弊分数计算单元,用于根据预先设置的作弊策略计算出各用户发表内容的作弊分数;
行为作弊分数计算单元,用于基于用户行为计算用户行为的作弊分数;
组合单元,用于基于内容作弊分数计算单元以及行为作弊分数计算单元的结果,进行综合计算,得到用户的作弊分数。
18.如权利要求16所述的装置,其特征在于,所述用户作弊分数计算模块包括:内容作弊分数计算单元或行为作弊分数计算单元,其中,
内容作弊分数计算单元,用于根据预先设置的作弊策略计算出各用户发表内容的作弊分数,根据各用户发表内容的作弊分数,计算用户的作弊分数;
行为作弊分数计算单元,用于基于用户行为计算用户行为的作弊分数,根据用户行为的作弊分数,计算用户的作弊分数。
CN201110329423.4A 2011-10-26 2011-10-26 一种挖掘作弊用户的方法与装置 Active CN103077172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110329423.4A CN103077172B (zh) 2011-10-26 2011-10-26 一种挖掘作弊用户的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110329423.4A CN103077172B (zh) 2011-10-26 2011-10-26 一种挖掘作弊用户的方法与装置

Publications (2)

Publication Number Publication Date
CN103077172A true CN103077172A (zh) 2013-05-01
CN103077172B CN103077172B (zh) 2017-06-06

Family

ID=48153703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110329423.4A Active CN103077172B (zh) 2011-10-26 2011-10-26 一种挖掘作弊用户的方法与装置

Country Status (1)

Country Link
CN (1) CN103077172B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469286A (zh) * 2016-01-04 2016-04-06 广西住朋购友文化传媒有限公司 一种房产用户筛选方法
CN105718564A (zh) * 2016-01-20 2016-06-29 清华大学 推广行为的检测方法及装置
CN105760455A (zh) * 2016-02-04 2016-07-13 腾讯科技(深圳)有限公司 广告点击的反作弊方法及装置
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106557373A (zh) * 2016-11-07 2017-04-05 天脉聚源(北京)科技有限公司 一种基于信用度的处理双方交互的方法及装置
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置
CN106843941A (zh) * 2016-12-31 2017-06-13 广东欧珀移动通信有限公司 信息处理方法、装置和计算机设备
CN108768743A (zh) * 2018-06-11 2018-11-06 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器
CN109583203A (zh) * 2018-10-31 2019-04-05 武汉华中时讯科技有限责任公司 一种恶意用户检测方法、装置及系统
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109840445A (zh) * 2017-11-24 2019-06-04 优酷网络技术(北京)有限公司 一种作弊视频的识别方法及系统
CN109995834A (zh) * 2017-12-30 2019-07-09 中国移动通信集团贵州有限公司 大流量数据处理方法、装置、计算设备及存储介质
WO2019136990A1 (zh) * 2018-01-12 2019-07-18 深圳壹账通智能科技有限公司 网络数据检测方法、装置、计算机设备和存储介质
CN110570217A (zh) * 2019-09-10 2019-12-13 北京百度网讯科技有限公司 作弊检测的方法及装置
CN111681044A (zh) * 2020-05-28 2020-09-18 中国工商银行股份有限公司 积分兑换作弊行为处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100565526C (zh) * 2007-07-25 2009-12-02 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN102200987A (zh) * 2011-01-27 2011-09-28 北京开心人信息技术有限公司 一种基于用户账号行为分析的查找马甲账号的方法及系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469286A (zh) * 2016-01-04 2016-04-06 广西住朋购友文化传媒有限公司 一种房产用户筛选方法
CN105718564A (zh) * 2016-01-20 2016-06-29 清华大学 推广行为的检测方法及装置
CN105760455A (zh) * 2016-02-04 2016-07-13 腾讯科技(深圳)有限公司 广告点击的反作弊方法及装置
CN105760455B (zh) * 2016-02-04 2021-05-14 腾讯科技(深圳)有限公司 广告点击的反作弊方法及装置
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106557373A (zh) * 2016-11-07 2017-04-05 天脉聚源(北京)科技有限公司 一种基于信用度的处理双方交互的方法及装置
CN106603554B (zh) * 2016-12-29 2019-11-15 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置
CN106603554A (zh) * 2016-12-29 2017-04-26 北京奇艺世纪科技有限公司 一种自适应实时视频数据的反作弊方法及装置
CN106843941A (zh) * 2016-12-31 2017-06-13 广东欧珀移动通信有限公司 信息处理方法、装置和计算机设备
CN109685536B (zh) * 2017-10-18 2021-01-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109840445A (zh) * 2017-11-24 2019-06-04 优酷网络技术(北京)有限公司 一种作弊视频的识别方法及系统
CN109840445B (zh) * 2017-11-24 2021-10-01 阿里巴巴(中国)有限公司 一种作弊视频的识别方法及系统
CN109995834A (zh) * 2017-12-30 2019-07-09 中国移动通信集团贵州有限公司 大流量数据处理方法、装置、计算设备及存储介质
WO2019136990A1 (zh) * 2018-01-12 2019-07-18 深圳壹账通智能科技有限公司 网络数据检测方法、装置、计算机设备和存储介质
CN108768743A (zh) * 2018-06-11 2018-11-06 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器
CN108768743B (zh) * 2018-06-11 2021-07-20 北京奇艺世纪科技有限公司 一种用户识别方法、装置及服务器
CN109583203B (zh) * 2018-10-31 2020-10-16 武汉华中时讯科技有限责任公司 一种恶意用户检测方法、装置及系统
CN109583203A (zh) * 2018-10-31 2019-04-05 武汉华中时讯科技有限责任公司 一种恶意用户检测方法、装置及系统
CN110570217A (zh) * 2019-09-10 2019-12-13 北京百度网讯科技有限公司 作弊检测的方法及装置
CN110570217B (zh) * 2019-09-10 2022-10-14 北京百度网讯科技有限公司 作弊检测的方法及装置
CN111681044A (zh) * 2020-05-28 2020-09-18 中国工商银行股份有限公司 积分兑换作弊行为处理方法及装置

Also Published As

Publication number Publication date
CN103077172B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN103077172A (zh) 一种挖掘作弊用户的方法与装置
Mirtaheri et al. Identifying and analyzing cryptocurrency manipulations in social media
Hughes A meta-analysis of urban climate change adaptation planning in the US
Iwendi et al. Covid-19 fake news sentiment analysis
JP5810452B2 (ja) インパクト分析や影響追跡を含むマルチメディアのためのデータ収集、追跡及び分析手法
CN101820366B (zh) 一种基于预取的钓鱼网页检测方法
Ienco et al. The meme ranking problem: Maximizing microblogging virality
CN104967587B (zh) 一种恶意账号的识别方法,及装置
CN110781308B (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN103793503A (zh) 一种基于web文本的观点挖掘与分类的方法
CN102004764A (zh) 互联网不良信息检测方法以及系统
CN103577404A (zh) 一种面向微博的全新突发事件发现方法
CN101819585A (zh) 一种论坛事件传播图的构建装置及构建方法
Almendra Finding the needle: A risk-based ranking of product listings at online auction sites for non-delivery fraud prediction
Soundarya et al. Recommendation System for Criminal Behavioral Analysis on Social Network using Genetic Weighted K-Means Clustering.
Théro et al. Investigating Facebook’s interventions against accounts that repeatedly share misinformation
CN101782920A (zh) 面向综合集成研讨环境的信息推荐方法
Woo et al. An event-driven SIR model for topic diffusion in web forums
Bekkers et al. Understanding cybercrime involvement: a quasi-experiment on engagement with money mule recruitment ads on Instagram
Goyal et al. Detection of fake accounts on social media using multimodal data with deep learning
CN113609394A (zh) 面向信息流的安全推荐系统
CN103294686B (zh) 一种网页作弊用户、作弊网页的识别方法及系统
Ojugo et al. Tree-classification algorithm to ease user detection of predatory hijacked journals: empirical analysis of journal metrics rankings
Barker The use of proactive communication through knowledge management to create awareness and educate clients on e-banking fraud prevention
Hong et al. Exploring the influence of sociodemographic backgrounds on money mule recruitment types in South Korea: An analysis of probabilities from machine learning classifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant