CN104967587A - 一种恶意账号的识别方法,及装置 - Google Patents

一种恶意账号的识别方法,及装置 Download PDF

Info

Publication number
CN104967587A
CN104967587A CN201410198151.2A CN201410198151A CN104967587A CN 104967587 A CN104967587 A CN 104967587A CN 201410198151 A CN201410198151 A CN 201410198151A CN 104967587 A CN104967587 A CN 104967587A
Authority
CN
China
Prior art keywords
account
threshold value
malice
reading
confirmed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410198151.2A
Other languages
English (en)
Other versions
CN104967587B (zh
Inventor
施丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410198151.2A priority Critical patent/CN104967587B/zh
Priority to US15/310,076 priority patent/US10270785B2/en
Priority to PCT/CN2015/078576 priority patent/WO2015172685A1/en
Publication of CN104967587A publication Critical patent/CN104967587A/zh
Application granted granted Critical
Publication of CN104967587B publication Critical patent/CN104967587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Algebra (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种恶意账号的识别方法,及装置,其中方法的实现包括:以已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;依据所述分布数据确定正常账号上限的阅读速度阈值;获取待确认账号的阅读速度,若所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;并依据所述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值,阈值的设定具有基于统计的理论依据不再由人工任意设定,从而能够准确识别刷书的恶意账号。

Description

一种恶意账号的识别方法,及装置
技术领域
本发明涉及通信技术领域,特别涉及一种恶意账号识别方法,及装置。
背景技术
网络文学,指新近产生的,以互联网为展示平台和传播媒介的,借助超文本连接和多媒体演绎等手段来表现的文学作品、类文学文本及含有一部分文学成分的网络艺术品。其中,以网络原创作品为主。
网络文学是随着互联网的普及而产生的。互联网络为上亿网民提供了多如恒沙的各类文学资料信息,与此同时,一种以这种新兴媒体为载体、依托、手段,以网民为接受对象,具有不同于传统文学特点的网络文学悄然勃兴。
网络文学与传统文学不是对立的两极,而是互相渗透的有机体系。不少传统文学通过电子化成为了网络文学的一部分,网络文学的作者也都接受过传统文学的熏陶。同时,网络文学通过出版进入了传统文学领域;并依靠网络巨大的影响力,成为流行文化的重要组成部分,进而影响到传统文学。
由于借助强大的网络媒介,网络文学具有多样性、互动性和知识产权保护困难的特点。其形式可以类似传统文学,也可以是博文、帖子等非传统文体。实时回复、实时评论和投票是网络文学的重要特征。由于网络文学传播的便捷,导致知识产权不易受到保护。
为读者提供优秀的畅销图书电子、最热的网络原创小说在线阅读,为热爱文学写作的网友提供在线创作、在线宣传和在线销售的综合原创文学平台;目前已经出现了大量的网络文学平台。
原创作者或者CP(content provide,内容提供商)在网络文学平台上发布自己的作品,作为回报,网络文学平台会根据文学作品的有效阅读用户数、阅读字数、收藏订阅等数据确定支付给发布文学作品的一方,使知识产权的所有者能够得到相应的报酬,从而形成良性的创作环境,促进文学的发展。
但是,发布文学作品的一方存在“刷书”现象。刷书是指:作者或者CP为了自己的书能获得更多收入、更好的排行榜位置和推荐位置,通过不正当手段阅读书籍,使其有效阅读用户数、阅读字数、收藏订阅等数据异常增长的行为。因此,刷书行为不仅扰乱了网络文学平台的正常运营秩序,也极大的损害了未作弊作者或CP的利益,使他们不能获得应用的报酬。因此如何识别那些用来刷书的恶意账号,成为了必要的技术需求。
目前,识别恶意账号的方式如下:人工设定一个最大字数阀值,如果某一账号阅读的字数超过了这个阈值,则确定为恶意账号。上述最大字数阀值通常来说,是根据经验确定的一个固定值,为了减少误判通常是一个较大的值。
以上方案中,最高阅读字数的阀值由人工设定,不仅没有理论依据,而且极容易被CP或者作者发现找出其中的规律,调整刷书策略,限定每天刷书字数在阀值以下。所以手工设定阅读字数来区别刷书用户,效果不明显,区分度不高。因此以上方案并不能准确识别恶意账号。
发明内容
本发明实施例提供了一种恶意账号的识别方法,及装置,用于准确识别刷书的恶意账号。
一种恶意账号的识别方法,包括:
以已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;
依据所述分布数据确定正常账号上限的阅读速度阈值;
获取待确认账号的阅读速度,若所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。
一种恶意账号的识别装置,包括:
训练单元,用于以已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;
阈值确定单元,用于依据所述训练单元确定的分布数据确定正常账号上限的阅读速度阈值;
判决单元,用于获取待确认账号的阅读速度,若所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。
从以上技术方案可以看出,本发明实施例具有以下优点:已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;并依据所述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值,阈值的设定具有基于统计的理论依据不再由人工任意设定,从而能够准确识别刷书的恶意账号。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例方法流程示意图;
图2为本发明实施例有效阅读字数的用户理论和实际分布示意图;
图3为本发明实施例方法流程示意图;
图4为本发明实施例装置结构示意图;
图5为本发明实施例装置结构示意图;
图6为本发明实施例恶意账号的识别装置结构示意图;
图7为本发明实施例服务器结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一种恶意账号的识别方法,如图1所示,包括:
101:以已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;
在本发明实施例中,正常账号集是包含正常账户的一个集合,该集合中的样本数量可以任意设定,通常来说可以设置得较大一些以增加数据的准确性。有效阅读速度可以是字数与时间的比值;其表现形式可以是计算得出的一个值,也可以是以一个时间段为依据获取的有效阅读字数,例如:一天的有效阅读字数。在本发明实施例中“有效”是相对于“无效”而言的,例如:一个账号对同一段文字的重复点击,只应当统计一次字数;那么第一次点击为有效的,除第一次点击以外的重复点击则为无效的,这样可以更准确的统计真实的阅读量。
102:依据上述分布数据确定正常账号上限的阅读速度阈值;
根据实际统计,用户的正常阅读速度具有高斯分布的特征,也即是阅读速度集中在一个中间区域,远大于这个区域的人会很少,远小于这个区域的人也会很少。那么可以依据这个分布特征来数据来确定一个阈值,超过这个阈值则可以认为较大可能性为恶意账号。
103:获取待确认账号的阅读速度,若上述待确认账号的阅读速度超过上述阅读速度阈值,则确定上述待确认账号为恶意账号。
本发明实施例,已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;并依据上述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值,阈值的设定具有基于统计的理论依据不再由人工任意设定,从而能够准确识别刷书的恶意账号。
本发明实施例还提供了具体如何确定分布数据,以及如何依据分布数据确定阅读速度阈值的具体实现方案,具体如下:上述确定上述正常账号集的有效阅读速度的分布数据包括:
确定上述正常账号集的有效阅读速度符合高斯分布的分布模型;
上述依据上述分布数据确定正常账号上限的阅读速度阈值包括:
使用高斯分布的累积分布函数,确定上述分布模型中正常账号上限的阅读速度阈值。
可选地,上述有效阅读速度为每天的有效阅读字数;上述阅读速度阈值为每天的阅读字数阈值;上述阅读字数阈值以天为周期性生成。
本发明实施例采用以天为单位周期性生成阅读字数阈值,这样可以通过每天生成阀值,使阈值动态变化,自适应节假日、月末时间阀值的升高或减少。从而更加准确的识别刷书的恶意账号。
以上实施例是基于网络文学平台内部进行的恶意账号识别,除此之外本发明实施例还提供了采用阅读平台以外的数据进行进一步辅助以提升识别准确率的方案,具体如下:上述确定上述待确认账号为恶意账号之前,上述方法还包括:
获取已知的恶意账号在上述阅读平台以外的恶意特征信息,并依据上述恶意特征信息确定上述待确认账号的恶意概率;
若恶意概率大于预定阈值,且上述待确认账号的阅读速度超过上述阅读速度阈值,则确定上述待确认账号为恶意账号。
本实施例,通过阅读平台以外的恶意特征信息对待确认账号进行进一步确认,防止阅读速度较快的正常账号被误判的几率,从而进一步提升恶意账号识别的准确率。
在前述实施例中,如果仅采用阅读速度阈值进行恶意账号的判定,为了减少将阅读速度较快的正常账号误判,通常阅读速度阈值会设置得较大,因此是存在漏判风险的,基于本发明实施例采用阅读平台以外的数据进行进一步辅助的方案,本发明实施例可以降低阅读速度阈值来减少漏判的风险,具体实现方案如下:上述依据上述分布数据确定正常账号上限的阅读速度阈值,包括:依据上述分布数据确定正常账号上限的次阅读速度阈值,上述次阅读速度阈值低于阅读速度阈值;
上述待确认账号的阅读速度超过上述阅读速度阈值包括:待确认账号的阅读速度超过上述次阅读速度阈值。
本发明实施例还提供了恶意特征信息的具体可选取值,如下:上述恶意特征信息包括:好友关系链、兴趣分布,以及活跃度中至少一项的特征信息。
本分发明实施例还进一步提供了恶意概率的获得方案,具体如下:上述获取已知的恶意账号在上述阅读平台以外的恶意特征信息,并依据上述恶意特征信息确定上述待确认账号的恶意概率,包括:
根据贝叶斯分类算法和上述恶意特征信息,训练样本数据得到先验概率;
获取上述待确认账号的特征信息,并依据上述先验概率确定上述待确认账号的特征信息的恶意概率。
以上实施例,通过恶意账号在上述阅读平台以外的好友关系链、兴趣分布,以及活跃度作为训练样本;通过恶意的样本贝叶斯分类算法训练得出先验概率,并依据先验概率对待确认账号进行评估,获得待确认账号的特征信息的恶意概率。这种阅读平台外部数据与内部数据结合的方案,可以在防止误判的基础上减少漏判,从而提升恶意账号识别的准确率。
以下实施例将以腾讯文学为平台的书城为应用背景,来对本发明实施例进行更详细的举例说明。
本发明实施例主要从业务内和业务外两方面来打击刷书用户。业务内是建立腾讯文学用户阅读行为模型,根据概率论找出刷书行为用户。业务外是利用贝叶斯分类方法,根据刷书用户样本数据,得到刷书用户先验概率,再根据先验概率和用户属性得出此用户是刷书的概率。最后取业务内和业务外刷书用户的并集,放入书城黑中单。具体方案如下:
一、业务内防刷-高斯分布模型:
建立用户阅读行为模型,如图2所示的有效阅读字数的用户理论和实际分布图,横轴为有效阅读字数(log),纵轴为用户分布;其中图1中的曲线为理论分布曲线,黑色纵线组成的图案为用户有效阅读字数的实际分布,在matlab(一种数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境)中用normplot函数(概率纸检验函数)检验可知,腾讯文学中用户的阅读有效字数符合高斯分布模型,可以用高斯分布的累积分布函数来确定正常用户的范围。例如:可取理论上95%的用户作为正常用户,计算出阅读字数阀值。该模型根据上一周用户的阅读行为,每天生成阀值,动态变化,自适应节假日、月末时间阀值的升高或减少。
在本发明实施例中,以上95%是可以设定的,为了减少误判可以提高这个比率为了降低漏判可以提高这个比率。综合后续实施例中的业务外防刷,可以设置得较低一些减少漏判。
二、业务外防刷-贝叶斯分类:
正常情况下,正常用户不仅只是书城用户,正常用于对于其他应用也有会有一定的活跃度。
分析已有刷书用户账号,从活跃度,好友关系链,兴趣分布等分析用户特征,根据贝叶斯分类算法,训练样本数据,再根据先验概率求得新用户为刷书用户的后验概率,从而找出刷书用户,有效打击了CP或者作者中利用小号来刷书。流程如图3所示。
301:确定特征属性(如活跃度,好友关系链,兴趣分布),获取刷书用户的训练样本;
302:计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计(全概率公式);
303:根据联合概率的定义,计算出待分类是账号属于刷书账号的概率;
304:确定属于刷书账号的概率是否大于预定阈值,如果是,进入306,否则进入305;
305:加入正常运营数据;
306:加入到黑名单。
本发明实施例,从业务内和业务外两方面来打击刷书用户,业务内根据高斯分布每天动态变化阅读阀值,有效避免了固定阀值的泄漏问题。业务外利用贝叶斯分类算法,根据已有刷书样本的特征属性自动分类新用户,有效打击了刷书小号。通过以上方案,可以减少了腾讯文学中刷书用户对于运营数据和收入的影响,保证了书城运营的正常秩序,提升了网络文学运营平台的整体质量和口碑。
本发明实施例提供了一种恶意账号的识别装置,如图4所示,包括:
训练单元401,用于以已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;
阈值确定单元402,用于依据上述训练单元401确定的分布数据确定正常账号上限的阅读速度阈值;
判决单元403,用于获取待确认账号的阅读速度,若上述待确认账号的阅读速度超过上述阅读速度阈值,则确定上述待确认账号为恶意账号。
在本发明实施例中,正常账号集是包含正常账户的一个集合,该集合中的样本数量可以任意设定,通常来说可以设置得较大一些以增加数据的准确性。有效阅读速度可以是字数与时间的比值;其表现形式可以是计算得出的一个值,也可以是以一个时间段为依据获取的有效阅读字数,例如:一天的有效阅读字数。在本发明实施例中“有效”是相对于“无效”而言的,例如:一个账号对同一段文字的重复点击,只应当统计一次字数;那么第一次点击为有效的,除第一次点击以外的重复点击则为无效的,这样可以更准确的统计真实的阅读量。
根据实际统计,用户的正常阅读速度具有高斯分布的特征,也即是阅读速度集中在一个中间区域,远大于这个区域的人会很少,远小于这个区域的人也会很少。那么可以依据这个分布特征来数据来确定一个阈值,超过这个阈值则可以认为较大可能性为恶意账号。
本发明实施例,已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;并依据上述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值,阈值的设定具有基于统计的理论依据不再由人工任意设定,从而能够准确识别刷书的恶意账号。
本发明实施例还提供了具体如何确定分布数据,以及如何依据分布数据确定阅读速度阈值的具体实现方案,具体如下:可选地,上述训练单元401,用于确定上述正常账号集的有效阅读速度符合高斯分布的分布模型;
上述阈值确定单元402,用于使用高斯分布的累积分布函数,确定上述分布模型中正常账号上限的阅读速度阈值。
可选地,上述有效阅读速度为每天的有效阅读字数;上述阅读速度阈值为每天的阅读字数阈值;
上述阈值确定单元402,用于以天为周期性生成上述阅读字数阈值。
本发明实施例采用以天为单位周期性生成阅读字数阈值,这样可以通过每天生成阀值,使阈值动态变化,自适应节假日、月末时间阀值的升高或减少。从而更加准确的识别刷书的恶意账号。
以上实施例是基于网络文学平台内部进行的恶意账号识别,除此之外本发明实施例还提供了采用阅读平台以外的数据进行进一步辅助以提升识别准确率的方案,具体如下:可选地,如图5所示,上述装置还包括:
特征获取单元501,用于在上述判决单元403确定上述待确认账号为恶意账号之前,获取已知的恶意账号在上述阅读平台以外的恶意特征信息;
概率确定单元502,用于依据上述恶意特征信息确定上述待确认账号的恶意概率;
上述判决单元403,还用于若上述概率确定单元502确定的恶意概率大于预定阈值,则确定上述待确认账号为恶意账号。
本实施例,通过阅读平台以外的恶意特征信息对待确认账号进行进一步确认,防止阅读速度较快的正常账号被误判的几率,从而进一步提升恶意账号识别的准确率。
在前述实施例中,如果仅采用阅读速度阈值进行恶意账号的判定,为了减少将阅读速度较快的正常账号误判,通常阅读速度阈值会设置得较大,因此是存在漏判风险的,基于本发明实施例采用阅读平台以外的数据进行进一步辅助的方案,本发明实施例可以降低阅读速度阈值来减少漏判的风险,具体实现方案如下:可选地,上述阈值确定单元402,用于依据上述分布数据确定正常账号上限的次阅读速度阈值,上述次阅读速度阈值低于阅读速度阈值;
上述判决单元403,用于确定待确认账号的阅读速度超过上述阅读速度阈值包括:确定待确认账号的阅读速度超过上述次阅读速度阈值。
本发明实施例还提供了恶意特征信息的具体可选取值,如下:可选地,上述恶意特征信息包括:
好友关系链、兴趣分布,以及活跃度中至少一项的特征信息。
本分发明实施例还进一步提供了恶意概率的获得方案,具体如下:可选地,上述特征获取单元501,用于根据贝叶斯分类算法和上述恶意特征信息,训练样本数据得到先验概率;
上述概率确定单元502,用于获取上述待确认账号的特征信息,并依据上述特征获取单元501计算的上述先验概率确定上述待确认账号的特征信息的恶意概率。
以上实施例,通过恶意账号在上述阅读平台以外的好友关系链、兴趣分布,以及活跃度作为训练样本;通过恶意的样本贝叶斯分类算法训练得出先验概率,并依据先验概率对待确认账号进行评估,获得待确认账号的特征信息的恶意概率。这种阅读平台外部数据与内部数据结合的方案,可以在防止误判的基础上减少漏判,从而提升恶意账号识别的准确率。
本发明实施例提供了另一种恶意账号的识别装置,如图6所示,包括:
接收器601、发射器602、处理器603以及存储器604;
其中,上述处理器603用于控制执行:以已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;依据上述分布数据确定正常账号上限的阅读速度阈值;获取待确认账号的阅读速度,若上述待确认账号的阅读速度超过上述阅读速度阈值,则确定上述待确认账号为恶意账号。
在本发明实施例中,正常账号集是包含正常账户的一个集合,该集合中的样本数量可以任意设定,通常来说可以设置得较大一些以增加数据的准确性。有效阅读速度可以是字数与时间的比值;其表现形式可以是计算得出的一个值,也可以是以一个时间段为依据获取的有效阅读字数,例如:一天的有效阅读字数。在本发明实施例中“有效”是相对于“无效”而言的,例如:一个账号对同一段文字的重复点击,只应当统计一次字数;那么第一次点击为有效的,除第一次点击以外的重复点击则为无效的,这样可以更准确的统计真实的阅读量。
根据实际统计,用户的正常阅读速度具有高斯分布的特征,也即是阅读速度集中在一个中间区域,远大于这个区域的人会很少,远小于这个区域的人也会很少。那么可以依据这个分布特征来数据来确定一个阈值,超过这个阈值则可以认为较大可能性为恶意账号。
本发明实施例,已知的正常账号集的有效阅读速度为训练样本,确定上述正常账号集的有效阅读速度的分布数据;并依据上述分布数据确定正常账号上限的阅读速度阈值。不再使用人工设定的固定阈值,阈值的设定具有基于统计的理论依据不再由人工任意设定,从而能够准确识别刷书的恶意账号。
本发明实施例还提供了具体如何确定分布数据,以及如何依据分布数据确定阅读速度阈值的具体实现方案,具体如下:上述处理器603用于控制执行:确定上述正常账号集的有效阅读速度的分布数据包括:确定上述正常账号集的有效阅读速度符合高斯分布的分布模型;
上述处理器603用于控制执行:依据上述分布数据确定正常账号上限的阅读速度阈值包括:使用高斯分布的累积分布函数,确定上述分布模型中正常账号上限的阅读速度阈值。
可选地,上述有效阅读速度为每天的有效阅读字数;上述阅读速度阈值为每天的阅读字数阈值;上述阅读字数阈值以天为周期性生成。
本发明实施例采用以天为单位周期性生成阅读字数阈值,这样可以通过每天生成阀值,使阈值动态变化,自适应节假日、月末时间阀值的升高或减少。从而更加准确的识别刷书的恶意账号。
以上实施例是基于网络文学平台内部进行的恶意账号识别,除此之外本发明实施例还提供了采用阅读平台以外的数据进行进一步辅助以提升识别准确率的方案,具体如下:上述处理器603用于控制执行:确定上述待确认账号为恶意账号之前,还用于控制执行:获取已知的恶意账号在上述阅读平台以外的恶意特征信息,并依据上述恶意特征信息确定上述待确认账号的恶意概率;若恶意概率大于预定阈值,且上述待确认账号的阅读速度超过上述阅读速度阈值,则确定上述待确认账号为恶意账号。
本实施例,通过阅读平台以外的恶意特征信息对待确认账号进行进一步确认,防止阅读速度较快的正常账号被误判的几率,从而进一步提升恶意账号识别的准确率。
在前述实施例中,如果仅采用阅读速度阈值进行恶意账号的判定,为了减少将阅读速度较快的正常账号误判,通常阅读速度阈值会设置得较大,因此是存在漏判风险的,基于本发明实施例采用阅读平台以外的数据进行进一步辅助的方案,本发明实施例可以降低阅读速度阈值来减少漏判的风险,具体实现方案如下:上述处理器603用于控制执行:依据上述分布数据确定正常账号上限的阅读速度阈值,包括:依据上述分布数据确定正常账号上限的次阅读速度阈值,上述次阅读速度阈值低于阅读速度阈值;
上述处理器603用于控制执行:待确认账号的阅读速度超过上述阅读速度阈值包括:待确认账号的阅读速度超过上述次阅读速度阈值。
本发明实施例还提供了恶意特征信息的具体可选取值,如下:上述恶意特征信息包括:好友关系链、兴趣分布,以及活跃度中至少一项的特征信息。
本分发明实施例还进一步提供了恶意概率的获得方案,具体如下:上述处理器603用于控制执行:获取已知的恶意账号在上述阅读平台以外的恶意特征信息,并依据上述恶意特征信息确定上述待确认账号的恶意概率,包括:
根据贝叶斯分类算法和上述恶意特征信息,训练样本数据得到先验概率;获取上述待确认账号的特征信息,并依据上述先验概率确定上述待确认账号的特征信息的恶意概率。
以上实施例,通过恶意账号在上述阅读平台以外的好友关系链、兴趣分布,以及活跃度作为训练样本;通过恶意的样本贝叶斯分类算法训练得出先验概率,并依据先验概率对待确认账号进行评估,获得待确认账号的特征信息的恶意概率。这种阅读平台外部数据与内部数据结合的方案,可以在防止误判的基础上减少漏判,从而提升恶意账号识别的准确率。
图7是本发明实施例提供的一种服务器结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由恶意账号的识别装置所执行的步骤可以基于该图7所示的服务器结构。
值得注意的是,上述装置和服务器实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (14)

1.一种恶意账号的识别方法,其特征在于,包括:
以已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;
依据所述分布数据确定正常账号上限的阅读速度阈值;
获取待确认账号的阅读速度,若所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。
2.根据权利要求1所述方法,其特征在于,所述确定所述正常账号集的有效阅读速度的分布数据包括:
确定所述正常账号集的有效阅读速度符合高斯分布的分布模型;
所述依据所述分布数据确定正常账号上限的阅读速度阈值包括:
使用高斯分布的累积分布函数,确定所述分布模型中正常账号上限的阅读速度阈值。
3.根据权利要求1或2所述方法,其特征在于,所述有效阅读速度为每天的有效阅读字数;所述阅读速度阈值为每天的阅读字数阈值;
所述阅读字数阈值以天为周期性生成。
4.根据权利要求1或2所述方法,其特征在于,所述确定所述待确认账号为恶意账号之前,所述方法还包括:
获取已知的恶意账号在所述阅读平台以外的恶意特征信息,并依据所述恶意特征信息确定所述待确认账号的恶意概率;
若恶意概率大于预定阈值,且所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。
5.根据权利要求4所述方法,其特征在于,所述依据所述分布数据确定正常账号上限的阅读速度阈值,包括:
依据所述分布数据确定正常账号上限的次阅读速度阈值,所述次阅读速度阈值低于阅读速度阈值;
所述待确认账号的阅读速度超过所述阅读速度阈值包括:待确认账号的阅读速度超过所述次阅读速度阈值。
6.根据权利要求4所述方法,其特征在于,所述恶意特征信息包括:
好友关系链、兴趣分布,以及活跃度中至少一项的特征信息。
7.根据权利要求6所述方法,其特征在于,所述获取已知的恶意账号在所述阅读平台以外的恶意特征信息,并依据所述恶意特征信息确定所述待确认账号的恶意概率,包括:
根据贝叶斯分类算法和所述恶意特征信息,训练样本数据得到先验概率;
获取所述待确认账号的特征信息,并依据所述先验概率确定所述待确认账号的特征信息的恶意概率。
8.一种恶意账号的识别装置,其特征在于,包括:
训练单元,用于以已知的正常账号集的有效阅读速度为训练样本,确定所述正常账号集的有效阅读速度的分布数据;
阈值确定单元,用于依据所述训练单元确定的分布数据确定正常账号上限的阅读速度阈值;
判决单元,用于获取待确认账号的阅读速度,若所述待确认账号的阅读速度超过所述阅读速度阈值,则确定所述待确认账号为恶意账号。
9.根据权利要求8所述装置,其特征在于,
所述训练单元,用于确定所述正常账号集的有效阅读速度符合高斯分布的分布模型;
所述阈值确定单元,用于使用高斯分布的累积分布函数,确定所述分布模型中正常账号上限的阅读速度阈值。
10.根据权利要求8或9所述装置,其特征在于,所述有效阅读速度为每天的有效阅读字数;所述阅读速度阈值为每天的阅读字数阈值;
所述阈值确定单元,用于以天为周期性生成所述阅读字数阈值。
11.根据权利要求8或9所述装置,其特征在于,所述装置还包括:
特征获取单元,用于在所述判决单元确定所述待确认账号为恶意账号之前,获取已知的恶意账号在所述阅读平台以外的恶意特征信息;
概率确定单元,用于依据所述恶意特征信息确定所述待确认账号的恶意概率;
所述判决单元,还用于若所述概率确定单元确定的恶意概率大于预定阈值,则确定所述待确认账号为恶意账号。
12.根据权利要求11所述装置,其特征在于,
所述阈值确定单元,用于依据所述分布数据确定正常账号上限的次阅读速度阈值,所述次阅读速度阈值低于阅读速度阈值;
所述判决单元,用于确定待确认账号的阅读速度超过所述阅读速度阈值包括:确定待确认账号的阅读速度超过所述次阅读速度阈值。
13.根据权利要求11所述装置,其特征在于,所述恶意特征信息包括:
好友关系链、兴趣分布,以及活跃度中至少一项的特征信息。
14.根据权利要求13所述装置,其特征在于,
所述特征获取单元,用于根据贝叶斯分类算法和所述恶意特征信息,训练样本数据得到先验概率;;
所述概率确定单元,用于获取所述待确认账号的特征信息,并依据所述特征获取单元计算的所述先验概率确定所述待确认账号的特征信息的恶意概率。
CN201410198151.2A 2014-05-12 2014-05-12 一种恶意账号的识别方法,及装置 Active CN104967587B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410198151.2A CN104967587B (zh) 2014-05-12 2014-05-12 一种恶意账号的识别方法,及装置
US15/310,076 US10270785B2 (en) 2014-05-12 2015-05-08 Method and apparatus for identifying malicious account
PCT/CN2015/078576 WO2015172685A1 (en) 2014-05-12 2015-05-08 Method and apparatus for identifying malicious account

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410198151.2A CN104967587B (zh) 2014-05-12 2014-05-12 一种恶意账号的识别方法,及装置

Publications (2)

Publication Number Publication Date
CN104967587A true CN104967587A (zh) 2015-10-07
CN104967587B CN104967587B (zh) 2018-07-06

Family

ID=54221533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410198151.2A Active CN104967587B (zh) 2014-05-12 2014-05-12 一种恶意账号的识别方法,及装置

Country Status (3)

Country Link
US (1) US10270785B2 (zh)
CN (1) CN104967587B (zh)
WO (1) WO2015172685A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156341A (zh) * 2016-07-14 2016-11-23 微额速达(上海)金融信息服务有限公司 互联网标注数据的身份判别方法
CN106789844A (zh) * 2015-11-23 2017-05-31 阿里巴巴集团控股有限公司 一种恶意用户识别方法及装置
CN108292404A (zh) * 2015-10-21 2018-07-17 万事达卡国际公司 将支付账户识别到区段的系统和方法
CN109240973A (zh) * 2018-08-30 2019-01-18 掌阅科技股份有限公司 基于电子书的阅读状态信息的确定方法及电子设备
CN109361957A (zh) * 2018-10-18 2019-02-19 广州酷狗计算机科技有限公司 发送点赞请求的方法和装置
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN111046894A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 识别马甲账号的方法和装置
US11363059B2 (en) * 2019-12-13 2022-06-14 Microsoft Technology Licensing, Llc Detection of brute force attacks

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992958B (zh) * 2016-01-21 2020-11-06 阿里巴巴集团控股有限公司 一种通过丢失账号定位恶意账号的方法和系统
CN109146661A (zh) * 2018-07-04 2019-01-04 深圳市买买提信息科技有限公司 用户类型预测方法、装置、电子设备及存储介质
CN111598162A (zh) * 2020-05-14 2020-08-28 万达信息股份有限公司 一种黄牛风险监测方法、终端设备和存储介质
CN112116007A (zh) * 2020-09-18 2020-12-22 四川长虹电器股份有限公司 基于图算法和聚类算法的批量注册账号检测方法
CN116561324B (zh) * 2023-07-04 2023-09-01 江苏曙光云计算有限公司 一种基于人工智能的网络信息智能分析调控系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447101A (zh) * 2008-12-24 2009-06-03 腾讯科技(深圳)有限公司 一种处理网络投票信息的方法、网络投票系统和服务器
CN102163251A (zh) * 2010-02-22 2011-08-24 深圳市腾讯计算机系统有限公司 一种游戏作弊的识别方法和设备
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法
EP2608002A1 (en) * 2011-12-21 2013-06-26 France Telecom Method for determining a reading speed of a section of an electronic content
CN103678346A (zh) * 2012-09-07 2014-03-26 阿里巴巴集团控股有限公司 一种人机识别的方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271865B1 (en) 2005-09-19 2012-09-18 Google Inc. Detection and utilization of document reading speed
KR20120053803A (ko) * 2010-11-18 2012-05-29 삼성전자주식회사 시선 궤적을 이용한 컨텐츠 표시 장치 및 방법
GB2501298A (en) * 2012-04-19 2013-10-23 Ibm Approximating electronic document last reading position
US9544204B1 (en) * 2012-09-17 2017-01-10 Amazon Technologies, Inc. Determining the average reading speed of a user

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447101A (zh) * 2008-12-24 2009-06-03 腾讯科技(深圳)有限公司 一种处理网络投票信息的方法、网络投票系统和服务器
CN102163251A (zh) * 2010-02-22 2011-08-24 深圳市腾讯计算机系统有限公司 一种游戏作弊的识别方法和设备
EP2608002A1 (en) * 2011-12-21 2013-06-26 France Telecom Method for determining a reading speed of a section of an electronic content
CN103678346A (zh) * 2012-09-07 2014-03-26 阿里巴巴集团控股有限公司 一种人机识别的方法和系统
CN103077240A (zh) * 2013-01-10 2013-05-01 北京工商大学 一种基于概率图模型的微博水军识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩忠明 等: "《面向微博的概率图水军识别模型》", 《计算机研究与发展》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108292404A (zh) * 2015-10-21 2018-07-17 万事达卡国际公司 将支付账户识别到区段的系统和方法
CN106789844A (zh) * 2015-11-23 2017-05-31 阿里巴巴集团控股有限公司 一种恶意用户识别方法及装置
CN106789844B (zh) * 2015-11-23 2020-06-16 阿里巴巴集团控股有限公司 一种恶意用户识别方法及装置
CN106156341A (zh) * 2016-07-14 2016-11-23 微额速达(上海)金融信息服务有限公司 互联网标注数据的身份判别方法
CN109685536A (zh) * 2017-10-18 2019-04-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109685536B (zh) * 2017-10-18 2021-01-26 北京京东尚科信息技术有限公司 用于输出信息的方法和装置
CN109240973A (zh) * 2018-08-30 2019-01-18 掌阅科技股份有限公司 基于电子书的阅读状态信息的确定方法及电子设备
CN111046894A (zh) * 2018-10-15 2020-04-21 北京京东尚科信息技术有限公司 识别马甲账号的方法和装置
CN109361957A (zh) * 2018-10-18 2019-02-19 广州酷狗计算机科技有限公司 发送点赞请求的方法和装置
US11363059B2 (en) * 2019-12-13 2022-06-14 Microsoft Technology Licensing, Llc Detection of brute force attacks
US20220329620A1 (en) * 2019-12-13 2022-10-13 Microsoft Technology Licensing, Llc Detection of brute force attacks
US11757931B2 (en) * 2019-12-13 2023-09-12 Microsoft Technology Licensing, Llc Detection of brute force attacks

Also Published As

Publication number Publication date
WO2015172685A1 (en) 2015-11-19
CN104967587B (zh) 2018-07-06
US20170155664A1 (en) 2017-06-01
US10270785B2 (en) 2019-04-23

Similar Documents

Publication Publication Date Title
CN104967587A (zh) 一种恶意账号的识别方法,及装置
Nobata et al. Abusive language detection in online user content
CN108509417B (zh) 标题生成方法及设备、存储介质、服务器
CN101295381B (zh) 一种垃圾邮件检测方法
CN108596360B (zh) 一种基于机器学习的判决预测方法及系统
CN104765874A (zh) 用于检测点击作弊的方法及装置
CN103886068A (zh) 用于互联网用户行为分析的数据处理方法和装置
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN110727766A (zh) 敏感词的检测方法
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
Druck et al. Learning to predict the quality of contributions to wikipedia
CN112860902A (zh) 舆情情感热度计算方法及装置
Hall et al. Bot detection in wikidata using behavioral and other informal cues
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN104572877A (zh) 游戏舆情的检测方法及系统
CN106326210B (zh) 一种文本话题和情感的联合检测方法及装置
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
Xiang et al. Spam detection in reviews using LSTM-based multi-entity temporal features
Aisopos et al. Textual and contextual patterns for sentiment analysis over microblogs
CN105808602B (zh) 一种垃圾信息的检测方法及装置
Khater et al. Tweets you like: Personalized tweets recommendation based on dynamic users interests
CN107967299B (zh) 一种面向农业舆情的热词自动提取方法及系统
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备
CN111563276B (zh) 一种网页篡改检测方法、检测系统及相关设备
CN109359274A (zh) 一种对批量生成的字符串进行识别的方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant