CN112468461B - 多维度异常流量识别方法、装置及计算机设备 - Google Patents

多维度异常流量识别方法、装置及计算机设备 Download PDF

Info

Publication number
CN112468461B
CN112468461B CN202011268193.0A CN202011268193A CN112468461B CN 112468461 B CN112468461 B CN 112468461B CN 202011268193 A CN202011268193 A CN 202011268193A CN 112468461 B CN112468461 B CN 112468461B
Authority
CN
China
Prior art keywords
user
access
score
quality
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011268193.0A
Other languages
English (en)
Other versions
CN112468461A (zh
Inventor
尤莹
田丹丹
丁若谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202011268193.0A priority Critical patent/CN112468461B/zh
Publication of CN112468461A publication Critical patent/CN112468461A/zh
Application granted granted Critical
Publication of CN112468461B publication Critical patent/CN112468461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种多维度异常流量识别方法、装置及计算机设备,其中,该方法包括:获取用户数据步骤,用于获取待识别用户数据;用户质量评分步骤,用于根据所述活跃日期对用户设置初始评分并结合所述使用IP地址、访问媒体及访问广告点位其中任一或其任意组合进行多维度用户行为评估以更新所述初始评分,得到所述用户的质量评分;异常流量识别步骤,用于设定一评分阈值并根据所述评分阈值对比用户的所述质量评分,以根据用户质量识别异常流量,具体的,低于所述评分阈值的用户产生的流量识别为异常流量,所述评分阈值根据业务需求及目标用户群设定。本申请对用户质量进行量化,实现根据用户质量识别异常流量,提高了互联网流量监测中异常流量的检出率。

Description

多维度异常流量识别方法、装置及计算机设备
技术领域
本申请涉及互联网技术领域,特别是涉及多维度异常流量识别方法、装置及计算机设备。
背景技术
广告投放是互联网商业营销的关键手段,但是由于其中的商业利益,在广告投放中往往出现各种形式的异常流量,这对广告主带来了巨大的损失,所以需要判断用户的质量,即哪些用户是真实的,哪些用户是虚假的。
在互联网用户行为研究中,媒体运营方和监测服务商通常会采集用户的行为信息,例如用户ID、IP地址、时间戳等。也会根据协议采集媒体的相关信息,例如媒体名称、媒体点位信息等。互联网广告是一种用户、媒体、媒介三个要素组成的一系列活动,对于用户质量的判定问题,当前主流的做法是利用采集到的数据,提取用户、媒体、媒介特征,利用经验准则进行判定,例如在时间戳维度上,检测用户行为的频次是否在合理范围;在关联的IP地址维度上,检测IP归属地异常切换等。
上述现有的异常流量检测机制多基于某一种维度,如专利文献,对于变化各异的异常流量形态,检出率有限,本文旨在设计一种多维度的异常流量识别方法,以提高互联网流量监测中异常流量的检出率。
发明内容
本申请实施例提供了一种多维度异常流量识别方法、装置及计算机设备,根据待识别用户数据对用户质量进行量化,实现根据用户质量识别异常流量,提高了互联网流量监测中异常流量的检出率。
第一方面,本申请实施例提供了一种多维度异常流量识别方法,包括:
获取用户数据步骤,用于获取待识别的用户数据,所述用户数据至少包括:若干用户ID及每一所述用户对应的活跃日期、使用IP地址、访问媒体及访问广告点位中任一或其任意组合;
用户质量评分步骤,用于根据所述活跃日期对用户设置初始评分并结合所述用户数据进行多维度用户行为评估以更新所述初始评分,得到所述用户的质量评分;
异常流量识别步骤,用于设定一评分阈值并根据所述评分阈值对比用户的所述质量评分,以根据用户质量识别异常流量,具体的,低于所述评分阈值的用户产生的流量识别为异常流量,所述评分阈值根据业务需求及目标用户群设定。
在其中一些实施例中,所述用户质量评分步骤进一步包括:
初始评分获取步骤,用于计算一设定时间段内所述用户的活跃日期数,并根据所述活跃日期数设置所述用户的初始评分;
评分更新步骤,用于利用在所述设定时间段内所述用户的使用IP地址、访问媒体及访问广告点位其一或其任意组合对所述用户进行评估并更新所述初始评分,得到所述用户的质量评分。
在其中一些实施例中,所述评分更新步骤中,进一步包括:使用IP地址评估步骤、访问媒体评估步骤及访问广告点位评估步骤。
在其中一些实施例中,所述使用IP地址数评估步骤进一步包括:
计算所述设定时间段内所述用户使用的不同IP地址数,并计算所述用户使用的日均IP地址数,具体的,所述用户使用的不同IP地址数为经合法性判断及去重操作后的计算得到的IP地址数;
获取全体用户关联的IP地址数分布并根据所述IP地址数分布设定一合理范围,判断所述日均IP地址数是否超过所述合理范围,若所述用户的日均IP地址数属于所述合理范围,则评分不变;否则,降低当前评分;所述合理范围根据所述全体用户关联的IP地址数分布并基于3-sigma原则(三西格玛准则,又称为拉依达准则)得到,所述合理范围表示为(nlow,nhigh)。
在其中一些实施例中,所述访问媒体评估步骤进一步包括:
计算所述设定时间段内所述用户的访问媒体数,具体的,所述访问媒体数通过对用户的访问媒体ID去重统计得到;
获取全体用户的访问媒体数平均值并根据所述访问媒体数平均值计算所述访问媒体的集中程度,具体的,所述集中程度通过对所述访问媒体数与所述访问媒体数平均值作除法运算得到;
根据所述访问媒体的集中程度判断所述访问媒体是否过于集中;若所述访问媒体非过于集中,则用户评分不变;否则,根据所述用户访问媒体的集中程度降低当前评分,具体的,若所述访问媒体的集中程度<1,则判断所述用户的访问媒体过于集中,若所述访问媒体的集中程度≥1,则判断所述用户的访问媒体非过于集中。
在其中一些实施例中,所述访问广告点位评估步骤进一步包括:
计算所述设定时间段内所述用户的访问广告点位数,具体的,计算所述访问广告点位数通过对所述用户访问的广告点位ID去重后统计得到;
获取全体用户的访问广告点位数平均值并根据所述访问广告点位数平均值计算所述访问广告点位的集中程度,具体的,所述访问广告点位的集中程度通过对所述用户的访问广告点位数与所述全体用户的访问广告点位数的平均值作除法运算得到;
根据所述用户的访问广告点位的集中程度判断所述访问广告点位是否过于集中,具体的,若所述访问广告点位的集中程度<1,则判断所述用户的访问广告点位过于集中,若所述访问广告点位的集中程度≥1,则判断所述用户的访问广告点位非过于集中;
若所述访问广告点位非过于集中,则评分不变;否则,根据所述用户的访问广告点位的集中程度降低当前评分。
第二方面,本申请实施例提供了一种多维度异常流量识别装置,包括:
获取用户数据模块,用于获取待识别的用户数据,所述用户数据至少包括:若干用户ID及每一所述用户对应的活跃日期、使用IP地址、访问媒体及访问广告点位中任一或其任意组合;
用户质量评分模块,用于根据所述活跃日期对用户设置初始评分并结合所述用户数据进行多维度用户行为评估以更新所述初始评分,得到所述用户的质量评分;
异常流量识别模块,用于设定一评分阈值并根据所述评分阈值对比用户的所述质量评分,以根据用户质量识别异常流量。
在其中一些实施例中,所述用户质量评分模块进一步包括:
初始评分获取模块,用于计算一设定时间段内所述用户的活跃日期数,并根据所述活跃日期数设置所述用户的初始评分;
评分更新模块,用于利用在所述设定时间段内所述用户的使用IP地址、访问媒体及访问广告点位其一或其任意组合对所述用户进行评估并更新所述初始评分,得到所述用户的质量评分。
在其中一些实施例中,所述评分更新模块进一步包括:使用IP地址评估模块、访问媒体评估模块及访问广告点位评估模块。
在其中一些实施例中,所述使用IP地址数评估模块进一步包括:
计算所述设定时间段内所述用户使用的不同IP地址数,并计算所述用户使用的日均IP地址数,具体的,所述用户使用的不同IP地址数为经合法性判断及去重操作后的计算得到的IP地址数;
获取全体用户关联的IP地址数分布并根据所述IP地址数分布设定一合理范围,判断所述日均IP地址数是否超过所述合理范围,若所述用户的日均IP地址数属于所述合理范围,则评分不变;否则,降低当前评分;所述合理范围根据所述全体用户关联的IP地址数分布并基于3-sigma原则得到,所述合理范围表示为(nlow,nhigh)。
在其中一些实施例中,所述访问媒体评估模块进一步包括:
计算所述设定时间段内所述用户的访问媒体数,具体的,所述访问媒体数通过对用户的访问媒体ID去重统计得到;
获取全体用户的访问媒体数平均值并根据所述访问媒体数平均值计算所述访问媒体的集中程度,具体的,所述集中程度通过对所述访问媒体数与所述访问媒体数平均值作除法运算得到;
根据所述访问媒体的集中程度判断所述访问媒体是否过于集中;若所述访问媒体非过于集中,则用户评分不变;否则,根据所述用户访问媒体的集中程度降低当前评分,具体的,若所述访问媒体的集中程度<1,则判断所述用户的访问媒体过于集中,若所述访问媒体的集中程度≥1,则判断所述用户的访问媒体非过于集中。
在其中一些实施例中,所述访问广告点位评估模块进一步包括:
计算所述设定时间段内所述用户的访问广告点位数,具体的,计算所述访问广告点位数通过对所述用户访问的广告点位ID去重后统计得到;
获取全体用户的访问广告点位数平均值并根据所述访问广告点位数平均值计算所述访问广告点位的集中程度,具体的,所述访问广告点位的集中程度通过对所述用户的访问广告点位数与所述全体用户的访问广告点位数的平均值作除法运算得到;
根据所述用户的访问广告点位的集中程度判断所述访问广告点位是否过于集中,具体的,若所述访问广告点位的集中程度<1,则判断所述用户的访问广告点位过于集中,若所述访问广告点位的集中程度≥1,则判断所述用户的访问广告点位非过于集中;
若所述访问广告点位非过于集中,则评分不变;否则,根据所述用户的访问广告点位的集中程度降低当前评分。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的多维度异常流量识别方法。
相比于相关技术,本申请实施例的多维度异常流量识别方法和装置根据当前互联网用户数据采集的现状结合互联网流量监测领域的业务场景构建了一种评分机制,通过所述评分机制识别异常用户进而识别异常流量,该机制综合考虑了用户活跃日期数、用户使用的IP地址数、用户访问的媒体数、用户访问的广告位个数等用户行为信息。相比于单一维度的识别机制,本机制具有更高的异常流量检出率。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的多维度异常流量识别方法流程图;
图2是根据本申请实施例的多维度异常流量识别方法步骤S22的分步骤流程图;
图3是根据本申请实施例的多维度异常流量识别方法的原理示意图;
图4是根据本申请实施例的多维度异常流量识别装置的结构框图。
附图说明:
1、获取用户数据模块;2、用户质量评分模块;3、异常流量识别模块;
21、初始评分获取模块;22、评分更新模块;
221、使用IP地址评估模块;222、访问媒体评估模块;
223、访问广告点位评估模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
在互联网应用过程中,用户在发生浏览及其他正常行为时,切换网络的频率、路由器等网络设备重置的频率在一个合理范围的,再者,用户在使用互联网时,如通过智能手机进行通讯、交通、购物、娱乐等等多方面的使用需求时,上述需求很难在某一媒体上全部得到满足,尤其是在一个较长的时间线上,因此,用户正常应用互联网的过程中会在多个多种媒体应用中都有活跃;另外,某一媒体存在的点位数几十到上百个不等,如,央视、人民日报等头部媒体的点位数则更多,因此,用户的一次互联网访问行为从首页跳转至目标页过程中会有多个广告点位加载。
基于上述考虑,本申请实施例根据用户应用互联网过程中切换网络的频率或路由器等网络设备重置的频率是否超过该合理范围、媒体应用的活跃情况和/或访问的广告点位只集中在个别点位上,建立用户行为、用户质量及异常流量的对应关系,提出一种多维度异常流量识别方法、装置及计算机设备。
图1-2是根据本申请实施例的多维度异常流量识别方法流程图,参考图1-2所示,本实施例提供的多维度异常流量识别方法包括如下步骤:
获取用户数据步骤S1,用于获取待识别的用户数据,用户数据至少包括:若干用户ID及每一用户对应的活跃日期、使用IP地址、访问媒体及访问广告点位中任一或其任意组合;
用户质量评分步骤S2,用于根据活跃日期对用户设置初始评分并结合所述用户数据进行多维度用户行为评估以更新初始评分,得到用户的质量评分;
异常流量识别步骤S3,用于设定一评分阈值并根据评分阈值对比用户的质量评分,低于评分阈值的用户产生的流量识别为异常流量,评分阈值根据业务需求及目标用户群设定。
具体的,用户质量评分步骤S2进一步包括:
初始评分获取步骤S21,用于计算一设定时间段内用户的活跃日期数,并根据活跃日期数设置用户的初始评分;
评分更新步骤S22,用于利用在设定时间段内用户的使用IP地址、访问媒体及访问广告点位其一或其任意组合对用户进行评估并更新初始评分,得到用户的质量评分。
参考使用状态图2所示,评分更新步骤S22进一步包括:使用IP地址评估步骤S221、访问媒体评估步骤S222及访问广告点位评估步骤S223。本实施例公开的评分更新步骤S22结合使用步骤S221~S223,步骤S221、S222、S223也可以是其一或者任意结合用于实现评分更新。
具体的,使用IP地址评估步骤S221进一步包括:
步骤S2211,计算设定时间段内经合法性判断及去重操作后的用户使用的不同IP地址数,并计算用户使用的日均IP地址数;
步骤S2212,获取全体用户关联的IP地址数分布并根据IP地址数分布设定一合理范围,判断日均IP地址数是否超过合理范围并更新用户评分,具体的,若用户的日均IP地址数属于合理范围,则评分不变;否则,降低当前评分;合理范围根据全体用户关联的IP地址数分布并基于3-sigma原则得到,合理范围表示为(nlow,nhigh)。
访问媒体评估步骤S222进一步包括:
步骤S2221,将设定时间段内用户的访问媒体ID去重并统计得到用户的访问媒体数;
步骤S2222,获取全体用户的访问媒体数平均值并根据访问媒体数平均值计算访问媒体的集中程度,集中程度通过对访问媒体数与访问媒体数平均值作除法运算得到;
步骤S2223,根据访问媒体的集中程度判断访问媒体是否过于集中并更新用户评分;具体的,若访问媒体的集中程度<1,则判断用户的访问媒体过于集中,根据用户访问媒体的集中程度降低当前评分,若访问媒体的集中程度≥1,则判断用户的访问媒体非过于集中,则用户评分不变。
访问广告点位评估步骤S223进一步包括:
步骤S2231,计算设定时间段内用户的访问广告点位数,具体的,计算访问广告点位数通过对用户访问的广告点位ID去重后统计得到;
步骤S2232,获取全体用户的访问广告点位数平均值并根据访问广告点位数平均值计算访问广告点位的集中程度,具体的,访问广告点位的集中程度通过对用户的访问广告点位数与全体用户的访问广告点位数的平均值作除法运算得到;
步骤S2233,根据用户的访问广告点位的集中程度判断访问广告点位是否过于集中,并更新用户评分,若访问广告点位的集中程度<1,则判断用户的访问广告点位过于集中,根据用户的访问广告点位的集中程度降低当前评分,若访问广告点位的集中程度≥1,则判断用户的访问广告点位非过于集中,则评分不变。
下面结合一个优选实施例对本上述实施例进行描述和说明。图3是根据本申请实施例的多维度异常流量识别方法的原理示意图,结合参考图1-3所示,经步骤S1获取用户数据后,通过步骤S2对用户质量评分,具体包括如下:
步骤S21:在一设定时间段t=n_days内,计算用户的活跃日期数d,根据用户的活跃日期数对用户设置初始评分,具体实现如下:
对于n个用户{u1,u2,...,un},其分数初值设置为{s1,s2,...,sn};对n个用户重复以下操作:
如果用户ui活跃日期数高于阈值theta,则si=100,其中1≤i≤n;
否则:si=50+(d-1)*10。
步骤S22:利用在设定时间段内用户的使用IP地址、访问媒体及访问广告点位其一或其任意组合对用户进行评估并更新初始评分,得到用户的质量评分,具体如下:
步骤S221:在时间段t=n_days内,计算用户使用的不同IP地址数ip_cnt:对用户产生行为使用的IP地址进行合法性判断,然后去重,统计去重后的IP地址个数,再计算并判断每个用户使用的日均IP地址数ip_avg是否超过合理范围,日均IP地址数计算方式为:
ip_avg=ip_cnt//n_days(//表示整除),
其中合理范围表示为(nlow,nhigh)。
如果用户的日平均关联IP数属于上述范围(nlow≤ip_avg≤nhigh),则其评分不变;否则,根据其实际的日均IP地址数ip_avg,适当降低其当前评分,具体计算方式为:
Si=si*(nhigh/ip_avg)ifip_avg>nhigh
Si=si*(ip_avg/nlow+c)ifip_avg<nlow
其中,c为很小的尝试,目的是防止分数为0。
步骤S222:在时间段t=n_days内,对用户访问媒体ID进行去重,统计去重后的访问媒体ID个数得到用户的访问媒体数md_cnt。然后,计算访问媒体的集中程度p,集中程度p的计算方式为:p=md_cnt/gamma,其中,gamma为全体用户访问媒体数的平均值,通过集中程度判断用户访问的不同媒体数md_cnt小于全体用户访问媒体数的平均值gamma,若p<1,根据集中程度降低用户评分,si=si*p,否则,用户评分si不变。
步骤S223:在时间段t=n_days内,对用户访问的广告点位ID进行去重,统计去重后的广告点位ID个数,计算得到用户访问的不同广告点位数spot_cnt。然后,计算访问广告点位的集中程度p1,集中程度p1的计算方式为:p1=spot_cnt/lambda。最后,判断用户访问的广告点位是否存在过于集中的情况,过于集中指的是,用户访问的不同广告点位数spot_cnt少于全体用户访问点位数的平均值lambda;若p1≥1,其评分不变;否则,根据其点位的集中程度降低其评分;si=si*pl。
至此,完成步骤S2。
最后,通过步骤3,根据业务需求对目标用户群的评分划定阈值,低于此阈值的用户ID产生的流量,即判定为异常流量。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,如步骤S221、S222及S223的步骤先后顺序也可根据需要进行调整。
本实施例还提供了一种多维度异常流量识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的多维度异常流量识别装置的结构框图,如图4所示,该装置包括:
获取用户数据模块1,用于获取待识别的用户数据,用户数据至少包括:若干用户ID及每一用户对应的活跃日期、使用IP地址、访问媒体及访问广告点位中任一或其任意组合;
用户质量评分模块2,用于根据活跃日期对用户设置初始评分并结合用户数据中任一或其任意组合进行多维度用户行为评估以更新初始评分,得到用户的质量评分;
异常流量识别模块3,用于设定一评分阈值并根据评分阈值对比用户的质量评分,以根据用户质量识别异常流量。
其中,用户质量评分模块2包括:
初始评分获取模块21,用于计算一设定时间段内用户的活跃日期数,并根据活跃日期数设置用户的初始评分;
评分更新模块22,用于利用在设定时间段内用户的使用IP地址、访问媒体及访问广告点位其一或其任意组合对用户进行评估并更新初始评分,得到用户的质量评分。具体的,评分更新模块22进一步包括:使用IP地址评估模块221、访问媒体评估模块222及访问广告点位评估模块223。
其中,使用IP地址评估模块221包括:将用户使用的IP地址经合法性判断及去重操作后,计算得到设定时间段内用户使用的不同IP地址数,并计算用户使用的日均IP地址数;获取全体用户关联的IP地址数分布并根据IP地址数分布设定一合理范围,判断日均IP地址数是否超过合理范围,若用户的日均IP地址数属于合理范围,则评分不变;否则,降低当前评分;合理范围根据全体用户关联的IP地址数分布并基于3-sigma原则得到,合理范围表示为(nlow,nhigh)。访问媒体评估模块222包括:计算设定时间段内用户的访问媒体数,具体的,访问媒体数通过对用户的访问媒体ID去重统计得到;获取全体用户的访问媒体数平均值并根据访问媒体数平均值计算访问媒体的集中程度,具体的,集中程度通过对访问媒体数与访问媒体数平均值作除法运算得到;根据访问媒体的集中程度判断访问媒体是否过于集中;若访问媒体非过于集中,则用户评分不变;否则,根据用户访问媒体的集中程度降低当前评分,具体的,若访问媒体的集中程度<1,则判断用户的访问媒体过于集中,若访问媒体的集中程度≥1,则判断用户的访问媒体非过于集中。访问广告点位评估模块223包括:计算设定时间段内用户的访问广告点位数,具体的,计算访问广告点位数通过对用户访问的广告点位ID去重后统计得到;获取全体用户的访问广告点位数平均值并根据访问广告点位数平均值计算访问广告点位的集中程度,具体的,访问广告点位的集中程度通过对用户的访问广告点位数与全体用户的访问广告点位数的平均值作除法运算得到;根据用户的访问广告点位的集中程度判断访问广告点位是否过于集中,具体的,若访问广告点位的集中程度<1,则判断用户的访问广告点位过于集中,若访问广告点位的集中程度≥1,则判断用户的访问广告点位非过于集中;若访问广告点位非过于集中,则评分不变;否则,根据用户的访问广告点位的集中程度降低当前评分。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例多维度异常流量识别方法可以由计算机设备来实现,计算机设备可以包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序。具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。其中,存储器可以包括用于数据或指令的大容量存储器。存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种多维度异常流量识别方法。
另外,结合上述实施例中的多维度异常流量识别方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种多维度异常流量识别方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种多维度异常流量识别方法,其特征在于,包括:
获取用户数据步骤,用于获取待识别的用户数据,所述用户数据包括:若干用户ID及每一所述用户对应的活跃日期,所述用户数据还包括:日均IP地址数、访问媒体及访问广告点位中任意二者或三者组合;
用户质量评分步骤,用于根据所述活跃日期对用户设置初始评分并结合所述用户数据进行多维度用户行为评估以更新所述初始评分,得到所述用户的质量评分;
异常流量识别步骤,用于设定一评分阈值并根据所述评分阈值对比用户的所述质量评分,以根据用户质量识别异常流量;
其中,所述日均IP地址数为通过计算一设定时间段内所述用户使用的不同IP地址数计算得到。
2.根据权利要求1所述的多维度异常流量识别方法,其特征在于,所述用户质量评分步骤进一步包括:
初始评分获取步骤,用于计算所述设定时间段内所述用户的活跃日期数,并根据所述活跃日期数设置所述用户的初始评分;
评分更新步骤,用于利用在所述设定时间段内所述用户的使用IP地址、访问媒体及访问广告点位中任意二者或三者组合对所述用户进行评估并更新所述初始评分,得到所述用户的质量评分。
3.根据权利要求2所述的多维度异常流量识别方法,其特征在于,所述评分更新步骤中,进一步包括:使用IP地址评估步骤、访问媒体评估步骤及访问广告点位评估步骤。
4.根据权利要求3所述的多维度异常流量识别方法,其特征在于,所述使用IP地址评估步骤进一步包括:
计算所述设定时间段内所述用户使用的不同IP地址数,并计算所述用户使用的日均IP地址数;
获取全体用户关联的IP地址数分布并根据所述IP地址数分布设定一合理范围,判断所述日均IP地址数是否超过所述合理范围,若所述用户的日均IP地址数属于所述合理范围,则评分不变;否则,降低当前评分。
5.根据权利要求3所述的多维度异常流量识别方法,其特征在于,所述访问媒体评估步骤进一步包括:
计算所述设定时间段内所述用户的访问媒体数;
获取全体用户的访问媒体数平均值并根据所述访问媒体数平均值计算所述访问媒体的集中程度;
根据所述访问媒体的集中程度判断所述访问媒体是否过于集中;若所述访问媒体非过于集中,则用户评分不变;否则,根据所述用户的访问媒体的集中程度降低当前评分。
6.根据权利要求3所述的多维度异常流量识别方法,其特征在于,所述访问广告点位评估步骤进一步包括:
计算所述设定时间段内所述用户的访问广告点位数;
获取全体用户的访问广告点位数平均值并根据所述访问广告点位数平均值计算所述访问广告点位的集中程度;
根据所述访问广告点位的集中程度判断所述访问广告点位是否过于集中;若所述访问广告点位非过于集中,则评分不变;否则,根据所述用户的访问广告点位的集中程度降低当前评分。
7.一种多维度异常流量识别装置,其特征在于,包括:
获取用户数据模块,用于获取待识别的用户数据,所述用户数据包括:若干用户ID及每一所述用户对应的活跃日期,所述用户数据还包括:日均IP地址数、访问媒体及访问广告点位中任意二者或三者组合;
用户质量评分模块,用于根据所述活跃日期对用户设置初始评分并结合所述用户数据中进行多维度用户行为评估以更新所述初始评分,得到所述用户的质量评分;
异常流量识别模块,用于设定一评分阈值并根据所述评分阈值对比用户的所述质量评分,以根据用户质量识别异常流量;
其中,所述日均IP地址数为通过计算一设定时间段内所述用户使用的不同IP地址数计算得到。
8.根据权利要求7所述的多维度异常流量识别装置,其特征在于,所述用户质量评分模块进一步包括:
初始评分获取模块,用于计算所述设定时间段内所述用户的活跃日期数,并根据所述活跃日期数设置所述用户的初始评分;
评分更新模块,用于利用在所述设定时间段内所述用户的使用IP地址、访问媒体及访问广告点位中任意二者或三者组合对所述用户进行评估并更新所述初始评分,得到所述用户的质量评分。
9.根据权利要求8所述的多维度异常流量识别装置,其特征在于,所述评分更新模块进一步包括:使用IP地址评估模块、访问媒体评估模块及访问广告点位评估模块。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的多维度异常流量识别方法。
CN202011268193.0A 2020-11-13 2020-11-13 多维度异常流量识别方法、装置及计算机设备 Active CN112468461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011268193.0A CN112468461B (zh) 2020-11-13 2020-11-13 多维度异常流量识别方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011268193.0A CN112468461B (zh) 2020-11-13 2020-11-13 多维度异常流量识别方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN112468461A CN112468461A (zh) 2021-03-09
CN112468461B true CN112468461B (zh) 2022-09-23

Family

ID=74826121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011268193.0A Active CN112468461B (zh) 2020-11-13 2020-11-13 多维度异常流量识别方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN112468461B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065899A (zh) * 2021-04-12 2021-07-02 上海明略人工智能(集团)有限公司 用户生命周期价值计算方法、系统、设备及存储介质
CN113242217A (zh) * 2021-04-23 2021-08-10 北京明略昭辉科技有限公司 互联网协议地址的异常检测方法、装置、设备及存储介质
CN113642919A (zh) * 2021-08-27 2021-11-12 上海掌门科技有限公司 风险控制方法、电子设备和存储介质
CN114154001B (zh) * 2021-11-29 2024-09-10 北京国瑞数智技术有限公司 虚假媒体内容挖掘与识别的方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107274212A (zh) * 2017-05-26 2017-10-20 北京小度信息科技有限公司 作弊识别方法及装置
CN107330731A (zh) * 2017-06-30 2017-11-07 北京京东尚科信息技术有限公司 一种识别广告位点击异常的方法和装置
CN108009844A (zh) * 2017-11-20 2018-05-08 北京智钥科技有限公司 确定广告作弊行为的方法、装置及云服务器
US10438246B1 (en) * 2011-11-21 2019-10-08 Rightquestion, Llc Advertising model
CN111401447A (zh) * 2020-03-16 2020-07-10 腾讯云计算(北京)有限责任公司 一种基于人工智能的流量作弊识别方法、装置、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190102790A1 (en) * 2017-09-29 2019-04-04 Marc Gregory Martino Method of ecommerce ad fraud prevention

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10438246B1 (en) * 2011-11-21 2019-10-08 Rightquestion, Llc Advertising model
CN107274212A (zh) * 2017-05-26 2017-10-20 北京小度信息科技有限公司 作弊识别方法及装置
CN107330731A (zh) * 2017-06-30 2017-11-07 北京京东尚科信息技术有限公司 一种识别广告位点击异常的方法和装置
CN108009844A (zh) * 2017-11-20 2018-05-08 北京智钥科技有限公司 确定广告作弊行为的方法、装置及云服务器
CN111401447A (zh) * 2020-03-16 2020-07-10 腾讯云计算(北京)有限责任公司 一种基于人工智能的流量作弊识别方法、装置、电子设备

Also Published As

Publication number Publication date
CN112468461A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112468461B (zh) 多维度异常流量识别方法、装置及计算机设备
CN109669795B (zh) 崩溃信息处理方法及装置
US11138617B2 (en) System and method for demographic profiling of mobile terminal users based on network-centric estimation of installed mobile applications and their usage patterns
CN108304426B (zh) 标识的获取方法及装置
CN108537586A (zh) 基于用户画像的数据处理方法及装置
CN110033302A (zh) 恶意账户识别方法及装置
CN113412607B (zh) 内容推送方法、装置、移动终端及存储介质
CN105447147A (zh) 一种数据处理方法及装置
US10606845B2 (en) Detecting leading session of application
CN108063685B (zh) 日志分析方法及装置
CN110909263B (zh) 一种身份特征的伴随关系确定方法及装置
CN109495562B (zh) 获取设备标识的方法及装置
CN111882349B (zh) 一种数据处理方法、装置及存储介质
CN110413861B (zh) 基于网络爬虫的链接提取方法、装置、设备及存储介质
CN108650145A (zh) 一种家庭宽带WiFi下手机号码特征自动提取方法
US20170187676A1 (en) System and method for maintaining coherence of association across a network address change or reassignment
CN112070161A (zh) 一种网络攻击事件分类方法、装置、终端及存储介质
CN112528325B (zh) 一种数据信息的安全处理方法及系统
CN115039380B (zh) 业务数据处理方法、装置、电子设备以及存储介质
CN106549914B (zh) 一种独立访问者的识别方法及装置
CN113901261A (zh) 异常对象集群的定位方法和装置、电子设备和存储介质
CN112261001A (zh) 一种基于流量数据分析的服务器行为监控方法
CN107276988B (zh) 游戏对局质量确定方法与装置
CN106708878B (zh) 终端识别方法及装置
CN107171949B (zh) 一种信息推送方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant