CN110213209A - 一种推送信息点击的作弊检测方法、装置及存储介质 - Google Patents
一种推送信息点击的作弊检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110213209A CN110213209A CN201810447917.4A CN201810447917A CN110213209A CN 110213209 A CN110213209 A CN 110213209A CN 201810447917 A CN201810447917 A CN 201810447917A CN 110213209 A CN110213209 A CN 110213209A
- Authority
- CN
- China
- Prior art keywords
- pushed information
- clicks
- sample
- click
- statistical distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Computer Security & Cryptography (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Computer Hardware Design (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例公开了一种推送信息点击的作弊检测方法、装置及存储介质,本发明实施例通过获取目标用户在预设时间段内的推送信息点击样本;计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集;分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析时间间隔序列集,确定出推送信息点击时间对应的差异度;当第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户,极大的提升了推送信息点击的作弊检测的实时性以及处理效率。
Description
技术领域
本发明涉及网络信息技术领域,具体涉及一种推送信息点击的作弊检测方法、装置及存储介质。
背景技术
随着网络的发展和计算机的广泛应用,线上信息推送市场迅速扩展。出钱投放推送信息的推送主可以向发布者(推送平台)付费,以通过网页、搜索引擎、浏览器或其它在线媒体来投放自己的推送信息,从而很好地推广自己的产品。目前,主流的推送信息收费方式之一是每次点击付费(Cost Per Click,CPC)方式。
现有技术中,在CPC推送模式下,推送主只需要为用户点击推送信息的行为付费,而不需要为推送信息的曝光付费,由此避免了只曝光不点击的风险。由于在每次用户点击推送信息时推送主就需要向发布者付费一次,因此推送主希望自己每次付费的推送信息点击都是真实用户的有效点击而不是作弊点击(也可称为“恶意点击”)。另外,提供用户流量的载体的流量主,例如,媒体主、网站主、软件主或者具有一定粉丝量的公众号,可参与推送信息的利润提成。相同推送信息曝光量下,点击率越高,流量主分到的利润也越高,因此,流量主有较强的作弊动机来提升推送信息点击率。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有技术中,虽然有提供了多种推送信息反作弊系统以判断某用户是否作弊,但是需要离线分析大量用户账号在某些特征上的聚集来判断是否作弊,作弊检测的实时性较差,或者需要分析底层代码以判断用户终端是否被植入恶意代码从而被恶意操控,作弊检测的效率较低。
发明内容
本发明实施例提供一种推送信息点击的作弊检测方法、装置及存储介质,旨在提升推送信息点击的作弊检测的实时性以及处理效率。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种推送信息点击的作弊检测方法,包括:
获取目标用户在预设时间段内的推送信息点击样本,所述推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征;
计算出所述流量主标识特征对应的第一统计分布、所述推送信息标识特征对应的第二统计分布以及所述推送信息点击时间特征对应的时间间隔序列集;
分析所述第一统计分布,确定出流量主标识对应的第一分散度,分析所述第二统计分布,确定出推送信息标识对应的第二分散度,以及分析所述时间间隔序列集,确定出推送信息点击时间对应的差异度;
当所述第一分散度、第二分散度以及差异度满足预设条件时,判定所述目标用户为作弊用户。
一种推送信息点击的作弊检测装置,包括:
获取单元,用于获取目标用户在预设时间段内的推送信息点击样本,所述推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征;
计算单元,用于计算出所述流量主标识特征对应的第一统计分布、所述推送信息标识特征对应的第二统计分布以及所述推送信息点击时间特征对应的时间间隔序列集;
分析单元,用于分析所述第一统计分布,确定出流量主标识对应的第一分散度,分析所述第二统计分布,确定出推送信息标识对应的第二分散度,以及分析所述时间间隔序列集,确定出推送信息点击时间对应的差异度;
判定单元,用于当所述第一分散度、第二分散度以及差异度满足预设条件时,判定所述目标用户为作弊用户。
在一些实施例中,所述分析单元,包括:
第一计算子单元,用于根据所述第一统计分布计算出对应的第一信息熵,将所述第一信息熵确定为流量主标识对应的第一分散度;
第二计算子单元,用于根据所述第二统计分布计算出对应的第二信息熵,将所述第二信息熵确定为推送信息标识对应的第二分散度;
第三计算子单元,用于根据所述时间间隔序列集计算出对应的标准差,将所述标准差确定为推送信息点击时间对应的差异度。
在一些实施例中,所述第一计算子单元,具体用于:
依次获取第一比值集中的第一比值,以及以预设数值为底且以所述第一比值为真数的第一对数值;
分别计算每一第一比值与对应的第一对数值的第一乘积值,得到第一乘积值集;
将所述第一乘积值集中每一第一乘积值进行求和,得到第一总值;
对所述第一总值进行相反数计算,得到第一信息熵,将所述第一信息熵确定为流量主标识对应的第一分散度。
在一些实施例中,所述第二计算子单元,具体用于:
依次获取第二比值集中的第二比值,以及以预设数值为底且以所述第二比值为真数的第二对数值;
分别计算每一第二比值与对应的第二对数值的第二乘积值,得到第二乘积值集;
将所述第二乘积值集中每一第二乘积值进行求和,得到第二总值;
对所述第二总值进行相反数计算,得到第二信息熵,将所述第二信息熵确定为推送信息标识对应的第二分散度。
在一些实施例中,所述第三计算子单元,具体用于:
获取所述时间间隔序列集中的每一推送信息点击时间差,计算每一推送信息点击时间差对应的算数平均值;
依次计算每一推送信息点击时间差与算数平均值的差值的平方值,并进行求和,得到第三总值;
计算所述第三总值与推送信息点击时间差的总个数值的比值,得到第三比值;
对所述第三比值进行开平方根计算,得到标准差,将所述标准差确定为推送信息点击时间对应的差异度。
在一些实施例中,所述判定单元,具体用于:
当所述第一分散度小于第一预设阈值和/或所述第二分散度小于第二预设阈值和/或所述差异度小于第三预设阈值时,判定所述目标用户为作弊用户。
一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述推送信息点击的作弊检测方法中的步骤。
本发明实施例通过获取目标用户在预设时间段内的推送信息点击样本;计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集;分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析时间间隔序列集,确定出推送信息点击时间对应的差异度;当第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户,相对于需要分析大量用户账号在某特征上的聚集来判断是否作弊的方案而言,极大的提升了推送信息点击的作弊检测的实时性以及处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的推送信息点击的作弊检测系统的场景示意图;
图2是本发明实施例提供的推送信息点击的作弊检测方法的流程示意图;
图3是本发明实施例提供的推送信息点击的作弊检测方法的另一流程示意图;
图4是本发明实施例提供的推送信息点击的作弊检测界面的示意图;
图5a是本发明实施例提供的推送信息点击的作弊检测装置的结构示意图;
图5b是本发明实施例提供的推送信息点击的作弊检测装置的另一结构示意图;
图5c是本发明实施例提供的推送信息点击的作弊检测装置的另一结构示意图;
图6是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种推送信息点击的作弊检测方法、装置、及存储介质。
请参阅图1,图1为本发明实施例所提供的推送信息点击的作弊检测系统的场景示意图,包括:终端A、和服务器(该作弊检测系统还可以包括除终端A之外的其他终端,终端具体个数在此处不作限定),终端A与服务器之间可以通过通信网络连接,该通信网络,可以包括无线网络以及有线网络,其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体,图中并未示意出。终端A可以通过通信网络与服务器进行信息交互,比如终端A在检测到用户点击媒体、网站或者软件上的推送信息时,会自动记录为一条推送信息点击样本,该推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征,然后将该推送信息点击样本上传到服务中,服务器将该推送信息点击样本保存到存储器中。
该推送信息点击的作弊检测系统可以包括推送信息点击的作弊检测装置,该推送信息点击的作弊检测装置具体可以集成在服务器中,在图1中,该服务器主要用于接收终端A发送的推送信息点击样本,并将该推送信息点击样本存储至存储器中,该存储器中可以包括终端A的多条推送信息点击样本。在服务器需要进行作弊检测时,会在存储器中获取终端A在预设时间段内的多条推送信息点击样本,服务器会计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集,服务器分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析该时间间隔序列集,确定出推送信息点击时间对应的差异度,当服务器检测到该第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户。
该推送信息点击的作弊检测系统还可以包括终端A,该终端A可以安装各种用户需要的应用,比如媒体应用、浏览器应用以及即时通讯应用等,媒体主、网站主或者软件主为了利润提成,会在媒体页面、网站页面或者软件页面上显示推送信息,该推送信息为推送主为了推广自己的产品而委托给媒体主、网站主或者软件主的产品相关信息,终端A的用户可以根据自身兴趣点击相应的推送信息,终端A在检测到用户点击了推送信息时,会生成该点击事件对应的一条推送信息点击样本,并将该推送信息点击样本上传至服务器中。
需要说明的是,图1所示的推送信息点击的作弊检测系统的场景示意图仅仅是一个示例,本发明实施例描述的推送信息点击的作弊检测系统以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着推送信息点击的作弊检测系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
实施例一、
在本实施例中,将从推送信息点击的作弊检测装置的角度进行描述,该推送信息点击的作弊检测装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。
一种推送信息点击的作弊检测方法,包括:获取目标用户在预设时间段内的推送信息点击样本,推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征;计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集;分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析时间间隔序列集,确定出推送信息点击时间对应的差异度;当第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户。
请参阅图2,图2是本发明实施例提供的推送信息点击的作弊检测方法的流程示意图。该推送信息点击的作弊检测方法包括:
在步骤101中,获取目标用户在预设时间段内的推送信息点击样本。
可以理解的是,推送信息为推送主出钱向推送平台付费,通过网页、搜索引擎、浏览器或者在线媒体来推广自己的产品的相关介绍信息,该推送信息可以为广告、文章等等。
其中,该推送信息点击样本为一条记录信息,为用户在终端上点击推送信息时产生,该推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征。
该推送信息点击时间特征表示了用户点击推送信息时相应的时间点。该流量主标识特征表示了用户点击推送信息时,提供用户流量的载体的流量主标识,该流量主标识可以为多个,即可以有多个不同的流量主,每一流量主对应一不同的流量主标识。该推送信息标识特征表示了用户点击推送信息时,被点击的推送信息标识,该推送信息标识可以为多个,即可以有多个不同的推送信息,每一推送信息对应一不同的推送信息标识。
在一些实施方式中,该推送信息点击样本除了推送信息点击时间特征、流量主标识特征以及推送信息标识特征之外,还可以包括互联网协议地址(Internet ProtocolAddress,IP),该IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。
可选的,该目标用户可以为终端的客户端账号、国际移动设备识别码(International Mobile Equipment Identity,IMEI)或者邮箱地址号码等等,由于用户在使用终端点击推送信息时,终端会至少记录该点击事件对应的推送信息点击时间、流量主标识以及推送信息标识等等,将记录的推送信息点击时间、流量主标识以及推送信息标识等等生成推送信息点击样本,并将该推送信息点击样本上报至服务器中。
因此,服务器中存储了多条目标用户对应的推送信息点击样本,在需要对目标用户进行作弊检测时,从存储的数据库中获取该目标用户在预设时间段内的至少一条推送信息点击样本,以便后期对推送信息点击样本中的数据进行分析,判定该目标用户是否为作弊用户。
在步骤102中,计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集。
其中,该统计分布(frequency distribution)亦称“次数(频数)分布(分配)”。在统计分组的基础上,将总体中的所有单位按组归类整理,形成总体单位在各组间的分布。分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比,称为比率或频率。时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列,而该时间间隔序列是指同一统计指标的数值按照其发生的时间先后顺序排列而成的数列的相互之间的时间差的数列。
可选的,通过对预设时间段内的多条推送信息点击样本中的流量主标识进行提取,确定每一流量主标识对应的第一点击次数,以及推送信息点击样本的点击总数,依次算出每一流量主标识的点击次数与点击总数之比,以得到流量主标识特征对应的第一统计分布。
可选的,通过对预设时间段内的多条推送信息点击样本中的推送信息标识进行提取,确定每一推送信息标识对应的第二点击次数,以及推送信息点击样本的点击总数,依次计算出每一推送信息标识的点击次数与点击总数之比,以得到推送信息标识对应的第二统计分布。
可选的,通过对预设时间段内的多条推送信息点击样本中的推送信息点击时间进行提取。按照推送信息点击时间的先后顺序进行排序,生成数列,并计算数列中相邻推送信息点击时间的推送信息点击时间差,以得到推送信息点击时间特征对应的时间间隔序列。
在一些实施方式中,计算出流量主标识特征对应的第一统计分布、以及推送信息标识特征对应的第二统计分布的步骤,包括:
(1)确定每一条推送信息点击样本中每一流量主标识对应的第一点击次数,得到第一点击次数集;
(2)确定每一条推送信息点击样本中每一推送信息标识对应的第二点击次数,得到第二点击次数集;
(3)确定推送信息点击样本的总数,得到点击总数;
(4)根据第一点击次数集、第二点击次数集和点击总数计算该流量主标识特征对应的第一统计分布和该推送信息标识特征对应的第二统计分布。
其中,流量主标识特征有多个不同的流量主,每一流量主对应一不同的流量主标识,一条推送信息点击样本中的流量主标识特征会指示一流量主标识,说明在该点击事件中用户点击的为该指示的流量主标识,记录为该流量主标识的一次点击次数。通过对预设时间段内的每一推送信息点击样本中的流量主标识进行提取,确定出至少一个流量主标识,以及每一流量主标识对应的第一点击次数,得到第一点击次数集。
进一步的,推送信息标识特征有多个不同的流量主,每一推送信息对应一不同的推送信息标识,一条推送信息点击样本中的推送信息标识特征会指示一推送信息标识,说明在该点击事件中用户点击的为该指示的推送信息标识,记录为该推送信息标识的一次点击次数。通过对预设时间段内的每一推送信息点击样本中的推送信息标识进行提取,确定出至少一个推送信息标识,以及每一推送信息标识对应的第二点击次数,得到第二点击次数集。
由于一条推送信息点击样本表示用户的一次点击事件,所以确定预设时间段内的推送信息点击样本的总数,即为该预设时间段内推送信息的点击总数。
根据第一点击次数集、第二点击次数集和点击总数计算出该流量主标识特征对应的第一统计分布和该推送信息标识特征对应的第二统计分布。
在一些实施方式中,该根据第一点击次数集、第二点击次数集和点击总数计算出该流量主标识特征对应的第一统计分布和该推送信息标识特征对应的第二统计分布的步骤,可以包括:
(1.1)计算第一点击次数集中每一第一点击次数与点击总数的比值,得到第一比值集,根据该第一比值集生成第一统计分布;
(1.2)计算第二点击次数集中每一第二点击次数与点击总数的比值,得到第二比值集,根据该第二比值集生成第二统计分布。
其中,通过计算第一点击次数集中每一流量主标识对应的第一点击次数与点击总数的比值,得到每一流量主标识的点击次数与点击总数的频率,进而得到第一比值集,该第一比值集为流量主标识特征对应的第一统计分布。例如,该第一统计分布的形式可以为(流量主标识pidk,流量主标识pidk点击次数的占比pk),k=1,2,..,q,该q为出现过的流量主标识的个数。该占比pk用公式表达如下:
其中,目标用户在流量主标识pidk上的点击数即为流量主标识对应的第一点击次数,该用户的总点击数n即为点击总数,而该占比pk即为每一流量主标识的第一点击次数与点击总数的频率。
进一步的,通过计算第二点击次数集中每一推送信息标识对应的第二点击次数与点击总数的比值,得到每一推送信息标识的点击次数与点击总数的频率,进而得到第二比值集,该第二比值集为推送信息标识特征对应的第二统计分布。例如,该第二统计分布的形式可以为(推送信息标识aidk,推送信息标识aidk点击次数的占比ak),k=1,2,..,w,该w为出现过的推送信息标识的个数。该占比ak用公式表达如下:
其中,目标用户在推送信息标识aidk上的点击数即为推送信息标识对应的第二点击次数,该用户的总点击数n即为点击总数,而该占比ak即为每一推送信息标识的第二点击次数与点击总数的频率。
需要说明的是,每一流量主标识的点击次数与总点击次数的频率之和为1。每一推送信息标识的点击次数与总点击次数的频率之和也为1。
在一些实施方式中,计算该推送信息点击时间特征对应的时间间隔序列集的步骤,可以包括获取每一条推送信息点击样本中的推送信息点击时间,计算出每一条推送信息点击样本之间的推送信息点击时间差,得到时间间隔序列集。
其中,获取每一条推送信息点击样本中的推送信息点击时间,分别计算每一条推送信息点击样本之间的推送信息点击时间差,得到推送信息点击时间差数列,将该推送信息点击时间差数列确定为时间间隔序列集。
在一些实施方式中,该获取每一条推送信息点击样本中的推送信息点击时间,计算出每一条推送信息点击样本之间的推送信息点击时间差,得到时间间隔序列集的步骤,可以包括:
(2.1)获取每一条推送信息点击样本中的推送信息点击时间,按照推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序;
(2.2)依次计算相邻之间的推送信息点击样本的推送信息点击时间差,得到时间间隔序列集。
其中,获取预设时间段内的每一条推送信息点击样本中的推送信息点击时间,根据推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序,使得预设时间段内的每一条推送信息点击样本进行规律排列。
进一步的,依次计算排序后的推送信息点击样本之间的推送信息点击时间差,得到推送信息点击时间差数列,将该推送信息点击时间差数列确定为时间间隔序列集。该时间间隔序列集的表现形式可以为(dt1,dt2,…,dtk-1,…dtn-1)。
其中:
dt1=t2-t1
dt2=t3-t2
…
dtk-1=tk-tk-1
…
dtn-1=tn-tn-1
其中,t1代表了第一个推送信息点击时间,t2代表了第一个推送信息点击时间,以此类推,此时不作详细解释。
在步骤103中,分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析时间间隔序列集,确定出推送信息点击时间对应的差异度。
需要说明的是,在非作弊的场景中,用户点击的流量主标识是比较分散,因为用户不会在同一流量主标识下反复点击推送信息,因此用户的流量主标识点击不会聚集在同一流量主上。
在非作弊的场景中,用户点击的推送信息标识也是比较分散的,因为用户只会对自己感兴趣的推送信息进行点击,因此不会反复的对显示过的同一推送信息标识进行点击,点击的推送信息标识也比较分散。
在非作弊的场景中,用户点击推送信息的推送信息点击时间比较分散,由于推送信息是随机出现的,且用户只对感兴趣的推送信息进行点击,因此用户点击推送信息的时间间隔较为分散,不会呈现出规律性或者周期性。
其中,该第一统计分布代表了流量主标识特征的点击总数在每一流量主标识的第一点击次数的分布情况,当分布越广时,说明流量主标识的点击聚集程度越分散,对应的第一分散度的值就越大,当分布越窄时,说明流量主标识的点击聚集程度越集中,对应的第一分散度的值就越小。
可选的,该第二统计分布代表了推送信息标识特征的点击总数在每一推送信息标识的第二点击次数的分布情况,当分布越广时,说明推送信息标识的点击聚集程度越分散,对应的第二分散度的值就越大,当分布越窄时,说明推送信息标识的点击聚集程度越集中,对应的第二分散度的值就越小。
可选的,该时间间隔序列集代表了推送信息点击时间间隔的分散情况,当分散越广时,说明推送信息点击时间差之间的周期性越差,对应的差异度就越大,当分散越窄时,说明推送信息点击时间差之间的周期性越强,对应的差异度就越小。
因此,对第一统计分布中的流量主标识特征的点击总数在每一流量主标识的第一点击次数的分布情况进行分析,确定对应的第一分散度。对第二统计分布中的推送信息标识特征的点击总数在每一推送信息标识的第二点击次数的分布情况进行分析,确定对应的第二分散度。对时间间隔序列集中的推送信息点击时间间隔的分散情况进行分析,确定对应的差异度。
在一些实施方式中,该分析该第一统计分布,确定出流量主标识对应的第一分散度,分析该第二统计分布,确定出推送信息标识对应的第二分散度,以及分析该时间间隔序列集,确定出推送信息点击时间对应的差异度的步骤,可以包括:
(1)根据该第一统计分布计算出对应的第一信息熵,将该第一信息熵确定为流量主标识对应的第一分散度;
(2)根据该第二统计分布计算出对应的第二信息熵,将该第二信息熵确定为推送信息标识对应的第二分散度;
(3)根据该时间间隔序列集计算出对应的标准差,将该标准差确定为推送信息点击时间对应的差异度。
其中,该信息熵可以作为系统复杂度的度量,如果系统越复杂,出现不同情况的种类越多,那么信息熵越大,如果系统越简单,出现不同情况的种类越小(极端情况下,只有1种情况,对应的概率为1,那么信息熵为0),那么信息熵越小。标准差则是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间的差异较大,一个较小的标准差,代表这些数值较接近平均值。
进一步的,根据第一统计分布计算出流量主标识特征对应的第一信息熵,将该第一信息熵确定为流量主标识对应的第一分散度。根据第二统计分布计算出推送信息标识特征对应的第二信息熵,将该第二信息熵确定为推送信息标识对应的第二分散度。根据时间间隔序列集计算出推送信息点击时间特征对应的标准差,将该标准差确定为推送信息点击时间对应的差异度。
在一些实施方式中,该根据该第一统计分布计算出对应的第一信息熵的步骤,可以包括:
(1.1)依次获取第一比值集中的第一比值,以及以预设数值为底且以该第一比值为真数的第一对数值;
(1.2)分别计算每一第一比值与对应的第一对数值的第一乘积值,得到第一乘积值集;
(1.3)将该第一乘积值集中每一第一乘积值进行求和,得到第一总值;
(1.4)对该第一总值进行相反数计算,得到第一信息熵。
需要说明的是,该第一信息熵的公式可以为:
其中,k=1,2,…,q。该EP代表了第一信息熵,该占比pk即为每一流量主标识的第一点击次数与点击总数的第一比值。按照计算流程进行分解,即为依次获取第一比值集中的第一比值pk,以及以预设数值为底且以该第一比值pk为真数的第一对数值,该预设数值可以为2或者10等等。
进一步的,分别计算每一第一比值pK与对应的第一对数值的第一乘积值,得到第一乘积值集,该第一乘积值集中包含k个第一乘积值,将该第一乘积值集中k个第一乘积值进行求和,得到第一总值,并对该第一总值进行相反数计算,即得到第一信息熵EP。
在一些实施方式中,该根据该第二统计分布计算出对应的第二信息熵的步骤,可以包括:
(2.1)依次获取第二比值集中的第二比值,以及以预设数值为底且以该第二比值为真数的第二对数值;
(2.2)分别计算每一第二比值与对应的第二对数值的第二乘积值,得到第二乘积值集;
(2.3)将该第二乘积值集中每一第二乘积值进行求和,得到第二总值;
(2.4)对该第二总值进行相反数计算,得到第二信息熵。
需要说明的是,该第二信息熵的公式可以为:
其中,k=1,2,…,w。该Ea代表了第二信息熵,该占比ak即为每一推送信息标识的第二点击次数与点击总数的第二比值。按照计算流程进行分解,即为依次获取第二比值集中的第二比值ak,以及以预设数值为底且以该第二比值ak为真数的第二对数值,该预设数值可以为2或者10等等。
进一步的,分别计算每一第二比值aK与对应的第二对数值的第二乘积值,得到第二乘积值集,该第二乘积值集中包含k个第二乘积值,将该第二乘积值集中k个第二乘积值进行求和,得到第二总值,并对该第二总值进行相反数计算,即得到第二信息熵Ea。
在一些实施方式中,该根据该时间间隔序列集计算出对应的标准差的步骤,可以包括:
(3.1)获取该时间间隔序列集中的每一推送信息点击时间差,计算每一推送信息点击时间差对应的算数平均值;
(3.2)依次计算每一推送信息点击时间差与算数平均值的差值的平方值,并进行求和,得到第三总值;
(3.3)计算该第三总值与推送信息点击时间差的总个数值的比值,得到第三比值;
(3.4)对该第三比值进行开平方根计算,得到标准差。
需要说明的是,该标准差的公式可以为:
其中,i=1,2,…,n-1。该dtstd代表了标准差,该dti为时间间隔序列集中的每一推送信息点击时间差。该dt为所有的推送信息点击时间差对应的算数平均值。按照计算流程进行分解,即为获取时间间隔序列集中每一推送信息点击时间差dti。将每一推送信息点击时间差dti进行求和,并除以推送信息点击时间差的总个数值,得到每一推送信息点击时间差dti对应的算数平均值dt。
进一步的,依次计算每一推送信息点击时间差dti与算数平均值dt的差的平方值,并进行求和,得到第三总值,计算该第三总值与推送信息点击时间差的总个数值n-1的比值,得到第三比值。对该第三比值进行开平方根计算,得到标准差dtstd。
在步骤104中,当第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户。
其中,该第一分散度的值越大,说明流量主标识的点击聚集程度越分散,即用户点击的流量主标识的个数越多,该第一分散度的值越小,说明流量主标识的点击聚集程度越集中,即用户点击的流量主标识的个数越少,而正常用户点击的流量主标识为比较分散的,不会集中在某一两特定流量主标识上,也就是说正常用户的第一分散度的值是大于一定的值的。
该第二分散度的值越大,说明推送信息标识的点击聚集程度越分散,即用户点击的推送信息标识的个数越多,该第二分散度的值越小,说明推送信息标识的点击聚散程度越集中,即用户点击的推送信息标识的个数越少,而正常用户点击的推送信息标识为比较分散的,不会集中在某一两个特定的推送信息标识上,也就是说正常用户的第二分散度的值是要大于一定的值的。
该差异度越大,说明推送信息点击时间的差的规律性越差,即用户点击推送信息的时间间隔越没有规律。该差异度越小,说明推送信息点击时间的差的规律性越好,即用户点击推送信息的时间间隔越有规律,而正常用户点击推送信息的时间间隔是比较分散的,不会呈现规律性,也就是正常用户的差异度的值是要大于一定的值的。
基于此,当第一分散度的值、第二分散度的以及差异度的值中有一个值小于一定的值时,判定为第一分散度、第二分散度以及差异度满足预设条件,判定目标用户为作弊用户。
在一些实施方式中,该当该第一分散度、第二分散度以及差异度满足预设条件时,判定该目标用户为作弊用户的步骤,可以包括当该第一分散度小于第一预设阈值和/或该第二分散度小于第二预设阈值和/或该差异度小于第三预设阈值时,判定该目标用户为作弊用户。
其中,该第一预设阈值为界定流量主标识的点击是否为正常用户点击的界定值,当第一分散度的值小于第一预设阈值时,说明用户点击的流量主标识的个数小于一定阈值,为第一异常点击情况。该第二预设阈值为界定推送信息标识的点击是否为正常用户点击的界定值,当第二分散度的值小于第二预设阈值时,说明用户点击的推送信息标识的个数小于一定阈值,为第二异常点击情况。该第三预设阈值为界定推送信息点击时间差的间隔是否为正常用户点击的界定值,当差异度的值小于第三预设阈值时,说明用户点击推送信息的时间间隔具有一定的规律性,为第三异常点击情况。
进一步的,可以选择当第一异常点击情况、第二异常点击情况以及第三异常点击情况中发生一种异常点击情况时,判定该目标用户为作弊用户。也可以选择当第一异常点击情况、第二异常点击情况以及第三异常点击情况中同时发生两种异常点击情况时,判定该目标用户为作弊用户。还可以选择当第一异常点击情况、第二异常点击情况以及第三异常点击情况中同时发生三种异常点击情况时,判定该目标用户为作弊用户。此处不作具体限定。
由上述可知,本发明实施例通过获取目标用户在预设时间段内的推送信息点击样本;计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集;分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析时间间隔序列集,确定出推送信息点击时间对应的差异度;当第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户,相对于需要分析大量用户账号在某特征上的聚集来判断是否作弊的方案而言,极大的提升了推送信息点击的作弊检测的实时性以及处理效率。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该推送信息点击的作弊检测装置具体集成在服务器中为例进行说明。
请参阅图3,图3为本发明实施例提供的推送信息点击的作弊检测方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器获取目标用户在预设时间段内的推送信息点击样本。
其中,该目标用户为用户的ID名称,该推送信息点击样本为一条记录信息,为用户在终端上点击推送信息时产生并上传到服务器中的记录信息,该推送信息点击样本中至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征。
进一步的,服务器会获取同一目标用户(ID名称)在预设时间段内的所有推送信息点击样本。
在一实施方式中,当获取到预设时间段内的所有推送信息点击样本的数量少于阈值时,如少于5条,那么说明样本数过少,分析结果不具有科学性。服务器可以临时扩大预设时间段的范围,以取得更多的推送信息点击样本,直至推送信息点击样本的数量不小于阈值。
例如,如图4所示,服务器获取目标用户“1785559880”在29秒内的6条推送信息点击样本,该推送信息点击样本包括用户ID(UIN)特征、推送信息点击时间特征(时间)、IP特征、IP地址(ip_str)特征、客户跟踪身份(traceid)特征、流量主标识(流量主appid)特征、应用消息标识(appmsgid)、项目号(itemidx)特征以及广告ID(推送信息标识)特征。
在步骤202中,服务器确定每一条推送信息点击样本中每一流量主标识对应的第一点击次数,得到第一点击次数集,确定每一条推送信息点击样本中每一推送信息标识对应的第二点击次数,得到第二点击次数集。
其中,该预设时间段内的推送信息点击样本中可以出现多个不同的流量主如流量主1、流量主2以及流量主3等等,每一流量主对应一不同的流量主标识。该预设时间段内的推送信息点击样本中可以出现多个不同的推送信息标识。
进一步的,服务器确定多条推送信息点击样本中出现的每一流量主标识,以及出现的每一流量主标识对应的第一点击次数,得到第一点击次数集。确定多条推送信息点击样本中出现的每一推送信息标识,以及每一推送信息标识对应的第二点击次数,得到第二点击次数集。
例如,如图4所示,服务器确定6条推送信息点击样本中,只有一个流量主标识“wx1934dd16ac3686fd”以及该流量主标识“wx1934dd16ac3686fd”对应的第一点击次数为6次。服务器确定6条推送信息点击样本中,有推送信息标识“26503106”,以及推送信息标识“26503106”对应的第二点击次数为1次、推送信息标识“24514186”,以及推送信息标识“24514186”对应的第二点击次数为1次、推送信息标识“25907765”,以及推送信息标识“25907765”对应的第二点击次数为1次、推送信息标识“24238558”,以及推送信息标识“24238558”对应的第二点击次数为1次、推送信息标识“26455125”,以及推送信息标识“26455125”对应的第二点击次数为1次以及推送信息标识“26440757”,以及推送信息标识“26440757”对应的第二点击次数为1次。
在步骤203中,服务器确定推送信息点击样本的总数,得到点击总数。
其中,预设时间段内的一条推送信息点击样本即代表一次点击次数,那么在预设时间段内的推送信息点击样本的总数即为点击总数,服务器确定预设时间段内推送信息点击样本的总数的数量,就可以得到点击总数。
例如,如图4所示,服务器确定在29秒内有6条推送信息点击样本,即确定点击总数为6。
在步骤204中,服务器计算第一点击次数集中每一第一点击次数与点击总数的比值,得到第一比值集,根据第一比值集生成第一统计分布,计算第二点击次数集中每一第二点击次数与点击总数的比值,得到第二比值集,根据第二比值集生成第二统计分布。
其中,依次计算第一点击次数集中每一第一点击次数与点击总数的比值,得到第一比值集,该第一比值集为流量主标识特征对应的第一统计分布。例如,该第一统计分布的形式可以为(流量主标识pidk,流量主标识pidk点击次数的占比pk),k=1,2,..,q,该q为出现过的流量主标识的个数。该占比pk用公式表达如下:
其中,目标用户在流量主标识pidk上的点击数对应为第一点击次数集中的每一第一点击数。用户的总点击数n即为点击总数,占比pk为第一比值集中的每一第一比值。
其中,依次计算第二点击次数集中每一第二点击次数与点击总数的比值,得到第二比值集,该第二比值集为推送信息标识特征对应的第二统计分布。例如,该第二统计分布的形式可以为(推送信息标识aidk,推送信息标识aidk点击次数的占比ak),k=1,2,..,w,该w为出现过的推送信息标识的个数。该占比ak用公式表达如下:
其中,目标用户在推送信息标识aidk上的点击数对应为第二点击次数集中的每一第二点击数。用户的总点击数n即为点击总数,占比ak为第二比值集中的每一第二比值。
例如,如图4所示,服务器计算第一点击次数集中,流量主标识“wx1934dd16ac3686fd”的第一点击次数6与点击总数6的比值为1,得到第一比值集。
根据第一比值集确定第一统计分布的形式可以为(流量主标识1,流量主标识1点击次数的占比1)。
服务器计算第二点击次数集中,推送信息标识“26503106”的第二点击次数1与点击总数6的比值为0.1666666667。推送信息标识“24514186”的第二点击次数1与点击总数6的比值为0.1666666667。推送信息标识“25907765”的第二点击次数1与点击总数6的比值为0.1666666667。推送信息标识“24238558”的第二点击次数1与点击总数6的比值为0.1666666667。推送信息标识“26455125”的第二点击次数1与点击总数6的比值为0.1666666667。推送信息标识“26440757”的第二点击次数1与点击总数6的比值为0.1666666667。得到第二比值集。
根据第二比值集确定第二统计分布的形式可以为(推送信息标识1,推送信息标识1点击次数的占比0.1666666667)、(推送信息标识2,推送信息标识2点击次数的占比0.1666666667)、(推送信息标识3,推送信息标识3点击次数的占比0.1666666667)、(推送信息标识4,推送信息标识4点击次数的占比0.1666666667)、(推送信息标识5,推送信息标识5点击次数的占比0.1666666667)以及(推送信息标识6,推送信息标识6点击次数的占比0.1666666667)。
在步骤205中,服务器获取每一条推送信息点击样本中的推送信息点击时间,按照推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序,依次计算相邻之间的推送信息点击样本的推送信息点击时间差,得到时间间隔序列集。
其中,服务器获取预设时间段内的每一条推送信息点击样本的推送信息点击时间,按照推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序,使得每一条推送信息点击样本的推送信息点击时间都是按照时间轴顺序排列的。
进一步的,依次计算相邻之间的推送信息点击样本的推送信息点击时间差,得到时间间隔序列。例如,该时间间隔序列集的表现形式可以为(dt1,dt2,…,dtk-1,…dtn-1)
其中:
dt1=t2-t1
dt2=t3-t2
…
dtk-1=tk-tk-1
…
dtn-1=tn-tn-1
其中,t1代表了第一条推送信息点击样本的推送信息点击时间,t2代表了第二条推送信息点击样本的推送信息点击时间,以此类推。
例如,如图4所示,从第1条推送信息点击样本到第6条,推送信息点击时间为升序排列,依次计算相邻之间的推送信息点击样本的推送信息点击使时间差,计算出时间间隔序列集为(6,6,6,5,6),该时间间隔序列集可以用表进行表示,如表1所示:
表1
序号 | 推送信息点击时间差 |
dt<sub>1</sub> | 6 |
dt<sub>2</sub> | 6 |
dt<sub>3</sub> | 6 |
dt<sub>4</sub> | 5 |
dt<sub>5</sub> | 6 |
上述表2中,包含5个推送信息点击时间差,分别为6、6、6、5以及6,dt1为第一条推送信息点击样本的推送信息点击时间与第二条推送信息点击样本的推送信息点击时间的时间差值,dt2为第二条推送信息点击样本的推送信息点击时间与第三条推送信息点击样本的推送信息点击时间的时间差值,以此类推。
在步骤206中,服务器根据第一统计分布计算出对应的第一信息熵,将第一信息熵确定为流量主标识对应的第一分散度。
其中,该第一信息熵的公式可以为:
其中,k=1,2,…,q。该EP代表了第一信息熵,该占比pk即为每一流量主标识的第一点击次数与点击总数的第一比值。按照计算流程进行分解,即为依次获取第一比值集中的第一比值pk,以及以预设数值为底且以该第一比值pk为真数的第一对数值,该预设数值可以为2或者10等等。
进一步的,分别计算每一第一比值pK与对应的第一对数值的第一乘积值,得到第一乘积值集,该第一乘积值集中包含k个第一乘积值,将该第一乘积值集中k个第一乘积值进行求和,得到第一总值,并对该第一总值进行相反数计算,即得到第一信息熵EP,将该第一信息熵EP确定为流量主标识对应的第一分散度。
例如,如图4所示,服务器获取第一统计分布中流量主标识1对应的p1占比1,以及计算10为底以1为真数的第一对数值0,将1和0进行相乘,得到0,由于0的相反数还是0,所以第一信息熵为0,将该第一信息熵0作为流量主标识对应的第一分散度。
在步骤207中,服务器根据第二统计分布计算出对应的第二信息熵,将第二信息熵确定为推送信息标识对应的第二分散度。
其中,该第二信息熵的公式可以为:
其中,k=1,2,…,w。该Ea代表了第二信息熵,该占比ak即为每一推送信息标识的第二点击次数与点击总数的第二比值。按照计算流程进行分解,即为依次获取第二比值集中的第二比值ak,以及以预设数值为底且以该第二比值ak为真数的第二对数值,该预设数值可以为2或者10等等。
进一步的,分别计算每一第二比值aK与对应的第二对数值的第二乘积值,得到第二乘积值集,该第二乘积值集中包含k个第二乘积值,将该第二乘积值集中k个第二乘积值进行求和,得到第二总值,并对该第二总值进行相反数计算,即得到第二信息熵Ea,将第二信息熵Ea确定为推送信息标识对应的第二分散度。
例如,如图4所示,服务器获取第二统计分布中推送信息标识1对应的a1占比0.1666666667,以及计算10为底以0.1666666667为真数的第二对数值为-0.7782,推送信息标识2对应的a2占比0.1666666667,以及计算10为底以0.1666666667为真数的第二对数值为-0.7782,推送信息标识3对应的a3占比0.1666666667,以及计算10为底以0.1666666667为真数的第二对数值为-0.7782,推送信息标识4对应的a4占比0.1666666667,以及计算10为底以0.1666666667为真数的第二对数值为-0.7782,推送信息标识5对应的a5占比0.1666666667,以及计算10为底以0.1666666667为真数的第二对数值为-0.7782,以及推送信息标识6对应的a6占比0.1666666667,以及计算10为底以0.1666666667为真数的第二对数值为-0.7782,将所有的第二对数值进行求和,得到第二总值-4.6692,对该第二总值-4.6692进行相反数计算,得到第二信息熵4.6692,将该第二信息熵4.6692确定为推送信息标识对应的第二分散度。
在步骤208中,服务器根据时间间隔序列集计算出对应的标准差,将标准差确定为推送信息点击时间对应的差异度。
其中,该标准差的公式可以为:
其中,i=1,2,…,n-1。该dtstd代表了标准差,该dti为时间间隔序列集中的每一推送信息点击时间差。该dt为所有的推送信息点击时间差对应的算数平均值。按照计算流程进行分解,即为获取时间间隔序列集中每一推送信息点击时间差dti。将每一推送信息点击时间差dti进行求和,并除以推送信息点击时间差的总个数值,得到每一推送信息点击时间差dti对应的算数平均值dt。
进一步的,依次计算每一推送信息点击时间差dti与算数平均值dt的差的平方值,并进行求和,得到第三总值,计算该第三总值与推送信息点击时间差的总个数值n-1的比值,得到第三比值。对该第三比值进行开平方根计算,得到标准差dtstd,将该标准差dtstd确定为推送信息点击时间对应的差异度。
例如,如图4所示,服务器获取时间间隔序列集(6,6,6,5,6)中每一推送信息点击时间差6、6、6、5以及6。将每一推送信息点击时间差进行求和,得到29,并将29除以5,得到每一推送信息点击时间差对应的算数平均值5.8。依次计算6与5.8的差的平方值为0.04,6与5.8的差的平方值为0.04,6与5.8的差的平方值为0.04,5与5.8的差的平方值为0.64,以及6与5.8的差的平方值为0.04。进行求和得到第三总值0.8,计算该第三总值0.8与5的比值,得到第三比值0.16,对该0.16进行开平方根计算,得到标准差0.4,并将该标准差0.4作为推送信息点击时间对应的差异度。
在步骤209中,服务器判断第一分散度是否小于第一预设阈值。
其中,该第一分散度为第一统计分布对应计算出的第一信息熵,该第一信息熵代表了流量主标识的复杂度,如果流量主标识出现的数量越多,那么第一信息熵越大,如果流量主标识出现的数量越少,那么第一信息熵越小。
而正常用户在点击推送信息时,点击的流量主标识是较为分散的,如果出现在特定流量主标识下反复点击推送信息,即流量主标识出现的数量较少,那么为异常情况,即当第一信息熵的值在大于第一预设阈值时,说明出现的流量主标识的数量达到一定值,为正常情况。当第一信息熵的值不大于第一预设阈值时,说明出现的流量主标识的数量小于一定值,为异常情况。
基于此,当服务器判断出第一分散度小于第一预设阈值时,执行步骤213。当服务器判断出第一分散度不小于第一预设阈值时,执行步骤210。
例如,如图4所示,该第一预设阈值可以为2,而第一分散度为0,小于该第一预设阈值,说明流量主标识的点击为异常情况,执行步骤213。
在步骤210中,服务器判断第二分散度是否小于第二预设阈值。
其中,该第二分散度为第二统计分布对应计算出的第二信息熵,该第二信息熵代表了推送信息标识的复杂度,如果推送信息标识出现的数量越多,那么第二信息熵越大,如果推送信息标识出现的数量越少,那么第二信息熵越小。
而正常用户在点击推送信息时,由于推送信息出现的方式是随机的,所有点击的推送信息标识是较为分散的,如果出现反复点击同一推送信息标识的推送信息,即推送信息标识显出的数量较少,那么为异常情况,即当第二信息熵的值在大于第二预设阈值时,说明出现的推送信息标识的数量达到一定值,为正常情况。当第二信息熵的值不大于第二预设阈值时,说明出现的推送信息标识的数量小于一定值,为异常情况。
基于此,当服务器判断出第一分散度不小于第一预设阈值时,说明流量主标识的点击为正常情况,判断第二分散度是否小于第二预设阈值,当判断出第二分散度小于第二预设阈值时,执行步骤213。当判断出第二分散度不小于第二预设阈值时,执行步骤211。
例如,如图4所示,该第二预设阈值可以为2.5,而第二分散度为4.6992,大于该第二预设阈值,说明推送信息标识的点击为正常情况。
在步骤211中,服务器判断差异度是否小于第三预设阈值。
其中,该差异度为时间间隔序列集计算出对应的标准差,该标准差代表了每一推送信息点击时间差与推送信息点击时间差的平均值之间的差异度,如果每一推送信息点击时间差与推送信息点击时间差的平均值之间的差异度越大,那么标准差越大,如果每一推送信息点击时间差与推送信息点击时间差的平均值之间的差异度越小,那么标准差越小。
而正常用户在点击推送信息时,点击推送信息的时间间隔是随机的,也即没有规律性,如果出现比较规律性的点击推送信息,即推送信息点击时间差的差异度较小,那么为异常情况,即当差异度的值大于第三预设阈值时,说明推送信息点击时间差的差异度达到一定值,推送信息点击时间差规律性较差,为正常情况。当差异度的值不大于第三预设阈值时,说明推送信息点击时间差的差异度不大于一定值,推送信息点击时间差规律性较好,为异常情况。
基于此,当服务器判断出第一分散度不小于第一预设阈值时,说明流量主标识的点击为正常情况。判断第二分散度是否小于第二预设阈值,当判断出第二分散度不小于第二预设阈值时,说明推送信息标识的点击也为正常情况。判断差异度是否小于第三预设阈值,当判断出差异度小于第三预设阈值时,执行步骤213。当判断出差异度不小于第三预设阈值时,执行步骤212。
例如,如图4所示,该第三预设阈值可以为1.8,而差异度为0.4,小于该第三预设阈值,说明推送信息点击时间的点击为异常情况。
需要说明的是,步骤209、210以及211的执行顺序可以进行调整,即本实施例的209、210以及211执行顺序并不是对执行顺序的限定,也可以先执行211或者210等等执行顺序。
在步骤212中,服务器判定目标用户为非作弊用户。
其中,当服务器判断出第一分散度不小于第一预设阈值、第二分散度不小于第二预设阈值以及差异度不小于第三阈值时,说明流量主标识的点击为正常情况、推送信息标识的点击为正常情况以及推送信息点击时间的点击为正常情况,那么可以判定目标用户为非作弊用户。
在步骤213中,服务器判定目标用户为作弊用户。
其中,当服务器判断出第一分散度小于第一预设阈值、第二分散度小于第二预设阈值或者差异度小于第三阈值时,说明用户在流量主标识的点击、推送信息标识的点击以及推送信息点击时间的点击上出现过异常情况,那么可以判定为用户作弊用户。
在一些实施方式中,步骤201中,可以换成服务器获取预设IP地址在预设时间段内的推送信息点击样本的步骤,对预设IP地址的流量主标识特征、推送信息标识特征以及推送信息点击时间进行分析,出现异常时,判定预设IP地址为恶意IP地址,其分析过程与上述一致,此处不作赘述。
由上述可知,本发明实施例通过获取目标用户在预设时间段内的推送信息点击样本,计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集,根据第一统计分布计算出对应的第一信息熵,将第一信息熵确定为流量主标识对应的第一分散度,根据第二统计分布计算出对应的第二信息熵,将第二信息熵确定为推送信息标识对应的第二分散度,根据时间间隔序列集计算出对应的标准差,将标准差确定为推送信息点击时间对应的差异度,当判断出第一分散度小于第一预设阈值、第二分散度小于第二预设阈值或者差异度小于第三预设阈值时,判定为目标用户为作弊用户,相对于需要分析大量用户账号在某特征上的聚集来判断是否作弊的方案而言,极大的提升了推送信息点击的作弊检测的实时性以及处理效率。
实施例三、
为便于更好的实施本发明实施例提供的推送信息点击的作弊检测方法,本发明实施例还提供一种基于上述推送信息点击的作弊检测方法的装置。其中名词的含义与上述推送信息点击的作弊检测方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5a,图5a为本发明实施例提供的推送信息点击的作弊检测装置的结构示意图,其中该推送信息点击的作弊检测装置可以包括获取单元301、计算单元302、分析单元303、及判定单元304等。
获取单元301,用于获取目标用户在预设时间段内的推送信息点击样本,该推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征。
其中,该推送信息点击样本为一条记录信息,为用户在终端上点击推送信息时产生,该推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征。
该推送信息点击时间特征表示了用户点击推送信息时相应的时间点。该流量主标识特征表示了用户点击推送信息时,提供用户流量的载体的流量主标识,该流量主标识可以为多个,即可以有多个不同的流量主,每一流量主对应一不同的流量主标识。该推送信息标识特征表示了用户点击推送信息时,被点击的推送信息标识,该推送信息标识可以为多个,即可以有多个不同的推送信息,每一推送信息对应一不同的推送信息标识。
在一些实施方式中,该推送信息点击样本除了推送信息点击时间特征、流量主标识特征以及推送信息标识特征之外,还可以包括互联网协议地址,该IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。
可选的,该目标用户可以为终端的客户端账号、国际移动设备识别码或者邮箱地址号码等等,由于用户在使用终端点击推送信息时,终端会至少记录该点击事件对应的推送信息点击时间、流量主标识以及推送信息标识等等,将记录的推送信息点击时间、流量主标识以及推送信息标识等等生成推送信息点击样本,并将该推送信息点击样本上报至服务器中。
因此,服务器中存储了多条目标用户对应的推送信息点击样本,在需要对目标用户进行作弊检测时,获取单元301从存储的数据库中获取该目标用户在预设时间段内的至少一条推送信息点击样本,以便后期对推送信息点击样本中的数据进行分析,判定该目标用户是否为作弊用户。
计算单元302,用于计算出该流量主标识特征对应的第一统计分布、该推送信息标识特征对应的第二统计分布以及该推送信息点击时间特征对应的时间间隔序列集。
其中,计算单元302通过对预设时间段内的多条推送信息点击样本中的流量主标识进行提取,确定每一流量主标识对应的第一点击次数,以及推送信息点击样本的点击总数,依次算出每一流量主标识的点击次数与点击总数之比,以得到流量主标识特征对应的第一统计分布。
可选的,计算单元302通过对预设时间段内的多条推送信息点击样本中的推送信息标识进行提取,确定每一推送信息标识对应的第二点击次数,以及推送信息点击样本的点击总数,依次计算出每一推送信息标识的点击次数与点击总数之比,以得到推送信息标识对应的第二统计分布。
可选的,计算单元302通过对预设时间段内的多条推送信息点击样本中的推送信息点击时间进行提取。按照推送信息点击时间的先后顺序进行排序,生成数列,并计算数列中相邻推送信息点击时间的推送信息点击时间差,以得到推送信息点击时间特征对应的时间间隔序列。
在一些实施方式中,如图5b所示,计算单元302可以包括第一确定子单元3021、第二确定子单元3022、第三确定子单元3023、第一计算子单元3024以及第二计算子单元3025,如下:
第一确定子单元3021,用于确定每一条推送信息点击样本中每一流量主标识对应的第一点击次数,得到第一点击次数集。
第二确定子单元302,用于确定每一条推送信息点击样本中每一推送信息标识对应的第二点击次数,得到第二点击次数集。
第三确定子单元3023,用于确定推送信息点击样本的总数,得到点击总数。
第一计算子单元3024,用于根据第一点击次数集、第二点击次数集和点击总数计算该流量主标识特征对应的第一统计分布和该推送信息标识特征对应的第二统计分布。
第二计算子单元3025,用于获取每一条推送信息点击样本中的推送信息点击时间,计算出每一条推送信息点击样本之间的推送信息点击时间差,得到时间间隔序列集。
其中,流量主标识特征有多个不同的流量主,每一流量主对应一不同的流量主标识,一条推送信息点击样本中的流量主标识特征会指示一流量主标识,说明在该点击事件中用户点击的为该指示的流量主标识,记录为该流量主标识的一次点击次数。第一确定子单元3021通过对预设时间段内的每一推送信息点击样本中的流量主标识进行提取,确定出至少一个流量主标识,以及每一流量主标识对应的第一点击次数,得到第一点击次数集。
进一步的,推送信息标识特征有多个不同的流量主,每一推送信息对应一不同的推送信息标识,一条推送信息点击样本中的推送信息标识特征会指示一推送信息标识,说明在该点击事件中用户点击的为该指示的推送信息标识,记录为该推送信息标识的一次点击次数。第二确定子单元302通过对预设时间段内的每一推送信息点击样本中的推送信息标识进行提取,确定出至少一个推送信息标识,以及每一推送信息标识对应的第二点击次数,得到第二点击次数集。
由于一条推送信息点击样本表示用户的一次点击事件,所以第三确定子单元3023确定预设时间段内的推送信息点击样本的总数,即为该预设时间段内推送信息的点击总数。
第一计算子单元3024根据第一点击次数集、第二点击次数集和点击总数计算出该流量主标识特征对应的第一统计分布和该推送信息标识特征对应的第二统计分布。
其中,第二计算子单元3025获取每一条推送信息点击样本中的推送信息点击时间,分别计算每一条推送信息点击样本之间的推送信息点击时间差,得到推送信息点击时间差数列,将该推送信息点击时间差数列确定为时间间隔序列集。
在一些实施方式中,该第一计算子单元3024,具体可以用于计算第一点击次数集中每一第一点击次数与点击总数的比值,得到第一比值集,根据该第一比值集生成第一统计分布,计算第二点击次数集中每一第二点击次数与点击总数的比值,得到第二比值集,根据该第二比值集生成第二统计分布。
其中,第一计算子单元3024通过计算第一点击次数集中每一流量主标识对应的第一点击次数与点击总数的比值,得到每一流量主标识的点击次数与点击总数的频率,进而得到第一比值集,该第一比值集为流量主标识特征对应的第一统计分布。例如,该第一统计分布的形式可以为(流量主标识pidk,流量主标识pidk点击次数的占比pk),k=1,2,..,q,该q为出现过的流量主标识的个数。该占比pk用公式表达如下:
其中,目标用户在流量主标识pidk上的点击数即为流量主标识对应的第一点击次数,该用户的总点击数n即为点击总数,而该占比pk即为每一流量主标识的第一点击次数与点击总数的频率。
进一步的,第一计算子单元3024通过计算第二点击次数集中每一推送信息标识对应的第二点击次数与点击总数的比值,得到每一推送信息标识的点击次数与点击总数的频率,进而得到第二比值集,该第二比值集为推送信息标识特征对应的第二统计分布。例如,该第二统计分布的形式可以为(推送信息标识aidk,推送信息标识aidk点击次数的占比ak),k=1,2,..,w,该w为出现过的推送信息标识的个数。该占比ak用公式表达如下:
其中,目标用户在推送信息标识aidk上的点击数即为推送信息标识对应的第二点击次数,该用户的总点击数n即为点击总数,而该占比ak即为每一推送信息标识的第二点击次数与点击总数的频率。
需要说明的是,每一流量主标识的点击次数与总点击次数的频率之和为1。每一推送信息标识的点击次数与总点击次数的频率之和也为1。
在一些实施方式中,该第二计算子单元3025,具体可以用于获取每一条推送信息点击样本中的推送信息点击时间,按照推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序,依次计算相邻之间的推送信息点击样本的推送信息点击时间差,得到时间间隔序列集。
其中,第二计算子单元3025获取预设时间段内的每一条推送信息点击样本中的推送信息点击时间,根据推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序,使得预设时间段内的每一条推送信息点击样本进行规律排列。
进一步的,第二计算子单元3025依次计算排序后的推送信息点击样本之间的推送信息点击时间差,得到推送信息点击时间差数列,将该推送信息点击时间差数列确定为时间间隔序列集。该时间间隔序列集的表现形式可以为(dt1,dt2,…,dtk-1,…dtn-1)。
其中:
dt1=t2-t1
dt2=t3-t2
…
dtk-1=tk-tk-1
…
dtn-1=tn-tn-1
其中,t1代表了第一个推送信息点击时间,t2代表了第一个推送信息点击时间,以此类推,此时不作详细解释。
分析单元303,用于分析该第一统计分布,确定出流量主标识对应的第一分散度,分析该第二统计分布,确定出推送信息标识对应的第二分散度,以及分析该时间间隔序列集,确定出推送信息点击时间对应的差异度。
其中,该第一统计分布代表了流量主标识特征的点击总数在每一流量主标识的第一点击次数的分布情况,当分布越广时,说明流量主标识的点击聚集程度越分散,对应的第一分散度的值就越大,当分布越窄时,说明流量主标识的点击聚集程度越集中,对应的第一分散度的值就越小。
可选的,该第二统计分布代表了推送信息标识特征的点击总数在每一推送信息标识的第二点击次数的分布情况,当分布越广时,说明推送信息标识的点击聚集程度越分散,对应的第二分散度的值就越大,当分布越窄时,说明推送信息标识的点击聚集程度越集中,对应的第二分散度的值就越小。
可选的,该时间间隔序列集代表了推送信息点击时间间隔的分散情况,当分散越广时,说明推送信息点击时间差之间的周期性越差,对应的差异度就越大,当分散越窄时,说明推送信息点击时间差之间的周期性越强,对应的差异度就越小。
因此,分析单元303对第一统计分布中的流量主标识特征的点击总数在每一流量主标识的第一点击次数的分布情况进行分析,确定对应的第一分散度。对第二统计分布中的推送信息标识特征的点击总数在每一推送信息标识的第二点击次数的分布情况进行分析,确定对应的第二分散度。对时间间隔序列集中的推送信息点击时间间隔的分散情况进行分析,确定对应的差异度。
在一些实施方式中,如图5c所示,该分析单元303可以包括第一计算子单元3031、第二计算子单元3032以及第三计算子单元3033,如下:
第一计算子单元3031,用于根据该第一统计分布计算出对应的第一信息熵,将该第一信息熵确定为流量主标识对应的第一分散度;
第二计算子单元3032,用于根据该第二统计分布计算出对应的第二信息熵,将该第二信息熵确定为推送信息标识对应的第二分散度;
第三计算子单元3033,用于根据该时间间隔序列集计算出对应的标准差,将该标准差确定为推送信息点击时间对应的差异度。
其中,该信息熵可以作为系统复杂度的度量,如果系统越复杂,出现不同情况的种类越多,那么信息熵越大,如果系统越简单,出现不同情况的种类越小(极端情况下,只有1种情况,对应的概率为1,那么信息熵为0),那么信息熵越小。标准差则是一组数值自平均值分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间的差异较大,一个较小的标准差,代表这些数值较接近平均值。
进一步的,第一计算子单元3031根据第一统计分布计算出流量主标识特征对应的第一信息熵,将该第一信息熵确定为流量主标识对应的第一分散度。第二计算子单元3032根据第二统计分布计算出推送信息标识特征对应的第二信息熵,将该第二信息熵确定为推送信息标识对应的第二分散度。第三计算子单元3033根据时间间隔序列集计算出推送信息点击时间特征对应的标准差,将该标准差确定为推送信息点击时间对应的差异度。
在一些实施方式中,该第一计算子单元3031,具体用于依次获取第一比值集中的第一比值,以及以预设数值为底且以该第一比值为真数的第一对数值,分别计算每一第一比值与对应的第一对数值的第一乘积值,得到第一乘积值集,将该第一乘积值集中每一第一乘积值进行求和,得到第一总值,对该第一总值进行相反数计算,得到第一信息熵,将该第一信息熵确定为流量主标识对应的第一分散度。
需要说明的是,该第一信息熵的公式可以为:
其中,k=1,2,…,q。该EP代表了第一信息熵,该占比pk即为每一流量主标识的第一点击次数与点击总数的第一比值。按照计算流程进行分解,即为第一计算子单元3031依次获取第一比值集中的第一比值pk,以及以预设数值为底且以该第一比值pk为真数的第一对数值,该预设数值可以为2或者10等等。
进一步的,第一计算子单元3031分别计算每一第一比值pK与对应的第一对数值的第一乘积值,得到第一乘积值集,该第一乘积值集中包含k个第一乘积值,将该第一乘积值集中k个第一乘积值进行求和,得到第一总值,并对该第一总值进行相反数计算,即得到第一信息熵EP,将该第一信息熵EP确定为流量主标识对应的第一分散度。
在一些实施方式中,第二计算子单元3032,具体用于依次获取第二比值集中的第二比值,以及以预设数值为底且以该第二比值为真数的第二对数值,分别计算每一第二比值与对应的第二对数值的第二乘积值,得到第二乘积值集,将该第二乘积值集中每一第二乘积值进行求和,得到第二总值,对该第二总值进行相反数计算,得到第二信息熵,将该第二信息熵确定为推送信息标识对应的第二分散度。
需要说明的是,该第二信息熵的公式可以为:
其中,k=1,2,…,w。该Ea代表了第二信息熵,该占比ak即为每一推送信息标识的第二点击次数与点击总数的第二比值。按照计算流程进行分解,即为第二计算子单元3032依次获取第二比值集中的第二比值ak,以及以预设数值为底且以该第二比值ak为真数的第二对数值,该预设数值可以为2或者10等等。
进一步的,第二计算子单元3032分别计算每一第二比值aK与对应的第二对数值的第二乘积值,得到第二乘积值集,该第二乘积值集中包含k个第二乘积值,将该第二乘积值集中k个第二乘积值进行求和,得到第二总值,并对该第二总值进行相反数计算,即得到第二信息熵Ea,将该第二信息熵Ea确定为推送信息标识对应的第二分散度。
在一些实施方式中,该第三计算子单元3033,具体用于获取该时间间隔序列集中的每一推送信息点击时间差,计算每一推送信息点击时间差对应的算数平均值,依次计算每一推送信息点击时间差与算数平均值的差值的平方值,并进行求和,得到第三总值,计算该第三总值与推送信息点击时间差的总个数值的比值,得到第三比值,对该第三比值进行开平方根计算,得到标准差,将该标准差确定为推送信息点击时间对应的差异度。
需要说明的是,该标准差的公式可以为:
其中,i=1,2,…,n-1。该dtstd代表了标准差,该dti为时间间隔序列集中的每一推送信息点击时间差。该dt为所有的推送信息点击时间差对应的算数平均值。按照计算流程进行分解,即为第三计算子单元3033获取时间间隔序列集中每一推送信息点击时间差dti。将每一推送信息点击时间差dti进行求和,并除以推送信息点击时间差的总个数值,得到每一推送信息点击时间差dti对应的算数平均值dt。
进一步的,第三计算子单元3033依次计算每一推送信息点击时间差dti与算数平均值dt的差的平方值,并进行求和,得到第三总值,计算该第三总值与推送信息点击时间差的总个数值n-1的比值,得到第三比值。对该第三比值进行开平方根计算,得到标准差dtstd,将该标准差dtstd确定为推送信息点击时间对应的差异度。
判定单元304,用于当该第一分散度、第二分散度以及差异度满足预设条件时,判定该目标用户为作弊用户。
其中,该第一分散度的值越大,说明流量主标识的点击聚集程度越分散,即用户点击的流量主标识的个数越多,该第一分散度的值越小,说明流量主标识的点击聚集程度越集中,即用户点击的流量主标识的个数越少,而正常用户点击的流量主标识为比较分散的,不会集中在某一两特定流量主标识上,也就是说正常用户的第一分散度的值是大于一定的值的。
该第二分散度的值越大,说明推送信息标识的点击聚集程度越分散,即用户点击的推送信息标识的个数越多,该第二分散度的值越小,说明推送信息标识的点击聚散程度越集中,即用户点击的推送信息标识的个数越少,而正常用户点击的推送信息标识为比较分散的,不会集中在某一两个特定的推送信息标识上,也就是说正常用户的第二分散度的值是要大于一定的值的。
该差异度越大,说明推送信息点击时间的差的规律性越差,即用户点击推送信息的时间间隔越没有规律。该差异度越小,说明推送信息点击时间的差的规律性越好,即用户点击推送信息的时间间隔越有规律,而正常用户点击推送信息的时间间隔是比较分散的,不会呈现规律性,也就是正常用户的差异度的值是要大于一定的值的。
基于此,当判定单元304判断出第一分散度的值、第二分散度的以及差异度的值中有一个值小于一定的值时,判定为第一分散度、第二分散度以及差异度满足预设条件,判定目标用户为作弊用户。
在一些实施方式中,该判定单元304,具体用于当该第一分散度小于第一预设阈值和/或该第二分散度小于第二预设阈值和/或该差异度小于第三预设阈值时,判定该目标用户为作弊用户。
其中,该第一预设阈值为界定流量主标识的点击是否为正常用户点击的界定值,当第一分散度的值小于第一预设阈值时,说明用户点击的流量主标识的个数小于一定阈值,为第一异常点击情况。该第二预设阈值为界定推送信息标识的点击是否为正常用户点击的界定值,当第二分散度的值小于第二预设阈值时,说明用户点击的推送信息标识的个数小于一定阈值,为第二异常点击情况。该第三预设阈值为界定推送信息点击时间差的间隔是否为正常用户点击的界定值,当差异度的值小于第三预设阈值时,说明用户点击推送信息的时间间隔具有一定的规律性,为第三异常点击情况。
进一步的,判定单元304可以选择当第一异常点击情况、第二异常点击情况以及第三异常点击情况中发生一种异常点击情况时,判定该目标用户为作弊用户。也可以选择当第一异常点击情况、第二异常点击情况以及第三异常点击情况中同时发生两种异常点击情况时,判定该目标用户为作弊用户。还可以选择当第一异常点击情况、第二异常点击情况以及第三异常点击情况中同时发生三种异常点击情况时,判定该目标用户为作弊用户。此处不作具体限定。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
由上述可知,本发明实施例通过获取单元301获取目标用户在预设时间段内的推送信息点击样本;计算单元302计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集;分析单元303分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析时间间隔序列集,确定出推送信息点击时间对应的差异度;当判定单元304判断出第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户,相对于需要分析大量用户账号在某特征上的聚集来判断是否作弊的方案而言,极大的提升了推送信息点击的作弊检测的实时性以及处理效率。
实施例四、
本发明实施例还提供一种服务器,如图6所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标用户在预设时间段内的推送信息点击样本,该推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征;计算出该流量主标识特征对应的第一统计分布、该推送信息标识特征对应的第二统计分布以及该推送信息点击时间特征对应的时间间隔序列集;分析该第一统计分布,确定出流量主标识对应的第一分散度,分析该第二统计分布,确定出推送信息标识对应的第二分散度,以及分析该时间间隔序列集,确定出推送信息点击时间对应的差异度;当该第一分散度、第二分散度以及差异度满足预设条件时,判定该目标用户为作弊用户。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对推送信息点击的作弊检测方法的详细描述,此处不再赘述。
由上述可知,本发明实施例的服务器可以通过获取目标用户在预设时间段内的推送信息点击样本;计算出流量主标识特征对应的第一统计分布、推送信息标识特征对应的第二统计分布以及推送信息点击时间特征对应的时间间隔序列集;分析第一统计分布,确定出流量主标识对应的第一分散度,分析第二统计分布,确定出推送信息标识对应的第二分散度,以及分析时间间隔序列集,确定出推送信息点击时间对应的差异度;当第一分散度、第二分散度以及差异度满足预设条件时,判定目标用户为作弊用户,相对于需要分析大量用户账号在某特征上的聚集来判断是否作弊的方案而言,极大的提升了推送信息点击的作弊检测的实时性以及处理效率。
实施例五、
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种推送信息点击的作弊检测方法中的步骤。例如,该指令可以执行如下步骤:
获取目标用户在预设时间段内的推送信息点击样本,该推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征;计算出该流量主标识特征对应的第一统计分布、该推送信息标识特征对应的第二统计分布以及该推送信息点击时间特征对应的时间间隔序列集;分析该第一统计分布,确定出流量主标识对应的第一分散度,分析该第二统计分布,确定出推送信息标识对应的第二分散度,以及分析该时间间隔序列集,确定出推送信息点击时间对应的差异度;当该第一分散度、第二分散度以及差异度满足预设条件时,判定该目标用户为作弊用户。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种推送信息点击的作弊检测方法中的步骤,因此,可以实现本发明实施例所提供的任一种推送信息点击的作弊检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种推送信息点击的作弊检测方法、装置、存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种推送信息点击的作弊检测方法,其特征在于,包括:
获取目标用户在预设时间段内的推送信息点击样本,所述推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征;
计算出所述流量主标识特征对应的第一统计分布、所述推送信息标识特征对应的第二统计分布以及所述推送信息点击时间特征对应的时间间隔序列集;
分析所述第一统计分布,确定出流量主标识对应的第一分散度,分析所述第二统计分布,确定出推送信息标识对应的第二分散度,以及分析所述时间间隔序列集,确定出推送信息点击时间对应的差异度;
当所述第一分散度、第二分散度以及差异度满足预设条件时,判定所述目标用户为作弊用户。
2.根据权利要求1所述的作弊检测方法,其特征在于,计算出所述流量主标识特征对应的第一统计分布、以及所述推送信息标识特征对应的第二统计分布的步骤,包括:
确定每一条推送信息点击样本中每一流量主标识对应的第一点击次数,得到第一点击次数集;
确定每一条推送信息点击样本中每一推送信息标识对应的第二点击次数,得到第二点击次数集;
确定推送信息点击样本的总数,得到点击总数;
根据第一点击次数集、第二点击次数集和点击总数计算所述流量主标识特征对应的第一统计分布和所述推送信息标识特征对应的第二统计分布。
3.根据权利要求2所述的作弊检测方法,其特征在于,所述根据第一点击次数集、第二点击次数集和点击总数计算所述流量主标识特征对应的第一统计分布和所述推送信息标识特征对应的第二统计分布的步骤,包括:
计算第一点击次数集中每一第一点击次数与点击总数的比值,得到第一比值集,根据所述第一比值集生成第一统计分布;
计算第二点击次数集中每一第二点击次数与点击总数的比值,得到第二比值集,根据所述第二比值集生成第二统计分布。
4.根据权利要求1所述的作弊检测方法,其特征在于,计算所述推送信息点击时间特征对应的时间间隔序列集的步骤,包括:
获取每一条推送信息点击样本中的推送信息点击时间,计算出每一条推送信息点击样本之间的推送信息点击时间差,得到时间间隔序列集。
5.根据权利要求4所述的作弊检测方法,其特征在于,所述获取每一条推送信息点击样本中的推送信息点击时间,计算出每一条推送信息点击样本之间的推送信息点击时间差,得到时间间隔序列集的步骤,包括:
获取每一条推送信息点击样本中的推送信息点击时间,按照推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序;
依次计算相邻之间的推送信息点击样本的推送信息点击时间差,得到时间间隔序列集。
6.根据权利要求1至5任一项所述的作弊检测方法,其特征在于,所述分析所述第一统计分布,确定出流量主标识对应的第一分散度,分析所述第二统计分布,确定出推送信息标识对应的第二分散度,以及分析所述时间间隔序列集,确定出推送信息点击时间对应的差异度的步骤,包括:
根据所述第一统计分布计算出对应的第一信息熵,将所述第一信息熵确定为流量主标识对应的第一分散度;
根据所述第二统计分布计算出对应的第二信息熵,将所述第二信息熵确定为推送信息标识对应的第二分散度;
根据所述时间间隔序列集计算出对应的标准差,将所述标准差确定为推送信息点击时间对应的差异度。
7.根据权利要求6所述的作弊检测方法,其特征在于,所述根据所述第一统计分布计算出对应的第一信息熵的步骤,包括:
依次获取第一比值集中的第一比值,以及以预设数值为底且以所述第一比值为真数的第一对数值;
分别计算每一第一比值与对应的第一对数值的第一乘积值,得到第一乘积值集;
将所述第一乘积值集中每一第一乘积值进行求和,得到第一总值;
对所述第一总值进行相反数计算,得到第一信息熵。
8.根据权利要求6所述的作弊检测方法,其特征在于,所述根据所述第二统计分布计算出对应的第二信息熵的步骤,包括:
依次获取第二比值集中的第二比值,以及以预设数值为底且以所述第二比值为真数的第二对数值;
分别计算每一第二比值与对应的第二对数值的第二乘积值,得到第二乘积值集;
将所述第二乘积值集中每一第二乘积值进行求和,得到第二总值;
对所述第二总值进行相反数计算,得到第二信息熵。
9.根据权利要求6所述的作弊检测方法,其特征在于,根据所述时间间隔序列集计算出对应的标准差的步骤,包括:
获取所述时间间隔序列集中的每一推送信息点击时间差,计算每一推送信息点击时间差对应的算数平均值;
依次计算每一推送信息点击时间差与算数平均值的差值的平方值,并进行求和,得到第三总值;
计算所述第三总值与推送信息点击时间差的总个数值的比值,得到第三比值;
对所述第三比值进行开平方根计算,得到标准差。
10.根据权利要求1至5任一项所述的作弊检测方法,其特征在于,当所述第一分散度、第二分散度以及差异度满足预设条件时,判定所述目标用户为作弊用户的步骤,包括:
当所述第一分散度小于第一预设阈值和/或所述第二分散度小于第二预设阈值和/或所述差异度小于第三预设阈值时,判定所述目标用户为作弊用户。
11.一种推送信息点击的作弊检测装置,其特征在于,包括:
获取单元,用于获取目标用户在预设时间段内的推送信息点击样本,所述推送信息点击样本至少包括推送信息点击时间特征、流量主标识特征以及推送信息标识特征;
计算单元,用于计算出所述流量主标识特征对应的第一统计分布、所述推送信息标识特征对应的第二统计分布以及所述推送信息点击时间特征对应的时间间隔序列集;
分析单元,用于分析所述第一统计分布,确定出流量主标识对应的第一分散度,分析所述第二统计分布,确定出推送信息标识对应的第二分散度,以及分析所述时间间隔序列集,确定出推送信息点击时间对应的差异度;
判定单元,用于当所述第一分散度、第二分散度以及差异度满足预设条件时,判定所述目标用户为作弊用户。
12.根据权利要求11所述的作弊检测装置,其特征在于,所述计算单元,包括:
第一确定子单元,用于确定每一条推送信息点击样本中每一流量主标识对应的第一点击次数,得到第一点击次数集;
第二确定子单元,用于确定每一条推送信息点击样本中每一推送信息标识对应的第二点击次数,得到第二点击次数集;
第三确定子单元,用于确定推送信息点击样本的总数,得到点击总数;
第一计算子单元,用于根据第一点击次数集、第二点击次数集和点击总数计算所述流量主标识特征对应的第一统计分布和所述推送信息标识特征对应的第二统计分布;
第二计算子单元,用于获取每一条推送信息点击样本中的推送信息点击时间,计算出每一条推送信息点击样本之间的推送信息点击时间差,得到时间间隔序列集。
13.根据权利要求12所述的作弊检测装置,其特征在于,所述第一计算子单元,具体用于:
计算第一点击次数集中每一第一点击次数与点击总数的比值,得到第一比值集,根据所述第一比值集生成第一统计分布;
计算第二点击次数集中每一第二点击次数与点击总数的比值,得到第二比值集,根据所述第二比值集生成第二统计分布。
14.根据权利要求12所述的作弊检测装置,其特征在于,所述第二计算子单元,具体用于:
获取每一条推送信息点击样本中的推送信息点击时间,按照推送信息点击时间的升序或者降序顺序对推送信息点击样本进行排序;
依次计算相邻之间的推送信息点击样本的推送信息点击时间差,得到时间间隔序列集。
15.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至10任一项所述的推送信息点击的作弊检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810447917.4A CN110213209B (zh) | 2018-05-11 | 2018-05-11 | 一种推送信息点击的作弊检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810447917.4A CN110213209B (zh) | 2018-05-11 | 2018-05-11 | 一种推送信息点击的作弊检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110213209A true CN110213209A (zh) | 2019-09-06 |
CN110213209B CN110213209B (zh) | 2022-01-07 |
Family
ID=67778827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810447917.4A Active CN110213209B (zh) | 2018-05-11 | 2018-05-11 | 一种推送信息点击的作弊检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110213209B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310863A (zh) * | 2020-03-27 | 2020-06-19 | 北京奇艺世纪科技有限公司 | 一种用户检测方法、装置及电子设备 |
CN112348586A (zh) * | 2020-11-13 | 2021-02-09 | 北京奇虎科技有限公司 | 流量作弊检测方法、装置、设备及可读存储介质 |
CN113592036A (zh) * | 2021-08-25 | 2021-11-02 | 北京沃东天骏信息技术有限公司 | 流量作弊行为识别方法、装置及存储介质和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326763B2 (en) * | 2003-02-07 | 2012-12-04 | Britesmart Corp. | Method and system to detect invalid and fraudulent impressions and clicks in web-based advertisement systems |
CN105183873A (zh) * | 2015-09-18 | 2015-12-23 | 北京博雅立方科技有限公司 | 恶意点击行为检测方法及装置 |
CN105760455A (zh) * | 2016-02-04 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 广告点击的反作弊方法及装置 |
CN106022834A (zh) * | 2016-05-24 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 广告反作弊方法及装置 |
CN106469383A (zh) * | 2015-08-14 | 2017-03-01 | 北京国双科技有限公司 | 广告投放质量的检测方法和装置 |
CN106919579A (zh) * | 2015-12-24 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置、设备 |
-
2018
- 2018-05-11 CN CN201810447917.4A patent/CN110213209B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326763B2 (en) * | 2003-02-07 | 2012-12-04 | Britesmart Corp. | Method and system to detect invalid and fraudulent impressions and clicks in web-based advertisement systems |
CN106469383A (zh) * | 2015-08-14 | 2017-03-01 | 北京国双科技有限公司 | 广告投放质量的检测方法和装置 |
CN105183873A (zh) * | 2015-09-18 | 2015-12-23 | 北京博雅立方科技有限公司 | 恶意点击行为检测方法及装置 |
CN106919579A (zh) * | 2015-12-24 | 2017-07-04 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及装置、设备 |
CN105760455A (zh) * | 2016-02-04 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 广告点击的反作弊方法及装置 |
CN106022834A (zh) * | 2016-05-24 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 广告反作弊方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310863A (zh) * | 2020-03-27 | 2020-06-19 | 北京奇艺世纪科技有限公司 | 一种用户检测方法、装置及电子设备 |
CN111310863B (zh) * | 2020-03-27 | 2023-09-08 | 北京奇艺世纪科技有限公司 | 一种用户检测方法、装置及电子设备 |
CN112348586A (zh) * | 2020-11-13 | 2021-02-09 | 北京奇虎科技有限公司 | 流量作弊检测方法、装置、设备及可读存储介质 |
CN113592036A (zh) * | 2021-08-25 | 2021-11-02 | 北京沃东天骏信息技术有限公司 | 流量作弊行为识别方法、装置及存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110213209B (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108550052A (zh) | 基于用户行为数据特征的刷单检测方法及系统 | |
Chen et al. | CIM: Community-based influence maximization in social networks | |
CN106560811A (zh) | 一种基于主播风格的直播间推荐方法及系统 | |
CN110213209A (zh) | 一种推送信息点击的作弊检测方法、装置及存储介质 | |
CN105491444B (zh) | 一种数据识别处理方法以及装置 | |
CN108337656A (zh) | 一种移动群智感知激励方法 | |
CN106294559A (zh) | 一种应用流量分析方法及装置 | |
CN106204142A (zh) | 用于识别具有动机的评论者的系统和方法 | |
CN108595461A (zh) | 兴趣探索方法、存储介质、电子设备及系统 | |
CN109872232A (zh) | 涉及非法所得合法化行为的账户分类方法、装置、计算机设备及存储介质 | |
CN110162445A (zh) | 基于主机日志及性能指标的主机健康评价方法及装置 | |
CN107438083B (zh) | 一种Android环境下钓鱼网站检测方法及其检测系统 | |
CN107529655A (zh) | 基于众包的航天任务交易方法、系统及航天众包服务器 | |
CN108416630A (zh) | 一种目标受众的确定方法及装置 | |
CN107087017A (zh) | 一种业务引流的方法和装置 | |
CN109191191A (zh) | 基于代价敏感卷积神经网络的广告点击欺诈检测方法 | |
US20090055245A1 (en) | Survey fraud detection system and method | |
CN109558384A (zh) | 日志分类方法、装置、电子设备和存储介质 | |
CN107993056A (zh) | 结合周薪和月薪的薪酬发放系统及方法 | |
CN105447117B (zh) | 一种用户聚类的方法和装置 | |
CN107944841A (zh) | 薪酬计算系统及方法 | |
Fujimura et al. | The eigenrumor algorithm for calculating contributions in cyberspace communities | |
Allahbakhsh et al. | Harnessing implicit teamwork knowledge to improve quality in crowdsourcing processes | |
Eldefrawy et al. | Longitudinal analysis of misuse of bitcoin | |
CN114077977B (zh) | 基于大数据的楼宇智慧管理方法、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |