CN111404835A - 流量控制方法、装置、设备及存储介质 - Google Patents

流量控制方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111404835A
CN111404835A CN202010238232.6A CN202010238232A CN111404835A CN 111404835 A CN111404835 A CN 111404835A CN 202010238232 A CN202010238232 A CN 202010238232A CN 111404835 A CN111404835 A CN 111404835A
Authority
CN
China
Prior art keywords
cheating
flow
probability
grade
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010238232.6A
Other languages
English (en)
Other versions
CN111404835B (zh
Inventor
岳小芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haiyi Tongzhan Information Technology Co Ltd
Original Assignee
Beijing Haiyi Tongzhan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haiyi Tongzhan Information Technology Co Ltd filed Critical Beijing Haiyi Tongzhan Information Technology Co Ltd
Priority to CN202010238232.6A priority Critical patent/CN111404835B/zh
Publication of CN111404835A publication Critical patent/CN111404835A/zh
Application granted granted Critical
Publication of CN111404835B publication Critical patent/CN111404835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Flow Control (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种流量控制方法、装置、设备及存储介质,方法包括获取用户流量的离散特征,以及获取需求方的流量需求;根据所述用户流量的离散特征,确定所述用户流量的作弊等级,其中,所述作弊等级越高,用户流量的作弊概率越大;获取所述流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取所述需求等级对应的作弊等级;将作弊等级高于所述需求等级对应的作弊等级的用户流量,滤除。本申请能够对用户流量进行质量分级,实现分级管理和控制,以能够满足不同的流量需求。

Description

流量控制方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种流量控制方法、装置、设备及存储介质。
背景技术
随着互联网的迅猛发展,特别是移动互联网的推动,在流量变现的利益驱动下,流量造假越发猖狂,且造假手段愈发丰富和高级,在形形色色的作弊手法中,作弊者赚得盆满钵满,而为假流量买单的企业,虽然付出了成本,却达不到想要的目的。
为了杜绝虚假流量,产生了反作弊的方案。
一种反作弊方案为,将反作弊的手段集中在规则过滤上,即观察用户的行为,提取出作弊用户的行为模式,当某一个用户符合该行为模式,则被判定为作弊用户。该方案需要大量的数据分析,并且识别出的作弊用户单一,通常只能识别出最简单初级的作弊用户。
另一种反作弊方案为,通过图像识别等技术的深度学习方法识别作弊用户,即获取用户的点击热点,将作弊用户和正常用户的点击轨迹图标识出来,训练模型,使得训练得到的模型能够识别出作弊用户。该方案需要获取用户的点击轨迹,但是在很多应用场景中不允许软件开发商获取用户点击轨迹,该方案在很多实时性应用中行不通。
发明内容
本申请提供了一种流量控制方法、装置、设备及存储介质,以能够对用户流量进行质量分级,实现分级管理和控制,以能够满足不同的流量需求。
第一方面,本申请实施例提供了一种流量控制方法,包括:
获取用户流量的离散特征,以及获取需求方的流量需求;
根据所述用户流量的离散特征,确定所述用户流量的作弊等级,其中,所述作弊等级越高,用户流量的作弊概率越大;
获取所述流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取所述需求等级对应的作弊等级;
将作弊等级高于所述需求等级对应的作弊等级的用户流量,滤除。
可选地,根据所述用户流量的离散特征,确定所述用户流量的作弊等级,包括:
判断所述用户流量的离散特征是否符合预设作弊规则;
若符合,则确定所述用户流量的作弊等级最高;
若不符合,则根据所述用户流量的离散特征,确定所述用户流量的作弊概率,获取所述用户流量的作弊概率所属的概率区间,查询概率区间与作弊等级之间的映射关系,获取所述作弊概率所属的概率区间对应的作弊等级,作为所述用户流量的作弊等级。
可选地,根据所述用户流量的离散特征,确定所述用户流量的作弊概率,包括:
对所述用户流量的离散特征进行哈希处理,得到所述离散特征的哈希映射值;
根据所述离散特征的哈希映射值,将所述用户流量的离散特征的维度降低到预设范围内,得到降低维度后的所述离散特征的哈希映射值;
将降低维度后的所述离散特征的哈希映射值,输入至二元分类模型,获得所述二元分类模型输出的所述用户流量的作弊概率;
其中,所述二元分类模型的获得过程为:对训练样本集合中的每个第一流量样本的特征进行哈希处理,得到所述第一流量样本的哈希映射值后,根据所述第一流量样本的哈希映射值,将所述第一流量样本的维度降低到所述预设范围内,采用降低维度后的所述第一流量样本的哈希映射值,对二元分类初始模型进行训练,得到所述二元分类模型,所述训练样本集合中包括第一流量样本和所述第一流量样本是否为作弊流量的指示信息。
可选地,获取所述用户流量的作弊概率所属的概率区间之前,所述方法还包括:
获取验证样本集合,所述验证样本集合中包括多个第二流量样本以及每个第二流量样本是否为作弊流量的指示信息;
采用所述二元分类模型,分别对所述验证样本集合中的每个第二流量样本进行学习,获得每个所述第二流量样本各自的作弊概率;
根据每个所述第二流量样本各自的作弊概率以及所述指示信息,计算预先划分的各第一概率区间的查全率和查准率,其中,所述第一概率区间为对概率取值范围0到1进行等距离划分得到;
根据每个所述第一概率区间的查全率和查准率,对连续的多个所述第一概率区间进行合并,得到合并后的各第二概率区间,合并后的所述第二概率区间满足:所述第二概率区间的查全率不小于第一预设值,并且所述第二概率区间的查准率不小于第二预设值;
将合并后的各所述第二概率区间,作为最终得到的概率区间;
确定每个所述概率区间对应的作弊等级,获得所述概率区间与所述作弊等级之间的映射关系。
可选地,根据所述离散特征的哈希映射值,将所述用户流量的离散特征的维度降低到预设范围内,得到降低维度后的所述离散特征的哈希映射值,包括:
对所述离散特征的哈希映射值取整后,对期望特征个数取余,将取余所得的结果,作为降低维度后的所述离散特征的哈希映射值,其中,所述期望特征个数为所述预设范围中的上限值。
可选地,根据每个所述第二流量样本各自的作弊概率以及所述指示信息,计算预先划分的各第一概率区间的查全率,包括:
判断所述第二流量样本的作弊概率是否小于所述第一概率区间的下限值,若低于,则判定所述第二流量样本不是作弊流量,若不低于,则判定所述第二流量样本是作弊流量;
统计判断结果是作弊流量的所述第二流量样本的个数,作为第一统计值;
获取所述验证样本集合中指示信息指示为作弊流量的所述第二流量样本的个数,作为作弊流量总数;
计算所述第一统计值与所述作弊流量总数的比值,作为所述第一概率区间对应的查全率。
可选地,根据每个所述第二流量样本各自的作弊概率以及所述指示信息,计算预先划分的各第一概率区间的查准率,包括:
判断所述第二流量样本的作弊概率是否小于所述第一概率区间的下限值,若低于,则判定所述第二流量样本不是作弊流量,若不低于,则判定所述第二流量样本是作弊流量;
统计判断结果是作弊流量,且所述指示信息指示为作弊流量的所述第二流量样本的个数,作为第二统计值;
计算所述第二统计值,与所述验证样本集合中的所述第二流量样本的总数的比值,作为所述第一概率区间对应的查准率。
可选地,所述离散特征包括:产生流量的设备特征、软件特征、网络特征以及操作频率特征。
第二方面,本申请实施例提供了一种流量控制装置,包括:
获取模块,用于获取用户流量的离散特征,以及获取需求方的流量需求;
确定模块,用于根据所述用户流量的离散特征,确定所述用户流量的作弊等级,其中,所述作弊等级越高,用户流量的作弊概率越大;
查询模块,用于获取所述流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取所述需求等级对应的作弊等级;
滤除模块,用于将作弊等级高于所述需求等级对应的作弊等级的用户流量,滤除。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的流量控制方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述的流量控制方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,获取用户流量的离散特征后,根据用户流量的离散特征,确定该用户流量的作弊等级,作弊等级越高,作弊概率越大,从而对用户流量按照作弊等级划分,在获取需求方的流量需求所属的需求等级后,查询预先配置的需求等级与作弊等级之间的映射关系,获得该需求方的需求等级对应的作弊等级,将作弊等级高于该需求等级对应的作弊等级的用户流量,滤除,从而使得能够对用户流量进行分级管控,实现了流量分级管理和控制,使得能够满足不同的流量需求,提高流量管控效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中流量控制的方法流程示意图;
图2为本申请实施例中确定用户流量的作弊概率的过程示意图;
图3为本申请实施例中二元分类模型的构建过程示意图;
图4为本申请实施例中xgboost模型训练过程示意图;
图5为本申请实施例中ROC曲线示意图;
图6为本申请实施例中建立映射关系的过程示意图;
图7为本申请实施例中流量控制装置的结构示意图;
图8为本申请实施例中电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中提供了一种流量控制方法,该方法可应用于任意一个电子设备,例如终端和服务器。
如图1所示,流量控制的具体过程如下:
步骤101,获取用户流量的离散特征,以及获取需求方的流量需求。
一个具体实施例中,用户流量的离散特征包括该产生流量的设备特征、软件特征、网络特征以及操作频率特征。
具体地,设备特征包括用户产生流量的设备品牌等。软件特征包括用户产生流量的媒体APP、操作系统等。网络特征包括用户产生流量的上网时段、网络类型等。操作频率特征包括用户产生流量的设定周期内活跃天数、点击率等,该设定周期可以是一周或一月等。
其中,需求方的流量需求具体可以是需求的流量的质量高低,或者是在流量方面的预算金额的大小等。
步骤102,根据用户流量的离散特征,确定用户流量的作弊等级,其中,作弊等级越高,用户流量的作弊概率越大。
一个具体实施例中,确定用户流量的作弊等级的具体过程为:判断用户流量的离散特征是否符合预设作弊规则,根据判断结果确定用户流量的作弊等级。
具体地,若用户流量的离散特征符合该预设作弊规则,则确定用户流量的作弊等级最高,即将该用户流量的作弊等级确定为最高级别,也就是符合该预设作弊规则的用户流量的作弊概率最大。
其中,预设作弊规则可以是产生流量的设备的设备号长度是否达到预设长度值,产生流量的设备品牌和操作系统不一致。当然,还可以包括其他明显能够识别出作弊行为的规则,此处不再一一列举。
具体地,若用户流量的离散特征不符合该预设作弊规则,则根据该用户流量的离散特征,确定该用户流量的作弊概率,获取该用户流量的作弊概率所属的概率区间,查询概率区间与作弊等级之间的映射关系,获取该作弊概率所属的概率区间对应的作弊等级,作为该用户流量的作弊等级。
步骤103,获取流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取该需求等级对应的作弊等级。
具体地,预先划分得到流量需求的各个需求区间,每个需求区间对应不同的需求等级,在获得需求方的流量需求后,获得该流量需求所在的需求区间,进而获得该需求区间对应的需求等级。
其中,需求等级和作弊等级之间的映射关系可以是预先确定,具体表现形式可以是,需求等级S对应作弊等级M,即在需要等级为第S级时,映射得到的作弊等级为第M级,S和M的取值可以相同,也可以不相同。例如,需求等级5,映射到作弊等级4;或者,需求等级5,映射到作弊等级5,等。
步骤104,将作弊等级高于该需求等级对应的作弊等级的用户流量,滤除。
例如,在需求等级映射到作弊等级4时,将用户流量中作弊等级高于4的用户流量滤除。本文中设定表示等级的数值越大,则等级越低,当然,也可以根据需要设置为表示等级的数值越大,则等级越高,本申请实施例的保护范围不以此为限制。
本申请实施例提供的该方法,获取用户流量的离散特征后,根据用户流量的离散特征,确定该用户流量的作弊等级,作弊等级越高,作弊概率越大,从而对用户流量按照作弊等级划分,在获取需求方的流量需求所属的需求等级后,查询预先配置的需求等级与作弊等级之间的映射关系,获得该需求方的需求等级对应的作弊等级,将作弊等级高于该需求等级对应的作弊等级的用户流量,滤除,从而使得能够对用户流量进行分级管控,实现了流量分级管理和控制,使得能够满足不同的流量需求,提高流量管控效率。
一个具体实施例中,对步骤102中所涉及的根据用户流量的离散特征,确定用户流量的作弊概率,这一过程进行具体说明,如图2所示,具体包括:
步骤201,对用户流量的离散特征进行哈希处理,得到该离散特征的哈希映射值。
其中,对用户流量的离散特征进行哈希处理,得到哈希值后,将该哈希值转换为数值,即得到该离散特征的哈希映射值。
步骤202,根据该离散特征的哈希映射值,将该用户流量的离散特征的维度降低到预设范围内,得到降低维度后的该离散特征的哈希映射值。
具体地,对所述离散特征的哈希映射值取整后,对期望特征个数取余,将取余所得的结果,作为降低维度后的所述离散特征的哈希映射值,其中,所述期望特征个数为所述预设范围中的上限值。
考虑到用户流量的离散特征中设备品牌、媒体APP、操作系统、上网时段、网络类型、近一周活跃天数、点击率等都是离散变量,如果采用独热(Onehot)对离散变量进行连续化处理,会因为设备品牌和媒体APP的取值非常大,有数十万个,而导致维度灾难。因此,本申请实施例中,将用户流量的离散特征进行哈希处理,即计算离散特征的哈希值,将该哈希值转换成数值,即得到该离散特征的哈希映射值,再取余期望特征个数,假设期望特征个数为5千个,XX手机品牌的特征处理为:int(hash(‘brand_XX’))%5000,brand_XX表示手机品牌,hash表示哈希处理得到的哈希值,int表示数值转换,%表示取余,5000为降维后的期望特征个数。采用该方法,可以将离散特征处理成属于0至4999范围的特征,从而降低特征的维度,避免维度灾难。
步骤203,将降低维度后的该离散特征的哈希映射值,输入至二元分类模型,获得该二元分类模型输出的该用户流量的作弊概率。
本申请实施例中,二元分类模型可以是任意一个用于二元分类的模型,例如xgboost模型等。
其中,如图3所示,二元分类模型的构建过程,具体包括:
步骤301,对训练样本集合中的每个第一流量样本的特征进行哈希处理,得到第一流量样本的哈希映射值。
其中,训练样本集合中包括第一流量样本和所述第一流量样本是否为作弊流量的指示信息。
步骤302,根据第一流量样本的哈希映射值,将第一流量样本的维度降低到预设范围内。
步骤303,采用降低维度后的第一流量样本的哈希映射值,对二元分类初始模型进行训练,得到二元分类模型。
以xgboost模型为例,对训练过程进行说明,如图4所示,具体包括:
步骤401,获得xgboost初始模型,该xgboost初始模型中的参数设置为初始值;
步骤402,对降低维度后的每个第一流量样本进行以下处理:将该第一流量样本的哈希映射值输入至该xgboost初始模型,得到该xgboost初始模型输出的该第一流量的作弊概率;
步骤403,将第一流量样本的作弊概率,与训练样本集合中已知的该第一流量样本是否为作弊流量的指示信息进行比对,验证该xgboost初始模型的识别准确度;
步骤404,判断该识别准确度是否高于预设门限值,若否,则执行步骤405,若是,执行步骤406;
步骤405,调整xgboost初始模型的参数值,转去执行步骤402;
步骤406,将当前的xgboost初始模型作为最终的xgboost模型。
其中,在第一流量样本的作弊概率大于预设门限值的情况下,将该第一流量样本识别为作弊流量,如果该第一流量样本的指示信息也指示为作弊流量,则对该第一流量样本识别正确,反之,如果该第一流量样本的指示信息指示为正常流量,则对该第一流量样本识别错误。同理,在第一流量样本的作弊概率不大于预设门限值的情况下,将该第一流量样本识别为正常流量,如果第一流量样本的指示信息也指示为正常流量,则对该第一流量样本识别正确,反之,如果该第一流量样本的指示信息指示为作弊流量,则对该第一流量样本识别错误。
将识别正确的次数除以总的识别次数,即可得到识别准确度。
在构建二元分类模型后,可以对该二元分类模型进行评估。具体评估过程为:持续调整二元分类模型的分类阈值,计算不同分类阈值下二元分类模型对训练样本集合进行分类得到的假正率和真正率,以假正率作为横坐标、真正率作为纵坐标,绘制ROC曲线(接受者操作特性曲线,也称为感受性曲线,receiver operating characteristic curve);计算所述ROC曲线下的面积,若确定该面积不小于预设值,则对该二元分类模型的评估结果为通过。
如图5所示,该坐标轴中横坐标为假正率,纵坐标为真正率。其中,假正率定义为预测为真实际为假的概率,即假正率=预测为作弊流量实际为正常流量的个数/总的正常流量数。真正率定义为预测为真实际也为真的概率,即真正率=预测为作弊流量实际也是作弊流量的个数/总的作弊流量数。将二元分类模型的分类阈值设置为不同的值,计算在不同的值时的假正率和真正率,并标记到坐标上,将标记的各个点连接形成ROC曲线,积分得到该ROC曲线下的面积,即auc,从ROC曲线图形可以看出,auc的取值越大,模型的分类效果越好,在auc=0.5时是随机情况下的效果。
一个具体实施例中,对于步骤102中,获取该用户流量的作弊概率所属的概率区间,查询概率区间与作弊等级之间的映射关系之前,需要先建立该映射关系,具体建立过程如图6所示,主要包括:
步骤601,获取验证样本集合,该验证样本集合中包括多个第二流量样本以及每个第二流量样本是否为作弊流量的指示信息。
具体实施中,可以通过某平台统计到的实际流量数据构建训练样本集合和验证样本集合,例如,该实际流量数据中的70%作为训练样本集合,30%作为验证样本集合。
步骤602,采用构建得到的二元分类模型,分别对验证样本集合中的每个第二流量样本进行学习,获得每个第二流量样本各自的作弊概率。
对于每个第二流量样本,可以采用对用户流量的离散特征降低维度的相同处理方式,得到每个第二流量样本的的哈希映射值,之后再输入至二元分类模型,得到该二元分类模型输出的第二流量样本的作弊概率,具体可参见步骤202至步骤203的描述,此处不再详述。
步骤603,根据每个第二流量样本各自的作弊概率以及指示信息,计算预先划分的各第一概率区间的查全率和查准率,其中,第一概率区间为对概率取值范围0到1进行等距离划分得到。
例如,将概率取值范围0到1进行等距离划分为100个区间,则每个区间的长度间隔为0.01,具体区间为[0,0.01],[0.01,0.02],[0.02,0.03],......,[0.99,1]。
步骤604,根据每个第一概率区间的查全率和查准率,对连续的多个第一概率区间进行合并,得到合并后的各第二概率区间,合并后的第二概率区间满足:第二概率区间的查全率不小于第一预设值,并且第二概率区间的查准率不小于第二预设值。
步骤605,将合并后的各第二概率区间,作为最终得到的概率区间。
步骤606,确定每个概率区间对应的作弊等级,获得概率区间与作弊等级之间的映射关系。
其中,步骤603中,计算各第一概率区间的查全率的具体过程为:判断所述第二流量样本的作弊概率是否小于所述第一概率区间的下限值,若低于,则判定所述第二流量样本不是作弊流量,若不低于,则判定所述第二流量样本是作弊流量;统计判断结果是作弊流量的所述第二流量样本的个数,作为第一统计值;获取所述验证样本集合中指示信息指示为作弊流量的所述第二流量样本的个数,作为作弊流量总数;计算所述第一统计值与所述作弊流量总数的比值,作为所述第一概率区间对应的查全率。
其中,步骤603中,计算各第一概率区间的查准率的具体过程为:判断所述第二流量样本的作弊概率是否小于所述第一概率区间的下限值,若低于,则判定所述第二流量样本不是作弊流量,若不低于,则判定所述第二流量样本是作弊流量;统计判断结果是作弊流量,且所述指示信息指示为作弊流量的所述第二流量样本的个数,作为第二统计值;计算所述第二统计值,与所述验证样本集合中的所述第二流量样本的总数的比值,作为所述第一概率区间对应的查准率。
例如,假设第一概率区间[0.99,1]对应预测得到的作弊流量的样本个数为1,验证样本集合内总的样本数为100万,总的作弊流量的个数为10万,则计算得到该第一概率区间[0.99,1]的查全率为1/1000000=0.001%,查准率为1/1=100%。
具体地,根据业务需要,以及各作弊等级对查全率和查准率的具体要求,对第一概率区间进行合并,得到合并后的各第二概率区间。例如,假设作弊等级为2级时对查准率要求较高,需要达到85%以上,对查全率不做过多的要求,如需要达到30%,即宁可放过也不错杀,将多个第一概率区间合并为[0.7,1],得到该区间的查全率和查准率均满足要求,则将该区间作为作弊等级为2级时对应的第二概率区间。同理,如果要求作弊等级为5级时的查全率达到90%以上,对查准率要求不高,只要达到10%以上就行,即该作弊等级的用户流量宁可错杀也不可放过,则发现第二概率区间的下限值达到0.1即可满足,则定义作弊等级5的第二概率区间为[0.1,4级作弊等级的第二概率区间的下限值],依此类推,可以得到各作弊等级对应的第二概率区间。
例如,将划分第二概率区间的阈值设置为[0.1,0.3,0.5,0.7],将二元分类模型预测的作弊概率在0.5到0.7之间的用户定义为作弊等级为3级的作弊用户,将二元分类模型预测的作弊概率大于或等于0.7的用户定义为作弊等级为2级的作弊用户,将二元分类模型预测的作弊概率在0.3到0.5之间的用户定义为作弊等级为4级的作弊用户,将二元分类模型预测的作弊概率在0.1到0.3之间的用户定义为作弊等级为5级的作弊用户。将通过规则过滤识别出的作弊用户作为作弊等级为1级的作弊用户。该举例中,1至5级作弊等级为从高到低,即数值越小表示对应的作弊等级越高,如1级作弊等级高于2级作弊等级。
例如,接上例,对于需求等级为5级的优质客户,则屏蔽掉5级以上作弊等级的用户流量,对于需求等级为4级的优质客户,则屏蔽掉4级以上(即1到4级)作弊等级的用户流量,对于需求等级为3级的优质客户,则屏蔽掉3级以上(即1到3级)作弊等级的用户流量,对于需求等级为2的优质客户,则屏蔽掉2级以上(即1到2级)作弊等级的用户流量,对于需求等级为1的优质客户,则屏蔽掉1级以上(即1级)作弊等级的用户流量。综上,可以实现按照需求方的需要控制流量的目的。
基于同一构思,本申请实施例中提供了一种流量控制装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述,如图7所示,该装置主要包括:
获取模块701,用于获取用户流量的离散特征,以及获取需求方的流量需求;
确定模块702,用于根据所述用户流量的离散特征,确定所述用户流量的作弊等级,其中,所述作弊等级越高,用户流量的作弊概率越大;
查询模块703,用于获取所述流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取所述需求等级对应的作弊等级;
滤除模块704,用于将作弊等级高于所述需求等级对应的作弊等级的用户流量,滤除。
基于同一构思,本申请实施例中还提供了一种电子设备,如图8所示,该电子设备主要包括:处理器801、通信接口802、存储器803和通信总线804,其中,处理器801、通信接口802和存储器803通过通信总线804完成相互间的通信。其中,存储器803中存储有可被至处理器801执行的程序,处理器801执行存储器803中存储的程序,实现如下步骤:获取用户流量的离散特征,以及获取需求方的流量需求;根据所述用户流量的离散特征,确定所述用户流量的作弊等级,其中,所述作弊等级越高,用户流量的作弊概率越大;获取所述流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取所述需求等级对应的作弊等级;将作弊等级高于所述需求等级对应的作弊等级的用户流量,滤除。
上述电子设备中提到的通信总线804可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线804可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口802用于上述电子设备与其他设备之间的通信。
存储器803可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器801的存储装置。
上述的处理器801可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的流量控制方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种流量控制方法,其特征在于,包括:
获取用户流量的离散特征,以及获取需求方的流量需求;
根据所述用户流量的离散特征,确定所述用户流量的作弊等级,其中,所述作弊等级越高,用户流量的作弊概率越大;
获取所述流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取所述需求等级对应的作弊等级;
将作弊等级高于所述需求等级对应的作弊等级的用户流量,滤除。
2.根据权利要求1所述的流量控制方法,其特征在于,根据所述用户流量的离散特征,确定所述用户流量的作弊等级,包括:
判断所述用户流量的离散特征是否符合预设作弊规则;
若符合,则确定所述用户流量的作弊等级最高;
若不符合,则根据所述用户流量的离散特征,确定所述用户流量的作弊概率,获取所述用户流量的作弊概率所属的概率区间,查询概率区间与作弊等级之间的映射关系,获取所述作弊概率所属的概率区间对应的作弊等级,作为所述用户流量的作弊等级。
3.根据权利要求2所述的流量控制方法,其特征在于,根据所述用户流量的离散特征,确定所述用户流量的作弊概率,包括:
对所述用户流量的离散特征进行哈希处理,得到所述离散特征的哈希映射值;
根据所述离散特征的哈希映射值,将所述用户流量的离散特征的维度降低到预设范围内,得到降低维度后的所述离散特征的哈希映射值;
将降低维度后的所述离散特征的哈希映射值,输入至二元分类模型,获得所述二元分类模型输出的所述用户流量的作弊概率;
其中,所述二元分类模型的获得过程为:对训练样本集合中的每个第一流量样本的特征进行哈希处理,得到所述第一流量样本的哈希映射值后,根据所述第一流量样本的哈希映射值,将所述第一流量样本的维度降低到所述预设范围内,采用降低维度后的所述第一流量样本的哈希映射值,对二元分类初始模型进行训练,得到所述二元分类模型,所述训练样本集合中包括第一流量样本和所述第一流量样本是否为作弊流量的指示信息。
4.根据权利要求3所述的流量控制方法,其特征在于,获取所述用户流量的作弊概率所属的概率区间之前,所述方法还包括:
获取验证样本集合,所述验证样本集合中包括多个第二流量样本以及每个第二流量样本是否为作弊流量的指示信息;
采用所述二元分类模型,分别对所述验证样本集合中的每个第二流量样本进行学习,获得每个所述第二流量样本各自的作弊概率;
根据每个所述第二流量样本各自的作弊概率以及所述指示信息,计算预先划分的各第一概率区间的查全率和查准率,其中,所述第一概率区间为对概率取值范围0到1进行等距离划分得到;
根据每个所述第一概率区间的查全率和查准率,对连续的多个所述第一概率区间进行合并,得到合并后的各第二概率区间,合并后的所述第二概率区间满足:所述第二概率区间的查全率不小于第一预设值,并且所述第二概率区间的查准率不小于第二预设值;
将合并后的各所述第二概率区间,作为最终得到的概率区间;
确定每个所述概率区间对应的作弊等级,获得所述概率区间与所述作弊等级之间的映射关系。
5.根据权利要求3所述的流量控制方法,其特征在于,根据所述离散特征的哈希映射值,将所述用户流量的离散特征的维度降低到预设范围内,得到降低维度后的所述离散特征的哈希映射值,包括:
对所述离散特征的哈希映射值取整后,对期望特征个数取余,将取余所得的结果,作为降低维度后的所述离散特征的哈希映射值,其中,所述期望特征个数为所述预设范围中的上限值。
6.根据权利要求4所述的流量控制方法,其特征在于,根据每个所述第二流量样本各自的作弊概率以及所述指示信息,计算预先划分的各第一概率区间的查全率,包括:
判断所述第二流量样本的作弊概率是否小于所述第一概率区间的下限值,若低于,则判定所述第二流量样本不是作弊流量,若不低于,则判定所述第二流量样本是作弊流量;
统计判断结果是作弊流量的所述第二流量样本的个数,作为第一统计值;
获取所述验证样本集合中指示信息指示为作弊流量的所述第二流量样本的个数,作为作弊流量总数;
计算所述第一统计值与所述作弊流量总数的比值,作为所述第一概率区间对应的查全率。
7.根据权利要求4所述的流量控制方法,其特征在于,根据每个所述第二流量样本各自的作弊概率以及所述指示信息,计算预先划分的各第一概率区间的查准率,包括:
判断所述第二流量样本的作弊概率是否小于所述第一概率区间的下限值,若低于,则判定所述第二流量样本不是作弊流量,若不低于,则判定所述第二流量样本是作弊流量;
统计判断结果是作弊流量,且所述指示信息指示为作弊流量的所述第二流量样本的个数,作为第二统计值;
计算所述第二统计值,与所述验证样本集合中的所述第二流量样本的总数的比值,作为所述第一概率区间对应的查准率。
8.根据权利要求1至7任一项所述的流量控制方法,其特征在于,所述离散特征包括:产生流量的设备特征、软件特征、网络特征以及操作频率特征。
9.一种流量控制装置,其特征在于,包括:
获取模块,用于获取用户流量的离散特征,以及获取需求方的流量需求;
确定模块,用于根据所述用户流量的离散特征,确定所述用户流量的作弊等级,其中,所述作弊等级越高,用户流量的作弊概率越大;
查询模块,用于获取所述流量需求所属的需求等级,查询预先配置的需求等级与作弊等级之间的映射关系,获取所述需求等级对应的作弊等级;
滤除模块,用于将作弊等级高于所述需求等级对应的作弊等级的用户流量,滤除。
10.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1至8任一项所述的流量控制方法。
11.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的流量控制方法。
CN202010238232.6A 2020-03-30 2020-03-30 流量控制方法、装置、设备及存储介质 Active CN111404835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010238232.6A CN111404835B (zh) 2020-03-30 2020-03-30 流量控制方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010238232.6A CN111404835B (zh) 2020-03-30 2020-03-30 流量控制方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111404835A true CN111404835A (zh) 2020-07-10
CN111404835B CN111404835B (zh) 2023-05-30

Family

ID=71431330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010238232.6A Active CN111404835B (zh) 2020-03-30 2020-03-30 流量控制方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111404835B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348586A (zh) * 2020-11-13 2021-02-09 北京奇虎科技有限公司 流量作弊检测方法、装置、设备及可读存储介质
CN114390002A (zh) * 2021-12-15 2022-04-22 南京理工大学 基于分组条件熵的网络流量多模块聚类异常检测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226803A1 (en) * 2006-03-22 2007-09-27 Woonyon Kim System and method for detecting internet worm traffics through classification of traffic characteristics by types
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106355431A (zh) * 2016-08-18 2017-01-25 晶赞广告(上海)有限公司 作弊流量检测方法、装置及终端
CN108415931A (zh) * 2018-01-22 2018-08-17 北京品友互动信息技术股份公司 一种用于识别作弊流量的模型建立方法及系统
CN108985804A (zh) * 2017-05-31 2018-12-11 百度在线网络技术(北京)有限公司 流量分级方法及装置
CN109039800A (zh) * 2018-06-28 2018-12-18 腾讯科技(深圳)有限公司 在流量实验中进行流量分配的方法、装置和计算机设备
CN109146546A (zh) * 2018-07-23 2019-01-04 广州至真信息科技有限公司 一种作弊行为检测的方法及装置
CN109559149A (zh) * 2018-10-17 2019-04-02 杭州家娱互动网络科技有限公司 一种流量识别处理方法及装置
CN109600345A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 异常数据流量检测方法及装置
CN109842619A (zh) * 2019-01-08 2019-06-04 北京百度网讯科技有限公司 用户账号拦截方法和装置
CN110097389A (zh) * 2018-01-31 2019-08-06 上海甚术网络科技有限公司 一种广告流量反作弊方法
CN110322165A (zh) * 2019-07-10 2019-10-11 西安点告网络科技有限公司 广告作弊风险评估的方法和装置
CN110827094A (zh) * 2019-11-15 2020-02-21 湖南快乐阳光互动娱乐传媒有限公司 广告投放的反作弊方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070226803A1 (en) * 2006-03-22 2007-09-27 Woonyon Kim System and method for detecting internet worm traffics through classification of traffic characteristics by types
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106355431A (zh) * 2016-08-18 2017-01-25 晶赞广告(上海)有限公司 作弊流量检测方法、装置及终端
CN108985804A (zh) * 2017-05-31 2018-12-11 百度在线网络技术(北京)有限公司 流量分级方法及装置
CN109600345A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 异常数据流量检测方法及装置
CN108415931A (zh) * 2018-01-22 2018-08-17 北京品友互动信息技术股份公司 一种用于识别作弊流量的模型建立方法及系统
CN110097389A (zh) * 2018-01-31 2019-08-06 上海甚术网络科技有限公司 一种广告流量反作弊方法
CN109039800A (zh) * 2018-06-28 2018-12-18 腾讯科技(深圳)有限公司 在流量实验中进行流量分配的方法、装置和计算机设备
CN109146546A (zh) * 2018-07-23 2019-01-04 广州至真信息科技有限公司 一种作弊行为检测的方法及装置
CN109559149A (zh) * 2018-10-17 2019-04-02 杭州家娱互动网络科技有限公司 一种流量识别处理方法及装置
CN109842619A (zh) * 2019-01-08 2019-06-04 北京百度网讯科技有限公司 用户账号拦截方法和装置
CN110322165A (zh) * 2019-07-10 2019-10-11 西安点告网络科技有限公司 广告作弊风险评估的方法和装置
CN110827094A (zh) * 2019-11-15 2020-02-21 湖南快乐阳光互动娱乐传媒有限公司 广告投放的反作弊方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348586A (zh) * 2020-11-13 2021-02-09 北京奇虎科技有限公司 流量作弊检测方法、装置、设备及可读存储介质
CN114390002A (zh) * 2021-12-15 2022-04-22 南京理工大学 基于分组条件熵的网络流量多模块聚类异常检测方法

Also Published As

Publication number Publication date
CN111404835B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
WO2019205325A1 (zh) 确定用户风险等级的方法、终端设备及计算机可读存储介质
CN108366045B (zh) 一种风控评分卡的设置方法和装置
WO2019214309A1 (zh) 模型测试的方法及装置
CN111444952A (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN109934704A (zh) 信息推荐方法、装置、设备和存储介质
CN110728323A (zh) 目标类型用户的识别方法、装置、电子设备及存储介质
CN110443350B (zh) 基于数据分析的模型质量检测方法、装置、终端及介质
CN108681751B (zh) 确定事件影响因素的方法及终端设备
CN111404835A (zh) 流量控制方法、装置、设备及存储介质
CN111797320A (zh) 数据处理方法、装置、设备及存储介质
CN107230090B (zh) 一种净推荐值nps分类方法及装置
CN115826509A (zh) 一种控制方法、装置、电子设备及存储介质
CN111091460A (zh) 一种数据处理方法及装置
CN111612366A (zh) 渠道质量评估方法、装置、电子设备及存储介质
CN111597383A (zh) 一种视频热度级别预测方法及装置
CN107871213B (zh) 一种交易行为评价方法、装置、服务器以及存储介质
CN115099934A (zh) 一种高潜客户识别方法、电子设备和存储介质
CN114841588A (zh) 信息处理方法、装置、电子设备和计算机可读介质
CN114330550A (zh) 模型融合策略的选择方法、装置及电子设备
CN113762403B (zh) 图像处理模型量化方法、装置、电子设备及存储介质
CN113705682B (zh) 用户行为特征的处理方法及装置
CN114997879B (zh) 一种支付路由方法、装置、设备和存储介质
CN115374865A (zh) 训练数据的处理方法、装置、设备以及可读介质
CN118051776A (zh) 一种识别模型的训练方法和相关装置
CN115146717A (zh) 基于多任务模型的推荐方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Information Technology Co.,Ltd.

Address before: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Shuke Haiyi Information Technology Co.,Ltd.

Address after: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Shuke Haiyi Information Technology Co.,Ltd.

Address before: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Beijing Economic and Technological Development Zone, Beijing 100176

Applicant before: BEIJING HAIYI TONGZHAN INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant