CN114257553A - 流量检测方法、装置、电子设备和存储介质 - Google Patents

流量检测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114257553A
CN114257553A CN202111570392.1A CN202111570392A CN114257553A CN 114257553 A CN114257553 A CN 114257553A CN 202111570392 A CN202111570392 A CN 202111570392A CN 114257553 A CN114257553 A CN 114257553A
Authority
CN
China
Prior art keywords
flow
traffic
identified
detection result
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111570392.1A
Other languages
English (en)
Inventor
秦洋洋
李兵
潘俊
陈志昂
汪李之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111570392.1A priority Critical patent/CN114257553A/zh
Publication of CN114257553A publication Critical patent/CN114257553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]

Abstract

本发明提供一种流量检测方法、装置、电子设备和存储介质,所述方法包括:确定待识别流量;基于预设规则,对待识别流量的流量行为和/或待识别流量的来源设备属性进行规则匹配,得到待识别流量的第一检测结果,预设规则基于无效流量的流量行为和/或无效流量的来源设备属性确定;基于样本流量以及样本流量的检测标签,对待识别流量进行无效流量检测,得到待识别流量的第二检测结果;基于第一检测结果以及第二检测结果,确定待识别流量的流量检测结果。本发明提供的流量检测方法、装置、电子设备和存储介质,能够得到精度较高的流量检测结果。

Description

流量检测方法、装置、电子设备和存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种流量检测方法、装置、电子设备和存储介质。
背景技术
无效流量也称作虚假流量,是指通过流量作弊脚本模仿正常用户针对特定网站或网页进行持续大量的访问,不断刷新提高该网站或网页的数据流量。
目前针对无效流量的检测,大多基于移动互联网广告无效流量验证标准中的判定数据列表对待识别流量进行检测,确定待识别流量是否为无效流量。然而,该方法中判定数据列表是基于历史无效流量的规律确定的,对于新类别的无效流量,检测结果精度较低。
发明内容
本发明提供一种流量检测方法、装置、电子设备和存储介质,用以解决现有技术中无效流量检测结果精度较低的缺陷。
本发明提供一种流量检测方法,包括:
确定待识别流量;
对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;
基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
根据本发明提供的一种流量检测方法,所述基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果,包括:
基于与所述待识别流量的来源设备属性相对应的样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果。
根据本发明提供的一种流量检测方法,所述基于与所述待识别流量的来源设备属性相对应的样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果,包括:
基于流量检测结果映射关系以及所述待识别流量的来源设备属性,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
所述流量检测结果映射关系基于不同来源设备下的样本流量以及样本流量的检测标签确定。
根据本发明提供的一种流量检测方法,所述得到所述待识别流量的第二检测结果,之后还包括:
将所述待识别流量,以及所述待识别流量对应的链接发送至测试终端,以使所述测试终端模拟所述待识别流量访问所述链接,统计所述链接的实际访问信息并返回;
基于所述实际访问信息,确定校正检测结果,并基于所述校正检测结果、所述待识别流量以及所述待识别流量的来源设备属性,更新所述流量检测结果映射关系。
根据本发明提供的一种流量检测方法,所述基于所述实际访问信息,确定校正检测结果,包括:
基于所述实际访问信息,以及所述待识别流量对应的访问信息,确定所述待识别流量的模拟检测结果;
在所述模拟检测结果与所述第二检测结果不一致时,将所述模拟检测结果作为所述校正检测结果。
根据本发明提供的一种流量检测方法,所述对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果,包括:
基于预设行为规则,对所述待识别流量的流量行为进行规则匹配,得到所述第一检测结果中的行为检测结果;所述预设行为规则基于无效流量的流量行为确定;
和/或,
基于预设属性规则,对所述待识别流量的来源设备属性进行规则匹配,得到所述第一检测结果中的属性检测结果;所述预设属性规则基于无效流量的来源设备属性确定。
根据本发明提供的一种流量检测方法,所述流量检测结果用于表征所述待识别流量是否为无效流量;
所述确定所述待识别流量的流量检测结果,之后还包括:
统计实时无效流量的占比,并在所述占比大于阈值时,进行预警提示。
本发明还提供一种流量检测装置,包括:
流量确定单元,用于确定待识别流量;
第一检测单元,用于对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;
第二检测单元,用于基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
流量检测单元,用于基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述流量检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述流量检测方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述流量检测方法的步骤。
本发明提供的流量检测方法、装置、电子设备和存储介质,通过对待识别流量的流量行为和/或来源设备属性进行规则匹配,从而得到的第一检测结果可以准确对少数特殊无效流量进行检测,同时由于基于样本流量以及样本流量的检测标签得到的第二检测结果可以准确对新类别的无效流量进行检测,从而结合第一检测结果和第二检测结果可以进一步准确得到待识别流量的流量检测结果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的流量检测方法的流程示意图;
图2是本发明提供的无效流量检测模型更新方法的流程示意图;
图3是本发明提供的无效流量检测模型更新方法中步骤220的实施方式的流程示意图;
图4是本发明提供的流量检测装置的结构示意图;
图5是本发明提供的流量检测系统的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前针对无效流量的检测,大多基于移动互联网广告无效流量验证标准中的GIVT(General Invalid Traffic)判定数据列表对待识别流量进行检测,确定待识别流量是否为无效流量。然而,该方法中判定数据列表是基于历史无效流量的规律确定的,对于新类别的无效流量,检测结果精度较低。例如,基于历史无效流量发现无效流量中带有非法参数A,因此可以将带有非法参数A添加至判定数据列表,在检测到待识别流量中存在非法参数A时,判断为无效流量。然而,若待识别流量为无效流量,但其不存在非法参数A,由于判定数据列表中不存在非法参数A,则可能会误认为待识别流量为正常流量,进而造成误检。
对此,本发明提供一种流量检测方法。图1是本发明提供的流量检测方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、确定待识别流量。
此处,待识别流量即需要进行无效流量检测的流量,通常是由用户访问网站产生的。然而,在某些情况下,可能存在通过人为手段,在用户访问终端的过程中,进行恶意引导,改变用户的访问途径,导致虚增广告客户费用、发布商收入的点击或展示等对应的流量是无效流量。例如,在进行广告投放的过程中,若存在无效流量,不仅会影响广告的推广效果,而且还会增加广告投放成本。因此,需要对待识别流量进行无效流量检测,以降低营销成本。
步骤120、对待识别流量的流量行为和/或来源设备属性进行规则匹配,得到待识别流量的第一检测结果。
具体地,流量行为用于描述用户访问网站的行为轨迹信息,例如用户在网站的停留时间、用户访问的页面、用户在访问网站时使用的网络地址(如IP地址)、在不同时段的用户访问量等。来源设备属性用于描述用户访问网站时所采用的请求设备信息,来源设备属性,例如用户通过手机访问网站,则对应的来源设备为手机,来源设备属性可以为手机ID、手机品牌、手机操作系统等。
可选地,可以基于预设规则,对待识别流量的流量行为和/或来源设备属性进行规则匹配。其中,预设规则用于表征无效流量的特征信息,其可以是对无效流量的流量行为和/或历史流量的来源设备属性进行分析,总结无效流量的共性特点后得到的。例如,无效流量中大多存在超出阈值A的访问频度,因此可以设置预设规则为“在访问频度>A时,对应流量为无效流量”。
可选地,基于预设规则,对待识别流量的流量行为进行规则匹配时,若待识别流量的流量行为匹配成功,则对应的第一检测结果为待识别流量为无效流量。
可选地,基于预设规则,对待识别流量的来源设备属性进行规则匹配,若待识别流量的来源设备属性匹配成功,则对应的第一检测结果为待识别流量为无效流量。
可选地,基于预设规则,对待识别流量的流量行为和来源设备属性进行规则匹配,若待识别流量的流量行为和来源设备属性中任一个匹配成功,则对应的第一检测结果为待识别流量为无效流量。
步骤130、基于样本流量以及样本流量的检测标签,对待识别流量进行无效流量检测,得到待识别流量的第二检测结果。
具体地,样本流量可以包括正常流量和无效流量,样本流量的检测标签用于描述样本流量状态(如正常状态或无效状态)。由于样本流量中包含有正常流量和无效流量,从而基于样本流量和样本流量的检测标签,可以得到正常流量的特征信息、无效流量的特征信息以及正常流量和无效流量之间的差异信息。
结合正常流量的特征信息、无效流量的特征信息以及正常流量和无效流量之间的差异信息,对待识别流量进行无效流量检测,从而可以确定待识别流量是否为无效流量,即得到第二检测结果。
可选地,可以基于样本流量以及样本流量的检测标签训练得到无效流量检测模型,从而无效流量检测模型可以学习得到正常流量的特征信息、无效流量的特征信息以及正常流量和无效流量之间的差异信息,然后将待识别流量输入至无效流量检测模型,由无效流量检测模型对待识别流量进行无效流量检测,得到无效流量检测模型输出的第二检测结果。
步骤140、基于第一检测结果以及第二检测结果,确定待识别流量的流量检测结果。
具体地,第一检测结果是基于无效流量的共性特点确定的预设规则,对待识别流量进行检测后得到的,在待识别流量的流量行为和/或待识别流量的来源设备属性进行规则匹配成功时,表明待识别流量中存在无效流量的特征信息,也即待识别流量为无效流量的概率较大。
第二检测结果是基于样本流量以及样本流量的检测标签,得到正常流量的特征信息、无效流量的特征信息以及正常流量和无效流量之间的差异信息,从而可以基于三者的信息对待识别流量进行分析,预测待识别流量是否为无效流量,得到第二检测结果。
由于第一检测结果对应的预设规则无法穷举所有无效流量的流量行为和/或待识别流量的来源设备属性对应的规则,因此在存在新类别的无效流量时,无法基于预设规则准确进行流量检测,也就是第一检测结果无法对新类别的无效流量进行准确检测。同时,第二检测结果是通过样本流量以及样本流量的检测标签,分析得到正常流量的特征信息、无效流量的特征信息以及正常流量和无效流量之间的差异信息,从而在待识别流量为新类别的无效流量时,也可以预测待识别流量是否为无效流量。此外,由于通过样本流量以及样本流量的检测标签,得到的是泛化特征信息,而无法总结得到少数特殊无效流量对应的特征信息,因此第二检测结果无法对少数特殊无效流量进行准确检测,而预设规则中可以包含少数特殊流量对应的匹配规则,进而可以基于预设规则对少数特殊无效流量进行准确检测。
因此,本发明实施例结合第一检测结果和第二检测结果,确定待识别流量的流量检测结果。可选地,若第一检测结果或第二检测结果为待识别流量为无效流量,则可以确定待识别流量的流量检测结果为待识别流量为无效流量。
本发明实施例提供的流量检测方法,通过对待识别流量的流量行为和/或来源设备属性进行规则匹配,从而得到的第一检测结果可以准确对少数特殊无效流量进行检测,同时由于基于样本流量以及样本流量的检测标签得到的第二检测结果可以准确对新类别的无效流量进行检测,从而结合第一检测结果和第二检测结果可以进一步准确得到待识别流量的流量检测结果。
基于上述实施例,步骤130包括:
基于与待识别流量的来源设备属性相对应的样本流量以及样本流量的检测标签,对待识别流量进行无效流量检测,得到待识别流量的第二检测结果。
具体地,来源设备属性用于表征流量请求设备的属性信息,不同来源设备属性对应的流量行为规律不同,例如,来源设备属性A对应的无效流量的访问频度阈值为a,来源设备属性B对应的无效流量的访问频度阈值为b,由此可见,来源设备属性A与来源设备属性B对应的无效流量的访问频度阈值是不同的,即来源设备属性A与来源设备属性B对应的流量行为规律不同。
因此,基于待识别流量的来源设备属性相对应的样本流量以及样本流量的检测标签,能够更准确得到在待识别流量的来源设备属性下的正常流量特征信息、无效流量的特征信息以及正常流量和无效流量之间的差异信息,进而结合三者能够更加准确对待识别流量进行无效流量检测,从而可以确定待识别流量是否为无效流量,即准确得到第二检测结果。
基于上述任一实施例,步骤130中基于与待识别流量的来源设备属性相对应的样本流量以及样本流量的检测标签,对待识别流量进行无效流量检测,得到待识别流量的第二检测结果,包括:
基于流量检测结果映射关系以及待识别流量的来源设备属性,对待识别流量进行无效流量检测,得到待识别流量的第二检测结果;
流量检测结果映射关系基于不同来源设备下的样本流量以及样本流量的检测标签确定。
具体地,流量检测结果映射关系指不同来源设备属性下的流量及其对应的流量检测结果之间的映射关系,基于该映射关系以及待识别流量的来源设备属性,可以确定待识别流量的流量检测结果,也即第二检测结果。此处的映射关系,具体可以体现为通过不同来源设备下的样本流量以及样本流量的检测标签训练得到的无效流量检测模型,也可以体现为通过关联挖掘得到的不同来源设备下的样本流量与对应流量检测结果之间的内在规律,本发明实施例对此不作具体限定。
在映射关系体现为通过不同来源设备下的样本流量以及样本流量的检测标签训练得到的无效流量检测模型时,可以将待识别流量以及待识别流量的来源设备属性输入至无效流量检测模型,得到无效流量检测模型输出的第二检测结果。需要说明的是,不同来源设备对应的流量行为规律不同,从而基于不同来源设备下的样本流量以及样本流量的检测标签训练得到的无效流量检测模型,能够学习得到不同来源设备下对应的流量行为规律,即能够学习得到不同来源设备下正常流量的特征信息、无效流量的特征信息以及正常流量和无效流量之间的差异信息,进而在将待识别流量以及待识别流量的来源设备属性输入至无效流量检测模型后,可以准确对待识别流量进行无效流量检测,得到待识别流量的第二检测结果。
可以理解的是,在将待识别流量以及待识别流量的来源设备属性输入至无效流量检测模型之前,还可以预先训练得到无效流量检测模型,具体可以通过执行如下步骤实现:首先,收集大量不同来源设备下的样本流量,通过人工标注确定其样本流量的检测标签。随即,基于不同来源设备下的样本流量以及样本流量的检测标签对初始模型进行训练,从而得到无效流量检测模型。
基于上述任一实施例,样本流量中可以包括样本流量的来源设备属性、样本流量的流量行为(如来源设备发起请求的时间、来源设备发起请求的网络地址、媒体用户量等),样本流量可以从流量数据库中获取,该流量数据库是基于如下步骤建立的:
通过自有媒体和SDK(Software Development Kit)集成,收集初始流量,对初始流量进行数据清洗与数据整理,获取有效的初始流量,即样本流量,并将样本流量添加至流量数据库。
在得到样本流量后,可以提取样本流量的来源设备属性,以及样本流量的流量行为(来源设备行为和媒体用户量),具体包括:
(1)样本流量的来源设备属性
来源设备具有一些固有属性,如设备ID、品牌、机型、操作系统、操作系统版本号、Buildid值、Imei值等,可以从样本流量中提取出对应来源设备的ID、品牌、机型、操作系统、操作系统版本号、Buildid值、Imei值等属性,并记录各属性的当前时刻与上一时刻对应的属性值,从而可以基于两个时刻的属性值进行对比分析,确定样本流量是否为无效检测流量,进而可以得到样本流量的检测标签。
其中,Buildid值是在手机中的固件版本ID,对于同一个机型的手机,在出厂时安装软件的Buildid值相同,根据机型和操作系统版本号对应Buildid值的分布,可以唯一确定手机对应的Buildid值。Imei值是国际移动设备识别码,Imei值包括TAC。由于同一品牌手机对应的Imei值中TAC的第3-6位编码相同,从而TAC可以用于区分手机品牌和型号。
(2)来源设备行为
设备发起请求的时间、IP(包括省份、城市)等信息决定着本次请求的一种行为状态。通过真实的行为状态,可以适当对虚假行为状态,进行逻辑上的判断。提取设备的请求时间,位置经纬度,IP(包括省份、城市)等行为数据,可以和设备当日流量数据进行匹配,通过移动速度的合理性,位置变化频率高低,识别无效流量。
(3)媒体用户量
可以定期从公开数据中获取各媒体应用的月活数据,即可以获取公开媒体用户量,以及根据用户安装的媒体列表,统计得到实际媒体用户量,并通过网页爬虫获取应用市场的下载媒体用户量,从而可以根据公开媒体用户量,实际媒体用户量和下载媒体用户量之间的差异程度,判断对应流量是否为无效流量。例如,若差异程度较大,则表明存在刷量的概率较大,也即对应流量为无效流量的概率较大。
基于上述任一实施例,图2是本发明提供的无效流量检测模型更新方法的流程示意图,如图2所示,该方法包括:
步骤210、在得到待识别流量的第二检测结果之后,将待识别流量,以及待识别流量对应的链接发送至测试终端,以使测试终端模拟待识别流量访问链接,统计链接的实际访问信息并返回;
步骤220、基于实际访问信息,确定校正检测结果,并基于校正检测结果、待识别流量和待识别流量的来源设备属性,更新流量检测结果映射关系。
具体地,在得到第二检测结果之后,若需要验证第二检测结果的精度,可以将待识别流量,以及待识别流量对应的链接发送至测试终端,从而测试终端可以模拟待识别流量访问链接,进而测试终端可以统计在模拟访问时对应的实际访问信息并返回。其中,实际访问信息用于表征模拟待识别流量访问链接时对应的真实数据信息,如实际曝光量、实际点击量等。
同时,待识别流量也会对应有访问信息,若待识别流量实际为无效流量,则其对应的访问信息会与实际访问信息不同,甚至两者之间可能存在较大差异。因此,在两者之间存在差异时,可以认为待识别流量为无效流量,若流量检测结果为待识别流量为正常流量,则表明流量检测结果存在误差,此时可以确定校正检测结果为待识别流量为无效流量,并基于校正检测结果、待识别流量和待识别流量的来源设备属性,更新流量检测结果映射关系,从而可以提高流量检测结果的精度。可选地,在流量检测结果映射关系体现为上述无效流量检测模型时,可以基于校正检测结果、待识别流量和待识别流量的来源设备属性,对无效流量检测模型进行参数迭代,以优化无效流量检测模型的参数,从而可以提高模型的训练效果,进而保证流量检测结果的精度。
基于上述任一实施例,图3是本发明提供的无效流量检测模型更新方法中步骤220的实施方式的流程示意图,如图3所示,步骤220包括:
基于实际访问信息,以及待识别流量对应的访问信息,确定待识别流量的模拟检测结果;
在模拟检测结果与第二检测结果不一致时,将模拟检测结果作为校正检测结果。
具体地,实际访问信息用于表征模拟待识别流量访问链接时对应的真实数据信息,如实际曝光量、实际点击量等。同时,待识别流量也会对应有访问信息,若待识别流量实际为无效流量,则其对应的访问信息会与实际访问信息不同,甚至两者之间可能存在较大差异。因此,在得到实际访问信息以及待识别流量对应的访问信息后,可以判断两者之间是否存在差异,若是,则可以认为待识别流量为无效流量。
此时,若流量检测结果为待识别流量为正常流量,与基于实际访问信息和待识别流量对应的访问信息确定的结果“待识别流量为无效流量”不同,则表明流量检测结果存在误差,需要对其进行校正,因此可以确定校正检测结果为待识别流量为无效流量,并基于校正检测结果、待识别流量和待识别流量的来源设备属性,更新无效流量检测模型,从而可以提高模型的训练效果,进而保证流量检测结果的精度。
其中,实际访问信息可以包括实际曝光量、实际点击量、实际来源设备的UA(userAgent)信息、实际来源设备属性等。在获取实际曝光量和实际点击量时,可以监测素材URL端和落地页URL端的实际曝光量和实际点击量,若待识别流量为无效流量,则实际曝光量和实际点击量与待识别流量回传的访问信息中的曝光量和点击量差异较大,因此基于该差异对待识别流量进行无效流量检测。在获取实际来源设备的UA信息和实际来源设备属性时,可在落地页URL端收集实际来源设备的UA信息和实际来源设备属性,并将其与待识别流量回传的访问信息中的来源设备UA信息和来源设备属性进行比对,若存在差异,表明来源设备参数异常,也即待识别流量为无效流量的概率较大。
基于上述任一实施例,步骤120包括:
基于预设行为规则,对待识别流量的流量行为进行规则匹配,得到第一检测结果中的行为检测结果;预设行为规则基于无效流量的流量行为确定;
和/或,
基于预设属性规则,对待识别流量的来源设备属性进行规则匹配,得到第一检测结果中的属性检测结果;预设属性规则基于无效流量的来源设备属性确定。
具体地,预设行为规则用于表征无效流量的流量行为特征信息,其可以是对无效流量的流量行为进行分析,总结无效流量在流量行为方面的共性特点后得到的。其中,流量行为用于描述用户访问网站的行为轨迹信息,例如用户在网站的停留时间、用户访问的页面、用户在访问网站时使用的网络地址(如IP地址)、在不同时段的用户访问量等。
预设属性规则用于表征无效流量的来源设备属性信息,其可以是对无效流量的来源设备属性进行分析,总结无效流量在来源设备属性方面的共性特点后得到的。其中,来源设备属性用于描述用户访问网站时所采用的请求设备信息,来源设备属性,例如用户通过手机访问网站,则对应的来源设备为手机,来源设备属性可以为手机ID、手机品牌、手机操作系统等。
可选地,基于预设行为规则,对待识别流量的流量行为进行规则匹配时,若待识别流量的流量行为匹配成功,则对应的行为检测结果为待识别流量为无效流量。
可选地,基于预设属性规则,对待识别流量的来源设备属性进行规则匹配,若待识别流量的来源设备属性匹配成功,则对应的属性检测结果为待识别流量为无效流量。
可选地,基于预设行为规则和预设属性规则,对待识别流量的流量行为和来源设备属性进行规则匹配,若待识别流量的流量行为和来源设备属性中任一个匹配成功,则对应的第一检测结果为待识别流量为无效流量。
基于上述任一实施例,预设行为规则和预设属性规则可以是对接码平台、群控平台、撞库账号、被后门SDK(Software Development Kit)应用植入的设备以及UI Clawer系统中对应的无效流量进行分析确定,具体包括:
在对接码平台的无效流量进行分析时,可以通过对来源设备行为进行分析,如根据曝光量,曝光频率,点击量,点击率,点击频率等分析得到无效流量的来源设备行为特点,得到对应的设备行为规则,并将设备行为规则加入预设行为规则,以及将识别出的无效流量对应的来源设备属性加入预设属性规则。
此外,各来源设备发起流量请求进行网络通信都依赖网络IP,可以从互联网公布的云商、CDN(Content Delivery Network)和VPN(Virtual Private Network)等类别的网络IP,生成无效流量对应的网络IP黑名单,并将网络IP黑名单添加至预设属性规则。同时,通过对无效流量的网络IP进行行为逻辑分析,如根据请求、曝光、点击数据等总结得到无效流量的网络IP行为规则,并将网络IP行为规则加入预设行为规则。
在对群控平台的无效流量进行分析时,可以分析对应来源设备的位置、app安装、app使用的集中度等,总结无效流量的来源设备(即群控设备)的行为特点,得到群控设备行为规则,并将群控设备行为规则加入预设行为规则,以及将识别出的无效流量对应的群控设备属性加入预设属性规则。
在对撞库账号中的无效流量进行分析时,可以分析来源设备在不同应用的登陆信息包含应用的数量,应用时间的分布,新增app的数量等,形成撞库设备规则,并将撞库设备规则加入预设行为规则,以及将识别出的无效流量对应的撞库设备属性加入预设属性规则。
通过UI Clawer系统进行爬取,收集曝光可见性差的媒体广告对应的媒体真实用户量,将其与流量上传的媒体用户量进行对比,得到媒体用户量规则,并将媒体用户量规则加入预设行为规则。
若来源设备被后门SDK植入,则表明该来源设备对应的流量为无效流量,因此可以将该来源设备属性添加至预设属性规则。
由此可见,本发明实施例对多个渠道的无效流量进行分析,得到预设行为规则和预设属性规则,从而能够准确基于预设行为规则得到行为检测结果,以及基于预设属性规则得到属性检测结果。
基于上述任一实施例,流量检测结果用于表征待识别流量是否为无效流量;
确定待识别流量的流量检测结果,之后还包括:
统计实时无效流量的占比,并在占比大于阈值时,进行预警提示。
具体地,流量检测结果用户表征待识别流量是否为无效流量。基于上述任一实施例中流量检测方法,可以实时进行流量检测,得到实时流量检测结果,并统计实时流量检测结果中无效流量的占比,若占比大于阈值,表明存在欺诈风险,此时可以进行预警提示,以进行人工干预和决策。
基于上述任一实施例,本发明实施例还提供一种流量检测方法,包括:
对无效流量的流量行为进行分析,得到预设行为规则,并基于预设行为规则对待识别流量进行规则匹配,得到行为检测结果。同时,对无效流量的来源设备属性进行分析,得到预设属性规则,并基于预设属性规则对待识别流量进行规则匹配,得到属性检测结果。
将待识别流量以及待识别流量的来源设备属性输入至无效流量检测模型,得到无效流量检测模型输出的第二检测结果;其中,无效流量检测模型是基于不同来源设备下的样本流量以及样本流量的检测标签训练得到的。
若行为检测结果、属性检测结果和第二检测结果中任一个为待识别流量为无效流量,则对应的流量检测结果为待识别流量为无效流量。若行为检测结果、属性检测结果和第二检测结果均为待识别流量为正常流量,则对应的流量检测结果为待识别流量为正常流量。
此外,可以实时显示待识别流量的流量行为和/或来源设备属性,以使用户直观获取待识别流量的指标信息。在确定待识别流量的流量检测结果之后,统计实时无效流量的占比,并在占比大于阈值时,进行预警提示,以进行人工干预和决策。
下面对本发明提供的流量检测装置进行描述,下文描述的流量检测装置与上文描述的流量检测方法可相互对应参照。
基于上述任一实施例,本发明还提供一种流量检测装置,图4是本发明提供的流量检测装置的结构示意图,如图4所示,该装置包括:
流量确定单元410,用于确定待识别流量;
第一检测单元420,用于对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;
第二检测单元430,用于基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
流量检测单元440,用于基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
需要说明的是,基于流量检测装置还可以构建得到流量检测系统,图5是本发明提供的流量检测系统的结构示意图,如图5所示,该系统包括数据层(大数据平台)、流量反作弊平台(流量数据库、情报数据库、流量检测装置)、应用层以及效果验证层。
其中,数据层用于为流量数据库和情报数据库提供数据来源。流量数据库中可以分别建立设备属性库、设备行为库、媒体用户库、Buidid库以及Imei库,分别用于存储来源设备属性、来源设备行为、媒体用户量、Buidid值以及Imei值。情报数据库中可以分别存储有接码平台、IP代理、群控平台、撞库账号、UI Clawer系统以及后门SDK的流量数据信息,从而流量检测装置可以从流量数据库和情报数据库中获取数据信息,建立预设规则以及无效流量检测模型。
在得到待识别流量的流量检测结果后,可以通过应用层进行查询、更新和展示,同时应用层会实时统计无效流量占比,在占比大于阈值时进行预警提示,以进行人工干预。其中,API服务和私有化部署中可以通过搭建Redis Cluster提供实时KV数据库进行来源设备ID、IP特征查询与更新,最终测试可以达到服务响应时间99.9%不超3ms。态势感知系统由流量指标可视化和无效流量自动化异常告警构成,流量指标可视化可以对流量在用户量,机型分布,操作系统分布,曝光量,点击量等指标进行可视化;无效流量自动化异常告警用于统计实时无效流量的占比,并在占比大于阈值时进行预警。
此外,效果验证层用于对流量检测装置得到的流量检测结果进行验证,如可以通过模拟待识别流量访问链接,得到实际曝光率和实际点击量,将其与待识别流量上传的曝光率和点击量进行对比,以确定是否需要校正流量检测结果,从而实现不断优化流量检测结果的精度。
基于上述任一实施例,所述第二检测单元430,用于:
基于与所述待识别流量的来源设备属性相对应的样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果。
基于上述任一实施例,所述第二检测单元430,用于:
基于流量检测结果映射关系以及所述待识别流量的来源设备属性,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
所述流量检测结果映射关系基于不同来源设备下的样本流量以及样本流量的检测标签确定。
基于上述任一实施例,所述装置还包括:
发送单元,用于在得到所述待识别流量的第二检测结果之后,将所述待识别流量,以及所述待识别流量对应的链接发送至测试终端,以使所述测试终端模拟所述待识别流量访问所述链接,统计所述链接的实际访问信息并返回;
更新单元,用于基于所述实际访问信息,确定校正检测结果,并基于所述校正检测结果、所述待识别流量以及所述待识别流量的来源设备属性,更新所述流量检测结果映射关系。
基于上述任一实施例,所述更新单元,包括:
对比单元,用于基于所述实际访问信息,以及所述待识别流量对应的访问信息,确定所述待识别流量的模拟检测结果;
校正单元,用于在所述模拟检测结果与所述第二检测结果不一致时,将所述模拟检测结果作为所述校正检测结果。
基于上述任一实施例,所述第一检测单元420,用于:
基于预设行为规则,对所述待识别流量的流量行为进行规则匹配,得到所述第一检测结果中的行为检测结果;所述预设行为规则基于无效流量的流量行为确定;
和/或,
基于预设属性规则,对所述待识别流量的来源设备属性进行规则匹配,得到所述第一检测结果中的属性检测结果;所述预设属性规则基于无效流量的来源设备属性确定。
基于上述任一实施例,所述流量检测结果用于表征所述待识别流量是否为无效流量;
所述装置还包括:
预警单元,用于在确定所述待识别流量的流量检测结果之后,统计实时无效流量的占比,并在所述占比大于阈值时,进行预警提示。
图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640,其中,处理器610,存储器620,通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令,以执行流量检测方法,该方法包括:确定待识别流量;对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的流量检测方法,该方法包括:确定待识别流量;对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的流量检测方法,该方法包括:确定待识别流量;对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种流量检测方法,其特征在于,包括:
确定待识别流量;
对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;
基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
2.根据权利要求1所述的流量检测方法,其特征在于,所述基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果,包括:
基于与所述待识别流量的来源设备属性相对应的样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果。
3.根据权利要求2所述的流量检测方法,其特征在于,所述基于与所述待识别流量的来源设备属性相对应的样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果,包括:
基于流量检测结果映射关系以及所述待识别流量的来源设备属性,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
所述流量检测结果映射关系基于不同来源设备下的样本流量以及样本流量的检测标签确定。
4.根据权利要求3所述的流量检测方法,其特征在于,所述得到所述待识别流量的第二检测结果,之后还包括:
将所述待识别流量,以及所述待识别流量对应的链接发送至测试终端,以使所述测试终端模拟所述待识别流量访问所述链接,统计所述链接的实际访问信息并返回;
基于所述实际访问信息,确定校正检测结果,并基于所述校正检测结果、所述待识别流量以及所述待识别流量的来源设备属性,更新所述流量检测结果映射关系。
5.根据权利要求4所述的流量检测方法,其特征在于,所述基于所述实际访问信息,确定校正检测结果,包括:
基于所述实际访问信息,以及所述待识别流量对应的访问信息,确定所述待识别流量的模拟检测结果;
在所述模拟检测结果与所述第二检测结果不一致时,将所述模拟检测结果作为所述校正检测结果。
6.根据权利要求1至5任一项所述的流量检测方法,其特征在于,所述对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果,包括:
基于预设行为规则,对所述待识别流量的流量行为进行规则匹配,得到所述第一检测结果中的行为检测结果;所述预设行为规则基于无效流量的流量行为确定;
和/或,
基于预设属性规则,对所述待识别流量的来源设备属性进行规则匹配,得到所述第一检测结果中的属性检测结果;所述预设属性规则基于无效流量的来源设备属性确定。
7.根据权利要求1至5任一项所述的流量检测方法,其特征在于,所述流量检测结果用于表征所述待识别流量是否为无效流量;
所述确定所述待识别流量的流量检测结果,之后还包括:
统计实时无效流量的占比,并在所述占比大于阈值时,进行预警提示。
8.一种流量检测装置,其特征在于,包括:
流量确定单元,用于确定待识别流量;
第一检测单元,用于对所述待识别流量的流量行为和/或来源设备属性进行规则匹配,得到所述待识别流量的第一检测结果;
第二检测单元,用于基于样本流量以及所述样本流量的检测标签,对所述待识别流量进行无效流量检测,得到所述待识别流量的第二检测结果;
流量检测单元,用于基于所述第一检测结果以及所述第二检测结果,确定所述待识别流量的流量检测结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述流量检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述流量检测方法的步骤。
CN202111570392.1A 2021-12-21 2021-12-21 流量检测方法、装置、电子设备和存储介质 Pending CN114257553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111570392.1A CN114257553A (zh) 2021-12-21 2021-12-21 流量检测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111570392.1A CN114257553A (zh) 2021-12-21 2021-12-21 流量检测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114257553A true CN114257553A (zh) 2022-03-29

Family

ID=80793526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111570392.1A Pending CN114257553A (zh) 2021-12-21 2021-12-21 流量检测方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114257553A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121157A1 (zh) * 2016-12-29 2018-07-05 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
US10587647B1 (en) * 2016-11-22 2020-03-10 Fireeye, Inc. Technique for malware detection capability comparison of network security devices
CN111782735A (zh) * 2020-07-01 2020-10-16 北京深演智能科技股份有限公司 羊毛党流量识别方法及装置
CN111800404A (zh) * 2020-06-29 2020-10-20 深信服科技股份有限公司 一种对恶意域名的识别方法、装置以及存储介质
CN112565308A (zh) * 2021-02-26 2021-03-26 北京邮电大学 基于网络流量的恶意应用检测方法、装置、设备及介质
WO2021121127A1 (zh) * 2020-07-28 2021-06-24 平安科技(深圳)有限公司 样本类别识别方法、装置、计算机设备及存储介质
CN113709125A (zh) * 2021-08-18 2021-11-26 北京明略昭辉科技有限公司 一种异常流量的确定方法、装置、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10587647B1 (en) * 2016-11-22 2020-03-10 Fireeye, Inc. Technique for malware detection capability comparison of network security devices
WO2018121157A1 (zh) * 2016-12-29 2018-07-05 北京神州绿盟信息安全科技股份有限公司 一种网络流量异常检测方法及装置
CN111800404A (zh) * 2020-06-29 2020-10-20 深信服科技股份有限公司 一种对恶意域名的识别方法、装置以及存储介质
CN111782735A (zh) * 2020-07-01 2020-10-16 北京深演智能科技股份有限公司 羊毛党流量识别方法及装置
WO2021121127A1 (zh) * 2020-07-28 2021-06-24 平安科技(深圳)有限公司 样本类别识别方法、装置、计算机设备及存储介质
CN112565308A (zh) * 2021-02-26 2021-03-26 北京邮电大学 基于网络流量的恶意应用检测方法、装置、设备及介质
CN113709125A (zh) * 2021-08-18 2021-11-26 北京明略昭辉科技有限公司 一种异常流量的确定方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN109922032B (zh) 用于确定登录账户的风险的方法、装置、设备及存储介质
TWI727202B (zh) 用於識別欺詐的發布商網路之方法與系統
US20190333118A1 (en) Cognitive product and service rating generation via passive collection of user feedback
CN110992169A (zh) 一种风险评估方法、装置、服务器及存储介质
CN111435507A (zh) 广告反作弊方法、装置、电子设备及可读存储介质
CN106022349B (zh) 用于设备类型确定的方法和系统
CN113572752B (zh) 异常流量的检测方法和装置、电子设备、存储介质
CN109189935B (zh) 一种基于知识图谱的app传播分析方法及系统
CN108600270A (zh) 一种基于网络日志的异常用户检测方法及系统
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
CN112801155B (zh) 基于人工智能的业务大数据分析方法及服务器
CN112016138A (zh) 一种车联网自动化安全建模的方法、装置和电子设备
CN109558547A (zh) 一种数据的过滤方法、装置、电子设备及存储介质
CN106998336B (zh) 渠道中的用户检测方法和装置
CN106301979B (zh) 检测异常渠道的方法和系统
CN109729069A (zh) 异常ip地址的检测方法、装置与电子设备
CN109040000B (zh) 基于ip地址的用户识别方法和系统
US9306958B2 (en) Methods, systems and media for detecting non-intended traffic using co-visitation information
CN108804501A (zh) 一种检测有效信息的方法及装置
US10614482B2 (en) Attribution of a new application installation on a mobile device by analyzing network traffic of the device
CN114257553A (zh) 流量检测方法、装置、电子设备和存储介质
CN111340062A (zh) 一种映射关系确定方法及装置
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN114048311A (zh) 网络诈骗的预警方法、装置、设备及存储介质
CN113139182A (zh) 一种在线电商平台的数据入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination