CN109831454A - 虚假流量的识别方法和装置 - Google Patents

虚假流量的识别方法和装置 Download PDF

Info

Publication number
CN109831454A
CN109831454A CN201910189827.4A CN201910189827A CN109831454A CN 109831454 A CN109831454 A CN 109831454A CN 201910189827 A CN201910189827 A CN 201910189827A CN 109831454 A CN109831454 A CN 109831454A
Authority
CN
China
Prior art keywords
flow
characteristic
characteristic information
false
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910189827.4A
Other languages
English (en)
Other versions
CN109831454B (zh
Inventor
杨同洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Friends Of Interactive Information Technology Co Ltd
Original Assignee
Beijing Friends Of Interactive Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Friends Of Interactive Information Technology Co Ltd filed Critical Beijing Friends Of Interactive Information Technology Co Ltd
Priority to CN201910189827.4A priority Critical patent/CN109831454B/zh
Publication of CN109831454A publication Critical patent/CN109831454A/zh
Application granted granted Critical
Publication of CN109831454B publication Critical patent/CN109831454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种虚假流量的识别方法和装置。其中,该方法包括:获取流量的特征信息,其中,特征信息至少包括:时间特征信息、设备特征信息和行为特征信息;根据流量的特征信息对流量进行聚合;根据流量的聚合结果确定流量中的虚假流量。本发明解决了现有技术中虚假流量较逼真,导致难以识别的技术问题。

Description

虚假流量的识别方法和装置
技术领域
本发明涉及数据的护理领域,具体而言,涉及一种虚假流量的识别方法和装置。
背景技术
广告投放中有很多的团伙作弊流量,作弊流量通常来自于以下作弊行为:机器行为,例如IP重复刷量、更换不同IP重复刷量、流量劫持等;挂战软件,例如,使用浏览器内核,多人安装互刷软件,每天制造多次虚假PV,从而伪造大量流量。这些虚假的流量会降低广告投放的效果。
目前识别虚假流量的方式是,使用手机唯一标识符deviceID或者IP来作为一个key,即一个“人”,通过这个key的点击广告的频次等参数来判断这个key是否是虚假的流量。
但随着技术的升级,作弊团伙为了使虚假流量更逼真,经常不停的变换流量里的deviceID和IP,通过单个的deviceID或者IP作为key来分析作弊流量就会太宽泛,难以准确的识别出虚假流量。
针对现有技术中虚假流量较逼真,导致难以识别的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种虚假流量的识别方法和装置,以至少解决现有技术中虚假流量较逼真,导致难以识别的技术问题。
根据本发明实施例的一个方面,提供了一种虚假流量的识别方法,包括:获取流量的特征信息,其中,特征信息至少包括:时间特征信息、设备特征信息和行为特征信息;根据流量的特征信息对流量进行聚合;根据流量的聚合结果确定流量中的虚假流量。
进一步地,根据流量的特征信息,将流量映射在三维空间中,得到流量在三维空间中对应点;根据点在三维空间中的位置对流量所对应的点进行聚合,得到流量的聚合结果。
进一步地,确定每个点与最近的其他点之间的距离;如果距离小于预设值,则将点与其他点聚合为一个簇。
进一步地,获取包围簇的最小球体的体积;获取簇中点的数量;根据数量和体积获取最小球体的密度;根据最小球体的密度确定簇中的点所表示的流量是否为虚假流量。
进一步地,最小球体的密度小于预设值,簇中的点所表示的流量不为虚假流量;或最小球体的密度大于或等于预设值,簇中的点所表示的流量为虚假流量。
进一步地,获取流量对应的流量数据;基于流量的流量数据确定流量的多组特征数据,其中,多组特征数据至少包括:时间特征数据、设备特征数据和行为特征数据;对每一组特征数据进行归一化处理;根据归一化处理的结果,对每一组特征数据进行降维,得到多个一维的特征信息。
进一步地,多组特征数据包括:第一组特征数据、第二组特征数据和第三组特征数据,其中,第一组特征数据包括:单位时间内上网的起始时间,流量曝光时间间隔的标准差和流量曝光次数最多的时间点;第二组特征数据包括:流量中使用2G网络的次数占总次数的比例、流量中使用3G网络的次数占总次数的比例、流量中使用4G网络的次数占总次数的比例、流量中使用无线网络的次数占总次数的比例、设备型号变化次数、以及设备操作系统的变化次数;第三组特征数据包括:在预设平台曝光的流量的占比和通过预设应用程序曝光的流量的占比。
进一步地,对第一组特征数据进行降维,得到时间特征信息;对第二组特征数据进行降维,得到设备特征信息;对第三组特征数据进行降维,得到行为特征信息。
根据本发明实施例的一个方面,提供了一种虚假流量的识别装置,包括:获取模块,用于获取流量的特征信息,其中,特征信息至少包括:时间特征信息、设备特征信息和行为特征信息;聚合模块,用于根流量的特征信息对流量进行聚合;确定模块用于根据流量的聚合结果确定流量中的虚假流量。
根据本发明实施例的一个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述的虚假流量的识别方法。
根据本发明实施例的一个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的虚假流量的识别方法。
在本发明实施例中,获取流量的特征信息,其中,特征信息至少包括:时间特征信息、设备特征信息和行为特征信息;根据流量的特征信息对流量进行聚合;根据流量的聚合结果确定流量中的虚假流量。上述方案通过流量的特征信息对流量进行聚合,并依据聚合结果从曝光的流量中筛选出虚假流量,因此即使使用变更的设备ID或IP生成虚假流量,由于其根据流量的特征信息进行聚合,也能够被识别出来,因此与仅通过基于设备或IP点击广告的次数来判断虚假流量相比,具有更高的准确性,解决了现有技术中虚假流量较逼真,导致难以识别的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的虚假流量的识别方法的流程图;
图2是根据本发明实施例的一种获取对流量进行聚合的示意图;以及
图3是根据本发明实施例的一种虚假流量的识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种虚假流量的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的虚假流量的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取流量的特征信息,其中,特征信息至少包括:时间特征信息、设备特征信息和行为特征信息。
具体的,上述流量可以为曝光的广告流量。上述流量的特征信息可以通过统计预设时间段的流量数据得到。上述时间特征信息可以根据与时间相关的流量数据确定;设备特征信息可以根据与上网的设备相关的流量数据确定,例如设备的属性信息等;行为特征信息可以是根据产生流量的用户行为来确定,例如,用户通过何种应用程序生成上述流量。
可以首先获取曝光的流量对应的特征数据,再从特征数据中分别筛选出与时间相关的特征数据、与设备相关的数据以及与行为相关的数据;最后根据与时间相关的特征数据确定流量的时间特征信息、根据与设备相关的特征数据确定流量的设备特征信息,并根据与行为相关的特征数据确定行为特征信息,从而得到流量的特征信息。
以时间特征信息为例,在一种可选的实施例中,与时间相关的特征数据可以包括:单位时间内上网起始时间,曝光时间间隔的标准差和曝光次数最多的时间点。可以将这四个时间数据进行归一化处理,再根据预设的权重值对四个特征数据进行加权运算,从而得到流量对应的时间特征信息。
步骤S104,根据流量的特征信息对流量进行聚合。
具体的,对流量进行聚合,用于将相似度较高的流量构成簇。该相似度可以通过流量的特征信息来确定。
在一种可选的实施例中,可以将三个特征信息分别对应三维空间的一个轴,将流量根据其三个特征信息映射在三维空间中,从而得到三维空间中用于表示流量的点在三维空间的位置。再基于流量对应的点在三维空间的位置,可以得到可视化的三维空间图像。在可视化的三维空间图像中,相似度较高的流量对应点会聚合成一个簇,从而达到了对流量聚合的效果。
需要说明的是,虚假流量通常具有加高的相似度,使得虚假流量在三维空间中对应的点较容易被聚合,因此上述步骤中,被聚合的流量是虚假流量的可能性较高。
步骤S106,根据流量的聚合结果确定流量中的虚假流量。
在上述步骤中,可以根据聚合结果从被聚合的流量中筛选出虚假流量。被聚合的流量具有较大的可能是虚假流量,因此对被聚合的流量是否为虚假流量进行判断。
在一种可选的实施例,可以通过确定被聚合的流量的相似度来判断其是否为虚假流量。例如,如果被聚合的流量中,任意两个流量的相似度的小于预设值,则确定被聚合的流量为虚假流量。
仍以将流量映射在三维空间中为例,可以通过计算两个点之间的距离来确定点所对应的流量之间的相似度,从而确定是否为虚假流量。
由上可知,本申请上述实施例获取流量的特征信息,其中,特征信息至少包括:时间特征信息、设备特征信息和行为特征信息;根据流量的特征信息对流量进行聚合;根据流量的聚合结果确定流量中的虚假流量。上述方案通过流量的特征信息对流量进行聚合,并依据聚合结果从曝光的流量中筛选出虚假流量,因此即使使用变更的设备ID或IP生成虚假流量,由于其根据流量的特征信息进行聚合,虚假流量也能够被识别出来,因此与仅通过基于设备或IP点击广告的次数来判断虚假流量相比,具有更高的准确性,解决了现有技术中虚假流量较逼真,导致难以识别的技术问题。
作为一种可选的实施例,根流量的特征信息对流量进行聚合,包括:根据流量的特征信息,将流量映射在三维空间中,得到流量在三维空间中对应点;根据点在三维空间中的位置对流量所对应的点进行聚合,得到流量的聚合结果。
在上述方案中,三维空间包括三个轴,其中第一轴用于表示时间特征信息,第二轴用于表示设备特征信息,第三轴用于表示行为特征信息。根据流量的特征信息,将其映射在三维空间中,即可得到流量在三维空间中对应的点。
根据流量在三维空间中对应的点对流量进行聚合,在一种可选的实施例中,可以获取包括流量对应的点的可视化三维空间图像,三维空间图像中相对集中的部分呈现出可视化的簇,因此将这部分进行聚合,从而得到簇。
作为一种可选的实施例,根据点在三维空间中的位置对流量所对应的点进行聚合,得到流量的聚合结果,包括:确定每个点与最近的其他点之间的距离;如果距离小于预设值,则将点与其他点聚合为一个簇。
在上述步骤中,通过判断点与距离其最近的其他点之间的距离来对点进行聚合。对于较为集中的点,其与相邻的点之间的距离较近,因此可以通过设置预设值的方式判断是否将点进行聚合,并在点与最近的其他点之间的距离小于预设值时,将点和最近的其他点进行聚合。
作为一种可选的实施例,根据流量的聚合结果确定流量中的虚假流量,包括:获取包围簇的最小球体的体积;获取簇中点的数量;根据数量和体积获取最小球体的密度;根据最小球体的密度确定簇中的点所表示的流量是否为虚假流量。
图2是根据本发明实施例的一种获取对流量进行聚合的示意图,结合图2所示,该图所表示的三维空间包括X,Y,Z三个轴,分别用于表示时间特征信息、设备特征信息和行为特征信息。图中仅示意了少量的点和一个簇,以簇被最小球体包围。在一种可选的实施例中,可以计算每个簇中,key(点)的数量m,以及包含这个簇的最小的球体的体积v,并计算这个球体的密度ρ=m/v,密度ρ与簇中的key所表示的流量为虚假流量的置信度呈正比例关系,因此可以根据计算得到的密度来确定簇中的key所表示的流量是否为虚假流量。
作为一种可选的实施例,根据最小球体的密度确定簇中的点所表示的流量是否为虚假流量,包括:最小球体的密度小于预设值,簇中的点所表示的流量不为虚假流量;或最小球体的密度大于或等于预设值,簇中的点所表示的流量为虚假流量。
在一种可选的实施例中,还可以设置密度对应的预设值来判断簇中的点所对应的流量是否为虚假流量。在最小球体的密度大于等于预设值的情况下,确定簇中的点所表示的流量为虚假流量,在最小球体的密度小于预设值的情况下,簇中的点所表示的流量不为虚假流量。
作为一种可选的实施例,其特征在于,获取流量的特征信息,包括:获取流量对应的流量数据;基于流量的流量数据确定流量的多组特征数据,其中,多组特征数据至少包括:时间特征数据、设备特征数据和行为特征数据;对每一组特征数据进行归一化处理;根据归一化处理的结果,对每一组特征数据进行降维,得到多个一维的特征信息。
在上述步骤中,流量对应的流量数据可以包括:曝光时间,IP,设备的标识:设备ID,设备上网时的网络制式,点击广告的平台,以及点击广告所使用的应用程序等数据。
在一种可选的实施例中,以时间特征数据、设备特征数据和行为特征数据这三组特征数据为例,在确定多组特征数据前,还可以对流量数据进行清洗,从而保证流量数据的准确性。在对流量数据清洗后,可以通过筛选的方式,从流量数据中筛选出与时间相关的流量数据作为时间特征数据,筛选出与设备相关的流量数据作为特征数据,并筛选出与行为相关的流量数据作为行为特征是数据。
在得到三组特征数据后,通过归一化处理,将三组特征数据映射在[0,1]之间。由于每组特征数据中可能包括多个特征数据,因此每组特征数据都处在高维度上。可以通过PCA(Principal Components Analysis,主成分分析)的方式对每组特征数据进行降维,从而得到每组特征数据对应的一个特征性信息,进而使得一个流量对应三个特征信息,即时间特征信息、设备特征信息和行为特征信息。
作为一种可选的实施例,多组特征数据包括:第一组特征数据、第二组特征数据和第三组特征数据,其中,第一组特征数据包括:单位时间内上网起始时间,流量曝光时间间隔的标准差和流量曝光数最大的时间点;第二组特征数据包括:流量中使用2G网络的次数占总次数的比例、流量中使用3G网络的次数占总次数的比例、流量中使用4G网络的次数占总次数的比例、流量中使用无线网络的次数占总次数的比例、设备型号变化次数、以及设备操作系统的变化次数;第三组特征数据包括:第三组特征数据包括:在预设平台曝光的流量的占比和通过预设应用程序曝光的流量的占比。
具体的,上述第一组特征数据中包括四个维度的流量数据,其中,单位时间可以是24h;广告被点击时即为流量曝光。第二组特征数据中包括六个维度的流量数据,设备为生成流量的设备,举例说明设备型号变化和设备操作系统的变化:设备由Iphone7变更为Iphone8即为设备型号的变化;设备的操作系统由ios11变更为ios12即为设备操作系统的变化。第三组特征数据包括n个维度的流量数据,n为预设平台的数量和预设应用程序的数量之和,其中,平台可以用于表示应用程序所属的开发方、投资方或推广方等,例如,平台可以为头条,其所对应的应用程序包括:今日头条,抖音,火山视频等;平台还可以为腾讯,其所对应的应用程序包括:腾讯新闻,腾讯体育,腾讯视频等。
作为一种可选的实施例,根据归一化处理的结果,对每一组特征数据进行降维,得到多个一维的特征信息,包括:对第一组特征数据进行降维,得到时间特征信息;对第二组特征数据进行降维,得到设备特征信息;对第三组特征数据进行降维,得到行为特征信息。
上述降维操作用于根据降维的思想,将多维度的指标转换为少数的综合指标,在上述方案中,将多维指标降维至一个指标。
在一种可选的实施例中,上述降维操作可以通过PCA实现,PCA通过线性变换,把数据变换至一个新的坐标系中,其在减少数据维度的同时,保持数据集贡献最大的特征。
实施例2
根据本发明实施例,提供了一种虚假流量的识别装置的实施例,图3是根据本发明实施例的一种虚假流量的识别装置的示意图,结合图3,该装置包括:
获取模块30,用于获取流量的特征信息,其中,特征信息至少包括:时间特征信息、设备特征信息和行为特征信息。
聚合模块32,用于根流量的特征信息对流量进行聚合。
确定模块34,用于根据流量的聚合结果确定流量中的虚假流量。
作为一种可选的实施例,聚合模块包括:映射子模块,用于根据流量的特征信息,将流量映射在三维空间中,得到流量在三维空间中对应点;聚合子模块,用于根据点在三维空间中的位置对流量所对应的点进行聚合,得到流量的聚合结果。
作为一种可选的实施例,聚合子模块包括:确定单元,用于确定每个点与最近的其他点之间的距离;聚合单元,用于如果距离小于预设值,则将点与其他点聚合为一个簇。
作为一种可选的实施例,聚合单元包括:第一获取子单元,用于获取包围簇的最小球体的体积;第二获取子单元,用于获取簇中点的数量;第三获取子单元,用于根据数量和体积获取最小球体的密度;判断子单元,用于根据最小球体的密度确定簇中的点所表示的流量是否为虚假流量。
作为一种可选的实施例,判断子单元包括:第一确定子单元,用于最小球体的密度小于预设值,簇中的点所表示的流量不为虚假流量;或第二确定子单元,用于最小球体的密度大于或等于预设值,簇中的点所表示的流量为虚假流量。
作为一种可选的实施例,获取模块包括:获取子模块,用于获取流量对应的流量数据;确定子模块,用于基于流量的流量数据确定流量的多组特征数据,其中,多组特征数据至少包括:时间特征数据、设备特征数据和行为特征数据;处理子模块,用于对每一组特征数据进行归一化处理;降维子模块,用于根据归一化处理的结果,对每一组特征数据进行降维,得到多个一维的特征信息。
作为一种可选的实施例,多组特征数据包括:第一组特征数据、第二组特征数据和第三组特征数据,其中,第一组特征数据包括:单位时间内上网的起始时间,流量曝光时间间隔的标准差和流量曝光次数最多的时间点;第二组特征数据包括:流量中使用2G网络的次数占总次数的比例、流量中使用3G网络的次数占总次数的比例、流量中使用4G网络的次数占总次数的比例、流量中使用无线网络的次数占总次数的比例、设备型号变化次数、以及设备操作系统的变化次数;第三组特征数据包括:在预设平台曝光的流量的占比和通过预设应用程序曝光的流量的占比。
作为一种可选的实施例,降维子模块包括:第一降维单元,用于对第一组特征数据进行降维,得到时间特征信息;第二降维单元,用于对第二组特征数据进行降维,得到设备特征信息;第三降维单元,用于对第三组特征数据进行降维,得到行为特征信息。
实施例3
根据本发明实施例,提供了一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行实施例1中所述的虚假流量的识别方法。
实施例4
根据本发明实施例,提供了一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行实施例1中所述的虚假流量的识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种虚假流量的识别方法,其特征在于,包括:
获取流量的特征信息,其中,所述特征信息至少包括:时间特征信息、设备特征信息和行为特征信息;
根据所述流量的特征信息对所述流量进行聚合;
根据所述流量的聚合结果确定所述流量中的虚假流量。
2.根据权利要求1所述的方法,其特征在于,根据所述流量的特征信息对所述流量进行聚合,包括:
根据所述流量的特征信息,将所述流量映射在三维空间中,得到所述流量在所述三维空间中对应点;
根据所述点在所述三维空间中的位置对所述流量所对应的点进行聚合,得到所述流量的聚合结果。
3.根据权利要求2所述的方法,其特征在于,根据所述点在所述三维空间中的位置对所述流量所对应的点进行聚合,得到所述流量的聚合结果,包括:
确定每个点与最近的其他点之间的距离;
如果所述距离小于预设值,则将所述点与所述其他点聚合为一个簇。
4.根据权利要求3所述的方法,其特征在于,根据所述流量的聚合结果确定所述流量中的虚假流量,包括:
获取包围所述簇的最小球体的体积;
获取所述簇中点的数量;
根据所述数量和所述体积获取所述最小球体的密度;
根据所述最小球体的密度确定所述簇中的点所表示的流量是否为虚假流量。
5.根据权利要求4所述的方法,其特征在于,根据所述最小球体的密度确定所述簇中的点所表示的流量是否为虚假流量,包括:
所述最小球体的密度小于预设值,所述簇中的点所表示的流量不为虚假流量;或
所述最小球体的密度大于或等于预设值,所述簇中的点所表示的流量为所述虚假流量。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,获取流量的特征信息,包括:
获取所述流量对应的流量数据;
基于所述流量的流量数据确定所述流量的多组特征数据,其中,所述多组特征数据至少包括:时间特征数据、设备特征数据和行为特征数据;
对每一组特征数据进行归一化处理;
根据所述归一化处理的结果,对所述每一组特征数据进行降维,得到多个一维的所述特征信息。
7.根据权利要求6所述的方法,其特征在于,所述多组特征数据包括:第一组特征数据、第二组特征数据和第三组特征数据,其中,
所述第一组特征数据包括:单位时间内上网的起始时间,流量曝光时间间隔的标准差和流量曝光次数最多的时间点;
所述第二组特征数据包括:流量中使用2G网络的次数占总次数的比例、流量中使用3G网络的次数占总次数的比例、流量中使用4G网络的次数占总次数的比例、流量中使用无线网络的次数占总次数的比例、设备型号变化次数、以及设备操作系统的变化次数;
所述第三组特征数据包括:在预设平台曝光的流量的占比和通过预设应用程序曝光的流量的占比。
8.根据权利要求7所述的方法,其特征在于,根据所述归一化处理的结果,对所述每一组特征数据进行降维,得到多个一维的所述特征信息,包括:
对所述第一组特征数据进行降维,得到所述时间特征信息;
对所述第二组特征数据进行降维,得到所述设备特征信息;
对所述第三组特征数据进行降维,得到所述行为特征信息。
9.一种虚假流量的识别装置,其特征在于,包括:
获取模块,用于获取流量的特征信息,其中,所述特征信息至少包括:时间特征信息、设备特征信息和行为特征信息;
聚合模块,用于根所述流量的特征信息对所述流量进行聚合;
确定模块,用于根据所述流量的聚合结果确定所述流量中的虚假流量。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述的虚假流量的识别方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的虚假流量的识别方法。
CN201910189827.4A 2019-03-13 2019-03-13 虚假流量的识别方法和装置 Active CN109831454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910189827.4A CN109831454B (zh) 2019-03-13 2019-03-13 虚假流量的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910189827.4A CN109831454B (zh) 2019-03-13 2019-03-13 虚假流量的识别方法和装置

Publications (2)

Publication Number Publication Date
CN109831454A true CN109831454A (zh) 2019-05-31
CN109831454B CN109831454B (zh) 2022-02-25

Family

ID=66869221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910189827.4A Active CN109831454B (zh) 2019-03-13 2019-03-13 虚假流量的识别方法和装置

Country Status (1)

Country Link
CN (1) CN109831454B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199417A (zh) * 2019-11-29 2020-05-26 北京深演智能科技股份有限公司 虚假设备id的识别方法及装置
CN111610926A (zh) * 2020-05-27 2020-09-01 北京学之途网络科技有限公司 触摸事件属性判断方法、装置及电子设备
CN112529051A (zh) * 2020-11-25 2021-03-19 微梦创科网络科技(中国)有限公司 一种刷量用户识别方法及装置
CN113225325A (zh) * 2021-04-23 2021-08-06 北京明略昭辉科技有限公司 一种ip黑名单确定方法、装置、设备及存储介质
CN115396346A (zh) * 2022-08-30 2022-11-25 北京知道创宇信息技术股份有限公司 仿真压力测试方法、装置、系统和电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应系统
CN103200133A (zh) * 2013-03-21 2013-07-10 南京邮电大学 一种基于网络流引力聚类的流量识别方法
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
CN105357189A (zh) * 2015-10-13 2016-02-24 精硕世纪科技(北京)有限公司 僵尸账号检测方法和装置
CN105791051A (zh) * 2016-03-25 2016-07-20 中国地质大学(武汉) 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统
CN106657062A (zh) * 2016-12-22 2017-05-10 珠海市魅族科技有限公司 用户识别的方法和装置
CN107070930A (zh) * 2017-04-20 2017-08-18 中国电子技术标准化研究院 一种面向主机的可疑网络连接识别方法
US9959365B2 (en) * 2015-01-16 2018-05-01 The Trustees Of The Stevens Institute Of Technology Method and apparatus to identify the source of information or misinformation in large-scale social media networks
CN108650194A (zh) * 2018-05-14 2018-10-12 南开大学 基于K_means和KNN融合算法的网络流量分类方法
CN109284380A (zh) * 2018-09-25 2019-01-29 平安科技(深圳)有限公司 基于大数据分析的非法用户识别方法及装置、电子设备
CN109413103A (zh) * 2018-12-11 2019-03-01 泰康保险集团股份有限公司 虚假用户识别的处理方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252541A (zh) * 2008-04-09 2008-08-27 中国科学院计算技术研究所 一种网络流量分类模型的建立方法及相应系统
CN103200133A (zh) * 2013-03-21 2013-07-10 南京邮电大学 一种基于网络流引力聚类的流量识别方法
CN104917739A (zh) * 2014-03-14 2015-09-16 腾讯科技(北京)有限公司 虚假账号的识别方法及装置
US9959365B2 (en) * 2015-01-16 2018-05-01 The Trustees Of The Stevens Institute Of Technology Method and apparatus to identify the source of information or misinformation in large-scale social media networks
CN105357189A (zh) * 2015-10-13 2016-02-24 精硕世纪科技(北京)有限公司 僵尸账号检测方法和装置
CN105791051A (zh) * 2016-03-25 2016-07-20 中国地质大学(武汉) 基于人工免疫和k均值聚类的无线传感网异常检测方法及系统
CN106657062A (zh) * 2016-12-22 2017-05-10 珠海市魅族科技有限公司 用户识别的方法和装置
CN107070930A (zh) * 2017-04-20 2017-08-18 中国电子技术标准化研究院 一种面向主机的可疑网络连接识别方法
CN108650194A (zh) * 2018-05-14 2018-10-12 南开大学 基于K_means和KNN融合算法的网络流量分类方法
CN109284380A (zh) * 2018-09-25 2019-01-29 平安科技(深圳)有限公司 基于大数据分析的非法用户识别方法及装置、电子设备
CN109413103A (zh) * 2018-12-11 2019-03-01 泰康保险集团股份有限公司 虚假用户识别的处理方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199417A (zh) * 2019-11-29 2020-05-26 北京深演智能科技股份有限公司 虚假设备id的识别方法及装置
CN111610926A (zh) * 2020-05-27 2020-09-01 北京学之途网络科技有限公司 触摸事件属性判断方法、装置及电子设备
CN112529051A (zh) * 2020-11-25 2021-03-19 微梦创科网络科技(中国)有限公司 一种刷量用户识别方法及装置
CN112529051B (zh) * 2020-11-25 2024-04-09 微梦创科网络科技(中国)有限公司 一种刷量用户识别方法及装置
CN113225325A (zh) * 2021-04-23 2021-08-06 北京明略昭辉科技有限公司 一种ip黑名单确定方法、装置、设备及存储介质
CN113225325B (zh) * 2021-04-23 2022-09-13 北京明略昭辉科技有限公司 一种ip黑名单确定方法、装置、设备及存储介质
CN115396346A (zh) * 2022-08-30 2022-11-25 北京知道创宇信息技术股份有限公司 仿真压力测试方法、装置、系统和电子设备

Also Published As

Publication number Publication date
CN109831454B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN109831454A (zh) 虚假流量的识别方法和装置
CN108197532B (zh) 人脸识别的方法、装置及计算机装置
CN111614690B (zh) 一种异常行为检测方法及装置
CN111190939A (zh) 一种用户画像构建方法及装置
CN110247811A (zh) 一种物联网设备的告警方法及相关装置
CN110399890A (zh) 图像识别方法、装置、电子设备及可读存储介质
CN112870726B (zh) 图形处理器的资源分配方法、装置和存储介质
JP2003523578A (ja) ネットワーク上の対話の妥当性を決定するためのシステムおよび方法
CN110443120A (zh) 一种人脸识别方法及设备
CN107093091B (zh) 一种数据处理方法和装置
CN110471821A (zh) 异常变更检测方法、服务器及计算机可读存储介质
CN110197561A (zh) 一种商品识别方法、装置及系统
CN109598578A (zh) 业务对象数据的推送方法及装置、存储介质、计算机设备
CN113946590A (zh) 积分数据更新方法、装置、设备及存储介质
CN105447098B (zh) 一种信息查询方法及装置
CN108268575A (zh) 标注信息的处理方法、装置和系统
CN109784394A (zh) 一种翻拍图像的识别方法、系统及终端设备
CN107896153A (zh) 一种基于移动用户上网行为的流量套餐推荐方法及装置
CN110489659A (zh) 数据匹配方法和装置
CN109726756A (zh) 图像处理方法、装置、电子设备及存储介质
CN108985048A (zh) 模拟器识别方法及相关装置
CN109102324A (zh) 模型训练方法、基于模型的红包物料铺设预测方法及装置
CN110532485A (zh) 基于多源数据融合的用户行为检测方法及装置
CN111092764B (zh) 一种实时动态亲密度关系分析方法及系统
CN110533452A (zh) 产品信息推送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100020 Success Center A901, No. 20 East Third Ring Road, Chaoyang District, Beijing

Applicant after: Beijing Shenyan Intelligent Technology Co., Ltd.

Address before: 100020 Success Center A901, No. 20 East Third Ring Road, Chaoyang District, Beijing

Applicant before: Beijing friends of Interactive Information Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant