CN114037478A - 广告异常流量检测方法、系统、电子设备及可读存储介质 - Google Patents

广告异常流量检测方法、系统、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114037478A
CN114037478A CN202111367048.2A CN202111367048A CN114037478A CN 114037478 A CN114037478 A CN 114037478A CN 202111367048 A CN202111367048 A CN 202111367048A CN 114037478 A CN114037478 A CN 114037478A
Authority
CN
China
Prior art keywords
data
reconstruction
flow data
flow
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111367048.2A
Other languages
English (en)
Inventor
姜娜
王硕
杨康
孙泽懿
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202111367048.2A priority Critical patent/CN114037478A/zh
Publication of CN114037478A publication Critical patent/CN114037478A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0245Surveys
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种广告异常流量检测方法、系统、电子设备及可读存储介质,上述方法包括:利用历史流量数据采用VAE模型构建并训练数据重构模型;将历史流量数据输入至数据重构模型获得第一重构数据,计算历史流量数据与第一重构数据之间的误差值获得第一重构误差;通过对第一重构误差进行聚类将历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;利用数据重构模型根据第一阈值与第二阈值对待检测流量数据进行异常检测。通过本发明克服了原数据集无标签与不平衡分布为有监督学习带来的缺点。

Description

广告异常流量检测方法、系统、电子设备及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于变分自动编码器的广告异常流量检测方法、系统、电子设备及可读存储介质。
背景技术
近年来,随着互联网广告的高速发展,将品牌与产品与消费者紧密相连的互联网广告形式越来越收到广告主的青睐,而如何预防互联网的广告欺诈行为也成为了广告主关心的头等大事。因为广告流量在一定程度上反映出广告投放的效率和效果,在互联网世界具有至关重要的价值,广告黑产为了非法获利,开始通过各种技术操作绕过各种资源限制、提高访问频率,通过脚本、模拟器、群控、借助域名和App变造及众包流量等做法制造大量无效流量,广告流量欺诈行为日益严重。随着广告欺诈技术的不断迭代更新,层出不穷的广告欺诈形式也为广告主带来了更大的防范压力,准确地识别流量的有效性已然成为广告营销行业的巨大挑战。同时,近几年人工智能技术与数据监测存储技术等迅猛发展,在自然语言处理、语音识别、计算机视觉、目标检测等领域被广泛研究与应用。因此,人工智能技术也开始被广告营销行业人员应用到广告流量异常检测中来,基于人工智能技术的广告流量异常检测逐渐收到研究人员的关注与研究热点。
现有技术中通常有监督学习模型解决上述问题,现有基于人工智能技术的广告流量异常检测方法的主要流程为:数据采集、特征工程、基于机器学习算法的预测。目前多种机器学习算法,例如例如人工神经网络(ANN)、支持向量机(SVM)、随机森林(RF)、极端梯度提升(XGBoost)、深度学习模型(DL)等,被应用于广告流量异常检测中来。
现有技术至少存在以下缺陷,因为这些模型均为有监督学习模型,为了获得高精度的检测结果,这些有监督学习模型往往需要数量充足有类别标签且类别平衡分布的流量数据样本进行训练,然而这在实际的广告行业中是很难得到满足的。在实际广告流量监测中,尽管每天有海量的流量数据产生,然而能用于机器学习模型训练的数据非常有限,取而代之的是,大多数流量数据为无类别标签数据。同时,异常流量与正常流量数据的数量分布也是极度不平衡的,即异常流量样本的数量远远少于正常流量样本的数量。不足的有标记数据与不平衡的数据分布均为基于人工智能技术的广告流量异常检测方法带了挑战。
发明内容
本发明针对上述的广告异常流量检测模型缺乏充足的具有类别标签的训练样本的技术问题,提出一种基于变分自动编码器的广告异常流量检测方法、系统、电子设备及可读存储介质。
第一方面,本申请实施例提供了一种基于变分自动编码器的广告异常流量检测方法,包括:
模型构建步骤;利用历史流量数据采用VAE模型构建并训练数据重构模型;
第一重构误差获得步骤:将所述历史流量数据输入至所述数据重构模型获得第一重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;
阈值确定步骤:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
数据检测步骤:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检测流量数据进行异常检测。
上述广告异常流量检测方法,其中,所述数据检测步骤包括:
第二重构误差获得步骤:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;
异常判断步骤:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。
上述广告异常流量检测方法,其中,还包括:
数据预处理步骤:将所述历史流量数据与所述待检测流量数据进行清洗与预处理;
数据标准化步骤:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据。
上述广告异常流量检测方法,其中,所述模型构建步骤包括:将所述历史流量数据输入至所述VAE模型获得样本重构数据,根据所述样本重构数据与所述历史流量数据的MSE与KL散度构建损失函数,通过最小化所述损失函数对所述数据重构模型进行训练。
上述广告异常流量检测方法,其中,数据重构模型参数采用Adam优化算法进行训练,数据重构模型超参数采用网格搜索法进行训练。
上述广告异常流量检测方法,其中,所述阈值确定步骤包括:根据所述正常流量对应的第一重构误差的均值与标准差确定第一阈值,根据所述全部历史流量数据对应的第一重构误差的均值与标准差确定第二阈值。
第二方面,本申请实施例提供了一种基于变分自动编码器的广告异常流量检测系统,包括:
数据预处理单元:将历史流量数据与待检测流量数据进行清洗与预处理;
数据标准化单元:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据;
模型构建单元:利用所述历史流量数据通过VAE模型构建并训练数据重构模型;
第一重构误差获得单元:将所述历史流量数据输入至所述数据重构模型获得第一重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;
阈值确定单元:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
数据检测单元:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检测流量数据进行异常检测。
上述广告异常流量检测系统,其中,所述数据检测单元包括:
第二重构误差获得模块:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;
异常判断模块:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的广告异常流量检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的广告异常流量检测方法。
与现有技术相比,本发明的优点和积极效果在于:
1、本发明提出一种基于变分自动编码器的广告异常流量检测方法,采用无监督生成模型VAE对广告流量数据样本进行学习,VAE模型可以不需要数据的标签信息知识,通过缩小重构误差来挖掘数据间的关系,克服了原数据集无标签为有监督学习带来的缺点,提高了数据能力;
2、由于原始数据集存在类别不平衡性,本发明通过对重构误差进行分析,根据数据集不平衡的特性得到阈值,用于识别异常流量以及异常流量的不同类型,克服了原数据集的不平衡分布为有监督学习带来的缺点。
附图说明
图1为本发明提供的一种基于变分自动编码器的广告异常流量检测方法的步骤示意图;
图2为本发明提供的基于图1中步骤S6的流程示意图;
图3为本发明提供的一种基于变分自动编码器的广告异常流量检测方法一实施例流程示意图;
图4为本发明提供的一种基于变分自动编码器的广告异常流量检测系统的框架图;
图5为本发明提供的VAE模型架构图;
图6为根据本申请实施例的计算机设备的框架图。
其中,附图标记为:
1、数据预处理单元;2、数据标准化单元;3、模型构建单元;4、第一重构误差获得单元;5、阈值确定单元;6、数据检测单元;61、第二重构误差获得模块;62、异常判断模块;81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
由于VAE可以不需要数据的标签信息知识,所以本发明采用无监督生成模型VAE对广告流量数据样本进行学习,通过判断重构误差的数值分布与数据集类别不平衡分布的特性来识别异常流量数据,克服了原数据集无标签与不平衡分布为有监督学习带来的缺点。
具体实施方式中的缩略语和关键术语定义如下:
ANN:Artificial Neural Network,人工神经网络。
SVM:Support Vector Machine,支持向量机。
RF:Random Forest,随机森林。
XGBoost:eXtreme Gradient Boosting,极端梯度提升。
DL:Deep Learning,深度学习。
VAE:Artificial Neural Network,变分自动编码器。
变分自编码器(Variational Auto-Encoders,VAE)是一种基于变分贝叶斯推断的深度生成模型。与传统自编码器通过数值方式描述潜在空间不同的是,VAE是一种以概率方式描述潜在空间的无监督式学习生成模型。VAE可以将数据的每一个特征表示为概率分布,然后根据这个概率分布从每个潜在状态分布中随机采样,生成一个向量,最终将这个向量解码生成新生成的数据。模型分为两个部分:编码器和解码器。工作时,首先,模型的编码器模块对原始输入数据进行变分推断,生成隐变量的变分概率分布情况,将输入数据映射表示为潜在空间中的均值和方差;然后,模型从以该均值和方差定义的正态分布中进行随机采样;最后,解码器根据生成的隐变量变分概率分布还原为原始数据近似概率分布,将潜在空间中的采样点逆向映射回原始数据,从而达到重构的目的。
实施例一:
图1为本发明提供的一种基于变分自动编码器的广告异常流量检测方法的步骤示意图。如图1所示,本实施例揭示了一种广告异常流量检测方法(以下简称“方法”)的具体实施方式。
具体而言,本实施例所揭示的方法主要包括以下步骤:
步骤S1:将历史流量数据与待检测流量数据进行清洗与预处理;
具体而言,实际监测系统所采集的广告流量数据由于数据异常、收集数据的权限不足、日志解析异常、网络丢包传输异常等情况往往存在缺失、噪声、重复等问题,因此在进行分析之前首先要对历史流量数据与待检测流量数据进行清洗与预处理,主要包括数据对齐、缺失值填补、去重、数据分桶等处理。
步骤S2:对经过清洗与预处理后的历史流量数据与待检测流量数据进行特征工程,获得标准化后的历史流量数据与待检测流量数据。
具体而言,由于监测系统采集的流量数据变量较多,各变量之间存在冗余,且其类型、量纲、数量级也存在差异,因此在进行模型训练之前需要对流量数据变量进行特征工程,主要包括特征选择与组合、数据标准化。特征选择与组合首先采用统计的思想对原流量数据进行统计计算,得到统计特征,然后应用方差过滤法,通过计算特征本身的方差快速筛除方差较小的特征。将过滤后的数据进行数据标准化,数据标准化是采用标准差标准化方法,使标准化后的数据服从均值为0,方差为1的标准正态分布。
步骤S3;利用历史流量数据通过VAE模型构建并训练数据重构模型;
其中,VAE模型架构如图4所示,主要由编码器与解码器组成。编码器包括输入层、隐层、潜在空间层、采样层。标准化后的数据通过输入层输入到编码器中,通过隐层被映射到潜在空间层中;潜在空间层包含每个变量的均值与方差两个参数,通过这两个参数可以定义各变量在潜在空间中的一个正态分布;采样层从被定义的正态分布中进行随机采样得到采样变量。解码器将潜在空间中的采样变量进行逆向映射操作,生成原始数据在原域的重构变量。由于VAE可以不需要数据的标签信息知识,通过缩小重构误差来挖掘数据间的关系,因此本发明采用VAE模型,并结合数据集不平衡的特性,来对广告异常流量进行检测。
将历史流量数据输入至VAE模型获得样本重构数据,根据样本重构数据与历史流量数据的MSE与KL散度构建损失函数,通过最小化上述损失函数对数据重构模型进行训练,数据重构模型参数采用Adam优化算法进行训练,数据重构模型超参数采用网格搜索法进行训练。
步骤S4:将历史流量数据输入至数据重构模型获得第一重构数据,计算历史流量数据与第一重构数据之间的误差值获得第一重构误差;
具体而言,将历史流量数据输入至训练后的数据重构模型,生成与之对应的第一重构数据,然后计算二者之间的重构误差值获得第一重构误差。
步骤S5:通过对第一重构误差进行聚类将历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
由于原始数据集存在类别不平衡性,正常流量数据样本量远远大于异常流量数据样本量,因此,模型在训练时的注意力更偏向于正常流量数据样本。这一情况也使得最终得到的VAE模型在重构数据时,重构的结果更偏向于正常流量的分布,即正常流量样本通过VAE模型得到重构数据与原数据之间的重构误差,相比于异常流量通过VAE模型得到重构数据与原数据之间的重构误差,会更小。同时,对于未知异常流量数据,将其输入到VAE模型中得到的重构数据与原数据之间的重构误差,相比于与训练数据集同分布的数据所得的重构误差会更大。基于此,本方法提出确定两个阈值,第一阈值γ1与第二阈值γ2
首先将历史流量数据对应的第一重构误差进行聚类,将其分成两类,一类数据量明显多于另一类数据量,则数量较多的一类为正常流量,数量较少的一类为异常流量,然后根据正常流量对应的第一重构误差的均值与标准差确定第一阈值γ1,如下式所示:
Figure BDA0003361049300000091
其中,
Figure BDA0003361049300000092
为正常流量对应的第一重构误差的均值;
Figure BDA0003361049300000093
为正常流量对应的第一重构误差的标准差。
本方法根据全部历史流量数据对应的第一重构误差的均值与标准差确定第二阈值γ2,如下式所示:
Figure BDA0003361049300000101
其中,
Figure BDA0003361049300000102
为全部历史流量数据对应的第一重构误差的均值;
Figure BDA0003361049300000103
为全部历史流量数据对应的第一重构误差的标准差。
步骤S6:利用数据重构模型根据第一阈值与所述第二阈值对待检测流量数据进行异常检测。
参照图2所示,所述步骤S6具体包括以下内容:
步骤S61:将待检测流量数据输入至数据重构模型获得第二重构数据,计算待检测流量数据与第二重构数据之间的误差值获得第二重构误差;
步骤S62:若第二重构误差小于第一阈值γ1,则待检测流量数据为正常流量数据;若第二重构误差大于第一阈值γ1且小于等于第二阈值γ2,则待检测流量数据为已知的异常流量数据;若第二重构误差大于第二阈值γ2,则待检测流量数据为未知的异常流量数据。
本发明提出的一种基于变分自动编码器的广告异常流量检测方法,采用无监督生成模型VAE对广告流量数据样本进行学习,通过判断重构误差的数值分布与数据集类别不平衡分布的特性来识别异常流量数据。该方法既克服了原数据集无标签与不平衡分布为有监督学习带来的缺点,同时还能识别新的异常流量类型,又能通过训练好的VAE模型生成新的流量数据。
以下,请参照图3。图3为本发明提供的一种基于变分自动编码器的广告异常流量检测方法一实施例流程示意图,结合图3,具体说明本方法的应用流程如下:
步骤1、对广告流量数据进行清洗与预处理;
实际监测系统所采集的广告流量数据由于数据异常、收集数据的权限不足、日志解析异常、网络丢包传输异常等情况往往存在缺失、噪声、重复等问题,因此在进行分析之前首先要对其进行清洗与预处理,主要包括数据对齐、缺失值填补、去重、数据分桶等处理。
步骤2、对流量数据进行特征工程;
由于监测系统采集的流量数据变量较多,各变量之间存在冗余,且其类型、量纲、数量级也存在差异,因此在进行模型训练之前需要对流量数据变量进行特征工程,主要包括特征选择与组合、数据标准化。特征选择与组合首先采用统计的思想对原数据进行统计计算,得到统计特征,然后应用方差过滤法,通过计算特征本身的方差快速筛除方差较小的特征。数据标准化是采用标准差标准化方法,使标准化后的数据服从均值为0,方差为1的标准正态分布。
步骤3、采用VAE模型构建广告流量数据重构模型,并对其进行训练并保存;
采用VAE模型构建广告流量数据重构模型:该模型架构如图4所示,主要由编码器与解码器组成。
编码器:包括输入层、隐层(根据数据类型可以为卷积层或者感知机层等)、潜在空间层、采样层。具体流程为:(i)原始数据xi通过输入层输入到编码器中,通过隐层被映射到潜在空间层中;(ii)潜在空间层包含每个变量的均值与方差两个参数,通过这两个参数可以定义各变量在潜在空间中的一个正态分布;(iii)采样层从被定义的正态分布中进行随机采样得到采样变量zi
解码器:将潜在空间中的采样变量进行逆向映射(根据数据类型可以进行反卷积或者全连接等)操作,生成原始数据在原域的重构变量
Figure BDA0003361049300000111
训练过程:综合重构数据与原始数据的MSE与KL散度为重构误差构建损失函数,通过最小化损失函数,模型参数采用Adam优化算法、模型超参数采用网格搜索法对模型进行训练。
步骤4、计算原始数据与经过VAE得到的重构数据之间的误差值;
将原始数据再次通过保存的VAE模型,生成与其对应的重构数据,然后计算二者之间的重构误差值。
步骤5、对重构误差进行分析,根据不平衡的特性得到阈值,构建广告流量异常检测阈值模型,区分正常与异常流量;
构建广告流量异常检测阈值模型:由于原始数据集存在类别不平衡性,正常流量数据样本量远远大于异常流量数据样本量,因此,模型在训练时的注意力更偏向于正常流量数据样本。这一情况也使得最终得到的VAE模型在重构数据时,重构的结果更偏向于正常流量的分布,即正常流量样本通过VAE模型得到重构数据与原数据之间的重构误差,相比于异常流量通过VAE模型得到重构数据与原数据之间的重构误差,会更小。同时,对于未知异常流量数据,将其输入到VAE模型中得到的重构数据与原数据之间的重构误差,相比于与训练数据集同分布的数据所得的重构误差会更大。基于此,本方法构建广告流量异常检测阈值模型,该模型包含两个阈值γ1与γ2
异常检测与阈值γ1确定:首先将步骤4中所得重构误差值进行聚类,将其分成两类,一类数据量明显多于另一类数据量,则数量较多的一类为正常流量,数量较少的一类为异常流量,然后对正常流量基于下式确定阈值γ1
Figure BDA0003361049300000121
其中,
Figure BDA0003361049300000122
为正常流量对应的重构误差的均值;
Figure BDA0003361049300000123
为正常流量对应的重构误差的标准差。
阈值γ2确定:本方法基于下式确定阈值γ2:
Figure BDA0003361049300000124
其中,
Figure BDA0003361049300000125
为全部历史流量数据对应的重构误差的均值;
Figure BDA0003361049300000126
为全部历史流量数据对应的重构误差的标准差。
步骤6、将保存的广告异常流量检测模型应用于新流量数据中,对其进行异常检测。
该部分的流程主要为:(a)新流量数据预处理;(b)数据标准化;(c)基于构建保存的VAE模型与广告流量异常检测阈值模型对新采集的流量进行识别。判读规则如下:(i)若通过VAE模型所得的重构数据与原数据的重构误差小于等于γ1,则为正常流量数据;(ii)若通过VAE模型所得的重构数据与原数据的重构误差大于γ1但小于等于γ2,则为已知的异常流量数据;(iii)若通过VAE模型所得的重构数据与原数据的重构误差大于γ2,则为未知的异常流量数据。
实施例二:
结合实施例一所揭示的一种基于变分自动编码器的广告异常流量检测方法,本实施例揭示了一种基于变分自动编码器的广告异常流量检测系统(以下简称“系统”)的具体实施示例。
参照图5所示,所述系统包括:
数据预处理单元1:将历史流量数据与待检测流量数据进行清洗与预处理;
数据标准化单元2:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据;
模型构建单元3:利用所述历史流量数据通过VAE模型构建并训练数据重构模型;
第一重构误差获得单元4:将所述历史流量数据输入至所述数据重构模型获得第一重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;
阈值确定单元5:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
数据检测单元6:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检测流量数据进行异常检测。
具体而言,数据检测单元6包括:
第二重构误差获得模块61:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;
异常判断模块62:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。
本实施例所揭示的一种基于变分自动编码器的广告异常流量检测系统与实施例一所揭示的一种基于变分自动编码器的广告异常流量检测方法中其余相同部分的技术方案,请参照实施例一所述,在此不再赘述。
实施例三:
结合图6所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种广告异常流量检测方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的广告异常流量检测方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种广告异常流量检测方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种广告异常流量检测方法,其特征在于,基于变分自动编码器,包括:
模型构建步骤;利用历史流量数据采用VAE模型构建并训练数据重构模型;
第一重构误差获得步骤:将所述历史流量数据输入至所述数据重构模型获得第一重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;
阈值确定步骤:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
数据检测步骤:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检测流量数据进行异常检测。
2.根据权利要求1所述的广告异常流量检测方法,其特征在于,所述数据检测步骤包括:
第二重构误差获得步骤:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;
异常判断步骤:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。
3.根据权利要求2所述的广告异常流量检测方法,其特征在于,还包括:
数据预处理步骤:将所述历史流量数据与所述待检测流量数据进行清洗与预处理;
数据标准化步骤:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据。
4.根据权利要求1所述的广告异常流量检测方法,其特征在于,所述模型构建步骤包括:将所述历史流量数据输入至所述VAE模型获得样本重构数据,根据所述样本重构数据与所述历史流量数据的MSE与KL散度构建损失函数,通过最小化所述损失函数对所述数据重构模型进行训练。
5.根据权利要求4所述的广告异常流量检测方法,其特征在于,数据重构模型参数采用Adam优化算法进行训练,数据重构模型超参数采用网格搜索法进行训练。
6.根据权利要求2所述的广告异常流量检测方法,其特征在于,所述阈值确定步骤包括:根据所述正常流量对应的第一重构误差的均值与标准差确定第一阈值,根据所述全部历史流量数据对应的第一重构误差的均值与标准差确定第二阈值。
7.一种广告异常流量检测系统,其特征在于,基于变分自动编码器,包括:
数据预处理单元:将历史流量数据与待检测流量数据进行清洗与预处理;
数据标准化单元:对经过清洗与预处理后的所述历史流量数据与待检测流量数据进行特征工程,获得标准化后的所述历史流量数据与所述待检测流量数据;
模型构建单元:利用所述历史流量数据通过VAE模型构建并训练数据重构模型;
第一重构误差获得单元:将所述历史流量数据输入至所述数据重构模型获得第一重构数据,计算所述历史流量数据与所述第一重构数据之间的误差值获得第一重构误差;
阈值确定单元:通过对所述第一重构误差进行聚类将所述历史流量数据分为正常流量与异常流量,根据正常流量对应的第一重构误差确定第一阈值,根据全部历史流量数据对应的第一重构误差确定第二阈值;
数据检测单元:利用所述数据重构模型根据所述第一阈值与所述第二阈值对待检测流量数据进行异常检测。
8.根据权利要求7所述的广告异常流量检测系统,其特征在于,所述数据检测单元包括:
第二重构误差获得模块:将所述待检测流量数据输入至所述数据重构模型获得第二重构数据,计算所述待检测流量数据与所述第二重构数据之间的误差值获得第二重构误差;
异常判断模块:若所述第二重构误差小于所述第一阈值,则所述待检测流量数据为正常流量数据;若所述第二重构误差大于所述第一阈值且小于等于所述第二阈值,则所述待检测流量数据为已知的异常流量数据;若所述第二重构误差大于所述第二阈值,则所述待检测流量数据为未知的异常流量数据。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的广告异常流量检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的广告异常流量检测方法。
CN202111367048.2A 2021-11-18 2021-11-18 广告异常流量检测方法、系统、电子设备及可读存储介质 Pending CN114037478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111367048.2A CN114037478A (zh) 2021-11-18 2021-11-18 广告异常流量检测方法、系统、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111367048.2A CN114037478A (zh) 2021-11-18 2021-11-18 广告异常流量检测方法、系统、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114037478A true CN114037478A (zh) 2022-02-11

Family

ID=80144776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111367048.2A Pending CN114037478A (zh) 2021-11-18 2021-11-18 广告异常流量检测方法、系统、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114037478A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581148A (zh) * 2022-03-10 2022-06-03 北京明略软件系统有限公司 用于检测广告流量的方法及装置、电子设备、存储介质
CN114881157A (zh) * 2022-05-17 2022-08-09 中国南方电网有限责任公司超高压输电公司广州局 换流阀工作状态的检测方法、装置、设备和存储介质
CN115187266A (zh) * 2022-06-29 2022-10-14 山东大学 基于记忆力变分自编码模型的信用卡欺诈检测方法及系统
CN116933195A (zh) * 2023-07-31 2023-10-24 浙江大学 一种基于深度学习的加密流量异常检测方法及装置
WO2024104406A1 (zh) * 2022-11-15 2024-05-23 杭州阿里云飞天信息技术有限公司 异常检测的方法和云网络平台

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581148A (zh) * 2022-03-10 2022-06-03 北京明略软件系统有限公司 用于检测广告流量的方法及装置、电子设备、存储介质
CN114881157A (zh) * 2022-05-17 2022-08-09 中国南方电网有限责任公司超高压输电公司广州局 换流阀工作状态的检测方法、装置、设备和存储介质
CN115187266A (zh) * 2022-06-29 2022-10-14 山东大学 基于记忆力变分自编码模型的信用卡欺诈检测方法及系统
CN115187266B (zh) * 2022-06-29 2023-08-25 山东大学 基于记忆力变分自编码模型的信用卡欺诈检测方法及系统
WO2024104406A1 (zh) * 2022-11-15 2024-05-23 杭州阿里云飞天信息技术有限公司 异常检测的方法和云网络平台
CN116933195A (zh) * 2023-07-31 2023-10-24 浙江大学 一种基于深度学习的加密流量异常检测方法及装置

Similar Documents

Publication Publication Date Title
CN114037478A (zh) 广告异常流量检测方法、系统、电子设备及可读存储介质
US10785241B2 (en) URL attack detection method and apparatus, and electronic device
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
CN110826648A (zh) 一种利用时序聚类算法实现故障检测的方法
CN112766342A (zh) 一种电气设备的异常检测方法
CN116485406A (zh) 账户的检测方法及装置、存储介质和电子设备
CN116842520A (zh) 基于检测模型的异常感知方法、装置、设备及介质
CN114389843A (zh) 一种基于变分自编码器的网络异常入侵检测系统和方法
CN113282920A (zh) 日志异常检测方法、装置、计算机设备和存储介质
US20170046629A1 (en) Statistics-based data trace classification
CN116739605A (zh) 交易数据检测方法、装置、设备及存储介质
CN113746780A (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
CN116841808A (zh) 多核处理器异常检测方法、装置、电子设备及存储介质
CN111651652B (zh) 基于人工智能的情感倾向识别方法、装置、设备及介质
CN115567224A (zh) 一种用于检测区块链交易异常的方法及相关产品
CN112732573B (zh) 测试用例获取方法、装置、系统、及介质
CN107239704A (zh) 恶意网页发现方法及装置
CN114416422A (zh) 问题定位方法、装置、设备、介质和程序产品
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113239075A (zh) 一种施工数据自检方法及系统
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN115116594B (zh) 医疗装置有效性的检测方法及装置
Alabadee et al. Evaluation and Implementation of Malware Classification Using Random Forest Machine Learning Algorithm
CN116723083B (zh) 一种云服务器在线故障诊断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination