CN116542715A - 基于在线离群值检测的广告点击欺诈检测方法及系统 - Google Patents
基于在线离群值检测的广告点击欺诈检测方法及系统 Download PDFInfo
- Publication number
- CN116542715A CN116542715A CN202310501942.7A CN202310501942A CN116542715A CN 116542715 A CN116542715 A CN 116542715A CN 202310501942 A CN202310501942 A CN 202310501942A CN 116542715 A CN116542715 A CN 116542715A
- Authority
- CN
- China
- Prior art keywords
- advertisement click
- neurons
- output
- value
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 238000013450 outlier detection Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 210000002569 neuron Anatomy 0.000 claims description 35
- 210000004205 output neuron Anatomy 0.000 claims description 35
- 210000002364 input neuron Anatomy 0.000 claims description 32
- 230000002159 abnormal effect Effects 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000005284 excitation Effects 0.000 claims description 12
- 230000001242 postsynaptic effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000000946 synaptic effect Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 3
- 210000000225 synapse Anatomy 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0253—During e-commerce, i.e. online transactions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于广告点击欺诈检测技术领域,提供了基于在线离群值检测的广告点击欺诈检测方法及系统,其将已有的广告点击时间序列数据输入到一个改进的在线进化脉冲神经网络,学习内部参数,更新模型中神经元的属性,接下来预测当前时刻的值,计算离群值的异常分数,结合模型的进化算法和动态异常分数归一化判断当前广告点击率是否为异常点击。有效结合了各种预测模型对点离群值、对子序列离群值的检测效率高和动态归一化异常分数、动态调整阈值检测准确性好的两方面优点,并在此基础上对模型做了进一步改进,更好的适应具有概念漂移特性的数据,对比已有算法准确性具有明显提升。
Description
技术领域
本发明属于广告点击欺诈检测技术领域,尤其涉及基于在线离群值检测的广告点击欺诈检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在线广告系统在电商平台、搜索引擎、短视频APP等应用中会产生大量关于广告点击率的时间序列数据,商家投放广告后需要获得市场的良好反馈,某些利用欺诈手段骗取平台信任的点击行为不益于产品推广和用户体验,因此,有必要利用广告点击欺诈检测方法,准确的判断出点击记录是正常点击还是欺诈点击。
现有广告点击率欺诈检测方法大多适用于离线数据训练,将传统的离线深度学习算法应用于分布经常变化的数据,离线学习到的参数不会随着数据分布的变化而改变。
将欺诈点击视为广告点击数据的离群值,离群值检测是时间序列数据挖掘的主要任务之一,在线的广告点击率时间序列欺诈检测(离群值检测)更具有难度和挑战性:第一,训练过程必须随着时间的推移逐步进行,每到达一个新的数据,进行一次新的训练;第二,到达的新样本只能处理一次;第三,数据的分布会随着时间的推移而变化(概念漂移),从而影响检测的效果。
时间序列数据可分为单变量数据和多变量数据,对于单变量时间序列,离群值的类型有以下两种:点离群值和子序列离群值。
基于点离群值,目前主流的方法常见于基于模型的方法、基于密度的方法、基于直方图的方法;但是上述方案仅仅能识别一个显著偏移预期值的点;
基于子序列离群值,常见的方法有基于不一致的方法、基于相异性的方法、基于预测模型的方法、基于频率的方法、基于信息理论的方法。但是上述方案只能识别一组连续异常的点;
类似地,欺诈点也存在单个时间点的离群值和一串连续的离群值,对点离群值的检测会影响到检测子序列离群值,现有的方法检测广告欺诈较为单一,对二者的同时检测效果不够完善,导致最终的精度不高,误判值较多。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于在线离群值检测的广告点击欺诈检测方法及系统,其有效结合了各种预测模型对点离群值、对子序列离群值的检测效率高和动态归一化异常分数、动态调整阈值检测准确性好的两方面优点,并在此基础上对模型做了进一步改进,更好的适应具有概念漂移特性的数据,对比已有算法准确性具有明显提升。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于在线离群值检测的广告点击欺诈检测方法,包括如下步骤:
获取广告点击时间序列数据;
基于历史广告点击时间序列数据和改进的在线进化脉冲神经网络模型判断当前时刻广告点击时间序列是否为离群序列;
其中,所述改进的在线进化脉冲神经网络模型的构建过程为:
将历史广告点击时间序列数据分布到对应的输入神经元上;
将对应时刻的输出神经元存储至输出存储库中,通过对参数实时训练和增量更新的方式不断更新模型中神经元的属性,基于更新后神经元的属性判断该时刻广告点击数据是否离群;
基于检测到的离群序列,采用动态异常分数归一化算法计算当前时刻广告点击的异常评分,若当前时刻广告点击的异常评分大于设定阈值,则判定为欺诈点击。
本发明的第二个方面提供基于在线离群值检测的广告点击欺诈检测系统,包括:
数据获取模块,其被配置为:获取广告点击时间序列数据;
离群检测模块,其被配置为:基于历史广告点击时间序列数据和改进的在线进化脉冲神经网络模型判断当前时刻广告点击时间序列是否为离群序列;
其中,所述改进的在线进化脉冲神经网络模型的构建过程为:
将历史广告点击时间序列数据分布到对应的输入神经元上;
将对应时刻的输出神经元存储至输出存储库中,通过对参数实时训练和增量更新的方式不断更新模型中神经元的属性,基于更新后神经元的属性判断该时刻广告点击数据是否离群;
欺诈判断模块,其被配置为:基于检测到的离群序列,采用动态异常分数归一化算法计算当前时刻广告点击的异常评分,若当前时刻广告点击的异常评分大于设定阈值,则判定为欺诈点击。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于在线离群值检测的广告点击欺诈检测方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于在线离群值检测的广告点击欺诈检测方法中的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明通过将已有的广告点击时间序列数据输入到一个改进的在线进化脉冲神经网络,学习内部参数,更新模型中神经元的属性,接下来预测当前时刻的值,计算离群值的异常分数,结合模型的进化算法和动态异常分数归一化判断当前广告点击率是否为异常点击。有效结合了各种预测模型对点离群值、对子序列离群值的检测效率高和动态归一化异常分数、动态调整阈值检测准确性好的两方面优点,并在此基础上对模型做了进一步改进,更好的适应具有概念漂移特性的数据,对比已有算法准确性具有明显提升。
2、本发明针对在线时序数据进行检测,相比提前在离线情况下对划分训练集、将训练好的参数应用到测试数据上,采用对参数实时训练、增量更新的方式更能适应不断潜在变化、非平稳的时序数据。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例基于在线离群值检测的广告点击欺诈检测方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例提供基于在线离群值检测的广告点击欺诈检测方法,首先将已有的广告点击时间序列数据输入到一个改进的在线进化脉冲神经网络,学习内部参数,更新模型中神经元的属性,接下来预测当前时刻的值,计算离群值的异常分数,结合模型的进化算法和动态异常分数归一化判断当前广告点击率是否为异常点击。
具体包括如下步骤:
1、问题定义
给定一个广告点击单变量时间序列数据流X,包含每个t时刻的值xt,Wt表示包含xt的滑动窗口,窗口大小为wsize,窗口Wt相当于将t时刻的值xt作为预测值yt,在每个t时刻,模型的输入为Wt与yt,输出预测值/>通过比较真实值yt与预测值/>判断t时刻的值xt是否为离群值,输出t时刻判断的结果ut,结果取值为0或1,0表示正常,1表示该值为离群值。
2、构建改进的在线进化脉冲神经网络模型
所述在线进化脉冲神经网络模型包括输入层和输出层,相应地包含输入神经元和输出神经元,输入层的目的是对输入样本进行编码,输出层用来计算输入样本的异常分数,并判断是否为欺诈点击。
(1)输入层
输入层由编码技术和一定数量的输入神经元组成,用NIt表示t时刻输入神经元的集合,给定参数NIsize,代表输入神经元的数量,如图1所示,每个输入神经元通过一个突触连接到每个输出神经元,输入层的计算过程如下:
第一步:采用高斯感受野作为激励函数,将输入值分布到NIsize个神经元上。
具体包括:对于t时刻的数据流窗口取其中的最大值和最小值,分别用/>和/>表示,用来初始化每个输入神经元的激励函数,利用xt与激励函数计算得到NIsize个激励函数值。
①根据t时刻的数据流窗口的最大值和最小值计算第j个输入神经元nj的中心值μj为:
其中,j=0,…,NIsize-1。
②根据t时刻的数据流窗口的最大值和最小值计算计算第j个输入神经元nj的宽度σj为:
其中,j=0,…,NIsize-1,β∈[1,2],是给定的超参数,用来控制高斯感受野的重叠程度。
③第j个输入神经元nj的中心值μj和第j个输入神经元nj的宽度σj计算第j个输入神经元nj的激励函数值Excj(xt):
其中,j=0,…,NIsize-1。
基于高斯感受野的编码方式使得中心值越接近xt,其激励函数值Excj(xt)越高,对预测结果的影响越大。
第二步:在上一步得到的NIsize个输入神经元中,选择一部分具有较高激励函数值的神经元用于预测,选择过程如下:
①基于第j个输入神经元nj的激励函数值Excj(xt)计算得到第j个输入神经元nj的脉冲时间值:
其中,TS是给定的基本同步脉冲时间参数。
②计算第j个输入神经元nj的脉冲顺序order(nj):
对NIsize个输入神经元的脉冲时间排序,脉冲时间越短,nj的脉冲顺序值越小,脉冲顺序用order(nj)表示。
(2)输出层
该层在输入层的基础上,对t时刻的xt计算其输出神经元nc,将输出神经元存储在有数量上限的输出存储库NO中,给定参数NOsize,代表输出存储库的最大数量,随着时间的推移,在t+1时刻,通过一个更新策略更新NO。
第一步:计算输出神经元的属性。利用对xt编码得到的输入神经元nj,计算与xt对应的输出神经元nc,输出神经元包含一个与nj相连的突触权值向量一个最大突触后电位值/>一个突触后电位阈值/>
具体包括如下步骤:
①初始化突触的权值向量一个输出神经元nc通过突触连接NIsize个输入神经元:/>
其中,mod是给定的调制系数,取值范围是(0,1),order(nj)是对xt编码得到的输入神经元nj的脉冲顺序值。
②基于初始化突触的权值向量计算最大突触后电位值
③基于最大突触后电位值计算一个突触后电位阈值
其中,C是给定的超参数,取值范围是(0,1)。
当大于/>时,xt被归类为欺诈点击,否则,通过更新输出存储库NO的结果判断xt是否正常。
第二步:初始化要存储到输出存储库NO中的输出神经元。NO中的神经元来自输出神经元nc,为此,在上一步nc的三个属性基础上,加入三个新的属性:一个预测用于正常与否的输出值一个更新时间/>一个更新计数器/>
具体包括如下步骤:
①初始化t时刻输出神经元的输出值
假设xt是欺诈点击,网络的预测值应当与xt有显著的差异,反之,/>与xt应当显著相似。而/>作为影响预测值/>的因素,其初值也应当具有/>的性质。
对xt对应窗口做聚类,通过k-means++算法分为3类,xt所在的类别数据均与xt相似,如果Wt是一个非平稳序列,其他两类的数据会与xt有较为显著的差别,如果Wt是一个平稳序列,不存在较多概念漂移,其他两类的数据与xt相似性较高,取其他两类数据作为W′t,计算的均值/>和标准差/>通过创建均值为/>标准差为/>的正态分布函数,/>为该函数随机生成的值,即:/>中的随机数。
②初始化t时刻输出神经元的更新时间、更新计数器
第三步:更新输出存储库NO。
预定义权重距离阈值Dmax,阈值影响因子sim。初始化输出神经元的数量CNOsize=0,随着时间t的推移,每到达一个新的xt,就会产生一个新的输出神经元nc,当CNOsize小于输出存储库的最大数量NOsize时,输出神经元nc被添加到输出存储库NO中,然后将CNOsize的值加1;故CNOsize大于0时,表示NO不为空,此时通过一个相似度算法,寻找NO中与当前的nc最相似的神经元,将其表示为ns,如果nc与ns的权重之间的欧式距离大于sim*Dmax,通过一个更新算法,使用ns更新神经元nc的权重向量、输出值、更新时间、更新计数器;当CNOsize大于NOsize时,说明NO已满,新的神经元nc出现后通过一个替换算法,替换NO里更新时间最小的神经元。
所述更新输出存储库NO具体包括:
①权重距离阈值Dmax的计算
由于该阈值用来比较两个神经元的突触权重向量的差值,根据突触权重的计算方式,通过上述调制系数mod,生成两个向量:
计算两个向量的欧氏距离作为Dmax的值。
②相似度算法
计算NO中每一个神经元与当前输出神经元nc的欧氏距离,存储在NO中的神经元用ni来表示,其中,i∈[0,CNOsize-1],最后,返回距离最近的神经元作为ns输出。
③更新算法
输入ns和nc,更新ns的属性,如下公式
④替换算法
比较输出存储库NO中所有神经元的更新时间找出最小更新时间的神经元ni,用nc替换ni。
第四步:欺诈点击判断。
所述欺诈点击分类分为两个步骤:
①第一次判断欺诈点击:如第一步所述,当大于/>时,xt被归类为欺诈点击。
②激活输出神经元。
NO中每个输出神经元的重置为0;计算一个新的突触后电位值。对每个NO中的输出神经元nc,加入一个新属性/>称为突触后电位,初始化为0,计算其对应的NIsize个输入神经元的权重之和,用/>表示。
此处的与最大突触后电位/>的计算方式不同,当/>大于/>时,将nc添加到临时激活列表中。
找出临时激活列表中最大的神经元,表示为nf,并激活,若NO内所有的/>都不满足大于/>的条件,则返回NULL。
③第二次判断欺诈点击
上述结果若返回NULL,输出预测值为正无穷,输出预测值与真实值的误差et为NULL,将结果ut分类为异常。
上述结果若返回nf,将nf的输出值赋给预测值/>输出预测值与真实值的误差et为由预测值/>和真实值yt的误差绝对值得出,由于本方案判断的是t时刻的值xt是否为欺诈点击,故此处yt=xt,进一步判断离群与否,在介绍异常判断方法之前,首先进行异常分数归一化。
步骤2:动态异常分数归一化
欺诈点击是一个显著偏离其预测值的点,当预测值与真实值的误差大于预定义的阈值时,可以认为该数据是欺诈点击,然而,选择一个阈值并不简单,如果该值不适合于目标数据集,会导致产生更多假阳性(FP)的结果。
为了解决这个问题,本发明使用历史预测误差,通过动态归一化来计算异常值的程度和判断是否异常的阈值。
给定第t个时刻的预测误差et,计算动态均值μt、动态方差st、标准差σt以及异常评分scoret,计算流程如下:
(1).计算动态均值
μt=μt-1+(et-μt-1)/t
(2).计算动态方差st
st=st-1+(et-μt-1)*(et-μt)
(3).计算标准差σt
(4).计算异常评分scoret
scoret=exp(-(ln2/(3σt)2)|et-μt|2)
在算法检测到一个离群序列时,提取该时刻的异常评分scoret,若scoret>threthold,则模型判断值为欺诈点击,反之,判断其为正常,表示结束一个离群序列。
步骤3:融合在线进化脉冲神经网络与动态异常分数归一化的欺诈点击检测算法
①计算动态异常评分。
基于时刻t,预测误差et,根据动态异常分数归一化算法计算得到异常评分scoret,将其存储到历史异常评分Scores内。
②判断xt是否为异常点击。
输入历史预测误差E、历史判断结果U、历史异常评分Scores,本方案假设第一个数据窗口的所有值都正常,故从第二个数据窗口开始判断。
取第t-Wsize到第t-1处的结果U为正常的E生成一个临时向量E1,即:初始化一个临时存储列表E1,如果U[i]=False,i∈[t-Wsize,t-1],则E1列表添加值为E[i],否则E1列表不添加值,也就是说,E1只取了前Wsize-1个判断结果为正常的预测误差。
如果E1为空,说明出现了大小为Wsize-1的离群子序列,那么xt不能立刻被判断为异常点击或正常点击,此时如果异常评分scoret大于给定的阈值threthold,那么将其判断为异常点击,否则为正常点击。
如果E1不为空,如果et大于scoret,xt被判断为异常点击,否则为正常点击;或
计算E1的方差sE1,给定一个影响因子ε,如果et大于ε·sE1,xt被判断为欺诈点击,否则为正常值。
上述方案的优势在于,针对在线时序数据进行检测,相比提前在离线情况下对划分训练集、将训练好的参数应用到测试数据上,采用对参数实时训练、增量更新的方式更能适应不断潜在变化、非平稳的时序数据。
在两个广告点击率数据集分别名为:exchange-2-cpc-results、exchange-3-cpc-results上所做的评价指标如表1所示,本发明采用了三种评价指标(准确率、召回率、F1值),评价了本发明提出的模型以及现有的在线欺诈点击检测方法,本发明的方法相对其他检测器都取得了较好的准确率、召回率、F1,因此本发明的方法具有较好的检测效果。
表1已有检测器与本发明提出的检测器在广告点击率数据集上的表现
实施例二
本实施例提供基于在线离群值检测的广告点击欺诈检测系统,包括:
数据获取模块,其被配置为:获取广告点击时间序列数据;
离群检测模块,其被配置为:基于历史广告点击时间序列数据和改进的在线进化脉冲神经网络模型判断当前时刻广告点击时间序列是否为离群序列;
其中,所述改进的在线进化脉冲神经网络模型的构建过程为:
采用激励函数,将历史广告点击时间序列数据分布到对应的输入神经元上;
将对应时刻的输出神经元存储至输出存储库中,通过对参数实时训练和增量更新的方式不断更新模型中神经元的属性,基于更新后神经元的属性判断该时刻广告点击数据是否离群;
欺诈判断模块,其被配置为:基于检测到的离群序列,采用动态异常分数归一化算法计算当前时刻广告点击的异常评分,若当前时刻广告点击的异常评分大于设定阈值,则判定为欺诈点击。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所述的基于在线离群值检测的广告点击欺诈检测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一所述的基于在线离群值检测的广告点击欺诈检测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于在线离群值检测的广告点击欺诈检测方法,其特征在于,包括如下步骤:
获取广告点击时间序列数据;
基于历史广告点击时间序列数据和改进的在线进化脉冲神经网络模型判断当前时刻广告点击时间序列是否为离群序列;
其中,所述改进的在线进化脉冲神经网络模型的构建过程为:
将历史广告点击时间序列数据分布到对应的输入神经元上;
将对应时刻的输出神经元存储至输出存储库中,通过对参数实时训练和增量更新的方式不断更新模型中神经元的属性,基于更新后神经元的属性判断该时刻广告点击数据是否离群;
基于检测到的离群序列,采用动态异常分数归一化算法计算当前时刻广告点击的异常评分,若当前时刻广告点击的异常评分大于设定阈值,则判定为欺诈点击。
2.如权利要求1所述的基于在线离群值检测的广告点击欺诈检测方法,其特征在于,所述将历史广告点击时间序列数据分布到对应的输入神经元上,包括:
取t时刻的数据流窗口的最大值和最小值;
通过t时刻的数据流窗口的最大值和最小值和神经元的数量计算得到第j个输入神经元的中心值和宽度;
基于第j个输入神经元的中心值和宽度得到第j个输入神经元的激励函数值;
对第j个输入神经元的激励函数值的脉冲时间进行排序,将历史广告点击时间序列数据分布至排序靠前的若干个输入神经元上。
3.如权利要求1所述的基于在线离群值检测的广告点击欺诈检测方法,其特征在于,所述通过对参数实时训练和增量更新的方式不断更新模型中神经元的属性,具体包括:
基于历史广告点击时间序列数据的输入神经元,计算得到对应数据的输出神经元的第一属性;
在输出神经元的第一属性的基础上,加入更新时间、更新计数器以及预测输出值,不断产生新的输出神经元,当输出神经元的数量小于输出存储库的最大数量时,输出神经元被添加到输出存储库中;寻找输出存储库中与当前的输出神经元最相似的神经元,通过最相似的神经元更新输出神经元的所有属性;
当输出神经元的数量大于输出存储库的最大数量时,将新输出的神经元替换更新时间最小的神经元。
4.如权利要求3所述的基于在线离群值检测的广告点击欺诈检测方法,其特征在于,所述输出神经元的第一属性包括一个与输入神经元相连的突触权值向量、一个最大突触后电位值和一个突触后电位阈值。
5.如权利要求1所述的基于在线离群值检测的广告点击欺诈检测方法,其特征在于,所述采用动态异常分数归一化算法计算当前时刻广告点击的异常评分,包括:
结合第t个时刻的预测误差和第t-1个时刻的动态均值,计算得到第t个时刻的动态均值;
基于第t个时刻的预测误差、第t-1个时刻的动态均值和第t个时刻的动态均值得到第t个时刻的动态方差;
基于第t个时刻的动态方差计算得到第t个时刻的标准差;
结合第t个时刻的动态均值、动态方差和标准差得到当前时刻广告点击的异常评分。
6.如权利要求1所述的基于在线离群值检测的广告点击欺诈检测方法,其特征在于,所述改进的在线进化脉冲神经网络模型训练时,通过比较t时刻真实值与预测值,判断t时刻的值是否为离群值,输出t时刻的判断结果,若t判断的结果为0,则表示该值为正常,若判断的结果为1,则表示该值为离群值。
7.如权利要求3所述的基于在线离群值检测的广告点击欺诈检测方法,其特征在于,所述寻找输出存储库中与当前的输出神经元最相似的神经元中,采用的相似度算法为:计算输出存储库中每一个神经元与当前输出神经元的欧氏距离,距离最近的神经元作为最相似的神经元。
8.基于在线离群值检测的广告点击欺诈检测系统,其特征在于,包括:
数据获取模块,其被配置为:获取广告点击时间序列数据;
离群检测模块,其被配置为:基于历史广告点击时间序列数据和改进的在线进化脉冲神经网络模型判断当前时刻广告点击时间序列是否为离群序列;
其中,所述改进的在线进化脉冲神经网络模型的构建过程为:
采用激励函数,将历史广告点击时间序列数据分布到对应的输入神经元上;
将对应时刻的输出神经元存储至输出存储库中,通过对参数实时训练和增量更新的方式不断更新模型中神经元的属性,基于更新后神经元的属性判断该时刻广告点击数据是否离群;
欺诈判断模块,其被配置为:基于检测到的离群序列,采用动态异常分数归一化算法计算当前时刻广告点击的异常评分,若当前时刻广告点击的异常评分大于设定阈值,则判定为欺诈点击。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于在线离群值检测的广告点击欺诈检测方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于在线离群值检测的广告点击欺诈检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501942.7A CN116542715A (zh) | 2023-04-28 | 2023-04-28 | 基于在线离群值检测的广告点击欺诈检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310501942.7A CN116542715A (zh) | 2023-04-28 | 2023-04-28 | 基于在线离群值检测的广告点击欺诈检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116542715A true CN116542715A (zh) | 2023-08-04 |
Family
ID=87457213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310501942.7A Pending CN116542715A (zh) | 2023-04-28 | 2023-04-28 | 基于在线离群值检测的广告点击欺诈检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542715A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992157A (zh) * | 2023-09-26 | 2023-11-03 | 江南大学 | 一种基于生物神经网络的广告推荐方法 |
-
2023
- 2023-04-28 CN CN202310501942.7A patent/CN116542715A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992157A (zh) * | 2023-09-26 | 2023-11-03 | 江南大学 | 一种基于生物神经网络的广告推荐方法 |
CN116992157B (zh) * | 2023-09-26 | 2023-12-22 | 江南大学 | 一种基于生物神经网络的广告推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Stock trend prediction based on a new status box method and AdaBoost probabilistic support vector machine | |
US20210350382A1 (en) | Machine learning system for transaction reconciliation | |
Chen | A hybrid ANFIS model for business failure prediction utilizing particle swarm optimization and subtractive clustering | |
GB2547993A (en) | Real time autonomous archetype outlier analytics | |
Huang | A hybrid particle swarm optimization approach for clustering and classification of datasets | |
Yu et al. | Control chart recognition based on the parallel model of CNN and LSTM with GA optimization | |
Amin et al. | Cyber security and beyond: Detecting malware and concept drift in AI-based sensor data streams using statistical techniques | |
CN116542715A (zh) | 基于在线离群值检测的广告点击欺诈检测方法及系统 | |
Woźniak et al. | Active weighted aging ensemble for drifted data stream classification | |
Karimian et al. | Concept drift handling: A domain adaptation perspective | |
Owusu et al. | A deep learning approach for loan default prediction using imbalanced dataset | |
Wang et al. | An ensemble classification algorithm based on information entropy for data streams | |
Karankar et al. | Comparative study of various machine learning classifiers on medical data | |
Namitha et al. | Learning in the presence of concept recurrence in data stream clustering | |
Thalor et al. | Incremental learning on non-stationary data stream using ensemble approach | |
Senthil et al. | Efficient time series data classification using sliding window technique based improved association rule mining with enhanced support vector machine | |
Skabar | Mineral potential mapping using Bayesian learning for multilayer perceptrons | |
WO2019204072A1 (en) | Model interpretation | |
Dishar et al. | A Review of the Overfitting Problem in Convolution Neural Network and Remedy Approaches | |
Menshchikov et al. | Comparative analysis of machine learning methods application for financial fraud detection | |
Nooralishahi et al. | Semi-supervised topo-Bayesian ARTMAP for noisy data | |
Divyashree et al. | Algorithms: Supervised machine learning types and their application domains | |
Ogasawara et al. | Online event detection for sensor data | |
Haider | Machine Learning and KPI Analysis applied to Time-Series Data in Physical Systems: Comparison and Combination | |
KR102453979B1 (ko) | 세그먼트별 크레딧 투 맵을 생성하는 방법 및 이러한 방법을 수행하는 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |