CN115641177A - 一种基于机器学习的防秒杀预判系统 - Google Patents

一种基于机器学习的防秒杀预判系统 Download PDF

Info

Publication number
CN115641177A
CN115641177A CN202211288923.2A CN202211288923A CN115641177A CN 115641177 A CN115641177 A CN 115641177A CN 202211288923 A CN202211288923 A CN 202211288923A CN 115641177 A CN115641177 A CN 115641177A
Authority
CN
China
Prior art keywords
data
order data
algorithm
distance
gaussian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211288923.2A
Other languages
English (en)
Other versions
CN115641177B (zh
Inventor
刘浩
李洪安
魏建勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Holyzone Technology Co ltd
Original Assignee
Beijing Holyzone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Holyzone Technology Co ltd filed Critical Beijing Holyzone Technology Co ltd
Priority to CN202211288923.2A priority Critical patent/CN115641177B/zh
Publication of CN115641177A publication Critical patent/CN115641177A/zh
Application granted granted Critical
Publication of CN115641177B publication Critical patent/CN115641177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于机器学习的防秒杀预判系统,包括订单数据采集模块、数据库模块和交易模块,订单数据采集模块用于获取客户和市场的大量订单数据,数据库模块包括区块链管理单元、订单数据检测单元、机器学习分类单元和恶意流量限制单元,区块链管理单元用于对采集的数据进行特征提取预处理,订单数据检测单元用于对恶意流量订单进行检测,机器学习分类单元用于对良性流量和恶意流量进行分类,恶意流量限制单元用于对恶意高频流量进行限制,交易模块用于客户正常交易。本发明采用机器学习方法对客户订单数据进行特征提取预处理、对恶意流量进行检测、分类及限制,有效阻止违规秒杀人员利用计算机自动脚本程序将客户商品以最小成本拍得,保障客户利益。

Description

一种基于机器学习的防秒杀预判系统
技术领域
本发明创造涉及大数据及信息安全领域,具体涉及一种基于机器学习的防秒杀预判系统。
背景技术
随着科学技术的飞速发展,大数据已成为如今新兴技术的重要分支,大数据作为现阶段研究热点,需配备科学、合理机器学习算法满足社会需求,并提升数据处理效率,结合大数据特点,借助聚类及分治等算法,增强数据处理条理性,降低数据分析、数据处理难度,增强机器学习能力,此外,为于大数据领域有所突破,还应将传统机器算法予以优化升级,全面提升数据处理能力。
机器学习是由模式识别、人工智能计算学习理论为基础所转变的一类计算机科学分支,被广泛应用至各相关领域中,机器学习是一项多领域综合学科,涉及算法复杂度理论、逼近论、统计学及概率论等多项理论,此学科将计算机如何模拟及实现人类学习行为作为主要研究内容,探究计算机获取新知识、技能方式,将已存在知识结构予以重新组织,实现自身性能不断优化,机器学习为人工智能核心,也为使计算机拥有智能的基本方式,现已逐渐应用至与人工智能相关的各领域中,主要为综合及归纳而并非演绎,据研究表明,多数状态下,处理数据规模越大,机器学习模型效率越高,所以,机器学习是大数据智能分析的主要方式,机器学习为现阶段大数据重要处理方式,能将多种优势予以结合,针对具体问题选取最为适宜处理方式,机器学习能将人为因素所造成的局限性予以突破,借助深度学习、决策树及神经网络等,将数据予以科学处理,并将数据运算速度予以有效提升,现阶段统计调查、商业活动及信息网络等均会产生大量数据,而传统数据处理手段已难以满足此类数据处理需求,急需机器学习予以处理。
同时,目前没有已知的防秒杀预判技术,通常是直接购买DDOS防御类型设备,例如绿盟,F5等DDOS防御产品,缺点是:实时防御能减少流量带宽,但是无法精细分析识别恶意的程序,精细分析需要预前防御,事后异步分析,才能精准定位出真实客户。
基于机器学习的防秒杀预判系统,通过对海量客户订单数据进行特征提取及预处理,再结合机器学习算法对预处理后的订单数据进行恶意流量检测,检测出原始订单数据中的恶意流量订单,并在机器学习算法下对检测后的订单数据进行良性流量和恶意流量的分类,将具有某种共同属性或特征的订单数据归并在一起,通过其类别的属性或特征来对订单数据进行区别,对分类后的订单数据进行恶意高频流量限制,统计出秒杀程序的IP,限制业务流量增加,并阻断这部分流量,降低对带宽的影响,并保障客户利益,供客户在消费平台能够安全正常的进行交易,能够快速且有效地从海量的客户订单数据中限制恶意流量订单数据,提高防秒杀预判系统对恶意流量的阻断效果,不需耗费大量人力物力和时间去进行恶意流量阻断,减少出现错误的情况,且所有数据均可追溯,有效提高防秒杀预判系统的工作效果,为阻断恶意流量提供更优的方案,为防秒杀预判系统提供更为全面、准确地技术支撑,为安全、科学、高效地防秒杀预判系统提供更好的决策支持,更好的保障各类客户的消费安全,更好的满足各类客户的自身需求,拓展应用领域,在数据处理、时间消耗、恶意流量检测、恶意流量阻断和决策支持方面都有明显效果。
发明内容
针对上述问题,本发明旨在提供一种基于机器学习的防秒杀预判系统。
本发明创造的目的通过以下技术方案实现:
一种基于机器学习的防秒杀预判系统,包括订单数据采集模块、数据库模块和交易模块,订单数据采集模块用于获取客户和市场的大量订单数据,数据库模块包括区块链管理单元、订单数据检测单元、机器学习分类单元和恶意流量限制单元,区块链管理单元采用SIFI算法对订单数据采集模块采集的订单数据进行特征提取预处理,订单数据检测单元采用THS-IDPC算法对区块链管理单元预处理后的订单数据进行恶意流量检测,机器学习分类单元采用随机森林算法对订单数据检测单元检测后的订单数据进行良性流量和恶意流量的分类,恶意流量限制单元采用自适应滑动窗口算法对机器学习分类单元分类后的订单数据进行恶意高频流量限制,交易模块用于客户正常交易。
进一步的,订单数据采集模块通过各个网络平台的历史客户订单数据,获取大量的在线客户订单数据。
进一步的,区块链管理单元采用SIFI算法对采集的数据进行特征提取预处理,减少数据维度,整理已有的数据特征。
进一步的,SIFT算法首先需要建立高斯尺度的空间金字塔,高斯尺度空间金字塔有O个八度,每个八度都有S个区间,下一个八度的订单数据是通过对上一个八度进行下采样获得的,在一个八度内,不同区间的订单数据是原始订单数据与可变高斯函数的卷积,然后根据高斯尺度空间金字塔建立高斯尺度空间数据金字塔的差异,高斯尺度空间金字塔中两个相邻间隔的差异在高斯尺度空间金字塔中创建一个间隔,最后,在高斯的尺度空间内检测特征,高斯尺度空间如下:D(x,y,z)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ),其中,G(x,y,σ)为标度变量高斯函数,σ为标量变量因子,k为比例系数,选择每个倍频程的底部间隔作为数据,将其转换为高斯数据,并首先扫描整个数据内容,然后找到数据中的最大值xmax和最小值xmin,中值xmid为:
Figure BDA0003900601690000031
然后定义一个阈值来进行订单数据特征提取,即:
Figure BDA0003900601690000032
阈值数据g(x,y)为:
Figure BDA0003900601690000033
其中,f(x,y)为原始客户订单数据;再结合正则化,正则化对应于模型参数w的先验分布,设D表示观测数据,w表示模型参数,模型参数w的后验概率为:
Figure BDA0003900601690000034
其中,p(D|w)为似然函数,p(D)为常数,w使用最大后验概率MAP来估计,即WMAP=argmaxw p(w|D)=argmaxw p(D|w)p(w)=argmaxlogw p(D|w)+logp(w),其中,logp(w)为模型参数先验分布的对数,即正则项,对于高斯正则化GM,假设所有模型参数w都是从相同的一维GM分布中采样的,一维GM分布表示为:
Figure BDA0003900601690000035
其中,K为高斯分量的数量,πk为满足约束
Figure BDA0003900601690000036
的混合系数,N(x|uk,λk)为高斯分布,uk为平均值,λk为第k个高斯分量的精度,为了学习模型参数w的GM先验,分别为混合系数πk和高斯精度λk引入了两种先验分布,用作混合系数πk的先验分布的狄利克雷分布为:
Figure BDA0003900601690000037
其中,α1,...,αk为分布的参数,
Figure BDA0003900601690000038
α为[α1,...,αk]T,Γ(x)为伽玛函数,GM分布的所有高斯分量的平均值被设置为零,当GM分布的平均值固定时,伽玛分布是高斯精度的共轭先验,即:
Figure BDA0003900601690000039
其中,Gam(λ|a,b)为伽玛分布函数,a和b是伽玛分布的两个参数,它们控制伽玛分布的形状和衰减率,在GM学习过程中,a和b用于控制λ的规模。
进一步的,订单数据检测单元采用THS-IDPC算法对预处理后的订单数据进行恶意流量检测,检测出原始订单数据中的恶意流量订单。
进一步的,THS-IDPC算法首先计算样本的局部密度,并使用KNN算法找到密度峰值,密度峰值的k个最近邻居knn(xi)被分配给样本局部密度相应的簇,然后,计算数据之间的相互邻居度,基于相互邻居度为所有分配的数据点找到最接近的未分配数据点,将未分配数据点分配给数据点所在的簇,然后重复此操作,直到分配完所有数据点,或所有未分配数据点与分配数据点之间的相互相邻度为0,如果存在未分配数据,则使用分配策略分配数据点,THS-IDPC算法假定一个数据集D={x1,x2,...,xi,xj,...,xn},所有的数据xi,xj∈D,xi与xj之间的距离dist(xi,xj)定义为:
Figure BDA0003900601690000041
其中,d为xi的最大特征个数,
Figure BDA0003900601690000042
为xi的第dim个特征,
Figure BDA0003900601690000043
为xj的第dim个特征,且dist(xi,xj)=dist(xj,xi),i≠j,截止核局部密度ρi定义为:
Figure BDA0003900601690000044
Figure BDA0003900601690000045
其中,dist(xi,xj)为数据xi与xj之间的距离,distcutoff为给定截止距离,是用户预定义的唯一参数,且distcutoff>0,数据xi的截止核局部密度ρi表示数据xi在给定截止距离distcutoff内的数据个数,高斯核局部密度定义为:
Figure BDA0003900601690000046
其中,dist(xi,xj)为数据xi与xj之间的距离,distcutoff为给定截止距离,是用户预定义的唯一参数,且distcutoff>0,高密度距离δi通过计算数据xi和任何其他高密度数据之间的最小距离确定,每个数据的局部密度按从大到小排列,即:ρi>ρj>ρk>…,计算最高密度数据的相对距离与其他数据不同,对于具有最高密度的数据,高密度距离δi由下式计算:
Figure BDA0003900601690000047
对于其他数据,高密度距离δi由下式计算:
Figure BDA0003900601690000048
当数据xi有最大局部密度时,δi表示xi与距离xi最大的数据之间的距离,否则,δi表示xi和所有局部密度大于xi的数据中距离xi最小的数据之间的距离;
在此定义一种新的数据点之间的互邻度度量和样本分配策略,然后进一步提出了基于网格筛选、自定义中心决策值和互邻度的密度峰值网格聚类算法,首先,计算样本的局部密度,并使用k个最近邻居找到密度峰值,并将密度峰值的k个最近邻分配给它们相应的簇,然后,它根据相互相邻度为所有分配的数据点找到最接近的未分配数据点,并将未分配数据点分配给数据点所在的簇,直到完成聚类过程,结合KNN局部密度,对于数据集D,KNN局部密度定义为:
Figure BDA0003900601690000049
其中,distans(xi,xj)为数据xi和xj的欧几里得距离,k为相邻点的数量,knn(i)为xi的k邻近集,2·k为ρi的归一化参数,KNN局部密度分为两部分:∑j=knn(i)distans(xi,xj)2为xi的离群度,∑j=knn(i)v=knn(j)distans(xv,xj)2为xi的局部稀疏度,相邻度由数据点之间的距离定义,并通过如下公式计算:
Figure BDA00039006016900000410
Figure BDA00039006016900000411
其中,NDeg(xi,xj)为xi与xj的邻接度,引入局部邻接度来计算xi与xj的相对邻接度,并通过下式计算:
Figure BDA0003900601690000051
其中,knn(xi)为xi的k近邻集,NDeg(xi,xj)为xi与xj的相邻度,基于xi与xj相对邻接度,定义xi与xj的相互邻接度为:MNDeg(xi,xj)=RNDeg(xi,xj)·RNDeg(xJ,xi),其中,RNDeg(xi,xj)为xi与xj的相对邻接度,RNDeg(xJ,xi)为xj与xi的相对邻接度。
进一步的,机器学习分类单元采用随机森林算法对恶意流量检测后的订单数据进行良性流量和恶意流量的分类,将具有某种共同属性或特征的订单数据归并在一起,通过其类别的属性或特征来对订单数据进行区别。
进一步的,随机森林算法首先需要选择提取的属性和数据参数,然后随机选择客户订单数据,形成一个对应于原始客户订单数据集的属性系统,由下式表示:S={U,A,V,f},其中,U为属性体系,A为客户订单数据的条件属性和决策属性集的交集,V表示相应选定属性的范围,f表示决策属性的信息函数,则将原始数据集中要选择的任何订单数据表示为mij,并且订单数据的相应选择参数为:
Figure BDA0003900601690000052
其中,C为条件属性集,D为决策属性集,f表示决策属性的信息函数,依据上式获得参数的计算结果,确定训练样本数据集的选定数据量,并根据不同的数据类型进行编号,随机森林算法基于训练样本数据生成单个决策树,然后根据集合分裂模式获得随机森林,为了优化随机森林并实现并行分类功能,在建立模型的过程中设置控制参数,以控制决策树的分裂和生长,根据单个决策树的增益规则,对每个非叶节点进行二分,并将当前要分类的项目划分为两个子集,以实现决策树的增长,假设单个决策树由n个连续数据组成,则必须有n-1个分裂点,随机森林模型中任何训练样本的预期分类信息定义为:I(s1,s2,...,sn)=∑log2Pi,其中,s1为第1个样本数据,s2为第2个样本数据,sn为第n个样本数据,Pi为样本属于类型C的概率,然后,根据参数λij的计算结果,将单个决策树对应的数据集本身划分为多个,相应的数据分割增益Gain(λij)由下式表示:Gain(λij)=I(s1,s2,...,sn),其中,s1为第1个样本数据,s2为第2个样本数据,sn为第n个样本数据,基于所建立的随机森林模型,分别计算决策树之间的距离权重和单个决策树中叶节点的权重,并根据计算结果实现随机森林模型的加权优化,客户订单数据和样本数据的距离权重分别定义为wp和wt,并行计算样本距离权重和订单数据距离权重,计算订单数据距离权重的公式如下:
Figure BDA0003900601690000061
其中,F为订单数据的量化函数,X用于表示订单数据中数据的位置,r用于表示指定数据与其相关数据之间的距离,参数是数据平滑参数,计算对应于样本训练数据集的决策树的权重,并且通过合成所有方面的权重来获得距离权重,然后通过以下步骤实现初始随机森林算法的加权优化:首先用基本参数确定原始算法,并随机设置预测样本数N和随机属性数m的初始值,在建立的随机森林模型中,计算距离权重,加权随机森林的优化步骤由下式计算:fWRF(x)=argmax{∑wi},其中,fWRF(x)为加权随机森林的优化结果,i的值分别为p和t,最后,将随机森林中的所有决策树作为拟合值进行迭代,并确定模型的参数,然后实现原始随机森林模型的加权优化。
进一步的,恶意流量限制单元采用自适应滑动窗口算法对分类后的订单数据恶意高频流量进行限制,统计出秒杀程序的IP,限制业务流量增加,并阻断这部分流量,降低对带宽的影响。
进一步的,自适应滑动窗口算法为了自适应地确定适当的保护窗口长度,结合反向递归神经网络,其结构是当前层的输入是前一层的输出,更适合于时间序列问题,算法中的简单递归单元SRU以并行处理的方式执行大部分操作,只串行处理几个步骤,提高其运行速度,该算法在处理时间序列数据时具有更高的训练效率,这意味着具有记忆单元的深度神经网络,非常适合于寻找数据与时间特征之间的关系,反向递归神经网络算法如下:yt=Wtxt,ft=σ(Wfxt+Bf),rt=σ(Wrxt+Br),ct=ft⊙ct-1+(1-ft)⊙Wxt,ht=rt⊙g(ct)+(1-rt)⊙xt,其中,xt为t时刻的输入,W为权重,B为偏差,yt为t时刻的输入与权重的乘积,ft为t时刻的遗忘门,rt为t时刻的复位门,ct为t时刻的状态,ht为t时刻的最终输出,σ(·)为Sigmoid函数,g(·)为tanh函数,⊙为矩阵的运算,Wt,Wf,Wr为参数矩阵,Bf,Br为训练期间确定的参数向量,在训练过程中使用Adamax优化器来进行随机优化,然后反向递归神经网络的训练算法为自动推荐启用并行训练,结合反向递归神经网络后,将维特比算法扩展到MAP算法,考虑第i个反向递归,并让Vk(s)是时间(k+1)处的生存状态,导致时间k处于状态s,Vk(s)由下式表示:
Figure BDA0003900601690000062
其中,βk(s)为在时间k处状态s的后向度量,μk(s,s′)为状态转换的分支度量是否在时间k处的状态s和在时间(k+1)处的状态s+1之间,Ω(s)为是连接到状态s的所有继承状态的集合,连接在时间k处通向状态s的幸存状态路径形成在反向递归中直到时间k的幸存路径的集合,在反向恢复期间的某个时间k,检测到所有幸存路径的初始状态已合并为公共状态,则第i个保护窗口的开始设置为k,为避免不可靠窗口生成过长的保护窗口长度,保护窗口的最大长度被限制为gmax比特,在反向递归期间自适应地设置保护窗口长度所需的额外复杂性是与检查幸存路径的合并和存储幸存路径所需的附加存储器相关的那些复杂性,对幸存路径合并的检查仅需要在确定保护窗口长度之前对幸存路径的初始状态进行逻辑比较,即对分类后的订单数据恶意高频流量进行限制。
进一步的,交易模块用于客户正常交易,经防秒杀预判系统对恶意流量订单数据进行限制,保障客户利益,供客户在消费平台能够正常交易。
本发明创造的有益效果:本发明结合大数据特征提取算法、恶意流量检测算法、机器学习分类训练算法及恶意流量限制算法,有效阻止违规秒杀人员利用计算机自动脚本程序将客户商品以最小成本拍得,保障客户利益,通过各个网络平台的历史客户订单数据,获取大量的在线客户订单数据,结合信息技术,采用SIFI算法对采集的订单数据进行特征提取预处理,减少数据维度,整理已有的数据特征,采用THS-IDPC算法对预处理后的订单数据进行恶意流量检测,检测出原始订单数据中的恶意流量订单,机器学习分类单元采用随机森林算法对检测后的订单数据进行良性流量和恶意流量的分类,将具有某种共同属性或特征的订单数据归并在一起,通过其类别的属性或特征来对订单数据进行区别,恶意流量限制单元采用自适应滑动窗口算法对分类后的订单数据进行恶意高频流量限制,统计出秒杀程序的IP,限制业务流量增加,并阻断这部分流量,降低对带宽的影响,并保障客户利益,供客户在消费平台能够安全正常的进行交易,可以快速且有效地从海量的客户订单数据中限制恶意流量订单数据,提高防秒杀预判系统对恶意流量的阻断效果,不需耗费大量人力物力和时间去进行恶意流量阻断,减少出现错误的情况,且所有数据均可追溯,有效提高防秒杀预判系统的工作效果,为阻断恶意流量提供更优的方案,为防秒杀预判系统提供更为全面、准确地技术支撑,为安全、科学、高效地防秒杀预判系统提供更好的决策支持,更好的保障各类客户的消费安全,同时,本发明结合大数据特征提取、恶意流量检测、机器学习分类训练及恶意流量限制多种大数据及机器学习算法,为客户做到高质量且有效的防秒杀预判服务,也能为其他应用领域的发展巩固基础,在大数据鼎盛发展的时代,多种机器学习算法的融合为人工智能的发展打下了坚实的基础,且多种机器学习算法的融合能应用于市场中的多个行业及领域,为人工智能方向提供了新的发展方向,为大数据时代贡献了重要应用价值。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,一种基于机器学习的防秒杀预判系统,包括订单数据采集模块、数据库模块和交易模块,订单数据采集模块用于获取客户和市场的大量订单数据,数据库模块包括区块链管理单元、订单数据检测单元、机器学习分类单元和恶意流量限制单元,区块链管理单元采用SIFI算法对订单数据采集模块采集的订单数据进行特征提取预处理,订单数据检测单元采用THS-IDPC算法对区块链管理单元预处理后的订单数据进行恶意流量检测,机器学习分类单元采用随机森林算法对订单数据检测单元检测后的订单数据进行良性流量和恶意流量的分类,恶意流量限制单元采用自适应滑动窗口算法对机器学习分类单元分类后的订单数据进行恶意高频流量限制,交易模块用于客户正常交易,一种基于机器学习的防秒杀预判系统可以快速且有效地从海量的客户订单数据中限制恶意流量订单数据,实现防秒杀预判系统对恶意流量的阻断功能,保障客户在消费平台能够安全正常的进行交易。
优选的,订单数据采集模块通过各个网络平台的历史客户订单数据,以及商家获取的实时客户订单数据,从防秒杀系统外部采集客户订单数据并输入到防秒杀系统内部进行数据统计,获取大量的在线客户订单数据。
优选的,区块链管理单元采用SIFI算法对采集的数据进行特征提取预处理,减少数据维度,整理已有的数据特征,将客户订单数据从高维特征空间映射到低维特征空间,并使映射后的客户订单数据仍具有良好的可分性,并减少防秒杀系统的计算时间。
具体的,SIFT算法首先需要建立高斯尺度的空间金字塔,高斯尺度空间金字塔有O个八度,每个八度都有S个区间,下一个八度的订单数据是通过对上一个八度进行下采样获得的,在一个八度内,不同区间的订单数据是原始订单数据与可变高斯函数的卷积,然后根据高斯尺度空间金字塔建立高斯尺度空间数据金字塔的差异,高斯尺度空间金字塔中两个相邻间隔的差异在高斯尺度空间金字塔中创建一个间隔,最后,在高斯的尺度空间内检测特征,高斯尺度空间如下:D(x,y,z)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ),其中,G(x,y,σ)为标度变量高斯函数,σ为标量变量因子,k为比例系数,高斯尺度空间金字塔中不同间隔的数据是原始订单数据与可变因子为σ的可变高斯函数的卷积,大量测试可以证明以下结论,高斯尺度空间数据金字塔具有这样的特性:不同区间的数据随尺度变量σ缓慢变化,而区间内差异较大的数据随尺度变量σ剧烈变化,选择每个倍频程的底部间隔作为数据,将其转换为高斯数据,并首先扫描整个数据内容,然后找到数据中的最大值xmax和最小值xmin,中值xmid为:
Figure BDA0003900601690000091
然后定义一个阈值来进行订单数据特征提取,即:
Figure BDA0003900601690000092
阈值数据g(x,y)为:
Figure BDA0003900601690000093
其中,f(x,y)为原始客户订单数据;再结合正则化,正则化对应于模型参数w的先验分布,设D表示观测数据,w表示模型参数,模型参数w的后验概率为:
Figure BDA0003900601690000094
其中,p(D|w)为似然函数,p(D)为常数,w使用最大后验概率MAP来估计,即WMAP=argmaxw p(w|D)=argmaxw p(D|w)p(w)=argmaxlogw p(D|w)+logp(w),其中,logp(w)为模型参数先验分布的对数,即正则项,如果p(w)是拉普拉斯分布或高斯分布,则该项分别对应于L1范数和L2范数正则化;对于弹性网正则化,先验分布p(w)对应于拉普拉斯分布和高斯分布之间的折衷;对于Huber-norm正则化,相应的先验分布是分段为:小值模型参数的高斯分布和大值模型参数的拉普拉斯分布;对于高斯正则化GM,假设所有模型参数w都是从相同的一维GM分布中采样的,一维GM分布表示为:
Figure BDA0003900601690000095
其中,K为高斯分量的数量,πk为满足约束
Figure BDA0003900601690000096
的混合系数,N(x|uk,λk)为高斯分布,uk为平均值,λk为第k个高斯分量的精度,为了学习模型参数w的GM先验,分别为混合系数πk和高斯精度λk引入了两种先验分布,用作混合系数πk的先验分布的狄利克雷分布为:
Figure BDA0003900601690000097
其中,α1,...,αk为分布的参数,
Figure BDA0003900601690000098
α为[α1,...,αk]T,Γ(x)为伽玛函数,GM分布的所有高斯分量的平均值被设置为零,当GM分布的平均值固定时,伽玛分布是高斯精度的共轭先验,即:
Figure BDA0003900601690000099
其中,Gam(λ|a,b)为伽玛分布函数,a和b是伽玛分布的两个参数,它们控制伽玛分布的形状和衰减率,在GM学习过程中,a和b用于控制λ的规模,这是因为大多数模型参数的值都很小,如果基于这些模型参数学习GM,将学习大的λ,这将强加过于强的正则化,并且这对模型是有害的,a和b可以帮助平滑λ的学习。
优选的,订单数据检测单元采用THS-IDPC算法对预处理后的订单数据进行恶意流量检测,检测出原始订单数据中的恶意流量订单,减轻防秒杀系统处理数据的压力,保证防秒杀系统的稳定和高效运行。
具体的,THS-IDPC算法首先计算样本的局部密度,并使用KNN算法找到密度峰值,密度峰值的k个最近邻居knn(xi)被分配给样本局部密度相应的簇,然后,计算数据之间的相互邻居度,基于相互邻居度为所有分配的数据点找到最接近的未分配数据点,将未分配数据点分配给数据点所在的簇,然后重复此操作,直到分配完所有数据点,或所有未分配数据点与分配数据点之间的相互相邻度为0,如果存在未分配数据,则使用分配策略分配数据点,THS-IDPC算法假定一个数据集D={x1,x2,...,xi,xj,...,xn},所有的数据xi,xj∈D,xi与xj之间的距离dist(xi,xj)定义为:
Figure BDA0003900601690000101
其中,d为xi的最大特征个数,
Figure BDA0003900601690000102
为xi的第dim个特征,
Figure BDA0003900601690000103
为xj的第dim个特征,且dist(xi,xj)=dist(xj,xi),i≠j,局部密度是指数据点的数量或某一点的截止距离范围内的数据点数量的函数,对于大规模数据集的聚类,截止核方法工作得很好,截止核局部密度ρi定义为:
Figure BDA0003900601690000104
Figure BDA0003900601690000105
Figure BDA0003900601690000106
其中,dist(xi,xj)为数据xi与xj之间的距离,distcutoff为给定截止距离,是用户预定义的唯一参数,且distcutoff>0,数据xi的截止核局部密度ρi表示数据xi在给定截止距离distcutoff内的数据个数,对于小规模数据集的集群,高斯核更有效,高斯核局部密度定义为:
Figure BDA0003900601690000107
其中,dist(xi,xj)为数据xi与xj之间的距离,distcutoff为给定截止距离,是用户预定义的唯一参数,且distcutoff>0,高密度距离δi通过计算数据xi和任何其他高密度数据之间的最小距离确定,每个数据的局部密度按从大到小排列,即:ρi>ρj>ρk>…,计算最高密度数据的相对距离与其他数据不同,对于具有最高密度的数据,高密度距离δi由下式计算:
Figure BDA0003900601690000108
对于其他数据,高密度距离δi由下式计算:
Figure BDA0003900601690000109
当数据xi有最大局部密度时,δi表示xi与距离xi最大的数据之间的距离,否则,δi表示xi和所有局部密度大于xi的数据中距离xi最小的数据之间的距离;
为解决结构差异在数据中没有考虑到真实局部不足数据点的密度无法精确测量问题,在此定义一种新的数据点之间的互邻度度量和样本分配策略,然后进一步提出了基于网格筛选、自定义中心决策值和互邻度的密度峰值网格聚类算法,首先,计算样本的局部密度,并使用k个最近邻居找到密度峰值,并将密度峰值的k个最近邻分配给它们相应的簇,然后,它根据相互相邻度为所有分配的数据点找到最接近的未分配数据点,并将未分配数据点分配给数据点所在的簇,直到完成聚类过程,结合KNN局部密度,对于数据集D,KNN局部密度定义为:
Figure BDA0003900601690000111
其中,distans(xi,xj)为数据xi和xj的欧几里得距离,k为相邻点的数量,knn(i)为xi的k邻近集,2·k为ρi的归一化参数,KNN局部密度分为两部分:∑j=knn(i)distans(xi,xj)2为xi的离群度,∑j=knn(i)v=knn(j)distans(xv,xj)2为xi的局部稀疏度,两者都越大,越稀疏,KNN局部密度将局部密度计算为样本局部范围内的相对密度,放大了稀疏聚类中样本的局部密度,降低了密集聚类中样本局部密度,从而减少了聚类之间不同密度对聚类结果的影响,相邻度由数据点之间的距离定义,并通过如下公式计算:
Figure BDA0003900601690000112
Figure BDA0003900601690000113
其中,NDeg(xi,xj)为xi与xj的邻接度,xi与xj之间的距离越大,相似度越低,相邻度越小,完全消除了样本与远处样本之间的相邻关系,从而减少了远距离和不相关数据的干扰,无论簇的密度如何,距离相同的两个数据点具有相同的相邻度,这反映了整个数据集中两个数据的相邻度,我们期望在不同密度的簇中,两个距离相等的数据点的相邻度应该不同,例如,如果两个数据点距离相等,则密集簇中的相邻度应低于稀疏簇中的,引入局部邻接度来计算xi与xj的相对邻接度,并通过下式计算:
Figure BDA0003900601690000114
其中,knn(xi)为xi的k近邻集,NDeg(xi,xj)为xi与xj的相邻度,基于xi与xj相对邻接度,定义xi与xj的相互邻接度为:MNDeg(xi,xj)=RNDeg(xi,xj)·RNDeg(xJ,xi),其中,RNDeg(xi,xj)为xi与xj的相对邻接度,RNDeg(xJ,xi)为xj与xi的相对邻接度,两个数据点之间的相互邻近度与以下因素有关:两个数据点距,与反映数据集的密集性或稀疏性的总体数据相关,与两个数据邻居的局部数据相关,反映数据点的局部密度或稀疏性,基于上述因素计算的互邻度可以更好地反映数据之间的密集或稀疏关系。
优选的,机器学习分类单元采用随机森林算法对恶意流量检测后的订单数据进行良性流量和恶意流量的分类,将具有某种共同属性或特征的订单数据归并在一起,通过其类别的属性或特征来对订单数据进行区别。
具体的,随机森林算法首先需要选择提取的属性和数据参数,然后随机选择客户订单数据,形成一个对应于原始客户订单数据集的属性系统,由下式表示:S={U,A,V,f},其中,U为属性体系,A为客户订单数据的条件属性和决策属性集的交集,V表示相应选定属性的范围,f表示决策属性的信息函数,则将原始数据集中要选择的任何订单数据表示为mij,并且订单数据的相应选择参数为:
Figure BDA0003900601690000121
其中,C为条件属性集,D为决策属性集,f表示决策属性的信息函数,依据上式获得参数的计算结果,确定训练样本数据集的选定数据量,并根据不同的数据类型进行编号,随机森林算法基于训练样本数据生成单个决策树,然后根据集合分裂模式获得随机森林,为了优化随机森林并实现并行分类功能,在建立模型的过程中设置控制参数,以控制决策树的分裂和生长,根据单个决策树的增益规则,对每个非叶节点进行二分,并将当前要分类的项目划分为两个子集,以实现决策树的增长,假设单个决策树由n个连续数据组成,则必须有n-1个分裂点,随机森林模型中任何训练样本的预期分类信息定义为:I(s1,s2,...,sn)=∑log2Pi,其中,s1为第1个样本数据,s2为第2个样本数据,sn为第n个样本数据,Pi为样本属于类型C的概率,然后,根据参数λij的计算结果,将单个决策树对应的数据集本身划分为多个,相应的数据分割增益Gain(λij)由下式表示:Gain(λij)=I(s1,s2,...,sn),其中,s1为第1个样本数据,s2为第2个样本数据,sn为第n个样本数据,如果当前节点中包含的所有样本属于同一类别,或者当前节点覆盖的样本数小于Gain(λij),前向分裂过程停止,基于所建立的随机森林模型,分别计算决策树之间的距离权重和单个决策树中叶节点的权重,并根据计算结果实现随机森林模型的加权优化,客户订单数据和样本数据的距离权重分别定义为wp和wt,并行计算样本距离权重和订单数据距离权重,计算订单数据距离权重的公式如下:
Figure BDA0003900601690000122
其中,F为订单数据的量化函数,X用于表示订单数据中数据的位置,r用于表示指定数据与其相关数据之间的距离,参数是数据平滑参数,类似地,计算对应于样本训练数据集的决策树的权重,并且通过合成所有方面的权重来获得距离权重,然后通过以下步骤实现初始随机森林算法的加权优化:首先用基本参数确定原始算法,并随机设置预测样本数N和随机属性数m的初始值,在建立的随机森林模型中,计算距离权重,加权随机森林的优化步骤由下式计算:fwRF(x)=argmax{∑wi},其中,fWRF(x)为加权随机森林的优化结果,i的值分别为p和t,最后,将随机森林中的所有决策树作为拟合值进行迭代,并确定模型的参数,然后实现原始随机森林模型的加权优化。
优选的,恶意流量限制单元采用自适应滑动窗口算法对分类后的订单数据恶意高频流量进行限制,统计出秒杀程序的IP,限制业务流量增加,控制恶意流量订单数据对良性流量订单数据交易的侵入影响,并阻断这部分流量,降低对带宽的影响。
具体的,自适应滑动窗口算法为了自适应地确定适当的保护窗口长度,结合反向递归神经网络,其结构是当前层的输入是前一层的输出,更适合于时间序列问题,算法中的简单递归单元SRU以并行处理的方式执行大部分操作,只串行处理几个步骤,提高其运行速度,该算法在处理时间序列数据时具有更高的训练效率,这意味着具有记忆单元的深度神经网络,非常适合于寻找数据与时间特征之间的关系,反向递归神经网络算法如下:yt=Wtxt,ft=σ(Wfxt+Bf),rt=σ(Wrxt+Br),ct=ft⊙ct-1+(1-ft)⊙Wxt,ht=rt⊙g(ct)+(1-rt)⊙xt,其中,xt为t时刻的输入,W为权重,B为偏差,yt为t时刻的输入与权重的乘积,ft为t时刻的遗忘门,rt为t时刻的复位门,ct为t时刻的状态,ht为t时刻的最终输出,σ(·)为Sigmoid函数,g(·)为tanh函数,⊙为矩阵的运算,Wt,Wf,Wr为参数矩阵,Bf,Br为训练期间确定的参数向量,在训练过程中使用Adamax优化器来进行随机优化,然后反向递归神经网络的训练算法为自动推荐启用并行训练,结合反向递归神经网络后,将维特比算法扩展到MAP算法,考虑第i个反向递归,并让Vk(s)是时间(k+1)处的生存状态,导致时间k处于状态s,Vk(s)由下式表示:
Figure BDA0003900601690000131
其中,βk(s)为在时间k处状态s的后向度量,μk(s,s′)为状态转换的分支度量是否在时间k处的状态s和在时间(k+1)处的状态s+1之间,Ω(s)为是连接到状态s的所有继承状态的集合,连接在时间k处通向状态s的幸存状态路径形成在反向递归中直到时间k的幸存路径的集合,在反向恢复期间的某个时间k,检测到所有幸存路径的初始状态已合并为公共状态,则第i个保护窗口的开始设置为k,为避免不可靠窗口生成过长的保护窗口长度,保护窗口的最大长度被限制为gmax比特,在反向递归期间自适应地设置保护窗口长度所需的额外复杂性是与检查幸存路径的合并和存储幸存路径所需的附加存储器相关的那些复杂性,对幸存路径合并的检查仅需要在确定保护窗口长度之前对幸存路径的初始状态进行逻辑比较,滑动窗口算法在一个特定大小的字符串或数组上进行操作,而不在整个字符串和数组上操作,这样就降低了问题的复杂度,从而也达到降低了循环的嵌套深度,再结合反向递归神经网络确定适当的保护窗口长度达到自适应,这样就能对分类后的订单数据恶意高频流量进行限制。
优选的,交易模块用于客户正常交易,经防秒杀预判系统对恶意流量订单数据进行限制,快速且有效地从海量的客户订单数据中限制恶意流量订单数据,实现防秒杀预判系统对恶意流量的阻断功能,保障客户利益,供客户在消费平台能够正常交易。
通过各个网络平台的历史客户订单数据,获取大量的在线客户订单数据,结合信息技术,采用SIFI算法对采集的订单数据进行特征提取预处理,减少数据维度,整理已有的数据特征,采用THS-IDPC算法对预处理后的订单数据进行恶意流量检测,检测出原始订单数据中的恶意流量订单,机器学习分类单元采用随机森林算法对检测后的订单数据进行良性流量和恶意流量的分类,将具有某种共同属性或特征的订单数据归并在一起,通过其类别的属性或特征来对订单数据进行区别,恶意流量限制单元采用自适应滑动窗口算法对分类后的订单数据进行恶意高频流量限制,统计出秒杀程序的IP,限制业务流量增加,并阻断这部分流量,降低对带宽的影响,并保障客户利益,供客户在消费平台能够安全正常的进行交易,能够快速且有效地从海量的客户订单数据中限制恶意流量订单数据,提高防秒杀预判系统对恶意流量的阻断效果,不需耗费大量人力物力和时间去进行恶意流量阻断,减少出现错误的情况,且所有数据均可追溯,有效提高防秒杀预判系统的工作效果,为阻断恶意流量提供更优的方案,为防秒杀预判系统提供更为全面、准确地技术支撑,为安全、科学、高效地防秒杀预判系统提供更好的决策支持,更好的保障各类客户的消费安全,同时,本发明结合大数据特征提取、恶意流量检测、机器学习分类训练及恶意流量限制多种大数据及机器学习算法,为客户做到高质量且有效的防秒杀预判服务,也能为其他应用领域的发展巩固基础,在大数据鼎盛发展的时代,多种机器学习算法的融合为人工智能的发展打下了坚实的基础,且多种机器学习算法的融合能应用于市场中的多个行业及领域,为人工智能方向提供了新的发展方向,为大数据时代贡献了重要应用价值。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改,而不脱离本发明技术方案的实质和范围。

Claims (11)

1.一种基于机器学习的防秒杀预判系统,其特征在于,包括订单数据采集模块、数据库模块和交易模块,订单数据采集模块用于获取客户和市场的大量订单数据,数据库模块包括区块链管理单元、订单数据检测单元、机器学习分类单元和恶意流量限制单元,区块链管理单元采用SIFI算法对订单数据采集模块采集的订单数据进行特征提取预处理,订单数据检测单元采用THS-IDPC算法对区块链管理单元预处理后的订单数据进行恶意流量检测,机器学习分类单元采用随机森林算法对订单数据检测单元检测后的订单数据进行良性流量和恶意流量的分类,恶意流量限制单元采用自适应滑动窗口算法对机器学习分类单元分类后的订单数据进行恶意高频流量限制,交易模块用于客户正常交易。
2.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,订单数据采集模块通过各个网络平台的历史客户订单数据,获取大量的在线客户订单数据。
3.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,区块链管理单元采用SIFI算法对采集的数据进行特征提取预处理,减少数据维度,整理已有的数据特征。
4.根据权利要求3所述的一种基于机器学习的防秒杀预判系统,其特征在于,SIFT算法首先需要建立高斯尺度的空间金字塔,高斯尺度空间金字塔有O个八度,每个八度都有S个区间,下一个八度的订单数据是通过对上一个八度进行下采样获得的,在一个八度内,不同区间的订单数据是原始订单数据与可变高斯函数的卷积,然后根据高斯尺度空间金字塔建立高斯尺度空间数据金字塔的差异,高斯尺度空间金字塔中两个相邻间隔的差异在高斯尺度空间金字塔中创建一个间隔,最后,在高斯的尺度空间内检测特征,高斯尺度空间如下:D(x,y,z)=(G(x,y,kσ)-H(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ),其中,G(x,y,σ)为标度变量高斯函数,σ为标量变量因子,k为比例系数,选择每个倍频程的底部间隔作为数据,将其转换为高斯数据,并首先扫描整个数据内容,然后找到数据中的最大值xmax和最小值xmin,中值xmid为:
Figure FDA0003900601680000011
然后定义一个阈值来进行订单数据特征提取,即:
Figure FDA0003900601680000012
阈值数据g(x,y)为:
Figure FDA0003900601680000013
其中,f(x,y)为原始客户订单数据;再结合正则化,正则化对应于模型参数w的先验分布,设D表示观测数据,w表示模型参数,模型参数w的后验概率为:
Figure FDA0003900601680000014
其中,p(D|w)为似然函数,p(D)为常数,w使用最大后验概率MAP来估计,即wMAP=argmaxwp(w|D)=argmaxwp(D|w)p(w)=argmaxlogwp(D|w)+logp(w),其中,logp(w)为模型参数先验分布的对数,即正则项,对于高斯正则化GM,假设所有模型参数w都是从相同的一维GM分布中采样的,一维GM分布表示为:
Figure FDA0003900601680000021
其中,K为高斯分量的数量,πk为满足约束
Figure FDA0003900601680000022
的混合系数,N(x|ukk)为高斯分布,uk为平均值,λk为第k个高斯分量的精度,为了学习模型参数w的GM先验,分别为混合系数πk和高斯精度λk引入了两种先验分布,用作混合系数πk的先验分布的狄利克雷分布为:
Figure FDA0003900601680000023
其中,α1,…,αk为分布的参数,
Figure FDA0003900601680000024
α为[α1,…,αk]T,Г(x)为伽玛函数,GM分布的所有高斯分量的平均值被设置为零,当GM分布的平均值固定时,伽玛分布是高斯精度的共轭先验,即:
Figure FDA0003900601680000025
其中,Gam(λ|a,b)为伽玛分布函数,a和b是伽玛分布的两个参数,它们控制伽玛分布的形状和衰减率,在GM学习过程中,a和b用于控制λ的规模。
5.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,订单数据检测单元采用THS-IDPC算法对预处理后的订单数据进行恶意流量检测,检测出原始订单数据中的恶意流量订单。
6.根据权利要求5所述的一种基于机器学习的防秒杀预判系统,其特征在于,THS-IDPC算法首先计算样本的局部密度,并使用KNN算法找到密度峰值,密度峰值的k个最近邻居knn(xi)被分配给样本局部密度相应的簇,然后,计算数据之间的相互邻居度,基于相互邻居度为所有分配的数据点找到最接近的未分配数据点,将未分配数据点分配给数据点所在的簇,然后重复此操作,直到分配完所有数据点,或所有未分配数据点与分配数据点之间的相互相邻度为0,如果存在未分配数据,则使用分配策略分配数据点,THS-IDPC算法假定一个数据集D={x1,x2,…,xi,xj,…,xn},所有的数据xi,xj∈D,xi与xj之间的距离dist(xi,xj)定义为:
Figure FDA0003900601680000026
其中,d为xi的最大特征个数,
Figure FDA0003900601680000027
为xi的第dim个特征,
Figure FDA0003900601680000028
为xj的第dim个特征,且dist(xi,xj)=dist(xj,xi),i≠j,截止核局部密度ρi定义为:
Figure FDA0003900601680000029
其中,dist(xi,xj)为数据xi与xj之间的距离,distcutoff为给定截止距离,是用户预定义的唯一参数,且distcutoff>0,数据xi的截止核局部密度ρi表示数据xi在给定截止距离distcutoff内的数据个数,高斯核局部密度定义为:
Figure FDA00039006016800000210
其中,dist(xi,xj)为数据xi与xj之间的距离,distcutoff为给定截止距离,是用户预定义的唯一参数,且distcutoff>0,高密度距离δi通过计算数据xi和任何其他高密度数据之间的最小距离确定,每个数据的局部密度按从大到小排列,即:ρijk>…,计算最高密度数据的相对距离与其他数据不同,对于具有最高密度的数据,高密度距离δi由下式计算:
Figure FDA0003900601680000031
对于其他数据,高密度距离δi由下式计算:
Figure FDA0003900601680000032
当数据xi有最大局部密度时,δi表示xi与距离xi最大的数据之间的距离,否则,δi表示xi和所有局部密度大于xi的数据中距离xi最小的数据之间的距离;
在此定义一种新的数据点之间的互邻度度量和样本分配策略,然后进一步提出了基于网格筛选、自定义中心决策值和互邻度的密度峰值网格聚类算法,首先,计算样本的局部密度,并使用k个最近邻居找到密度峰值,并将密度峰值的k个最近邻分配给它们相应的簇,然后,它根据相互相邻度为所有分配的数据点找到最接近的未分配数据点,并将未分配数据点分配给数据点所在的簇,直到完成聚类过程,结合KNN局部密度,对于数据集D,KNN局部密度定义为:
Figure FDA0003900601680000033
其中,distans(xi,xj)为数据xi和xj的欧几里得距离,k为相邻点的数量,knn(i)为xi的k邻近集,2·k为ρi的归一化参数,KNN局部密度分为两部分:∑j=knn(i)distans(xi,xj)2为xi的离群度,∑j=knn(i)v=knn(j)distans(xv,xj)2为xi的局部稀疏度,相邻度由数据点之间的距离定义,并通过如下公式计算:
Figure FDA0003900601680000034
Figure FDA0003900601680000035
其中,NDeg(xi,xj)为xi与xj的邻接度,引入局部邻接度来计算xi与xj的相对邻接度,并通过下式计算:
Figure FDA0003900601680000036
其中,knn(xi)为xi的k近邻集,NDeg(xi,xj)为xi与xj的相邻度,基于xi与xj相对邻接度,定义xi与xj的相互邻接度为:MNDeg(xi,xj)=RNDeg(xi,xj)·RNDeg(xJ,xi),其中,RNDeg(xi,xj)为xi与xj的相对邻接度,RNDeg(xJ,xi)为xj与xi的相对邻接度。
7.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,机器学习分类单元采用随机森林算法对恶意流量检测后的订单数据进行良性流量和恶意流量的分类,将具有某种共同属性或特征的订单数据归并在一起,通过其类别的属性或特征来对订单数据进行区别。
8.根据权利要求7所述的一种基于机器学习的防秒杀预判系统,其特征在于,随机森林算法首先需要选择提取的属性和数据参数,然后随机选择客户订单数据,形成一个对应于原始客户订单数据集的属性系统,由下式表示:S={U,A,V,f},其中,U为属性体系,A为客户订单数据的条件属性和决策属性集的交集,V表示相应选定属性的范围,f表示决策属性的信息函数,则能将原始数据集中要选择的任何订单数据表示为mij,并且订单数据的相应选择参数为:
Figure FDA0003900601680000041
其中,C为条件属性集,D为决策属性集,f表示决策属性的信息函数,依据上式获得参数的计算结果,确定训练样本数据集的选定数据量,并根据不同的数据类型进行编号,随机森林算法基于训练样本数据生成单个决策树,然后根据集合分裂模式获得随机森林,为了优化随机森林并实现并行分类功能,在建立模型的过程中设置控制参数,以控制决策树的分裂和生长,根据单个决策树的增益规则,对每个非叶节点进行二分,并将当前要分类的项目划分为两个子集,以实现决策树的增长,假设单个决策树由n个连续数据组成,则必须有n-1个分裂点,随机森林模型中任何训练样本的预期分类信息定义为:I(s1,s2,…,sn)=∑log2Pi,其中,s1为第1个样本数据,s2为第2个样本数据,sn为第n个样本数据,Pi为样本属于类型C的概率,然后,根据参数λij的计算结果,将单个决策树对应的数据集本身划分为多个,相应的数据分割增益Gain(λij)由下式表示:Gain(λij)=I(s1,s2,…,sn),其中,s1为第1个样本数据,s2为第2个样本数据,sn为第n个样本数据,基于所建立的随机森林模型,分别计算决策树之间的距离权重和单个决策树中叶节点的权重,并根据计算结果实现随机森林模型的加权优化,客户订单数据和样本数据的距离权重分别定义为wp和wt,并行计算样本距离权重和订单数据距离权重,计算订单数据距离权重的公式如下:
Figure FDA0003900601680000042
其中,F为订单数据的量化函数,X用于表示订单数据中数据的位置,r用于表示指定数据与其相关数据之间的距离,参数是数据平滑参数,计算对应于样本训练数据集的决策树的权重,并且通过合成所有方面的权重来获得距离权重,然后通过以下步骤实现初始随机森林算法的加权优化:首先用基本参数确定原始算法,并随机设置预测样本数N和随机属性数m的初始值,在建立的随机森林模型中,计算距离权重,加权随机森林的优化步骤由下式计算:fWRF(x)=argmax{∑wi},其中,fWRF(x)为加权随机森林的优化结果,i的值分别为p和t,最后,将随机森林中的所有决策树作为拟合值进行迭代,并确定模型的参数,然后实现原始随机森林模型的加权优化。
9.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,恶意流量限制单元采用自适应滑动窗口算法对分类后的订单数据恶意高频流量进行限制,统计出秒杀程序的IP,限制业务流量增加,并阻断这部分流量,降低对带宽的影响。
10.根据权利要求9所述的一种基于机器学习的防秒杀预判系统,其特征在于,自适应滑动窗口算法为了自适应地确定适当的保护窗口长度,结合反向递归神经网络,其结构是当前层的输入是前一层的输出,更适合于时间序列问题,算法中的简单递归单元SRU以并行处理的方式执行大部分操作,只串行处理几个步骤,提高其运行速度,该算法在处理时间序列数据时具有更高的训练效率,这意味着具有记忆单元的深度神经网络,非常适合于寻找数据与时间特征之间的关系,反向递归神经网络算法如下:yt=Wtxt,ft=σ(Wfxt+Bf),rt=σ(Wrxt+Br),ct=ft⊙ct-1+(1-ft)⊙Wxt,ht=rt⊙g(ct)+(1-rt)⊙xt,其中,xt为t时刻的输入,W为权重,B为偏差,yt为t时刻的输入与权重的乘积,ft为t时刻的遗忘门,rt为t时刻的复位门,ct为t时刻的状态,ht为t时刻的最终输出,σ(·)为Sigmoid函数,g(·)为tanh函数,⊙为矩阵的运算,Wt,Wf,Wr为参数矩阵,Bf,Br为训练期间确定的参数向量,在训练过程中使用Adamax优化器来进行随机优化,然后反向递归神经网络的训练算法为自动推荐启用并行训练,结合反向递归神经网络后,将维特比算法扩展到MAP算法,考虑第i个反向递归,并让Vk(s)是时间(k+1)处的生存状态,导致时间k处于状态s,Vk(s)由下式表示:
Figure FDA0003900601680000051
其中,βk(s)为在时间k处状态s的后向度量,μk(s,s′)为状态转换的分支度量是否在时间k处的状态s和在时间(k+1)处的状态s+1之间,Ω(s)为是连接到状态s的所有继承状态的集合,连接在时间k处通向状态s的幸存状态路径形成在反向递归中直到时间k的幸存路径的集合,在反向恢复期间的某个时间k,检测到所有幸存路径的初始状态已合并为公共状态,则第i个保护窗口的开始设置为k,为避免不可靠窗口生成过长的保护窗口长度,保护窗口的最大长度被限制为gmax比特,在反向递归期间自适应地设置保护窗口长度所需的额外复杂性是与检查幸存路径的合并和存储幸存路径所需的附加存储器相关的那些复杂性,对幸存路径合并的检查仅需要在确定保护窗口长度之前对幸存路径的初始状态进行逻辑比较,即对分类后的订单数据恶意高频流量进行限制。
11.根据权利要求1所述的一种基于机器学习的防秒杀预判系统,其特征在于,交易模块用于客户正常交易,经防秒杀预判系统对恶意流量订单数据进行限制,保障客户利益,供客户在消费平台能够正常交易。
CN202211288923.2A 2022-10-20 2022-10-20 一种基于机器学习的防秒杀预判系统 Active CN115641177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211288923.2A CN115641177B (zh) 2022-10-20 2022-10-20 一种基于机器学习的防秒杀预判系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211288923.2A CN115641177B (zh) 2022-10-20 2022-10-20 一种基于机器学习的防秒杀预判系统

Publications (2)

Publication Number Publication Date
CN115641177A true CN115641177A (zh) 2023-01-24
CN115641177B CN115641177B (zh) 2023-05-30

Family

ID=84945388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211288923.2A Active CN115641177B (zh) 2022-10-20 2022-10-20 一种基于机器学习的防秒杀预判系统

Country Status (1)

Country Link
CN (1) CN115641177B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294532A (zh) * 2023-11-24 2023-12-26 明阳点时科技(沈阳)有限公司 一种基于蜜网的高甜度欺骗防御方法及系统
CN117575300A (zh) * 2024-01-19 2024-02-20 德阳凯达门业有限公司 一种车间的任务分配方法以及装置
CN117834311A (zh) * 2024-03-06 2024-04-05 成都工业职业技术学院 一种用于网络安全的恶意行为识别系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120260342A1 (en) * 2011-04-05 2012-10-11 Government Of The United States, As Represented By The Secretary Of The Air Force Malware Target Recognition
US20120284791A1 (en) * 2011-05-06 2012-11-08 The Penn State Research Foundation Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows
WO2017084521A1 (zh) * 2015-11-18 2017-05-26 阿里巴巴集团控股有限公司 一种订单聚类方法及装置,以及反恶意信息的方法及装置
CN107657175A (zh) * 2017-09-15 2018-02-02 北京理工大学 一种基于图像特征描述子的恶意样本同源检测方法
CN107908963A (zh) * 2018-01-08 2018-04-13 北京工业大学 一种自动化检测恶意代码核心特征方法
CN109509048A (zh) * 2017-09-15 2019-03-22 北京京东尚科信息技术有限公司 恶意订单识别方法、装置、电子设备及存储介质
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法
CN110874778A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 异常订单检测方法及装置
CN112217792A (zh) * 2020-09-04 2021-01-12 中国人民解放军战略支援部队信息工程大学 一种支持变长输入的加密恶意流量检测装置和方法
CN112261007A (zh) * 2020-09-27 2021-01-22 北京六方云信息技术有限公司 基于机器学习的https恶意加密流量检测方法及系统
CN112435068A (zh) * 2020-11-30 2021-03-02 北京沃东天骏信息技术有限公司 一种恶意订单识别方法、装置、电子设备及存储介质
CN112800424A (zh) * 2021-02-02 2021-05-14 西南交通大学 一种基于随机森林的僵尸网络恶意流量监测方法
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN113807900A (zh) * 2021-10-14 2021-12-17 华东理工大学 一种基于贝叶斯优化的rf订单需求预测方法
CN114553496A (zh) * 2022-01-28 2022-05-27 中国科学院信息工程研究所 基于半监督学习的恶意域名检测方法及装置
US20220318383A1 (en) * 2021-04-05 2022-10-06 Mcafee, Llc Methods and apparatus for malware classification through convolutional neural networks using raw bytes
CN115174168A (zh) * 2022-06-22 2022-10-11 方盈金泰科技(北京)有限公司 一种时空特征组合的恶意加密流量检测方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120260342A1 (en) * 2011-04-05 2012-10-11 Government Of The United States, As Represented By The Secretary Of The Air Force Malware Target Recognition
US20120284791A1 (en) * 2011-05-06 2012-11-08 The Penn State Research Foundation Robust anomaly detection and regularized domain adaptation of classifiers with application to internet packet-flows
WO2017084521A1 (zh) * 2015-11-18 2017-05-26 阿里巴巴集团控股有限公司 一种订单聚类方法及装置,以及反恶意信息的方法及装置
CN107657175A (zh) * 2017-09-15 2018-02-02 北京理工大学 一种基于图像特征描述子的恶意样本同源检测方法
CN109509048A (zh) * 2017-09-15 2019-03-22 北京京东尚科信息技术有限公司 恶意订单识别方法、装置、电子设备及存储介质
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN107908963A (zh) * 2018-01-08 2018-04-13 北京工业大学 一种自动化检测恶意代码核心特征方法
CN110874778A (zh) * 2018-08-31 2020-03-10 阿里巴巴集团控股有限公司 异常订单检测方法及装置
CN110572382A (zh) * 2019-09-02 2019-12-13 西安电子科技大学 基于smote算法和集成学习的恶意流量检测方法
CN112217792A (zh) * 2020-09-04 2021-01-12 中国人民解放军战略支援部队信息工程大学 一种支持变长输入的加密恶意流量检测装置和方法
CN112261007A (zh) * 2020-09-27 2021-01-22 北京六方云信息技术有限公司 基于机器学习的https恶意加密流量检测方法及系统
CN112435068A (zh) * 2020-11-30 2021-03-02 北京沃东天骏信息技术有限公司 一种恶意订单识别方法、装置、电子设备及存储介质
CN112800424A (zh) * 2021-02-02 2021-05-14 西南交通大学 一种基于随机森林的僵尸网络恶意流量监测方法
US20220318383A1 (en) * 2021-04-05 2022-10-06 Mcafee, Llc Methods and apparatus for malware classification through convolutional neural networks using raw bytes
CN113705619A (zh) * 2021-08-03 2021-11-26 广州大学 一种恶意流量检测方法、系统、计算机及介质
CN113807900A (zh) * 2021-10-14 2021-12-17 华东理工大学 一种基于贝叶斯优化的rf订单需求预测方法
CN114553496A (zh) * 2022-01-28 2022-05-27 中国科学院信息工程研究所 基于半监督学习的恶意域名检测方法及装置
CN115174168A (zh) * 2022-06-22 2022-10-11 方盈金泰科技(北京)有限公司 一种时空特征组合的恶意加密流量检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIANGCHEN CHEN 等: "THS‑IDPC: A three‑stage hierarchical sampling method based on improved density peaks clustering algorithm for encrypted malicious traffic detection", 《THE JOURNAL OF SUPERCOMPUTING》 *
SYING-JYAN WANG 等: "Feature Selection for Malicious Traffic Detection with Machine Learning", 《2020 INTERNATIONAL COMPUTER SYMPOSIUM》 *
丁建立 等: "基于混合特征选择算法的民航可疑订单特征提取", 《计算机工程与设计》 *
姚一 等: "航空订票恶意行为检测方法", 《电子测试》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294532A (zh) * 2023-11-24 2023-12-26 明阳点时科技(沈阳)有限公司 一种基于蜜网的高甜度欺骗防御方法及系统
CN117294532B (zh) * 2023-11-24 2024-01-30 明阳点时科技(沈阳)有限公司 一种基于蜜网的高甜度欺骗防御方法及系统
CN117294532B9 (zh) * 2023-11-24 2024-03-22 明阳点时科技(沈阳)有限公司 一种基于蜜网的高甜度欺骗防御方法及系统
CN117575300A (zh) * 2024-01-19 2024-02-20 德阳凯达门业有限公司 一种车间的任务分配方法以及装置
CN117575300B (zh) * 2024-01-19 2024-05-14 德阳凯达门业有限公司 一种车间的任务分配方法以及装置
CN117834311A (zh) * 2024-03-06 2024-04-05 成都工业职业技术学院 一种用于网络安全的恶意行为识别系统
CN117834311B (zh) * 2024-03-06 2024-05-14 成都工业职业技术学院 一种用于网络安全的恶意行为识别系统

Also Published As

Publication number Publication date
CN115641177B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN112150209B (zh) 一种基于聚类中心的cnn-lstm时序预测模型的构建方法
WO2022088408A1 (zh) 基于图神经网络的交易欺诈检测方法及系统
US11475360B2 (en) System and method for relational time series learning with the aid of a digital computer
CN115641177A (zh) 一种基于机器学习的防秒杀预判系统
US6260036B1 (en) Scalable parallel algorithm for self-organizing maps with applications to sparse data mining problems
CN108898479B (zh) 信用评价模型的构建方法及装置
CN111914728B (zh) 高光谱遥感影像半监督分类方法、装置及存储介质
US6581058B1 (en) Scalable system for clustering of large databases having mixed data attributes
WO1999062007A1 (en) A scalable system for clustering of large databases having mixed data attributes
Rozemberczki et al. The shapley value of classifiers in ensemble games
US10956825B1 (en) Distributable event prediction and machine learning recognition system
CN112668688B (zh) 一种入侵检测方法、系统、设备及可读存储介质
Araújo et al. Self-organizing subspace clustering for high-dimensional and multi-view data
CN109635010A (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN110502691A (zh) 基于客户分类的产品推送方法、装置及可读存储介质
CN114782761B (zh) 基于深度学习的智能仓储物料识别方法和系统
Zahirnia et al. Micro and macro level graph modeling for graph variational auto-encoders
CN113034264A (zh) 客户流失预警模型的建立方法、装置、终端设备及介质
CN113205124B (zh) 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质
Martineau et al. An image is worth 10,000 points: Neural network architectures and alternative log representations for lumber production prediction
CN116188834A (zh) 基于自适应训练模型的全切片图像分类方法及装置
CN114519605A (zh) 广告点击欺诈检测方法、系统、服务器和存储介质
CN111008656B (zh) 一种基于预测框误差多阶段回环处理的目标检测方法
Mishra et al. Efficient intelligent framework for selection of initial cluster centers
Yan et al. FIW-GNN: A Heterogeneous Graph-Based Learning Model for Credit Card Fraud Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: C1102, 10th Floor, Building C, No. 9 Shangdi Third Street, Haidian District, Beijing, 100080

Patentee after: BEIJING HOLYZONE TECHNOLOGY CO.,LTD.

Address before: 1-6-608, Floor 6, North Building, No. 8, Wenhuiyuan North Road, Haidian District, Beijing, 100082

Patentee before: BEIJING HOLYZONE TECHNOLOGY CO.,LTD.

CP02 Change in the address of a patent holder