CN111340493A - 一种多维度分布式异常交易行为检测方法 - Google Patents

一种多维度分布式异常交易行为检测方法 Download PDF

Info

Publication number
CN111340493A
CN111340493A CN202010142130.4A CN202010142130A CN111340493A CN 111340493 A CN111340493 A CN 111340493A CN 202010142130 A CN202010142130 A CN 202010142130A CN 111340493 A CN111340493 A CN 111340493A
Authority
CN
China
Prior art keywords
layer
training
feature
sample
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010142130.4A
Other languages
English (en)
Other versions
CN111340493B (zh
Inventor
朱会娟
王良民
沈玉龙
程珂
黎洋
谢嘉迪
王栎帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Jiangsu University
Original Assignee
Xidian University
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Jiangsu University filed Critical Xidian University
Priority to CN202010142130.4A priority Critical patent/CN111340493B/zh
Publication of CN111340493A publication Critical patent/CN111340493A/zh
Application granted granted Critical
Publication of CN111340493B publication Critical patent/CN111340493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种多维度分布式异常交易行为检测方法,首先通过挖掘网络交易行为中交易前与交易中的多维度原始特征例,其次提出一种基于深度学习的自动特征学习和融合算法MSDAE用以去除原始特征中冗余和噪音并自动学习隐含的且具代表性的特征,最后提出一种基于Apache Spark的并行分布式集成框架SpaEnsemble实现对大规模异常交易行为高效、快速的分析与检测。本发明在网络安全领域具有广阔的应用前景。

Description

一种多维度分布式异常交易行为检测方法
技术领域
本发明属于网络安全领域,具体涉及一种多维度分布式异常交易行为检测方法。
背景技术
区块链是随着比特币等数字加密货币的发展而逐渐兴起的一种全新的去中心化基础框架与分布式计算范式,它利用有序的链式数据结构存储数据、利用共识算法更新数据、利用密码学技术保障其数据安全等,具有不可篡改、去中心化、去信任化、可追溯性、集体维护性和安全性等特点。其中已被应用于金融、物流、能源及医药健康等领域的区块链2.0,它的最大特性就是引入了智能合约,智能合约由于其中图灵完备性可以使开发人员实现复杂的区块链应用。智能合约虽然极大的扩展了区块链的应用场景与现实意义,但是,智能合约的本身是一段程序,例如运行于以太坊虚拟机中,近年来针对智能合约的攻击导致的安全事件时有发生。例如2018年4月,美链的代币BEC由于合约漏洞,黑客通过合约的批量转账方法无限生成代币,导致其9亿美元市值几乎归零。诸如此类的异常交易行为如果能及时发现并做出响应,将能极大程度避免或降低经济损失。
目前,本技术领域针对异常交易行为的检测,主要存在以下问题:(1)特征来源单一难以合理表征交易行为;(2)特征选择过程中过于依赖人工或先验知识等导致其成本高但扩展性和自适应差;(3)在交易行为分类过程中,传统分类算法的性能依赖于训练集中的数据分布如正负样本均衡,在异常交易行为出现初期已知样本缺乏的情况下其检测的准确率较低;(4)目前多是是基于小数据样本进行研究,很难满足大数据样本的海量、多维、高速多变、内部关联关系复杂以及异常交易行为检测实时性要求高等特点。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种多维度分布式异常交易行为检测方法,通过运行于云端的并行分布式框架以完成实时高效的异常交易行为的检测。
技术方案:本发明的一种多维度分布式异常交易行为检测方法,依次包括以下步骤:
步骤1、爬取与交易行为相关的交易前和交易中的相关数据构建样本集,样本集为正负样本不均衡数据集;
步骤2、提取数据样本集中的原始特征并构建特征向量如下:
X=(x1,x2,...,xn)∈Rm×n
其中,m是指统计出来的特征个数,即数据集的原始特征维度,n表示样本集中样本的数量;若交易行为样本xi存在特征fk所表征的现象,则fk对应的特征值为1,否则fk对应的特征值为0,1≤i≤n,1≤k≤m;
步骤3、将样本集X划分为K(例如K=5或K=10)大小相同的互斥子集,即:
X=X1∪X2∪...∪XK
Figure BDA0002399462600000021
且l≠h,1≤l,h≤K,
然后将K-1个子集的并集作为训练集,剩余的1个子集作为测试集,依次类推获得K组不同的训练集与测试集组合;
步骤4、对步骤3产生的每一个训练集采用样本和属性的双重扰动产生具备多样性的L个训练子集X″i,1≤i≤L;
步骤5、将步骤4中所得的L(例如20个)个训练子集X″i并行输入到对应的L个MSDAE深度学习特征融合方法中,训练MSDAE模型通过多层非线性变换以自动获得隐藏的且更具代表性的特征,从而共构建出L个新的训练子集;
步骤6、将步骤5获取的L个训练子集输入到SpaEnsemble集成框架的L×C个基分类器中,进而来训练基分类器模型,其中每个节点包含C个分类器,其中1个为主分类器,其它C-1均为辅助分类器;
步骤7、采用SpaEnsemble集成框架中的自适应用加权方法AdaVoting计算最终预测结果,即正常交易行为和异常交易行为;
步骤8、步骤8、在测试阶段,将步骤3中产生的测试集输入到步骤5中学习到的MSDAE模型中来学习新的典型特征,将学习到的新特征输入到步骤6训练的L×C个基分类器模型中获取预测结果,最终通过AdaVoting算法进行整合并做出最终决策。
进一步的,所述步骤2中的原始特征类型包括:针对合约代码层的特征类型、针对虚拟机的特征类型和针对区块链的特征类型;
针对合约代码层的特征类型包括可重入漏洞、危险的delegate call、算术上溢/下溢、默认函数类型、强行注入ether和外部调用的返回值;
针对虚拟机的特征类型包括短地址攻击和Tx.Origin漏洞;
针对区块链的特征类型包括打包交易顺序异常和伪随变量。
进一步的,所述步骤4中经样本扰动与属性扰动产生的多样性子集操作过程如下:
步骤4.1、样本扰动即假设原始数据集X中有n个样本,每次随机从X中取一个样本,拷贝它并放入新数据集X',原始样本继续放回X,也就是有放回取样,这个过程重复g次,即可生成一个包含g个样本的新数据集X';
步骤4.2、步骤4.2、对X'进行属性扰动,即随机抽取其中的p部分特征作为属性子集,例如原始特征m维,则属性子集的特征维度为m×p,0≤p≤1;
步骤4.3、将步骤4.1与步骤4.2进行组合,即通过4.1生成X'然后在X'上执行4.2生成X”,由此每组[训练集,测试集]即可产生L个训练子集X″i,1≤i≤L。
进一步的,所述步骤5中的MSDAE深度学习特征融合方法如下:
步骤5.1、设置初始值,使用epoch,batch_size,layer_number,W,b,W'和b'构造深度学习网络-堆叠去噪自编码器SDAE;
其中,epoch指所有样本送入网络中完成一次前向计算及反向传播的过程,batch_size是指为加速训练而采用的分批次训练中每次送入网络的小批量数据的个数,layer_number是深度网络的层数,W和b代表每一层网络编码过程的权重矩阵和偏置向量;W'和b'表示其解码过程的权重矩阵和偏置向量。
步骤5.2、计算迭代次数iter=size(X”)/batch_size,X”是指包含g个样本的新数据集,即size(X”)=g;
步骤5.3、通过判断c_l>layer_number是否成立,进而判断当前层数c_l是否超过layer_number设置的最大网络层数,如果判断结果为“真”则转步骤5.8,如果判断结果为“否”则转步骤5.4;
步骤5.4、通过
Figure BDA0002399462600000041
计算当前层的输入数据集,如果是第一层则Xc_l=X”;
步骤5.5、通过判断c_epoch>epoch是否成立,进而判断当前c_epoch是否大于初始设定的epoch,如果判断结果为“真”转步骤5.3,否则转步骤5.6;
步骤5.6、通过判断c_iter>iter是否成立,进而判断当前迭代次数c_iter是否大于总的迭代次数iter,如果判断结果为“真”则转步骤5.5,否则转步骤5.7;
步骤5.7、通过判断等式c_l=layer_number是否成立来判断是否是后一层;
如果判断结果为“真”则采用
Figure BDA0002399462600000042
缩小网络预测结果ic_l和实际结果
Figure BDA0002399462600000043
之间的误差,并转入步骤5.6;
若判断结果为“假”则通过
Figure BDA0002399462600000044
缩小输入向量ic_l与重构向量
Figure BDA0002399462600000045
之间的误差以更新当前层中编码层和解码层的权重矩阵和偏置向量Wc_l,bc_l,W′c_l,b′c_l参数,并转入步骤5.6;其中
Figure BDA0002399462600000046
需随机注入噪音来确保学习到鲁棒性特征;注入噪音即按照一定比例φ(0<φ<1)将神经元输入随机置零;
步骤5.8、通过反向传播算法进行整个网络的有监督回调以更新每一层的W和b参数,并重新计算每一层网络的特征表示对应的数据集Xk,1≤k≤layer_nubmer-1;
步骤5.9、通过CX=[X1,X2,...,Xlayer_nubmer-1]合并多个特征表示以构建新的数据集进而实现特征增广,接着,为去除冗余信息并挖掘这些不同特征表示层之间的非线性转换关系转步骤5.10;
步骤5.10、设置特征融合过程中的初始参数:mepoch,m_batch_size,m_layer_number,W,b,W',b'构造无监督堆叠稀疏自编码器SSAE即前向网络);
步骤5.11、计算迭代次数miter=size(CX)/m_batch_size;
步骤5.12、通过判断m_c_l>m_layer_number是否成立来判断当前层数m_c_l是否超过m_layer_number设置的最大网络层数,如果判断结果为“真”则转步骤5.14,若判断结果为“否”则转步骤5.13;
步骤5.13、融合数据集FXm_c_l采用步骤5.4-步骤5.7中所述的分批次训练过程,此处,当m_c_l=1时FX=CX;在融合阶段分批次训练过程:
利用
Figure BDA0002399462600000051
更新权重
Figure BDA0002399462600000055
Figure BDA0002399462600000056
其中
Figure BDA0002399462600000052
作为惩罚项惩罚
Figure BDA0002399462600000053
严重偏离ρ,β是惩罚项的权重,
Figure BDA0002399462600000054
是第j个神经元被激活的概率,ρ为稀疏参数,转入步骤5.12;
步骤5.14、FXm_layer_number即经最后一层隐含层转换后的数据集将作为特征融合后的数据集。
其中,步骤5.1-步骤5.8为MSDAE算法中特征学习部分,步骤5.9-步骤5.14是MSDAE算法的特征融合部分。
进一步的,所述步骤6中SpaEnsemble集成框架训练基分类模型的过程如下:
步骤6.1、将L个多样性训练子集X″i,写入分布式文件系统HDFS中;
步骤6.2、Apache Spark的Driver下发任务到L个worker节点,每个worker节点由MSDAE以及C个基分类算法组成;
步骤6.3、每个worker从HDFS读取一个训练子集,然后调用MSDAE算法训练该深度学习模型并生成对应的融合数据集FX,FX作为C个基分类器的输入数据进行分类模型的训练;
步骤6.4、通过步骤6.3训练得到C种分类模型,其中1个模型作为主分类模型其预测值作为最终输出,其它C-1个分类器作为辅助分类模型,当且仅当辅助分类模型预测值相同但与主分类模型预测不同时,可修正主分类模型的预测值并输出;
步骤6.5、Driver汇总所有worker节点的输出,并由自适应用加权方法AdaVoting计算最终预测结果;
步骤6.6、在测试阶段即监管阶段,各worker节点从HDFS读取测试集,然后输入该测试集到步骤6.3训练的MSDAE模型得到融合数据集FXtest,接下来将FXtest输入到步骤6.4中训练的基分类器中得出预测结果,判断是否需要修正主分类器的输出并输出主分类器的预测结果,最后由Driver汇总各worker节点的预测结果并通过AdaVoting算法计算最终的预测结果返回给用户。
进一步的,所述步骤7所述自适应加权投票方法AdaVoting为:
Figure BDA0002399462600000061
其中,wi是hi的权重,wi的取值随训练集中正负样本的比例变化而变化,
Figure BDA0002399462600000062
为基分类器hi在样本x上的输出。
有益效果:本发明首先通过挖掘网络交易行为中交易前与交易中的多维度原始特征例,其次提出一种基于深度学习的自动特征学习和融合算法MSDAE用以去除原始特征中冗余和噪音并自动学习隐含的且具代表性的特征,最后提出一种基于Apache Spark的并行分布式集成框架SpaEnsemble实现对大规模异常交易行为高效、快速的分析与检测。
与现有技术相比,本发明具有以下优点:
(1)更强的特征表征能力:本发明解决了传统方法中特征来源单一难以合理表征交易行为且在特征选择过程中过于依赖人工或先验知识等,从而导致成本高但扩展性和自适应差等问题;
(2)不均衡样本集中仍可获得强泛化性能:本发明解决了在交易行为分类过程中传统分类算法的性能依赖于训练集中的数据分布如正负样本均衡,在异常行为出现初期已知样本缺乏的情况下其检测的准确率较低的问题;
(3)实时与高效:传统异常交易行为检测多是基于小数据样本进行研究,而本发明是基于海量、多维和高速多变的大数据样本,本发明的样本数据内部关联关系复杂,但是检测异常交易行为时却能够实时高效。
附图说明
图1是本发明的整体框架图;
图2是本发明中抽取原始特征并形成特征向量示意图;
图3是本发明中深度学习与融合MSDAE模型示意图;
图4是本发明的SpaEnsemble分布式集成算法示意图;
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本发明包括以下两个部分:(1)原始特征抽取;(2)运行SpaEnsemble框架进行异常行为的检测;其中,SpaEnsemble框架重点包含了三个新方法:①特征学习与融合算法MSDAE以提取隐含的且具代表性的特征;②带修正功能的基分类器组合;③自适应加权投票法AdaVoting。
本发明的具体步骤如下:
步骤1、爬取与交易行为相关的交易前和交易中的相关数据构建样本集,样本集为正负样本不均衡数据集;
步骤2、提取数据样本集中的原始特征并构建特征向量如下:
X=(x1,x2,...,xn)∈Rm×n
其中,m是指统计出来的特征个数,即数据集的原始特征维度,n表示样本集中样本的数量;若交易行为样本xi(1≤i≤n)存在特征fk(1≤k≤m,详见权利要求2)所表征的现象,则fk对应的特征值为1,否则fk对应的特征值为0;
步骤3、将样本集X划分为K(K=5或K=10)大小相同的互斥子集(本实施例采用K=5),即:
X=X1∪X2∪X3∪X4∪X5
Figure BDA0002399462600000071
且l≠h,1≤l,h≤5,
然后将4个子集的并集作为训练集,剩余的子集作为测试集,依次类推获得5组不同的训练集与测试集组合;
步骤4、对步骤3产生的每一个训练集采用样本和属性的双重扰动产生具备多样性的L个(本实施例中L=20)训练子集X″i,1≤i≤20;
步骤5、将步骤4中所得的20个训练子集X″i并行输入到对应的20个MSDAE深度学习特征融合方法中,训练MSDAE模型通过多层非线性变换以自动获得隐藏的且更具代表性的特征,从而共构建出20个新的训练子集;
步骤6、将步骤5获取的20个训练子集输入到SpaEnsemble集成框架的60个基分类器中(每个节点包含三个分类器,即DT为主分类器,KNN和SVM均为辅助分类器,共计20个节点),进而来训练基分类器模型;
步骤7、采用SpaEnsemble集成框架中的自适应用加权方法AdaVoting计算最终预测结果,即正常交易行为和异常交易行为;
步骤8、在测试阶段,将步骤3中产生的测试集输入到步骤5中学习到的MSDAE模型中来学习新的典型特征,将学习到的新特征输入到步骤6训练的60个基分类器模型中获取预测结果,最终通过AdaVoting算法进行整合并做出最终决策。
上述步骤中,步骤5-步骤8是运行于Apache Spark并行计算框架中,如图4所示,其中Spark平台的执行模式和部署方法类型众多,且根据实际业务需求不同会略有差异。本发明统称控制节点为Driver(也承担部分计算工作,例如运行AdaVoting),主要负责任务和数据的下发以及结果的汇总。计算节点统称为Worker节点,每个worker节点部署一个MSDAE方法和三种基分类器模型,最终每个Worker节点输出基分类器修正后的预测结果到Driver节点并通过AdaVoting算法做出最终预测。
为评估本发明在网络交易行为检测时的有效性,本实施例引入的相关评估标准分别:精度(Precision),准确率(Accuracy),F-measure分别定义如下:
Figure BDA0002399462600000081
Figure BDA0002399462600000082
Figure BDA0002399462600000083
Figure BDA0002399462600000084
其中,TP(true Positive):真正例,是被分类器正确分类的正样本;TN(TrueNegative):真负例,是指被分类器正确分类的负样本;FP(False Positive):指被错误地标记为正样本的负样本;FN(False Negative):被错误地标记为负样本的正样本。
本发明首先抽象出多层次多维度的原始特征如并构建01编码形式的特征向量文件;其次提出一种对噪音具有鲁棒性的深度学习自动特征学习和融合方法MSDAE用于提取原始特征中隐含的且具代表性的特征;再次基于以上两项成果提出一种集成算法分类模型,包括带自修正功能的分类器组合和自适应加权投票方法等,以获得比单一分类模型更强的泛化性能,尤其是在正负样本不均衡的情况下;最后为了应对大数据样本的海量、多维度和内部关系复杂以及异常交易检测的实时性要求高等特点提出运行于Spark的分布式集成分类模型SpaEnsemble。

Claims (6)

1.一种多维度分布式异常交易行为检测方法,其特征在于:依次包括以下步骤:
步骤1、爬取与交易行为相关的交易前和交易中的相关数据构建样本集,样本集为正负样本不均衡数据集;
步骤2、提取数据样本集中的原始特征并构建特征向量如下:
X=(x1,x2,...,xn)∈Rm×n
其中,m是指统计出来的特征个数,即数据集的原始特征维度,n表示样本集中样本的数量;若交易行为样本xi存在特征fk所表征的现象,则fk对应的特征值为1,否则fk对应的特征值为0,1≤i≤n,1≤k≤m;
步骤3、将样本集X划分为K大小相同的互斥子集,即:
X=X1∪X2∪...∪XK
Figure FDA0002399462590000011
且l≠h,1≤l,h≤K,
然后将K-1个子集的并集作为训练集,剩余的1个子集作为测试集,依次类推获得K组不同的训练集与测试集组合;
步骤4、对步骤3产生的每一个训练集采用样本和属性的双重扰动产生具备多样性的L个训练子集X″i,1≤i≤L;
步骤5、将步骤4中所得的L个训练子集X″i并行输入到对应的L个MSDAE深度学习特征融合方法中,训练MSDAE模型通过多层非线性变换以自动获得隐藏的且更具代表性的特征,从而共构建出L个新的训练子集;
步骤6、将步骤5获取的L个训练子集输入到SpaEnsemble集成框架的L×C个基分类器中,进而来训练基分类器模型,其中每个节点包含C个分类器,其中1个为主分类器,其它C-1均为辅助分类器;
步骤7、采用SpaEnsemble集成框架中的自适应用加权方法AdaVoting计算最终预测结果,即正常交易行为和异常交易行为;
步骤8、步骤8、在测试阶段,将步骤3中产生的测试集输入到步骤5中学习到的MSDAE模型中来学习新的典型特征,将学习到的新特征输入到步骤6训练的L×C个基分类器模型中获取预测结果,最终通过AdaVoting算法进行整合并做出最终决策。
2.根据权利要求1所述的多维度分布式异常交易行为检测方法,其特征在于:所述步骤2中的原始特征类型包括:针对合约代码层的特征类型、针对虚拟机的特征类型和针对区块链的特征类型;
针对合约代码层的特征类型包括可重入漏洞、危险的delegate call、算术上溢/下溢、默认函数类型、强行注入ether和外部调用的返回值;
针对虚拟机的特征类型包括短地址攻击和Tx.Origin漏洞;
针对区块链的特征类型包括打包交易顺序异常和伪随变量。
3.根据权利要求1所述的多维度分布式异常交易行为检测方法,其特征在于:所述步骤4中经样本扰动与属性扰动产生的多样性子集操作过程如下:
步骤4.1、样本扰动即假设原始数据集X中有n个样本,每次随机从X中取一个样本,拷贝它并放入新数据集X',原始样本继续放回X,也就是有放回取样,这个过程重复g次,即可生成一个包含g个样本的新数据集X';
步骤4.2、步骤4.2、对X'进行属性扰动,即随机抽取其中的p部分特征作为属性子集,例如原始特征m维,则属性子集的特征维度为m×p,0≤p≤1;
步骤4.3、将步骤4.1与步骤4.2进行组合,即通过4.1生成X'然后在X'上执行4.2生成X”,由此每组[训练集,测试集]即可产生L个训练子集X″i,1≤i≤L。
4.根据权利要求1所述的多维度分布式异常交易行为检测方法,其特征在于:所述步骤5中的MSDAE深度学习特征融合方法如下:
步骤5.1、设置初始值,使用epoch,batch_size,layer_number,W,b,W'和b'构造深度学习网络-堆叠去噪自编码器SDAE;
其中,epoch指所有样本送入网络中完成一次前向计算及反向传播的过程,batch_size是指为加速训练而采用的分批次训练中每次送入网络的小批量数据的个数,layer_number是深度网络的层数,W和b代表每一层网络编码过程的权重矩阵和偏置向量;W'和b'表示其解码过程的权重矩阵和偏置向量。
步骤5.2、计算迭代次数iter=size(X”)/batch_size,X”是指包含g个样本的新数据集,即size(X”)=g;
步骤5.3、通过判断c_l>layer_number是否成立,进而判断当前层数c_l是否超过layer_number设置的最大网络层数,如果判断结果为“真”则转步骤5.8,如果判断结果为“否”则转步骤5.4;
步骤5.4、通过
Figure FDA0002399462590000031
计算当前层的输入数据集,如果是第一层则Xc_l=X”;
步骤5.5、通过判断c_epoch>epoch是否成立,进而判断当前c_epoch是否大于初始设定的epoch,如果判断结果为“真”转步骤5.3,否则转步骤5.6;
步骤5.6、通过判断c_iter>iter是否成立,进而判断当前迭代次数c_iter是否大于总的迭代次数iter,如果判断结果为“真”则转步骤5.5,否则转步骤5.7;
步骤5.7、通过判断等式c_l=layer_number是否成立来判断是否是后一层;
如果判断结果为“真”则采用
Figure FDA0002399462590000032
缩小网络预测结果ic_l和实际结果
Figure FDA0002399462590000033
之间的误差,并转入步骤5.6;
若判断结果为“假”则通过
Figure FDA0002399462590000034
缩小输入向量ic_l与重构向量
Figure FDA0002399462590000035
之间的误差以更新当前层中编码层和解码层的权重矩阵和偏置向量Wc_l,bc_l,W′c_l,b′c_l参数,并转入步骤5.6;其中
Figure FDA0002399462590000036
需随机注入噪音来确保学习到鲁棒性特征;注入噪音即按照一定比例φ(0<φ<1)将神经元输入随机置零;
步骤5.8、通过反向传播算法进行整个网络的有监督回调以更新每一层的W和b参数,并重新计算每一层网络的特征表示对应的数据集Xk,1≤k≤layer_nubmer-1;
步骤5.9、通过CX=[X1,X2,...,Xlayer_nubmer-1]合并多个特征表示以构建新的数据集进而实现特征增广,接着,为去除冗余信息并挖掘这些不同特征表示层之间的非线性转换关系转步骤5.10;
步骤5.10、设置特征融合过程中的初始参数:mepoch,m_batch_size,m_layer_number,W,b,W',b'构造无监督堆叠稀疏自编码器SSAE即前向网络);
步骤5.11、计算迭代次数miter=size(CX)/m_batch_size;
步骤5.12、通过判断m_c_l>m_layer_number是否成立来判断当前层数m_c_l是否超过m_layer_number设置的最大网络层数,如果判断结果为“真”则转步骤5.14,若判断结果为“否”则转步骤5.13;
步骤5.13、融合数据集FXm_c_l采用步骤5.4-步骤5.7中所述的分批次训练过程,此处,当m_c_l=1时FX=CX;在融合阶段分批次训练过程:
利用
Figure FDA0002399462590000041
更新权重
Figure FDA0002399462590000045
Figure FDA0002399462590000046
其中
Figure FDA0002399462590000042
作为惩罚项惩罚
Figure FDA0002399462590000043
严重偏离ρ,β是惩罚项的权重,
Figure FDA0002399462590000044
是第j个神经元被激活的概率,ρ为稀疏参数,转入步骤5.12;
步骤5.14、FXm_layer_number即经最后一层隐含层转换后的数据集将作为特征融合后的数据集。
其中,步骤5.1-步骤5.8为MSDAE算法中特征学习部分,步骤5.9-步骤5.14是MSDAE算法的特征融合部分。
5.根据权利要求1所述的多维度分布式异常交易行为检测方法,其特征在于:所述步骤6中SpaEnsemble集成框架训练基分类模型的过程如下:
步骤6.1、将L个多样性训练子集X″i,写入分布式文件系统HDFS中;
步骤6.2、Apache Spark的Driver下发任务到L个worker节点,每个worker节点由MSDAE以及C个基分类算法组成;
步骤6.3、每个worker从HDFS读取一个训练子集,然后调用MSDAE算法训练该深度学习模型并生成对应的融合数据集FX,FX作为C个基分类器的输入数据进行分类模型的训练;
步骤6.4、通过步骤6.3训练得到C种分类模型,其中1个模型作为主分类模型其预测值作为最终输出,其它C-1个分类器作为辅助分类模型,当且仅当辅助分类模型预测值相同但与主分类模型预测不同时,可修正主分类模型的预测值并输出;
步骤6.5、Driver汇总所有worker节点的输出,并由自适应用加权方法AdaVoting计算最终预测结果;
步骤6.6、在测试阶段即监管阶段,各worker节点从HDFS读取测试集,然后输入该测试集到步骤6.3训练的MSDAE模型得到融合数据集FXtest,接下来将FXtest输入到步骤6.4中训练的基分类器中得出预测结果,判断是否需要修正主分类器的输出并输出主分类器的预测结果,最后由Driver汇总各worker节点的预测结果并通过AdaVoting算法计算最终的预测结果返回给用户。
6.根据权利要求1所述的多维度分布式异常交易行为检测方法,其特征在于:所述步骤7所述自适应加权投票方法AdaVoting为:
Figure FDA0002399462590000051
其中,wi是hi的权重,wi的取值随训练集中正负样本的比例变化而变化,
Figure FDA0002399462590000052
为基分类器hi在样本x上的输出。
CN202010142130.4A 2020-03-04 2020-03-04 一种多维度分布式异常交易行为检测方法 Active CN111340493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010142130.4A CN111340493B (zh) 2020-03-04 2020-03-04 一种多维度分布式异常交易行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010142130.4A CN111340493B (zh) 2020-03-04 2020-03-04 一种多维度分布式异常交易行为检测方法

Publications (2)

Publication Number Publication Date
CN111340493A true CN111340493A (zh) 2020-06-26
CN111340493B CN111340493B (zh) 2023-05-05

Family

ID=71182093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010142130.4A Active CN111340493B (zh) 2020-03-04 2020-03-04 一种多维度分布式异常交易行为检测方法

Country Status (1)

Country Link
CN (1) CN111340493B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949702A (zh) * 2020-07-03 2020-11-17 浙江口碑网络技术有限公司 异常交易数据的识别方法、装置及设备
CN111984698A (zh) * 2020-08-07 2020-11-24 北京芯盾时代科技有限公司 一种信息预测方法、装置及存储介质
CN112035841A (zh) * 2020-08-17 2020-12-04 杭州云象网络技术有限公司 一种基于专家规则与序列化建模的智能合约漏洞检测方法
CN112261018A (zh) * 2020-10-13 2021-01-22 中国光大银行股份有限公司 异常对象的检测方法及装置、存储介质、电子装置
CN113222480A (zh) * 2021-06-11 2021-08-06 支付宝(杭州)信息技术有限公司 对抗样本生成模型的训练方法及装置
CN113254939A (zh) * 2021-05-20 2021-08-13 江苏大学 基于多注意力机制和自适应学习的智能合约漏洞检测方法
CN114186646A (zh) * 2022-02-15 2022-03-15 国网区块链科技(北京)有限公司 区块链异常交易识别方法及装置、存储介质及电子设备
CN114785526A (zh) * 2022-06-16 2022-07-22 德德市界(深圳)科技有限公司 基于区块链的多用户多批次权重分配计算及存储处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548330A (zh) * 2016-10-27 2017-03-29 上海亿账通区块链科技有限公司 基于区块链的交易验证方法及系统
CN110009347A (zh) * 2019-03-20 2019-07-12 深圳前海微众银行股份有限公司 一种区块链交易信息审计的方法及装置
US20190332955A1 (en) * 2018-04-30 2019-10-31 Hewlett Packard Enterprise Development Lp System and method of decentralized machine learning using blockchain

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548330A (zh) * 2016-10-27 2017-03-29 上海亿账通区块链科技有限公司 基于区块链的交易验证方法及系统
US20190332955A1 (en) * 2018-04-30 2019-10-31 Hewlett Packard Enterprise Development Lp System and method of decentralized machine learning using blockchain
CN110009347A (zh) * 2019-03-20 2019-07-12 深圳前海微众银行股份有限公司 一种区块链交易信息审计的方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949702A (zh) * 2020-07-03 2020-11-17 浙江口碑网络技术有限公司 异常交易数据的识别方法、装置及设备
CN111984698A (zh) * 2020-08-07 2020-11-24 北京芯盾时代科技有限公司 一种信息预测方法、装置及存储介质
CN111984698B (zh) * 2020-08-07 2021-03-19 北京芯盾时代科技有限公司 一种信息预测方法、装置及存储介质
CN112035841A (zh) * 2020-08-17 2020-12-04 杭州云象网络技术有限公司 一种基于专家规则与序列化建模的智能合约漏洞检测方法
CN112035841B (zh) * 2020-08-17 2024-05-14 杭州云象网络技术有限公司 一种基于专家规则与序列化建模的智能合约漏洞检测方法
CN112261018B (zh) * 2020-10-13 2023-01-31 中国光大银行股份有限公司 异常对象的检测方法及装置、存储介质、电子装置
CN112261018A (zh) * 2020-10-13 2021-01-22 中国光大银行股份有限公司 异常对象的检测方法及装置、存储介质、电子装置
CN113254939A (zh) * 2021-05-20 2021-08-13 江苏大学 基于多注意力机制和自适应学习的智能合约漏洞检测方法
CN113254939B (zh) * 2021-05-20 2024-04-19 江苏大学 基于多注意力机制和自适应学习的智能合约漏洞检测方法
CN113222480A (zh) * 2021-06-11 2021-08-06 支付宝(杭州)信息技术有限公司 对抗样本生成模型的训练方法及装置
CN113222480B (zh) * 2021-06-11 2023-05-12 支付宝(杭州)信息技术有限公司 对抗样本生成模型的训练方法及装置
CN114186646A (zh) * 2022-02-15 2022-03-15 国网区块链科技(北京)有限公司 区块链异常交易识别方法及装置、存储介质及电子设备
CN114785526A (zh) * 2022-06-16 2022-07-22 德德市界(深圳)科技有限公司 基于区块链的多用户多批次权重分配计算及存储处理系统

Also Published As

Publication number Publication date
CN111340493B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN111340493A (zh) 一种多维度分布式异常交易行为检测方法
Cai et al. An under‐sampled software defect prediction method based on hybrid multi‐objective cuckoo search
Du et al. NIDS-CNNLSTM: Network intrusion detection classification model based on deep learning
Potluri et al. Evaluation of hybrid deep learning techniques for ensuring security in networked control systems
CN113688869A (zh) 一种基于生成对抗网络的光伏数据缺失重构方法
Tomar et al. Prediction of quality using ANN based on Teaching‐Learning Optimization in component‐based software systems
Tua et al. Software defect prediction using software metrics with naïve bayes and rule mining association methods
CN113887694A (zh) 一种注意力机制下基于特征表征的点击率预估模型
CN117580046A (zh) 一种基于深度学习的5g网络动态安全能力调度方法
CN116599683A (zh) 一种恶意流量检测方法、系统、装置及存储介质
CN106453294A (zh) 基于模糊淘汰机制的小生境技术的安全态势预测方法
Kalifullah et al. Retracted: Graph‐based content matching for web of things through heuristic boost algorithm
Castiglia et al. Multi-level local sgd for heterogeneous hierarchical networks
CN116483633A (zh) 一种数据增广方法及相关装置
Dong et al. Heterogeneous graph neural architecture search with gpt-4
CN116595530A (zh) 一种结合对抗迁移学习和多任务学习的智能合约漏洞检测方法
Zhang et al. Zhang neural network without using time-derivative information for constant and time-varying matrix inversion
Balaram et al. A Hybrid Soft Computing Technique for Software Fault Prediction based on Optimal Feature Extraction and Classification
Alkafagi Build Network Intrusion Detection System based on combination of Fractal Density Peak Clustering and Artificial Neural Network
Wang et al. An enhanced software defect prediction model with multiple metrics and learners
Moudache et al. Using Metrics for Risk Prediction in Object-Oriented Software: A Cross-Version Validation.
Wu et al. An improved SMOTE algorithm for processing unbalanced electric charge data sets
CN112650770B (zh) 基于query workload分析的MySQL参数推荐方法
CN116015787B (zh) 基于混合持续变分量子神经网络的网络入侵检测方法
Du et al. Topology-sensitive neural architecture search for language modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant