CN114331731A - 基于pca与rf的区块链异常检测方法及相关装置 - Google Patents

基于pca与rf的区块链异常检测方法及相关装置 Download PDF

Info

Publication number
CN114331731A
CN114331731A CN202210183812.9A CN202210183812A CN114331731A CN 114331731 A CN114331731 A CN 114331731A CN 202210183812 A CN202210183812 A CN 202210183812A CN 114331731 A CN114331731 A CN 114331731A
Authority
CN
China
Prior art keywords
model
block chain
data
detected
transaction data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210183812.9A
Other languages
English (en)
Inventor
李达
王合建
陈帅
周磊
郭庆雷
罗招权
石欣
熬锦
王刚鹏
王欣楠
朱红英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guowang Xiongan Finance Technology Group Co ltd
State Grid Blockchain Technology Beijing Co ltd
State Grid E Commerce Co Ltd
Original Assignee
Guowang Xiongan Finance Technology Group Co ltd
State Grid Blockchain Technology Beijing Co ltd
State Grid E Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guowang Xiongan Finance Technology Group Co ltd, State Grid Blockchain Technology Beijing Co ltd, State Grid E Commerce Co Ltd filed Critical Guowang Xiongan Finance Technology Group Co ltd
Priority to CN202210183812.9A priority Critical patent/CN114331731A/zh
Publication of CN114331731A publication Critical patent/CN114331731A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于PCA与RF的区块链异常检测方法,包括调用PCA模型对原始交易数据进行降维,得到待检测数据;调用贝叶斯优化模型对待检测数据进行调优训练,得到随机森林模型最优超参数;基于所得超参数进行随机森林模型训练,得到区块链异常检测模型;调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果。通过PCA模型对所述原始交易数据进行降维,可以减小冗余特征干扰,提高异常检测性能;通过贝叶斯优化模型实现随机森林超参数智能化优化,可以提高分类性能,消除区块链交易数据正负样本极不平衡的影响。本发明还提供了一种装置、设备及存储介质,同样具有上述有益效果。

Description

基于PCA与RF的区块链异常检测方法及相关装置
技术领域
本发明涉及区块链网络技术领域,特别是涉及一种基于PCA与RF的区块链异常检测方法、一种基于PCA与RF的区块链异常检测装置、一种基于PCA与RF的区块链异常检测设备以及一种计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,越来越多的个人用户与企业关注并使用互联网金融技术,这在给人们带来便利的同时,诈骗、洗钱、庞氏骗局等金融犯罪问题也频繁发生. 特别是随着数据维度高、增长速率快、类型多样化的区块链技术的出现,不法分子利用其匿名性造成金融犯罪过程更加隐蔽与智能,传统金融监管方式已无法应对日益复杂的违法手段如何运用大数据和人工智能的先进手段实现区块链异常交易检测是落实区块链应用的关键问题。
数字货币是迄今为止最为成功的区块链应用场景,也是近十年在数字货币投资领域和研究领域中最流行的话题之一。因为数字货币具有分布式和匿名性这两个特点,近些年数字货币吸引大量用户资本,积累大量交易数据。数字货币庞大的基础用户量和匿名性,使得其用户的身份更容易被隐藏。所以许多不怀好意之人正是利用了数字货币的这种高价值属性与匿名性来实施恶意行为。虽然数字货币交易场景很难实现人工监管, 但是其完整的交易数据在区块链上是公开透明的,使利用大数据和人工智能等技术实现数据驱动的智能化反洗钱监管方案成为可能。
传统的区块链异常交易检测方法为基于固定阈值的异常判断,该方式需要针对不同的场景设定不同的阈值,系统根据阈值标记出可疑交易然后交由人工处理,完全基于人的主观经验,极不灵活且可靠性很低。而基于机器学习的异常检测方法不仅能有效地识别出异常交易,大幅提高监管效率,还可以识别出传统方法难以发现的问题,从而提高异常检测的准确性。然而在区块链异常检测中,异常交易往往隐藏在大量正常交易中,可能会故意模仿正常交易行为,导致合法和非法交易的界限不明显,两者特征值差异较小,所以基于无监督学习的方法会导致高误报率和漏报率,并不适用于实际场景下的异常检测。然而区块链交易数据量庞大,区块信息维度极高,区块链交易信息存在相关性低、正负样本极不平衡的特点,部分冗余特征导致有监督学习模型训练效果下降,经常导致欠拟合情况的发生。所以如何提供一种可以准确识别出区块链中异常交易数据是本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种基于PCA与RF的区块链异常检测方法,可以准确检测出区块链中异常交易数据;本发明还提供了一种基于PCA与RF的区块链异常检测装置、一种基于PCA与RF的区块链异常检测设备以及一种计算机可读存储介质,可以准确检测出区块链中异常交易数据。
为解决上述技术问题,本发明提供一种基于PCA与RF的区块链异常检测方法,包括:
获取目标区块链中的原始交易数据;
调用PCA模型对所述原始交易数据进行降维,得到待检测数据;
调用贝叶斯优化模型对待检测数据进行调优训练,得到随机森林模型最优超参数;
基于所得超参数进行随机森林模型训练,得到区块链异常检测随机森林模型;
调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果。可选的,所述调用PCA模型对所述原始交易数据进行降维,得到待检测数据包括:
根据所述原始交易数据生成区块链交易数据矩阵;
根据所述区块链交易数据矩阵生成相关系数矩阵,并生成所述相关系数矩阵的特征值;
根据所述特征值计算对应的主成分累计贡献率,选取大于贡献率阈值的主成分累计贡献率所对应的主成分作为待检测数据。
可选的,所述调用贝叶斯优化模型对待检测数据进行调优训练,得到随机森林模型最优超参数包括:
定义模型超参数优化的目标函数,所述超参数优化的目标函数服从高斯分布;
根据所述模型超参数优化的目标函数获取贝叶斯优化的代理目标函数;
根据所述模型超参数优化的目标函数进行高斯回归过程处理,得到所述模型超参数优化的目标函数的后验概率;
根据所述后验概率的均值和方差采用期望改进函数对所述贝叶斯优化的代理目标函数进行参数更新,得到最优超参数。
可选的,所述基于所得超参数进行随机森林模型训练,得到区块链异常检测随机森林模型包括:
根据所述待检测数据有放回地随机抽取若干个样本集,得到待检测子样本集;所述样本集数量为通过贝叶斯优化模型进行优化后所得超参数;
根据所述待检测子样本集随机抽取若干个属性,得到子决策树节点分裂的侯选属性;所述侯选属性数量为通过贝叶斯优化模型进行优化后所得超参数;
根据若干个所述待检测子样本集基于Gini系数最大原则生成子决策树,得到由多颗子决策树构成的区块链异常检测随机森林模型。
本发明还提供了一种基于PCA与RF的区块链异常检测装置,包括:
交易数据获取模块,用于获取目标区块链中的原始交易数据;
降维模块,用于调用PCA模型对所述原始交易数据进行降维,得到待检测数据;
超参数优化模块,用于调用贝叶斯优化模型对待检测数据进行调优训练,得到随机森林模型超参数;
训练模块,用于根据所述超参数进行随机森林模型训练,得到区块链异常检测随机森林模型;
检测模块,用于调用预先训练的随机森林模型对所述待检测数据进行计算,得到对应所述原始交易数据的异常检测结果。
可选的,所述降维模块包括:
数据矩阵单元,用于根据所述原始交易数据生成区块链交易数据矩阵;
相关系数矩阵单元,用于根据所述区块链交易数据矩阵生成相关系数矩阵,并生成所述相关系数矩阵的特征值;
降维单元,用于根据所述特征值计算对应的主成分累计贡献率,选取大于贡献率阈值的主成分累计贡献率所对应的主成分作为待检测数据。
可选的,所述超参数优化模块包括:
函数初始化单元,定义模型超参数优化的目标函数,所述超参数优化的目标函数服从高斯分布;
代理目标函数单元,根据所述模型超参数优化的目标函数获取贝叶斯优化的代理目标函数;
高斯回归过程单元,对所述模型超参数优化的目标函数进行高斯回归过程处理,得到所述模型超参数优化的目标函数的后验概率;
参数更新单元,根据所述后验概率的均值和方差采用期望改进函数对所述贝叶斯优化的代理目标函数进行参数更新,得到最优超参数。
可选的,所述训练模块包括:
数据采样单元,根据所述待检测数据有放回地随机抽取若干个样本集,得到待检测子样本集;所述样本集数量为通过贝叶斯优化模型进行优化后所得超参数;
属性分裂单元,根据所述待检测子样本集随机抽取若干个属性,得到子决策树节点分裂的侯选属性;所述侯选属性数量为通过贝叶斯优化模型进行优化后所得超参数;
模型生成单元,根据若干个所述待检测子样本集基于Gini系数最大原则生成子决策树,得到由多颗子决策树构成的区块链异常检测随机森林模型。本发明还提供了一种基于PCA与RF的区块链异常检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述基于PCA与RF的区块链异常检测方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行以实现如上述任意一项所述基于PCA与RF的区块链异常检测方法的步骤。
本发明所提供的一种基于PCA与RF的区块链异常检测方法,包括:获取目标区块链中的原始交易数据;调用PCA模型对原始交易数据进行降维,得到待检测数据;调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果;随机森林模型为基于超参数进行的随机森林模型训练,得到的随机森林模型;超参数为调用贝叶斯优化模型对待检测数据进行调优训练,得到的对应随机森林模型的最优超参数。
通过PCA模型对所述原始交易数据进行降维,可以减小冗余特征干扰,提高模型训练效果,解决了区块链交易数据量庞大,区块信息维度极高,部分冗余特征导致模型训练计算复杂度高、学习效率低下,拟合程度差的问题。通过贝叶斯优化模型实现随机森林超参数智能化优化,提高区块链异常检测性能,消除区块链交易数据正负样本极不平衡的影响,解决了区块链异常检测技术灵活性差、准确性低的问题。
本发明还提供了一种基于PCA与RF的区块链异常检测装置、一种基于PCA与RF的区块链异常检测设备以及一种计算机可读存储介质,同样具有上述有益效果,在此不再进行赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种基于PCA与RF的区块链异常检测方法的流程图;
图2为本发明实施例所提供的一种具体的基于PCA与RF的区块链异常检测方法的流程图;
图3为本发明实施例所提供的一种基于PCA与RF的区块链异常检测装置的结构框图;
图4为本发明实施例所提供的一种基于PCA与RF的区块链异常检测设备的结构框图。
具体实施方式
本发明的核心是提供一种基于PCA与RF的区块链异常检测方法。在现有技术中,现有的区块链异常检测技术需要专业技术人员根据实时数据选择适当阈值,在面对变化快、类型多的区块链交易时灵活性差、准确性低;且区块链交易数据量庞大,区块信息维度极高,部分冗余特征导致模型训练计算复杂度高、学习效率低下,拟合程度差。
而本发明所提供的一种基于PCA与RF的区块链异常检测方法,包括:获取目标区块链中的原始交易数据;调用PCA模型对原始交易数据进行降维,得到待检测数据;调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果;随机森林模型为基于超参数进行的随机森林模型训练,得到的随机森林模型;超参数为调用贝叶斯优化模型对待检测数据进行调优训练,得到的对应随机森林模型的最优超参数。
通过PCA模型对所述原始交易数据进行降维,可以减小冗余特征干扰,提高模型训练效果,解决了区块链交易数据量庞大,区块信息维度极高,部分冗余特征导致模型训练计算复杂度高、学习效率低下,拟合程度差的问题。通过贝叶斯优化模型实现随机森林超参数智能化优化,提高区块链异常检测性能,消除区块链交易数据正负样本极不平衡的影响,解决了区块链异常检测技术灵活性差、准确性低的问题。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例所提供的一种基于PCA与RF的区块链异常检测方法的流程图。
参见图1,在本发明实施例中,基于PCA与RF的区块链异常检测方法包括:
S101:获取目标区块链中的原始交易数据。
在本步骤中,首选需要获取目标区块链,即待检测区块链中的原始交易数据。原始交易数据即未经过降维,信息维度极高,且包括冗余信息的数据。有关该数据的具体内容需要根据实际情况自行设定,在此不做具体限定。
S102:调用PCA模型对所述原始交易数据进行降维,得到待检测数据。
PCA模型即对应PCA算法的模型,PCA(principle component analysis),即主成分分析法,是一个应用于探索高维数据结构的技术,分析数据主成分贡献度对数据进行降维,通过降维可以去除冗余特征,加快对样本有价值信息的处理速度。在多元统计分析中,主成分分析是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。PCA算法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分,即特征向量;与它们的权值,即特征值。
在本步骤中,采用PCA算法实现高维区块链交易数据降维,可以减小冗余特征干扰,提高异常检测性能。有关本步骤的具体内容将在下述发明实施例中做详细介绍,在此不再进行赘述。
S103:调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果。
在本发明实施例中,所述随机森林模型为基于超参数进行的随机森林模型训练,得到的随机森林模型;所述超参数为调用贝叶斯优化模型对待检测数据进行调优训练,得到的对应随机森林模型的最优超参数。上述随机森林模型即基于RF(Random Forests)所构建的模型。
即在本步骤之前,通常需要先调用贝叶斯优化模型对待检测数据进行调优训练,得到随机森林模型最优超参数;之后再调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果。最终,在本步骤中会调用训练好的随机森林模型实现对原始交易数据的异常检测结果。
具体的,在本发明实施例中,贝叶斯优化模型具体为贝叶斯优化算法,利用贝叶斯优化算法实现随机森林超参数智能化优化,可以提升随机森林模型的分类性能,消除区块链交易数据正负样本极不平衡的影响。具体的,在本发明实施例中需要优化随机森林模型中的超参数如:决策树预设棵数Ntree、最大深度Dtree。有关贝叶斯优化模型的具体内容将在下述发明实施例中做详细介绍,在此不再进行赘述。
而区块链交易数据由于低相关性的特征影响,诸如逻辑回归、多层感知机等分类模型在区块链异常交易检测方面会因学习效果差而导致欠拟合情况的发生。随机森林分类器作为机器学习中的集成学习模型,在处理不相关特征方面具有良好性能,并且针对区块链交易数据规模大且正负样本极不平衡的特点,仍能取得良好准确率。特别当随机森林运用到经PCA降维后的区块链数据上不会产生过拟合,相较于其它方法优势明显。
在本发明实施例中,所述随机森林模型中的超参数为通过贝叶斯优化模型进行优化后的超参数。
在本步骤中,将S102经过降维的待检测数据输入训练好的随机森林模型,可以得到对应原始交易数据的异常检测结果,具体可以识别出原始交易数据是否存在异常交易行为等等。有关该异常检测结果的具体内容可以根据实际情况自行确定,在此不做具体限定。
本发明实施例所提供的一种基于PCA与RF的区块链异常检测方法,包括:获取目标区块链中的原始交易数据;调用PCA模型对原始交易数据进行降维,得到待检测数据;调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果;随机森林模型为基于超参数进行的随机森林模型训练,得到的随机森林模型;超参数为调用贝叶斯优化模型对待检测数据进行调优训练,得到的对应随机森林模型的最优超参数。
通过PCA模型对所述原始交易数据进行降维,可以减小冗余特征干扰,提高模型训练效果,解决了区块链交易数据量庞大,区块信息维度极高,部分冗余特征导致模型训练计算复杂度高、学习效率低下,拟合程度差的问题。通过贝叶斯优化模型实现随机森林超参数智能化优化,提高区块链异常检测性能,消除区块链交易数据正负样本极不平衡的影响,解决了区块链异常检测技术灵活性差、准确性低的问题。
有关本发明所提供的一种基于PCA与RF的区块链异常检测方法的具体内容将在下述发明实施例中做详细介绍。
请参考图2,图2为本发明实施例所提供的一种具体的基于PCA与RF的区块链异常检测方法的流程图。
参见图2,在本发明实施例中,基于PCA与RF的区块链异常检测方法包括:
S201:获取目标区块链中的原始交易数据。
本步骤与上述发明实施例中S101基本一致,详细内容请参考上述发明实施例,在此不再进行赘述。
S202:根据原始交易数据生成区块链交易数据矩阵。
在本步骤中,首先需要将对原始交易数据构成的区块链交易数据集进行标准化。设区块链交易数据矩阵为:
Figure 266539DEST_PATH_IMAGE001
在本步骤中通常会通过如下列公式标准化处理数据:
Figure 896104DEST_PATH_IMAGE002
其中
Figure 725519DEST_PATH_IMAGE003
Figure 706114DEST_PATH_IMAGE004
为均值,
Figure 544757DEST_PATH_IMAGE005
为标准差。
S203:根据区块链交易数据矩阵生成相关系数矩阵,并生成相关系数矩阵的特征值。
在本步骤中,需要计算相关系数矩阵
Figure 169773DEST_PATH_IMAGE006
;其中:
Figure 560303DEST_PATH_IMAGE007
之后,在本步骤中还需要计算相关系数矩阵
Figure 903560DEST_PATH_IMAGE006
的特征值
Figure 903483DEST_PATH_IMAGE008
以及特征值对应的单位特征向量
Figure 648585DEST_PATH_IMAGE009
S204:根据特征值计算对应的主成分累计贡献率,选取大于贡献率阈值的主成分累计贡献率所对应的主成分作为待检测数据。
在本步骤中,需要计算主成分累计贡献率,具体可以选取累计95%贡献率的主成分,即设置贡献率阈值为95%,选取大于贡献率阈值的主成分。当然对于上述贡献率阈值的具体数值可以根据实际情况自行设定,在此不做具体限定。
在本步骤中可以通过下述公式计算主成分累计贡献率:
Figure 413279DEST_PATH_IMAGE010
Figure 680050DEST_PATH_IMAGE011
其中vh为第h个主成分贡献率,vs为前k个主成分累计贡献率。在本步骤中,将提取
Figure 155769DEST_PATH_IMAGE012
个主成分的矩阵记为
Figure 614432DEST_PATH_IMAGE013
,即降维后的Elliptic数据矩阵,降维后的数据集记为
Figure 222131DEST_PATH_IMAGE014
,该数据集D即为后续步骤所需要使用的待检测数据。
S205:获取训练数据。
在本步骤中,需要获取训练数据,以便在后续步骤中对随机森林模型进行训练。具体的,上述训练数据通常为调用PCA模型对原始训练数据进行降维所生成的训练数据,从而保证随机森林模型可以正常的通过上述步骤被正常使用。
S206:调用贝叶斯优化模型对待检测数据进行调优训练,得到随机森林模型最优超参数。
在本步骤中,贝叶斯优化模型所需要优化的超参数为决策树预设棵数Ntree、及其最大深度Dtree
对于贝叶斯优化模型,首先需要给定观测数据集
Figure 133455DEST_PATH_IMAGE015
和最大迭代次数
Figure 976646DEST_PATH_IMAGE016
,并初始化随机森林超参数组合
Figure 430761DEST_PATH_IMAGE017
;其中观测数据集
Figure 835460DEST_PATH_IMAGE015
可以为经过PCA模型降维的训练数据。
之后,需要根据以下公式更新目标函数的先验概率代理模型:
Figure 375026DEST_PATH_IMAGE018
其中,
Figure 21908DEST_PATH_IMAGE019
为第
Figure 330529DEST_PATH_IMAGE020
次迭代的观测数据集,
Figure 545610DEST_PATH_IMAGE021
Figure 165947DEST_PATH_IMAGE022
为第
Figure 757465DEST_PATH_IMAGE020
次迭代的超参数,
Figure 871659DEST_PATH_IMAGE023
Figure 257640DEST_PATH_IMAGE022
对应的先验概率分布函数,
Figure 771798DEST_PATH_IMAGE024
为标准正态分布的分布函数,
Figure 760483DEST_PATH_IMAGE025
为数学期望,
Figure 43697DEST_PATH_IMAGE026
为方差,
Figure 725214DEST_PATH_IMAGE027
为噪声方差。通常,所述超参数优化的目标函数服从高斯分布。
之后,需要计算下一观测点
Figure 87187DEST_PATH_IMAGE028
,其中:
Figure 879563DEST_PATH_IMAGE029
Figure 751704DEST_PATH_IMAGE030
上述
Figure 745068DEST_PATH_IMAGE031
为当前已观测点的最大函数值,
Figure 155189DEST_PATH_IMAGE032
为概率密度函数。
再之后,需要计算模型精确率:
Figure 921895DEST_PATH_IMAGE033
其中TP是预测为正实际为正的样本数,FP是预测为正实际为负的样本数。
之后,可以更新观测数据集
Figure 304335DEST_PATH_IMAGE034
最终重复上述更新目标函数的先验概率代理模型,至更新观测数据集的步骤,直到达到最大迭代次数I,即可获得最优超参数
Figure 203020DEST_PATH_IMAGE035
总结来说,本步骤通常具体包括:定义模型超参数优化的目标函数;所述超参数优化的目标函数服从高斯分布;
根据所述模型超参数优化的目标函数获取贝叶斯优化的代理目标函数;
根据所述模型超参数优化的目标函数进行高斯回归过程处理,得到所述模型超参数优化的目标函数的后验概率;
根据所述后验概率的均值和方差采用期望改进函数EI对所述贝叶斯优化的代理目标函数进行参数更新,得到最优超参数。
S207:基于所得超参数进行随机森林模型训练,得到区块链异常检测模型。
在本步骤中,需要根据上述最优超参数构建随机森林模型中的决策树,通常是根据上述优化后的超参数使节点分裂形成子决策树,多颗子决策树并行训练,得到区块链异常检测模型。
具体的,该训练过程首先从原始训练集,即训练数据中随机有放回进行Ntree次采样,生成Ntree个训练集。
之后,需要使用每一个训练集训练一颗子决策树Ntree,共生成Ntree颗子决策树。具体的,对于单个决策树模型,每次分裂时根据基尼指数选择最好的特征进行分裂,分裂到最大深度Dtree,停止当前节点递归,生成子决策树。
此时,每棵子决策树为一个弱学习器,会输出一个预测结果,随机森林模型最终根据多数投票原则输出预测结果。具体的,本步骤通常可以具体包括:
根据所述待检测数据有放回地随机抽取样本集,得到待检测子样本集;所述样本集数量为通过贝叶斯优化模型进行优化后所得超参数;
根据所述待检测子样本集随机抽取属性,得到子决策树节点分裂的侯选属性;所述侯选属性数量为通过贝叶斯优化模型进行优化后所得超参数;
根据所述待检测子样本集基于Gini系数最大原则生成子决策树,得到由多颗子决策树构成的随机森林模型。
S208:调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果。
本步骤与上述发明实施例中S105基本一致,详细内容请参考上述发明实施例,在此不再进行赘述。
本发明实施例所提供的一种基于PCA与RF的区块链异常检测方法,通过PCA模型对所述原始交易数据进行降维,可以减小冗余特征干扰,提高模型训练效果,解决了区块链交易数据量庞大,区块信息维度极高,部分冗余特征导致模型训练计算复杂度高、学习效率低下,拟合程度差的问题。通过贝叶斯优化模型实现随机森林超参数智能化优化,提高区块链异常检测性能,消除区块链交易数据正负样本极不平衡的影响,解决了区块链异常检测技术灵活性差、准确性低的问题。
下面对本发明实施例所提供的一种基于PCA与RF的区块链异常检测装置进行介绍,下文描述的基于PCA与RF的区块链异常检测装置与上文描述的基于PCA与RF的区块链异常检测方法可相互对应参照。
请参考图3,图3为本发明实施例所提供的一种基于PCA与RF的区块链异常检测装置的结构框图。参照图3,基于PCA与RF的区块链异常检测装置可以包括:
交易数据获取模块100,用于获取目标区块链中的原始交易数据。
降维模块200,用于调用PCA模型对所述原始交易数据进行降维,得到待检测数据。
检测模块300,用于调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果;所述随机森林模型为基于超参数进行的随机森林模型训练,得到的随机森林模型;所述超参数为调用贝叶斯优化模型对待检测数据进行调优训练,得到的对应随机森林模型的最优超参数。
作为优选的,在本发明实施例中,所述降维模块包括:
数据矩阵单元,用于根据所述原始交易数据生成区块链交易数据矩阵;
相关系数矩阵单元,用于根据所述区块链交易数据矩阵生成相关系数矩阵,并生成所述相关系数矩阵的特征值;
降维单元,用于根据所述特征值计算对应的主成分累计贡献率,选取大于贡献率阈值的主成分累计贡献率所对应的主成分作为待检测数据。
作为优选的,在本发明实施例中,还包括:
函数初始化单元,用于定义模型超参数优化的目标函数;所述超参数优化的目标函数服从高斯分布;
代理目标函数单元,用于根据所述模型超参数优化的目标函数获取贝叶斯优化的代理目标函数;
高斯回归过程单元,用于对所述模型超参数优化的目标函数进行高斯回归过程处理,得到所述模型超参数优化的目标函数的后验概率;
参数更新单元,用于根据所述后验概率的均值和方差采用期望改进函数对所述贝叶斯优化的代理目标函数进行参数更新,得到最优超参数。
作为优选的,在本发明实施例中,还包括:
数据采样单元,用于根据所述待检测数据有放回地随机抽取样本集,得到待检测子样本集;所述样本集数量为通过贝叶斯优化模型进行优化后所得超参数;
属性分裂单元,用于根据所述待检测子样本集随机抽取属性,得到子决策树节点分裂的侯选属性;所述侯选属性数量为通过贝叶斯优化模型进行优化后所得超参数;
模型生成单元,用于根据所述待检测子样本集基于Gini系数最大原则生成子决策树,得到由多颗子决策树构成的随机森林模型。
本实施例的基于PCA与RF的区块链异常检测装置用于实现前述的基于PCA与RF的区块链异常检测方法,因此基于PCA与RF的区块链异常检测装置中的具体实施方式可见前文中的基于PCA与RF的区块链异常检测方法的实施例部分,例如,交易数据获取模块100,降维模块200,检测模块300,分别用于实现上述基于PCA与RF的区块链异常检测方法中步骤S101至S103,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
下面对本发明实施例提供的一种基于PCA与RF的区块链异常检测设备进行介绍,下文描述的基于PCA与RF的区块链异常检测设备与上文描述的基于PCA与RF的区块链异常检测方法以及基于PCA与RF的区块链异常检测装置可相互对应参照。
请参考图4,图4为本发明实施例所提供的一种基于PCA与RF的区块链异常检测设备的结构框图。
参照图4,该基于PCA与RF的区块链异常检测设备可以包括处理器11和存储器12。
所述存储器12用于存储计算机程序;所述处理器11用于执行所述计算机程序时实现上述发明实施例中所述的基于PCA与RF的区块链异常检测方法的具体内容。
本实施例的基于PCA与RF的区块链异常检测设备中处理器11用于安装上述发明实施例中所述的基于PCA与RF的区块链异常检测装置,同时处理器11与存储器12相结合可以实现上述任一发明实施例中所述的基于PCA与RF的区块链异常检测方法。因此基于PCA与RF的区块链异常检测设备中的具体实施方式可见前文中的基于PCA与RF的区块链异常检测方法的实施例部分,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一发明实施例中所介绍的一种基于PCA与RF的区块链异常检测方法。其余内容可以参照现有技术,在此不再进行展开描述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种基于PCA与RF的区块链异常检测方法、一种基于PCA与RF的区块链异常检测装置、一种基于PCA与RF的区块链异常检测设备以及一种计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种基于PCA与RF的区块链异常检测方法,其特征在于,包括:
获取目标区块链中的原始交易数据;
调用PCA模型对所述原始交易数据进行降维,得到待检测数据;
调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果;所述随机森林模型为基于超参数进行的随机森林模型训练,得到的随机森林模型;所述超参数为调用贝叶斯优化模型对待检测数据进行调优训练,得到的对应随机森林模型的最优超参数。
2.根据权利要求1所述的方法,其特征在于,所述调用PCA模型对所述原始交易数据进行降维,得到待检测数据包括:
根据所述原始交易数据生成区块链交易数据矩阵;
根据所述区块链交易数据矩阵生成相关系数矩阵,并生成所述相关系数矩阵的特征值;
根据所述特征值计算对应的主成分累计贡献率,选取大于贡献率阈值的主成分累计贡献率所对应的主成分作为待检测数据。
3.根据权利要求1所述的方法,其特征在于,还包括:
定义模型超参数优化的目标函数;所述超参数优化的目标函数服从高斯分布;
根据所述模型超参数优化的目标函数获取贝叶斯优化的代理目标函数;
根据所述模型超参数优化的目标函数进行高斯回归过程处理,得到所述模型超参数优化的目标函数的后验概率;
根据所述后验概率的均值和方差采用期望改进函数对所述贝叶斯优化的代理目标函数进行参数更新,得到最优超参数。
4.根据权利要求1所述的方法,其特征在于,还包括:
根据所述待检测数据有放回地随机抽取样本集,得到待检测子样本集;所述样本集数量为通过贝叶斯优化模型进行优化后所得超参数;
根据所述待检测子样本集随机抽取属性,得到子决策树节点分裂的侯选属性;所述侯选属性数量为通过贝叶斯优化模型进行优化后所得超参数;
根据所述待检测子样本集基于Gini系数最大原则生成子决策树,得到由多颗子决策树构成的随机森林模型。
5.一种基于PCA与RF的区块链异常检测装置,其特征在于,包括:
交易数据获取模块,用于获取目标区块链中的原始交易数据;
降维模块,用于调用PCA模型对所述原始交易数据进行降维,得到待检测数据;
检测模块,用于调用预先训练的随机森林模型对待检测数据进行计算,得到对应原始交易数据的异常检测结果;所述随机森林模型为基于超参数进行的随机森林模型训练,得到的随机森林模型;所述超参数为调用贝叶斯优化模型对待检测数据进行调优训练,得到的对应随机森林模型的最优超参数。
6.根据权利要求5所述的装置,其特征在于,所述降维模块包括:
数据矩阵单元,用于根据所述原始交易数据生成区块链交易数据矩阵;
相关系数矩阵单元,用于根据所述区块链交易数据矩阵生成相关系数矩阵,并生成所述相关系数矩阵的特征值;
降维单元,用于根据所述特征值计算对应的主成分累计贡献率,选取大于贡献率阈值的主成分累计贡献率所对应的主成分作为待检测数据。
7.根据权利要求5所述的装置,其特征在于,还包括:
函数初始化单元,用于定义模型超参数优化的目标函数;所述超参数优化的目标函数服从高斯分布;
代理目标函数单元,用于根据所述模型超参数优化的目标函数获取贝叶斯优化的代理目标函数;
高斯回归过程单元,用于对所述模型超参数优化的目标函数进行高斯回归过程处理,得到所述模型超参数优化的目标函数的后验概率;
参数更新单元,用于根据所述后验概率的均值和方差采用期望改进函数对所述贝叶斯优化的代理目标函数进行参数更新,得到最优超参数。
8.根据权利要求5所述的装置,其特征在于,还包括:
数据采样单元,用于根据所述待检测数据有放回地随机抽取样本集,得到待检测子样本集;所述样本集数量为通过贝叶斯优化模型进行优化后所得超参数;
属性分裂单元,用于根据所述待检测子样本集随机抽取属性,得到子决策树节点分裂的侯选属性;所述侯选属性数量为通过贝叶斯优化模型进行优化后所得超参数;
模型生成单元,用于根据所述待检测子样本集基于Gini系数最大原则生成子决策树,得到由多颗子决策树构成的随机森林模型。
9.一种基于PCA与RF的区块链异常检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至4任意一项所述基于PCA与RF的区块链异常检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至4任意一项所述基于PCA与RF的区块链异常检测方法的步骤。
CN202210183812.9A 2022-02-28 2022-02-28 基于pca与rf的区块链异常检测方法及相关装置 Pending CN114331731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210183812.9A CN114331731A (zh) 2022-02-28 2022-02-28 基于pca与rf的区块链异常检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210183812.9A CN114331731A (zh) 2022-02-28 2022-02-28 基于pca与rf的区块链异常检测方法及相关装置

Publications (1)

Publication Number Publication Date
CN114331731A true CN114331731A (zh) 2022-04-12

Family

ID=81030352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210183812.9A Pending CN114331731A (zh) 2022-02-28 2022-02-28 基于pca与rf的区块链异常检测方法及相关装置

Country Status (1)

Country Link
CN (1) CN114331731A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412336A (zh) * 2022-08-26 2022-11-29 国网数字科技控股有限公司 联盟链账本篡改攻击检测方法、装置及电子设备
CN117892230A (zh) * 2024-03-14 2024-04-16 海南省木杉智科技有限公司 一种基于随机森林算法的船舶工况在线识别方法及系统
CN117909886A (zh) * 2024-03-18 2024-04-19 南京海关工业产品检测中心 一种基于优化随机森林模型的锯齿棉品级分类方法及系统
CN117909886B (zh) * 2024-03-18 2024-05-24 南京海关工业产品检测中心 一种基于优化随机森林模型的锯齿棉品级分类方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985583A (zh) * 2018-06-27 2018-12-11 中国银行股份有限公司 基于人工智能的金融数据风险控制方法及装置
CN109729168A (zh) * 2018-12-31 2019-05-07 浙江成功软件开发有限公司 一种基于区块链的数据共享交换系统及方法
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111475777A (zh) * 2020-03-09 2020-07-31 上海能链众合科技有限公司 一种区块链智能合约的升级方法
CN113283901A (zh) * 2021-04-19 2021-08-20 河南大学 一种面向区块链平台的基于字节码的诈骗合约检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985583A (zh) * 2018-06-27 2018-12-11 中国银行股份有限公司 基于人工智能的金融数据风险控制方法及装置
CN109729168A (zh) * 2018-12-31 2019-05-07 浙江成功软件开发有限公司 一种基于区块链的数据共享交换系统及方法
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111475777A (zh) * 2020-03-09 2020-07-31 上海能链众合科技有限公司 一种区块链智能合约的升级方法
CN113283901A (zh) * 2021-04-19 2021-08-20 河南大学 一种面向区块链平台的基于字节码的诈骗合约检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EDWIN LISOWSKI: "具有贝叶斯优化的XGBoost和随机森林", 《CSDN》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115412336A (zh) * 2022-08-26 2022-11-29 国网数字科技控股有限公司 联盟链账本篡改攻击检测方法、装置及电子设备
CN117892230A (zh) * 2024-03-14 2024-04-16 海南省木杉智科技有限公司 一种基于随机森林算法的船舶工况在线识别方法及系统
CN117909886A (zh) * 2024-03-18 2024-04-19 南京海关工业产品检测中心 一种基于优化随机森林模型的锯齿棉品级分类方法及系统
CN117909886B (zh) * 2024-03-18 2024-05-24 南京海关工业产品检测中心 一种基于优化随机森林模型的锯齿棉品级分类方法及系统

Similar Documents

Publication Publication Date Title
CN111061843B (zh) 一种知识图谱引导的假新闻检测方法
Niyaz et al. A deep learning approach for network intrusion detection system
CN108737406B (zh) 一种异常流量数据的检测方法及系统
Radhakrishnan et al. Audio analysis for surveillance applications
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN114331731A (zh) 基于pca与rf的区块链异常检测方法及相关装置
CN112992126B (zh) 语音真伪的验证方法、装置、电子设备及可读存储介质
CN112560596B (zh) 一种雷达干扰类别识别方法及系统
CN111431849B (zh) 一种网络入侵检测方法及装置
CN111709028A (zh) 一种网络安全状态评估和攻击预测方法
CN114844840B (zh) 一种基于计算似然比的分布外网络流量数据检测方法
Anil et al. A hybrid method based on genetic algorithm, self-organised feature map, and support vector machine for better network anomaly detection
Yassin et al. Signature-Based Anomaly intrusion detection using Integrated data mining classifiers
CN112437053B (zh) 入侵检测方法及装置
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
CN112070131A (zh) 一种基于部分深度学习理论的入侵检测方法
CN115801374A (zh) 网络入侵数据分类方法、装置、电子设备及存储介质
Zeng et al. Adversarial generative distance-based classifier for robust out-of-domain detection
CN113179276B (zh) 基于显式和隐含特征学习的智能入侵检测方法和系统
Harb et al. Adaboost ensemble with genetic algorithm post optimization for intrusion detection
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
Jleed et al. Open set audio recognition for multi-class classification with rejection
CN110827809B (zh) 一种基于条件生成式对抗网络的语种识别分类方法
Sameer et al. Source camera identification model: Classifier learning, role of learning curves and their interpretation
Vaishnaw et al. Development of anti-phishing model for classification of phishing e-mail

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220412

RJ01 Rejection of invention patent application after publication