CN113518073B - 一种比特币挖矿僵尸网络流量的快速识别方法 - Google Patents

一种比特币挖矿僵尸网络流量的快速识别方法 Download PDF

Info

Publication number
CN113518073B
CN113518073B CN202110487259.3A CN202110487259A CN113518073B CN 113518073 B CN113518073 B CN 113518073B CN 202110487259 A CN202110487259 A CN 202110487259A CN 113518073 B CN113518073 B CN 113518073B
Authority
CN
China
Prior art keywords
flow
data
botnet
training
virus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110487259.3A
Other languages
English (en)
Other versions
CN113518073A (zh
Inventor
胡晓艳
舒卓卓
程光
吴桦
龚俭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110487259.3A priority Critical patent/CN113518073B/zh
Publication of CN113518073A publication Critical patent/CN113518073A/zh
Application granted granted Critical
Publication of CN113518073B publication Critical patent/CN113518073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/56Financial cryptography, e.g. electronic payment or e-cash

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Finance (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Virology (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种比特币挖矿僵尸网络流量的快速识别方法,识别框架分为三个部分,第一部分为模拟环境的构造,具体内容为搜集对应挖矿僵尸网络病毒样本,确定样本所需要的运行环境,在虚拟机上设置病毒样本所需环境,运行病毒样本,获取其产生的流量;第二部分为特征的提取,具体内容为经过模式比对、数据分析等操作获取合适的特征,使用挖矿病毒流量和正常流量来构建流量数据训练集;第三部分为识别模型的生成和验证,具体内容为划分测试集和训练集,在训练集上使用交叉验证和网格搜索方法对随机森林算法进行参数的选择,获取对应的训练模型后在测试集上对训练模型进行验证操作。

Description

一种比特币挖矿僵尸网络流量的快速识别方法
技术领域
本发明属于网络空间安全技术领域,涉及一种挖矿僵尸网络流量的快速识别 方法。
背景技术
为了减轻挖矿所需电力和基础设施的成本,更多的不法分子为了谋求暴利, 选择利用挖矿病毒和挖矿木马等一系列恶意软件操纵他人主机以实现挖取加密 货币的目的。该恶意攻击占用大量的用户资源,严重影响了正常的工作生活,同 时也对用户设备造成无法挽回的过度消耗。
当前针对比特币僵尸网络流量的检测主要集中在两个方向,其一是通过提取 数据包负载信息来进行相关的信息识别,其二是通过收集相互连接的僵尸网络节 点的通信流量,以图算法为基础,从流量中获取僵尸网络节点的聚类系数和顶点 度特征来进行行为模式的对比分析。由于前者可以对负载内容中的矿池协议进行 识别,因此可以准确判断挖矿僵尸网络的存在,而后者对流量行为特征的比较可 以适用于多种应用场合,两者与机器学习算法的结合都可以达到较高的检测准确 率。然而这些方法存在如下主要问题:(1)从数据集中提取负载信息消耗大量的 资源,同时降低了检测的速度,难以在实时检测上进行运用。(2)使用的特征需 要用到挖矿僵尸网络的整个过程,搜集的数据的时间过长。(3)获取整个僵尸网 络内的节点交互流量上存在难度,针对单一节点的通信无法有效进行识别。(4) 单独对僵尸网络和加密货币挖掘进行检测,没有结合两个阶段的特征。(5)使用 的数据集未公开,无法保证其在其他数据集上的检测能力。
因此,本发明通过搜集真实比特币僵尸网络挖矿流量,比较正常和挖矿两种 模式下通信流量的特征差异,选取合适的特征,运用随机森林算法完成在单个节 点对挖矿僵尸网络流量的快速识别。
发明内容
为了有效遏制挖矿僵尸网络的泛滥,对挖矿僵尸网络进行有效监管,实现对 比特币挖矿僵尸网络流量的快速识别,本发明提出了一种比特币挖矿僵尸网络流 量的快速识别方法。针对比特币挖矿僵尸网络,首先对主机端同行流量进行采集, 根据正常和挖矿的两种模式对比分析,选择最合适的特征类型。确定特征类别后 进行反复试验比较确定选定类型的特征数量,最后使用随机森林算法进行识别模 型的生成。
为了达到上述目的,本发明提供如下技术方案:
一种比特币挖矿僵尸网络流量的快速识别方法,包括如下步骤:
(1)搜集用于模型训练的比特币挖矿僵尸网络流量和正常网络通信流量;
(2)根据分析的正常和挖矿的两种模式,从原始数据中选择合适的特征种 类,接着通过对比分析选择出合适的特征数量。确定特征的种类和数量之后从原 始数据中提取训练和测试数据;
(3)进行机器学习的模型训练,使用测试集对获得的模型进行测试评估;
进一步,所述步骤(1)具体包括如下子步骤:
(1.1)在vmware软件中安Linux和Windows操作系统;
(1.2)搜集比特币挖矿僵尸网络对应病毒信息;
(1.3)获取病毒样本;
(1.4)在虚拟机对应系统中设置病毒运行环境;
(1.5)搜集正常的网络流量;
(1.7)运行病毒样本搜集病毒流量;
(1.8)将搜集到的病毒流量和正常流量存储下来。
进一步,所述步骤(2)具体包括如下子步骤:
(2.1)建立正常和挖矿两种模式,对两种模式进行比较分析,确定当前合 适的特征种类;
(2.2)使用随机森林算法进行分析比较确定选定特征的数目;
(2.3)使用随机森林的feature_importance来进行特征重要性的评估,其 中feature_importance原理为使用基尼指数对特征重要性进行评分。
进一步的我们选取的特征如下表1所示:
特征编码 特征含义
1 流中第一个数据包和第二个数据包的到达的时间间隔
2 流中第二个数据包和第三个数据包的到达时间间隔
3 流中第一个数据包大小
4 流中第二个数据包大小
5 流中第三个数据包大小
6 流中前四个数据包的平均到达速率
7 源端口号
8 目的端口号
9 流中数据包含有SYN标志占前四个数据包比例
10 流中数据包含有FIN标志占前四个数据包比例
11 流中前四个数据包中包含ACK和PUSH标志数据包所占比例
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的特征选取 从中提取训练数据,生成机器学习训练文件。
进一步,所述步骤(3)具体包括如下子步骤:
(3.1)使用交叉验证和网格搜索方法确定随机森林参数,获取得到的模型;
(3.2)使用测试集对模型进行评估。
与现有技术相比,本发明具有如下优点和有益效果:
(1)本发明能够快速精确地识别当前网络中存在的比特币僵尸网络流量, 便于网络管理者能够及时有效遏制住比特币挖矿僵尸网络的泛滥。
(2)本发明中搜集的流量源自桥接模式中网卡获取的流量,这一流量搜集 模式和监管者搜集流量模式类似,具有较高的实用价值。
(3)本发明以真实网络流量和真实挖矿僵尸网络流量作为研究背景流量, 提出了正常网络交互模式和挖矿僵尸网络交互模式,对比分析获得了最适合的特 征,适用范围广。
(4)本发明在特征的选取上选择了一条流的前四个数据包的各种信息作为 特征,不但减轻了存储空间的压力,同时由于具有快速的检测能力,保证了检测 的实时性。
附图说明
图1正常网络交互模式;
图2挖矿僵尸网络交互模式;
图3识别框架示意图;
图4不同算法准确率结果;
图5不同算法召回率结果;
图6随机森林混淆矩阵结果图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下 述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1:本发明提出了一种比特币挖矿僵尸网络流量的快速识别方法,识 别框架如图3所示,分为三个部分,第一部分为模拟环境的构造,具体内容为搜 集对应挖矿僵尸网络病毒样本,确定样本所需要的运行环境,在虚拟机上设置病 毒样本所需环境,运行病毒样本,获取其产生的流量;第二部分为特征的提取, 具体内容为经过模式比对、数据分析等操作获取合适的特征,使用挖矿病毒流量 和正常流量来构建流量数据训练集;第三部分为识别模型的生成和验证,具体内 容为划分测试集和训练集,在训练集上使用交叉验证和网格搜索方法对随机森林 算法进行参数的选择,获取对应的训练模型后在测试集上对训练模型进行验证操 作。
具体地说,一种比特币挖矿僵尸网络流量的快速识别方法,包括如下步骤:
(1)构造模型环境,获取分析所需要的数据流量。
本步骤的具体过程如下:
(1.1)根据安全厂商报告获取比特币挖矿僵尸网络病毒md5特征码;
(1.2)登录virussahre网站,根据获取到的病毒md5码搜索获取病毒样本;
(1.3)登录virustotal网站,根据获取到的病毒md5码搜索病毒样本运行 所需环境;
(1.4)在主机端安装vmware软件,安装Ubuntu和Windows10两种操作系 统,根据之前获取的信息设置系统环境保证病毒样本顺利运行;
(1.5)将vmware虚拟机网络连接方式设置为桥接模式,在虚拟机内使用命 令查看当前系统对应ip地址;
(1.6)启动Wireshark流量采集应用开始进行正常流量数据采集;
(1.7)使用常见应用进行包括但不限于网页访问、文件下载,文件上传等 操作;
(1.8)设定采集时间,完成采集后以pcap文件的形式存储当前采集的正常 流量数据文件;
(1.9)在虚拟机中运行挖矿僵尸网络病毒样本;
(1.10)设定采集时间,完成采集后以pcap文件形式存储当前采集的挖矿 僵尸网络流量;
(1.11)重复(1.9)~(1.10)两步,搜集多种系统下的多类别的比特币挖 矿僵尸网络病毒流量。
(2)从原始数据中提取能够用于完整流量数据识别分类的特征,并进行特 征选择,保留能够用于记录识别分类的特征后,从原始数据中提取训练数据,进 行机器学习的模型训练。
本步骤中具体过程如下:
(2.1)首先构建正常和挖矿两种流量的模式,分析对比得到所需特征种类。
见图1、2;
(2.2)然后使用步骤(1)中采集的数据通过对比随机森林、K近邻、朴素 贝叶斯等算法模型的准确率等参数,选择使用准确率最高的随机森林算法。接着 使用随机森林算法进行对比分析获取特征的数目。
(2.3)使用随机森林的feature_importance来进行特征重要性的评估,其 中feature_importance原理为使用基尼指数对特征重要性进行评分。
(2.3)在综合考虑了特征的重要性分数与采用特征的实际效果,最终选择 的特征如表2所示
Figure BDA0003050972900000061
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的特征选取 从中提取训练数据,生成机器学习训练文件。
(3)进行机器学习的模型训练,使用测试集对获得的模型进行测试评估。
本步骤具体包括以下过程:
(3.1)将提取的数据按照8:2的比例划分为训练集和测试集;
(3.2)使用交叉验证和网格搜素对随机森林的参数进行选择,使用训练集 对模型进行训练;
(3.3)使用测试集进行验证,得到最后的检测准确率等模型评估结果。分 析结果见图4、5。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还 包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的 普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也视为本发明的保护范围。

Claims (3)

1.一种比特币挖矿僵尸网络流量的快速识别方法,其特征在于,包括如下步骤:
(1)搜集用于模型训练的比特币挖矿僵尸网络流量和正常网络通信流量;
(2)根据分析的正常和挖矿的两种模式,从原始数据中选择合适的特征种类,接着通过对比分析选择出合适的特征数量,确定特征的种类和数量之后从原始数据中提取训练和测试数据;
(3)进行机器学习的模型训练,使用测试集对获得的模型进行测试评估,步骤(2)具体包括如下子步骤:
(2.1)首先构建正常和挖矿两种流量的模式,分析对比得到所需特征种类;
(2.2)然后使用步骤(1)中采集的数据通过对比随机森林、K近邻、朴素贝叶斯算法模型的准确率参数,选择使用准确率最高的随机森林算法,接着使用随机森林算法进行对比分析获取特征的数目;
(2.3)使用随机森林的feature_importance来进行特征重要性的评估,其中feature_importance原理为使用基尼指数对特征重要性进行评分;
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的特征选取从中提取训练数据,生成机器学习训练文件;
所述步骤(2.3)中合适的可用特征如下表所示:
特征编码 特征含义 1 流中第一个数据包和第二个数据包到达的时间间隔 2 流中第二个数据包和第三个数据包的到达的时间间隔 3 流中第一个数据包大小 4 流中第二个数据包大小 5 流中第三个数据包大小 6 流中前四个数据包的每分钟到达数量 7 源端口号 8 目的端口号 9 流中数据包含有SYN标志占前四个数据包比例 10 流中数据包含有FIN标志占前四个数据包比例 11 流中数据包含有ACK或PUSH标志占前四个数据包比例
2.根据权利要求1所述的比特币挖矿僵尸网络流量的快速识别方法,其特征在于,步骤(1)搜集用于模型训练的比特币挖矿僵尸网络流量和正常网络通信流量;具体包括如下子步骤:
(1.1)根据安全厂商报告获取比特币挖矿僵尸网络病毒md5特征码;
(1.2)登录virussahre网站,根据获取到的病毒md5码搜索获取病毒样本;
(1.3)登录virustotal网站,根据获取到的病毒md5码搜索病毒样本运行所需环境;
(1.4)在主机端安装vmware软件,安装Ubuntu和Windows10两种操作系统,根据之前获取的信息设置系统环境保证病毒样本顺利运行;
(1.5)将vmware虚拟机网络连接方式设置为桥接模式,在虚拟机内使用命令查看当前系统对应ip地址;
(1.6)启动Wireshark流量采集应用开始进行正常流量数据采集;
(1.7)使用常见应用进行包括但不限于网页访问、文件下载,文件上传操作;
(1.8)设定采集时间,完成采集后以pcap文件的形式存储当前采集的正常流量数据文件;
(1.9)在虚拟机中运行挖矿僵尸网络病毒样本;
(1.10)设定采集时间,完成采集后以pcap文件形式存储当前采集的挖矿僵尸网络流量;
(1.11)重复(1.9)~(1.10)两步,搜集多种系统下的多类别的比特币挖矿僵尸网络病毒流量。
3.根据权利要求2所述的比特币挖矿僵尸网络流量的快速识别方法,其特征在于,所述步骤(3)具体包括如下子步骤:
(3.1)将提取的数据按照8:2的比例划分为训练集和测试集;
(3.2)使用交叉验证和网格搜索对随机森林的参数进行选择,使用训练集对模型进行训练;
(3.3)使用测试集进行验证,得到最后的检测准确率模型评估结果。
CN202110487259.3A 2021-05-05 2021-05-05 一种比特币挖矿僵尸网络流量的快速识别方法 Active CN113518073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110487259.3A CN113518073B (zh) 2021-05-05 2021-05-05 一种比特币挖矿僵尸网络流量的快速识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110487259.3A CN113518073B (zh) 2021-05-05 2021-05-05 一种比特币挖矿僵尸网络流量的快速识别方法

Publications (2)

Publication Number Publication Date
CN113518073A CN113518073A (zh) 2021-10-19
CN113518073B true CN113518073B (zh) 2022-07-19

Family

ID=78064166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110487259.3A Active CN113518073B (zh) 2021-05-05 2021-05-05 一种比特币挖矿僵尸网络流量的快速识别方法

Country Status (1)

Country Link
CN (1) CN113518073B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422184A (zh) * 2021-12-14 2022-04-29 国网浙江省电力有限公司金华供电公司 基于机器学习的网络安全攻击类型和威胁等级预测方法
CN114615009A (zh) * 2022-01-18 2022-06-10 北京邮电大学 一种基于网关流量的数字货币币种检测方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4950596B2 (ja) * 2006-08-18 2012-06-13 クラリオン株式会社 予測交通情報生成方法、予測交通情報生成装置および交通情報表示端末
CN109474485A (zh) * 2017-12-21 2019-03-15 北京安天网络安全技术有限公司 基于网络流量信息检测僵尸网络的方法、系统及存储介质
CN108965248B (zh) * 2018-06-04 2021-08-20 上海交通大学 一种基于流量分析的p2p僵尸网络检测系统及方法
US10972508B1 (en) * 2018-11-30 2021-04-06 Juniper Networks, Inc. Generating a network security policy based on behavior detected after identification of malicious behavior
CN110460611B (zh) * 2019-08-16 2022-01-11 国家计算机网络与信息安全管理中心 基于机器学习的全流量攻击检测技术
US11316880B2 (en) * 2019-09-16 2022-04-26 Avast Software, S.R.O. Cryptocurrency mining detection using network traffic
CN110933060B (zh) * 2019-11-22 2021-10-22 上海交通大学 一种基于流量分析的挖矿木马检测系统
CN111224994A (zh) * 2020-01-15 2020-06-02 南京邮电大学 一种基于特征选择的僵尸网络检测方法
CN111865823B (zh) * 2020-06-24 2022-11-01 东南大学 一种轻量化以太坊加密流量识别方法

Also Published As

Publication number Publication date
CN113518073A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN110909811B (zh) 一种基于ocsvm的电网异常行为检测、分析方法与系统
CN111428231B (zh) 基于用户行为的安全处理方法、装置及设备
CN113518073B (zh) 一种比特币挖矿僵尸网络流量的快速识别方法
CN107370752B (zh) 一种高效的远控木马检测方法
CN109117634A (zh) 基于网络流量多视图融合的恶意软件检测方法及系统
CN114143037B (zh) 一种基于进程行为分析的恶意加密信道检测方法
CN112202718B (zh) 一种基于XGBoost算法的操作系统识别方法、存储介质及设备
CN107248996A (zh) 一种dns放大攻击的检测与过滤方法
CN112866292B (zh) 一种面向多样本组合攻击的攻击行为预测方法和装置
CN105871861B (zh) 一种自学习协议规则的入侵检测方法
CN111523588A (zh) 基于改进的lstm对apt攻击恶意软件流量进行分类的方法
CN111835681A (zh) 一种大规模流量异常主机检测方法和装置
CN108055227B (zh) 基于站点自学习的waf未知攻击防御方法
CN116015965A (zh) 一种网络恶意流量的多维度检测及防御系统
CN111600878A (zh) 一种基于maf-adm的低速率拒绝服务攻击检测方法
CN117081858A (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN115643108B (zh) 面向工业互联网边缘计算平台安全评估方法、系统及产品
CN115242487B (zh) 一种基于元行为的apt攻击样本增强及检测方法
CN114024748B (zh) 一种结合活跃节点库和机器学习的高效以太坊流量识别方法
CN114362972B (zh) 一种基于流量摘要和图采样的僵尸网络混合检测方法及系统
CN112073362B (zh) 一种基于流量特征的apt组织流量识别方法
Atmojo et al. A New Approach for ARP Poisoning Attack Detection Based on Network Traffic Analysis
CN110689074A (zh) 一种基于模糊集特征熵值计算的特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant