CN114615009A - 一种基于网关流量的数字货币币种检测方法 - Google Patents
一种基于网关流量的数字货币币种检测方法 Download PDFInfo
- Publication number
- CN114615009A CN114615009A CN202210054937.1A CN202210054937A CN114615009A CN 114615009 A CN114615009 A CN 114615009A CN 202210054937 A CN202210054937 A CN 202210054937A CN 114615009 A CN114615009 A CN 114615009A
- Authority
- CN
- China
- Prior art keywords
- traffic
- digital currency
- detection method
- gateway
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 238000003066 decision tree Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 14
- 238000007637 random forest analysis Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 abstract description 20
- 230000006399 behavior Effects 0.000 abstract description 2
- 238000007477 logistic regression Methods 0.000 description 16
- 230000001419 dependent effect Effects 0.000 description 12
- 238000012417 linear regression Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/04—Payment circuits
- G06Q20/06—Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme
- G06Q20/065—Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme using e-cash
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/123—Applying verification of the received information received data contents, e.g. message integrity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
- H04L69/163—In-band adaptation of TCP data exchange; In-band control procedures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/56—Financial cryptography, e.g. electronic payment or e-cash
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Environmental & Geological Engineering (AREA)
- Probability & Statistics with Applications (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于网关流量的数字货币币种检测方法,包括以下步骤:S1、流量收集,获得流量文件;S2、使用Tstat工具对流量文件进行特征提取;S3、基于机器学习的分类方法训练数据集,得到检测模型;S4、对检测模型进行性能评估;S5、采用检测模型进行数字货币币种检测。本发明的基于网关流量的数字货币币种检测方法,基于机器学习算法,通过局域网的网络流量,识别出该局域网是否存在挖矿行为,如果存在,将进一步识别出所挖掘的币种。
Description
技术领域
本发明涉及加密流量检测技术领域,尤其涉及一种基于网关流量的数字货币币种检测方法。
背景技术
当前虽然存在着对挖矿活动的检测,但是没有对数字货币币种的检测。
发明内容
基于此,本发明提供一种基于网关流量的数字货币币种检测方法。
为了实现上述目的,本发明提供如下技术方案:
本发明提供的一种基于网关流量的数字货币币种检测方法,包括以下步骤:
S1、流量收集,获得流量文件;
S2、使用Tstat工具对流量文件进行特征提取;
S3、基于机器学习的分类方法训练数据集,得到检测模型;
S4、对检测模型进行性能评估;
S5、采用检测模型进行数字货币币种检测。
进一步地,步骤S1中,在linux平台上,使用tcpdump抓取流量。
进一步地,步骤S1中,在windows平台上,使用wireshark抓取流量。
进一步地,步骤S1所述的流量文件为.pcap文件。
进一步地,步骤S2使用Tstat工具分析流量文件时,生成从不同的角度描述这些流量的9个文件,这9个文件中包括描述所有完整tcp连接流量的文件。
进一步地,步骤S2通过tls加密stratum协议被tcp层封装。
进一步地,步骤S2选用描述所有完整tcp连接流量的文件中的51个数据特征,分别为从客户端到服务端方向的29个数据和从服务端到客户端方向的22个数据。
进一步地,步骤S3选用使用sklearn来构建ID3、CART决策树、随机森林或logistic回归,其中,ID3和CART决策树的最大层数max_depth都是4。
进一步地,步骤S3在数据集里随机分配数据到训练集和测试集,训练集和测试集的比例是7:3。
进一步地,步骤S4中性能评估包括离线评估和在线评估两个阶段。
与现有技术相比,本发明的有益效果为:
本发明的基于网关流量的数字货币币种检测方法,基于机器学习算法,通过局域网的网络流量,识别出该局域网是否存在挖矿行为,如果存在,将进一步识别出所挖掘的币种。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为基尼系数和熵之半的曲线图。
图2为本发明实施例提供的基于网关流量的数字货币币种检测方法流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于网关流量的数字货币币种检测方法,如图2所示,包括以下步骤:
S1、流量收集,获得流量文件。
具体地,在linux平台上,可以使用tcpdump抓取流量,在windows 平台上,可以使用wireshark抓取。只需运行流量抓取程序,即可获得.pcap 文件。
S2、使用Tstat工具对流量文件进行特征提取。
Tstat是一款网络流量分析工具,可以作用于.pcap等网络流量文件。该工具分析网络流量,生成9个文件从不同的角度描述这些流量,这9个文件中包括描述所有完整tcp连接流量的文件。
由于本发明针对的且也是被广泛使用的流量文件,通过tls来加密 stratum协议这一方式是被tcp层封装的,矿工和矿池是通过tcp连接来通信的,因此,本发明仅选用描述所有完整tcp连接流量的文件,该文件使用了130个特征,本发明选择51个特征,这些特征不包含应用层的数据信息以及ip、端口这类用户敏感信息,这些特征如表1所示。
表1
CS | SC | Name | Metric | Description |
3 | 17 | packets | - | Total number of packets observed from the client/server |
5 | 19 | ACK sent | - | Number of segments with the ACK field set to 1 |
6 | 20 | PURE ACK sent | - | Number of segments with ACK field set to 1 and no data |
7 | 21 | unique bytes | bytes | Number of bytes sent in the payload |
8 | 22 | data pkts | - | Number of segments with payload |
9 | 23 | data bytes | bytes | Number of bytes transmitted in the payload,including re-transmissions |
31 | - | Completion time | ms | Flow duration since first packet to last packet |
32 | - | C first payload | ms | Client first segment with payload sincethe first flow segment |
33 | - | S first payload | ms | Server first segment with payload since the first flow segment |
34 | - | C last payload | ms | Client last segnent with payload since the first flow segment |
35 | - | S last payload | ms | Server last segment with payload since the first fliw segment |
36 | - | C first ack | ms | Client first ACK segment(without SYN)since the first flow segment |
37 | - | S first ack | ms | Server first ACK segment(without SYN)since the first flow segment |
45 | 52 | Average rtt | ms | Average RTT computed measuring the time elapsed between the data segment and the corresponding ACK |
46 | 53 | rtt min | ms | Minimum RTT observed during connection lifetime |
47 | 54 | rtt max | ms | Maximum RTT observed during connection lifetime |
48 | 55 | Stdev rtt | ms | Standard deviation if the RTT |
49 | 56 | rtt count | - | Number of valid RTT observation |
50 | 57 | ttl_min | - | Minimum Time To Live |
51 | 58 | ttl_max | - | Maximum Time To Live |
65 | 88 | RFC1323ws | 0/1 | Window scale option sent |
66 | 89 | RFC1323ts | 0/1 | Timestamp option sent |
67 | 90 | window scale | - | Scaling values negotiated[scale factor] |
68 | 91 | SACK req | 0/1 | SACK option set |
70 | 93 | MSS | bytes | MSS declared |
71 | 94 | max seg size bytes | - | Maximum segment size observed |
72 | 95 | min seg size | bytes | Minimum segment size observed |
73 | 96 | win max | bytes | Maximum receiver window announced(already scale by the window scale factor) |
74 | 97 | win min | bytes | Maximum receiver windows announced(already scale by the window scale factor) |
表1中,CS表示从客户端到服务端方向的数据,SC反之。
S3、基于机器学习的分类方法训练数据集,得到检测模型。
加密流量检测方法主要是通过基于机器学习的分类方法实现的,包括 ID3决策树,CART决策时,随机森林,logistic回归,神经网络等。
1、ID3决策树
ID3算法是由Quinlan首先提出的。该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。以下是一些信息论的基本概念:
定义1:若存在n个相同概率的消息,则每个消息的概率p是1/n,一个消息传递的信息量为-Log2(1/n)。
定义2:若有n个消息,其给定概率分布为P=(p1,p2…pn),则由该分布传递的信息量称为P的熵。
定义3:若一个记录集合T根据类别属性的值被分成互相独立的类 C1C2..Ck,则识别T的一个元素所属哪个类所需要的信息量为Info(T)=I(p),其中P为C1C2…Ck的概率分布,即P=(|C1|/|T|,…|Ck|/|T|)
定义4:若我们先根据非类别属性X的值将T分成集合T1,T2…Tn,则确定T中一个元素类的信息量可通过确定Ti的加权平均值来得到,即 Info(Ti)的加权平均值为:
Info(X,T)=(i=1 to n求和)((|Ti|/|T|)Info(Ti))
定义5:信息增益度是两个信息量之间的差值,其中一个信息量是需确定T的一个元素的信息量,另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量,信息增益度公式为:
Gain(X,T)=Info(T)-Info(X,T)
ID3算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定集合的测试属性。对被选取的测试属性创建一个节点,并以该节点的属性标记,对该属性的每个值创建一个分支据此划分样本。
2、CART决策树
在ID3算法中使用信息增益来选择特征,信息增益大的优先选择。在 C4.5算法中,采用了信息增益比来选择特征,以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。能不能简化模型同时也不至于完全丢失熵模型的优点呢?有CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
具体的,在分类问题中,假设有K个类别,第k个类别的概率为pk,则基尼系数的表达式为:
Gini(p)=∑k=1Kpk(1-pk)=1-∑k=1Kp2k
如果是二类分类问题,计算就更加简单了,如果属于第一个样本输出的概率是p,则基尼系数的表达式为:
Gini(p)=2p(1-p)
对于个给定的样本D,假设有K个类别,第k个类别的数量为Ck,则样本D的基尼系数表达式为:
Gini(D)=1-∑k=1K(|Ck||D|)2
特别的,对于样本D,如果根据特征A的某个值a,把D分成D1和D2两部分,则在特征A的条件下,D的基尼系数表达式为:
Gini(D,A)=|D1||D|Gini(D1)+|D2||D|Gini(D2)
可以比较下基尼系数表达式和熵模型的表达式,二次运算是不是比对数简单很多?尤其是二类分类的计算,更加简单。但是简单归简单,和熵模型的度量方式比,基尼系数对应的误差有多大呢?对于二类分类,基尼系数和熵之半的曲线如图1所示。
从图1可以看出,基尼系数和熵之半的曲线非常接近,仅仅在45度角附近误差稍大。因此,基尼系数可以做为熵模型的一个近似替代。而CART 分类树算法就是使用的基尼系数来选择决策树的特征。同时,为了进一步简化,CART分类树算法每次仅仅对某个特征的值进行二分,而不是多分,这样CART分类树算法建立起来的是二叉树,而不是多叉树。这样一可以进一步简化基尼系数的计算,二可以建立一个更加优雅的二叉树模型。
3、logistic回归
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y=w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p=L(w‘x+b),然后根据p与1-p 的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。
Logistic回归模型的适用条件
a.因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。
b.残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
c.自变量和Logistic概率是线性关系
d.各观测对象间相互独立。
原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概率作为方程的因变量估计值取值范围为0-1,但是,方程右边取值范围是无穷大或者无穷小。所以,才引入Logistic回归。
Logistic回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因,是发生和未发生的概率成为了比值,这个比值就是一个缓冲,将取值范围扩大,再进行对数变换,整个因变量改变。不仅如此,这种变换往往使得因变量和自变量之间呈线性关系,这是根据大量实践而总结。所以, Logistic回归从根本上解决因变量要不是连续变量怎么办的问题。还有,Logistic应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。
4、随机森林
在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho 的"random subspace method"以建造决策树的集合。
根据下列算法而建造每棵树:
a.用N来表示训练用例(样本)的个数,M表示特征数目。
b.输入特征数目m,用于确定决策树上一个节点的决策结果;其中m 应远小于M。
c.从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。
d.对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。
每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用。
本发明实施例中:
使用sklearn来构建ID3和CART决策树,他们的最大层数max_depth 都是4。在数据集里随机分配数据到训练集和测试集,训练集和测试集的比例是7:3。
使用sklearn来构建随机森林,在数据集里随机分配数据到训练集和测试集,训练集和测试集的比例是7:3。
使用sklearn来构建logistic回归,在数据集里随机分配数据到训练集和测试集,训练集和测试集的比例是7:3。
S4、对检测模型进行性能评估。
在机器学习领域中,对模型的评估非常重要,只有选择和问题相匹配的评估方法,才能快速发现算法模型或者训练过程的问题,迭代地对模型进行优化。
模型评估主要分为离线评估和在线评估两个阶段。并且针对分类、回归、排序、序列预测等不同类型的机器学习问题,评估指标的选择也有所不同。性能度量就是指对模型泛化能力衡量的评价标准。分类问题中最常用的性能度量标准--准确率。准确率,指的是分类正确的样本数量占样本总数的比例,定义为预测正确的样本个数和样本总数的比例。这种评价标准是分类问题中最简单也是最直观的评价指标。
在本发明实施例中,当前所选用的划分数据集的方式是每次运行程序都从数据集里按7:3的比例随机选取数据到训练集和测试集,因此每次运行程序所使用的训练集和测试集都可能不同,构建出的模型也可能是不同的,性能也不一样。
S5、采用检测模型进行数字货币币种检测。
目前存在非加密的情况下对币种进行检测的方案,如使用4种机器学习的算法对5类币种做出识别,算法分别是SVM、CART、C4.5、朴素贝叶斯。这一方案下,SVM、CART、C4.5、朴素贝叶斯四种算法对币种识别的准确率分别是:0.912、0.963、0.967、0.973。
然而,目前没有在加密流量下进行币种检测的方案,本发明使用的四种机器学习算法,ID3决策树、CART决策树、逻辑斯蒂回归、随机森林对 4类币种进行识别的准确率分别是0.976、0.965、0.947、0.991。
综上,本发明不但可以在加密的情况下进行币种识别,而且可以看出,本发明所选择的四种机器学习算法中,性能最好的算法—随机森林的准确率0.991,比其他方案性能最好的算法的准确率0.973要高,具有显著的进步。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特殊进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于网关流量的数字货币币种检测方法,其特征在于,包括以下步骤:
S1、流量收集,获得流量文件;
S2、使用Tstat工具对流量文件进行特征提取;
S3、基于机器学习的分类方法训练数据集,得到检测模型;
S4、对检测模型进行性能评估;
S5、采用检测模型进行数字货币币种检测。
2.根据权利要求1所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S1中,在linux平台上,使用tcpdump抓取流量。
3.根据权利要求1所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S1中,在windows平台上,使用wireshark抓取流量。
4.根据权利要求1所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S1所述的流量文件为.pcap文件。
5.根据权利要求1所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S2使用Tstat工具分析流量文件时,生成从不同的角度描述这些流量的9个文件,这9个文件中包括描述所有完整tcp连接流量的文件。
6.根据权利要求1所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S2通过tls加密stratum协议被tcp层封装。
7.根据权利要求6所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S2选用描述所有完整tcp连接流量的文件中的51个数据特征,分别为从客户端到服务端方向的29个数据和从服务端到客户端方向的22个数据。
9.根据权利要求1所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S3在数据集里随机分配数据到训练集和测试集,训练集和测试集的比例是7:3。
10.根据权利要求1所述的基于网关流量的数字货币币种检测方法,其特征在于,步骤S4中性能评估包括离线评估和在线评估两个阶段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054937.1A CN114615009A (zh) | 2022-01-18 | 2022-01-18 | 一种基于网关流量的数字货币币种检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210054937.1A CN114615009A (zh) | 2022-01-18 | 2022-01-18 | 一种基于网关流量的数字货币币种检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114615009A true CN114615009A (zh) | 2022-06-10 |
Family
ID=81857849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210054937.1A Pending CN114615009A (zh) | 2022-01-18 | 2022-01-18 | 一种基于网关流量的数字货币币种检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114615009A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308469A (ja) * | 2002-04-12 | 2003-10-31 | Kddi Corp | 電子マネー決済システムおよび端末 |
CN111600850A (zh) * | 2020-04-26 | 2020-08-28 | 武汉思普崚技术有限公司 | 一种检测挖矿虚拟货币的方法、设备及存储介质 |
CN113052577A (zh) * | 2021-03-12 | 2021-06-29 | 北京工业大学 | 一种区块链数字货币虚拟地址的类别推测方法及系统 |
CN113518073A (zh) * | 2021-05-05 | 2021-10-19 | 东南大学 | 一种比特币挖矿僵尸网络流量的快速识别方法 |
-
2022
- 2022-01-18 CN CN202210054937.1A patent/CN114615009A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003308469A (ja) * | 2002-04-12 | 2003-10-31 | Kddi Corp | 電子マネー決済システムおよび端末 |
CN111600850A (zh) * | 2020-04-26 | 2020-08-28 | 武汉思普崚技术有限公司 | 一种检测挖矿虚拟货币的方法、设备及存储介质 |
CN113052577A (zh) * | 2021-03-12 | 2021-06-29 | 北京工业大学 | 一种区块链数字货币虚拟地址的类别推测方法及系统 |
CN113518073A (zh) * | 2021-05-05 | 2021-10-19 | 东南大学 | 一种比特币挖矿僵尸网络流量的快速识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112398779B (zh) | 一种网络流量数据分析方法及系统 | |
US7353214B2 (en) | Outlier determination rule generation device and outlier detection device, and outlier determination rule generation method and outlier detection method thereof | |
CN103795612B (zh) | 即时通讯中的垃圾和违法信息检测方法 | |
CN109800884B (zh) | 模型参数的处理方法、装置、设备和计算机存储介质 | |
Vu et al. | Time series analysis for encrypted traffic classification: A deep learning approach | |
CN109218321A (zh) | 一种网络入侵检测方法及系统 | |
Nazarenko et al. | Features of application of machine learning methods for classification of network traffic (features, advantages, disadvantages) | |
CN111711608B (zh) | 一种电力数据网流量异常检测方法、系统及电子设备 | |
CN111224994A (zh) | 一种基于特征选择的僵尸网络检测方法 | |
CN112685272B (zh) | 一种具备可解释性的用户行为异常检测方法 | |
CN112202718B (zh) | 一种基于XGBoost算法的操作系统识别方法、存储介质及设备 | |
CN112134873B (zh) | 一种IoT网络异常流量实时检测方法及系统 | |
CN115409518A (zh) | 用户交易风险预警方法及装置 | |
Ghalehgolabi et al. | Intrusion detection system using genetic algorithm and data mining techniques based on the reduction | |
CN114331731A (zh) | 基于pca与rf的区块链异常检测方法及相关装置 | |
Hlaing | Feature selection and fuzzy decision tree for network intrusion detection | |
CN1612135B (zh) | 一种基于训练分类的协议识别方法 | |
CN118233135A (zh) | 一种基于隔离森林算法的网络流量异常检测方法 | |
CN114615009A (zh) | 一种基于网关流量的数字货币币种检测方法 | |
Uzun et al. | Performance evaluation of machine learning algorithms for detecting abnormal data traffic in computer networks | |
CN115334005B (zh) | 基于剪枝卷积神经网络和机器学习的加密流量识别方法 | |
CN112398875B (zh) | 视频会议场景下基于机器学习的流数据安全漏洞探测方法 | |
Lei et al. | Optimizing traffic classification using hybrid feature selection | |
Gonzalez-Granadillo et al. | An improved live anomaly detection system (i-lads) based on deep learning algorithm | |
CN114362972B (zh) | 一种基于流量摘要和图采样的僵尸网络混合检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220610 |
|
RJ01 | Rejection of invention patent application after publication |