CN112615881B - 一种基于区块链的数据流检测系统 - Google Patents

一种基于区块链的数据流检测系统 Download PDF

Info

Publication number
CN112615881B
CN112615881B CN202011574792.5A CN202011574792A CN112615881B CN 112615881 B CN112615881 B CN 112615881B CN 202011574792 A CN202011574792 A CN 202011574792A CN 112615881 B CN112615881 B CN 112615881B
Authority
CN
China
Prior art keywords
data
module
data stream
analysis
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011574792.5A
Other languages
English (en)
Other versions
CN112615881A (zh
Inventor
马樱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinasoft Digital Intelligence Information Technology Wuhan Co ltd
Original Assignee
Chinasoft Digital Intelligence Information Technology Wuhan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinasoft Digital Intelligence Information Technology Wuhan Co ltd filed Critical Chinasoft Digital Intelligence Information Technology Wuhan Co ltd
Priority to CN202011574792.5A priority Critical patent/CN112615881B/zh
Publication of CN112615881A publication Critical patent/CN112615881A/zh
Application granted granted Critical
Publication of CN112615881B publication Critical patent/CN112615881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于区块链的数据流检测系统,其特征在于基于区块链技术对实时网络数据流进行筛选,提高了数据检测效率,并针对非单一数据流进行检测;所述系统包括:数据采集模块、预处理模块、分析聚类模块和加密分析模块;其中所述数据采集模块与所述预处理模块数据连接,所述预处理模块与所述分析聚类模块数据连接,所述分析聚类模块与所述加密分析模块数据连接。

Description

一种基于区块链的数据流检测系统
本发明涉及网络安全技术领域,尤其涉及对网关的实时数据流进行检测的方法和系统。
背景技术
互联网的发展促进数据安全问题,因此有必要建立一个适应数据规模大的数据检测系统,将数据作为检测重点,把检测异常行为类比为从数据中找出异常数据,把检测技术和数据挖掘技术相结合有效降低检测误报率和提高检测效率。
如CN105591836A现有技术公开了一种数据流检测方法和装置,该发明通过对数据流最终匹配出的规则进行过滤,但是只能检测一种类别的数据流。另一种典型的如CN109542772A的现有技术公开的一种基于数据流分析的异常检测方法,本发明针对新型的BPEL软件范型,考虑了传统软件所没有的语言特性,但是该技术只能针对单一类别的数据识别。再来看如CN101459554A的现有技术公开的一种数据流检测的方法和装置,通过采用主流特征信息与辅流特征信息相结合的检测方法,实现了对没有携带明显的特征信息的数据流的检测,但是对数据流的总量需求过大。
为了解决本领域普遍存在数据流检测时长过长,效率过低,只针对单一类别的数据流进行检测等等问题,作出了本发明。
发明内容
本发明的目的在于提高数据流的检测效率,针对目前数据流检测时长过长,效率过低,只针对单一类别的数据流进行检测所存在的不足,提出了一种基于区块链的数据流检测系统。
为了克服现有技术的不足,本发明采用如下技术方案:
一种基于区块链的数据流检测系统,其特征在于,基于区块链技术对实时网络数据流进行筛选,提高了数据检测效率并对多种类别的数据流进行检测;所述系统包括:数据采集模块、预处理模块、分析聚类模块和加密分析模块;其中所述数据采集模块与预处理模块数据连接,所述预处理模块与所述分析聚类模块数据连接,所述分析聚类模块与所述加密分析模块数据连接。
可选的,所述数据采集模块与网关的数据流接口进行数据连接,所述数据采集模块接收来自所述网关传输过来的数据流,并且将所述数据流传入所述预处理模块中。
可选的,所述预处理模块接收来自所述数据采集模块挖掘到的所述数据流,将所述数据流进行预处理后传递到所述分析聚类模块中进行聚类分析。
可选的,所述分析聚类模块接收来自所述预处理模块的被预处理后的所述数据流并将其进行特征聚类,所述分析聚类模块将被预处理后的所述数据流分成具有异常节点的数据流和非异常节点的数据流。
可选的,所述加密分析模块负责对所述分析聚类模块中的属于非异常节点的数据流进行加密特征分析。
可选的,所述加密分析模块和所述分析聚类模块都搭建在区块链数据库上,所述区块链数据库负责存储数据流的特征值。
可选的,所述区块链数据库分别负责存储所述分析聚类模块传输的所述异常节点数据流的特征值和所述加密分析模块传输的具有安全套接层交互字段特征的数据流的特征值。
可选的,所述系统中所有模块内均有具有接收和发送数据流的端口。
本发明所取得的有益效果是:
1.通过采用聚类分析模块对具有异常点的数据流和非异常点的数据流进行聚类分析,聚类分析过程建立新检测模型,设计了快速剔除孤立点的算法提高检测效率;
2.通过采用加密分析模块对属于安全套接层加密的数据流进行区分,利用前向算法,计算未知观测序列被识别为隐马尔可夫模型的概率,提高检测效率;
3.通过采用区块链数据库对数据流的特征值进行存储,提高数据检测系统的特征值存储能力,同时提高系统的检测能力;
4.通过采用两种检测方法,可以检测两种类型的数据流,提高检测的多样性。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在不同的视图中,相同的附图标记指定对应的部分。
图1为本发明的系统模块关系的结构示意图。
图2为本发明的分析聚类模块和加密分析模块之间关系的结构示意图。
图3为本发明的数据采集模块数据采集的结构示意图。
具体实施方式
为了使得本发明的目的.技术方案及优点更加清楚明白,以下结合其实施例,对本发明进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它系统.方法和/或特征将变得显而易见。旨在所有此类附加的系统.方法.特征和优点都包括在本说明书内.包括在本发明的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”.“下”.“左”.“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位.以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例一:
在本实施例一中,所述系统包括数据采集模块、预处理模块、分析聚类模块和加密分析模块;其中所述数据采集模块与所述预处理模块数据连接,所述预处理模块与所述分析聚类模块数据连接,所述分析聚类模块与所述加密分析模块数据连接;所述数据采集模块与实时网络数据流接口进行数据连接,所述数据采集模块接收来自所述实时网络数据流接口的数据流,并且将所述数据流传入所述预处理模块中;所述预处理模块接收来自所述数据采集模块挖掘到的所述数据流,将所述数据流进行预处理后传递到所述分析聚类模块中进行聚类分析;
所述数据预处理模块用于对所述数据流中的数据进行预处理,所述预处理步骤如下所述:
1、将离散型数据进行数值化;所述的离散型数据类型包括back、land和nmap,将所述离散型数据的离散属性投射到欧式空间,所述离散属性在所述欧式空间中存在属于自身的空间位置,然后计算所述空间位置的数据在所述欧式空间的欧式距离,所述离散属性采用二进制编码进行数据编码;
2、将连续型数据进行标准化和归一化处理;将所述数据流中连续型数据的连续属性进行标准化和归一化处理,其中在所述数据流中选取部分数据作为样本数据,处理步骤如下所述:
①根据公式(1)将所述连续属性标准化;
B=(vi-r)/σ (1)
其中B表示所述数据的连续属性标准化,σ表示所述样本数据的标准差,所述标准差的计算由公式(2)所得,vi表示所述连续型数据的第i个属性,i代表所述连续型数据的属性序号,取任意正整数,选择所述属性个数为10;r表示所述属性的平均值,所述平均值由公式(3)取得;
(2)
Figure GDA0002939831600000051
其中10表示所述属性的个数;
(3)
其中10表示所述属性的个数;
②将数值归一化处理;将步骤①处理后的变为标准化的数据进行归一到[0,1]区间中,并将所述数据的值域映射到[0,1]范围内处理,所述归一化处理由公式(4)计算所得;
Figure GDA0002939831600000052
其中C′i是Ci归一化后的数值,其值为[0,1]内任意数值,Cmin是Ci中的最小值,Cmax是Ci中的最大值;Ci是所述标准化的数据值;
3、进行主成分分析降维处理;将所述数据流中的高维数据特征进行降维处理,具体步骤如下所示:
1)将所述数据流中的数据按列组合成n行m列矩阵1,其中所述矩阵1每一行代表一个属性字段;
2)将所述矩阵1的每一行进行零均值化,减去所述每一行中的均值;
3)求出所述矩阵1的协方差矩阵;
4)求出所述协方差矩阵的特征值以及所述特征值对应的特征向量;
5)将所述特征向量按对应的特征值大小依此从上到下按行排列成矩阵2,取前k行组成矩阵3,其中k值为不超过所述矩阵2的行列数的任意正整数;
6)将所述矩阵3与所述矩阵1相乘即为所述数据流进行k维降维后的数据;
将所述数据流中的所有数据进行预处理完成后由预处理模块将预处理后的数据发送到所述分析聚类模块中,由所述分析聚类模块对所述处理后的数据流进行聚类操作。
实施例二:本实施例应当理解为至少包含前述任一一个实施例的全部特征,并在其基础上进一步改进,具体的,
所述系统包括数据采集模块、预处理模块、分析聚类模块和加密分析模块;其中所述数据采集模块与所述预处理模块数据连接,所述预处理模块与所述分析聚类模块数据连接,所述分析聚类模块与所述加密分析模块数据连接;所述数据采集模块与实时网络数据流接口进行数据连接,所述数据采集模块接收来自所述实时网络数据流接口的数据流,并且将所述数据流传入所述预处理模块中;所述预处理模块接收来自所述数据采集模块挖掘到的所述数据流,将所述数据流进行预处理后传递到所述分析聚类模块中进行聚类分析;
所述数据预处理模块用于对所述数据流中的数据进行预处理,所述预处理步骤如下所述:
1.1将离散型数据进行数值化;所述离散型的数据类型包括back、land和nmap,本实施例将所述离散型数据的离散属性投射到欧式空间,所述离散属性在所述欧式空间中存在属于自身的空间位置,然后计算所述空间位置的数据在所述欧式空间的欧式距离,所述离散属性采用二进制编码进行数据编码;
1.2、将连续型数据进行标准化和归一化处理;在所述数据流中连续型数据的连续属性进行标准化和归一化处理,其中在所述数据流中选取部分数据作为样本数据,处理步骤如下所述:
1.2.1、根据公式(1)将所述连续属性标准化;
(1) B=(vi-r)/σ
其中B表示所述数据的连续属性标准化,σ表示所述样本数据的标准差,所述标准差的计算由公式(2)所得,vi表示所述连续型数据的第i个
Figure GDA0002939831600000071
属性,i代表所述连续型数据的属性序号,取任意正整数,选择所述属性个数为10;r表示所述属性的平均值,所述平均值由公式(3)取得;
(2)
其中10表示所述属性的个数;
Figure GDA0002939831600000081
其中10表示所述属性的个数;
1.2.2、将数值归一化处理;将步骤1.2.1处理后的变为标准化的数据进行归一到[0,1]区间中,并将所述数据的值域映射到[0,1]范围内处理,所述归一化处理由公式(4)计算所得;
Figure GDA0002939831600000082
其中C′i是Ci归一化后的数值,其值为[0,1]内任意数值,Cmin是Ci中的最小值,Cmax是Ci中的最大值;Ci是所述标准化的数据值;
1.3、进行主成分分析降(#`O′)处理;将所述数据流中的高维数据特征进行降维处理,具体步骤如下所示:
1.3.1、将所述数据流中的数据按列组合成n行m列矩阵1,其中所述矩阵1每一行代表一个属性字段;
1.3.2、将所述矩阵1的每一行进行零均值化,减去所述每一行中的均值;
1.3.3、求出所述矩阵1的协方差矩阵;
1.3.4、求出所述协方差矩阵的特征值以及所述特征值对应的特征向量;
1.3.5、将所述特征向量按对应的特征值大小依此从上到下按行排列成矩阵2,取前k行组成矩阵3,其中k值为不超过所述矩阵2的行列数的任意正整数;
1.3.6、将所述矩阵3与所述矩阵1相乘即为所述数据流进行k维降维后的数据;
将所述数据流中的所有数据进行预处理完成后由所述预处理模块将预处理后的数据发送到所述分析聚类模块中,由所述分析聚类模块对所述预处理后的数据流进行聚类操作;所述分析聚类模块接收来自所述预处理模块的所述数据流并将所述数据流进行特征聚类,所述分析聚类模块将所述数据流分成正常数据集合和非正常数据集合,其中所述分析聚类模块对所述数据流进行聚类分析的具体步骤如下:
2.1、数据流整理;数据整理模块根据所述数据流的数据特征区分正常的数据流和孤立点,所述正常数据流被处理为训练集,所述训练集实现具有正常信息轮廓的数据的挖掘;若所述正常数据流中存在孤立点,则将所述正常数据流转为步骤2.2进行孤立点剔除操作,若所述正常数据流中不具有所述孤立点,则所述正常数据流将转至步骤2.3进行数据聚类操作;
2.2、孤立点剔除;本实施例中使用递归的方法对数据流中的空间域分为左右两个对称子域,使用一条垂直线1递归的划分将空间1划分为左向子空间1和右向子空间1,分别在所述子空间1内找出离所述直线1距离不超过规定最小值的点,其中将所述规定最小值设为x和并且将满足上述条件的所述点设为一个点集1,所述点集中的点个数不超过6个,并且所述点集中的点以左右两个方向对称存在;在所述点集1中找出离所述直线1最近距离的一对点1,再将所述最近的对点1存在的子空间以一条垂直线2为对称轴将所述子空间划分为上下左右对称的正方形区域2,在所述区域2中以所述对称轴找出离所述对称轴直线距离最近的一对点2,将所述一对点2代替一对点1,继续将所述一对点2的所在空间域根据上述一对点1所处子空间的划分规则进行划分并找出距离最近的对点,若不存在所述对点即只存在数量为1的孤点距离划分直线最近,则所述孤点为孤立点,将所述孤立点剔除所述数据流空间域中,若能找到对点则继续进行空间区域划分操作直至找出空间内存在的孤点为止,对已剔除孤立点的数据流将进行步骤3;
2.3、数据聚类;将步骤1已整理成没有存在孤立点的数据流和步骤2中已剔除好孤立点的数据结合形成整合数据流,并对所述整合数据流进行聚类分析,在本实施例中,作为已存在的训练数据流的数据候选微簇为D,所述训练数据流中的临界候选微簇为E,所述训练数据流的微簇半径设为R,所述微簇半径设置步骤如下所示:
2.3.1、使用随机抽样的方法在所述训练数据流中选取部分数据作为抽样样本数据;
2.3.2、对所述抽样样本数据两两随机配对生成N对数据,并计算所述每对数据间的距离;
2.3.3、计算所述N对数据间的距离的期望EX和方差DX;
2.3.4、构建阂值半径R,所述阂值半径由公式(5)计算所得;
R=P*(EX+0.25xDX) (5)
其中公式(5)中的P为定值,在本实施例中取1/3效果最优;
将所述数据候选微簇D的子集设为候选微簇子集T1,将临界候选微簇E的子集设为候选临界微簇T2;将所述整合数据流中的数据点作为新数据点n并入所述训练数据流中的候选微簇D中,若并入所述数据点n后的所述微簇的半径R的增长范围不超过规定范围k,所述k在本实施例中不作硬性规定并且所述k可取任意数值,则将所述数据点n并入所述训练数据流中,若所述增长范围超过规定范围则将所述数据点n并入所述训练数据流中的临界候选微簇E中,若所述数据点n并入后的所述临界候选微簇E的半径不超过规定范围I,所述规定范围I不作硬性规定并且可取任意数值,则将所述数据点n并入所述临界候选微簇E中,然后检查所述临界微簇E的新权值w,若所述新权值w的增长值超过系统给出的最大权值数A,则说明所述临界候选微簇E转变为新的候选微簇E’,所述分析聚类模块将所述临界候选微簇E从临界候选微簇集群中剔除,并且建立新的临界候选微簇;若所述数据点n都不能纳入所述临界微簇D和所述临界候选微簇E中,则根据所述数据点n创建新的临界候选微簇E”,再将所述临界候选微簇D插入到临界候选微簇缓存中,用于后续处理,并将所述数据点n作为离群点噪声或作为所述新的临界候选微簇E”中的新微簇种子;对于上述所有候选微簇若没有新的数据点并入则会递减其权重值,若所述候选微簇的权重小于所述最大权重数值A,则所述分析聚类模块对所述候选微簇集合T1进行剔除处理并且释放空间内存,对所述候选微簇集合T1的权重检查时间跨度由公式(6)决定;
T=log[(A)/(A-1)]/N (6)
其中公式(6)中的A表示所述最大权重值,其取值为任意正数且大于数值1,T表示所述时间跨度,其取值为任意正数,N表示在所述训练数据流中的所述候选微簇集合T1的子集个数,其取值为任意正整数;所述整合数据流中的数据点均通过步骤3并入所述候选微簇集合T1或所述候选临界微簇T2中,剩余无法并入所述候选微簇集合T1或所述候选临界微簇T2中的数据将进行集合,所述集合为异常簇集合,而并入所述候选微簇集合T1或所述候选临界微簇T2中的数据进行合并并作为正常簇集合;
所述分析聚类模块将不属于任何微簇的数据流的数据特征存储到所述区块链数据库中并作为训练样本集,所述分析聚类模块根据所述训练样本集可快速识别具有异常节点的数据流,所述分析聚类模块将所述具有异常节点的数据流发送至所述网关中,并将属于正常微簇的数据流发送至所述加密分析模块中,所述分析聚类模块所述整合数据流的分析聚类操作完成。
实施例三:本实施例应当理解为至少包含前述任一一个实施例的全部特征,并在其基础上进一步改进,一种基于区块链的数据流检测系统;其特征在于,所述系统包括数据采集模块、预处理模块、分析聚类模块和加密分析模块;其中所述数据采集模块与预处理模块数据连接,所述预处理模块与所述分析聚类模块数据连接,所述分析聚类模块与所述加密分析模块数据连接;所述数据采集模块与实时网络数据流接口进行数据连接,所述数据采集模块接收来自所述实时网络数据流接口的数据流,并且将所述数据流传入所述预处理模块中;所述预处理模块接收来自所述数据采集模块挖掘到的所述数据流,将所述数据流进行预处理后传递到所述分析聚类模块中进行聚类分析;
数据预处理模块用于对所述数据流中的数据进行预处理,所述预处理步骤如下所述:
A1、将离散型数据进行数值化;所述离散型的数据类型包括back、land和nmap,将所述离散型数据的离散属性投射到欧式空间,所述离散属性在所述欧式空间中存在属于自身的空间位置,然后计算所述空间位置的数据在所述欧式空间的欧式距离,所述离散属性采用二进制编码进行数据编码;
A2、将连续型数据进行标准化和归一化处理;将所述数据流中连续型数据的连续属性进行标准化和归一化处理,其中在所述数据流中选取部分数据作为样本数据,处理步骤如下所述:
a1、根据公式(1)将所述连续属性标准化;
(1) B=(vi-r)/σ
其中B表示所述数据的连续属性标准化,σ表示所述样本数据的标准差,所述标准差的计算由公式(2)所得,vi表示所述连续型数据的第i个属性,i代表所述连续型数据的属性序号,取任意正整数,选择所述属性个数为10;r表示所述属性的平均值,所述平均值由公式(3)取得;
Figure GDA0002939831600000131
其中10表示所述属性的个数;
Figure GDA0002939831600000132
其中10表示所述属性的个数;
a2、将数值归一化处理;将步骤a1处理后的变为标准化的数据进行归一到[0,1]区间中,并将所述数据的值域映射到[0,1]范围内处理,所述归一化处理由公式(4)计算所得;
Figure GDA0002939831600000141
其中C′i是Ci归一化后的数值,其值为[0,1]内任意数值,Cmin是Ci中的最小值,Cmax是Ci中的最大值;Ci是所述标准化的数据值;
A3、进行主成分分析降维处理;将所述数据流中的高维数据特征进行降维处理,具体步骤如下所示:
b1、将所述数据流中的数据按列组合成n行m列矩阵1,其中所述矩阵1每一行代表一个属性字段;
b2、将所述矩阵1的每一行进行零均值化,减去所述每一行中的均值;
b3、求出所述矩阵1的协方差矩阵;
b4、求出所述协方差矩阵的特征值以及所述特征值对应的特征向量;
b5、将所述特征向量按对应的特征值大小依此从上到下按行排列成矩阵2,取前k行组成矩阵3,其中k值为不超过所述矩阵2的行列数的任意正整数;
b6、将所述矩阵3与所述矩阵1相乘即为所述数据流进行k维降维后的数据;
将所述数据流中的所有数据进行预处理完成后由所述预处理模块将预处理后的数据发送到所述分析聚类模块中,由所述分析聚类模块对所述预处理后的数据流进行聚类操作;所述分析聚类模块接收来自所述预处理模块的所述预处理后的数据流并将所述数据流进行特征聚类,所述分析聚类模块将所述数据流分成正常数据集合和非正常数据集合,其中所述分析聚类模块对所述数据流进行聚类分析的具体步骤如下:
B1、数据流整理;数据整理模块根据所述数据流的数据特征区分正常的数据流和孤立点,所述正常数据流被处理为训练集,所述训练集实现具有正常信息轮廓的数据的挖掘;若所述正常数据流中存在孤立点,则将所述正常数据流转为步骤B2进行孤立点剔除操作,若所述正常数据流中不具有所述孤立点,则所述正常数据流将转至步骤B3进行数据聚类操作;
B2、孤立点剔除;使用递归的方法将数据流中的空间域分为左右两个对称子域,使用一条垂直线1递归的将空间1划分为左向子空间1和右向子空间1,分别在所述子空间1内找出离所述垂直线1距离不超过规定最小值的点,其中将所述规定最小值设为x和并且将满足上述条件的所述点设为一个点集1,所述点集中的点个数不超过6个,并且所述点集中的点以左右两个方向对称存在;在所述点集1中找出离所述垂直线1最近距离的一对点1,再将所述最近距离的一对点1存在的子空间以一条垂直线2为对称轴将所述子空间划分为上下左右对称的正方形区域2,在所述区域2中以所述对称轴找出离所述对称轴直线距离最近的一对点2,将所述一对点2代替一对点1,继续将所述一对点2的所在空间域根据上述一对点1所处子空间的划分规则进行划分并找出距离最近的对点,若不存在所述对点即只存在数量为1的孤点使得距离划分直线最近,则所述孤点为孤立点,将所述孤立点剔除所述数据流空间域,若能找到对点则继续进行空间区域划分操作直至找出空间内存在的孤点为止,对已剔除孤立点的数据流将进行步骤B3;
B3、数据聚类;将步骤1已整理成没有存在孤立点的数据流和步骤2中已剔除好孤立点的数据结合形成整合数据流,并对所述整合数据流进行聚类分析,作为已存在的训练数据流的数据候选微簇为D,所述训练数据流中的临界候选微簇为E,所述训练数据流的微簇半径设为R,所述微簇半径设置步骤如下所示:
c1、使用随机抽样的方法在所述训练数据流中选取部分数据作为抽样样本数据;
c2、对所述抽样样本数据两两随机配对生成N对数据,并计算所述每对数据间的距离;
c3、计算所述N对数据间的距离的期望EX和方差DX;
c4、构建阂值半径R,所述阂值半径R由公式(5)计算所得;
R=P*(EX+0.25xDX) (5)
其中公式(5)中的P为定值,为1/3;
将所述数据候选微簇D的子集设为候选微簇子集T1,将临界候选微簇E的子集设为候选临界微簇T2;将所述整合数据流中的数据点作为新数据点n并入所述训练数据流中的候选微簇D中,若并入所述数据点n后的所述微簇的半径R的增长范围不超过规定范围k,所述k可取任意数值,则将所述数据点n并入所述训练数据流中,若所述增长范围超过规定范围则将所述数据点n并入所述训练数据流中的临界候选微簇E中,若所述数据点n并入后的所述临界候选微簇E的半径不超过规定范围l,可取任意数值,则将所述数据点n并入所述临界候选微簇E中,然后检查所述临界微簇E的新权值w,若所述新权值w的增长值超过系统给出的最大权值数A,则说明所述临界候选微簇E转变为新的候选微簇E’,所述分析聚类模块将所述临界候选微簇E从临界候选微簇集群中剔除,并且建立新的临界候选微簇;若所述数据点n都不能纳入所述临界微簇D和所述临界候选微簇E中,则根据所述数据点n创建新的临界候选微簇E”,再将所述临界候选微簇D插入到临界候选微簇缓存中,用于后续处理,并将所述数据点n作为离群点噪声或作为所述新的临界候选微簇E”中的新微簇种子;对于上述所有候选微簇若没有新的数据点并入则会递减其权重值,若所述候选微簇的权重小于所述最大权重数值A,则所述分析聚类模块对所述候选微簇集合T1进行剔除处理并且释放空间内存,对所述候选微簇集合T1的权重检查时间跨度由公式(6)决定;
(6) T=log[(A)/(A-1)]/N
其中公式(6)中的A表示所述最大权重值,其取值为任意正数且大于数值1,T表示所述时间跨度,其取值为任意正数,N表示在所述训练数据流中的所述候选微簇集合T1的子集个数,其取值为任意正整数;所述整合数据流中的数据点均通过步骤3并入所述候选微簇集合T1或所述候选临界微簇T2中,剩余无法并入所述候选微簇集合T1或所述候选临界微簇T2中的数据将进行集合,所述集合为异常簇集合,而并入所述候选微簇集合T1或所述候选临界微簇T2中的数据进行合并并作为正常簇集合;
所述分析聚类模块将不属于任何微簇的数据流的数据特征存储到所述区块链数据库中并作为训练样本集,所述分析聚类模块根据所述训练样本集可快速识别具有异常节点的数据流,所述分析聚类模块将所述具有异常节点的数据流发送至网关中,并将属于正常微簇的数据流发送至所述加密分析模块中,所述分析聚类模块所述整合数据流的分析聚类操作完成;
将所述聚类操作完成后的数据流中属于正常簇集合的数据集传输到所述加密分析模块中,所述加密分析模块对无异常点的数据集进行加密分析,判断所述数据集是否属于安全套接层协议特征的加密数据,采取新型分析数据步骤加快数据类别的分析速度,其中分析加密模块中搭建有区块链数据库,所述区块链数据库负责存储数据初步处理后产生的安全套接层数据包五元组,其中所述分析加密模块的数据分析操作具体如下:
C1、对所述正常数据集进行初步处理;从所述属于正常簇集合的数据集合进行数据加密分析,对属于安全套接层密码学的数据进行判断分析,将所述数据集合传输到加密分析模块中,对所述数据集合作为原始数据集,对所述原始数据集进行数据初步处理,所述数据初步处理负责将所述原始数据集中非安全套接层数据包进行过滤,并且将所述安全套接层数据包五元组存入所述区块链数据库中,所述加密分析模块对所述原始数据中存在的安全套接层交互协议字段排序连接去重,最后构成安全套接层网络流实验数据集;
C2、计算隐马尔可夫概率值;然后所述加密分析模块对待识别的数据流建立模型,对所述原始数据输入对应的隐马尔可夫模型,利用前向算法计算得出所述原始数据中属于安全套接层加密的文件数据的隐马尔可夫模型的概率,并进行对数交换以避免得出所述概率值太小导致数值太密集;
C3、数据比较并分析;对所述原始数据中随机抽样500个样本特征并输入对应的隐马尔可夫模型进行比较,对比较的隐马尔可夫模型中所得出的概率值集合中找出最小的概率数值,将所述最小的概率值作为阈值;将所述概率值于阈值进行比较,若所述500个样本中得出该概率数值大于阈值的样本将反馈到所述加密分析模块中,所述加密分析模块接收到样本特征后将属于所述样本特征进行记录,并作为判断将不对属于加密的特征数据流进行分析;若所述概率值大于阈值,则取概率值最大的样本数据的特征作为所述加密分析模块对数据进行加密分析的判断标准,并且所述加密分析模块对属于此类特征的数据进行识别,所述加密分析模块将识别成功的数据的特征存储到区块链数据库中,并将其所述特征作为训练集对下一波数据流进行识别分析;所述加密分析模块将识别完成后的所述数据流发送至所述网关,即本系统对所述数据流的识别和分析完成。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
综上所述,本发明的一种基于区块链的数据流检测方法和系统;
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。也就是说上面讨论的方法,系统和设备是示例。各种配置可以适当地省略,替换或添加各种过程或组件。例如,在替代配置中,可以以与所描述的顺序不同的顺序执行方法,和/或可以添加,省略和/或组合各种部件。而且,关于某些配置描述的特征可以以各种其他配置组合,如可以以类似的方式组合配置的不同方面和元素。此外,随着技术发展其中的元素可以更新,即许多元素是示例,并不限制本公开或权利要求的范围。
在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而,可以在没有这些具体细节的情况下实践配置例如,已经示出了众所周知的电路,过程,算法,结构和技术而没有不必要的细节,以避免模糊配置。该描述仅提供示例配置,并且不限制权利要求的范围,适用性或配置。相反,前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。
综上,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种基于区块链的数据流检测系统,其特征在于,所述系统基于区块链技术对实时网络数据流进行筛选,提高了数据检测效率,并对非单一数据流进行检测;所述系统包括:数据采集模块、预处理模块、分析聚类模块和加密分析模块;其中所述数据采集模块与所述预处理模块数据连接,所述预处理模块与所述分析聚类模块数据连接,所述分析聚类模块与所述加密分析模块数据连接;
所述数据采集模块与网关的数据流接口进行数据连接,所述数据采集模块接收来自所述网关传输过来的数据流,并且将所述数据流传入所述预处理模块中;所述预处理模块接收来自所述数据采集模块挖掘到的所述数据流,将所述数据流进行预处理后传递到所述分析聚类模块中进行聚类分析;所述分析聚类模块接收来自所述预处理模块的被预处理后的所述数据流并将其进行特征聚类,所述分析聚类模块将被预处理后的所述数据流分成具有异常节点的数据流和非异常节点的数据流;
所述数据预处理模块用于对所述数据流中的数据进行预处理,所述预处理步骤如下所述:
a、将离散型数据进行数值化;所述的离散型数据类型包括back、land和nmap,将所述离散型数据的离散属性投射到欧式空间,所述离散属性在所述欧式空间中存在属于自身的空间位置,然后计算所述空间位置的数据在所述欧式空间的欧式距离,所述离散属性采用二进制编码进行数据编码;
b、将连续型数据进行标准化和归一化处理;将所述数据流中连续型数据的连续属性进行标准化和归一化处理,其中在所述数据流中选取部分数据作为样本数据,处理步骤如下所述:
①根据公式(1)将所述连续属性标准化;
B=(vi-r)/σ (1)
其中B表示所述数据的连续属性标准化,σ表示所述样本数据的标准差,所述标准差的计算由公式(2)所得,vi表示所述连续型数据的第i个属性,i代表所述连续型数据的属性序号,取任意正整数,选择所述属性个数为10;r表示所述属性的平均值,所述平均值由公式(3)取
得;
Figure FDA0003492624070000021
Figure FDA0003492624070000022
其中10为所述属性的个数;
②将数值归一化处理;将步骤①处理后的变为标准化的数据进行归一到[0,1]区间中,并将所述数据的值域映射到[0,1]范围内处理,所述归一化处理由公式(4)计算所得;
Figure FDA0003492624070000023
其中C′i是Ci归一化后的数值,其值为[0,1]内任意数值,Cmin是Ci中的最小值,Cmax是Ci中的最大值;Ci是所述标准化的数据值;
c、进行主成分分析降维处理;将所述数据流中的高维数据特征进行降维处理,具体步骤如下所示:
1)将所述数据流中的数据按列组合成n行m列矩阵1,其中所述矩阵1每一行代表一个属性字段;
2)将所述矩阵1的每一行进行零均值化,减去所述每一行中的均值;
3)求出所述矩阵1的协方差矩阵;
4)求出所述协方差矩阵的特征值以及所述特征值对应的特征向量;
5)将所述特征向量按对应的特征值大小依此从上到下按行排列成矩阵2,取前k行组成矩阵3,其中k值为不超过所述矩阵2的行列数的任意正整数;
6)将所述矩阵3与所述矩阵1相乘即为所述数据流进行k维降维后的数据;
将所述数据流中的所有数据进行预处理完成后由预处理模块将预处理后的数据发送到所述分析聚类模块中,由所述分析聚类模块对所述处理后的数据流进行聚类操作。
2.根据权利要求1所述的一种基于区块链的数据流检测系统,其特征在于,所述加密分析模块负责对所述分析聚类模块中的属于非异常节点的数据流进行加密特征分析。
3.根据权利要求2所述的一种基于区块链的数据流检测系统,其特征在于,所述加密分析模块和所述分析聚类模块都搭建在区块链数据库上,所述区块链数据库负责存储数据流的特征值。
4.根据权利要求3所述的一种基于区块链的数据流检测系统,其特征在于,所述区块链数据库分别负责存储所述分析聚类模块传输的所述异常节点数据流的特征值和所述加密分析模块传输的具有安全套接层交互字段的数据流的特征值。
5.根据权利要求4所述的一种基于区块链的数据流检测系统,其特征在于,所述系统中所有模块内均有具有接收和发送数据流的端口。
CN202011574792.5A 2020-12-28 2020-12-28 一种基于区块链的数据流检测系统 Active CN112615881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011574792.5A CN112615881B (zh) 2020-12-28 2020-12-28 一种基于区块链的数据流检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011574792.5A CN112615881B (zh) 2020-12-28 2020-12-28 一种基于区块链的数据流检测系统

Publications (2)

Publication Number Publication Date
CN112615881A CN112615881A (zh) 2021-04-06
CN112615881B true CN112615881B (zh) 2022-09-30

Family

ID=75248077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011574792.5A Active CN112615881B (zh) 2020-12-28 2020-12-28 一种基于区块链的数据流检测系统

Country Status (1)

Country Link
CN (1) CN112615881B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391976A (zh) * 2021-06-15 2021-09-14 厦门理工学院 一种分布式数据节点异常行为检测方法、系统及存储介质
CN113407410A (zh) * 2021-06-15 2021-09-17 厦门理工学院 一种区块链网络异常检测方法
CN113360936B (zh) * 2021-08-09 2021-11-02 湖南和信安华区块链科技有限公司 一种基于区块链的数据分析系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3285248B1 (en) * 2016-08-16 2019-07-03 Alcatel Lucent Blockchain-based security threat detection method and system
CN108630289B (zh) * 2018-04-25 2020-02-07 浙江雲禾医疗器材有限公司 基于区块链的医疗数据管理系统
CN108521434B (zh) * 2018-05-29 2019-11-19 东莞市大易产业链服务有限公司 一种基于区块链技术的网络安全入侵检测系统
CN110008259A (zh) * 2019-02-20 2019-07-12 中科恒运股份有限公司 可视化数据分析的方法及终端设备
CN110958273B (zh) * 2019-12-26 2021-09-28 山东公链信息科技有限公司 一种基于分布式数据流的区块链检测系统
CN111756760B (zh) * 2020-06-28 2022-11-18 深圳壹账通智能科技有限公司 基于集成分类器的用户异常行为检测方法及相关设备

Also Published As

Publication number Publication date
CN112615881A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112615881B (zh) 一种基于区块链的数据流检测系统
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN112738015A (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
WO2021093815A1 (zh) 混合型在线数据异常检测方法
CN113645232A (zh) 一种面向工业互联网的智能化流量监测方法、系统及存储介质
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN109951462B (zh) 一种基于全息建模的应用软件流量异常检测系统及方法
Uddin et al. Online bad data detection using kernel density estimation
CN116208417B (zh) 一种基于大数据的通信异常感知系统及方法
Zheng Intrusion detection based on convolutional neural network
CN112134862A (zh) 基于机器学习的粗细粒度混合网络异常检测方法及装置
CN115277189B (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
Shi et al. An improved agglomerative hierarchical clustering anomaly detection method for scientific data
CN113780432B (zh) 基于增强学习的网络信息系统运维异常智能检测方法
CN117857195A (zh) 一种网络入侵检测方法、装置、电子设备及存储介质
Laptiev et al. Algorithm for Recognition of Network Traffic Anomalies Based on Artificial Intelligence
CN117749499A (zh) 一种网络信息系统场景下的恶意加密流量检测方法及系统
CN115982722B (zh) 一种基于决策树的漏洞分类检测方法
CN116647844A (zh) 一种基于堆叠集成算法的车载网络入侵检测方法
CN117014193A (zh) 一种基于行为基线的未知Web攻击检测方法
CN116032563A (zh) 一种基于模糊最小最大神经网络的网络入侵检测方法
Timčenko et al. The hybrid machine learning support for entropy based network traffic anomaly detection
CN113595987B (zh) 一种基于基线行为刻画的通联异常发现方法、装置、存储介质及电子装置
CN115242431A (zh) 基于随机森林和长短期记忆网络的工业物联网数据异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220905

Address after: Room 501, No. 1, Floor 1-5, Building 3-13, Phase III, Optics Valley Core Center, No. 303, Optics Valley Avenue, Fozuling Street, Donghu New Technology Development Zone, Wuhan City, Hubei Province 430000

Applicant after: ChinaSoft digital intelligence information technology (Wuhan) Co.,Ltd.

Address before: 415900 quantum computing center, Hanshou County, Changde City, Hunan Province

Applicant before: Ma Ying

GR01 Patent grant
GR01 Patent grant