CN116502171B - 一种基于大数据分析算法的网络安全信息动态检测系统 - Google Patents

一种基于大数据分析算法的网络安全信息动态检测系统 Download PDF

Info

Publication number
CN116502171B
CN116502171B CN202310776913.1A CN202310776913A CN116502171B CN 116502171 B CN116502171 B CN 116502171B CN 202310776913 A CN202310776913 A CN 202310776913A CN 116502171 B CN116502171 B CN 116502171B
Authority
CN
China
Prior art keywords
data
module
information
detected
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310776913.1A
Other languages
English (en)
Other versions
CN116502171A (zh
Inventor
王帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxu Network Technology Co ltd
Original Assignee
Beijing Guoxu Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoxu Network Technology Co ltd filed Critical Beijing Guoxu Network Technology Co ltd
Priority to CN202310776913.1A priority Critical patent/CN116502171B/zh
Publication of CN116502171A publication Critical patent/CN116502171A/zh
Application granted granted Critical
Publication of CN116502171B publication Critical patent/CN116502171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

本发明公开一种基于大数据分析算法的网络安全信息动态检测系统,涉及数据信息处理技术领域,解决的问题是提高网络安全信息动态检测能力,采用的方案是:一种基于大数据分析算法的网络安全信息动态检测系统,通过数据预处理模块采用数据动态清洗模型将系统接收的数据划分为单元网格,提高数据分类的效率,并将数据特征进行降维操作和分级操作,使系统能够实时地动态处理庞大的信息量,通过大数据分析平台采用K‑means算法模型使用去除数据孤点,将高频数据特征点按权重筛选,减少数据簇的数量,并设定距离阈值将待检测数据与样本模块中的异常数据类型对应,实现异常数据的归类,提高数据分析的准确度和速度,实现对网络异常信息的快速动态检测。

Description

一种基于大数据分析算法的网络安全信息动态检测系统
技术领域
本发明涉及数据信息处理技术领域,具体是一种基于大数据分析算法的网络安全信息动态检测系统。
背景技术
目前科技水平高速发展,人们的生活和工作越来越离不开计算机网络的应用。随着人们使用计算机网络时间的增加,网络信息数据量日益庞大,网络信息的内容更加多样化和复杂化,人们对网络信息安全问题也更加重视,网络安全问题也日益成为热点问题。常见的网络安全威胁有:信息泄露、信息窃取、数据篡改、数据删添、计算机病毒等,网络安全攻击的难以预测性与其自身的隐蔽性使得攻击在整个网络中更加猖獗的进行破坏性的生存。
如何实现网络安全信息动态检测成为亟待解决的技术问题,现有技术大多通过检测设备实现数据信息的检测成为亟待解决的技术问题,现有的技术对常见的网络安全攻击的监测和防御有很多方法,但很难做到实时动态的巡检与监测。现有技术多采用检测设备和测量装置进行测量,对于数据信息的处理比较滞后。
综上所述,传统的网络安全信息动态检测系统无法快速检测和分析各种网络异常信息,数据处理困难,存在处理信息不及时、效率低和有误差的问题,大数据处理能力低下,面对复杂的网络环境,人们急需一种能够对网络信息进行实时处理的动态检测系统。
发明内容
针对上述技术的不足,本发明公开一种基于大数据分析算法的网络安全信息动态检测系统,通过数据预处理模块采用数据动态清洗模型将系统接收的数据进行单元划分,单元网格代替数据点进行数据分类,提高数据分类的效率,并将数据特征进行降维操作和分级操作,方便大数据分析平台的数据检测,使系统能够实时地动态处理庞大的信息量,通过大数据分析平台采用K-means算法模型使用去除数据孤点的方法,提高数据检测的准确性,将高频数据特征点按权重筛选,减少数据簇的数量,提高数据检测的速率,并设定距离阈值将待检测数据与样本模块中的异常数据类型对应,实现异常数据的归类,本发明能够快速检测和分析各种网络异常信息,实现对网络信息的动态检测。
为了实现上述技术效果,本发明采用以下技术方案:
一种基于大数据分析算法的网络安全信息动态检测系统,包括报警模块和溯源模块;
报警模块接收异常数据检测结果和异常数据的源IP地址,并发送警报信息到维护部门;
所述报警模块包括通信子模块,所述通信子模块采用802.11无线接口满足无线传输协议;
溯源模块对异常数据进行溯源,得到异常数据的源IP地址;
所述溯源模块包括同步子模块和探索子模块,所述同步子模块用于对大数据分析平台的异常数据进行同步,所述探索子模块采用感知哈希模型选取均值哈希算法进行异常数据的溯源分析,所述同步子模块的输出端连接探索子模块的输入端;
基于大数据分析算法的网络安全信息动态检测系统还包括数据预处理模块和大数据分析平台;
数据预处理模块为系统数据分析做准备工作;
所述数据预处理模块包括数据清洗子模块、数据加密子模块和数据变换子模块,所述数据清洗子模块采用数据动态清洗模型清除重复数据和纠正异常数据,避免无效数据的不良影响,所述数据加密子模块对敏感信息进行数据变形,实现对数据的隐私保护,所述数据变换子模块用于将数据变换为统一形式,方便数据分析与数据存储,所述数据清洗子模块的输出端连接所述数据加密子模块的输入端,所述数据加密子模块的输出端连接所述数据变换子模块的输入端;
大数据分析平台用于对预处理后的数据进行分析,动态检测异常信息;
所述大数据分析平台包括UI层、表现层、服务层、分析层和存储层,所述UI层为管理人员提供安全信息检测结果的管理页面,所述表现层用于前端框架的运行和页面的渲染,所述服务层用于实现所述大数据分析平台的服务功能,所述分析层用于对待检测数据集进行计算分析,筛选异常信息,并探索异常信息的来源,所述存储层用于存储已检测的数据信息结果和待检测数据集,所述UI层连接表现层,所述服务层连接分析层,所述分析层连接存储层,所述存储层的输出端连接服务层的输入端;
所述数据预处理模块的输出端连接所述大数据分析平台的输入端,所述大数据分析平台的输出端连接所述报警模块和溯源模块的输入端,所述溯源模块的输出端连接所述报警模块的输出端。
作为本发明进一步的技术方案,所述数据动态清洗模型通过单元网格代替数据点进行数据分类,提高数据分类的效率,并将数据特征进行降维操作和分级操作,方便系统进行数据检测,所述数据动态清洗模型包括数据分类系统、特征提取系统、特征分级系统和数据修复系统,所述数据分类系统用于将输入数据按照数据类型进行分类,所述数据特征提取系统采用改进型卷积神经网络提取数据串中的数据特征,并使用信息熵对数据进行度量,所述特征分级系统将从数据串中提取的数据特征按照在数据串中出现的频率分为低频数据特征和高频数据特征,所述数据修复系统对数据特征进行空白补位,形成待检测数据集,所述数据分类系统的输出端连接所述特征提取系统的输入端,所述特征提取系统的输出端连接所述特征分级系统的输入端,所述特征分级系统的输出端连接所述数据修复系统的输入端。
作为本发明进一步的技术方案,所述数据动态清洗模型的工作方式为:
步骤一、数据分类,采用改进型KNN法对预处理后的待检测数据集进行网格化,将单元网格按次序进行标号,然后将所有的数据对象进行映射使其一一对应的分配至网格中,数据集被划分的网格数为:
(1)
式(1)中,F为数据集被划分的网格数,计算结果取整, t为待检测数据的数据标号,为待检测数据的最小值,/>为待检测数据的最大值,D为加速器,η为分辨率,/>为高频数据特征点个数,q为待检测数据集的总数据数,然后把一个单元网格看作一个数据进行聚类,将接收到的数据按照图片信息、视频信息、文字信息、音频信息、图表信息、动画信息和其他信息进行数据分组;
步骤二、识别特征,在每个类型的数据组中根据数据串之间的相似性,将高频重复数据删除,剔除冗余的数据,然后截取数据串中的有效部分,通过方差过滤法识别数据串中的关键特征;
步骤三、特征简化,通过所述卷积神经网络将高维数据特征转化为一维数据特征;
步骤四、特征分级,从数据串中提取的数据特征按照在数据串中出现的频率分为低频数据特征和高频数据特征;
步骤五、确认待检测数据集,对特征数据中空缺的数据位进行空白补位,根据数据类型将特征数据分类为包含图片信息子集、视频信息子集、文字信息子集、音频信息子集、图表信息子集、动画信息子集和其他信息子集的待检测数据集。
作为本发明进一步的技术方案,所述服务层包括登录模块、查询模块和管理模块,所述登录模块用于管理人员的登录,进入管理页面,所述查询模块用于管理人员按接收数据日期和数据类别查询已检测数据中异常信息的类别和来源,所述管理模块用于管理人员按照数据类型设定检测异常信息的优先级,所述登录模块的输出端连接查询模块和管理模块的输入端。
作为本发明进一步的技术方案,所述分析层包括样本模块和异常检测模块,所述样本模块用于存储异常信息的数据特征组成的异常信息数据簇,所述异常检测模块采用K-means算法模型根据预处理后的数据特征与样本模块中的异常信息的数据特征的相似度,检测大数据中的异常数据,所述样本模块与异常检测模块连接。
作为本发明进一步的技术方案,所述K-means算法模型包括加速系统、孤点检测系统、参数确认系统和聚类系统,所述加速系统采用RSYNC算法减少数据同步时的分块时间,提高数据同步效率,所述孤点检测系统通过密度估算得到待检测信息中的孤点,所述聚类系统对去除孤点的待检测信息进行聚类操作,所述加速系统的输出端连接所述孤点检测系统的输入端,所述孤点检测系统的输出端连接聚类系统的输入端。
作为本发明进一步的技术方案,所述参数确认系统的工作方法为:
1)、分子集,选取高频数据特征点为子集中心点,待检测数据集中高频数据特征点为M个,以欧式距离为半径将待检测数据集分为M个数据子集;
2)、子集合并,在数据集全局范围内对比两个子集中心点的距离小于欧式距离的二倍时,将两个子集合并,得到新的子集;
3)、确认K值,重复2),直到子集数量不再发生变化,此时子集数量为K值。
作为本发明进一步的技术方案,所述K-means算法模型通过去除数据孤点的方法,提高数据检测的准确性,通过将高频数据特征点按权重筛选的方法,减少数据簇的数量,提高数据检测的速率,通过设定距离阈值将待检测数据与样本模块中的异常数据类型对应,实现异常数据的归类,所述K-means算法模型的工作方法为:
步骤1、去除孤点,计算待检测数据集中各数据点的点密度,确认点密度低于密度指数的数据点为孤点,将孤点从数据集中删除;
步骤2、确认聚类中心点,按照高频数据特征点的权重排序,选取前K个高频数据特征点为聚类中心点;
步骤3、形成数据簇,将聚类中心点周围的数据按照欧式距离为半径归类为一个待检测数据簇;欧式距离借助于识别模块实现数据识别;
步骤4、异常检测,将所述样本模块中的数据集与待检测数据集合并,计算所述样本模块中的异常信息数据簇与待检测数据簇的距离小于距离阈值时,待检测数据簇归类到异常信息数据簇中,判定待检测数据簇为异常信息,所述样本模块中的异常信息数据簇与待检测数据簇的距离大于距离阈值时,判定待检测数据簇为正常信息,距离阈值公式为:
(2)
式(2)中,为异常信息数据簇的中心点位置,/>为待检测数据簇的聚类中心点,/>为待检测数据簇个数,/>为高频数据特征点个数,/>为异常信息数据簇中心点的标号,/>为待检测数据簇的聚类中心点的标号,g为待检测数据簇的半径,u为异常信息数据簇的半径,J为距离阈值。
作为本发明进一步的技术方案,
与现有技术相比,本发明有益的积极效果是:
区别于常规的网络安全信息动态检测系统,针对上述技术的不足,本发明公开一种基于大数据分析算法的网络安全信息动态检测系统,通过数据预处理模块采用数据动态清洗模型将系统接收的数据进行单元划分,单元网格代替数据点进行数据分类,提高数据分类的效率,并将数据特征进行降维操作和分级操作,方便大数据分析平台的数据检测,使系统能够实时地动态处理庞大的信息量,通过大数据分析平台采用K-means算法模型使用去除数据孤点的方法,提高数据检测的准确性,将高频数据特征点按权重筛选,减少数据簇的数量,提高数据检测的速率,并设定距离阈值将待检测数据与样本模块中的异常数据类型对应,实现异常数据的归类,本发明能够快速检测和分析各种网络异常信息,实现对网络信息的动态检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,
图1为本发明总体架构示意图;
图2为本发明大数据分析平台模块示意图;
图3为本发明数据动态清洗模型的方法步骤示意图;
图4为本发明K-means算法模型的方法步骤示意图;
图5为本发明K-means算法模型模块示意图。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,包括报警模块和溯源模块;
报警模块接收异常数据检测结果和异常数据的源IP地址,并发送警报信息到维护部门;
所述报警模块包括通信子模块,所述通信子模块采用802.11无线接口满足无线传输协议;
溯源模块对异常数据进行溯源,得到异常数据的源IP地址;
所述溯源模块包括同步子模块和探索子模块,所述同步子模块用于对大数据分析平台的异常数据进行同步,所述探索子模块采用感知哈希模型选取均值哈希算法进行异常数据的溯源分析,所述同步子模块的输出端连接探索子模块的输入端;
基于大数据分析算法的网络安全信息动态检测系统还包括数据预处理模块和大数据分析平台;
数据预处理模块为系统数据分析做准备工作;
所述数据预处理模块包括数据清洗子模块、数据加密子模块和数据变换子模块,所述数据清洗子模块采用数据动态清洗模型清除重复数据和纠正异常数据,避免无效数据的不良影响,所述数据加密子模块对敏感信息进行数据变形,实现对数据的隐私保护,所述数据变换子模块用于将数据变换为统一形式,方便数据分析与数据存储,所述数据清洗子模块的输出端连接所述数据加密子模块的输入端,所述数据加密子模块的输出端连接所述数据变换子模块的输入端;
大数据分析平台用于对预处理后的数据进行分析,动态检测异常信息;
所述大数据分析平台包括UI层、表现层、服务层、分析层和存储层,所述UI层为管理人员提供安全信息检测结果的管理页面,所述表现层用于前端框架的运行和页面的渲染,所述服务层用于实现所述大数据分析平台的服务功能,所述分析层用于对待检测数据集进行计算分析,筛选异常信息,并探索异常信息的来源,所述存储层用于存储已检测的数据信息结果和待检测数据集,所述UI层连接表现层,所述服务层连接分析层,所述分析层连接存储层,所述存储层的输出端连接服务层的输入端;
所述数据预处理模块的输出端连接所述大数据分析平台的输入端,所述大数据分析平台的输出端连接所述报警模块和溯源模块的输入端,所述溯源模块的输出端连接所述报警模块的输出端。
在具体实施例中,所述数据动态清洗模型通过单元网格代替数据点进行数据分类,提高数据分类的效率,并将数据特征进行降维操作和分级操作,方便系统进行数据检测,所述数据动态清洗模型包括数据分类系统、特征提取系统、特征分级系统和数据修复系统,所述数据分类系统用于将输入数据按照数据类型进行分类,所述数据特征提取系统采用改进型卷积神经网络提取数据串中的数据特征,并使用信息熵对数据进行度量,所述特征分级系统将从数据串中提取的数据特征按照在数据串中出现的频率分为低频数据特征和高频数据特征,所述数据修复系统对数据特征进行空白补位,形成待检测数据集,所述数据分类系统的输出端连接所述特征提取系统的输入端,所述特征提取系统的输出端连接所述特征分级系统的输入端,所述特征分级系统的输出端连接所述数据修复系统的输入端。
在具体实施例中,所述数据动态清洗模型的工作方式为:
步骤一、数据分类,采用改进型KNN法对预处理后的待检测数据集进行网格化,将单元网格按次序进行标号,然后将所有的数据对象进行映射使其一一对应的分配至网格中,数据集被划分的网格数为:
(1)
式(1)中,F为数据集被划分的网格数,计算结果取整, t为待检测数据的数据标号,为待检测数据的最小值,/>为待检测数据的最大值,D为加速器,η为分辨率,为高频数据特征点个数,q为待检测数据集的总数据数,然后把一个单元网格看作一个数据进行聚类,将接收到的数据按照图片信息、视频信息、文字信息、音频信息、图表信息、动画信息和其他信息进行数据分组;
步骤二、识别特征,在每个类型的数据组中根据数据串之间的相似性,将高频重复数据删除,剔除冗余的数据,然后截取数据串中的有效部分,通过方差过滤法识别数据串中的关键特征;
步骤三、特征简化,通过所述卷积神经网络将高维数据特征转化为一维数据特征;
步骤四、特征分级,从数据串中提取的数据特征按照在数据串中出现的频率分为低频数据特征和高频数据特征;
步骤五、确认待检测数据集,对特征数据中空缺的数据位进行空白补位,根据数据类型将特征数据分类为包含图片信息子集、视频信息子集、文字信息子集、音频信息子集、图表信息子集、动画信息子集和其他信息子集的待检测数据集。
在具体应用中,输入图像的大小更倾向于2的倍数,例如32,64,224,384或512等。另外,重要的是采用小的卷积核(例如3×3)和小步长(例如1)进行填充为0的卷积计算,这不仅减少了参数数量,而且提高了整个深度网络的准确率。 同时,上述的参数设置,即具有步幅1的3×3卷积核,可以保留图像或特征图的空间尺寸。对于池化层,常用的池化窗口大小为2×2。然后通过学习效率进行训练,学习率根据微型批次(mini-batch-size)的大小来决定。但是当更改微型批次的大小时,我们不可能总是再更改学习率。通常,在训练开始时的学习率为0.1,在训练集上损失值不在下降时,然后将学习率除以2(或者5),然后继续进行训练,可能会取得不错的效果。由于预先训练的深度模型良好的泛化能力,我们可以直接在其他数据集的训练时,采用这些预先训练的模型。在其他数据集训练时,比较注意的是数据集的大小,以及它与原始数据集的相似度,这在网络的微调过程中还是很重要的。激活函数是作用于卷积层和全连接层之后的非线性计算操作,目前主要的激活函数有tanh、Sigmoid、ReLU、PReLU等函数。
在具体实施例中,网络数据信息中包含身份验证和授权数据信息,网络监控数据信息、防火墙数据信息、安全更新数据信息、安全协议数据信息、安全培训数据信息等,其中身份验证和授权信息,能够确保访问控制和身份验证是安全的,使用强密码并启用多因素身份验证。数据保护信息,能够保护网络和计算机系统免受未经授权的访问,使用数据加密技术来保护数据的完整性和保密性。网络监控数据信息,比如安装网络监控设备,如安全漏洞扫描器,以便及时识别并修复安全漏洞。防火墙数据信息,比如使用防火墙来保护网络免受未授权的访问,确保只有授权的流量可以访问网络。安全更新数据信息,比如定期更新操作系统、软件和网络设备,以确保它们可以抵御最新的安全威胁。安全协议数据信息,比如遵守安全协议,如HTTPS,通过加密传输数据来提高网络安全。安全培训数据信息,比如加强对公众的安全培训,告知他们如何保护计算机系统和网络安全。
通过上述实施例中,大数据的预处理时间如表1所示:
表1大数据的预处理时间表
根据数据组对象数和属性数不同,设置四个测试组,采用三种方法分别对四组数据进行预处理,方法A为直接对数据组的每个数据点进行特征提取,组成数据集的预处理方法,方法B为对数据组的每个数据点进行特征提取后,进行降维处理,组成如表数据集的预处理方法,如表1所示,在对一组进行预处理时,方法A、方法B和本发明方法所用时间没有明显区别,在对二组进行预处理时,方法B和本发明方法比方法A所用时间减少大约百分之十,在对三组进行预处理时,方法B和本发明方法比方法A所用时间减少大约百分之十五,在对三组进行预处理时,本发明方法比方法A所用时间减少大约百分之三十八,本发明方法比方法B所用时间减少大约百分之二十七,可知数据量越庞大本发明方法所用数据预处理时间越短。
在具体实施例中,所述服务层包括登录模块、查询模块和管理模块,所述登录模块用于管理人员的登录,进入管理页面,所述查询模块用于管理人员按接收数据日期和数据类别查询已检测数据中异常信息的类别和来源,所述管理模块用于管理人员按照数据类型设定检测异常信息的优先级,所述登录模块的输出端连接查询模块和管理模块的输入端。
在具体实施例中,所述分析层包括样本模块和异常检测模块,所述样本模块用于存储异常信息的数据特征组成的异常信息数据簇,所述异常检测模块采用K-means算法模型根据预处理后的数据特征与样本模块中的异常信息的数据特征的相似度,检测大数据中的异常数据,所述样本模块与异常检测模块连接。
在具体实施例中,所述K-means算法模型包括加速系统、孤点检测系统、参数确认系统和聚类系统,所述加速系统采用RSYNC算法减少数据同步时的分块时间,提高数据同步效率,所述孤点检测系统通过密度估算得到待检测信息中的孤点,所述聚类系统对去除孤点的待检测信息进行聚类操作,所述加速系统的输出端连接所述孤点检测系统的输入端,所述孤点检测系统的输出端连接聚类系统的输入端。
在具体实施例中,所述参数确认系统的工作方法为:
1)、分子集,选取高频数据特征点为子集中心点,待检测数据集中高频数据特征点为M个,以欧式距离为半径将待检测数据集分为M个数据子集;
2)、子集合并,在数据集全局范围内对比两个子集中心点的距离小于欧式距离的二倍时,将两个子集合并,得到新的子集;
3)、确认K值,重复2),直到子集数量不再发生变化,此时子集数量为K值。
通过上述实施例中,所述K-means算法模型通过去除数据孤点的方法,提高数据检测的准确性,通过将高频数据特征点按权重筛选的方法,减少数据簇的数量,提高数据检测的速率,通过设定距离阈值将待检测数据与样本模块中的异常数据类型对应,实现异常数据的归类,所述K-means算法模型的工作方法为:
步骤1、去除孤点,计算待检测数据集中各数据点的点密度,确认点密度低于密度指数的数据点为孤点,将孤点从数据集中删除;
步骤2、确认聚类中心点,按照高频数据特征点的权重排序,选取前K个高频数据特征点为聚类中心点;
步骤3、形成数据簇,将聚类中心点周围的数据按照欧式距离为半径归类为一个待检测数据簇;
步骤4、异常检测,将所述样本模块中的数据集与待检测数据集合并,计算所述样本模块中的异常信息数据簇与待检测数据簇的距离小于距离阈值时,待检测数据簇归类到异常信息数据簇中,判定待检测数据簇为异常信息,所述样本模块中的异常信息数据簇与待检测数据簇的距离大于距离阈值时,判定待检测数据簇为正常信息,距离阈值公式为:
(2)
式(2)中,为异常信息数据簇的中心点位置,/>为待检测数据簇的聚类中心点,/>为待检测数据簇个数,/>为高频数据特征点个数,/>为异常信息数据簇中心点的标号,/>为待检测数据簇的聚类中心点的标号,g为待检测数据簇的半径,u为异常信息数据簇的半径,J为距离阈值。
在具体实施例中,在应用欧式距离时,还采用了数据识别模块,其中数据识别模块的工作方法为:将输入的数据信息进行数据处理后,识别网络安全数据信息值为:
(3)
在公式(3)中,为识别网络安全数据信息值;/>为源图像数据信息,其计算过程为将位于/>中像素值之和作为积分图对应/>处积分图值。其计算过程可以简化为:
(4)
在公式(4)中,利用积分图快速计算目标得到区域像素总和值。将其中20×20像素点的每个特征作为弱分类器,在保证正样本与负样本数量一致情况下,确定目标样本数量,若m个目标样本中含有n个特征。则通过计算可以得到特征值二维矩阵,且/>,每个/>对应第j个样本的第i个特征值,/>为所有样本对应特征合集,将/>按照特征数据从大到小排列,得到:
(5)
在公式(5)中,为第k个样本权重,在分类器训练过程中得到权重值;/>为识别样本类型值,其中k样本为正样本,则/>,否则/>,lefterror表示j个样本集中度,得到:
(6)
在公式(6)中,为前j个样本离散度,保存离散样本最小特征相关参数,得到样本特征数据值以及对应数据频率值,经处理后,所有特征识别率得到最高值,并得到最高识别率所对应的参数,完成图像初步识别,得到弱分类器对识别样本监测结果,通过上述计算,能够从多种网络数据中获取不同的数据信息,以实现数据信息的分类,在应用欧式距离计算时,将具有相同数据特征的数据信息计算出来,以提高欧式方式提高计算能力。
通过上述实施例中,所述样本模块采用KDD Cup99数据集,异常类型包括DOS、R2L、U2R和PROBING,拥有39种数据攻击类型,每个连接用41个特征来描述,9个特征属性为离散型,32个特征属性为连续型。在网络安全信息动态检测过程中,能够快速从不同数据类型中获取相关数据信息,将威胁网络安全的数据信息快速提出。
通过上述实施例中,K-means算法模型的网络信息检测结果如表2所示:
表2网络信息检测率表
设置四组已预处理的数据集,输入数据集为网络数据信息动态输入的数据信息,不同网络安全信息数据中,每个数据集中正常数据量为10000,异常数据量为80,通过改变K值,对比K-means算法模型与传统K-means算法模型的检测率,检测率为检测到的异常数据总数与数据集中实际异常数据总数的比值,如表2所示,K值在趋近于10时传统K-means算法模型的检测率在逐渐升高,但K值大于10时,传统K-means算法模型的检测率开始回降,但在K值发生变化时,K-means算法模型的检测率一直保持平稳,综上可以得到,K-means算法模型的检测率不受K值的影响,网络信息安全的检测过程更加稳定,更加精确。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。

Claims (7)

1.一种基于大数据分析算法的网络安全信息动态检测系统,包括报警模块和溯源模块;报警模块接收异常数据检测结果和异常数据的源IP地址,并发送警报信息到维护部门;所述报警模块包括通信子模块,所述通信子模块采用802.11无线接口满足无线传输协议;溯源模块对异常数据进行溯源,得到异常数据的源IP地址;其特征在于:
其中所述溯源模块包括同步子模块和探索子模块,所述同步子模块用于对大数据分析平台的异常数据进行同步,所述探索子模块采用感知哈希模型选取均值哈希算法进行异常数据的溯源分析,所述同步子模块的输出端连接探索子模块的输入端;
基于大数据分析算法的网络安全信息动态检测系统还包括数据预处理模块和大数据分析平台;
数据预处理模块为系统数据分析做准备工作;
所述数据预处理模块包括数据清洗子模块、数据加密子模块和数据变换子模块,所述数据清洗子模块采用数据动态清洗模型清除重复数据和纠正异常数据,避免无效数据的不良影响,所述数据加密子模块对敏感信息进行数据变形,实现对数据的隐私保护,所述数据变换子模块用于将数据变换为统一形式,方便数据分析与数据存储,所述数据清洗子模块的输出端连接所述数据加密子模块的输入端,所述数据加密子模块的输出端连接所述数据变换子模块的输入端;
大数据分析平台用于对预处理后的数据进行分析,动态检测异常信息;
所述大数据分析平台包括UI层、表现层、服务层、分析层和存储层,所述UI层为管理人员提供安全信息检测结果的管理页面,所述表现层用于前端框架的运行和页面的渲染,所述服务层用于实现所述大数据分析平台的服务功能,所述分析层用于对待检测数据集进行计算分析,筛选异常信息,并探索异常信息的来源,所述存储层用于存储已检测的数据信息结果和待检测数据集,所述UI层连接表现层,所述服务层连接分析层,所述分析层连接存储层,所述存储层的输出端连接服务层的输入端;
所述数据预处理模块的输出端连接所述大数据分析平台的输入端,所述大数据分析平台的输出端连接所述报警模块和溯源模块的输入端,所述溯源模块的输出端连接所述报警模块的输出端;
所述数据动态清洗模型通过单元网格代替数据点进行数据分类,提高数据分类的效率,并将数据特征进行降维操作和分级操作,方便系统进行数据检测,所述数据动态清洗模型包括数据分类系统、特征提取系统、特征分级系统和数据修复系统,所述数据分类系统用于将输入数据按照数据类型进行分类,所述数据特征提取系统采用改进型卷积神经网络提取数据串中的数据特征,并使用信息熵对数据进行度量,所述特征分级系统将从数据串中提取的数据特征按照在数据串中出现的频率分为低频数据特征和高频数据特征,所述数据修复系统对数据特征进行空白补位,形成待检测数据集,所述数据分类系统的输出端连接所述特征提取系统的输入端,所述特征提取系统的输出端连接所述特征分级系统的输入端,所述特征分级系统的输出端连接所述数据修复系统的输入端,其中所述改进型卷积神经网络的卷积核为3×3,池化窗口为2×2,学习率为0.1。
2.根据权利要求1所述的一种基于大数据分析算法的网络安全信息动态检测系统,其特征在于:所述数据动态清洗模型的工作方式为:
步骤一、数据分类,采用改进型KNN法对预处理后的待检测数据集进行网格化,将单元网格按次序进行标号,然后将所有的数据对象进行映射使其一一对应的分配至网格中,数据集被划分的网格数为:
(1)
式(1)中,F为数据集被划分的网格数,计算结果取整, t为待检测数据的数据标号,为待检测数据的最小值,/>为待检测数据的最大值,D为加速器,η为分辨率,/>为高频数据特征点个数,q为待检测数据集的总数据数,然后把一个单元网格看作一个数据进行聚类,将接收到的数据按照图片信息、视频信息、文字信息、音频信息、图表信息、动画信息和其他信息进行数据分组;
步骤二、识别特征,在每个类型的数据组中根据数据串之间的相似性,将高频重复数据删除,剔除冗余的数据,然后截取数据串中的有效部分,通过方差过滤法识别数据串中的关键特征;
步骤三、特征简化,通过所述卷积神经网络将高维数据特征转化为一维数据特征;
步骤四、特征分级,从数据串中提取的数据特征按照在数据串中出现的频率分为低频数据特征和高频数据特征;
步骤五、确认待检测数据集,对特征数据中空缺的数据位进行空白补位,根据数据类型将特征数据分类为包含图片信息子集、视频信息子集、文字信息子集、音频信息子集、图表信息子集、动画信息子集和其他信息子集的待检测数据集。
3.根据权利要求1所述的一种基于大数据分析算法的网络安全信息动态检测系统,其特征在于:所述服务层包括登录模块、查询模块和管理模块,所述登录模块用于管理人员的登录,进入管理页面,所述查询模块用于管理人员按接收数据日期和数据类别查询已检测数据中异常信息的类别和来源,所述管理模块用于管理人员按照数据类型设定检测异常信息的优先级,所述登录模块的输出端连接查询模块和管理模块的输入端。
4.根据权利要求3所述的一种基于大数据分析算法的网络安全信息动态检测系统,其特征在于:所述分析层包括样本模块和异常检测模块,所述样本模块用于存储异常信息的数据特征组成的异常信息数据簇,所述异常检测模块采用K-means算法模型根据预处理后的数据特征与样本模块中的异常信息的数据特征的相似度,检测大数据中的异常数据,所述样本模块与异常检测模块连接。
5.根据权利要求4所述的一种基于大数据分析算法的网络安全信息动态检测系统,其特征在于:所述K-means算法模型包括加速系统、孤点检测系统、参数确认系统和聚类系统,所述加速系统采用RSYNC算法减少数据同步时的分块时间,提高数据同步效率,所述孤点检测系统通过密度估算得到待检测信息中的孤点,所述聚类系统对去除孤点的待检测信息进行聚类操作,所述加速系统的输出端连接所述孤点检测系统的输入端,所述孤点检测系统的输出端连接聚类系统的输入端。
6.根据权利要求5所述的一种基于大数据分析算法的网络安全信息动态检测系统,其特征在于:所述参数确认系统的工作方法为:
1)、分子集,选取高频数据特征点为子集中心点,待检测数据集中高频数据特征点为M个,以欧式距离为半径将待检测数据集分为M个数据子集;
2)、子集合并,在数据集全局范围内对比两个子集中心点的距离小于欧式距离的二倍时,将两个子集合并,得到新的子集;
3)、确认K值,重复2),直到子集数量不再发生变化,此时子集数量为K值。
7.根据权利要求4所述的一种基于大数据分析算法的网络安全信息动态检测系统,其特征在于:所述K-means算法模型通过去除数据孤点的方法,提高数据检测的准确性,通过将高频数据特征点按权重筛选的方法,减少数据簇的数量,提高数据检测的速率,通过设定距离阈值将待检测数据与样本模块中的异常数据类型对应,实现异常数据的归类,所述K-means算法模型的工作方法为:
步骤1、去除孤点,计算待检测数据集中各数据点的点密度,确认点密度低于密度指数的数据点为孤点,将孤点从数据集中删除;
步骤2、确认聚类中心点,按照高频数据特征点的权重排序,选取前K个高频数据特征点为聚类中心点;
步骤3、聚类计算,将聚类中心点周围的数据按照欧式距离为半径归类为一个待检测数据簇;欧式距离借助于识别模块实现数据识别;
步骤4、异常检测,将所述样本模块中的数据集与待检测数据集合并,计算所述样本模块中的异常信息数据簇与待检测数据簇的距离小于距离阈值时,待检测数据簇归类到异常信息数据簇中,判定待检测数据簇为异常信息,所述样本模块中的异常信息数据簇与待检测数据簇的距离大于距离阈值时,判定待检测数据簇为正常信息,距离阈值公式为:
(2)
式(2)中,为异常信息数据簇的中心点位置,/>为待检测数据簇的聚类中心点,/>为待检测数据簇个数,/>为高频数据特征点个数,/>为异常信息数据簇中心点的标号,/>为待检测数据簇的聚类中心点的标号,g为待检测数据簇的半径,u为异常信息数据簇的半径,J为距离阈值。
CN202310776913.1A 2023-06-29 2023-06-29 一种基于大数据分析算法的网络安全信息动态检测系统 Active CN116502171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310776913.1A CN116502171B (zh) 2023-06-29 2023-06-29 一种基于大数据分析算法的网络安全信息动态检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310776913.1A CN116502171B (zh) 2023-06-29 2023-06-29 一种基于大数据分析算法的网络安全信息动态检测系统

Publications (2)

Publication Number Publication Date
CN116502171A CN116502171A (zh) 2023-07-28
CN116502171B true CN116502171B (zh) 2023-09-01

Family

ID=87325308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310776913.1A Active CN116502171B (zh) 2023-06-29 2023-06-29 一种基于大数据分析算法的网络安全信息动态检测系统

Country Status (1)

Country Link
CN (1) CN116502171B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117309824B (zh) * 2023-11-08 2024-03-26 广州市市维检测有限公司 一种光触媒覆膜层检测系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205134A (zh) * 2021-04-30 2021-08-03 中国烟草总公司郑州烟草研究院 一种网络安全态势预测方法及系统
CN114863394A (zh) * 2022-04-29 2022-08-05 中国科学院深圳先进技术研究院 异常检测方法、装置、电子设备及计算机可读存储介质
CN115396324A (zh) * 2022-08-15 2022-11-25 合肥天帷信息安全技术有限公司 一种网络安全态势感知预警处理系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410135B2 (en) * 2015-05-21 2019-09-10 Software Ag Usa, Inc. Systems and/or methods for dynamic anomaly detection in machine sensor data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205134A (zh) * 2021-04-30 2021-08-03 中国烟草总公司郑州烟草研究院 一种网络安全态势预测方法及系统
CN114863394A (zh) * 2022-04-29 2022-08-05 中国科学院深圳先进技术研究院 异常检测方法、装置、电子设备及计算机可读存储介质
CN115396324A (zh) * 2022-08-15 2022-11-25 合肥天帷信息安全技术有限公司 一种网络安全态势感知预警处理系统

Also Published As

Publication number Publication date
CN116502171A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN111107072B (zh) 一种基于认证图嵌入的异常登录行为检测方法及系统
CN116502171B (zh) 一种基于大数据分析算法的网络安全信息动态检测系统
CN111125750B (zh) 一种基于双层椭圆模型的数据库水印嵌入、检测方法及系统
CN114785563B (zh) 一种软投票策略的加密恶意流量检测方法
CN112711757B (zh) 一种基于大数据平台的数据安全集中管控方法及系统
CN111143838A (zh) 数据库用户异常行为检测方法
CN111782484B (zh) 一种异常检测方法及装置
CN115277189B (zh) 基于生成式对抗网络的无监督式入侵流量检测识别方法
CN116366309A (zh) 一种针对非均衡网络流量数据的网络入侵检测方法
CN113205134A (zh) 一种网络安全态势预测方法及系统
CN116384736A (zh) 一种智慧城市的风险感知方法及系统
Harbola et al. Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set
CN114598514A (zh) 工控威胁检测方法及装置
CN117061254B (zh) 异常流量检测方法、装置和计算机设备
CN117176433A (zh) 网络数据的异常行为检测系统及方法
Malik et al. Performance Evaluation of Classification Algorithms for Intrusion Detection on NSL-KDD Using Rapid Miner
CN113162904B (zh) 一种基于概率图模型的电力监控系统网络安全告警评估方法
CN106530199B (zh) 基于窗口式假设检验的多媒体综合隐写分析方法
Dong et al. Traffic Characteristic Map-based Intrusion Detection Model for Industrial Internet.
Li et al. Multi-View Feature Fusion for Ransomware Detection in Executable Files: Dynamic, Static, and Image Features
Zhang et al. Hybrid intrusion detection based on data mining
CN117807590B (zh) 基于人工智能的信息安全预测及监控系统及方法
Dunaev et al. Logs analysis to search for anomalies in the functioning of large technology platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant