CN117763618A - 一种基于可视化的安全数据库管理系统 - Google Patents
一种基于可视化的安全数据库管理系统 Download PDFInfo
- Publication number
- CN117763618A CN117763618A CN202410044687.2A CN202410044687A CN117763618A CN 117763618 A CN117763618 A CN 117763618A CN 202410044687 A CN202410044687 A CN 202410044687A CN 117763618 A CN117763618 A CN 117763618A
- Authority
- CN
- China
- Prior art keywords
- model
- network
- target
- module
- protocol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title description 6
- 230000006399 behavior Effects 0.000 claims abstract description 198
- 238000004891 communication Methods 0.000 claims abstract description 189
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000004458 analytical method Methods 0.000 claims abstract description 60
- 230000008859 change Effects 0.000 claims abstract description 42
- 238000012544 monitoring process Methods 0.000 claims abstract description 25
- 238000010801 machine learning Methods 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims abstract description 14
- 238000012800 visualization Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 137
- 238000012549 training Methods 0.000 claims description 122
- 238000013528 artificial neural network Methods 0.000 claims description 89
- 238000004422 calculation algorithm Methods 0.000 claims description 83
- 238000013527 convolutional neural network Methods 0.000 claims description 71
- 230000002159 abnormal effect Effects 0.000 claims description 49
- 238000013507 mapping Methods 0.000 claims description 40
- 238000009826 distribution Methods 0.000 claims description 32
- 238000005457 optimization Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000013136 deep learning model Methods 0.000 claims description 15
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000035772 mutation Effects 0.000 claims description 11
- 238000013179 statistical model Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 8
- 238000012806 monitoring device Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 6
- 238000005206 flow analysis Methods 0.000 claims description 5
- 108091026890 Coding region Proteins 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 18
- 230000000694 effects Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 238000007689 inspection Methods 0.000 description 8
- 239000000523 sample Substances 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种基于可视化的安全数据库管理系统,涉及数据安全技术领域,包括:设备行为模块,建立目标设备的网络行为模型;监测模块,监测目标设备的通信数据;判断模块,采用机器学习将监测到的目标设备的网络特征和对应的网络行为模型进行匹配;响应模块,当判断模块将监测到的目标设备的通信数据判断为潜在攻击事件时,向用户终端发送预警信息;分析模块,判断监测到的目标设备的通信数据为真实攻击事件或正常变化事件;预警模块,向用户终端发送不同级别的预警信息。针对现有技术中网络设备数据库安全性低的问题,本发明通过多源异构特征的综合利用和深度学习的建模方法等,提高了网络设备数据库的安全性。
Description
技术领域
本发明涉及数据安全技术领域,特别涉及一种基于可视化的安全数据库管理系统。
背景技术
随着网络规模的不断扩大,各种网络设备被广泛应用,这些网络设备中的数据库承载着重要的用户数据和设备信息。但是,现有网络设备数据库存在安全风险,容易受到各种网络攻击的威胁,导致数据泄露等后果。因此,如何提高网络设备数据库的安全性,是当前一个重要的研究课题。
针对网络设备数据库面临的安全威胁,现有的网络入侵检测系统存在模型原始特征之间关联性弱,不利于综合判断网络行为的异常情况。
在相关技术中,比如中国专利文献CN113780817A中提供了一种计算机网络信息安全监护方法及装置,包括:获取各个待监护设备之间的历史通信数据;基于历史通信数据,从各个待监护设备中选取目标设备,加入白名单数据库;其中,白名单数据库包含各个目标设备以及每个目标设备对应的白名单安全等级;按照白名单安全等级,选择各个目标设备相匹配的密钥长度以及加解密算法的复杂度;其中,白名单安全等级越高,密钥长度越长,加解密算法的复杂度越高;按照密钥长度以及加解密算法的复杂度,对各个目标设备的实时通信数据进行加密,得到目标加密数据;响应于对目标加密数据进行解密得到的解密数据验证出现异常,发出安全预警提示信息。但是该方案仅针对网络通信数据的加密传输进行安全防护,网络设备中的数据库存储着大量重要的用户信息和设备数据,直接面临数据泄露、被篡改等安全风险。
发明内容
1.要解决的技术问题
针对现有技术中存在的网络设备数据库安全性低的问题,本发明提供了一种基于可视化的安全数据库管理系统,通过多源异构特征的综合利用和深度学习的建模方法等,提高了网络设备数据库的安全性。
2.技术方案
本发明的目的通过以下技术方案实现。
本说明书实施例提供一种基于可视化的安全数据库管理系统,包括:设备行为模块110,采用机器学习根据目标设备的历史通信数据,建立目标设备的网络行为模型,网络行为模型采用统计模型反映目标设备在不同时间段内的网络特征和通信模式;其中,首先,需要采集目标设备的历史通信数据。这些数据可以包括设备的传输协议、通信流量、设备接口等信息。采集到的原始数据会经过预处理,例如去除噪声、标准化等,以确保数据的准确性和一致性。在数据预处理之后,需要从原始数据中提取特征。这里的特征可以包括但不限于设备行为的频率、流量分布、协议使用情况等。通过选取适当的特征,能够更好地反映目标设备的网络行为。建立网络行为模型是本申请的核心。通过使用机器学习算法,例如决策树、支持向量机、随机森林、深度学习等,对已提取的特征进行模型训练。训练的目标是使模型能够准确地刻画目标设备在不同时间段内的网络特征和通信模式。建立的网络行为模型可以采用统计模型的形式来反映目标设备在不同时间段内的网络特征和通信模式。统计模型可以包括概率分布、频率分布、时序模型等,从而提供对设备行为的全面描述和分析。
监测模块120,通过网络监测装置监测目标设备的通信数据,并通过数据包分析算法提取通信数据中的网络特征;其中,在网络中部署专门的网络监测装置,该装置可以是硬件设备或软件应用,用于捕获和记录经过网络的数据包。这种装置可以位于网络的关键节点,以便全面监测目标设备的通信活动。网络监测装置通过嗅探(sniffing)或端口镜像(port mirroring)等技术捕获目标设备的通信数据包。这些数据包包含了设备与其他网络节点之间的通信信息,例如源地址、目标地址、传输协议、端口号等。使用专门设计的数据包分析算法,对捕获到的通信数据包进行处理。这些算法可以基于深度学习、机器学习、规则引擎等技术,以从大量的数据包中提取出关键的网络特征。监测模块120能够实时处理通信数据包,并记录关键的网络特征。这使得系统能够对目标设备的通信行为进行实时监测,并可以在需要时生成报告或发出警报。
判断模块130,采用机器学习将监测到的目标设备的网络特征和对应的网络行为模型进行匹配,计算网络特征的差异程度,当计算得到的差异程度超过阈值时,判断监测的目标设备异常,并根据计算得到的差异程度将监测到的目标设备的通信数据判断为潜在攻击事件或正常变化事件;其中,首先,判断模块130使用机器学习算法,可能是分类算法或聚类算法,将监测到的目标设备的网络特征与事先建立的网络行为模型进行匹配。这可以通过训练好的模型对实时监测数据进行分类或聚类,以确定当前设备的行为模式。通过比较监测到的网络特征与设备行为模型中的期望特征,计算网络特征的差异程度。这个差异程度可以使用不同的度量方法,例如欧氏距离、余弦相似度等,来量化监测到的特征与模型期望特征之间的相似度或差异。判断模块130会设定一个阈值,用于判定网络特征的差异程度是否超过了正常范围。这个阈值可以根据模型的训练数据和系统的性能需求来设定。当计算得到的差异程度超过了设定的阈值,就表明目标设备的网络行为存在异常。当计算得到的差异程度超过阈值时,判断模块130会将目标设备标记为异常。这意味着设备的网络行为与预期的模型存在显著的不一致,可能涉及潜在的安全威胁或正常变化。根据具体情况,系统可以触发警报、记录日志或采取其他安全措施。根据计算得到的差异程度,判断模块130还可以将监测到的目标设备的通信数据划分为潜在攻击事件或正常变化事件。这有助于进一步的安全分析和响应。
响应模块140,当判断模块130将监测到的目标设备的通信数据判断为潜在攻击事件时,向用户终端发送预警信息,同时触发分析模块150对目标设备的网络行为模型进行重构;其中,当判断模块130确定目标设备的通信数据为潜在攻击事件时,响应模块140会立即向相关用户终端发送预警信息。这可以通过各种通信方式实现,包括电子邮件、短信、弹窗通知等。预警信息应包含有关事件的关键信息,如设备标识、事件类型、时间戳等,以便用户能够及时采取行动。为了提高系统对未来类似事件的识别能力,响应模块140会触发分析模块150对目标设备的网络行为模型进行重构,重构包括:使用最新的监测数据对网络行为模型进行重新训练。这有助于模型更好地适应网络环境的变化,包括新的攻击模式或正常变化。针对新的通信特征,可能需要更新网络行为模型中使用的特征集。这有助于模型更好地捕捉设备的最新行为模式。根据实际情况可能需要对机器学习算法进行改进,以提高模型的准确性和鲁棒性。响应模块140还可以向分析模块150提供有关潜在攻击事件的反馈信息。这可以包括事件的详细描述、触发的条件、判断模块130的决策等。这种反馈有助于改进分析模块150的算法和模型,提高整个系统的效能。响应模块140可以及时通知相关用户并采取行动,同时通过触发分析模块150的网络行为模型重构,增强系统对未来事件的适应性和识别能力。这有助于保障网络的安全性,降低潜在攻击的影响,并改善系统的整体安全性。
分析模块150,采用深度学习模型结合标准攻击场景数据库和正常变化场景数据库,对监测模块120监测到的目标设备的通信数据进行多层特征提取和分类,判断监测到的目标设备的通信数据为真实攻击事件或正常变化事件;其中,选择适当的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)或深度神经网络(DNN),以处理监测到的目标设备的通信数据。深度学习模型能够从数据中学习复杂的特征表示,适用于处理大量和复杂的网络通信数据。构建包含标准攻击场景和正常变化场景的数据库。标准攻击场景用于训练模型以学习攻击模式,而正常变化场景用于训练模型以学习正常网络行为的特征。利用深度学习模型对通信数据进行多层次的特征提取。这可能包括从原始数据中提取低级特征,如数据包大小、协议类型等,到更高级的特征,如通信模式、时序关系等。每个层次的特征提取有助于模型理解数据的不同层面,提高对攻击模式和正常行为的敏感性。使用标准攻击场景和正常变化场景数据库对深度学习模型进行训练。训练的目标是使模型能够准确地分类监测到的目标设备的通信数据,区分真实攻击事件和正常变化事件。训练好的深度学习模型用于对实时监测到的目标设备的通信数据进行分类。根据模型的输出,分析模块150可以判断监测到的通信数据是否属于真实攻击事件或正常变化事件。定期更新模型,以适应网络环境的变化和新兴的攻击模式。这可以通过定期重新训练模型,引入新的标准攻击场景和正常变化场景来实现。
预警模块160,根据分析模块150的判断结果,向用户终端发送不同级别的预警信息。其中,预警模块160首先接收分析模块150的判断结果。这个结果通常包括对监测到的通信数据是否为真实攻击事件或正常变化事件的分类。预警模块160根据分析模块150的判断结果,将预警信息划分为不同的级别。通常,可以设定多个级别,例如:高级别预警,表示监测到的通信数据被判断为真实攻击事件,可能存在严重的网络威胁。中级别预警,表示通信数据可能存在异常,但不确定是否为攻击,需要用户关注。低级别预警,表示通信数据正常变化,但可能值得注意的变化。预警信息格式,预警模块160构建预警信息,包括有关事件的详细描述、级别、设备标识、时间戳等关键信息。信息应该以用户易理解的方式呈现,并提供足够的上下文,使用户能够理解事件的严重性和紧急性。预警信息发送:根据划分的预警级别,预警模块160通过适当的通信渠道向用户终端发送预警信息。这可以通过电子邮件、短信、弹窗通知、安全信息和事件管理系统(SIEM)等方式实现。预警模块160可以包括用户反馈机制,允许用户向系统提供反馈,例如确认事件、提供附加信息或申请进行特定的操作。这有助于提高系统的智能性和用户体验。预警模块160还可以记录生成的预警信息,以便进行后续的安全审计和分析。这有助于追踪事件发展、改进系统的预警策略,并满足合规性要求。
进一步的,设备行为模块110,还包括:数据获取子模块111,获取目标设备的历史通信数据;模型生成子模块112,根据获取的历史通信数据,提取设备接口特征、传输协议特征和通信流量特征,并根据提取的特征构建网络行为模型,其中:采用GRU神经网络建立设备接口特征模型,GRU神经网络为门控循环神经网络;采用LSTM神经网络建立设备传输协议特征模型,LSTM神经网络为长短时记忆网络;采用CNN神经网络建立设备通信流量特征模型;通过注意力机制将建立的设备接口特征模型、设备传输协议特征模型和设备通信流量特征模型进行融合,生成网络行为模型;模型存储子模块113,存储构建的网络行为模型;模型更新子模块114,根据采集的目标设备的通信数据对构建的网络行为模型进行增量训练。
进一步的,还包括:解析单元,其中:通过数据包解析算法解析获取的历史通信数据中的数据包,提取源地址、目标地址、源端口和目标端口作为接口特征;通过会话层和传输层协议解析算法解析获取的历史通信数据中的会话层和传输层协议信息,提取协议类型、协议语法和协议参数作为协议特征;通过流量解析算法解析获取的历史通信数据中的源目标地址、端口号和流量大小作为流量特征。
进一步的,序列化单元,其中:将提取的接口特征按时间顺序排列成接口特征序列;将提取的协议特征按时间顺序排列成协议特征序列;通过流量映射算法,将提取的流量特征中的源IP地址、目标IP地址、源端口、目标端口和流量大小映射为二维图像中的像素值,将映射得到的像素值按时间顺序排列形成二维图像,作为流量特征序列。
进一步的,数据集单元,其中:获取标注了正常行为和异常行为的历史接口特征序列,构成训练数据集A1;获取标注了正常协议和异常协议的历史协议特征序列,构成训练数据集A2;获取标注了正常流量和异常流量的二维流量图像,构建训练数据集A3。
进一步的,还包括:网络配置单元,通过网格搜索法设置GRU神经网络的超参数,超参数包含网络层数和节点数,并设置包含迭代次数和学习率的训练参数;GRU训练单元,利用构建的训练数据集A1训练设置了超参数和训练参数的GRU神经网络,建立接口特征序列到设备行为的映射关系模型,作为设备接口特征模型;注意力单元,在GRU神经网络中设置注意力层,计算接口特征序列每个时刻的隐状态向量和目标向量的关联度,生成权重系数作为对应时刻的注意力。
进一步的,还包括:贝叶斯优化单元,构建贝叶斯优化模型,并利用构建的贝叶斯优化模型设置LSTM神经网络的超参数,其中:构建LSTM神经网络的超参数的先验分布;计算LSTM神经网络的超参数的后验分布,并获取超参数的最优值;超参数配置单元,利用贝叶斯优化单元计算得到的超参数的最优值设置LSTM神经网络的超参数;LSTM训练单元,利用构建的训练数据集A2训练设置了超参数的LSTM神经网络,建立协议特征序列到设备行为的映射关系,作为设备传输协议特征模型。
进一步的,还包括:编码单元,构建包含卷积层数L、卷积核大小K和池化方式J的二进制编码序列,将每一个编码作为一个个体,生成包含N个个体的初始群体;适应度计算单元,加载初始群体中个体i对应的CNN神经网络,利用预先构建的流量图像验证集,验证加载的CNN神经网络对流量图像的识别准确率,作为个体i的适应度值;进化单元,根据个体i的适应度值/>,通过轮盘赌算法计算个体i在对应代被选择的概率/>,根据个体i被选择的概率/>,随机选择适应度值大于阈值的个体,形成下一代包含N个个体的个体群;对选出的下一代个体群,利用一点交叉和均匀变异算法,生成新的个体/>,计算新的个体/>的适应度值;CNN选择单元,经过预设的H代进化计算后,从最终一代的N个个体中选择适应度值最高的个体对应的CNN神经网络;CNN模型训练单元,利用构建的训练数据集A3训练最终选择的CNN神经网络,建立流量特征序列到设备行为的映射关系,作为设备通信流量特征模型。
进一步的,还包括:接口注意力子单元,通过双线性函数计算设备接口特征模型中时刻t的特征向量和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的接口特征权重系数/>;协议注意力子单元,通过双线性函数计算设备传输协议特征模型中时刻t的特征向量/>和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的协议特征权重系数/>;流量注意力子单元,通过双线性函数计算设备通信流量特征模型中时刻t的特征向量/>和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的流量特征权重系数/>;特征融合单元,利用接口特征时序的权重系数/>、协议特征时序的权重系数/>和流量特征时序的权重系数/>对各特征时序进行加权融合,生成网络行为综合特征;融合模型训练单元,利用生成的网络行为综合特征训练SVM分类模型,建立网络行为分类模型,作为网络行为模型;其中,目标抽象向量U为:从标注的历史网络行为数据中,选择与网络入侵行为相关的关键词,利用词向量技术获得这些关键词的词向量表示,将这些词向量综合并正则化得到目标抽象向量U。
进一步的,目标抽象向量U,还包括:关键词提取单元,从标注的历史通信数据中,选择与网络入侵行为相关的前R个关键词,R的取值范围为10至50;词向量生成单元,通过预训练的Word2Vec词向量模型将选择的R个关键词映射为固定维数的词向量;向量融合单元,将生成的R个词向量拼接组合,生成组合词向量;正则化单元,对生成的组合词向量进行L2正则化处理,生成目标抽象向量U。
3.有益效果
相比于现有技术,本发明的优点在于:
(1)通过设备行为模块的数据获取子模块、模型生成子模块等,系统采用了多源异构特征的综合利用方法。GRU、LSTM、CNN等神经网络分别处理设备接口、传输协议和通信流量特征,通过注意力机制将这些特征融合,形成更全面、高维度的网络行为模型。这种综合特征利用的方法使系统对网络设备的行为建模更加准确和全面;
(2)设备行为模块的模型更新子模块引入了增量训练机制,根据采集到的目标设备通信数据对网络行为模型进行实时更新。这有益于系统不断适应设备的变化,提高了网络数据库的实时性和适应性。相比传统的静态模型,这种动态更新的机制使系统更具弹性和自适应性,更好地应对新型攻击和变化;
(3)在神经网络的超参数调优方面,系统采用了贝叶斯优化单元和注意力单元。这两个机制有益于提高模型的性能和泛化能力。通过贝叶斯优化,系统能够更高效地搜索超参数的最优组合,优化神经网络的训练过程。而注意力机制则有助于模型更关注重要的特征,提高模型对关键信息的识别能力,从而增强了系统对异常行为的检测精度;综上所述,本申请通过采集网络设备历史数据,使用机器学习和深度学习技术自动提取并建模多源异构网络特征,并采用注意力机制进行特征融合,能够生成对网络入侵更敏感的网络行为模型,从而有效提升网络设备数据库的安全性。
附图说明
本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的一种基于可视化的安全数据库管理系统的示例性模块图;
图2是根据本说明书一些实施例所示的设备行为模块的示意图。
具体实施方式
本发明的目的通过以下技术方案实现。
图1是根据本说明书的一些实施例所示的一种基于可视化的安全数据库管理系统的示例性模块图,如图1所示,一种基于可视化的安全数据库管理系统,包括:设备行为模块110,采用机器学习根据目标设备的历史通信数据,建立目标设备的网络行为模型,网络行为模型采用统计模型反映目标设备在不同时间段内的网络特征和通信模式;首先,需要采集目标设备的历史通信数据。这些数据可以包括设备的传输协议、通信流量、设备接口等信息。采集到的原始数据会经过预处理,例如去除噪声、标准化等,以确保数据的准确性和一致性。在数据预处理之后,需要从原始数据中提取特征。这里的特征可以包括但不限于设备行为的频率、流量分布、协议使用情况等。通过选取适当的特征,能够更好地反映目标设备的网络行为。建立网络行为模型是本申请的核心。通过使用机器学习算法,例如决策树、支持向量机、随机森林、深度学习等,对已提取的特征进行模型训练。训练的目标是使模型能够准确地刻画目标设备在不同时间段内的网络特征和通信模式。建立的网络行为模型可以采用统计模型的形式来反映目标设备在不同时间段内的网络特征和通信模式。统计模型可以包括概率分布、频率分布、时序模型等,从而提供对设备行为的全面描述和分析。
具体地,网络行为模型是指使用算法对网络设备的正常网络活动模式进行提取和建模,得到能够反映设备网络特征的统计模型。网络特征是指反映网络通信活动的一些统计参数,比如源目的IP地址、源目的端口、协议类型、流量大小等。这些特征可以反映一个网络设备的网络通信行为的特征。通信模式是指网络设备在时间维度上交互通信的规律模式,比如每天9点到12点之间流量特别大,15点以后流量骤降等。通信模式反映了网络设备通信行为的动态变化规律。在本申请中,设备行为模块110通过机器学习算法,从网络设备的历史通信数据中学习和提取网络特征和通信模式,建立起网络行为模型。这个网络行为模型采用统计模型,可以反映目标网络设备在不同时间段内的网络特征统计参数,以及网络通信的时间变化规律。当新的网络通信数据到达时,可以根据模型判断数据中的网络特征和对应时间段是否符合预期的通信模式,如果差异过大,则判断为异常,可能存在网络攻击。这样,网络特征和通信模式这两个元素为判断网络通信的正常或异常提供了重要参考,使网络行为模型更全面和准确。目标设备是指本网络安全监测和防护系统所针对和监控的网络设备。
监测模块120,通过网络监测装置监测目标设备的通信数据,并通过数据包分析算法提取通信数据中的网络特征;其中,在网络中部署专门的网络监测装置,该装置可以是硬件设备或软件应用,用于捕获和记录经过网络的数据包。这种装置可以位于网络的关键节点,以便全面监测目标设备的通信活动。网络监测装置通过嗅探(sniffing)或端口镜像(port mirroring)等技术捕获目标设备的通信数据包。这些数据包包含了设备与其他网络节点之间的通信信息,例如源地址、目标地址、传输协议、端口号等。使用专门设计的数据包分析算法,对捕获到的通信数据包进行处理。这些算法可以基于深度学习、机器学习、规则引擎等技术,以从大量的数据包中提取出关键的网络特征。监测模块120能够实时处理通信数据包,并记录关键的网络特征。这使得系统能够对目标设备的通信行为进行实时监测,并可以在需要时生成报告或发出警报。
具体地,数据包分析算法是指对网络数据包进行深入解析,提取包头、载荷等信息的算法技术。它通过检查数据包的内容,可以获取数据包中的源地址、目标地址、源端口、目标端口、协议类型等网络通信特征。在本申请中的监测模块120中,采用的数据包分析算法包括:监测模块120通过网络监测设备(如网络探针)获取目标网络设备的实时通信数据包。对获取的通信数据包,利用数据包分析算法(如DPI深度包检查技术)解析出数据包的源IP地址、目标IP地址、源端口、目标端口等特征信息。将解析得到的这些网络层和传输层的特征信息,作为该网络设备的网络通信特征,输入到后续的网络行为判断模块130中。判断模块130会将监测到的网络特征与预建立的网络行为模型进行匹配,判定网络设备的通信是否正常。如果监测到的网络特征与模型差异过大,则判断为异常,可能存在网络攻击行为。通过对通信数据包进行解析和提取,数据包分析算法为判断模块130提供了必要的网络特征信息,利用这些信息进行网络入侵检测,提高了系统的安全性。
更具体地,在本申请中,可以采用如下数据包分析算法:深度包检查(Deep PacketInspection,DPI),DPI是一种高级数据包分析技术,允许对数据包内容进行深入检查。它能够解析和检查数据包中的有效负载,识别特定协议、应用程序或甚至内容类型。DPI可以用于识别网络流量中的特定行为,如文件传输、视频流、VoIP(互联网语音)等。流量分析算法,这些算法聚焦于分析网络流量模式和行为。它们可以检测异常流量模式,如DDoS攻击(分布式拒绝服务攻击)或异常的数据传输模式。机器学习算法,机器学习技术可以应用于数据包分析,用于识别正常和异常的网络通信模式。统计分析,基于统计学原理进行数据包分析,例如检查数据包大小、频率分布、传输速率等指标,以便发现异常模式或行为。特征提取算法,这些算法专注于从数据包中提取关键特征。例如,提取源和目标IP地址、端口号、数据包大小、时间戳等信息,并将其用于分析网络行为。
判断模块130,采用机器学习将监测到的目标设备的网络特征和对应的网络行为模型进行匹配,计算网络特征的差异程度,当计算得到的差异程度超过阈值时,判断监测的目标设备异常,并根据计算得到的差异程度将监测到的目标设备的通信数据判断为潜在攻击事件或正常变化事件;其中,首先,判断模块130使用机器学习算法,可能是分类算法或聚类算法,将监测到的目标设备的网络特征与事先建立的网络行为模型进行匹配。这可以通过训练好的模型对实时监测数据进行分类或聚类,以确定当前设备的行为模式。通过比较监测到的网络特征与设备行为模型中的期望特征,计算网络特征的差异程度。这个差异程度可以使用不同的度量方法,例如欧氏距离、余弦相似度等,来量化监测到的特征与模型期望特征之间的相似度或差异。判断模块130会设定一个阈值,用于判定网络特征的差异程度是否超过了正常范围。这个阈值可以根据模型的训练数据和系统的性能需求来设定。当计算得到的差异程度超过了设定的阈值,就表明目标设备的网络行为存在异常。当计算得到的差异程度超过阈值时,判断模块130会将目标设备标记为异常。这意味着设备的网络行为与预期的模型存在显著的不一致,可能涉及潜在的安全威胁或正常变化。根据具体情况,系统可以触发警报、记录日志或采取其他安全措施。根据计算得到的差异程度,判断模块130还可以将监测到的目标设备的通信数据划分为潜在攻击事件或正常变化事件。这有助于进一步的安全分析和响应。
具体地,潜在攻击事件指的是判断模块130基于网络行为模型判定目标设备通信数据存在异常或风险的事件,有可能是网络攻击,也可能是其他原因引起的误报。由于此时无法完全确定事件性质,所以将其判定为“潜在”攻击事件。正常变化事件指的是目标网络环境或设备配置发生正常调整而引起的通信变化,这种变化虽然会导致网络特征发生一定幅度的变化,但仍在可接受范围内,不会对网络安全造成实质威胁。通过该处理流程,可以对网络异常事件进行细化区分,避免对正常变化的过度响应,提高系统的实效性。
具体地,在判断模块130中,监测网络特征和网络行为模型的匹配包括:将监测到的网络特征进行格式化和规范化处理,以便与模型输入匹配。例如编码转换、值归一化等。将处理后的监测网络特征输入到已训练好的网络行为模型中。模型输出监测样本属于各种网络行为类别的概率,形成一个概率向量。计算监测样本与模型中正常网络行为类别的概率值差异。如果差异超过预设的分类阈值,则判定监测样本不属于已知的正常网络行为类别,存在异常。根据差异程度进一步判断异常事件的风险等级,划分为潜在攻击事件或正常变化事件。当出现潜在攻击时,触发网络行为模型的增量学习,使用新样本扩充训练,适应网络行为的变化。重复上述监测和判断过程实现网络行为的持续监测。
更具体地,判断模块130中设置差异阈值的具体技术方案包括:收集大量历史网络通信数据,其中包含已标注的正常数据和异常数据(攻击数据)。通过机器学习模型训练,得到判断模块130的网络行为分类模型。在分类模型上,采用如ROC曲线分析等方法,计算网络特征差异值与正常/异常分类的关系。确定合理的工作点,在给定的误报率限制下,最大化检测率。在工作点附近选择一个差异值作为初步分类阈值。在实际运行中,收集判断模块130的分类结果反馈,调整阈值大小,优化判断准确性。每个时间段(如每天)针对网络特征设置单独的阈值,以适应网络行为的时间变化特点。对不同类别的攻击事件可以设置独立的阈值,实现对重要攻击的高灵敏检测。可以采用阈值自动调节机制,动态优化阈值的设置。
响应模块140,当判断模块130将监测到的目标设备的通信数据判断为潜在攻击事件时,向用户终端发送预警信息,同时触发分析模块150对目标设备的网络行为模型进行重构;其中,当判断模块130确定目标设备的通信数据为潜在攻击事件时,响应模块140会立即向相关用户终端发送预警信息。这可以通过各种通信方式实现,包括电子邮件、短信、弹窗通知等。预警信息应包含有关事件的关键信息,如设备标识、事件类型、时间戳等,以便用户能够及时采取行动。为了提高系统对未来类似事件的识别能力,响应模块140会触发分析模块150对目标设备的网络行为模型进行重构,重构包括:使用最新的监测数据对网络行为模型进行重新训练。这有助于模型更好地适应网络环境的变化,包括新的攻击模式或正常变化。针对新的通信特征,可能需要更新网络行为模型中使用的特征集。这有助于模型更好地捕捉设备的最新行为模式。根据实际情况可能需要对机器学习算法进行改进,以提高模型的准确性和鲁棒性。响应模块140还可以向分析模块150提供有关潜在攻击事件的反馈信息。这可以包括事件的详细描述、触发的条件、判断模块130的决策等。这种反馈有助于改进分析模块150的算法和模型,提高整个系统的效能。响应模块140可以及时通知相关用户并采取行动,同时通过触发分析模块150的网络行为模型重构,增强系统对未来事件的适应性和识别能力。这有助于保障网络的安全性,降低潜在攻击的影响,并改善系统的整体安全性。
具体地,在响应模块140中,当判断模块130判定出现潜在攻击事件时,触发网络行为模型重构的技术手段包括:收集判断为潜在攻击的网络通信数据样本,标记为异常样本。以新增的异常样本为输入,启动网络行为模型对应的增量学习算法,如GRU、LSTM、CNN中的在线学习算法。通过增量学习算法,使用新增样本调整网络模型的参数,使其能够适应最新的网络行为模式。通过增大模型训练迭代次数、调整模型结构、优化模型损失函数等手段,实现模型的快速在线更新。重构后的网络行为模型将放入模型库中,覆盖原有模型,供判断模块130使用。按一定时间间隔持续收集异常样本,触发周期性的模型重构,保证模型的及时更新。重构后的模型还将反馈给设备行为模块110,进行模型的继续完善。
分析模块150,采用深度学习模型结合标准攻击场景数据库和正常变化场景数据库,对监测模块120监测到的目标设备的通信数据进行多层特征提取和分类,判断监测到的目标设备的通信数据为真实攻击事件或正常变化事件;其中,选择适当的深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)或深度神经网络(DNN),以处理监测到的目标设备的通信数据。深度学习模型能够从数据中学习复杂的特征表示,适用于处理大量和复杂的网络通信数据。构建包含标准攻击场景和正常变化场景的数据库。标准攻击场景用于训练模型以学习攻击模式,而正常变化场景用于训练模型以学习正常网络行为的特征。利用深度学习模型对通信数据进行多层次的特征提取。这可能包括从原始数据中提取低级特征,如数据包大小、协议类型等,到更高级的特征,如通信模式、时序关系等。每个层次的特征提取有助于模型理解数据的不同层面,提高对攻击模式和正常行为的敏感性。使用标准攻击场景和正常变化场景数据库对深度学习模型进行训练。训练的目标是使模型能够准确地分类监测到的目标设备的通信数据,区分真实攻击事件和正常变化事件。训练好的深度学习模型用于对实时监测到的目标设备的通信数据进行分类。根据模型的输出,分析模块150可以判断监测到的通信数据是否属于真实攻击事件或正常变化事件。定期更新模型,以适应网络环境的变化和新兴的攻击模式。这可以通过定期重新训练模型,引入新的标准攻击场景和正常变化场景来实现。
具体地,标准攻击场景数据库:是指收集各类已知网络攻击的通信数据样本,并进行预先处理打标后形成的数据库。其中包含不同类型网络攻击的网络通信数据特征。正常变化场景数据库:是指收集网络正常变化情况下的通信数据样本,并进行预先处理打标后形成的数据库。其包含设备升级、网络配置调整等情况下的网络通信数据。真实攻击事件指的是经过系统判断,确认为存在网络入侵行为并对网络安全造成实质威胁的事件。在本申请中,收集大量已知真实攻击事件和正常事件的数据集作为样本。使用样本数据集训练分类模型,可以采用CNN、RNN等深度学习模型。模型通过深层特征提取和网络结构设计,学习区分真实攻击和正常事件的决策条件。对新监测到的目标设备通信数据,采用预处理后输入分类模型。模型输出事件属于“真实攻击”类别或“正常事件”类别的概率。如果“真实攻击”类别的概率超过预设阈值,则判断为真实攻击事件。
预警模块160,根据分析模块150的判断结果,向用户终端发送不同级别的预警信息。其中,预警模块160首先接收分析模块150的判断结果。这个结果通常包括对监测到的通信数据是否为真实攻击事件或正常变化事件的分类。预警模块160根据分析模块150的判断结果,将预警信息划分为不同的级别。通常,可以设定多个级别,例如,高级别预警,表示监测到的通信数据被判断为真实攻击事件,可能存在严重的网络威胁。中级别预警,表示通信数据可能存在异常,但不确定是否为攻击,需要用户关注。低级别预警,表示通信数据正常变化,但可能值得注意的变化。预警信息格式:预警模块160构建预警信息,包括有关事件的详细描述、级别、设备标识、时间戳等关键信息。信息应该以用户易理解的方式呈现,并提供足够的上下文,使用户能够理解事件的严重性和紧急性。预警信息发送:根据划分的预警级别,预警模块160通过适当的通信渠道向用户终端发送预警信息。这可以通过电子邮件、短信、弹窗通知、安全信息和事件管理系统(SIEM)等方式实现。预警模块160可以包括用户反馈机制,允许用户向系统提供反馈,例如确认事件、提供附加信息或申请进行特定的操作。这有助于提高系统的智能性和用户体验。预警模块160还可以记录生成的预警信息,以便进行后续的安全审计和分析。这有助于追踪事件发展、改进系统的预警策略,并满足合规性要求。
图2是根据本说明书一些实施例所示的设备行为模块110的示意图,如图2所示,设备行为模块110,还包括:数据获取子模块111,获取目标设备的历史通信数据;模型生成子模块112,根据获取的历史通信数据,提取设备接口特征、传输协议特征和通信流量特征,并根据提取的特征构建网络行为模型,其中:采用GRU神经网络建立设备接口特征模型,GRU神经网络为门控循环神经网络;采用LSTM神经网络建立设备传输协议特征模型,LSTM神经网络为长短时记忆网络;采用CNN神经网络建立设备通信流量特征模型;通过注意力机制将建立的设备接口特征模型、设备传输协议特征模型和设备通信流量特征模型进行融合,生成网络行为模型;模型存储子模块113,存储构建的网络行为模型;模型更新子模块114,根据采集的目标设备的通信数据对构建的网络行为模型进行增量训练。
其中,数据获取子模块111负责获取目标设备的历史通信数据。这可能涉及从网络流量、日志文件或其他数据源中收集与目标设备相关的通信信息。历史通信数据对于建立准确的网络行为模型非常关键。模型生成子模块112通过以下步骤生成网络行为模型:设备接口特征模型(GRU神经网络),使用门控循环神经网络(GRU)建立设备接口特征模型,该模型能够学习设备接口的动态序列特征,捕捉设备接口变化的模式。设备传输协议特征模型(LSTM神经网络),使用长短时记忆网络(LSTM)建立设备传输协议特征模型,该模型能够捕捉设备传输协议的长期依赖关系,提供对协议变化的敏感性。设备通信流量特征模型(CNN神经网络),使用卷积神经网络(CNN)建立设备通信流量特征模型,该模型能够有效地提取通信流量中的空间特征,识别与设备行为相关的模式。注意力机制融合:运用注意力机制将设备接口特征模型、设备传输协议特征模型和设备通信流量特征模型进行融合,生成综合的网络行为模型。注意力机制有助于模型更关注重要的特征,提高模型的表达能力。模型存储子模块113负责将构建的网络行为模型存储在持久性存储中,以便在需要时检索和使用。这有助于避免重复的模型构建过程,提高系统的效率。模型更新子模块114根据采集的目标设备的通信数据对构建的网络行为模型进行增量训练。随着时间的推移,网络环境和设备行为可能发生变化,通过增量训练,模型能够适应新的行为模式和特征,保持对设备行为的准确识别能力。通过本申请,设备行为模块110能够全面考虑设备接口、传输协议和通信流量的特征,通过深度学习模型进行建模,实现对目标设备网络行为的精准识别和建模。模型的存储和更新机制保证了模型的实时性和可维护性。
具体地,在设备行为模块110中,使用GRU神经网络建立设备接口特征模型。GRU由重置门、更新门和隐状态组成,可以有效地捕捉时间序列数据中的长期依赖关系。将采集的设备接口特征时间序列数据进行编码和标准化处理作为GRU输入。GRU通过控制信息流实现对历史特征的选择性记忆和遗忘。网络中的隐状态捕捉当前输入和之前的历史信息,反映接口特征的时间相关性。重复GRU单元结构,seq2seq模型输出设备多时刻的接口特征预测。通过损失函数评估预测输出与实际特征的误差,实现模型训练。训练后的GRU模型可以对新输入进行接口特征预测,判断是否异常。持续使用新数据微调模型,使其适应接口特征的演变。综上所述,GRU的循环结构能够高效提取时间序列数据的长期依赖性信息,适合建模接口特征时间相关性,提高设备行为判断的准确性。
具体地,在设备行为模块110中,使用LSTM神经网络建立设备传输协议特征模型。LSTM网络由一个记忆单元组成,该单元包含输入门、输出门、遗忘门,可以捕获长期依赖关系。将采集的设备传输协议特征序列作为LSTM的输入。输入门控制新信息进入记忆单元,遗忘门控制历史信息的保存,输出门控制输出的信息。记忆单元捕捉并保存历史状态信息,作为当前状态的参考。重复LSTM单元,seq2seq模型预测多时刻的协议特征。通过损失函数评估预测与实际特征误差,完成模型训练。训练好的LSTM模型对新输入进行协议特征预测,判断异常。持续使用新数据微调模型,适应协议特征的变化。综上,LSTM的记忆单元结构能够学习长序列数据的长时依赖关系,适合建立传输协议的时间相关特征模型,提高设备行为判断的准确率。
具体地,在设备行为模块110中,使用CNN网络建立设备通信流量特征模型。CNN网络由卷积层、池化层组成,可以自动学习输入数据中的局部特征。将采集的设备流量特征时间序列数据转化为二维矩阵作为CNN输入。卷积层使用卷积核提取输入数据的局部特征,如趋势、周期性等流量特征。池化层下采样,减少数据维度和参数量。重复卷积和池化网络结构,提取多级流量特征。全连接层将特征连接成流量特征向量,输入分类器。通过损失函数评估流量特征预测的误差,实现模型训练。训练好的CNN模型对新输入流量数据进行特征提取和分类,判断异常。持续微调模型参数,使其适应流量特征的变化。综上所述,CNN的卷积结构能高效自动学习流量时间序列数据的局部特征,适合建模流量特征,提升设备行为判断的准确性。
进一步的,还包括:解析单元,通过数据包解析算法解析获取的历史通信数据中的数据包,提取源地址、目标地址、源端口和目标端口作为接口特征;通过会话层和传输层协议解析算法解析获取的历史通信数据中的会话层和传输层协议信息,提取协议类型、协议语法和协议参数作为协议特征;通过流量解析算法解析获取的历史通信数据中的源目标地址、端口号和流量大小作为流量特征;其中,数据包解析算法负责解析历史通信数据中的数据包,并提取出重要的信息,包括源地址、目标地址、源端口和目标端口等。这些信息可用作设备接口特征。会话层和传输层协议解析算法的任务是解析历史通信数据中的会话层(如HTTP、FTP等)和传输层(如TCP、UDP等)协议信息。该算法可以提取协议类型、协议语法和协议参数等信息作为设备传输协议特征。流量解析算法解析历史通信数据中的流量信息,并提取关键特征,如源目标地址、端口号和流量大小等。这些信息可用作设备通信流量特征。解析单元也需要考虑异常数据的处理。部分数据可能不符合常规格式或协议,算法需要具备鲁棒性,能够有效地处理这些异常情况,避免对特征提取造成负面影响。
具体地,在解析历史通信数据以提取会话层和传输层协议信息时,可以采用多种算法和技术来提取协议类型、协议语法和协议参数等作为协议特征。在本申请中,可以采用如下会话层和传输层协议解析算法:使用正则表达式来匹配通信数据中的特定协议标识符、关键字或模式。这种方法适用于识别具有明确定义语法或格式的协议,如HTTP、FTP、SMTP等。使用现有的协议解码库或工具,如Wire shark的解析器或其他网络分析工具中提供的协议解析器。这些工具通常包含对多种通信协议的解析器和识别引擎,可以方便地解析通信数据并提取协议信息。深度包检测(Deep Packet Inspection,DPI):DPI技术可以深入分析数据包的内容,以识别和解析各种协议。它可以检查数据包中的各个字段、标识符和语法结构,进而识别协议类型和参数。采用状态机模型来识别和解析协议。状态机模型可以根据协议规范建立状态转换,并根据通信数据中的状态变化来推断协议类型和语法。使用机器学习技术,如基于特征的分类器或序列模型,对通信数据进行训练,从而识别和解析协议特征。这种方法可以适应非结构化或变化频繁的通信协议。使用启发式方法和模式匹配技术来识别和解析协议的特征。这包括对通信数据进行模式识别、关键字匹配或特定模式的搜索。
具体地,在解析历史通信数据以提取流量特征时,可以采用不同的流量解析算法:使用基于统计的方法,例如直方图、频率分析或概率分布,来分析源目标地址、端口号和流量大小的统计信息。这能够提供有关通信模式和流量规律的洞察。基于深度学习或机器学习的流量分类器,可以对通信数据进行训练,以自动识别和分类不同类型的流量。这可以帮助提取特定协议或应用程序的流量特征。
深度包检测(Deep Packet Inspection,DPI):DPI技术不仅可以用于解析协议,还可以深入分析数据包的内容,提取源目标地址、端口号和流量大小等信息。使用专门设计的流量特征提取算法,该算法能够识别和提取流量中的关键特征,如源目标地址、端口号、流量大小以及其他可能与网络行为相关的特征。使用统计模型,例如流量聚类或异常检测,来发现流量中的模式和异常。这有助于识别正常和异常的流量行为。使用模式匹配和正则表达式来检测通信数据中特定模式的出现,从而提取流量特征。对通信数据进行时序分析,检测流量随时间的变化模式,提取流量大小的趋势或周期性特征。
进一步的,序列化单元将提取的接口特征按时间顺序排列成接口特征序列;将提取的协议特征按时间顺序排列成协议特征序列;通过流量映射算法,将提取的流量特征中的源IP地址、目标IP地址、源端口、目标端口和流量大小映射为二维图像中的像素值,将映射得到的像素值按时间顺序排列形成二维图像,作为流量特征序列;其中,将提取的接口特征按时间顺序排列成接口特征序列。这意味着对每个时间戳,将设备的接口特征记录在序列中。这可以是一系列包含源地址、目标地址、源端口和目标端口等接口信息的数据结构。将提取的协议特征按时间顺序排列成协议特征序列。对于每个时间戳,将协议的类型、语法和参数等特征记录在序列中。这形成一个时间序列,反映了设备通信协议的演变过程。使用流量映射算法将提取的流量特征中的源IP地址、目标IP地址、源端口、目标端口和流量大小映射为二维图像中的像素值。这可以通过将IP地址和端口号映射到图像的坐标,而流量大小映射为像素的颜色强度。映射得到的像素值按时间顺序排列,形成流量特征序列。流量映射算法负责将源IP地址、目标IP地址、源端口、目标端口和流量大小映射为图像中的像素值。这可能包括颜色映射、坐标映射等。流量映射的目的是将复杂的流量信息表示为可视化的形式,以便更容易进行分析和识别模式。将映射得到的像素值按时间顺序排列,形成二维图像。每个图像代表一个时间戳的流量特征。这种方法使得流量的时序信息能够以图像的形式呈现,方便进一步的视觉分析。综合以上步骤,序列化单元的技术方案可以通过对接口、协议和流量特征的时间顺序排列,以及通过流量映射算法生成的二维图像序列,为后续的网络行为模型提供有序的输入数据。这有助于捕捉设备行为的时序模式。
具体地,二维图像指的是具有行和列坐标的二维数字图像。在本申请中,它特指通过流量映射算法,将流量特征中的源IP、目标IP、端口和流量大小等映射转换生成的数字图像。具体应用如下:提取流量时间序列数据中的源IP、目标IP、端口和流量大小等特征。通过预设的映射规则,将每个流量特征值映射为0至255之间的一个整数像素值。将不同流量特征映射得到的像素值,组合形成具有行和列坐标的二维数字图像。对连续时间段的流量数据重复上述操作,得到表示流量时间变化的二维图像序列。将映射生成的二维图像序列输入到CNN网络,自动学习其中的流量特征。CNN通过卷积核从图像中提取局部特征,实现对流量特征的建模。最终输出流量时间序列的特征向量,以判断网络设备的异常行为。综上所述,二维图像的形式能够直观反映流量特征的时间相关性,便于通过CNN提取流量时间序列的关键特征,判断网络设备的异常行为。
进一步的,数据集单元,其中:获取标注了正常行为和异常行为的历史接口特征序列,构成训练数据集A1;获取标注了正常协议和异常协议的历史协议特征序列,构成训练数据集A2;获取标注了正常流量和异常流量的二维流量图像,构建训练数据集A3;其中,数据集单元的任务是获取标注了正常行为和异常行为的历史接口特征序列、标注了正常协议和异常协议的历史协议特征序列,以及标注了正常流量和异常流量的二维流量图像,然后将这些数据构建成训练数据集。训练数据集A1(接口特征序列),从历史通信数据中选择一部分样本,这些样本已标注为正常行为或异常行为。这可能包括设备的接口特征序列,按照时间顺序排列。对每个样本进行标注,指示该时间段内的行为是正常的还是异常的。这样的标注可以由专业人员进行,或者通过已有的异常检测系统获得。将标注好的接口特征序列组成训练数据集A1,以便后续用于模型的训练和评估。
其中,训练数据集A2(协议特征序列),从历史通信数据中选择一部分样本,这些样本已标注为正常协议或异常协议。这可能包括设备的协议特征序列,按照时间顺序排列。对每个样本进行标注,指示该时间段内使用的协议是正常的还是异常的。标注可以参考已有的协议规范或通过其他手段获得。将标注好的协议特征序列组成训练数据集A2,用于训练和评估模型。
其中,训练数据集A3(流量图像),从历史通信数据中选择一部分样本,这些样本已标注为正常流量或异常流量。这可能包括设备的二维流量图像序列,按照时间顺序排列。对每个样本进行标注,指示该时间段内的流量是正常的还是异常的。标注可以通过基于规则的方法、机器学习或专业人员进行。将标注好的二维流量图像序列组成训练数据集A3,用于模型的训练和验证。在构建这些训练数据集时,需要确保样本的多样性和代表性,以保证训练出的模型具有良好的泛化性能。这些数据集可以用于监督学习的模型训练,以便模型学会正常和异常行为、协议和流量的模式,从而能够在实际应用中进行准确的检测和分类。
具体地,在本申请中,标注正常流量和异常流量的二维流量图像:收集大量实际网络中的流量时间序列数据。根据网络运行状态,将部分流量数据标注为正常流量,另一部分标注为已知的异常流量。对流量时间序列进行Extraction,获取源IP、目标IP、端口、流量大小等特征。根据预设映射规则,将上述特征转换为0至255之间的整数像素值。组合不同流量特征的像素值,形成二维流量图像。为每个流量图像添加与原流量数据对应的标注标签“正常流量”或“异常流量”。按一定比例划分标注过的流量图像为训练集和测试集。训练卷积神经网络模型,评估模型对正常和异常流量的分类效果。根据评估结果,扩充流量时间序列数据,增加图像标注,改进模型性能。最终得到能有效区分正常和异常流量图像的卷积神经网络模型。
进一步的,还包括:网络配置单元,通过网格搜索法设置GRU神经网络的超参数,超参数包含网络层数和节点数,并设置包含迭代次数和学习率的训练参数;GRU训练单元,利用构建的训练数据集A1训练设置了超参数和训练参数的GRU神经网络,建立接口特征序列到设备行为的映射关系模型,作为设备接口特征模型;注意力单元,在GRU神经网络中设置注意力层,计算接口特征序列每个时刻的隐状态向量和目标向量的关联度,生成权重系数作为对应时刻的注意力。
其中,通过网格搜索法设置GRU神经网络的超参数。这包括网络层数和每层节点数。网格搜索法是一种系统地遍历超参数空间的方法,以找到最佳的超参数组合。设置训练参数,包括迭代次数和学习率。这些参数影响神经网络的训练速度和性能。使用构建的训练数据集A1,其中包含标注了正常行为和异常行为的历史接口特征序列。确保数据集的划分为训练集和验证集,以进行模型的训练和评估。构建包含GRU层的神经网络,其中网络层数和每层节点数是通过网格搜索法设置的超参数。网络的输入为接口特征序列,输出为设备行为的映射关系模型。利用训练数据集A1对GRU神经网络进行训练。优化过程使用反向传播算法,通过调整网络参数使模型能够更好地拟合输入数据。训练完成后,得到的神经网络模型可以看作是设备接口特征到设备行为的映射关系模型。在GRU神经网络中引入注意力层。注意力机制有助于模型在序列中关注重要的时刻,提高模型对输入序列的理解能力。在注意力层中,计算接口特征序列每个时刻的隐状态向量和目标向量的关联度。这可以通过计算点积、加权和等方式实现。将关联度转化为权重系数,生成对应时刻的注意力。这些权重系数反映了在序列中哪些时刻对于模型的输出更为重要。综合上述步骤,网络配置单元负责确定神经网络的整体结构和超参数,GRU训练单元使用训练数据集A1对网络进行训练,建立设备接口特征模型,而注意力单元引入了注意力机制,以提高模型对接口特征序列的学习能力。本申请能够为设备行为的检测提供一个端到端的解决方案,通过深度学习技术对接口特征进行建模。
具体地,网格搜索法是一种通过遍历预先设定的超参数组合,找出模型最优超参数组合的方法。在本申请中,确定GRU神经网络训练的超参数,包括层数、节点数等。为每个超参数设置可选值构成网格状的组合空间。遍历网格中每个超参数组合,训练GRU模型。使用验证集评估每个超参数组合训练的模型效果。比较所有组合下的评估指标结果,选择最优的参数组合。用最优超参数组合配置最终的GRU模型结构和大小。在此基础上,针对训练参数如迭代次数、学习率等再进行优化。最终确定全局优化的超参数和训练参数,用于设备接口特征模型的训练。通过网格搜索法,可以有效得到GRU在本任务上最优的模型配置,提高最后模型的效果。
具体地,超参数是指神经网络模型中需要在训练前手动设置、并对模型训练性能产生重大影响的参数。在本申请中GRU模型中,超参数包括:网络层数,GRU网络堆叠的层数量,控制模型学习特征的深度。节点数,每层GRU中隐状态节点的数量,控制每层特征信息的带宽。迭代次数,模型训练时针对训练数据的遍历次数,控制模型训练的程度。学习率,每次参数更新的步长,控制模型收敛的速度。通过网格搜索确定上述超参数的最佳值组合,构建最优的GRU模型。超参数对GRU模型性能有显著影响,需要精心设置。超参数设置完成后,在训练过程中保持固定不变。综上所述,超参数是决定GRU神经网络模型结构和训练方式的参数,通过预先配置需要手工优化设置,对模型性能有重要影响。
具体地,使用标注了正常和异常行为的接口特征序列数据集A1训练设置好超参数的GRU模型。GRU通过隐藏层捕捉接口特征时间序列中长期依赖关系和特征模式。重复GRU单元依次建模输入接口特征序列,获得定长的特征向量表示。连接一个全连接层,输入GRU学习到的接口特征表示。全连接层输出设备行为的预测,如正常或异常。比较预测行为和真实标注,计算损失,更新模型参数。训练过程中不断优化,建立输入接口特征序列到设备行为类别的映射关系。当模型收敛时,GRU能够根据新的接口特征序列输入推断对应的设备行为。该映射关系反映了接口特征模式与设备行为之间的内在联系。新的接口数据可以不断优化这个特征行为映射关系。
具体地,在本申请中,计算接口特征序列每个时刻的隐状态向量和目标向量的关联度以及对应时刻注意力的技术方案:GRU模型通过重复的隐状态单元h输出接口特征序列的隐状态向量ht。设置目标向量v,放在GRU模型的输出端。对每个时间步t,计算ht和v之间的关联度,一般采用点积或双线性函数等:,其中,/>表示时刻t的LSTM隐状态输出,它反映了当前时间步的特征表示,是向量,维度通常为几百维;v表示目标向量,是一个固定的向量,维度与/>相同,代表全局的语义信息;/>表示时刻t的关联度得分,是一个标量;/>表示表示矩阵转置。对所有时间步的关联度e1,e2......,en进行soft max归一化,得到注意力权重/>:/>,其中,/>表示时刻t的注意力权重,它表示该时刻的重要性;/>表示时刻t的关联度得分,通过前述的点积或双线性函数计算得到;exp表示指数函数,对关联度得分进行指数运算,放大数值差异;/>指所有时间步关联度得分的累积指数和;/>表示对某一时刻t的指数化关联度得分进行归一化处理。通过soft max归一化,各时刻的注意力权重之和为1,都映射到0至1范围内,可以比较不同时刻的重要性;/>反映了时刻t对最终输出的重要性贡献。对不同时间步的/>进行可视化,呈现模型对接口特征序列的注意力分布情况。注意力权重与该时刻接口特征的重要性对应,可以对模型注意力进行分析。调整目标向量v的设置,优化模型对关键特征的注意力获取能力。
进一步的,还包括:贝叶斯优化单元,构建贝叶斯优化模型,并利用构建的贝叶斯优化模型设置LSTM神经网络的超参数,其中:构建LSTM神经网络的超参数的先验分布;计算LSTM神经网络的超参数的后验分布,并获取超参数的最优值;超参数配置单元,利用贝叶斯优化单元计算得到的超参数的最优值设置LSTM神经网络的超参数;LSTM训练单元,利用构建的训练数据集A2训练设置了超参数的LSTM神经网络,建立协议特征序列到设备行为的映射关系,作为设备传输协议特征模型。
其中,使用贝叶斯优化算法,通常基于高斯过程(Gaussian Process)建立超参数的贝叶斯优化模型。这个模型可以帮助估计超参数的先验分布。设计先验分布,描述LSTM神经网络的超参数。这可以包括网络层数、每层节点数、学习率等超参数。通过对先验分布和训练数据的观察,计算LSTM神经网络的超参数的后验分布。这一步通过贝叶斯推理得到,使得模型更符合实际观测。利用贝叶斯优化单元计算得到的超参数的后验分布,获取超参数的最优值。这个最优值可以看作是在给定数据和模型的情况下,LSTM神经网络的最优超参数设置。利用最优的超参数值配置LSTM神经网络,包括网络的层数、每层节点数、学习率等。这样可以确保LSTM模型在训练时更容易收敛到最优状态。使用构建的训练数据集A2,其中包含标注了正常协议和异常协议的历史协议特征序列。确保数据集的划分为训练集和验证集,以进行模型的训练和评估。构建包含LSTM层的神经网络,其中网络层数和每层节点数是通过超参数配置单元设置的最优值。网络的输入为协议特征序列,输出为设备行为的映射关系模型。利用训练数据集A2对LSTM神经网络进行训练。采用反向传播算法进行优化,通过调整网络参数,使模型更好地拟合输入数据。训练完成后,得到的神经网络模型可以看作是设备传输协议特征到设备行为的映射关系模型。贝叶斯优化单元利用贝叶斯优化算法找到了LSTM神经网络的最优超参数,超参数配置单元使用最优超参数值配置LSTM神经网络,而LSTM训练单元则利用训练数据集A2对LSTM神经网络进行训练,建立设备传输协议特征模型。这一整体方案能够为协议特征的建模和设备行为的检测提供一个端到端的解决方案。
具体地,贝叶斯优化算法是一种基于贝叶斯统计思想,利用概率模型对目标函数进行全局优化并求解其最优点的算法。在本方案中,构建LSTM神经网络超参数的先验分布模型。计算训练过程中超参数的后验分布,获得超参数空间的全局视图。利用贝叶斯规则,在后验分布上求超参数的期望,获得全局最优值。该最优值将作为LSTM模型超参数的最终设置值。更具体地,在本申请中,计算LSTM神经网络超参数的后验分布并获取最优超参数值包括:构建超参数的先验分布,表征超参数θ的确信度分布。在训练过程中,记录超参数θ和模型在验证集上的表现/>。根据贝叶斯定理,计算超参数的后验分布:其中D表示观测到的验证集表现/>。应用贝叶斯估计,通过后验分布的最大值点来估计θ的最优值:,其中,argmax 表示求最大值操作;/>后验分布,它表示在观测到数据D的条件下,参数θ的分布;D 观测到的训练数据。通过后验分布的概率密度分布寻找全局最优点。最终确定超参数的最佳设置/>,配置到LSTM模型中。
更具体地,贝叶斯优化单元输出LSTM模型每个超参数的数值,包括层数、时序长度、隐层大小等。读取优化单元输出的每个超参数的最优值。根据层数创建相应的LSTM层作为网络结构。设置每个LSTM层的时序输入长度,一般取输入序列的时间步长。依据隐层大小配置每个LSTM层的隐状态节点数量。设置训练过程的batch大小、训练轮数等训练参数。将上述结构化网络配置代码封装为一个类。创建该类的实例对象作为最终的LSTM模型,完成配置。模型实例化时调用配置代码,构建优化超参数的LSTM网络。该模型即拥有贝叶斯优化的超参数,可直接用于训练。
进一步的,还包括:编码单元,构建包含卷积层数L、卷积核大小K和池化方式J的二进制编码序列,将每一个编码作为一个个体,生成包含N个个体的初始群体;适应度计算单元,加载初始群体中个体i对应的CNN神经网络,利用预先构建的流量图像验证集,验证加载的CNN神经网络对流量图像的识别准确率,作为个体i的适应度值;进化单元,根据个体i的适应度值/>,通过轮盘赌算法计算个体i在对应代被选择的概率/>,根据个体i被选择的概率/>,随机选择适应度值大于阈值的个体,形成下一代包含N个个体的个体群;对选出的下一代个体群,利用一点交叉和均匀变异算法,生成新的个体/>,计算新的个体/>的适应度值;CNN选择置单元,经过预设的H代进化计算后,从最终一代的N个个体中选择适应度值最高的个体对应的CNN神经网络;CNN模型训练单元,利用构建的训练数据集A3训练最终选择的CNN神经网络,建立流量特征序列到设备行为的映射关系,作为设备通信流量特征模型。
其中,对卷积神经网络(CNN)的关键参数,包括卷积层数L、卷积核大小K和池化方式J,进行二进制编码。每个编码可以被看作是一个个体,这些编码将构成初始群体。初始群体包含N个个体,每个个体代表一个可能的CNN配置,由二进制编码序列表示。这样的设计允许算法在搜索空间中进行进化,找到最优的CNN配置。针对初始群体中的每个个体i,加载对应的CNN神经网络结构,该结构由个体i的编码解析而来。利用预先构建的流量图像验证集,对加载的CNN神经网络进行评估,计算其在流量图像上的识别准确率。这个准确率作为个体i的适应度值。基于个体i的适应度值/>,使用轮盘赌算法计算个体i在对应代被选择的概率/>。适应度值较高的个体被选择的概率也较高。根据计算得到的选择概率/>,随机选择适应度值大于阈值的个体,形成下一代包含N个个体的个体群。对选出的下一代个体群,利用一点交叉和均匀变异算法生成新的个体/>。这一步通过交叉和变异操作引入新的基因组合,促进搜索空间的多样性。对生成的新个体/>,计算其适应度值/>,以评估新生成的CNN配置在验证集上的性能。经过一定代数(H代)的遗传算法进化计算,从最终一代的N个个体中选择适应度值最高的个体,该个体对应的CNN神经网络被认为是最优配置。选出的最优个体对应的CNN神经网络结构将用于后续的训练。使用构建的训练数据集A3,对最终选择的CNN神经网络进行训练。这一步旨在建立流量特征序列到设备行为的映射关系。训练完成后,得到的CNN神经网络可以被视为设备通信流量特征模型,能够对流量图像进行识别和分类,从而实现对设备行为的监测和分析。通过遗传算法的进化过程,搜索CNN的超参数空间,找到最优的CNN配置,然后利用选出的最优配置进行模型训练,建立设备通信流量特征模型。这个模型可以用于设备行为的识别和分类,有助于网络安全和流量分析等应用场景。
具体地,在本申请中,生成包含N个个体的遗传算法初始群体包括:确定遗传编码的长度,包含卷积层数、卷积核大小等超参数。对每个超参数设定其取值范围,如卷积层数的范围为[1,10]。通过随机抽样的方法生成N个满足取值范围要求的编码组合。例如随机生成卷积层数l∈[1,10],卷积核大小k∈[1,5]。将l和k组合成一个编码序列,作为一个初始个体。重复以上步骤,共生成N个随机个体,构成初始群体。N值一般设置为种群规模的5到10倍,保证种群多样性。也可以根据编码特点,采用均匀分布等方法生成。最后去除编码冲突的个体,构建初始群体。
具体地,轮盘赌算法是一种按照个体适应度占总适应度的比例,随机选择个体的遗传算法运算子。在本方案中,计算每个个体i的适应度值。个体i对应的是一组CNN模型的编码,包含卷积层数、卷积核大小等超参数。根据个体i的编码,构建相应的CNN模型结构。在流量图像验证集上测试该CNN模型的分类准确率。将CNN模型在验证集上的分类准确率作为个体i的适应度/>。重复上述过程,计算种群中所有个体的适应度值。适应度/>越高,表示对应的CNN模型分类效果越好。将适应度值高的个体保留下来,淘汰适应度低的个体。种群利用轮盘赌等手段,向适应度高的个体进化。迭代求解,直到得到全局最优的适应度值。求所有个体适应度值之和/>。计算每个个体的适应度占比/>。根据占比生成选取每个个体的概率区间。通过随机数匹配区间,按概率/>选择个体,更具体地,计算每个个体i被选择的概率/>,/>之和为1。根据概率/>,生成选取每个个体的积分概率区间。例如,对个体A,B,C,它们的概率分别为0.1,0.3,0.6。则它们的积分区间范围依次为[0,0.1],[0.1,0.4],[0.4,1]。随机生成一个0到1范围内的随机数x。判断x落在哪个个体的区间内,则选择该个体。例如随机数x=0.2,落在B的区间[0.1,0.4]内,则选择个体B。重复该选择过程,根据各个体的概率/>随机选择个体。高概率个体有更大概率被选择。轮盘赌使适应度高的个体有更大概率被选中。重复该选择过程形成新一代群体。使种群向更优解进化。通过轮盘赌算法,可以根据个体适应度的相对大小进行择优保留,使种群实现有方向的进化,这在本方案的CNN超参数优化中起到很好的作用。
具体地,一点交叉是一种交叉运算,随机选择种群中两个个体的编码在单点发生交叉,生成新的个体。均匀变异是一种变异运算,按照统一的变异概率,随机改变种群个体编码中的一些位,生成新的个体。在本申请中,对选择出的下一代个体群,进行一点交叉运算。随机选择两个个体,交换其编码中的一部分,生成新的个体。增加种群的多样性,避免陷入局部最优解。按照设置的变异概率,对个体进行均匀变异。随机改变其编码位,引入新的特征。计算新的个体的适应度,保留变异效果好的个体。重复进行交叉和变异,使种群不断优化,逼近全局最优解。
具体地,H的设置需考虑种群规模N和个体编码长度等因素。一般H可取N的10-50倍。如果H太小,容易陷入局部最优;如果H过大,计算资源消耗大。可先小规模试运行判断种群进化趋势,以确定合适的H值。经过H代进化运算后,在最终一代N个个体中选出适应度值最大的个体。查找是否有多个个体适应度相同且均为最高。如果唯一,选择该最高适应度个体对应的CNN模型。如果存在多个最高个体,可同时选择它们的CNN模型组合使用。获得最终适应环境的CNN模型,进行后续的模型训练。
具体地,在本申请中,利用标注了正常和异常设备行为的流量图像数据集A3训练经优化的CNN模型。CNN通过卷积层提取流量图像的局部特征,池化层进一步提取图像的主要特征。全连接层整合CNN学习到的特征,作为流量图像的整体表示。最后输出层classify流量图像属于正常或异常类。通过反向传播不断更新参数,建立流量图像特征与设备行为类别的映射。当CNN模型训练收敛后,可以根据新的流量图像的特征,判断其对应的设备行为。如果新图像在CNN中激活了与异常行为相关的特征组合,则判定为异常流量。CNN建立的特征行为映射关系反映了流量图像特征模式与设备行为之间的内在联系。
进一步的,还包括:接口注意力子单元,通过双线性函数计算设备接口特征模型中时刻t的特征向量和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的接口特征权重系数/>;协议注意力子单元,通过双线性函数计算设备传输协议特征模型中时刻t的特征向量/>和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的协议特征权重系数/>;流量注意力子单元,通过双线性函数计算设备通信流量特征模型中时刻t的特征向量/>和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的流量特征权重系数/>;特征融合单元,利用接口特征时序的权重系数/>、协议特征时序的权重系数/>和流量特征时序的权重系数/>对各特征时序进行加权融合,生成网络行为综合特征;融合模型训练单元,利用生成的网络行为综合特征训练SVM分类模型,建立网络行为分类模型,作为网络行为模型;其中,目标抽象向量U为:从标注的历史网络行为数据中,选择与网络入侵行为相关的关键词,利用词向量技术获得这些关键词的词向量表示,将这些词向量综合并正则化得到目标抽象向量U。
其中,通过双线性函数计算设备接口特征模型中时刻t的特征向量Mi(t)和预先定义的目标抽象向量U的相关性分值。获得时刻t的接口特征权重系数/>。这个权重系数表示了接口特征在该时刻与目标抽象向量的关联程度。通过双线性函数计算设备传输协议特征模型中时刻t的特征向量/>和目标抽象向量U的相关性分值/>。获得时刻t的协议特征权重系数/>。这个权重系数表示了协议特征在该时刻与目标抽象向量的关联程度。通过双线性函数计算设备通信流量特征模型中时刻t的特征向量/>和目标抽象向量U的相关性分值/>。获得时刻t的流量特征权重系数/>。这个权重系数表示了流量特征在该时刻与目标抽象向量的关联程度。利用接口特征时序的权重系数/>、协议特征时序的权重系数/>和流量特征时序的权重系数/>,对各特征时序进行加权融合。生成网络行为综合特征,该特征综合考虑了接口、协议和流量特征在不同时刻的重要性。利用生成的网络行为综合特征训练SVM分类模型。建立网络行为分类模型,该模型可以用于对网络行为进行分类,特别是对网络入侵行为的检测。从标注的历史网络行为数据中选择与网络入侵行为相关的关键词。利用词向量技术获得这些关键词的词向量表示。将这些词向量综合并正则化,得到目标抽象向量U。
具体地,在本申请中,双线性函数可以采用:标准内积(Dot Product);外积(OuterProduct):投影(Projection):切空间(Hadamard Product):;缩放投影(Scaled Projection);其中,s为缩放系数。这些双线性函数都可以有效计算两个向量之间的相关性,捕捉关键互信息。
具体地,在本申请中计算接口特征时刻t的权重系数ami(t)的技术方案包括:接口特征模型产生时刻t的特征向量Mi(t)。计算Mi(t)与目标向量U的相关性分值smi(t),例如采用内积,对所有时间步t的相关性分值smi(t)进行softmax归一化,得到注意力权重αi(t):ai(t)=exp(smi(t))/∑texp(smi(t));将注意力权重αi(t)作为该时刻接口特征的权重系数ami(t)。ami(t)范围在0-1之间,表征该时刻接口特征的重要性。最终对各时刻的接口特征向量进行ami(t)加权融合。计算协议特征时序的权重系数awi(t)和流量特征时序的权重系数azi(t)的技术方案相同,在此不再赘述。
进一步的,目标抽象向量U,还包括:关键词提取单元,从标注的历史通信数据中,选择与网络入侵行为相关的前R个关键词,R的取值范围为10至50;词向量生成单元,通过预训练的Word2Vec词向量模型将选择的R个关键词映射为固定维数的词向量;向量融合单元,将生成的R个词向量拼接组合,生成组合词向量;正则化单元,对生成的组合词向量进行L2正则化处理,生成目标抽象向量U。
其中,从标注的历史通信数据中选择与网络入侵行为相关的前R个关键词,其中R的取值范围为10至50。这个单元的任务是通过一定的关键词提取算法(可能基于统计、机器学习或深度学习算法)来从通信数据中提取与网络入侵行为相关的关键信息。通过预训练的Word2Vec词向量模型,将选择的R个关键词映射为固定维数的词向量。Word2Vec是一种词嵌入(word embedding)技术,可以将单词映射到一个低维度的向量空间,保留了词语之间的语义关系。将生成的R个词向量进行拼接或其他融合操作,形成一个组合词向量。这一步的目的是将从关键词提取得到的信息整合起来,形成一个更综合的表示,以便更好地捕捉网络入侵行为的特征。对生成的组合词向量进行L2正则化处理。正则化有助于防止过拟合,提高模型的泛化能力。L2正则化通过对向量的每个元素施加惩罚,促使模型学习到更稳定的表示。最终,经过以上步骤处理后的组合词向量被视为目标抽象向量U。这个向量U可以被用于后续的任务,比如与其他特征向量计算相关性分值,用于网络入侵检测等。
具体地,Word2Vec(Word to Vector)是一种词嵌入技术,通过训练一个神经网络模型,将每个单词映射到一个固定维度的实数向量。这种表示能够捕捉词语之间的语义关系,使得相似含义的词在向量空间中距离较近。在本申请中,在词向量生成单元中,选择的R个关键词通过预训练的Word2Vec模型映射为固定维度的词向量。这使得每个关键词都能以数值向量的形式表示,有助于后续的特征融合和建模。向量融合单元是一个模块,用于将多个向量合并成一个更大的向量。融合可以采用拼接、求和、平均等操作,旨在将不同来源或类型的信息整合起来。生成的R个词向量通过向量融合单元进行拼接组合,形成一个综合的组合词向量。这个组合词向量将包含选择的所有关键词的信息,为后续的处理提供了更全面的特征。正则化是一种用于控制模型复杂度的技术,其中L2正则化是一种形式,通过对模型的权重施加惩罚,使得权重的平方和趋于稳定。这有助于防止模型过度拟合训练数据,提高模型的泛化能力。生成的组合词向量通过L2正则化单元进行处理,确保向量的各个维度都在合适的范围内,并防止模型在目标抽象向量U上过度拟合训练数据。这提高了生成的目标抽象向量的稳定性和泛化能力。本申请通过将关键词映射为词向量,融合这些词向量,然后通过正则化处理生成目标抽象向量U,实现了从文本关键词到一个综合的、具有固定维度的向量表示的过程。这个向量U可以用于后续的模型训练和网络行为分类。
具体地,R表示选择与网络入侵相关的关键词数量。R越大,选择的关键词越多,能反映网络入侵行为的语义特征越全面。但R过大会导致词向量拼接后的维数太高,降低运算效率。R越小,所选关键词越少,语义特征表示不够全面。但R过小无法充分表达网络入侵行为的语义概念。考虑词向量长度约200维,R取10到50使拼接词向量长度控制在2000到10000维。保证目标向量U既能代表充分的语义特征,又不会导致过大的运算负担。因此R取值范围10至50可以兼顾表达能力和计算效率。
具体地,L2正则化是一种权重衰减(weight decay)的正则化技术,通过在模型目标函数中添加权重矩阵的平方项来实现。在本申请中,生成的组合词向量可能存在过大值。L2正则化在目标函数中添加权重平方项,惩罚大权重。优化目标从单纯拟合训练数据,转变为同时考虑权重大小。权重衰减项使得最终学到的权重较小、比较集中。避免特征尺度悬殊,提升模型泛化性。最终输出的目标向量U各元素值较为平滑统一。
以上示意性地对本发明创造及其实施方式进行了描述,该描述没有限制性,在不背离本发明的精神或者基本特征的情况下,能够以其他的具体形式实现本发明。附图中所示的也只是本发明创造的实施方式之一,实际的结构并不局限于此,权利要求中的任何附图标记不应限制所涉及的权利要求。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性地设计出与本申请相似的结构方式及实施例,均应属于本专利的保护范围。此外,“包括”一词不排除其他元件或步骤,在元件前的“一个”一词不排除包括“多个”该元件。产品权利要求中陈述的多个元件也可以由一个元件通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (9)
1.一种基于可视化的安全数据库管理系统,包括:
设备行为模块,采用机器学习根据目标设备的历史通信数据,建立目标设备的网络行为模型,网络行为模型采用统计模型反映目标设备在不同时间段内的网络特征和通信模式;
监测模块,通过网络监测装置监测目标设备的通信数据,并通过数据包分析算法提取通信数据中的网络特征;
判断模块,采用机器学习将监测到的目标设备的网络特征和对应的网络行为模型进行匹配,计算网络特征的差异程度,当计算得到的差异程度超过阈值时,判断监测的目标设备异常,并根据计算得到的差异程度将监测到的目标设备的通信数据判断为潜在攻击事件或正常变化事件;
响应模块,当判断模块将监测到的目标设备的通信数据判断为潜在攻击事件时,向用户终端发送预警信息,同时触发分析模块对目标设备的网络行为模型进行重构;
分析模块,采用深度学习模型结合标准攻击场景数据库和正常变化场景数据库,对监测模块监测到的目标设备的通信数据进行多层特征提取和分类,判断监测到的目标设备的通信数据为真实攻击事件或正常变化事件;
预警模块,根据分析模块的判断结果,向用户终端发送不同级别的预警信息;
设备行为模块,还包括:
数据获取子模块,获取目标设备的历史通信数据;
模型生成子模块,根据获取的历史通信数据,提取设备接口特征、传输协议特征和通信流量特征,并根据提取的特征构建网络行为模型,其中:
采用GRU神经网络建立设备接口特征模型,GRU神经网络为门控循环神经网络;
采用LSTM神经网络建立设备传输协议特征模型,LSTM神经网络为长短时记忆网络;
采用CNN神经网络建立设备通信流量特征模型;
通过注意力机制将建立的设备接口特征模型、设备传输协议特征模型和设备通信流量特征模型进行融合,生成网络行为模型;
模型存储子模块,存储构建的网络行为模型;
模型更新子模块,根据采集的目标设备的通信数据对构建的网络行为模型进行增量训练。
2.根据权利要求1所述的基于可视化的安全数据库管理系统,其特征在于:
模型生成子模块,还包括:
解析单元,其中:
通过数据包解析算法解析获取的历史通信数据中的数据包,提取源地址、目标地址、源端口和目标端口作为接口特征;
通过会话层和传输层协议解析算法解析获取的历史通信数据中的会话层和传输层协议信息,提取协议类型、协议语法和协议参数作为协议特征;
通过流量解析算法解析获取的历史通信数据中的源目标地址、端口号和流量大小作为流量特征。
3.根据权利要求2所述的基于可视化的安全数据库管理系统,其特征在于:
模型生成子模块,还包括:
序列化单元,其中:
将提取的接口特征按时间顺序排列成接口特征序列;
将提取的协议特征按时间顺序排列成协议特征序列;
通过流量映射算法,将提取的流量特征中的源IP地址、目标IP地址、源端口、目标端口和流量大小映射为二维图像中的像素值,将映射得到的像素值按时间顺序排列形成二维图像,作为流量特征序列。
4.根据权利要求3所述的基于可视化的安全数据库管理系统,其特征在于:
模型生成子模块,还包括:
数据集单元,其中:
获取标注了正常行为和异常行为的历史接口特征序列,构成训练数据集A1;
获取标注了正常协议和异常协议的历史协议特征序列,构成训练数据集A2;
获取标注了正常流量和异常流量的二维流量图像,构建训练数据集A3。
5.根据权利要求4所述的基于可视化的安全数据库管理系统,其特征在于:
模型生成子模块,还包括:
网络配置单元,通过网格搜索法设置GRU神经网络的超参数,超参数包含网络层数和节点数,并设置包含迭代次数和学习率的训练参数;
GRU训练单元,利用构建的训练数据集A1训练设置了超参数和训练参数的GRU神经网络,建立接口特征序列到设备行为的映射关系模型,作为设备接口特征模型;
注意力单元,在GRU神经网络中设置注意力层,计算接口特征序列每个时刻的隐状态向量和目标向量的关联度,生成权重系数作为对应时刻的注意力。
6.根据权利要求4所述的基于可视化的安全数据库管理系统,其特征在于:
模型生成子模块,还包括:
贝叶斯优化单元,构建贝叶斯优化模型,并利用构建的贝叶斯优化模型设置LSTM神经网络的超参数,其中:
构建LSTM神经网络的超参数的先验分布;
计算LSTM神经网络的超参数的后验分布,并获取超参数的最优值;
超参数配置单元,利用贝叶斯优化单元计算得到的超参数的最优值设置LSTM神经网络的超参数;
LSTM训练单元,利用构建的训练数据集A2训练设置了超参数的LSTM神经网络,建立协议特征序列到设备行为的映射关系,作为设备传输协议特征模型。
7.根据权利要求4所述的基于可视化的安全数据库管理系统,其特征在于:
模型生成子模块,还包括:
编码单元,构建包含卷积层数L、卷积核大小K和池化方式J的二进制编码序列,将每一个编码作为一个个体,生成包含N个个体的初始群体;
适应度计算单元,加载初始群体中个体i对应的CNN神经网络,利用预先构建的流量图像验证集,验证加载的CNN神经网络对流量图像的识别准确率,作为个体i的适应度值;
进化单元,根据个体i的适应度值,通过轮盘赌算法计算个体i在对应代被选择的概率/>,根据个体i被选择的概率/>,随机选择适应度值大于阈值的个体,形成下一代包含N个个体的个体群;对选出的下一代个体群,利用一点交叉和均匀变异算法,生成新的个体/>,计算新的个体/>的适应度值/>;
CNN选择单元,经过预设的H代进化计算后,从最终一代的N个个体中选择适应度值最高的个体对应的CNN神经网络;
CNN模型训练单元,利用构建的训练数据集A3训练最终选择的CNN神经网络,建立流量特征序列到设备行为的映射关系,作为设备通信流量特征模型。
8.根据权利要求1所述的基于可视化的安全数据库管理系统,其特征在于:
模型生成子模块,还包括:
接口注意力子单元,通过双线性函数计算设备接口特征模型中时刻t的特征向量和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的接口特征权重系数/>;
协议注意力子单元,通过双线性函数计算设备传输协议特征模型中时刻t的特征向量和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的协议特征权重系数;
流量注意力子单元,通过双线性函数计算设备通信流量特征模型中时刻t的特征向量和预先定义的目标抽象向量U的相关性分值/>,获得时刻t的流量特征权重系数;
特征融合单元,利用接口特征时序的权重系数、协议特征时序的权重系数/>和流量特征时序的权重系数/>对各特征时序进行加权融合,生成网络行为综合特征;
融合模型训练单元,利用生成的网络行为综合特征训练SVM分类模型,建立网络行为分类模型,作为网络行为模型;
其中,目标抽象向量U为:从标注的历史网络行为数据中,选择与网络入侵行为相关的关键词,利用词向量技术获得这些关键词的词向量表示,将这些词向量综合并正则化得到目标抽象向量U。
9.根据权利要求8所述的基于可视化的安全数据库管理系统,其特征在于:
目标抽象向量U,还包括:
关键词提取单元,从标注的历史通信数据中,选择与网络入侵行为相关的前R个关键词,R的取值范围为10至50;
词向量生成单元,通过预训练的Word2Vec词向量模型将选择的R个关键词映射为固定维数的词向量;
向量融合单元,将生成的R个词向量拼接组合,生成组合词向量;
正则化单元,对生成的组合词向量进行L2正则化处理,生成目标抽象向量U。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044687.2A CN117763618A (zh) | 2024-01-12 | 2024-01-12 | 一种基于可视化的安全数据库管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044687.2A CN117763618A (zh) | 2024-01-12 | 2024-01-12 | 一种基于可视化的安全数据库管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117763618A true CN117763618A (zh) | 2024-03-26 |
Family
ID=90323946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410044687.2A Pending CN117763618A (zh) | 2024-01-12 | 2024-01-12 | 一种基于可视化的安全数据库管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117763618A (zh) |
-
2024
- 2024-01-12 CN CN202410044687.2A patent/CN117763618A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Network intrusion detection: Based on deep hierarchical network and original flow data | |
EP3355547B1 (en) | Method and system for learning representations of network flow traffic | |
Hodo et al. | Shallow and deep networks intrusion detection system: A taxonomy and survey | |
Maza et al. | Feature selection algorithms in intrusion detection system: A survey | |
Pektaş et al. | A deep learning method to detect network intrusion through flow‐based features | |
Afuwape et al. | Performance evaluation of secured network traffic classification using a machine learning approach | |
Dou et al. | Pc 2 a: predicting collective contextual anomalies via lstm with deep generative model | |
Ahmad et al. | Zero-day attack detection: a systematic literature review | |
CN117220978B (zh) | 一种网络安全运营模型量化评估系统及评估方法 | |
Thom et al. | Smart recon: Network traffic fingerprinting for IoT device identification | |
Li et al. | Anomaly detection for cellular networks using big data analytics | |
Zwane et al. | Ensemble learning approach for flow-based intrusion detection system | |
Janani et al. | Threat analysis model to control IoT network routing attacks through deep learning approach | |
Yang et al. | Cloud-edge coordinated traffic anomaly detection for industrial cyber-physical systems | |
Hariprasad et al. | Detection of DDoS Attack in IoT Networks Using Sample Selected RNN-ELM. | |
Feng et al. | Network anomaly early warning through generalized network temperature and deep learning | |
Tran | Network anomaly detection | |
CN117763618A (zh) | 一种基于可视化的安全数据库管理系统 | |
Britel | Big data analytic for intrusion detection system | |
Amro et al. | Evolutionary computation in computer security and forensics: An overview | |
Wu et al. | An active learning framework using deep Q-network for zero-day attack detection | |
Li et al. | Application-oblivious L7 parsing using recurrent neural networks | |
Zhai et al. | A novel method for mobile application recognition in encrypted channels | |
Ouhssini et al. | DeepDefend: A comprehensive framework for DDoS attack detection and prevention in cloud computing | |
Devika et al. | A review on Machine Learning based IDS approaches in Wireless sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |