CN113032778B - 一种基于行为特征编码的半监督网络异常行为检测方法 - Google Patents

一种基于行为特征编码的半监督网络异常行为检测方法 Download PDF

Info

Publication number
CN113032778B
CN113032778B CN202110228338.2A CN202110228338A CN113032778B CN 113032778 B CN113032778 B CN 113032778B CN 202110228338 A CN202110228338 A CN 202110228338A CN 113032778 B CN113032778 B CN 113032778B
Authority
CN
China
Prior art keywords
network
abnormal
behavior
vector
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110228338.2A
Other languages
English (en)
Other versions
CN113032778A (zh
Inventor
周颖杰
宋绪成
刘凡兴
张彦如
朱策
刘凌峤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110228338.2A priority Critical patent/CN113032778B/zh
Publication of CN113032778A publication Critical patent/CN113032778A/zh
Application granted granted Critical
Publication of CN113032778B publication Critical patent/CN113032778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于行为特征编码的半监督网络异常行为检测方法,属于网络安全技术领域。本发明通过无标签网络行为样本对特征编码网络进行预训练,获得基于流型空间的三种特征表示;预训练学习到的特征编码表示有效表达了正常样本的先验分布特征,能够使网络异常行为在基于流行空间的特征表达上与正常行为具有显著差异。然后利用无标签网络行为数据样本和有标签的网络异常行为数据样本对整个网络(由特征编码网络和异常打分网络组成的网络)进行端到端的训练,以联合优化特征编码网络的重建误差和整个网络的异常打分。联合优化后,网络正常行为与异常行为能够得到有效区分,从而帮助系统获得优异的网络异常行为检测性能。

Description

一种基于行为特征编码的半监督网络异常行为检测方法
技术领域
本发明属于网络安全技术领域,尤其涉及一种基于行为特征编码的半监督网络异常行为检测方法。
背景技术
网络异常行为检测是网络安全领域的重要研究内容。企业管理系统、银行支付系统、物联网工控系统等应用场景中常常存在网络异常行为,可能对网络系统的安全性和稳定性造成威胁。网络异常行为主要是网络攻击(例如拒绝服务攻击、端口扫描等)导致的。在对网络异常行为进行异常检测时,可以根据其连接属性、内容特征、流量统计特征等进行分析得到相关特征属性描述。由于网络异常行为与正常行为的产生原因和行为特征不同,因此往往与正常行为表现出一定的偏差。由于网络异常行为往往是难以预测的,且实际的网络系统中的数据量通常十分庞大,因此实际应用场景中需要建立相应的异常检测系统进行网络异常行为的检测,从而及时发现并快速响应,减少或避免损失。现有异常检测系统通常基于机器学习模型进行构建(以行为特征作为输入),这类异常检测系统需要基于丰富的有标注的异常数据进行训练来达到较好的异常检测性能。然而在实际应用场景中,获取大量有标注的异常数据通常是十分困难的。
现有技术中无监督学习方法试图建立用于描述正常数据的模型,将正常样本和异常样本映射到不同区域。但由于其未对有标签的异常样本进行学习,因此无法学习到有关异常的先验知识,导致难以达到很好的效果。
现有的有监督/半监督学习方法虽然利用了极少量有标签异常数据中的先验信息,但由于学习过程中很容易对这些极少量的异常数据产生过拟合,故很难直接训练好一个有效的异常检测器。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于行为特征编码的半监督网络异常行为检测方法,克服了难以获取大量有标注异常数据带来的困难、解决了由于不对有标签的异常样本进行学习导致的缺乏关于异常的先验知识的问题、解决了半监督算法中存在的对异常样本过拟合严重的问题。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于行为特征编码的半监督网络异常行为检测方法,包括以下步骤:
S1、构建基于自动编码器的无监督特征编码网络,并对其进行预训练,将原始网络行为数据样本向量映射至低维流型空间并进行重建,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码;
S2、构建由所述无监督特征编码网络和基于全连接网络的异常打分网络构成的网络异常行为检测系统,将数据样本作为网络异常行为检测系统的输入,其中,所述三种特征编码作为异常打分网络的输入;
S3、获取待检测网络行为数据,利用所述网络异常行为检测系统进行异常检测,并输出异常检测结果,完成基于行为特征编码的半监督网络异常行为检测方法。
进一步地,所述步骤S1中的特征编码网络包括编码器和解码器;
所述编码器,用于将输入的原始网络行为数据样本从原始空间编码至低维的隐空间;
所述解码器,用于将原始网络行为数据样本的隐空间向量解码至原始样本空间,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。
再进一步地,所述步骤S1包括以下步骤:
S101、构建基于自动编码器的无监督特征编码网络,并对特征编码网络的参数进行随机初始化处理;
S102、输入原始网络行为数据样本至无监督特征编码网络,计算得到重建向量;
S103、根据所述重建向量,计算得到重建误差的二范数值作为特征编码网络的重建误差损失,优化特征编码网络的参数;
S104、判断重建误差损失是否低于预设的阈值,若是,则完成对特征编码网络的预训练,并进入步骤S105,否则,返回步骤S102;
S105、根据原始网络行为数据样本向量,利用无监督特征编码网络得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。
再进一步地,所述计算得到重建误差的二范数值作为特征编码网络的重建误差损失的表达式如下:
Lu=||fd(fe(Xi;We);Wd)-Xi||2
其中,Lu表示重建误差的二范数值作为特征编码网络的重建误差损失,Xi表示原始网络行为数据样本,We表示编码器的权重矩阵,fe(·;We)表示编码器,Wd表示解码器的权重矩阵,fd(·;Wd)表示解码器;
所述无监督特征编码网络的表达式如下:
ψ(Xi;Θ)=fd(fe(Xi;We);Wd)
We={W1,W2,...,Ws}
Wd={W'1,W'2,...,W's}
其中,ψ(Xi;Θ)表示特征编码网络,Θ表示特征编码网络参数,Ws表示编码器第s层的网络权重,W's表示解码器第s层的网络权重;
所述隐空间向量q1的表达式如下:
q1=fe(Xi;We)
所述重建残差向量q2的表达式如下:
q2=fd(fe(Xi;We);Wd)-Xi
所述重建残差向量的二范数值q3的表达式如下:
q3=||fd(fe(Xi;We);Wd)-Xi||2
再进一步地,所述步骤S2包括以下步骤:
S201、利用所述无监督特征编码网络以及基于全连接网络的异常打分网络搭建半监督学习的网络异常行为检测系统的架构;
S202、利用无标签训练数据样本和有标签的网络异常行为样本,对无监督特征编码网络和异常打分网络进行端到端的联合优化,所述联合优化过程分为多次迭代,在每次迭代中,将数据样本作为网络异常行为检测系统的输入,将特征编码网络输出的三种特征编码作为异常打分网络的输入,进行对网络异常行为检测系统的训练。
再进一步地,所述步骤S201中异常打分网络的第l层输出的表达式如下:
Figure BDA0002957775720000041
Figure BDA0002957775720000042
其中,Zl表示异常打分网络的第l层输出,l=1,2,...,n-1,Z'l-1表示前一层的输出和q3拼接后的结果作为第l层的输入,Pl和Pl 0分别表示第l层的权重和偏差,
Figure BDA0002957775720000044
表示第l层的权重向量的第k项,zk表示第l-1层的输出向量的第k项,
Figure BDA0002957775720000043
表示在第l层的权重向量最后再拼接一项,ol-1表示异常打分网络中第l-1层的神经元数量,q3表示重建残差向量的二范数值,n表示异常打分网络的总层数;
所述异常打分网络的下一层输入表达式如下:
Figure BDA0002957775720000051
其中,Z'l表示异常打分网络下一层输入,ξ(·)表示向量拼接函数,
Figure BDA0002957775720000052
表示第l层的权重向量的最后一项,
Figure BDA0002957775720000053
表示Z'l的每一项为实数,Zl表示第l层的输出向量;
所述异常打分网络输出的异常分数表达式如下:
Figure BDA0002957775720000054
Figure BDA0002957775720000055
Figure BDA0002957775720000056
其中,sa表示异常打分网络输出的异常分数,Pn和Z'n-1表示异常打分网络最后一层的权重向量和对应的输入向量,
Figure BDA0002957775720000057
表示偏差项,
Figure BDA0002957775720000058
表示权重向量Pn中的第k项,zk表示第n-1层的输出向量的第k项,
Figure BDA0002957775720000059
表示权重向量Pn中第on-1+1项,Zn-1表示异常打分网络倒数第二层的输出向量,
Figure BDA00029577757200000510
表示异常打分网络倒数第二层的输出向量的最后一项。
再进一步地,所述步骤S202包括以下步骤:
S2021、加载预训练后的无监督特征编码网络,对异常打分网络的权重矩阵进行随机初始化处理;
S2022、计算得到联合损失函数;
S2023、根据联合损失,基于梯度下降法更新网络参数;
S2024、根据更新结果,判断损失是否低于阈值,若是,则更新网络异常行为检测系统的参数,完成对特征编码网络和异常打分网络进行端到端的联合优化,否则,返回步骤S2022。
再进一步地,所述步骤S2022中联合损失函数的表达式如下:
Figure BDA0002957775720000061
Figure BDA0002957775720000062
η(qm)=Dh(qm,E(Qm))
其中,
Figure BDA0002957775720000063
表示联合损失函数,λ1、λ2和λ3表示超参数,a0、a1,a2和a3表示预设值,Xi表示原始网络行为数据样本,Θ表示预训练后特征编码网络的参数,U表示异常打分网络的权重矩阵,
Figure BDA0002957775720000064
表示异常打分网络对Xi的异常打分,μc和σc均表示先验参数,q1表示隐空间向量,q2表示重建残差向量,q3表示重建残差向量的二范数值,dev(Xi)表示先验参数μc和σc的z分数,η(·)表示正则化函数,Dh(·,·)表示两个数据对象之间的上确界距离,E(·)表示数据对象的数学期望,qm表示三种特征编码,Qm表示所有正常样本第m种特征编码所对应的随机变量,且m=1,2,3,Ω(·;a)表示使用预设值a的最小值约束。
再进一步地,所述步骤S3包括以下步骤:
S301、获取待检测网络行为数据,利用所述网络异常行为检测系统得到异常分数;
S302、判断所述异常分数是否大于异常打分阈值,若是,则所述待检测网络行为数据为异常样本,否则,为正常样本,完成基于行为特征编码的半监督网络异常行为检测方法。
本发明的有益效果:
(1)本发明设计了一种新颖的特征编码网络来对输入的网络行为数据进行编码,以构建可用于网络异常行为检测的更有效特征表示,即通过基于Auto-encoder的特征编码网络将输入数据样本映射到一个低维的流型空间,得到基于流型空间的三种特征编码表示。
(2)本发明利用大量的无标签网络行为样本和极少量的有标签网络异常行为数据半监督地训练系统以检测异常样本,通过联合优化特征编码网络和异常打分网络实现高效的异常检测。
(3)本发明设计了联合损失函数对网络异常行为检测系统进行端到端联合优化,损失函数能在最小化特征编码网络的重建误差情况下,保证异常打分具有尽可能好的分辨网络正常行为与异常行为的能力。
(4)本发明采用了一种特殊设计的预训练策略。首先,通过无标签网络行为样本对特征编码网络进行预训练,获得基于流型空间的三种特征表示;预训练学习到的特征编码表示有效表达了正常样本的先验分布特征,能够使网络异常行为在基于流行空间的特征表达上与正常行为具有显著差异。然后利用无标签网络行为数据样本和有标签的网络异常行为数据样本对整个网络(由特征编码网络和异常打分网络组成的网络)进行端到端的训练,以联合优化特征编码网络的重建误差和整个网络的异常打分。联合优化后,网络正常行为与异常行为能够得到有效区分,从而帮助系统获得优异的网络异常行为检测性能。
(5)本发明为了有效学习网络行为样本的第三种特征编码(即重建残差向量的二范数值),设计了特殊的网络结构对该一维标量特征编码进行增强学习,从而强化其对网络异常行为检测效果的作用。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
本发明设计了一个基于行为特征编码的半监督网络异常行为检测方法,利用大量的无标签网络行为样本和极少量的有标签网络异常行为样本半监督地训练系统以检测网络异常行为样本(原始样本是利用已有方法得到的关于网络连接基本属性、内容特征、网络流量统计特征的属性描述)。该方法包含两部分,特征编码网络和异常打分网络。在特征编码网络部分,本发明提出了一种新颖的特征编码方法来对输入的网络行为数据样本进行编码,将输入数据样本映射为基于流型空间的三种特征编码(编码结果将一个输入样本映射为三种特征编码表示,具体可表示为两个特征向量和一个标量)。异常打分网络部分基于特征编码网络输出的三种特征编码进行样本的异常打分。异常打分网络设计了特殊的网络结构对一维标量特征编码进行增强学习,从而强化其对异常检测效果的作用。训练过程中首先需要对特征编码网络进行预训练,然后再对整个网络(由特征编码网络和异常打分网络组成的网络)进行端到端的训练。在预训练过程中,基于无标签网络行为数据样本预训练特征编码网络;在端到端训练过程中,基于无标签网络行为数据样本和有标签的网络异常行为数据样本进行联合优化。联合优化所使用的损失函数为本发明中特殊设计的损失函数,用于联合优化特征编码网络的重建误差和整个网络的异常打分。在联合优化后,网络正常行为与异常行为能够得到有效区分,从而得到了优异的网络异常行为检测性能。
如图1所示,本发明提供了一种基于行为特征编码的半监督网络异常行为检测方法,其实现方法如下:
S1、构建基于自动编码器Auto-encoder的无监督特征编码网络,并对其进行预训练,将原始网络行为数据样本向量映射至低维流型空间并进行重建,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码,其实现方法如下:
S101、构建基于自动编码器的无监督特征编码网络,并对特征编码网络的参数进行随机初始化处理;
S102、输入原始网络行为数据样本至无监督特征编码网络,计算得到重建向量;
S103、根据所述重建向量,计算得到重建误差的二范数值作为特征编码网络的重建误差损失,优化特征编码网络的参数;
S104、判断重建误差损失是否低于预设的阈值,若是,则完成对特征编码网络的预训练,并进入步骤S105,否则,返回步骤S102;
S105、根据原始网络行为数据样本向量,利用无监督特征编码网络得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。
本实施例中,特征编码网络包括编码器和解码器;编码器,用于将输入的原始网络行为数据样本从原始空间编码至低维的隐空间;解码器,用于将原始网络行为数据样本的隐空间向量解码为原始样本空间,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码。
S2、构建由所述无监督特征编码网络和基于全连接网络的异常打分网络构成的网络异常行为检测系统,将数据样本作为网络异常行为检测系统的输入,其中,所述三种特征编码作为异常打分网络的输入,其实现方法如下:
S201、利用所述无监督特征编码网络以及基于全连接网络的异常打分网络搭建半监督学习的网络异常行为检测系统的架构;
S202、利用无标签训练数据样本和有标签的网络异常行为样本,对无监督特征编码网络和异常打分网络进行端到端的联合优化,所述联合优化过程分为多次迭代,在每次迭代中,将数据样本作为网络异常行为检测系统的输入,将特征编码网络输出的三种特征编码作为异常打分网络的输入,进行对网络异常行为检测系统的训练,其实现方法如下:
S2021、加载预训练后的无监督特征编码网络,对异常打分网络的权重矩阵进行随机初始化处理;
S2022、计算得到联合损失函数;
S2023、根据联合损失,基于梯度下降法更新网络参数;
S2024、根据更新结果,判断损失是否低于阈值,若是,则更新网络异常行为检测系统的参数,完成对特征编码网络和异常打分网络进行端到端的联合优化,否则,返回步骤S2022;
S3、获取待检测网络行为数据,利用所述网络异常行为检测系统进行异常检测,并输出异常检测结果,完成基于行为特征编码的半监督网络异常行为检测方法,其实现方法如下:
S301、获取待检测网络行为数据,利用所述网络异常行为检测系统得到异常分数;
S302、判断所述异常分数是否大于异常打分阈值,若是,则所述待检测网络行为数据为异常样本,否则,为正常样本,完成基于行为特征编码的半监督网络异常行为检测方法。
本实施例中,基于无监督学习Auto-encoder构建特征编码网络,将原始网络行为数据样本向量映射到一个低维的流型空间,输出编码后的三种特征编码:q1,q2,q3,q1,q2,q3三种特征编码的意义分别为网络行为样本在流型空间的矢量表示、样本基于流型空间的重建至原始样本空间的重建误差向量和重建误差向量的q1,q2,q3具体实现分别为无监督学习Auto-encoder最中间的隐藏层向量、无监督学习Auto-encoder的重建残差向量和重建残差向量的二范数值。基于这三种特征编码,可对样本数据的可能异常类型在流型空间进行有效定义和表示,从而使系统能够有效地区分网络正常行为和异常样本。
本实施例中,特征编码网络
Figure BDA0002957775720000111
基于一个全连接的无监督学习Auto-encoder构建,它包含一个编码器
Figure BDA0002957775720000112
和一个解码器
Figure BDA0002957775720000113
其中,编码器将输入的网络行为数据样本
Figure BDA0002957775720000114
从原始空间
Figure BDA0002957775720000115
编码至低维的隐空间
Figure BDA0002957775720000116
(d<m);解码器将样本的隐空间向量解码回原始样本空间。编码器fe(·;We)是一个
Figure BDA0002957775720000117
层全连接网络,其权重矩阵表示为We={W1,W2,...,Ws},其中,Ws表示编码器第s层的网络权重;解码器fd(·;We)是一个
Figure BDA00029577757200001111
层全连接网络,其权重矩阵为Wd={W'1,W'2,...,W's},其中,W's表示解码器第s层的网络权重。
本实施例中,基于编码器和解码器的特征编码网络
Figure BDA0002957775720000118
可表示为:
ψ(Xi;Θ)=fd(fe(Xi;We);Wd) (1)
给定输入的网络行为数据样本
Figure BDA0002957775720000119
则该样本的隐空间向量,即第一种特征编码表示为:
q1=fe(Xi;We) (2)
其中:q1∈L。
特征编码网络对Xi的重建向量为
Figure BDA00029577757200001110
X'i可进一步基于解码器表示为:
X'i=fd(q1;Wd) (3)
特征编码网络的重建残差向量,即第二种特征编码表示为:
q2=fd(fe(Xi;We);Wd)-Xi (4)
其中:
Figure BDA0002957775720000121
重建残差向量的二范数值,即第三种特征编码表示为:
q3=||fd(fe(Xi;We);Wd)-Xi||2 (5)
其中:
Figure BDA0002957775720000122
本实施例中,使用无标签的网络行为数据样本对特征编码网络进行预训练。预训练过程如下:1.对特征编码网络的参数进行随机初始化。2.输入无标签网络行为数据样本Xi,特征编码网络输出重建向量X'i。3.计算特征编码网络的重建误差损失并优化特征编码网络的参数。4.重复训练过程,直到损失低于阈值ε1并稳定。
本实施例中,构建基于半监督学习的网络异常行为检测系统。
(1)系统架构
系统包含两个网络,即特征编码网络和异常打分网络。特征编码网络构建并输出网络行为数据样本的三种特征编码;异常打分网络基于三种特征编码对样本进行异常打分,根据打分阈值确定输入数据样本是正常样本或异常样本。
异常打分网络
Figure BDA0002957775720000123
是一个n层的全连接网络,其基于特征编码网络输出的Xi的三种特征编码q1,q2,q3,输出对Xi的异常打分sa。异常打分网络对一维的特征编码q3进行增强学习,即将其与每一层中的输出向量结合,从而形成下一层的输入。
异常打分网络的权重表示为U={P1,P2,...,Pn},其中,Pn是最后一层的权重向量,而{P1,P2,...,Pn-1}是其他n-1层的权重,Pn-1表示倒数第二层的权重向量。令Z'0=ξ(Zo,q3)=ξ(q1,q2,q3)表示异常打分网络的输入向量,其中,Zo=ξ(q1,q2),ξ(·)为向量拼接函数。Zl=(z1,z2,...,zol),l=1,2,...,n-1表示异常打分网络第l层的输出,其中,ol表示网络中第l层的神经元数量。Zl可以被进一步表示为
Figure BDA0002957775720000131
其中,
Figure BDA0002957775720000132
Figure BDA0002957775720000133
分别是第l层的权重和偏差。异常打分网络对特征编码q3进行增强学习,即网络下一层的输入Z'l表示为
Figure BDA0002957775720000134
基于异常打分网络最后一层的权重向量
Figure BDA0002957775720000135
和对应的输入向量
Figure BDA0002957775720000136
异常打分网络的输出(即异常分数
Figure BDA0002957775720000137
)表示为:
Figure BDA0002957775720000138
其中,
Figure BDA0002957775720000139
为偏差项。
(2)网络异常行为检测系统的端到端联合优化
基于预训练的特征编码网络,将无标签训练数据样本和少量有标签的网络异常行为样本用于对特征编码网络和异常打分网络的端到端联合优化。优化过程中,将所有无标签的训练样本视为正常样本。联合优化过程如下:1.加载预训练后的特征编码网络参数Θ,对异常打分网络的权重矩阵U进行随机初始化。2.计算联合损失函数。3.根据联合损失,基于梯度下降算法更新系统的参数{Θ,U},直到损失低于阈值ε2并稳定,输出训练后的网络异常行为检测系统的参数。
联合损失函数包括两部分,即损失的先验分量以及损失的正则分量。损失的先验分量定义如下:
Figure BDA00029577757200001310
其中,
Figure BDA00029577757200001311
表示异常打分网络对样本Xi的异常打分,
Figure BDA00029577757200001312
表示基于先验参数μc和σc的z分数(μc和σc默认值分别取0和1),a0为一个预设值。
损失的正则分量基于正则化函数进行定义。设Qm,m=1,2,3表示所有正常样本第m种特征编码所对应的随机变量。定义正则化函数η(·)为:
η(qm)=Dh(qm,E(Qm)) (9)
其中,Dh(·,·)表示表示两个数据对象之间的上确界距离距离,E(·)表示数据对象的数学期望。则E(Q1)是所有无标签训练样本第一种特征编码的平均向量,E(Q2)是对应样本第二种特征编码向量维度的全零向量,E(Q3)是标量值0。
对于前两种特征编码(即{q1,q2})设置h→∞,其中,h表示距离中的常量,即正则化函数η(·)计算样本相应特征编码与E(Qi)(i=1,2)的一范数距离;为最后一种特征编码(即{q3})设置h=2,即正则化函数η(·)计算样本特征编码q3与E(Q3)的上确界距离,此时公式(9)可表示为η(q3)=||q3||2,其中,||·||2表示数据对象的二范数。定义函数:
Ω(·;a)=(1-y)|·|+ymax(0,a-(·)) (10)
则异常打分的先验损失可以表示为:
Figure BDA0002957775720000141
对应三种特征编码的正则化损失可以表示为:
Figure BDA0002957775720000142
则基于公式(11)和(12),网络异常行为检测系统的联合损失可以表示为:
Figure BDA0002957775720000143
其中,λ1、λ2和λ3是超参数(根据实际数据进行调整,默认值均取0.1),a0、a1,a2和a3是预设值(默认值均取5)。
本实施例中,基于训练后的网络异常行为检测系统,对网络行为数据样本进行异常检测。
此步骤过程如下:1.将数据样本作为网络异常行为检测系统的输入,通过训练后的网络模型(包括特征编码网络与异常打分网络)得到此数据样本对应的异常分数。2.基于异常打分的阈值(默认为正常样本所对应异常打分的最大值),判断输入样本是否异常。如果数据样本的异常分数低于此阈值,则认为此数据样本是正常样本;如果数据样本的异常分数高于此阈值,则认为此数据样本是异常样本。

Claims (6)

1.一种基于行为特征编码的半监督网络异常行为检测方法,其特征在于,包括以下步骤:
S1、构建基于自动编码器的无监督特征编码网络,并对其进行预训练,将原始网络行为数据样本向量映射至低维流型空间并进行重建,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码;
S2、构建由所述无监督特征编码网络和基于全连接网络的异常打分网络构成的网络异常行为检测系统,将数据样本作为网络异常行为检测系统的输入,其中,所述三种特征编码作为异常打分网络的输入;
S3、获取待检测网络行为数据,利用所述网络异常行为检测系统进行异常检测,并输出异常检测结果,完成基于行为特征编码的半监督网络异常行为检测方法;
所述步骤S1中的无监督特征编码网络包括编码器和解码器;
所述编码器,用于将输入的原始网络行为数据样本从原始空间编码至低维的隐空间;
所述解码器,用于将原始网络行为数据样本的隐空间向量解码至原始样本空间,得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码;
所述步骤S1包括以下步骤:
S101、构建基于自动编码器的无监督特征编码网络,并对特征编码网络的参数进行随机初始化处理;
S102、输入原始网络行为数据样本至无监督特征编码网络,计算得到重建向量;
S103、根据所述重建向量,计算得到重建误差的二范数值作为特征编码网络的重建误差损失,优化特征编码网络的参数;
S104、判断重建误差损失是否低于预设的阈值,若是,则完成对特征编码网络的预训练,并进入步骤S105,否则,返回步骤S102;
S105、根据原始网络行为数据样本向量,利用无监督特征编码网络得到隐空间向量、重建残差向量和重建残差向量的二范数值三种特征编码;
所述计算得到重建误差的二范数值作为特征编码网络的重建误差损失的表达式如下:
Lu=||fd(fe(Xi;We);Wd)-Xi||2
其中,Lu表示重建误差的二范数值作为特征编码网络的重建误差损失,Xi表示原始网络行为数据样本,We表示编码器的权重矩阵,fe(·;We)表示编码器,Wd表示解码器的权重矩阵,fd(·;Wd)表示解码器;
所述无监督特征编码网络的表达式如下:
ψ(Xi;Θ)=fd(fe(Xi;We);Wd)
We={W1,W2,...,Ws}
Wd={W′1,W′2,...,W′s}
其中,ψ(Xi;Θ)表示特征编码网络,Θ表示特征编码网络参数,Ws表示编码器第s层的网络权重,W′s表示解码器第s层的网络权重;
所述隐空间向量q1的表达式如下:
q1=fe(Xi;We)
所述重建残差向量q2的表达式如下:
q2=fd(fe(Xi;We);Wd)-Xi
所述重建残差向量的二范数值q3的表达式如下:
q3=||fd(fe(Xi;We);Wd)-Xi||2
2.根据权利要求1所述的基于行为特征编码的半监督网络异常行为检测方法,其特征在于,所述步骤S2包括以下步骤:
S201、利用所述无监督特征编码网络以及基于全连接网络的异常打分网络搭建半监督学习的网络异常行为检测系统的架构;
S202、利用无标签训练数据样本和有标签的网络异常行为样本,对无监督特征编码网络和异常打分网络进行端到端的联合优化,所述联合优化过程分为多次迭代,在每次迭代中,将数据样本作为网络异常行为检测系统的输入,将特征编码网络输出的三种特征编码作为异常打分网络的输入,进行对网络异常行为检测系统的训练。
3.根据权利要求2所述的基于行为特征编码的半监督网络异常行为检测方法,其特征在于,所述步骤S201中异常打分网络的第l层输出的表达式如下:
Figure FDA0003210571360000031
Figure FDA0003210571360000032
其中,Zl表示异常打分网络的第l层输出,l=1,2,...,n-1,Z′l-1表示前一层的输出和q3拼接后的结果作为第l层的输入,Pl
Figure FDA0003210571360000033
分别表示第l层的权重和偏差,
Figure FDA0003210571360000034
表示第l层的权重向量的第k项,zk表示第l-1层的输出向量的第k项,
Figure FDA0003210571360000035
表示在第l层的权重向量最后再拼接一项,ol-1表示异常打分网络中第l-1层的神经元数量,q3表示重建残差向量的二范数值,n表示异常打分网络的总层数;
所述异常打分网络的下一层输入表达式如下:
Figure FDA0003210571360000036
其中,Z′l表示异常打分网络下一层输入,ξ(·)表示向量拼接函数,
Figure FDA0003210571360000037
表示第l层的权重向量的最后一项,
Figure FDA0003210571360000038
表示Z′l的每一项为实数,Zl表示第l层的输出向量;
所述异常打分网络输出的异常分数表达式如下:
Figure FDA0003210571360000041
Figure FDA0003210571360000042
Figure FDA0003210571360000043
其中,sa表示异常打分网络输出的异常分数,Pn和Z′n-1表示异常打分网络最后一层的权重向量和对应的输入向量,
Figure FDA0003210571360000044
表示偏差项,
Figure FDA0003210571360000045
表示权重向量Pn中的第k项,zk表示第n-1层的输出向量的第k项,
Figure FDA0003210571360000046
表示权重向量Pn中第on-1+1项,Zn-1表示异常打分网络倒数第二层的输出向量,
Figure FDA0003210571360000047
表示异常打分网络倒数第二层的输出向量的最后一项。
4.根据权利要求3所述的基于行为特征编码的半监督网络异常行为检测方法,其特征在于,所述步骤S202包括以下步骤:
S2021、加载预训练后的无监督特征编码网络,对异常打分网络的权重矩阵进行随机初始化处理;
S2022、计算得到联合损失函数;
S2023、根据联合损失,基于梯度下降法更新网络参数;
S2024、根据更新结果,判断损失是否低于阈值,若是,则更新网络异常行为检测系统的参数,完成对特征编码网络和异常打分网络进行端到端的联合优化,否则,返回步骤S2022。
5.根据权利要求4所述的基于行为特征编码的半监督网络异常行为检测方法,其特征在于,所述步骤S2022中联合损失函数的表达式如下:
Figure FDA0003210571360000048
Figure FDA0003210571360000051
η(qm)=Dh(qm,E(Qm))
其中,
Figure FDA0003210571360000052
表示联合损失函数,λ1、λ2和λ3表示超参数,a0、a1,a2和a3表示预设值,Xi表示原始网络行为数据样本,Θ表示预训练后特征编码网络的参数,U表示异常打分网络的权重矩阵,
Figure FDA0003210571360000053
表示异常打分网络对Xi的异常打分,μc和σc均表示先验参数,q1表示隐空间向量,q2表示重建残差向量,q3表示重建残差向量的二范数值,dev(Xi)表示先验参数μc和σc的z分数,η(·)表示正则化函数,Dh(·,·)表示两个数据对象之间的上确界距离,E(·)表示数据对象的数学期望,qm表示三种特征编码,Qm表示所有正常样本第m种特征编码所对应的随机变量,且m=1,2,3,Ω(·;a)表示使用预设值a的最小值约束。
6.根据权利要求5所述的基于行为特征编码的半监督网络异常行为检测方法,其特征在于,所述步骤S3包括以下步骤:
S301、获取待检测网络行为数据,利用所述网络异常行为检测系统得到异常分数;
S302、判断所述异常分数是否大于异常打分阈值,若是,则所述待检测网络行为数据为异常样本,否则,为正常样本,完成基于行为特征编码的半监督网络异常行为检测方法。
CN202110228338.2A 2021-03-02 2021-03-02 一种基于行为特征编码的半监督网络异常行为检测方法 Active CN113032778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110228338.2A CN113032778B (zh) 2021-03-02 2021-03-02 一种基于行为特征编码的半监督网络异常行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110228338.2A CN113032778B (zh) 2021-03-02 2021-03-02 一种基于行为特征编码的半监督网络异常行为检测方法

Publications (2)

Publication Number Publication Date
CN113032778A CN113032778A (zh) 2021-06-25
CN113032778B true CN113032778B (zh) 2021-09-21

Family

ID=76465239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110228338.2A Active CN113032778B (zh) 2021-03-02 2021-03-02 一种基于行为特征编码的半监督网络异常行为检测方法

Country Status (1)

Country Link
CN (1) CN113032778B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168648B (zh) * 2021-11-11 2024-05-14 中国人民解放军国防科技大学 基于连续监督的鲁棒深度半监督异常检测方法及系统
CN114612936B (zh) * 2022-03-15 2024-08-23 西安电子科技大学 基于背景抑制的无监督异常行为检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271091B (zh) * 2011-09-06 2013-09-25 电子科技大学 一种网络异常事件分类方法
US10346740B2 (en) * 2016-06-01 2019-07-09 Kla-Tencor Corp. Systems and methods incorporating a neural network and a forward physical model for semiconductor applications
CN109145832A (zh) * 2018-08-27 2019-01-04 大连理工大学 基于dsfnn与非局部决策的极化sar图像半监督分类方法
CN109831392B (zh) * 2019-03-04 2020-10-27 中国科学技术大学 半监督网络流量分类方法
CN111585997B (zh) * 2020-04-27 2022-01-14 国家计算机网络与信息安全管理中心 一种基于少量标注数据的网络流量异常检测方法
CN111695598B (zh) * 2020-05-11 2022-04-29 东南大学 一种基于生成对抗网络的监测数据异常诊断方法
CN111710150A (zh) * 2020-05-14 2020-09-25 国网江苏省电力有限公司南京供电分公司 一种基于对抗自编码网络的异常用电数据检测方法
CN112101426B (zh) * 2020-08-26 2022-11-01 东南大学 基于自编码器的无监督学习图像异常检测方法

Also Published As

Publication number Publication date
CN113032778A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110070183B (zh) 一种弱标注数据的神经网络模型训练方法及装置
Ahmadizar et al. Artificial neural network development by means of a novel combination of grammatical evolution and genetic algorithm
CN113032778B (zh) 一种基于行为特征编码的半监督网络异常行为检测方法
CN111626764A (zh) 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
Wu et al. Optimized deep learning framework for water distribution data-driven modeling
CN116015967B (zh) 基于改进鲸鱼算法优化delm的工业互联网入侵检测方法
CN116579505A (zh) 一种无全寿命周期样本的机电设备跨域剩余寿命预测方法及系统
CN113361559A (zh) 基于深宽度联合神经网络的多模态数据知识信息提取方法
CN112269729A (zh) 面向网络购物平台大规模服务器集群的负载智能分析方法
CN106453294A (zh) 基于模糊淘汰机制的小生境技术的安全态势预测方法
CN113762967A (zh) 风险信息确定方法、模型训练方法、设备、程序产品
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
CN116935128A (zh) 一种基于可学习提示的零样本异常图像检测方法
Matsumoto et al. XCSR based on compressed input by deep neural network for high dimensional data
CN116596150A (zh) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法
CN117648950A (zh) 神经网络模型的训练方法、装置、电子设备及存储介质
Haiyan et al. Semi-supervised autoencoder: A joint approach of representation and classification
CN118365192A (zh) 水环境质量遥感分析方法、系统、电子设备及存储介质
CN117724452A (zh) 一种基于图神经网络的工业过程异常检测方法
CN117768164A (zh) 基于SSA和IQPSO优化TCAN-BiGRU的网络安全态势预测方法
CN117375983A (zh) 一种基于改进cnn-lstm的电网虚假数据注入辨识方法
CN112380326A (zh) 一种基于多层感知的问题答案抽取方法及电子装置
CN116739100A (zh) 量子神经网络的漏洞检测方法及自动驾驶漏洞检测方法
CN116647391A (zh) 基于并行自编码器与权重丢弃的网络入侵检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant