CN115514580A - 一种自编码器溯源入侵检测方法及装置 - Google Patents

一种自编码器溯源入侵检测方法及装置 Download PDF

Info

Publication number
CN115514580A
CN115514580A CN202211414142.3A CN202211414142A CN115514580A CN 115514580 A CN115514580 A CN 115514580A CN 202211414142 A CN202211414142 A CN 202211414142A CN 115514580 A CN115514580 A CN 115514580A
Authority
CN
China
Prior art keywords
node
nodes
tracing
behavior
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211414142.3A
Other languages
English (en)
Other versions
CN115514580B (zh
Inventor
张海霞
谢雨来
吴雅锋
冯丹
周潘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211414142.3A priority Critical patent/CN115514580B/zh
Publication of CN115514580A publication Critical patent/CN115514580A/zh
Application granted granted Critical
Publication of CN115514580B publication Critical patent/CN115514580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/126Applying verification of the received information the source of the received data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2463/00Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
    • H04L2463/146Tracing the source of attacks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种自编码器溯源入侵检测方法及装置,根据用户行为的溯源数据构建表示用户行为的溯源图;根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度;将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。本发明能有效解决现有技术难以从海量溯源数据中挖掘分析出异常操作,分析工作量巨大而导致检测效果不佳的问题。

Description

一种自编码器溯源入侵检测方法及装置
技术领域
本发明涉及网络安全技术领域,具体涉及一种基于重叠社区发现的自编码器溯源入侵检测方法及装置。
背景技术
入侵检测技术是网络安全领域中的核心技术之一,该技术收集信息是通过分析那些存在于计算机系统、计算机网络中的关键节点,以此来探查在系统或网络中是否存在违反安全策略的异常行为或者遭遇攻击型的现象,入侵检测作为一种主动防护技术可有效克服传统技术存在的静态防护能力、被动防御等缺陷。
虽然传统的基于溯源的入侵检测方法在一定程度上能够获得良好的检测效果,但随着用户行为逐渐变的多样化,复杂化,这就导致溯源追踪系统收集的溯源数据逐渐增大,这就增加了传统入侵检测方法的分析工作量。不仅如此,目前攻击者擅长将自己的攻击操作隐藏在大量的正常操作中,这就使得这些传统的入侵检测方法难以从海量的溯源数据中挖掘出攻击操作以识别异常行为,同时在分析攻击操作的同时,还需要分析相关的正常操作,这就导致检测效果不佳同时还耗费大量的分析时间。
发明内容
本发明提供一种基于重叠社区发现的自编码器溯源入侵检测方法及装置,以此来解决现有技术难以从海量溯源数据中挖掘分析出异常操作,分析工作量巨大而导致检测效果不佳的问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明提供一种自编码器溯源入侵检测方法,包括:
根据由溯源追踪系统收集的用户行为的溯源数据构建表示用户行为的溯源图;
溯源图中的节点包括:文件、进程、套接字、管道;节点自身拥有不同数目的属性,节点与节点之间存在描述用户操作的依赖关系。
根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度;
将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;
将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
进一步的,所述节点重要度的获取方法,包括:
向溯源图中添加与所有节点都有双向关系的公共节点G,并将对公共节点G的节点依赖度D设为0,其余的节点的节点依赖度D设为1;节点依赖度D用来衡量节点之间的依赖关系;
利用下式进行迭代的更新各节点的D值,直到所有节点的D值稳定不变;
Figure 637013DEST_PATH_IMAGE001
式中的t表示迭代轮次,
Figure 269988DEST_PATH_IMAGE002
表示节点p的子节点集合;
Figure 446761DEST_PATH_IMAGE003
表示节点j的出度;
将收敛状态下公共节点G的D值平分给每一个节点,如下式所示:
Figure 54459DEST_PATH_IMAGE004
式中
Figure 44412DEST_PATH_IMAGE005
表示第i个节点的节点依赖度,
Figure 277816DEST_PATH_IMAGE006
表示最终收敛时第i个节点的节点 依赖度,
Figure 731931DEST_PATH_IMAGE007
表示最终收敛时公共节点G的节点依赖度,
Figure 510532DEST_PATH_IMAGE008
表示最终收敛时的迭代轮次;
利用下式计算溯源图中的每个节点重要度NI:
Figure 50097DEST_PATH_IMAGE009
式中,
Figure 24875DEST_PATH_IMAGE010
为节点p的节点依赖度,
Figure 802339DEST_PATH_IMAGE011
为节点p的属性值,
Figure 300027DEST_PATH_IMAGE012
为节点属性占比。
进一步的,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,包括:
S301,计算所有未标记的节点的平均节点重要度,作为标签传播阈值T;
S302,选择节点重要度NI大于标签传播阈值T的未标记的节点作为备选标记节点,并按照节点重要度NI的大小进行排序;
S303,依次判断每一备选标记节点是否为比其排序靠前的节点的子节点,若不是则将该备选标记节点本身的ID值作为其标签值完成标记;
S304,将标记完成的节点按照节点重要度NI的大小进行排序,并利用标记完成的节点的标签值标记其子节点;重复步骤S304,直至无新增被标记的节点;
S305,判断溯源图中所有节点是否还存在未被标记的节点,若是则跳转至步骤S301,否则按照标签值将所述溯源图划分为多个溯源子图。
进一步的,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,还包括:
判断所述溯源图中的任一节点是否存在父节点且该节点的标签是否与其父节点的标签相同;
若该节点存在父节点且该节点的标签与其父节点的标签不一致,则计算该节点与 与其标签一致的溯源子图的关联度
Figure 795731DEST_PATH_IMAGE013
以及该节点与与其具有不同标签的父节点所在 的溯源子图的关联度
Figure 370937DEST_PATH_IMAGE014
Figure 799645DEST_PATH_IMAGE015
,则新增标签值给该节点,新增的标签值为
Figure 123310DEST_PATH_IMAGE014
对应的 溯源子图的标签值;
所述节点p与溯源子图C之间的关联度Co,如下式所示:
Figure 886735DEST_PATH_IMAGE016
式中,
Figure 750786DEST_PATH_IMAGE017
为溯源子图C中与节点p相邻的所有节点的集合,
Figure 502841DEST_PATH_IMAGE018
为溯源图中与节点p 相邻的所有节点的集合。
进一步的,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列,包括:
将溯源子图中的节点,按照节点重要度由大到小排序,获得前K个节点作为中心节点;
分别对每个中心节点构造邻域,将中心节点放入邻域,再将中心节点的子节点按照节点重要度排序后放入邻域,再依次获取新放入邻域的节点的未被访问过的子节点并按照节点重要度排序后放入邻域,直至没有节点被放入邻域内;
针对每一个邻域,若其大小大于K时,则对于除中心节点外的节点重要度排序前K-1的每一个节点,将其与相邻节点进行聚合并更新其节点重要度;
对于每个中心节点,依次获取邻域内节点的节点重要度得到长度为K的第一序列,若长度不足则以0填充;并按照中心节点在溯源子图中的排序,将第一序列排列得到长度为K*K的第二序列,若长度不足则以0填充,所述第二序列即为溯源子图对应的行为实例序列。
进一步的,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测,包括:
将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征;
利用二分K-means聚类方法对所述行为实例特征进行聚类,得到行为实例特征代表;
根据所述行为实例特征代表与正常行为特征代表的差异性判断用户行为是否为异常行为。
进一步的,根据所述行为实例特征代表与正常行为特征代表的差异性判断用户行为是否为异常行为,包括:
对于用户行为的每一个行为实例特征代表,计算其与规则库中所有行为实例特征代表的余弦距离,若最小的余弦距离大于距离阈值,则该行为实例特征代表所对应的用户行为为异常行为;
所述规则库中的行为特征实例代表为正常用户行为对应的行为实例特征代表。
第二方面,本发明提供一种自编码器溯源入侵检测装置,包括:
预处理模块,根据用户行为的溯源数据构建表示用户行为的溯源图;
行为实例划分模块,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度;
行为实例序列化模块,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;
异常判断模块,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
第三方面,本发明提供一种电子设备,包括:
存储器,用于存储计算机软件程序;
处理器,用于读取并执行所述计算机软件程序,进而实现本发明第一方面所述的一种自编码器溯源入侵检测方法。
第四方面,本发明提供一种非暂态计算机可读存储介质,所述存储介质中存储有用于实现本发明第一方面所述的一种自编码器溯源入侵检测方法的计算机软件程序。
本发明的有益效果是:(1)本发明提出了一种基于重叠社区发现的自编码器溯源入侵检测方法,该方法通过对组成用户行为的行为实例进行分析提取特征,对聚类后的特征进行分析以高效精准的检测异常行为。
(2)本发明通过提出重叠社区划分算法对组成用户行为的行为实例进行准确合理的划分。
(3)本发明通过使用自编码器准确挖掘行为实例的溯源特征,为提高分析效率,对各用户行为中的各行为实例提取的特征进行聚类后对特征代表进行分析,以此完成精准的入侵检测分析。
(4)本发明能够高效精准的通过分析行为实例特征来识别出用户行为类别,同时可以拥有较低的分析时间开销。
附图说明
图1为本发明实施例提供的基于重叠社区发现的自编码器溯源入侵检测方法流程示意图;
图2为本发明实施例提供的重叠社区划分方法流程示意图;
图3为本发明实施例展示的重叠节点的实例图;
图4为本发明实施例提供的对隶属于一个行为实例的序列化方法流程示意图;
图5为本发明实施例提供的卷积神经网络结构示意图;
图6为本发明实施例提供的基于重叠社区发现的自编码器溯源入侵检测装置结构示意图;
图7为本发明实施例提供的电子设备的实施例示意图;
图8为本发明实施例提供的一种计算机可读存储介质的实施例示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的基于重叠社区发现的自编码器溯源入侵检测方法流程示意图。如图1所示,该方法,包括以下步骤:
S100,根据用户行为的溯源数据构建表示用户行为的溯源图。
通过从溯源追踪系统中收集的表示用户行为的溯源信息中提取有用的信息包括节点之间的依赖关系,节点自身的属性个数以形成精简的表示用户行为的溯源图。丢弃那些不必要的溯源信息以减少分析工作量。
S200,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例。
所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度。
节点重要度定义如下:
向溯源图中添加与所有节点都有双向关系的公共节点G,这样我们可以得到一个强连通的新溯源图。然后将对公共节点G的节点依赖度D设为0,其余的节点的节点依赖度D设为1。节点依赖度D用来衡量节点之间的依赖关系。
接着利用下式进行迭代的更新各节点的D值,直到所有节点的D值稳定不变;
Figure 43413DEST_PATH_IMAGE019
(1)
式中的t表示迭代轮次,
Figure 982550DEST_PATH_IMAGE002
表示节点p的子节点集合;
Figure 650292DEST_PATH_IMAGE003
表示节点j的出度(对于 有向图来说,顶点的出边条数称为该顶点的出度,顶点的入边条数称为该顶点的入度)。该 公式表示,一个节点下一轮的依赖度的值为本轮其子节点的依赖度与其出度的比的总和。
然后再将收敛状态下公共节点G的D值平分给每一个节点;如公式(2)所示。其中
Figure 37280DEST_PATH_IMAGE020
表示最终收敛时的迭代轮次。
Figure 765064DEST_PATH_IMAGE004
(2)
式中
Figure 988235DEST_PATH_IMAGE005
表示第i个节点的节点依赖度,
Figure 459668DEST_PATH_IMAGE006
表示最终收敛时第i个节点的节点 依赖度,
Figure 904425DEST_PATH_IMAGE007
表示最终收敛时公共节点G的节点依赖度,
Figure 803110DEST_PATH_IMAGE008
表示最终收敛时的迭代轮次。
当我们计算完节点依赖度D之后,我们再利用公式(3)计算溯源图中的每个节点重要度NI:
Figure 966107DEST_PATH_IMAGE021
(3)
式中,
Figure 444493DEST_PATH_IMAGE010
为节点p的节点依赖度,
Figure 9336DEST_PATH_IMAGE011
为节点p的属性值,
Figure 78923DEST_PATH_IMAGE012
为节点属性占比,该 值经过超参实验调整为:0.375。
根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,如图2所示,包括以下步骤:
S201,标签初始化:利用节点重要度来作为标签传播的依据,将当前未被标记节点的平均节点重要度作为标签传播的阈值T,选择NI值大于阈值T的未被标记节点作为初始被标记节点的备选,然后将其按NI值由大到小排序后,依次判断当前节点是否为当前备选节点中NI值比他大的节点的子节点,若不是则将该节点作为初始被标记节点并将其本身ID值作为其标签值。
S202,广泛标签传播:将已被标记节点按NI由大到小排序后依次将其标签传播至其未被标记的子节点,并将本轮新被标记节点作为下一轮主动传播标签的节点。不断重复此步骤直到没有新增被标记节点为止。
S203,广泛标签传播:在当前阈值下标签传播结束后,为了保证标签传播充分,则继续利用当前未被标记节点的平均节点重要度来更新阈值T,并重复步骤S201、S202,直到更新T没有新被初始化的节点为止。
S204,重叠社区发现:当完成标签传播后,就对重叠社区进行发现。首先判断所述溯源图中的任一节点是否存在父节点且该节点的标签是否与其父节点的标签相同;图3是本发明展示的重叠节点的实例,其中节点7就为重叠节点。
若该节点存在父节点且该节点的标签与其父节点的标签不一致,则计算该节点与 与其标签一致的溯源子图的关联度
Figure 276686DEST_PATH_IMAGE013
以及该节点与与其具有不同标签的父节点所在 的溯源子图的关联度
Figure 17152DEST_PATH_IMAGE014
Figure 718392DEST_PATH_IMAGE015
,则新增标签值给该节点,新增的标签值为
Figure 958880DEST_PATH_IMAGE014
对应的 溯源子图的标签值;
所述节点p与溯源子图C之间的关联度Co,如下式所示:
Figure 893207DEST_PATH_IMAGE022
(4)
式中,
Figure 447816DEST_PATH_IMAGE017
为溯源子图C中与节点p相邻的所有节点的集合,
Figure 269142DEST_PATH_IMAGE018
为溯源图中与节点p 相邻的所有节点的集合。
S300,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列。
在将行为实例送入自编码器训练之前需要将其对应的为非欧空间的溯源子图处理成欧式空间的图序列。将利用节点聚合优化的图序列化算法来序列化溯源子图,同时保证保留重要溯源信息。图4是本发明展示的对隶属于一个行为实例的序列化算法步骤。
首先,将溯源子图中的节点,按照节点重要度由大到小排序,获得前K个节点作为中心节点;
其次,分别对每个中心节点构造邻域,将中心节点放入邻域,再将中心节点的子节点按照节点重要度排序后放入邻域,再依次获取新放入邻域的节点的未被访问过的子节点并按照节点重要度排序后放入邻域,重复此步骤,直至没有节点被放入邻域内;
最后,针对每一个邻域,若其大小大于K时,若直接丢弃超过K的节点则会丢失部分 重要溯源信息,便利用节点聚合来保留溯源信息。对于除中心节点外的节点重要度排序靠 前的K-1的每一个节点,将其与相邻节点进行聚合并更新其节点重要度;即获得当前节点的 子节点且未被作为其他已经聚合的节点的子节点的平均节点重要度,然后将该值与当前节 点的节点重要度相加以更新当前节点的节点重要度。如公式(5)所示,一个节点的新节点重 要度
Figure 929799DEST_PATH_IMAGE023
等于该节点的原始节点重要度
Figure 836575DEST_PATH_IMAGE024
与其相邻子节点的平均节点重要度相加。
Figure 257192DEST_PATH_IMAGE025
(5)
对于每个中心节点,依次获取邻域内节点的节点重要度得到长度为K的第一序列,若长度不足则以0填充;并按照中心节点在溯源子图中的排序,将第一序列排列得到长度为K*K的第二序列,若长度不足则以0填充,所述第二序列即为溯源子图对应的行为实例序列。K值通过超参实验调整为:16。
S400,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
自编码器相较于其他网络能够进行无监督学习,且善于学习非线性特征的特点,因此设计自编码器模型来提取行为实例特征,并为减少分析时间,利用二分K-means聚类方法对行为实例特征进行聚类,对聚类后的行为实例特征进行分析来完成异常行为检测。图5是本发明实时提供的卷积神经网络设计图。
自编码器的编码器由3层“卷积-池化”层,每一层使用SELU激活函数来完成非线性 变换,增强模型的表达。在编码器之后增加一层dropout层以避免过拟合,增强泛化能力。解 码器由3层“卷积-上采样”层组成对特征图进行放大。通过训练自编码器来重建输入,通过 计算输入与输出之间的均方根误差(RMSE)作为损失函数,并使用Adam优化器反向调优。假 设输出为
Figure 933024DEST_PATH_IMAGE026
,原始输入为
Figure 764583DEST_PATH_IMAGE027
。RMSE的计算公式(6)所示。
Figure 158655DEST_PATH_IMAGE028
(6)
训练阶段
本实施例使用正常用户行为作为训练数据集,通过前序步骤获得组成各用户行为的行为实例序列送入自编码器中进行模型训练,通过不断的减小重构误差来调整模型参数从而得到优良的模型。
测试阶段
本发明使用正常用户行为作为规则数据集,通过前序步骤获得组成各用户行为的行为实例序列送入训练好的自编码器模型,并获得编码器的输出作为各行为实例的特征,然后利用二分k-means聚类对各用户行为中的行为实例特征进行聚类获得特征代表作为规则库。本发明将用于获得误报率的正常数据集命名为测试集1,将用于获得检测率的异常数据集命名为测试集2。将这两个测试集分别通过以上步骤获得各用户行为的行为实例特征代表,通过对各个行为实例代表分析来完成用户行为类别分析。
针对每个行为实例特征代表,计算其与规则库中所有的特征代表的余弦距离D,计算公式如(7)所示。
Figure 320646DEST_PATH_IMAGE029
(7)
余弦距离越小则表示两者之间的差异越小。若一个行为实例特征代表与规则库中 代表的最小的余弦距离
Figure 365832DEST_PATH_IMAGE030
仍大于预设阈值,则说明该行为实例特征代表为异常,那么即 可判断整个用户行为为异常。
通过使用余弦距离判断两个特征代表之间的差异性,余弦距离越大表示两个特征代表之间的差异越大。对于一个用户行为来说,当存在一个特征代表被判定为异常则说明整个用户行为为异常。判断一个特征代表是否为异常,则将其与规则库中所有的特征代表进行比对,当其与规则库中最小的余弦距离仍大于阈值,则说明该特征代表为异常,则可判断整个用户行为为异常,否则只有当所有的特征代表都为正常才可说明整个用户行为为正常。
为了节约判断用户行为的时间,则可通过判断一个用户行为中的各行为实例特征 代表的
Figure 56707DEST_PATH_IMAGE030
中的最大值
Figure 203655DEST_PATH_IMAGE031
是否大于阈值,若该值大于阈值则说明用户行为中存 在异常行为实例,即该用户行为为异常行为,否则可判断该行为是正常行为。
其中,阈值通过根据获得的检测效果自适应的调整以便获得最优检测效果。本发明针对阈值使用自适应动态调整,阈值初值为测试集2中最小余弦距离,此时可以保证检测出所有的异常行为,为了使综合的检测效果最好即尽可能的正确判断用户行为类别,可将阈值进行自增或自减,即当将阈值增加后正确判断用户行为类别的个数反而减少,则将阈值自减后可得到最佳阈值。
检测阶段
将所述行为实例序列输入到以训练好的自编码器模型中提取行为实例特征;
利用二分K-means聚类方法对所述行为实例特征进行聚类,得到行为实例特征代表;
根据所述行为实例特征代表与正常行为特征代表的差异性判断用户行为是否为异常行为。
对于用户行为的每一个行为实例特征代表,计算其与规则库中所有行为实例特征代表的余弦距离,若最小的余弦距离大于距离阈值,则该行为实例特征代表所对应的用户行为为异常行为。这里的距离阈值为测试阶段经过调整后得到的最佳阈值。
在上述实施例的基础上,本发明实施例还提供一种基于重叠社区发现的自编码器溯源入侵检测装置,如图6所示,该装置包括:
预处理模块,根据用户行为的溯源数据构建表示用户行为的溯源图;
行为实例划分模块,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度;
行为实例序列化模块,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;
异常判断模块,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
请参阅图7,图7为本发明实施例提供的电子设备的实施例示意图。如图7所示,本发明实施例提了一种电子设备500,包括存储器510、处理器520及存储在存储器520上并可在处理器520上运行的计算机程序511,处理器520执行计算机程序511时实现以下步骤:
S100,根据用户行为的溯源数据构建表示用户行为的溯源图;
S200,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;
S300,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;
S400,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
请参阅图8,图8为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图8所示,本实施例提供了一种计算机可读存储介质600,其上存储有计算机程序611,该计算机程序611被处理器执行时实现如下步骤:
S100,根据用户行为的溯源数据构建表示用户行为的溯源图;
S200,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;
S300,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;
S400,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种自编码器溯源入侵检测方法,其特征在于,包括:
根据用户行为的溯源数据构建表示用户行为的溯源图;
根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度;
将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;
将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
2.根据权利要求1所述的方法,其特征在于,所述节点重要度的获取方法,包括:
向溯源图中添加与所有节点都有双向关系的公共节点G,并将对公共节点G的节点依赖度D设为0,其余的节点的节点依赖度D设为1;节点依赖度D用来衡量节点之间的依赖关系;
利用下式进行迭代的更新各节点的D值,直到所有节点的D值稳定不变;
Figure 801180DEST_PATH_IMAGE001
式中的t表示迭代轮次,
Figure 577506DEST_PATH_IMAGE002
表示节点p的子节点集合;
Figure 264839DEST_PATH_IMAGE003
表示节点j的出度;
将收敛状态下公共节点G的D值平分给每一个节点,如下式所示:
Figure 717686DEST_PATH_IMAGE004
式中
Figure 998626DEST_PATH_IMAGE005
表示第i个节点的节点依赖度,
Figure 703277DEST_PATH_IMAGE006
表示最终收敛时第i个节点的节点依赖 度,
Figure 369750DEST_PATH_IMAGE007
表示最终收敛时公共节点G的节点依赖度,
Figure 868865DEST_PATH_IMAGE008
表示最终收敛时的迭代轮次;
利用下式计算溯源图中的每个节点重要度NI:
Figure 637101DEST_PATH_IMAGE009
式中,
Figure 614284DEST_PATH_IMAGE010
为节点p的节点依赖度,
Figure 394984DEST_PATH_IMAGE011
为节点p的属性值,
Figure 205945DEST_PATH_IMAGE012
为节点属性占比。
3.根据权利要求1所述的方法,其特征在于,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,包括:
S301,计算所有未标记的节点的平均节点重要度,作为标签传播阈值T;
S302,选择节点重要度NI大于标签传播阈值T的未标记的节点作为备选标记节点,并按照节点重要度NI的大小进行排序;
S303,依次判断每一备选标记节点是否为比其排序靠前的节点的子节点,若不是则将该备选标记节点本身的ID值作为其标签值完成标记;
S304,将标记完成的节点按照节点重要度NI的大小进行排序,并利用标记完成的节点的标签值标记其子节点;重复步骤S304,直至无新增被标记的节点;
S305,判断溯源图中所有节点是否还存在未被标记的节点,若是则跳转至步骤S301,否则按照标签值将所述溯源图划分为多个溯源子图。
4.根据权利要求3所述的方法,其特征在于,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,还包括:
判断所述溯源图中的任一节点是否存在父节点且该节点的标签是否与其父节点的标签相同;
若该节点存在父节点且该节点的标签与其父节点的标签不一致,则计算该节点与与其 标签一致的溯源子图的关联度
Figure 320531DEST_PATH_IMAGE013
以及该节点与与其具有不同标签的父节点所在的溯 源子图的关联度
Figure 226039DEST_PATH_IMAGE014
Figure 742471DEST_PATH_IMAGE015
,则新增标签值给该节点,新增的标签值为
Figure 724334DEST_PATH_IMAGE014
对应的溯源 子图的标签值;
所述节点p与溯源子图C之间的关联度Co,如下式所示:
Figure 326217DEST_PATH_IMAGE016
式中,
Figure 35415DEST_PATH_IMAGE017
为溯源子图C中与节点p相邻的所有节点的集合,
Figure 406354DEST_PATH_IMAGE018
为溯源图中与节点p相邻 的所有节点的集合。
5.根据权利要求1所述的方法,其特征在于,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列,包括:
将溯源子图中的节点,按照节点重要度由大到小排序,获得前K个节点作为中心节点;
分别对每个中心节点构造邻域,将中心节点放入邻域,再将中心节点的子节点按照节点重要度排序后放入邻域,再依次获取新放入邻域的节点的未被访问过的子节点并按照节点重要度排序后放入邻域,直至没有节点被放入邻域内;
针对每一个邻域,若其大小大于K时,则对于除中心节点外的节点重要度排序前K-1的每一个节点,将其与相邻节点进行聚合并更新其节点重要度;
对于每个中心节点,依次获取邻域内节点的节点重要度得到长度为K的第一序列,若长度不足则以0填充;并按照中心节点在溯源子图中的排序,将第一序列排列得到长度为K*K的第二序列,若长度不足则以0填充,所述第二序列即为溯源子图对应的行为实例序列。
6.根据权利要求1所述的方法,其特征在于,其特征在于,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测,包括:
将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征;
利用二分K-means聚类方法对所述行为实例特征进行聚类,得到行为实例特征代表;
根据所述行为实例特征代表与正常行为特征代表的差异性判断用户行为是否为异常行为。
7.根据权利要求6所述的方法,其特征在于,根据所述行为实例特征代表与正常行为特征代表的差异性判断用户行为是否为异常行为,包括:
对于用户行为的每一个行为实例特征代表,计算其与规则库中所有行为实例特征代表的余弦距离,若最小的余弦距离大于距离阈值,则该行为实例特征代表所对应的用户行为为异常行为;
所述规则库中的行为特征实例代表为正常用户行为对应的行为实例特征代表。
8.一种自编码器溯源入侵检测装置,其特征在于,包括:
预处理模块,根据用户行为的溯源数据构建表示用户行为的溯源图;
行为实例划分模块,根据溯源图中各个节点的节点重要度将所述溯源图划分为多个溯源子图,每个溯源子图代表用户的一个行为实例;所述节点重要度通过节点间的依赖关系以及节点自身的属性个数来度量节点在溯源图中的重要程度;
行为实例序列化模块,将非欧空间的溯源子图转变为欧式空间的图序列,得到行为实例序列;
异常判断模块,将所述行为实例序列输入到预先训练好的自编码器模型中提取行为实例特征并进行异常行为检测。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机软件程序;
处理器,用于读取并执行所述计算机软件程序,进而实现权利要求1-7任一项所述的一种自编码器溯源入侵检测方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述存储介质中存储有用于实现权利要求1-7任一项所述的一种自编码器溯源入侵检测方法的计算机软件程序。
CN202211414142.3A 2022-11-11 2022-11-11 一种自编码器溯源入侵检测方法及装置 Active CN115514580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211414142.3A CN115514580B (zh) 2022-11-11 2022-11-11 一种自编码器溯源入侵检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211414142.3A CN115514580B (zh) 2022-11-11 2022-11-11 一种自编码器溯源入侵检测方法及装置

Publications (2)

Publication Number Publication Date
CN115514580A true CN115514580A (zh) 2022-12-23
CN115514580B CN115514580B (zh) 2023-04-07

Family

ID=84513697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211414142.3A Active CN115514580B (zh) 2022-11-11 2022-11-11 一种自编码器溯源入侵检测方法及装置

Country Status (1)

Country Link
CN (1) CN115514580B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150268992A1 (en) * 2014-03-21 2015-09-24 Oracle International Corporation Runtime handling of task dependencies using dependence graphs
CN106027529A (zh) * 2016-05-25 2016-10-12 华中科技大学 一种基于溯源信息的入侵检测系统及方法
CN107403091A (zh) * 2017-07-06 2017-11-28 华中科技大学 一种结合溯源路径和溯源图的实时入侵检测系统
US20180316707A1 (en) * 2017-04-26 2018-11-01 Elasticsearch B.V. Clustering and Outlier Detection in Anomaly and Causation Detection for Computing Environments
US20210067527A1 (en) * 2019-08-28 2021-03-04 Nec Laboratories America, Inc. Structural graph neural networks for suspicious event detection
CN112528279A (zh) * 2020-12-15 2021-03-19 华中科技大学 一种入侵检测模型的建立方法和装置
CN113259176A (zh) * 2021-06-11 2021-08-13 长扬科技(北京)有限公司 一种告警事件分析方法和装置
CN113612749A (zh) * 2021-07-27 2021-11-05 华中科技大学 一种面向入侵行为的溯源数据聚类方法及装置
CN114207573A (zh) * 2020-03-20 2022-03-18 清华大学 基于度分布生成模型的社交网络图生成方法
CN114238958A (zh) * 2021-12-15 2022-03-25 华中科技大学 一种基于溯源聚类及图序列化的入侵检测方法及系统
CN114637892A (zh) * 2022-01-28 2022-06-17 中国科学院信息工程研究所 用于攻击调查和还原的系统日志依赖图的概要图生成方法
CN114710344A (zh) * 2022-03-30 2022-07-05 华中科技大学 一种基于溯源图的入侵检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150268992A1 (en) * 2014-03-21 2015-09-24 Oracle International Corporation Runtime handling of task dependencies using dependence graphs
CN106027529A (zh) * 2016-05-25 2016-10-12 华中科技大学 一种基于溯源信息的入侵检测系统及方法
US20180316707A1 (en) * 2017-04-26 2018-11-01 Elasticsearch B.V. Clustering and Outlier Detection in Anomaly and Causation Detection for Computing Environments
CN107403091A (zh) * 2017-07-06 2017-11-28 华中科技大学 一种结合溯源路径和溯源图的实时入侵检测系统
US20210067527A1 (en) * 2019-08-28 2021-03-04 Nec Laboratories America, Inc. Structural graph neural networks for suspicious event detection
CN114207573A (zh) * 2020-03-20 2022-03-18 清华大学 基于度分布生成模型的社交网络图生成方法
CN112528279A (zh) * 2020-12-15 2021-03-19 华中科技大学 一种入侵检测模型的建立方法和装置
CN113259176A (zh) * 2021-06-11 2021-08-13 长扬科技(北京)有限公司 一种告警事件分析方法和装置
CN113612749A (zh) * 2021-07-27 2021-11-05 华中科技大学 一种面向入侵行为的溯源数据聚类方法及装置
CN114238958A (zh) * 2021-12-15 2022-03-25 华中科技大学 一种基于溯源聚类及图序列化的入侵检测方法及系统
CN114637892A (zh) * 2022-01-28 2022-06-17 中国科学院信息工程研究所 用于攻击调查和还原的系统日志依赖图的概要图生成方法
CN114710344A (zh) * 2022-03-30 2022-07-05 华中科技大学 一种基于溯源图的入侵检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PARMEET KAUR: "Outlier Detection Using Kmeans and Fuzzy Min Max Neural Network in Network Data", 《2016 8TH INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND COMMUNICATION NETWORKS (CICN)》 *
梁稚媛: "基于溯源数据处理优化的入侵检测方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》 *

Also Published As

Publication number Publication date
CN115514580B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109685647B (zh) 信贷欺诈检测方法及其模型的训练方法、装置和服务器
Folino et al. An evolutionary multiobjective approach for community discovery in dynamic networks
CN116756327B (zh) 基于知识推断的威胁情报关系抽取方法、装置和电子设备
Qiao et al. Dynamic community evolution analysis framework for large-scale complex networks based on strong and weak events
Kamal et al. Smart outlier detection of wireless sensor network
CN115293919A (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
Lawrence et al. Explaining neural matrix factorization with gradient rollback
CN114781688A (zh) 业扩项目的异常数据的识别方法、装置、设备及存储介质
CN111310185B (zh) 一种基于改进stacking算法的Android恶意软件检测方法
CN115514580B (zh) 一种自编码器溯源入侵检测方法及装置
CN114139636B (zh) 异常作业处理方法及装置
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN114971110A (zh) 一种根因组合确定的方法、相关装置、设备以及存储介质
CN112765489A (zh) 一种社交网络链路预测方法及系统
Sun et al. Reinforced Contrastive Graph Neural Networks (RCGNN) for Anomaly Detection
CN111144540A (zh) 反窃电仿真数据集的生成方法
Lv et al. CEP rule extraction framework based on evolutionary algorithm
Njah et al. A new equilibrium criterion for learning the cardinality of latent variables
CN116245610B (zh) 一种基于蒙特卡洛方法和轻量化图神经网络的图书精排方法
CN116842073B (zh) 图数据的挖掘方法、装置和电子设备
US11609936B2 (en) Graph data processing method, device, and computer program product
CN116910769B (zh) 资产漏洞分析方法、装置和可读存储介质
CN115118452A (zh) 恶意代码的检测模型处理方法、检测方法和装置
JP7026922B1 (ja) 情報処理装置、方法、プログラム及びシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant