CN115065556A - 一种基于图对比学习的日志恶意行为检测方法及系统 - Google Patents
一种基于图对比学习的日志恶意行为检测方法及系统 Download PDFInfo
- Publication number
- CN115065556A CN115065556A CN202210898807.6A CN202210898807A CN115065556A CN 115065556 A CN115065556 A CN 115065556A CN 202210898807 A CN202210898807 A CN 202210898807A CN 115065556 A CN115065556 A CN 115065556A
- Authority
- CN
- China
- Prior art keywords
- log
- node
- nodes
- abnormal
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于图对比学习的日志恶意行为检测方法及系统,属于日志行为检测技术领域。现有技术,利用所有的日志数据进行知识图谱的构建,需要消耗大量的储存资源以及计算资源,不利于日志检测的推广使用。本发明的一种基于图对比学习的日志恶意行为检测方法,通过构建聚集图模型、溯源图模型、样本生成模型、深度图神经网络模型GCN,利用一个节点表征多个日志行,从而得到未知节点的标签,实现日志恶意行为检测,能够有效减少储存资源以及计算资源的占用,恶意检测成功率高,利于日志检测的推广使用,便于日志行为检测的落地应用;同时能有效减少对大体量日志数据的依赖,通用性好,使用范围广,方案科学、合理。
Description
技术领域
本发明涉及一种基于图对比学习的日志恶意行为检测方法及系统,属于日志行为检测技术领域。
背景技术
随着网络安全与数据处理技术的不断进步,网络设备日志的记录范围在不断扩大。这些日志中记录了受关注的实体(例如ip地址或用户)的关系和动作,是利用异常检测技术进行恶意行为检测的重要数据支撑。
传统日志检测方法依靠管理员手动分析日志文本,这种过程需要大量的人力成本,并要求系统管理员了解网络环境,熟练掌握系统架构。为了能够高效、实时检测网络日志,日志异常检测技术的应用不断增多。
中国专利(公布号:CN112291261A)一种知识图谱驱动的网络安全日志审计分析方法,包括以下步骤:S1、配备网络安全审计设备;S2、获取网络安全审计设备的日志数据;S3、实现网络日志的知识抽取;S4、获取网络安全等级测评数据;S5、将等级测评数据和等级保护定级备案数据进行数据整合;S6、构建网络安全日志知识图谱;S7、构建网络安全等级保护日志知识图谱;S8、构建节点,对所有实时数据进行区分编号;S9、将网络日志与网络安全等级保护日志知识图谱比对。上述发明能实现网络日志的高效关联和深度挖掘分析,同时通过实时数据与图谱内数据的比对分析,可以不需要对问题进行精确建模而在数据上直接进行分析和处理,适用于进行网络安全日志的大数据分析。
上述方案,通过知识推理和知识融合,针对日志中解析的结构化字段进行本体构建和数据增益,形成网络安全日志知识图谱,但利用所有的日志数据进行网络安全日志知识图谱的构建,需要消耗大量的储存资源以及计算资源,为日志行为检测的落地应用带来了阻碍,不利于日志检测的推广使用。
进一步,上述方案网络安全日志知识图谱以及网络安全等级保护日志知识图谱过度依赖日志数据的体量。而真实应用场景中的中小组织往往不具备收集完整网络日志的能力,其通常只有若干种甚至一种单一的网络日志数据,例如网关日志、防火墙日志等,导致上述检测方法无法在一些真实场景中应用,通用性差,使用范围窄。
发明内容
针对现有技术的缺陷,本发明的目的一在于提供一种通过构建聚集图模型、溯源图模型、样本生成模型、深度图神经网络模型GCN,利用一个节点表征多个日志行,并得到日志行中的数据特征,从而得到未知节点的标签,实现日志恶意行为检测,能够有效减少储存资源以及计算资源的占用,利于日志检测的推广使用,便于日志行为检测的落地应用;同时能有效减少对大体量日志数据的依赖,可以适用于网关日志、防火墙日志等场合,通用性好,使用范围广,方案科学、合理的基于图对比学习的日志恶意行为检测方法及系统。
本发明的目的二在于提供一种通过构建聚集图模型,能够利用一个节点表征多个日志行,进而使得计算量级降低了约一个数量级,有效降低图结构的体量,并且可以大量缩减图数据的储存空间开销,同时在深度学习训练的过程中也极大地减少了需要计算的节点数目,进而有效缩减储存资源与计算资源的基于图对比学习的日志恶意行为检测方法。
本发明的目的三在于提供一种通过溯源图模型,能够面向不同类型的日志数据,并构建邻接矩阵或/和异常矩阵,表征日志行中的数据特征,从而在不引入先验知识以及大体量日志数据的前提下,能将日志中值得关注的关键信息提取出来,进而能够在各种真实场景中的使用,有效降低了人员、数据完备性等方面门槛,并且能够摆脱现有方法对专家知识的依赖,扩大了本发明的适用范围的基于图对比学习的日志恶意行为检测方法。
本发明的目的四在于提供一种通过样本生成模型,构建边扰动负样本和异常子图负样本,极大地扩充了模型训练过程中的负样本数目,缓解了异常检测场景中正负样本分布不均的问题,进而能够适用于只拥有单一网络日志的中小组织等典型的真实应用场景的基于图对比学习的日志恶意行为检测方法。
本发明的目的五在于提供一种通过构建聚集溯源图模型、深度图神经网络模型GCN,利用一个节点表征多个日志行,并得到日志行中的数据特征,从而得到未知节点的标签,实现日志恶意行为检测,能够有效减少储存资源以及计算资源的占用,恶意检测成功率高,利于日志检测的推广使用,便于日志行为检测的落地应用;同时能有效减少对大体量日志数据的依赖,可以适用于网关日志、防火墙日志等场合,通用性好,使用范围广,方案科学、合理的基于图对比学习的日志恶意行为检测方法及系统。
为实现上述目的之一,本发明的第一种技术方案为:
一种基于图对比学习的日志恶意行为检测方法,
包括以下步骤:
第一步,获取网络日志数据;
所述网络日志数据包括若干日志行;
第二步,根据第一步中的若干日志行,构建聚集图模型;
所述聚集图模型,利用一个节点表征多个日志行,其构建方法如下:
步骤21,获取同一或多个自然日中发生的具有访问行为的若干日志行;
步骤22,根据节点定义规则,将步骤21中的若干日志行进行计算,得到一个或多个节点,所述节点为正常访问节点或/和异常节点;
步骤23,根据共性特点,将步骤22中的多个节点,取并集,得到节点集合;
第三步,利用第二步中的节点,构建溯源图模型,用于表征日志行中的数据特征;
溯源图模型的构建方法如下:
步骤31,构建节点连接单元,对节点集合内的节点添加边链接,得到边链接节点数据;
步骤32,根据步骤31中的边链接节点数据,构造邻接矩阵或/和异常矩阵,得到日志行中的数据特征;
第四步,根据第三步中的数据特征,构建样本生成模型;
所述样本生成模型,用于得到边扰动负样本或/和异常子图负样本;
第五步,利用第三步中的边扰动负样本或/和异常子图负样本,构建深度图神经网络模型GCN;
所述深度图神经网络模型GCN,用于得到未知节点的标签,实现日志恶意行为检测,其构建方法如下;
步骤51,对边扰动负样本或/和异常子图负样本进行节点嵌入,得到日志特征序列;
步骤52,将已知的正常访问节点或异常节点作为测试节点,与步骤51中的日志特征序列进行判别,得到测试节点的行为识别结果;
步骤53,根据步骤52中的行为识别结果,确定测试节点属于恶意行为或正常行为,并输出相应的标签;
步骤54,对步骤53中的标签准确性进行判定,当标签准确率达到设定值时,完成深度图神经网络模型GCN的训练。
本发明经过不断探索以及试验,通过构建聚集图模型、溯源图模型、样本生成模型、深度图神经网络模型GCN,利用一个节点表征多个日志行,并得到日志行中的数据特征,从而得到未知节点的标签,实现日志恶意行为检测,能够有效减少储存资源以及计算资源的占用,恶意检测成功率高,利于日志检测的推广使用,便于日志行为检测的落地应用;同时能有效减少对大体量日志数据的依赖,可以适用于网关日志、防火墙日志等场合,通用性好,使用范围广,方案科学、合理。
进一步,本发明的聚集图模型利用一个节点表征多个日志行,相较于现有的针对日志行单独分析的检测方法,本发明的计算量级降低了约一个数量级,有效降低图结构的体量,可以大量缩减图数据的储存空间开销,同时在深度学习训练的过程中也极大地减少了需要计算的节点数目,进而有效缩减本发明所需求的储存资源与计算资源。
更进一步,本发明的溯源图模型,面向不同类型的日志数据,通过构建邻接矩阵或/和异常矩阵,表征日志行中的数据特征,从而使得本发明在不引入先验知识以及大体量日志数据的前提下,能将日志中值得关注的关键信息提取出来,进而本发明能够在各种真实场景中的使用,有效降低了人员、数据完备性等方面门槛,并且能够摆脱现有方法对专家知识的依赖,扩大了本发明的适用范围。
再进一步,本发明的样本生成模型通过构建边扰动负样本和异常子图负样本,极大地扩充了模型训练过程中的负样本数目,缓解了异常检测场景中正负样本分布不均的问题,使得本发明能够适用于只拥有单一网络日志的中小组织等典型的真实应用场景。
所述设定值可根据实际情况进行选择,一般取值为80%-95%。
作为优选技术措施:
所述第一步中,日志行为七元组结构,其包括访问起点实体、起点直接特征、访问终点实体、终点直接特征、访问类型、类型直接特征、访问发生时间;
作为优选技术措施:
所述第二步,节点定义规则包括以下内容:
将拥有共同访问起点实体,并且发生的时间属于同一自然日的若干日志行设置为正常访问节点;
将初始状态异常的若干日志行设置为异常节点,所述异常节点能通过已有的数据获取。
作为优选技术措施:
所述第三步中,节点连接单元包括节点链接规则、起点实体规则、直接特征规则、终点实体规则、访问类型规则;
节点链接规则包括以下内容:
首先,对于节点集合内的所有的节点,依据其所代表的日志行集合的最早发生时间排列,得到第一节点序列;
然后,对第一节点序列中的节点依次按时间方向添加边链接;
起点实体规则包括以下内容:
然后,对第二节点序列中的节点依次按时间方向添加边链接;
直接特征规则包括以下内容:
然后,对第三节点序列中的节点依次按时间方向添加边链接;
终点实体规则包括以下内容:
然后,对第四节点序列中的节点依次按时间方向添加边链接;
访问类型规则包括以下内容:
然后,对第五节点序列中的节点依次按时间方向添加边链接;
所述邻接矩阵或/和异常矩阵为表示节点间连接关系的二维数组。
作为优选技术措施:
所述第四步中,样本生成模型包括边扰动负样本构建单元、异常子图负样本构建单元;
边扰动负样本构建单元包括以下内容:
步骤41,获取溯源图模型的邻接矩阵;
步骤42,对步骤41中的邻接矩阵,进行随机的两两行交换,得到交换矩阵,交换次数为矩阵行数目的一半;
步骤43,对步骤42中的交换矩阵,赋值原有节点属性,得到边扰动负样本;
异常子图负样本构建单元包括以下内容:
S41,提取溯源图模型中的异常矩阵,
所述异常矩阵,用于表征恶意实体的行为;
S42,将S41中的异常矩阵转化为新的子图;
S43,提取S42中的新的子图,得到异常子图负样本。
作为优选技术措施:
所述第五步,行为识别结果的得到方法如下:
S51,对日志特征序列以及测试节点进行平均采样,获取平均嵌入结果;
S52,通过两个神经网络分别对S51中的平均嵌入结果进行卷积,得到两个日志行为输出结果;
S53,将S52中的两个日志行为输出结果相乘作为最终日志行为输出结果;
S54,利用二值交叉熵损失函数对S53中的最终日志行为输出结果进行评估,当交叉熵的值符合设置要求时,将最终日志行为输出结果作为行为识别结果。
作为优选技术措施:
所述标签为未知节点或测试节点的检测结果,其获取方法如下:
通过构建三层感知模型对行为识别结果进行判别,得到测试节点的标签;
三层感知模型的构建方法如下:
当行为识别结果表明测试节点与正常节点相接近时,则测试节点所表征的若干日志行为正常日志行,与之相关的访问动作即为正常行为,输出的标签值为正常;
当行为识别结果表明测试节点与异常节点相接近时,则测试节点所表征的若干日志行为异常日志行,与之相关的访问动作即为恶意行为,输出的标签值为异常,实现日志恶意行为检测。
作为优选技术措施:
所述二值交叉熵损失函数的计算公式如下:
N为测试节点的数量。
三层感知模型包括第一个全连接层、第二个全连接层、第三个全连接层,第一个全连接层作为输入层,第二个全连接层作为隐藏层,第三个全连接层作为输出层;
所述三层感知模型的计算公式如下:
为实现上述目的之一,本发明的第二种技术方案为:
一种基于图对比学习的日志恶意行为检测方法,
包括以下步骤:
第一步,获取网络日志数据;
所述网络日志数据包括若干日志行;
第二步,根据第一步中的若干日志行,构建聚集溯源图模型;
所述聚集溯源图模型,利用一个节点表征多个日志行,并将日志行中的数据特征提取出来,其构建方法如下:
步骤21,获取同一或多个自然日中发生的访问行为的若干日志行;
步骤22,根据节点定义规则,将步骤21中的若干日志行进行计算,得到一个或多个正常访问节点或/和异常节点;
步骤23,根据共性特点,将步骤22中的正常访问节点或/和异常节点,取并集,得到节点集合;
步骤24,构建节点连接单元,对步骤23中的节点集合添加边链接,得到边链接节点数据;
步骤25,根据步骤24中的边链接节点数据,构造邻接矩阵或/和异常矩阵;
第三步,分别对第二步中的邻接矩阵或/和异常矩阵进行处理,得到边扰动负样本或/和异常子图负样本;
第四步,利用第三步中的边扰动负样本或/和异常子图负样本,构建深度图神经网络模型GCN;
所述深度图神经网络模型GCN,用于得到未知节点的标签,实现日志恶意行为检测,其构建方法如下;
步骤41,对边扰动负样本或/和异常子图负样本进行节点嵌入,得到日志特征序列;
步骤42,对步骤41中的日志特征序列进行处理以及判别,得到行为识别结果;
步骤43,根据步骤42中的行为识别结果,确定节点属于恶意行为或正常行为,完成深度图神经网络模型GCN的训练。
本发明经过不断探索以及试验,通过构建聚集溯源图模型、深度图神经网络模型GCN,利用一个节点表征多个日志行,并得到日志行中的数据特征,从而得到未知节点的标签,实现日志恶意行为检测,能够有效减少储存资源以及计算资源的占用,恶意检测成功率高,利于日志检测的推广使用,便于日志行为检测的落地应用;同时能有效减少对大体量日志数据的依赖,可以适用于网关日志、防火墙日志等场合,通用性好,使用范围广,方案科学、合理。
为实现上述目的之一,本发明的第三种技术方案为:
一种基于图对比学习的日志恶意行为检测系统,包括一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的一种基于图对比学习的日志恶意行为检测方法。
与现有技术相比,本发明具有以下有益效果:
本发明经过不断探索以及试验,通过构建聚集图模型、溯源图模型、样本生成模型、深度图神经网络模型GCN,利用一个节点表征多个日志行,并得到日志行中的数据特征,从而得到未知节点的标签,实现日志恶意行为检测,能够有效减少储存资源以及计算资源的占用,利于日志检测的推广使用,便于日志行为检测的落地应用;同时能有效减少对大体量日志数据的依赖,可以适用于网关日志、防火墙日志等场合,通用性好,使用范围广,方案科学、合理。
进一步,本发明的聚集图模型利用一个节点表征多个日志行,相较于现有的针对日志行单独分析的检测方法,本发明的计算量级降低了约一个数量级,有效降低图结构的体量,可以大量缩减图数据的储存空间开销,同时在深度学习训练的过程中也极大地减少了需要计算的节点数目,进而有效缩减本发明所需求的储存资源与计算资源。
更进一步,本发明的溯源图模型,面向不同类型的日志数据,通过构建邻接矩阵或/和异常矩阵,表征日志行中的数据特征,从而使得本发明在不引入先验知识以及大体量日志数据的前提下,能将日志中值得关注的关键信息提取出来,进而本发明能够在各种真实场景中的使用,有效降低了人员、数据完备性等方面门槛,并且能够摆脱现有方法对专家知识的依赖,扩大了本发明的适用范围。
再进一步,本发明的样本生成模型通过构建边扰动负样本和异常子图负样本,极大地扩充了模型训练过程中的负样本数目,缓解了异常检测场景中正负样本分布不均的问题,使得本发明能够适用于只拥有单一网络日志的中小组织等典型的真实应用场景。
附图说明
图1为本发明聚集溯源图模型构建方法的一种流程图;
图2为本发明日志恶意行为检测方法的一种流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。本文所使用的术语“或/ 和”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明基于图对比学习的日志恶意行为检测方法的第一种具体实施例:
一种基于图对比学习的日志恶意行为检测方法,
包括以下步骤:
第一步,获取网络日志数据;
所述网络日志数据包括若干日志行;
第二步,根据第一步中的若干日志行,构建聚集图模型;
所述聚集图模型,利用一个节点表征多个日志行,其构建方法如下:
步骤21,获取同一或多个自然日中发生的具有访问行为的若干日志行;
步骤22,根据节点定义规则,将步骤21中的若干日志行进行计算,得到一个或多个节点,所述节点为正常访问节点或/和异常节点;
步骤23,根据共性特点,将步骤22中的多个节点,取并集,得到节点集合;
第三步,利用第二步中的节点,构建溯源图模型,用于表征日志行中的数据特征;
溯源图模型的构建方法如下:
步骤31,构建节点连接单元,对节点集合内的节点添加边链接,得到边链接节点数据;
步骤32,根据步骤31中的边链接节点数据,构造邻接矩阵或/和异常矩阵,得到日志行中的数据特征;
第四步,根据第三步中的数据特征,构建样本生成模型;
所述样本生成模型,用于得到边扰动负样本或/和异常子图负样本;
第五步,利用第三步中的边扰动负样本或/和异常子图负样本,构建深度图神经网络模型GCN;
所述深度图神经网络模型GCN,用于得到未知节点的标签,实现日志恶意行为检测,其构建方法如下;
步骤51,对边扰动负样本或/和异常子图负样本进行节点嵌入,得到日志特征序列;
步骤52,将已知的正常访问节点或异常节点作为测试节点,与步骤51中的日志特征序列进行判别,得到测试节点的行为识别结果;
步骤53,根据步骤52中的行为识别结果,确定测试节点属于恶意行为或正常行为,并输出相应的标签;
步骤54,对步骤53中的标签准确性进行判定,当标签准确率达到设定值时,完成深度图神经网络模型GCN的训练。
本发明基于图对比学习的日志恶意行为检测方法的第二种具体实施例:
一种基于图对比学习的日志恶意行为检测方法,包括以下步骤:
第一步,获取网络日志数据;
所述网络日志数据包括若干日志行;
第二步,根据第一步中的若干日志行,构建聚集溯源图模型;
所述聚集溯源图模型,利用一个节点表征多个日志行,并将日志行中的数据特征提取出来,其构建方法如下:
步骤21,获取同一或多个自然日中发生的访问行为的若干日志行;
步骤22,根据节点定义规则,将步骤21中的若干日志行进行计算,得到一个或多个正常访问节点或/和异常节点;
步骤23,根据共性特点,将步骤22中的正常访问节点或/和异常节点,取并集,得到节点集合;
步骤24,构建节点连接单元,对步骤23中的节点集合添加边链接;
步骤25,根据步骤24中的边链接,构造邻接矩阵或/和异常矩阵;
第三步,分别对第二步中的邻接矩阵或/和异常矩阵进行处理,得到边扰动负样本或/和异常子图负样本;
第四步,利用第三步中的边扰动负样本或/和异常子图负样本,构建深度图神经网络模型GCN;
所述深度图神经网络模型GCN,用于得到未知节点的标签,实现日志恶意行为检测,其构建方法如下;
步骤41,对边扰动负样本或/和异常子图负样本进行节点嵌入,得到日志特征序列;
步骤42,对步骤41中的日志特征序列进行处理以及判别,得到行为识别结果;
步骤43,根据步骤42中的行为识别结果,确定节点属于恶意行为或正常行为,完成深度图神经网络模型GCN的训练。
本发明日志行结构的一种具体实施例:
本发明节点连接规则的具体实施例:
节点之间的连接依赖如下的规则进行:
2.1、规则1:对于所有的节点,依据其所代表的日志行集合的最早发生时间排列,对这一节点序列中的节点依次按时间方向添加边链接。
本发明聚集溯源图模型的一种具体实施例:
所述聚集溯源图模型包括聚集图、溯源图。
如图1所示,聚集溯源图模型构建方法如下:
开始阶段,依据系统的设置获取原始日志文件,将每个日志行解析为七元组,从而获取新自然日的全部日志行七元组。
随后,针对表征同一自然日中发生的访问行为的日志行,依据所述聚集图节点定义计算该自然日内原始日志所生成的节点,并将这些节点的并集作为聚集图的节点集合。
再依据所述的溯源图的节点连接规则,针对节点集合依次添加边链接,从而生成节点之间的边,若重复添加了某两个节点之间的边,则该边权重增加1。
最后,判断:是否分析了每一个自然日,如果判断结果为“是”,则结束流程;
如果判断结果为“否”,则重复上述流程。
本发明边扰动负样本的一种具体实施例:
边扰动负样本的构建方法如下:
计算聚集图模型的邻接矩阵,所述邻接矩阵是表示图结构的一种数据结构,是表示节点间连接关系的二维数组。对此邻接矩阵进行随机的两两行交换,用于打乱原始图中节点之间的连接关系,生成一个负样本以供对比学习,交换次数为矩阵行数目的一半。
随机行交换完成后,保持原有节点集合与节点属性不变,将得到的矩阵作为新的邻接矩阵构建图,即得到边扰动负样本。
本发明异常子图负样本的一种具体实施例:
异常子图负样本的构建方法如下:
提取聚集图模型中已知的异常节点,所述异常节点表征了恶意实体的行为的节点,其为初始状态下已知异常的节点,是数据集中的标签。通过提取这些已知异常节点及其相邻接的边形成新的子图,即得到异常子图负样本。
如图2所示,本发明基于图对比学习的日志恶意检测方法的第三种具体实施例:
一种基于图对比学习的日志恶意检测方法,包括以下步骤:
开始阶段,基于聚集溯源图模型生成所述的边扰动负样本、异常子图负样本,使用同一个深度GCN框架模型对聚集图与两个负样本进行节点嵌入,从而将节点的特征嵌入至一个低维空间中,用于深度GCN框架模型的训练过程
随后,对聚集图嵌入结果中进行平均采样,对整张图全部的节点的当前属性取平均,这一平均向量作为当前图的平均采样结果,从而获取所有已知正常节点与未知标签的节点的平均嵌入结果。
依据平均采样及平均嵌入结果,使用双线性层作为正负样本的判别器,利用二值交叉熵计算损失函数,完成深度网络的训练过程。
并判断训练是否收敛,当判断结果为“是”时,进行下一步。
最终,经由深度学习获取到了各节点的最终嵌入结果,通过一个三层感知机判别未知节点的标签,所述标签为需要预测的结果,表明该节点是正常节点还是异常节点。
若为正常节点,则节点所表征的源实体为正常实体,反之为异常实体,与之相关的访问等动作即为恶意行为,从而通过异常节点回溯实现恶意行为检测,并结束流程。
本发明的聚集图能有效降低图结构的体量,缩减检测框架所需求的资源,包括储存资源与计算资源。通过使用一个节点表征多个日志行,相较于现有的针对日志行单独分析的检测方法,本发明提出的聚集图将图中的节点数目降低了约一个数量级,极大地缩减了图数据的储存空间开销,同时在深度学习训练的过程中也极大地减少了需要计算的节点数目。
进一步,本发明提出的溯源图能摆脱现有方法对专家知识的依赖,扩大了检测框架的适用范围。面向不同类型的日志数据,通过形式化定义,在不引入先验知识的前提下,溯源图构建方法都能够将日志中值得关注的关键信息提取出来,进而构建通用的聚集图以供检测。本发明的异常检测框架在真实场景中的使用降低了人员、数据完备性等方面门槛。
进而,本发明提出的基于图对比学习的检测方法缩减了必须的日志数据体量需求。现有深度学习方法依赖于大量原始数据才能够实现高准确度的检测,本发明在对比学习中构建了两个不同的负样本,极大地扩充了模型训练过程中的负样本数目,缓解了异常检测场景中正负样本分布不均的问题。这使得本发明能够适用于只拥有单一网络日志的中小组织等典型的真实应用场景。
应用本发明方法的一种设备实施例:
一种计算机设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的一种基于图对比学习的日志恶意行为检测方法。
应用本发明方法的一种计算机介质实施例:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的一种基于图对比学习的日志恶意行为检测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于图对比学习的日志恶意行为检测方法,其特征在于,
包括以下步骤:
第一步,获取网络日志数据;
所述网络日志数据包括若干日志行;
第二步,根据第一步中的若干日志行,构建聚集图模型;
所述聚集图模型,利用一个节点表征多个日志行,其构建方法如下:
步骤21,获取同一或多个自然日中发生的具有访问行为的若干日志行;
步骤22,根据节点定义规则,将步骤21中的若干日志行进行计算,得到一个或多个节点,所述节点为正常访问节点或/和异常节点;
步骤23,根据共性特点,将步骤22中的多个节点,取并集,得到节点集合;
第三步,利用第二步中的节点,构建溯源图模型,用于表征日志行中的数据特征;
溯源图模型的构建方法如下:
步骤31,构建节点连接单元,对节点集合内的节点添加边链接,得到边链接节点数据;
步骤32,根据步骤31中的边链接节点数据,构造邻接矩阵或/和异常矩阵,得到日志行中的数据特征;
第四步,根据第三步中的数据特征,构建样本生成模型;
所述样本生成模型,用于得到边扰动负样本或/和异常子图负样本;
第五步,利用第三步中的边扰动负样本或/和异常子图负样本,构建深度图神经网络模型GCN;
所述深度图神经网络模型GCN,用于得到未知节点的标签,实现日志恶意行为检测,其构建方法如下;
步骤51,对边扰动负样本或/和异常子图负样本进行节点嵌入,得到日志特征序列;
步骤52,将已知的正常访问节点或异常节点作为测试节点,与步骤51中的日志特征序列进行判别,得到测试节点的行为识别结果;
步骤53,根据步骤52中的行为识别结果,确定测试节点属于恶意行为或正常行为,并输出相应的标签;
步骤54,对步骤53中的标签准确性进行判定,当标签准确率达到设定值时,完成深度图神经网络模型GCN的训练。
3.如权利要求1所述的一种基于图对比学习的日志恶意行为检测方法,其特征在于,
所述第二步,节点定义规则包括以下内容:
将拥有共同访问起点实体,并且发生的时间属于同一自然日的若干日志行设置为正常访问节点;
将初始状态异常的若干日志行设置为异常节点,所述异常节点能通过已有的数据获取。
4.如权利要求1所述的一种基于图对比学习的日志恶意行为检测方法,其特征在于,
所述第三步中,节点连接单元包括节点链接规则、起点实体规则、直接特征规则、终点实体规则、访问类型规则;
节点链接规则包括以下内容:
首先,对于节点集合内的所有的节点,依据其所代表的日志行集合的最早发生时间排列,得到第一节点序列;
然后,对第一节点序列中的节点依次按时间方向添加边链接;
起点实体规则包括以下内容:
然后,对第二节点序列中的节点依次按时间方向添加边链接;
直接特征规则包括以下内容:
然后,对第三节点序列中的节点依次按时间方向添加边链接;
终点实体规则包括以下内容:
然后,对第四节点序列中的节点依次按时间方向添加边链接;
访问类型规则包括以下内容:
然后,对第五节点序列中的节点依次按时间方向添加边链接;
所述邻接矩阵或/和异常矩阵为表示节点间连接关系的二维数组。
5.如权利要求1所述的一种基于图对比学习的日志恶意行为检测方法,其特征在于,
所述第四步中,样本生成模型包括边扰动负样本构建单元、异常子图负样本构建单元;
边扰动负样本构建单元包括以下内容:
步骤41,获取溯源图模型的邻接矩阵;
步骤42,对步骤41中的邻接矩阵,进行随机的两两行交换,得到交换矩阵,交换次数为矩阵行数目的一半;
步骤43,对步骤42中的交换矩阵,赋值原有节点属性,得到边扰动负样本;
异常子图负样本构建单元包括以下内容:
S41,提取溯源图模型中的异常矩阵,
所述异常矩阵,用于表征恶意实体的行为;
S42,将S41中的异常矩阵转化为新的子图;
S43,提取S42中的新的子图,得到异常子图负样本。
6.如权利要求1所述的一种基于图对比学习的日志恶意行为检测方法,其特征在于,
所述第五步,行为识别结果的得到方法如下:
S51,对日志特征序列以及测试节点进行平均采样,获取平均嵌入结果;
S52,通过两个神经网络分别对S51中的平均嵌入结果进行卷积,得到两个日志行为输出结果;
S53,将S52中的两个日志行为输出结果相乘作为最终日志行为输出结果;
S54,利用二值交叉熵损失函数对S53中的最终日志行为输出结果进行评估,当交叉熵的值符合设置要求时,将最终日志行为输出结果作为行为识别结果。
7.如权利要求6所述的一种基于图对比学习的日志恶意行为检测方法,其特征在于,
所述标签为未知节点或测试节点的检测结果,其获取方法如下:
通过构建三层感知模型对行为识别结果进行判别,得到测试节点的标签;
三层感知模型的构建方法如下:
当行为识别结果表明测试节点与正常节点相接近时,则测试节点所表征的若干日志行为正常日志行,与之相关的访问动作即为正常行为,输出的标签值为正常;
当行为识别结果表明测试节点与异常节点相接近时,则测试节点所表征的若干日志行为异常日志行,与之相关的访问动作即为恶意行为,输出的标签值为异常,实现日志恶意行为检测。
8.如权利要求7所述的一种基于图对比学习的日志恶意行为检测方法,其特征在于,
所述二值交叉熵损失函数的计算公式如下:
N为测试节点的数量;
三层感知模型包括第一个全连接层、第二个全连接层、第三个全连接层,第一个全连接层作为输入层,第二个全连接层作为隐藏层,第三个全连接层作为输出层;
所述三层感知模型的计算公式如下:
9.一种基于图对比学习的日志恶意行为检测方法,其特征在于,
包括以下步骤:
第一步,获取网络日志数据;
所述网络日志数据包括若干日志行;
第二步,根据第一步中的若干日志行,构建聚集溯源图模型;
所述聚集溯源图模型,利用一个节点表征多个日志行,并将日志行中的数据特征提取出来,其构建方法如下:
步骤21,获取同一或多个自然日中发生的访问行为的若干日志行;
步骤22,根据节点定义规则,将步骤21中的若干日志行进行计算,得到一个或多个正常访问节点或/和异常节点;
步骤23,根据共性特点,将步骤22中的正常访问节点或/和异常节点,取并集,得到节点集合;
步骤24,构建节点连接单元,对步骤23中的节点集合添加边链接,得到边链接节点数据;
步骤25,根据步骤24中的边链接节点数据,构造邻接矩阵或/和异常矩阵;
第三步,分别对第二步中的邻接矩阵或/和异常矩阵进行处理,得到边扰动负样本或/和异常子图负样本;
第四步,利用第三步中的边扰动负样本或/和异常子图负样本,构建深度图神经网络模型GCN;
所述深度图神经网络模型GCN,用于得到未知节点的标签,实现日志恶意行为检测,其构建方法如下;
步骤41,对边扰动负样本或/和异常子图负样本进行节点嵌入,得到日志特征序列;
步骤42,对步骤41中的日志特征序列进行处理以及判别,得到行为识别结果;
步骤43,根据步骤42中的行为识别结果,确定节点属于恶意行为或正常行为,完成深度图神经网络模型GCN的训练。
10.一种基于图对比学习的日志恶意行为检测系统,其特征在于,
包括一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-9任一所述的一种基于图对比学习的日志恶意行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210898807.6A CN115065556B (zh) | 2022-07-28 | 2022-07-28 | 一种基于图对比学习的日志恶意行为检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210898807.6A CN115065556B (zh) | 2022-07-28 | 2022-07-28 | 一种基于图对比学习的日志恶意行为检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115065556A true CN115065556A (zh) | 2022-09-16 |
CN115065556B CN115065556B (zh) | 2022-11-22 |
Family
ID=83206147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210898807.6A Active CN115065556B (zh) | 2022-07-28 | 2022-07-28 | 一种基于图对比学习的日志恶意行为检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115065556B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108769077A (zh) * | 2018-07-06 | 2018-11-06 | 武汉思普崚技术有限公司 | 一种网络安全溯源分析的方法及装置 |
WO2019060327A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP |
US20190132343A1 (en) * | 2016-09-07 | 2019-05-02 | Patternex, Inc. | Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend |
US20190215330A1 (en) * | 2018-01-07 | 2019-07-11 | Microsoft Technology Licensing, Llc | Detecting attacks on web applications using server logs |
CN110543884A (zh) * | 2018-05-29 | 2019-12-06 | 国际关系学院 | 一种基于图像的网络攻击组织溯源方法 |
CN110958136A (zh) * | 2019-11-11 | 2020-04-03 | 国网山东省电力公司信息通信公司 | 一种基于深度学习的日志分析预警方法 |
CN112765603A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种结合系统日志与起源图的异常溯源方法 |
CN113553577A (zh) * | 2021-06-01 | 2021-10-26 | 中国人民解放军战略支援部队信息工程大学 | 基于超球面变分自动编码器的未知用户恶意行为检测方法及系统 |
CN113890821A (zh) * | 2021-09-24 | 2022-01-04 | 绿盟科技集团股份有限公司 | 一种日志关联的方法、装置及电子设备 |
CN114238958A (zh) * | 2021-12-15 | 2022-03-25 | 华中科技大学 | 一种基于溯源聚类及图序列化的入侵检测方法及系统 |
CN114615063A (zh) * | 2022-03-14 | 2022-06-10 | 清华大学 | 基于日志关联分析的攻击溯源方法及装置 |
-
2022
- 2022-07-28 CN CN202210898807.6A patent/CN115065556B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190132343A1 (en) * | 2016-09-07 | 2019-05-02 | Patternex, Inc. | Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend |
WO2019060327A1 (en) * | 2017-09-20 | 2019-03-28 | University Of Utah Research Foundation | ONLINE DETECTION OF ANOMALIES IN A NEWSPAPER USING AUTOMATIC APPRENTICESHIP |
US20190215330A1 (en) * | 2018-01-07 | 2019-07-11 | Microsoft Technology Licensing, Llc | Detecting attacks on web applications using server logs |
CN110543884A (zh) * | 2018-05-29 | 2019-12-06 | 国际关系学院 | 一种基于图像的网络攻击组织溯源方法 |
CN108769077A (zh) * | 2018-07-06 | 2018-11-06 | 武汉思普崚技术有限公司 | 一种网络安全溯源分析的方法及装置 |
CN110958136A (zh) * | 2019-11-11 | 2020-04-03 | 国网山东省电力公司信息通信公司 | 一种基于深度学习的日志分析预警方法 |
CN112765603A (zh) * | 2021-01-28 | 2021-05-07 | 电子科技大学 | 一种结合系统日志与起源图的异常溯源方法 |
CN113553577A (zh) * | 2021-06-01 | 2021-10-26 | 中国人民解放军战略支援部队信息工程大学 | 基于超球面变分自动编码器的未知用户恶意行为检测方法及系统 |
CN113890821A (zh) * | 2021-09-24 | 2022-01-04 | 绿盟科技集团股份有限公司 | 一种日志关联的方法、装置及电子设备 |
CN114238958A (zh) * | 2021-12-15 | 2022-03-25 | 华中科技大学 | 一种基于溯源聚类及图序列化的入侵检测方法及系统 |
CN114615063A (zh) * | 2022-03-14 | 2022-06-10 | 清华大学 | 基于日志关联分析的攻击溯源方法及装置 |
Non-Patent Citations (1)
Title |
---|
夏玉明等: "基于卷积神经网络的网络攻击检测方法研究", 《信息网络安全》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115065556B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112615888B (zh) | 一种网络攻击行为的威胁评估方法及装置 | |
Olmezogullari et al. | Representation of click-stream datasequences for learning user navigational behavior by using embeddings | |
CN111083126A (zh) | 一种基于专家知识库的渗透测试风险评估方法以及模型 | |
Hariharan et al. | Camlpad: Cybersecurity autonomous machine learning platform for anomaly detection | |
CN111340063A (zh) | 一种磨煤机数据异常检测方法 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN113364802B (zh) | 安全告警威胁性研判方法及装置 | |
CN116132104A (zh) | 基于改进cnn-lstm的入侵检测方法、系统、设备及介质 | |
CN114036531A (zh) | 一种基于多尺度代码度量的软件安全漏洞检测方法 | |
Kaiser et al. | Attack hypotheses generation based on threat intelligence knowledge graph | |
CN112835995A (zh) | 一种基于解析关系的域名图嵌入表示分析方法及装置 | |
CN113641906A (zh) | 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质 | |
CN115828242A (zh) | 基于大型异构图表示学习的安卓恶意软件检测方法 | |
CN110619216A (zh) | 一种对抗性网络的恶意软件检测方法及系统 | |
CN113553577B (zh) | 基于超球面变分自动编码器的未知用户恶意行为检测方法及系统 | |
Sharkey et al. | Modelling the spatial extent and severity of extreme European windstorms | |
CN115065556B (zh) | 一种基于图对比学习的日志恶意行为检测方法及系统 | |
CN116881430A (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN117009509A (zh) | 数据安全分级方法、装置、设备、存储介质和程序产品 | |
CN111291376B (zh) | 一种基于众包和机器学习的web漏洞验证方法 | |
CN112750047A (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 | |
Erokhin et al. | The Dataset Features Selection for Detecting and Classifying Network Attacks | |
Zheng et al. | Using Complex Network Communities to Evaluate the Correctness of Object Detection | |
Mustafar et al. | Cyber-attack group representation based on adversary artifacts with machine learning | |
CN116244738B (zh) | 一种基于图神经网络的敏感信息检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |