CN117792794A - 一种网络威胁情报分析方法、设备及系统 - Google Patents
一种网络威胁情报分析方法、设备及系统 Download PDFInfo
- Publication number
- CN117792794A CN117792794A CN202410200799.2A CN202410200799A CN117792794A CN 117792794 A CN117792794 A CN 117792794A CN 202410200799 A CN202410200799 A CN 202410200799A CN 117792794 A CN117792794 A CN 117792794A
- Authority
- CN
- China
- Prior art keywords
- network
- target
- sample
- description
- description array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title abstract description 40
- 230000006399 behavior Effects 0.000 claims abstract description 145
- 238000000034 method Methods 0.000 claims abstract description 113
- 238000003491 array Methods 0.000 claims abstract description 100
- 239000000523 sample Substances 0.000 claims description 353
- 238000013528 artificial neural network Methods 0.000 claims description 223
- 238000000605 extraction Methods 0.000 claims description 134
- 230000007704 transition Effects 0.000 claims description 77
- 238000009826 distribution Methods 0.000 claims description 59
- 239000013598 vector Substances 0.000 claims description 41
- 239000013074 reference sample Substances 0.000 claims description 21
- 238000005259 measurement Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 67
- 238000001514 detection method Methods 0.000 abstract description 19
- 238000005457 optimization Methods 0.000 description 32
- 238000004422 calculation algorithm Methods 0.000 description 28
- 238000013527 convolutional neural network Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 24
- 238000012549 training Methods 0.000 description 23
- 238000010801 machine learning Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 13
- 230000016571 aggressive behavior Effects 0.000 description 11
- 238000003062 neural network model Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 7
- 230000007123 defense Effects 0.000 description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000001052 transient effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010924 continuous production Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Abstract
本申请提供一种网络威胁情报分析方法、设备及系统,通过对拟检测的目标网络流量日志进行识别获得一批待定流量字段,对待定流量字段和对照网络流量日志进行描述数组抽取,获得待定描述数组和对照描述数组。基于待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为。本申请可以降低网络流量日志攻击行为的检测过程的难度,增加攻击行为检测速度,进一步克服需直接确定攻击行为的分类,引起的网络流量日志攻击行为的检测过程繁琐,攻击行为检测速度慢的问题。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种网络威胁情报分析方法、设备及系统。
背景技术
随着网络技术的迅猛发展和网络应用的日益普及,网络安全问题已成为当前亟待解决的重要挑战之一。网络流量日志作为记录网络行为的关键威胁情报,其中可能隐藏着各种潜在的攻击行为。因此,如何有效地检测威胁情报中的攻击行为,成为提升网络安全防护能力的关键环节。
传统的检测方法通常依赖于手动分析、规则匹配或简单的统计特征提取。这些方法虽然在一定程度上能够检测出部分攻击行为,但存在诸多局限性。手动分析方法受限于专家经验和知识,难以应对复杂多变的网络攻击;规则匹配方法则容易受到规则更新滞后和规则库庞大等问题的影响,导致检测效率低下;而简单的统计特征提取方法则往往无法准确捕捉到攻击行为的本质特征,导致误报率和漏报率较高。
为了解决上述问题,近年来,机器学习技术在网络安全领域得到了广泛应用。通过训练大量的网络流量数据,机器学习模型能够自动学习到网络流量的正常行为模式,并据此检测出异常行为。然而,现有的基于机器学习的威胁情报检测方法仍面临一些挑战。例如,如何有效地提取网络流量日志中的关键特征、如何构建高效的机器学习模型以应对不断变化的网络攻击行为,如何在出现新的攻击行为时,及时高效简单对现有模型进行训练调整等。
发明内容
本发明的目的在于提供一种网络威胁情报分析方法、设备及系统。
本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种网络威胁情报分析方法,应用于计算机设备,方法包括:对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,一批待定流量字段用于指示在目标网络流量日志中识别出具有攻击行为的一个或多个流量字段;对一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组,其中,对照网络流量日志用于指示对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,对照描述数组是对对照流量字段进行描述数组抽取获得的描述数组;基于一批待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为,其中,目标描述数组是对目标流量字段进行描述数组抽取获得的描述数组,目标描述数组与对照描述数组之间的共性度量评分符合设定要求,一批待定流量字段包括目标流量字段。
可选地,对对照网络流量日志依据目标描述数组抽取网络进行描述数组抽取,获得对照描述数组,包括:获取对照网络流量日志,对照网络流量日志已经注释了对照攻击行为的分类以及对照攻击行为在对照网络流量日志的分布情况;对对照网络流量日志依据目标识别神经网络进行识别,获得一批对照待定流量字段,并基于对照攻击行为在对照网络流量日志的分布情况在一批对照待定流量字段中确定出对照流量字段;对对照流量字段依据目标描述数组抽取网络进行描述数组抽取,获得对照描述数组。
可选地,对一批待定流量字段依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组,包括:多次对一批待定流量字段中各个待定流量字段进行描述数组抽取,获得一批待定描述数组,其中,每一次进行描述数组抽取的待定流量字段数量与目标描述数组抽取网络的算力关联;基于一批待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为,包括:将每一次获得的待定描述数组分别与对照描述数组执行数量积求取,获得每一次对应的共性度量评分集合;将共性度量评分集合中最大的共性度量评分对应的待定描述数组确定为目标描述数组,或者,将共性度量评分集合中最大的s个待定描述数组确定为目标描述数组,s≥1。
可选地,对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段之前,方法还包括:获取携带先验标签的第一网络流量日志样本和没有携带先验标签的第二网络流量日志样本,其中,第一网络流量日志样本注释有是否具有攻击行为,第二网络流量日志样本未注释有是否具有攻击行为;基于第一网络流量日志样本和第二网络流量日志样本对初始识别神经网络进行弱监督学习,获得目标识别神经网络。
可选地,基于第一网络流量日志样本和第二网络流量日志样本对初始识别神经网络进行弱监督学习,获得目标识别神经网络,包括:基于第一网络流量日志样本对初始识别神经网络进行调试,获得过渡识别神经网络,其中,过渡识别神经网络用于对第一网络流量日志样本进行识别,确定第一网络流量日志样本是否具有攻击行为的预估信息,并基于预估信息和携带的第一网络流量日志样本是否具有攻击行为优化初始识别神经网络,直至确定过渡识别神经网络;将第二网络流量日志样本加载到过渡识别神经网络进行注释,生成伪标记,其中,伪标记用以指示第二网络流量日志样本是否具有攻击行为;基于第一网络流量日志样本、第二网络流量日志样本以及伪标记对过渡识别神经网络进行调试,获得目标识别神经网络。
可选地,基于第一网络流量日志样本对初始识别神经网络进行调试,获得过渡识别神经网络,包括:将第一网络流量日志样本加载到初始识别神经网络,获得一批第一待定流量字段样本以及与一批第一待定流量字段样本彼此映射的一批第一样本概率,其中,初始识别神经网络事先部署了第一样本概率临界值,第一网络流量日志样本注释有攻击行为在第一网络流量日志样本中所处的第一注释分布情况;基于一批第一样本概率和第一样本概率临界值在一批第一待定流量字段样本中确定出一批第一目标流量字段样本,其中,一批第一目标流量字段样本包括第一样本概率不小于第一样本概率临界值的第一待定流量字段样本;基于一批第一目标流量字段样本和第一注释分布情况对初始识别神经网络进行调试,获得过渡识别神经网络,其中,过渡识别神经网络用于基于一批第一目标流量字段样本确定攻击行为在第一网络流量日志样本中的第一推理分布情况,并基于第一推理分布情况和第一注释分布情况优化初始识别神经网络,直至符合第一调试截止要求,确定过渡识别神经网络。
可选地,基于一批第一目标流量字段样本和攻击行为在第一网络流量日志样本中所处的分布情况对初始识别神经网络进行调试,获得过渡识别神经网络之后,方法还包括:将第一样本概率临界值下降到第二样本概率临界值,将第二网络流量日志样本加载到过渡识别神经网络,获得一批第二待定流量字段样本与一批第二待定流量字段样本彼此映射的一批第二样本概率,其中,过渡识别神经网络事先部署了第二样本概率临界值,第二网络流量日志样本通过过渡识别神经网络注释有攻击行为在第二网络流量日志样本中所处的第二注释分布情况;基于一批第二样本概率和第二样本概率临界值在一批第二待定流量字段样本中确定出一批第二目标流量字段样本,其中,一批第二目标流量字段样本包括第二样本概率不小于第二样本概率临界值的第二待定流量字段样本;基于第一注释分布情况、第一推理分布情况、第二注释分布情况以及第二推理分布情况对过渡识别神经网络进行调试,优化过渡识别神经网络,直至符合第二调试截止要求,获得目标识别神经网络,其中,第二推理分布情况用于指示过渡识别神经网络基于一批第二目标流量字段样本推理获得的攻击行为在第二网络流量日志样本中的分布情况。
可选地,对一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组之前,方法还包括:获取参照样例流量字段、积极样例流量字段和消极样例流量字段,其中,积极样例流量字段与参照样例流量字段都包含第一对照攻击行为,消极样例流量字段具有第二对照攻击行为,第一对照攻击行为与第二对照攻击行为对应不同的分类;基于参照样例流量字段、积极样例流量字段和消极样例流量字段对初始描述数组抽取网络进行调试,获得目标描述数组抽取网络。
可选地,基于参照样例流量字段、积极样例流量字段和消极样例流量字段对初始描述数组抽取网络进行调试,获得目标描述数组抽取网络,包括:将参照样例流量字段、积极样例流量字段和消极样例流量字段分别加载到初始描述数组抽取网络进行描述数组抽取,获得参照描述数组、积极样例描述数组和消极样例描述数组;依据参照描述数组、积极样例描述数组和消极样例描述数组确定目标代价,基于目标代价优化初始描述数组抽取网络的网络配置变量,直至符合第三调试截止要求,确定目标描述数组抽取网络。
可选地,依据参照描述数组、积极样例描述数组和消极样例描述数组确定目标代价,基于目标代价优化初始描述数组抽取网络,直至符合第三调试截止要求,确定目标描述数组抽取网络,包括:基于参照描述数组、积极样例描述数组和消极样例描述数组确定第一代价,其中,目标代价包括第一代价,第一代价表示第一共性度量评分的和值与第二共性度量评分的和值的比例,第一共性度量评分的和值用于指示参照描述数组与各个消极样例描述数组的共性度量评分的和值,第二共性度量评分的和值用于指示参照描述数组与各个积极样例描述数组的共性度量评分以及参照描述数组与各个消极样例描述数组的共性度量评分的和值;以令第一共性度量评分的和值达到最大,以及令第二共性度量评分的和值达到最小为目标,优化初始描述数组抽取网络,直至符合第三调试截止要求,确定目标描述数组抽取网络;或者,依据参照描述数组、积极样例描述数组和消极样例描述数组确定目标代价,基于目标代价优化初始描述数组抽取网络的网络配置变量,直至符合第三调试截止要求,确定目标描述数组抽取网络,包括:基于参照描述数组、积极样例描述数组和消极样例描述数组确定第二代价,其中,目标代价包括第二代价,第二代价表示第一特征相似度和第二特征相似度的差值,第一特征相似度用于指示参照描述数组与积极样例描述数组在预设矢量域中的特征相似度,第二特征相似度用于指示参照描述数组与消极样例描述数组在预设矢量域中的特征相似度;以令第一特征相似度最大,以及令第二特征相似度最小为目标,优化初始描述数组抽取网络,直至符合第三调试截止要求,确定目标描述数组抽取网络。
第二方面,本申请提供一种计算机设备,包括: 一个或多个处理器;存储器;一个或多个计算机程序;其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个计算机程序被处理器执行时,实现如上的方法。
第三方面,本申请提供一种系统,包括:字段识别模块,用于对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,一批待定流量字段用于指示在目标网络流量日志中识别出具有攻击行为的一个或多个流量字段;特征抽取模块,用于对一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组,其中,对照网络流量日志用于指示对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,对照描述数组是对对照流量字段进行描述数组抽取获得的描述数组;目标确定模块,用于基于一批待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为,其中,目标描述数组是对目标流量字段进行描述数组抽取获得的描述数组,目标描述数组与对照描述数组之间的共性度量评分符合设定要求,一批待定流量字段包括目标流量字段。
本申请的有益效果至少包含:本申请通过对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,一批待定流量字段用于指示在目标网络流量日志中识别出具有攻击行为的一个或多个流量字段,对一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组。对照网络流量日志用于指示对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,对照描述数组是对对照流量字段进行描述数组抽取获得的描述数组,基于一批待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为。目标描述数组是对目标流量字段进行描述数组抽取获得的描述数组,目标描述数组与对照描述数组之间的共性度量评分符合设定要求,一批待定流量字段包括目标流量字段的方式,依据目标识别神经网络对目标网络流量日志进行识别,获得一批待定流量字段,这些待定流量字段用于指示在目标网络流量日志中识别出具有攻击行为的一个或多个流量字段,接着依据目标描述数组抽取网络对一批待定流量字段和对照网络流量日志进行描述数组抽取,可以获得一批待定描述数组和对照描述数组,基于一批待定描述数组和对照描述数组来确定目标描述数组,通过确定一批待定描述数组与对照描述数组之间的共性度量评分,确定得到符合设定要求的目标描述数组,完成将对照描述数组对应的对照攻击行为确定为目标网络流量日志中具有的攻击行为,以降低网络流量日志攻击行为的检测过程的难度,增加攻击行为检测速度,进一步克服需直接确定攻击行为的分类,引起的网络流量日志攻击行为的检测过程繁琐,攻击行为检测速度慢的问题。
附图说明
图1是本申请实施例提供的一种网络威胁情报分析方法的流程图。
图2是本申请实施例提供的系统的功能模块架构示意图。
图3是本申请实施例提供的一种计算机设备的组成示意图。
具体实施方式
本申请实施例中网络威胁情报分析方法的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本申请实施例提供了一种网络威胁情报分析方法,该方法应用于计算机设备,如图1所示,该方法包括:
步骤S100:对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,一批待定流量字段用于指示在目标网络流量日志中识别出具有攻击行为的一个或多个流量字段。
步骤S100中,目标识别神经网络是一种机器学习模型,特别是深度学习领域中的一种网络结构,用于从输入数据中识别和学习特定的模式或特征。在网络威胁情报分析的上下文中,目标识别神经网络被训练来识别网络流量中可能存在的攻击行为或异常模式。例如,假设使用了一个卷积神经网络(CNN)作为目标识别神经网络。CNN通常用于图像处理,但也可以应用于网络流量数据。在这种情况下,可以将网络流量日志转化为类似图像的二维数组,其中每个元素代表一个特定的流量特征(如数据包大小、传输速度等)。CNN通过学习这些特征之间的关系,能够识别出可能的攻击行为,如DDoS攻击或端口扫描。可以理解,对于网络流量日志中的非数值数据,可以采用如标签编码(Label Encoding)、独热编码(One-Hot Encoding)、文本编码(Text Encoding)等编码方式将其转换为数值,以便进行后续处理。例如采用独热编码时,对于分类数据,创建一个二进制列矩阵,其中每一列代表一个可能的类别,每一行代表一个数据点。对于给定的数据点,其所属类别的列将为1,其余为0。例如,对于“协议”特征,TCP、UDP、ICMP可能分别编码为[1, 0, 0]、[0, 1, 0]、[0, 0,1]。
网络流量日志是记录网络通信活动的数据文件或数据集。它包含了通过网络传输的所有数据包的详细信息,如发送者和接收者的IP地址、传输的协议类型、数据包的大小、传输时间等。网络流量日志是网络安全分析的重要数据源,可以帮助分析师检测和识别网络中的异常行为或潜在威胁。例如,一个典型的网络流量日志条目可能包含以下信息:“源IP: 192.168.1.1, 目标IP: 8.8.8.8, 协议: TCP, 端口: 53, 数据包大小: 1024字节,时间戳: 2023-04-01 12:00:00”。这个条目表明在指定时间,从源IP地址向目标IP地址发送了一个大小为1024字节的TCP数据包,使用的是53端口(通常是DNS查询使用的端口)。
在网络威胁情报分析中,待定流量字段指的是那些被目标识别神经网络初步识别为可能包含攻击行为或异常模式的网络流量日志中的特定字段。这些字段需要进一步的分析和验证,以确定是否真的表示了一种安全威胁。例如,假设的目标识别神经网络在分析网络流量日志时,发现某个时间段内从同一源IP地址发出的大量TCP连接请求,且目标端口不断变化。这种情况下,源IP地址和端口号就可能被标记为待定流量字段,因为它们的行为模式与已知的端口扫描攻击相似。然而,这并不意味着这些字段一定表示了攻击行为,而是需要进一步的分析来确认这一点。
步骤S100的核心任务是利用特定的目标识别神经网络对拟检测的目标网络流量日志进行深入分析,以识别出可能包含攻击行为的流量字段。这些被识别出的字段被称为待定流量字段,它们是进一步分析和验证的候选对象。在步骤S100中,计算机设备首先加载已经训练好的目标识别神经网络,如卷积神经网络(CNN)或循环神经网络(RNN),它们特别适合于处理复杂的、具有时序特性的网络流量数据。模型的选择取决于网络流量的特性和攻击行为的模式。例如,如果攻击行为通常表现为特定的流量序列模式,那么RNN可能是一个更好的选择,因为它能够捕捉到时序数据中的长期依赖关系。加载目标识别神经网络后,计算机设备将拟检测的目标网络流量日志输入目标识别神经网络,这些日志可以包含大量的网络流量数据,包括源IP地址、目标IP地址、端口号、协议类型、数据包大小等信息。目标识别神经网络对这些数据进行逐字段的分析,尝试寻找与已知攻击行为相匹配的模式或特征。通过分析,目标识别神经网络输出一批待定流量字段。这些字段被认为是可能包含攻击行为的候选字段,因为它们在某些方面与已知的攻击行为表现出了相似性。例如,如果某个字段的值异常地大或异常地频繁出现,那么它就可能被认为是一个待定流量字段。可以理解,步骤S100是整个情报分析过程的开始。待定流量字段并不意味着一定包含攻击行为,它们只是需要进一步验证和分析的候选对象。在后续的步骤中,这些待定流量字段会经过更严格的测试和比较,以确定它们是否真的包含攻击行为。
步骤S200:对一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组,其中,对照网络流量日志用于指示对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,对照描述数组是对对照流量字段进行描述数组抽取获得的描述数组。
在步骤S200中,描述数组抽取网络是一个用于从原始数据中提取特征或描述性信息的机器学习模型或算法。在网络威胁情报分析的上下文中,用于从网络流量字段中提取关键特征,这些特征能够描述字段的行为或属性,并有助于区分正常流量和潜在攻击流量。例如,假设使用了一个深度学习模型作为描述数组抽取网络。这个模型可以是一个卷积神经网络(CNN)或循环神经网络(RNN)的变种,具体取决于数据的性质。对于网络流量数据,模型可以学习识别特定的流量模式,如突然增加的数据包数量或异常的目的端口。通过训练,描述数组抽取网络能够从流量字段中提取出这些关键特征,并将它们编码为一个描述数组。
待定描述数组是在描述数组抽取网络处理待定流量字段后生成的特征集合。它包含了从待定流量字段中提取的关键信息,这些信息对于后续的分析和判断至关重要。待定描述数组的目的是提供一个标准化的、可比较的表示形式,以便进一步评估流量字段是否包含潜在的攻击行为。例如,考虑一个待定流量字段,它表示某个时间段内从同一源IP地址到多个不同目标IP地址的一系列TCP连接尝试。描述数组抽取网络可能会从这个字段中提取出诸如连接尝试的次数、目标IP地址的数量、连接间隔时间的分布等特征。这些特征被组合成一个待定描述数组,用于后续的分析和比较。
对照描述数组与待定描述数组类似,但它是从已知的对照网络流量日志中提取的特征集合。对照网络流量日志包含了已经被注释或标记为具有特定攻击行为的流量数据。对照描述数组的目的是提供一个参考标准,用于与待定描述数组进行比较,以评估待定流量字段是否显示出与已知攻击相似的特征。例如,假设有一个对照网络流量日志,其中包含了一个已知的DDoS攻击实例。描述数组抽取网络会从这个攻击实例中提取关键特征,如攻击流量的来源、目标、持续时间、流量强度等,并将这些特征编码为一个对照描述数组。在后续的分析中,这个对照描述数组将被用来与待定描述数组进行比较,以判断待定流量字段是否可能表示了类似的攻击行为。
步骤S200涉及到对前一步骤S100中识别出的一批待定流量字段进行进一步的特征提取,并与已知的对照网络流量日志进行比较。此步骤的核心任务是通过描述数组抽取网络来提取特征,形成待定描述数组和对照描述数组,为后续的分析提供基础。在步骤S200中,计算机设备首先处理一批待定流量字段。这些字段是在步骤S100中被初步识别为可能包含攻击行为的网络流量日志字段。为了更深入地分析这些字段,计算机设备会使用特定的描述数组抽取网络来提取它们的特征。这个描述数组抽取网络可以是一个预先训练好的机器学习模型,如支持向量机(SVM)、决策树或深度学习模型等,具体选择取决于待处理数据的特性和分析需求。描述数组抽取网络的任务是从待定流量字段中提取出一组能够描述其关键属性或行为模式的特征。这些特征可以包括字段的数值大小、出现频率、时序关系等,它们被组合成一个待定描述数组。这个数组是对待定流量字段的紧凑表示,包含了用于后续分析的必要信息。与此同时,计算机设备还会处理对照网络流量日志。对照网络流量日志是已知包含特定攻击行为的网络流量数据,它们被用来作为分析的参考标准。与待定流量字段类似,对照网络流量日志中的对照流量字段也会通过描述数组抽取网络进行特征提取,形成对照描述数组。对照描述数组的作用是提供一个基准,用于与待定描述数组进行比较。通过比较这两个数组之间的相似性和差异性,可以评估待定流量字段中是否存在与已知攻击行为相似的模式或特征。
举例来说,假设在步骤S100中识别出了一个待定流量字段A,它表示某个时间段内从特定IP地址发出的异常大量的TCP连接请求。在步骤S200中,描述数组抽取网络会从字段A中提取出关键特征,如连接请求的数量、频率、目标端口等,形成一个待定描述数组B。同时,对照网络流量日志中包含了一个已知的DDoS攻击行为的对照流量字段C。描述数组抽取网络同样会对字段C进行特征提取,形成对照描述数组D。后续的分析步骤将比较数组B和数组D之间的相似性,以判断待定流量字段A是否确实表示了一种攻击行为。
对于以上涉及的特征数据(如数组),以下是一个具体的实例说明:
描述数组抽取网络的特征数据中,对于待定描述数组,假设有一个待定流量字段,它记录了某个时间段内从源IP192.168.1.10发出的TCPSYN包数量。经过描述数组抽取网络的处理后,生成以下的待定描述数组:
{
"source_ip":"192.168.1.10",
"protocol":"TCP",
"flag":"SYN",
"packet_count":1000,
"time_window":"60seconds",
"average_packets_per_second":16.67,
"destination_ports":[80,443,8080],
"unique_destination_ips":10
}
在该示例中,描述数组包含了源IP地址、协议类型、TCP标志位、总包数、时间窗口、平均每秒包数、目标端口列表以及唯一目标IP数量等特征。
对于对照描述数组,一个示例中,对于已知的攻击行为,比如DDoS攻击,设置有一个对照网络流量日志。从中抽取的特征形成如下的对照描述数组:
{
"attack_type":"DDoS",
"source_ips":["192.168.1.x","192.168.2.x","..."],
"protocol":"TCP",
"flag":"SYN",
"packet_count":50000,
"time_window":"300seconds",
"average_packets_per_second":166.67,
"destination_port":80,
"target_ip":"10.0.0.1"
}
在该示例中,对照描述数组包含了攻击类型、源IP地址范围、协议类型、TCP标志位、总包数、时间窗口、平均每秒包数、目标端口和目标IP地址等特征。
为了便于处理,可以使用向量的形式来表示描述数组中的特征数据。向量是一组有序的数字,可以代表数据点的多维特征。在机器学习和数据分析中,特征向量是常见的表示方法。
例如,对于待定描述数组的向量表示,可以将其转换为一个特征向量。以之前提到的TCPSYN包的例子来说,特征向量可能如下:
待定描述向量=[源IP的某种编码,协议编码,TCP标志位编码,包数量,时间窗口,平均包速率,目标端口1的编码,目标端口2的编码,...,唯一目标IP数量]
作为一种具体数值化表示(这里仅作示意,实际编码方式可能更复杂):
[192.168.1.10的数值编码,TCP的数值编码,SYN的数值编码,1000,60,16.67,80的数值编码,443的数值编码,8080的数值编码,10]
需要注意的是,IP地址、协议、TCP标志位和目标端口等通常不是直接用数字表示的,而是需要经过某种形式的编码(如独热编码、标签编码等)转换为数值向量。
对于对照描述数组的向量表示,类似地,对照描述数组也可以转换为一个特征向量:对照描述向量=[攻击类型编码,源IP范围的某种编码,协议编码,TCP标志位编码,包数量,时间窗口,平均包速率,目标端口编码,目标IP的数值编码]
作为一种具体数值化表示(这里仅作示意):
[DDoS的数值编码,源IP范围的数值编码,TCP的数值编码,SYN的数值编码,50000,300,166.67,80的数值编码,10.0.0.1的数值编码]
在实际应用中,特征向量的每个元素都应该是数值型的,以便于机器学习算法处理。对于分类数据(如协议类型、TCP标志位等),需要采用适当的编码技术将其转换为数值。此外,特征向量的长度和顺序应该是一致的,以便于算法进行训练和预测。应当理解,这里的数值编码和向量表示是示意性的,实际应用中需要根据具体情况设计适当的特征工程和编码方案。
对于前述提到的数值编码,在一个示例中,为了给出具体的编码后的向量,需要定义每个特征的编码方式。以下是一个简化的例子,其中使用了独热编码(One-HotEncoding)来处理分类数据,并将连续数据保持为原值或进行适当的缩放。
首先是编码规则:
IP地址:为了简化,可以假设的网络中只有有限的IP地址,并对它们进行独热编码。但在实际应用中,IP地址可能需要更复杂的编码方式,如将其转换为整数或使用其他技术来减少维度。
协议:假设只有TCP和UDP两种协议,可以使用独热编码。
TCP标志位:对于SYN包,可以简单地用1表示SYN标志位被设置,0表示未被设置。但在更复杂的场景中,可能会有多个标志位,需要使用独热编码。
包数量、时间窗口、平均包速率:这些连续值可以保持不变或根据需要进行缩放(如标准化或归一化)。
目标端口:和协议类似,可以对每个不同的端口使用独热编码。
攻击类型(仅对照描述数组):如果有多种已知的攻击类型,也需要进行独热编码。
以下是编码后的向量示例:
对于待定描述数组的编码向量,假设的网络只有192.168.1.10和192.168.1.11两个IP,TCP和UDP两种协议,考虑SYN标志位,目标端口有80、443、8080三种。
源IP:192.168.1.10->[1,0](独热编码)
协议:TCP->[1,0](独热编码,TCP=1,UDP=0)
TCP标志位:SYN->1(直接编码,SYN被设置为1)
包数量:1000->1000(连续值,保持不变)
时间窗口:60->60(连续值,保持不变)
平均包速率:16.67->16.67(连续值,保持不变)
目标端口:80,443,8080->[1,0,1,1](多标签独热编码)
唯一目标IP数量:10->10(连续值,保持不变)
合并后的编码向量为:
待定描述向量=[1,0,1,0,1,1000,60,16.67,1,0,1,1,10]
这里的向量长度是由选择的特征和编码方式决定的。在实际应用中,向量的长度可能会更长,并且需要更复杂的编码方案来处理大量的分类特征。
对于对照描述数组的编码向量,假设有两种已知的攻击类型:DDoS和PortScan,考虑与待定描述数组相同的协议和目标端口。
攻击类型:DDoS->[1,0](独热编码,DDoS=1,PortScan=0)
源IP范围:(假设编码为某个特定值)->[特定编码](这里需要更复杂的编码方式,但为简化示例,省略)
协议:TCP->[1,0](独热编码)
TCP标志位:SYN->1(直接编码)
包数量:50000->50000(连续值)
时间窗口:300->300(连续值)
平均包速率:166.67->166.67(连续值)
目标端口:80->[1,0,0](独热编码)
目标IP:(假设编码为某个特定值)->[特定编码](同样需要复杂编码,此处省略)
上述示例省略了源IP范围和目标IP的复杂编码,仅考虑上述特征的一个简化版本可以为:
对照描述向量=[1,0,1,0,1,50000,300,166.67,1,0,0]
其中,作为一种实施方式,步骤S200中,对对照网络流量日志依据目标描述数组抽取网络进行描述数组抽取,获得对照描述数组,具体可以包括:
步骤S210:获取对照网络流量日志,其中,对照网络流量日志已经注释了对照攻击行为的分类以及对照攻击行为在对照网络流量日志的分布情况。
步骤S220:对对照网络流量日志依据目标识别神经网络进行识别,获得一批对照待定流量字段,并基于对照攻击行为在对照网络流量日志的分布情况在一批对照待定流量字段中确定出对照流量字段。
步骤S230:对对照流量字段依据目标描述数组抽取网络进行描述数组抽取,获得对照描述数组。
以上步骤S210~步骤S230中,步骤S210主要是关于获取对照网络流量日志的过程。在这个过程中,计算机设备需要从存储系统中检索出已经标注了对照攻击行为分类和分布情况的对照网络流量日志。这些日志是人工(例如网络安全专家)经过仔细分析后标注的,其中包含了已知的攻击行为及其在网络流量中的具体表现,例如分布位置。这些标注信息对于后续的训练机器学习模型和识别新的潜在攻击至关重要。步骤S220利用目标识别神经网络对对照网络流量日志进行识别。在这个步骤中,计算机设备运行一个预先训练好的神经网络模型,该模型能够根据网络流量的特征识别出可能包含攻击行为的字段。这些被识别出的字段被称为对照待定流量字段,它们是需要进一步分析的候选字段。然后,根据对照攻击行为在对照网络流量日志中的分布情况,计算机设备会从这些对照待定流量字段中筛选出最终的对照流量字段。这些对照流量字段是包含已知攻击行为的网络流量数据的关键部分。步骤S230是对筛选出的对照流量字段进行描述数组抽取的过程。在这个步骤中,计算机设备会使用目标描述数组抽取网络来处理这些对照流量字段。这个网络是一个专门设计用于提取网络流量特征的机器学习模型,它能够将复杂的网络流量数据转换为一系列简洁且易于理解的描述数组。这些描述数组包含了关于网络流量行为的关键信息,如源IP地址、目标端口、传输协议类型、数据包大小等,它们将被用于后续的攻击行为分析和检测。
举例来说,假设有一份对照网络流量日志,其中包含了已知的DDoS攻击行为。在步骤S210中,获取了这份日志并了解了DDoS攻击在其中的分布情况。然后,在步骤S220中,使用一个深度神经网络模型对这些日志进行识别,找出了可能包含DDoS攻击行为的对照待定流量字段,并根据攻击行为的分布情况确定了最终的对照流量字段。最后,在步骤S230中,使用目标描述数组抽取网络对这些对照流量字段进行处理,提取出了关于DDoS攻击行为的描述数组,如攻击源IP地址、攻击目标IP地址、攻击持续时间等关键信息。这些信息将被用于后续的机器学习模型训练和攻击行为检测。
步骤S300:基于一批待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为,其中,目标描述数组是对目标流量字段进行描述数组抽取获得的描述数组,目标描述数组与对照描述数组之间的共性度量评分符合设定要求,一批待定流量字段包括目标流量字段。
步骤S300中,计算机设备获取一批待定描述数组,这些待定描述数组是通过对待定网络流量日志进行描述数组抽取获得的。待定网络流量日志是未标注的、可能包含潜在攻击行为的网络流量数据。通过特定的算法或神经网络模型,计算机设备能够从这些日志中提取出描述网络流量特征的数组,即待定描述数组。
同时,计算机设备还拥有对照描述数组,对照描述数组是从已标注的对照网络流量日志中提取的,包含了已知攻击行为的特征。对照描述数组在训练机器学习模型和识别新攻击行为时起着重要作用。
接下来,计算机设备使用一种共性度量评分方法来比较待定描述数组和对照描述数组之间的相似性。这种方法可以基于各种算法,如余弦相似度、欧几里得距离等,用于衡量两个数组在特征空间中的接近程度。如果待定描述数组与对照描述数组之间的共性度量评分符合设定要求(如超过某个阈值),则认为它们具有足够的相似性。
当找到符合设定要求的共性度量评分的待定描述数组时,计算机设备将其确定为目标描述数组。这意味着这些数组所描述的网络流量特征很可能与已知的攻击行为相关联。最后,基于目标描述数组,计算机设备在目标网络流量日志的目标流量字段上进行进一步分析。目标流量字段是包含潜在攻击行为的网络流量数据的关键部分。通过比较目标描述数组和这些字段的特征,计算机设备能够确定哪些字段上具有对照攻击行为。这些识别出的攻击行为可以为网络安全专家提供有价值的信息,帮助他们及时采取防御措施。
举例而言,假设有一批待定网络流量日志和一份已标注的对照网络流量日志。首先,使用一个神经网络模型从这两份日志中提取出描述数组。然后,计算待定描述数组与对照描述数组之间的共性度量评分,并找到符合设定要求的目标描述数组。最后,根据目标描述数组在目标网络流量日志中识别出具有潜在攻击行为的字段。这些字段可能包含了未知的但与已知攻击行为相似的网络威胁。
共性度量评分是衡量两个或多个数据集、模型或特征之间相似性或共性的一种量化指标。在本申请实施例中,可以用来比较待定描述数组与对照描述数组之间的相似程度,从而判断待定网络流量中是否可能存在已知的攻击行为。例如,假设有两个描述数组A和B,分别代表两种不同的网络流量特征。使用余弦相似度作为共性度量评分的方法。如果A和B的余弦相似度接近1,说明它们具有很高的相似性,可能表示同一种类型的网络流量或攻击行为;如果接近0,则说明它们之间几乎没有共性。余弦相似度是一种衡量两个向量之间夹角的余弦值的算法,用于判断向量间的相似程度。在网络流量分析中,可以将描述数组看作是高维空间中的向量,通过计算它们的余弦相似度来衡量其相似程度。例如,设描述数组A和B分别是由网络流量的不同特征值构成的向量。可以计算这两个向量的点积,并除以它们的模长之积,得到它们之间的余弦相似度。这个值越接近1,表示A和B越相似;越接近-1,表示它们越不相似。
设定要求是指在执行某个步骤或算法之前,预先设定的一些条件或阈值,用于判断结果是否符合预期或满足特定需求。在步骤S300中,设定要求通常指共性度量评分需要达到的最低标准或阈值。例如在进行网络流量分析时,可以设定一个共性度量评分的阈值为0.8。只有当待定描述数组与对照描述数组之间的共性度量评分高于这个阈值时,才认为它们具有足够的相似性,可能表示相同的攻击行为。
目标流量字段是指在网络流量日志中特定关注的字段或数据区间,这些字段可能包含潜在的攻击行为或异常活动。在步骤S300中,目标流量字段是通过分析待定描述数组和对照描述数组后确定的关键字段。例如在网络流量日志中,常见的目标流量字段可能包括源IP地址、目标IP地址、端口号、传输协议类型等。通过分析这些字段的数据,可以识别出异常的网络流量模式或潜在的攻击行为。如果某个字段的数据与已知的攻击模式高度相似,那么这个字段就可能被视为一个目标流量字段。
作为一种实施方式,步骤S200中,对一批待定流量字段依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组,具体可以包括:多次对一批待定流量字段中各个待定流量字段进行描述数组抽取,获得一批待定描述数组,其中,每一次进行描述数组抽取的待定流量字段数量与目标描述数组抽取网络的算力关联。
上述实施方式中,计算机设备根据目标描述数组抽取网络的算力来决定每次处理待定流量字段的数量,并多次执行描述数组抽取操作,直到处理完所有的待定流量字段。具体来说,计算机设备首先评估目标描述数组抽取网络的算力,即该网络处理数据的能力。算力的大小决定了每次可以处理的待定流量字段的数量。如果算力较高,每次可以处理的字段数量就相对较多;反之,如果算力较低,每次处理的字段数量就会较少。
然后,计算机设备会根据评估出的算力,从一批待定流量字段中选取相应数量的字段进行描述数组抽取。这个抽取过程会将选定的待定流量字段输入到目标描述数组抽取网络中,通过网络的运算和处理,提取出这些字段的特征信息,并生成对应的描述数组。这个过程会多次重复进行,每次处理不同数量的待定流量字段,直到所有的待定流量字段都被处理完毕。最终,计算机设备会获得一批待定描述数组,这些数组包含了各个待定流量字段的特征信息,可以用于后续的分析和比较。举例而言,假设有一批包含100个待定流量字段的数据集,而目标描述数组抽取网络的算力允许每次处理10个字段。那么,计算机设备会首先选取数据集中的前10个字段进行描述数组抽取,得到对应的描述数组。然后,再从剩余的字段中选取下一个10个字段进行处理,以此类推,直到所有的字段都被处理完毕。最终,得到10个描述数组,这些数组分别对应了数据集中的不同待定流量字段的特征信息。
基于此,步骤S300中,基于一批待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为,具体可以包括:
步骤S310:将每一次获得的待定描述数组分别与对照描述数组执行数量积求取,获得每一次对应的共性度量评分集合。
在步骤S310中,计算机设备对每一次获得的待定描述数组与对照描述数组执行数量积求取操作。数量积,也称为点积或标量积,是一种衡量两个向量相似性的方法。在这里,待定描述数组和对照描述数组都可以视为高维空间中的向量。
具体来说,计算机设备取出一个待定描述数组,然后与对照描述数组进行数量积运算。这个运算过程涉及到将两个数组中的对应元素相乘,并将所有乘积的结果相加,得到一个标量值,即共性度量评分。这个评分反映了待定描述数组与对照描述数组在特征空间中的接近程度或相似性。这个过程会针对每一次获得的待定描述数组重复进行,因此会生成一个共性度量评分集合,其中包含了每一次运算得到的共性度量评分。这些评分可以用于后续的比较和分析,以确定哪些待定描述数组与对照描述数组具有足够的相似性,从而可能表示相同的攻击行为。
举例来说,假设有一次获得的待定描述数组为[0.5, 0.8, 0.3],而对照描述数组为[0.6, 0.7, 0.5]。计算机设备会计算这两个数组的数量积,即0.50.6 + 0.80.7 + 0.3*0.5,得到一个共性度量评分。这个评分会被添加到共性度量评分集合中。然后,计算机继续处理下一次获得的待定描述数组,直到所有的数组都被处理完毕。
通过步骤S310的处理,可以获得一个包含多个共性度量评分的集合,这些评分反映了待定描述数组与对照描述数组之间的相似性。这些评分将为后续的步骤提供重要的参考信息,帮助确定哪些待定描述数组可能表示潜在的攻击行为。
步骤S320:将共性度量评分集合中最大的共性度量评分对应的待定描述数组确定为目标描述数组,或者,将共性度量评分集合中最大的s个待定描述数组确定为目标描述数组,s≥1。
在步骤S320中,计算机设备首先分析步骤S310中生成的共性度量评分集合。这个集合包含了每次待定描述数组与对照描述数组进行数量积运算后得到的评分,评分越高表示两个数组之间的相似性越大。计算机设备从共性度量评分集合中找出最大的共性度量评分。这个最大的评分对应的待定描述数组被认为是最有可能与对照描述数组代表相同类型攻击行为的数组。因此,计算机会将其确定为目标描述数组。
此外,步骤S320还提供了一个灵活的选择机制,即可以选择共性度量评分集合中最大的s个待定描述数组作为目标描述数组,其中s是一个大于等于1的整数。这种选择方式适用于需要考虑多个相似描述数组的情况,以便更全面地分析网络流量日志中的潜在攻击模式。
举例来说,假设在共性度量评分集合中有五个评分,分别为0.9、0.85、0.8、0.75和0.7。如果s=1,计算机设备会选择评分最高的那个待定描述数组,即评分为0.9的数组,作为目标描述数组。如果s=2,计算机设备则会选择评分为0.9和0.85的两个待定描述数组作为目标描述数组。
通过步骤S320的处理,可以确定一个或多个目标描述数组,这些数组代表了与已知攻击行为最为相似的网络流量特征。在后续的分析中,这些目标描述数组将被用于识别目标网络流量日志中的潜在攻击行为,从而为网络安全提供重要的参考信息。
本申请实施例还提供一种对目标识别神经网络的调试方法,具体地,在步骤S100,即对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段之前,本申请提供的方法还包括目标识别神经网络的调试步骤:
步骤S10:获取携带先验标签的第一网络流量日志样本和没有携带先验标签的第二网络流量日志样本,其中,第一网络流量日志样本注释有是否具有攻击行为,第二网络流量日志样本未注释有是否具有攻击行为。
步骤S20:基于第一网络流量日志样本和第二网络流量日志样本对初始识别神经网络进行弱监督学习,获得目标识别神经网络。
步骤S10中,计算机设备会从网络流量日志数据库中选取两类样本:一类是已经标注了是否具有攻击行为的第一网络流量日志样本,这类样本带有先验标签,意味着已经知道这些样本是正常流量还是攻击流量;另一类是没有进行任何标注的第二网络流量日志样本,这类样本的攻击行为是未知的。
举例来说,第一网络流量日志样本可以包含了一系列已知的DDoS攻击流量和正常访问流量,这些样本都已经被专家标注过,用于训练神经网络学习如何区分攻击流量和正常流量。而第二网络流量日志样本则可能包含了各种未知的网络流量,它们可能是新的攻击类型,也可能是正常的网络访问,但由于种种原因并没有被标注。
步骤S20中,计算机设备会利用第一网络流量日志样本的先验标签来初步训练一个初始识别神经网络。这个初始网络通过学习已知的攻击模式和正常流量特征,能够初步具备区分攻击流量和正常流量的能力。然后,计算机设备将第二网络流量日志样本输入到初始识别神经网络中,利用网络的预测结果和实际标注结果(如果有的话)进行比较,不断调整网络的参数和结构,以提高网络的识别准确性。这个过程称为弱监督学习,因为它不仅仅依赖于先验标签,还利用了未标注样本的信息来优化网络。
最终,通过反复的训练和调整,初始识别神经网络会逐渐演化成一个能够准确识别各种网络流量(包括已知和未知的攻击流量)的目标识别神经网络。这个目标识别神经网络就是在步骤S100中用来识别目标网络流量日志的工具。
需要注意的是,弱监督学习方法可以包括但不限于半监督学习、自训练、协同训练等策略,具体实现方式会根据实际应用场景和数据特性来选择。同时,目标识别神经网络的具体结构也会根据任务需求和数据特性来设计,例如可以选择深度卷积神经网络(CNN)来处理复杂的网络流量特征,或者选择循环神经网络(RNN)来处理具有时序特性的网络流量数据。
其中,作为一种实施方式,步骤S20,基于第一网络流量日志样本和第二网络流量日志样本对初始识别神经网络进行弱监督学习,获得目标识别神经网络,具体可以包括:
步骤S21:基于第一网络流量日志样本对初始识别神经网络进行调试,获得过渡识别神经网络,其中,过渡识别神经网络用于对第一网络流量日志样本进行识别,确定第一网络流量日志样本是否具有攻击行为的预估信息,并基于预估信息和携带的第一网络流量日志样本是否具有攻击行为优化初始识别神经网络,直至确定过渡识别神经网络。
步骤S21的目的是通过训练和优化,使神经网络能够初步具备识别网络流量中是否存在攻击行为的能力。在这个过程中,计算机设备首先利用第一网络流量日志样本对初始识别神经网络进行训练。这些样本已经携带了先验标签,即它们是否包含攻击行为是已知的。通过将这些样本输入到初始识别神经网络中,并比较网络的输出与先验标签之间的差异,计算机设备可以调整网络的参数和结构,以减小这种差异。经过多轮训练后,初始识别神经网络逐渐演化成一个过渡识别神经网络。这个过渡网络已经具备了一定的识别能力,又可以称为中间网络,其可以对第一网络流量日志样本进行识别,并输出样本是否具有攻击行为的预估信息。然后,计算机设备会根据这些预估信息和实际的先验标签,进一步优化过渡识别神经网络的性能。优化过程可能包括调整网络的层数、神经元的数量、激活函数的选择等,以及采用更先进的训练算法和学习率调整策略。通过不断地迭代和优化,过渡识别神经网络的性能会逐渐提升,直到达到一个满意的水平。
需要注意的是,步骤S21中提到的优化初始识别神经网络是一个持续的过程,可能需要进行多轮的训练和调整。此外,过渡识别神经网络的性能评估也是非常重要的,通常需要使用验证集或测试集来评估网络的准确性和泛化能力。
举例来说,假设初始识别神经网络是一个简单的多层感知器(MLP)模型,它包含输入层、隐藏层和输出层。在步骤S21中,计算机设备会使用第一网络流量日志样本对这个MLP模型进行训练,通过反向传播算法和梯度下降优化器来更新网络的权重和偏置。随着训练的进行,MLP模型会逐渐学会从网络流量日志中提取有用的特征,并准确地预测样本是否具有攻击行为。最终,这个训练有素的MLP模型就可以作为过渡识别神经网络,用于后续的注释和调试过程。
步骤S22:将第二网络流量日志样本加载到过渡识别神经网络进行注释,生成伪标记,其中,伪标记用以指示第二网络流量日志样本是否具有攻击行为。
步骤S22是在机器学习领域中常见的半监督学习策略的一部分,特别是在处理大量未标记数据和少量标记数据时。在这个步骤中,计算机设备利用先前通过步骤S21获得的过渡识别神经网络,来处理没有先验标签的第二网络流量日志样本。具体来说,计算机设备将第二网络流量日志样本输入到过渡识别神经网络中。这个神经网络已经通过第一网络流量日志样本(带有先验标签的数据)进行了初步训练,因此具备一定的预测能力。当第二网络流量日志样本通过网络时,神经网络会根据其学习到的特征和模式,为每个样本生成一个预测结果,即该样本是否具有攻击行为的预估。这些预测结果被称为伪标记(PseudoLabels),因为它们并不是由专家手动标注的真实标签,而是由神经网络自动生成的。伪标记虽然可能存在一定的误差,但它们为未标记数据提供了有用的监督信息,使得神经网络能够在更大的数据集上进行训练,并进一步提高其泛化能力。
举例来说,假设过渡识别神经网络是一个深度卷积神经网络(CNN),它已经被训练用于识别网络流量日志中的攻击模式。在步骤S22中,计算机设备将一批未标记的第二网络流量日志样本输入到这个CNN模型中。CNN模型会根据其内部学习到的特征和权重,对每个样本进行预测,并输出一个概率值,表示该样本是攻击流量的可能性。然后,计算机设备可以根据这个概率值设置一个阈值(如0.5),将概率高于阈值的样本标记为攻击流量,低于阈值的样本标记为“正常流量”。这样,每个第二网络流量日志样本都会被赋予一个伪标记,用于指示其是否具有攻击行为。
需要注意的是,由于伪标记可能存在误差,因此在后续的训练过程中(如步骤S23),通常需要结合其他策略来减少误差的影响,例如使用带权重的损失函数、引入正则化项等。此外,还可以通过多次迭代和伪标记的更新来逐渐提高伪标记的准确性,从而进一步提升神经网络的性能。
步骤S23:基于第一网络流量日志样本、第二网络流量日志样本以及伪标记对过渡识别神经网络进行调试,获得目标识别神经网络。
步骤S23是在步骤S21和S22的基础上进行的,它利用第一网络流量日志样本(带有真实标签的数据)、第二网络流量日志样本(未标记数据)以及通过过渡识别神经网络生成的伪标记,来对过渡识别神经网络进行进一步的调试和优化,以获得最终的目标识别神经网络。
在这个过程中,计算机设备同时将第一网络流量日志样本和第二网络流量日志样本(带有伪标记)作为输入数据,加载到过渡识别神经网络中进行训练。通过比较网络输出的预测结果与真实标签(对于第一网络流量日志样本)以及伪标记(对于第二网络流量日志样本)之间的差异,计算机设备可以计算出损失函数的值,并据此调整网络的参数和结构,以减小预测结果与真实结果之间的误差。
具体来说,对于第一网络流量日志样本,由于它们带有真实的标签(即是否具有攻击行为是已知的),因此可以通过标准的监督学习方法来进行训练。而对于第二网络流量日志样本,由于它们没有真实的标签,但带有由过渡识别神经网络生成的伪标记,因此可以采用半监督学习的方法来进行训练。在半监督学习中,伪标记被视为软标签(soft labels),它们提供了关于未标记数据的额外信息,有助于神经网络更好地学习到数据的内在结构和特征。
通过不断地迭代训练和优化调整,过渡识别神经网络的性能会逐渐提升,直到达到一个满意的水平。此时,计算机设备会将这个优化后的神经网络保存下来,作为最终的目标识别神经网络。这个目标识别神经网络已经具备了较强的泛化能力,可以准确地识别各种网络流量中的攻击行为。
举例来说,假设过渡识别神经网络是一个深度神经网络(DNN),它包含多个隐藏层和非线性激活函数。在步骤S23中,计算机设备会同时将第一网络流量日志样本和第二网络流量日志样本输入到这个DNN模型中。对于每个样本,DNN模型会输出一个预测结果(即该样本是否具有攻击行为的概率)。然后,计算机设备会根据真实标签和伪标记计算出损失函数的值,并通过反向传播算法和梯度下降优化器来更新DNN模型的权重和偏置。经过多轮训练后,DNN模型的性能会逐渐提升,最终成为一个能够准确识别网络流量中攻击行为的目标识别神经网络。
其中,作为一种实施方式,步骤S21,基于第一网络流量日志样本对初始识别神经网络进行调试,获得过渡识别神经网络,具体可以包括:
步骤S211:将第一网络流量日志样本加载到初始识别神经网络,获得一批第一待定流量字段样本以及与一批第一待定流量字段样本彼此映射的一批第一样本概率,其中,初始识别神经网络事先部署了第一样本概率临界值,第一网络流量日志样本注释有攻击行为在第一网络流量日志样本中所处的第一注释分布情况。
具体来说,计算机设备将第一网络流量日志样本作为输入数据,加载到已经构建好的初始识别神经网络中。这个初始识别神经网络是一个预先设置好的机器学习模型,其内部包含多个神经元和连接,用于从输入数据中提取特征并进行分类或预测。
当第一网络流量日志样本通过初始识别神经网络时,网络会根据其学习到的知识和模式,对每个样本进行处理和分析。这个处理过程可能包括数据的预处理、特征的提取和选择、以及分类或预测算法的应用等。最终,初始识别神经网络会输出一批与输入样本相对应的第一样本概率。
这些第一样本概率表示了初始识别神经网络对每个输入样本是否具有攻击行为的预测置信度。概率值越高,表示网络越确定该样本具有攻击行为;概率值越低,则表示网络对该样本的预测结果较为不确定。同时,这批第一样本概率还会与一批第一待定流量字段样本进行映射(即一一对应)。这里的第一待定流量字段样本是指从第一网络流量日志样本中提取出来的特定字段或特征,它们可能是网络流量中的关键信息,如源IP地址、目的端口号、协议类型等。通过映射关系,可以知道每个待定流量字段样本对应的预测概率,从而进一步分析网络流量的安全性和攻击行为的可能性。
此外,初始识别神经网络事先部署了第一样本概率临界值。这个临界值是一个预设的阈值,用于判断网络流量的安全性。当某个待定流量字段样本的预测概率高于这个临界值时,可以认为该样本很可能具有攻击行为;反之,则认为该样本是安全的或攻击行为的可能性较低。最后,第一网络流量日志样本还被注释有攻击行为在其中的分布情况(即标注的分布位置)。这些注释信息是由专家或安全分析人员根据网络流量的实际情况进行手动标注的,它们提供了关于攻击行为在网络流量中实际位置的重要信息。这些信息将用于后续的调试和优化过程中,帮助神经网络更好地学习和识别攻击行为。
步骤S211的主要任务是将第一网络流量日志样本加载到初始识别神经网络中,并获取相关的输出信息(包括第一样本概率和与待定流量字段样本的映射关系),为后续的调试和优化过程提供基础数据和依据。
步骤S212:基于一批第一样本概率和第一样本概率临界值在一批第一待定流量字段样本中确定出一批第一目标流量字段样本,其中,一批第一目标流量字段样本包括第一样本概率不小于第一样本概率临界值的第一待定流量字段样本。
步骤S212负责从一批第一待定流量字段样本中筛选出具有潜在攻击行为的第一目标流量字段样本。这个过程是基于一批第一样本概率和预设的第一样本概率临界值来进行的。具体来说,计算机设备首先计算出一批第一待定流量字段样本通过初始识别神经网络后得到的样本概率。这些概率值反映了每个待定流量字段样本与攻击行为的关联程度。然后,计算机会将这批样本概率与预设的第一样本概率临界值进行比较。这个临界值是一个重要的阈值,它决定了哪些待定流量字段样本将被视为具有潜在攻击行为的目标样本。当某个待定流量字段样本的样本概率大于或等于这个临界值时,它就会被选中并加入到一批第一目标流量字段样本中。换句话说,步骤S212实际上是一个筛选过程,它基于概率阈值对输入数据进行过滤,从而保留那些最有可能包含攻击行为的字段样本。这些筛选出来的目标流量字段样本将用于后续的神经网络调试和优化过程,以提高网络对攻击行为的识别准确性。
举例来说,假设初始识别神经网络是一个用于检测DDoS攻击的神经网络模型。在这个场景下,第一待定流量字段样本可能包括源IP地址、目的IP地址、端口号、数据包大小等网络流量字段。通过将这些字段输入到神经网络中,可以得到每个字段与DDoS攻击关联的概率值。然后,可以设定一个较高的第一样本概率临界值(例如0.9),意味着只有当某个字段与DDoS攻击的关联概率达到90%或以上时,它才会被视为一个目标流量字段样本。通过这种方式,可以从大量的网络流量数据中筛选出那些最有可能包含DDoS攻击行为的字段样本,为后续的攻击检测和防御提供有力的支持。
步骤S213:基于一批第一目标流量字段样本和第一注释分布情况对初始识别神经网络进行调试,获得过渡识别神经网络,其中,过渡识别神经网络用于基于一批第一目标流量字段样本确定攻击行为在第一网络流量日志样本中的第一推理分布情况,并基于第一推理分布情况和第一注释分布情况优化初始识别神经网络,直至符合第一调试截止要求,确定过渡识别神经网络。
步骤S213中,计算机设备将使用一批已经筛选出来的第一目标流量字段样本,以及与之相关的第一注释分布情况,来对初始识别神经网络进行调试,目的是得到一个性能更佳的过渡识别神经网络。
具体来说,计算机设备首先将一批第一目标流量字段样本输入到初始识别神经网络中。这些样本是之前步骤中基于概率阈值筛选出来的,被认为最有可能包含攻击行为的字段样本。神经网络会对这些样本进行处理和分析,提取出其中的特征,并尝试预测攻击行为在这些样本中的分布情况,即攻击行为可能发生在哪些字段或位置上。
这个预测过程会生成一个第一推理分布情况,它表示了神经网络对每个目标流量字段样本中攻击行为可能发生在日志中的位置的预测结果。然后,计算机设备将这个第一推理分布情况与第一注释分布情况进行比较。第一注释分布情况是专家或安全分析人员根据网络流量的实际情况进行手动标注的,它提供了关于攻击行为在网络流量中实际位置的准确信息。
通过比较第一推理分布情况和第一注释分布情况,计算机设备可以评估初始识别神经网络的性能,并发现其中的不足之处。然后,设备会根据这些差异和评估结果,对神经网络的参数和结构进行调整和优化,以减少预测误差并提高识别准确率。这个调试和优化过程会持续进行,直到满足第一调试截止要求为止。第一调试截止要求是一组预设的条件,用于判断神经网络的性能是否已经达到一个可接受的水平,或者是否已经收敛到一个稳定的状态。当神经网络满足这些条件时,调试过程就会停止,此时得到的神经网络就被称为过渡识别神经网络。例如,调试的次数达到最大次数,调试的误差小于预设误差等等。
过渡识别神经网络是初始识别神经网络经过调试和优化后的结果,它在识别网络流量中的攻击行为时具有更高的准确率和更好的性能。这个网络可以用于后续的网络安全分析和防御工作,帮助保护网络系统的安全和稳定。
举例来说,假设初始识别神经网络是一个基于深度学习的卷积神经网络(CNN),用于识别网络流量中的DDoS攻击行为。在步骤S213中,计算机设备将一批包含DDoS攻击的目标流量字段样本输入到CNN中,得到每个样本中攻击行为可能发生的位置的预测结果。然后,设备将这些预测结果与手动标注的实际位置进行比较,发现CNN在某些特定类型的DDoS攻击识别上存在误差。
为了解决这个问题,计算机设备可以对CNN的卷积层、池化层和全连接层进行调整和优化,例如增加卷积层的数量、改变池化策略或调整全连接层的神经元数量等。通过这些调整和优化,CNN的性能得到了提升,对DDoS攻击的识别准确率也随之提高。最终,当CNN的性能达到一个可接受的水平时,调试过程停止,得到的过渡识别神经网络就可以用于后续的网络安全分析和防御工作了。
在一种可实施的设计中,基于一批第一目标流量字段样本和攻击行为在第一网络流量日志样本中所处的分布情况对初始识别神经网络进行调试,获得过渡识别神经网络之后,本申请实施例提供的方法还包括以下步骤:
步骤S214:将第一样本概率临界值下降到第二样本概率临界值,将第二网络流量日志样本加载到过渡识别神经网络,获得一批第二待定流量字段样本与一批第二待定流量字段样本彼此映射的一批第二样本概率,其中,过渡识别神经网络事先部署了第二样本概率临界值,第二网络流量日志样本通过过渡识别神经网络注释有攻击行为在第二网络流量日志样本中所处的第二注释分布情况。
步骤S214中,计算机设备对已经获得的过渡识别神经网络进行进一步的调试和优化,以提高其对网络流量中潜在攻击行为的识别能力。
具体来说,计算机设备首先将之前设定的第一样本概率临界值下降到第二样本概率临界值。这一操作是为了扩大神经网络对潜在攻击行为的识别范围,降低识别门槛,从而使得更多可能存在攻击行为的流量字段样本能够被纳入到后续的调试过程中。随后,计算机设备将第二网络流量日志样本加载到过渡识别神经网络中。这些第二网络流量日志样本是不同于之前使用的第一网络流量日志样本的新数据,它们同样包含了网络流量的各种信息,如源IP地址、目的端口号、协议类型等。通过将这些新数据输入到神经网络中,可以评估神经网络在新场景下的性能表现。过渡识别神经网络对这些第二网络流量日志样本进行处理和分析,输出一批与输入样本相对应的第二样本概率。这些概率值反映了神经网络对每个输入样本是否具有攻击行为的预测置信度。同时,这些第二样本概率会与一批第二待定流量字段样本进行映射,即每个待定流量字段样本都会有一个与之对应的预测概率值。
值得注意的是,过渡识别神经网络在事先已经部署了第二样本概率临界值。这个临界值与之前的第一样本概率临界值类似,但可能由于调试需求或场景变化而有所不同。它的作用是为后续的筛选过程提供一个判断标准。此外,第二网络流量日志样本在通过过渡识别神经网络时,还会被注释上攻击行为在第二网络流量日志样本中所处的第二注释分布情况。这些注释信息是基于专家知识或安全分析人员的判断进行手动标注的,它们提供了关于攻击行为在网络流量中实际位置的准确信息。这些信息对于后续的神经网络调试和优化至关重要。
步骤S214的主要任务是通过降低样本概率临界值、加载新数据和获取新的预测概率及注释信息,为过渡识别神经网络的进一步调试和优化做好准备。这一步骤的完成将为提高神经网络对潜在攻击行为的识别能力奠定坚实基础。
步骤S215:基于一批第二样本概率和第二样本概率临界值在一批第二待定流量字段样本中确定出一批第二目标流量字段样本,其中,一批第二目标流量字段样本包括第二样本概率不小于第二样本概率临界值的第二待定流量字段样本。
步骤S215中,计算机设备根据一批第二样本概率和第二样本概率临界值来筛选出一批第二目标流量字段样本。这些第二目标流量字段样本是那些被认为最有可能包含潜在攻击行为的网络流量字段。
具体来说,计算机设备先计算出一批第二待定流量字段样本通过过渡识别神经网络后得到的样本概率,即第二样本概率。这些概率值反映了每个待定流量字段样本与攻击行为的关联程度。然后,计算机会将这批第二样本概率与预设的第二样本概率临界值进行比较。这个第二样本概率临界值是一个重要的阈值,它决定了哪些待定流量字段样本将被视为具有潜在攻击行为的目标样本。当某个待定流量字段样本的样本概率大于或等于这个临界值时,它就会被选中并加入到一批第二目标流量字段样本中。
换句话说,步骤S215是一个基于概率阈值的筛选过程,它能够帮助从大量的网络流量数据中快速定位那些最有可能包含攻击行为的字段样本。这些筛选出来的目标流量字段样本将用于后续的神经网络调试和优化,以提高网络对攻击行为的识别准确性。
举例来说,假设过渡识别神经网络是一个用于检测DDoS攻击的神经网络模型。在这个场景下,第二待定流量字段样本可能包括源IP地址、目的IP地址、端口号、数据包大小等网络流量字段。通过将这些字段输入到神经网络中,可以得到每个字段与DDoS攻击关联的概率值,即第二样本概率。
然后,可以设定一个较低的第二样本概率临界值(例如0.5),意味着只有当某个字段与DDoS攻击的关联概率达到50%或以上时,它才会被视为一个目标流量字段样本。通过这种方式,可以从大量的网络流量数据中筛选出那些有可能包含DDoS攻击行为的字段样本,为后续的攻击检测和防御提供有力的支持。同时,这些筛选出来的样本也将用于进一步调试和优化神经网络模型,以提高其对DDoS攻击的识别能力。
步骤S216:基于第一注释分布情况、第一推理分布情况、第二注释分布情况以及第二推理分布情况对过渡识别神经网络进行调试,优化过渡识别神经网络,直至符合第二调试截止要求,获得目标识别神经网络,其中,第二推理分布情况用于指示过渡识别神经网络基于一批第二目标流量字段样本推理获得的攻击行为在第二网络流量日志样本中的分布情况。
步骤S216中,计算机设备将基于多个关键分布情况对过渡识别神经网络进行调试和优化,以进一步提升其对网络攻击行为的识别准确性和效率。
首先,调试过程将综合考虑第一注释分布情况和第一推理分布情况。第一注释分布情况是由专家或安全分析人员根据网络流量的实际情况进行手动标注的,它提供了关于攻击行为在网络流量中实际位置的准确信息。而第一推理分布情况则是过渡识别神经网络基于一批第一目标流量字段样本推理获得的攻击行为在网络流量中的预测位置。通过比较这两者之间的差异,计算机设备可以识别出过渡识别神经网络在哪些方面的预测存在偏差或不足。其次,第二注释分布情况和第二推理分布情况也将被纳入调试过程中。第二注释分布情况同样是由专家或安全分析人员基于第二网络流量日志样本进行的手动标注,而第二推理分布情况则是过渡识别神经网络基于一批第二目标流量字段样本推理获得的攻击行为在第二网络流量日志样本中的预测位置。这些信息将帮助计算机设备更全面地了解过渡识别神经网络在不同网络流量场景下的性能表现。
在调试过程中,计算机设备将利用这些注释分布情况和推理分布情况之间的差异来调整过渡识别神经网络的参数和结构,以减少预测误差并提高识别准确率。这可能涉及到修改神经网络的层数、节点数、激活函数等超参数,或者采用更先进的优化算法来训练网络。调试过程将持续进行,直到过渡识别神经网络的性能达到预设的第二调试截止要求为止。这些要求可能包括识别准确率、误报率、漏报率等关键指标达到一定的阈值,或者神经网络在连续多次迭代中的性能提升小于某个预定值。一旦满足这些条件,调试过程将停止,此时得到的神经网络就被称为目标识别神经网络。
目标识别神经网络是经过调试和优化后的最终模型,它在识别网络流量中的攻击行为时具有更高的准确率和更好的性能。这个模型可以用于后续的网络安全分析和防御工作,帮助保护网络系统的安全和稳定。
举例来说,假设过渡识别神经网络在初始阶段对某种新型的网络攻击行为识别效果不佳。通过步骤S216的调试过程,计算机设备可以发现神经网络在提取该攻击行为的特征时存在不足,并据此调整神经网络的特征提取层。经过多次迭代和优化后,目标识别神经网络成功地提高了对该新型网络攻击行为的识别准确率,为后续的安全防御提供了有力支持。
本申请实施例提供的方法还包括对目标描述数组抽取网络的调试过程,具体地,步骤S200,对一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组之前,本申请实施例提供的方法还包括:
步骤S1:获取参照样例流量字段、积极样例流量字段和消极样例流量字段,其中,积极样例流量字段与参照样例流量字段都包含第一对照攻击行为,消极样例流量字段具有第二对照攻击行为,第一对照攻击行为与第二对照攻击行为对应不同的分类。
步骤S2:基于参照样例流量字段、积极样例流量字段和消极样例流量字段对初始描述数组抽取网络进行调试,获得目标描述数组抽取网络。
本申请实施例提供的方法涉及对目标描述数组抽取网络的调试过程,该过程在网络安全和机器学习领域中具有重要意义。调试过程旨在提高描述数组抽取网络对流量字段中潜在攻击行为的识别和抽取能力。
在步骤S1中,计算机设备首先获取三种不同类型的样例流量字段:参照样例流量字段、积极样例流量字段和消极样例流量字段。这些样例字段均来源于原始流量日志,并根据其与实际攻击字段的接近程度或包含关系进行筛选和标注。
参照样例流量字段(即锚anchor)是在原始流量日志中和实际攻击字段接近的流量字段。它们被用作基准,以帮助确定积极样例和消极样例的选择标准。
积极样例流量字段(即正样本)是在原始流量日志中包括实际攻击字段的流量字段,且其分布位置与参照流量字段一致。这些字段包含了第一对照攻击行为,代表了网络流量中真实存在的攻击行为模式。消极样例流量字段(即负样本)是在原始流量日志中不包括实际攻击字段的流量字段,但其分布位置与参照流量字段一致。这些字段被用作对比,以帮助网络区分正常流量和包含攻击行为的流量。它们具有第二对照攻击行为,该行为与第一对照攻击行为对应不同的分类,实际上并不表示真实的攻击行为,而是用作训练的负向样本。
在步骤S2中,计算机设备使用这些样例流量字段对初始描述数组抽取网络进行调试。调试过程可能涉及调整网络的参数、结构或优化算法,以提高其对攻击行为的识别和抽取能力。通过比较网络对积极样例和消极样例的预测结果与真实标注之间的差异,可以评估网络的性能并确定是否需要进一步调整。
经过多轮调试和优化后,当描述数组抽取网络在验证集上达到预定的性能指标时(如准确率、召回率等),该网络即被视为目标描述数组抽取网络。此时,该网络已经能够有效地从网络流量字段中识别和抽取与攻击行为相关的描述数组。需要注意的是,在实际应用中,可能还需要定期对目标描述数组抽取网络进行更新和重新训练,以适应不断变化的网络攻击模式和流量特征。此外,为了进一步提高网络的泛化能力和鲁棒性,还可以考虑引入更多的样例数据、采用更复杂的网络结构或使用更先进的训练技术。
其中,可选地,步骤S2,基于参照样例流量字段、积极样例流量字段和消极样例流量字段对初始描述数组抽取网络进行调试,获得目标描述数组抽取网络,具体可以包括:
步骤S2a:将参照样例流量字段、积极样例流量字段和消极样例流量字段分别加载到初始描述数组抽取网络进行描述数组抽取,获得参照描述数组、积极样例描述数组和消极样例描述数组。
步骤S2a中,计算机设备将参照样例流量字段、积极样例流量字段和消极样例流量字段分别加载到初始描述数组抽取网络中。这个网络是一个预先构建好的机器学习模型,其目的是从输入的流量字段中抽取出描述数组。描述数组是一种特征表示,它能够捕捉到流量字段中的关键信息,从而有助于后续的识别和分类任务。加载样例流量字段后,初始描述数组抽取网络会对这些字段进行处理和分析。通过一系列的卷积、池化、全连接等操作,网络会提取出每个样例流量字段的特征,并将这些特征编码成描述数组的形式。这样,参照样例流量字段、积极样例流量字段和消极样例流量字段分别会被转换成参照描述数组、积极样例描述数组和消极样例描述数组。
值得注意的是,参照描述数组在这里起到了一个锚点的作用。它提供了一个基准,用于比较积极样例描述数组和消极样例描述数组与参照描述数组之间的差异。这种差异可以帮助评估初始描述数组抽取网络在识别和抽取攻击行为特征方面的性能。举例来说,假设初始描述数组抽取网络是一个深度神经网络,它包含多个卷积层、池化层和全连接层。当将参照样例流量字段加载到网络中时,网络会逐层提取字段的特征,并最终输出一个参照描述数组。同样地,积极样例流量字段和消极样例流量字段也会经过相同的处理过程,得到对应的积极样例描述数组和消极样例描述数组。
这些描述数组提供了丰富的信息,可以用于评估网络的性能并进行后续的调试和优化工作。在步骤S2b中,将利用这些信息来确定目标代价并优化网络的配置变量,从而得到一个更加准确和高效的目标描述数组抽取网络。
步骤S2b:依据参照描述数组、积极样例描述数组和消极样例描述数组确定目标代价,基于目标代价优化初始描述数组抽取网络的网络配置变量,直至符合第三调试截止要求,确定目标描述数组抽取网络。
步骤S2b中,计算机设备根据参照描述数组、积极样例描述数组和消极样例描述数组的信息来确定一个目标代价,并基于这个目标代价来调整网络的配置变量,以提升网络的性能。
具体来说,目标代价是一个衡量网络预测结果与真实结果之间差异的指标。在机器学习中,常见的代价函数有均方误差、交叉熵损失等。在本场景中,目标代价可能是根据积极样例描述数组与参照描述数组之间的相似度,以及消极样例描述数组与参照描述数组之间的差异度来定义的。例如,可以设计一个代价函数,使得当网络能够正确区分积极样例和消极样例时,代价较低;而当网络出现误判时,代价较高。
确定了目标代价之后,计算机设备会利用优化算法来调整初始描述数组抽取网络的网络配置变量,这些变量包括网络的权重、偏置等参数。优化算法的目的是通过迭代更新这些参数,使得目标代价最小化。常用的优化算法包括梯度下降法、随机梯度下降法、Adam等。
在每一次迭代中,优化算法会根据当前的网络参数计算目标代价的梯度,即代价函数关于网络参数的偏导数。然后,算法会沿着梯度的反方向更新网络参数,以减小目标代价。这个过程会不断重复,直到目标代价收敛到一个较低的水平,或者达到预设的迭代次数、时间限制等第三调试截止要求。
最终,当满足第三调试截止要求时,计算机设备会停止迭代,并将此时的网络参数保存下来,作为目标描述数组抽取网络的最终配置。这样,就得到了一个经过优化和调试的描述数组抽取网络,它能够更准确地从网络流量字段中识别和抽取与攻击行为相关的特征。
举例来说,假设初始描述数组抽取网络是一个卷积神经网络(CNN),其配置变量包括多个卷积层的权重和偏置。在调试过程中,计算机设备会根据参照描述数组、积极样例描述数组和消极样例描述数组计算目标代价,并使用梯度下降法来更新网络的权重和偏置。通过多轮迭代和优化,网络的性能逐渐提升,最终能够准确地识别和抽取网络流量中的攻击行为特征。
其中,作为一种实施方式,步骤S2b,依据参照描述数组、积极样例描述数组和消极样例描述数组确定目标代价,基于目标代价优化初始描述数组抽取网络,直至符合第三调试截止要求,确定目标描述数组抽取网络,具体可以包括:
步骤S2b1:基于参照描述数组、积极样例描述数组和消极样例描述数组确定第一代价,其中,目标代价包括第一代价,第一代价表示第一共性度量评分的和值与第二共性度量评分的和值的比例,第一共性度量评分的和值用于指示参照描述数组与各个消极样例描述数组的共性度量评分的和值,第二共性度量评分的和值用于指示参照描述数组与各个积极样例描述数组的共性度量评分以及参照描述数组与各个消极样例描述数组的共性度量评分的和值。
步骤S2b1涉及到基于参照描述数组、积极样例描述数组和消极样例描述数组来确定第一代价,而目标代价中就包括了这第一代价。
具体来说,第一代价表示的是第一共性度量评分的和值与第二共性度量评分的和值之间的比例。这里,共性度量评分可以被理解为描述数组之间相似度或共性的量化指标。当两个描述数组越相似,它们的共性度量评分就越高。
第一共性度量评分的和值是指参照描述数组与各个消极样例描述数组之间的共性度量评分的总和。这个值越大,说明参照描述数组与消极样例描述数组之间的共性越高,也就是说,网络在识别消极样例时更容易将其与参照样例混淆。因此,目标是在优化过程中尽量减小这个值。
第二共性度量评分的和值则包括了参照描述数组与各个积极样例描述数组之间的共性度量评分,以及参照描述数组与各个消极样例描述数组之间的共性度量评分的总和。这个值越大,说明参照描述数组与积极样例描述数组之间的共性越高,而与消极样例描述数组之间的共性越低。这正是所期望的,因为这意味着网络能够更好地区分积极样例和消极样例。
然而,需要注意的是,这里的第一代价实际上是第一共性度量评分的和值与第二共性度量评分的和值的比例。因此,在优化过程中,不仅要关注这两个和值本身的大小,还要关注它们之间的比例关系。具体来说,希望第一共性度量评分的和值尽可能小,而第二共性度量评分的和值尽可能大,从而使得第一代价最小化。在实施过程中,计算机设备利用机器学习算法(如梯度下降法)来迭代地调整初始描述数组抽取网络的参数,以最小化第一代价。每次迭代都会根据当前的参数计算第一代价的梯度,并按照梯度的反方向更新参数。这个过程会一直持续到满足第三调试截止要求为止,例如达到预设的迭代次数、时间限制或目标代价的收敛条件等。最终,当满足第三调试截止要求时,计算机设备会停止迭代,并将此时的网络参数保存下来作为目标描述数组抽取网络的最终配置。这样得到的网络不仅能够有效地从网络流量字段中识别和抽取与攻击行为相关的特征,还能够很好地区分积极样例和消极样例。
步骤S2b2:以令第一共性度量评分的和值达到最大,以及令第二共性度量评分的和值达到最小为目标,优化初始描述数组抽取网络,直至符合第三调试截止要求,确定目标描述数组抽取网络。
步骤S2b2的核心目标是通过调整网络的参数,使得两个关键指标——第一共性度量评分的和值与第二共性度量评分的和值——分别达到最大和最小。这一过程是迭代进行的,直到满足预设的第三调试截止要求,从而确定最终的目标描述数组抽取网络。
首先,需要明确的是,第一共性度量评分的和值反映了参照描述数组与各个消极样例描述数组之间的相似性。理想情况下,希望这个值尽可能大,这意味着网络能够准确地捕捉到消极样例中的共同特征。然而,在实际应用中,这通常是一个误导性的指标,因为过大的第一共性度量评分的和值可能意味着网络无法有效区分消极样例和参照样例。因此,这里的“达到最大”实际上是一个相对的概念,需要在优化过程中进行权衡。相比之下,第二共性度量评分的和值则更为复杂,它包括了参照描述数组与各个积极样例描述数组之间的共性度量评分,以及与各个消极样例描述数组之间的共性度量评分的总和。目标是使这个值尽可能小,以确保网络能够清晰地区分积极样例和消极样例。具体来说,希望网络对积极样例的描述数组给予高评分(即高相似性),而对消极样例的描述数组给予低评分(即低相似性)。
为了实现这些目标,计算机设备会利用先进的优化算法,如梯度下降或其变种(如随机梯度下降、Adam等),来调整网络的权重和偏置等参数。在每次迭代中,算法会根据当前的参数计算损失函数(即目标代价)的梯度,并按照梯度的方向更新参数,以最小化损失函数。这一过程会持续进行,直到满足第三调试截止要求,如损失函数的值收敛到某个预设的阈值以下,或者达到预设的最大迭代次数。
举个例子来说,假设初始描述数组抽取网络是一个深度卷积神经网络(DCNN),其输入是网络流量字段,输出是描述数组。在步骤S2b2中,可以定义一个损失函数,它综合考虑了第一共性度量评分的和值与第二共性度量评分的和值。然后,使用梯度下降算法来迭代地更新DCNN的权重和偏置,以最小化这个损失函数。通过多次迭代和优化,最终可以得到一个性能优越的目标描述数组抽取网络,它能够准确地从网络流量字段中提取出与攻击行为相关的特征。
作为另一种实施方式,步骤S2b,依据参照描述数组、积极样例描述数组和消极样例描述数组确定目标代价,基于目标代价优化初始描述数组抽取网络的网络配置变量,直至符合第三调试截止要求,确定目标描述数组抽取网络,具体可以包括:
步骤S2bI:基于参照描述数组、积极样例描述数组和消极样例描述数组确定第二代价,其中,目标代价包括第二代价,第二代价表示第一特征相似度和第二特征相似度的差值,第一特征相似度用于指示参照描述数组与积极样例描述数组在预设矢量域中的特征相似度,第二特征相似度用于指示参照描述数组与消极样例描述数组在预设矢量域中的特征相似度。
步骤S2bI利用参照描述数组、积极样例描述数组和消极样例描述数组来确定第二代价。这个第二代价是目标代价的一部分,它衡量了网络在区分积极样例和消极样例时的性能。
具体来说,第二代价表示的是第一特征相似度和第二特征相似度之间的差值。这里,特征相似度是一个量化指标,用于衡量两个描述数组在某个预设矢量域中的相似程度。通常,这个相似度可以通过计算两个数组之间的距离来得到,距离越近则相似度越高,反之则越低。第一特征相似度是指参照描述数组与积极样例描述数组在预设矢量域中的相似度。理想情况下,希望这个相似度尽可能高,因为这意味着网络能够准确地识别出与参照描述相似的积极样例。
第二特征相似度则是指参照描述数组与消极样例描述数组在相同矢量域中的相似度。与第一特征相似度不同,希望这个相似度尽可能低,以确保网络能够将消极样例与参照描述区分开来。因此,第二代价实际上是一个衡量网络在区分积极样例和消极样例时性能好坏的指标。这个代价越小,说明网络的性能越好。在实施过程中,计算机设备会利用机器学习算法来迭代地调整网络的参数,以最小化第二代价。这可能涉及到各种优化技术,如梯度下降、随机梯度下降、Adam等。每次迭代都会根据当前的参数计算第二代价的梯度,并按照梯度的方向更新参数。
举个例子来说,假设描述数组抽取网络是一个深度神经网络(DNN),其输入是网络流量字段,输出是描述数组。在步骤S2bI中,可以使用余弦相似度来计算特征相似度,并使用均方误差作为损失函数来衡量第二代价。然后,使用梯度下降算法来迭代地更新DNN的权重和偏置,以最小化这个损失函数。通过多次迭代和优化,最终可以得到一个性能优越的目标描述数组抽取网络。
步骤S2bII:以令第一特征相似度最大,以及令第二特征相似度最小为目标,优化初始描述数组抽取网络,直至符合第三调试截止要求,确定目标描述数组抽取网络。
步骤S2bII的主要目标是通过优化初始描述数组抽取网络,使得第一特征相似度最大化,同时使第二特征相似度最小化。这个过程会持续进行,直到满足预设的第三调试截止要求,从而确定最终的目标描述数组抽取网络。
具体来说,第一特征相似度是指参照描述数组与积极样例描述数组在预设矢量域中的特征相似度。通过最大化这个相似度,希望网络能够更准确地捕捉到积极样例中的关键特征,从而提高对积极样例的识别能力。为了实现这一目标,优化算法会调整网络的参数,使得网络在处理积极样例时能够产生更接近参照描述数组的输出。相比之下,第二特征相似度则是指参照描述数组与消极样例描述数组在相同矢量域中的特征相似度。目标是最小化这个相似度,以确保网络能够清晰地区分消极样例和参照样例。为了达到这个目标,优化算法会努力调整网络的参数,使得网络在处理消极样例时能够产生与参照描述数组差异更大的输出。在优化过程中,计算机设备会利用先进的机器学习算法,如梯度下降或其变种(如随机梯度下降、Adam等),来迭代地更新网络的权重和偏置等参数。每次迭代都会根据当前的参数计算损失函数(即第二代价)的梯度,并按照梯度的方向更新参数,以最小化损失函数。这个过程会持续进行,直到满足第三调试截止要求,如损失函数的值收敛到某个预设的阈值以下,或者达到预设的最大迭代次数。
举例来说,假设初始描述数组抽取网络是一个卷积神经网络(CNN),其输入是网络流量字段,输出是描述数组。在步骤S2bII中,可以定义一个损失函数,它综合考虑了第一特征相似度和第二特征相似度。具体来说,损失函数可以是第一特征相似度与第二特征相似度之差的负数(因为希望第一特征相似度尽可能大,第二特征相似度尽可能小)。然后,使用梯度下降算法来迭代地更新CNN的权重和偏置,以最小化这个损失函数。通过多次迭代和优化,最终可以得到一个性能优越的目标描述数组抽取网络。
综上所述,本申请实施例通过对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,一批待定流量字段用于指示在目标网络流量日志中识别出具有攻击行为的一个或多个流量字段,对一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组。对照网络流量日志用于指示对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,对照描述数组是对对照流量字段进行描述数组抽取获得的描述数组,基于一批待定描述数组和对照描述数组确定目标描述数组,并基于目标描述数组确定目标网络流量日志的目标流量字段上具有对照攻击行为。目标描述数组是对目标流量字段进行描述数组抽取获得的描述数组,目标描述数组与对照描述数组之间的共性度量评分符合设定要求,一批待定流量字段包括目标流量字段的方式,依据目标识别神经网络对目标网络流量日志进行识别,获得一批待定流量字段,这些待定流量字段用于指示在目标网络流量日志中识别出具有攻击行为的一个或多个流量字段,接着依据目标描述数组抽取网络对一批待定流量字段和对照网络流量日志进行描述数组抽取,可以获得一批待定描述数组和对照描述数组,基于一批待定描述数组和对照描述数组来确定目标描述数组,通过确定一批待定描述数组与对照描述数组之间的共性度量评分,确定得到符合设定要求的目标描述数组,完成将对照描述数组对应的对照攻击行为确定为目标网络流量日志中具有的攻击行为,以降低网络流量日志攻击行为的检测过程的难度,增加攻击行为检测速度,进一步克服需直接确定攻击行为的分类,引起的网络流量日志攻击行为的检测过程繁琐,攻击行为检测速度慢的问题。
基于与图1中所示方法相同的原理,本申请实施例中还提供了一种虚拟模块构成的系统10,如图2所示,该系统10包括:
字段识别模块11,用于对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,所述一批待定流量字段用于指示在所述目标网络流量日志中识别出具有攻击行为的一个或多个流量字段;
特征抽取模块12,用于对所述一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组,其中,所述对照网络流量日志用于指示所述对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,所述对照描述数组是对所述对照流量字段进行描述数组抽取获得的描述数组;
目标确定模块13,用于基于所述一批待定描述数组和所述对照描述数组确定目标描述数组,并基于所述目标描述数组确定所述目标网络流量日志的目标流量字段上具有所述对照攻击行为,其中,所述目标描述数组是对所述目标流量字段进行描述数组抽取获得的描述数组,所述目标描述数组与所述对照描述数组之间的共性度量评分符合设定要求,所述一批待定流量字段包括所述目标流量字段。
上述实施例从虚拟模块的角度介绍了系统10,下述从实体模块的角度介绍一种计算机设备,具体如下所示:
本申请实施例提供了一种计算机设备,如图3所示,计算机设备100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,计算机设备100还可以包括收发器104。需要说明的是,实际应用中收发器104不限于一个,该计算机设备100的结构并不构成对本申请实施例的限定。处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。本申请实施例提供了一种计算机设备,本申请实施例中的计算机设备包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,执行以上方法。
Claims (12)
1.一种网络威胁情报分析方法,其特征在于,应用于计算机设备,所述方法包括:
对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,所述一批待定流量字段用于指示在所述目标网络流量日志中识别出具有攻击行为的一个或多个流量字段;
对所述一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组,其中,所述对照网络流量日志用于指示所述对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,所述对照描述数组是对所述对照流量字段进行描述数组抽取获得的描述数组;
基于所述一批待定描述数组和所述对照描述数组确定目标描述数组,并基于所述目标描述数组确定所述目标网络流量日志的目标流量字段上具有所述对照攻击行为,其中,所述目标描述数组是对所述目标流量字段进行描述数组抽取获得的描述数组,所述目标描述数组与所述对照描述数组之间的共性度量评分符合设定要求,所述一批待定流量字段包括所述目标流量字段。
2.如权利要求1所述的方法,其特征在于,对对照网络流量日志依据目标描述数组抽取网络进行描述数组抽取,获得对照描述数组,包括:
获取所述对照网络流量日志,其中,所述对照网络流量日志已经注释了所述对照攻击行为的分类以及所述对照攻击行为在所述对照网络流量日志的分布情况;
对所述对照网络流量日志依据所述目标识别神经网络进行识别,获得一批对照待定流量字段,并基于所述对照攻击行为在所述对照网络流量日志的分布情况在所述一批对照待定流量字段中确定出所述对照流量字段;
对所述对照流量字段依据所述目标描述数组抽取网络进行描述数组抽取,获得所述对照描述数组。
3.如权利要求1所述的方法,其特征在于,对所述一批待定流量字段依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组,包括:
多次对所述一批待定流量字段中各个待定流量字段进行描述数组抽取,获得所述一批待定描述数组,其中,每一次进行描述数组抽取的待定流量字段数量与所述目标描述数组抽取网络的算力关联;
所述基于所述一批待定描述数组和所述对照描述数组确定目标描述数组,并基于所述目标描述数组确定所述目标网络流量日志的目标流量字段上具有所述对照攻击行为,包括:
将每一次获得的所述待定描述数组分别与所述对照描述数组执行数量积求取,获得每一次对应的共性度量评分集合;
将所述共性度量评分集合中最大的共性度量评分对应的待定描述数组确定为所述目标描述数组,或者,将所述共性度量评分集合中最大的s个待定描述数组确定为所述目标描述数组,s≥1。
4.如权利要求1所述的方法,其特征在于,所述对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段之前,所述方法还包括:
获取携带先验标签的第一网络流量日志样本和没有携带先验标签的第二网络流量日志样本,其中,所述第一网络流量日志样本注释有是否具有攻击行为,所述第二网络流量日志样本未注释有是否具有攻击行为;
基于所述第一网络流量日志样本和所述第二网络流量日志样本对初始识别神经网络进行弱监督学习,获得所述目标识别神经网络。
5.如权利要求4所述的方法,其特征在于,所述基于所述第一网络流量日志样本和所述第二网络流量日志样本对初始识别神经网络进行弱监督学习,获得所述目标识别神经网络,包括:
基于所述第一网络流量日志样本对初始识别神经网络进行调试,获得过渡识别神经网络,其中,所述过渡识别神经网络用于对所述第一网络流量日志样本进行识别,确定所述第一网络流量日志样本是否具有攻击行为的预估信息,并基于所述预估信息和携带的所述第一网络流量日志样本是否具有攻击行为优化所述初始识别神经网络,直至确定所述过渡识别神经网络;
将所述第二网络流量日志样本加载到所述过渡识别神经网络进行注释,生成伪标记,其中,所述伪标记用以指示所述第二网络流量日志样本是否具有攻击行为;
基于所述第一网络流量日志样本、所述第二网络流量日志样本以及所述伪标记对所述过渡识别神经网络进行调试,获得所述目标识别神经网络。
6.如权利要求5所述的方法,其特征在于,所述基于所述第一网络流量日志样本对初始识别神经网络进行调试,获得过渡识别神经网络,包括:
将所述第一网络流量日志样本加载到所述初始识别神经网络,获得一批第一待定流量字段样本以及与所述一批第一待定流量字段样本彼此映射的一批第一样本概率,其中,所述初始识别神经网络事先部署了第一样本概率临界值,所述第一网络流量日志样本注释有攻击行为在所述第一网络流量日志样本中所处的第一注释分布情况;
基于所述一批第一样本概率和所述第一样本概率临界值在所述一批第一待定流量字段样本中确定出一批第一目标流量字段样本,其中,所述一批第一目标流量字段样本包括所述第一样本概率不小于所述第一样本概率临界值的所述第一待定流量字段样本;
基于所述一批第一目标流量字段样本和所述第一注释分布情况对所述初始识别神经网络进行调试,获得过渡识别神经网络,其中,所述过渡识别神经网络用于基于所述一批第一目标流量字段样本确定攻击行为在所述第一网络流量日志样本中的第一推理分布情况,并基于所述第一推理分布情况和所述第一注释分布情况优化所述初始识别神经网络,直至符合第一调试截止要求,确定所述过渡识别神经网络。
7.如权利要求6所述的方法,其特征在于,所述基于所述一批第一目标流量字段样本和攻击行为在所述第一网络流量日志样本中所处的分布情况对所述初始识别神经网络进行调试,获得过渡识别神经网络之后,所述方法还包括:
将所述第一样本概率临界值下降到第二样本概率临界值,将所述第二网络流量日志样本加载到所述过渡识别神经网络,获得一批第二待定流量字段样本与所述一批第二待定流量字段样本彼此映射的一批第二样本概率,其中,所述过渡识别神经网络事先部署了所述第二样本概率临界值,所述第二网络流量日志样本通过所述过渡识别神经网络注释有攻击行为在所述第二网络流量日志样本中所处的第二注释分布情况;
基于所述一批第二样本概率和所述第二样本概率临界值在所述一批第二待定流量字段样本中确定出一批第二目标流量字段样本,其中,所述一批第二目标流量字段样本包括所述第二样本概率不小于所述第二样本概率临界值的所述第二待定流量字段样本;
基于所述第一注释分布情况、所述第一推理分布情况、所述第二注释分布情况以及第二推理分布情况对所述过渡识别神经网络进行调试,优化所述过渡识别神经网络,直至符合第二调试截止要求,获得所述目标识别神经网络,其中,所述第二推理分布情况用于指示所述过渡识别神经网络基于所述一批第二目标流量字段样本推理获得的攻击行为在所述第二网络流量日志样本中的分布情况。
8.如权利要求1所述的方法,其特征在于,所述对所述一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组之前,所述方法还包括:
获取参照样例流量字段、积极样例流量字段和消极样例流量字段,其中,所述积极样例流量字段与所述参照样例流量字段都包含第一对照攻击行为,所述消极样例流量字段具有第二对照攻击行为,所述第一对照攻击行为与第二对照攻击行为对应不同的分类;
基于所述参照样例流量字段、所述积极样例流量字段和所述消极样例流量字段对初始描述数组抽取网络进行调试,获得所述目标描述数组抽取网络。
9.如权利要求8所述的方法,其特征在于,所述基于所述参照样例流量字段、所述积极样例流量字段和所述消极样例流量字段对初始描述数组抽取网络进行调试,获得所述目标描述数组抽取网络,包括:
将所述参照样例流量字段、所述积极样例流量字段和所述消极样例流量字段分别加载到所述初始描述数组抽取网络进行描述数组抽取,获得参照描述数组、积极样例描述数组和消极样例描述数组;
依据所述参照描述数组、所述积极样例描述数组和所述消极样例描述数组确定目标代价,基于所述目标代价优化所述初始描述数组抽取网络的网络配置变量,直至符合第三调试截止要求,确定所述目标描述数组抽取网络。
10.如权利要求9所述的方法,其特征在于,所述依据所述参照描述数组、所述积极样例描述数组和所述消极样例描述数组确定目标代价,基于所述目标代价优化所述初始描述数组抽取网络,直至符合第三调试截止要求,确定所述目标描述数组抽取网络,包括:
基于所述参照描述数组、所述积极样例描述数组和所述消极样例描述数组确定第一代价,其中,所述目标代价包括所述第一代价,所述第一代价表示第一共性度量评分的和值与第二共性度量评分的和值的比例,所述第一共性度量评分的和值用于指示所述参照描述数组与各个所述消极样例描述数组的共性度量评分的和值,所述第二共性度量评分的和值用于指示所述参照描述数组与各个所述积极样例描述数组的共性度量评分以及所述参照描述数组与各个所述消极样例描述数组的共性度量评分的和值;
以令所述第一共性度量评分的和值达到最大,以及令所述第二共性度量评分的和值达到最小为目标,优化所述初始描述数组抽取网络,直至符合所述第三调试截止要求,确定所述目标描述数组抽取网络;
或者,所述依据所述参照描述数组、所述积极样例描述数组和所述消极样例描述数组确定目标代价,基于所述目标代价优化所述初始描述数组抽取网络的网络配置变量,直至符合第三调试截止要求,确定所述目标描述数组抽取网络,包括:
基于所述参照描述数组、所述积极样例描述数组和所述消极样例描述数组确定第二代价,其中,所述目标代价包括所述第二代价,所述第二代价表示第一特征相似度和第二特征相似度的差值,所述第一特征相似度用于指示所述参照描述数组与所述积极样例描述数组在预设矢量域中的特征相似度,所述第二特征相似度用于指示所述参照描述数组与所述消极样例描述数组在所述预设矢量域中的特征相似度;
以令所述第一特征相似度最大,以及令所述第二特征相似度最小为目标,优化所述初始描述数组抽取网络,直至符合所述第三调试截止要求,确定所述目标描述数组抽取网络。
11.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序;其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如权利要求1~10任一项所述的方法。
12.一种系统,其特征在于,包括:
字段识别模块,用于对拟检测的目标网络流量日志依据目标识别神经网络进行识别,获得一批待定流量字段,其中,所述一批待定流量字段用于指示在所述目标网络流量日志中识别出具有攻击行为的一个或多个流量字段;
特征抽取模块,用于对所述一批待定流量字段和对照网络流量日志依据目标描述数组抽取网络分别进行描述数组抽取,获得一批待定描述数组和对照描述数组,其中,所述对照网络流量日志用于指示所述对照网络流量日志中的对照流量字段被注释成具有对照攻击行为的网络流量日志,所述对照描述数组是对所述对照流量字段进行描述数组抽取获得的描述数组;
目标确定模块,用于基于所述一批待定描述数组和所述对照描述数组确定目标描述数组,并基于所述目标描述数组确定所述目标网络流量日志的目标流量字段上具有所述对照攻击行为,其中,所述目标描述数组是对所述目标流量字段进行描述数组抽取获得的描述数组,所述目标描述数组与所述对照描述数组之间的共性度量评分符合设定要求,所述一批待定流量字段包括所述目标流量字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410200799.2A CN117792794B (zh) | 2024-02-23 | 2024-02-23 | 一种网络威胁情报分析方法、设备及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410200799.2A CN117792794B (zh) | 2024-02-23 | 2024-02-23 | 一种网络威胁情报分析方法、设备及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117792794A true CN117792794A (zh) | 2024-03-29 |
CN117792794B CN117792794B (zh) | 2024-04-26 |
Family
ID=90392980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410200799.2A Active CN117792794B (zh) | 2024-02-23 | 2024-02-23 | 一种网络威胁情报分析方法、设备及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117792794B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015134008A1 (en) * | 2014-03-05 | 2015-09-11 | Foreground Security | Automated internet threat detection and mitigation system and associated methods |
CN113242211A (zh) * | 2021-04-12 | 2021-08-10 | 北京航空航天大学 | 一种高效的软件定义网络DDoS攻击检测方法 |
CN113518063A (zh) * | 2021-03-01 | 2021-10-19 | 广东工业大学 | 基于数据增强和BiLSTM的网络入侵检测方法及系统 |
CN114499917A (zh) * | 2021-10-25 | 2022-05-13 | 中国银联股份有限公司 | Cc攻击检测方法及cc攻击检测装置 |
CN115484112A (zh) * | 2022-09-29 | 2022-12-16 | 尚庆为 | 支付大数据安全防护方法、系统及云平台 |
CN115529166A (zh) * | 2022-09-05 | 2022-12-27 | 浙江御安信息技术有限公司 | 基于多源数据的网络安全扫描风险管控系统及其方法 |
CN116015703A (zh) * | 2022-09-30 | 2023-04-25 | 深信服科技股份有限公司 | 模型训练方法、攻击检测方法及相关装置 |
-
2024
- 2024-02-23 CN CN202410200799.2A patent/CN117792794B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015134008A1 (en) * | 2014-03-05 | 2015-09-11 | Foreground Security | Automated internet threat detection and mitigation system and associated methods |
CN113518063A (zh) * | 2021-03-01 | 2021-10-19 | 广东工业大学 | 基于数据增强和BiLSTM的网络入侵检测方法及系统 |
CN113242211A (zh) * | 2021-04-12 | 2021-08-10 | 北京航空航天大学 | 一种高效的软件定义网络DDoS攻击检测方法 |
CN114499917A (zh) * | 2021-10-25 | 2022-05-13 | 中国银联股份有限公司 | Cc攻击检测方法及cc攻击检测装置 |
CN115529166A (zh) * | 2022-09-05 | 2022-12-27 | 浙江御安信息技术有限公司 | 基于多源数据的网络安全扫描风险管控系统及其方法 |
CN115484112A (zh) * | 2022-09-29 | 2022-12-16 | 尚庆为 | 支付大数据安全防护方法、系统及云平台 |
CN116015703A (zh) * | 2022-09-30 | 2023-04-25 | 深信服科技股份有限公司 | 模型训练方法、攻击检测方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
DONGSHENG GUO: "Cross-validation based weights and structure determination of Chebyshev-polynomial neural networks for pattern classification", ELSEVIER, 31 October 2014 (2014-10-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN117792794B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111901340B (zh) | 一种面向能源互联网的入侵检测系统及其方法 | |
CN112910859B (zh) | 基于c5.0决策树和时序分析的物联网设备监测预警方法 | |
CN112492059A (zh) | Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质 | |
Elsayed et al. | Detecting abnormal traffic in large-scale networks | |
Karanam et al. | Intrusion detection mechanism for large scale networks using CNN-LSTM | |
CN117421684A (zh) | 基于数据挖掘和神经网络的异常数据监测与分析方法 | |
Hegazy | Tag Eldien, AS; Tantawy, MM; Fouda, MM; TagElDien, HA Real-time locational detection of stealthy false data injection attack in smart grid: Using multivariate-based multi-label classification approach | |
Paramkusem et al. | Classifying categories of SCADA attacks in a big data framework | |
CN117220978B (zh) | 一种网络安全运营模型量化评估系统及评估方法 | |
Seraphim et al. | A survey on machine learning techniques in network intrusion detection system | |
CN117792794B (zh) | 一种网络威胁情报分析方法、设备及系统 | |
Kyatham et al. | A novel approach for network intrusion detection using probability parameter to ensemble machine learning models | |
Cui et al. | Using EBGAN for anomaly intrusion detection | |
Morris | Explainable anomaly and intrusion detection intelligence for platform information technology using dimensionality reduction and ensemble learning | |
Henda et al. | A novel SVM based CFS for intrusion detection in IoT network | |
Elhag et al. | Toward an improved security performance of industrial internet of things systems | |
Li et al. | A Method for Network Intrusion Detection Based on GAN-CNN-BiLSTM | |
Ganesh et al. | Autoencoder Based Network Anomaly Detection | |
Raju et al. | Development of anomaly-based intrusion detection scheme using deep learning in data network | |
Deng et al. | VFD-AE: Efficient Attack Detection in Industrial Cyber-Physical Systems using Vital Feature Discovery and Deep Learning Technique | |
Ghannam et al. | SQL Injection, Cross-site scripting and Buffer Overflow attacks detection using Machine Learning | |
Gao et al. | A novel intrusion detection method based on WOA optimized hybrid kernel RVM | |
CN117792801B (zh) | 一种基于多元事件分析的网络安全威胁识别方法及系统 | |
Chetouane et al. | Performance Improvement of DDoS Intrusion Detection Model Using Hybrid Deep Learning Method in the SDN Environment | |
Ananthi et al. | Ensemble based Intrusion Detection System for IoT Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |