CN117792801B - 一种基于多元事件分析的网络安全威胁识别方法及系统 - Google Patents
一种基于多元事件分析的网络安全威胁识别方法及系统 Download PDFInfo
- Publication number
- CN117792801B CN117792801B CN202410218440.8A CN202410218440A CN117792801B CN 117792801 B CN117792801 B CN 117792801B CN 202410218440 A CN202410218440 A CN 202410218440A CN 117792801 B CN117792801 B CN 117792801B
- Authority
- CN
- China
- Prior art keywords
- vector
- data
- characterization
- past
- characterization vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 140
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 967
- 238000012512 characterization method Methods 0.000 claims abstract description 391
- 238000013507 mapping Methods 0.000 claims abstract description 168
- 238000012545 processing Methods 0.000 claims abstract description 64
- 230000010354 integration Effects 0.000 claims description 173
- 238000007906 compression Methods 0.000 claims description 95
- 230000006835 compression Effects 0.000 claims description 95
- 238000005457 optimization Methods 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 76
- 238000013139 quantization Methods 0.000 claims description 36
- 238000005259 measurement Methods 0.000 claims description 34
- 238000010276 construction Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 155
- 238000004422 calculation algorithm Methods 0.000 description 50
- 210000004027 cell Anatomy 0.000 description 23
- 238000010801 machine learning Methods 0.000 description 20
- 238000013499 data model Methods 0.000 description 16
- 239000000284 extract Substances 0.000 description 12
- 238000003860 storage Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 208000015181 infectious disease Diseases 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000013136 deep learning model Methods 0.000 description 5
- 238000011524 similarity measure Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000026676 system process Effects 0.000 description 4
- 238000013144 data compression Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供一种基于多元事件分析的网络安全威胁识别方法及系统,用以准确获取目标资源映射数据的目标事件威胁标记,不用对数据中的安全事件进行识别,这样能克服现有技术中不能识别未知事件类型的特征,导致的无法识别目标资源映射数据的目标事件威胁标记的问题。在本申请中,针对特定安全事件类型进行处理,在具有一种或多种安全事件类型的目标资源映射数据中,抽取特定安全事件类型的目标数据表征向量。如此令抽取的目标数据表征向量可以留存更丰富的目标资源映射数据的信息。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于多元事件分析的网络安全威胁识别方法及系统。
背景技术
随着信息技术的迅猛发展和网络应用的广泛普及,网络安全问题日益凸显,已成为制约信息化进程的重要因素之一。在复杂的网络环境中,如何有效识别和防御各类安全威胁,确保信息系统的安全稳定运行,是当前亟待解决的技术难题。
传统的网络安全威胁识别方法往往依赖于已知的攻击特征和规则库,通过匹配和比对来识别安全事件。然而,这种方法在面对未知事件类型或新型攻击手段时往往束手无策,无法准确识别和应对安全威胁。此外,传统方法还存在误报率高、识别效率低等问题,难以满足日益增长的安全需求。为了克服传统方法的局限性,近年来研究者们提出了基于机器学习和数据分析的网络安全威胁识别方法。这些方法通过从网络流量、系统日志等多元事件中提取特征,构建识别模型来自动识别和分类安全事件。虽然取得了一定的进展,但仍存在识别精度不高、泛化能力弱等问题。
发明内容
本申请的目的在于提供一种基于多元事件分析的网络安全威胁识别方法及系统。本申请是这样实现的:
第一方面,本申请实施例提供了一种基于多元事件分析的网络安全威胁识别方法,应用于计算机系统,方法包括:从具有一种或多种安全事件类型的目标资源映射数据中,抽取特定安全事件类型的目标数据表征向量;基于特定安全事件类型的指引表征向量,对目标数据表征向量进行整合操作,获得目标整合表征向量;其中,指引表征向量用于指示多个过往资源映射数据分别针对特定安全事件类型抽取的过往数据表征向量,与对应的对照事件威胁标记之间的相关性;对目标整合表征向量进行量化操作,获得目标压缩表征向量,以及对目标压缩表征向量,在多个过往资源映射数据分别对应的过往压缩表征向量中,筛选符合设定的量化共性要求的一个或多个对照压缩表征向量;将一个或多个对照压缩表征向量相关的对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记,目标事件威胁标记用以指示目标资源映射数据中的安全威胁识别结果。
第二方面,本申请提供一种计算机系统,包括: 一个或多个处理器;存储器;一个或多个计算机程序;其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个计算机程序被处理器执行时,实现以上的方法。
有益效果:本申请实施例中,提供一种基于多元事件分析的网络安全威胁识别方法,用以准确获取目标资源映射数据的目标事件威胁标记,不用对数据中的安全事件进行识别,这样能克服现有技术中不能识别未知事件类型的特征,导致的无法识别目标资源映射数据的目标事件威胁标记的问题。在本申请实施例中,针对特定安全事件类型进行处理,在具有一种或多种安全事件类型的目标资源映射数据中,抽取特定安全事件类型的目标数据表征向量。如此令抽取的目标数据表征向量可以留存更丰富的目标资源映射数据的信息。
接着,依据描述特定安全事件类型的指引表征向量,对目标数据表征向量进行整合操作,获得目标整合表征向量,指引表征向量用于指示多个过往资源映射数据分别对应的过往数据表征向量与对应的对照事件威胁标记之间的相关性。这样一来,因为指引表征向量可以指示各过往数据表征向量与对应的对照事件威胁标记之间的相关性,可以根据该相关性,对特定安全事件类型进行更具针对性地表征,根据整合指引表征向量和目标数据表征向量,得到目标整合表征向量,那么目标整合表征向量不但具有目标资源映射数据中的信息,还具有专属表征特定安全事件类型的信息,如此可便于增加后续依据目标整合表征向量得到对应目标事件威胁标记的精度和可靠性。之后对目标整合表征向量进行量化操作,获得目标压缩表征向量,然后对目标压缩表征向量,在多个过往资源映射数据分别对应的过往压缩表征向量中,筛选符合设定的量化共性要求的一个或多个对照压缩表征向量,以及将筛选的一个或多个对照压缩表征向量所相关的对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记。对目标整合表征向量进行量化,得到的目标压缩表征向量具有更小的处理压力(因为数据量减少),从而提高效率,并且,过往资源映射数据与过往压缩表征向量是对应的,那么,可以增加对比多个过往资源映射数据分别对应的过往压缩表征向量,与目标压缩表征向量之间的速度,基于筛选符合设定的量化共性要求的一个或多个对照压缩表征向量,将其对应的过往资源映射数据的对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记,以准确得到目标事件威胁标记。
附图说明
图1是本申请实施例提供的一种基于多元事件分析的网络安全威胁识别方法的流程图。
图2是本申请实施例提供的一种计算机系统的组成示意图。
具体实施方式
本申请实施例中基于多元事件分析的网络安全威胁识别方法的执行主体为计算机系统,包括但不限于服务器、网络设备、个人电脑、笔记本电脑、平板电脑、智能手机等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机系统可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机系统的交互操作来实现本申请。其中,计算机系统所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
在网络安全领域中,安全威胁往往与多种网络活动和事件相关联,这些活动和事件可能发生在同一时间、同一地点,或者不同时间、不同地点,并且它们之间可能存在着潜在的因果关系。通过发现这些潜在的因果关系,可以帮助识别和预测网络安全威胁,进而量化网络安全态势。本申请提供的基于多元事件分析的网络安全威胁识别方法,包括以下过程:首先,从具有一种或多种安全事件类型的目标资源映射数据中抽取特定安全事件类型的目标数据表征向量。这里的资源映射数据是通过资源模型将元数据中的元素、属性和关系投影至目标数据格式后得到的语义数据。通过抽取特定安全事件类型的表征向量信息,可以获取与该事件类型相关的数据特征。接下来,基于特定安全事件类型的指引表征向量对目标数据表征向量进行整合操作,获得目标整合表征向量。指引表征向量是一种提示特征,用于指示多个过往资源映射数据分别针对特定安全事件类型抽取的过往数据表征向量与对应的对照事件威胁标记之间的相关性。通过整合操作,可以将不同事件类型的数据特征进行融合,以便更全面地描述安全事件。然后,对目标整合表征向量进行量化操作,获得目标压缩表征向量。同时,在多个过往资源映射数据分别对应的过往压缩表征向量中,筛选符合设定的量化共性要求的一个或多个对照压缩表征向量。这里的量化操作可以是将连续的特征值转换为离散的数值,以便进行后续的相似度比较和匹配。通过筛选符合量化共性要求的对照压缩表征向量,可以找到与目标事件相似的过往事件。最后,将一个或多个对照压缩表征向量相关的对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记。目标事件威胁标记用于指示目标资源映射数据中的安全威胁识别结果。通过将这些标记与目标事件相关联,可以实现对网络安全威胁的准确识别和标记。
在一个示例中,假设有一个目标资源映射数据包含了多个网络活动和事件的信息,其中包括了某个特定的安全事件类型,如DDoS攻击。可以从这个数据中抽取与DDoS攻击相关的表征向量信息。然后,可以使用指引表征向量来整合这些表征向量信息,形成一个更全面的描述DDoS攻击的特征向量。接下来,对这个特征向量进行量化操作,并找到与之相似的过往DDoS攻击事件的压缩表征向量。最后,将这些过往事件的威胁标记应用到目标资源映射数据上,从而实现对DDoS攻击的识别和标记。
具体地,请参照图1,本申请实施例提供的基于多元事件分析的网络安全威胁识别方法,包括以下步骤:
步骤S10:从具有一种或多种安全事件类型的目标资源映射数据中,抽取特定安全事件类型的目标数据表征向量。
其中,目标资源映射数据是通过资源模型将元数据中的元素、属性和关系投影至目标数据格式后得到的语义数据。简单来说,元数据是原始数据,包含了网络活动、事件和安全威胁的信息;资源模型则是一个用于定义和组织这些数据的框架;而目标资源映射数据是经过这个框架处理后的、更易于理解和分析的数据。
例如,假设元数据是描述网络流量的原始日志,其中包含了IP地址、端口号、访问时间等信息。资源模型可以定义如何将这些信息组织成结构化的数据格式。经过资源模型的映射后,目标资源映射数据可能是按照时间顺序排列的网络流量统计表,每一行都代表了某一时刻的网络流量情况。
更详细的示例中,资源模型映射是一个将源数据模型中的元素、属性和关系映射到目标数据模型中的对应元素、属性和关系的过程。在这个过程中,需要确保数据的语义和结构在转换过程中得到保持,同时还需要考虑到数据的兼容性和可扩展性。具体来说,资源模型映射的工作流程可以为:
1、定义源模型和目标模型:源模型是原始数据的抽象表示,它描述了数据的结构、属性、关系以及约束等信息。目标模型是需要将数据转换到的数据模型,它也定义了数据的结构、属性、关系等信息,但可能与源模型存在差异。
2、建立映射规则:在定义了源模型和目标模型之后,需要建立它们之间的映射规则。这些规则描述了如何将源模型中的元素、属性和关系映射到目标模型中的对应元素、属性和关系。映射规则需要考虑到数据的语义和结构,以及数据在转换过程中的一致性和完整性。
3、执行映射操作:在建立了映射规则之后,可以开始执行映射操作。这个过程中,系统会遍历源模型中的每个元素、属性和关系,并根据映射规则将它们转换到目标模型中。在转换过程中,系统还需要处理可能存在的数据冲突和异常,以确保数据的正确性和一致性。
在一个资源模型映射的具体实例时,考虑一个网络安全场景,其中原始的安全事件数据需要被映射到一个统一的资源模型中,以便进行后续的分析和处理。
1. 源数据模型
假设原始的安全事件数据包含以下信息:
事件ID:唯一标识安全事件的编号。
事件时间:安全事件发生的时间戳。
源IP地址:触发安全事件的源IP地址。
目标IP地址:安全事件的目标IP地址。
事件类型:安全事件的类型(如:DDoS攻击、恶意软件感染等)。
事件描述:对安全事件的详细描述。
2. 目标资源模型
目标资源模型是一个统一的安全事件数据模型,用于存储和处理各种类型的安全事件数据。它定义了以下字段:
事件标识符:用于唯一标识安全事件的字段。
发生时间:记录安全事件发生的时间。
参与实体:包含源IP地址和目标IP地址的字段,用于描述参与安全事件的实体。
事件类别:描述安全事件类型的字段。
事件详情:提供对安全事件的详细描述。
3. 映射规则
建立源数据模型和目标资源模型之间的映射规则如下:
将源数据模型中的事件ID映射到目标资源模型的事件标识符字段。将源数据模型中的事件时间映射到目标资源模型的发生时间字段。将源数据模型中的源IP地址和目标IP地址映射到目标资源模型的参与实体字段,可能需要将其拆分为两个单独的子字段或采用适当的数据结构来表示。将源数据模型中的事件类型映射到目标资源模型的事件类别字段。将源数据模型中的事件描述映射到目标资源模型的事件详情字段。
4. 执行映射操作
根据映射规则,执行具体的映射操作。例如,对于每一条原始的安全事件数据,以按照以下步骤进行映射:
提取源数据模型中的事件ID,并将其赋值给目标资源模型中的事件标识符字段。提取源数据模型中的事件时间,并将其赋值给目标资源模型中的发生时间字段。提取源数据模型中的源IP地址和目标IP地址,并将其以适当的方式存储在目标资源模型的参与实体字段中。这可能涉及到创建一个包含源IP和目标IP的子结构或数组。提取源数据模型中的事件类型,并将其赋值给目标资源模型中的事件类别字段。如果事件类型的命名或分类在目标资源模型中有所不同,可能需要进行适当的转换或映射。提取源数据模型中的事件描述,并将其赋值给目标资源模型中的事件详情字段。
通过执行上述映射操作,可以将原始的安全事件数据转换为符合目标资源模型格式的数据,从而实现数据的统一表示和存储,为后续的安全分析和处理提供便利。
安全事件类型指的是网络安全领域中可能发生的各种事件或威胁的类型,如DDoS攻击、恶意软件感染、数据泄露等。例如,DDoS攻击(分布式拒绝服务攻击)是一种常见的安全事件类型,它通过大量的请求拥塞目标服务器的带宽或资源,使得正常用户无法访问。
步骤S10中提及的表征向量是一种用于描述数据特征的多维向量。在机器学习和数据分析中,原始数据通常会被转换成表征向量的形式,以便进行后续的处理和分析。抽取表征向量即从原始数据或复杂的数据集中提取出有用的信息或特征的过程。在步骤S10中,抽取是指从目标资源映射数据中提取出特定安全事件类型的表征向量的操作。例如,假设有一个包含多种安全事件类型的目标资源映射数据集,需要从中抽取出与DDoS攻击相关的数据。抽取的过程就是识别出数据集中与DDoS攻击相关的记录,并将这些记录的特征提取出来,形成DDoS攻击的表征向量。
在目标数据表征向量的一个示例中,目标数据表征向量是一个多维向量,用于描述特定安全事件类型的数据特征。下面给出一个简化的实例来说明目标数据表征向量的概念。
假设的目标资源映射数据是关于网络流量的,并且关注的安全事件类型是DDoS攻击。在这种情况下,目标数据表征向量可以包含与网络流量和DDoS攻击相关的多个特征维度。
源IP地址数量:1000
目标IP地址:192.168.1.1
流量峰值:5 Gbps
请求类型分布:SYN: 80%, UDP: 15%, ICMP: 5%
请求来源国家:美国: 40%, 中国: 30%, 俄罗斯: 20%, 其他: 10%
平均请求包大小:1000 字节
在这个实例中,目标数据表征向量包含了以下特征维度:
源IP地址数量:表示参与DDoS攻击的源IP地址的数量,这里假设有1000个不同的源IP地址。
目标IP地址:表示受到DDoS攻击的目标服务器的IP地址,这里是192.168.1.1。
流量峰值:表示DDoS攻击期间网络流量的峰值,这里是5 Gbps(千兆比特每秒)。
请求类型分布:表示DDoS攻击中不同类型请求的比例分布,这里假设SYN请求占80%,UDP请求占15%,ICMP请求占5%。
请求来源国家:表示发起DDoS攻击的请求来源的国家的比例分布,这里假设来自美国的请求占40%,来自中国的请求占30%,来自俄罗斯的请求占20%,其他国家的请求占10%。
平均请求包大小:表示DDoS攻击中请求包的平均大小,这里是1000字节。
需要注意的是,这只是一个简化的实例,实际的目标数据表征向量可能包含更多的特征维度和更复杂的数据类型。具体的特征维度和值取决于所关注的安全事件类型以及可用的数据源和分析需求。
可以将上述实例中的特征进行编码,以形成一个数值型的特征向量。对于离散数据,比如请求类型和请求来源国家,可以使用独热编码(One-Hot Encoding)来进行转换。
以下是经过编码后的特征向量表示:
特征向量 = [源IP地址数量, 目标IP地址编码, 流量峰值, SYN请求比例, UDP请求比例, ICMP请求比例, 美国请求比例, 中国请求比例, 俄罗斯请求比例, 其他国家请求比例, 平均请求包大小]。
由于目标IP地址是单一值,可以将其转换为一个特定的编码,比如使用哈希函数或者简单地分配一个唯一的标识符。然而,为了简单起见,在这个例子中,假设只有一个固定的目标IP地址,因此不需要对其进行编码,可以将其视为一个常量或者忽略不计。
对于流量峰值和平均请求包大小,这些是连续变量,可以直接使用它们的数值。而对于请求类型和请求来源国家这样的分类变量,使用独热编码。独热编码会为每个可能的类别创建一个新的二进制特征,如果数据属于该类别,则对应的特征值为1,否则为0。
下面是一个示例的编码过程:
源IP地址数量: 1000 (直接使用数值)
目标IP地址: 忽略 (或者可以设为一个常量,但在此不包含在特征向量中)
流量峰值: 5000 (假设以Mbps为单位,5 Gbps = 5000 Mbps)
SYN请求比例: 0.8 (或者转换为百分比形式,即80)
UDP请求比例: 0.15 (或者15)
ICMP请求比例: 0.05 (或者5)
美国请求比例: 0.4 (或者40)
中国请求比例: 0.3 (或者30)
俄罗斯请求比例: 0.2 (或者20)
其他国家请求比例: 0.1 (或者10)
平均请求包大小: 1000 (直接使用数值)
但是,如果严格遵循独热编码的原则,对于请求类型和请求来源国家,编码将会是这样:
请求类型 (SYN, UDP, ICMP): [1, 0, 0], [0, 1, 0], [0, 0, 1]。
请求来源国家 (美国, 中国, 俄罗斯, 其他): [1, 0, 0, 0], [0, 1, 0, 0],[0, 0, 1, 0], [0, 0, 0, 1]。
然而,由于请求类型分布和请求来源国家是多个类别的组合,不能简单地将它们各自的独热编码拼接起来,因为这样会违反独热编码的原则(即一个特征只能有一个类别为1)。相反,应该为每个类别保留一个特征,并使用其比例作为特征值。因此,最终的特征向量可能看起来像这样(这里保留了比例而不是转换为独热编码,因为比例提供了更有用的信息):
目标数据表征向量=[1000, 5000, 0.8, 0.15, 0.05, 0.4, 0.3, 0.2, 0.1,1000]
这里,省略了目标IP地址,因为它在这个简化的例子中不是变量。如果目标IP地址有多个可能的值,并且想要将其包含在特征向量中,可以使用类似独热编码的方法来处理它。然而,如果只有一个固定的目标IP地址,则无需编码。请注意,目标数据表征向量的确切形式和长度取决于所选择的特征和数据集的特性。上面的例子是为了说明如何构建一个特征向量而提供的,并且在实际应用中可能会有所不同。
步骤S10是整个基于多元事件分析的网络安全威胁识别方法的首要步骤,主要任务是从复杂的资源映射数据中抽取与特定安全事件类型相关的数据表征向量。这个过程涉及到了对原始数据的理解和转换,是后续分析和识别工作的基础。
前述内容已经明确什么是目标资源映射数据。简单来说,这是通过资源模型将元数据中的元素、属性和关系投影到目标数据格式后得到的语义数据。这里的“元数据”可以理解为描述网络活动、事件和安全威胁的原始数据,而“资源模型”则是一个用于定义和组织这些数据的框架或模型。通过资源模型的映射,原始数据被转换成了一种更易于理解和分析的形式,即目标资源映射数据。
接下来,步骤S10从这些目标资源映射数据中抽取特定安全事件类型的目标数据表征向量。表征向量是一种用于描述数据特征的多维向量,它可以通过各种算法和技术从原始数据中提取出来。在这个步骤中,计算机系统会根据预定义的安全事件类型(如DDoS攻击、恶意软件感染等),对目标资源映射数据进行扫描和筛选,以找出与这些事件类型相关的数据片段。为了更具体地说明这个过程,可以举一个简单的例子。假设有一组目标资源映射数据描述了某个时间段内的网络流量情况,其中包括了正常的网络请求、异常的流量峰值以及潜在的恶意连接等信息。现在,想要抽取与DDoS攻击相关的数据表征向量。首先,计算机系统会对这组数据进行扫描,识别出与DDoS攻击相关的特征,如异常的流量模式、大量的请求来自同一IP地址等。然后,它会将这些特征编码成一组向量,这组向量就构成了对应DDoS攻击的目标数据表征向量。
需要注意的是,在实际应用中,步骤S10的实现可以涉及到更复杂的算法和技术,如特征工程、降维处理等。此外,为了提高表征向量的准确性和有效性,还可能需要借助机器学习模型来进行特征学习和选择。例如,可以使用深度学习模型(如卷积神经网络CNN或循环神经网络RNN)来处理大规模的网络流量数据,并自动学习出与DDoS攻击相关的特征表示。这些特征表示可以进一步用于构建表征向量,为后续的网络安全威胁识别提供有力的支持。
在一种实施方式中,步骤S10,从具有一种或多种安全事件类型的目标资源映射数据中,抽取特定安全事件类型的目标数据表征向量,包括以下步骤:
步骤S11:从具有一种或多种安全事件类型的目标资源映射数据中,获取具有特定安全事件类型的目标数据簇。
目标数据簇是指一组具有相似特征或属性的数据的集合。在这个步骤中,计算机系统会根据预定义的安全事件类型(如DDoS攻击、恶意软件感染等),对目标资源映射数据进行扫描和筛选,以找出与这些事件类型相关的数据簇。
为了更具体地说明这个过程,可以举一个简单的例子。假设有一组目标资源映射数据描述了某个时间段内的网络流量情况,其中包括了正常的网络请求、异常的流量峰值以及潜在的恶意连接等信息。现在,想要获取与DDoS攻击相关的目标数据簇。首先,计算机系统会对这组数据进行扫描,识别出与DDoS攻击相关的特征,如异常的流量模式、大量的请求来自同一IP地址等。然后,它会将这些具有相似特征的数据组织成一个数据簇,这个数据簇就是具有DDoS攻击类型的目标数据簇。需要注意的是,在实际应用中,步骤S11的实现可以涉及到更复杂的算法和技术,如聚类分析、模式识别等。此外,为了提高数据簇的准确性和有效性,还可能需要借助机器学习模型来进行特征学习和选择。例如,可以使用深度学习模型(如卷积神经网络CNN或循环神经网络RNN)来处理大规模的网络流量数据,并自动学习出与DDoS攻击相关的特征表示。这些特征表示可以进一步用于构建数据簇,为后续的网络安全威胁识别提供有力的支持。
步骤S12:将目标数据簇分为多个事件描述序列,并获取多个事件描述序列分别对应的特征单元序列;其中,每个特征单元序列中的一个特征单元用于指示相应事件描述序列中的一个数据项。
具体地,计算机系统将目标数据簇分解为多个事件描述序列。事件描述序列是对单一安全事件的详细记录,它包含了描述该事件发生、发展和结束所需的所有信息。例如,在一个DDoS攻击事件中,事件描述序列可能包括攻击开始的时间、攻击的源IP地址、攻击的目标IP地址、攻击持续的时间、攻击流量的大小等。通过将目标数据簇分解为多个这样的事件描述序列,可以更细致地了解和分析每一个安全事件的具体情况和特征。然后,计算机系统会为每个事件描述序列生成一个对应的特征单元序列(又称令牌序列,一个特征单元即一个令牌)。特征单元序列是由一系列特征单元组成的,每个特征单元用于指示相应事件描述序列中的一个数据项。这些特征单元是对事件描述序列中的数据项进行特征表示得到的结果,例如进行特征提取或编码得到,特征单元序列可以认为是一个特征向量,特征向量中的元素即特征单元。通过为每个事件描述序列生成特征单元序列,可以更方便地对事件描述序列进行处理和分析,例如进行模式识别、异常检测等。
在实际应用中,为了将目标数据簇分解为多个事件描述序列,可以使用聚类算法(如K-means算法、层次聚类算法等)或序列分割算法(如基于时间窗口的分割算法、基于事件边界的分割算法等)。这些算法可以根据数据簇中的特征或属性,将数据簇划分为多个具有相似性或连续性的事件描述序列。同时,为了生成事件描述序列对应的特征单元序列,可以使用自然语言处理(NLP)中的标记化技术。这些技术可以将文本或数据序列转换为特征单元序列,例如将句子转换为单词序列、将时间序列转换为时间点序列等。在网络安全领域,可以使用类似的标记化技术来处理事件描述序列中的数据项,例如将IP地址转换为表示IP地址格式的特征单元、将端口号转换为表示端口号范围的特征单元等,可以理解,对于离散数据,可以采用独热编码技术进行编码。
步骤S13:基于多个事件描述序列的分布顺次,对获取的多个特征单元序列进行批量操作,获得目标数据簇的初始特征单元序列。
在网络安全领域中,事件描述序列通常指的是一系列按时间顺序排列的安全事件记录。这些记录包含了关于安全事件的各种信息,如事件类型、发生时间、源IP地址、目标IP地址等。而“分布顺次”则指的是这些事件描述序列在时间轴上的排列顺序,即它们发生的先后顺序。接下来,计算机系统根据这些事件描述序列的分布顺次,对从步骤S12中获取的多个特征单元序列进行批量操作。这里的“批量操作”指的是一种数据处理方式,即同时对多个数据项进行相同的操作,以提高处理效率。在这个步骤中,计算机系统会对每个特征单元序列进行相同的处理操作,如筛选、排序、合并等,以确保它们与对应的事件描述序列保持一致。
具体来说,计算机系统按照事件描述序列的分布顺次,对特征单元序列进行排序操作,使得每个特征单元序列中的特征单元都按照对应事件发生的先后顺序进行排列。此外,计算机系统还可能会对特征单元序列进行筛选操作,去除其中的冗余或无效特征单元,以提高后续处理的准确性和效率。
举个例子来说明这个过程:假设有一组关于DDoS攻击的事件描述序列,每个序列都包含了攻击开始时间、源IP地址、目标IP地址等信息。同时,还从步骤S12中获取了与这些事件描述序列对应的特征单元序列。现在,需要按照事件描述序列的分布顺次,对这些特征单元序列进行批量操作。
首先,计算机系统根据攻击开始时间对事件描述序列进行排序。然后,它会按照排序后的顺序,对每个特征单元序列进行相同的操作。例如,它可能会去除每个特征单元序列中的冗余特征单元(如重复的IP地址),或者对特征单元进行合并操作(如将多个连续的相同特征单元合并为一个)。最终,经过这些批量操作后,会得到一组与排序后的事件描述序列相对应的初始特征单元序列。
步骤S13它通过对多个特征单元序列进行批量操作,获得了与事件描述序列相对应的初始特征单元序列。这一步骤的实现需要充分考虑事件描述序列的分布顺次和处理需求,以确保后续处理的准确性和效率。
步骤S14:依据各个特征单元属于特定安全事件类型的置信度,对初始特征单元序列进行处理,获得目标资源映射数据中特定安全事件类型的目标数据表征向量。
步骤S14负责将初始特征单元序列转化为特定安全事件类型的目标数据表征向量。这一步骤的核心在于依据各个特征单元属于特定安全事件类型的置信度来对初始特征单元序列进行处理。在机器学习和统计学习中,置信度通常指的是一个模型对于其预测结果的确定性程度。本申请实施例中,置信度反映了每个特征单元被判定为属于特定安全事件类型的可靠性。高置信度意味着模型对于该特征单元属于特定安全事件类型的判断更加确定,而低置信度则表明存在较大的不确定性。
在步骤S14中,计算机系统根据初始特征单元序列中每个特征单元的置信度来进行处理。例如,将初始特征单元序列中,置信度大于置信度阈值的至少一个特征单元进行组合,获得目标资源映射数据中特定安全事件类型的目标数据表征向量。具体来说,处理的方式可以包括:
筛选高置信度特征单元:计算机系统可以设定一个置信度阈值,只保留那些置信度高于阈值的特征单元。这样做可以去除那些不确定性较高的特征单元,提高后续分析的准确性。
加权处理:对于保留的特征单元,计算机系统可以根据其置信度赋予不同的权重。高置信度的特征单元将被赋予更大的权重,从而在后续的计算和分析中发挥更大的作用。
特征提取与转换:基于特征单元的置信度和权重,计算机系统可以进一步提取和转换这些特征单元所代表的特征,将之组合在一起,获得目标资源映射数据中特定安全事件类型的目标数据表征向量。
例如,假设的初始特征单元序列中包含了多个与DDoS攻击相关的特征单元,每个特征单元都有一个对应的置信度。计算机系统首先会筛选出那些置信度高于设定阈值的特征单元,如只保留置信度大于0.8的特征单元。然后,对于筛选出的特征单元,计算机会根据它们的置信度赋予相应的权重,如置信度为0.9的特征单元被赋予更大的权重。最后,基于这些加权后的特征单元,计算机系统会提取和转换出与DDoS攻击相关的特征,如攻击流量的大小、持续时间等,并将这些特征组合成一个目标数据表征向量。
步骤S20:基于特定安全事件类型的指引表征向量,对目标数据表征向量进行整合操作,获得目标整合表征向量;具体地,指引表征向量用于指示多个过往资源映射数据分别针对特定安全事件类型抽取的过往数据表征向量,与对应的对照事件威胁标记之间的相关性。
如上所述,指引表征向量是一种特殊类型的特征向量,它包含了关于特定安全事件类型的信息。这个向量是通过分析多个过往资源映射数据和对应的对照事件威胁标记之间的相关性来得到的。换句话说,指引表征向量编码了过往数据表征向量与对照事件威胁标记之间关系的统计信息,从而为当前的目标数据表征向量提供了有价值的参考(又称为指引或提示)。在步骤S20中,计算机系统使用指引表征向量对目标数据表征向量进行整合操作。整合操作可以是相加、拼接或其他类型的数学运算,具体取决于数据的特点和整合的目的。通过整合操作,计算机系统能够将目标数据表征向量与指引表征向量中的信息结合起来,生成一个更全面、更丰富的目标整合表征向量。
在一种实施方式中,指引表征向量依据如下步骤获取得到:
步骤S21:获取多个过往资源映射数据分别针对特定安全事件类型抽取的过往数据表征向量和对应的对照事件威胁标记;以及,获取任意构建的初始指引表征向量。
步骤S21中,计算机系统从存储系统中获取多个过往资源映射数据。这些数据是之前网络安全事件中收集并存储的,它们包含了关于特定安全事件类型的信息。对于每个过往资源映射数据,计算机系统抽取出一个过往数据表征向量。这个向量是对过往资源映射数据的数学表示,它捕捉了数据的关键特征。
同时,计算机系统还获取与这些过往数据表征向量对应的对照事件威胁标记。这些标记是对过往安全事件的标签或注解,它们指示了事件的真实性质或结果,如攻击成功或失败、恶意软件类型等。这些对照事件威胁标记在后续的优化过程中将作为参考标准。
除了过往数据表征向量和对照事件威胁标记外,计算机系统还需要获取一个任意构建的初始指引表征向量。这个初始向量是优化过程的起点,它可以是随机生成的,也可以是基于某种先验知识或假设构建的。初始指引表征向量的选择对后续的优化结果有一定的影响,但它会在优化过程中逐渐被调整和改进。需要注意的是,步骤S21中获取的数据和向量都是针对特定安全事件类型的。这意味着在计算机处理不同类型的安全事件时,需要分别获取相应类型和上下文相关的数据和向量。
例如,假设正在处理一系列的网络入侵事件。计算机系统会从存储系统中获取这些事件的过往资源映射数据,并从中抽取出描述事件特征的过往数据表征向量。同时,设备还会获取与这些事件对应的对照事件威胁标记,如攻击类型、攻击来源等。此外,设备还需要一个初始的指引表征向量来开始优化过程。这个初始向量可以是基于以往经验或专家知识构建的,也可以是随机生成的。在获取了这些数据和向量后,计算机系统就可以进入下一步的优化过程了。
步骤S22:分别通过每个过往数据表征向量和对应的对照事件威胁标记,对初始指引表征向量进行反复优化,获得优化后的指引表征向量。
计算机系统会遍历每个过往数据表征向量和对应的对照事件威胁标记。对于每一对过往数据表征向量和对照事件威胁标记,设备会执行一系列的计算和操作,以评估当前指引表征向量的有效性,并根据评估结果对其进行调整。优化的过程可能包括多种数学运算和算法,在这个过程中,计算机系统会不断地重复上述步骤,直到满足某个停止条件,如达到预设的最大迭代次数、优化目标函数的值收敛等。通过反复优化,初始指引表征向量会逐渐被调整为一个更能够反映过往数据表征向量和对照事件威胁标记之间关系的优化后的指引表征向量。需要注意的是,步骤S22中的优化过程是一个迭代的过程,它需要多次使用过往数据表征向量和对照事件威胁标记来逐步调整指引表征向量。因此,在实际应用中,需要确保有足够数量和质量的过往数据以及准确的对照事件威胁标记,以获得更好的优化效果。步骤S22通过反复优化初始指引表征向量,使其逐渐逼近能够真实反映过往数据表征向量和对照事件威胁标记之间关系的最优指引表征向量。
其中,在一次优化时,包括:
步骤S221:基于当次优化对应的初始指引表征向量,对一个过往数据表征向量进行整合操作,获得过往整合表征向量。
步骤S221中,计算机系统选取一个过往数据表征向量作为整合操作的对象。这个过往数据表征向量是从之前收集的网络安全事件的过往资源映射数据中抽取得到的,它包含了关于特定安全事件类型的信息。接下来,使用当前优化迭代对应的初始指引表征向量来对这个过往数据表征向量进行整合操作。整合操作可以是相加、拼接或其他数学运算,具体取决于整合的目的和数据的特点。通过整合操作,计算机系统能够将初始指引表征向量中的信息与过往数据表征向量中的信息结合起来,生成一个包含更丰富信息的过往整合表征向量。这个过程可以理解为,计算机系统在尝试将初始指引表征向量的信息与过往数据表征向量的信息相融合,以期望得到一个更全面、更准确的表征向量来描述过往安全事件。通过不断地优化和调整初始指引表征向量,可以逐渐获得一个能够更好地反映过往数据特征的指引表征向量。需要注意的是,步骤S221中的整合操作是基于当前优化迭代对应的初始指引表征向量进行的。这意味着在不同的优化迭代中,初始指引表征向量会有所不同,从而导致生成的过往整合表征向量也会有所不同。通过多次迭代和优化,计算机系统可以逐渐逼近一个最优的指引表征向量。
步骤S222:基于过往整合表征向量与相应对照事件威胁标记的事件威胁标记表征向量之间的共性度量系数,优化当次优化对应的初始指引表征向量,获得优化后的指引表征向量,将其确定为后一次优化对应的初始指引表征向量。
步骤S222中,计算机系统利用过往整合表征向量与相应对照事件威胁标记的事件威胁标记表征向量之间的共性度量系数,来对当次优化对应的初始指引表征向量进行优化,并进而获得一个优化后的指引表征向量。这个优化后的指引表征向量将被用作下一次优化迭代的初始指引表征向量。
具体来说,计算机系统首先计算过往整合表征向量与相应对照事件威胁标记的事件威胁标记表征向量之间的共性度量系数。这个共性度量系数反映了两者之间的相似性或一致性程度,其计算方式可能涉及余弦相似度、欧氏距离等度量方法。共性度量系数的值越高,说明过往整合表征向量与事件威胁标记表征向量之间的共性越强,即它们所描述的安全事件特征越相似。接下来,计算机系统根据共性度量系数的值来优化当次优化对应的初始指引表征向量。优化的具体方式可能包括调整向量的权重参数、改变向量的维度或结构等。优化的目标是使得优化后的指引表征向量能够更好地反映过往数据中的安全事件特征,同时与对照事件威胁标记更加一致。在获得优化后的指引表征向量后,计算机系统会将其确定为下一次优化迭代的初始指引表征向量。这样,通过多次迭代和优化,初始指引表征向量会逐渐逼近一个能够真实反映过往数据特征的最优指引表征向量。
例如,假设在一次优化迭代中,计算机系统计算得到了一个过往整合表征向量与相应对照事件威胁标记的事件威胁标记表征向量之间的共性度量系数。如果这个共性度量系数的值较低,说明两者之间的共性较弱,即它们所描述的安全事件特征存在较大差异。为了减小这种差异,计算机系统会对当次优化对应的初始指引表征向量进行调整和优化,以获得一个与过往数据和对照事件威胁标记更加一致的指引表征向量。然后,这个优化后的指引表征向量将被用作下一次优化迭代的初始指引表征向量,继续进行优化和调整。通过多次迭代和优化,计算机系统可以逐渐获得一个最优的指引表征向量,用于描述和预测未来的安全事件。
作为一种实现方案,上述步骤S221,基于当次优化对应的初始指引表征向量,对一个过往数据表征向量进行整合操作,获得过往整合表征向量,具体可以包括:
步骤S2211:将当次优化对应的初始指引表征向量与过往每次优化对应的初始指引表征向量进行内部注意力表征向量融合处理,以及,将当次优化对应的指引表征向量与一个过往数据表征向量进行互注意力表征向量融合处理,获得过渡指引表征向量。
步骤S2211中,计算机系统利用内部注意力(也即自注意力)和互注意力(也即交叉注意力)机制来进行表征向量的融合处理,以获得一个过渡指引表征向量(也被称为中间态指引表征向量)。首先,计算机系统进行自注意力表征向量融合处理。自注意力机制允许模型在处理单个序列时,关注序列内部不同位置的重要性。在这个场景下,将当次优化对应的初始指引表征向量与过往每次优化对应的初始指引表征向量进行自注意力处理。这意味着分析这些初始指引表征向量之间的关系,并根据它们之间的相关性或重要性进行加权融合。通过这种方式,能够捕捉到初始指引表征向量序列中的内部依赖关系,从而生成一个更加丰富和全面的表征。其次,计算机系统会进行互注意力表征向量融合处理。互注意力机制允许模型在处理两个不同序列时,关注它们之间的相关性。在这个步骤中,设备将当次优化对应的指引表征向量(即初始指引表征向量)与一个过往数据表征向量进行互注意力处理。这意味着分析这两个表征向量之间的关系,并根据它们之间的相关性进行信息交换和融合。通过这种方式,模型能够将指引表征向量中的信息与过往数据表征向量中的信息有效地结合起来,生成一个包含两者信息的过渡指引表征向量。需要注意的是,步骤S2211中的内部注意力和互注意力处理可以是同时进行的,也可以是顺序进行的,具体取决于实现方式。此外,这两种注意力机制的实现方式可以基于现有的注意力模型或算法,如Transformer模型中的自注意力和互注意力机制。
例如,假设正在处理一个网络安全事件的表征向量序列。在某一次优化迭代中,有一个当次优化对应的初始指引表征向量和一系列过往优化对应的初始指引表征向量。首先,可以使用自注意力机制来分析这些初始指引表征向量之间的关系,并根据它们之间的相关性进行加权融合,生成一个包含内部依赖关系的表征。然后,可以将这个表征与一个过往数据表征向量进行互注意力处理,以捕捉它们之间的相关性并进行信息交换。最终,将得到一个包含两者信息的过渡指引表征向量,用于后续的整合操作。
步骤S2212:基于过渡指引表征向量,对一个过往数据表征向量进行整合操作,获得一个过往数据表征向量的过往整合表征向量。
在步骤S2212中,计算机系统使用过渡指引表征向量来对一个过往数据表征向量进行整合操作。这个整合操作的目的是将过渡指引表征向量中的信息与过往数据表征向量中的信息有效地结合起来,以生成一个过往数据表征向量的过往整合表征向量。整合操作的具体方式可以根据实际情况进行选择,例如可以是加权求和、拼接、逐元素相乘等。选择哪种整合方式取决于数据的特性和模型的需求。例如,如果过渡指引表征向量和过往数据表征向量的维度相同,那么逐元素相乘可能是一个合适的选择;如果它们的维度不同,那么拼接可能更为合适。
需要注意的是,步骤S2212中的整合操作是针对一个过往数据表征向量进行的。这意味着在每次优化迭代中,都会选取一个过往数据表征向量与过渡指引表征向量进行整合。选取哪个过往数据表征向量可以根据一定的策略进行,例如可以是随机选取、按照时间顺序选取、根据某种评估指标选取等。例如,假设已经通过步骤S2211获得了一个过渡指引表征向量,并且有一个过往数据表征向量的集合。在步骤S2212中,可以从这个集合中选取一个过往数据表征向量,并使用过渡指引表征向量对其进行整合操作。例如,可以将过渡指引表征向量和过往数据表征向量进行拼接,然后通过一个神经网络模型进行处理,以生成一个过往数据表征向量的过往整合表征向量。这个过往整合表征向量将包含过渡指引表征向量和过往数据表征向量的信息,用于后续的优化和预测任务。
步骤S2212通过对过渡指引表征向量和过往数据表征向量进行整合操作,生成一个过往数据表征向量的过往整合表征向量的关键步骤。它在整个指引表征向量的获取过程中起着重要的作用,有助于提升模型对过往数据的理解和预测能力。
作为一种实现方案,上述步骤S222,基于过往整合表征向量与相应对照事件威胁标记的事件威胁标记表征向量之间的共性度量系数,优化当次优化对应的初始指引表征向量,获得优化后的指引表征向量,具体可以包括:
步骤S2221:获取过往整合表征向量和对应过往数据表征向量的对照事件威胁标记的事件威胁标记表征向量之间的第一共性度量系数。
过往整合表征向量是通过对初始指引表征向量和过往数据表征向量进行整合操作获得的,它包含了这两者的信息。对照事件威胁标记的事件威胁标记表征向量则是与过往数据表征向量相对应的事件威胁标记的表征,用于描述该事件的威胁特征。第一共性度量系数则是衡量这两者之间相似性或一致性的指标。在步骤S2221中,计算机系统计算过往整合表征向量和对应过往数据表征向量的对照事件威胁标记的事件威胁标记表征向量之间的第一共性度量系数。这个计算过程可以通过各种相似性度量方法来实现,例如余弦相似度、欧氏距离等。选择哪种度量方法取决于数据的特性和模型的需求。计算第一共性度量系数的目的是为了评估过往整合表征向量与对应事件威胁标记表征向量之间的相似程度。如果第一共性度量系数的值较高,说明两者之间的相似性较强,即过往整合表征向量能够较好地反映对应事件的威胁特征。反之,如果第一共性度量系数的值较低,则说明两者之间的相似性较弱,需要进一步优化初始指引表征向量以提升整合效果。
例如,有一个过往整合表征向量A和对应过往数据表征向量的对照事件威胁标记的事件威胁标记表征向量B。可以使用余弦相似度来计算它们之间的第一共性度量系数。余弦相似度的值域为[-1, 1],值越接近1表示两者越相似,值越接近-1表示两者越不相似。通过计算A和B之间的余弦相似度,可以得到一个具体的数值作为第一共性度量系数,用于评估A和B之间的相似程度。
步骤S2222:在获得的多个过往数据表征向量中,确定对应过往数据表征向量以外的其余过往表征向量。
在步骤S2222中,计算机系统从已获得的多个过往数据表征向量中,确定出对应过往数据表征向量以外的其余过往表征向量。这里,“对应过往数据表征向量”指的是在步骤S2221中用于计算第一共性度量系数的那个过往数据表征向量。而“其余过往表征向量”则是指除了这个对应过往数据表征向量以外的其他过往数据表征向量。确定其余过往表征向量的目的是为了在后续的步骤中与过往整合表征向量进行比较,以计算第二共性度量系数。这些第二共性度量系数将用于评估过往整合表征向量与其余过往数据表征向量之间的相似性,并进一步用于优化初始指引表征向量。
实施这一步骤时,计算机系统可以通过简单的排除法来确定其余过往表征向量。具体来说,设备会从已存储的过往数据表征向量集合中去除对应过往数据表征向量,剩下的就是其余过往表征向量。
例如,有5个过往数据表征向量,分别标记为V1、V2、V3、V4和V5。在步骤S2221中,使用了V1作为对应过往数据表征向量来计算第一共性度量系数。那么在步骤S2222中,计算机系统就会确定出V2、V3、V4和V5作为其余过往表征向量。这些向量将在后续的步骤中与过往整合表征向量进行比较,以计算第二共性度量系数。
步骤S2223:分别获取过往整合表征向量和各个其余过往数据表征向量分别对应的对照事件威胁标记的事件威胁标记表征向量之间的第二共性度量系数。
在步骤S2223中,计算机系统计算过往整合表征向量与各个其余过往数据表征向量分别对应的对照事件威胁标记的事件威胁标记表征向量之间的第二共性度量系数。这些系数用于衡量过往整合表征向量与其余过往数据表征向量在事件威胁标记层面上的相似性。实施这一步骤时,计算机系统遍历每一个其余过往数据表征向量,并分别计算它们与过往整合表征向量之间的第二共性度量系数。这个计算过程可以通过使用各种相似性度量方法来实现,如余弦相似度、欧氏距离等,具体选择哪种方法取决于数据的特性和模型的需求。
计算第二共性度量系数的目的是为了在后续的优化处理中,利用这些系数来调整初始指引表征向量,以提高其对应生成的过往整合表征向量与其余过往数据表征向量在事件威胁标记层面上的不相似性。这样做的原因在于,希望通过优化处理,使得过往整合表征向量更加专注于反映当前对应事件的威胁特征,而与其他事件的威胁特征保持一定的区分度。
例如,有一个过往整合表征向量A,以及三个其余过往数据表征向量B、C和D。这三个向量分别对应不同的事件威胁标记表征向量B'、C'和D'。在步骤S2223中,计算机系统分别计算A与B'、A与C'以及A与D'之间的第二共性度量系数。这些系数将用于后续的优化处理中,以调整初始指引表征向量,使得生成的过往整合表征向量更加准确地反映当前对应事件的威胁特征。需要注意的是,步骤S2223中的计算过程需要确保准确性和效率。为了实现这一点,可以采用一些优化技术,如并行计算、缓存机制等,以提高计算速度和减少资源消耗。
步骤S2223是获取过往整合表征向量与各个其余过往数据表征向量对应的对照事件威胁标记的事件威胁标记表征向量之间的第二共性度量系数的关键步骤。它为后续的优化处理提供了重要的相似性评估指标,有助于提升模型对过往数据的理解和预测能力。
步骤S2224:依据第一共性度量系数对当次优化对应的初始指引表征向量的积极牵动结果,以及依据各个第二共性度量系数各自对当次优化对应的初始指引表征向量的消极牵动结果,对当次优化对应的初始指引表征向量进行优化处理,获得优化后的指引表征向量。
其中,积极牵动结果用于指示随着第一共性度量系数越高,对应的初始指引表征向量的准确度越高,基于对应的初始指引表征向量生成的过往整合表征向量与对应的事件威胁标记表征向量越相似,消极牵动结果用于指示随着第二共性度量系数越低,对应的初始指引表征向量的准确度越高,基于对应的初始指引表征向量生成的过往整合表征向量与其余的各事件威胁标记表征向量越不相似。
在步骤S2224中,计算机系统根据第一共性度量系数对当次优化对应的初始指引表征向量的积极牵动结果,以及根据各个第二共性度量系数各自对当次优化对应的初始指引表征向量的消极牵动结果,对初始指引表征向量进行优化处理。这里,“积极牵动结果”指的是随着第一共性度量系数的降低,初始指引表征向量的准确度提高,使得基于该向量生成的过往整合表征向量与对应的事件威胁标记表征向量更加相似。相反,“消极牵动结果”指的是随着第二共性度量系数的降低,初始指引表征向量的准确度提高,使得基于该向量生成的过往整合表征向量与其余的事件威胁标记表征向量更加不相似。
实施这一步骤时,计算机系统可以采用各种优化算法或技术,如梯度下降法、遗传算法等,来根据第一共性度量系数和第二共性度量系数调整初始指引表征向量的参数。优化的目标是最小化第一共性度量系数(提高相似度)和最大化第二共性度量系数(降低相似度),从而使得优化后的指引表征向量能够更准确地反映当前事件的威胁特征。
例如,有一个初始指引表征向量X,它用于生成过往整合表征向量Y。在步骤S2221和S2223中,计算了Y与对应事件威胁标记表征向量Z之间的第一共性度量系数,以及Y与其余事件威胁标记表征向量之间的第二共性度量系数。在步骤S2224中,计算机会根据这些系数来调整X的参数。如果第一共性度量系数较高,说明Y与Z之间的相似度较低,计算机会通过调整X的参数来降低该系数,提高Y与Z的相似度。同时,如果某个第二共性度量系数较低,说明Y与某个其余事件威胁标记表征向量之间的相似度较高,计算机会通过调整X的参数来提高该系数,降低Y与该向量的相似度。通过这样的优化处理,可以获得一个更加准确的指引表征向量,用于后续的整合和预测任务。
需要注意的是,在实际应用中,步骤S2224的优化过程可能需要迭代多次才能达到满意的结果。此外,为了提高优化效率,可以采用一些启发式方法或近似算法来加速优化过程。
步骤S2224是依据第一共性度量系数和第二共性度量系数对初始指引表征向量进行优化处理的关键步骤。通过调整向量的参数来最小化第一共性度量系数和最大化第二共性度量系数,可以获得一个更加准确的指引表征向量,用于提升模型对过往数据的理解和预测能力。
作为一种实现方案,步骤S20中,基于特定安全事件类型的指引表征向量,对目标数据表征向量进行整合操作,获得目标整合表征向量,包括:
步骤S23:获取包含预设向量维数的指引表征向量;
步骤S24:基于指引表征向量,对目标数据表征向量的向量维数进行维数调整处理,得到包含预设向量维数的目标整合表征向量。
步骤S23中,计算机系统从预先定义的向量集合或者通过某种算法生成的向量中,获取一个具有预先设定维数的指引表征向量。这个指引表征向量通常是根据特定安全事件类型的特点和需求来定义的,其维数和每一维的取值都反映了该安全事件类型在某种特征空间中的表现。
例如,有一个针对网络攻击事件的指引表征向量,它可能包含攻击类型、攻击源、攻击目标、攻击时间等多个维度。这些维度分别对应向量中的不同元素,每个元素的取值都反映了该维度上的特定信息。计算机系统在步骤S23中会获取这样一个具有特定维数和取值的指引表征向量,以便在后续的整合操作中使用。
步骤S24中,计算机系统根据步骤S23中获取的指引表征向量的维数和取值,对目标数据表征向量进行维数调整处理。这个处理过程可能包括增加或减少向量的维度、对向量中的元素进行缩放或归一化等操作,以使得调整后的目标数据表征向量与指引表征向量在维数和取值上保持一致或相似。
继续上面的例子,假设有一个目标数据表征向量,它原本只包含攻击类型和攻击时间两个维度。在步骤S24中,计算机系统会根据指引表征向量的维数和取值,对这个目标数据表征向量进行维数调整处理。这个处理过程可能包括增加攻击源和攻击目标这两个维度,并对原有的攻击类型和攻击时间维度进行缩放或归一化等操作,以使得调整后的目标数据表征向量与指引表征向量在维数和取值上更加一致或相似。从而让目标整合表征向量
步骤S30:对目标整合表征向量进行量化操作,获得目标压缩表征向量,以及对目标压缩表征向量,在多个过往资源映射数据分别对应的过往压缩表征向量中,筛选符合设定的量化共性要求的一个或多个对照压缩表征向量。
步骤S30中,对目标整合表征向量进行量化操作,也就是将其从连续值转换为离散值,获得目标压缩表征向量。这一操作的目的是减少数据的复杂性和维度,同时保留足够的信息以进行后续的分析和处理。量化操作可以通过多种方法实现,例如等宽分箱、等频分箱或基于聚类的离散化等。具体选择哪种方法取决于数据的特性和需求。以等宽分箱为例,计算机系统会将目标整合表征向量的每个维度的值域划分为若干个等宽的区间,然后将每个维度的值映射到对应的区间编号上,从而得到离散化的目标压缩表征向量。这个过程可以有效地降低数据的维度和复杂性,同时保留原始数据的主要特征。接下来,步骤S30要求在多个过往资源映射数据分别对应的过往压缩表征向量中,筛选符合设定的量化共性要求(即离散相似条件)的一个或多个对照压缩表征向量。这个过程涉及到对离散化后的目标压缩表征向量与过往压缩表征向量进行相似性度量,以找出与目标压缩表征向量在离散空间中最相似的一个或多个对照压缩表征向量。
相似性度量可以采用多种方法,如余弦相似度、汉明距离等。具体选择哪种方法取决于数据的特性和需求。例如,如果目标压缩表征向量和过往压缩表征向量都是二值向量(即每个维度的取值只有0和1),那么可以采用汉明距离来衡量它们之间的相似性。汉明距离是指两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。在这里,字符串可以看作是向量的表示,而字符则对应向量的维度。通过计算目标压缩表征向量与每个过往压缩表征向量之间的相似性度量值,并设定一个阈值或排序规则,计算机系统可以筛选出符合设定量化共性要求的一个或多个对照压缩表征向量。这些对照压缩表征向量在离散空间上与目标压缩表征向量具有较高的相似性,因此可以用于后续的分析和处理任务中。需要注意的是,在实际应用中,步骤S30的具体实现方式可能会根据数据的特性和需求而有所不同。例如,量化操作的方法、相似性度量的选择以及阈值或排序规则的设定等都需要根据具体情况进行调整和优化。此外,为了提高筛选的准确性和效率,还可以采用一些先进的机器学习算法或神经网络模型来辅助这个过程。步骤S30通过对目标整合表征向量进行量化操作和在过往资源映射数据中筛选符合量化共性要求的对照压缩表征向量,实现了数据的离散化和相似性匹配。这个过程有助于降低数据的复杂性和维度,同时保留足够的信息以进行后续的分析和处理任务。
在一种可能的实现方式中,步骤S30,对目标整合表征向量进行量化操作,获得目标压缩表征向量,包括:
步骤S31:获取多个过往资源映射数据分别对应的过往整合表征向量;其中,每个过往整合表征向量是基于指引表征向量,对相应过往资源映射数据的过往数据表征向量进行整合操作获得的。
步骤S31要求计算机系统获取多个过往资源映射数据分别对应的过往整合表征向量。这些过往整合表征向量是基于特定的指引表征向量,对相应的过往资源映射数据的过往数据表征向量进行整合操作而获得的。具体来说,过往资源映射数据是指之前已经处理过并存储在系统中的数据,这些数据可能与当前要处理的目标数据具有一定的关联性或相似性。过往数据表征向量是对这些过往资源映射数据进行特征提取和编码后得到的向量表示,它们反映了过往数据在某些特征空间中的分布和特性。而指引表征向量则是一个具有特定维数和取值的向量,它用于指导对过往数据表征向量的整合操作。整合操作的目的是将过往数据表征向量与指引表征向量进行融合,以得到一个更具代表性和可解释性的过往整合表征向量。这个整合过程可以通过各种方式实现,例如加权平均、拼接、卷积等,具体取决于指引表征向量的特性和整合操作的需求。
例如一组过往资源映射数据,每个数据都对应一个过往数据表征向量。同时,有一个针对特定安全事件类型的指引表征向量。在步骤S31中,计算机系统会根据这个指引表征向量,对每个过往数据表征向量进行整合操作,例如通过加权平均的方式将指引表征向量的每个元素与过往数据表征向量的对应元素进行融合,得到一个新的过往整合表征向量。这个过程会针对每个过往数据表征向量进行,最终得到一组与过往资源映射数据一一对应的过往整合表征向量。
在实际应用中,步骤S31的具体实现方式可能会根据数据的特性和需求而有所不同,具体不做限定。例如,指引表征向量的选择、整合操作的方式以及过往资源映射数据的来源等都需要根据具体情况进行调整和优化。此外,为了提高整合操作的准确性和效率,还可以采用一些先进的机器学习算法或神经网络模型来辅助这个过程。例如,可以使用深度学习中的自编码器模型来学习过往数据表征向量的低维表示,并将其作为过往整合表征向量;或者使用注意力机制来动态地调整指引表征向量与过往数据表征向量之间的权重分配,以获得更具代表性的过往整合表征向量。
步骤S31通过获取多个过往资源映射数据分别对应的过往整合表征向量,为后续的量化操作和相似性匹配提供了基础。这个过程有助于将原始的过往数据表征向量转化为更具针对性和可解释性的过往整合表征向量,为后续的安全事件分析和处理提供了有力的支持。
步骤S32:获取每个过往整合表征向量各自对应的过往压缩表征向量;其中,每个过往压缩表征向量是对相应过往整合表征向量进行量化操作后获得的。
步骤S32要求计算机系统获取每个过往整合表征向量各自对应的过往压缩表征向量。这些过往压缩表征向量是通过对相应的过往整合表征向量进行量化操作后获得的。量化操作是一种将连续值转换为离散值的过程,其目的是降低数据的复杂性和维度,同时保留足够的信息以进行后续的分析和处理。具体来说,在步骤S32中,计算机系统会对每个过往整合表征向量应用量化算法,将其从连续的高维空间映射到离散的低维空间。这个映射过程可以根据不同的量化策略来实现,例如等宽分箱、等频分箱、聚类离散化等。量化后的结果是一组离散的符号或标签,它们构成了过往压缩表征向量的元素。
例如有一组过往整合表征向量,每个向量都包含多个连续取值的特征。在步骤S32中,计算机系统会选择一个合适的量化算法,比如等宽分箱,来确定每个特征的离散化方案。然后,根据这个方案,将每个特征的连续值转换为离散的箱号或标签。这样,每个过往整合表征向量就被转换为一个由离散标签组成的过往压缩表征向量。
步骤S32通过对过往整合表征向量进行量化操作,获得了一组离散的过往压缩表征向量。这些向量在保留原始数据主要特征的同时,降低了数据的复杂性和维度,为后续的相似性匹配和压缩存储提供了便利。同时,步骤S32也是整个流程中连接连续值空间和离散值空间的重要桥梁,为后续的数据处理和分析奠定了基础。
步骤S33:针对目标整合表征向量,在获取的多个过往整合表征向量中,筛选符合预设整合共性要求的过往整合表征向量所对应的过往压缩表征向量确定为目标压缩表征向量。
其中,预设整合共性要求包括:目标整合表征向量与过往整合表征向量之间的共性度量系数,大于预设共性度量系数;或者,目标整合表征向量与各过往整合表征向量之间的共性度量系数中,取值最大的共性度量系数。
步骤S33要求计算机系统针对目标整合表征向量,在已获取的多个过往整合表征向量中进行筛选,以找出符合预设整合共性要求的过往整合表征向量所对应的过往压缩表征向量,这些被筛选出的过往压缩表征向量将被确定为目标压缩表征向量。在这个过程中,“预设整合共性要求”是一个重要的筛选标准,它用于衡量目标整合表征向量与过往整合表征向量之间的相似性或共性。具体来说,这个要求可以包括两种形式:一是目标整合表征向量与过往整合表征向量之间的共性度量系数大于一个预设的共性度量系数阈值;二是目标整合表征向量与各过往整合表征向量之间的共性度量系数中,取值最大的那个共性度量系数所对应的过往整合表征向量会被选中。共性度量系数是衡量两个向量之间相似性或共性的一个量化指标,它可以通过各种距离度量方法或相似性度量方法来计算,如余弦相似度、欧氏距离、皮尔逊相关系数等。在实际应用中,选择哪种度量方法取决于数据的特性和需求。
例如有一个目标整合表征向量A,以及三个过往整合表征向量B、C和D,它们分别对应三个过往压缩表征向量B'、C'和D'。在步骤S33中,计算机系统会首先计算A与B、C、D之间的共性度量系数。如果A与B的共性度量系数大于预设的阈值,或者A与B的共性度量系数是A与B、C、D中最大的,那么B'就会被确定为目标压缩表征向量。在实际应用中,步骤S33可能会面临多个过往整合表征向量同时满足预设整合共性要求的情况。这时,计算机系统可以根据额外的规则或策略来进行选择,例如选择共性度量系数最大的那个过往整合表征向量所对应的过往压缩表征向量作为目标压缩表征向量。
此外,为了提高筛选的准确性和效率,还可以采用一些先进的机器学习算法或神经网络模型来辅助这个过程。例如,可以使用基于深度学习的相似性匹配模型来学习目标整合表征向量与过往整合表征向量之间的复杂关系,并基于这些关系进行更精确的筛选。或者使用聚类算法对过往整合表征向量进行分组,然后在与目标整合表征向量最相似的那个组中选择一个代表性的过往整合表征向量所对应的过往压缩表征向量作为目标压缩表征向量。
步骤S33通过筛选符合预设整合共性要求的过往整合表征向量所对应的过往压缩表征向量来确定目标压缩表征向量。这个过程有助于在保留原始数据主要特征的同时降低数据的复杂性和维度,为后续的数据处理和分析提供了便利。同时,步骤S33也是整个流程中实现数据压缩和相似性匹配的关键步骤之一。
作为一种可行的设计,每个过往整合表征向量各自对应的过往压缩表征向量,分别是通过以下方式生成的:
步骤S3a:针对一个过往整合表征向量进行抽样处理,获得描述向量;其中,描述向量中的每个描述元素用于指示一种事件事项的内容。
步骤S3a要求计算机系统针对一个过往整合表征向量进行抽样处理,以获得描述向量。这里的抽样处理可以理解为从过往整合表征向量中选择一部分元素或特征来构成描述向量。描述向量中的每个描述元素都用于指示一种事件事项的内容,这些事件事项可以是事件的属性,如标识符、时间、类别、参与实体等。
具体来说,计算机系统会根据预设的抽样规则或策略,从过往整合表征向量中抽取一部分元素作为描述元素。这些描述元素应该是能够代表或描述原始过往整合表征向量中重要信息或特征的元素。抽样的方式可以是随机抽样、系统抽样、分层抽样等,具体取决于数据的特性和需求。
例如,有一个过往整合表征向量V,它包含了10个元素,分别代表了某个安全事件的10个不同特征。在步骤S3a中,计算机系统可以选择其中的5个元素进行抽样处理,得到一个包含5个描述元素的描述向量D。这5个描述元素可能分别代表了安全事件的标识符、发生时间、类别、源IP地址和目标IP地址等重要信息。步骤S3a通过抽样处理从过往整合表征向量中获得描述向量,为后续的投影处理和压缩表征向量的生成提供了基础。这个过程有助于在保留原始数据重要信息的同时降低数据的复杂性和维度,为后续的数据处理和分析提供了便利。
步骤S3b:将描述向量中的每个描述元素,分别投影至相应事件事项相关的向量域中,获得每个描述元素分别对应的投影描述元素;其中,每个投影描述元素用于指示相应事件事项的内容置信度。
在步骤S3b中,计算机系统对步骤S3a中生成的描述向量进行处理。对于描述向量中的每个描述元素,计算机系统会将其投影至与相应事件事项相关的向量域中。这里的“投影”可以理解为将描述元素映射到一个新的向量空间中,这个新的向量空间与相应事件事项的内容置信度相关联。投影的目的是将描述元素转换为一种更适合于后续处理的表示形式。具体来说,计算机系统根据预设的投影规则或模型,将每个描述元素映射到一个相应事件事项相关的向量域中。这个向量域可以是一个多维向量空间,其中的每个维度都代表了相应事件事项内容置信度的一个方面。投影的方式可以是线性变换、非线性变换、深度学习模型等,具体取决于数据的特性和需求。
例如,在步骤S3a中生成的描述向量包含了一个描述元素,它指示了某个安全事件的类别。在步骤S3b中,计算机系统会将这个描述元素投影至与安全事件类别相关的向量域中。这个向量域可以是一个多维向量空间,其中的每个维度分别代表了不同安全事件类别的置信度。通过投影处理,原始的描述元素被转换为一个新的向量表示形式,这个新的向量表示形式更适合于后续的内容置信度计算和压缩表征向量的生成。需要注意的是,在实际应用中,步骤S3b的具体实现方式可能会根据数据的特性和需求而有所不同。例如,投影的规则和模型可能需要根据数据的分布和重要性进行调整和优化。此外,为了提高投影处理的准确性和效率,还可以采用一些先进的机器学习算法或神经网络模型来辅助这个过程。例如,可以使用基于深度学习的投影模型来学习描述元素与相应事件事项之间的复杂关系,并基于这些关系进行更精确的投影处理。
步骤S3b通过将描述向量中的每个描述元素投影至相应事件事项相关的向量域中,获得了每个描述元素对应的投影描述元素。这个过程有助于将原始的描述元素转换为一种更适合于后续处理的表示形式,为后续的内容置信度计算和压缩表征向量的生成提供了基础。同时,步骤S3b也是整个流程中实现数据压缩和相似性匹配的关键步骤之一。
步骤S3c:基于获得的各投影描述元素,生成一个过往整合表征向量的过往压缩表征向量。
在步骤S3c中,计算机系统会根据步骤S3b中获得的各投影描述元素来生成过往整合表征向量的过往压缩表征向量。这个过程可以理解为将多个投影描述元素组合或融合成一个更紧凑、更低维度的表示形式,以便于后续的数据存储、传输和处理。具体来说,计算机系统采用预设的组合规则或算法,将各投影描述元素进行组合。这些组合规则或算法可以是简单的加权平均、最大值选择、最小值选择等,也可以是更复杂的机器学习模型或神经网络。组合的目的是提取各投影描述元素中的重要信息,并将其融合到一个统一的表示形式中。
例如,假设在步骤S3b中获得了三个投影描述元素A、B和C,它们分别代表了某个安全事件的不同方面的内容置信度。在步骤S3c中,计算机系统可以采用加权平均的方式,将A、B和C组合成一个过往压缩表征向量V。这个过往压缩表征向量V是一个更低维度的向量,它融合了A、B和C中的重要信息,并可以用于后续的数据处理和分析。需要注意的是,在实际应用中,步骤S3c的具体实现方式可能会根据数据的特性和需求而有所不同。例如,组合的规则和算法可能需要根据数据的分布和重要性进行调整和优化。此外,为了提高组合的准确性和效率,还可以采用一些先进的机器学习算法或神经网络模型来辅助这个过程。例如,可以使用基于深度学习的融合模型来学习各投影描述元素之间的复杂关系,并基于这些关系进行更精确的组合处理。
步骤S3c通过基于获得的各投影描述元素生成过往整合表征向量的过往压缩表征向量,实现了数据的压缩和降维。这个过程有助于提取原始数据中的重要信息,并将其融合到一个更紧凑、更低维度的表示形式中,为后续的数据处理和分析提供了便利。同时,步骤S3c也是整个流程中实现数据压缩和相似性匹配的关键步骤之一。通过合理的组合规则和算法选择,可以进一步提高过往压缩表征向量的准确性和有效性。
步骤S40:将一个或多个对照压缩表征向量相关的对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记,目标事件威胁标记用以指示目标资源映射数据中的安全威胁识别结果。
步骤S40将对照压缩表征向量相关的对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记。核心目标是将先前分析得到的安全威胁信息应用到目标资源映射数据中,以实现对目标资源的安全威胁识别。具体来说,计算机系统根据预设的映射规则或算法,将一个或多个对照压缩表征向量相关的对照事件威胁标记与目标资源映射数据进行关联。这里的“对照压缩表征向量”是指在先前步骤中通过对照整合表征向量生成的压缩表征向量,而“对照事件威胁标记”则是与这些压缩表征向量相关联的安全威胁标记,它们用于指示对照整合表征向量所代表的安全事件中存在的安全威胁。
在步骤S40中,计算机系统将这些对照事件威胁标记映射到目标资源映射数据上,以确定目标资源映射数据中的目标事件威胁标记。这个过程可以理解为将先前识别到的安全威胁信息“转移”到目标资源上,以便对目标资源的安全状况进行评估和识别。
例如,假设在先前步骤中,计算机系统通过分析对照整合表征向量生成了对照压缩表征向量,并与一些已知的安全威胁进行了关联,得到了对照事件威胁标记。在步骤S40中,计算机系统将这些对照事件威胁标记与目标资源映射数据进行关联。如果目标资源映射数据中存在与对照事件相似的安全事件模式或特征,那么计算机系统就会将这些对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记。步骤S40通过将一个或多个对照压缩表征向量相关的对照事件威胁标记确定为目标资源映射数据的目标事件威胁标记,实现了对目标资源的安全威胁识别。这个过程有助于将先前分析得到的安全威胁信息应用到目标资源上,以便对目标资源的安全状况进行评估和识别。
在一些实施例中,本申请实施例提供的方法还包括:获取每个过往压缩表征向量各自相关的对照事件威胁标记,其中,每获取一个过往压缩表征向量相关的对照事件威胁标记,分别进行下述步骤:
步骤S51:获取多个过往资源映射数据各自对应对照事件威胁标记的事件威胁标记表征向量。
步骤S52:对于获取的多个事件威胁标记表征向量进行分箱操作,获得一个或多个事件威胁标记表征向量集。
步骤S53:从一个或多个事件威胁标记表征向量集分别对应的代表向量(例如质心)中,筛选与一个过往压缩表征向量之间符合预设向量共性要求的代表向量。
步骤S54:基于筛选的代表向量,将相应事件威胁标记表征向量集中各事件威胁标记表征向量所表征的对照事件威胁标记,都确定为一个过往压缩表征向量相关的对照事件威胁标记。
步骤S51中,计算机系统访问存储的过往资源映射数据,这些数据是与过去的安全事件相关的资源映射信息。对于每个过往资源映射数据,它都关联有一个或多个对照事件威胁标记,这些标记指示了在该资源映射数据中发现的安全威胁类型或级别。计算机系统随后会为每个过往资源映射数据生成或提取相应的事件威胁标记表征向量。这个表征向量是一个多维度的数据结构,它能够以数值形式表达对应安全事件的威胁特征。这些特征可能包括威胁的类型、严重程度、来源、目标等各个方面。举例来说,如果某个过往资源映射数据表示了一个网络攻击事件,其对应的事件威胁标记表征向量可能包含有关攻击类型(如DDoS攻击、钓鱼攻击等)、攻击强度(如流量大小、持续时间等)、攻击源(如IP地址、地理位置等)和攻击目标(如目标服务器、服务类型等)的信息。
步骤S52中,计算机系统采用聚类算法对步骤S51中获取的事件威胁标记表征向量进行处理。聚类的目的是将相似的威胁标记表征向量分组在一起,形成一个或多个事件威胁标记表征向量集。每个集合内的向量在威胁特征上具有高度的相似性,而不同集合之间的向量则具有较大的差异性。聚类算法可以是K-means、层次聚类、DBSCAN等任何一种适合多维数据聚类的算法。通过聚类,可以将大量的威胁标记表征向量组织成更有意义的结构,便于后续的分析和处理。举例来说,如果使用了K-means算法进行聚类,计算机系统会首先确定要形成的聚类数量(即K值),然后随机选择K个点作为初始的聚类中心。接着,它会将每个事件威胁标记表征向量分配给最近的聚类中心,并根据分配结果重新计算每个聚类的中心。这个过程会迭代进行,直到聚类中心不再发生显著变化或达到预设的迭代次数为止。最终,会得到K个事件威胁标记表征向量集,每个集合都包含了一组在威胁特征上相似的向量。
通过步骤S51和S52的处理,将大量的过往资源映射数据和其对应的安全威胁信息组织成更有意义的结构,为后续的安全威胁识别和分析提供有力的支持。
步骤S53是在前述步骤S51和S52的基础上,进一步筛选与特定过往压缩表征向量相符合的事件威胁标记表征向量的关键步骤。在步骤S53中,计算机系统会对经过聚类形成的多个事件威胁标记表征向量集进行处理。对于每个向量集,计算机系统会计算其代表向量,这通常可以是该向量集中所有向量的平均值(质心)或其他统计量。代表向量能够概括性地表达该向量集内所有向量的共同特征。
接下来,计算机系统评估每个代表向量与一个特定的过往压缩表征向量之间的相似性。这种相似性可以通过计算两个向量之间的欧几里得距离、余弦相似度或其他向量间相似性度量指标来衡量。目标是找到与过往压缩表征向量在特征空间上足够接近的代表向量。符合预设向量共性要求的代表向量,意味着这些代表向量所表达的安全威胁特征与过往压缩表征向量所代表的安全事件具有高度的相似性。因此,这些代表向量所对应的事件威胁标记可以被视为与过往压缩表征向量相关的对照事件威胁标记。
举例来说,假设有一个过往压缩表征向量V,它代表了一个网络扫描事件的特征。在步骤S52中,形成了三个事件威胁标记表征向量集A、B和C,分别代表了DDoS攻击、网络扫描和恶意软件感染三种类型的威胁。对于每个向量集,计算了其代表向量RA、RB和RC。在步骤S53中,计算V与RA、RB和RC之间的相似性,并发现V与RB之间的距离最近,且满足预设的相似性阈值。因此,可以认为向量集B(及其所代表的网络扫描威胁)与过往压缩表征向量V高度相关。通过步骤S53的处理,可以准确地识别出与特定过往安全事件相似的已知威胁标记,从而为后续的安全事件分析和响应提供有价值的参考信息。
步骤S54是在经过步骤S51、S52和S53的处理后,最终确定与过往压缩表征向量相关的对照事件威胁标记的步骤。在步骤S54中,计算机系统会根据在步骤S53中筛选出的代表向量,来确定与过往压缩表征向量相关的对照事件威胁标记。具体来说,对于每个筛选出的代表向量,计算机系统会查找该代表向量所对应的事件威胁标记表征向量集,并将该集合中所有事件威胁标记表征向量所表征的对照事件威胁标记,都确定为与过往压缩表征向量相关的对照事件威胁标记。
这个过程可以理解为,计算机系统将步骤S53中找到的与过往压缩表征向量相似的威胁特征,映射回其原始的安全威胁标记上。这样,就可以明确地知道哪些已知的安全威胁与特定的过往安全事件相关联。举例来说,假设在步骤S53中,计算机系统筛选出了一个代表向量,该代表向量与某个过往压缩表征向量高度相似,并且它对应于一个包含多个事件威胁标记表征向量的集合。这个集合中的向量可能表征了不同类型的DDoS攻击。在步骤S54中,计算机系统会将这个集合中所有向量所表征的DDoS攻击类型,都确定为与过往压缩表征向量相关的对照事件威胁标记。需要注意的是,步骤S54确定的对照事件威胁标记可能会包含多种类型的安全威胁,因为在一个复杂的安全事件中,往往可能同时存在多种类型的威胁。通过这种方式,可以更全面地了解过往安全事件中所包含的各种威胁类型,并为后续的安全分析和响应提供更全面的信息支持。
本申请实施例中,可选地,基于特定安全事件类型的指引表征向量,对目标数据表征向量进行整合操作,获得目标整合表征向量,通过调试完成的威胁识别网络执行,本申请实施例还提供了威胁识别网络的调试过程,具体包括:
步骤S100:获取资源映射数据样例库和其中的各个样例安全事件类型数据。针对每个样例安全事件类型数据,分别进行下述步骤:
步骤S200:获取调试样例库,调试样例库中的每个调试样例包括:一个样例数据表征向量和对应的样例标记表征向量;其中,样例数据表征向量是针对一个样例资源映射数据中的一个样例安全事件类型数据进行抽取获得的,样例标记表征向量为一个样例资源映射数据的对照事件威胁标记的表征向量。
步骤S100中,计算机系统首先访问存储资源映射数据的样例库。这个样例库包含了大量的历史资源映射数据,每个数据都与一个或多个安全事件相关联。资源映射数据可以理解为描述系统或网络状态的信息,例如网络流量数据、系统日志、进程监控数据等,它们可以被用来检测和分析安全事件。样例库中的数据被组织成不同的样例安全事件类型数据。每个样例安全事件类型数据都代表了一种特定的安全事件类型,例如DDoS攻击、恶意软件感染、数据泄露等。这些样例数据对于构建和调试威胁识别网络至关重要,因为它们提供了不同类型安全事件的特征和模式。计算机系统从样例库中提取各个样例安全事件类型数据,以便在后续的步骤中使用。这些提取的数据将用于构建针对特定安全事件类型的指引表征向量,并用于调试和优化威胁识别网络。
在步骤S200中,计算机系统获取一个调试样例库。这个调试样例库包含了多个调试样例,每个调试样例都包括一个样例数据表征向量和对应的样例标记表征向量。样例数据表征向量是针对一个样例资源映射数据中的一个样例安全事件类型数据进行抽取获得的。换句话说,它是从实际的资源映射数据中提取出来的,用于表示特定安全事件类型的特征。这个向量可能包含了各种与安全事件相关的数值和统计信息,例如攻击频率、流量模式、系统状态变化等。样例标记表征向量则是一个样例资源映射数据的对照事件威胁标记的表征向量。它代表了与实际安全事件相关联的威胁标记或标签。这些标记可以是预先定义的,用于指示安全事件的类型、严重程度或其他相关属性。调试样例库中的每个调试样例都提供了一个数据点和一个对应的标签,这对于监督学习算法来说是非常有用的。在监督学习中,算法会尝试学习从输入数据(即样例数据表征向量)到输出标签(即样例标记表征向量)的映射关系。通过这种方式,威胁识别网络可以学会如何根据输入的资源映射数据来识别和分类不同类型的安全事件。
步骤S100和S200的主要目的是为威胁识别网络的构建和调试提供必要的数据和准备。通过获取和使用这些样例数据和标记,计算机系统可以训练和优化网络模型,以提高其对不同类型安全事件的识别和分类能力。
步骤S300:通过调试样例库,分别对拟调试的威胁识别网络中的,针对一个样例安全事件类型数据预设的样例指引表征向量进行反复调试,其中,在一次优化时,包括如下过程:获得基于样例指引表征向量,对抽取的样例数据表征向量进行向量整合操作生成的样例整合表征向量后,对样例整合表征向量进行向量调节操作,获得调节资源映射数据;依据各个调节资源映射数据与对应的样例资源映射数据之间的误差,以及基于样例标记表征向量,调整样例指引表征向量。
在步骤S300中,计算机系统使用调试样例库对拟调试的威胁识别网络进行反复调试。这个调试过程是针对每个样例安全事件类型数据预设的样例指引表征向量进行的。样例指引表征向量可以理解为是威胁识别网络在处理特定类型安全事件时的参考或标准。调试的目的是优化网络的性能,使其能够更准确地识别和分类安全事件。在一次优化过程中,计算机系统会首先基于样例指引表征向量对抽取的样例数据表征向量进行向量整合操作,生成样例整合表征向量。这个整合操作可能是将多个向量进行组合、加权或转换,以便提取出更有代表性的特征。
随后,计算机系统对样例整合表征向量进行向量调节操作,也称为特征重构。这个操作的目的是进一步调整和优化向量的表示,以便更好地匹配实际的安全事件特征。向量调节可能涉及到向量的缩放、旋转、投影或变换等操作,具体的方法取决于所使用的机器学习算法和模型。在完成向量调节后,计算机系统获得调节资源映射数据。这些数据是经过优化和调整后的表征向量,用于与实际的样例资源映射数据进行比较。通过比较两者之间的误差,计算机系统可以评估威胁识别网络的性能,并根据误差的大小和方向来调整样例指引表征向量。
调整样例指引表征向量的目的是使网络在处理类似的安全事件时能够更准确地提取特征并进行分类。调整的方法可能包括更新向量的权重、修改向量的维度或添加新的向量等。这个过程是迭代的,计算机系统会不断地使用调试样例库中的数据进行调试和优化,直到网络的性能达到预设的标准或无法再进一步提升为止。需要注意的是,在步骤S300中提到的机器学习算法和模型可以是多种多样的,具体取决于应用场景和需求。例如,可以使用深度学习模型如卷积神经网络(CNN)来处理图像或视频数据中的安全事件,或使用循环神经网络(RNN)来处理序列数据中的安全事件。此外,还可以使用传统的机器学习算法如支持向量机(SVM)、决策树或随机森林等来进行分类和识别。
步骤S300是威胁识别网络构建过程中的一个关键环节,它通过反复调试和优化网络的参数和结构来提高网络的性能和准确性。这个过程需要借助大量的样例数据和先进的机器学习算法来实现。
其中,作为一种实现方案,步骤S300中,对样例整合表征向量进行向量调节操作,获得调节资源映射数据,包括以下步骤:
步骤S310:对样例整合表征向量进行量化,获得样例压缩表征向量;
步骤S320:通过对一个样例安全事件类型数据预设的调节指引表征向量,对样例压缩表征向量进行整合操作,获得样例构建表征向量;
步骤S330:针对样例构建表征向量进行向量调节操作,获得调节资源映射数据。
步骤S310中,计算机系统对前面步骤中生成的样例整合表征向量进行量化处理。量化的目的是减少数据的复杂性和维度,同时保留足够的信息以供后续处理。这通常涉及到将连续的数值转换为离散的数值或符号,或者通过某种方式减少向量的维度。举例来说,如果样例整合表征向量是一个高维向量,量化步骤可能会使用主成分分析(PCA)或自编码器等降维技术,将其压缩到一个低维空间,从而得到样例压缩表征向量。这个过程有助于减少计算复杂性和存储需求,同时保留原始数据中的主要特征。
在步骤S320中,计算机系统使用针对特定样例安全事件类型数据预设的调节指引表征向量,对经过量化的样例压缩表征向量进行进一步的整合操作。调节指引表征向量可以理解为是一种用于指导向量整合的参考模板或标准。整合操作可能包括向量的加权组合、拼接、点积或其他形式的变换。这个过程旨在将样例压缩表征向量与调节指引表征向量相结合,以提取出更具代表性和区分度的特征,生成样例构建表征向量。例如,如果调节指引表征向量包含了关于特定安全事件类型的关键特征信息,那么整合操作可能会将这些关键特征与样例压缩表征向量中的相应特征进行对齐或增强,从而突出这些重要特征在后续处理中的作用。
在步骤S330中,计算机系统对样例构建表征向量进行向量调节操作,以获得调节资源映射数据。这个调节操作可以理解为对向量的进一步细化和优化,以使其更好地匹配实际的安全事件特征或提高分类的准确性。向量调节操作可能包括向量的归一化、标准化、添加噪声、引入非线性变换或应用其他形式的数据增强技术。这些操作的目的是增加数据的多样性和泛化能力,减少过拟合的风险,并提升威胁识别网络在处理未见过的安全事件时的性能。例如,归一化操作可以将向量的各个维度缩放到相同的尺度上,以消除不同特征之间的量纲差异对分类结果的影响。添加噪声则可以增加数据的鲁棒性,使网络在面对噪声干扰时仍能保持较好的性能。
步骤S310、S320和S330共同构成了对样例整合表征向量的向量调节操作过程。通过量化、整合和调节等步骤的处理,计算机系统可以生成更具代表性和区分度的调节资源映射数据,为后续的安全事件识别和分类提供有力支持。
基于此,步骤S300中,依据各个调节资源映射数据与对应的样例资源映射数据之间的误差,结合样例标记表征向量,调整样例指引表征向量,具体可以包括:
步骤S301:获取各样例数据表征向量分别对应的调节资源映射数据,与对应的样例资源映射数据之间的数据误差值。
在步骤S301中,计算机系统计算各个调节资源映射数据与对应的样例资源映射数据之间的数据误差值。这个过程是评估威胁识别网络在处理特定安全事件类型数据时准确性的重要环节。具体来说,计算机系统首先获取每个样例数据表征向量对应的调节资源映射数据。这些调节资源映射数据是通过前面的步骤,包括向量整合、量化和调节等操作生成的,旨在更好地匹配实际的安全事件特征。
然后,计算机会将这些调节资源映射数据与对应的样例资源映射数据进行比较。样例资源映射数据是作为参考标准的实际数据,它们代表了真实的安全事件特征。比较的目的是找出两者之间的差异,即数据误差值。数据误差值可以通过多种计算方法获得,例如均方误差(MSE)、交叉熵损失函数等。这些误差值反映了威胁识别网络在处理特定安全事件类型数据时的偏差或不足。较小的误差值意味着网络的输出更接近实际的安全事件特征,而较大的误差值则可能表明网络需要进行调整以优化其性能。举例来说,如果某个样例数据表征向量对应的调节资源映射数据与样例资源映射数据之间的误差值较大,这可能意味着网络在处理该类型的安全事件时存在困难。这时,计算机系统可以根据误差值的大小和方向来调整网络的参数或结构,以便更好地适应这类安全事件的特征。
通过计算调节资源映射数据与样例资源映射数据之间的数据误差值,计算机系统可以评估网络的性能,并根据误差值进行有针对性的调整,从而提高网络在处理各种安全事件类型时的准确性和可靠性。
步骤S302:依据各个数据误差值各自对样例指引表征向量和样例调节指引表征向量的消极牵动结果,调整样例指引表征向量和样例调节指引表征向量。
在步骤S302中,计算机系统根据各个数据误差值对样例指引表征向量和样例调节指引表征向量的消极牵动结果,来调整这两个向量。消极牵动结果可以理解为误差值对网络性能产生的负面影响,即误差值越大,网络的性能越差,因此需要进行相应的调整。具体来说,计算机系统分析每个数据误差值对样例指引表征向量和样例调节指引表征向量的影响。样例指引表征向量是威胁识别网络在处理特定类型安全事件时的参考标准,而样例调节指引表征向量则用于指导网络在处理过程中的特征提取和整合。这两个向量在网络的性能中起着至关重要的作用。
如果某个数据误差值较大,说明网络在处理对应的安全事件类型时存在较大的偏差或不足。这时,计算机系统会根据该误差值对样例指引表征向量和样例调节指引表征向量进行相应的调整,以减少误差并提高网络的性能。调整的方法可能包括更新向量的权重、修改向量的维度、增加新的特征等。这些调整旨在使样例指引表征向量和样例调节指引表征向量更准确地反映实际的安全事件特征,从而提高威胁识别网络在处理类似事件时的准确性和可靠性。
需要注意的是,步骤S302中的调整是基于数据误差值的,因此它是一个迭代的过程。计算机系统会不断地计算数据误差值,并根据误差值调整样例指引表征向量和样例调节指引表征向量,直到网络的性能达到预设的标准或无法再进一步提升为止。
步骤S303:获取各样例数据表征向量分别对应的样例整合表征向量,与对应的样例标记表征向量之间的整合误差值。
步骤S303中,计算机系统首先提取各个样例数据的表征向量,这些向量在之前的步骤中已经被整合成样例整合表征向量。样例整合表征向量是通过对原始数据进行一系列处理,如特征提取、量化、整合等操作后得到的,它们旨在更准确地描述和代表原始数据的特征。随后,计算机系统会获取与这些样例整合表征向量相对应的样例标记表征向量。样例标记表征向量通常是事先定义好的,用于表示特定安全事件类型的标准或理想特征。它们可以被视为网络学习的目标或标准答案。接下来,将每个样例整合表征向量与其对应的样例标记表征向量进行比较。比较的目的是找出两者之间的差异或误差,这种误差被称为整合误差值。整合误差值的大小反映了样例整合表征向量与理想标准之间的偏离程度,也即网络在处理特定安全事件类型数据时的准确性。为了计算整合误差值,计算机系统可以采用各种数学方法或机器学习算法。例如,可以使用欧几里得距离、余弦相似度等指标来衡量向量之间的差异。在机器学习领域,常见的算法如均方误差(MSE)或交叉熵损失函数等也可用于计算误差值。这些算法和指标的选择取决于具体的应用场景和需求。
例如,假设有一个样例数据表征向量A,它经过整合后得到了样例整合表征向量B。同时,与向量A对应的样例标记表征向量为C。计算机系统会计算向量B与向量C之间的差异,得到一个整合误差值。如果这个误差值较大,说明网络在处理这类安全事件时存在较大的偏差,需要进行相应的调整和优化。
步骤S304:依据各个整合误差值各自对样例指引表征向量的消极牵动结果,调整样例指引表征向量。
步骤S304中,计算机系统根据之前步骤S303中计算得到的各个整合误差值,对样例指引表征向量进行相应的调整。整合误差值反映了网络在处理特定安全事件类型数据时,其整合表征向量与理想标准(即样例标记表征向量)之间的差异。因此,通过调整样例指引表征向量,可以引导网络更好地学习和适应这些安全事件的特征。具体来说,分析每个整合误差值对样例指引表征向量的影响。如果某个整合误差值较大,说明网络在处理对应的安全事件类型时存在较大的偏差。这时,计算机会根据该误差值的方向和大小,对样例指引表征向量进行相应的调整。调整的方式可能包括更新向量的权重、修改向量的维度或增加新的特征等。例如一个安全事件类型A,其对应的样例整合表征向量与样例标记表征向量之间的整合误差值较大。这意味着网络在处理类型A的安全事件时存在较大的偏差。为了纠正这种偏差,计算机会根据整合误差值对样例指引表征向量进行调整。通过多次迭代和调整,网络可以逐渐减少在处理类型A安全事件时的误差,提高其准确性和可靠性。
需要注意的是,步骤S304中的调整是基于整合误差值的,因此它是一个迭代的过程。计算机会不断地计算整合误差值,并根据误差值调整样例指引表征向量,直到网络的性能达到预设的标准或无法再进一步提升为止。此外,在实际应用中,步骤S304可能会结合具体的机器学习算法或模型来实现。例如,可以使用梯度下降算法来更新样例指引表征向量的权重,或者使用神经网络模型来自动学习和调整向量的表示。这些算法和模型的选择取决于具体的应用场景和需求。
步骤S305:获取各样例数据表征向量分别对应的样例构建表征向量,与对应的样例标记表征向量之间的构建误差值。
在步骤S305中,计算机系统针对每个样例数据表征向量,获取其对应的样例构建表征向量。样例构建表征向量是在网络学习过程中,经过一系列特征提取、量化和构建操作后形成的,用于更全面地描述原始数据的内在结构和特征。这些向量是网络理解和识别安全事件类型的基础。紧接着,将这些样例构建表征向量与对应的样例标记表征向量进行比较。样例标记表征向量是事先定义好的,用于表示特定安全事件类型的标准或理想特征。通过比较,计算机可以计算出两者之间的差异或误差,这被称为构建误差值。构建误差值的大小直接反映了网络在构建安全事件特征时的准确性。较小的构建误差值意味着网络的构建过程更接近理想状态,能够更准确地捕捉和表示安全事件的关键特征。相反,较大的构建误差值则可能表明网络在特征构建方面存在不足,需要进行调整和优化。
例如,假设有一个网络入侵事件,其样例数据表征向量经过特征提取和量化后,形成了样例构建表征向量D。与此同时,与该事件对应的样例标记表征向量为E。计算机系统会比较向量D和E,并计算出它们之间的差异,即构建误差值。如果这个误差值较大,说明网络在构建该入侵事件的特征时存在明显偏差,可能无法准确识别或分类此类事件。这时,就需要根据误差值对网络进行相应的调整和优化。在实际应用中,步骤S305可以结合各种机器学习算法或模型来实现。例如,可以使用深度神经网络来自动提取和构建样例数据的特征表征向量,并使用均方误差(MSE)等损失函数来计算构建误差值。这些算法和模型的选择取决于具体的应用场景和数据特性。通过获取和评估样例构建表征向量与对应样例标记表征向量之间的构建误差值,计算机系统能够发现网络在特征构建方面的不足,并据此进行相应的调整和优化。这有助于提高网络在处理各种安全事件类型时的准确性和效率。
步骤S306:依据各个构建误差值对样例调节指引表征向量的消极牵动结果,调整样例调节指引表征向量。
在步骤S306中,计算机系统根据之前步骤S305中计算得到的构建误差值,对威胁识别网络的参数进行调整。构建误差值反映了网络在构建安全事件特征时与理想标准之间的差异,因此,通过调整网络参数,可以减小这种差异,使网络更好地学习和识别安全威胁。具体来说,分析每个构建误差值对网络性能的影响。如果某个构建误差值较大,说明网络在构建对应安全事件类型的特征时存在较大的偏差。这时,计算机会根据该误差值的大小和方向,对网络中的权重、偏置等参数进行相应的调整。
调整网络参数的方法可以包括梯度下降算法、反向传播算法等。例如,使用梯度下降算法时,计算机会根据构建误差值计算损失函数的梯度,并按照梯度的方向更新网络中的权重参数,以减小构建误差值。这样,网络在下次处理类似的安全事件时,能够更准确地构建特征,提高识别准确率。
此外,在实际应用中,步骤S306可能会结合具体的机器学习模型来实现。例如,对于深度学习模型,如卷积神经网络(CNN)或循环神经网络(RNN),可以通过调整模型的层数、神经元数量、激活函数等来优化网络的性能。这些调整旨在使网络更好地适应安全事件数据的特征,提高识别和分类的准确性。
例如,假设威胁识别网络在处理某类网络攻击事件时存在较大的构建误差值。通过步骤S306中的参数调整,计算机可以优化网络中的权重和偏置参数,使其更适应这类攻击事件的特征。这样,在下次遇到类似攻击事件时,网络能够更准确地构建特征并进行识别,从而提高防御效果。通过根据构建误差值调整网络参数,计算机系统不断提高网络的性能,使其更准确地识别和应对各种安全威胁。
本申请实施例提供了一种计算机系统,如图2所示,计算机系统100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,计算机系统100还可以包括收发器104。需要说明的是,实际应用中收发器104不限于一个,该计算机系统100的结构并不构成对本申请实施例的限定。处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种计算机系统,本申请实施例中的计算机系统包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,实现上述方法。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种基于多元事件分析的网络安全威胁识别方法,其特征在于,应用于计算机系统,所述方法包括:
从具有一种或多种安全事件类型的目标资源映射数据中,抽取特定安全事件类型的目标数据表征向量;
基于所述特定安全事件类型的指引表征向量,对所述目标数据表征向量进行整合操作,获得目标整合表征向量;其中,所述指引表征向量用于指示多个过往资源映射数据分别针对所述特定安全事件类型抽取的过往数据表征向量,与对应的对照事件威胁标记之间的相关性;
对所述目标整合表征向量进行量化操作,获得目标压缩表征向量,以及对所述目标压缩表征向量,在所述多个过往资源映射数据分别对应的过往压缩表征向量中,筛选符合设定的量化共性要求的一个或多个对照压缩表征向量;
将所述一个或多个对照压缩表征向量相关的对照事件威胁标记确定为所述目标资源映射数据的目标事件威胁标记,所述目标事件威胁标记用以指示所述目标资源映射数据中的安全威胁识别结果;
其中,所述指引表征向量依据如下步骤获取得到:
获取所述多个过往资源映射数据分别针对所述特定安全事件类型抽取的过往数据表征向量和对应的对照事件威胁标记;以及,获取任意构建的初始指引表征向量;
分别通过每个过往数据表征向量和对应的对照事件威胁标记,对所述初始指引表征向量进行反复优化,获得优化后的指引表征向量;其中,在一次优化时:
基于当次优化对应的初始指引表征向量,对一个过往数据表征向量进行整合操作,获得过往整合表征向量;
基于所述过往整合表征向量与相应对照事件威胁标记的事件威胁标记表征向量之间的共性度量系数,优化所述当次优化对应的初始指引表征向量,获得优化后的指引表征向量,确定为后一次优化对应的初始指引表征向量;
其中,所述基于当次优化对应的初始指引表征向量,对一个过往数据表征向量进行整合操作,获得过往整合表征向量,包括:
将当次优化对应的初始指引表征向量与过往每次优化对应的初始指引表征向量进行内部注意力表征向量融合处理,以及,将所述当次优化对应的指引表征向量与一个过往数据表征向量进行互注意力表征向量融合处理,获得过渡指引表征向量;
基于所述过渡指引表征向量,对所述一个过往数据表征向量进行整合操作,获得所述一个过往数据表征向量的过往整合表征向量;
所述基于所述过往整合表征向量与相应对照事件威胁标记的事件威胁标记表征向量之间的共性度量系数,优化所述当次优化对应的初始指引表征向量,获得优化后的指引表征向量,包括:
获取所述过往整合表征向量和对应过往数据表征向量的对照事件威胁标记的事件威胁标记表征向量之间的第一共性度量系数;
在获得的多个过往数据表征向量中,确定所述对应过往数据表征向量以外的其余过往表征向量;
分别获取所述过往整合表征向量和各个其余过往数据表征向量分别对应的对照事件威胁标记的事件威胁标记表征向量之间的第二共性度量系数;
依据第一共性度量系数对所述当次优化对应的初始指引表征向量的积极牵动结果,以及依据各个第二共性度量系数各自对所述当次优化对应的初始指引表征向量的消极牵动结果,对所述当次优化对应的初始指引表征向量进行优化处理,获得优化后的指引表征向量;其中,所述积极牵动结果用于指示随着第一共性度量系数越高,对应的初始指引表征向量的准确度越高,基于所述对应的初始指引表征向量生成的过往整合表征向量与对应的事件威胁标记表征向量越相似,所述消极牵动结果用于指示随着第二共性度量系数越低,对应的初始指引表征向量的准确度越高,基于所述对应的初始指引表征向量生成的过往整合表征向量与其余的各事件威胁标记表征向量越不相似。
2.如权利要求1所述的方法,其特征在于,所述从具有一种或多种安全事件类型的目标资源映射数据中,抽取特定安全事件类型的目标数据表征向量,包括:
从具有一种或多种安全事件类型的目标资源映射数据中,获取具有所述特定安全事件类型的目标数据簇;
将所述目标数据簇分为多个事件描述序列,并获取所述多个事件描述序列分别对应的特征单元序列;其中,每个特征单元序列中的一个特征单元用于指示相应事件描述序列中的一个数据项;
基于所述多个事件描述序列的分布顺次,对获取的多个特征单元序列进行批量操作,获得所述目标数据簇的初始特征单元序列;
依据各个特征单元属于所述特定安全事件类型的置信度,对所述初始特征单元序列进行处理,获得所述目标资源映射数据中所述特定安全事件类型的目标数据表征向量,具体地,将初始特征单元序列中,置信度大于置信度阈值的至少一个特征单元进行组合,获得目标资源映射数据中所述特定安全事件类型的目标数据表征向量。
3.如权利要求1所述的方法,其特征在于,所述基于所述特定安全事件类型的指引表征向量,对所述目标数据表征向量进行整合操作,获得目标整合表征向量,包括:
获取包含预设向量维数的指引表征向量;
基于所述指引表征向量,对所述目标数据表征向量的向量维数进行维数调整处理,得到包含所述预设向量维数的目标整合表征向量。
4.如权利要求1~3任一项所述的方法,其特征在于,所述对所述目标整合表征向量进行量化操作,获得目标压缩表征向量,包括:
获取所述多个过往资源映射数据分别对应的过往整合表征向量;其中,每个过往整合表征向量是基于所述指引表征向量,对相应过往资源映射数据的过往数据表征向量进行整合操作获得的;
获取每个过往整合表征向量各自对应的过往压缩表征向量;其中,每个所述过往压缩表征向量是对相应过往整合表征向量进行量化操作后获得的;
针对所述目标整合表征向量,在获取的多个过往整合表征向量中,筛选符合预设整合共性要求的过往整合表征向量所对应的过往压缩表征向量确定为目标压缩表征向量;
其中,所述预设整合共性要求包括:目标整合表征向量与过往整合表征向量之间的共性度量系数,大于预设共性度量系数;或者,目标整合表征向量与各过往整合表征向量之间的共性度量系数中,取值最大的共性度量系数。
5.如权利要求4所述的方法,其特征在于,所述每个过往整合表征向量各自对应的过往压缩表征向量,分别是通过以下方式生成的:
针对一个过往整合表征向量进行抽样处理,获得描述向量;其中,所述描述向量中的每个描述元素用于指示一种事件事项的内容;
将所述描述向量中的每个描述元素,分别投影至相应事件事项相关的向量域中,获得所述每个描述元素分别对应的投影描述元素;其中,每个投影描述元素用于指示相应事件事项的内容置信度;
基于获得的各投影描述元素,生成所述一个过往整合表征向量的过往压缩表征向量。
6.如权利要求1~3任一项所述的方法,其特征在于,所述方法还包括:获取每个过往压缩表征向量各自相关的对照事件威胁标记,其中,每获取一个过往压缩表征向量相关的对照事件威胁标记,分别进行下述步骤:
获取所述多个过往资源映射数据各自对应对照事件威胁标记的事件威胁标记表征向量;
对于获取的多个事件威胁标记表征向量进行分箱操作,获得一个或多个事件威胁标记表征向量集;
从所述一个或多个事件威胁标记表征向量集分别对应的代表向量中,筛选与所述一个过往压缩表征向量之间符合预设向量共性要求的代表向量;
基于筛选的代表向量,将相应事件威胁标记表征向量集中各事件威胁标记表征向量所表征的对照事件威胁标记,都确定为所述一个过往压缩表征向量相关的对照事件威胁标记。
7.如权利要求1~3任一项所述的方法,其特征在于,所述基于所述特定安全事件类型的指引表征向量,对所述目标数据表征向量进行整合操作,获得目标整合表征向量,通过调试完成的威胁识别网络执行,所述威胁识别网络的调试过程包括:
获取资源映射数据样例库和其中的各个样例安全事件类型数据,针对每个样例安全事件类型数据,分别进行下述步骤:
获取调试样例库,所述调试样例库中的每个调试样例包括:一个样例数据表征向量和对应的样例标记表征向量;其中,所述样例数据表征向量是针对一个样例资源映射数据中的一个样例安全事件类型数据进行抽取获得的,所述样例标记表征向量为所述一个样例资源映射数据的对照事件威胁标记的表征向量;
通过所述调试样例库,分别对拟调试的威胁识别网络中的,针对所述一个样例安全事件类型数据预设的样例指引表征向量进行反复调试,其中,在一次优化时,包括如下过程:获得基于所述样例指引表征向量,对抽取的样例数据表征向量进行向量整合操作生成的样例整合表征向量后,对所述样例整合表征向量进行向量调节操作,获得调节资源映射数据;依据各个调节资源映射数据与对应的样例资源映射数据之间的误差,以及基于所述样例标记表征向量,调整所述样例指引表征向量。
8.如权利要求7所述的方法,其特征在于,所述对所述样例整合表征向量进行向量调节操作,获得调节资源映射数据,包括:
对所述样例整合表征向量进行量化,获得样例压缩表征向量;
通过对所述一个样例安全事件类型数据预设的调节指引表征向量,对所述样例压缩表征向量进行整合操作,获得样例构建表征向量;
针对所述样例构建表征向量进行向量调节操作,获得调节资源映射数据;
所述依据各个调节资源映射数据与对应的样例资源映射数据之间的误差,以及基于所述样例标记表征向量,调整所述样例指引表征向量,包括:
获取各样例数据表征向量分别对应的调节资源映射数据,与对应的样例资源映射数据之间的数据误差值;
依据各个数据误差值各自对所述样例指引表征向量和样例调节指引表征向量的消极牵动结果,调整所述样例指引表征向量和所述样例调节指引表征向量;
获取所述各样例数据表征向量分别对应的样例整合表征向量,与对应的样例标记表征向量之间的整合误差值;
依据各个整合误差值各自对所述样例指引表征向量的消极牵动结果,调整所述样例指引表征向量;
获取所述各样例数据表征向量分别对应的样例构建表征向量,与对应的样例标记表征向量之间的构建误差值;
依据各个构建误差值对所述样例调节指引表征向量的消极牵动结果,调整所述样例调节指引表征向量。
9.一种计算机系统,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序;其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序被所述处理器执行时,实现如权利要求1~8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410218440.8A CN117792801B (zh) | 2024-02-28 | 2024-02-28 | 一种基于多元事件分析的网络安全威胁识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410218440.8A CN117792801B (zh) | 2024-02-28 | 2024-02-28 | 一种基于多元事件分析的网络安全威胁识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117792801A CN117792801A (zh) | 2024-03-29 |
CN117792801B true CN117792801B (zh) | 2024-05-14 |
Family
ID=90385414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410218440.8A Active CN117792801B (zh) | 2024-02-28 | 2024-02-28 | 一种基于多元事件分析的网络安全威胁识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117792801B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028341A1 (en) * | 2017-08-03 | 2019-02-07 | T-Mobile Usa, Inc. | SIMILARITY SEARCH FOR DISCOVERY OF MULTI-VECTOR ATTACKS |
CN111814977A (zh) * | 2020-08-28 | 2020-10-23 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型的方法及装置 |
CN113282759A (zh) * | 2021-04-23 | 2021-08-20 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于威胁情报的网络安全知识图谱生成方法 |
CN115329770A (zh) * | 2022-07-27 | 2022-11-11 | 天津市国瑞数码安全系统股份有限公司 | 基于语义分析的威胁情报提取方法和系统 |
CN116319033A (zh) * | 2023-03-17 | 2023-06-23 | 鹏城实验室 | 网络入侵攻击检测方法、装置、设备及存储介质 |
KR20230103275A (ko) * | 2021-12-31 | 2023-07-07 | 주식회사 샌즈랩 | 사이버 보안 위협 정보 처리 장치, 사이버 보안 위협 정보 처리 방법 및 사이버 보안 위협 정보 처리하는 프로그램을 저장하는 저장매체 |
CN116668057A (zh) * | 2023-03-14 | 2023-08-29 | 北京计算机技术及应用研究所 | 一种基于知识图谱的网络安全态势理解分析方法 |
CN116684182A (zh) * | 2023-06-29 | 2023-09-01 | 南昌蓝堃科技有限公司 | 一种基于异常流量识别的信息拦截方法及系统 |
CN116938600A (zh) * | 2023-09-14 | 2023-10-24 | 北京安天网络安全技术有限公司 | 威胁事件的分析方法、电子设备及存储介质 |
CN117118857A (zh) * | 2023-08-18 | 2023-11-24 | 浙江中烟工业有限责任公司 | 基于知识图谱的网络安全威胁管理系统及方法 |
CN117240632A (zh) * | 2023-11-16 | 2023-12-15 | 中国电子科技集团公司第十五研究所 | 一种基于知识图谱的攻击检测方法和系统 |
CN117319051A (zh) * | 2023-10-09 | 2023-12-29 | 禅境科技股份有限公司 | 基于用户实体行为分析的安全威胁情报的确定方法及装置 |
CN117375985A (zh) * | 2023-11-07 | 2024-01-09 | 中国建设银行股份有限公司 | 安全风险指数的确定方法及装置、存储介质、电子装置 |
CN117421423A (zh) * | 2023-07-18 | 2024-01-19 | 郭丽 | 一种获取实体识别模型的方法、识别实体的方法及装置 |
CN117478403A (zh) * | 2023-11-10 | 2024-01-30 | 国网河南省电力公司信息通信分公司 | 一种全场景网络安全威胁关联分析方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9258321B2 (en) * | 2012-08-23 | 2016-02-09 | Raytheon Foreground Security, Inc. | Automated internet threat detection and mitigation system and associated methods |
US11228610B2 (en) * | 2016-06-15 | 2022-01-18 | Cybereason Inc. | System and method for classifying cyber security threats using natural language processing |
US20200104497A1 (en) * | 2018-09-28 | 2020-04-02 | Amida Technology Solutions, Inc. | Method, system, and apparatus for security assurance, protection, monitoring and analysis of integrated circuits and electronic systems in method, system, and apparatus for security assurance, protection, monitoring and analysis of integrated circuits and electronic systems in relation to hardware trojans |
US11379421B1 (en) * | 2019-06-25 | 2022-07-05 | Amazon Technologies, Inc. | Generating readable, compressed event trace logs from raw event trace logs |
KR102424014B1 (ko) * | 2022-02-09 | 2022-07-25 | 주식회사 샌즈랩 | 사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체 |
-
2024
- 2024-02-28 CN CN202410218440.8A patent/CN117792801B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028341A1 (en) * | 2017-08-03 | 2019-02-07 | T-Mobile Usa, Inc. | SIMILARITY SEARCH FOR DISCOVERY OF MULTI-VECTOR ATTACKS |
CN111814977A (zh) * | 2020-08-28 | 2020-10-23 | 支付宝(杭州)信息技术有限公司 | 训练事件预测模型的方法及装置 |
CN113282759A (zh) * | 2021-04-23 | 2021-08-20 | 国网辽宁省电力有限公司电力科学研究院 | 一种基于威胁情报的网络安全知识图谱生成方法 |
KR20230103275A (ko) * | 2021-12-31 | 2023-07-07 | 주식회사 샌즈랩 | 사이버 보안 위협 정보 처리 장치, 사이버 보안 위협 정보 처리 방법 및 사이버 보안 위협 정보 처리하는 프로그램을 저장하는 저장매체 |
CN115329770A (zh) * | 2022-07-27 | 2022-11-11 | 天津市国瑞数码安全系统股份有限公司 | 基于语义分析的威胁情报提取方法和系统 |
CN116668057A (zh) * | 2023-03-14 | 2023-08-29 | 北京计算机技术及应用研究所 | 一种基于知识图谱的网络安全态势理解分析方法 |
CN116319033A (zh) * | 2023-03-17 | 2023-06-23 | 鹏城实验室 | 网络入侵攻击检测方法、装置、设备及存储介质 |
CN116684182A (zh) * | 2023-06-29 | 2023-09-01 | 南昌蓝堃科技有限公司 | 一种基于异常流量识别的信息拦截方法及系统 |
CN117421423A (zh) * | 2023-07-18 | 2024-01-19 | 郭丽 | 一种获取实体识别模型的方法、识别实体的方法及装置 |
CN117118857A (zh) * | 2023-08-18 | 2023-11-24 | 浙江中烟工业有限责任公司 | 基于知识图谱的网络安全威胁管理系统及方法 |
CN116938600A (zh) * | 2023-09-14 | 2023-10-24 | 北京安天网络安全技术有限公司 | 威胁事件的分析方法、电子设备及存储介质 |
CN117319051A (zh) * | 2023-10-09 | 2023-12-29 | 禅境科技股份有限公司 | 基于用户实体行为分析的安全威胁情报的确定方法及装置 |
CN117375985A (zh) * | 2023-11-07 | 2024-01-09 | 中国建设银行股份有限公司 | 安全风险指数的确定方法及装置、存储介质、电子装置 |
CN117478403A (zh) * | 2023-11-10 | 2024-01-30 | 国网河南省电力公司信息通信分公司 | 一种全场景网络安全威胁关联分析方法及系统 |
CN117240632A (zh) * | 2023-11-16 | 2023-12-15 | 中国电子科技集团公司第十五研究所 | 一种基于知识图谱的攻击检测方法和系统 |
Non-Patent Citations (2)
Title |
---|
自适应网络安全意识测评系统研究综述;齐斌;《兵器装备工程学报》;20181125;第第39卷卷(第第11期期);140-146 * |
轨道交通移动边缘计算网络安全综述;谢人超;《通信学报》;20230424;第第44卷卷(第第4期期);201-215 * |
Also Published As
Publication number | Publication date |
---|---|
CN117792801A (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117473571B (zh) | 一种数据信息安全处理方法及系统 | |
CN112910859B (zh) | 基于c5.0决策树和时序分析的物联网设备监测预警方法 | |
CN110162970A (zh) | 一种程序处理方法、装置以及相关设备 | |
US11533373B2 (en) | Global iterative clustering algorithm to model entities' behaviors and detect anomalies | |
CN112511546A (zh) | 基于日志分析的漏洞扫描方法、装置、设备和存储介质 | |
CN111600919A (zh) | 基于人工智能的web检测方法和装置 | |
CN112202718B (zh) | 一种基于XGBoost算法的操作系统识别方法、存储介质及设备 | |
CN115277189B (zh) | 基于生成式对抗网络的无监督式入侵流量检测识别方法 | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
CN116633601A (zh) | 一种基于网络流量态势感知的检测方法 | |
CN115225336A (zh) | 一种面向网络环境的漏洞可利用性的计算方法及装置 | |
Long et al. | Deep encrypted traffic detection: An anomaly detection framework for encryption traffic based on parallel automatic feature extraction | |
CN117668244A (zh) | 威胁情报数据的处理方法和计算机可读存储介质 | |
CN117633811A (zh) | 一种多视角特征融合的代码漏洞检测方法 | |
CN112039907A (zh) | 一种基于物联网终端评测平台的自动测试方法及系统 | |
CN117792801B (zh) | 一种基于多元事件分析的网络安全威胁识别方法及系统 | |
Shao et al. | Low-latency Dimensional Expansion and Anomaly Detection empowered Secure IoT Network | |
CN111565192A (zh) | 基于可信度的内网安全威胁多模型协同防御方法 | |
CN111475380A (zh) | 一种日志分析方法和装置 | |
No et al. | Training-free retrieval-based log anomaly detection with pre-trained language model considering token-level information | |
CN118353724B (zh) | 基于多特征选择堆叠的加密恶意流量检测方法、系统 | |
CN118069885B (zh) | 一种动态视频内容编码检索方法及系统 | |
CN118228318B (zh) | 保护碳数据隐私的电池碳足迹分布式计算方法及系统 | |
CN118568628A (zh) | 一种基于溯源子图的异常检测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |