CN116886440A - 一种威胁情报生产方法、装置、设备及存储介质 - Google Patents
一种威胁情报生产方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116886440A CN116886440A CN202311091822.0A CN202311091822A CN116886440A CN 116886440 A CN116886440 A CN 116886440A CN 202311091822 A CN202311091822 A CN 202311091822A CN 116886440 A CN116886440 A CN 116886440A
- Authority
- CN
- China
- Prior art keywords
- threat
- threat information
- original
- information
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000003062 neural network model Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 21
- 238000010606 normalization Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 239000000523 sample Substances 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000012098 association analyses Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004806 packaging method and process Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 11
- 238000009826 distribution Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000016571 aggressive behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/30—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
- H04L63/302—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种威胁情报生产方法、装置、设备及存储介质,应用于网络安全领域,该方法包括:获取预设时间段内的没有威胁情报的IP对应的原始威胁信息;根据IP对原始威胁信息进行聚合,得到聚合后的原始威胁信息;对聚合后的原始威胁信息进行特征提取,得到特征向量;将特征向量输入到训练好的神经网络模型中,若IP存在威胁行为,则根据训练好的神经网络模型确定IP的威胁类型,并根据威胁类型生产IP对应的威胁情报。与现有技术基于加工处理后的数据进行数据分析生产情报相比,本方法直接利用机器学习技术对原始威胁信息进行分析,保证了威胁情报生产的准确性,并且本方法生产的威胁情报可以直接应用在安全设备,有利于后期的安全监测。
Description
技术领域
本发明涉及网络安全领域,特别涉及一种威胁情报生产方法、装置、设备及存储介质。
背景技术
在网络安全领域中,威胁情报是有关于组织可能面临的潜在攻击以及如何检测和阻止这些攻击的信息。近年来,威胁情报技术大力发展,成为企业安全建设中不可缺少的一部分,企业通过购买订阅威胁情报服务、自己生产威胁情报或者接入威胁情报产品等方式加强企业安全防护的能力。
目前,威胁情报的生产方式通常包括:(1)通过分析恶意样本和网络行为生产威胁情报;(2)通过安全设备捕获恶意行为流量生产威胁情报;(3)基于大量告警日志进行威胁情报提取等方式。上述威胁情报的生产方式均存在一个难以解决的问题,是从已有的威胁情报的基础上进行处理,数据都是经人工处理的,并不是最原始的数据;并且生产威胁情报的准确性严重依赖于安全设备策略的准确性,如果安全设备的告警日志中存在大量误报,那么威胁情报生产的准确性会大大降低,同时大量的告警日志也会增加分析人员的工作压力。
发明内容
有鉴于此,本发明的目的在于提供威胁情报生产方法、装置、设备及存储介质,解决了现有技术中威胁情报生产不准确的问题。
为解决上述技术问题,本发明提供了一种威胁情报生产方法,包括:
获取预设时间段内的原始威胁信息,所述原始威胁信息为没有威胁情报的IP对应的原始威胁信息;
根据所述IP对所述原始威胁信息进行聚合,得到聚合后的原始威胁信息;
对所述聚合后的原始威胁信息进行特征提取,得到特征向量;
将所述特征向量输入到训练好的神经网络模型中,若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型,并根据所述威胁类型生产所述IP对应的威胁情报。
可选的,所述获取预设时间段内的原始威胁信息,所述原始威胁信息为没有威胁情报的IP对应的原始威胁信息,包括:
获取所述预设时间段内流量探针采集的流量日志;
根据IP是否有威胁情报对所述流量日志进行筛选,得到所述IP的流量日志,并将所述流量日志作为所述原始威胁信息。
可选的,在所述根据IP是否有威胁情报对所述流量日志进行筛选,得到所述IP的流量日志之后,还包括:
对所述流量日志进行标准化处理,得到标准化的流量日志,并将所述标准化的流量日志存储在标准化数据库中;
相应的,所述并将所述流量日志作为所述原始威胁信息,包括:
并将所述标准化的流量日志作为所述原始威胁信息。
可选的,所述对所述聚合后的原始威胁信息进行特征提取,得到特征向量,包括:
采用标准归一化、最大最小归一化、计算最值和计算统计值方法提取所述聚合后的原始威胁信息中数据型数据的特征向量;
采用one-hot编码方法将所述聚合后的原始威胁信息中的枚举型数据进行转化,以提取枚举型数据的特征向量;
将所述聚合后的原始威胁信息中map类型的key-value拆分成单独的字段,以提取map型数据的特征向量。
可选的,所述训练好的神经网络模型采用Transformer架构,采用XGBoost作为分类器,并且在输入层之后加入一个Batch Normalization层。
可选的,在所述若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型之后,还包括:
获取所述预设时间段内所述IP对应的告警日志;
获取预设策略机制;
将所述告警日志和所述威胁类型进行关联分析,并根据所述预设策略机制,确定所述IP的最终威胁类型;
相应的,所述根据所述威胁类型生产所述IP对应的威胁情报,包括:
根据所述最终威胁类型生产所述IP对应的威胁情报。
可选的,在所述根据所述最终威胁类型生产所述IP对应的威胁情报之后,还包括:
将所述IP以标准化格式进行存储;
将所述威胁情报进行打包上传到云端与安全设备进行联动,以实现自动化生成所述威胁情报。
本发明还提供了一种威胁情报生产装置,包括:
原始威胁信息获取模块,用于获取预设时间段内的原始威胁信息,所述原始威胁信息为没有威胁情报的IP对应的原始威胁信息;
聚合模块,用于根据所述IP对所述原始威胁信息进行聚合,得到聚合后的原始威胁信息;
特征提取模块,用于对所述聚合后的原始威胁信息进行特征提取,得到特征向量;
威胁情报生产模块,用于将所述特征向量输入到训练好的神经网络模型中,若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型,并根据所述威胁类型生产所述IP对应的威胁情报。
本发明还提供了一种威胁情报生产设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述的威胁情报生产方法的步骤。
本发明还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的威胁情报生产方法的步骤。
可见,本发明通过获取预设时间段内的原始威胁信息,原始威胁信息为没有威胁情报的IP对应的原始威胁信息;根据IP对原始威胁信息进行聚合,得到聚合后的原始威胁信息;对聚合后的原始威胁信息进行特征提取,得到特征向量;将特征向量输入到训练好的神经网络模型中,若IP存在威胁行为,则根据训练好的神经网络模型确定IP的威胁类型,并根据威胁类型生产IP对应的威胁情报。与现有技术基于加工处理后的数据进行数据分析生产情报相比,本方法直接利用机器学习技术对原始威胁信息进行分析,保证了威胁情报生产的准确性,并且本申请生产的威胁情报可以直接应用在安全设备上,有利于后期的安全监测。
此外,本发明还提供了威胁情报生产装置、设备及存储介质,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种威胁情报生产方法的流程图;
图2为本发明实施例提供的一种威胁情报生产装置的结构示意图;
图3为本发明实施例提供的一种威胁情报生产设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
威胁情报也称网络威胁情报(CTI),是详细描述针对组织的网络安全威胁的数据。威胁情报可帮助安全团队更加积极主动地采集由数据驱动的有效措施,在网络攻击发生之前就将其消弭于无形。它还可以帮助组织更有效地检测和应对进行中的攻击行为。
安全分析师通过从多个来源收集原始的安全威胁信息以及与安全相关的信息,然后将这些数据关联起来并进行分析,以发现趋势、模式和关系,深入了解实际或潜在的威胁,从而创建威胁情报。
威胁数据的生产通常有多种途径。安全团队可以收集任何原始的威胁数据,只要能帮助他们构建更全面的企业安全能力。例如,安全团队正在调查新的勒索软件,他们需要收集相关的恶意样本,以及恶意样本可能相关的勒索软件团队,以及各安全设备上可能产生的告警日志和流量日志等信息。1)安全团队通常可以订阅多个开源或商用的威胁情报数据源,不同的威胁情报数据源可能针对性不同,也有利于构建全面的情报能力;2)通过信息共享社区获取信息,在一些专业论坛、社交平台中,经常会有同行在其中分享第一手信息;3)企业内部通常部署了很多安全设备,这些安全设备每天都会产生大量的告警日志和访问日志,这些数据提供了企业所面临的威胁和网络攻击的记录,可以帮助企业生产提高自身防护能力的专属情报。上述方法不具备从原始威胁信息生产威胁情报的能力,仅仅是在已有的威胁情报上进行分类处理,因此在此数据基础上进行后续处理,缺乏可靠性;并且从已有的威胁情报信息中,提炼关键词的过程,无法直接应用在安全设备中。
本发明提出了一种威胁情报生产方法,能够解决上述问题。具体请参考图1,图1为本发明实施例提供的一种威胁情报生产方法的流程图。该方法可以包括:
S101:获取预设时间段内的原始威胁信息,原始威胁信息为没有威胁情报的IP对应的原始威胁信息。
本实施例并不对预设时间段做限定。例如可以是每天获取当天内的原始威胁信息;或者还可以是每周获取这一周内的原始威胁信息。本实施例并不对原始威胁信息做限定,只要是未加工过的原始信息即可。例如,原始威胁信息可以是利用流量探针采集的流量日志;或者原始威胁信息还可以是恶意样本的原始代码。
需要进一步说明的是,上述获取预设时间段内的原始威胁信息,原始威胁信息为没有威胁情报的IP对应的原始威胁信息,可以包括以下步骤:
步骤21:获取预设时间段内流量探针采集的流量日志;
步骤22:根据IP是否有威胁情报对流量日志进行筛选,得到IP的流量日志,并将流量日志作为原始威胁信息。
本实施例考虑到原始代码可能处理比较复杂,因此选择流量探针采集的流量日志作为生产威胁情报的原材料,并且考虑到原始威胁信息数量巨大,因此按天为一周期,并且可以根据IP(Internet Protocol,网络之间互联的协议)是否有威胁情报对流量日志进行筛选,得到IP的流量日志,并将流量日志作为原始威胁信息,以此减少数据量的处理,提高处理效率。流量日志包括源IP、访问目标、访问路径等多种数据,作为威胁情报生产的原始威胁信息,记录了攻击者的访问和攻击行为。
需要进一步说明的是,在上述根据IP是否有威胁情报对流量日志进行筛选,得到IP的流量日志之后,还可以包括以下步骤:
步骤31:对流量日志进行标准化处理,得到标准化的流量日志,并将标准化的流量日志存储在标准化数据库中;
相应的,并将流量日志作为原始威胁信息,包括:
步骤32:并将标准化的流量日志作为原始威胁信息。
本实施例考虑到不同的流量探针采集的流量日志字段可能存在歧义或同一个意思表达成不同的字段,因此需要通过设计标准化字段和数据表,并利用ELK(Elasticsearch(基于Lucene的搜索服务器,Lucene是一个开放源代码的全文检索引擎工具包)、Logstash(是一个开源的数据收集引擎)和Kibana(是一个开源的分析和可视化平台))来搭建标准化数据库。ELK主要部署于企业架构中,手机多台设备上多个服务的日志信息,并将其统一整合。对流量日志进行格式标准化,使得流量日志具有统一格式,把流量日志标准化后存储到大数据平台的Hive(基于Hadoop的一个数据仓库工具,Hadoop是一个开发和运行处理大规模数据的软件平台)数据仓库中。
流量日志标准化举例如下:(1)接收到的流量日志中可能存在数据类型不符合规范的情况,比如“2022-05-05 11:11:11”的时间字段是String类型(字符串类型),需要转换成DateTime类型(包含日期、时间的类型)。(2)流量日志中各字段的名称并不是设定的标准化字段,需要进行映射转换。
S102:根据IP对原始威胁信息进行聚合,得到聚合后的原始威胁信息。
将采集到的原始威胁信息按照IP分别进行聚合,并统计与IP网络行为相关的统计值。可以按照时间分区,按照源IP对原始威胁信息进行聚合,并统计以下的统计值:访问次数、攻击次数、访问目标数量、访问域名和对应次数、攻击目标和对应次数等数十个聚合统计字段。
S103:对聚合后的原始威胁信息进行特征提取,得到特征向量。
本实施例对聚合后的原始威胁信息进行特征提取,得到特征向量。
需要进一步说明的是,上述对聚合后的原始威胁信息进行特征提取,得到特征向量,可以包括以下步骤:
步骤41:采用标准归一化、最大最小归一化、计算最值和计算统计值方法提取聚合后的原始威胁信息中数据型数据的特征向量;
步骤42:采用one-hot编码方法将所述聚合后的原始威胁信息中的枚举型数据进行转化,以提取枚举型数据的特征向量;
步骤43:将聚合后的原始威胁信息中map类型的key-value拆分成单独的字段,以提取map型数据的特征向量。
本实施例聚合后的原始威胁信息可能会存在多个不同数据类型的字段,因此针对不同数据类型,采用多种特征提取方式。可以包含以下三种:(1)对于数据值的数据可以采用标准归一化、最大最小归一化、计算最大值(最小值、平均值和方差)等方法;(2)对于枚举型的数据采用one-hot(独热编码,其为一位有效编码)编码方式进行转化;(3)对于map(键-值对的集合)类型的数据,直接将其中的key-value(键-值)拆分成单独的字段进行处理。
S104:将特征向量输入到训练好的神经网络模型中,若IP存在威胁行为,则根据训练好的神经网络模型确定IP的威胁类型,并根据威胁类型生产IP对应的威胁情报。
本实施例将特征向量输入到训练好的神经网络模型中,当该IP存在威胁行为,则训练好的神经网络模型输出该IP的威胁类型,根据IP和威胁类型生产威胁情报。
需要进一步说明的是,上述训练好的神经网络模型采用Transformer(是一个利用注意力机制来提高模型训练速度的模型)架构,采用XGBoost(是一个优化的分布式梯度增强库)作为分类器,并且在输入层之后加入一个Batch Normalization(批归一化)层。
本实施例中训练好的神经网络模型的主体采用了标准的Transformer架构用于表征学习,即将其作为一个特征提取器。采用XGBoost作为分类器,并最终输出相应的分类结果。
Transformer是一种基于注意力机制的神经网络架构,它解决了LSTM(LongShort-Term Memory,长短期记忆网络)和GRU((gated recurrent neural network,门控循环神经网络)等序列模型不能并行计算的缺点,实现了快速高效的序列学习。Transformer的基本结构包含三个组件:(1)Encoder:编码器,用于对输入序列进行编码。它包含多个相同的层,每一层包括多头注意力机制和前馈神经网络,多头注意力机制会关注输入序列的不同部分,得到序列的特征表示,再通过前馈神经网络,进一步学习序列特征。(2)Decoder:解码器,用于生成输出序列。它的结构与Encoder基本相同,但多头注意力机制会关注编码器输出和解码器的历史输出。(3)Positional Encoding:位置编码,用于保存序列元素在序列中的相对位置信息。因为注意力机制本身无法区分序列中的先后关系。Transformer可以学习全局上下文信息,这对任意长序列的特征提取都很有用。这使得Transformer即使对较长或较复杂的非语言序列也能学到有效特征。多头注意力机制可以自动关注序列的不同部分,这提供了某种程度的特征选择能力,有利于学习关键特征。
并且,考虑到对于特征向量的数据,新增了许多列数据,从而导致数据稀疏并且每个属性的分布不同,为了提高训练的效率,使得模型能够稳定地训练,在输入层之后加入一个Batch Normalization层操作,将数据输入的分布保持在标准正态分布。BatchNormalization层主要是用来解决协变量转移(covariate shift)问题,即输入变量会在训练的过程中发现变化和迁移,从而影响到模型的训练效果。加入Batch Normalization层可以将输入向量中的各个属性保持在标准正态分布,从而保证了模型高效稳定的训练。
上述模型的训练过程可以包括:利用过往生产的威胁情报,按照IP把威胁类型和聚合后的原始威胁信息进行关联,得到一个粗糙的数据集。经过人工分析筛选的方式,将其中存在明显歧义或者误报的数据剔除,最终得到一个训练数据集。在制作训练数据集时,在已经生产的情报中尽量均匀地筛选不同威胁类型的IP,通过这些IP关联原始威胁信息,并筛选出来,并利用IP对应的威胁类型进行标注。该模型采用端到端的训练方式,在GPU(Graphics Processing Unit,图形处理器)上进行训练。根据其在验证集上的指标,对模型进行微调,最后在测试集上达到一定的指标要求。以此获得训练好的神经网络模型,用于确定IP的威胁类型。
需要进一步说明的是,在上述若IP存在威胁行为,则根据训练好的神经网络模型确定IP的威胁类型,并根据威胁类型生产IP对应的威胁情报之后,还可以包括以下步骤:
步骤61:获取预设时间段内IP对应的告警日志;
步骤62:获取预设策略机制;
步骤63:将告警日志和威胁类型进行关联分析,并根据预设策略机制,确定IP的最终威胁类型;
相应的,根据威胁类型生产IP对应的威胁情报,包括:
根据最终威胁类型生产IP对应的威胁情报。
本实施例利用训练好的模型,推理计算IP和对应的威胁类型,并模型得出的威胁类型与告警日志进行关联,通过预设策略机制,判断一个IP基于原始威胁信息的推理结果和安全设备所判断的情况是否一致,并且是否存在明显的攻击行为,以此来过滤误报的情况。
例如:当一个IP根据模型的分类结果得出该IP对应的威胁类型为漏洞利用,并且安全设备上产生的告警类型也是漏洞利用,同时产生告警次数大于2,则确认该IP的威胁类型为漏洞利用;当一个IP的模型分类结果得出该IP对应的威胁类型为漏洞利用,但是安全设备上产生的告警类型均不是漏洞利用,则放弃生产该IP的威胁情报。
需要进一步说明的是,在上述根据最终威胁类型生产IP对应的威胁情报之后,还可以包括以下步骤:
步骤71:将IP以标准化格式进行存储;
步骤72:将威胁情报进行打包上传到云端与安全设备进行联动,以实现自动化生成威胁情报。
本实施例将经过关联决策的恶意IP,以标准化格式存储在数据库中,并定期进行打包生产,上传到云端与安全设备进行联动,实现自动化威胁情报的生产。
应用本发明实施例提供的威胁情报生产方法,通过获取预设时间段内的原始威胁信息,原始威胁信息为没有威胁情报的IP对应的原始威胁信息;根据IP对原始威胁信息进行聚合,得到聚合后的原始威胁信息;对聚合后的原始威胁信息进行特征提取,得到特征向量;将特征向量输入到训练好的神经网络模型中,若IP存在威胁行为,则根据训练好的神经网络模型确定IP的威胁类型,并根据威胁类型生产IP对应的威胁情报。与现有技术基于加工处理后的数据进行数据分析生产情报相比,本方法直接利用机器学习技术对原始威胁信息进行分析,保证了威胁情报生产的准确性,并且本申请生产的威胁情报可以直接应用在安全设备上,能够完成从生产到应用的整个流程,有利于后期的安全监测。并且,将流量探针采集的流量日志作为原始威胁信息相较于原始代码,可以降低处理难处;并且,对流量日志进行标准化处理,保证流量日志具有统一格式;并且,针对不同数据类型的字段,采用具有针对性的特征提取方法;并且采用Transformer架构的神经网络模型,可以提高学习速度;并且,加入Batch Normalization层可以将输入向量中的各个属性保持在标准正态分布,从而保证了模型高效稳定的训练;并且,结合告警日志对IP的威胁类型进行综合分析判断,生产出精准的威胁情报;并且,有完整的从原始威胁信息生产威胁情报,并标准化存储情报后,上传云端下发到各个安全设备使用的生产流程。
下面对本发明实施例提供的威胁情报生产装置进行介绍,下文描述的威胁情报生产装置与上文描述的威胁情报生产方法可相互对应参照。
具体请参考图2,图2为本发明实施例提供的一种威胁情报生产装置的结构示意图,可以包括:
原始威胁信息获取模块100,用于获取预设时间段内的原始威胁信息,所述原始威胁信息为没有威胁情报的IP对应的原始威胁信息;
聚合模块200,用于根据所述IP对所述原始威胁信息进行聚合,得到聚合后的原始威胁信息;
特征提取模块300,用于对所述聚合后的原始威胁信息进行特征提取,得到特征向量;
威胁情报生产模块400,用于将所述特征向量输入到训练好的神经网络模型中,若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型,并根据所述威胁类型生产所述IP对应的威胁情报。
进一步,基于上述实施例,上述原始威胁信息获取模块100,可以包括:
获取单元,用于获取所述预设时间段内流量探针采集的流量日志;
筛选单元,用于根据IP是否有威胁情报对所述流量日志进行筛选,得到所述IP的流量日志,并将所述流量日志作为所述原始威胁信息。
进一步,基于上述实施例,上述筛选单元,可以包括:
标准化处理和存储子单元,用于对所述流量日志进行标准化处理,得到标准化的流量日志,并将所述标准化的流量日志存储在标准化数据库中;相应的,所述并将所述流量日志作为所述原始威胁信息,包括:并将所述标准化的流量日志作为所述原始威胁信息。
进一步,基于上述实施例,上述特征提取模块300,可以包括:
数据型数据特征提取单元,用于采用标准归一化、最大最小归一化、计算最值和计算统计值方法提取所述聚合后的原始威胁信息中数据型数据的特征向量;
枚举型数据特征提取单元,用于采用one-hot编码方法将所述聚合后的原始威胁信息中的枚举型数据进行转化,以提取枚举型数据的特征向量;
Map型数据特征提取单元,用于将所述聚合后的原始威胁信息中map类型的key-value拆分成单独的字段,以提取map型数据的特征向量。
进一步,基于上述实施例,上述威胁情报生产模块400中的训练好的神经网络模型采用Transformer架构,采用XGBoost作为分类器,并且在输入层之后加入一个BatchNormalization层。
进一步,基于上述任一实施例,上述威胁情报生产装置,还可以包括:
告警日志获取模块,用于在所述若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型之后,获取所述预设时间段内所述IP对应的告警日志;
预设策略机制获取模块,用于获取预设策略机制;
关联分析模块,用于将所述告警日志和所述威胁类型进行关联分析,并根据所述预设策略机制,确定所述IP的最终威胁类型;相应的,所述根据所述威胁类型生产所述IP对应的威胁情报,包括:根据所述最终威胁类型生产所述IP对应的威胁情报。
进一步,基于上述实施例,上述威胁情报生产装置,还可以包括:
在所述根据所述最终威胁类型生产所述IP对应的威胁情报之后,还包括:
存储模块,用于将所述IP以标准化格式进行存储;
上传模块,用于将所述威胁情报进行打包上传到云端与安全设备进行联动,以实现自动化生成所述威胁情报。
需要说明的是,上述威胁情报生产装置中的模块以及单元在不影响逻辑的情况下,其顺序可以前后进行更改。
应用本发明实施例提供的威胁情报生产装置,通过原始威胁信息获取模块100,用于获取预设时间段内的原始威胁信息,原始威胁信息为没有威胁情报的IP对应的原始威胁信息;聚合模块200,用于根据IP对原始威胁信息进行聚合,得到聚合后的原始威胁信息;特征提取模块300,用于对聚合后的原始威胁信息进行特征提取,得到特征向量;威胁情报生产模块400,用于将特征向量输入到训练好的神经网络模型中;威胁情报生产模块,用于若IP存在威胁行为,则根据训练好的神经网络模型确定IP的威胁类型,并根据威胁类型生产IP对应的威胁情报。本方法直接利用机器学习技术对原始威胁信息进行分析,保证了威胁情报生产的准确性,并且本申请生产的威胁情报可以直接应用在安全设备上,能够完成从生产到应用的整个流程,有利于后期的安全监测。并且,将流量探针采集的流量日志作为原始威胁信息相较于原始代码,可以降低处理难处;并且,对流量日志进行标准化处理,保证流量日志具有统一格式;并且,针对不同数据类型的字段,采用具有针对性的特征提取方法;并且采用Transformer架构的神经网络模型,可以提高学习速度;并且,加入BatchNormalization层可以将输入向量中的各个属性保持在标准正态分布,从而保证了模型高效稳定的训练;并且,结合告警日志对IP的威胁类型进行综合分析判断,生产出精准的威胁情报;并且,有完整的从原始威胁信息生产威胁情报,并标准化存储情报后,上传云端下发到各个安全设备使用的生产流程。
下面对本发明实施例提供的威胁情报生产设备进行介绍,下文描述的威胁情报生产设备与上文描述的威胁情报生产方法可相互对应参照。
请参考图3,图3为本发明实施例提供的一种威胁情报生产设备的结构示意图,可以包括:
存储器10,用于存储计算机程序;
处理器20,用于执行计算机程序,以实现上述的威胁情报生产方法。
存储器10、处理器20、通信接口31均通过通信总线32完成相互间的通信。
在本发明实施例中,存储器10中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本发明实施例中,存储器10中可以存储有用于实现以下功能的程序:
获取预设时间段内的原始威胁信息,原始威胁信息为没有威胁情报的IP对应的原始威胁信息;
根据IP对原始威胁信息进行聚合,得到聚合后的原始威胁信息;
对聚合后的原始威胁信息进行特征提取,得到特征向量;
将特征向量输入到训练好的神经网络模型中,若IP存在威胁行为,则根据训练好的神经网络模型确定IP的威胁类型,并根据威胁类型生产IP对应的威胁情报。
在一种可能的实现方式中,存储器10可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及至少一个功能所需的应用程序等;存储数据区可存储使用过程中所创建的数据。
此外,存储器10可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括NVRAM。存储器存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可以包括各种系统程序,用于实现各种基础任务以及处理基于硬件的任务。
处理器20可以为中央处理器(Central Processing Unit,CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件,处理器20可以是微处理器或者也可以是任何常规的处理器等。处理器20可以调用存储器10中存储的程序。
通信接口31可以为通信模块的接口,用于与其他设备或者系统连接。
当然,需要说明的是,图3所示的结构并不构成对本发明实施例中威胁情报生产设备的限定,在实际应用中威胁情报生产设备可以包括比图3所示的更多或更少的部件,或者组合某些部件。
下面对本发明实施例提供的存储介质进行介绍,下文描述的存储介质与上文描述的威胁情报生产方法可相互对应参照。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的威胁情报生产方法的步骤。
该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本发明的范围。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上对本发明所提供的一种威胁情报生产方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种威胁情报生产方法,其特征在于,包括:
获取预设时间段内的原始威胁信息,所述原始威胁信息为没有威胁情报的IP对应的原始威胁信息;
根据所述IP对所述原始威胁信息进行聚合,得到聚合后的原始威胁信息;
对所述聚合后的原始威胁信息进行特征提取,得到特征向量;
将所述特征向量输入到训练好的神经网络模型中,若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型,并根据所述威胁类型生产所述IP对应的威胁情报。
2.根据权利要求1所述的威胁情报生产方法,其特征在于,所述获取预设时间段内的原始威胁信息,所述原始威胁信息为没有威胁情报的IP对应的原始威胁信息,包括:
获取所述预设时间段内流量探针采集的流量日志;
根据IP是否有威胁情报对所述流量日志进行筛选,得到所述IP的流量日志,并将所述流量日志作为所述原始威胁信息。
3.根据权利要求2所述的威胁情报生产方法,其特征在于,在所述根据IP是否有威胁情报对所述流量日志进行筛选,得到所述IP的流量日志之后,还包括:
对所述流量日志进行标准化处理,得到标准化的流量日志,并将所述标准化的流量日志存储在标准化数据库中;
相应的,所述并将所述流量日志作为所述原始威胁信息,包括:
并将所述标准化的流量日志作为所述原始威胁信息。
4.根据权利要求1所述的威胁情报生产方法,其特征在于,所述对所述聚合后的原始威胁信息进行特征提取,得到特征向量,包括:
采用标准归一化、最大最小归一化、计算最值和计算统计值方法提取所述聚合后的原始威胁信息中数据型数据的特征向量;
采用one-hot编码方法将所述聚合后的原始威胁信息中的枚举型数据进行转化,以提取枚举型数据的特征向量;
将所述聚合后的原始威胁信息中map类型的key-value拆分成单独的字段,以提取map型数据的特征向量。
5.根据权利要求1所述的威胁警报产生方法,其特征在于,所述训练好的神经网络模型采用Transformer架构,采用XGBoost作为分类器,并且在输入层之后加入一个BatchNormalization层。
6.根据权利要求1至5任一项所述的威胁情报生产方法,其特征在于,在所述若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型之后,还包括:
获取所述预设时间段内所述IP对应的告警日志;
获取预设策略机制;
将所述告警日志和所述威胁类型进行关联分析,并根据所述预设策略机制,确定所述IP的最终威胁类型;
相应的,所述根据所述威胁类型生产所述IP对应的威胁情报,包括:
根据所述最终威胁类型生产所述IP对应的威胁情报。
7.根据权利要求6所述的威胁情报生产方法,其特征在于,在所述根据所述最终威胁类型生产所述IP对应的威胁情报之后,还包括:
将所述IP以标准化格式进行存储;
将所述威胁情报进行打包上传到云端与安全设备进行联动,以实现自动化生成所述威胁情报。
8.一种威胁情报生产装置,其特征在于,包括:
原始威胁信息获取模块,用于获取预设时间段内的原始威胁信息,所述原始威胁信息为没有威胁情报的IP对应的原始威胁信息;
聚合模块,用于根据所述IP对所述原始威胁信息进行聚合,得到聚合后的原始威胁信息;
特征提取模块,用于对所述聚合后的原始威胁信息进行特征提取,得到特征向量;
威胁情报生产模块,用于将所述特征向量输入到训练好的神经网络模型中,若所述IP存在威胁行为,则根据所述训练好的神经网络模型确定所述IP的威胁类型,并根据所述威胁类型生产所述IP对应的威胁情报。
9.一种威胁情报生产设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的威胁情报生产方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的威胁情报生产方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311091822.0A CN116886440A (zh) | 2023-08-28 | 2023-08-28 | 一种威胁情报生产方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311091822.0A CN116886440A (zh) | 2023-08-28 | 2023-08-28 | 一种威胁情报生产方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116886440A true CN116886440A (zh) | 2023-10-13 |
Family
ID=88262360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311091822.0A Pending CN116886440A (zh) | 2023-08-28 | 2023-08-28 | 一种威胁情报生产方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116886440A (zh) |
-
2023
- 2023-08-28 CN CN202311091822.0A patent/CN116886440A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111885040A (zh) | 分布式网络态势感知方法、系统、服务器及节点设备 | |
CN112702342B (zh) | 网络事件处理方法、装置、电子设备及可读存储介质 | |
CN110046297B (zh) | 运维违规操作的识别方法、装置和存储介质 | |
CN113965389B (zh) | 一种基于防火墙日志的网络安全管理方法、设备及介质 | |
CN115296933B (zh) | 一种工业生产数据风险等级评估方法及系统 | |
US11477225B2 (en) | Pre-emptive computer security | |
GB2582609A (en) | Pre-emptive computer security | |
CN117220920A (zh) | 基于人工智能的防火墙策略管理方法 | |
CN115396324A (zh) | 一种网络安全态势感知预警处理系统 | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
CN116760578A (zh) | 一种应用ai的威胁态势预测方法 | |
CN116886440A (zh) | 一种威胁情报生产方法、装置、设备及存储介质 | |
Korzeniowski et al. | Discovering interactions between applications with log analysis | |
CN112651433B (zh) | 一种特权账号异常行为分析方法 | |
CN111611483A (zh) | 一种对象画像构建方法、装置、设备及存储介质 | |
CN112750047A (zh) | 行为关系信息提取方法及装置、存储介质、电子设备 | |
CN113300997A (zh) | 多维度网络设备评估方法和装置、计算机可读存储介质 | |
CN112100165A (zh) | 基于质量评估的交通数据处理方法、系统、设备和介质 | |
Erokhin et al. | The Dataset Features Selection for Detecting and Classifying Network Attacks | |
Naukudkar et al. | Enhancing performance of security log analysis using correlation-prediction technique | |
CN116915459B (zh) | 一种基于大语言模型的网络威胁分析方法 | |
CN113190844B (zh) | 一种检测方法、相关方法及相关装置 | |
CN110119406B (zh) | 实时任务记录的核对方法及装置 | |
CN117312804B (zh) | 智能数据感知监测方法和系统 | |
CN117454281A (zh) | 一种soar剧本生成方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |