CN114372497A - 多模态安全数据分类方法和分类系统 - Google Patents
多模态安全数据分类方法和分类系统 Download PDFInfo
- Publication number
- CN114372497A CN114372497A CN202110947872.9A CN202110947872A CN114372497A CN 114372497 A CN114372497 A CN 114372497A CN 202110947872 A CN202110947872 A CN 202110947872A CN 114372497 A CN114372497 A CN 114372497A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- alarm
- classification
- safety
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 151
- 231100000279 safety data Toxicity 0.000 claims abstract description 98
- 238000005070 sampling Methods 0.000 claims description 69
- 230000006870 function Effects 0.000 claims description 27
- 238000003066 decision tree Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 8
- 239000000523 sample Substances 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 abstract description 20
- 238000007726 management method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种多模态安全数据分类方法和分类系统。该方法包括:获取多个告警平台的安全数据,基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果,其中,分类学习模型基于对集成学习模型进行模型训练得到,该集成学习模型包括多个基础分类器,每个基础分类器对应设置于一个告警平台中。本发明能够将不同的告警平台作为基础分类器参与到集成学习中,使不同告警平台对安全数据的分类能力集成到统一的平台中,实现对多模态安全数据的监测管理,提升对安全数据的分类准确率。
Description
技术领域
本发明涉及信息安全技术领域,具体涉及一种多模态安全数据分类方法和分类系统。
背景技术
在数据爆炸的时代,安全监测产生的数据压力越来越大。在安全监测行业,态势感知大数据平台往往汇聚了数万台套的主机、服务器和安全设备的相关数据,由此产生相关的安全告警则往往达到数万条。一般情况下,在全部告警数据中,大部分告警数据属于误报,因此,大量告警催生了大量的无效数据。无效数据覆盖了真正需要分析的攻击信息,导致漏读、漏报风险增加,难以直接通过安全数据统计出相关的安全生产状况。
发明内容
为此,本发明提供一种多模态安全数据分类方法和分类系统,以实现对多模态安全数据的监测管理,提升对安全数据的分类准确率。
为了实现上述目的,本发明第一方面提供一种多模态安全数据分类方法,该方法包括:
获取多个告警平台的安全数据;
基于预先训练得到的分类学习模型,对各所述安全数据进行分类,得到各所述安全数据对应的分类结果;
其中,分类学习模型基于对集成学习模型进行模型训练得到,所述集成学习模型包括多个基础分类器,每个所述基础分类器对应设置于一个所述告警平台中。
可选地,在基于预先训练得到的分类学习模型,对各所述安全数据进行分类之前,还包括:
基于各所述安全数据,生成训练数据集;
基于所述训练数据集中各训练数据对应的数据特征,构建各所述告警平台对应的决策树,以作为所述基础分类器;
基于自助采样法从所述训练数据集中选取训练数据,以获取与各所述基础分类器对应的训练数据子集;
针对每个所述基础分类器,基于对应的训练数据子集对该基础分类器进行训练,其中,每个所述基础分类器对应的所述训练数据子集不同;
利用训练完成的各所述基础分类器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集;
利用所述验证结果集对次级学习模型进行模型训练,得到所述分类学习模型。
可选地,所述基于各所述安全数据,生成训练数据集的步骤,包括:
基于预设的特征提取函数对各所述安全数据进行数据特征提取,获取特征数据集;
基于预设的抽样函数对所述特征数据集进行抽样,得到抽样数据集;
基于预设的标注函数判断所述抽样数据集中各抽样数据的安全属性,并基于判断结果对各所述抽样数据进行标注;
根据已标注的各所述抽样数据,生成所述训练数据集。
可选地,所述基于所述训练数据集中各训练数据对应的数据特征,构建各所述告警平台对应的决策树的步骤,包括:
针对任意一个告警平台,从所述训练数据集中提取源于该告警平台的所述训练数据对应的数据特征,并基于该数据特征与决策树算法,构建该告警平台对应的决策树。
可选地,所述数据特征包括:IP地址、端口、返回码、访问方式、攻击特征、攻击类别、告警时间和告警来源中的一种或者多种。
可选地,所述告警平台包括探针和/或态势感知平台;所述安全数据包括原始流量数据和/或告警数据,其中,原始流量数据包含对应的告警数据。
可选地,所述基于预先训练得到的分类学习模型,对各所述安全数据进行分类,得到各所述安全数据对应的分类结果之后,还包括:
针对任意一条所述安全数据,基于所述分类结果确定针对所述安全数据的危害等级、误报可能性和处置建议;
将所述安全数据的数据特征、危害等级、误报可能性和处置建议在客户端中进行显示。
本发明第二方面提供一种多模态安全数据分类系统,该系统包括:
获取模块,用于获取多个告警平台的安全数据;
分类模块,用于基于预先训练得到的分类学习模型,对各所述安全数据进行分类,得到各所述安全数据对应的分类结果;
其中,分类学习模型基于对集成学习模型进行模型训练得到,所述集成学习模型包括多个基础分类器,每个所述基础分类器对应设置于一个所述告警平台中。
可选地,该系统还包括:
数据处理模块,用于基于各所述安全数据,生成训练数据集;
构建模块,用于基于所述训练数据集中各训练数据对应的数据特征,构建各所述告警平台对应的决策树,以作为所述基础分类器;
采样模块,用于基于自助采样法从所述训练数据集中选取训练数据,以获取与各所述基础分类器对应的训练数据子集;
第一训练模块,用于针对每个所述基础分类器,基于对应的训练数据子集对该基础分类器进行训练,其中,每个所述基础分类器对应的所述训练数据子集不同;
验证模块,用于利用训练完成的各所述基础分类器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集;
第二训练模块,用于利用所述验证结果集对次级学习模型进行模型训练,得到所述分类学习模型。
可选地,所述数据处理模块包括:
特征提取单元,用于基于预设的特征提取函数对各所述安全数据进行数据特征提取,获取特征数据集;
数据抽样单元,用于基于预设的抽样函数对所述特征数据集进行抽样,得到抽样数据集;
数据标注单元,用于基于预设的标注函数判断所述抽样数据集中各抽样数据的安全属性,并基于判断结果对各所述抽样数据进行标注;
数据集生成单元,用于根据已标注的各所述抽样数据,生成所述训练数据集。
可选地,所述构建模块,用于针对任意一个告警平台,从所述训练数据集中提取源于该告警平台的所述训练数据对应的数据特征,并基于该数据特征与决策树算法,构建该告警平台对应的决策树。
可选地,所述数据特征包括:IP地址、端口、返回码、访问方式、攻击特征、攻击类别、告警时间和告警来源中的一种或者多种。
可选地,所述告警平台包括探针和/或态势感知平台;所述安全数据包括原始流量数据和/或告警数据,其中,原始流量数据包含对应的告警数据。
可选地,所述系统还包括:
分析模块,用于针对任意一条所述安全数据,基于所述分类结果确定针对所述安全数据的危害等级、误报可能性和处置建议;
控制模块,用于将所述安全数据的数据特征、危害等级、误报可能性和处置建议在客户端中进行显示。本发明具有如下优点:
本发明提供一种多模态安全数据分类方法和分类系统。该方法包括:首先,获取多个告警平台的安全数据,其次,基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果,其中,分类学习模型基于对集成学习模型进行模型训练得到,该集成学习模型包括多个基础分类器,每个基础分类器对应设置于一个告警平台中,能够将不同的告警平台作为基础分类器参与到集成学习中,使不同告警平台对安全数据的分类能力集成到统一的平台中,实现对多模态安全数据的监测管理,提升对安全数据的分类准确率。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。
图1为本发明实施例提供的一种多模态安全数据分类方法的流程图;
图2为本发明实施例提供的另一种多模态安全数据分类方法的流程图;
图3为本发明实施例提供的一种多模态安全数据分类方法的应用场景示意图;
图4为本发明实施例提供的一种多模态安全数据分类系统的结构示意图;
图5为本发明实施例提供的另一种多模态安全数据分类系统的结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
在数据爆炸的时代,安全监测产生的数据压力越来越大。在安全监测行业,态势感知大数据平台往往汇聚了数万台套的主机、服务器和安全设备的相关数据,由此产生相关的安全告警则往往达到数万条。一般情况下,告警数据遵循二八分离的原则,在告警数据中,百分之八十以上的告警数据属于误报。此外,在真正的攻击数据中,百分之八十以上的数据属于重复数据。因此,大量告警催生了大量的无效数据。无效数据覆盖了真正需要分析的攻击信息,导致漏读、漏报风险增加,且难以直接通过安全数据统计出相关的安全生产状况。
另外,在安全监测中,常用的安全设备主要分为以下几个部分:以流量分析与拦截为主的态势感知系统;以服务器端口管控为主的服务器管理系统,以资产测绘与终端主机为主的日志审计、资产测绘系统,除此之外,还有网站应用级入侵防御系统(WebApplication Firewall,WAF)、蜜罐、探针、漏洞扫描系统等等其他配套设备,这些设备功能各异,提供的安全数据的来源各有不同,这对监测的统一实现产生了很大的挑战。
为了解决上述难题,本发明实施例提供一种多模态安全数据分类方法。其中,每一种安全数据的来源都可以称为一种模态,多模态安全数据指的是来源不同的安全数据。
图1为本发明实施例提供的一种多模态安全数据分类方法的流程图。如图1所示,该多模态安全数据分类方法,包括以下步骤:
步骤S101、获取多个告警平台的安全数据。
其中,告警平台是进行安全监测的平台。安全数据是告警平台进行安全监测产生的数据。本发明实施例对于各告警平台的安全监测对象不作限制,例如,告警平台可以用于对服务器、虚拟服务器、网站、客户端、网络设备等进行安全监测。
在一个实施方式中,告警平台包括至少一个安全设备,该安全设备包括探针和/或态势感知平台,也可以包括服务器管理系统、日志审计和资产测绘系统、WAF、蜜罐、漏洞扫描系统中的一种或多种。
在一个实施方式中,安全数据包括告警平台监测得到的原始流量数据和/或告警数据,其中,原始流量数据包含对应的告警数据。告警数据是告警平台包括的安全设备(例如,态势感知平台)从原始流量数据中提取出的数据。
步骤S102、基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果。
其中,分类学习模型基于对集成学习模型进行模型训练得到,该集成学习模型是基于集成学习算法训练的模型,该集成学习模型包括多个基础分类器,每个基础分类器对应设置于一个告警平台中。
在一个实施方式中,分类结果包括误告警、常规告警或特殊告警等结果。
本发明实施例提供一种多模态安全数据分类方法,首先,获取多个告警平台的安全数据,其次,基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果,其中,分类学习模型基于对集成学习模型进行模型训练得到,该集成学习模型包括多个基础分类器,每个基础分类器对应设置于一个告警平台中,能够将不同的告警平台作为基础分类器参与到集成学习中,使不同告警平台对安全数据的分类能力集成到统一的平台中,实现对多模态安全数据的监测管理,提升对安全数据的分类准确率。
在一个实施方式中,由于安全数据源于不同的告警平台,管理难度大,因此,在获取多个告警平台的安全数据之前,还包括:将多个告警平台的安全数据导入客户端中,以便于后续流程中对多模态安全数据的使用和管理。具体地,各告警平台可以通过专用的接入设备将监测得到的安全数据导入客户端中。步骤S101包括:从客户端中获取多个告警平台的安全数据。
在一个实施方式中,在基于预先训练得到的分类学习模型,对各安全数据进行分类(上述步骤S102)之前,还包括:基于各安全数据训练得到分类学习模型。图2为本发明实施例提供的另一种多模态安全数据分类方法的流程图。如图2所示,在基于预先训练得到的分类学习模型,对各安全数据进行分类之前,还包括以下步骤:
步骤S201、基于各安全数据,生成训练数据集。
其中,训练数据集是用于训练获得分类学习模型的数据集。
在一个实施方式中,该安全数据可以是从上述客户端中导出的数据。
在一个实施方式中,基于各安全数据,生成训练数据集的步骤,包括下述步骤一到步骤四:
步骤一、基于预设的特征提取函数对各安全数据进行数据特征提取,获取特征数据集。
其中,预设的特征提取函数可以根据具体实施场景进行设置,本实施例中不做具体限定。对于原始流量数据,提取的数据特征包括IP地址和时间戳,对于告警数据,提取的数据特征包括:IP地址、端口、返回码、访问方式、攻击特征、攻击类别、告警时间和告警来源中的一种或者多种。
在一个实施方式中,在基于预设的特征提取函数对各安全数据进行数据特征提取,获取特征数据集之后,还可以将该特征数据集导入客户端中,以便于后续流程中对多模态安全数据进行管理。
步骤二、基于预设的抽样函数对特征数据集进行抽样,得到抽样数据集。
其中,预设的抽样函数是基于保证抽样的均衡性和完整性的原则设置的函数。
在一个实施方式中,为了保证抽样的均衡性,可以设置抽样函数,按照告警时间段进行等比例抽样,具体地,针对每一个告警时间段,使抽取的告警时间处于该告警时间段的特征数据的数量与告警时间处于该告警时间段的全部特征数据数量的比例为预设比例。例如,设置告警时间段的时长为1小时,预设比例为50%,则基于预设的抽样函数对特征数据集进行抽样时,针对每一个小时,抽取告警时间在该一个小时内的特征数据中的50%作为抽样数据集。
在一个实施方式中,为了保证抽样的完整性,还可以设置抽样函数,使抽样周期包含至少一个业务周期,按照抽样周期进行范围抽样。例如,该业务周期可以是一天,上班时间和下班时间共同构成一个业务周期,即对告警时间在上班时间和下班时间之间的特征数据均需要抽样;该业务周期可以是一周,工作日和休息日共同构成一个业务周期,即对告警时间在工作日和休息日的特征数据均需要抽样。
步骤三、基于预设的标注函数判断抽样数据集中各抽样数据的安全属性,并基于判断结果对各抽样数据进行标注。
其中,预设的标注函数可以根据具体实施场景进行自定义设置,本实施例中不做具体限定。作为示例,该抽样数据的安全属性可以包括误告警或真实攻击。在判断抽样数据的安全属性为误告警的情况下,将该抽样数据进行标注为误告警;在判断抽样数据的安全属性为真实攻击的情况下,将该抽样数据进行标注为真实攻击。
步骤四、根据已标注的各抽样数据,生成训练数据集。
其中,该训练数据集中包含已标注的各抽样数据。
步骤S202、基于训练数据集中各训练数据对应的数据特征,构建各告警平台对应的决策树,以作为基础分类器。
在一个实施方式中,基于训练数据集中各训练数据对应的数据特征,构建各告警平台对应的决策树的步骤,包括:针对任意一个告警平台,从训练数据集中提取源于该告警平台的训练数据对应的数据特征,并基于该数据特征与决策树算法,构建该告警平台对应的决策树。
步骤S203、基于自助采样法从训练数据集中选取训练数据,以获取与各基础分类器对应的训练数据子集。
其中,各基础分类器分别对应一个训练数据子集,各基础分类器对应的训练数据子集中,包含至少一个相同训练数据和至少一个不同的训练数据。
步骤S204、针对每个基础分类器,基于对应的训练数据子集对该基础分类器进行训练。
其中,每个基础分类器对应的训练数据子集不同。
需要说明的是,根据上述步骤S202-步骤S204可知,本实施例中采用的集成算法是随机森林算法。
步骤S205、利用训练完成的各基础分类器分别对训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集。
步骤S206、利用验证结果集对次级学习模型进行模型训练,得到分类学习模型。
其中,次级学习模型可以根据具体实施场景进行选择,例如选择分类评定模型(logistic模型)作为次级学习模型。
需要说明的是,根据上述步骤S205-步骤S206可知,本实施例中采用的结合策略(次级学习算法)是学习法(stacking算法)。
在一个实施方式中,上述步骤S202-步骤S206可以利用集成学习训练平台调用机器学习框架进行。
本发明实施例通过上述步骤S201-步骤S206,构建该告警平台对应的决策树作为基础分类器,让告警平台参与到集成学习中,使用自助采样法作为集成思想,通过学习法(stacking算法)作为结合策略,得到集成后的分类能力强于所有基础分类器的分类学习模型,能够将不同告警平台对安全数据的分类能力集成到统一的平台中,实现对多模态安全数据的监测管理,提升对安全数据的分类准确率,还能够剥除无效数据的干扰,提高监测分析中各设备的效能。
相比于单一的告警平台服务,本实施例通过机器学习的方法,形成更准确的对安全数据的分类机制,能够同时利用所有单一告警平台的优势。
需要说明的是,本发明实施例中,需要的算力等级与并行的告警平台处于同一数量级,不会因为集成学习,导致产生大量的网络需求和算力需求,是经济有效的安全数据的分类方法。并且,本发明实施例提供的多模态安全数据分类方法具有跨场景的应用能力,上述获得的分类学习模型可以根据应用环境、数据种类的不同进行动态优化,不会因为生产环境的变化导致应用该多模态安全数据分类方法失效。另外,本实施提供的多模态安全数据分类方法具有很强的可拓展性,伴随着态势感知平台的技术优化,上述获得的分类学习模型可以同步适应并即时应用到新的分析环境中。
在一个实施方式中,基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果之后,还包括:针对任意一条安全数据,基于分类结果确定针对安全数据的危害等级、误报可能性和处置建议,并将安全数据的数据特征、危害等级、误报可能性和处置建议在客户端中进行显示。
其中,危害等级是指该安全数据所告警的攻击可能造成的危害所属的等级,危害等级越大,该安全数据所告警的攻击可能造成的危害越严重。误报可能性是指该安全数据存在误报的可能性大小,该误报可能性超过预设可能性阈值,则表示该安全数据是误告警,该预设可能性阈值可以设置为95%。处置建议是针对该安全数据所告警的攻击进行处置的建议。
在一个实施方式中,分类结果包括误告警、常规告警或特殊告警等结果。
在一个实施方式中,客户端可以预存分类结果与处置建议的映射表,并基于分类结果和该映射表确定处置建议。例如,在分类结果为误告警的情况下,该处置建议可以是建议忽略该条安全数据;在分类结果为常规告警的情况下,可以根据该安全数据的数据特征选择相应的处置方法确定为处置建议;在分类结果为特殊告警的情况下,可以将处置建议设置为建议人工处理。
在一个实施方式中,安全数据的数据特征可以仅显示告警来源。
在一个实施方式中,基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果之后,还包括:将各安全数据对应的分类结果与该安全数据对应的告警平台对该安全数据的初始分类结果进行对比,确定告警平台的特性。
需要说明的是,不同的告警平台的特性不同,针对不同的攻击敏感程度不同,对安全数据的分类准确率也不同。一般情况下,难以获知各告警平台的特性,也难以确定各告警平台对安全数据分类准确性的偏向,即对哪些安全数据分类准确性较高,对哪些安全数据分类准确性较低。而上述训练获得的分类学习模型对安全数据的分类的准确性高于任意一个告警平台对安全数据的分类的准确性,因此,将该分类学习模型对于安全数据的分类结果作为最接近真实结果的分类结果,与告警平台对该安全数据的初始分类结果进行对比,就能获知该告警平台的特性,即获知告警平台对安全数据分类准确性的偏向,进而可以指导人工分析,提高监测分析工作中的人工效率。
图3为本发明实施例提供的一种多模态安全数据分类方法的应用场景示意图。如图3所示,该应用场景包括多个告警平台301,首先,将多个告警平台301的安全数据导入客户端302中。然后,在需要训练获得分类学习模型的情况下,从该客户端302中导出该多个告警平台301的安全数据,并基于各安全数据,生成训练数据集。将该训练数据集输入到集成学习训练平台303台中,以调用集成学习训练平台303中的机器学习框架,训练获得分类学习模型304,最后,利用该分类学习模型304对各安全数据进行分类,得到各安全数据对应的分类结果,并将该分类结果输入客户端302中。在该场景中,还可以将各安全数据对应的分类结果与该安全数据对应的告警平台对该安全数据的初始分类结果进行对比分析,确定告警平台的特性,并将该告警平台的特性同样输入到客户端302中。本实施例提供的该应用场景中,各步骤具体的工作方式详见前述实施例提供的多模态安全数据分类方法,此处不再赘述。
图4为本发明实施例提供的一种多模态安全数据分类系统的结构示意图。如图4所示,该系统包括:获取模块41和分类模块42。
其中,获取模块41,用于获取多个告警平台的安全数据。
在一个实施方式中,告警平台包括探针和/或态势感知平台;安全数据包括原始流量数据和/或告警数据,其中,原始流量数据包含对应的告警数据。
分类模块42,用于基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果。
其中,分类学习模型基于对集成学习模型进行模型训练得到,该集成学习模型包括多个基础分类器,每个基础分类器对应设置于一个告警平台中。
本发明实施例提供一种多模态安全数据分类系统,获取模块用于获取多个告警平台的安全数据,分类模块用于基于预先训练得到的分类学习模型,对各安全数据进行分类,得到各安全数据对应的分类结果,其中,分类学习模型基于对集成学习模型进行模型训练得到,该集成学习模型包括多个基础分类器,每个基础分类器对应设置于一个告警平台中,能够将不同的告警平台作为基础分类器参与到集成学习中,使不同告警平台对安全数据的分类能力集成到统一的平台中,实现对多模态安全数据的监测管理,提升对安全数据的分类准确率。
图5为本发明实施例提供的另一种多模态安全数据分类系统的结构示意图。如图5所示,该系统还包括:数据处理模块51、构建模块52、采样模块53、第一训练模块54、验证模块55和第二训练模块56。
其中,数据处理模块51,用于基于各安全数据,生成训练数据集。
在一个实施方式中,该数据处理模块51包括:特征提取单元、数据抽样单元、数据标注单元和数据集生成单元。
其中,特征提取单元,用于基于预设的特征提取函数对各安全数据进行数据特征提取,获取特征数据集。
数据抽样单元,用于基于预设的抽样函数对特征数据集进行抽样,得到抽样数据集。
数据标注单元,用于基于预设的标注函数判断抽样数据集中各抽样数据的安全属性,并基于判断结果对各抽样数据进行标注。
数据集生成单元,用于根据已标注的各抽样数据,生成训练数据集。
构建模块52,用于基于训练数据集中各训练数据对应的数据特征,构建各告警平台对应的决策树,以作为基础分类器。
在一个实施方式中,该构建模块52,用于针对任意一个告警平台,从训练数据集中提取源于该告警平台的训练数据对应的数据特征,并基于该数据特征与决策树算法,构建该告警平台对应的决策树。
其中,数据特征包括:IP地址、端口、返回码、访问方式、攻击特征、攻击类别、告警时间和告警来源中的一种或者多种。
采样模块53,用于基于自助采样法从训练数据集中选取训练数据,以获取与各基础分类器对应的训练数据子集。
第一训练模块54,用于针对每个基础分类器,基于对应的训练数据子集对该基础分类器进行训练,其中,每个基础分类器对应的训练数据子集不同。
验证模块55,用于利用训练完成的各基础分类器分别对训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集。
第二训练模块56,用于利用验证结果集对次级学习模型进行模型训练,得到分类学习模型。
在一个实施方式中,上述系统还包括:分析模块和控制模块。
其中,分析模块,用于针对任意一条安全数据,基于分类结果确定针对该安全数据的危害等级、误报可能性和处置建议;
控制模块,用于将安全数据的数据特征、危害等级、误报可能性和处置建议在客户端中进行显示。
本实施例提供的多模态安全数据分类系统中各模块的工作方式与多模态安全数据分类方法中各步骤对应,因此,多模态安全数据分类系统中各模块的详细工作方式可参见本实施例提供的多模态安全数据分类方法。
本发明实施例提供的多模态安全数据分类系统,能够构建告警平台对应的决策树作为基础分类器,让告警平台参与到集成学习中,使用自助采样法作为集成思想,通过学习法作为结合策略,得到集成后的分类能力强与所有基础分类器的分类学习模型,能够将不同告警平台对安全数据的分类能力集成到统一的平台中,实现对多模态安全数据的监测管理,提升对安全数据的分类准确率,还能够剥除无效数据的干扰,提高监测分析中各设备的效能。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (14)
1.一种多模态安全数据分类方法,其特征在于,所述方法包括:
获取多个告警平台的安全数据;
基于预先训练得到的分类学习模型,对各所述安全数据进行分类,得到各所述安全数据对应的分类结果;
其中,分类学习模型基于对集成学习模型进行模型训练得到,所述集成学习模型包括多个基础分类器,每个所述基础分类器对应设置于一个所述告警平台中。
2.根据权利要求1所述的方法,其特征在于,在基于预先训练得到的分类学习模型,对各所述安全数据进行分类之前,还包括:
基于各所述安全数据,生成训练数据集;
基于所述训练数据集中各训练数据对应的数据特征,构建各所述告警平台对应的决策树,以作为所述基础分类器;
基于自助采样法从所述训练数据集中选取训练数据,以获取与各所述基础分类器对应的训练数据子集;
针对每个所述基础分类器,基于对应的训练数据子集对该基础分类器进行训练,其中,每个所述基础分类器对应的所述训练数据子集不同;
利用训练完成的各所述基础分类器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集;
利用所述验证结果集对次级学习模型进行模型训练,得到所述分类学习模型。
3.根据权利要求2所述的方法,其特征在于,所述基于各所述安全数据,生成训练数据集的步骤,包括:
基于预设的特征提取函数对各所述安全数据进行数据特征提取,获取特征数据集;
基于预设的抽样函数对所述特征数据集进行抽样,得到抽样数据集;
基于预设的标注函数判断所述抽样数据集中各抽样数据的安全属性,并基于判断结果对各所述抽样数据进行标注;
根据已标注的各所述抽样数据,生成所述训练数据集。
4.根据权利要求2所述的方法,其特征在于,所述基于所述训练数据集中各训练数据对应的数据特征,构建各所述告警平台对应的决策树的步骤,包括:
针对任意一个告警平台,从所述训练数据集中提取源于该告警平台的所述训练数据对应的数据特征,并基于该数据特征与决策树算法,构建该告警平台对应的决策树。
5.根据权利要求4所述的方法,其特征在于,所述数据特征包括:IP地址、端口、返回码、访问方式、攻击特征、攻击类别、告警时间和告警来源中的一种或者多种。
6.根据权利要求1所述的方法,其特征在于,所述告警平台包括探针和/或态势感知平台;所述安全数据包括原始流量数据和/或告警数据,其中,原始流量数据包含对应的告警数据。
7.根据权利要求1所述的方法,其特征在于,所述基于预先训练得到的分类学习模型,对各所述安全数据进行分类,得到各所述安全数据对应的分类结果之后,还包括:
针对任意一条所述安全数据,基于所述分类结果确定针对所述安全数据的危害等级、误报可能性和处置建议;
将所述安全数据的数据特征、危害等级、误报可能性和处置建议在客户端中进行显示。
8.一种多模态安全数据分类系统,其特征在于,所述系统包括:
获取模块,用于获取多个告警平台的安全数据;
分类模块,用于基于预先训练得到的分类学习模型,对各所述安全数据进行分类,得到各所述安全数据对应的分类结果;
其中,分类学习模型基于对集成学习模型进行模型训练得到,所述集成学习模型包括多个基础分类器,每个所述基础分类器对应设置于一个所述告警平台中。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括:
数据处理模块,用于基于各所述安全数据,生成训练数据集;
构建模块,用于基于所述训练数据集中各训练数据对应的数据特征,构建各所述告警平台对应的决策树,以作为所述基础分类器;
采样模块,用于基于自助采样法从所述训练数据集中选取训练数据,以获取与各所述基础分类器对应的训练数据子集;
第一训练模块,用于针对每个所述基础分类器,基于对应的训练数据子集对该基础分类器进行训练,其中,每个所述基础分类器对应的所述训练数据子集不同;
验证模块,用于利用训练完成的各所述基础分类器分别对所述训练数据集中未被选入训练数据子集的训练数据进行验证,获得验证结果集;
第二训练模块,用于利用所述验证结果集对次级学习模型进行模型训练,得到所述分类学习模型。
10.根据权利要求9所述的系统,其特征在于,所述数据处理模块包括:
特征提取单元,用于基于预设的特征提取函数对各所述安全数据进行数据特征提取,获取特征数据集;
数据抽样单元,用于基于预设的抽样函数对所述特征数据集进行抽样,得到抽样数据集;
数据标注单元,用于基于预设的标注函数判断所述抽样数据集中各抽样数据的安全属性,并基于判断结果对各所述抽样数据进行标注;
数据集生成单元,用于根据已标注的各所述抽样数据,生成所述训练数据集。
11.根据权利要求9所述的系统,其特征在于,所述构建模块,用于针对任意一个告警平台,从所述训练数据集中提取源于该告警平台的所述训练数据对应的数据特征,并基于该数据特征与决策树算法,构建该告警平台对应的决策树。
12.根据权利要求11所述的系统,其特征在于,所述数据特征包括:IP地址、端口、返回码、访问方式、攻击特征、攻击类别、告警时间和告警来源中的一种或者多种。
13.根据权利要求8所述的系统,其特征在于,所述告警平台包括探针和/或态势感知平台;所述安全数据包括原始流量数据和/或告警数据,其中,原始流量数据包含对应的告警数据。
14.根据权利要求8所述的系统,其特征在于,所述系统还包括:
分析模块,用于针对任意一条所述安全数据,基于所述分类结果确定针对所述安全数据的危害等级、误报可能性和处置建议;
控制模块,用于将所述安全数据的数据特征、危害等级、误报可能性和处置建议在客户端中进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947872.9A CN114372497A (zh) | 2021-08-18 | 2021-08-18 | 多模态安全数据分类方法和分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110947872.9A CN114372497A (zh) | 2021-08-18 | 2021-08-18 | 多模态安全数据分类方法和分类系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372497A true CN114372497A (zh) | 2022-04-19 |
Family
ID=81138076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110947872.9A Pending CN114372497A (zh) | 2021-08-18 | 2021-08-18 | 多模态安全数据分类方法和分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372497A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116582367A (zh) * | 2023-07-13 | 2023-08-11 | 北京立思辰安科技术有限公司 | 一种用于阻断防火墙网络通信的数据处理系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110213287A (zh) * | 2019-06-12 | 2019-09-06 | 北京理工大学 | 一种基于集成机器学习算法的双模式入侵检测装置 |
WO2020143226A1 (zh) * | 2019-01-07 | 2020-07-16 | 浙江大学 | 一种基于集成学习的工业控制系统入侵检测方法 |
CN111475804A (zh) * | 2020-03-05 | 2020-07-31 | 浙江省北大信息技术高等研究院 | 一种告警预测方法及系统 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111967495A (zh) * | 2020-07-06 | 2020-11-20 | 中国科学院计算技术研究所 | 一种分类识别模型构建方法 |
CN112884754A (zh) * | 2021-03-11 | 2021-06-01 | 广东工业大学 | 一种多模态阿尔兹海默症医学图像识别分类方法和系统 |
-
2021
- 2021-08-18 CN CN202110947872.9A patent/CN114372497A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143226A1 (zh) * | 2019-01-07 | 2020-07-16 | 浙江大学 | 一种基于集成学习的工业控制系统入侵检测方法 |
CN110213287A (zh) * | 2019-06-12 | 2019-09-06 | 北京理工大学 | 一种基于集成机器学习算法的双模式入侵检测装置 |
CN111475804A (zh) * | 2020-03-05 | 2020-07-31 | 浙江省北大信息技术高等研究院 | 一种告警预测方法及系统 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111967495A (zh) * | 2020-07-06 | 2020-11-20 | 中国科学院计算技术研究所 | 一种分类识别模型构建方法 |
CN112884754A (zh) * | 2021-03-11 | 2021-06-01 | 广东工业大学 | 一种多模态阿尔兹海默症医学图像识别分类方法和系统 |
Non-Patent Citations (1)
Title |
---|
谢文涌等: "基于多特征提取和Stacking集成学习的金线莲品系分类", 《农业工程学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116582367A (zh) * | 2023-07-13 | 2023-08-11 | 北京立思辰安科技术有限公司 | 一种用于阻断防火墙网络通信的数据处理系统 |
CN116582367B (zh) * | 2023-07-13 | 2023-09-22 | 北京立思辰安科技术有限公司 | 一种用于阻断防火墙网络通信的数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108471429B (zh) | 一种网络攻击告警方法及系统 | |
CN108200054B (zh) | 一种基于dns解析的恶意域名检测方法及装置 | |
CN108881263B (zh) | 一种网络攻击结果检测方法及系统 | |
CN108683687B (zh) | 一种网络攻击识别方法及系统 | |
CN108881265B (zh) | 一种基于人工智能的网络攻击检测方法及系统 | |
CN105376193B (zh) | 安全事件的智能关联分析方法与装置 | |
CN108833185B (zh) | 一种网络攻击路线还原方法及系统 | |
CN112417477A (zh) | 一种数据安全监测方法、装置、设备及存储介质 | |
CN102340485A (zh) | 基于信息关联的网络安全态势感知系统及其方法 | |
CN110198303A (zh) | 威胁情报的生成方法及装置、存储介质、电子装置 | |
CN116366374B (zh) | 基于大数据的电网网络管理的安全评估方法、系统及介质 | |
CN113704328B (zh) | 基于人工智能的用户行为大数据挖掘方法及系统 | |
CN112822153A (zh) | 基于dns日志的可疑威胁发现方法和系统 | |
CN117478433A (zh) | 一种网络与信息安全动态预警系统 | |
CN115001934A (zh) | 一种工控安全风险分析系统及方法 | |
CN114329450A (zh) | 数据安全处理方法、装置、设备及存储介质 | |
Harbola et al. | Improved intrusion detection in DDoS applying feature selection using rank & score of attributes in KDD-99 data set | |
CN113886829B (zh) | 一种失陷主机检测方法、装置、电子设备及存储介质 | |
CN115396324A (zh) | 一种网络安全态势感知预警处理系统 | |
CN114372497A (zh) | 多模态安全数据分类方法和分类系统 | |
US20150150132A1 (en) | Intrusion detection system false positive detection apparatus and method | |
CN116227723A (zh) | 基于特征引擎的资产定级方法、装置、电子设备及介质 | |
CN113055396B (zh) | 一种跨终端溯源分析的方法、装置、系统和存储介质 | |
CN117997586B (zh) | 基于数据可视化的网络安全检测系统 | |
CN113347021B (zh) | 一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220419 |
|
RJ01 | Rejection of invention patent application after publication |