CN113836527B

CN113836527B - 入侵事件检测模型构建方法、装置及入侵事件检测方法

Info

Publication number: CN113836527B
Application number: CN202111390020.0A
Authority: CN
Inventors: 熊剑; 陈杰; 黄雅芳; 童兆丰; 薛锋
Original assignee: Beijing ThreatBook Technology Co Ltd
Current assignee: Beijing ThreatBook Technology Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-18
Anticipated expiration: 2041-11-23
Also published as: CN113836527A

Abstract

一种入侵事件检测模型构建方法、装置及入侵事件检测方法，涉及网络安全技术领域，包括：先获取用于训练原始检测模型的目标数据集；并对目标数据集进行预处理，得到特征向量集；再根据目标数据集对特征向量集进行特征关联处理，得到独立特征向量集；进一步地，对目标数据集中带标签的事件数据进行过采样，得到过采样数据，以及对目标数据集中无标签的日志数据进行欠采样，得到欠采样数据；最后根据独立特征向量集、过采样数据以及欠采样数据，对原始检测模型进行训练，得到入侵事件检测模型，能够构建入侵事件检测模型，以实现快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

Description

入侵事件检测模型构建方法、装置及入侵事件检测方法

技术领域

本申请涉及网络安全技术领域，具体而言，涉及一种入侵事件检测模型构建方法、装置及入侵事件检测方法。

背景技术

随着近年来互联网的飞速发展，各种形式的网络攻击层出不穷。如何有效地检测异常行为和攻击类型已成为网络领域的一个重要课题安全。传统的威胁检测方法，通常是基于规则的匹配方式对数据流量或日志做静态识别，然而，在实践中发现，传统方法检测准确率低，误报率高。

发明内容

本申请实施例的目的在于提供一种入侵事件检测模型构建方法、装置及入侵事件检测方法，能够构建入侵事件检测模型，以实现快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

本申请实施例第一方面提供了一种入侵事件检测方法，包括：

获取用于训练原始检测模型的目标数据集；

对所述目标数据集进行预处理，得到特征向量集；

根据所述目标数据集对所述特征向量集进行特征关联处理，得到独立特征向量集；

对所述目标数据集中带标签的事件数据进行过采样，得到过采样数据，以及对所述目标数据集中无标签的日志数据进行欠采样，得到欠采样数据；

根据所述独立特征向量集、所述过采样数据以及所述欠采样数据，对所述原始检测模型进行训练，得到入侵事件检测模型。

在上述实现过程中，先获取用于训练原始检测模型的目标数据集；并对目标数据集进行预处理，得到特征向量集；再根据目标数据集对特征向量集进行特征关联处理，得到独立特征向量集；进一步地，对目标数据集中带标签的事件数据进行过采样，得到过采样数据，以及对目标数据集中无标签的日志数据进行欠采样，得到欠采样数据；最后根据独立特征向量集、过采样数据以及欠采样数据，对原始检测模型进行训练，得到入侵事件检测模型，能够构建入侵事件检测模型，以实现快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

进一步地，所述获取用于训练原始检测模型的目标数据集，包括：

获取经单位时间聚合后的高威胁告警数据，得到原始数据集，以及获取聚合后的低威胁告警数据，得到负样本数据；

对所述原始数据集进行预处理，得到处理数据；

根据预先构建的三级动作标签体系对所述处理数据进行数据分析，确定目标入侵事件以及所述目标入侵事件对应的目标行为标签；

确定所述负样本数据中入侵事件的行为标签；

根据所述目标入侵事件的目标行为标签、所述负样本数据中入侵事件的行为标签以及所述处理数据，确定目标数据集。

进一步地，所述根据预先构建的三级动作标签体系对所述处理数据进行数据分析，确定目标入侵事件以及所述目标入侵事件对应的目标行为标签，包括：

根据预先构建的三级动作标签体系对所述处理数据进行数据分析，得到目标入侵事件以及所述目标入侵事件对应的动静态行为标签；

根据所述三级动作标签体系以及所述处理数据中的入侵阶段信息，构建所述目标入侵事件的入侵上下文标签；

根据所述三级动作标签体系以及所述处理数据中的进程链，确定所述目标入侵事件的复合型行为标签；

根据所述动静态行为标签、所述入侵上下文标签以及所述复合型行为标签，确定所述目标入侵事件的目标行为标签。

进一步地，在对所述原始数据集进行预处理，得到处理数据之前，所述方法还包括：

根据所述处理数据以预设算法构建三级动作标签体系，所述三级动作标签体系包括一级标签、二级子标签以及三级子标签，其中，所述三级子标签包括所述二级子标签的子属性数据。

在上述实现过程中，能够建立事件维度的行为标签体系。

进一步地，所述根据所述目标数据集对所述特征向量集进行特征关联处理，得到独立特征向量集，包括：

根据所述目标数据集中时序上下文的关联性数据，生成与所述特征向量集对应的附加向量数据；

根据所述特征向量集和所述附加向量数据，生成新的特征向量集；

将所述新的特征向量集中每个特征向量与所述目标数据集中的告警相关信息进行对应关联，得到独立特征向量集。

进一步地，所述根据所述独立特征向量集、所述过采样数据以及所述欠采样数据，对所述原始检测模型进行训练，得到入侵事件检测模型，包括：

根据所述独立特征向量集、所述过采样数据以及所述欠采样数据生成原始样本集；

将所述原始样本集划分为训练集和测试集；

通过所述训练集对所述原始检测模型进行训练，得到训练好的检测模型；

通过所述测试集对所述训练好的检测模型进行评估，得到评估结果；

根据所述评估结果和所述训练好的检测模型，确定入侵事件检测模型。

在上述实现过程中，可以通过训练集对原始检测模型进行训练，得到多个训练好的检测模型，再通过测试集和预设评价指标对每个检测模型进行评估，得到每个检测模型的评估结果，最终根据评估结果从多个检测模型中选出性能表现最好的模型，作为入侵事件检测模型。

本申请实施例第二方面提供了一种入侵事件检测方法，应用于第一方面所述的入侵事件检测模型，包括：

获取待检测的聚合后的高威胁告警数据；

通过预先构建的入侵事件检测模型对所述高威胁告警数据进行处理，得到检测到的入侵事件以及所述入侵事件的入侵行为标签；

根据所述入侵事件和所述入侵行为标签确定入侵事件检测结果。

在上述实现过程中，先获取待检测的聚合后的高威胁告警数据；在通过预先构建的入侵事件检测模型对所述高威胁告警数据进行处理，得到检测到的入侵事件以及所述入侵事件的入侵行为标签；最后根据所述入侵事件和所述入侵行为标签确定入侵事件检测结果，能够快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

本申请实施例第三方面提供了一种入侵事件检测模型构建装置，所述入侵事件检测模型构建装置包括：

获取单元，用于获取用于训练原始检测模型的目标数据集；

预处理单元，用于对所述目标数据集进行预处理，得到特征向量集；

关联单元，用于根据所述目标数据集对所述特征向量集进行特征关联处理，得到独立特征向量集；

采样单元，用于对所述目标数据集中带标签的事件数据进行过采样，得到过采样数据，以及对所述目标数据集中无标签的日志数据进行欠采样，得到欠采样数据；

训练单元，用于根据所述独立特征向量集、所述过采样数据以及所述欠采样数据，对所述原始检测模型进行训练，得到入侵事件检测模型。

在上述实现过程中，获取单元先获取用于训练原始检测模型的目标数据集；预处理单元对目标数据集进行预处理，得到特征向量集；关联单元再根据目标数据集对特征向量集进行特征关联处理，得到独立特征向量集；进一步地，采样单元对目标数据集中带标签的事件数据进行过采样，得到过采样数据，以及对目标数据集中无标签的日志数据进行欠采样，得到欠采样数据；最后训练单元根据独立特征向量集、过采样数据以及欠采样数据，对原始检测模型进行训练，得到入侵事件检测模型，能够构建入侵事件检测模型，以实现快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

本申请实施例第四方面提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的入侵事件检测模型构建方法。

本申请实施例第五方面提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请实施例第一方面中任一项所述的入侵事件检测模型构建方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种入侵事件检测模型构建方法的流程示意图；

图2为本申请实施例提供的一种入侵事件检测方法的流程示意图；

图3为本申请实施例提供的一种入侵事件检测模型构建装置的结构示意图；

图4为本申请实施例提供的另一种入侵事件检测模型构建装置的结构示意图；

图5是本申请实施例提供的一种动作标签体系构建方法的示意图；

图6是本申请实施例提供的一种入侵事件检测模型的构建方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供了一种入侵事件检测模型构建方法的流程示意图。其中，该入侵事件检测模型构建方法包括：

S101、获取经单位时间聚合后的高威胁告警数据，得到原始数据集，以及获取聚合后的低威胁告警数据，得到负样本数据。

本申请实施例中，该高威胁告警数据包括单点告警的入侵阶段信息、告警级别（即威胁程度、进程链、入侵事件、日志数据等，对此本申请实施例不作限定。

S102、对原始数据集进行预处理，得到处理数据。

作为一种可选的实施方式，对原始数据集进行预处理，得到处理数据，包括：

对原始数据集进行重复数据去重处理，得到第一处理重数据；

对去重数据进行缺失字段填充处理，得到第二处理数据；

对第二处理数据的误报数据进行修正处理，得到处理数据。

在上述实施方式中，对去重数据进行缺失字段填充处理，具体对去重数据中数值型字段的缺失字段进行0值填充。

在上述实施方式中，对第二处理数据的误报数据进行修正处理，具体对误报数据的告警严重级别进行修正。

在上述实施方式中，对原始数据集进行预处理，还可以包括对原始数据集进行特征选择与特征降维处理，对此本申请实施例不作限定。

请一并参阅图5，图5是本申请实施例提供的一种动作标签体系构建方法的示意图。如图5所示，在对原始数据集进行预处理，得到处理数据之前，还可以包括以下步骤：

根据处理数据以预设算法构建三级动作标签体系，三级动作标签体系包括一级标签、二级子标签以及三级子标签，其中，三级子标签包括二级子标签的子属性数据。

在上述实施方式中，预设算法具体包括MECE(相互独立，完全穷尽)原则等，对此本申请实施例不作限定。

在上述实施方式中，可以将主机基本信息、威胁场景、入侵阶段、进程链详情、恶意软件、APT组织等数据作为一级标签，对此本申请实施例不作限定。

在上述实施方式中，可以将主机资产项、主机内部信息、威胁风险行为、进程链子树等数据作为二级子标签，对此本申请实施例不作限定。

S103、根据预先构建的三级动作标签体系对处理数据进行数据分析，得到目标入侵事件以及目标入侵事件对应的动静态行为标签。

如图5所示，对处理数据进行分析，确定目标入侵事件，然后统计具体字段数据分布并筛选出具有静态信息与动态信息的行为标签，得到目标入侵事件对应的动静态行为标签。

S104、根据三级动作标签体系以及处理数据中的入侵阶段信息，构建目标入侵事件的入侵上下文标签。

本申请实施例中，该入侵阶段信息具体为单点告警的入侵阶段信息，在构建目标入侵事件的入侵上下文标签时，可以根据单点告警的入侵阶段信息采用2-gram或n-gram方法构建入侵上下文标签。

S105、根据三级动作标签体系以及处理数据中的进程链，确定目标入侵事件的复合型行为标签。

本申请实施例中，先获取处理数据中的进程链，然后确定进程链的三级标签，然后依据S101中聚合后的高威胁告警数据组合形成复合型行为标签。

S106、根据动静态行为标签、入侵上下文标签以及复合型行为标签，确定目标入侵事件的目标行为标签。

本申请实施例中，实施上述步骤S104~步骤S106，能够根据预先构建的三级动作标签体系对处理数据进行数据分析，确定目标入侵事件以及目标入侵事件对应的目标行为标签，从而建立了事件维度的行为标签体系。

如图5所示，在确定出目标行为标签之后，还可以根据步骤S104~步骤S106，确定每个目标行为标签对应的标签判定条件。在实际使用中，当某一入侵事件满足某一标签的标签判定条件时，则可以为该入侵事件设置该标签。

S107、确定负样本数据中入侵事件的行为标签。

本申请实施例中，负样本数据并不可靠，需要重新确定负样本数据的行为标签。

作为一种可选的实施方式，确定负样本数据中入侵事件的行为标签，包括：

通过预设的用于确定标签的人工智能模型，对负样本数据进行处理，得到负样本数据中入侵事件的行为标签。

作为另一种可选的实施方式，确定负样本数据中入侵事件的行为标签，包括：

在确定出目标行为标签之后，还可以根据步骤S104~步骤S106，确定每个目标行为标签对应的标签判定条件；

根据标签判定条件确定负样本数据中入侵事件的行为标签。

本申请实施例中，考虑了单点威胁行为，将威胁行为的上下文进行聚合形成威胁事件，对不可靠负样本以半监督学习方法重新生成标签。

S108、根据目标入侵事件的目标行为标签、负样本数据中入侵事件的行为标签以及处理数据，确定目标数据集。

请一并参阅图6，图6是本申请实施例提供的一种入侵事件检测模型的构建方法的流程示意图。如图6所示，处理数据仅包含了带目标行为标签的正样本数据，需要将聚合后的低威胁告警数据作为负样本数据，追加到处理数据中，得到目标数据集。

本申请实施例中，实施上述步骤S101~步骤S108，能够获取用于训练原始检测模型的目标数据集。

S109、对目标数据集进行预处理，得到特征向量集。

如图6所示，对目标数据集进行预处理，包括对目标数据集进行数据探索、数据预处理、特征选择（包装法、嵌入法、过滤法）等处理，得到特征向量，然后根据高威胁告警数据中的威胁程度标识特征向量的特征权重，得到特征向量集。

S110、根据目标数据集中时序上下文的关联性数据，生成与特征向量集对应的附加向量数据。

本申请实施例中，事件内部的威胁告警具有时序上下文的关联性，将目标数据集中威胁告警的上下文以Word2Vec算法生成词向量，得到附加向量数据。

本申请实施例中，实施步骤S110，构建了事件内部具有关联性的威胁告警时序上下文。

S111、根据特征向量集和附加向量数据，生成新的特征向量集。

本申请实施例中，将附加向量数据附加在特征向量集中相应的特征向量上，得到新的特征向量集。

S112、将新的特征向量集中每个特征向量与目标数据集中的告警相关信息进行对应关联，得到独立特征向量集。

本申请实施例中，实施上述步骤S112，能够将时序上下文日志与威胁告警记性关联，将目标行为标签转换为独立特征向量，从而得到独立特征向量集。

本申请实施例中，实施上述步骤S111~步骤S112，能够根据目标数据集对特征向量集进行特征关联处理，得到独立特征向量集。

S113、对目标数据集中带标签的事件数据进行过采样，得到过采样数据，以及对目标数据集中无标签的日志数据进行欠采样，得到欠采样数据。

本申请实施例中，如图6所示，由于目标数据集中样本的不均衡性，可以采用SMOTE（采样最邻近算法）算法对带标签的事件数据进行过采样，对无标签的日志数据进行欠采样。

本申请实施例中，带标签的事件数据包括带目标行为标签的正样本数据以及带行为标签的负样本数据等，对此本申请实施例不作限定。

S114、根据独立特征向量集、过采样数据以及欠采样数据，对原始检测模型进行训练，得到入侵事件检测模型。

作为一种可选的实施方式，根据独立特征向量集、过采样数据以及欠采样数据，对原始检测模型进行训练，得到入侵事件检测模型，包括：

根据独立特征向量集、过采样数据以及欠采样数据生成原始样本集；

将原始样本集划分为训练集和测试集；

通过训练集对原始检测模型进行训练，得到训练好的检测模型；

通过测试集对训练好的检测模型进行评估，得到评估结果；

根据评估结果和训练好的检测模型，确定入侵事件检测模型。

在上述实施方式中，先将原始样本集划分为训练集和测试集；然后通过预设的分类算法，通过训练集对原始检测模型进行训练；

在上述实施方式中，预设的分类算法不仅限于决策树模型、LR与集成学习等，对此本申请实施例不作限定。

在上述实施方式中，可以通过训练集对原始检测模型进行训练，得到多个训练好的检测模型，再通过测试集和预设评价指标对每个检测模型进行评估，得到每个检测模型的评估结果，最终根据评估结果从多个检测模型中选出性能表现最好的模型，作为入侵事件检测模型。

在上述实施方式中，通过测试集和预设评价指标对每个检测模型进行评估，以在不同场景下的每个检测模型的表现程度。

实施本申请实施例提供的方法，能够通过对入侵行为与关联日志形成的时序上下文事件以文本嵌入与机器学习的算法进行检测，实现了对具有行为标签体系事件的精准检测，不仅对原始单点告警数据与关联数据构建了具有三级分类的行为标签体系，而且对未标注数据以采样最邻近算法进行拓展。另一方面，该方法不依赖于专家领域知识，可以有效且动态地发现潜在的入侵威胁事件。

本申请实施例中，该方法的执行主体可以为计算机、服务器等计算装置，对此本实施例中不作任何限定。

在本申请实施例中，该方法的执行主体还可以为智能手机、平板电脑等智能设备，对此本实施例中不作任何限定。

在实际使用中，该方法的环境搭建包括：

（1）一台具有单点威胁告警检测能力的主服务器以及若干装有日志采集Agent的从服务器。

（2）在任意服务器上执行一系列威胁动作行为，例如对A服务器：执行SSH快速爆破；执行后门提权操作；执行反弹Shell脚本；执行PHP后门漏洞利用木马；

（3）单点检测与行为事件检测：

a、在执行SSH快速爆破后，获取登录权限及密码，此时Agent获取该行为的操作日志，并发出单点威胁告警；

b、执行后门提权操作并执行反弹Shell脚本，将攻击者权限提升到高级权限并获取执行脚本能力，然后依据PHP后门漏洞利用木马获取敏感数据资源，各自的敏感操作发出单点威胁告警；

c、采集a步骤的相关日志信息以及b步骤的相关日志信息，按照时序将入侵手段以及关联日志形成攻击上下文事件，并在特征抽取机制基础上自动化提取出特征。在实际使用中，由于未标注数据的存在以及数据训练样本较少，可以采用SMOTE过采样与半监督算法持续生成样本；

d、依照生成的样本自动打标签追加到原有的行为标签体系库中，通过预设的机器学习算法对行为标签数据进行分类以检测真正的入侵行为事件。

具体地，该预设的机器学习算法可以为集成学习与文本嵌入算法等，对此本申请实施例不作限定。

可见，实施本实施例所描述的入侵事件检测模型构建方法，能够构建入侵事件检测模型，以实现快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

实施例2

请参看图2，图2为本申请实施例提供的一种入侵事件检测方法的流程示意图。如图2所示，其中，该入侵事件检测方法，应用于实施例1所描述的入侵事件检测模型，包括：

S201、获取待检测的聚合后的高威胁告警数据。

S202、通过预先构建的入侵事件检测模型对高威胁告警数据进行处理，得到检测到的入侵事件以及入侵事件的入侵行为标签。

S203、根据入侵事件和入侵行为标签确定入侵事件检测结果。

本申请实施例中，可以根据入侵行为标签判断给入侵事件是否具有威胁。

本申请实施例中，实施该方法能够对威胁事件以机器学习方法进行检测，检测精度高。

可见，实施本实施例所描述的入侵事件检测方法，能够构建入侵事件检测模型，以实现快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

实施例3

请参看图3，图3为本申请实施例提供的一种入侵事件检测模型构建装置的结构示意图。如图3所示，该入侵事件检测模型构建装置包括：

获取单元310，用于获取用于训练原始检测模型的目标数据集；

预处理单元320，用于对目标数据集进行预处理，得到特征向量集；

关联单元330，用于根据目标数据集对特征向量集进行特征关联处理，得到独立特征向量集；

采样单元340，用于对目标数据集中带标签的事件数据进行过采样，得到过采样数据，以及对目标数据集中无标签的日志数据进行欠采样，得到欠采样数据；

训练单元350，用于根据独立特征向量集、过采样数据以及欠采样数据，对原始检测模型进行训练，得到入侵事件检测模型。

本申请实施例中，对于入侵事件检测模型构建装置的解释说明可以参照实施例1或实施例2中的描述，对此本实施例中不再多加赘述。

可见，实施本实施例所描述的入侵事件检测模型构建装置，能够构建入侵事件检测模型，以实现快速准确的对入侵事件进行检测，检测准确率高，误报率低，进而有利于维护网络安全。

实施例4

请一并参阅图4，图4是本申请实施例提供的另一种入侵事件检测模型构建装置的结构示意图。其中，图4所示的入侵事件检测模型构建装置是由图3所示的入侵事件检测模型构建装置进行优化得到的。如图4所示，获取单元310包括：

获取子单元311，用于获取经单位时间聚合后的高威胁告警数据，得到原始数据集，以及获取聚合后的低威胁告警数据，得到负样本数据；

预处理子单元312，用于对原始数据集进行预处理，得到处理数据；

第一确定子单元313，用于根据预先构建的三级动作标签体系对处理数据进行数据分析，确定目标入侵事件以及目标入侵事件对应的目标行为标签；

第二确定子单元314，用于确定负样本数据中入侵事件的行为标签；

第三确定子单元315，用于根据目标入侵事件的目标行为标签、负样本数据中入侵事件的行为标签以及处理数据，确定目标数据集。

作为一种可选的实施方式，第一确定子单元313包括：

第一模块，用于根据预先构建的三级动作标签体系对处理数据进行数据分析，得到目标入侵事件以及目标入侵事件对应的动静态行为标签；

第二模块，用于根据三级动作标签体系以及处理数据中的入侵阶段信息，构建目标入侵事件的入侵上下文标签；

第三模块，用于根据三级动作标签体系以及处理数据中的进程链，确定目标入侵事件的复合型行为标签；

第四模块，用于根据动静态行为标签、入侵上下文标签以及复合型行为标签，确定目标入侵事件的目标行为标签。

作为一种可选的实施方式，获取单元310还包括：

构建子单元316，用于在对原始数据集进行预处理，得到处理数据之前，根据处理数据以预设算法构建三级动作标签体系，三级动作标签体系包括一级标签、二级子标签以及三级子标签，其中，三级子标签包括二级子标签的子属性数据。

在上述实施方式中，构建子单元316在构建三级动作标签体系之后，还可以触发预处理子单元312对原始数据集进行预处理，得到处理数据。

作为一种可选的实施方式，关联单元330包括：

生成子单元331，用于根据目标数据集中时序上下文的关联性数据，生成与特征向量集对应的附加向量数据；以及根据特征向量集和附加向量数据，生成新的特征向量集；

关联子单元332，用于将新的特征向量集中每个特征向量与目标数据集中的告警相关信息进行对应关联，得到独立特征向量集。

作为一种可选的实施方式，训练单元350包括：

采样子单元351，用于根据独立特征向量集、过采样数据以及欠采样数据生成原始样本集；

划分子单元352，用于将原始样本集划分为训练集和测试集；

训练子单元353，用于通过训练集对原始检测模型进行训练，得到训练好的检测模型；

评估子单元354，用于通过测试集对训练好的检测模型进行评估，得到评估结果；以及根据评估结果和训练好的检测模型，确定入侵事件检测模型。

本申请实施例提供了一种电子设备，包括存储器以及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行本申请实施例1或实施例2中任一项入侵事件检测方法。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请实施例1或实施例2中任一项入侵事件检测方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种入侵事件检测模型构建方法，其特征在于，包括：

获取用于训练原始检测模型的目标数据集；

对所述目标数据集进行预处理，得到特征向量集；

根据所述独立特征向量集、所述过采样数据以及所述欠采样数据，对所述原始检测模型进行训练，得到入侵事件检测模型；

其中，所述获取用于训练原始检测模型的目标数据集，包括：

对所述原始数据集进行预处理，得到处理数据；

确定所述负样本数据中入侵事件的行为标签；

根据所述目标入侵事件的目标行为标签、所述负样本数据中入侵事件的行为标签以及所述处理数据，确定目标数据集；

其中，所述根据预先构建的三级动作标签体系对所述处理数据进行数据分析，确定目标入侵事件以及所述目标入侵事件对应的目标行为标签，包括：

2.根据权利要求1所述的入侵事件检测模型构建方法，其特征在于，在对所述原始数据集进行预处理，得到处理数据之前，所述方法还包括：

3.根据权利要求1所述的入侵事件检测模型构建方法，其特征在于，所述根据所述目标数据集对所述特征向量集进行特征关联处理，得到独立特征向量集，包括：

4.根据权利要求1所述的入侵事件检测模型构建方法，其特征在于，所述根据所述独立特征向量集、所述过采样数据以及所述欠采样数据，对所述原始检测模型进行训练，得到入侵事件检测模型，包括：

将所述原始样本集划分为训练集和测试集；

5.一种入侵事件检测方法，其特征在于，应用于权利要求1-4任一项所述的入侵事件检测模型构建方法，包括：

获取待检测的聚合后的高威胁告警数据；

6.一种入侵事件检测模型构建装置，其特征在于，所述入侵事件检测模型构建装置包括：

获取单元，用于获取用于训练原始检测模型的目标数据集；

训练单元，用于根据所述独立特征向量集、所述过采样数据以及所述欠采样数据，对所述原始检测模型进行训练，得到入侵事件检测模型；

其中，所述获取单元包括：

获取子单元，用于获取经单位时间聚合后的高威胁告警数据，得到原始数据集，以及获取聚合后的低威胁告警数据，得到负样本数据；

预处理子单元，用于对所述原始数据集进行预处理，得到处理数据；

第一确定子单元，用于根据预先构建的三级动作标签体系对所述处理数据进行数据分析，确定目标入侵事件以及所述目标入侵事件对应的目标行为标签；

第二确定子单元，用于确定所述负样本数据中入侵事件的行为标签；

第三确定子单元，用于根据所述目标入侵事件的目标行为标签、所述负样本数据中入侵事件的行为标签以及所述处理数据，确定目标数据集；

其中，所述第一确定子单元包括：

第一模块，用于根据预先构建的三级动作标签体系对所述处理数据进行数据分析，得到目标入侵事件以及所述目标入侵事件对应的动静态行为标签；

第二模块，用于根据所述三级动作标签体系以及所述处理数据中的入侵阶段信息，构建所述目标入侵事件的入侵上下文标签；

第三模块，用于根据所述三级动作标签体系以及所述处理数据中的进程链，确定所述目标入侵事件的复合型行为标签；

第四模块，用于根据所述动静态行为标签、所述入侵上下文标签以及所述复合型行为标签，确定所述目标入侵事件的目标行为标签。

7.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至4中任一项所述的入侵事件检测模型构建方法。

8.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至4任一项所述的入侵事件检测模型构建方法。