CN113919514A

CN113919514A - 一种基于威胁情报的样本数据获取方法及装置

Info

Publication number: CN113919514A
Application number: CN202111495229.3A
Authority: CN
Inventors: 尹重超; 陈杰; 黄雅芳; 童兆丰; 薛锋
Original assignee: Beijing ThreatBook Technology Co Ltd
Current assignee: Beijing ThreatBook Technology Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-01-11
Anticipated expiration: 2041-12-09
Also published as: CN113919514B

Abstract

一种基于威胁情报的样本数据获取方法及装置，包括：获取威胁情报信息库和主机记录的原始日志；再对原始日志进行威胁检测，生成第一告警日志；并根据威胁情报信息库在沙箱中进行威胁场景模拟，生成第二告警日志；然后根据第一告警日志构建第一告警事件图数据集，并根据第二告警日志构建第二告警事件图数据集；聚合第一告警事件图数据集和第二告警事件图数据集，得到聚合事件数据集；最后对聚合事件数据集进行数据增强，得到样本数据集。可见，实施这种实施方式，能够通过主机和沙盒双端进行大数据图数据处理的方式，获取到可靠、有效的样本数据，同时还能够有效地提高样本数据集的数据量和丰富度。

Description

一种基于威胁情报的样本数据获取方法及装置

技术领域

本申请涉及主机安全领域，具体而言，涉及一种基于威胁情报的样本数据获取方法及装置。

背景技术

随着信息技术的蓬勃发展，大数据、人工智能技术已经大量应用到主机安全领域。通过大数据处理和人工智能分析终端的进程、网络、文件等系统行为日志，能够更加快速精准地发现安全威胁和入侵事件。但是，在实践中发现，有效情报数据稀少是机器学习在安全领域难以发挥的根本原因之一。因此，如何获取到可靠、有效的样本数据成为了在安全领域中一个难题。

发明内容

本申请实施例的目的在于提供一种基于威胁情报的样本数据获取方法及装置，能够通过主机和沙盒双端进行大数据图数据处理的方式，获取到可靠、有效的样本数据，同时还能够有效地提高样本数据集的数据量和丰富度。

本申请实施例第一方面提供了一种基于威胁情报的样本数据获取方法，包括：

获取威胁情报信息库和主机记录的原始日志；

对所述原始日志进行威胁检测，生成第一告警日志；

根据所述威胁情报信息库在沙箱中进行威胁场景模拟，生成第二告警日志；

根据所述第一告警日志构建第一告警事件图数据集，并根据所述第二告警日志构建第二告警事件图数据集；

聚合所述第一告警事件图数据集和所述第二告警事件图数据集，得到聚合事件数据集；

对所述聚合事件数据集进行数据增强，得到样本数据集。

在上述实现过程中，获取威胁情报信息库和主机记录的原始日志；再对原始日志进行威胁检测，生成第一告警日志；并根据威胁情报信息库在沙箱中进行威胁场景模拟，生成第二告警日志；然后根据第一告警日志构建第一告警事件图数据集，并根据第二告警日志构建第二告警事件图数据集；聚合第一告警事件图数据集和第二告警事件图数据集，得到聚合事件数据集；最后对聚合事件数据集进行数据增强，得到样本数据集。可见，实施这种实施方式，能够通过主机和沙盒双端进行大数据图数据处理的方式，获取到可靠、有效的样本数据，同时还能够有效地提高样本数据集的数据量和丰富度。

进一步地，所述方法还包括：

根据预设的半监督学习算法对所述样本数据集进行标签构建，得到标签数据集；

对所述标签数据集进行小样本循环式标签扩增训练，得到标签样本集。

进一步地，所述方法还包括：

定时根据所述标签样本集进行模型训练或更新，得到威胁情报检测模型。

进一步地，所述根据所述第一告警日志构建第一告警事件图数据集，并根据所述第二告警日志构建第二告警事件图数据集的步骤包括：

根据所述第一告警日志中每个日志之间的关联关系，构建第一结构化图数据集；根据所述第二告警日志中每个日志之间的关联关系，构建第二结构化图数据集；

对所述第一结构化数据集和所述第二结构化数据集分别进行数据冗余去重处理和数据异常剔除处理，得到第一告警事件图数据集和第二告警事件图数据集。

进一步地，所述对所述聚合事件数据集进行数据增强，得到样本数据集的步骤包括：

使用SOMTE算法对所述聚合事件数据集进行数据扩增处理，并使用对抗训练法对所述聚合事件数据集进行扰动噪音添加处理，得到样本数据集。

本申请实施例第二方面提供了一种基于威胁情报的样本数据获取装置，所述基于威胁情报的样本数据获取装置包括：

获取单元，用于获取威胁情报信息库和主机记录的原始日志；

主机检测单元，用于对所述原始日志进行威胁检测，生成第一告警日志；

沙箱检测单元，用于根据所述威胁情报信息库在沙箱中进行威胁场景模拟，生成第二告警日志；

构建单元，用于根据所述第一告警日志构建第一告警事件图数据集，并根据所述第二告警日志构建第二告警事件图数据集；

聚合单元，用于聚合所述第一告警事件图数据集和所述第二告警事件图数据集，得到聚合事件数据集；

数据增强单元，用于对所述聚合事件数据集进行数据增强，得到样本数据集。

在上述实现过程中，获取单元获取威胁情报信息库和主机记录的原始日志；主机检测单元再对原始日志进行威胁检测，生成第一告警日志；沙箱检测单元根据威胁情报信息库在沙箱中进行威胁场景模拟，生成第二告警日志；然后构建单元根据第一告警日志构建第一告警事件图数据集，并根据第二告警日志构建第二告警事件图数据集；聚合单元聚合第一告警事件图数据集和第二告警事件图数据集，得到聚合事件数据集；最后数据增强单元对聚合事件数据集进行数据增强，得到样本数据集。可见，实施这种实施方式，能够通过主机和沙盒双端进行大数据图数据处理的方式，获取到可靠、有效的样本数据，同时还能够有效地提高样本数据集的数据量和丰富度。

进一步地，所述样本数据获取装置还包括：

标签构建单元，用于根据预设的半监督学习算法对所述样本数据集进行标签构建，得到标签数据集；

标签扩增单元，用于对所述标签数据集进行小样本循环式标签扩增训练，得到标签样本集。

进一步地，所述样本数据获取装置还包括：

训练单元，用于定时根据所述标签样本集进行模型训练或更新，得到威胁情报检测模型。

本申请实施例第三方面提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例第一方面中任一项所述的基于威胁情报的样本数据获取方法。

本申请实施例第四方面提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请实施例第一方面中任一项所述的基于威胁情报的样本数据获取方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于威胁情报的样本数据获取方法的流程示意图；

图2为本申请实施例提供的一种基于威胁情报的样本数据获取装置的结构示意图；

图3为本申请实施例提供的一种基于威胁情报的样本数据获取方法的举例流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供了一种基于威胁情报的样本数据获取方法的流程示意图。其中，该基于威胁情报的样本数据获取方法包括：

S101、获取威胁情报信息库和主机记录的原始日志。

本实施例中，该方法可以采集主机记录的原始日志。

S102、对原始日志进行威胁检测，生成第一告警日志。

本实施例中，该方法可以通过威胁情报库或其他检测规则对原始日志进行威胁检测，当检测出威胁时，生成并记录第一告警日志；同时，该方法截取并记录单位时间内的告警日志。

S103、根据威胁情报信息库在沙箱中进行威胁场景模拟，生成第二告警日志。

本实施例中，该方法可以获取网络威胁情报信息库，并根据该网络威胁情报信息库在沙箱中模拟终端威胁场景，记录告警信息，得到第二告警日志。

在步骤S103之后，还包括以下步骤：

S104、根据第一告警日志中每个日志之间的关联关系，构建第一结构化图数据集；根据第二告警日志中每个日志之间的关联关系，构建第二结构化图数据集。

本实施例中，该方法可以根据第一告警日志中每个日志之间的关联性，以MECE（相互独立，完全穷尽）原则，构建原始日志的第一结构图数据集。

本实施例中，该方法可以根据第二告警日志中每个日志之间的关联性，以MECE（相互独立，完全穷尽）原则，构建沙箱日志的第二结构图数据集。

在本实施例中，第一结构图数据集和第二结构图数据集均可作为后续的训练数据集。

S105、对第一结构化数据集和第二结构化数据集分别进行数据冗余去重处理和数据异常剔除处理，得到第一告警事件图数据集和第二告警事件图数据集。

本实施例中，该方法可以对训练数据集做预处理。具体的，该预处理包括数据冗余去重处理和异常数据（告警严重失真数据）剔除处理等。

本申请实施例中，实施上述步骤S104~步骤S105，能够根据第一告警日志构建第一告警事件图数据集，并根据第二告警日志构建第二告警事件图数据集。

在步骤S105之后，还包括以下步骤：

S106、聚合第一告警事件图数据集和第二告警事件图数据集，得到聚合事件数据集。

本实施例中，该方法可以在聚合的过程中通过标签体系对第一告警事件图数据集和第二告警事件图数据集进行标签构建。

本实施例中，该方法可以将通过由沙箱模拟转化生成的第二告警事件图数据集和第一告警事件图数据集合并。

S107、使用SOMTE算法对聚合事件数据集进行数据扩增处理，并使用对抗训练法对聚合事件数据集进行扰动噪音添加处理，得到样本数据集。

本实施例中，该方法可以采用数据增强的方法扩增数据集、添加扰动噪音、提升算法效果。

本申请实施例中，实施上述步骤S107，能够对聚合事件数据集进行数据增强，得到样本数据集

在步骤S107之后，还包括以下步骤：

S108、根据预设的半监督学习算法对样本数据集进行标签构建，得到标签数据集。

本实施例中，该方法采用集成学习+自训练的算法模型。

在本实施例中，该方法为了获取更广泛的学习样本，采用半监督学习的方式不断扩增标签样本数量，提升算法能力。

在本实施例中，采用集成学习+自训练的模型（集成学习：使用多个不同模型，将每个模型结果加权求和。自训练：采用小样本标签数据集不断循环训练扩增标签样本数量）提高模型在标签样本少和数据分布离散的应用效果。

S109、对标签数据集进行小样本循环式标签扩增训练，得到标签样本集。

S110、定时根据标签样本集进行模型训练或更新，得到威胁情报检测模型。

本实施例中，该方法还可以不断地随着主机的数据更新，一直在样本中补充新的事件数据，从而训练出优质的威胁情报检测模型。

在本实施例中，该方法还可以定时对威胁情报模型进行训练，从而使得该模型能够达到自适应终端环境的效果。

举例来说，该方法可以用于具有一台具有单点威胁告警检测能力的主服务器、若干装有日志采集Agent的从服务器和一台具有模拟网络攻击并记录的沙箱服务器的系统中。

在该系统中，该方法可以在服务器上模拟一次完整攻击事件、如ssh1快速爆破进入主机、横向移动提权、执行shell反弹脚本、执行木马脚本，记录告警数据并进行大数据整合。其中，上述的一个完整入侵行为，其每个单点的异常行为都能被日志检测所捕获，但无法形成时序的，有条理的完整攻击事件数据集；采集每个异常单点的告警日志，根据主机基本信息、威胁场景、入侵阶段、进程链详情、等建立相关动作标签体系，构建入侵事件图数据集；对事件的数据集进行清洗、整理，获得有效的事件数据；针对威胁情报信息，在云沙箱中模拟攻击，并按照上述的步骤提取，从而得到第一告警事件图数据集和第二告警事件图数据集。

此后，该方法将终端处理的事件数据集和告警信息的数据集整合，进行数据增强操作，如使用SOMTE方法扩增样本数量、使用对抗训练方式增加部分数据扰动等；然后，再采用集成学习+自训练的模型提高模型在标签样本少和数据分布离散的应用效果。

在最后，该些数据可以用于训练威胁情报检测模型，并能够协助对训练好的威胁情报检测模型进行实时更新，使得该威胁情报检测模型完成对终端环境的自适应。

当威胁情报检测模型接收到新的告警信息时，该威胁情报检测模型可以按单位时间进行整合成事件数据集，并自动对事件进行预测评估。

请参阅图3，图3示出了一种基于威胁情报的样本数据获取方法的举例流程示意图。其中，终端原始日志相当于原始日志，日志告警信息相当于第一告警日志，沙箱模拟得到的告警日志相当于第二告警日志，终端原始日志对应的事件图相当于第一结构化图数据集，沙箱构造的事件图数据集相当于第二结构化图数据集，正负数据样本相当于聚合事件数据集，扩增后的样本相当于样本数据集，自适应更新模型的模型相当于威胁情报检测模型。

可见，实施这种实施方式，该方法能够通过大数据图数据的处理方式和威胁情报转化的形式，提高了算法模型数据集的数据量和丰富度，解决了此前有效数据难以获取的问题，使得机器学习在安全领域有更多的应用。再通过数据增强和学习+自训练的模型，强化了算法模型的能力和稳定性，使得训练好的威胁情报检测模型能够快速自适应本地数据环境。

本申请实施例中，该方法的执行主体可以为计算机、服务器等计算装置，对此本实施例中不作任何限定。

在本申请实施例中，该方法的执行主体还可以为智能手机、平板电脑等智能设备，对此本实施例中不作任何限定。

可见，实施本实施例所描述的基于威胁情报的样本数据获取方法，能够将本地的告警和威胁信息通过大数据图聚合方式形成威胁事件；同时，通过沙箱模拟威胁情报的攻击事件，提取告警日志并整合成威胁事件数据集，大幅度丰富数据样本；另外，采用数据增强和半监督的形式，进一步扩展威胁事件数据；最后，再根据用户数据更新训练模型，自适应用户主机环境。

实施例2

请参看图2，图2为本申请实施例提供的一种基于威胁情报的样本数据获取装置的结构示意图。如图2所示，该基于威胁情报的样本数据获取装置包括：

获取单元210，用于获取威胁情报信息库和主机记录的原始日志；

主机检测单元220，用于对原始日志进行威胁检测，生成第一告警日志；

沙箱检测单元230，用于根据威胁情报信息库在沙箱中进行威胁场景模拟，生成第二告警日志；

构建单元240，用于根据第一告警日志构建第一告警事件图数据集，并根据第二告警日志构建第二告警事件图数据集；

聚合单元250，用于聚合第一告警事件图数据集和第二告警事件图数据集，得到聚合事件数据集；

数据增强单元260，用于对聚合事件数据集进行数据增强，得到样本数据集。

作为一种可选的实施方式，样本数据获取装置还包括：

标签构建单元270，用于根据预设的半监督学习算法对样本数据集进行标签构建，得到标签数据集；

标签扩增单元280，用于对标签数据集进行小样本循环式标签扩增训练，得到标签样本集。

作为一种可选的实施方式，样本数据获取装置还包括：

训练单元290，用于定时根据标签样本集进行模型训练或更新，得到威胁情报检测模型。

作为一种可选的实施方式，构建单元240包括：

第一子单元241，用于根据第一告警日志中每个日志之间的关联关系，构建第一结构化图数据集；根据第二告警日志中每个日志之间的关联关系，构建第二结构化图数据集；

第二子单元242，用于对第一结构化数据集和第二结构化数据集分别进行数据冗余去重处理和数据异常剔除处理，得到第一告警事件图数据集和第二告警事件图数据集。

作为一种可选的实施方式，数据增强单元260，具体用于使用SOMTE算法对聚合事件数据集进行数据扩增处理，并使用对抗训练法对聚合事件数据集进行扰动噪音添加处理，得到样本数据集。

本申请实施例中，对于基于威胁情报的样本数据获取装置的解释说明可以参照实施例1或实施例2中的描述，对此本实施例中不再多加赘述。

可见，实施本实施例所描述的基于威胁情报的样本数据获取装置，能够通过主机和沙盒双端进行大数据图数据处理的方式，获取到可靠、有效的样本数据，同时还能够有效地提高样本数据集的数据量和丰富度。

本申请实施例提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中任一项基于威胁情报的样本数据获取方法。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请实施例1或实施例2中任一项基于威胁情报的样本数据获取方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于威胁情报的样本数据获取方法，其特征在于，包括：

获取威胁情报信息库和主机记录的原始日志；

对所述原始日志进行威胁检测，生成第一告警日志；

对所述聚合事件数据集进行数据增强，得到样本数据集。

2.根据权利要求1所述的基于威胁情报的样本数据获取方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于威胁情报的样本数据获取方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的基于威胁情报的样本数据获取方法，其特征在于，所述根据所述第一告警日志构建第一告警事件图数据集，并根据所述第二告警日志构建第二告警事件图数据集的步骤包括：

5.根据权利要求1所述的基于威胁情报的样本数据获取方法，其特征在于，所述对所述聚合事件数据集进行数据增强，得到样本数据集的步骤包括：

6.一种基于威胁情报的样本数据获取装置，其特征在于，所述样本数据获取装置包括：

7.根据权利要求6所述的基于威胁情报的样本数据获取装置，其特征在于，所述样本数据获取装置还包括：

8.根据权利要求6所述的基于威胁情报的样本数据获取装置，其特征在于，所述样本数据获取装置还包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至5中任一项所述的基于威胁情报的样本数据获取方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至5任一项所述的基于威胁情报的样本数据获取方法。