CN115174217B

CN115174217B - 一种基于soar的安全数据编排自动化分析方法

Info

Publication number: CN115174217B
Application number: CN202210787192.XA
Authority: CN
Inventors: 田新远
Original assignee: Beijing Huaqing Xin'an Technology Co ltd
Current assignee: Beijing Huaqing Xin'an Technology Co ltd
Priority date: 2022-07-04
Filing date: 2022-07-04
Publication date: 2023-03-31
Anticipated expiration: 2042-07-04
Also published as: CN115174217A

Abstract

本发明公开了一种基于SOAR的安全数据编排自动化分析方法，其包括以下步骤：步骤一，采集日志数据，解析日志关键信息；步骤二，关联分析，挖掘潜在威胁；步骤三，构建响应剧本库，实现一键防御；其中，所述步骤二包括：步骤S21，根据业务使用场景构建正常行为的节点轨迹图；步骤S22，构建当前用户行为的节点轨迹图；步骤S23，计算当前用户行为的节点轨迹图与正常行为的节点轨迹图的偏移距离d，计算公式如式Ⅰ：

其中，n表示节点个数，m表示属性个数，Node_i表示第i个节点，s_j表示正常轨迹节点的第j个属性，s′_j表示用户轨迹节点的第j个属性；步骤S24，当偏移距离d大于预设阈值时，判定其为威胁行为。

Description

一种基于SOAR的安全数据编排自动化分析方法

技术领域

本发明涉及网络安全领域。更具体地说，本发明涉及一种用基于SOAR的安全数据编排自动化分析方法。

背景技术

对业务、安全的日志数据进行分析，不仅可以直观了解相关系统与业务的状态，同时还可以挖掘潜在的风险、进行攻击数量统计、监控运行状态、跟踪用户轨迹以及对用户行为进行分析等等，分析结果可作为业务发展、安全建设的重要决策依据。

但是，传统日志审计设备是通过积累厂家、系统、型号与对应的日志规范，实现对日志源的快速采集与分类，当前各类系统运营产生的日志文件不仅数量庞大，且格式多种多样，难以统一处理，要想从中得到所需信息，通常只能根据每种类型的日志，人工编写正则表达式或使用其他方法单独提取，对于工作人员来说工作难度和负担巨大，工作效率较低，所以研发一个可自动、快速对多种日志进行编排和分析的平台有着重要的意义。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种基于SOAR的安全数据编排自动化分析方法，其能够对各种设备的日志进行自动化的编排与分析，提取日志中的关联关系，挖掘潜在风险，及时检测威胁并根据响应剧本迅速下发指令，在保障系统安全的同时，减小工作人员负担。

为了实现根据本发明的这些目的和其它优点，提供了一种基于SOAR的安全数据编排自动化分析方法，其包括以下步骤：

步骤一，采集各类设备日志数据，之后解析日志关键信息；

步骤二，将日志进行关联分析，挖掘潜在威胁；

步骤三，构建响应剧本库，并将攻防过程中和日常中用到的所有工具和功能，通过api接口串联起来，实现一键防御；

其中，所述步骤二包括：

步骤S21，根据业务的使用场景构建正常行为的节点轨迹图；

步骤S22，构建当前用户行为的节点轨迹图；

步骤S23，计算当前用户行为的节点轨迹图与正常行为的节点轨迹图的偏移距离d，计算公式如式Ⅰ：

其中，n表示节点个数，m表示属性个数，Node_i表示第i个节点，s_j表示业务正常轨迹节点的第j个属性，s’_j表示用户轨迹节点的第j个属性。

步骤S24，当所述偏移距离d大于预设阈值时，锁定当前用户IP，查看其周期时间或历史时间内是否发生过异常或攻击行为及发生次数，并将同时间范围内发生过的相似异常行为进行归并，判定其为威胁行为。

优选的是，所述步骤一还包括：根据日志具体内容格式，将日志划分为规范结构日志和不规范结构日志；

解析日志关键信息时，所述不规范日志利用自动生成正则模块，自动生成正则后，自动提取关键信息；其中，所述自动生成正则模块通过如下方法构建：

步骤S11，按照单个字符顺序分析业务字段内容；

步骤S12，根据字符类型，进行标识；同时进行计数，根据出现频次，在标识后添加附加标识；

步骤S13，定义模糊模式和精确模式，并根据指令输出最终正则表达式。

优选的是，所述规范结构日志包括：

一类日志，指可根据“|”或其他符号进行字段分割的日志；

二类日志，指本身具有json格式或其他标准格式的日志。

优选的是，解析日志时，对于所述一类日志，根据某个特定字符就可以将日志中所有的字段分隔开，按照顺序提取出来；

对于所述二类日志，则根据字段名称就可以获取所有的字段信息。

优选的是，所述步骤二中，所述正常行为的行动基线绘制方法如下：

A，采集正常行为的信息，记录请求包的源地址、目的地址、连接时间、请求或发送数据、触发事件、事件等级、user-agent等基本信息；

B，源地址、目的地址分别作为开始节点和结束节点，触发事件和事件等级等作为中间节点连接源地址和目的地址，连接时间、请求或发送数据、请求方法等基本信息作为属性连接至各节点，其中，触发事件按照威胁程度划分等级，不同等级用不同节点标识；

C，将每个节点映射到高维空间中，连接各节点，即可形成正常行为的行动基线。

优选的是，所述步骤三中，构建响应剧本库具体包括：通过端口监听和人工总结，记录攻防演练过程中和日常中的针对各种威胁行为的告警和处置方法，分类编写成流程化的剧本，形成响应剧本库。

优选的是，所述基于SOAR的安全数据编排自动化分析方法还包括：

步骤四，使用深度学习技术训练白模型，学习白数据的特征，区别正常数据和异常数据，发现未知攻击；周期性的更新模型训练数据，以便模型继续学习新的特征。

优选的是，所述步骤一种，采集方法包括：

开放的数据源；从公司已有的Nginx、WAF等日志库中获取；使用python爬虫方法获取；以及使用采集工具获取。

本发明至少包括以下有益效果：本发明所述基于SOAR的安全数据编排自动化分析方法提供了根据日志内容自动生成正则的方法，可以自动规范化处理各种类型的日志。本发明还提供根据节点轨迹图进行分析的日志关联分析方法，对日志进行关联分析，利用攻防演练过程中的记录，完成剧本编排，形成剧本库。同时，结合机器学习等技术对威胁事件及时检测，各工具联动处理，迅速响应，相比以前的安全运营工具更加智能化、自动化，可大大减小工作人员的压力。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述基于SOAR的安全数据编排自动化分析方法的流程示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

本发明所述基于SOAR的安全数据编排自动化分析方法，包括以下步骤：

步骤一，采集各类设备日志数据，之后解析日志关键信息；

步骤二，将日志进行关联分析，挖掘潜在威胁；

步骤三，构建响应剧本库，并将攻防过程中和日常用到的所有工具和功能，通过api接口串联起来，实现一键防御；

其中，所述步骤二包括：

步骤S21，根据业务的使用场景构建正常行为的节点轨迹图；

步骤S22，构建当前用户行为的节点轨迹图；

在其中一个实施例中，所述设备日志数据可包括：各种厂家、系统、型号的设备产生的Nginx日志、WAF日志、IPS日志、HIDS日志等，为保障平台的泛化性，需要尽可能多的获取设备日志数据。

在其中一个实施例中，采集方法包括：

在其中一个实施例中，所述步骤一还包括：根据日志具体内容格式，将日志划分为规范结构日志和不规范结构日志；

步骤S11，按照单个字符顺序分析业务字段内容；

在其中一个实施例中，对于不规范结构的日志，由于无法按照前面的方法方便的获取各字段信息，所以本发明自主研发了自动生成正则的工具：将日志中的字段如IP，时间，端口等，分别输入到平台中，即可自动生成正则而不用自己编写，这样，当新的不规范日志到来时，可根据正则表达式自动提取出里面的字段信息。最终一条日志用文字可表示为：

log＝[time,ip,port,target_ip,url,.....]

Time:时间

Ip:源ip

Port:端口号

Target_ip:目的ip

Url:请求中的url

每个业务字段的多少可根据实际内容决定.

自动生成正则方法：

定义的代码会对字段内容按照单个字符顺序进行分析，

若是数字，通过规则映射，自动给予“\d”标识，

是字母，自动给予“[a-zA-Z]”标识，

是转义字符，会在其基础上添加“\”前缀，同时会进行计数，

如果同种类型连续出现多个，则自动在标识符后添加“*”或“+”，

还可选择“模糊”和“精确”两种模式：

例如“\w”本身含义中字母和数字都包括在内，在“精确”模式中，数字只能用“\d”，字母只能用“[a-zA-Z]”，约束大，而在“模糊”模式中数字和字母都用“\w”表示，约束小；还可根据需要，选择字符个数限制等功能。

例如，给定字符串s＝”helloworld5*”,则将其分解为字符串列表x＝[h,e,l,l，o,w，o,r,l,d,5,*],假设选择精确模式，则前10个字符都为字母，用”[a-zA-Z]”表示，“5”为数字，用“\d”表示，“*”为特殊字符，用“\*”表示，最终正则表达式r为：

r＝“[a-zA-Z]+\d+\*”

假设选择模糊模式，则最终正则表达式r为：

r＝”\w+\*”

在其中一个实施例中，所述规范结构日志包括：

一类日志，指可根据“|”或其他符号进行字段分割的日志；

二类日志，指本身具有json格式或其他标准格式的日志。

解析日志时，对于所述一类日志，根据某个特定字符就可以将日志中所有的字段分隔开，按照顺序提取出来；

B，源地址、目的地址分别作为开始节点和结束节点，触发事件和事件等级等作为中间节点连接源地址和目的地址，连接时间、请求或发送数据、请求方法等基本信息作为属性连接至各节点，其中，触发事件按照威胁程度划分等级，不同等级用不同节点标识；每个节点可表示为：

Node(S1，S2，S3，...,Sm)

S1，S2，S3，...,Sm表示节点的m个属性，

C，将每个节点映射到高维空间中，连接各节点，即可形成正常行为的节点轨迹图。

例如，业务的正常轨迹图可描述为：

Node1-->Node2-->...-->Noden

用户的轨迹图为：

User_node1-->user_node2-->user_noden

则用户与业务轨迹图的偏移距离d，可表示为：

其中，n表示节点个数，m表示属性个数，表示第i个节点，表示业务正常轨迹节点的第j个属性，表示用户轨迹节点的第j个属性。

给偏移距离设置阈值，当d大于阈值时，即认为偏离正常轨迹图。若发现存在偏离轨迹图的行为，则锁定其IP，查看其周期时间或历史时间内是否发生过异常或攻击行为及发生次数，并将同时间范围内发生过的相似异常行为进行归并，发出告警，自动或人工处理。

在其中一个实施例中，所述步骤三中，构建响应剧本库具体包括：通过端口监听和人工总结，记录攻防演练过程中和日常的针对各种威胁行为的告警和处置方法，分类编写成流程化的剧本，形成响应剧本库。在攻防演练过程中，会产生大量攻击和防御行为，本发明利用此过程，通过端口监听和人工总结，将各种威胁的告警、处置，分类编写为流程化的剧本，记录下来，形成响应剧本库，并将处置过程用到的所有工具和功能，通过api接口串联起来，实现一键防御，当再次遭遇威胁时，自动根据剧本进行智能决策，迅速响应，联动其他工具完成防御操作。

在其中一个实施例中，所述基于SOAR的安全数据编排自动化分析方法还包括：

步骤四，使用深度学习技术训练白模型，学习白数据的特征，区别正常数据和异常数据，发现未知攻击；周期性的更新模型训练数据，以便模型继续学习新的特征。对于常见的攻击可以使用规则或剧本的形式进行处置响应，对于一些新出现的未知攻击，往往会有遗漏，难以覆盖完全，基于此，本发明提出，使用深度学习技术训练白模型，着重学习白数据的特征，用以区别正常数据和异常数据，发现未知攻击，同时，周期性的更新模型训练数据，以便模型继续学习新的特征。

在其中一个实施例中，如图1所示，本发明提供一种基于SOAR的安全数据编排自动化分析方法，包括如下步骤：

步骤S1，采集各类设备日志数据；

步骤S2，根据日志具体内容格式，进行主要类别划分；

步骤S3，解析日志关键信息并可根据具体内容自动生成正则；

步骤S4，将日志根据节点轨迹图进行关联分析，挖掘潜在威胁；

步骤S5，捕捉威胁事件常用手段和处理方法，编写响应剧本，形成剧本库；

步骤S6，结合深度学习技术，进行威胁检测，并作出响应。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于SOAR的安全数据编排自动化分析方法，其特征在于，包括以下步骤：

步骤一，采集各类设备日志数据，之后解析日志关键信息；

步骤二，将日志进行关联分析，挖掘潜在威胁；

步骤三，构建响应剧本库，并将攻防过程中用到的所有工具和功能，通过api接口串联起来，实现一键防御；

其中，所述步骤二包括：

步骤S21，根据业务的使用场景构建正常行为的节点轨迹图；

步骤S22，构建当前用户行为的节点轨迹图；

其中，n表示节点个数，m表示属性个数，Node_i表示第i个节点，s_j表示业务正常轨迹节点的第j个属性，s’_j表示用户轨迹节点的第j个属性；

2.如权利要求1所述的基于SOAR的安全数据编排自动化分析方法，其特征在于，所述步骤一还包括：根据日志具体内容格式，将日志划分为规范结构日志和不规范结构日志；

步骤S11，按照单个字符顺序分析业务字段内容；

3.如权利要求2所述的基于SOAR的安全数据编排自动化分析方法，其特征在于，所述规范结构日志包括：

一类日志，指可根据“|”或其他符号进行字段分割的日志；

二类日志，指本身具有json格式或其他标准格式的日志。

4.如权利要求3所述的基于SOAR的安全数据编排自动化分析方法，其特征在于，解析日志时，对于所述一类日志，根据某个特定字符就可以将日志中所有的字段分隔开，按照顺序提取出来；

5.如权利要求1所述的基于SOAR的安全数据编排自动化分析方法，其特征在于，所述步骤二中，所述正常行为的节点轨迹图绘制方法如下：

A，采集正常行为的信息，记录请求包的源地址、目的地址、连接时间、请求或发送数据、触发事件、事件等级和user-agent；

B，源地址、目的地址分别作为开始节点和结束节点，触发事件和事件等级作为中间节点连接源地址和目的地址，连接时间、请求或发送数据、请求方法作为属性连接至各节点，其中，触发事件按照威胁程度划分等级，不同等级用不同节点标识；

6.如权利要求1所述的基于SOAR的安全数据编排自动化分析方法，其特征在于，所述步骤三中，构建响应剧本库具体包括：通过端口监听和人工总结，记录攻防演练过程中和日常中的针对各种威胁行为的告警和处置方法，分类编写成流程化的剧本，形成响应剧本库。

7.如权利要求1所述的基于SOAR的安全数据编排自动化分析方法，其特征在于，还包括：

8.如权利要求1所述的基于SOAR的安全数据编排自动化分析方法，其特征在于，所述步骤一中，采集方法包括：

开放的数据源；从公司已有的Nginx和WAF日志库中获取；使用python爬虫方法获取；以及使用采集工具获取。