CN115309770A

CN115309770A - 基于自定义策略的数据分析方法、装置、设备和存储介质

Info

Publication number: CN115309770A
Application number: CN202210917211.6A
Authority: CN
Inventors: 吴伟杰; 范渊
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-08

Abstract

本申请涉及数据分析领域，特别是涉及一种基于自定义策略的数据分析方法、装置、计算机设备和存储介质，所述方法包括：对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及对目标数据解析，得到数据解析结果；基于所述SQL语句以及所述数据解析结果，确定第一分析结果；基于所述第一分析结果以及线索策略，确定第二分析结果。本发明利用用户的自定义策略，能够满足用户的需求进行数据分析，利用SQL语句能够快速的数据分析，利用线数策略的进一步与第一分析结果匹配能够准确的得到数据分析结果。

Description

基于自定义策略的数据分析方法、装置、设备和存储介质

技术领域

本申请涉及数据分析领域，特别是涉及一种基于自定义策略的数据分析方法、装置、计算机设备和存储介质。

背景技术

在网络安全事件分析过程中，通常需要面对大量且多维度的环境数据。如仅依据个人经验来分析，结果将取决于个人水平，容易遗漏关键信息，且难以进行复杂的关联分析。

现有技术并没有适用于对大量数据进行分析的方法。

发明内容

基于此，有必要针对上述技术问题，提供一种基于自定义策略的数据分析方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提出一种基于自定义策略的数据分析方法，所述方法包括：

对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及

对目标数据解析，得到数据解析结果；

基于所述SQL语句以及所述数据解析结果，确定第一分析结果；

基于所述第一分析结果以及线索策略，确定第二分析结果。

在一实施例中，所述对从第一数据库中获取的自定义策略解析，生成对应的SQL语句包括：

从第一数据库中获取自定义策略，所述第一数据库为MYSQL数据库；

将所述自定义策略映射到语法树的节点，生成对应的SQL语句。

在一实施例中，所述自定义策略包括基本条件和关联条件，所述将所述自定义策略映射到语法树，生成对应的SQL语句包括：

确定所述基本条件和所述关联条件的表达式；

将所述基本条件和所述关联条件的表达式分别映射到语法树的节点，生成对应的SQL语句，其中，所述基本条件所对应的SQL语句作为子查询语句。

在一实施例中，所述对目标数据解析，得到数据解析结果包括：

对目标数据解析得到采集数据以及日志数据；

将清洗后的日志数据以及所述采集数据存储到第二数据库；所述第二数据库为SparkSQL数据库。

在一实施例中，所述基于所述SQL语句以及所述数据解析结果，确定第一分析结果包括：

基于所述SQL语句对所述数据解析结果分组聚合，生成多个子数据集；

基于所述SQL语句以及所述多个子数据集，生成第一分析结果。

在一实施例中，所述基于所述第一分析结果以及线索策略，确定第二分析结果包括：

将所述第一分析结果所包含的多个子数据集与所述线索策略相匹配；

将匹配的子数据集确定为关键行为数据；将不匹配的子数据集确定为非关键行为数据。

在一实施例中，所述方法还包括：

将所述关键行为数据和所述非关键行为数据进行标记；

将标记后的所述关键行为数据和所述非关键行为数据，存储到所述第一数据库中。

第二方面，本发明实施例提出一种基于自定义策略的数据分析装置，所述装置包括：

第一解析模块，用于对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及

第二解析模块，用于对目标数据解析，得到数据解析结果；

第一确定模块，用于基于所述SQL语句以及所述数据解析结果，确定第一分析结果；

第二确定模块，用于基于所述第一分析结果以及线索策略，确定第二分析结果。

第三方面，本发明实施例提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行第一方面所述的步骤。

第四方面，本发明实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的步骤。

相比于现有技术，上述方法、装置、计算机设备和存储介质，对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及对目标数据解析，得到数据解析结果；基于所述SQL语句以及所述数据解析结果，确定第一分析结果；基于所述第一分析结果以及线索策略，确定第二分析结果。本发明利用用户的自定义策略，能够满足用户的需求进行数据分析，利用SQL语句能够快速的数据分析，利用线数策略的进一步与第一分析结果匹配能够准确的得到数据分析结果。

附图说明

图1为一实施例中基于自定义策略的数据分析方法应用环境的结构示意图；

图2为一实施例中基于自定义策略的数据分析方法的流程示意图；

图3为一实施例中生成SQL语句的流程示意图；

图4为一实施例中对目标数据解析的流程示意图；

图5为一实施例中生成第一分析结果的流程示意图；

图6为一实施例中子数据集与线索策略匹配的流程示意图；

图7为一实施例中基于自定义策略的数据分析装置的模块连接示意图；

图8为一实施例中计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本发明和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本发明对根据本发明的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在计算设备和/或处理器上。模块仅是说明性的，并且系统和方法的不同方面可以使用不同模块。

应当理解的是，当单元或模块被描述为“连接”、“耦接”其它单元、模块或块时，其可以指直接连接或耦接，或者与其它单元、模块或块通信，或者可以存在中间的单元、模块或块，除非上下文明确指明其它方式。本文所使用的术语“和/或”可包括一个或多个相关列出项目的任意与所有组合。

本申请提供的基于自定义策略的数据分析方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及对目标数据解析，得到数据解析结果；基于所述SQL语句以及所述数据解析结果，确定第一分析结果；基于所述第一分析结果以及线索策略，确定第二分析结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供了一种基于自定义策略的数据分析方法，以该方法应用于图1中的应用环境为例进行说明，包括以下步骤：

S201：对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及对目标数据解析，得到数据解析结果。

用户录入分析的逻辑，可选的数据维度及字段由系统提供，但其关联和过滤逻辑不做限制，由用户自定义，仅对规范性做部分校验限制。自定义策略录入完成后，会经由解析引擎翻译为具体操作SparkSQL库的SQL语句。

目标数据例如为资产数据。

S202：基于所述SQL语句以及所述数据解析结果，确定第一分析结果；

S203：基于所述第一分析结果以及线索策略，确定第二分析结果。

基于步骤S201-S203，对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及对目标数据解析，得到数据解析结果；基于所述SQL语句以及所述数据解析结果，确定第一分析结果；基于所述第一分析结果以及线索策略，确定第二分析结果。本发明利用用户的自定义策略，能够满足用户的需求进行数据分析，利用SQL语句能够快速的数据分析，利用线数策略的进一步与第一分析结果匹配能够准确的得到数据分析结果。

在一实施例中，如图3所示，所述对从第一数据库中获取的自定义策略解析，生成对应的SQL语句包括以下步骤：

S301：从第一数据库中获取自定义策略，所述第一数据库为MYSQL数据库；

S302：将所述自定义策略映射到语法树的节点，生成对应的SQL语句。

从MYSQL数据库中获取自定义策略，每个自定义策略中包含多条基本条件和一条关联条件。每个条件中又包含多个表达式。每个表达式由数据元组(第二列)、属性(第三列)、操作符、值、关联逻辑(第八列)等组成。

具体包括以下步骤：

A、从MYSQL数据库中查询自定义策略及其所包含的基本条件和关联条件；

B、解析基本条件表达式：先将表达式按括号层级进行分组，且由于括号可能存在嵌套，需递归地进行过滤条件解析；

C、构建AST抽象语法树：将表达式的各部分映射到语法树的节点，数据元组–>表名，属性->字段，操作符+值->约束条件；

例如：SELECT name,path,createtime,lastvisittime FROM t_file_traceWHERE name IS NOT NULL AND name like'％baidu％'。

D、解析关联条件表达式，将基本条件SQL语句作为子查询语句，并关联条件表达式翻译为关联SQL语句。

在一实施例中，如图4所示，所述对目标数据解析，得到数据解析结果包括以下步骤：

S401：对目标数据解析得到采集数据以及日志数据；

S402：将清洗后的日志数据以及所述采集数据存储到第二数据库；所述第二数据库为SparkSQL数据库。

需要说明的是，Spark平台拥有极强的伸缩性。可以小到单机部署，放在单台笔记本中运行，提交任务到本节点自己处理。也可以扩展为集群部署，多台服务器间分摊数据处理计算压力，而无需修改程序代码。

还需要说明的是，SparkSQL数据库是基于内存的计算引擎，相比于Hive等基于文件的计算引擎效率更高，且可接入的数据来源更广泛，兼容性扩展性更好。

经由数据采集器采集的固定格式数据称为采集数据。数据采集器会将环境的信息数据按约定输出为固定模式的XML，如用户登录记录、进程状态等信息。采集数据为高质量数据，无需清洗直接入库保存。

环境中的各种日志原始文件称为日志数据。日志数据按来源进行分类，如Tomcat、Weblogic等，再进行清洗过滤格式化，合格数据将进入SparkSQL数据库进行存储。以Tomcat日志为例，会将其按找Tomcat某一版本的标准日志格式进行正则匹配，无法命中的行会被丢弃，命中的行会切分提取出有用的数据。

无论日志数据还是采集数据均会转换为相应的实体对象，形成固定表结构供查询。如采集数据会转为拥有name、localgroup、domain、state、des、hide、risk等字段的对象及表。

在一实施例中，如图5所示，所述基于所述SQL语句以及所述数据解析结果，确定第一分析结果包括：

S501：基于所述SQL语句对所述数据解析结果分组聚合，生成多个子数据集；

S502：基于所述SQL语句以及所述多个子数据集，生成第一分析结果。

根据关联条件所用的字段对数据解析结果进行分组聚合，形成多个子数据集。每个子数据集形成一个可疑行为，子数据集的每一行都是该行为下的行为痕迹。行为的描述规则模板和处置建议模板中的占位符用子数据集的数据替换，再回填入行为的描述规则和处置建议。

在一实施例中，如图6所示，所述基于所述第一分析结果以及线索策略，确定第二分析结果包括：

S601：将所述第一分析结果所包含的多个子数据集与所述线索策略相匹配；

S602：将匹配的子数据集确定为关键行为数据；将不匹配的子数据集确定为非关键行为数据。

将子数据集按关联条件与线索策略进行关联，若存在某一行或某几行命中线索，则将相应行为标记为关键行为数据。

第一分析结果经过上述处理后会形成清晰明确可查看的一系列可疑行为，并对每项可疑行为给出具体的处置建议。可疑行为中包含所有形成该结果的原始数据(称为行为痕迹)，用户可查看相应来源验证第二分析结果。

在一实施例中，在确定关键行为数据和非关键行为数据后，将所述关键行为数据和所述非关键行为数据进行标记，将标记后的所述关键行为数据和所述非关键行为数据，存储到所述第一数据库中。

基于上述数据分析，用户可以查看分析出的第一分析结果、第二分析结果以及标记结果。

若分析结果与预期不符，还可在调整自定义策略之后，重新进行数据分析。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一实施例中，如图7所示，本发明提供了一种基于自定义策略的数据分析装置，所述装置包括：

第一解析模块702，用于对从第一数据库中获取的自定义策略解析，生成对应的SQL语句；及

第二解析模块704，用于对目标数据解析，得到数据解析结果；

第一确定模块706，用于基于所述SQL语句以及所述数据解析结果，确定第一分析结果；

第二确定模块708，用于基于所述第一分析结果以及线索策略，确定第二分析结果。

在一实施例中，第一解析模块包括：

获取模块，用于从第一数据库中获取自定义策略，所述第一数据库为MYSQL数据库；

映射模块，用于将所述自定义策略映射到语法树的节点，生成对应的SQL语句。

在一实施例中，所述自定义策略包括基本条件和关联条件，映射模块包括：

第三确定模块，用于确定所述基本条件和所述关联条件的表达式；

映射子模块，用于将所述基本条件和所述关联条件的表达式分别映射到语法树的节点，生成对应的SQL语句，其中，所述基本条件所对应的SQL语句作为子查询语句。

在一实施例中，第二解析模块包括：

第二解析子模块，用于对目标数据解析得到采集数据以及日志数据；

存储模块，用于将清洗后的日志数据以及所述采集数据存储到第二数据库；所述第二数据库为SparkSQL数据库。

在一实施例中，第一确定模块包括：

分组聚合模块，用于基于所述SQL语句对所述数据解析结果分组聚合，生成多个子数据集；

第一确定子模块，用于基于所述SQL语句以及所述多个子数据集，生成第一分析结果。

在一实施例中，第二确定模块包括：

匹配模块，用于将所述第一分析结果所包含的多个子数据集与所述线索策略相匹配；

第二确定子模块，用于将匹配的子数据集确定为关键行为数据；将不匹配的子数据集确定为非关键行为数据。

在一实施例中，还包括：

标记模块，用于将所述关键行为数据和所述非关键行为数据进行标记；将标记后的所述关键行为数据和所述非关键行为数据，存储到所述第一数据库中。

关于基于自定义策略的数据分析装置的具体限定可以参见上文中对于分析方法的限定，在此不再赘述。上述基于自定义策略的数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储动作检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一项基于自定义策略的数据分析方法实施例中的步骤。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述任一项基于自定义策略的数据分析方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项基于自定义策略的数据分析方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于自定义策略的数据分析方法，其特征在于，所述方法包括：

对目标数据解析，得到数据解析结果；

基于所述第一分析结果以及线索策略，确定第二分析结果。

2.根据权利要求1所述的方法，其特征在于，所述对从第一数据库中获取的自定义策略解析，生成对应的SQL语句包括：

3.根据权利要求2所述的方法，其特征在于，所述自定义策略包括基本条件和关联条件，所述将所述自定义策略映射到语法树，生成对应的SQL语句包括：

确定所述基本条件和所述关联条件的表达式；

4.根据权利要求1所述的方法，其特征在于，所述对目标数据解析，得到数据解析结果包括：

对目标数据解析得到采集数据以及日志数据；

5.根据权利要求1所述的方法，其特征在于，所述基于所述SQL语句以及所述数据解析结果，确定第一分析结果包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一分析结果以及线索策略，确定第二分析结果包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述关键行为数据和所述非关键行为数据进行标记；

8.一种基于自定义策略的数据分析装置，其特征在于，所述装置包括：

第二解析模块，用于对目标数据解析，得到数据解析结果；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7中任一项所述的方法的步骤。