CN115017181B

CN115017181B - 一种基于机器学习的数据库基线确定方法及装置

Info

Publication number: CN115017181B
Application number: CN202210715799.7A
Authority: CN
Inventors: 王广清; 方铁城; 刘颖; 申彦龙; 陈宇翀; 周树杰; 李昕; 白强
Original assignee: Beijing Gas Group Co Ltd
Current assignee: Beijing Gas Group Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2023-03-24
Anticipated expiration: 2042-06-23
Also published as: CN115017181A

Abstract

本发明提供一种基于机器学习的数据库基线确定方法及装置。所述方法包括：利用数据采集技术对网络通信中的数据报文进行采集；根据采集数据的协议特征识别数据库类型，并基于数据库类型从采集数据中提取有效的sql语句；对sql语句进行语义和语法解析，得到sql语句概要信息；构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求。本发明通过对业务系统进行画像，并基于画像信息确定数据库基线，能够对不同的业务系统确定不同的数据库基线，使数据库基线更精确。

Description

一种基于机器学习的数据库基线确定方法及装置

技术领域

本发明属于数据安全技术领域，具体涉及一种基于机器学习的数据库基线确定方法及装置。

背景技术

基线是一个信息系统的最小安全保证，即该信息系统最基本需要满足的安全要求。数据库的基线是业务系统访问数据库的最小安全保证。

传统的数据库基线一般是基于数据库本身的行为所建议的最小安全保证，该种类型的基线带来的问题是：要么发现的风险太多，无法辨识；要么发现不了风险，灵敏度和准确率不高。这种方式不能自动增加闭环操作，需要过多人工干预。

为此，本发明提出一种基于机器学习的数据库基线确定方法，增加了新的基线维度，使基线的内容更丰富。基于机器学习的方式，提炼出更精确的基线模型。对于新出现的数据库访问行为，可以基于协议解析后自动学习该模型，并增加到已有的模型库。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种基于机器学习的数据库基线确定方法及装置。

为了实现上述目的，本发明采用以下技术方案。

第一方面，本发明提供一种基于机器学习的数据库基线确定方法，包括以下步骤：

利用数据采集技术对网络通信中的数据报文进行采集；

根据采集数据的协议特征识别数据库类型，并基于数据库类型从采集数据中提取有效的sql语句；

对sql语句进行语义和语法解析，提取出sql语句中的操作类型、操作对象、操作内容、操作条件和条件内容，得到sql语句概要信息；

构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求。

进一步地，所述利用数据采集技术对网络通信中的数据报文进行采集，还包括：

提取数据通信的四元组(源地址，源端口，目的地址，目的端口)，并根据所述四元组利用数据散列算法形成数1～655350之间的通信会话标识。

进一步地，对sql模型进行训练的方法包括：

通过对提取的sql语句概要信息进行语料预处理构建训练数据集，所述语料预处理包括：剔除空值；进行特征标注，将正常请求标注为“正常”，将非正常请求标注为“不正常”；

采用潜语义分析方法LSA，基于构建的训练数据集对所述sql模型进行训练。

进一步地，所述方法还包括针对不同的业务系统确定不同的数据库基线，方法如下：

基于业务系统的源目的IP地址、时间、数据库流量、频次维度信息，对所述业务系统的数据库使用行为进行画像；

基于业务系统的画像信息确定业务系统的数据库基线，形成数据库的最小安全保障。

进一步地，所述方法还包括：

当业务升级或者有新的业务功能时，会产生新的sql语句，提取sql语句概要信息，并对sql模型进行训练；

利用训练好的sql模型判断新的sql语句是偶发sql，还是新增的业务sql；如果是新增的业务sql，将新的sql语句添加到数据库基线中。

第二方面，本发明提供一种基于机器学习的数据库基线确定装置，包括：

数据采集模块，用于利用数据采集技术对网络通信中的数据报文进行采集；

sql语句提取模块，用于根据采集数据的协议特征识别数据库类型，并基于数据库类型从采集数据中提取有效的sql语句；

概要信息获取模块，用于对sql语句进行语义和语法解析，提取出sql语句中的操作类型、操作对象、操作内容、操作条件和条件内容，得到sql语句概要信息；

sql模型构建模块，用于构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求。

进一步地，所述数据采集模块还用于：

进一步地，对sql模型进行训练的方法包括：

进一步地，所述装置还用于：

进一步地，所述装置还包括自动添加模块，用于：

与现有技术相比，本发明具有以下有益效果。

本发明通过对网络通信中的数据报文进行采集，从采集数据中提取有效的sql语句，对sql语句进行语义和语法解析，提取sql语句概要信息，构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求，能够基于sql模型自动确定数据库基线。本发明通过对业务系统进行画像，并基于画像信息确定数据库基线，能够对不同的业务系统确定不同的数据库基线，使数据库基线更精确。

附图说明

图1为本发明实施例一种基于机器学习的数据库基线确定方法的流程图。

图2为本发明实施例一种基于机器学习的数据库基线确定装置的方框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种基于机器学习的数据库基线确定方法的流程图，包括以下步骤：

步骤101，利用数据采集技术对网络通信中的数据报文进行采集；

步骤102，根据采集数据的协议特征识别数据库类型，并基于数据库类型从采集数据中提取有效的sql语句；

步骤103，对sql语句进行语义和语法解析，提取出sql语句中的操作类型、操作对象、操作内容、操作条件和条件内容，得到sql语句概要信息；

步骤104，构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求。

本实施例中，步骤101主要用于进行通信数据采集。本实施例利用数据采集技术对网络通信的数据报文进行采集。通信数据采集是后面各步骤的基础，比如数据库类型识别，从采集数据中提取有效的sql语句等，都是基于采集数据实现的。

本实施例中，步骤102主要用于从采集数据中提取有效的sql语句。sql(Structured Query Language，结构化查询语言)是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。本实施例首先根据采集数据的协议特征识别数据库类型，然后基于数据库类型从采集数据中提取有效的sql语句。下面介绍一下常用数据库sqlserver、mysql和oracle的协议特征。

数据库sqlserver的协议特征是在数据库通信的数据区进行数据的格式化。其协议特征是：数据区的第1个字节是数据包的特征类型，第2个字节是状态信息，第3、4个字节组成数据的长度，第5、6个字节组成方法类型，第7个字节是数据包个数，第8个字节是窗口描述符。数据区的剩余的数据属于真实的数据，比如请求和响应。

数据库mysql的协议特征是：第1～3个字节表示数据包的长度，第4个字节表示数据的个数，第5个字节表示数据包的类型。数据区的剩余的数据属于真实的数据，比如请求和响应。

数据库oracle的协议特征是：第1、2个字节表示数据的长度，第3、4个字节表示数据校验信息，第5个字节表示请求包类型，第6个字节是保留信息，第7、8个字节表示数据包头的校验信息。数据区的剩余的数据属于真实的数据，比如请求和响应。

利用sqlserver的数据库解析技术提取出该数据报文中的sql请求操作，比如sql请求操作“select 1”。数据库协议解析受到驱动类型、驱动版本、操作系统类型和操作系统版本等影响，通信协议会体现出不同的特征。因此数据库协议解析需要积累大量的数据库通信特征知识，才能准确地提取数据库的请求信息和响应信息。

本实施例中，步骤103主要用于获得sql语句概要信息。本实施例对提取的sql进行语义和语法解析，提取出sql语句中的操作类型、操作对象、操作内容、操作条件和条件内容，从而得到sql语句的概要信息。比如“select name from user_info where name like‘王％’limit 10”，通过解析可以得到操作类型“select”，操作对象“user_info”，操作内容“name”，操作条件“name”，条件内容“王％”。可通过lex和yacc规则对提取的sql语句进行语义和语法解析。lex是一种生成扫描器的工具。扫描器是一种识别文本中的词汇模式的程序，这些词汇模式(或常规表达式)在一种特殊的句子结构中定义。yacc是一种语法解析工具，能够将任何一种编程语言的所有语法翻译成针对此种语言的Yacc语法解析器。

本实施例中，步骤104主要用于判定新的sql请求是否满足数据库基线要求。数据库基线是指为了满足安全要求，相关系统和服务安全配置必须达到的一定标准和基本要求。比如，如果打字速度为1秒钟5～10个字，那么这个速度范围就可以作为一个基线范围，所有每秒打5～10个字的行为都认为是正常行为；如果突然出现了20个字/秒，那就可以断定是一种异常行为。数据库基线也是一样的，比如ERP系统每天早9点到晚6点是操作的高峰期，其他时间操作的频次会非常低。那么这种特征就可以形成一种基线。如果哪天晚10点有操作的高峰值，那可能存在异常。本实施例通过构建sql模型，将新的sql请求输入训练好的sql模型，根据sql模型的输出判断sql请求满足数据库基线要求。所述sql模型可采用循环神经网络结构，其输入是sql语句概要信息，输出是判定sql请求是否正常的结果，比如输出“1”表示正常，输出“0”表示不正常。因此sql模型实际上是一个只有两种输出结果的二分类器。

作为一可选实施例，所述利用数据采集技术对网络通信中的数据报文进行采集，还包括：

本实施例对数据采集做了进一步限定。在进行数据采集时，为了获得数据库访问行为的准确画像，须提取数据通信的源地址、源端口、目的地址和目的端口信息，通常将这些信息表示为四元组(源地址，源端口，目的地址，目的端口)。由于网络通信中数据是杂乱的，如果对同一个会话不进行标识，数据就会混乱。比如a和b同时再上网，那么通过会话就能标识出a访问的内容和b访问的内容。这样就能保障a访问的数据不会给到b。本实施例据所述四元组，利用数据散列算法形成数1～655350之间的通信会话标识。

作为一可选实施例，对sql模型进行训练的方法包括：

本实施例给出了对sql模型进行训练的一种技术方案。对模型训练首先要构建训练数据集，本实施例通过对提取的sql语句概要信息进行语料预处理构建训练数据集。预处理包括剔除空值和特征标注。标注内容为“正常”和“不正常”，对正常sql请求标注“正常”，对非正常sql请求标注“不正常”。本实施例采用潜语义分析方法LSA(Latent SemanticAnalysis)基于构建的训练数据集对sql模型进行训练。LSA是一种自然语言处理中用到的方法，其通过“矢量语义空间”来提取文档与词中的“概念”。

作为一可选实施例，所述方法还包括针对不同的业务系统确定不同的数据库基线，方法如下：

本实施例给出了针对不同的业务系统确定不同的数据库基线的一种技术方案。业务系统是由多部分组成的，比如对外提供服务的应用服务和存储数据的数据库服务器等。本实施例通过对每个业务系统的数据库使用行为进行画像，基于所述画像的具体信息确定所述业务系统的数据库基线，从而形成数据库的最小安全保障。新的sql请求到来后，会判断是否在基线范围内，如果超出基线范围就会告警。业务系统的画像信息包括IP地址、时间、数据库流量、频次维度信息等。比如，如果是ERP系统，那么源目的IP地址就是指ERP系统的源目的IP地址，时间为7*24小时，频次是指业务操作请求的频次，比如提交申请，审批等等都算一次。形成画像以后需要根据具体的业务制定出基线的偏离范围等，比如每天的流量是10M，那么上下浮动2M都算正常。基线也需要根据实际情况制定这个范围。最小安全保障是指保障系统正常运行的最小集合，比如某系统只有select操作，那么这个select操作就是系统正常运行的最小集合，即最小安全保障。超过select的都算异常行为。由于不同的业务系统画像信息不同，因此得到的数据库基线也不同。本实施例通过针对业务系统的数据库使用行为进行画像，并基于画像信息确定数据库基线，使不同的业务系统对应不同的数据库基线，可以使基线更精准。

作为一可选实施例，所述方法还包括：

本实施例给出了业务升级或者有新的业务功能时对数据库基线的一种处理方案。当业务升级或者有新的业务功能时，一定会产生新的sql语句，这时候需要对原来的数据库基线进行修改。本实施例基于新的sql语句提取操作类型、操作对象、操作内容、操作条件和条件内容等sql语句概要信息，并基于提取的sql语句概要信息对sql模型进行训练。利用训练好的sql模型判断新的sql语句是偶发sql，还是新增的业务sql：如果新的语句经训练好的sql模型判定为正常sql请求(一般称为被捕获)，则等待一段时间(如几天时间)，如果没有类似的被捕获现象发生，说明是偶发的；否则，可以认为有新业务发生。如果判定为新增的业务，将所述sql语句自动添加到基线中，可以避免误报，减少人工干预。比如，ERP系统基线中原来有100个sql语句，后来系统审计后sql总数变成了101条，就把新增的这条语句的特征增加到基线特征中。

图2为本发明实施例一种基于机器学习的数据库基线确定装置的组成示意图，所述装置包括：

数据采集模块11，用于利用数据采集技术对网络通信中的数据报文进行采集；

sql语句提取模块12，用于根据采集数据的协议特征识别数据库类型，并基于数据库类型从采集数据中提取有效的sql语句；

概要信息获取模块13，用于对sql语句进行语义和语法解析，提取出sql语句中的操作类型、操作对象、操作内容、操作条件和条件内容，得到sql语句概要信息；

sql模型构建模块14，用于构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。

作为一可选实施例，所述数据采集模块11还用于：

作为一可选实施例，对sql模型进行训练的方法包括：

作为一可选实施例，所述装置还用于：

作为一可选实施例，所述装置还包括自动添加模块，用于：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于机器学习的数据库基线确定方法，其特征在于，包括以下步骤：

利用数据采集技术对网络通信中的数据报文进行采集；

构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求；

所述方法还包括针对不同的业务系统确定不同的数据库基线，方法如下：基于业务系统的源目的IP地址、时间、数据库流量、频次维度信息，对所述业务系统的数据库使用行为进行画像；基于业务系统的画像信息确定业务系统的数据库基线，形成数据库的最小安全保障。

2.根据权利要求1所述的基于机器学习的数据库基线确定方法，其特征在于，所述利用数据采集技术对网络通信中的数据报文进行采集，还包括：

3.根据权利要求1所述的基于机器学习的数据库基线确定方法，其特征在于，对sql模型进行训练的方法包括：

4.根据权利要求1所述的基于机器学习的数据库基线确定方法，其特征在于，所述方法还包括：

5.一种基于机器学习的数据库基线确定装置，其特征在于，包括：

sql模型构建模块，用于构建以sql语句概要信息为输入、以sql请求正常和不正常为输出的sql模型，利用训练好的sql模型判定新的sql语句是否为正常的sql请求，若正常，则所述新的sql语句满足数据库基线要求；

基线确定模块，用于针对不同的业务系统确定不同的数据库基线，方法如下：基于业务系统的源目的IP地址、时间、数据库流量、频次维度信息，对所述业务系统的数据库使用行为进行画像；基于业务系统的画像信息确定业务系统的数据库基线，形成数据库的最小安全保障。

6.根据权利要求5所述的基于机器学习的数据库基线确定装置，其特征在于，所述数据采集模块还用于：

7.根据权利要求5所述的基于机器学习的数据库基线确定装置，其特征在于，对sql模型进行训练的方法包括：

8.根据权利要求5所述的基于机器学习的数据库基线确定装置，其特征在于，所述装置还包括自动添加模块，用于：