CN111737289B

CN111737289B - Sql注入攻击的检测方法、装置

Info

Publication number: CN111737289B
Application number: CN202010507446.9A
Authority: CN
Inventors: 王巍巍; 陈功
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2023-07-25
Anticipated expiration: 2040-06-05
Also published as: CN111737289A

Abstract

本发明实施例提供了一种SQL注入攻击的检测方法、装置，其中，所述方法包括：获取待检测的目标SQL语句；对所述目标SQL语句进行特征工程处理，得到所述目标SQL语句的特征数据；将所述特征数据输入预先训练完毕的SQL注入攻击检测模型中得到检测结果；若所述检测结果大于预设的概率阈值，则将所述目标SQL语句确定为SQL注入语句。本发明实施例利用训练完毕的SQL注入攻击检测模型确定目标SQL语句是否为SQL注入语句，可以解决现有的SQL注入攻击检测方案依赖于规则集或者固定的数据库的结构，需要人工参与，容易导致误报、漏报或失效的技术问题，提升了SQL注入攻击检测的效果。

Description

SQL注入攻击的检测方法、装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种SQL注入攻击的检测方法、装置，以及一种电子设备和一种计算机可读存储介质。

背景技术

结构化查询语言(Structured Query Language，SQL)是操作数据库数据的一种特殊目的的编程语言，网页的应用数据和后台数据库中的数据进行交互时会采用SQL。而SQL注入攻击是将网页的统一资源定位系统(Uniform Resource Locator，URL)、表单域或数据包输入的参数修改拼接成SQL语句，传递给网页服务器，进而传给数据库服务器以执行数据库命令。如网页的应用程序的开发人员对用户所输入的数据等内容不进行过滤或验证就直接传输给数据库，可能导致拼接的SQL语句被执行，获取数据库的信息以及提高在数据库中的权限。

现有的SQL注入攻击的检测方案中，一种是在网页应用程序防火墙(WebApplication Firewall，WAF)端对超文本传输协议(Hyper Text Transfer Protocol，HTTP)请求进行检测，在检测HTTP请求时需要基于预设的规则集，规则集不仅需要专家系统的支持与运维人员的定期维护，还可以产生较多的误报或漏报的情况。另一种是根据网页应用程序进行SQL注入攻击检测，但是，如果数据库的结构发生改变，该中SQL注入攻击检测就会失效。

因此，现有的SQL注入攻击的检测方案依赖于规则集或者固定的数据库的结构，需要人工参与，且容易误报、漏报或失效，SQL注入攻击的检测效果不理想。

发明内容

本发明实施例的目的在于提供一种SQL注入攻击的检测方法、装置，以及一种电子设备和一种计算机可读存储介质，不依赖于规则集或者固定的数据库的结构，不需要人工参与，不容易导致误报、漏报或失效的问题，SQL注入攻击的检测效果比较理想。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种SQL注入攻击的检测方法，包括：获取待检测的目标SQL语句；对所述目标SQL语句进行特征工程处理，得到所述目标SQL语句的特征数据；将所述特征数护具输入预先训练完毕的SQL注入攻击检测模型中得到检测结果；若所述检测结果大于预设的概率阈值，则将所述目标SQL语句确定为SQL注入语句。

可选地，所述对所述目标SQL语句进行特征工程处理，得到所述目标SQL语句的特征数据，包括：针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，所述标准化语句包含按照预设的语义模式排列的多个分词；创建所述标准化语句中的多个所述分词之间的多个关联关系；根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据。

可选地，所述创建所述标准化语句中的多个所述分词之间的多个关联关系，包括：按照预设的宽度的滑动窗口对所述标准化语句进行扫描，将所述滑动窗口中的每个分词的索引信息作为顶点，并将多个所述顶点之间的连线作为边；为每个所述边设置对应的权重，将多个所述权重作为多个所述分词之间的多个所述关联关系；其中，所述权重的数值与对应的所述边的长度成反比。

可选地，所述将多个所述权重作为多个所述分词之间的多个所述关联关系，包括：将多个所述滑动窗口中相同的边的权重之和，作为对应的多个所述分词之间的多个所述关联关系；其中，所述相同的边表示两个顶点均相同的边。

可选地，所述根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据，包括：根据多个所述顶点和多个所述边建立所述标准化语句的无向图；将所述无向图的邻接矩阵作为所述目标SQL语句的所述特征数据。

可选地，所述针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，包括：针对所述目标SQL语句进行拆分操作得到词组，所述词组包含顺序排列的多个单词；按照所述词组中各所述单词的类型，将各所述单词转换为对应的所述分词，所述类型包含关键词类型、变量类型、常量类型和符号类型；按照多个所述单词在所述词组中的顺序，根据多个所述单词对应的所述分词生成所述标准化语句。

可选地，所述获取待检测的目标SQL语句，包括：获取目标SQL日志信息，并按照预设的过滤规则对所述目标SQL日志信息进行过滤操作得到所述目标SQL语句。

可选地，所述SQL注入攻击检测模型的训练步骤，包括：获取多个样本SQL语句；对多个所述SQL语句进行所述特征工程处理，得到多个所述样本SQL语句的特征数据；根据多个所述特征数据对所述SQL注入攻击检测模型进行训练。

可选地，所述获取多个样本SQL语句，包括：获取样本SQL日志信息，并按照所述过滤规则对所述样本SQL日志信息进行过滤操作得到多个所述样本SQL语句。

可选地，所述方法还包括：若所述检测结果小于或等于所述概率阈值，则将所述目标SQL语句确定为样本SQL语句。

在本发明实施的第二方面，还提供了一种SQL注入攻击的检测装置，包括：获取模块，用于获取待检测的目标SQL语句；处理模块，用于对所述目标SQL语句进行特征工程处理，得到所述目标SQL语句的特征数据；检测模块，用于将所述特征数据输入预先训练完毕的SQL注入攻击检测模型中得到检测结果；确定模块，用于若所述检测结果大于预设的概率阈值，则将所述目标SQL语句确定为SQL注入语句。

可选地，所述处理模块，包括：标准化模块，用于针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，所述标准化语句包含按照预设的语义模式排列的多个分词；关联创建模块，用于创建所述标准化语句中的多个所述分词之间的多个关联关系；特征生成模块，用于根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据。

可选地，所述关联创建模块，包括：语句扫描模块，用于按照预设的宽度的滑动窗口对所述标准化语句进行扫描，将所述滑动窗口中的每个分词的索引信息作为顶点，并将多个所述顶点之间的连线作为边；关系确定模块，用于为每个所述边设置对应的权重，将多个所述权重作为多个所述分词之间的多个所述关联关系；其中，所述权重的数值与对应的所述边的长度成反比。

可选地，所述关系确定模块，用于将多个所述滑动窗口中相同的边的权重之和，作为对应的多个所述分词之间的多个所述关联关系；其中，所述相同的边表示两个顶点均相同的边。

可选地，所述特征生成模块，包括：无向图建立模块，用于根据多个所述顶点和多个所述边建立所述标准化语句的无向图；特征确定模块，用于将所述无向图的邻接矩阵作为所述目标SQL语句的所述特征数据。

可选地，所述标准化模块，包括：语句拆分模块，用于针对所述目标SQL语句进行拆分操作得到词组，所述词组包含顺序排列的多个单词；单词转换模块，用于按照所述词组中各所述单词的类型，将各所述单词转换为对应的所述分词，所述类型包含关键词类型、变量类型、常量类型和符号类型；语句生成模块，用于按照多个所述单词在所述词组中的顺序，根据多个所述单词对应的所述分词生成所述标准化语句。

可选地，所述获取模块，用于获取目标SQL日志信息，并按照预设的过滤规则对所述目标SQL日志信息进行过滤操作得到所述目标SQL语句。

可选地，所述装置还包括：训练模块，用于训练所述SQL注入攻击检测模型，所述训练模块，包括：样本获取模块，用于获取多个样本SQL语句；样本处理模块，用于对多个所述SQL语句进行所述特征工程处理，得到多个所述样本SQL语句的特征数据；模型训练模块，用于根据多个所述特征数据对所述SQL注入攻击检测模型进行训练。

可选地，所述样本获取模块，用于获取样本SQL日志信息，并按照所述过滤规则对所述样本目标SQL日志信息进行过滤操作得到所述样本SQL语句。

可选地，所述确定模块，还用于若所述检测结果小于或等于所述概率阈值，则将所述目标SQL语句确定为所述样本SQL语句。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的SQL注入攻击的检测方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的SQL注入攻击的检测方法。

本发明实施例提供的SQL注入攻击的检测方法，通过采用对获取到的待检测的目标SQL语句进行特征工程处理，得到特征数据，将特征数据输入至训练完毕的SQL注入攻击检测模型中，并判断检测结果是否大于预设的概率阈值，当检测结果大于概率阈值时，确定目标SQL语句为SQL注入语句的技术手段。利用训练完毕的SQL注入攻击检测模型确定目标SQL语句是否为SQL注入语句。虽然不同业务中的SQL语句与业务逻辑相关，但SQL语句的语义模式相对单一，符合常见的语句规范，而SQL注入语句的语义模式或者语义与非SQL注入语句的语义模式或者语义有较大的差异性，因此，通过对待检测的目标SQL语句进行特征工程处理得到特征数据，利用特征数据描述目标SQL语句的语义模式，并基于SQL注入攻击检测模型的二分类过程确定目标SQL语句是否为SQL注入语句，不依赖于规则集或者固定的数据库的结构，也不需要人工参与，可以解决现有的SQL注入攻击检测方案依赖于规则集或者固定的数据库的结构，需要人工参与，容易导致误报、漏报或失效的技术问题，提升了SQL注入攻击检测的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例的一种SQL注入攻击的检测方法的步骤流程图。

图2为本发明实施例的一种SQL注入攻击检测模型的训练方法的步骤流程图。

图3为本发明实施例的滑动窗口对标准化语句进行扫描的示意图。

图4为本发明实施例的另一种SQL注入攻击的检测方法的操作流程图。

图5为本发明实施例的一种SQL注入攻击的检测装置的结构示意图。

图6为本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本发明实施例提出一种SQL注入攻击的检测方法，对待检测的目标SQL语句进行特征工程处理得到目标SQL语句的特征数据之后，将特征数据输入至训练完毕的SQL注入攻击检测模型中，进而根据检测结果和概率阈值的比较结果确定目标SQL语句是否为SQL注入语句。其中，在SQL注入攻击检测模型的训练过程中，可以采集全量SQL日志信息，将全量SQL日志信息中的样本SQL语句转换为标准化语句，再根据标准化语句中的分词和分词之间的关联关系生成训练数据，进而利用训练数据对SQL注入攻击检测模型进行训练。

如图1所示，示出了本发明实施例的一种SQL注入攻击的检测方法的步骤流程图。该SQL注入攻击的检测方法具体可以包括如下步骤。

步骤101，获取待检测的目标SQL语句。

在本发明的实施例中，可以直接获得目标SQL语句，也可以从目标SQL日志信息中过滤得到待检测的目标SQL语句。例如，先获取目标SQL日志信息，然后按照预设的过滤规则对目标SQL日志信息进行过滤操作得到目标SQL语句。预设的过滤规则可以包含以下至少之一：异常字符、常用注入函数、报错注入函数、疑似爆破行为、寻找注入点行为、疑似拖库行为、导出行为、执行系统命令、盲注行为、合并注入行为、报错注入行为。

步骤102，对目标SQL语句进行特征工程处理，得到目标SQL语句的特征数据。

在本发明的实施例中，特征工程处理的过程可以包含将目标SQL语句转换为标准化语句，以及，根据标准化语句生成目标SQL语句的特征数据两部分内容。

在本发明的一种示例性实施例中，在将目标SQL语句转换为标准化语句时，可以针对目标SQL语句进行拆分操作和解析操作得到标准化语句。标准化语句可以包含按照预设的语义模式排列的多个分词。在实际应用中，可以针对目标SQL语句进行拆分操作得到词组，词组中可以包含顺序排列的多个单词。然后，按照词组中各单词的类型，将各单词转换为对应的分词，其中，单词的类型可以包含关键词类型、变量类型、常量类型和符号类型等。最后，按照多个单词在词组中的顺序，根据多个单词对应的分词生成标准化语句。

例如，属于关键词类型的单词可以包括“SELECT”、“FROM”、“WHERE”、“AND”、“OR”等等。变量类型或者常量类型可以包括字符串、整形、URL、16进制等。符号类型可以包括各类括号、操作符等。例如，针对样本SQL语句“SELECT winner FROM nobel WHERE yr＝1960ANDsubject＝'Physics'”进行拆分操作和解析操作得到标准化语句“SELECT STR FROM STRWHERE STR EQ INT AND STR EQ SQUT STR SQUT”。针对样本SQL语句“SELECT*FROM usersWHERE email＝'xxx@xxx.xxx'AND password＝md5('xxx')OR 1＝1--]')”进行拆分操作和解析操作得到标准化语句“SELECT STAR FROM STR WHERE STR EQ SQUT STR SQUT ANDPASSWORD EQ MD5 SQUT STR SQUT OR INT EQ INT MINUS MINUS RSQBR SQUT RPRNSMCLN”。

在本发明的一种示例性实施例中，在根据标准化语句生成目标SQL语句的特征数据时，可以创建标准化语句中的多个分词之间的多个关联关系，根据标准化语句中的多个分词和多个关联关系，生成目标SQL语句的特征数据。在实际应用中，在得到目标SQL语句的标准化语句之后，并非直接将标准化语句输入至SQL注入攻击检测模型，而是进一步创建标准化语句中的多个分词之间的多个关联关系。

在创建关联关系时，可以按照预设的宽度的滑动窗口对标准化语句进行扫描，将滑动窗口中的每个分词的索引信息作为顶点，并将多个顶点之间的连线作为边；为每个边设置对应的权重，将多个权重作为多个分词之间的多个关联关系。

其中，将多个权重作为多个分词之间的多个关联关系，即将多个滑动窗口中相同的边的权重之和，作为对应的多个分词之间的多个关联关系。相同的边表示两个顶点均相同的边。权重的数值与对应的边的长度成反比，即边的长度越长，权重的数值越小；边的长度越短，权重的数值越大。

在根据标准化语句中的多个分词和多个关联关系，生成目标SQL语句的特征数据时，可以根据多个顶点和多个边建立标准化语句的无向图。无向图的逻辑结构分为两部分：V和E，其中，V表示顶点，E表示边。因此，用一个一维数组存放无向图中所有的顶点的数据；用一个二维数组存放顶点间关系(边)的数据，存放顶点间关系(边)的数据的二维数组称为无向图的邻接矩阵。在本发明的实施例中，可以将标准化语句的无向图的邻接矩阵作为目标SQL语句的特征数据。

步骤103，将特征数据输入训练完毕的SQL注入攻击检测模型中得到检测结果。

在本发明的实施例中，由于SQL注入攻击检测模型对目标SQL语句的检测过程可以理解为一个二分类的过程，检测结果可以为目标SQL语句属于SQL注入攻击或者目标SQL语句不属于SQL注入攻击。在实际应用中，从SQL注入攻击检测模型输出的检测结果可以为目标SQL语句为SQL注入语句的概率。

步骤104，若检测结果大于预设的概率阈值，则将目标SQL语句确定为SQL注入语句。

在本发明的实施例中，可以预先设置概率阈值，例如，概率阈值为80％。若检测结果大于80％，则将目标SQL语句确定为SQL注入语句。

在本发明的一种示例性实施例中，若检测结果小于或等于概率阈值，则认为目标SQL语句为非SQL注入语句，并可以将目标SQL语句确定为样本SQL语句。需要说明的是，该样本SQL语句为白样本SQL语句。若目标SQL语句为SQL注入语句，则可以将目标SQL语句作为黑样本SQL语句。

也就是说，在对目标SQL语句进行检测之后，可以获取白样本SQL语句或者黑样本SQL语句，以便可以根据白样本SQL语句或者黑样本SQL语句建立白样本数据库或黑样本数据库。

如图2所示，示出了本发明实施例的一种SQL注入攻击检测模型的训练方法的步骤流程图。该SQL注入攻击检测模型的训练方法具体可以包括如下步骤。

步骤201，获取多个样本SQL语句。

在本发明的实施例中，样本SQL语句可以理解为SQL注入攻击检测模型的训练数据的基础，即可以根据样本SQL语句生成训练数据。由于SQL注入攻击检测模型对SQL注入攻击的检测过程可以理解为一个二分类的过程，检测结果可以为属于SQL注入攻击或者不属于SQL注入攻击。因此，训练数据具体可以包括白样本训练数据和黑样本训练数据。相应地，样本SQL语句也可以包含白样本SQL语句和黑样本SQL语句。

其中，白样本训练数据或者白样本SQL语句可以理解为属于SQL注入攻击的训练数据或者SQL语句；黑样本训练数据或者黑样本SQL语句可以理解为不属于SQL注入攻击的训练数据或者SQL语句。

在本发明的一种示例性实施例中，获取多个样本SQL语句的过程可以包含获取白样本SQL语句和黑样本SQL语句。其中，在获取白样本SQL语句时，可以获取样本SQL日志信息，并按照预设的过滤规则对样本SQL日志信息进行过滤操作得到多个白样本SQL语句。预设的过滤规则可以包含以下至少之一：异常字符、常用注入函数、报错注入函数、疑似爆破行为、寻找注入点行为、疑似拖库行为、导出行为、执行系统命令、盲注行为、合并注入行为、报错注入行为。在获取黑样本SQL语句时，可以从历史SQL注入攻击检测数据和/或SQL注入工具中获取多个黑样本SQL语句。

在获取到白样本SQL语句和/或黑样本SQL语句之后，可以根据获取到的白样本SQL语句和/或黑样本SQL语句建立对应的白样本数据库和/或黑样本数据库。

步骤202，对多个样本SQL语句进行特征工程处理，得到多个样本SQL语句的特征数据。

在本发明的实施例中，对样本SQL语句进行特征工程处理的过程可以参照上述对目标SQL语句进行特征工程处理的相关说明，在此不再赘述。

步骤203，根据特征数据训练SQL注入攻击检测模型。

在本发明的实施例中，SQL注入攻击检测属于二分类问题，不仅需要保证高准确率与低误报率，同时还需要SQL注入攻击检测模型具有可解释性，为了提高检测的效率，可以选择XGBoost作为初始模型。XGBoost集成学习算法，通过构建多个学习器完成分类任务，有很强的泛化能力，并且支持并行化，有比较高的效率。

在实际应用中，边的权重的最小值可以设置为1，如图3所示，图3示出了一个宽度为5的滑动窗口(虚线表示)对标准化语句进行扫描的示意图。为了方便表述，利用分词替代对应的索引信息进行说明。该标准化语句为“SELECT STR FROM STR WHERE STR EQ INT”，以第一个分词“SELECT”为顶点，共建立了4条不同长度的边，即“SELECT”与“STR”之间的边，“SELECT”与“FROM”之间的边，“SELECT”与“STR”之间的边，“SELECT”与“WHERE”之间的边。各边的权重分别为4、3、2、1，依次递减。当滑动窗口对该标准化语句扫描之后，生成一个无向图，而且，不同的滑动窗口中相同的边的权重相加。相同的边即两个顶点均相同的边。然后，将无向图的邻接矩阵作为该标准化语句对应的样本SQL语句的特征数据。

在本发明的一种示例性实施例中，上述特征工程的处理过程，可以理解为SQL语句(样本SQL语句和/或目标SQL语句)的向量化过程。SQL语句的向量化过程可以包含建立字典和转换语句以及构建特征向量(特征数据)等部分。

建立字典和转换语句部分：

SQL语句可以作为“关键字”、“变量”、“常量”以及“符号”的拼接，例如，SELECTwinner FROM nobel WHERE yr＝1960AND subject＝'Physics'。其中SELECT、FROM、WHERE、AND是关键字，winner、nobel、yr、1960、subject、Physics是变量与常量，＝、'、'是符号。

关键字和符号的种类是有限的，可以建立字典进行映射，规则如下：

关键字转换为其本身，符号可以根据其英文缩写转换，例如：＝转换为EQ，+转换为PLUS，(转换为PRN等。

尽管常量名、变量名有无限种，但是其类型种类是有限的，因此可以映射为其对应的类型，例如：winner、nobel、yr、subject、Physics都是字符串，都转换成STR，1960是整型数字，转换成INT，因此可以建立一个由关键字、变量类型、常量类型、符号类型构成的字典，所有SQL语句都可以转换成由有限个单词构成的标准化语句。

构建特征向量部分：

可以将每个SQL语句分别映射为一个包含关键字、常量、变量、符号等构成的序列。若建立的字典一共有个N个分词(关键词、常量、变量、符号等)，那么可以构造一个N*N的矩阵来表示一条SQL语句，方法如下：

假设字典表示为dict＝{i:keyword[i]},i是索引，keyword[i]是分词，满足0<＝i<N。假设SQL语句为keyword seq[L]，L是SQL语句的长度，对应矩阵为matrix[N][N]。

初始化时矩阵的每个元素都为0。在不考虑滑动窗口的情况下，对于SQL语句中出现的任意两个单词seq[x]，seq[y]，在矩阵中找到这两个单词对应的索引p,q，即dict[p]＝seq[x],dict[q]＝seq[y]，那么matrix[N][N]＝1，可以理解为在一张无向图中，两个单词seq[x]，seq[y]对应的连接成了一条边，如此可以把任意一个SQL语句映射为一个N*N的矩阵。

在上述的基础上引入滑动窗口，考虑分词之间的关联关系，引入了权重。

以下述SQL语句为例：

SELECT winner FROM nobel WHERE yr＝1960AND subject＝'Physics'；

每次只考虑一个滑动窗口，固定第一个分词为起始点，与其后的每一个分词连接成边，矩阵里一共有N*N个元素，也即一个N^2的向量。假设训练集有M条样本SQL语句，那么可以采用上面的步骤，建立一个M*(N^2)的矩阵，由于其中大部分都是0，也就是一个稀疏矩阵，可以作为SQL注入攻击检测模型的训练数据。

如图4所示，示出了本发明实施例的另一种SQL注入攻击的检测方法的操作流程图。

获取目标SQL日志信息，并对目标SQL日志信息进行预处理。在本发明的实施例中，目标SQL日志信息的数据量巨大，若直接对目标SQL日志信息进行检测，会增加不必要的负担。因此，可以根据SQL注入攻击的常见模式制定一套过滤规则，利用过滤规则对目标SQL日志信息进行过滤，不仅能够减少模型检测的数据量，同时也可以为后续建立白样本数据库和/或黑样本数据库提供数据支持。

目标SQL日志信息经过过滤之后，若目标SQL日志信息中存在符合过滤规则中部分或者全部规则要求的目标SQL语句，则可以将符合过滤规则的目标SQL语句输入至训练完毕的检测模型。若目标SQL日志信息中存在不符合过滤规则中部分或者全部规则要求的目标SQL语句，则可以将不符合过滤规则的目标SQL语句经过特征工程处理，以便建立白样本数据库。将经过特征工程处理后的目标SQL语句确定为白样本SQL语句。

上述将符合过滤规则的目标SQL语句输入至训练完毕的检测模型，输出符合过滤规则的目标SQL语句属于SQL注入语句的概率，若概率大于概率阈值，则认为对应的目标SQL语句为SQL注入语句，生成并展示告警信息。同时，可以将该对应的目标SQL语句作为黑样本SQL语句，建立黑样本数据库。除此之外，黑样本SQL语句还可以来源于威胁情报和各类注入工具生成的SQL注入语句。

在本发明的一种示例性实施例中，SQL注入攻击检测模型可以部署在分布式文件系统(Hadoop Distributed File System，HDFS)中，当需要多台设备对SQL注入攻击进行检测时，多台设备可以预先从HDFS中加载SQL注入攻击检测模型。

本发明实施例按照过滤规则对目标SQL日志信息进行过滤，不仅减少了特征工程处理的SQL语句的数量，还减轻了SQL注入攻击检测模型的检测负担，而且，为SQL注入攻击检测模型的训练提供了可靠的样本SQL语句。

在对目标SQL语句进行特征工程处理的过程中，考虑到各分词之间的关联关系而引入边的权重，进而利用权重体现分词之间的关联关系，实现了目标SQL语句的向量化。

本发明实施例在对SQL注入攻击检测模型进行训练的过程中，样本SQL语句也可以经过特征工程处理，进而利用得到的样本SQL语句的特征数据对SQL注入攻击检测模型进行训练，利用特征数据可以描述SQL语句的语义模式的特点，使得SQL注入攻击检测模型可以识别各业务中的SQL注入语句，具有较强的鲁棒性和较高的检测准确率。

而且，利用SQL注入攻击检测模型的检测结果建立样本数据库，可以持续提高SQL注入攻击检测模型的检测准确率。

如图5所示，示出了本发明实施例的一种SQL注入攻击的检测装置的结构示意图。该装置可以包括如下模块。

获取模块51，用于获取待检测的目标SQL语句；

处理模块52，用于对所述目标SQL语句进行特征工程处理，得到所述目标SQL语句的特征数据；

检测模块53，用于将所述特征数据输入预先训练完毕的SQL注入攻击检测模型中得到检测结果；

确定模块54，用于若所述检测结果大于预设的概率阈值，则将所述目标SQL语句确定为SQL注入语句。

在本发明的一种示例性实施例中，所述处理模块，包括：

标准化模块，用于针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，所述标准化语句包含按照预设的语义模式排列的多个分词；

关联创建模块，用于创建所述标准化语句中的多个所述分词之间的多个关联关系；

特征生成模块，用于根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据。

在本发明的一种示例性实施例中，所述关联创建模块，包括：

语句扫描模块，用于按照预设的宽度的滑动窗口对所述标准化语句进行扫描，将所述滑动窗口中的每个分词的索引信息作为顶点，并将多个所述顶点之间的连线作为边；

关系确定模块，用于为每个所述边设置对应的权重，将多个所述权重作为多个所述分词之间的多个所述关联关系；

其中，所述权重的数值与对应的所述边的长度成反比。

在本发明的一种示例性实施例中，所述关系确定模块，用于将多个所述滑动窗口中相同的边的权重之和，作为对应的多个所述分词之间的多个所述关联关系；

其中，所述相同的边表示两个顶点均相同的边。

在本发明的一种示例性实施例中，所述特征生成模块，包括：

无向图建立模块，用于根据多个所述顶点和多个所述边建立所述标准化语句的无向图；

特征确定模块，用于将所述无向图的邻接矩阵作为所述目标SQL语句的所述特征数据。

在本发明的一种示例性实施例中，所述标准化模块，包括：

语句拆分模块，用于针对所述目标SQL语句进行拆分操作得到词组，所述词组包含顺序排列的多个单词；

单词转换模块，用于按照所述词组中各所述单词的类型，将各所述单词转换为对应的所述分词，所述类型包含关键词类型、变量类型、常量类型和符号类型；

语句生成模块，用于按照多个所述单词在所述词组中的顺序，根据多个所述单词对应的所述分词生成所述标准化语句。

在本发明的一种示例性实施例中，所述获取模块，用于获取目标SQL日志信息，并按照预设的过滤规则对所述目标SQL日志信息进行过滤操作得到所述目标SQL语句。

在本发明的一种示例性实施例中，所述装置还包括：训练模块，用于训练所述SQL注入攻击检测模型，所述训练模块，包括：

样本获取模块，用于获取多个样本SQL语句；

样本处理模块，用于对多个所述SQL语句进行所述特征工程处理，得到多个所述样本SQL语句的特征数据；

模型训练模块，用于根据多个所述特征数据对所述SQL注入攻击检测模型进行训练。

在本发明的一种示例性实施例中，所述样本获取模块，用于获取样本SQL日志信息，并按照所述过滤规则对所述样本SQL日志信息进行过滤操作得到所述样本SQL语句。

在本发明的一种示例性实施例中，所述确定模块54，还用于若所述检测结果小于或等于所述概率阈值，则将所述目标SQL语句确定为样本SQL语句。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信，

存储器63，用于存放计算机程序；

处理器61，用于执行存储器63上所存放的程序时，实现如下步骤：

获取待检测的目标SQL语句；对所述目标SQL语句进行特征工程处理，得到所述目标SQL语句的特征数据；将所述特征数据输入预先训练完毕的SQL注入攻击检测模型中得到检测结果；若所述检测结果大于预设的概率阈值，则将所述目标SQL语句确定为SQL注入语句。

其中，在对所述目标SQL语句进行特征工程处理，得到所述目标SQL语句的特征数据时，针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，所述标准化语句包含按照预设的语义模式排列的多个分词；创建所述标准化语句中的多个所述分词之间的多个关联关系；根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据。

在创建所述标准化语句中的多个所述分词之间的多个关联关系时，按照预设的宽度的滑动窗口对所述标准化语句进行扫描，将所述滑动窗口中的每个分词的索引信息作为顶点，并将多个所述顶点之间的连线作为边；为每个所述边设置对应的权重，将多个所述权重作为多个所述分词之间的多个所述关联关系；其中，所述权重的数值与对应的所述边的长度成反比。

在将多个所述权重作为多个所述分词之间的多个所述关联关系时，将多个所述滑动窗口中相同的边的权重之和，作为对应的多个所述分词之间的多个所述关联关系；其中，所述相同的边表示两个顶点均相同的边。

在根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据时，根据多个所述顶点和多个所述边建立所述标准化语句的无向图；将所述无向图的邻接矩阵作为所述目标SQL语句的所述特征数据。

在针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句时，针对所述目标SQL语句进行拆分操作得到词组，所述词组包含顺序排列的多个单词；按照所述词组中各所述单词的类型，将各所述单词转换为对应的所述分词，所述类型包含关键词类型、变量类型、常量类型和符号类型；按照多个所述单词在所述词组中的顺序，根据多个所述单词对应的所述分词生成所述标准化语句。

在获取待检测的目标SQL语句时，获取目标SQL日志信息，并按照预设的过滤规则对所述目标SQL日志信息进行过滤操作得到所述目标SQL语句。

所述SQL注入攻击检测模型的训练步骤，包括：获取多个样本SQL语句；对多个所述SQL语句进行所述特征工程处理，得到多个所述样本SQL语句的特征数据；根据多个所述特征数据对所述SQL注入攻击检测模型进行训练。

在获取多个样本SQL语句时，获取样本SQL日志信息，并按照所述过滤规则对所述样本SQL日志信息进行过滤操作得到多个所述样本SQL语句。

进一步地，若所述检测结果小于或等于所述概率阈值，则将所述目标SQL语句确定为所述样本SQL语句。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的SQL注入攻击检测模型的训练方法和/或SQL注入攻击的检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的SQL注入攻击检测模型的训练方法和/或SQL注入攻击的检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种SQL注入攻击的检测方法，其特征在于，包括：

获取待检测的目标SQL语句；

针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，所述标准化语句包含按照预设的语义模式排列的多个分词；

按照预设的宽度的滑动窗口对所述标准化语句进行扫描，将所述滑动窗口中的每个分词的索引信息作为顶点，并将多个所述顶点之间的连线作为边；

为每个所述边设置对应的权重，将多个所述权重作为多个所述分词之间的多个关联关系；其中，所述权重的数值与对应的所述边的长度成反比；

根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据；

将所述特征数据输入预先训练完毕的SQL注入攻击检测模型中得到检测结果；

若所述检测结果大于预设的概率阈值，则将所述目标SQL语句确定为SQL注入语句。

2.根据权利要求1所述的方法，其特征在于，所述将多个所述权重作为多个所述分词之间的多个关联关系，包括：

将多个所述滑动窗口中相同的边的权重之和，作为对应的多个所述分词之间的多个所述关联关系；

其中，所述相同的边表示两个顶点均相同的边。

3.根据权利要求1所述的方法，其特征在于，所述根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据，包括：

根据多个所述顶点和多个所述边建立所述标准化语句的无向图；

将所述无向图的邻接矩阵作为所述目标SQL语句的所述特征数据。

4.根据权利要求1所述的方法，其特征在于，所述针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，包括：

针对所述目标SQL语句进行拆分操作得到词组，所述词组包含顺序排列的多个单词；

按照所述词组中各所述单词的类型，将各所述单词转换为对应的所述分词，所述类型包含关键词类型、变量类型、常量类型和符号类型；

按照多个所述单词在所述词组中的顺序，根据多个所述单词对应的所述分词生成所述标准化语句。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取待检测的目标SQL语句，包括：

获取目标SQL日志信息，并按照预设的过滤规则对所述目标SQL日志信息进行过滤操作得到所述目标SQL语句。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述检测结果小于或等于所述概率阈值，则将所述目标SQL语句确定为样本SQL语句。

7.一种SQL注入攻击的检测装置，其特征在于，包括：

获取模块，用于获取待检测的目标SQL语句；

处理模块，用于针对所述目标SQL语句进行拆分操作和解析操作，得到标准化语句，所述标准化语句包含按照预设的语义模式排列的多个分词；按照预设的宽度的滑动窗口对所述标准化语句进行扫描，将所述滑动窗口中的每个分词的索引信息作为顶点，并将多个所述顶点之间的连线作为边；为每个所述边设置对应的权重，将多个所述权重作为多个所述分词之间的多个关联关系；其中，所述权重的数值与对应的所述边的长度成反比；根据所述标准化语句中的多个所述分词和多个所述关联关系，生成所述目标SQL语句的特征数据；

检测模块，用于将所述特征数据输入预先训练完毕的SQL注入攻击检测模型中得到检测结果；

确定模块，用于若所述检测结果大于预设的概率阈值，则将所述目标SQL语句确定为SQL注入语句。

8.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，

该程序被处理器执行时实现如权利要求1-6中任一所述的方法。