CN111818018B

CN111818018B - 一种基于机器学习模型的sql注入攻击检测方法

Info

Publication number: CN111818018B
Application number: CN202010559056.6A
Authority: CN
Inventors: 张华�; 涂腾飞; 严寒冰; 温巧燕; 秦素娟; 高川; 周昊; 虞宇琪; 饶路; 王森淼; 高飞; 李文敏; 金正平; 时忆杰
Original assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2021-09-21
Anticipated expiration: 2040-06-18
Also published as: CN111818018A

Abstract

本发明公开的基于机器学习模型的SQL注入攻击检测方法，涉及网络安全技术领域，通过采用训练过的机器学习模型，支持检测多种类型SQL注入的检测，能够简单、有效地检测HTTP请求中各个类型的SQL注入攻击，降低了检测SQL注入攻击的难度，提高了检测SQL注入攻击的效率及精确度。

Description

一种基于机器学习模型的SQL注入攻击检测方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于机器学习模型的SQL注入攻击检测方法。

背景技术

智能手机、平板电脑等移动设备接入互联网，使得网络数据无处不在。随着人们对Web应用程序的依赖，网络数据库中存储的敏感个人身份信息的数量也在快速增加。网络数据库是黑客的高利润目标，因此保护它们是首要考虑的问题。但是，大多数Web应用程序的开发都没有充分考虑安全性。许多网站都是用现成的开源包和第三方插件构建的，而没有验证代码的安全性。因此，Web应用程序常常存在有多个攻击者可以利用的漏洞。

SQL注入攻击是对Web应用程序最严重的威胁之一，在2013年度开放Web应用程序安全项目十大应用程序安全风险中排名第一。SQL注入攻击是一种简单且易于理解的技术，即为向Web应用程序提交的HTTP请求中插入SQL语句。黑客可以利用该方式提取、修改或删除后端数据库中的内容。SQL注入的方式有很多，例如重言式攻击。

为了防止SQL注入攻击，目前主要采用的方案包括防入侵系统和防火墙。它们大多为依赖已知攻击创建的基于正则表达式的过滤器，并且需要大量的专业知识，检测难度较大。但是，由于SQL语言的异构性，使得创建基于正则表达式或规则的过滤器非常困难，大量的规则会成为制约过滤器性能的瓶颈，而且也无法识别新的攻击形式，需要经常根据新出现的攻击进行维护，导致检测效率及精确度低下。

发明内容

为解决现有技术的不足，本发明实施例提供了一种基于机器学习模型的SQL注入攻击检测方法，该方法包括以下步骤：

S1，接收用户发送的HTTP请求并提取所述HTTP请求的请求路径与请求体；

S2，对所述请求路径与所述请求体进行解码，将所述请求路径与所述请求体组合为负载；

S3，对所述负载进行文本解析，得到所述负载对应的文本集；

S4，检测所述文本集是否存在SQL语句，若存在，则根据所述SQL语句的注入点，删除所述文本集中与SQL语句无关的文本；

S5，提取所述文本集的关键字及字符，生成第一词表；

S6，使用词频模型，统计各个关键字的词频并删除所述第一词表中词频小于设定阈值的关键字并结合所述第一词表中的保留字和函数，生成第二词表；

S7，对所述第二词表进行特征提取并统计各个词向量在所述第二词表中的出现次数，将各个词向量会转化为长度与第二词表长度相同的向量，得到多个特征向量；

S8，依次将各个特征向量输入训练过的机器学习模型进行预测，得到该各个特征向量的分类标识，根据所述分类标识，判断各个特征向量为SQL注入流量还是正常流量。

优选地，所述机器学习模型的训练过程包括：

收集多条包含多种正常模式的SQL语句及多种注入攻击模式的SQL语句的HTTP请求；

通过人工对所述HTTP请求进行分类并标识，生成训练数据；

重复上述步骤S1-S7，分别得到所述HTTP请求对应的多个特征向量；

将所述多个特征向量分别输入不同分类算法的机器学习模型，分别得到所述HTTP请求对应的多个特征向量对应的分类标识；

将所述分类标识分别与对应训练数据的标识进行比较，计算各个机器学习模型检测的准确率并选择准确率最高的机器学习模型作为检测模型。

本发明实施例提供的基于机器学习模型的SQL注入攻击检测方法具有以下有益效果：

通过采用训练过的机器学习模型，支持检测多种类型SQL注入的检测，能够简单、有效地检测HTTP请求中各个类型的SQL注入攻击，降低了检测SQL注入攻击的难度，提高了检测SQL注入攻击的效率及精确度。

具体实施方式

以下结合具体实施例对本发明作具体的介绍。

本发明实施例提供的基于机器学习模型的SQL注入攻击检测方法包括以下步骤：

S101、接收用户发送的HTTP请求并提取HTTP请求的请求路径与请求体。

S102、对请求路径与所述请求体进行解码，将请求路径与请求体组合为负载。

其中，首先对请求路径和请求体进行URL解码，因为SQL注入可以通过使用URL编码绕过对规则的检查来实现注入，然后使用符号‘$’将请求路径和请求体链接在一起，构成负载。使用符号‘$’链接的目的对HTTP请求的结尾进行标记，一边在分词函数方便处理。选用$符号的原因是因为在正则表达式中表示字符串结尾的意思，并且该符号对SQL注入没有意义。将请求路径和请求体组合在一起是为接下来的统一处理。

HTTP请求的格式为：

protocol://hostname[:port]/path/[；parameters][？key1＝value&key2＝value]。表单在请求体中的格式为key1＝value&key2＝value。SQL注入的目的是要将执行指令送到服务器的数据库中执行，所以HTTP请求的path和key对于SQL注入检测没有意义且由于path和key的存在还可能还会在分词阶段提取出SQL的关键字，因此可能会对机器学模型的判定结果产生影响，所以需要去除path和key。数据预处理的目的是尽可能的从请求路径和请求体中提取数据，同时对提取的数据，删除那些没有注入特征的数值并去除负载中其他对SQL检测没有意义的内容。具体措施如下：

首先将HTTP请求中“？”前的path替换为空，如果没有则直接进行第二步。由于HTTP请求的键对于SQL检测大部分情况下，没有意义，因此第二步对负载中的符号‘&’和‘＝’之间的key替换为符号‘$’。另外，符号‘$’用于标记为数据的结束，该做法同时能够防止替换为空会将两个数据组合出现新的特征引起的误判。

除了尽可能对value进行提取去除无关文本外，还承担对SQL语句规范化的作用。SQL注入中用户定义的字符串和数字对检测SQL注入没有意义，但是逻辑表达式是显著的特征，用来绕过查询中的条件限制。它由字符串或数字与逻辑表运算符组合而成。例如‘1’＝‘1’。它本身并不包含任何SQL的关键字、函数、保留字，因此分词函数提取不到任何特征，因此对一部分进行提取非常必要。为了解决问题，需要对SQL语句进行规范化。具体措施为：用正则表达式对SQL语句中的表达式进行匹配，并将其替换为方程式，以便在分词函数中提取有效的信息。正则表达式为[\d\w]+['")]*[＝<>！]+[('"]*[\w\d]+，可以匹配出如231>231、‘1’＝‘1’、1＝1等。

实际应用中存在各个类型的HTTP请求，例如json格式的HTTP请求和xml格式的HTTP请求，可以根据HTTP请求的格式来提取value。对于json格式的HTTP请求，key由单或引号(“”)包围后边跟一个冒号(:)，冒号前边为key后边为value，本方法对key替换为$来间隔value。对于xml数据，key由一对尖括号(<>)包围，本方法对尖括号内的内容进行替换为$来间隔value。除此之外并非所有的流量都会使用&作为键值对的分隔符。在实际流量中发现有使用@或*_*来间隔，本方法对这种情况也采取相同的策略。为了方法简洁性也可以不对key进行删除，key一般为自定义的变量名，很少会和SQL的关键字重合，删除的目的是为了进一步提高模型准确率。

S103、对负载进行文本解析，得到负载对应的文本集。

S104、检测文本集是否存在SQL语句，若存在，则根据SQL语句的注入点，删除文本集中与SQL语句无关的文本。

S105、提取文本集的关键字及字符，生成第一词表。

其中，分词过程是将文本转化为词向量。分词的过程分为两个方面。一个方面是对负载中词进行提取，目的是提取SQL语句的关键字，诸如select、and和equation等。使用正则表达式\b[a-z]+\b中可以对负载中被非字母数字符号间隔的字母组合进行提取，这种表达式不会对字母数字的组合或者数字进行提取，因为它们不包含SQL注入攻击的有效信息。另一方面是对注入符号的提取，注入符号是SQL注入攻击中显著且重要的特征。SQL中常见的注入符号包含/*、*/、--、#等。其中，--和#可能会在正常流量的数值中出现，为了减小误报且因为这种字符最长出现的位置是在数值的尾部，目的是注释原有的后续SQL语句，因此直提取出现在数值尾部的--和#，具体做法如下，由于在上阶段已对数值尾部使用‘$’标记，因此可以使用正则表达式来匹配出现在数值尾部的特殊符号。

另外，注入符号为用来构造SQL注入一些特殊符号，例如‘，/*,#,--等，它们一般不会出现在正常请求路径中，但是攻击语句中一定会含有一个或多个注入符号，注入符号帮助攻击者在符合SQL语法的情况下构造一些攻击语句。普通符号可以理解为区别与注入符号，对构造攻击语句无关的符号。

S106、使用词频模型，统计各个关键字的词频并删除第一词表中词频小于设定阈值的关键字并结合第一词表中的保留字和函数，生成第二词表。

其中，如果直接将分词结束后的向量作为机器学习的输入，会出现维度太高的问题，因为分词结束后向量中很多词为用户自定义的字符串，只会出现在一条或几条流量中，对区分正常流量和恶意流量没有意义。词表由两部分组成，第一部分是数据集中出现次数大于设定阈值的词作为词表，次数多的词含有区分流量的明显特征。该部分的做法是使用预处理和分词之后的词向量，在数据集中进行词频统计，根据数据集的大小和组成的差异来可以选择相应的阈值来对词进行保留。也可以使用信息增益的方法来进行选择，计算每个词的信息熵，信息熵反映了词的重要程度，选择信息熵大的词；第二部分是为了防止数据集中某种特定类型的攻击数量不足，将可以用在SQL注入攻击的保留字及函数进行收集，将他们加入到词表中，提高模型的泛化性，可以有效降低向量的维度，达到精简模型提高准确率的目的。为了引用的一致性，删除词表中重复出现的项，并为每一个词赋予一个唯一的索引。

另外，函数包括SQL语句中已经预定义好来实现某种功能的函数，如count()、max()等。

S107、对第二词表进行特征提取并统计各个词向量在第二词表中的出现次数，将各个词向量会转化为长度与第二词表长度相同的向量，得到多个特征向量。

其中，特征提取的目的是将词向量转化为可以被机器学习模型接受的输入。对词表分词后的词向量，保留词表中的词向量并统计每个词向量的出现次数，这样每个词向量会转化为与词表长度相同的向量，因为一条流量中出现的词向量只是词表的一小部分，因此该词向量是稀疏的。

S108、依次将各个特征向量输入训练过的机器学习模型进行预测，得到该各个特征向量的分类标识，根据该分类标识，判断各个特征向量为SQL注入流量还是正常流量。

作为一个具体的实施例，HTTP请求的内容为

http://www.XXX.com/index/login.php？name＝zc&pwd＝123‘or1＝1--,该HTTP请求的请求体为times＝1&h＝(select concat(0x7176706271,(select(elt(5104＝5104,1)))))

对该HTTP请求进行预处理，得到

zc$123’or equation--$1$(select concat(0x7176706271,(select(elt(equation,1)))))$；

对该HTTP请求分词，得到

[zc,or,equation,--,select,concat,select,elt,euqation]；

根据构建的词表进一步提取有意义的特征，得到

[or，equation，--，select，concat，select，elt，euqation]。

优选地，该机器学习模型的训练过程包括：

通过人工对HTTP请求进行分类并标识，生成训练数据；

重复上述步骤S101-S107，分别得到该HTTP请求对应的多个特征向量；

将多个特征向量分别输入不同分类算法的机器学习模型，分别得到HTTP请求对应的多个特征向量对应的分类标识；

将分类标识分别与对应训练数据的标识进行比较，计算各个机器学习模型检测的准确率并选择准确率最高的机器学习模型作为检测模型。

其中，分类算法包括随机深林算法、逻辑回归算法、K近邻算法、支持向量机算法。将词向量输入进这些模型进行训练，可以根据训练的准确率选择合适数据集的模型。针对本发明，采用逻辑回归算法的准确率最高。

本发明实施例提供的基于机器学习模型的SQL注入攻击检测方法，通过采用训练过的机器学习模型，支持检测多种类型SQL注入的检测，能够简单、有效地检测HTTP请求中各个类型的SQL注入攻击，降低了检测SQL注入攻击的难度，提高了检测SQL注入攻击的效率及精确度。

某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于机器学习模型的SQL注入攻击检测方法，其特征在于，包括：

S5，提取所述文本集的关键字及字符，生成第一词表；

S6，使用词频模型，统计各个关键字的词频并删除所述第一词表中词频小于设定阈值的关键字并结合所述第一词表中的保留字和函数，生成第二词表，其中：

所述保留字是第一词表中词频不小于设定阈值的关键字；

S7，对所述第二词表进行特征提取并统计各个词向量在所述第二词表中的出现次数，将各个词向量转化为长度与第二词表长度相同的向量，得到多个特征向量；

2.根据权利要求1所述的基于机器学习模型的SQL注入攻击检测方法，其特征在于，所述机器学习模型的训练过程包括：

通过人工对所述HTTP请求进行分类并标识，生成训练数据；

3.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-2任意一项所述的步骤。