CN108712453A - 基于逻辑回归算法的注入攻击检测方法、装置和服务器 - Google Patents
基于逻辑回归算法的注入攻击检测方法、装置和服务器 Download PDFInfo
- Publication number
- CN108712453A CN108712453A CN201811008753.1A CN201811008753A CN108712453A CN 108712453 A CN108712453 A CN 108712453A CN 201811008753 A CN201811008753 A CN 201811008753A CN 108712453 A CN108712453 A CN 108712453A
- Authority
- CN
- China
- Prior art keywords
- idf
- values
- characteristic value
- access log
- injection attacks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1466—Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供了一种基于逻辑回归算法的注入攻击检测方法、装置和服务器,其中,该方法应用于服务器,该方法包括:采集客户端当前访问行为的访问日志;从访问日志中提取统一资源定位符URL;从URL中提取URL的参数值;通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;对特征值进行TF‑IDF计算,得到特征值对应的TF‑IDF值;将TF‑IDF值输入至预设的注入攻击识别模型中,输出识别结果;注入攻击识别模型通过逻辑回归算法模型训练得到。本发明通过基于TF‑IDF逻辑回归算法的方式建立注入攻击识别模型,根据注入攻击识别模型来识别注入攻击行为,提高了注入攻击行为的识别率,有效保障了网络的安全运行。
Description
技术领域
本发明涉及网络安全技术领域,尤其是涉及一种基于逻辑回归算法的注入攻击检测方法、装置和服务器。
背景技术
随着互联网技术的发展,网页应用系统已经广泛应用于人们生产生活的各个行业中,给人们的生产生活带来方便,但同时,也带来网络安全隐患。黑客通过采用注入攻击的手段来对数据库发起攻击,带来用户身份信息泄露、带宽资源占用、用户所需服务被拒绝等网络安全问题,传统的网络安全检测主要通过规则匹配和维护特征库来实现,但是对于变异的注入攻击无法检测出来,识别率低,需不断更新匹配规则与特征库,工作效率较低。
发明内容
有鉴于此,本发明的目的在于提供一种基于逻辑回归算法的注入攻击检测方法、装置和服务器,以提高注入攻击行为的识别率,有效保障网络的安全运行。
第一方面,本发明实施例提供了一种基于逻辑回归算法的注入攻击检测方法,其中,该方法应用于服务器,该方法包括:采集客户端当前访问行为的访问日志;从访问日志中提取统一资源定位符URL;从URL中提取URL的参数值;通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;将TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;注入攻击识别模型通过逻辑回归算法模型训练得到。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值的步骤,包括:通过下述公式计算特征值的TF值;通过下述公式计算特征值的IDF值;通过下述公式计算特征值的TF-IDF值;TF-IDF=TF*IDF。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,注入攻击识别模型,具体通过下述方式得到:采集客户端访问日志样本;访问日志样本包括注入攻击日志样本和正常访问日志样本;从访问日志样本中提取统一资源定位符URL;从URL中提取URL的参数值;根据参数值预先设置判定值;通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;搭建初始的逻辑回归算法模型;将访问日志样本划分成指定份数,轮流将至少一份访问日志样本的参数值对应的判定值及参数值对应的所有TF-IDF值输入至初始的逻辑回归算法模型中进行训练,得到注入攻击识别模型。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,搭建的初始逻辑回归算法模型包括:通过下述公式计算Z的值;其中,σ(z)为访问日志样本的参数值对应的判定值,Z为参数值的样本值;根据Z值与参数值对应的TF-IDF值X,X的取值范围为(X0,Xn),通过下述公式进行计算,得到W值,W值的取值范围为(W0,Wn),n是大于0的自然数,W值为逻辑回归算法模型的最优解;z=w0x0+w1x1+w2x2+...+wnxn。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,该方法还包括:对注入攻击模型进行调整;对注入攻击模型进行调整的步骤,包括:将剩余至少一份访问日志样本的特征值对应的TF-IDF值输入至注入攻击识别模型中,输出识别结果;对比识别结果与识别结果对应的访问日志样本的实际结果,得到注入攻击识别模型的准确率和召回率;准确率为识别结果和实际结果均为真的访问日志样本数量与识别结果为真的访问日志样本数量的比值;召回率为识别结果和实际结果均为真的访问日志样本数量与实际结果为真的访问日志样本数量的比值;根据准确率和召回率调整注入攻击识别模型。
结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,将剩余至少一份访问日志样本的特征值对应的TF-IDF值输入至注入攻击识别模型中,输出识别结果的具体步骤,包括:根据W值,将特征值对应的TF-IDF值X通过下述公式进行计算,得到Z值;z=w0x0+w1x1+w2x2+...+wnxn;将Z值通过下述公式进行计算,得到σ(z)值;根据σ(z)值,输出识别结果。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,该方法还包括:输出识别结果后,如果识别结果表明当前访问行为为注入攻击行为,识别当前访问行为对应的IP地址;对IP地址采取预设措施进行处理;预设措施包括在网络层拦截IP地址、对IP地址进行封锁和将IP地址所攻击的域名发送至域名对应的客户端。
第二方面,本发明实施例还提供了一种基于逻辑回归算法的注入攻击检测装置,其中,该装置设置于服务器,该装置包括:采集模块,用于采集客户端当前访问行为的访问日志;第一提取模块,用于从访问日志中提取统一资源定位符URL;第二提取模块,用于从URL中提取URL的参数值;分词模块,用于通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;计算模块,用于对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;识别模块,用于将特征值及特征值对应的TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;注入攻击识别模型通过逻辑回归算法模型训练得到。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,计算模块包括:通过下述公式计算特征值的TF值;通过下述公式计算特征值的IDF值;通过下述公式计算特征值的TF-IDF值;TF-IDF=TF*IDF。
第三方面,本发明实施例还提供了一种服务器,其中,包括处理器和机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述第一方面所述的方法。
本发明实施例带来了以下有益效果:
本发明提供了一种基于逻辑回归算法的注入攻击检测方法、装置和服务器,采集客户端当前访问行为的访问日志;从访问日志中提取统一资源定位符URL;从URL中提取URL的参数值;通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;将TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;注入攻击识别模型通过逻辑回归算法模型训练得到。本发明通过基于TF-IDF逻辑回归算法的方式建立注入攻击识别模型,根据注入攻击识别模型来识别注入攻击行为,提高了注入攻击行为的识别率,有效保障了网络的安全运行。
本发明的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本发明的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施方式,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于逻辑回归算法的注入攻击检测方法的流程图;
图2为本发明实施例提供的一种建立注入攻击识别模型的方法的流程图;
图3为本发明实施例提供的一种验证调整注入攻击识别模型的方法的流程图;
图4为本发明实施例提供的一种基于逻辑回归算法的注入攻击检测装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前xss,sql注入攻击都是现在常见的两类网页注入攻击类型。传统的规则匹配和维护特征库的检测方法都只能识别并阻止已知特征的xss(Cross Site Scripting,跨站脚本攻击),sql(Structured Query Language,结构化查询语言)注入攻击,不支持自学习,对新特征的攻击无法做到准确的检测,对于变异的攻击大多行为无能为力,且规则匹配需要不断投入优化规则,而特征库同样需要维护且效率相对比较低,基于此,本发明实施例提供的一种基于逻辑回归算法的注入攻击检测方法、装置和服务器,可以应用于检测识别注入攻击行为的场景中。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于逻辑回归算法的注入攻击检测方法进行详细介绍。
参见图1所示的一种基于逻辑回归算法的注入攻击检测方法的流程图,其中,该方法应用于服务器,该方法具体步骤如下:
步骤S102,采集客户端当前访问行为的访问日志;
网站日志在信息安全中是不可或缺的一环,在系统异常、用户行为分析等有着非常重要的作用,网站日志是记录网页服务器接收处理请求以及运行时错误等各种原始信息的以“.log”结尾的文件,通过网站日志可以清楚的得知用户在什么IP地址、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了哪个网站的哪个页面,以及是否访问成功。
本发明实施例通过采集访问日志来获取当前访问行为对应的客户端的数据信息,以便于对数据信息进行处理识别,判断该访问行为是否为注入攻击行为。
步骤S104,从访问日志中提取统一资源定位符URL;
统一资源定位符(Uniform Resource Locator,URL)是对可以从网络上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
步骤S106,从URL中提取URL的参数值;
步骤S108,通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;
上述词袋模型是指忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。即忽略参数值的语法语序等要素,提取参数值中的各个特征值。
步骤S110,对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF(Term Frequency)意思是词频,IDF(Inverse DocumentFrequency)意思是逆文本频率指数,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,可以评估某个词或短语对于一篇文章或一个语料库中的其中一篇文章的重要程度,过滤掉常出现但却对结果没有作用的词,某词的TF-IDF值越大,则该词越重要。
上述对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值的步骤,包括:通过下述公式计算特征值的TF值;
通过下述公式计算特征值的IDF值;
通过下述公式计算特征值的TF-IDF值;
TF-IDF=TF*IDF。
步骤S112,将TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;注入攻击识别模型通过逻辑回归算法模型训练得到。
上述输出识别结果后,如果识别结果表明当前访问行为为注入攻击行为,识别当前访问行为对应的IP(Internet Protocol,网络之间互连的协议)地址;对IP地址采取预设措施进行处理;预设措施包括在网络层拦截IP地址、对IP地址进行封锁和将IP地址所攻击的域名发送至域名对应的客户端。
本发明实施例提供了一种基于逻辑回归算法的注入攻击检测方法,该方法通过采集客户端当前访问行为的访问日志;从访问日志中提取统一资源定位符URL;从URL中提取URL的参数值;通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;将TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;注入攻击识别模型通过逻辑回归算法模型训练得到。本发明通过基于TF-IDF逻辑回归算法的方式建立注入攻击识别模型,根据注入攻击识别模型来识别注入攻击行为,提高了注入攻击行为的识别率,有效保障了网络的安全运行。
参见图2所示的一种建立注入攻击识别模型的方法的流程图,该方法在图1所示的方法实施例的基础上实现,本实施例中,重点描述建立注入攻击识别模型的具体实现方式,步骤如下:
步骤S202,采集客户端访问日志样本;访问日志样本包括注入攻击日志样本和正常访问日志样本;
步骤S204,从访问日志样本中提取统一资源定位符URL;
步骤S206,从URL中提取URL的参数值;根据参数值预先设置判定值;
建立注入攻击识别模型需要用大量的数据来进行训练,这些数据主要来自网页应用程序的访问日志。分别采集注入攻击访问日志与正常访问日志作为访问日志样本来进行训练,鉴于注入攻击行为的特征都集中于参数值,故提取URL的参数值作为正负样本。
本发明实施例以注入攻击访问日志的参数值作为正样本,正常访问日志的参数值作为负样本为例进行说明,分别为正负样本的参数值设定判定值,以正样本的判定值为1,负样本的判定值为0为例进行说明。
步骤S208,通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;
步骤S210,对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;
步骤S212,搭建初始的逻辑回归算法模型;
逻辑回归(Logistic Regression,简称LR)又称逻辑回归分析,是比较常用的机器学习方法,用于估计某种事物的可能性。逻辑回归是一种分类和预测学习模型,具有良好的性能,且逻辑回归模型的时间复杂度和空间复杂度都低于其他的机器学习模型;更重要的是逻辑回归模型可以以自动学习的方式不断地调整模型的参数,使得模型更能使预测的结果更加准确。本发明实施例采用逻辑回归算法模型,来建立注入攻击识别模型,可以很好地检测xss,sql注入攻击等恶意文本攻击行为,降低对正常请求的误判率。
步骤S214,将访问日志样本划分成指定份数,轮流将至少一份访问日志样本的参数值对应的判定值及参数值对应的所有TF-IDF值输入至初始的逻辑回归算法模型中进行训练,得到注入攻击识别模型。
上述搭建的初始逻辑回归算法模型包括:通过下述公式计算Z的值;
其中,σ(z)为访问日志样本的参数值对应的判定值,Z为参数值的样本值;
以步骤S206中所述的正样本为例,正样本的判定值σ(z)为1,将其带入上述公式,可求得该正样本的样本值Z。
根据Z值与参数值对应的TF-IDF值X,X的取值范围为(X0,Xn),通过下述公式进行计算,得到W值,W的取值范围为(W0,Wn),n是大于0的自然数,W值为逻辑回归算法模型的最优解;
z=w0x0 +w1x1+w2x2+...+wnxn。
本发明实施例通过采集客户端注入攻击日志跟正常访问日志作为正负样本,利用词袋模型与TF-IDF算法来得到样本的TF-IDF值,通过预先设置的样本的判定值,对搭建的逻辑回归算法模型进行重复多次的训练,找到逻辑回归算法模型的最优解,从而建立注入攻击识别模型,利用词袋模型与TF-IDF算法来进行特征提取与TF-IDF值的计算,具有简单易行、工作效率高的特点,利用逻辑回归算法模型来建立注入攻击识别模型,可以提高注入攻击行为的识别率,降低对正常请求的误判率,且该具有很好的自主学习能力,可以通过大量训练数据进行训练学习,不断提高识别的准确率。
本发明实施例还提供了一种验证调整注入攻击识别模型的方法,该方法在上述实施例所述方法的基础上实现;本实施例中,重点描述验证调整注入攻击识别模型的具体实现方式。
如图3所示,上述验证调整注入攻击识别模型的具体步骤如下,
步骤S302,将剩余至少一份访问日志样本的特征值对应的TF-IDF值输入至注入攻击识别模型中;
步骤S304,根据W值,将特征值对应的TF-IDF值X通过下述公式进行计算,得到Z值;
z=w0x0+w1x1+w2x2+...+wnxn;
上述W为上述建立注入攻击识别模型中步骤S206计算得到的最优解W。
步骤S306,将Z值通过下述公式进行计算,得到σ(z)值;
步骤S308,根据σ(z)值,输出识别结果;
以上述方法实施例中步骤S206中判定值为例进行说明,根据W值与TF-IDF值计算得到Z值,将Z值带入上述公式,求出σ(z)值,若σ(z)值为1,则判定当前访问行为为注入攻击行为,否则,认为当前访问行为为正常访问行为。
步骤S310,对比识别结果与识别结果对应的访问日志样本的实际结果,得到注入攻击识别模型的准确率和召回率;
准确率为识别结果和实际结果均为真的访问日志样本数量与识别结果为真的访问日志样本数量的比值;召回率为识别结果和实际结果均为真的访问日志样本数量与实际结果为真的访问日志样本数量的比值;
步骤S312,根据准确率和召回率调整注入攻击识别模型。
本发明实施例通过将除训练以外的日志样本输入至已经建立好的注入攻击识别模型中,根据识别结果与识别结果对应的实际结果的对比,求得该注入攻击识别模型的准确率与召回率,并根据准确率与召回率调整逻辑回归算法模型,从而调整注入攻击识别模型,在不断地训练验证过程中,不断的调整该模型,使得注入攻击识别模型的准确率不断提高,对正常请求的误判不断降低,更好的维护网络安全。
对应于上述方法实施例,本发明实施例还提供了一种基于逻辑回归算法的注入攻击检测装置,如图4所示,其中,该装置设置于服务器,该装置包括:
采集模块40,用于采集客户端当前访问行为的访问日志;
第一提取模块41,用于从访问日志中提取统一资源定位符URL;
第二提取模块42,用于从URL中提取URL的参数值;
分词模块43,用于通过预设的词袋模型对参数值进行分词处理,得到参数值对应的特征值;
计算模块44,用于对特征值进行TF-IDF计算,得到特征值对应的TF-IDF值;
识别模块45,用于将TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;注入攻击识别模型通过逻辑回归算法模型训练得到。
上述计算模块44还用于:通过下述公式计算特征值的TF值;
通过下述公式计算特征值的IDF值;
通过下述公式计算特征值的TF-IDF值;
TF-IDF=TF*IDF。
本发明实施例提供的基于逻辑回归算法的注入攻击检测装置,与上述实施例提供的基于逻辑回归算法的注入攻击检测方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
对应于上述发明实施例,本发明实施例还提供了一种服务器,其中,包括处理器和机器可读存储介质,机器可读存储介质存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述基于逻辑回归算法的注入攻击检测方法。
具体的,处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述实施例的方法的步骤。
具体的,机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述基于逻辑回归算法的注入攻击检测方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的基于逻辑回归算法的注入攻击检测方法、装置和服务器以及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于逻辑回归算法的注入攻击检测方法,其特征在于,所述方法应用于服务器,所述方法包括:
采集客户端当前访问行为的访问日志;
从所述访问日志中提取统一资源定位符URL;
从所述URL中提取所述URL的参数值;
通过预设的词袋模型对所述参数值进行分词处理,得到所述参数值对应的特征值;
对所述特征值进行TF-IDF计算,得到所述特征值对应的TF-IDF值;
将所述TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;所述注入攻击识别模型通过逻辑回归算法模型训练得到。
2.根据权利要求1所述的方法,其特征在于,所述对所述特征值进行TF-IDF计算,得到所述特征值对应的TF-IDF值的步骤,包括:
通过下述公式计算所述特征值的TF值;
通过下述公式计算所述特征值的IDF值;
通过下述公式计算所述特征值的TF-IDF值;
TF-IDF=TF*IDF。
3.根据权利要求1所述的方法,其特征在于,所述注入攻击识别模型,具体通过下述方式得到:
采集客户端访问日志样本;所述访问日志样本包括注入攻击日志样本和正常访问日志样本;
从所述访问日志样本中提取统一资源定位符URL;
从所述URL中提取所述URL的参数值;根据所述参数值预先设置判定值;
通过预设的词袋模型对所述参数值进行分词处理,得到所述参数值对应的特征值;
对所述特征值进行TF-IDF计算,得到所述特征值对应的TF-IDF值;
搭建初始的逻辑回归算法模型;
将所述访问日志样本划分成指定份数,轮流将至少一份所述访问日志样本的参数值对应的判定值及所述参数值对应的所有TF-IDF值输入至所述初始的逻辑回归算法模型中进行训练,得到注入攻击识别模型。
4.根据权利要求3所述的方法,其特征在于,所述搭建的初始逻辑回归算法模型包括:
通过下述公式计算Z的值;
其中,σ(z)为所述访问日志样本的参数值对应的判定值,Z为所述参数值的样本值;
根据所述Z值与所述参数值对应的TF-IDF值X,所述X的取值范围为(X0,Xn),通过下述公式进行计算,得到W值,所述W值的取值范围为(W0,Wn),n是大于0的自然数,所述W值为所述逻辑回归算法模型的最优解;
z=w0x0+w1x1+w2x2+...+wnxn。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:对所述注入攻击模型进行调整;
所述对所述注入攻击模型进行调整的步骤,包括:
将剩余至少一份所述访问日志样本的特征值对应的TF-IDF值输入至所述注入攻击识别模型中,输出识别结果;
对比所述识别结果与所述识别结果对应的访问日志样本的实际结果,得到所述注入攻击识别模型的准确率和召回率;所述准确率为所述识别结果和实际结果均为真的访问日志样本数量与所述识别结果为真的访问日志样本数量的比值;所述召回率为所述识别结果和实际结果均为真的访问日志样本数量与所述实际结果为真的访问日志样本数量的比值;
根据所述准确率和所述召回率调整所述注入攻击识别模型。
6.根据权利要求5所述的方法,其特征在于,所述将剩余至少一份所述访问日志样本的特征值对应的TF-IDF值输入至所述注入攻击识别模型中,输出识别结果的具体步骤,包括:
根据所述W值,将所述特征值对应的TF-IDF值X通过下述公式进行计算,得到Z值;
z=w0x0+w1x1+w2x2+...+wnxn;
将所述Z值通过下述公式进行计算,得到所述σ(z)值;
根据所述σ(z)值,输出识别结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述输出识别结果后,如果所述识别结果表明当前访问行为为注入攻击行为,识别所述当前访问行为对应的IP地址;对所述IP地址采取预设措施进行处理;所述预设措施包括在网络层拦截所述IP地址、对所述IP地址进行封锁和将所述IP地址所攻击的域名发送至所述域名对应的客户端。
8.一种基于逻辑回归算法的注入攻击检测装置,其特征在于,所述装置设置于服务器,所述装置包括:
采集模块,用于采集客户端当前访问行为的访问日志;
第一提取模块,用于从所述访问日志中提取统一资源定位符URL;
第二提取模块,用于从所述URL中提取所述URL的参数值;
分词模块,用于通过预设的词袋模型对所述参数值进行分词处理,得到所述参数值对应的特征值;
计算模块,用于对所述特征值进行TF-IDF计算,得到所述特征值对应的TF-IDF值;
识别模块,用于将所述TF-IDF值输入至预设的注入攻击识别模型中,输出识别结果;所述注入攻击识别模型通过逻辑回归算法模型训练得到。
9.根据权利要求8所述的装置,其特征在于,所述计算模块还用于:
通过下述公式计算所述特征值的TF值;
通过下述公式计算所述特征值的IDF值;
通过下述公式计算所述特征值的TF-IDF值;
TF-IDF=TF*IDF。
10.一种服务器,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811008753.1A CN108712453A (zh) | 2018-08-30 | 2018-08-30 | 基于逻辑回归算法的注入攻击检测方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811008753.1A CN108712453A (zh) | 2018-08-30 | 2018-08-30 | 基于逻辑回归算法的注入攻击检测方法、装置和服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108712453A true CN108712453A (zh) | 2018-10-26 |
Family
ID=63873768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811008753.1A Pending CN108712453A (zh) | 2018-08-30 | 2018-08-30 | 基于逻辑回归算法的注入攻击检测方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108712453A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109818954A (zh) * | 2019-01-22 | 2019-05-28 | 深信服科技股份有限公司 | Web注入型攻击检测方法、装置、电子设备及存储介质 |
CN111131174A (zh) * | 2019-12-03 | 2020-05-08 | 厦门一通灵信息科技有限公司 | 一种基于大数据分析的防恶意攻击系统 |
CN111371776A (zh) * | 2020-02-28 | 2020-07-03 | 北京邮电大学 | Http请求数据的异常检测方法、装置、服务器及存储介质 |
CN111783443A (zh) * | 2020-06-29 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 文本扰动检测方法、扰动还原方法、扰动处理方法和装置 |
CN111783132A (zh) * | 2020-05-27 | 2020-10-16 | 平安科技(深圳)有限公司 | 基于机器学习的sql语句安全检测方法、装置、设备及介质 |
CN111818018A (zh) * | 2020-06-18 | 2020-10-23 | 北京邮电大学 | 一种基于机器学习模型的sql注入攻击检测方法 |
CN112104674A (zh) * | 2020-11-17 | 2020-12-18 | 鹏城实验室 | 攻击检测召回率自动测试方法、装置和存储介质 |
CN112565187A (zh) * | 2020-11-03 | 2021-03-26 | 特变电工新疆新能源股份有限公司 | 基于逻辑回归的电网攻击检测方法、系统、设备及介质 |
CN112966507A (zh) * | 2021-03-29 | 2021-06-15 | 北京金山云网络技术有限公司 | 构建识别模型及攻击识别方法、装置、设备及存储介质 |
CN114124446A (zh) * | 2021-10-12 | 2022-03-01 | 广西电网有限责任公司桂林供电局 | 基于Snort引擎采用逻辑回归算法的防入侵检测系统 |
CN116074036A (zh) * | 2022-11-21 | 2023-05-05 | 兴业银行股份有限公司 | 基于安全设备日志特征的攻击行为检测与识别方法和系统 |
CN118445801A (zh) * | 2024-07-08 | 2024-08-06 | 江西科技学院 | 一种移动终端软件测试方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239582A (zh) * | 2014-10-14 | 2014-12-24 | 北京奇虎科技有限公司 | 基于特征向量模型识别钓鱼网页的方法及装置 |
WO2017066800A1 (en) * | 2015-10-15 | 2017-04-20 | University Of Louisville Research Foundation, Inc | Methods of characterizing and/or predicting risk associated with a biological sample using thermal stability profiles |
CN107392016A (zh) * | 2017-07-07 | 2017-11-24 | 四川大学 | 一种基于代理的Web数据库攻击行为检测系统 |
CN107404473A (zh) * | 2017-06-06 | 2017-11-28 | 西安电子科技大学 | 基于Mshield机器学习多模式Web应用防护方法 |
CN108259494A (zh) * | 2018-01-17 | 2018-07-06 | 北京邮电大学 | 一种网络攻击检测方法及装置 |
-
2018
- 2018-08-30 CN CN201811008753.1A patent/CN108712453A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239582A (zh) * | 2014-10-14 | 2014-12-24 | 北京奇虎科技有限公司 | 基于特征向量模型识别钓鱼网页的方法及装置 |
WO2017066800A1 (en) * | 2015-10-15 | 2017-04-20 | University Of Louisville Research Foundation, Inc | Methods of characterizing and/or predicting risk associated with a biological sample using thermal stability profiles |
CN107404473A (zh) * | 2017-06-06 | 2017-11-28 | 西安电子科技大学 | 基于Mshield机器学习多模式Web应用防护方法 |
CN107392016A (zh) * | 2017-07-07 | 2017-11-24 | 四川大学 | 一种基于代理的Web数据库攻击行为检测系统 |
CN108259494A (zh) * | 2018-01-17 | 2018-07-06 | 北京邮电大学 | 一种网络攻击检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
郭晓明 等: "基于TF-IDF逻辑回归算法的Web攻击行为检测方法研究", 《科技广场》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109818954A (zh) * | 2019-01-22 | 2019-05-28 | 深信服科技股份有限公司 | Web注入型攻击检测方法、装置、电子设备及存储介质 |
CN109818954B (zh) * | 2019-01-22 | 2021-08-13 | 深信服科技股份有限公司 | Web注入型攻击检测方法、装置、电子设备及存储介质 |
CN111131174A (zh) * | 2019-12-03 | 2020-05-08 | 厦门一通灵信息科技有限公司 | 一种基于大数据分析的防恶意攻击系统 |
CN111371776A (zh) * | 2020-02-28 | 2020-07-03 | 北京邮电大学 | Http请求数据的异常检测方法、装置、服务器及存储介质 |
CN111783132A (zh) * | 2020-05-27 | 2020-10-16 | 平安科技(深圳)有限公司 | 基于机器学习的sql语句安全检测方法、装置、设备及介质 |
CN111818018A (zh) * | 2020-06-18 | 2020-10-23 | 北京邮电大学 | 一种基于机器学习模型的sql注入攻击检测方法 |
CN111818018B (zh) * | 2020-06-18 | 2021-09-21 | 北京邮电大学 | 一种基于机器学习模型的sql注入攻击检测方法 |
CN111783443A (zh) * | 2020-06-29 | 2020-10-16 | 百度在线网络技术(北京)有限公司 | 文本扰动检测方法、扰动还原方法、扰动处理方法和装置 |
CN111783443B (zh) * | 2020-06-29 | 2023-08-15 | 百度在线网络技术(北京)有限公司 | 文本扰动检测方法、扰动还原方法、扰动处理方法和装置 |
CN112565187B (zh) * | 2020-11-03 | 2023-05-09 | 特变电工新疆新能源股份有限公司 | 基于逻辑回归的电网攻击检测方法、系统、设备及介质 |
CN112565187A (zh) * | 2020-11-03 | 2021-03-26 | 特变电工新疆新能源股份有限公司 | 基于逻辑回归的电网攻击检测方法、系统、设备及介质 |
CN112104674A (zh) * | 2020-11-17 | 2020-12-18 | 鹏城实验室 | 攻击检测召回率自动测试方法、装置和存储介质 |
CN112966507A (zh) * | 2021-03-29 | 2021-06-15 | 北京金山云网络技术有限公司 | 构建识别模型及攻击识别方法、装置、设备及存储介质 |
CN114124446A (zh) * | 2021-10-12 | 2022-03-01 | 广西电网有限责任公司桂林供电局 | 基于Snort引擎采用逻辑回归算法的防入侵检测系统 |
CN116074036A (zh) * | 2022-11-21 | 2023-05-05 | 兴业银行股份有限公司 | 基于安全设备日志特征的攻击行为检测与识别方法和系统 |
CN118445801A (zh) * | 2024-07-08 | 2024-08-06 | 江西科技学院 | 一种移动终端软件测试方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108712453A (zh) | 基于逻辑回归算法的注入攻击检测方法、装置和服务器 | |
US10785241B2 (en) | URL attack detection method and apparatus, and electronic device | |
US11463476B2 (en) | Character string classification method and system, and character string classification device | |
CN107888571B (zh) | 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统 | |
CN110177108A (zh) | 一种异常行为检测方法、装置及验证系统 | |
CN110493181B (zh) | 用户行为检测方法、装置、计算机设备及存储介质 | |
CN109714341A (zh) | 一种Web恶意攻击识别方法、终端设备及存储介质 | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN104615760A (zh) | 钓鱼网站识别方法和系统 | |
CN110830445B (zh) | 一种异常访问对象的识别方法及设备 | |
CN107392016A (zh) | 一种基于代理的Web数据库攻击行为检测系统 | |
CN108334758A (zh) | 一种用户越权行为的检测方法、装置及设备 | |
CN109194677A (zh) | 一种sql注入攻击检测方法、装置及设备 | |
CN102622553A (zh) | 检测网页安全的方法及装置 | |
US20210263979A1 (en) | Method, system and device for identifying crawler data | |
CN113052577B (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN111756724A (zh) | 钓鱼网站的检测方法、装置、设备、计算机可读存储介质 | |
EP3893128A1 (en) | Crawler data recognition method, system and device | |
CN114003903A (zh) | 一种网络攻击追踪溯源方法及装置 | |
CN107665164A (zh) | 安全数据检测方法和装置 | |
CN112671724B (zh) | 一种终端安全检测分析方法、装置、设备及可读存储介质 | |
CN107958154A (zh) | 一种恶意软件检测装置及方法 | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、系统、设备及介质 | |
CN109218294A (zh) | 基于机器学习贝叶斯算法的防扫描方法、装置和服务器 | |
CN106446124A (zh) | 一种基于网络关系图的网站分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181026 |