CN108718306A - 一种异常流量行为判别方法和装置 - Google Patents
一种异常流量行为判别方法和装置 Download PDFInfo
- Publication number
- CN108718306A CN108718306A CN201810443326.XA CN201810443326A CN108718306A CN 108718306 A CN108718306 A CN 108718306A CN 201810443326 A CN201810443326 A CN 201810443326A CN 108718306 A CN108718306 A CN 108718306A
- Authority
- CN
- China
- Prior art keywords
- feature
- statistical nature
- http request
- character
- flow behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例提供一种异常流量行为判别方法和装置,其中,所述方法包括:获取待判别流量中HTTP请求的文本特征和统计特征;根据文本特征和统计特征,对待判别流量进行异常流量行为判别;其中,文本特征为将HTTP请求输入n‑gram模型得到的输出结果,统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。本发明实施例提供的一种异常流量行为判别方法和装置,通过HTTP请求中获取的文本特征和统计特征对待判别流量进行异常流量行为判别,实现了高效准确的异常流量行为判别,对于信息安全防护和漏洞的发现具有重要意义。
Description
技术领域
本发明实施例涉及信息安全技术领域,尤其涉及一种异常流量行为判别方法和装置。
背景技术
互联网在快速发展的同时也产生了大量数据,常规的安全防护手段往往难以取得预期的效果,这导致信息安全问题变得日益突出。其中,针对服务器的攻击是信息安全领域中最为严重的威胁之一,攻击者通过跨站脚本攻击(XSS)、SQL注入攻击、会话劫持、恶意代码执行和SSRF服务器端请求伪造等其他攻击手段使计算机系统变得更加脆弱。
因而,入侵检测对于确保网络服务器安全至关重要。但是,现有技术主要通过在终端设置发送流量的阈值进行检测,只有在发送的流量达到一定程度时才能够提供流量告警,难以快速的发现恶意程序发送异常流量的行为,为用户造成一定的流量损失,同时也容易发生数据失窃。另外,由于只对流量使用情况进行监测,容易发生误报的情况,准确性有限。
发明内容
本发明实施例提供一种异常流量行为判别方法和装置,用以解决现有的异常流量行为判别方法难以快速准确地进行判别的问题。
一方面,本发明实施例提供一种异常流量行为判别方法,包括:获取待判别流量中HTTP请求的文本特征和统计特征;根据文本特征和统计特征,对待判别流量进行异常流量行为判别;其中,文本特征为将HTTP请求输入n-gram模型得到的输出结果,统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
另一方面,本发明实施例提供一种异常流量行为判别装置,包括:特征获取单元,用于获取待判别流量中HTTP请求的文本特征和统计特征;判别单元,用于根据文本特征和统计特征,对待判别流量进行异常流量行为判别;其中,文本特征为将HTTP请求输入n-gram模型得到的输出结果,统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
再一方面,本发明实施例提供一种异常流量行为判别设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑指令,以执行如前所述的异常流量行为判别方法。
又一方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的异常流量行为判别方法。
本发明实施例提供的一种异常流量行为判别方法和装置,通过HTTP请求中获取的文本特征和统计特征对待判别流量进行异常流量行为判别,实现了高效准确的异常流量行为判别,对于信息安全防护和漏洞的发现具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种异常流量行为判别方法的流程示意图;
图2为本发明实施例的HTTP请求结构示意图;
图3为本发明实施例的一种异常流量行为判别装置的结构示意图;
图4为本发明实施例的一种异常流量行为判别设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相较于现有的通过在终端设置发送流量的阈值进行检测的方法,从流量中提取HTTP请求并加以分析是更加有效的异常流量行为判别方法。图1为本发明实施例的一种异常流量行为判别方法的流程示意图,如图1所示,一种异常流量行为判别方法,包括:
101,获取待判别流量中HTTP请求的文本特征和统计特征。
其中,文本特征为将HTTP请求输入n-gram模型得到的输出结果。n-gram是计算机语言学和概率论范畴内的概念,指给定的一段文本或语音中n个项目(item)的序列,n∈{1,2,3}。此处,项目可以是音节、字母、单词或碱基对。目前,n-gram被广泛地用来进行文本压缩、检查拼写错误、加速字符串查找、文献语种识别、自动分类、自动索引、超链的自动生成、文献检索和无分隔符语言文本的切分等。本发明实施例中,通过n-gram模型得到的文本特征为HTTP请求的n个重叠的字母或单词的子序列。
参考图2,HTTP请求由请求路径和请求参数两部分构成,其中请求参数通过字符“?”连接,每一请求参数包括若干个属性对,每一属性对包括一个属性名和阈值对应的属性值。统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
此处,请求路径统计特征为HTTP请求中请求路径的统计特征,请求路径由字符“/”切分,此处请求路径的统计特征可以是HTTP请求中请求路径的数量,还可以是HTTP请求中每一请求路径的长度,本发明对此不作具体限定。对应的,请求参数统计特征为HTTP请求中请求参数的统计特征,请求参数由字符“?”切分,此处请求参数的统计特征可以是HTTP请求中请求参数的数量,还可以是HTTP请求中每一请求参数的长度,本发明对此不作具体限定。
字符分布特征为HTTP请求中的字符在预设字符集合中的分布状况。此处,HTTP请求可输出的字符共256个,预先将上述256个字符划分为若干个集合,确定HTTP请求中每一字符对应的集合,从而得出HTTP请求中每一字符在预设字符集合汇总的分布状况,即字符分布特征。
字符频率特征是指HTTP请求中每种字符出现的频率,此处的字符种类可根据大小写、数字和特殊字符等进行划分,本发明对此不作具体限定。
字符熵用于表示HTTP请求中不同种类的字符的整体分布情况,包含有HTTP请求中所有可能出现的字符的平均不确定性。字符熵的定义如下公式所示:
式中,Ei表示第i个HTTP请求的字符熵,n为字符的种类数量,为第i个HTTP请求中字符k的频率。本发明实施例中,字符熵用于衡量HTTP请求中字符分布的离散和集成程度,因而字符熵可以作为一维特征用于监测网络异常入侵。
由于每种攻击方式都具有常用的代码语言,例如,跨站脚本攻击通常使用JavaScript语言向HTTP请求中注入异常代码,如<script>,</script>或其他形式的html标签。对于SQL注入攻击,攻击者比较喜欢使用单引号和双引号来封闭前面的HTTP请求。因此,针对每种攻击方式都可能存在对应的关键词。此处,关键词特征用于表示HTTP请求中是否包含预先设定的关键词,作为判断待判别流量是否有异常流量行为的依据。
102,根据文本特征和统计特征,对待判别流量进行异常流量行为判别。
此处,对待判别流量进行异常流量行为判别的方式有多种,例如将文本特征和统计特征输入到训练好的神经网络模型中进行判别,或者将文本特征和统计特征与预先设定的阈值进行比较,根据比较结果进行判别,本发明实施例对此不作具体限定。
本发明实施例中,通过HTTP请求中获取的文本特征和统计特征对待判别流量进行异常流量行为判别,实现了高效准确的异常流量行为判别,对于信息安全防护和漏洞的发现具有重要意义。
基于上述实施例,一种异常流量行为判别方法,请求路径统计特征包括HTTP请求中每一请求路径的长度、请求路径数量和请求路径的最大长度中的至少一种;请求参数统计特征包括HTTP请求中每一请求参数的长度、请求参数数量和请求参数的最大长度中的至少一种。需要说明的是,HTTP请求中,请求路径由字符“/”切分,请求参数由字符“?”切分。字符频率特征包括HTTP请求的大写字母频率、小写字母频率、数字频率和特殊字符频率中的至少一种。
基于上述任一实施例,一种异常流量行为判别方法,HTTP请求的文本特征和统计特征如表1所示:
表1.文本特征和统计特征表
本发明实施例提出了HTTP请求的文本向量和统计向量,针对HTTP请求进行了高效的数据向量化,解决了HTTP请求无法被计算机直接识别的问题,为根据HTTP请求判别流量是否存在异常行为提供了条件。
基于上述任一实施例,一种异常流量行为判别方法,根据文本特征和统计特征,对待判别流量进行异常流量行为判别,具体包括:将文本特征和统计特征输入异常流量行为判别模型,得到待判别流量的异常流量行为判别结果;其中,异常流量行为判别模型是基于样本流量中样本HTTP请求的样本文本特征和样本统计特征,以及样本流量的异常流量行为判别结果进行训练后得到的。
此处,异常流量行为判别模型能够根据待判别流量中HTTP请求的文本特征和统计特征判别该待判别流量是否具有异常流量行为。异常流量行为判别模型可以是逻辑回归模型、支持向量机、贝叶斯模型和K近邻模型等,本发明实施例不对此作具体限定。
此外,本发明实施例不对异常流量行为判别模型的训练方式作具体限定,具体可通过如下方式训练得到:首先,收集大量样本流量,获取样本流量中样本HTTP请求的样本文本特征、样本统计特征和样本流量的异常流量行为判别结果。随后,基于样本文本特征、样本统计特征和样本流量的异常流量行为判别结果对初始模型进行训练,从而得到异常流量行为判别模型。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合,本发明实施例不对初始模型的类型和结构作具体限定。
同样地,本发明实施例不对样本流量的采集方法作具体限定。例如,样本流量可通过如下方式采集:客户端与服务器之间进行信息交互时会产生流量,通过抓取流量包采集数据。每一条流量都包含一个时间戳和MAC地址、端口号、源IP、目的IP、协议等信息。将采集的数据分为两类,一类是异常样本集,一类是正常样本集。其中,异常样本集包括2个异常行为数据集,分别为一个包含3864个异常日志的小样本集和一个包含1489257个异常日志的大样本集,其中每种攻击方式都是由安全领域专家进行的异常流量行为判别结果,而且2个异常行为数据集的应用排除了算法过度拟合单一数据集的影响。此外,上述数据通过Apache服务器采集。
本发明实施例中,通过异常流量行为判别模型对流量的异常流量行为进行判别,提高了异常流量行为判别的准确性。
基于上述任一实施例,一种异常流量行为判别方法,102,将文本特征和统计特征输入异常流量行为判别模型,得到待判别流量的异常流量行为判别结果,具体包括:
1021,将文本特征和统计特征输入异常流量行为判别模型中的第一层分类器,得到待判别流量对应每一攻击方式的概率。
1022,将预设数量个概率最高的待判别流量对应的攻击方式,作为预测攻击方式。例如,假设第一层分类器的输出为待判别流量分别对应10种不同攻击方式的概率,预设数量为5,则从第一层分类器的输出结果中选取待判别流量对应的概率属于前5位的攻击方式,并将上述5种攻击方式作为预测攻击方式。
1023,将文本特征和统计特征,以及统计特征对应的每一预测攻击方式的类别特征输入异常流量行为判别模型中的第二层分类器,得到待判别流量的异常行为判别结果。
其中,类别特征包括每一预测攻击方式的请求路径类别特征、请求参数类别特征、字符分布类别特征、字符频率类别特征、字符类别熵和关键词类别特征中的至少一种。此处,类别特征和统计特征一一对应,即若统计特征中包括HTTP请求的请求路径统计特征,则类别特征中包括预测攻击方式对应的HTTP请求的请求路径类别特征;若统计特征中包括HTTP请求的请求参数统计特征,则类别特征中包括预测攻击方式对应的HTTP请求的请求参数类别特征;若统计特征中包括HTTP请求的字符分布特征,则类别特征中包括预测攻击方式对应的HTTP请求的字符分布类别特征;若统计特征中包括HTTP请求的字符熵,则类别特征中包括预测攻击方式对应的HTTP请求的字符类别熵;若统计特征中包括HTTP请求的关键词特征,则类别特征中包括预测攻击方式对应的HTTP请求的关键词类别特征。
本发明实施例提出了一种双层的异常流量行为判别模型,在第二层分类器的输入中加入了类别特征,能够有效纠正在第一层分类器中可能出现的错误的分类结果,提高异常流量行为判别的准确率。
基于上述任一实施例,一种异常流量行为判别方法,请求路径类别特征包括预测攻击方式对应的HTTP请求的请求路径统计特征的均值和/或方差;请求参数类别特征包括预测攻击方式对应的HTTP请求的请求参数统计特征的均值和/或方差;字符分布类别特征为预测攻击方式对应的HTTP请求的字符分布特征的均值;字符频率类别特征为预测攻击方式对应的HTTP请求的字符频率特征的均值;字符类别熵为预测攻击方式对应的HTTP请求的字符熵的均值;关键词类别特征为预测攻击方式对应的HTTP请求的关键词特征的0-1热编码。
由上可知,类别特征如表2所示:
表2.类别特征表
基于上述任一实施例,一种异常流量行为判别方法,第一层分类器和第二层分类器均为xgboost模型。
其中,xgboost模型作为一种树提升分类模型,能够自适应的确定邻居节点的位置与权重,并在模型集合过程中通过引入一些细微的改进考虑到偏差-方差权衡,如采用牛顿提升法代替梯度提升法。通过这种方式,更好地学习树的结构并进一步确定邻居节点的权重。
本发明实施例中,通过xgboost提高了异常流量行为判别模型的鲁棒性和靠噪声能力。与朴素贝叶斯、逻辑回归、K近邻、支持向量机等机器学习模型相比,xgboost模型的分类结果能够达到更高的准确率。
基于上述任一实施例,一种异常流量行为判别方法,n-gram模型为1-gram模型。
1-gram模型与2-gram模型和3-gram模型分别输出的文本特征在本发明实施例中,对于异常流量行为模型的输出区别较小。但相比2-gram模型和3-gram模型,1-gram模型的维度明显更少,有助于减少计算时间,提高异常流量行为判别方法的运行速度,且不会对判别结果的有效性造成影响。
为了更好地理解与应用本发明提出的一种异常流量行为判别方法,本发明进行以下示例,且本发明不仅局限于以下示例。
示例一:
当发生恶意代码注入时,攻击者擅长使用非字母数字的特定组合作为注入。因此,在通过n-gram模型获取HTTP请求的文本特征时,应保留非字母数字的特定组合。所有的字母,数字和中文都被视为相同的符号,转换规则如表3所示。通过上述转换,在明显降低文本特征维度的同时,有效保留了用于异常流量行为判别的相关特征信息。
表3.字符转换规则表
示例二
字符分布特征的获取方法如下:
HTTP请求可输出的字符共256个,HTTP请求“id=34232”转换为逆序,相关字符分布结果为0.25,0.25,0.125,0.125,0.125,0.125,其后为248个0。
针对字符分布特征,还可以预先将上述256个字符按照表4划分为6个集合,以减少字符分布特征的维度。
表3.字符转换规则表
基于上述任一方法实施例,图3为本发明实施例的一种异常流量行为判别装置的结构示意图,如图3所示,一种异常流量行为判别装置,包括:
特征获取单元301,用于获取待判别流量中HTTP请求的文本特征和统计特征;
判别单元302,用于根据文本特征和统计特征,对待判别流量进行异常流量行为判别;
其中,文本特征为将HTTP请求输入n-gram模型得到的输出结果,统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
需要说明的是,上述特征获取单元301和判别单元302配合以执行上述实施例中的一种异常流量行为判别方法,该系统的具体功能参见上述的异常流量行为判别方法的实施例,此处不再赘述。
本发明实施例中,通过HTTP请求中获取的文本特征和统计特征对待判别流量进行异常流量行为判别,实现了高效准确的异常流量行为判别,对于信息安全防护和漏洞的发现具有重要意义。
基于上述任一实施例,一种异常流量行为判别装置,请求路径统计特征包括HTTP请求中每一请求路径的长度、请求路径数量和请求路径的最大长度中的至少一种;请求参数统计特征包括HTTP请求中每一请求参数的长度、请求参数数量和请求参数的最大长度中的至少一种;字符频率特征包括HTTP请求的大写字母频率、小写字母频率、数字频率和特殊字符频率中的至少一种。
基于上述任一实施例,一种异常流量行为判别装置,判别单元302具体用于:将文本特征和统计特征输入异常流量行为判别模型,得到待判别流量的异常流量行为判别结果;其中,异常流量行为判别模型是基于样本流量中样本HTTP请求的样本文本特征和样本统计特征,以及样本流量的异常流量行为判别结果进行训练后得到的。
基于上述任一实施例,一种异常流量行为判别装置,判别单元302包括:
第一分类子单元,用于将文本特征和统计特征输入异常流量行为判别模型中的第一层分类器,得到待判别流量对应每一攻击方式的概率;
预测攻击方式获取子单元,用于将预设数量个概率最高的待判别流量对应的攻击方式,作为预测攻击方式;
第二分类子单元,用于将文本特征和统计特征,以及统计特征对应的每一预测攻击方式的类别特征输入异常流量行为判别模型中的第二层分类器,得到待判别流量的异常行为判别结果;
其中,类别特征包括每一预测攻击方式的请求路径类别特征、请求参数类别特征、字符分布类别特征、字符频率类别特征、字符类别熵和关键词类别特征中的至少一种。
基于上述任一实施例,一种异常流量行为判别装置,请求路径类别特征包括预测攻击方式对应的HTTP请求的请求路径统计特征的均值和/或方差;请求参数类别特征包括预测攻击方式对应的HTTP请求的请求参数统计特征的均值和/或方差;字符分布类别特征为预测攻击方式对应的HTTP请求的字符分布特征的均值;字符频率类别特征为预测攻击方式对应的HTTP请求的字符频率特征的均值;字符类别熵为预测攻击方式对应的HTTP请求的字符熵的均值;关键词类别特征为预测攻击方式对应的HTTP请求的关键词特征的0-1热编码。
基于上述任一实施例,一种异常流量行为判别装置,第一层分类器和第二层分类器均为xgboost模型。
基于上述任一实施例,一种异常流量行为判别装置,n-gram模型为1-gram模型。
图4为本发明实施例的一种异常流量行为判别设备的结构示意图,如图4所示,该设备包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404,其中,处理器401,通信接口402,存储器403通过总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令,以执行如下方法:获取待判别流量中HTTP请求的文本特征和统计特征;根据文本特征和统计特征,对待判别流量进行异常流量行为判别;其中,文本特征为将HTTP请求输入n-gram模型得到的输出结果,统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
本发明实施例公开一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待判别流量中HTTP请求的文本特征和统计特征;根据文本特征和统计特征,对待判别流量进行异常流量行为判别;其中,文本特征为将HTTP请求输入n-gram模型得到的输出结果,统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
本实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例所提供的方法,例如包括:获取待判别流量中HTTP请求的文本特征和统计特征;根据文本特征和统计特征,对待判别流量进行异常流量行为判别;其中,文本特征为将HTTP请求输入n-gram模型得到的输出结果,统计特征包括HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的通信设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。
Claims (10)
1.一种异常流量行为判别方法,其特征在于,包括:
获取待判别流量中HTTP请求的文本特征和统计特征;
根据所述文本特征和统计特征,对所述待判别流量进行异常流量行为判别;
其中,所述文本特征为将所述HTTP请求输入n-gram模型得到的输出结果,所述统计特征包括所述HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
2.根据权利要求1所述的方法,其特征在于,
所述请求路径统计特征包括所述HTTP请求中每一请求路径的长度、请求路径数量和请求路径的最大长度中的至少一种;
所述请求参数统计特征包括所述HTTP请求中每一请求参数的长度、请求参数数量和请求参数的最大长度中的至少一种;
字符频率特征包括所述HTTP请求的大写字母频率、小写字母频率、数字频率和特殊字符频率中的至少一种。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文本特征和统计特征,对所述待判别流量进行异常流量行为判别,具体包括:
将所述文本特征和统计特征输入异常流量行为判别模型,得到所述待判别流量的异常流量行为判别结果;
其中,所述异常流量行为判别模型是基于样本流量中样本HTTP请求的样本文本特征和样本统计特征,以及所述样本流量的异常流量行为判别结果进行训练后得到的。
4.根据权利要求3所述的方法,其特征在于,所述将所述文本特征和统计特征输入异常流量行为判别模型,得到所述待判别流量的异常流量行为判别结果,具体包括:
将所述文本特征和统计特征输入所述异常流量行为判别模型中的第一层分类器,得到所述待判别流量对应每一攻击方式的概率;
将预设数量个概率最高的所述待判别流量对应的攻击方式,作为预测攻击方式;
将所述文本特征和统计特征,以及所述统计特征对应的每一所述预测攻击方式的类别特征输入所述异常流量行为判别模型中的第二层分类器,得到所述待判别流量的异常行为判别结果;
其中,所述类别特征包括每一预测攻击方式的请求路径类别特征、请求参数类别特征、字符分布类别特征、字符频率类别特征、字符类别熵和关键词类别特征中的至少一种。
5.根据权利要求4所述的方法,其特征在于,
所述请求路径类别特征包括所述预测攻击方式对应的HTTP请求的请求路径统计特征的均值和/或方差;
所述请求参数类别特征包括所述预测攻击方式对应的HTTP请求的请求参数统计特征的均值和/或方差;
所述字符分布类别特征为所述预测攻击方式对应的HTTP请求的字符分布特征的均值;
所述字符频率类别特征为所述预测攻击方式对应的HTTP请求的字符频率特征的均值;
所述字符类别熵为所述预测攻击方式对应的HTTP请求的字符熵的均值;
所述关键词类别特征为所述预测攻击方式对应的HTTP请求的关键词特征的0-1热编码。
6.根据权利要求4所述的方法,其特征在于,所述第一层分类器和第二层分类器均为xgboost模型。
7.根据权利要求1至6中任一权利要求所述的方法,其特征在于,所述n-gram模型为1-gram模型。
8.一种异常流量行为判别装置,其特征在于,包括:
特征获取单元,用于获取待判别流量中HTTP请求的文本特征和统计特征;
判别单元,用于根据所述文本特征和统计特征,对所述待判别流量进行异常流量行为判别;
其中,所述文本特征为将所述HTTP请求输入n-gram模型得到的输出结果,所述统计特征包括所述HTTP请求的请求路径统计特征、请求参数统计特征、字符分布特征、字符频率特征、字符熵和关键词特征中的至少一种。
9.一种异常流量行为判别设备,其特征在于,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑指令,以执行如权利要求1至7任一所述的异常流量行为判别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一所述的异常流量行为判别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810443326.XA CN108718306B (zh) | 2018-05-10 | 2018-05-10 | 一种异常流量行为判别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810443326.XA CN108718306B (zh) | 2018-05-10 | 2018-05-10 | 一种异常流量行为判别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108718306A true CN108718306A (zh) | 2018-10-30 |
CN108718306B CN108718306B (zh) | 2020-09-01 |
Family
ID=63899628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810443326.XA Active CN108718306B (zh) | 2018-05-10 | 2018-05-10 | 一种异常流量行为判别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108718306B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109688030A (zh) * | 2019-02-26 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 报文检测方法、装置、设备和存储介质 |
CN109684834A (zh) * | 2018-12-21 | 2019-04-26 | 福州大学 | 一种基于XGBoost的门级硬件木马识别方法 |
CN109714324A (zh) * | 2018-12-18 | 2019-05-03 | 中电福富信息科技有限公司 | 基于机器学习算法的用户网络异常行为发现方法及系统 |
CN110188017A (zh) * | 2019-05-28 | 2019-08-30 | 承德石油高等专科学校 | 网络机房服务器与网络设备大数据采集装置及方法 |
CN111524354A (zh) * | 2020-04-29 | 2020-08-11 | 中南大学 | 基于语言模型的城市交通网络路径选择行为的预测方法、系统、介质及设备 |
CN111787018A (zh) * | 2020-07-03 | 2020-10-16 | 中国工商银行股份有限公司 | 用于识别网络攻击行为的方法、装置、电子设备及介质 |
CN112511546A (zh) * | 2020-12-03 | 2021-03-16 | 广州万方计算机科技有限公司 | 基于日志分析的漏洞扫描方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2114050A1 (en) * | 2008-04-30 | 2009-11-04 | Deutsche Telekom AG | Method and system for allocating resources of a Web-server based on classified usage behavior also for identifying and blocking bot generated HTTP-GET attacks |
CN102571547A (zh) * | 2010-12-29 | 2012-07-11 | 北京启明星辰信息技术股份有限公司 | 一种http流量的控制方法及装置 |
CN105553998A (zh) * | 2015-12-23 | 2016-05-04 | 中国电子科技集团公司第三十研究所 | 一种网络攻击异常检测方法 |
CN106789352A (zh) * | 2017-01-25 | 2017-05-31 | 北京兰云科技有限公司 | 一种网络异常流量检测方法和装置 |
-
2018
- 2018-05-10 CN CN201810443326.XA patent/CN108718306B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2114050A1 (en) * | 2008-04-30 | 2009-11-04 | Deutsche Telekom AG | Method and system for allocating resources of a Web-server based on classified usage behavior also for identifying and blocking bot generated HTTP-GET attacks |
CN102571547A (zh) * | 2010-12-29 | 2012-07-11 | 北京启明星辰信息技术股份有限公司 | 一种http流量的控制方法及装置 |
CN105553998A (zh) * | 2015-12-23 | 2016-05-04 | 中国电子科技集团公司第三十研究所 | 一种网络攻击异常检测方法 |
CN106789352A (zh) * | 2017-01-25 | 2017-05-31 | 北京兰云科技有限公司 | 一种网络异常流量检测方法和装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109714324A (zh) * | 2018-12-18 | 2019-05-03 | 中电福富信息科技有限公司 | 基于机器学习算法的用户网络异常行为发现方法及系统 |
CN109714324B (zh) * | 2018-12-18 | 2021-06-22 | 中电福富信息科技有限公司 | 基于机器学习算法的用户网络异常行为发现方法及系统 |
CN109684834A (zh) * | 2018-12-21 | 2019-04-26 | 福州大学 | 一种基于XGBoost的门级硬件木马识别方法 |
CN109684834B (zh) * | 2018-12-21 | 2022-10-25 | 福州大学 | 一种基于XGBoost的门级硬件木马识别方法 |
CN109688030A (zh) * | 2019-02-26 | 2019-04-26 | 百度在线网络技术(北京)有限公司 | 报文检测方法、装置、设备和存储介质 |
CN110188017A (zh) * | 2019-05-28 | 2019-08-30 | 承德石油高等专科学校 | 网络机房服务器与网络设备大数据采集装置及方法 |
CN111524354A (zh) * | 2020-04-29 | 2020-08-11 | 中南大学 | 基于语言模型的城市交通网络路径选择行为的预测方法、系统、介质及设备 |
CN111787018A (zh) * | 2020-07-03 | 2020-10-16 | 中国工商银行股份有限公司 | 用于识别网络攻击行为的方法、装置、电子设备及介质 |
CN112511546A (zh) * | 2020-12-03 | 2021-03-16 | 广州万方计算机科技有限公司 | 基于日志分析的漏洞扫描方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108718306B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108718306A (zh) | 一种异常流量行为判别方法和装置 | |
US9621570B2 (en) | System and method for selectively evolving phishing detection rules | |
CN104850574B (zh) | 一种面向文本信息的敏感词过滤方法 | |
CN109308494B (zh) | Lstm模型及基于该模型的网络攻击识别方法及系统 | |
CN109960729A (zh) | Http恶意流量的检测方法及系统 | |
CN113596007B (zh) | 一种基于深度学习的漏洞攻击检测方法和设备 | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测系统及其方法 | |
CN111538929B (zh) | 网络链接识别方法、装置、存储介质及电子设备 | |
CN109194677A (zh) | 一种sql注入攻击检测方法、装置及设备 | |
US20200220768A1 (en) | Method, apparatus and article of manufacture for categorizing computerized messages into categories | |
CN110191096A (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
CN107239694A (zh) | 一种基于用户评论的Android应用权限推理方法及装置 | |
CN111526136A (zh) | 基于云waf的恶意攻击检测方法、系统、设备和介质 | |
Jothi et al. | An efficient SQL injection detection system using deep learning | |
US20210136032A1 (en) | Method and apparatus for generating summary of url for url clustering | |
CN108509794A (zh) | 一种基于分类学习算法的恶意网页防御检测方法 | |
CN113591077A (zh) | 一种网络攻击行为预测方法、装置、电子设备及存储介质 | |
CN112733954A (zh) | 一种基于生成对抗网络的异常流量检测方法 | |
RU2659482C1 (ru) | Способ защиты веб-приложений при помощи интеллектуального сетевого экрана с использованием автоматического построения моделей приложений | |
CN116346397A (zh) | 网络请求异常检测方法及其装置、设备、介质、产品 | |
Abdulrahaman et al. | Phishing attack detection based on random forest with wrapper feature selection method | |
CN113904834A (zh) | 基于机器学习的xss攻击检测方法 | |
CN111431883B (zh) | 一种基于访问参数的web攻击检测方法及装置 | |
Lu et al. | A GAN-based method for generating SQL injection attack samples | |
CN110704611B (zh) | 基于特征解交织的非法文本识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |