CN111818067B - 流量特征提取方法及装置 - Google Patents

流量特征提取方法及装置 Download PDF

Info

Publication number
CN111818067B
CN111818067B CN202010674631.7A CN202010674631A CN111818067B CN 111818067 B CN111818067 B CN 111818067B CN 202010674631 A CN202010674631 A CN 202010674631A CN 111818067 B CN111818067 B CN 111818067B
Authority
CN
China
Prior art keywords
scanning
target
feature
characteristic
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010674631.7A
Other languages
English (en)
Other versions
CN111818067A (zh
Inventor
张润滋
刘文懋
陈磊
吴子建
童明凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Original Assignee
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nsfocus Technologies Inc, Nsfocus Technologies Group Co Ltd filed Critical Nsfocus Technologies Inc
Priority to CN202010674631.7A priority Critical patent/CN111818067B/zh
Publication of CN111818067A publication Critical patent/CN111818067A/zh
Application granted granted Critical
Publication of CN111818067B publication Critical patent/CN111818067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及网络安全技术领域,尤其涉及流量特征提取方法及装置,包括:获取具有目标特征的目标流量样本;对通过从目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组;基于递归扫描特征字串提取方法,从扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别目标特征的流量分类模型,从非扫描攻击组中提取出非扫描特征正则表达式;对包含扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合;基于目标特征表达式集合,对待处理流量的目标特征进行提取。本发明使得特征提取不仅能够针对具有公共字串的流量,还能够针对没有公共字串的流量,提高了特征提取的准确性。

Description

流量特征提取方法及装置
技术领域
本发明涉及网络安全技术领域,尤其涉及流量特征提取方法及装置。
背景技术
随着互联网技术的普及,各种网络应用层出不穷,安全威胁和网络滥用也随之与日俱增,这对快速、可靠地识别出各种流量提出了更高的要求。因此,能够识别出恶意流量的入侵检测系统(Intrusion Detection Systems,IDS)在网络防御中被广泛应用。
在识别恶意流量的过程中,首先需要提取出恶意流量特征,由这些特征形成识别规则,再利用识别规则对未知流量进行识别,从而判断出未知流量是否属于恶意流量。对于如何对恶意流量特征进行提取,在现有技术中,通常使用最长公共字串提取方法,该方法默认相同类别的攻击载荷间具有公共字串,通过提取该公共字串实现了对恶意流量特征的提取。然而,该方法只能提取具有公共字串的流量,对于没有公共字串的流量无法实现特征的提取,从而存在特征提取准确性差的问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的流量特征提取方法及装置。
依据本发明的第一个方面,本发明提供一种流量特征提取方法,其特征在于,所述方法包括:
获取具有目标特征的目标流量样本;
对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组;
基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式;
对包含所述扫描特征正则表达式和所述非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合;
基于所述目标特征表达式集合,对待处理流量的所述目标特征进行提取。
优选的,所述对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组,包括:
对所述目标特征提取样本集内的流量载荷进行聚类,获得聚类结果;
将所述聚类结果中的聚类簇确定为扫描攻击组,将所述聚类结果中未形成所述聚类簇的所有目标流量样本确定为非扫描攻击组。
优选的,所述基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式,包括:
逐次从所述扫描攻击组中提取出最长公共字串直至不存在公共字串,获得扫描特征字串集合;
将所述扫描特征字串集合转换成所述扫描特征正则表达式。
优选的,所述基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式,包括:
基于模型推断方法,从所述非扫描攻击组中提取被所述流量分类模型分类为具有所述目标特征的关键字串序列,获得非扫描特征字串集合;
将所述非扫描特征字串集合转换成所述非扫描特征正则表达式。
优选的,在提取出所述扫描特征正则表达式和所述非扫描特征正则表达式之后,且在所述对包含所述扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证之前,所述方法还包括:
对所述特征表达式集合中的每个正则表达式逐一遍历,判断所述特征表达式集合中是否存在相互匹配的正则表达式;
若所述特征表达式集合中存在所述相互匹配的正则表达式,则对所述相互匹配的正则表达式进行去重。
优选的,在所述基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式之前,所述方法还包括:
获取非目标流量样本;
基于所述目标流量样本和所述非目标流量样本,建立用于识别所述目标特征的所述流量分类模型。
优选的,所述对包含所述扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合,包括:
对包含所述目标流量样本和所述非目标流量样本的样本集合进行采样,获得验证样本集合;
基于所述特征表达式集合对所述验证样本集合中的样本进行验证,确定所述特征表达式集合的命中率;
基于所述特征表达式集合的命中率与目标阈值之间的大小关系,确定所述目标特征表达式集合。
依据本发明的第二个方面,本发明提供了一种流量特征提取装置,所述装置包括:
获取模块,用于获取具有目标特征的目标流量样本;
聚类模块,用于对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组;
第一提取模块,用于基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式;
验证模块,用于对包含所述扫描特征正则表达式和所述非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合;
第二提取模块,用于基于所述目标特征表达式集合,对待处理流量的所述目标特征进行提取。
依据本发明的第三个方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述第一个方面所述的方法步骤。
依据本发明的第四个方面,本发明提供了一种计算机设备,包括存储,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前述第一个方面所述的方法步骤。
在本发明的流量特征提取方法,首先获取具有目标特征的目标流量样本。接着,对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组。然后,基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式。再对包含所述扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合。最后,基于所述目标特征表达式集合,对待处理流量的所述目标特征进行提取。本发明通过区分出扫描攻击组和非扫描攻击组,并根据递归扫描特征字串提取方法和流量分类模型,分别从扫描攻击组中提取出扫描特征正则表达式,以及从非扫描攻击组中提取出非扫描特征正则表达式,再根据对包含扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合验证后得到的目标特征表达式集合对目标特征进行提取,使得特征提取不仅能够针对具有公共字串的流量,还能够针对没有公共字串的流量,提高了特征提取的准确性和可用性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:
图1示出了本发明实施例中流量特征提取方法的流程图;
图2示出了本发明实施例中字串置信度关系的示意图;
图3示出了本发明实施例中流量特征提取装置的结构图;
图4示出了本发明实施例中计算机设备的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明第一实施例提供一种流量特征提取方法,用于对恶意流量的特征进行提取,以识别出恶意流量。如图1所示,所述方法包括以下步骤:
步骤101:获取具有目标特征的目标流量样本。
步骤102:对通过从目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组。
步骤103:基于递归扫描特征字串提取方法,从扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别目标特征的流量分类模型,从非扫描攻击组中提取出非扫描特征正则表达式。
步骤104:对包含扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合。
步骤105:基于目标特征表达式集合,对待处理流量的目标特征进行提取。
具体来讲,为了实现对恶意流量的识别,在本发明实施例中,目标特征为用于表征流量为恶意流量的恶意特征。其中,恶意流量为对客户端和服务器等电子设备产生威胁的流量,恶意流量包括以下流量中的至少一种:webshell流量、SQL注入流量和CC攻击流量,而恶意特征则是与上述恶意流量对应的特征。
进一步来讲,对于步骤101而言,首先获取目标流量样本。其中,目标流量样本为具有恶意特征的流量样本,该目标流量样本也即恶意流量样本。在利用目标流量样本之前,需要对目标流量样本进行预处理。具体来讲:对目标流量样本的流量载荷进行过滤,去掉非可读字符,进而进行字符串分割。在分割字符串时,首先以指定的非字母特殊字符进行分割,如“$”或“%”等,进一步进行英文分词。而针对base64编码的非单词类长字符串,如“..tIik7ZGllKCk..”,使用N-Gram(其中,N取值可为5)进行元素提取。最终完成预处理步骤。
进一步来讲,在对目标流量样本进行预处理之后,执行步骤102。在步骤102中,首先对目标流量样本进行随机抽样,获得目标特征提取样本集,抽取数量可设定为1000。接着,对目标特征提取样本集内的流量载荷进行聚类,获得聚类结果。在聚类过程中,以载荷字符串的前Nchar个字节作为特征,超过Nchar的字节截断,少于Nchar则用0x00字节补齐。Nchar的取值范围在200-1000之间,其取值越大,所提取的扫描特征字串越准确,但是处理时间越长。因此,可通过实验,配置不同参数,进而择优选择满足处理时间和准确性要求的参数值。进一步,采用聚类时采用DBSCAN等无需提前设置聚类簇个数的聚类算法。DNSCAN算法应用过程中,使用序列相似性计算距离参数。在聚类结束后,获得聚类结果。进一步,将聚类结果中的聚类簇确定为扫描攻击组,将聚类结果中未形成聚类簇的所有目标流量样本确定为非扫描攻击组。其中,每个聚类簇代表具有相同攻击载荷字串的扫描攻击流量。
进一步来讲,在对目标流量样本进行预处理之后,且在执行从非扫描攻击组中提取出非扫描特征正则表达式之前,所述方法还包括:
获取非目标流量样本;
基于目标流量样本和非目标流量样本,建立用于识别目标特征的流量分类模型。
具体来讲,非目标流量样本为不具有目标特征的流量样本,即非恶意流量样本,也即正常的流量样本。在获得非目标流量样本之后,同样需要对非目标流量样本进行预处理,其预处理过程与对目标流量样本的预处理过程相同,此处不再赘述。进一步,以预处理后的目标流量样本和非目标流量样本作为输入,训练机器学习模型,从而建立用于识别恶意特征的流量分配模型。其中,机器学习模型为随机森林模型或多层感知机模型。在训练模型时,通过调整模型参数保证模型的识别准确率超过预设阈值,预设阈值可以设置为0.99。最终建立出的流量分类模型可以称为Mdec。利用流量分类模型Mdec能够识别出恶意流量和非恶意流量(即正常流量)。
进一步,在步骤103中,对于扫描攻击组而言,基于递归扫描特征字串提取方法,从扫描攻击组中提取出扫描特征正则表达式,具体包括:首先,逐次从扫描攻击组中提取出最长公共字串直至不存在公共字串,获得扫描特征字串集合。然后,将扫描特征字串集合转换成扫描特征正则表达式。
在具体实施过程中,一个聚类簇对应一个扫描攻击组,每个扫描攻击组中包含若干流量载荷。分别针对每个扫描攻击组通过递归扫描特征字串提取方法提取其中的扫描特征字串,从而,最终每个扫描攻击组对应生成一个扫描特征字串集合。其中,递归扫描特征字串提取方法包括逐次从扫描攻击组中提取出最长公共字串直至不存在公共字串,具体为:每次提取该组内所有载荷字符串的最长公共字串作为扫描特征字串,进而在原字符串上删除该字串,在两侧剩余字串中使用相同方法,递归的完成扫描特征字串的提取,直至没有可以提取的字串为止,从而,由提取出的所有扫描特征字串构成扫描特征字串集合。
例如,若一个扫描攻击组包含两个流量载荷,分别为“www-commit-webshell-antidisl”和“www-readme-webshell-xxxxx”。首先,提取出最长公共字串“-webshell-”,进而将两个“-webshell-”字串分别从两个流量载荷中剔除,形成左右两侧的两组流量载荷分别为左侧流量载荷组“www-commit”、“www-readme”,以及右侧流量载荷组“antidis”、“xxxxx”。进一步,对于左侧流量载荷组,提取出最长公共字串“www-”,进而将“www-”剔除,形成流量载荷组“commit”、“readme”,进而该组再无公共字串。对于右侧流量载荷组,该组本无公共字串。综上,最终提取出的扫描特征字串集合为:[-webshell-,www-]。
进一步,在获得扫描特征字串集合之后,在每个扫描特征字串集合的内部,将各字串按照字母顺序排序,并将扫描特征字串集合转换成扫描特征正则表达式。例如,扫描特征字串集合[webshell,chopper,ddos]对应的扫描特征正则表达式为‘.*choper.*ddos.*webshell.*’。
进一步,在步骤103中,对于扫描攻击组而言,基于用于识别目标特征的流量分类模型,从非扫描攻击组中提取出非扫描特征正则表达式,具体包括:首先,基于模型推断方法,从非扫描攻击组中提取被流量分类模型分类为具有目标特征的关键字串序列,获得非扫描特征字串集合。然后,将非扫描特征字串集合转换成非扫描特征正则表达式。
在具体实施过程中,对于非扫描攻击组中的每个流量载荷而言,使用模型推断方法(Local Interpretable Model-agnostic Explanations,LIME)提取对于流量分类模型分类Mdec而言,属于具有目标特征的目标流量的关键字串序列。也就是说,如果某一流量荷载被流量分类模型分类Mdec分类为目标流量,那么该流量荷载即为关键字串序列。
例如,某webshell攻击载荷如下:
pass=@eval(base64_decode($_POST[z0]));&z0=......tIik7ZGllKCk7&z1=......93d3cvaHRtbC8%3D.
该webshell攻击载荷对应的字串集合为:
[pass,eval,base64_decode,_POST,z0,…,z1,…,HRtbC8,3D]
在提供能够将该webshell攻击载荷正确识别为恶意流量的模型Mdec的情况下,使用LIME得到图2所示的字串置信度关系。图2表征了模型Mdec将该webshell攻击载荷识别为恶意流量的关键字串序列及其贡献程度的置信度值。进而,将关键字串序列和置信度形式化描述为集合:[(z1,0.48),(eval,0.30),(_POST,0.23),(pass,-0.04),…]。基于上述方法,每次提取置信度大于阈值α的字串集合作为该webshell攻击载荷的非扫描特征字串集合。其中,α可取0.2。α的值越大,所能够提取出的非扫描特征正则表达式越少,同时,每个非扫描特征正则表达式的准确性越高,该值会影响最终生成的非扫描特征正则表达式的数量和质量,可通过多次实验,确定最佳数值,以保证最优的准确性。进一步,在获得非扫描特征字串集合之后,在每个非扫描特征字串集合的内部,对各字串按照字母顺序排序,并将非扫描特征字串集合转换成非扫描特征正则表达式。
进一步来讲,在获得扫描特征正则表达式和非扫描特征正则表达式之后,且在对包含扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证之前,所述方法还包括:
对特征表达式集合中的每个正则表达式逐一遍历,判断特征表达式集合中是否存在相互匹配的正则表达式;
若特征表达式集合中存在相互匹配的正则表达式,则对相互匹配的正则表达式进行去重。
具体来讲,特征表达式集合为包含扫描特征正则表达式和非扫描特征正则表达式的集合。该集合中可能存在重复的正则表达式,即某些正则表达式能够覆盖其他正则表达式所覆盖的范围。因此,本发明将会对该集合中的所有正则表达式进行去重处理,以降低冗余性。对于去重处理而言,由于正则表达式是一种特殊的字符串,因此,正则表达式之间可相互匹配。通过对每个正则表达式进行遍历,将其余其他正则表达式进行匹配,如果一个正则表达式能够匹配命中另一个正则表达式,则认为前者能够覆盖后者,进而去掉被覆盖的正则表达式,实现正则表达式的去重。
在对特征表达式集合去重后,执行步骤104,具体包括:
对包含目标流量样本和非目标流量样本的样本集合进行采样,获得验证样本集合;
基于特征表达式集合对验证样本集合中的样本进行验证,确定特征表达式集合的命中率;
基于特征表达式集合的命中率与目标阈值之间的大小关系,确定目标特征表达式集合。
在具体实施过程中,将包含所有目标流量样本和非目标流量样本的集合称为样本集合。对样本集合进行采样,如采样1000个样本,获得验证样本集合。然后,遍历特征表达式集合中的每一条正则表达式,对验证样本集合中的任意一个样本进行验证,如某条正则表达式命中,则退出遍历过程,并将该样本命中标签标记为目标流量,如果该样本没有被任何正则表达式命中,则标记为非目标流量,从而获得特征表达式集合的命中率。进而,比较特征表达式集合的命中率和目标阈值的大小。目标阈值根据实际中对恶意流量识别准确性的要求确定,对准确性要求越高,则目标阈值越大,反之,目标阈值越小,实际中通常将目标阈值设定为0.95。
进一步,如果特征表达式集合的命中率高于目标阈值,则将特征表达式集合确定为目标特征表达式集合。如果特征表达式集合的命中率小于或等于目标阈值,则对验证样本集合进行抽样,获得新的目标特征提取样本集。接着,基于新的目标特征提取样本集,通过执行步骤102-104,重新确定特征表达式集合并对新的特征表达式集合进行验证,直至新的特征表达式集合的命中率高于目标阈值,将新的特征表达式集合确定为目标特征表达式集合。另外,如果重新确定特征表达式集合的迭代次数超过目标迭代次数,如超过5次,则降低目标阈值继续新一轮的迭代,或者,结束进程提示提取失败。
在确定出目标特征表达式集合之后,在步骤105中,利用目标特征表达式集合能够实现对待处理流量的目标特征进行提取,即对未知流量的恶意特征进行提取,以判断未知流量是否属于恶意流量。
本发明通过区分出扫描攻击组和非扫描攻击组,并根据递归扫描特征字串提取方法和流量分类模型,分别从扫描攻击组中提取出扫描特征正则表达式,以及从非扫描攻击组中提取出非扫描特征正则表达式,再根据对包含扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合验证后得到的目标特征表达式集合对目标特征进行提取,使得特征提取不仅能够针对具有公共字串的流量,还能够针对没有公共字串的流量,提高了特征提取的准确性和可用性。另外,本发明无需依赖人工的先验知识,完全从数据特征触发,以数据挖掘的方式进行无干预特征表达式的提取,大幅提升了提取效率,提升安全研究效率,降低威胁事件分析响应的周期,提升防护能力。
基于同一发明构思,本发明第二实施例提供一种流量特征提取装置,如图3所示,所述装置包括:
获取模块301,用于获取具有目标特征的目标流量样本;
聚类模块302,用于对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组;
第一提取模块303,用于基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式;
验证模块304,用于对包含所述扫描特征正则表达式和所述非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合;
第二提取模块305,用于基于所述目标特征表达式集合,对待处理流量的所述目标特征进行提取。
优选的,聚类模块302,包括:
聚类单元,用于对所述目标特征提取样本集内的流量载荷进行聚类,获得聚类结果;
攻击组确定单元,用于将所述聚类结果中的聚类簇确定为扫描攻击组,将所述聚类结果中未形成所述聚类簇的所有目标流量样本确定为非扫描攻击组。
优选的,第一提取模块303,包括:
扫描特征提取单元,用于逐次从所述扫描攻击组中提取出最长公共字串直至不存在公共字串,获得扫描特征字串集合;
将所述扫描特征字串集合转换成所述扫描特征正则表达式。
优选的,第一提取模块303,包括:
非扫描特征提取单元,用于基于模型推断方法,从所述非扫描攻击组中提取被所述流量分类模型分类为具有所述目标特征的关键字串序列,获得非扫描特征字串集合;将所述非扫描特征字串集合转换成所述非扫描特征正则表达式。
优选的,所述装置还包括:
判断模块,用于对所述特征表达式集合中的每个正则表达式逐一遍历,判断所述特征表达式集合中是否存在相互匹配的正则表达式;
去重模块,用于若所述特征表达式集合中存在所述相互匹配的正则表达式,则对所述相互匹配的正则表达式进行去重。
优选的,所述装置还包括:
非目标流量获取装置,用于获取非目标流量样本;
模型建立装置,用于基于所述目标流量样本和所述非目标流量样本,建立用于识别所述目标特征的所述流量分类模型。
优选的,验证模块304,包括:
采样单元,用于对包含所述目标流量样本和所述非目标流量样本的样本集合进行采样,获得验证样本集合;
验证单元,用于基于所述特征表达式集合对所述验证样本集合中的样本进行验证,确定所述特征表达式集合的命中率;
表达式集合确定单元,用于基于所述特征表达式集合的命中率与目标阈值之间的大小关系,确定所述目标特征表达式集合。
基于同一发明构思,本发明第三实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一实施例所述的方法步骤。
基于同一发明构思,本发明第四实施例还提供了一种计算机设备,如图4所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机设备可以为包括手机、平板电脑、PDA(Personal DigitalAssistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以计算机设备为手机为例:
图4示出的是与本发明实施例提供的计算机设备相关的部分结构的框图。参考图4,该计算机设备包括:存储器401和处理器402。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对计算机设备的各个构成部件进行具体的介绍:
存储器401可用于存储软件程序以及模块,处理器402通过运行存储在存储器401的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储数据(比如音频数据、电话本等)等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器402是计算机设备的控制中心,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行各种功能和处理数据。可选的,处理器402可包括一个或多个处理单元;优选的,处理器402可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。
在本发明实施例中,该计算机设备所包括的处理器402可以具有第一实施例中任一方法步骤所对应的功能。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网址上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种流量特征提取方法,其特征在于,所述方法包括:
获取具有目标特征的目标流量样本;
对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组;
基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式;所述基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式,包括:
逐次从所述扫描攻击组中提取出最长公共字串直至不存在公共字串,获得扫描特征字串集合;
将所述扫描特征字串集合转换成所述扫描特征正则表达式;
所述基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式,包括:
基于模型推断方法,从所述非扫描攻击组中提取被所述流量分类模型分类为具有所述目标特征的关键字串序列,获得非扫描特征字串集合;
将所述非扫描特征字串集合转换成所述非扫描特征正则表达式;
对包含所述扫描特征正则表达式和所述非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合;
基于所述目标特征表达式集合,对待处理流量的所述目标特征进行提取。
2.如权利要求1所述的方法,其特征在于,所述对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组,包括:
对所述目标特征提取样本集内的流量载荷进行聚类,获得聚类结果;
将所述聚类结果中的聚类簇确定为扫描攻击组,将所述聚类结果中未形成所述聚类簇的所有目标流量样本确定为非扫描攻击组。
3.如权利要求1所述的方法,其特征在于,在提取出所述扫描特征正则表达式和所述非扫描特征正则表达式之后,且在所述对包含所述扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证之前,所述方法还包括:
对所述特征表达式集合中的每个正则表达式逐一遍历,判断所述特征表达式集合中是否存在相互匹配的正则表达式;
若所述特征表达式集合中存在所述相互匹配的正则表达式,则对所述相互匹配的正则表达式进行去重。
4.如权利要求1所述的方法,其特征在于,在所述基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式之前,所述方法还包括:
获取非目标流量样本;
基于所述目标流量样本和所述非目标流量样本,建立用于识别所述目标特征的所述流量分类模型。
5.如权利要求4所述的方法,其特征在于,所述对包含所述扫描特征正则表达式和非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合,包括:
对包含所述目标流量样本和所述非目标流量样本的样本集合进行采样,获得验证样本集合;
基于所述特征表达式集合对所述验证样本集合中的样本进行验证,确定所述特征表达式集合的命中率;
基于所述特征表达式集合的命中率与目标阈值之间的大小关系,确定所述目标特征表达式集合。
6.一种流量特征提取装置,其特征在于,所述装置包括:
获取模块,用于获取具有目标特征的目标流量样本;
聚类模块,用于对通过从所述目标流量样本中抽样获得的目标特征提取样本集进行聚类,获得扫描攻击组和非扫描攻击组;
第一提取模块,用于基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式;以及,基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式;
所述基于递归扫描特征字串提取方法,从所述扫描攻击组中提取出扫描特征正则表达式,包括:
逐次从所述扫描攻击组中提取出最长公共字串直至不存在公共字串,获得扫描特征字串集合;
将所述扫描特征字串集合转换成所述扫描特征正则表达式;
所述基于用于识别所述目标特征的流量分类模型,从所述非扫描攻击组中提取出非扫描特征正则表达式,包括:
基于模型推断方法,从所述非扫描攻击组中提取被所述流量分类模型分类为具有所述目标特征的关键字串序列,获得非扫描特征字串集合;
将所述非扫描特征字串集合转换成所述非扫描特征正则表达式;
验证模块,用于对包含所述扫描特征正则表达式和所述非扫描特征正则表达式的特征表达式集合进行验证,确定目标特征表达式集合;
第二提取模块,用于基于所述目标特征表达式集合,对待处理流量的所述目标特征进行提取。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一权利要求所述的方法步骤。
8.一种计算机设备,包括存储,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一权利要求所述的方法步骤。
CN202010674631.7A 2020-07-14 2020-07-14 流量特征提取方法及装置 Active CN111818067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010674631.7A CN111818067B (zh) 2020-07-14 2020-07-14 流量特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010674631.7A CN111818067B (zh) 2020-07-14 2020-07-14 流量特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN111818067A CN111818067A (zh) 2020-10-23
CN111818067B true CN111818067B (zh) 2022-07-15

Family

ID=72842499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010674631.7A Active CN111818067B (zh) 2020-07-14 2020-07-14 流量特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN111818067B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801157A (zh) * 2021-01-20 2021-05-14 招商银行股份有限公司 扫描攻击的检测方法、装置和计算机可读存储介质
CN113660230B (zh) * 2021-08-06 2023-02-28 杭州安恒信息技术股份有限公司 云安全防护测试方法、系统、计算机及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959926A (zh) * 2018-06-27 2018-12-07 杭州安恒信息技术股份有限公司 一种sql注入攻击的检测方法
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统
CN110233849A (zh) * 2019-06-20 2019-09-13 电子科技大学 网络安全态势分析的方法及系统
CN110460606A (zh) * 2019-08-16 2019-11-15 中国银行股份有限公司 一种二阶sql注入漏洞检测方法、装置及设备
CN110855676A (zh) * 2019-11-15 2020-02-28 腾讯科技(深圳)有限公司 网络攻击的处理方法、装置及存储介质
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN111092862A (zh) * 2019-11-29 2020-05-01 中国电力科学研究院有限公司 一种用于对电网终端通信流量异常进行检测的方法及系统
CN111181980A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 一种面向网络安全的正则表达式的匹配方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10440035B2 (en) * 2015-12-01 2019-10-08 Cisco Technology, Inc. Identifying malicious communication channels in network traffic by generating data based on adaptive sampling
US9973521B2 (en) * 2015-12-28 2018-05-15 International Business Machines Corporation System and method for field extraction of data contained within a log stream

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959926A (zh) * 2018-06-27 2018-12-07 杭州安恒信息技术股份有限公司 一种sql注入攻击的检测方法
CN109960729A (zh) * 2019-03-28 2019-07-02 国家计算机网络与信息安全管理中心 Http恶意流量的检测方法及系统
CN110233849A (zh) * 2019-06-20 2019-09-13 电子科技大学 网络安全态势分析的方法及系统
CN110460606A (zh) * 2019-08-16 2019-11-15 中国银行股份有限公司 一种二阶sql注入漏洞检测方法、装置及设备
CN110855676A (zh) * 2019-11-15 2020-02-28 腾讯科技(深圳)有限公司 网络攻击的处理方法、装置及存储介质
CN111092862A (zh) * 2019-11-29 2020-05-01 中国电力科学研究院有限公司 一种用于对电网终端通信流量异常进行检测的方法及系统
CN111092894A (zh) * 2019-12-23 2020-05-01 厦门服云信息科技有限公司 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN111181980A (zh) * 2019-12-31 2020-05-19 奇安信科技集团股份有限公司 一种面向网络安全的正则表达式的匹配方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于n- gram 多特征的流量载荷类型分类方法》;丁杰;《计算机应用与软件》;20170228;1-8 *

Also Published As

Publication number Publication date
CN111818067A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
David et al. Deepsign: Deep learning for automatic malware signature generation and classification
CN108156131B (zh) Webshell检测方法、电子设备和计算机存储介质
Ito et al. Web application firewall using character-level convolutional neural network
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN111639337B (zh) 一种面向海量Windows软件的未知恶意代码检测方法及系统
CN103532944B (zh) 一种捕获未知攻击的方法和装置
CN111818067B (zh) 流量特征提取方法及装置
Harichandran et al. Bytewise approximate matching: the good, the bad, and the unknown
Nataraj et al. Sarvam: Search and retrieval of malware
CN109284613B (zh) 标识检测及仿冒站点检测方法、装置、设备及存储介质
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
WO2022116419A1 (zh) 域名侵权的自动化判定方法、装置、电子设备和存储介质
EP3905084A1 (en) Method and device for detecting malware
WO2020082763A1 (zh) 基于决策树的钓鱼网站检测方法、装置及计算机设备
CN110569350A (zh) 法条推荐方法、设备和存储介质
CN113901465A (zh) 一种基于异质网络的Android恶意软件检测方法
CN111260220A (zh) 群控设备识别方法、装置、电子设备和存储介质
CN113381963A (zh) 一种域名检测方法、装置和存储介质
CN110704841A (zh) 一种基于卷积神经网络的大规模安卓恶意应用检测系统及方法
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN112751804B (zh) 一种仿冒域名的识别方法、装置和设备
CN103324886A (zh) 一种网络攻击检测中指纹库的提取方法和系统
CN109672586A (zh) 一种dpi业务流量识别方法、装置与计算机可读存储介质
CN109672678B (zh) 一种钓鱼网站识别方法及装置
CN111144546A (zh) 评分方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant