CN113452648A - 检测网络攻击的方法、装置、设备和计算机可读介质 - Google Patents

检测网络攻击的方法、装置、设备和计算机可读介质 Download PDF

Info

Publication number
CN113452648A
CN113452648A CN202010213293.7A CN202010213293A CN113452648A CN 113452648 A CN113452648 A CN 113452648A CN 202010213293 A CN202010213293 A CN 202010213293A CN 113452648 A CN113452648 A CN 113452648A
Authority
CN
China
Prior art keywords
network
network attack
training data
classifier
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010213293.7A
Other languages
English (en)
Inventor
刘海丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010213293.7A priority Critical patent/CN113452648A/zh
Publication of CN113452648A publication Critical patent/CN113452648A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了检测网络攻击的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:接收网络检测数据;将所述网络检测数据输入网络攻击分类器,所述网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;所述网络攻击分类器输出所述网络检测数据的分类结果,所述分类结果包括所述网络检测数据属于不同类别的概率,将最大概率对应的类别作为所述网络检测数据的类别。该实施方式能够减少漏检,错检的情况,提高检测网络攻击的准确性。

Description

检测网络攻击的方法、装置、设备和计算机可读介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种检测网络攻击的方法、装置、设备和计算机可读介质。
背景技术
随着互联网日趋生活化,很多票务厂商已经将传统的线下窗口售票方式搬到线上,通过互联网售票。
近几年,随着网络技术的不断升级,不少黑客采用技术手段实现不正当爬取、刷票和占票等网络攻击行为。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术,大多通过IP黑白名单以及限制IP在单位时间内的访问频率作为判断防爬取、防刷票、放占票的主要手段,但仍存在漏检,错检的情况。
发明内容
有鉴于此,本发明实施例提供一种检测网络攻击的方法、装置、设备和计算机可读介质,能够减少漏检,错检的情况,提高检测网络攻击的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种检测网络攻击的方法,包括:
接收网络检测数据;
将所述网络检测数据输入网络攻击分类器,所述网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;
所述网络攻击分类器输出所述网络检测数据的分类结果,所述分类结果包括所述网络检测数据属于不同类别的概率,将最大概率对应的类别作为所述网络检测数据的类别。
所述网络攻击数据包括以下一种或多种数据:攻击、爬取、刷票和占票。
所述聚类后的随机森林分类器是采用以下一种聚类方法聚类后的得到的,所述聚类方法包括k均值聚类算法、学习向量量化和高斯混合聚类。
所述方法还包括:
提取网络攻击训练数据中的特征,依据所述特征将所述网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,所述异常网络攻击训练数据包括多类异常行为训练数据;
将所述正常网络攻击训练数据和所述多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;
将归一化处理后的训练数据聚合为不同类型的簇;
以所述不同类型的簇,训练随机森林分类器,得到所述网络攻击分类器。
所述以所述不同类型的簇,训练随机森林分类器,得到所述网络攻击分类器,包括:
以不同类型的簇中网络攻击训练数据的所属类别,训练随机森林分类器,得到所述网络攻击分类器,所属类别包括正常、攻击、爬取、刷票和占票。
根据本发明实施例的第二方面,提供了一种检测网络攻击的方法,包括:
提取网络攻击训练数据中的特征,依据所述特征将所述网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,所述异常网络攻击训练数据包括多类异常行为训练数据;
将所述正常网络攻击训练数据和所述多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;
将归一化处理后的训练数据聚合为不同类型的簇;
以所述不同类型的簇,训练随机森林分类器,得到网络攻击分类器,所述网络攻击分类器用于检测网络攻击。
根据本发明实施例的第三方面,提供了一种检测网络攻击的装置,包括
接收模块,用于接收网络检测数据;
分类模块,用于将所述网络检测数据输入网络攻击分类器,所述网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;
确定模块,用于控制所述网络攻击分类器输出所述网络检测数据的分类结果,所述分类结果包括所述网络检测数据属于不同类别的概率,将最大概率对应的类别作为所述网络检测数据的类别。
根据本发明实施例的第四方面,提供了一种检测网络攻击的装置,包括
特征模块,用于提取网络攻击训练数据中的特征,依据所述特征将所述网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,所述异常网络攻击训练数据包括多类异常行为训练数据;
处理模块,用于将所述正常网络攻击训练数据和所述多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;
聚合模块,用于将归一化处理后的训练数据聚合为不同类型的簇;
训练模块,用于以所述不同类型的簇,训练随机森林分类器,得到网络攻击分类器,所述网络攻击分类器用于检测网络攻击。
根据本发明实施例的第五方面,提供了一种检测网络攻击的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的方法。
根据本发明实施例的第六方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述的方法。
上述发明中的一个实施例具有如下优点或有益效果:接收网络检测数据;将网络检测数据输入网络攻击分类器,网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;网络攻击分类器输出网络检测数据的分类结果,分类结果包括网络检测数据属于不同类别的概率,将最大概率对应的类别作为网络检测数据的类别。由于网络攻击分类器能够准确输出网络检测数据的所属行为的类别,可以辨识网络检测数据的行为,进而能够减少漏检,错检的情况,提高检测网络攻击的准确性。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的检测网络攻击的方法的主要流程的示意图;
图2是根据本发明实施例的另一个检测网络攻击的方法的主要流程的示意图;
图3是根据本发明实施例的一个网络攻击训练数据的检测次数示意图;
图4是根据本发明实施例的另一个网络攻击训练数据的检测次数示意图;
图5是根据本发明实施例的归一化的网络攻击训练数据分簇的示意图;
图6是本发明实施例中建立网络攻击分类器的应用示意图;
图7是根据本发明实施例的检测网络攻击的装置的主要结构的示意图;
图8是根据本发明实施例的另一个检测网络攻击的装置的主要结构的示意图;
图9是本发明实施例可以应用于其中的示例性系统架构图;
图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
互联网售票催生在线购票平台,进而产生网络黄牛。网络黄牛就是依靠网络技术手段,付费协助用户从在线购票网站采用不正当技术手段的抢票系统或平台。
例如:购买春运火车票。在很多的互联网抢票平台上,都会有各种加速抢票和提高抢票成功几率的付费加速服务。所谓付费加速服务,类似于网络黄牛收取的手续费,只是更换名字。
当然,还有很多票种也会出现类似春运抢票一样被刷票的情况,比如热门飞机票、门票、演出票、粉丝见面会,以及廉价的打折票,优惠券等,都存在被爬取刷票的事件,不但影响正常购票,还给商家带来损失。
随着网络技术的不断升级,对于网络黄牛的攻防战也成为网络安全领域的关注度较高的问题。
目前,现有技术方案大多通过IP黑白名单以及限制IP在单位时间内的访问频率作为判断防爬取、防刷票、防占票的主要手段,但仍存在漏检,错检,检测网络攻击的准确性较低。
为了解决检测网络攻击的准确性较低的技术问题,可以采用以下本发明实施例中的技术方案。
参见图1,图1是根据本发明实施例的检测网络攻击的方法的主要流程的示意图,网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的,可以输出网络检测数据的分类结果。如图1所示,具体包括以下步骤:
S101、接收网络检测数据。
本发明实施例中的技术方案可以应用于在线购票平台。作为一个示例,在线购票平台会接收到用户发送的购票请求。为了避免不正当技术手段,可以将购票请求作为网络检测数据以进行检测。
S102、将网络检测数据输入网络攻击分类器,网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的。
为了判断网络检测数据是否网络攻击,需要将网络检测数据输入网络攻击分类器。
在本发明实施例中,网络攻击分类器是一种将网络检测数据映射到网络攻击类别的分类器。可以利用聚类后的随机森林分类器训练得到网络攻击分类器。随机森林是一个包含多个决策树的分类器,即利用多棵决策树对样本进行训练并预测的分类器。考虑到网络攻击具体包括多种攻击类型,采用随机森林分类器可以输出网络检测数据的攻击类型。
随机森林分类器具有随机选择以及不需要先验知识的特点,但由于随机森林分类器本身无法保证数据集样本的相关性是否为最小,而产生分类精度较低的问题。
为了解决直接采用随机森林分类器,所产生分类精度较低的问题,在本发明的实施例中,对随机森林分类器进行升级改进,引入聚类。也就是说,对于网络检测数据先进行聚类,然后再由随机森林分类器进行分类。这样,先聚类能够保证数据集样本的相关性为最小,然后经随机森林分类器分类,进而提高分类精度。
在本发明的一个实施例中,可以采用以下一种聚类方法进行聚类:k均值聚类算法、学习向量量化和高斯混合聚类。
k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
学习向量量化属于原型聚类,即试图找到一组原型向量来聚类,每个原型向量代表一个簇,将空间划分为若干个簇,从而对于任意的样本,可以将它划入到它距离最近的簇中,不同的是学习向量量化假设数据样本带有类别标记,因此可以利用这些类别标记来辅助聚类。
高斯混合聚类是用高斯概率密度函数精确地量化事物,是将事物分解为若干的基于高斯概率密度函数形成的聚类方法。
在本发明实施例中,需要利用网络攻击数据,训练聚类后的随机森林分类器,以得到网络攻击分类器。网络攻击数据是已识别的具有网络攻击特征的数据。作为一个示例,网络攻击数据可以包括以下一种或多种数据:攻击、爬取、刷票和占票。可见,上述网络攻击数据是针对识别网络黄牛的数据。当然,为了识别其他在网络中涉及的行为,可以基于该行为的数据训练聚类后的随机森林分类器。
具体来说,对于攻击、爬取、刷票和占票等操作,都会有相关的特征,如:持续时间、协议、服务、符号,源字节和目标字节等。利用上述网络攻击数据,训练聚类后的随机森林分类器,可以得到网络攻击分类器。
S103、网络攻击分类器输出网络检测数据的分类结果,分类结果包括网络检测数据属于不同类别的概率,将最大概率对应的类别作为网络检测数据的类别。
网络攻击分类器基于网络检测数据,输出网络检测数据的分类结果。网络攻击分类器可以识别多种类别的网络攻击,那么分类结果中包括网络检测数据属于不同类别的概率。
作为一个示例,网络攻击分类器可以识别攻击、爬取、刷票和占票,合计四种网络攻击类别。那么分类结果包括(0.1;0.2;0.5;0.3)。
分类结果中的第一个参数代表网络攻击是:攻击的概率0.1;分类结果中的第二个参数代表网络攻击是:爬取的概率0.2;分类结果中的第三个参数代表网络攻击是:刷票的概率0.5;分类结果中的第四个参数代表网络攻击是:占票的概率0.3。
可以将最大概率对应的类别作为网络检测数据的类别。沿用上述事例,刷票的概率0.5,是最大概率。确定网络检测数据的类别为:刷票。
在上述实施例中,接收网络检测数据;将网络检测数据输入网络攻击分类器,网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;网络攻击分类器输出网络检测数据的分类结果,分类结果包括网络检测数据属于不同类别的概率,将最大概率对应的类别作为网络检测数据的类别。由于网络攻击分类器能够准确输出网络检测数据的类别,可以准确辨识网络检测数据的行为,进而能够减少漏检,错检的情况,提高检测网络攻击的准确性。
下面结合附图,示例性说明建立网络攻击分类器的具体过程。
参见图2,图2是根据本发明实施例的另一个检测网络攻击的方法的主要流程的示意图,具体包括:
S201、提取网络攻击训练数据中的特征,依据特征将网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,异常网络攻击训练数据包括多类异常行为训练数据。
在本发明实施例中,预先准备网络攻击训练数据,并提取网络攻击训练数据中的特征。作为一个示例,网络攻击训练数据中的特征可以包括:持续时间、协议、服务,以及用户画像等。
在本发明实施例中,利用聚类后的随机森林分类器进行数据训练,其重要的一个优点是:在内部训练的同时拆分数据。
具体来说,依据特征将网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据。可以理解的是,正常网络攻击训练数据是指将不属于网络攻击数据的数据作为训练数据。异常网络攻击训练数据是指将属于网络攻击数据的数据作为训练数据。也就是说,将正常网络攻击训练数据作为正样本;将异常网络攻击训练数据作为负样本。
在本发明实施例中,异常网络攻击训练数据包括多类异常行为训练数据。作为一个示例,异常行为训练数据包括以下几种:攻击、爬取、刷票和占票。如:攻击以下四种攻击行为中的一种或多种:拒绝访问(Denial-Of-Service,DOS);Remote to Local;远程非法获得主机用户权限;本地非授权用户非法获取管理员权限(User to Root,U2R);非法扫描(Surveillance or probe,Probe)等。爬取、刷票和占票是从业务角度考虑的异常行为训练数据。
为了方便训练网络攻击分类器,需要将上述类别编入索引,同时添加唯一ID列简化对数据的处理。
参见图3,图3是根据本发明实施例的一个网络攻击训练数据的检测次数示意图。图3中网络攻击训练数据包括两个具体标签,分别为正常和入侵。正常即正常网络攻击训练数据;入侵即异常网络攻击训练数据。图3中正常的检测次数是A次,入侵的检测次数是B次。
可以理解的是,采用图3中的网络攻击训练数据,正常的检测次数是A次,入侵的检测次数是B次。
参见图4,图4是根据本发明实施例的另一个网络攻击训练数据的检测次数示意图。图4中网络攻击训练数据包括四个具体标签,分别为攻击、爬取、刷票和占票。上述4个标签均属于异常网络攻击训练数据。图4中攻击的检测次数是10次,爬取的检测次数是10次,刷票的检测次数是15次,占票的检测次数是15次。
可以理解的是,采用图4中的网络攻击训练数据,攻击的检测次数是10次,爬取的检测次数是10次,刷票的检测次数是15次,占票的检测次数是15次。
S202、将正常网络攻击训练数据和多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理。
将正常网络攻击训练数据和多类异常网络攻击训练数据,转换为数值特征数据。作为一个示例,可以采用属性比率特征算法,将正常网络攻击训练数据和多类异常网络攻击训练数据的字符型特征转换为数值特征。
属性比率特征算法,即根据样本中各不同属性数据之间的比值进行特征选择。作为一个示例,样本中10次访问中有4次爬虫和2次恶意攻击,那么比值即10:4:2,即每10各样本中就会出现4次爬虫和2次异常网络攻击。特征选择是指从一组给定的特征中选择出一些有效特征从而降低特征空间大小的过程。即,将出现次数最多的属性类型定义为1,次之为2,以此类推。
作为一个示例,传输控制协议(Transmission Control Protocol,TCP)协议重复频率最高,可以将TCP协议类型转换为数字1;而用户数据报协议(User DatagramProtocol,UDP)协议重复频率次之,则将其转换为数字2,以此类推。
最后,为了便于计算可以将数值特征进行归一化处理,得到归一化处理后的训练数据。
S203、将归一化处理后的训练数据聚合为不同类型的簇。
采用聚类方法,可以将归一化处理后的训练数据聚合为不同类型的簇。下面以聚类方法是高斯混合聚类为例,进行示例性的说明。
预先设置聚类簇数,以及最大迭代次数,经过高斯混合聚类后,将归一化处理后的训练数据聚合为不同类型的簇。
通过高斯混合聚类之后,网络攻击训练数据将被分成不同的簇,由于高斯混合聚类特有的概率密度函数聚类方法,使得每个簇之间的相关性很小,这样对于每个簇的随机森林分类器训练就非常有利。
参见图5,图5是根据本发明实施例的归一化的网络攻击训练数据分簇的示意图。图5中,归一化的网络攻击训练数据分为8个簇,簇别ID分别为:0至7。其中,每个簇记录黄牛次数即确定为网络黄牛的次数;正常次数;总次数。针对每个簇训练随机森林分类器。
最大迭代次数即随机森林分类器的训练次数。可以预先设置最大迭代次数,最大迭代次数需要满足随机森林分类器收敛即可。
S204、以不同类型的簇,训练随机森林分类器,得到网络攻击分类器,网络攻击分类器用于检测网络攻击。
在本发明的一个实施例中,以不同类型的簇中网络攻击训练数据的所属类别,训练随机森林分类器,得到网络攻击分类器。
具体来说,由于已经获知网络攻击训练数据的所属类别,所属类别包括正常、攻击、爬取、刷票和占票。那么,将网络攻击训练数据输入随机森林分类器,基于随机森林分类器的输出结果与网络攻击训练数据的所属类别是否相同,训练随机森林分类器。
利用不同类型的簇和网络攻击训练数据的标签,训练随机森林分类器,完成最大迭代次数后,得到网络攻击分类器。网络攻击分类器用于检测网络攻击。
在上述实施例中,提取网络攻击训练数据中的特征,依据特征将网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,异常网络攻击训练数据包括多类异常行为训练数据;将正常网络攻击训练数据和多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;将归一化处理后的训练数据聚合为不同类型的簇;以不同类型的簇,训练随机森林分类器,得到网络攻击分类器,网络攻击分类器用于检测网络攻击。由于先将训练数据聚合为不同类型的簇,先聚类能够保证数据集样本的相关性为最小,然后经随机森林分类器分类,避免过拟合现象,进而提高分类精度。
参见图6,图6是本发明实施例中建立网络攻击分类器的应用示意图。图6中将网络攻击数据分为网络攻击训练数据和网络攻击测试数据。作为一个示例,网络攻击训练数据与网络攻击测试数据的比例是:4:1。这样可以利用网络攻击训练数据与网络攻击测试数据进行5折交叉验证。
交叉验证是将原始数据分组,一部分作为训练集,另一部分作为验证集。先利用训练集训练分类器,再利用验证集测试训练得到的模型,以此作为评价分类器的性能指标。
S601、网络攻击数据
将网络攻击数据分为网络攻击训练数据和网络攻击测试数据。
S602、网络攻击训练数据。
网络攻击训练数据,用于训练聚类后的随机森林分类器。
S603、网络攻击测试数据。
网络攻击测试数据,用于测试训练得到的网络攻击分类器。
S604、特征提取。
提取网络攻击训练数据的特征,具体可以参见S201。
S605、数值转换。
将网络攻击训练数据的字符型特征,转换为数值特征数据。
S606、归一化。
归一化数据特征数据。
S607、聚类后,训练随机森林分类器。
将归一化处理后的训练数据聚合为不同类型的簇,结合网络攻击训练数据的标签,训练随机森林分类器。
S608、构建网络攻击分类器
构建得到网络攻击分类器。
S609、测试网络攻击分类器。
利用网络攻击测试数据,测试网络攻击分类器。
S610、测试结果。
输出测试结果。
在本发明实施例中,升级随机森林分类器,在训练随机森林分类器之前进行聚类。将网络攻击训练数据分成若干个簇,然后再为每个簇训练不同的随机森林分类器,进而能够提高检测网络攻击的准确性。
下面具体分析采用本发明实施例技术方案得到网络攻击分类器的泛化能力。
一个分类器能正确分类测试数据的能力称为泛化性。泛化性是各种机器学习算法优化的目标,用以衡量泛化性的参数即泛化误差,即分类器对测试数据的误分率。
根据大数定律为理论基础证明得到的:随机森林分类器中的树的数量的增大,随机森林分类器的泛化误差会趋向一个有限的上限。通过公式(1)解释随机森林分类器的收敛性。
Figure BDA0002423542330000131
下述是对应公式(1)中各参数的解释和说明。mg(Vi,Yi)是衡量分类器将特定样本x正确分类的平均票数,与将其错误分类为其他分类的平均票数之最小差值。mg(Vi,Yi)越大,分类器的性能越好。Vi是由高斯混合聚类之后得到的后验密度特征向量。I()是指示函数,αvk为取平均值。
定义h(Vii)是Vi和k个独立同分布的随机向量(θ12,…,θk)产生的决策树。另外,定义构建决策树Yi,则有边缘函数。
通过如上公式(1)就可以在判断Vi,分类为Yi时,通过平均投票数超过其它类的程度得到正确分类的置信度。之后把
((V1,Y1),(V2,Y2),…,(Vk,Yk))作为包含特征向量的训练集,对于每一个决策树都通过随机选择的特征进行分割。
由于随机森林是通过随机抽取特征的方式来进行建树,以避免特征的高维计算,所以对于每一个决策树的特征维度m是小于n的。由高斯混合聚类之后得到的每一个簇都含有n个特征,最终通过汇总所有决策树的结果得到随机森林分类器。
最后,通过袋外错误率作为验证每个簇训练出来的随机森林分类器的误分率,从而得到网络入侵的误检率指标。袋外错误率是评述随机森林分类器的常用参数。
因此,由上述分析可知,通过高斯混合聚类之后,将相关性较小的不同簇用于随机森林分类器的训练可以得到更好训练效果,从而可知对于网络攻击分类器应用于网络黄牛检测中准确率更高。
参见图7,图7是根据本发明实施例的检测网络攻击的装置的主要结构的示意图,检测网络攻击的装置可以实现检测网络攻击的方法,如图7所示,检测网络攻击的装置具体包括:
接收模块701,用于接收网络检测数据。
分类模块702,用于将网络检测数据输入网络攻击分类器,网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的。
确定模块703,用于控制网络攻击分类器输出网络检测数据的分类结果,分类结果包括网络检测数据属于不同类别的概率,将最大概率对应的类别作为网络检测数据的类别。
在本发明的一个实施例中,网络攻击数据包括以下一种或多种数据:攻击、爬取、刷票和占票。
在本发明的一个实施例中,聚类后的随机森林分类器是采用以下一种聚类方法聚类后的得到的,聚类方法包括k均值聚类算法、学习向量量化和高斯混合聚类。
在本发明的一个实施例中,还包括控制模块704,具体用于提取网络攻击训练数据中的特征,依据特征将网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,异常网络攻击训练数据包括多类异常行为训练数据;
将正常网络攻击训练数据和多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;
将归一化处理后的训练数据聚合为不同类型的簇;
以不同类型的簇,训练随机森林分类器,得到网络攻击分类器。
在本发明的一个实施例中,控制模块704,具体用于以不同类型的簇中网络攻击训练数据的所属类别,训练随机森林分类器,得到网络攻击分类器,所属类别包括正常、攻击、爬取、刷票和占票。
参见图8,图8是根据本发明实施例的另一个检测网络攻击的装置的主要结构的示意图,检测网络攻击的装置可以实现检测网络攻击的方法,如图8所示,检测网络攻击的装置具体包括:
特征模块801,用于提取网络攻击训练数据中的特征,依据特征将所述网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,异常网络攻击训练数据包括多类异常行为训练数据。
处理模块802,用于将正常网络攻击训练数据和多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理。
聚合模块803,用于将归一化处理后的训练数据聚合为不同类型的簇。
训练模块804,用于以不同类型的簇,训练随机森林分类器,得到网络攻击分类器,网络攻击分类器用于检测网络攻击。
图9示出了可以应用本发明实施例的检测网络攻击的方法或检测网络攻击的装置的示例性系统架构900。
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的检测网络攻击的方法一般由服务器905执行,相应地,检测网络攻击的装置一般设置于服务器905中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备的计算机系统1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
接收网络检测数据;
将所述网络检测数据输入网络攻击分类器,所述网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;
所述网络攻击分类器输出所述网络检测数据的分类结果,所述分类结果包括所述网络检测数据属于不同类别的概率,将最大概率对应的类别作为所述网络检测数据的类别。
根据本发明实施例的技术方案,接收网络检测数据;将网络检测数据输入网络攻击分类器,网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;网络攻击分类器输出网络检测数据的分类结果,分类结果包括网络检测数据属于不同类别的概率,将最大概率对应的类别作为网络检测数据的类别。由于网络攻击分类器能够准确输出网络检测数据的所属行为的类别,可以辨识网络检测数据的行为,进而能够减少漏检,错检的情况,提高检测网络攻击的准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种检测网络攻击的方法,其特征在于,包括:
接收网络检测数据;
将所述网络检测数据输入网络攻击分类器,所述网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;
所述网络攻击分类器输出所述网络检测数据的分类结果,所述分类结果包括所述网络检测数据属于不同类别的概率,将最大概率对应的类别作为所述网络检测数据的类别。
2.根据权利要求1所述检测网络攻击的方法,其特征在于,所述网络攻击数据包括以下一种或多种数据:攻击、爬取、刷票和占票。
3.根据权利要求1所述检测网络攻击的方法,其特征在于,所述聚类后的随机森林分类器是采用以下一种聚类方法聚类后的得到的,所述聚类方法包括k均值聚类算法、学习向量量化和高斯混合聚类。
4.根据权利要求1所述检测网络攻击的方法,其特征在于,所述方法还包括:
提取网络攻击训练数据中的特征,依据所述特征将所述网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,所述异常网络攻击训练数据包括多类异常行为训练数据;
将所述正常网络攻击训练数据和所述多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;
将归一化处理后的训练数据聚合为不同类型的簇;
以所述不同类型的簇,训练随机森林分类器,得到所述网络攻击分类器。
5.根据权利要求4所述检测网络攻击的方法,其特征在于,所述以所述不同类型的簇,训练随机森林分类器,得到所述网络攻击分类器,包括:
以不同类型的簇中网络攻击训练数据的所属类别,训练随机森林分类器,得到所述网络攻击分类器,所属类别包括正常、攻击、爬取、刷票和占票。
6.一种检测网络攻击的方法,其特征在于,包括:
提取网络攻击训练数据中的特征,依据所述特征将所述网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,所述异常网络攻击训练数据包括多类异常行为训练数据;
将所述正常网络攻击训练数据和所述多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;
将归一化处理后的训练数据聚合为不同类型的簇;
以所述不同类型的簇,训练随机森林分类器,得到网络攻击分类器,所述网络攻击分类器用于检测网络攻击。
7.一种检测网络攻击的装置,其特征在于,包括
接收模块,用于接收网络检测数据;
分类模块,用于将所述网络检测数据输入网络攻击分类器,所述网络攻击分类器是基于网络攻击数据和聚类后的随机森林分类器训练得到的;
确定模块,用于控制所述网络攻击分类器输出所述网络检测数据的分类结果,所述分类结果包括所述网络检测数据属于不同类别的概率,将最大概率对应的类别作为所述网络检测数据的类别。
8.一种检测网络攻击的装置,其特征在于,包括
特征模块,用于提取网络攻击训练数据中的特征,依据所述特征将所述网络攻击训练数据分为正常网络攻击训练数据和异常网络攻击训练数据,所述异常网络攻击训练数据包括多类异常行为训练数据;
处理模块,用于将所述正常网络攻击训练数据和所述多类异常网络攻击训练数据,转换为数值特征数据,并进行归一化处理;
聚合模块,用于将归一化处理后的训练数据聚合为不同类型的簇;
训练模块,用于以所述不同类型的簇,训练随机森林分类器,得到网络攻击分类器,所述网络攻击分类器用于检测网络攻击。
9.一种检测网络攻击的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN202010213293.7A 2020-03-24 2020-03-24 检测网络攻击的方法、装置、设备和计算机可读介质 Pending CN113452648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010213293.7A CN113452648A (zh) 2020-03-24 2020-03-24 检测网络攻击的方法、装置、设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010213293.7A CN113452648A (zh) 2020-03-24 2020-03-24 检测网络攻击的方法、装置、设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN113452648A true CN113452648A (zh) 2021-09-28

Family

ID=77806424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010213293.7A Pending CN113452648A (zh) 2020-03-24 2020-03-24 检测网络攻击的方法、装置、设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN113452648A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113904837A (zh) * 2021-09-30 2022-01-07 北京天融信网络安全技术有限公司 一种攻击检测的方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
CN107276805A (zh) * 2017-06-19 2017-10-20 北京邮电大学 一种基于入侵检测模型的样本预测方法、装置及电子设备
CN107276999A (zh) * 2017-06-08 2017-10-20 西安电子科技大学 一种无线传感器网络中的事件检测方法
CN107733851A (zh) * 2017-08-23 2018-02-23 刘胜利 基于通信行为分析的dns隧道木马检测方法
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN110519228A (zh) * 2019-07-22 2019-11-29 中国科学院信息工程研究所 一种黑产场景下恶意云机器人的识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713324A (zh) * 2016-12-28 2017-05-24 北京奇艺世纪科技有限公司 一种流量检测方法及装置
CN107276999A (zh) * 2017-06-08 2017-10-20 西安电子科技大学 一种无线传感器网络中的事件检测方法
CN107276805A (zh) * 2017-06-19 2017-10-20 北京邮电大学 一种基于入侵检测模型的样本预测方法、装置及电子设备
CN107733851A (zh) * 2017-08-23 2018-02-23 刘胜利 基于通信行为分析的dns隧道木马检测方法
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN110519228A (zh) * 2019-07-22 2019-11-29 中国科学院信息工程研究所 一种黑产场景下恶意云机器人的识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏景明等: "改进的随机森林分类器网络入侵检测方法", 《计算机工程与设计》 *
夏景明等: "改进的随机森林分类器网络入侵检测方法", 《计算机工程与设计》, 31 August 2019 (2019-08-31), pages 1 - 3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113904837A (zh) * 2021-09-30 2022-01-07 北京天融信网络安全技术有限公司 一种攻击检测的方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN109241418B (zh) 基于随机森林的异常用户识别方法及装置、设备、介质
CN109787960B (zh) 异常流量数据识别方法、装置、介质及电子设备
US20210051169A1 (en) Thwarting model poisoning in federated learning
CN111507470A (zh) 一种异常账户的识别方法及装置
CN110798488B (zh) Web应用攻击检测方法
CN111400357A (zh) 一种识别异常登录的方法和装置
WO2022021977A1 (zh) 黑产账号检测方法、装置、计算机设备和介质
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111931047B (zh) 基于人工智能的黑产账号检测方法及相关装置
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
WO2021226301A1 (en) Machine learning-based method and system for detecting plaintext passwords
US11647030B2 (en) Detecting fraud rings in information technology systems
CN110852761B (zh) 制定反作弊策略的方法、装置及电子设备
CN110335061B (zh) 交易模式画像建立方法、装置、介质及电子设备
CN111967503A (zh) 多类型异常网页分类模型的构建方法、异常网页检测方法
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN113452648A (zh) 检测网络攻击的方法、装置、设备和计算机可读介质
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN116739605A (zh) 交易数据检测方法、装置、设备及存储介质
CN114363082B (zh) 网络攻击检测方法、装置、设备及计算机可读存储介质
CN115758336A (zh) 一种资产识别方法及装置
WO2019143360A1 (en) Data security using graph communities
CN111046892A (zh) 异常识别方法和装置
CN113037555B (zh) 风险事件标记方法、风险事件标记装置和电子设备
CN114925365A (zh) 一种文件处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination