CN112688897A - 一种流量识别的方法、装置、存储介质及电子设备 - Google Patents
一种流量识别的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN112688897A CN112688897A CN201910989370.5A CN201910989370A CN112688897A CN 112688897 A CN112688897 A CN 112688897A CN 201910989370 A CN201910989370 A CN 201910989370A CN 112688897 A CN112688897 A CN 112688897A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- model
- characteristic
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种流量识别的方法、装置、存储介质及电子设备,其中,该方法包括:预先设置多个特征模型;提取样本流量中的样本特征;确定每个样本特征所对应的特征模型,对特征模型进行训练,并为每个特征模型分配相应的权重值;获取待识别的目标流量,并提取目标特征;根据每个训练好的特征模型的输出以及相应的权重值确定目标流量的综合预测结果,并根据综合预测结果确定目标流量是否为恶意流量。通过本发明实施例提供的流量识别的方法、装置、存储介质及电子设备,对流量的特征进行分类训练检测,可以改善传统AI单模型结果可解释性差的问题;且提高了识别准确率,完整流量或者非完整流量均可进行准确识别,可适用于更多识别场景。
Description
技术领域
本发明涉及流量识别的技术领域,具体而言,涉及一种流量识别的方法、装置、存储介质及电子设备。
背景技术
基于目前的互联网技术研究预测,在2019年,超过80%的企业网络流量将被加密,且主要通过SSL(Secure Sockets Layer,安全套接层)协议进行加密;同时,加密的流量中将隐藏超过50%的恶意网络流量,所以对于恶意加密流量的识别技术的实现迫在眉睫。
目前,对于加密流量的检测是业界的一个难点,AI(Artificial Intelligence,人工智能)技术的发展为加密流量的检测带来了新的解决思路与方法。对于加密流量通过AI进行识别,一般的技术方案是对黑样本与白样本的加密流量进行提取特征,然后根据所提取的全部特征进行模型的训练,使用训练好的模型对加密流量进行检测。但目前这种方案在落地应用的过程中存在两大痛点,一是在现网中AI模型的误报率高,另外是AI模型得到的结果的可解释性较差。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种流量识别的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种流量识别的方法,包括:
预先设置多个特征模型;获取样本流量,并提取所述样本流量中的一个或多个样本特征;
确定每个所述样本特征所对应的特征模型,并将所述样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练,分别确定每个训练好的所述特征模型,并为每个所述特征模型分配相应的权重值;
获取待识别的目标流量,并提取所述目标流量中的一个或多个目标特征;
将所述目标特征输入至相应的训练好的所述特征模型,根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果,并根据所述综合预测结果确定所述目标流量是否为恶意流量。
在一种可能的实现方式中,所述提取所述样本流量中的一个或多个样本特征包括:
根据所述样本流量中特征的独立性将所述样本流量的特征分为一个或多个相互独立的样本特征,所述样本特征包括:流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识特征、域名特征或传输协议特征。
在一种可能的实现方式中,所述对所述特征模型进行训练包括:
在第一样本特征和第二样本特征对应同一个特征模型时,将所述第一样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;同时,将所述第二样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;
其中,所述第一样本特征和所述第二样本特征为所述样本流量的不同的样本特征。
在一种可能的实现方式中,所述为每个所述特征模型分配相应的权重值包括:
建立权重模型,所述权重模型的未知参数包括待定的权重值;
将所述样本流量的样本特征输入至相应的训练好的所述特征模型中,确定每个所述特征模型的样本输出;
将所有所述特征模型的样本输出作为所述权重模型的输入、将所述样本流量的结果标签作为所述权重模型的输出,对所述权重模型进行训练,根据训练好的所述权重模型中的参数确定每个所述特征模型对应的权重值。
在一种可能的实现方式中,所述根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果包括:
训练好的所述特征模型根据输入的相对应所述目标特征确定相应的输出,若不存在与训练好的所述特征模型相对应的目标特征时,训练好的所述特征模型输出为零;
根据所有训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果。
第二方面,本发明实施例还提供了一种流量识别的装置,包括:
预处理模块,用于预先设置多个特征模型;获取样本流量,并提取所述样本流量中的一个或多个样本特征;
训练模块,用于确定每个所述样本特征所对应的特征模型,并将所述样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练,分别确定每个训练好的所述特征模型,并为每个所述特征模型分配相应的权重值;
获取模块,用于获取待识别的目标流量,并提取所述目标流量中的一个或多个目标特征;
识别模块,用于将所述目标特征输入至相应的训练好的所述特征模型,根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果,并根据所述综合预测结果确定所述目标流量是否为恶意流量。
在一种可能的实现方式中,所述预处理模块提取所述样本流量中的一个或多个样本特征包括:
根据所述样本流量中特征的独立性将所述样本流量的特征分为一个或多个相互独立的样本特征,所述样本特征包括:流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识特征、域名特征或传输协议特征。
在一种可能的实现方式中,所述训练模块对所述特征模型进行训练包括:
在第一样本特征和第二样本特征对应同一个特征模型时,将所述第一样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;同时,将所述第二样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;
其中,所述第一样本特征和所述第二样本特征为所述样本流量的不同的样本特征。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的流量识别的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的流量识别的方法。
本发明实施例上述第一方面提供的方案中,将流量分为多个特征,预设相应的特征模型,并为每个特征模型设置权重值;在特征模型训练完毕后,基于训练好的多个特征模型即可确定目标流量是否为恶意流量。本实施例中,通过对流量的特征进行分类训练检测,可以改善传统AI单模型结果可解释性差的问题;且根据多个特征模型进行综合决策,提高了识别准确率,且避免了目标流量因部分特征缺失所造成的误报问题;此外,完整流量或者非完整流量均可进行准确识别,尤其对于非完整流量的识别,相对于传统方法来说识别效果较好,可适用于更多识别场景。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种流量识别的方法的流程图;
图2示出了本发明实施例所提供的流量识别的方法中,整体的识别过程示意图;
图3示出了本发明实施例所提供的流量识别的方法中,与传统模型测试结果的比较示意图;
图4示出了本发明实施例所提供的一种流量识别的装置的结构示意图;
图5示出了本发明实施例所提供的用于执行流量识别的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种流量识别的方法,基于多个特征模型对流量进行识别,判断该流量是否为恶意的流量。参见图1所示,该方法包括:
步骤101:预先设置多个特征模型;获取样本流量,并提取样本流量中的一个或多个样本特征。
本发明实施例中,预先设置多个待训练的特征模型;该特征模型的数量可以依据流量中特征的数量确定,每一特征所对应的特征模型可以为相同的模型,也可以为不同的模型,例如可以为不同的分类器、决策模型等,本实施例对此不做限定。
具体的,对原始网络流量经过SSL/TLS流量识别等处理后,可以分离出加密流量,可以将该加密流量作为本实施例中所指的“流量”。其中,该流量可以为SSL流量,流量中可以包含多个特征,即流量中的特征可以划分为多个;本发明实施例中基于流量中特征的独立性对特征进行划分。其中,特征的独立性指的是生成该特征时是否与其他特征无关的特性;即,若流量的某个特征具有独立性,则生成该特征时与生成该流量中其他特征的过程无关,该特征即可作为该流量的一个特征。本发明实施例中,可以将流量的特征划分为流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识(SNI,Server NameIndication)特征、域名(DNS,Domain Name System)特征和传输协议特征,该传输协议特征具体可以为HTTP(Hyper Text Transfer Protocol,超文本传输协议)特征。相应的,可以预先设置与特征对应的特征模型,例如可以预先设置流特征模型、客户端握手特征模型、服务端握手特征模型、证书特征模型、服务名标识特征模型、域名特征模型和传输协议特征模型等。
其中,流特征指的是:与协议无关的流时间、流大小等特征;客户端握手特征(C握手特征)指的是:密钥协商阶段客户端特征;服务端握手特征(S握手特征)指的是:密钥协商阶段服务端特征;证书特征指的是:服务端证书的相关特征;SNI特征指的是:客户端SNI相关特征,例如SNI字符的马尔可夫转移链、SNI分词数、SNI字符与数字切换比例等;DNS特征指的是:加密流量相关联的DNS相关特征,例如DNS字符的马尔可夫转移链、DNS分词数、DNS字符与数字切换比例等;HTTP特征指的是:加密流量相关联的HTTP相关特征,例如请求方式、编码方式、载荷长度等。
本发明实施例中,基于预设的样本流量对特征模型进行训练。其中,该样本流量中可以包含一个或多个特征,即样本特征。同样的,本实施例中根据样本流量中特征的独立性将样本流量的特征分为一个或多个相互独立的样本特征,该样本特征具体可以为:流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识特征、域名特征或传输协议特征等。在确定样本流量的样本特征之后即可对相应的特征模型进行训练。
步骤102:确定每个样本特征所对应的特征模型,并将样本特征作为相应的特征模型的输入、将样本流量的结果标签作为特征模型的输出,对特征模型进行训练,分别确定每个训练好的特征模型,并为每个特征模型分配相应的权重值。
本发明实施例中,将每个特征模型作为独立的模型,基于样本特征分别对相应的特征模型进行训练。同时,若某样本流量中包含多个样本特征,且样本特征对应不同的特征模型时,该样本流量可以用于训练多个特征模型,且训练时多个特征模型的输出均为该样本流量的结果标签。其中,该结果标签用于表示样本流量是否为恶意流量。例如,样本流量A中包含流特征、客户端握手特征、服务端握手特征三个特征,且预先设置了流特征模型、客户端握手特征模型和服务端握手特征模型,则将样本流量A的流特征作为该流特征模型的输入、将样本流量A的结果标签作为该流特征模型的输出对该流特征模型进行训练;类似的,将样本流量A的客户端握手特征作为该客户端握手特征模型的输入、将样本流量A的结果标签作为该客户端握手特征模型的输出对该客户端握手特征模型进行训练,将样本流量A的服务端握手特征作为该服务端握手特征模型的输入、将样本流量A的结果标签作为该服务端握手特征模型的输出对该服务端握手特征模型进行训练。
此外,本实施例中还为每个特征模型设置相应的权重值,该权重值用于生成最终的综合预测结果。其中,所有特征模型的权重值之和为1。本实施例中,可以为每个特征模型分配相同的权重值,也可以基于经验为特征模型设置相应的权重值,也可以利用样本流量进行训练,进而生成相应的权重值。
步骤103:获取待识别的目标流量,并提取目标流量中的一个或多个目标特征。
本发明实施例中,目标流量为需要识别是否为恶意流量的流量。例如,当需要判断某流量是否为恶意流量(例如攻击流量等)时,即可将该流量作为目标流量。此外,目标流量与上述样本流量本质上相同,即该目标流量中也可以包含一个或多个特征,即目标特征,该目标特征也是相互独立的。例如,该目标特征也可以为流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识特征、域名特征或传输协议特征等。该目标流量所包含的目标特征具体基于实际情况而定;该目标流量可能包含了所有的特征,此时该目标流量为完整流量;若目标流量只是包含了部分特征,则该目标特征相对来说并不完整,其为非完整流量。此外,上述训练时所用的样本流量可以为完整的流量,也可以为非完整的流量,本实施例对此不做限定。
步骤104:将目标特征输入至相应的训练好的特征模型,根据每个训练好的特征模型的输出以及相应的权重值确定目标流量的综合预测结果,并根据综合预测结果确定目标流量是否为恶意流量。
本发明实施例中,目标流量中包含一个或多个目标特征,即无论该目标流量为完整流量或者非完整流量,均可以将目标特征输入至相应的特征模型,之后即可确定每个特征模型的输出,之后基于特征模型所对应的权重值即可确定最终的综合预测结果,例如基于加权求和的方式确定综合预测结果;在确定综合预测结果之后即可判断该目标流量是否为恶意流量。本发明实施例中,该综合预测结果可以为该目标流量是恶意流量的概率,当该概率大于预设值(例如0.8)时即可确定该目标流量为恶意流量。
本发明实施例提供的一种流量识别的方法,将流量分为多个特征,预设相应的特征模型,并为每个特征模型设置权重值;在特征模型训练完毕后,基于训练好的多个特征模型即可确定目标流量是否为恶意流量。本实施例中,通过对流量的特征进行分类训练检测,可以改善传统AI单模型结果可解释性差的问题;且根据多个特征模型进行综合决策,提高了识别准确率,且避免了目标流量因部分特征缺失所造成的误报问题;此外,完整流量或者非完整流量均可进行准确识别,尤其对于非完整流量的识别,相对于传统方法来说识别效果较好,可适用于更多识别场景。
在上述实施例的基础上,流量中可以包含多个独立的特征,每个特征均可以对应不同的特征模型。此外,该流量中也可能包含属性类似甚至一致的特征,此时可以将属性相似的特征分配至同一个特征模型。具体的,上述步骤102“对特征模型进行训练”包括:
步骤A1:在第一样本特征和第二样本特征对应同一个特征模型时,将第一样本特征作为相应的特征模型的输入、将样本流量的结果标签作为特征模型的输出,对特征模型进行训练;同时,将第二样本特征作为相应的特征模型的输入、将样本流量的结果标签作为特征模型的输出,对特征模型进行训练;其中,第一样本特征和第二样本特征为样本流量的不同的样本特征。
本发明实施例中,第一样本特征和第二样本特征为样本流量的不同的样本特征,若第一样本特征和第二样本特征的属性类似,此时可以认为第一样本特征和第二样本特征对应同一个特征模型;此时,第一样本特征和第二样本特征共用同一个特征模型,在训练时可以分别将第一样本特征和第二样本特征作为输入对特征模型进行训练。例如,流量中包含SNI特征的DNS特征,由于二者的属性比较相近(二者均为字符串),此时二者可以共用同一个特征模型,样本流量中的SNI特征和DNS特征均可训练该特征模型。通过多个特征对同一个特征模型进行训练,可以提高训练效果。
同样的,在提取出目标流量中的目标特征时,若多个目标特征对应同一个目标模型,则将一个目标特征输入至该特征模型中并确定相应的输出,之后再将另一个目标特征输入至该特征模型中并确定相应的输出,如此循环,直至确定所有目标特征所对应的输出。
本领域技术人员可以理解,本实施例中说明了两个样本特征(即第一样本特征和第二样本特征)对应同一个特征模型时的训练过程,但并不用于限定本实施例提供的方法只能应用于两个样本特征对应同一个特征模型的情形。例如,当三个样本特征A、B、C均对应同一个特征模型时,样本特征A可以为第一样本特征、样本特征B可以为第二样本特征,同样的,样本特征A可以为第一样本特征、样本特征C可以为第二样本特征等,即本实施例提供的方法也适用于更多个样本特征对应同一个特征模型的情形。
可选的,如上所述,可以采用多种方式确定特征模型的权重值。当利用样本流量生成权重值时,上述步骤102中“为每个特征模型分配相应的权重值”包括:
步骤B1:建立权重模型,该权重模型的未知参数包括待定的权重值。
本发明实施例中,将需要确定的权重值作为未知参数来构建模型,即权重模型,之后利用样本流量即可训练该权重模型,从而可以确定该权重模型的参数,从而可以确定权重值。其中,该权重模型具体可以为随机森林模型,也可以为其他模型。
步骤B2:将样本流量的样本特征输入至相应的训练好的特征模型中,确定每个特征模型的样本输出。
步骤B3:将所有特征模型的样本输出作为权重模型的输入、将样本流量的结果标签作为权重模型的输出,对权重模型进行训练,根据训练好的权重模型中的参数确定每个特征模型对应的权重值。
本发明实施例中,首先利用样本流量对特征模型进行训练,若特征模型训练完毕,该特征模型的参数固化,之后利用训练好的特征模型即可确定样本流量的每个样本特征对应的输出,即样本输出,利用该样本输出以及相应的样本流量的结果标签对权重模型进行训练,即可确定权重模型的参数。之后利用固话的特征模型(即训练好的特征模型)以及所确定的权重值即可建立整个模型体系,后续基于该模型体系即可对目标流量进行识别。
此外,一般情况每个特征模型分配一个权重值,若多个样本特征对同一个特征模型时,则可以为该特征模型分配与相对应的样本特征的数量一致的权重值。例如,样本特征A和样本特征B均对应同一个特征模型,则可以为该特征模型分配权重值a和权重值b,样本特征A对应的输出适用权重值a,样本特征B对应的输出适用权重值b。目标流量的处理方式与此类似,此处不做赘述。
可选的,上述步骤104“根据每个训练好的特征模型的输出以及相应的权重值确定目标流量的综合预测结果”包括:
步骤C1:训练好的特征模型根据输入的相对应目标特征确定相应的输出,若不存在与训练好的特征模型相对应的目标特征时,训练好的特征模型输出为零。
步骤C2:根据所有训练好的特征模型的输出以及相应的权重值确定目标流量的综合预测结果。
本发明实施例中,目标流量可能为完整流量,也可能为非完整流量。若目标流量为完整流量,则将目标流量的目标特征输入至相应的特征模型,每个特征模型均对应有相应的目标特征作为输入,进而每个特征模型均可正常输出;若目标流量为非完整流量,则部分特征模型不存在输入,此时特征模型的输出为零,之后在步骤C2中进行加权求和时,相当于该特征模型的权重为零,利用其余有目标特征输入的特征模型的输出来生成综合预测结果。本实施例中将不存在输入的特征模型的输出设为零,可以对非完整流量进行更准确的识别,有效降低因流量中特征不全而误判该流量为恶意流量的风险。
下面通过一个实施例详细介绍该流量识别的方法流程。
本发明实施例中,将流量的特征分为七类,分别为:流特征、C握手特征、S握手特征、证书特征、SNI特征、DNS特征和HTTP特征,相应设置六个特征模型,分别为流特征模型、C握手特征模型、S握手特征模型、证书特征模型、DNS特征模型和HTTP特征模型;其中,SNI特征、DNS特征共用同一个模型,即DNS特征模型。本实施例中的整个模型体系参见图2所示。其中,w1~w6分别表示每个特征模型的权重值,R1~R6分别表示每个特征模型的输出。在利用样本流量确定每个特征模型和权重值之后,即可建立完整的模型,之后对目标流量进行识别。
若目标流量为完整流量,则将目标流量中的目标特征输入至相应的特征模型,进而确定相应的输出R1~R6,从而可以确定综合预测结果。若目标流量为非完整流量,则基于目标流量中所包含的目标特征来确定需要使用哪些特征模型。图2中,非完整流量1中包含流特征、C握手特征和证书特征,则将相应的特征输入至流特征模型、C握手特征模型和证书特征模型,并确定相应的输出R1、R2和R4,其余特征模型(S握手特征模型、DNS特征模型和HTTP特征模型)的输出为零,即R3、R5和R6为0;之后通过加权求和即可确定该非完整流量1的综合预测结果。同理,对于非完整流量2,其只包含C握手特征和HTTP特征,则利用C握手特征模型、HTTP特征模型以及相应的权重值(即w2和w6)即可确定该非完整流量2的综合预测结果。
本实施例中通过多个具有权重值的特征模型组成多元模型(multi-model),而传统模型一般采用单一模型(single model),本实施例中利用相同的包含多个样本流量的训练集分别对多元模型和传统的单一模型进行训练,训练完毕后利用同样的测试集分别对多元模型和传统的单一模型进行测试,测试结果参见图3所示。图3中的横坐标表示测试次数,纵坐标表示测试的准确率,且其中的矩形标注表示单一模型测试的准确率,圆形标注表示多元模型测试的准确率;从图3可知,本实施例提供的多元模型的准确率高于传统单一模型的准确率,即本实施例具有更好的流量识别效果。
以上详细介绍了流量识别的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种流量识别的装置,参见图4所示,包括:
预处理模块41,用于预先设置多个特征模型;获取样本流量,并提取所述样本流量中的一个或多个样本特征;
训练模块42,用于确定每个所述样本特征所对应的特征模型,并将所述样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练,分别确定每个训练好的所述特征模型,并为每个所述特征模型分配相应的权重值;
获取模块43,用于获取待识别的目标流量,并提取所述目标流量中的一个或多个目标特征;
识别模块44,用于将所述目标特征输入至相应的训练好的所述特征模型,根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果,并根据所述综合预测结果确定所述目标流量是否为恶意流量。
在上述实施例的基础上,所述预处理模块41提取所述样本流量中的一个或多个样本特征包括:
根据所述样本流量中特征的独立性将所述样本流量的特征分为一个或多个相互独立的样本特征,所述样本特征包括:流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识特征、域名特征或传输协议特征。
在上述实施例的基础上,所述训练模块42对所述特征模型进行训练包括:
在第一样本特征和第二样本特征对应同一个特征模型时,将所述第一样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;同时,将所述第二样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;
其中,所述第一样本特征和所述第二样本特征为所述样本流量的不同的样本特征。
在上述实施例的基础上,所述训练模块42为每个所述特征模型分配相应的权重值包括:
建立权重模型,所述权重模型的未知参数包括待定的权重值;
将所述样本流量的样本特征输入至相应的训练好的所述特征模型中,确定每个所述特征模型的样本输出;
将所有所述特征模型的样本输出作为所述权重模型的输入、将所述样本流量的结果标签作为所述权重模型的输出,对所述权重模型进行训练,根据训练好的所述权重模型中的参数确定每个所述特征模型对应的权重值。
在上述实施例的基础上,所述识别模块44根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果包括:
训练好的所述特征模型根据输入的相对应所述目标特征确定相应的输出,若不存在与训练好的所述特征模型相对应的目标特征时,训练好的所述特征模型输出为零;
根据所有训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果。
本发明实施例提供的一种流量识别的装置,将流量分为多个特征,预设相应的特征模型,并为每个特征模型设置权重值;在特征模型训练完毕后,基于训练好的多个特征模型即可确定目标流量是否为恶意流量。本实施例中,通过对流量的特征进行分类训练检测,可以改善传统AI单模型结果可解释性差的问题;且根据多个特征模型进行综合决策,提高了识别准确率,且避免了目标流量因部分特征缺失所造成的误报问题;此外,完整流量或者非完整流量均可进行准确识别,尤其对于非完整流量的识别,相对于传统方法来说识别效果较好,可适用于更多识别场景。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的流量识别的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图5示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的流量识别的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换的实施方式,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种流量识别的方法,其特征在于,包括:
预先设置多个特征模型;获取样本流量,并提取所述样本流量中的一个或多个样本特征;
确定每个所述样本特征所对应的特征模型,并将所述样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练,分别确定每个训练好的所述特征模型,并为每个所述特征模型分配相应的权重值;
获取待识别的目标流量,并提取所述目标流量中的一个或多个目标特征;
将所述目标特征输入至相应的训练好的所述特征模型,根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果,并根据所述综合预测结果确定所述目标流量是否为恶意流量。
2.根据权利要求1所述的方法,其特征在于,所述提取所述样本流量中的一个或多个样本特征包括:
根据所述样本流量中特征的独立性将所述样本流量的特征分为一个或多个相互独立的样本特征,所述样本特征包括:流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识特征、域名特征或传输协议特征。
3.根据权利要求1所述的方法,其特征在于,所述对所述特征模型进行训练包括:
在第一样本特征和第二样本特征对应同一个特征模型时,将所述第一样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;同时,将所述第二样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;
其中,所述第一样本特征和所述第二样本特征为所述样本流量的不同的样本特征。
4.根据权利要求1所述的方法,其特征在于,所述为每个所述特征模型分配相应的权重值包括:
建立权重模型,所述权重模型的未知参数包括待定的权重值;
将所述样本流量的样本特征输入至相应的训练好的所述特征模型中,确定每个所述特征模型的样本输出;
将所有所述特征模型的样本输出作为所述权重模型的输入、将所述样本流量的结果标签作为所述权重模型的输出,对所述权重模型进行训练,根据训练好的所述权重模型中的参数确定每个所述特征模型对应的权重值。
5.根据权利要求1所述的方法,其特征在于,所述根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果包括:
训练好的所述特征模型根据输入的相对应所述目标特征确定相应的输出,若不存在与训练好的所述特征模型相对应的目标特征时,训练好的所述特征模型输出为零;
根据所有训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果。
6.一种流量识别的装置,其特征在于,包括:
预处理模块,用于预先设置多个特征模型;获取样本流量,并提取所述样本流量中的一个或多个样本特征;
训练模块,用于确定每个所述样本特征所对应的特征模型,并将所述样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练,分别确定每个训练好的所述特征模型,并为每个所述特征模型分配相应的权重值;
获取模块,用于获取待识别的目标流量,并提取所述目标流量中的一个或多个目标特征;
识别模块,用于将所述目标特征输入至相应的训练好的所述特征模型,根据每个训练好的所述特征模型的输出以及相应的权重值确定所述目标流量的综合预测结果,并根据所述综合预测结果确定所述目标流量是否为恶意流量。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块提取所述样本流量中的一个或多个样本特征包括:
根据所述样本流量中特征的独立性将所述样本流量的特征分为一个或多个相互独立的样本特征,所述样本特征包括:流特征、客户端握手特征、服务端握手特征、证书特征、服务名标识特征、域名特征或传输协议特征。
8.根据权利要求6所述的装置,其特征在于,所述训练模块对所述特征模型进行训练包括:
在第一样本特征和第二样本特征对应同一个特征模型时,将所述第一样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;同时,将所述第二样本特征作为相应的所述特征模型的输入、将所述样本流量的结果标签作为所述特征模型的输出,对所述特征模型进行训练;
其中,所述第一样本特征和所述第二样本特征为所述样本流量的不同的样本特征。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-5任意一项所述的流量识别的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5任意一项所述的流量识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910989370.5A CN112688897A (zh) | 2019-10-17 | 2019-10-17 | 一种流量识别的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910989370.5A CN112688897A (zh) | 2019-10-17 | 2019-10-17 | 一种流量识别的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112688897A true CN112688897A (zh) | 2021-04-20 |
Family
ID=75444595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910989370.5A Pending CN112688897A (zh) | 2019-10-17 | 2019-10-17 | 一种流量识别的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112688897A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435122A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 实时流量数据处理方法、装置、计算机设备和存储介质 |
CN113709125A (zh) * | 2021-08-18 | 2021-11-26 | 北京明略昭辉科技有限公司 | 一种异常流量的确定方法、装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150128263A1 (en) * | 2013-11-07 | 2015-05-07 | Cyberpoint International, LLC | Methods and systems for malware detection |
CN105007282A (zh) * | 2015-08-10 | 2015-10-28 | 济南大学 | 面向网络服务提供商的恶意软件网络行为检测方法及系统 |
CN105022960A (zh) * | 2015-08-10 | 2015-11-04 | 济南大学 | 基于网络流量的多特征移动终端恶意软件检测方法及系统 |
CN105072045A (zh) * | 2015-08-10 | 2015-11-18 | 济南大学 | 一种具有恶意软件网络行为发现能力的无线路由器 |
CN105187392A (zh) * | 2015-08-10 | 2015-12-23 | 济南大学 | 基于网络接入点的移动终端恶意软件检测方法及其系统 |
CN108053120A (zh) * | 2017-12-15 | 2018-05-18 | 阿里巴巴集团控股有限公司 | 一种模型整合方法及装置 |
CN108596415A (zh) * | 2017-12-15 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 一种模型整合方法及装置 |
US20190213503A1 (en) * | 2018-01-08 | 2019-07-11 | International Business Machines Corporation | Identifying a deployed machine learning model |
-
2019
- 2019-10-17 CN CN201910989370.5A patent/CN112688897A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150128263A1 (en) * | 2013-11-07 | 2015-05-07 | Cyberpoint International, LLC | Methods and systems for malware detection |
CN105007282A (zh) * | 2015-08-10 | 2015-10-28 | 济南大学 | 面向网络服务提供商的恶意软件网络行为检测方法及系统 |
CN105022960A (zh) * | 2015-08-10 | 2015-11-04 | 济南大学 | 基于网络流量的多特征移动终端恶意软件检测方法及系统 |
CN105072045A (zh) * | 2015-08-10 | 2015-11-18 | 济南大学 | 一种具有恶意软件网络行为发现能力的无线路由器 |
CN105187392A (zh) * | 2015-08-10 | 2015-12-23 | 济南大学 | 基于网络接入点的移动终端恶意软件检测方法及其系统 |
CN108053120A (zh) * | 2017-12-15 | 2018-05-18 | 阿里巴巴集团控股有限公司 | 一种模型整合方法及装置 |
CN108596415A (zh) * | 2017-12-15 | 2018-09-28 | 阿里巴巴集团控股有限公司 | 一种模型整合方法及装置 |
US20190213503A1 (en) * | 2018-01-08 | 2019-07-11 | International Business Machines Corporation | Identifying a deployed machine learning model |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435122A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 实时流量数据处理方法、装置、计算机设备和存储介质 |
CN113435122B (zh) * | 2021-06-30 | 2023-11-07 | 平安科技(深圳)有限公司 | 实时流量数据处理方法、装置、计算机设备和存储介质 |
CN113709125A (zh) * | 2021-08-18 | 2021-11-26 | 北京明略昭辉科技有限公司 | 一种异常流量的确定方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112003870B (zh) | 一种基于深度学习的网络加密流量识别方法及装置 | |
CN110046297B (zh) | 运维违规操作的识别方法、装置和存储介质 | |
CN112235264A (zh) | 一种基于深度迁移学习的网络流量识别方法及装置 | |
CN111191767A (zh) | 一种基于向量化的恶意流量攻击类型的判断方法 | |
CN111224946A (zh) | 一种基于监督式学习的tls加密恶意流量检测方法及装置 | |
CN109547466B (zh) | 基于机器学习提高风险感知能力的方法及装置、计算机设备和存储介质 | |
CN111935185B (zh) | 基于云计算构建大规模诱捕场景的方法及系统 | |
CN112688897A (zh) | 一种流量识别的方法、装置、存储介质及电子设备 | |
CN113923026A (zh) | 一种基于TextCNN的加密恶意流量检测模型及其构建方法 | |
CN114726823B (zh) | 一种基于生成对抗网络的域名生成方法、装置和设备 | |
CN115412370A (zh) | 车辆通信数据检测方法、装置、电子设备和可读介质 | |
Chen et al. | Using adversarial examples to bypass deep learning based url detection system | |
CN111444364B (zh) | 一种图像检测方法和装置 | |
CN115114329A (zh) | 数据流异常检测的方法、装置、电子设备和存储介质 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN115526551B (zh) | 基于人工智能的农产品溯源数据处理方法及云平台 | |
CN115713669B (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN115051874B (zh) | 一种多特征的cs恶意加密流量检测方法和系统 | |
CN115314268B (zh) | 基于流量指纹和行为的恶意加密流量检测方法和系统 | |
CN107995167B (zh) | 一种设备识别方法及服务器 | |
CN116702220A (zh) | 基于加密特征分析的数据比对方法及系统 | |
CN111447169A (zh) | 一种在网关上的实时恶意网页识别方法及系统 | |
CN117391214A (zh) | 模型训练方法、装置及相关设备 | |
CN114866310A (zh) | 一种恶意加密流量检测方法、终端设备及存储介质 | |
CN113810342B (zh) | 一种入侵检测方法、装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210420 |
|
RJ01 | Rejection of invention patent application after publication |