CN109327479A - 加密流的识别方法及装置 - Google Patents
加密流的识别方法及装置 Download PDFInfo
- Publication number
- CN109327479A CN109327479A CN201811530118.XA CN201811530118A CN109327479A CN 109327479 A CN109327479 A CN 109327479A CN 201811530118 A CN201811530118 A CN 201811530118A CN 109327479 A CN109327479 A CN 109327479A
- Authority
- CN
- China
- Prior art keywords
- encryption
- stream
- message
- encryption stream
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2483—Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种加密流的识别方法及装置,该方法包括:获取待识别加密流;从所述待识别加密流中选取第一设定数量的报文;根据所述第一设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算所述待识别加密流的至少一个报文头部选定特征的特征值;将所述待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到所述待识别加密流的识别结果。该方案可以大大减少识别耗时,减小对用户的潜在危害。
Description
技术领域
本发明涉及通信技术领域,尤指一种加密流的识别方法及装置。
背景技术
随着社会的高速发展以及互联网技术的快速进步,数据加密技术得到广泛应用。然而,数据加密技术在保护用户数据的同时也给恶意软件提供了藏身之地。
目前基于安全套接层的超文本传输协议(Hyper Text Transfer Protocol overSecure Socket Layer,HTTPS)的使用量超过超文本传输协议(Hyper Text TransferProtocol over Secure Socket Layer,HTTP),加密网络通道的恶意软件也变得越来越多。在不同的场景,如机关、学校、企业、网吧等,用户随时可能遭受到恶意软件传播、数据泄露等威胁的侵害。因此,如何主动识别出加密恶意流变得尤为重要。
目前加密流的识别方法,首先要解密加密流,然后基于解密后的流中报文的数据部分进行识别。
上述方法中,由于需要解密加密流,并且报文中的数据部分内容通常非常多,该方法识别耗时较长,加大对用户的潜在危害。
发明内容
本发明实施例提供一种加密流的识别方法及装置,用以解决现有技术中存在的加密流识别耗时较长,加大对用户的潜在危害的问题。
根据本发明实施例,提供一种加密流的识别方法,应用在服务器中,包括:
获取待识别加密流;
从所述待识别加密流中选取第一设定数量的报文;
根据所述第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算所述待识别加密流的所述至少一个报文头部选定特征的特征值;
将所述待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到所述待识别加密流的识别结果。
具体的,获取待识别加密流,具体包括:
接收核心网络设备或者汇聚网络设备镜像的报文;
根据预先保存的流表从接收到的报文中识别出每个加密流,得到待识别加密流。
具体的,根据所述第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算所述待识别加密流的至少一个报文头部选定特征的特征值,具体包括:
针对每个报文头部选定特征,分别执行:
获取所述第一设定数量的报文中每个报文的当前报文头部选定特征的特征值;
计算获取的特征值的统计值,得到所述待识别加密流的所述当前报文头部选定特征的特征值。
可选的,还包括:
采集第二设定数量的加密正常流和第三设定数量的加密恶意流;
将所述第二设定数量的加密正常流和所述第三设定数量的加密恶意流充分混合后,分为两部分作为训练集和测试集;
根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型;
使用所述测试集中的加密流测试所述候选的随机森林模型;
统计测试结果的通过率;
若所述通过率超过设定阈值,则将所述候选的随机森林模型作为所述训练后的随机森林模型。
具体的,根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型,具体包括:
从所述训练集中的每个加密流中选取第四设定数量的报文;
根据选取的所述第四设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述训练集中的每个加密流的所述至少一个报文头部选定特征的特征值和对应的加密流的实际类型输入初始的随机森林模型中,得到候选的随机森林模型。
具体的,使用所述测试集中的加密流测试所述候选的随机森林模型,具体包括:
从所述测试集中的每个加密流中选取第五设定数量的报文;
根据选取的所述第五设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述测试集中的每个加密流的所述至少一个报文头部选定特征的特征值分别输入所述候选的随机森林模型中,得到对应的加密流的测试类型;
将所述测试集中的每个加密流的测试类型与实际类型进行比较;
测试类型与实际类型一致的加密流的测试结果为通过测试。
具体的,统计测试结果的通过率,具体包括:
统计测试结果为通过测试的加密流的第一数量;
统计所述测试集中的加密流的第二数量;
将所述第一数量与所述第二数量的比值作为测试结果的通过率。
根据本发明实施例,还提供一种加密流的识别装置,应用在服务器中,包括:
获取模块,用于获取待识别加密流;
选取模块,用于从所述待识别加密流中选取第一设定数量的报文;
计算模块,用于根据所述第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算所述待识别加密流的至少一个报文头部选定特征的特征值;
输入模块,用于将所述待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到所述待识别加密流的识别结果。
具体的,所述获取模块,具体用于:
接收核心网络设备或者汇聚网络设备镜像的报文;
根据预先保存的流表从接收到的报文中识别出每个加密流,得到待识别加密流。
具体的,所述计算模块,具体用于:
针对每个报文头部选定特征,分别执行:
获取所述第一设定数量的报文中每个报文的当前报文头部选定特征的特征值;
计算获取的特征值的统计值,得到所述待识别加密流的所述当前报文头部选定特征的特征值。
可选的,还包括:
采集模块,用于采集第二设定数量的加密正常流和第三设定数量的加密恶意流;
划分模块,用于将所述第二设定数量的加密正常流和所述第三设定数量的加密恶意流充分混合后,分为两部分作为训练集和测试集;
训练模块,用于根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型;
测试模块,用于使用所述测试集中的加密流测试所述候选的随机森林模型;
统计模块,用于统计测试结果的通过率;若所述通过率超过设定阈值,则将所述候选的随机森林模型作为所述训练后的随机森林模型。
具体的,所述统计模块,用于根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型,具体用于:
从所述训练集中的每个加密流中选取第四设定数量的报文;
根据选取的所述第四设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述训练集中的每个加密流的所述至少一个报文头部选定特征的特征值和对应的加密流的实际类型输入初始的随机森林模型中,得到候选的随机森林模型。
具体的,所述测试模块,具体用于:
从所述测试集中的每个加密流中选取第五设定数量的报文;
根据选取的所述第五设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述测试集中的每个加密流的所述至少一个报文头部选定特征的特征值分别输入所述候选的随机森林模型中,得到对应的加密流的测试类型;
将所述测试集中的每个加密流的测试类型与实际类型进行比较;
测试类型与实际类型一致的加密流的测试结果为通过测试。
具体的,所述统计模块,用于统计测试结果的通过率,具体用于:
统计测试结果为通过测试的加密流的第一数量;
统计所述测试集中的加密流的第二数量;
将所述第一数量与所述第二数量的比值作为测试结果的通过率。
本发明有益效果如下:
本发明实施例提供一种加密流的识别方法及装置,通过获取待识别加密流;从所述待识别加密流中选取第一设定数量的报文;根据所述第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算所述待识别加密流的至少一个报文头部选定特征的特征值;将所述待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到所述待识别加密流的识别结果。该方案中,无需解密待识别加密流,直接将待识别加密流的报文头部选定特征的特征值输入训练后的随机森林模型中,就可以得到识别结果,由于无需解密待识别加密流,也无需基于报文的数据部分进行识别,识别效率非常高,从而可以大大减少识别耗时,减小对用户的潜在危害。
附图说明
图1为本发明实施例中一种加密流的识别方法的流程图;
图2为本发明实施例中一种随机森林模型的训练方法的流程图;
图3为本发明实施例中一种加密流的识别装置的结构示意图。
具体实施方式
针对现有技术中存在的加密流识别耗时较长,加大对用户的潜在危害的问题,本发明实施例提供一种加密流的识别方法,应用在服务器中,该方法中需要使用到训练后的随机森林模型,可以通过训练初始的随机森林模型得到训练后的随机森林模型,因此,可以分为随机森林模型的训练阶段和使用阶段,下面分别介绍这两个阶段。
首先介绍在训练后的随机森林模型的使用阶段,加密流的识别方法的流程如图1所示,执行步骤如下:
S11:获取待识别加密流。
S12:从待识别加密流中选取第一设定数量的报文。
通常,一个待识别加密流中会包含很多报文,无需使用该待识别加密流中所有的报文,选取一部分即可,选取的数量可以定义为第一设定数量,第一设定数量可以根据实际需要进行设定,例如,可以为10个、15个、20个、25个等等。
S13:根据第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算待识别加密流的至少一个报文头部选定特征的特征值。
待识别加密流的报文的报文头部包含很多特征,可以从中选取至少一个特征,定义为至少一个报文头部选定特征,然后根据第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,进一步计算待识别加密流的至少一个报文头部选定特征的特征值。
报文头部选定特征可以根据实际需要进行设定,一种优选的方式,可以选取15个,包括:安全传输层协议(Transport Layer Security,TLS)版本类型、TLS服务器套件列表、TLS服务器拓展映射、TLS客户端套件列表、TLS客户端拓展映射、出方向报文长度最大值、出方向报文长度最小值、出方向报文长度平均值、出方向报文长度方差、出方向报文的总字节数、入方向报文长度最大值、入方向报文长度最小值、入方向报文长度平均值、入方向报文长度方差、入方向报文的总字节数。
S14:将待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到待识别加密流的识别结果。
可以预先训练初始的随机森林模型,得到训练后的随机森林模型,将待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到待识别加密流的识别结果,识别结果可以是加密恶意流或者加密正常流。
该步骤可以由服务器自行完成,也可以借助其他设备完成,如果借助其他设备完成,则需要将待识别加密流的五元组(源IP地址、目的IP地址、源端口、目的端口和协议)和待识别加密流的至少一个报文头部选定特征的特征值组装成预先定义的ipfix报文,发送给其他设备;其他设备解析自定义的ipfix报文,然后封装成程序可读的json格式,基于训练好的随机森林模型对待识别加密流的至少一个报文头部选定特征的特征值进行计算,就可以得到识别结果,然后将识别结果反馈给服务器即可。一种优选的方式,服务器可以对识别出的加密恶意流产生产生信息告警并页面呈现。
该方案中,无需解密待识别加密流,直接将待识别加密流的报文头部选定特征的特征值输入训练后的随机森林模型中,就可以得到识别结果,由于无需解密待识别加密流,也无需基于报文的数据部分进行识别,识别效率非常高,从而可以大大减少识别耗时,减小对用户的潜在危害。
具体的,上述S11中获取待识别加密流,具体包括:
接收核心网络设备或者汇聚网络设备镜像的报文;
根据预先保存的流表从接收到的报文中识别出每个加密流,得到待识别加密流。
服务器可以采集网络设备上的报文,网络设备可以是核心网络设备、汇聚网络设备等等,在本实施例中以核心网络设备或者汇聚网络设备为例进行说明;服务器可以预先从核心网络设备或者汇聚网络设备上获取流表并保存,接收到核心网络设备或者汇聚网络设备镜像的报文后,根据这些流表从接收到的报文中识别出每个加密流,每个加密流都可以作为待识别加密流。
具体的,上述S13中根据第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算待识别加密流的至少一个报文头部选定特征的特征值,具体包括:
针对每个报文头部选定特征,分别执行:
获取第一设定数量的报文中每个报文的当前报文头部选定特征的特征值;
计算获取的特征值的统计值,得到待识别加密流的当前报文头部选定特征的特征值。
这里仅仅列举了一种计算方式,当然还可以采用其他的计算方式,这里不再一一赘述。
以上介绍了使用训练后的随机森林模型进行加密流识别的方法,下面介绍如何训练初始的随机森林模型得到训练后的随机森林模型,实现过程如图2所示,执行步骤具体包括:
S21:采集第二设定数量的加密正常流和第三设定数量的加密恶意流。
流量的采集分为加密正常流的采集和加密恶意流的采集,二者都可以在虚拟机群(例如90台)中采集获得。其中,加密正常流是通过在虚拟机访问的正常加密网站获得的,加密恶意流是通过在虚拟机的沙盒软件中运行不同病毒库中的不同病毒软件而获得的。沙盒软件相当于在要运行的程序和系统之间建立一个隔离层,这样就算虚拟机感染了病毒和木马,也不会对系统造成真正的伤害。
为了保证训练后的随机森林模型的准确性较高,通常第二设定数量和第三设定数量的数值都非常大,具体数值可以根据实际需要进行设定。
S22:将第二设定数量的加密正常流和第三设定数量的加密恶意流充分混合后,分为两部分作为训练集和测试集。
通常对初始化的随机森林模型训练完之后,还需要进行测试,才可以得合格的训练后的随机森林模型,因此,可以首先将第二设定数量的加密正常流和第三设定数量的加密恶意流充分混合,再将混合后的集合分为两部分作为训练集和测试集。
S23:根据训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型。
S24:使用测试集中的加密流测试候选的随机森林模型。
S25:统计测试结果的通过率。
S26:若通过率超过设定阈值,则将候选的随机森林模型作为训练后的随机森林模型。
通过S21-S26,使用训练集对初始的随机森林模型进行训练,得到候选的随机森林模型,使用测试集合对候选的随机森林模型进行测试,通过测试后,候选的随机森林模块才能作为训练后的随机森林模使用,从而可以得到准确性较高的训练后的随机森林模型。
具体的,上述S23中根据训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型,实现过程具体包括:
从训练集中的每个加密流中选取第四设定数量的报文;
根据选取的第四设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算对应的加密流的至少一个报文头部选定特征的特征值;
将训练集中的每个加密流的至少一个报文头部选定特征的特征值和对应的加密流的实际类型输入初始的随机森林模型中,得到候选的随机森林模型。
第四设定数量与第一设定数量可以相同,也可以不同。可以将训练集中的每个加密流的至少一个报文头部选定特征的特征值和对应的加密流的实际类型输入初始的随机森林模型中,得到候选的随机森林模型,之所以称为候选的随机森林模型,是因为还需要进行测试才能最终确定是否能够在使用阶段进行使用。
具体的,上述S24中使用测试集中的加密流测试候选的随机森林模型,实现过程具体包括:
从测试集中的每个加密流中选取第五设定数量的报文;
根据选取的第五设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算对应的加密流的至少一个报文头部选定特征的特征值;
将测试集中的每个加密流的至少一个报文头部选定特征的特征值分别输入候选的随机森林模型中,得到对应的加密流的测试类型;
将测试集中的每个加密流的测试类型与实际类型进行比较;
测试类型与实际类型一致的加密流的测试结果为通过测试。
第五设定数量与第一设定数量可以相同,也可以不同。可以将测试集中的每个加密流的至少一个报文头部选定特征的特征值输入候选的随机森林模型,得到对应加密流的测试类型。测试类型与实际类型一致的加密流的测试结果为通过测试,测试类型与实际类型不一致的加密流的测试结果为未通过测试。
具体的,上述S25中统计测试结果的通过率,实现过程具体包括:
统计测试结果为通过测试的加密流的第一数量;
统计测试集中的加密流的第二数量;
将第一数量与第二数量的比值作为测试结果的通过率。
基于该测试结果的通过率可以确定候选的随机森林模型是否可以作为训练后的随机森林模型,若通过率超过设定阈值,说明候选的随机森林模型是合格的,可以作为使用阶段使用的训练后的随机森林模型;若通过率未超过设定阈值,说明候选的随机森林模型是不合格的,不可以作为使用阶段使用的训练后的随机森林模型,还可以继续再次执行图2所示的流程,重新对初始的随机森林模型进行训练。其中,设定阈值可以根据对训练后的随机森林模型的准确程度进行设定,若对训练后的随机森林模型的准确程度要求较高,可以将设定阈值设置的大一些,若对训练后的随机森林模型的准确程度要求较低,可以将设定阈值设置的小一些。
基于同一发明构思,本发明实施例提供一种加密流的识别装置,应用在服务器中,该装置的结构如图3所示,包括:
获取模块31,用于获取待识别加密流;
选取模块32,用于从待识别加密流中选取第一设定数量的报文;
计算模块33,用于根据第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算待识别加密流的至少一个报文头部选定特征的特征值;
输入模块34,用于将待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到待识别加密流的识别结果。
该方案中,无需解密待识别加密流,直接将待识别加密流的报文头部选定特征的特征值输入训练后的随机森林模型中,就可以得到识别结果,由于无需解密待识别加密流,也无需基于报文的数据部分进行识别,识别效率非常高,从而可以大大减少识别耗时,减小对用户的潜在危害。
具体的,获取模块31,具体用于:
接收核心网络设备或者汇聚网络设备镜像的报文;
根据预先保存的流表从接收到的报文中识别出每个加密流,得到待识别加密流。
具体的,计算模块33,具体用于:
针对每个报文头部选定特征,分别执行:
获取第一设定数量的报文中每个报文的当前报文头部选定特征的特征值;
计算获取的特征值的统计值,得到待识别加密流的当前报文头部选定特征的特征值。
可选的,还包括:
采集模块,用于采集第二设定数量的加密正常流和第三设定数量的加密恶意流;
划分模块,用于将第二设定数量的加密正常流和第三设定数量的加密恶意流充分混合后,分为两部分作为训练集和测试集;
训练模块,用于根据训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型;
测试模块,用于使用测试集中的加密流测试候选的随机森林模型;
统计模块,用于统计测试结果的通过率;若通过率超过设定阈值,则将候选的随机森林模型作为训练后的随机森林模型。
具体的,统计模块,用于根据训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型,具体用于:
从训练集中的每个加密流中选取第四设定数量的报文;
根据选取的第四设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算对应的加密流的至少一个报文头部选定特征的特征值;
将训练集中的每个加密流的至少一个报文头部选定特征的特征值和对应的加密流的实际类型输入初始的随机森林模型中,得到候选的随机森林模型。
具体的,测试模块,具体用于:
从测试集中的每个加密流中选取第五设定数量的报文;
根据选取的第五设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算对应的加密流的至少一个报文头部选定特征的特征值;
将测试集中的每个加密流的至少一个报文头部选定特征的特征值分别输入候选的随机森林模型中,得到对应的加密流的测试类型;
将测试集中的每个加密流的测试类型与实际类型进行比较;
测试类型与实际类型一致的加密流的测试结果为通过测试。
具体的,统计模块,用于统计测试结果的通过率,具体用于:
统计测试结果为通过测试的加密流的第一数量;
统计测试集中的加密流的第二数量;
将第一数量与第二数量的比值作为测试结果的通过率。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的可选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括可选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种加密流的识别方法,应用在服务器中,其特征在于,包括:
获取待识别加密流;
从所述待识别加密流中选取第一设定数量的报文;
根据所述第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算所述待识别加密流的所述至少一个报文头部选定特征的特征值;
将所述待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到所述待识别加密流的识别结果。
2.如权利要求1所述的方法,其特征在于,获取待识别加密流,具体包括:
接收核心网络设备或者汇聚网络设备镜像的报文;
根据预先保存的流表从接收到的报文中识别出每个加密流,得到待识别加密流。
3.如权利要求1所述的方法,其特征在于,根据所述第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算所述待识别加密流的所述至少一个报文头部选定特征的特征值,具体包括:
针对每个报文头部选定特征,分别执行:
获取所述第一设定数量的报文中每个报文的当前报文头部选定特征的特征值;
计算获取的特征值的统计值,得到所述待识别加密流的所述当前报文头部选定特征的特征值。
4.如权利要求1-3任一所述的方法,其特征在于,还包括:
采集第二设定数量的加密正常流和第三设定数量的加密恶意流;
将所述第二设定数量的加密正常流和所述第三设定数量的加密恶意流充分混合后,分为两部分作为训练集和测试集;
根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型;
使用所述测试集中的加密流测试所述候选的随机森林模型;
统计测试结果的通过率;
若所述通过率超过设定阈值,则将所述候选的随机森林模型作为所述训练后的随机森林模型。
5.如权利要求4所述的方法,其特征在于,根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型,具体包括:
从所述训练集中的每个加密流中选取第四设定数量的报文;
根据选取的所述第四设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述训练集中的每个加密流的所述至少一个报文头部选定特征的特征值和对应的加密流的实际类型输入初始的随机森林模型中,得到候选的随机森林模型。
6.如权利要求4所述的方法,其特征在于,使用所述测试集中的加密流测试所述候选的随机森林模型,具体包括:
从所述测试集中的每个加密流中选取第五设定数量的报文;
根据选取的所述第五设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述测试集中的每个加密流的所述至少一个报文头部选定特征的特征值分别输入所述候选的随机森林模型中,得到对应的加密流的测试类型;
将所述测试集中的每个加密流的测试类型与实际类型进行比较;
测试类型与实际类型一致的加密流的测试结果为通过测试。
7.如权利要求6所述的方法,其特征在于,统计测试结果的通过率,具体包括:
统计测试结果为通过测试的加密流的第一数量;
统计所述测试集中的加密流的第二数量;
将所述第一数量与所述第二数量的比值作为测试结果的通过率。
8.一种加密流的识别装置,应用在服务器中,其特征在于,包括:
获取模块,用于获取待识别加密流;
选取模块,用于从所述待识别加密流中选取第一设定数量的报文;
计算模块,用于根据所述第一设定数量的报文中每个报文的至少一个报文头部选定特征的特征值,计算所述待识别加密流的所述至少一个报文头部选定特征的特征值;
输入模块,用于将所述待识别加密流的至少一个报文头部选定特征的特征值输入训练后的随机森林模型中,得到所述待识别加密流的识别结果。
9.如权利要求8所述的装置,其特征在于,所述获取模块,具体用于:
接收核心网络设备或者汇聚网络设备镜像的报文;
根据预先保存的流表从接收到的报文中识别出每个加密流,得到待识别加密流。
10.如权利要求8所述的装置,其特征在于,所述计算模块,具体用于:
针对每个报文头部选定特征,分别执行:
获取所述第一设定数量的报文中每个报文的当前报文头部选定特征的特征值;
计算获取的特征值的统计值,得到所述待识别加密流的所述当前报文头部选定特征的特征值。
11.如权利要求8-10任一所述的装置,其特征在于,还包括:
采集模块,用于采集第二设定数量的加密正常流和第三设定数量的加密恶意流;
划分模块,用于将所述第二设定数量的加密正常流和所述第三设定数量的加密恶意流充分混合后,分为两部分作为训练集和测试集;
训练模块,用于根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型;
测试模块,用于使用所述测试集中的加密流测试所述候选的随机森林模型;
统计模块,用于统计测试结果的通过率;若所述通过率超过设定阈值,则将所述候选的随机森林模型作为所述训练后的随机森林模型。
12.如权利要求11所述的装置,其特征在于,所述统计模块,用于根据所述训练集中的加密流训练初始的随机森林模型,得到候选的随机森林模型,具体用于:
从所述训练集中的每个加密流中选取第四设定数量的报文;
根据选取的所述第四设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述训练集中的每个加密流的所述至少一个报文头部选定特征的特征值和对应的加密流的实际类型输入初始的随机森林模型中,得到候选的随机森林模型。
13.如权利要求11所述的装置,其特征在于,所述测试模块,具体用于:
从所述测试集中的每个加密流中选取第五设定数量的报文;
根据选取的所述第五设定数量的报文中每个报文的所述至少一个报文头部选定特征的特征值,计算对应的加密流的所述至少一个报文头部选定特征的特征值;
将所述测试集中的每个加密流的所述至少一个报文头部选定特征的特征值分别输入所述候选的随机森林模型中,得到对应的加密流的测试类型;
将所述测试集中的每个加密流的测试类型与实际类型进行比较;
测试类型与实际类型一致的加密流的测试结果为通过测试。
14.如权利要求13所述的装置,其特征在于,所述统计模块,用于统计测试结果的通过率,具体用于:
统计测试结果为通过测试的加密流的第一数量;
统计所述测试集中的加密流的第二数量;
将所述第一数量与所述第二数量的比值作为测试结果的通过率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530118.XA CN109327479A (zh) | 2018-12-14 | 2018-12-14 | 加密流的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811530118.XA CN109327479A (zh) | 2018-12-14 | 2018-12-14 | 加密流的识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109327479A true CN109327479A (zh) | 2019-02-12 |
Family
ID=65256152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811530118.XA Pending CN109327479A (zh) | 2018-12-14 | 2018-12-14 | 加密流的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109327479A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995155A (zh) * | 2021-02-09 | 2021-06-18 | 中国工商银行股份有限公司 | 金融异常报文识别方法及装置 |
CN113177203A (zh) * | 2021-04-14 | 2021-07-27 | 杭州迪普科技股份有限公司 | 一种识别加密恶意报文流的方法及装置 |
CN113285945A (zh) * | 2021-05-19 | 2021-08-20 | 恒安嘉新(北京)科技股份公司 | 通信安全监控方法、装置、设备及存储介质 |
CN113329023A (zh) * | 2021-05-31 | 2021-08-31 | 西北大学 | 一种加密流量恶意性检测模型建立、检测方法及系统 |
CN115086242A (zh) * | 2021-03-12 | 2022-09-20 | 天翼云科技有限公司 | 加密数据包识别方法、装置与电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106657141A (zh) * | 2017-01-19 | 2017-05-10 | 西安电子科技大学 | 基于网络流量分析的安卓恶意软件实时检测方法 |
CN106709511A (zh) * | 2016-12-08 | 2017-05-24 | 华中师范大学 | 基于深度学习的城市轨道交通全景监控视频故障检测方法 |
US20170161644A1 (en) * | 2012-05-16 | 2017-06-08 | Excalibur Ip, Llc | Media recommendation using internet media stream modeling |
CN107886503A (zh) * | 2017-10-27 | 2018-04-06 | 重庆金山医疗器械有限公司 | 一种消化道解剖位置识别方法及装置 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN108833360A (zh) * | 2018-05-23 | 2018-11-16 | 四川大学 | 一种基于机器学习的恶意加密流量识别技术 |
-
2018
- 2018-12-14 CN CN201811530118.XA patent/CN109327479A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170161644A1 (en) * | 2012-05-16 | 2017-06-08 | Excalibur Ip, Llc | Media recommendation using internet media stream modeling |
CN106709511A (zh) * | 2016-12-08 | 2017-05-24 | 华中师范大学 | 基于深度学习的城市轨道交通全景监控视频故障检测方法 |
CN106657141A (zh) * | 2017-01-19 | 2017-05-10 | 西安电子科技大学 | 基于网络流量分析的安卓恶意软件实时检测方法 |
CN107886503A (zh) * | 2017-10-27 | 2018-04-06 | 重庆金山医疗器械有限公司 | 一种消化道解剖位置识别方法及装置 |
CN108667747A (zh) * | 2018-04-28 | 2018-10-16 | 深圳信息职业技术学院 | 网络流应用类型识别的方法、装置及计算机可读存储介质 |
CN108833360A (zh) * | 2018-05-23 | 2018-11-16 | 四川大学 | 一种基于机器学习的恶意加密流量识别技术 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112995155A (zh) * | 2021-02-09 | 2021-06-18 | 中国工商银行股份有限公司 | 金融异常报文识别方法及装置 |
CN115086242A (zh) * | 2021-03-12 | 2022-09-20 | 天翼云科技有限公司 | 加密数据包识别方法、装置与电子设备 |
CN113177203A (zh) * | 2021-04-14 | 2021-07-27 | 杭州迪普科技股份有限公司 | 一种识别加密恶意报文流的方法及装置 |
CN113177203B (zh) * | 2021-04-14 | 2022-04-26 | 杭州迪普科技股份有限公司 | 一种识别加密恶意报文流的方法及装置 |
CN113285945A (zh) * | 2021-05-19 | 2021-08-20 | 恒安嘉新(北京)科技股份公司 | 通信安全监控方法、装置、设备及存储介质 |
CN113329023A (zh) * | 2021-05-31 | 2021-08-31 | 西北大学 | 一种加密流量恶意性检测模型建立、检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109327479A (zh) | 加密流的识别方法及装置 | |
CN106533669B (zh) | 设备识别的方法、装置和系统 | |
CN110569666B (zh) | 一种基于区块链的数据统计的方法及装置 | |
KR102664180B1 (ko) | 네트워크 기반 미디어 처리 보안 | |
CN105208041B (zh) | 基于hook的云存储应用加密数据包破解方法 | |
CN111224834B (zh) | 模拟测试方法、装置、服务器及存储介质 | |
CN107707579A (zh) | 数据加密传输方法 | |
CN105897746A (zh) | 一种跨网站登录方法、终端及网站服务器 | |
CN105718276A (zh) | 提供apk下载的方法和装置以及nginx服务器 | |
Chen et al. | Data privacy in trigger-action systems | |
JP2018537921A (ja) | Skypeの異なる機能の通信フローに基づく識別方法及び装置 | |
CN108549824A (zh) | 一种数据脱敏方法及装置 | |
US20240323023A1 (en) | Sample alignment method and apparatus, device, and storage medium | |
Szymoniak et al. | Timed analysis of security protocols | |
GB2540220A (en) | Distributed encryption system and method | |
KR101703805B1 (ko) | 데이터 네트워크상의 여러 흐름을 포함하는 통신 세션의 감독 | |
CN113630412B (zh) | 资源下载方法、资源下载装置、电子设备以及存储介质 | |
CN111246407A (zh) | 用于短信传输的数据加密、解密方法及装置 | |
US20170004026A1 (en) | Monitoring method | |
CN109788349A (zh) | 一种探测计算能力的方法及相关装置 | |
CN106716974A (zh) | 访问分发方法、装置及系统 | |
CN109525550B (zh) | 一种数据报文的处理方法、装置以及系统 | |
US11233703B2 (en) | Extending encrypted traffic analytics with traffic flow data | |
CN109218009B (zh) | 一种提高设备id安全性的方法、客户端和服务器 | |
CN106130764B (zh) | 一种监控视频直播间数据服务是否可用的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190212 |