CN113497785B - 恶意加密流量检测方法、系统、存储介质和云端服务器 - Google Patents
恶意加密流量检测方法、系统、存储介质和云端服务器 Download PDFInfo
- Publication number
- CN113497785B CN113497785B CN202010200797.5A CN202010200797A CN113497785B CN 113497785 B CN113497785 B CN 113497785B CN 202010200797 A CN202010200797 A CN 202010200797A CN 113497785 B CN113497785 B CN 113497785B
- Authority
- CN
- China
- Prior art keywords
- machine learning
- learning model
- client
- model
- splitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims abstract description 172
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012935 Averaging Methods 0.000 claims abstract description 12
- 238000005192 partition Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004031 devitrification Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种恶意加密流量检测方法,包括:获取各客户端上传的机器学习模型;其中,机器学习模型用于对经过客户端的流量进行预测得到黑白数据,黑白数据用于对客户端中的机器学习模型进行更新;对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测。本申请能够有效降低客户侧模型的误报,并防止模型更新次数太多模型过于臃肿导致检测效率下降。本申请还提供一种检测系统、计算机可读存储介质和云端服务器,具有上述有益效果。
Description
技术领域
本申请涉及网络安全领域,特别涉及一种恶意加密流量检测方法、检测系统、计算机可读存储介质和云端服务器。
背景技术
随着加密流量的普及,黑客运用加密流量作为掩盖恶行的手段愈发多见,且越来越多的高级监管单位、银行等高级保密单位开始重视这方面的检测,但目前拥有相关检测能力的厂商却很少。现有方案主要是基于半监督学习和联邦学习对模型进行更新,每个客户侧的数据都是基于初始化模型预测给定的标签,一定程度上继承原始模型的偏差,可能因为数据源是来自客户,可以很大程度的降低误报,但因为客户侧黑数据难检出且量少,增量更新后模型的判黑能力增强很有限。
因此,如何提高客户端流量安全监测是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种恶意加密流量检测方法、检测系统、计算机可读存储介质和云端服务器,能够有效降低客户侧流量监测的误报。
为解决上述技术问题,本申请提供一种恶意加密流量检测方法,具体技术方案如下:
获取各客户端上传的机器学习模型;其中,所述机器学习模型用于对经过客户端的流量进行预测得到黑白数据,所述黑白数据用于对所述客户端中的机器学习模型进行更新;
对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;
将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测。
可选的,在获取各客户端上传的机器学习模型之前,还包括:
获取客户端的历史黑白数据,并根据所述历史黑白数据训练得到所述机器学习模型;其中,所述历史黑白数据包括日常运行流量和沙箱病毒流量。
可选的,根据所述历史黑白数据训练得到所述机器学习模型之前,还包括:
所述利用预设规则进行对所述历史黑白数据进行数据清洗。
可选的,根据所述历史黑白数据训练得到所述机器学习模型包括:
对所述历史黑白数据进行特征提取得到特征向量,并使用预设模型对所述特征向量训练得到所述机器学习模型。
可选的,所述机器学习模型还用于根据使用证书签名、有效期和域名排名中的一种或任意几种的组合对经过客户端的流量进行流量过滤。
可选的,获取各客户端上传的机器学习模型之后,还包括:
利用云端预置测试集得到各机器学习模型的测试结果,将测试结果低于预设阈值的机器学习模型删除。
可选的,对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型包括:
获取各客户端上传的机器学习模型的增量更新数据中的回归树;其中,各客户端对应增量更新数据中的回归树数量相同;
根据分裂顺序划分各所述回归树得到分裂分区,并统计每个所述分裂分区中每次分裂时的分裂点的特征和特征值;
确定每个分裂分区的平均分裂点;其中,所述平均分裂点的特征为当前分裂分区中出现频率最高的分裂点对应的特征,所述平均分裂点的特征值为出现频率最高的分裂点的特征值的平均值;
利用各所述平均分裂点对所述机器学习模型进行增量更新,得到新机器学习模型。
本申请还提供一种恶意加密流量检测系统,具体技术方案如下:
模型获取模块,用于获取各客户端上传的机器学习模型;其中,所述机器学习模型用于对经过客户端的流量进行预测得到黑白数据,所述黑白数据用于对所述客户端中的机器学习模型进行更新;
模型更新模块,用于对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;
模型分发模块,用于将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请还提供一种云端服务器,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。
本申请提供一种恶意加密流量检测方法,包括:获取各客户端上传的机器学习模型;其中,所述机器学习模型用于对经过客户端的流量进行预测得到黑白数据,所述黑白数据用于对所述客户端中的机器学习模型进行更新;对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测。
本申请通过获取各个客户端经过增量更新的机器学习模型,基于各类规则确保数据源的可靠性,提高增量更新质量,有效降低客户侧模型的误报。此后云端对获取的各机器学习模型进行参数平均,由于各客户端的模型均由云端发放,即每个模型增量更新的初始点相同,因此联合分析每个客户侧机器学习对应的每颗增量回归树的最佳分割点,从而在云端中计算出最佳的聚合模型,并发放至客户端使用,以确保机器学习模型可以不断学习更新更全的数据,并防止模型更新次数太多模型过于臃肿导致检测效率下降。本申请还提供一种检测系统、计算机可读存储介质和云端服务器,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种恶意加密流量检测方法的流程图;
图2为本申请实施例所提供的一种新机器学习模型的生成过程流程图;
图3为本申请实施例所提供的一种恶意加密流量检测系统结构示意图:
图4为本申请实施例所提供的一种云端服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
当前加密流量监测方式大体分为两类,解密检测和加密检测。
而解密检测主要有以下问题:
1)解密检测需要通过一系列复杂的手段将加密流量解密之后在进行明文检测,消耗成本大,性能损耗不可忽视。
2)解密检测存在侵犯客户隐私的行为,且银行、监管部门等机构是不允许对内部数据进行解密的。
3)解密检测只能检测PC端的流量,无法检测物联网设备与移动端的流量,覆盖面不全。
加密流量检测一般为提取加密流量中少数明文信息提取特征训练机器学习模型进行检测,但这种方式也存在以下几种弊端:
1)流量是一种十分多样的数据,安全厂商收集的数据与每个客户都会有差异,这将导致训练出的机器学习模型缺乏泛化性,结果不可靠。
2)普通加密流量检测的机器学习方法都缺乏持续更新的能力,模型无法第一时间学习到最新的数据,则难以抵挡日益剧增的恶意加密流量行为。
因此,为了解决当前加密流量监测的弊端,本申请提供以后只能怪恶意加密流量监测方法,具体内容如下:
请参考图1,图1为本申请实施例所提供的一种恶意加密流量检测方法的流程图,具体技术方案如下:
S101:获取各客户端上传的机器学习模型;
其中,机器学习模型用于对经过客户端的流量进行预测得到黑白数据,而黑白数据用于对客户端中的机器学习模型进行更新。
容易理解的是,本实施例默认在执行本步骤前云端需要向各客户端上传该机器学习模型。则自然云端需要生成该机器学习模型。在此对于云端如何生成机器学习模型不作限定。
本实施例在此提供一种可选的机器学习模型的生成方法,云端可以获取客户端的历史黑白数据,并根据历史黑白数据训练得到机器学习模型。而历史黑白数据包括日常运行流量和沙箱病毒流量。更具体的,云端可以对历史黑白数据进行特征提取得到特征向量,并使用预设模型对所述特征向量训练得到所述机器学习模型。在此过程中,该预设模型作为分类器,通常还可以对特征向量采用调参等手段以使得到的机器学习模型效果更佳。在对历史黑白数据进行特征提取时,可以通过分析加密流量中的少数明文信息和留信息构造基于时空、证书、握手、背景等四个方面的特征向量。在此对于任何使用回归树组成的机器学习算法作为预设模型均不做限定,例如可以使用Lightgbm模型作为分类器,通过调参、数据平衡等手段训练出初始的机器学习模型。LightGBM是一种新的梯度增强树框架,它高效且可扩展,可以支持许多不同的算法,由于其完全贪婪的树增长方法以及基于直方图的内存和计算优化,LightGBM比现有的梯度增强树快几倍。当然也可以使用其他模型,在此不一一举例限定。
作为一种优选的机器学习模型的生成方法,在根据历史黑白数据训练得到机器学习模型之前,还可以利用预设规则进行对历史黑白数据进行数据清洗。在此对于采用何种规则进行数据清洗不作限定,例如可以使用域名、端口、协议限制等规则中的一种或任意几种的组合对历史黑白数据进行清洗,以保证历史黑白流量数据质量,同时也可以保证机器学习模型的模型质量。
机器学习模型主要用于对经过客户端的流量进行预测得到黑白数据,所述黑白数据用于对客户端中的机器学习模型进行更新。具体的,机器学习模型对所有经过客户端的流量进行分析预测,并根据预测结果分配黑白标签,此后客户端根据黑白标签对应的黑白数据对机器学习模型进行增量更新。
机器学习模型在客户端采用半监督模式,所谓半监督模式指是使用模型对未知数据进行判定标签,并将此作为模型更新的数据,半监督模式一定程度上可以优化模型的效果。机器学习模型在执行数据采集时将所有经过检测系统的流量进行协议、端口、握手完整性等过滤操作,并使用初始化模型对其进行预测,给出黑白标签并保存在本地。然后进行机器学习模型的增量更新。因为客户侧流量大多属于白流量,故而增量更新时只增长原始模型中约1/4的回归树,这样既保证原始模型中黑数据的信息不丢失,又能一定程度上学习到客户侧多样的白流量和最新的黑流量,提高模型的泛化性。
特别的,在执行数据采集后和执行增量更新前,机器学习模型还可以用于根据使用证书签名、有效期和域名排名中的一种或任意几种的组合对经过客户端的流量进行流量过滤,确保剩下的黑白数据集质量可靠。
S102:对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;
本步骤旨在对获取到的各客户端经过增量更新的机器学习模型进行模型联合分析,以在机器学习模型的基础上得到新机器学习模型,即获得最佳聚合模型。
作为一种优选的实施方案,在执行步骤S101之后,可以并不直接执行本步骤,而是先利用云端预置测试集得到各机器学习模型的测试结果,将测试结果低于预设阈值的机器学习模型删除。即利用云端阈值测试集提出不符合预期标准的机器学习模型,可以理解为去掉增量更新效果较差的机器学习模型,这样可以提高后续新机器学习模型生成的泛化性,避免受到少部分极端机器学习模型的影响。在此对于使用哪种云端预置测试集以及相应的预设阈值均不作限定,可以理解的是,使用的云端预置测试集不同,其对应的预设阈值也相应的发生变换,而无论是云端预置测试集还是对应的预设阈值,均可以由本领域技术人员做相应的设定。
无论是否执行“先利用云端预置测试集得到各机器学习模型的测试结果,将测试结果低于预设阈值的机器学习模型删除”的步骤,本步骤中核心是基于获取到的机器学习模型进行参数平均,以得到新机器学习模型。参见图2,图2为本申请实施例所提供的一种新机器学习模型的生成过程流程图,具体的,本步骤可以包括如下几个步骤:
S1021:获取各客户端上传的机器学习模型的增量更新数据中的回归树;其中,各客户端对应增量更新数据中的回归树数量相同;
各客户端中的机器学习模型在处理所在客户端的流量时,都会以回归树的形式表现数据的增量更新。此处增量更新指的是让客户端中的机器学习模型对经过本客户端的新的数据进行拟合,在Lightgbm中表征为在模型中训练新的回归树,这些新回归树的决策代表了新数据的信息。由于不同客户端处理的流量内容不同,即不同客户端处理的黑数据和白数据的内容和数据量均不相同,造成各客户端形成不同分裂形态的回归树。需要注意的是,由于所有客户端的机器学习模型均由云端同一发放,因此即使经过不同客户端的流量不同,但是生成的回归树的数量是相同的,只是不同客户端对应回归树的分裂状态不同,即分裂点不同。但所有客户端对应回归树的分裂次数均相同。在此对于回归树的数量不作限定,可以有本领域技术人员在云端生成机器学习模型时进行相应的设定。
S1022:根据分裂顺序划分各回归树得到分裂分区,并统计每个分裂分区中每次分裂时的分裂点的特征和特征值;
本步骤中根据分裂顺序划分回归树指的是按照分裂次数进行划分。例如将所有回归树第一次分裂作为第一个分裂分区,所有回归树的第二次分裂作为第二分裂分区,依此类推。在划分得到各个分裂分区后,还需要确定每个分裂分区中每次分裂时该分裂点的特征和特征值。
S1023:确定每个分裂分区的平均分裂点;
其中,平均分裂点的特征为当前分裂分区中出现频率最高的分裂点对应的特征,平均分裂点的特征值为出现频率最高的分裂点的特征值的平均值。
S1024:利用各平均分裂点对机器学习模型进行增量更新,得到新机器学习模型。
在发放至客户端的机器学习模型的基础上,提取上述记录的每棵树的分裂的特征及分裂点均值作为云端模型对应树的分裂特征及分裂值,最终构造出与客户侧模型相同大小的新机器学习模型,提升云端新机器学习模型的泛化性。
下面举例说明步骤S1021-S1024:
客户端a、b、c、d各自对应的增量数据中第一颗增量回归树的第一个分裂特征分别为time_1、time_1、time_1和lens_1,由于time_1的出现频率最高,这时认为time_1是所有客户侧模型中第一棵树第一个分裂点中最为常见的特征,记录该特征名称以及客户端a、b、c三个模型在该特征上的三个分裂值的平均数,而客户端d由于分裂特征出现频率并非最高,此时不对其在第一棵树第一分裂点上的特征值作计算。此后云端将使用time_1作为第一棵增量回归树的第一个分裂特征,分裂值为该平均数。
之后只分析使用该特征分裂的模型的参数,即客户a、b、c,他们在第二个分裂点的特征分别为time_2、time_2、lens_2,这时认为time_2为第一棵树第二个分裂点最常见的分裂特征,求得客户a、b在该分裂点的均值,将其作为云端模型第二个分裂点。重复上述步骤,直至云端模型与客户侧模型树的数目相同。
S103:将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测。
在云端生成新的机器学习模型后,即可将新机器学习模型发送至客户侧的各客户端,客户端在接收到新机器学习模型后,替代自身已存在的机器学习模型。
事实上,云端可以不断的用上述方法更新发放到客户端的模型,并不断发放至不同客户端以学习新的数据,直到云端停止模型的分析整合。换句话说,客户侧的机器学习模型和云端根据经过S101、S102得到的新机器学习模型总是相对的,这是一个循环过程。云端可以不断的根据客户侧流量对模型进行更新,这样可以确保位于客户端的机器学习模型学习到更新更全的数据,同时也可以防止模型更新次数太多模型过于臃肿导致检测效率下降。
本申请实施例通过获取各个客户端经过增量更新的机器学习模型,基于各类规则确保数据源的可靠性,提高增量更新质量,有效降低客户侧模型的误报。此后云端对获取的各机器学习模型进行参数平均,由于各客户端的模型均由云端发放,即每个模型增量更新的初始点相同,因此联合分析每个客户侧机器学习对应的每颗增量回归树的最佳分割点,从而在云端中计算出最佳的聚合模型,并发放至客户端使用,以确保机器学习模型可以不断学习更新更全的数据,并防止模型更新次数太多模型过于臃肿导致检测效率下降。
下面对本申请实施例提供的一种恶意加密流量检测系统进行介绍,下文描述的恶意加密流量检测系统与上文描述的恶意加密流量检测方法可相互对应参照。
参见图3,图3为本申请实施例所提供的一种恶意加密流量检测系统结构示意图,本申请还提供一种恶意加密流量检测系统,具体技术方案如下:
模型获取模块100,用于获取各客户端上传的机器学习模型;其中,机器学习模型用于对经过客户端的流量进行预测得到黑白数据,所述黑白数据用于对所述客户端中的机器学习模型进行更新;
模型更新模块200,用于对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;
模型分发模块300,用于将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测。
基于上述实施例,作为优选的实施例,该恶意加密流量检测系统还可以包括:
模型生成模块,用于获取客户端的历史黑白数据,并根据历史黑白数据训练得到机器学习模型;其中,历史黑白数据包括日常运行流量和沙箱病毒流量。
基于上一实施例,作为优选的实施例,该模型生成模块还可以包括:
数据过滤单元,用于在根据历史黑白数据训练得到机器学习模型之前,利用预设规则进行对历史黑白数据进行数据清洗。
基于上一实施例,作为优选的实施例,该模型生成模块可以具体用于对历史黑白数据进行特征提取得到特征向量,并使用预设模型作为分类器,对特征向量调参后得到机器学习模型。
基于上一实施例,作为优选的实施例,机器学习模型还用于根据使用证书签名、有效期和域名排名中的一种或任意几种的组合对经过客户端的流量进行流量过滤。
基于上述实施例,作为优选的实施例,该模型获取模块100可以包括:
模型预处理单元,用于利用云端预置测试集得到各机器学习模型的测试结果,将测试结果低于预设阈值的机器学习模型删除。
基于上述实施例,作为优选的实施例,模型更新模块200可以包括:
获取单元,用于获取各客户端上传的机器学习模型的增量更新数据中的回归树;其中,各客户端对应增量更新数据中的回归树数量相同;
分区单元,用于根据分裂顺序划分各回归树得到分裂分区,并统计每个分裂分区中每次分裂时的分裂点的特征和特征值;
分裂点确定单元,用于确定每个分裂分区的平均分裂点;其中,平均分裂点的特征为当前分裂分区中出现频率最高的分裂点对应的特征,平均分裂点的特征值为出现频率最高的分裂点的特征值的平均值;
模型更新单元,用于利用各平均分裂点对机器学习模型进行增量更新,得到新机器学习模型。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的恶意加密流量检测方法的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种云端服务器,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的恶意加密流量检测方法的步骤。当然所述云端服务器还可以包括各种网络接口,电源等组件。请参见图4,图4为本申请实施例所提供的一种云端服务器的结构示意图,本实施例的云端服务器可以包括:处理器2101和存储器2102。
可选的,该云端服务器还可以包括通信接口2103、输入单元2104和显示器2105和通信总线2106。
处理器2101、存储器2102、通信接口2103、输入单元2104、显示器2105、均通过通信总线2106完成相互间的通信。
在本申请实施例中,该处理器2101,可以为中央处理器(Central ProcessingUnit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器可以调用存储器2102中存储的程序。具体的,处理器可以执行上文的实施例中云端服务器所执行的操作。
存储器2102中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取各客户端上传的机器学习模型;其中,所述机器学习模型用于对经过客户端的流量进行预测得到黑白数据,以使客户端根据所述黑白数据对所述机器学习模型进行增量更新;
对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;
将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型,以使所述新机器学习模型对经过所述客户端的流量进行恶意加密流量检测。
在一种可能的实现方式中,该存储器2102可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如话题检测功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据。
此外,存储器2102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口2103可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器2105和输入单元2104等等。
图3所示的云端服务器的结构并不构成对本申请实施例中云端服务器的限定,在实际应用中云端服务器可以包括比图3所示的更多或更少的部件,或者组合某些部件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (9)
1.一种恶意加密流量检测方法,其特征在于,包括:
获取各客户端上传的机器学习模型;其中,所述机器学习模型用于对经过客户端的流量进行预测得到黑白数据,所述黑白数据用于对所述客户端中的机器学习模型进行更新;
获取各客户端上传的机器学习模型的增量更新数据中的回归树;其中,各客户端对应增量更新数据中的回归树数量相同;
根据分裂顺序划分各所述回归树得到分裂分区,并统计每个所述分裂分区中每次分裂时的分裂点的特征和特征值;
确定每个分裂分区的平均分裂点;其中,所述平均分裂点的特征为当前分裂分区中出现频率最高的分裂点对应的特征,所述平均分裂点的特征值为出现频率最高的分裂点的特征值的平均值;
利用各所述平均分裂点对所述机器学习模型进行增量更新,得到新机器学习模型;
将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测。
2.根据权利要求1所述的恶意加密流量检测方法,其特征在于,在获取各客户端上传的机器学习模型之前,还包括:
获取客户端的历史黑白数据,并根据所述历史黑白数据训练得到所述机器学习模型;其中,所述历史黑白数据包括日常运行流量和沙箱病毒流量。
3.根据权利要求2所述的恶意加密流量检测方法,其特征在于,根据所述历史黑白数据训练得到所述机器学习模型之前,还包括:
利用预设规则进行对所述历史黑白数据进行数据清洗。
4.根据权利要求2所述的恶意加密流量检测方法,其特征在于,根据所述历史黑白数据训练得到所述机器学习模型包括:
对所述历史黑白数据进行特征提取得到特征向量,并使用预设模型对所述特征向量训练得到所述机器学习模型。
5.根据权利要求1所述的恶意加密流量检测方法,其特征在于,所述机器学习模型还用于根据使用证书签名、有效期和域名排名中的一种或任意几种的组合对经过客户端的流量进行流量过滤。
6.根据权利要求1所述的恶意加密流量检测方法,其特征在于,获取各客户端上传的机器学习模型之后,还包括:
利用云端预置测试集得到各机器学习模型的测试结果,将测试结果低于预设阈值的机器学习模型删除。
7.一种恶意加密流量检测系统,其特征在于,包括:
模型获取模块,用于获取各客户端上传的机器学习模型;其中,所述机器学习模型用于对经过客户端的流量进行预测得到黑白数据,所述黑白数据用于对所述客户端中的机器学习模型进行更新;
模型更新模块,用于对各客户端上传的机器学习模型的增量更新数据进行参数平均,得到新机器学习模型;
模型分发模块,用于将所述新机器学习模型发放至各客户端,并利用所述新机器学习模型替代所述机器学习模型对经过客户端的流量进行恶意加密流量检测;
其中,模型更新模可200以包括:
获取单元,用于获取各客户端上传的机器学习模型的增量更新数据中的回归树;其中,各客户端对应增量更新数据中的回归树数量相同;
分区单元,用于根据分裂顺序划分各回归树得到分裂分区,并统计每个分裂分区中每次分裂时的分裂点的特征和特征值;
分裂点确定单元,用于确定每个分裂分区的平均分裂点;其中,平均分裂点的特征为当前分裂分区中出现频率最高的分裂点对应的特征,平均分裂点的特征值为出现频率最高的分裂点的特征值的平均值;
模型更新单元,用于利用各平均分裂点对机器学习模型进行增量更新,得到新机器学习模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法的步骤。
9.一种云端服务器,其特征在于,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1-6任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200797.5A CN113497785B (zh) | 2020-03-20 | 2020-03-20 | 恶意加密流量检测方法、系统、存储介质和云端服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200797.5A CN113497785B (zh) | 2020-03-20 | 2020-03-20 | 恶意加密流量检测方法、系统、存储介质和云端服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113497785A CN113497785A (zh) | 2021-10-12 |
CN113497785B true CN113497785B (zh) | 2023-05-12 |
Family
ID=77993831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010200797.5A Active CN113497785B (zh) | 2020-03-20 | 2020-03-20 | 恶意加密流量检测方法、系统、存储介质和云端服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113497785B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023211081A1 (en) * | 2022-04-27 | 2023-11-02 | Samsung Electronics Co., Ltd. | Optimal split federated learning in wireless network |
CN116150753A (zh) * | 2022-12-21 | 2023-05-23 | 上海交通大学 | 一种基于联邦学习的移动端恶意软件检测系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446964A (zh) * | 2016-10-21 | 2017-02-22 | 河南大学 | 一种增量式的梯度提升决策树更新方法 |
CN107466816A (zh) * | 2017-07-24 | 2017-12-15 | 东华大学 | 一种基于动态多层极限学习机的灌溉方法 |
CN107871160A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 通信高效联合学习 |
CN108023876A (zh) * | 2017-11-20 | 2018-05-11 | 西安电子科技大学 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
CN108304720A (zh) * | 2018-02-06 | 2018-07-20 | 恒安嘉新(北京)科技股份公司 | 一种基于机器学习的安卓恶意程序检测方法 |
CN108875955A (zh) * | 2017-05-10 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 基于参数服务器的梯度提升决策树的实现方法及相关设备 |
CN109447277A (zh) * | 2018-10-19 | 2019-03-08 | 厦门渊亭信息科技有限公司 | 一种通用的机器学习超参黑盒优化方法及系统 |
CN110188910A (zh) * | 2018-07-10 | 2019-08-30 | 第四范式(北京)技术有限公司 | 利用机器学习模型提供在线预测服务的方法及系统 |
CN110311902A (zh) * | 2019-06-21 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 一种异常行为的识别方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10469514B2 (en) * | 2014-06-23 | 2019-11-05 | Hewlett Packard Enterprise Development Lp | Collaborative and adaptive threat intelligence for computer security |
-
2020
- 2020-03-20 CN CN202010200797.5A patent/CN113497785B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871160A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 通信高效联合学习 |
CN106446964A (zh) * | 2016-10-21 | 2017-02-22 | 河南大学 | 一种增量式的梯度提升决策树更新方法 |
CN108875955A (zh) * | 2017-05-10 | 2018-11-23 | 腾讯科技(深圳)有限公司 | 基于参数服务器的梯度提升决策树的实现方法及相关设备 |
CN107466816A (zh) * | 2017-07-24 | 2017-12-15 | 东华大学 | 一种基于动态多层极限学习机的灌溉方法 |
CN108023876A (zh) * | 2017-11-20 | 2018-05-11 | 西安电子科技大学 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
CN108304720A (zh) * | 2018-02-06 | 2018-07-20 | 恒安嘉新(北京)科技股份公司 | 一种基于机器学习的安卓恶意程序检测方法 |
CN110188910A (zh) * | 2018-07-10 | 2019-08-30 | 第四范式(北京)技术有限公司 | 利用机器学习模型提供在线预测服务的方法及系统 |
CN109447277A (zh) * | 2018-10-19 | 2019-03-08 | 厦门渊亭信息科技有限公司 | 一种通用的机器学习超参黑盒优化方法及系统 |
CN110311902A (zh) * | 2019-06-21 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 一种异常行为的识别方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
分类回归树中分裂法则的相合性质;李勇等;《北京师范大学学报(自然科学版)》;20020228;第38卷(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113497785A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084377B (zh) | 用于构建决策树的方法和装置 | |
AU2018212470B2 (en) | Continuous learning for intrusion detection | |
US11595415B2 (en) | Root cause analysis in multivariate unsupervised anomaly detection | |
CN115606162A (zh) | 异常流量检测方法和系统、及计算机存储介质 | |
CN109104441A (zh) | 一种基于深度学习的加密恶意流量的检测系统和方法 | |
CN110598774B (zh) | 加密流量检测方法及装置、计算机可读存储介质、电子设备 | |
CN115102763B (zh) | 基于可信联邦学习多域DDoS攻击检测方法与装置 | |
CN113497785B (zh) | 恶意加密流量检测方法、系统、存储介质和云端服务器 | |
US11570057B2 (en) | Systems and methods for contextual transformation of analytical model of IoT edge devices | |
CN112988845B (zh) | 在大数据业务场景下的数据信息处理方法及信息服务平台 | |
KR102592402B1 (ko) | 연합 학습을 활용한 사용자 특성 분석을 위한 딥 러닝 모델 생성 방법 | |
CN110175281A (zh) | 一种用户数据处理、交互方法、装置及系统 | |
CN110022378B (zh) | 基于状态的vpn服务器智能分配方法 | |
CN110460662A (zh) | 物联网数据的处理方法和系统 | |
CN113743542A (zh) | 一种基于加密流量的网络资产识别方法与系统 | |
CN103780501A (zh) | 一种不可分小波支持向量机的对等网络流量识别方法 | |
CN113992349A (zh) | 恶意流量识别方法、装置、设备和存储介质 | |
CN110929806A (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN114610475A (zh) | 一种智能资源编排模型的训练方法 | |
Carela-Español et al. | An autonomic traffic classification system for network operation and management | |
CN108600270A (zh) | 一种基于网络日志的异常用户检测方法及系统 | |
CN112437022B (zh) | 网络流量识别方法、设备及计算机存储介质 | |
CN110781950B (zh) | 一种报文处理方法及装置 | |
CN112598443A (zh) | 一种基于深度学习的线上渠道业务数据处理方法及系统 | |
CN112699049A (zh) | 区块链网络测试方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Malicious encrypted traffic detection methods, systems, storage media, and cloud servers Effective date of registration: 20231212 Granted publication date: 20230512 Pledgee: Shenzhen Branch of China Merchants Bank Co.,Ltd. Pledgor: SANGFOR TECHNOLOGIES Inc. Registration number: Y2023980070863 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |