CN116155630A - 恶意流量识别方法及相关设备 - Google Patents

恶意流量识别方法及相关设备 Download PDF

Info

Publication number
CN116155630A
CN116155630A CN202310432132.0A CN202310432132A CN116155630A CN 116155630 A CN116155630 A CN 116155630A CN 202310432132 A CN202310432132 A CN 202310432132A CN 116155630 A CN116155630 A CN 116155630A
Authority
CN
China
Prior art keywords
model
training
training model
malicious traffic
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310432132.0A
Other languages
English (en)
Other versions
CN116155630B (zh
Inventor
高源辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202310432132.0A priority Critical patent/CN116155630B/zh
Publication of CN116155630A publication Critical patent/CN116155630A/zh
Application granted granted Critical
Publication of CN116155630B publication Critical patent/CN116155630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种恶意流量识别方法及相关设备。所述方法包括:基于获取的训练用待识别数据集,选择得到基模型;利用引导聚集算法对所述基模型进行训练,得到第一训练模型;利用提升算法对所述基模型进行训练,得到第二训练模型;利用堆栈算法对所述基模型进行训练,得到第三训练模型;基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。本申请实施例基于三种集成算法构建恶意流量识别模型,结合了综合量化评估体系确定最终的识别模型,弥补了单个机器学习模型的学习偏差,有效提升了模型的识别性能。

Description

恶意流量识别方法及相关设备
技术领域
本申请涉及网络流量安全分析技术领域,尤其涉及一种恶意流量识别方法及相关设备。
背景技术
为了应对诸如拒绝服务、恶意代码等不同类型的网络攻击,加解密机制、终端防护、身份认证、防火墙、网络安全态势感知等多种网络安全技术应运而生。
现有恶意流量检测研究可划分为基于签名的方法和基于机器学习的方法。基于签名的方法通过对恶意流量特定行为的规则描述,通过规则匹配实现恶意流量的检测。但该类方法大多需要手动更新规则,难以适应不断变化的攻防场景。基于机器学习的方法通常使用特定的机器学习模型对流量进行训练,然后使用拟合后的模型对流量进行攻击检测,但尽管机器学习方法可有效检测恶意流量,单个模型学习到的行为模式通常存在较大的偏离,导致检测结果产生较多的误报或漏报。
发明内容
有鉴于此,本申请的目的在于提出一种恶意流量识别方法及相关设备。
基于上述目的,本申请提供了一种恶意流量识别方法,包括:
基于获取的训练用待识别数据集,选择得到基模型;
利用引导聚集算法对所述基模型进行训练,得到第一训练模型;
利用提升算法对所述基模型进行训练,得到第二训练模型;
利用堆栈算法对所述基模型进行训练,得到第三训练模型;
基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;
基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。
在一种可能的实现方式中,所述方法,还包括:
确定所述第一训练模型、第二训练模型和所述第三训练模型的权重;
基于所述权重,将所述第一训练模型、第二训练模型和所述第三训练模型合并作为第二恶意流量识别模型;
基于所述第二恶意流量识别模型对待识别的恶意流量进行识别,得到第二最终识别结果。
在一种可能的实现方式中,所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重,包括:
计算所述第一训练模型的受试者工作特征曲线下面积,得到第一面积;
计算所述第二训练模型的受试者工作特征曲线下面积,得到第二面积;
计算所述第三训练模型的受试者工作特征曲线下面积,得到第三面积;
基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、第二训练模型和第三训练模型的权重。
在一种可能的实现方式中,通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积:
基于所述第一训练模型的混淆矩阵计算得到所述第一训练模型的真正例率和假正例率;
基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积。
在一种可能的实现方式中,所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别,包括:
利用所述第一训练模型对所述待识别的恶意流量进行识别,得到第一识别结果;
利用所述第二训练模型对所述待识别的恶意流量进行识别,得到第二识别结果;
利用所述第三训练模型对所述待识别的恶意流量进行识别,得到第三识别结果;
基于所述权重对所述第一识别结果、第二识别结果和所述第三识别结果进行加权求和,计算得到所述最终的识别结果。
在一种可能的实现方式中,通过下述方法获取所述训练用待识别数据集:
获取未处理的待识别数据集;
将所述未处理的待识别数据集中的符号特征数据转换为数字数据,且将所述未处理的待识别数据集中的数值数据进行归一化处理,得到所述训练用待识别数据集。
在一种可能的实现方式中,所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型,包括:
基于混淆矩阵,计算所述第一训练模型、第二训练模型和第三训练模型的准确率、精确率和召回率;
计算所述第一训练模型、第二训练模型和第三训练模型的波动方差;
从所述第一训练模型、第二训练模型和第三训练模型中选取所述准确率、精确率和召回率至少一项最高的,和/或,所述波动方差最小的一个模型,作为所述第一恶意流量识别模型。
基于同一发明构思,本申请实施例还提供了一种恶意流量识别装置,包括:
选择模块,被配置为基于获取的训练用待识别数据集,选择得到基模型;
第一训练模块,被配置为利用引导聚集算法对所述基模型进行训练,得到第一训练模型;
第二训练模块,被配置为利用提升算法对所述基模型进行训练,得到第二训练模型;
第三训练模块,被配置为利用堆栈算法对所述基模型进行训练,得到第三训练模型;
选取模块,被配置为基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;
识别模块,被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。
基于同一发明构思,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的恶意流量识别方法。
基于同一发明构思,本申请实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的恶意流量识别方法。
从上面所述可以看出,本申请提供的恶意流量识别方法及相关设备,基于获取的训练用待识别数据集,选择得到基模型;利用引导聚集算法对所述基模型进行训练,得到第一训练模型;利用提升算法对所述基模型进行训练,得到第二训练模型;利用堆栈算法对所述基模型进行训练,得到第三训练模型;基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。通过基于三种集成算法构建恶意流量识别模型,结合了综合量化评估体系确定最终的识别模型,弥补了单个机器学习模型的学习偏差,使其更加适用于不同类型恶意流量识别和性能评估的场景,有效提升了模型的识别性能。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的恶意流量识别方法示意图;
图2为本申请实施例的恶意流量识别装置示意图;
图3为本申请实施例的电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,现有恶意流量检测研究可划分为基于签名的方法和基于机器学习的方法。基于签名的方法通过对恶意流量特定行为的规则描述,通过规则匹配实现恶意流量的检测。但该类方法大多需要手动更新规则,难以适应不断变化的攻防场景。基于机器学习的方法通常使用特定的机器学习模型对流量进行训练,然后使用拟合后的模型对流量进行攻击检测,但尽管机器学习方法可有效检测恶意流量,单个模型学习到的行为模式通常存在较大的偏离,导致检测结果产生较多的误报或漏报。
综合上述考虑,本申请实施例提出一种恶意流量识别方法,基于获取的训练用待识别数据集,选择得到基模型;利用引导聚集算法对所述基模型进行训练,得到第一训练模型;利用提升算法对所述基模型进行训练,得到第二训练模型;利用堆栈算法对所述基模型进行训练,得到第三训练模型;基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。通过基于三种集成算法构建恶意流量识别模型,结合了综合量化评估体系确定最终的识别模型,弥补了单个机器学习模型的学习偏差,使其更加适用于不同类型恶意流量识别和性能评估的场景,有效提升了模型的识别性能。
以下,通过具体的实施例来详细说明本申请的技术方案。
参考图1,本申请实施例的恶意流量识别方法,包括以下步骤:
步骤S101,基于获取的训练用待识别数据集,选择得到基模型;
步骤S102,利用引导聚集算法对所述基模型进行训练,得到第一训练模型;
步骤S103,利用提升算法对所述基模型进行训练,得到第二训练模型;
步骤S104,利用堆栈算法对所述基模型进行训练,得到第三训练模型;
步骤S105,基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;
步骤S106,基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。
针对步骤S101,在一些实施例中,通过下述方法获取所述训练用待识别数据集:
获取未处理的待识别数据集;
将所述未处理的待识别数据集中的符号特征数据转换为数字数据,且将所述未处理的待识别数据集中的数值数据进行归一化处理,得到所述训练用待识别数据集。
在一些实施例中,待识别数据集可以为流量数据包。流量数据包初始格式以pcap(Packet Capture,数据包捕获)文件为主,对预处理后的流量数据进行检测既能提升检测精度,又能减少运行时间。因此,本申请对数据处理与整形主要包括符号特征数值化和数据归一化两部分内容,既需要对符号数据进行转换,又需要将数值数据进行归一化。
在一些实施例中,在流量检测数据集中均包含符号特征数据,恶意流量识别模型难以直接对符号数据进行处理,因此,在该步骤中可以使用one-hot编码器将符号数据转换为数字数据。例如流量数据集中的protocol_type(协议类型)特征包含三种字符,分别是TCP(Transmission Control Protocol,传输控制协议),UDP(User Datagram Protocol,用户数据报协议)和ICMP(Internet Control Message Protocol,网络控制报文协议)。通过one-hot编码,将这三个字符映射成3个二进制向量,映射结果分别是:[1,0,0],[0,1,0],[0,0,1]。按照这样的方式,通过one-hot编码对所有符号特征进行映射。对于类别标签,将数据集中的正常流量数据标记为0,异常流量数据标记为1。
数据归一化可以解决不同特征数据之间维度相差较大的问题,因此被广泛用于数据预处理步骤中。为了保证检测结果的可靠性,需要对两个数据集中的数值数据进行归一化处理,归一化是指将所有特征数据缩小到[0,1]范围内。采用了Min-Max归一化方法来处理数据,其转换公式为:
Figure SMS_1
,其中/>
Figure SMS_2
代表某一种特征的属性值,/>
Figure SMS_3
代表这种特征属性的最大值,/>
Figure SMS_4
代表这种特征属性的最小值,/>
Figure SMS_5
代表对/>
Figure SMS_6
进行归一化处理后的结果。
进一步的,可以基于获取的训练用待识别数据集,选择得到基模型。可以使用决策树算法(CART)作为基模型,针对不同的数据规模和场景,也可以选择不同的统计学习模型作为基模型如朴素贝叶斯、最近邻、神经网络等。
进一步的,针对步骤S102,利用引导聚集算法(Bootstrap ggregating,Bagging)对所述基模型进行训练。
具体的,Bagging方法是对一组模型进行差异化训练进而将其组合成一组拟合能力更强的集成方法。从总体的角度看,Bagging方法通过数据抽样创建不同的训练集,基于差异化的训练集对基模型进行训练,并对最终的结果进行投票平均或均值平均。
Bagging方法的具体过程:首先明确输入为训练数据集D,即训练用待识别数据集,输出为分类器G,即训练好的模型,在t=1的时刻下,从训练数据集中抽取一个训练数据,作为新的训练数据集D’,之后利用D’对模型进行训练,得到中间模型
Figure SMS_7
,在小于预设的时间阈值的情况下始终重复上述操作,直至当前时刻大于预设的时间阈值,得到最终的模型G,模型G是对中间模型/>
Figure SMS_8
进行投票平均或者是直接取平均值所得到的。
Bagging方法具有如下特点。第一,Bagging方法的集成方式较为简单,但是在改进不稳定分类问题时较为有效。第二,Bagging方法可以使用不同的基模型。最开始的Bagging方法使用CART作为基模型,但是针对不同的数据规模和场景,也可以选择不同的统计学习模型作为基模型如朴素贝叶斯、最近邻、神经网络等。第三,Bagging方法可以并行训练。在基模型的训练过程中,各个基模型之间没有依赖关系,因此在完成多轮的数据采样后,可以对多个基模型进行并行训练。
针对步骤S103,利用提升算法(Boosting)对所述基模型进行训练,得到第二训练模型。
在一些实施例中,Boosting算法是对一组拟合能力较弱的统计学习模型进行组合形成一个拟合能力更强的统计学习模型[16]。从总体的角度来看,Boosting算法充分利用多个弱模型的学习能力,使用集成学习算法将多个“弱”基类模型融合为一个强模型。从学习方法的角度看,Boosting算法可以视为一种模型平均方法,而非模型输出的平均方法。在Boosting算法的整体协调下,每个模型都对某几种分散的数据规律具有良好的学习能力,因此,通过集成模型而非集成输出,Boosting算法可以获得更平衡的拟合能力。
Boosting算法的具体过程:首先明确输入为训练数据集D,即训练用待识别数据集,输出为分类器G,即训练好的模型,首先对k进行初始化,令其得1,进一步的,使用训练数据集D中的第一代训练数据集
Figure SMS_9
对模型/>
Figure SMS_10
进行训练,且对该模型的权重进行初始化,进一步的,计算该模型的错误率/>
Figure SMS_11
,之后基于错误率计算每个模型的权重/>
Figure SMS_12
,利用该权重进行数据集的迭代,更新该数据集的权重,对该数据集进行归一化处理,之后重复上述步骤,直至k大于预设的阈值,或者达到其他的结束情形,得到最终的模型G。
Boosting算法具有几个较为明显的特点。第一,Boosting算法不易发生过拟合。Boosting算法基于前一个基模型的结果对下一轮基模型的训练进行调整。通过调整错误分类模型的权重,下一轮基模型的训练会增加对这些错误分类数据的学习程度。因此,每一轮学到的基模型对于不同区域的数据具有不同的拟合能力,增强了基模型学习规律的多样性,避免了过拟合的情况。第二,Boosting算法需要较长的训练时间。由于Boosting算法是多轮迭代的过程,下一轮的迭代需要依赖于上一轮迭代中的训练结果,因此Boosting算法的训练过程是串行的。第三,Boosting算法可以从基模型选择、误差计算、终止条件等多个环节进行优化,针对各类场景设计更为高效的具体算法。
进一步的,针对步骤S104,利用堆栈算法(stacking)对所述基模型进行训练,得到第三训练模型。
具体的,Stacking算法通过对模型和数据的层次堆叠构成一组更强的学习器,同时获得更准确的预测效果。从总体的角度看,Stacking通过对模型和数据按照不同的层次进行组织,将上一层的输出作为下一层的输入,从而达到更准确的预测效果。相比于Bagging算法和Boosting算法对模型的并行组织,Stacking算法是通过对模型的串行组织进行集成,从而更准确地集成基模型。
Stacking模型的具体实现过程中:第一,将训练集划分为两部分,分别是
Figure SMS_24
Figure SMS_13
。使用数据/>
Figure SMS_20
训练多个第一层次的模型/>
Figure SMS_22
,训练结束后用/>
Figure SMS_26
对数据/>
Figure SMS_27
和测试数据
Figure SMS_28
进行预测,得到元训练集/>
Figure SMS_21
和/>
Figure SMS_25
。第二,使用元训练集{/>
Figure SMS_15
,/>
Figure SMS_17
}组成训练集/>
Figure SMS_14
,对第二层的模型/>
Figure SMS_18
进行训练,最终将/>
Figure SMS_19
作为输入数据进行预测得到/>
Figure SMS_23
。最终/>
Figure SMS_16
作为最终的预测输出。
Stacking算法具有如下特点。第一,Stacking算法可以用于组合不同类型的基模型。决策树、神经网络、朴素贝叶斯、逻辑回归等模型都可以作为Stacking方法的基模型。由于不同的基模型对于不同类型样本的拟合能力不同,引入多样的基模型可以增加基模型的信息熵,从而实现更优的分类效果。第二,Stacking算法可以通过多层次进行堆叠。上述算法给出了一个二层架构的Stacking算法,但是同时可以基于二层的输出再构建三层乃至更多层次的Stacking算法。第三,Stacking算法对于最终输出结果的解释能力不强。由于以串行多层次的方式对数据进行拟合,原始数据的信息在层次传递的过程中逐渐减弱,Stacking算法的最终输出结果是基于中间信息产生,因此无法基于原始数据对最终结果进行解释。
进一步的,针对步骤S105,基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型。
在一些实施例中,所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型,包括:
基于混淆矩阵,计算所述第一训练模型、第二训练模型和第三训练模型的准确率、精确率和召回率;
计算所述第一训练模型、第二训练模型和第三训练模型的波动方差;
从所述第一训练模型、第二训练模型和第三训练模型中选取所述准确率、精确率和召回率至少一项最高的,和/或,所述波动方差最小的一个模型,作为所述第一恶意流量识别模型。
具体的,恶意流量检测可视为分类过程,常用的评价指标有准确率(ACC)、精确率(PR)、召回率(RC)和F1值等,F1值是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。这些评价指标大多依赖于混淆矩阵。混淆矩阵是使用矩阵的形式将算法性能的效果进行可视化展现。表1展示了混淆矩阵四个参数的具体分布情况。
表1 混淆矩阵
Figure SMS_29
其中,真阳性(1 Positive,TP):正确分类为攻击类别的攻击样本数量。真阴性(1Negative,TN):正确分类为正常类别的正常样本数量。假阳性(0 Positive,FP):错误分类为攻击类别的正常样本数量。假阴性(0 Negative,FN):错误分类为正常类别的攻击样本数量。
在一些实施例中,通过下式计算准确率:
Figure SMS_30
其中,ACC表示准确率,TP表示真阳性,TN表示真阴性,FP表示假阳性,FN表示假阴性。
在一些实施例中,通过下式计算精确率:
Figure SMS_31
其中,PR表示精确率,TP表示真阳性,FP表示假阳性。
在一些实施例中,通过下式计算召回率:
Figure SMS_32
其中,RC表示召回率,TP表示真阳性,FN表示假阴性。
在一些实施例中,通过下式计算F1值:
Figure SMS_33
其中,F1表示F1值,PR表示精确率,RC表示召回率。
此外,本申请还通过定量模型波动方差值的大小判定模型优劣,即模型方差越小,模型稳定性越好。本领域技术人员知晓具体如何计算波动方差值,故在此不做赘述。
基于上述评估体系从第一训练模型、第二训练模型和第三训练模型中选取最优的模型作为第一恶意流量识别模型,这里对于最优的定义为,前述计算的准确率、精确率和召回率至少一项最高的,和/或,所述波动方差最小的。
进一步的,在得到第一恶意流量识别模型后,利用该模型对恶意流量进行识别。
在一些实施例中,所述方法,还包括:
确定所述第一训练模型、第二训练模型和所述第三训练模型的权重;
基于所述权重,将所述第一训练模型、第二训练模型和所述第三训练模型合并作为第二恶意流量识别模型;
基于所述第二恶意流量识别模型对待识别的恶意流量进行识别,得到第二最终识别结果。
在一些实施例中,所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重,包括:
计算所述第一训练模型的受试者工作特征曲线下面积,得到第一面积;
计算所述第二训练模型的受试者工作特征曲线下面积,得到第二面积;
计算所述第三训练模型的受试者工作特征曲线下面积,得到第三面积;
基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、第二训练模型和第三训练模型的权重。
在一些实施例中,通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积:
基于所述第一训练模型的混淆矩阵计算得到所述第一训练模型的真正例率和假正例率;
基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积。
在一些实施例中,所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别,包括:
利用所述第一训练模型对所述待识别的恶意流量进行识别,得到第一识别结果;
利用所述第二训练模型对所述待识别的恶意流量进行识别,得到第二识别结果;
利用所述第三训练模型对所述待识别的恶意流量进行识别,得到第三识别结果;
基于所述权重对所述第一识别结果、第二识别结果和所述第三识别结果进行加权求和,计算得到所述最终的识别结果。
具体的,可以采用加权投票的形式将前述的第一训练模型、第二训练模型和第三训练模型融合在一起。
基于加权投票的集成模型具有以下优势:
提高准确性:通过整合多个基学习器的预测结果,集成模型能够汇集多种学习器的优势。相对于单个学习器,集成模型往往能获得更高的准确性,因为它们可以充分利用多个基学习器的不同视角和特征抽取能力。
增强泛化能力:加权投票的集成模型能够降低过拟合的风险,因为它结合了多个基学习器的预测结果,使得模型在预测时对单个学习器的特异性过拟合现象具有较好的容忍度。
降低方差:由于基学习器之间的预测结果存在差异,加权投票的集成模型可以平衡这些差异,从而降低整体模型的预测方差。这有助于提高模型的稳定性和鲁棒性。
可自适应调整权重:加权投票的集成模型可以根据基学习器的性能为其分配权重,使得在预测时性能好的基学习器具有更高的影响力。这样的设计可以让模型自适应地调整各个基学习器在预测中的作用,从而进一步提高预测准确性。
引入多样性:加权投票的集成模型可以容纳不同类型的基学习器,包括线性模型、树模型、神经网络等。这种多样性使得集成模型能够从多个角度捕捉数据的特征,提高模型的泛化能力。
易于实现和调整:加权投票的集成模型的实现相对简单,可以在现有的机器学习框架中方便地实现。同时,根据实际问题和数据特点,可以灵活调整基学习器的类型、数量和权重,以获得最佳性能。
总之,基于加权投票的集成模型可以整合多个基学习器的优点,提高预测准确性、增强泛化能力、降低方差,且具有较好的实现简便性和调整灵活性。这些优势使得加权投票的集成模型在许多实际应用场景中具有广泛的应用价值。
具体的,在计算权重时是基于模型准确性评估这一参数进行计算的。
模型准确性评估:AUC(Area Under the Curve)指的是ROC曲线下的面积,它用于衡量分类模型的性能。ROC曲线(Receiver Operating Characteristic curve)是一种用于评估二分类模型的工具,它通过将真正例率(1 Positive Rate,TPR)作为纵轴,假正例率(0Positive Rate,FPR)作为横轴,绘制出不同阈值下的分类性能。AUC值越大,说明分类器的性能越好。以下是相关概念和公式的详细解释:
真正例率(1 Positive Rate,TPR):又称为灵敏度(Sensitivity),表示正例被正确分类的比例。计算公式为:
TPR = TP / (TP + FN)
其中,TP(1 Positive)表示真正例,即实际为正例且被预测为正例的样本数量;FN(0 Negative)表示假反例,即实际为正例但被预测为反例的样本数量。
假正例率(0 Positive Rate,FPR):表示反例被错误分类为正例的比例。计算公式为:
FPR = FP / (FP + TN)
其中,FP(0 Positive)表示假正例,即实际为反例但被预测为正例的样本数量;TN(1 Negative)表示真反例,即实际为反例且被预测为反例的样本数量。
绘制ROC曲线:根据不同阈值下的TPR和FPR值,绘制出ROC曲线。阈值从最低到最高,逐渐增加,对应的TPR和FPR值构成ROC曲线的各个点。理想情况下,ROC曲线越靠近左上角,分类性能越好。
计算AUC值:AUC值是ROC曲线下的面积,可以通过梯形法则计算。首先,将ROC曲线分为若干个梯形,然后计算这些梯形的面积之和。具体计算公式为:
AUC = Σ (FPR(i) - FPR(i-1)) * (TPR(i) + TPR(i-1)) / 2
其中,i表示阈值序号,从1到N,N为阈值个数。
AUC值的范围是0到1,值越接近1,表示分类器性能越好;值越接近0.5,表示分类器性能越接近随机猜测。在实际应用中,AUC值可以作为衡量分类器在不同阈值下整体性能的一个指标。
根据预测准确性确定权重:
对三种模型的评价指标进行归一化处理,使其和为1,得到三种模型的权重。例如,如果Bagging、Boosting和Stacking的AUC分别为0.8、0.85和0.9,那么归一化后的权重分别为0.8/(0.8+0.85+0.9)、0.85/(0.8+0.85+0.9)和0.9/(0.8+0.85+0.9)。
使用加权投票进行预测:
对于一个新的测试样本,分别使用Bagging、Boosting和Stacking三种模型进行预测,得到三个预测结果。然后根据前述步骤中计算得到的权重,对这三个预测结果进行加权求和,得到最终的预测结果。
恶意流量检测具有非入侵式、表现稳定、数据捕获完整等优点,是网络安全防护过程中的一个重要环节。但是随着攻防博弈过程的螺旋升级,攻击者会隐藏明显的行为特征绕过检测,而防守者会从新的角度或新的方法探索恶意流量的行为模式。其中,对流量进行加密和混淆是攻击者常用的一个方法,而模型集成可以弥补单个机器学习模型存在学习偏差的问题,并且模型集成方法可以较好的解决攻击数据不平衡、攻击数据量较少等问题,因此,研究安全数据的模型集成方法可以视为未来研究的一大方向。此外,当前的模型集成方法主要对传统机器学习模型进行集成,而较少考虑到对深度学习模型的集成,因此,探索对深度学习模型的集成方法是未来研究的另一个可行方向。
通过上述实施例可以看出,本申请实施例所述的恶意流量识别方法,基于获取的训练用待识别数据集,选择得到基模型;利用引导聚集算法对所述基模型进行训练,得到第一训练模型;利用提升算法对所述基模型进行训练,得到第二训练模型;利用堆栈算法对所述基模型进行训练,得到第三训练模型;基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。本申请基于三种集成算法构建恶意流量识别模型,结合了综合量化评估体系确定最终的识别模型,弥补了单个机器学习模型的学习偏差,有效提升了模型的识别性能。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种恶意流量识别装置。
参考图2,所述恶意流量识别装置,包括:
选择模块21,被配置为基于获取的训练用待识别数据集,选择得到基模型;
第一训练模块22,被配置为利用引导聚集算法对所述基模型进行训练,得到第一训练模型;
第二训练模块23,被配置为利用提升算法对所述基模型进行训练,得到第二训练模型;
第三训练模块24,被配置为利用堆栈算法对所述基模型进行训练,得到第三训练模型;
选取模块25,被配置为基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;
识别模块26,被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的恶意流量识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的恶意流量识别方法。
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的恶意流量识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的恶意流量识别方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的恶意流量识别方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种恶意流量识别方法,其特征在于,包括:
基于获取的训练用待识别数据集,选择得到基模型;
利用引导聚集算法对所述基模型进行训练,得到第一训练模型;
利用提升算法对所述基模型进行训练,得到第二训练模型;
利用堆栈算法对所述基模型进行训练,得到第三训练模型;
基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;
基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
确定所述第一训练模型、第二训练模型和所述第三训练模型的权重;
基于所述权重,将所述第一训练模型、第二训练模型和所述第三训练模型合并作为第二恶意流量识别模型;
基于所述第二恶意流量识别模型对待识别的恶意流量进行识别,得到第二最终识别结果。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一训练模型、第二训练模型和所述第三训练模型的权重,包括:
计算所述第一训练模型的受试者工作特征曲线下面积,得到第一面积;
计算所述第二训练模型的受试者工作特征曲线下面积,得到第二面积;
计算所述第三训练模型的受试者工作特征曲线下面积,得到第三面积;
基于所述第一面积、所述第二面积和所述第三面积确定得到所述第一训练模型、第二训练模型和第三训练模型的权重。
4.根据权利要求3所述的方法,其特征在于,通过下述方法计算所述第一训练模型的受试者工作特征曲线下面积:
基于所述第一训练模型的混淆矩阵计算得到所述第一训练模型的真正例率和假正例率;
基于所述真正例率和所述假正例率计算得到所述第一训练模型的受试者工作特征曲线下面积。
5.根据权利要求2所述的方法,其特征在于,所述基于所述第二恶意流量识别模型对待识别的恶意流量进行识别,包括:
利用所述第一训练模型对所述待识别的恶意流量进行识别,得到第一识别结果;
利用所述第二训练模型对所述待识别的恶意流量进行识别,得到第二识别结果;
利用所述第三训练模型对所述待识别的恶意流量进行识别,得到第三识别结果;
基于所述权重对所述第一识别结果、第二识别结果和所述第三识别结果进行加权求和,计算得到所述最终的识别结果。
6.根据权利要求1所述的方法,其特征在于,通过下述方法获取所述训练用待识别数据集:
获取未处理的待识别数据集;
将所述未处理的待识别数据集中的符号特征数据转换为数字数据,且将所述未处理的待识别数据集中的数值数据进行归一化处理,得到所述训练用待识别数据集。
7.根据权利要求1所述的方法,其特征在于,所述基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型,包括:
基于混淆矩阵,计算所述第一训练模型、第二训练模型和第三训练模型的准确率、精确率和召回率;
计算所述第一训练模型、第二训练模型和第三训练模型的波动方差;
从所述第一训练模型、第二训练模型和第三训练模型中选取所述准确率、精确率和召回率至少一项最高的,和/或,所述波动方差最小的一个模型,作为所述第一恶意流量识别模型。
8.一种恶意流量识别装置,其特征在于,包括:
选择模块,被配置为基于获取的训练用待识别数据集,选择得到基模型;
第一训练模块,被配置为利用引导聚集算法对所述基模型进行训练,得到第一训练模型;
第二训练模块,被配置为利用提升算法对所述基模型进行训练,得到第二训练模型;
第三训练模块,被配置为利用堆栈算法对所述基模型进行训练,得到第三训练模型;
选取模块,被配置为基于预设的评估算法从所述第一训练模型、第二训练模型和第三训练模型中进行选取,得到第一恶意流量识别模型;
识别模块,被配置为基于所述第一恶意流量识别模型对待识别的恶意流量进行识别,得到第一最终识别结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
CN202310432132.0A 2023-04-21 2023-04-21 恶意流量识别方法及相关设备 Active CN116155630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310432132.0A CN116155630B (zh) 2023-04-21 2023-04-21 恶意流量识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310432132.0A CN116155630B (zh) 2023-04-21 2023-04-21 恶意流量识别方法及相关设备

Publications (2)

Publication Number Publication Date
CN116155630A true CN116155630A (zh) 2023-05-23
CN116155630B CN116155630B (zh) 2023-07-04

Family

ID=86354691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310432132.0A Active CN116155630B (zh) 2023-04-21 2023-04-21 恶意流量识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN116155630B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222762A (zh) * 2019-06-04 2019-09-10 恒安嘉新(北京)科技股份公司 对象预测方法、装置、设备、及介质
KR20200094938A (ko) * 2019-01-31 2020-08-10 동서대학교 산학협력단 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법
CN111614599A (zh) * 2019-02-25 2020-09-01 北京金睛云华科技有限公司 基于人工智能的webshell检测方法和装置
CN111814147A (zh) * 2020-06-03 2020-10-23 武汉科技大学 基于模型库的安卓恶意软件检测方法
CN112416976A (zh) * 2020-11-18 2021-02-26 简和网络科技(南京)有限公司 基于分布式多级协同的分布式拒绝服务攻击监控系统及方法
CN113066525A (zh) * 2021-03-30 2021-07-02 中山大学 一种基于集成学习与混合神经网络的多靶标药物筛选方法
CN113221112A (zh) * 2021-05-28 2021-08-06 广州大学 基于弱相关集成策略的恶意行为识别方法、系统和介质
WO2021259207A1 (zh) * 2020-06-24 2021-12-30 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质
CN114676753A (zh) * 2022-03-02 2022-06-28 上海连尚网络科技有限公司 用于生成在线预测模型的方法、设备、介质及程序产品
CN114785563A (zh) * 2022-03-28 2022-07-22 中国矿业大学(北京) 一种软投票策略的加密恶意流量检测方法
US20220303290A1 (en) * 2021-03-22 2022-09-22 Verizon Patent And Licensing Inc. Systems and methods for utilizing a machine learning model to detect anomalies and security attacks in software-defined networking

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200094938A (ko) * 2019-01-31 2020-08-10 동서대학교 산학협력단 생성적 대립 네트워크를 이용한 데이터의 불균형 해결방법
CN111614599A (zh) * 2019-02-25 2020-09-01 北京金睛云华科技有限公司 基于人工智能的webshell检测方法和装置
CN110222762A (zh) * 2019-06-04 2019-09-10 恒安嘉新(北京)科技股份公司 对象预测方法、装置、设备、及介质
CN111814147A (zh) * 2020-06-03 2020-10-23 武汉科技大学 基于模型库的安卓恶意软件检测方法
WO2021259207A1 (zh) * 2020-06-24 2021-12-30 广州大学 基于stacking集成的APT组织识别方法、系统及存储介质
CN112416976A (zh) * 2020-11-18 2021-02-26 简和网络科技(南京)有限公司 基于分布式多级协同的分布式拒绝服务攻击监控系统及方法
US20220303290A1 (en) * 2021-03-22 2022-09-22 Verizon Patent And Licensing Inc. Systems and methods for utilizing a machine learning model to detect anomalies and security attacks in software-defined networking
CN113066525A (zh) * 2021-03-30 2021-07-02 中山大学 一种基于集成学习与混合神经网络的多靶标药物筛选方法
CN113221112A (zh) * 2021-05-28 2021-08-06 广州大学 基于弱相关集成策略的恶意行为识别方法、系统和介质
CN114676753A (zh) * 2022-03-02 2022-06-28 上海连尚网络科技有限公司 用于生成在线预测模型的方法、设备、介质及程序产品
CN114785563A (zh) * 2022-03-28 2022-07-22 中国矿业大学(北京) 一种软投票策略的加密恶意流量检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
K AN 等: "Optimal-Weight Selection for Regressor Ensemble", 《2009 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND SOFTWARE ENGINEERING》, pages 1 - 4 *
KUNKUN WANG 等: "Application Research of Ensemble Learning Frameworks", 《2020 CHINESE AUTOMATION CONGRESS (CAC)》, pages 5767 - 5772 *
SENG ZIAN 等: "An Empirical Evaluation of Stacked Ensembles With Different Meta-Learners in Imbalanced Classification", 《IEEE ACCESS》, pages 87434 - 87452 *
SUMOULI CHOUDHURY 等: "Comparative analysis of machine learning algorithms along with classifiers for network intrusion detection", 《2015 INTERNATIONAL CONFERENCE ON SMART TECHNOLOGIES AND MANAGEMENT FOR COMPUTING, COMMUNICATION, CONTROLS, ENERGY AND MATERIALS (ICSTM)》, pages 89 - 91 *
张晓宣: "基于深度学习的网络入侵检测研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 9 - 11 *
董元方: "机器学习中的模型选择问题研究", 《中国博士学位论文全文数据库 信息科技辑》, pages 14 - 16 *

Also Published As

Publication number Publication date
CN116155630B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111553381B (zh) 基于多网络模型的网络入侵检测方法、装置及电子设备
CN112990432B (zh) 目标识别模型训练方法、装置及电子设备
CN107784312B (zh) 机器学习模型训练方法及装置
JP2020501238A (ja) 顔検出トレーニング方法、装置及び電子機器
US20200242481A1 (en) Method for providing data associated with original data and electronic device and storage medium for the same
CN112231592A (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN116934385B (zh) 用户流失预测模型的构建方法、用户流失预测方法及装置
CA3204311A1 (en) Method and system for securely deploying an artificial intelligence model
CN116250020A (zh) 使用潜在邻域图检测对抗性示例
CN111275416A (zh) 数字货币异常交易检测方法、装置、电子设备及介质
CN116595463A (zh) 窃电识别模型的构建方法、窃电行为识别方法及装置
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
CN114022713A (zh) 模型训练方法、系统、设备及介质
CN115186012A (zh) 一种用电量数据检测方法、装置、设备及存储介质
CN110008987B (zh) 分类器鲁棒性的测试方法、装置、终端及存储介质
Datta et al. Computational intelligence for observation and monitoring: a case study of imbalanced hyperspectral image data classification
CN116155630B (zh) 恶意流量识别方法及相关设备
CN113435531A (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN111027609A (zh) 一种图像数据加权分类方法和系统
CN113221995B (zh) 基于半监督深度分类算法的数据分类方法、设备及装置
CN114355234A (zh) 一种电源模块的智能化质量检测方法及系统
Cao et al. No-reference image quality assessment by using convolutional neural networks via object detection
Malach et al. Optimal face templates: the next step in surveillance face recognition
CN112053219A (zh) 一种基于ocsvm的消费金融欺诈行为检测方法
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Gao Yuanchen

Inventor after: Xu Guosheng

Inventor before: Gao Yuanchen

CB03 Change of inventor or designer information