CN110225055B - 一种基于knn半监督学习模型的网络流量异常检测方法与系统 - Google Patents

一种基于knn半监督学习模型的网络流量异常检测方法与系统 Download PDF

Info

Publication number
CN110225055B
CN110225055B CN201910545310.4A CN201910545310A CN110225055B CN 110225055 B CN110225055 B CN 110225055B CN 201910545310 A CN201910545310 A CN 201910545310A CN 110225055 B CN110225055 B CN 110225055B
Authority
CN
China
Prior art keywords
classification
data
supervised learning
data set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910545310.4A
Other languages
English (en)
Other versions
CN110225055A (zh
Inventor
张�浩
陈龙
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910545310.4A priority Critical patent/CN110225055B/zh
Publication of CN110225055A publication Critical patent/CN110225055A/zh
Application granted granted Critical
Publication of CN110225055B publication Critical patent/CN110225055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于KNN半监督学习模型的网络流量异常检测方法与系统,首先使用初始有标记数据作为训练样本,利用监督学习训练初始分类模型;然后,利用初始分类模型对网络流量无标记数据进行分类,得到初始分类数据;再利用半监督学习模型对初始分类数据进行重新标记和修正;最后,利用新的分类数据重新训练分类模型,并更新初始分类模型,如此往复不断更新分类模型,从而提高检测效果。本发明基于半监督学习模型,在分类检测过程中不断优化和更新分类模型,能够在生产环境下实现快速、高效的网络异常检测。

Description

一种基于KNN半监督学习模型的网络流量异常检测方法与 系统
技术领域
本发明涉及入侵检测和机器学习领域,特别是一种基于KNN半监督学习模型的网络流量异常检测方法与系统。
背景技术
入侵检测方法分为误用检测和异常检测。误用检测是基于已知系统漏洞和攻击模式,通过事件序列匹配发现入侵行为的一种检测方法;异常检测假定入侵行为与正常行为存在明显的偏差,利用机器学习方法实现网络流量分析与分类,以此发现异常。
机器学习分为监督学习、无监督学习和半监督学习。监督学习具有较高的检测精度,在学术界应用广泛。在实际生产环境中,攻击手段层出不穷,使得数据样本不断变化,因此需要对检测模型进行实时更新。此外,监督学习在训练过程需要大量的标记数据集,而在生产环境下,数据的正确标记需要专业人士花费大量时间进行判断,且准确性难以保证,因此可行性较差。无监督学习方法,在训练需要较大的计算量,并且网络流量数据的不断增加及其维度灾难问题,导致训练和检测效率低、易陷入局部最优和检测准确率较低等问题。
在使用分类模型进行网络流量数据进行分类过程中会遇到以下问题:
(1)在流量特征提取过程中,会遇到以下情况:
(1.1)为了降低维度提高检测效率而牺牲的检测精度的问题;
(1.2)由于某些单个特征无法正确区分正常和异常流量数据而在特征选择过程中被约减掉,这些单个特征组合起来可以区分正常和异常流量数据,而导致检测精度下降问题;
(2)使用分类模型过程中,可能会因为分类模型无法保证网络流量分类结果很精确,分类结果不能完全符合实际情况。
发明内容
有鉴于此,本发明的目的是提出一种基于KNN半监督学习模型的网络流量异常检测方法与系统,基于半监督学习模型,在分类检测过程中不断优化和更新分类模型,能够在生产环境下实现快速、高效的网络异常检测。
本发明采用以下方案实现:一种基于KNN半监督学习模型的网络流量异常检测方法,首先使用初始有标记数据作为训练样本,利用监督学习训练初始分类模型;然后,利用初始分类模型对网络流量无标记数据进行分类,得到初始分类数据;再利用半监督学习模型对初始分类数据进行重新标记和修正;最后,利用新的分类数据重新训练分类模型,并更新初始分类模型,如此往复不断更新分类模型,从而提高检测效果。具体包括以下步骤:
步骤S1:对网络流量数据进行采集和预处理;
步骤S2:使用初始有标记的数据集D1作为训练样本,选择监督学习分类算法训练得到分类模型M1;
步骤S3:将步骤S1预处理后的网络流量数据作为分类样本,利用分类模型M1对分类样本进行分类,得到初始分类数据集D2;
步骤S4:利用半监督学习方法对数据集D2进行重新标记,得到新的分类数据集D3;
步骤S5:结合数据集D2和D3,利用步骤S2中分类模型构建方法,训练新的模型并进行分类模型更新。
进一步地,步骤S1具体为:对网络流量数据进行采集、粒度细化与特征提取,并进行包括特征数据去冗余、归一化处理和特征重要性计算在内的预处理。
进一步地,步骤S1中,所述归一化处理具体为:对网络流量数据进行归一化处理,将同一流量特征的数据映射到同一尺度,提高分类精度,使用最值归一化,把所有数据映射到0-1之间:
Figure BDA0002103753670000031
式中,X表示样本属性值,Xmin表示该属性的最小值,Xmax表示该属性的最大值,Xscale表示归一化处理的数据。
进一步地,步骤S1中,所述特征重要性计算具体为:利用GBDT模型,采用基尼系数,计算网络流量数据每个特征的重要性。
进一步地,步骤S4中,利用半监督学习方法对数据集D2进行重新标记具体包括以下步骤:
步骤S41:按比例对数据集D2进行人工标记,作为已标记数据并增量更新到数据集D1,再利用改进KNN半监督学习方法对数据集D2重新标记,若人工标记数据量达到规定阈值,则返回步骤S3获取新的数据集D2;
步骤S42:基于欧式距离计算样本之间的加权欧氏距离,其距离计算公式如下:
Figure BDA0002103753670000041
式中,X、Y分别为两个样本,n为特征维数,VIMi是样本特征i的重要性,xi和yi代表X、Y两个样本的特征i的特征值,dis(X,Y)表示X、Y之间的加权欧式距离;
步骤S43:基于KNN分类思想实现半监督学习分类。
进一步地,步骤S43具体包括以下步骤:
步骤S431:进行样本要类的接近度计算,计算公式如下:
Figure BDA0002103753670000042
式中,X为预分类的样本,
Figure BDA0002103753670000043
表示类别,C表示X的K个近邻中属于类别
Figure BDA0002103753670000044
的样本集合,
Figure BDA0002103753670000045
表示样本X与类别
Figure BDA0002103753670000046
的接近度;
步骤S432:进行Self-Training分类,以数据集D2中已人工标记数据集作为已分类样本,将未人工标记数据集均分成若干个子集,以子集为单位进行分类,计算一个子集中每个样本与每个类接近度,并将每个样本划分到与其接近度最高的类,当一个子集样本分类完成后,将该子集归为已分类样本,继续计算另一个子集,直到所有数据都完成分类;
步骤S433:采用十折交叉验证法确定步骤S431中的K值,将初始分类数据D2均分成10组,其中每个子集数据分别做一次验证集,其余的9组子集数据作为训练集,训练得到10个模型,用这10个模型最终的验证集的分类准确率的平均数作为分类器的性能指标;对每一个K,使用十折交叉验证计算每个K对应的分类准确率,取分类准确率最高的模型的K值作为最终的K值。
进一步地,步骤S5具体包括以下步骤:
步骤S51:构建新的标记数据集,将初始分类数据集D2和新的分类数据集D3进行数据分类标记对比,对不一致的标记进行修正,将修正后的数据增量更新到数据集D1中;
步骤S52:利用步骤S2中分类模型的构建方法,利用步骤S51更新后的数据集D1进行训练,得到分类模型M2;
步骤S53:对比分类模型M1与分类模型M2的分类精度,若M2的分类精度不低于M1,则用M2替代M1,否则返回步骤S4,增加人工标记数据的比例。
本发明还提供了一种基于上文所述的基于KNN半监督学习模型的网络流量异常检测方法的系统,包括但不限于存储模块、执行模块,所述存储模块中存储有权利要求1中的方法指令,所述执行模块在运行时执行存储模块中的方法指令。
与现有技术相比,本发明有以下有益效果:本发明基于半监督学习模型,在分类检测过程中不断优化和更新分类模型,能够在生产环境下实现快速、高效的网络异常检测。
附图说明
图1为本发明实施例的原理框图。
图2为本发明实施例的网络流量数据采集和预处理流程。
图3为本发明实施例的基于监督学习数据分类流程图。
图4为本发明实施例的基于KNN半监督学习数据更正流程图。
图5为本发明实施例的模型更新流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于KNN半监督学习模型的网络流量异常检测方法,首先使用初始有标记数据作为训练样本,利用监督学习训练初始分类模型;然后,利用初始分类模型对网络流量无标记数据进行分类,得到初始分类数据;再利用半监督学习模型对初始分类数据进行重新标记和修正;最后,利用新的分类数据重新训练分类模型,并更新初始分类模型,如此往复不断更新分类模型,从而提高检测效果。具体包括以下步骤:
步骤S1:对网络流量数据进行采集和预处理;
步骤S2:使用初始有标记的数据集D1作为训练样本,选择监督学习分类算法训练得到分类模型M1;
步骤S3:将步骤S1预处理后的网络流量数据作为分类样本,利用分类模型M1对分类样本进行分类,得到初始分类数据集D2;
步骤S4:当步骤S3所得D2中负样本数量达到指定阈值时,利用半监督学习方法对数据集D2进行重新标记,得到新的分类数据集D3,如图4所示;
步骤S5:结合数据集D2和D3,利用步骤S2中分类模型构建方法,训练新的模型并进行分类模型更新。
在本实施例中,步骤S1具体为:本实施例使用公开UNSW-NB15数据集以及部分实际采集的流量混合数据,对采集的流量数据进行粒度细化与特征提取,数据预处理模块包含特征数据去冗余、归一化处理和特征重要性计算,如图2所示。
在本实施例中,步骤S1中,所述归一化处理具体为:对网络流量数据进行归一化处理,将同一流量特征的数据映射到同一尺度,提高分类精度,使用最值归一化,把所有数据映射到0-1之间:
Figure BDA0002103753670000071
式中,X表示样本属性值,Xmin表示该属性的最小值,Xmax表示该属性的最大值,Xscale表示归一化处理的数据。
在本实施例中,步骤S1中,所述特征重要性计算具体为:利用GBDT模型,采用基尼系数,计算网络流量数据每个特征的重要性。其中,Gini指数的计算公式为:
Figure BDA0002103753670000072
式中,K表示类别数目,Pmk表示节点m中类别k所占的比例。直观地说,就是随便从节点m中随机抽取两个样本,其类别标记不一致的概率;特征Xj在节点m的重要性,即节点m分支前后的Gini指数变化量为:
Figure BDA0002103753670000081
式中,GIl和GIr分别表示分枝后两个新节点的Gini指数。如果,特征Xj在决策树i中出现的节点集合M,那么Xj在第i颗树的重要性为:
Figure BDA0002103753670000082
假设共有n颗树,那么:
Figure BDA0002103753670000083
最后,把所有求得的重要性评分做归一化处理即可:
Figure BDA0002103753670000084
较佳的,在本实施例中,步骤S2利用UNSW-NB15数据集D1作为训练样本,选用KNN、XGBoost、LightGBM三种算法进行训练,得到初始分类模型M1,如图3所示。
较佳的,在本实施例中,步骤S3将步骤S1中预处理后的网络流量数据作为分类样本,利用分类模型M1对分类样本进行分类,得到初始分类数据集D2,实验中三种算法的多分类精度分别为78.33%、85.15%、89.90%。
在本实施例中,步骤S4中,利用半监督学习方法对数据集D2进行重新标记具体包括以下步骤:
步骤S41:按比例对数据集D2进行人工标记,作为已标记数据并增量更新到数据集D1,再利用改进KNN半监督学习方法对数据集D2重新标记,若人工标记数据量达到规定阈值,则返回步骤S3获取新的数据集D2;
步骤S42:基于欧式距离计算样本之间的加权欧氏距离,其距离计算公式如下:
Figure BDA0002103753670000091
式中,X、Y分别为两个样本,n为特征维数,VIMi是样本特征i的重要性,xi和yi代表X、Y两个样本的特征i的特征值,dis(X,Y)表示X、Y之间的加权欧式距离;
步骤S43:基于KNN分类思想实现半监督学习分类。
在本实施例中,步骤S43具体包括以下步骤:
步骤S431:进行样本要类的接近度计算,计算公式如下:
Figure BDA0002103753670000092
式中,X为预分类的样本,
Figure BDA0002103753670000093
表示类别,C表示X的K个近邻中属于类别
Figure BDA0002103753670000094
的样本集合,
Figure BDA0002103753670000095
表示样本X与类别
Figure BDA0002103753670000096
的接近度;
步骤S432:进行Self-Training分类,以数据集D2中已人工标记数据集作为已分类样本,将未人工标记数据集均分成若干个子集,以子集为单位进行分类,计算一个子集中每个样本与每个类接近度,并将每个样本划分到与其接近度最高的类,当一个子集样本分类完成后,将该子集归为已分类样本,继续计算另一个子集,直到所有数据都完成分类;
步骤S433:采用十折交叉验证法确定步骤S431中的K值,将初始分类数据D2均分成10组,其中每个子集数据分别做一次验证集,其余的9组子集数据作为训练集,训练得到10个模型,用这10个模型最终的验证集的分类准确率的平均数作为分类器的性能指标;对每一个K,使用十折交叉验证计算每个K对应的分类准确率,取分类准确率最高的模型的K值作为最终的K值。
在本实施例中,如图5所示,步骤S5具体包括以下步骤:
步骤S51:构建新的标记数据集,将初始分类数据集D2和新的分类数据集D3进行数据分类标记对比,对不一致的标记进行修正,将修正后的数据增量更新到数据集D1中;
步骤S52:利用步骤S2中分类模型的构建方法,利用步骤S51更新后的数据集D1进行训练,得到分类模型M2;
步骤S53:对比分类模型M1与分类模型M2的分类精度,若M2的分类精度不低于M1,则用M2替代M1,否则返回步骤S4,增加人工标记数据的比例。
本实施例还提供了一种基于上文所述的基于KNN半监督学习模型的网络流量异常检测方法的系统,包括但不限于存储模块、执行模块,所述存储模块中存储有权利要求1中的方法指令,所述执行模块在运行时执行存储模块中的方法指令。
特别的,本实施例采用公开UNSW-NB15数据集以及部分实际采集的流量混合数据共50000条,其中公开数据集32000条,18000为实际采集数据,攻击流量20000条包括6种攻击类别,正常流量30000条。其中,30%的公开数据集进行训练,剩余的作为测试数据,训练检测模型,平均准确率为83%。系统通过模拟攻击过程产生18000条数据,其中包括6000攻击流量,12000正常流量数据,负样本阈值设为1000条,分类模型进行6次更新后的准确率提高到89%。本发明方法支持在线网络流量数据的实时检测,并利用半监督学习方法实现分类模型不断更新,从而提高检测效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (6)

1.一种基于KNN半监督学习模型的网络流量异常检测方法,其特征在于,包括以下步骤:
步骤S1:对网络流量数据进行采集和预处理;
步骤S2:使用初始有标记的数据集D1作为训练样本,选择监督学习分类算法训练得到分类模型M1;
步骤S3:将步骤S1预处理后的网络流量数据作为分类样本,利用分类模型M1对分类样本进行分类,得到初始分类数据集D2;
步骤S4:利用半监督学习方法对数据集D2进行重新标记,得到新的分类数据集D3;
步骤S5:结合数据集D2和D3,利用步骤S2中分类模型构建方法,训练新的模型并进行分类模型更新;
其中,步骤S4中,利用半监督学习方法对数据集D2进行重新标记具体包括以下步骤:
步骤S41:按比例对数据集D2进行人工标记,作为已标记数据并增量更新到数据集D1,再利用改进KNN半监督学习方法对数据集D2重新标记,若人工标记数据量达到规定阈值,则返回步骤S3获取新的数据集D2;
步骤S42:基于欧式距离计算样本之间的加权欧氏距离,其距离计算公式如下:
Figure FDA0002504826080000011
式中,X、Y分别为两个样本,n为特征维数,VIMi是样本特征i的重要性,xi和yi代表X、Y两个样本的特征i的特征值,dis(X,Y)表示X、Y之间的加权欧式距离;
步骤S43:基于KNN分类思想实现半监督学习分类;
其中,步骤S43具体包括以下步骤:
步骤S431:进行样本要类的接近度计算,计算公式如下:
Figure FDA0002504826080000021
式中,X为预分类的样本,
Figure FDA0002504826080000022
表示类别,C表示X的K个近邻中属于类别
Figure FDA0002504826080000023
的样本集合,
Figure FDA0002504826080000024
表示样本X与类别
Figure FDA0002504826080000025
的接近度;
步骤S432:进行Self-Training分类,以数据集D2中已人工标记数据集作为已分类样本,将未人工标记数据集均分成若干个子集,以子集为单位进行分类,计算一个子集中每个样本与每个类接近度,并将每个样本划分到与其接近度最高的类,当一个子集样本分类完成后,将该子集归为已分类样本,继续计算另一个子集,直到所有数据都完成分类;
步骤S433:采用十折交叉验证法确定步骤S431中的K值,将初始分类数据D2均分成10组,其中每个子集数据分别做一次验证集,其余的9组子集数据作为训练集,训练得到10个模型,用这10个模型最终的验证集的分类准确率的平均数作为分类器的性能指标;对每一个K,使用十折交叉验证计算每个K对应的分类准确率,取分类准确率最高的模型的K值作为最终的K值。
2.根据权利要求1所述的一种基于KNN半监督学习模型的网络流量异常检测方法,其特征在于,步骤S1具体为:对网络流量数据进行采集、粒度细化与特征提取,并进行包括特征数据去冗余、归一化处理和特征重要性计算在内的预处理。
3.根据权利要求2所述的一种基于KNN半监督学习模型的网络流量异常检测方法,其特征在于,步骤S1中,所述归一化处理具体为:对网络流量数据进行归一化处理,将同一流量特征的数据映射到同一尺度,提高分类精度,使用最值归一化,把所有数据映射到0-1之间:
Figure FDA0002504826080000031
式中,X表示样本属性值,Xmin表示该属性的最小值,Xmax表示该属性的最大值,Xscale表示归一化处理的数据。
4.根据权利要求2所述的一种基于KNN半监督学习模型的网络流量异常检测方法,其特征在于,步骤S1中,所述特征重要性计算具体为:利用GBDT模型,采用基尼系数,计算网络流量数据每个特征的重要性。
5.根据权利要求1所述的一种基于KNN半监督学习模型的网络流量异常检测方法,其特征在于,步骤S5具体包括以下步骤:
步骤S51:构建新的标记数据集,将初始分类数据集D2和新的分类数据集D3进行数据分类标记对比,对不一致的标记进行修正,将修正后的数据增量更新到数据集D1中;
步骤S52:利用步骤S2中分类模型的构建方法,利用步骤S51更新后的数据集D1进行训练,得到分类模型M2;
步骤S53:对比分类模型M1与分类模型M2的分类精度,若M2的分类精度不低于M1,则用M2替代M1,否则返回步骤S4,增加人工标记数据的比例。
6.一种基于权利要求1-5任一项所述的基于KNN半监督学习模型的网络流量异常检测方法的系统,其特征在于,包括但不限于存储模块、执行模块,所述存储模块中存储有权利要求1中的方法指令,所述执行模块在运行时执行存储模块中的方法指令。
CN201910545310.4A 2019-06-22 2019-06-22 一种基于knn半监督学习模型的网络流量异常检测方法与系统 Active CN110225055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910545310.4A CN110225055B (zh) 2019-06-22 2019-06-22 一种基于knn半监督学习模型的网络流量异常检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910545310.4A CN110225055B (zh) 2019-06-22 2019-06-22 一种基于knn半监督学习模型的网络流量异常检测方法与系统

Publications (2)

Publication Number Publication Date
CN110225055A CN110225055A (zh) 2019-09-10
CN110225055B true CN110225055B (zh) 2020-10-09

Family

ID=67814636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910545310.4A Active CN110225055B (zh) 2019-06-22 2019-06-22 一种基于knn半监督学习模型的网络流量异常检测方法与系统

Country Status (1)

Country Link
CN (1) CN110225055B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995700A (zh) * 2019-12-02 2020-04-10 山东超越数控电子股份有限公司 一种畸形ip报文检测方法、设备以及存储介质
CN112153000B (zh) * 2020-08-21 2023-04-18 杭州安恒信息技术股份有限公司 网络流量异常的检测方法、装置、电子装置和存储介质
CN111970305B (zh) * 2020-08-31 2022-08-12 福州大学 基于半监督降维和Tri-LightGBM的异常流量检测方法
CN112422590B (zh) * 2021-01-25 2021-04-27 中国人民解放军国防科技大学 基于主动学习的网络流量分类方法及装置
CN112988212B (zh) * 2021-03-24 2022-09-13 厦门吉比特网络技术股份有限公司 神经网络模型之在线增量更新方法、装置、系统及存储介质
CN113591915B (zh) * 2021-06-29 2023-05-19 中国电子科技集团公司第三十研究所 基于半监督学习和单分类支持向量机的异常流量识别方法
CN114172708A (zh) * 2021-11-30 2022-03-11 北京天一恩华科技股份有限公司 网络流量异常的识别方法
CN116415688B (zh) * 2023-03-27 2023-11-03 中国科学院空间应用工程与技术中心 一种流体回路状态监测基线模型在线学习方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN109726918A (zh) * 2018-12-29 2019-05-07 云南大学 基于生成式对抗网络和半监督学习的个人信用确定方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285719B1 (en) * 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
CN106446959B (zh) * 2016-10-10 2019-06-07 北京邮电大学 一种云计算资源动态匹配方法及装置
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN108154178A (zh) * 2017-12-25 2018-06-12 北京工业大学 基于改进的svm-knn算法的半监督托攻击检测方法
CN108650194B (zh) * 2018-05-14 2022-03-25 南开大学 基于K_means和KNN融合算法的网络流量分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470731A (zh) * 2007-12-26 2009-07-01 中国科学院自动化研究所 一种可个性化定制的网页过滤方法
CN109726918A (zh) * 2018-12-29 2019-05-07 云南大学 基于生成式对抗网络和半监督学习的个人信用确定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Centered kNN Graph for Semi-Supervised Learning";Ikumi Suzuki;《Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval》;20170831;全文 *
"一种基于KNN的半监督分类改进算法";陆广泉,谢扬才,刘星,张师超;《广西师范大学学报(自然科学版)》;20120331(第1期);全文 *

Also Published As

Publication number Publication date
CN110225055A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110225055B (zh) 一种基于knn半监督学习模型的网络流量异常检测方法与系统
CN106817248B (zh) 一种apt攻击检测方法
US8676726B2 (en) Automatic variable creation for adaptive analytical models
US20220075946A1 (en) Perceptual associative memory for a neuro-linguistic behavior recognition system
CN104765768A (zh) 海量人脸库的快速准确检索方法
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN107579846B (zh) 一种云计算故障数据检测方法及系统
CN107111610B (zh) 用于神经语言行为识别系统的映射器组件
CN111126820B (zh) 反窃电方法及系统
CN111143838B (zh) 数据库用户异常行为检测方法
CN112132014B (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN111754345A (zh) 一种基于改进随机森林的比特币地址分类方法
JP2010061415A (ja) 学習装置および方法、認識装置および方法、並びにプログラム
CN109818971B (zh) 一种基于高阶关联挖掘的网络数据异常检测方法与系统
CN110929848A (zh) 基于多挑战感知学习模型的训练、跟踪方法
JP6172317B2 (ja) 混合モデル選択の方法及び装置
CN112149825A (zh) 神经网络模型的训练方法及装置、电子设备、存储介质
US11562133B2 (en) System and method for detecting incorrect triple
CN112100617B (zh) 一种异常sql检测方法及装置
CN107688822B (zh) 基于深度学习的新增类别识别方法
US20170293608A1 (en) Unusual score generators for a neuro-linguistic behavioral recognition system
CN114139636B (zh) 异常作业处理方法及装置
US20230244987A1 (en) Accelerated data labeling with automated data profiling for training machine learning predictive models
CN112651590B (zh) 一种指令处理流程推荐的方法
CN114048796A (zh) 一种改进型硬盘故障预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant