CN107483451A - 基于串并行结构网络安全数据处理方法及系统、社交网络 - Google Patents
基于串并行结构网络安全数据处理方法及系统、社交网络 Download PDFInfo
- Publication number
- CN107483451A CN107483451A CN201710740993.XA CN201710740993A CN107483451A CN 107483451 A CN107483451 A CN 107483451A CN 201710740993 A CN201710740993 A CN 201710740993A CN 107483451 A CN107483451 A CN 107483451A
- Authority
- CN
- China
- Prior art keywords
- data
- grader
- network
- security
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明属于网络安全、大数据处理和机器学习技术领域,公开了一种基于串并行结构网络安全数据处理方法及系统、社交网络,部署过滤器筛选正常数据,筛选掉正常网络数据,达到减小待处理数据量的效果;网络安全数据采集,获得网络安全相关的可疑数据并存储;输入采集的网络安全数据,判断是否存在未被标记的数据,对于未被标记网络安全数据,用数据模糊聚类的方法判断剩余网络安全数据的分类,并标记;更新训练数据集合、训练数据集合并重新排序分类器序列,减小所要处理的数据维数,确定所要处理数据的安全类别,更加方便快捷准确的完成对网络安全等级的度量。本发明能在任意复杂的网络环境下高效、精确的获得与网络安全度量密切相关标准化数据。
Description
技术领域
本发明属于网络安全、大数据处理和机器学习技术领域,尤其涉及一种基于串并行结构网络安全数据处理方法及系统、社交网络。
背景技术
随着网络技术,如IoTs,D2D和SDN/NFV等的产生与发展,已经步入网络化时代,特别是移动通信网和社交网络成为生活密不可分的一部分。另外,许多领域,像生物学、医药学、教育学、农学、交通管理、政府机构的正常发展与运作也离不开网络。在这种情况下,有两个问题需要密切关注:(1)随着网络用户数量的增加,在网络上的安全攻击也会相应增加。这些网络攻击极有可能造成对网络的安全威胁,如信息泄露,信息欺骗,甚至是网络瘫痪,财产损失。因此,在使用某个网络服务的时候用户希望提前知道该网络的安全级别,来避免一些潜在的不必要的损失;(2)当网络安全事件发生时,用户希望网络管理员能快速准确的找到相关的安全数据进行分析得出安全威胁的原因,并能找出克服这些威胁的有效方法。目前,已经存在的针对网络安全的方案技术有恶意软件检测方法、入侵检测方法等,都是通过对数据的分析检测网络攻击。一般来说,网络安全相关数据有以下特征:(1)多类别。对一个复杂的网络环境来讲,有很多不同种类的安全数据,如拒绝服务攻击相关数据,蠕虫攻击相关数据等,在网络上被发送、接受;因此,在数据采集组合过程的目的应当是得到不同安全类别的尽量精确的数据。(2)大数据量。由于网络覆盖范围大,网络用户数量多,导致所采集到的网络安全相关数据较大的数据量和较高的数据维度;因此,数据采集组合过程需要移除不相关数据、冗余数据和噪声数据,并且降低数据维度,以获得更为简化的数据。(3)大信息量。网络安全相关数据中携带有大量的安全相关信息,通过对这些信息整理和分析可以确定数据属于哪种安全类型,同时化简这些携带有安全相关信息的数据可以快速、精确的实现对网络安全等级的度量。目前,还不存在针对于网络安全度量而提出的网络安全相关数据的采集与组合方法。在数据处理方面,Ambusaidi等撰写的“Building anIntrusion Detection System Using a Filter-Based Feature Selection Algorithm”一文中提出一个新的特征选择方法,该方法通过计算互信息量(MI)来估测特征与类别之间的依赖关系进而选择出有助于多分类的特征集合实现数据的降维。这个方法不依赖于任何参数,通过选择与目标类别相关且互相不重复的特征来降低输入到二分类器中数据的维度,降低分类过程中的计算量,非常高效且精确的实现数据的二分类。虽然该方法相较于其它特征选择方法已经有了很多优势,但是,该方法是根据训练数据与某个类别之间的关系进行特征筛选的,只能针对二分类进行特征选择过程,无法被直接应用于网络安全相关数据的多分类过程;Hao,Chiang和Lin撰写的“A new maximal-margin spherical-structured multi-class support vector machine”一文中通过引入间隔参数d提出一种新的球形结构的支持向量机分类算法,叫做最大间隔的基于球形结构的多分类支持向量机算法(MSM-SVM)来确定未知数据是否属于目标类别。该方法利用训练数据集在特征空间上训练出囊括所有目标类训练数据的最小半径的球面,同时利用支持向量机最大间隔的思想最大化球面与非目标类别数据点之间的距离确定用于分类的超球面。这个方法非常适用于处理不平衡数据(某些类别数据量过小,而某些类别数据量过大)的多分类问题,同时在预测数据分类的时候,可以利用简单的空间几何关系将在球面中的样本点(点到球心的距离小于球面半径)归于此类。但是,该方法分类时将所有的数据放在同一个特征空间下计算,由于大多数情况下每个安全类别依赖的特征子集不同,这就会不可避免的造成某些类别的特征冗余或是特征缺失。另外,该方法也没有考虑到新类型的数据怎么实现分类,没有考虑到类别所依赖的特征子集不同对分类结果造成的影响,对于具有大数据量,多样化的网络安全相关数据分类处理过程来说仍然不够。
综上所述,现有技术存在的问题是:目前的网络数据处理方法存在分类的不精确和特征的冗余,在复杂网络环境下大数据分类速度慢,准确度低;缺乏全面、稳定的自适应采集与组合方法得到可直接用于网络安全度量的标准化数据。而本发明所提数据处理方法,由于按顺序排列分类器,使得大量的分类数据得以很快的处理;由于每个分类器依赖于最小的特征子集,减少了传统数据分类方法在数据分类过程中的特征冗余问题;由于加入了模糊聚类方法处理不确定数据,使得本发明可以识别出新的安全类型;由于在数据处理过程中,不停地更新分类器顺序,删除长期不用的分类器,添加新出现安全类别的分类器,增强了整个系统在复杂多变网络环境下的自适应性。
发明内容
针对现有技术存在的问题,本发明提供了一种基于串并行结构网络安全数据处理方法及系统、社交网络。
本发明是这样实现的,一种基于串并行结构网络安全数据处理方法,所述基于串并行结构网络安全数据处理方法包括:部署过滤器筛选正常数据,筛选掉正常网络数据,以达到减小待处理数据量的效果;网络安全数据采集,获得网络安全相关的可疑数据并存储;输入采集的网络安全数据,判断是否存在未被标记的数据,对于未被标记网络安全数据,用数据模糊聚类的方法判断剩余网络安全数据的分类,并标记;更新训练数据集合、训练数据集合并重新排序分类器序列。由于网络安全度量需要具有大信息量特征的网络安全相关的数据支撑,因此只有通过对网络安全相关数据的组合操作才能减小所要处理的数据量,减小所要处理的数据维数,确定所要处理数据的安全类别,更加方便快捷准确的完成对网络安全等级的度量。
进一步,所述基于串并行结构网络安全数据处理方法包括:线下训练;线上采集;线下组合;
所述线下训练包括:特征子集训练过程和分类器训练过程;
所述线上采集包括:在网络中部署网络数据采集器监控整个网络,设置数据过滤器,移除正常数据后采集网络安全相关数据;
所述线下组合包括:
(1)所有参与数据组合过程的分类器排序,得到串并行结构的分类器序列;
(2)输入采集到的网络安全相关数据到排序好的分类器,当数据被输入到某组分类器,按照分类器所依赖的特征子集对数据进行特征提取操作,确定数据是否属于该类别,如果属于则做标记并输出,如果不属于则保持不变;
(3)判断是否还存在未被标记的数据,如果没有,则直接得到标准化的网络安全相关数据;如果有,判断是否存在没有进行数据分类操作的分类器,如果没有,则数据属于新的安全类型的数据,如果有,则继续按顺序输入未被标记的数据到剩余的分类器中进行分类操作;
(4)对于剩余的未被标记的数据,数据模糊聚类判断剩余数据的分类,并对其做标记,更新训练数据集合,为新的数据类型训练新的特征子集和分类器,更新训练数据集合并重新排序分类器序列。
进一步,所述特征子集训练过程具体包括:
(1)确定进行特征选择操作的安全类别;
(2)计算安全类别的数据相对于其它不属于该类别数据的特征选择指标,并依据特征选择指标的大小确定这个安全类别的特征子集;
(3)判断是否已为所有训练集合中的安全类别训练出特征子集;如果是,则特征选择过程结束;如果不是,重新确定没有特征子集的安全类别;
所述分类器训练过程具体包括:
(1)确定要训练分类器的类别;
(2)根据安全类别所依赖的特征子集确定球形分类器的最大间隔参数dk,球心ak,和半径Rk,确定分类器所能分类的范围,比较数据在特征空间上与球心的相对距离和半径,确定该数据是否属于安全类别;
(3)判断是否已为所有训练集合中的安全类别训练出分类器,如果是,则创建分类器过程结束;如果不是,则重新继续创建没有分类器的安全类别。
进一步,所述线下组合具体包括以下步骤:
1)存储器采集的数据送入串并行结构的分类器中进行分类,依赖特征相同的分类器合并为并行结构,依赖特征不同的分类器顺序排列为串行结构;
2)根据分类器所依赖特征数Fn和一次输出的数据量大小Cn,确定分类器的顺序:
Ord=λ1·Fn+λ2·Cn;
其中λ1和λ2(λ1+λ2=1)为平衡两个影响分类器顺序的参数,分类器的Ord越大,越靠前;
3)根据数据通过分类器所依赖的特征子集对输入的原始数据进行特征提取,利用特征计算数据是否属于分类器所代表的类别,如果属于则标记输出并将数据从输入数据集中删除,如果不属于则继续输入下一组分类器重复分类、标记、输出过程;
4)当原始数据通过所有的分类器后,已知安全类别的数据从分类器输出被标记、化简。
进一步,所述2)的分类器排序过程具体包括:
统计每个分类器所依赖特征子集中的特征数目Fn;
统计一段时间数据输入后每组分类器输出的数据量大小Cn;
引入两个平衡参数λ1和λ2来平衡Fn和Cn(λ1+λ2=1),计算分类器的顺序Ord,值越大所代表的分类器越靠前:
Ord=λ1·Fn+λ2·Cn。
进一步,所述更新训练数据集合、训练数据集合并重新排序分类器序列具体包括:
1)数据进行模糊聚类操作确定数据的大致分类,标记数据,并用数据更新训练数据集,训练出新的分类器,更新分类器的串并行序列;
2)计算没有数据输出的分类器的时长,如果超过某个提前设定的阈值,表明长时间内网络中不会出现分类器代表的安全类型,则将分类器从串并行序列中移除;
3)根据参数Ord更新分类器序列的顺序,当有新的网络安全相关数据集合输入时,重新进行数据组合序列更新。
本发明的另一目的在于提供一种使用所述基于串并行结构网络安全数据处理方法的基于串并行结构网络安全数据处理系统,所述基于串并行结构网络安全数据处理系统包括:
训练模块,用于特征子集训练过程和分类器训练;
网络安全数据采集模块,用于部署网络数据采集器,设置数据过滤器,移除正常数据;
网络安全数据组合模块,用于更新训练数据集合,为新的数据类型训练新的特征子集和分类器,更新训练数据集合并重新排序分类器序列。
进一步,所述网络安全数据组合模块包括:
分类器排序单元,用于所有参与数据组合过程的分类器排序,得到串并行结构的分类器序列;
特征提取单元,用于输入采集的网络安全相关数据到排序好的分类器,数据被输入到某组分类器,按照分类器所依赖的特征子集对数据进行特征提取操作,确定数据是否属于该类别;
数据标记判断单元,用于判断是否还存在未被标记的数据;
更新单元,用于对于剩余的未被标记的数据,数据模糊聚类判断剩余数据的分类,并做标记,更新训练数据集合,为新的数据类型训练新的特征子集和分类器,更新训练数据集合并重新排序分类器序列。
本发明的另一目的在于提供一种应用所述所述基于串并行结构网络安全数据处理方法的社交网络。
本发明的另一目的在于提供一种应用所述所述基于串并行结构网络安全数据处理方法的移动通信网络。
本发明的优点及积极效果为:通过对训练数据集的计算和训练得到每个网络攻击安全类型的特征子集及分类器,减小数据处理的维度,减小类别间的特征冗余;通过利用正常数据过滤器筛选得到网络安全相关数据,减小所要处理数据的数据量,符合网络安全相关数据的大量性特点;通过计算每个分类器顺序参数Ord对所有的分类器进行排序,得到用于数据分类的串并行结构,这样可以优先处理高维度,大数据量的类别,减小系统因为数据量大,维度高而产生的压力;通过对剩余数据的聚类得到新的攻击类型的数据,这样可以检测不在原训练数据集中的安全类别,提高整个系统的可扩展性;通过对训练数据集的更新,对特征子集的更新,对分类器的更新,同时在系统运行过程中不断更新分类器顺序,提前重要的分类器,删除长期没有数据输出的分类器,实现数据标准化过程的自适应性和可扩展性,使得本发明更适用于不断变化的复杂网络。本发明的目的是为网络安全度量提供低维度的,安全类别确定的网络安全相关数据的最小集合。而这些数据的产生过程也就是本发明中所提到的的网络安全数据的采集与组合过程。由于目前仍缺乏相关数据处理方法专门针对于网络安全等级度量过程,因此本发明的提出是十分重要的。另外,由于分别对数据的特征选择方法和数据的分类方法进行了改进使得整个数据处理系统的性能得以提高,下表中分别对所提方法的特征选择过程和数据分类过程与传统方法做了相关对比。另外,由于整个串并行结构依赖于不同类别的最小特征子集,而且整个系统在不停地更新中,因此,在整体上具有处理复杂大规模网络环境下,具有大体量、多种类、多变化特点的网络安全相关数据的能力。
附图说明
图1是本发明实施例提供的基于串并行结构网络安全数据处理方法流程图。
图2是本发明实施例提供的基于串并行结构网络安全数据处理方法的数据处理架构示意图。
图3是本发明实施例提供的基于串并行结构网络安全数据处理方法的实现流程图。
图4是本发明实施例提供的安全类别特征子集的训练过程示意图。
图5是本发明实施例提供的安全类别特征子集的确定方法示意图。
图6是本发明实施例提供的安全类别二维空间上的训练过程示意图。
图7是本发明实施例提供的安全类别分类器的分类器结构示意图。
图8是本发明实施例提供的数据分类的串并行结构示意图示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
随着人们生产生活中上网需求的日益增长,网络覆盖范围不断加大。在利益的驱使下,越来越多的不法分子利用网络漏洞、用户不安全的上网行为等对网络进行攻击,导致网络安全事件频繁发生。由于用户对网络的用途不同,对网络的安全等级要求也就不同,比如仅浏览网页的用户对网络的安全的要求低于网上购物的用户。为了保证所使用网络的安全性,用户需要在使用网络之前知道该网络的安全等级。目前,虽然有很多网络入侵检测方法通过分析数据特征检测某个网络的攻击数据,但是针对网络安全度量的数据标准化的解决方案尚属空白。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于串并行结构网络安全数据处理方法包括以下步骤:
S101:利用已知的不同安全类型(如,拒绝访问攻击相关类型的数据和蠕虫攻击相关的数据就属于两个不同的安全类型)的训练数据子集结合互信息熵的计算方法计算出每种安全类型所依赖的特征子集;
S102:利用不同安全类型的训练数据集合,并结合其特定的特征子集计算每种安全类型的分类器;
S103:在大规模复杂网络环境下部署网络数据包采集器(如,libcap,wireshark等)捕获网络数据包,同时设置正常数据过滤器(正常数据分类器)过滤掉确定是正常的网络数据,剩余不确定的可疑数据被存储器保留;
S104:定时输出存储器中的数据到数据串并行结合的组合过程中实现对数据的降维、去冗余、除燥和加分类标签获得可用于网络安全度量的标准化数据;
S105:组合过程后剩余的不确定安全类型的数据被认为是新出现的安全数据类型,进行模糊聚类,确定剩余数据的安全类型后更新训练数据集合,重新训练出新安全类型所依赖的特征子集及分类器,实现整个过程的自适应性。
本发明实例提供的本发明实施例提供的基于串并行结构网络安全数据处理方法包括三个过程:1)线下训练过程;2)线上采集过程;3)线下组合过程。
1)线下训练过程,包括特征子集训练过程和分类器训练过程。
特征子集训练过程,具体步骤如下:
首先,确定进行特征选择操作的安全类别,将属于这个类别中的训练数据看成一类,不属于这个类别的训练数据看成另一类;
接下来,根据Ambusaidi M A,He X,Nanda P和Tan Z撰写的“Building anIntrusion Detection System Using a Filter-Based Feature Selection Algorithm”的论文中提出的方法,计算出这个特定安全类别的数据相对于其它不属于该类别数据的特征选择指标,并依据该指标的大小确定这个安全类别的特征子集;
最后,判断是否已为所有训练集合中的安全类别训练出特征子集。如果是,则特征选择过程结束。如果不是,则转第一步重新确定没有特征子集的安全类别。
分类器训练过程,具体步骤如下:
首先,确定要训练分类器的类别,将属于这个类别中的训练数据看成一类,不属于这个类别的训练数据看成另一类;
然后,根据Hao P Y,Chiang J H和Lin Y H撰写的“A new maximal-marginspherical-structured multi-class support vector machine”提出的分类器训练的方法MSM-SVM,并根据该安全类别所依赖的特征子集确定球形分类器的最大间隔参数dk,球心ak,和半径Rk,最终确定分类器所能分类的范围,比较数据在特征空间上与球心的相对距离和半径,确定该数据是否属于这个安全类别;
最后,判断是否已为所有训练集合中的安全类别训练出分类器。如果是,则创建分类器过程结束。如果不是,则转第一步重新继续创建没有分类器的安全类别。
2)线上采集过程
在网络中部署网络数据采集器(如,libcap,wireshark等)监控整个网络。然后设置数据过滤器(正常网络数据分类器),移除正常数据后采集网络安全相关数据,用于后续的数据分析、处理。
3)线下组合过程
首先,为所有参与数据组合过程的分类器排序,得到串并行结构的分类器序列;
然后,持续输入采集到的网络安全相关数据到排序好的分类器,直到存储器中没有数据为止。当数据被输入到某组分类器时,按照分类器所依赖的特征子集对数据进行特征提取操作,确定数据是否属于该类别,如果属于则做标记并输出,如果不属于则保持不变;
然后,判断是否还存在未被标记的数据。如果没有,则直接得到标准化的网络安全相关数据。如果有,判断是否存在没有进行数据分类操作的分类器,如果没有,则这些数据属于新的安全类型的数据,如果有,则继续按顺序输入未被标记的数据到剩余的分类器中进行分类操作;
最后,对于剩余的未被标记的数据,用数据模糊聚类(如K-means)的方法判断剩余数据的分类,并对其做标记,更新训练数据集合,为新的数据类型训练新的特征子集和分类器,更新训练数据集合并重新排序分类器序列。
下面结合附图对本发明的应用原理作进一步的描述。
如图2和图3所示,本发明的整个系统框架包括以下部分:
(1)根据经验得到在训练阶段所用的训练数据集D={(x1,y1),(x2,y2),...,(xN,yN)}并存储,其中x1,x2,...,xN为训练数据,y1,y2,...,yN∈{C1,C2,...,Ck}为数据安全类别的类标签;
(2)根据训练数据集合进行特征选择,训练出每个安全类别的特征子集,同时根据训练数据集合及特征子集为每个安全类别创建分类器;
(3)过滤大规模网络中的正常数据,采集网络安全相关数据,并将采集到的数据进行数据组合;
(4)在数据组合过程中,首先对分类器按规则排序,得到串并行的分类器结构,再按分类器的要求对原始数据进行特征提取,按顺序分类数据;
(5)给分类后的数据加上安全类别标签,此时分类后的数据应当是该类别对应特征子集的维度,这个低维度,带有安全类别标签的数据将被作为标准化数据存储;
(6)对于没有被分类出来的数据,数据为新的安全类别,利用数据聚类的方法粗略分类数据,并将分类后的数据作为训练数据去更新训练数据集,更新特征子集,更新分类器。
如图4和图5所示,选择安全类别特征子集时;
首先,按照图4所给结构将数据分成两类,一类为当前安全类别数据,一类为剩余安全类别数据;
然后,按照图5所给结构,根据Ambusaidi M A,He X,Nanda P和Tan Z撰写的“Building an Intrusion Detection System Using a Filter-Based FeatureSelection Algorithm”撰写的论文中提出的方法,计算出这个特定安全类别相对于不属于该类别数据的特征选择指标GMI;如果GMI大于0则添加当前特征到特征子集,否则如果小于0或等于0则表明该特征冗余或为噪声特征,移除对应特征。
最后,判断是否还有未确认特征子集的安全类别,如果有,则重新选择当前安全类别,继续整个训练过程;如果没有,则特征子集训练过程结束。
如图6和图7所示,创建安全类别分类器时;
首先,按照图6所给结构将数据分成两类,一类为当前安全类别数据,一类为剩余安全类别数据;
然后,按照图7所给的二维结构,根据Hao P Y,Chiang J H和Lin Y H撰写的“Anew maximal-margin spherical-structured multi-class support vector machine”一文中提出的分类器训练的方法MSM-SVM,并根据该安全类别所依赖的特征子集确定球形分类器的最大间隔参数dk,球心ak,和最小化半径Rk,使得属于该类别的数据尽量被包括在小的半径范围内,不属于该类别的数据尽量远离分类器的分类范围,最终确定分类器所能分类的范围,根据数据在相对应特征空间上的位置可以确定该数据是否属于该安全类别。图7仅为一个二维的例子,实际应用中数据维度大多数都大于二维;
最后,判断是否还有未确认分类器的安全类别,如果有,则重新选择当前安全类别,继续整个训练过程;如果没有,则分类器训练过程结束。
如图8所示,网络安全数据串并行结构的组合过程,包括以下步骤:
(1)根据分类器所依赖的特征子集确定分类器组,这里分类器的并行结构是指一组特征子集相同的分类器所组成的结构(如图2中的分类器i和分类器j),串行结构则是指不同特征子集的分类器组所组成的结构(如图2中的分类器1和分类器2)。按照以下公式,计算分类器的顺序参数指标Ord,该值越大所代表的分类器组越靠前:
Ord=λ1·Fn+λ2·Cn;
其中Fn为统计的每组相同特征子集分类器所依赖特征子集中的特征数目;Cn为统计的一段时间数据输入后每组相同特征子集的分类器输出的数据量;引入两个平衡参数λ1和λ2(其中λ1+λ2=1,最开始两个参数均被初始化为0.5,通过交叉验证的方法来不断优化两个参数的值)来平衡Fn和Cn。
(2)将采集到的网络安全相关数据输入到排序好的串并行结构的分类器序列中;
(3)判断数据是否已经通过所有分类器,如果没有则按顺序输入数据到下一组未通过的分类器继续步骤(4),否则转步骤(7);
(4)根据当前分类器组依赖的特征子集,对输入的数据进行特征提取,但保留原始数据;
(5)判断当前分类器组中的分类器个数是否为1。如果只有一个分类器,则根据提取出的数据特征在分类器中计算,添加安全类别标签,输出并存储标准化数据,余下的数据仍以原始数据的形式继续输入到下一组分类器中。如果有多个分类器,则同时计算出满足多个安全类别的数据,分别给不同安全类别的数据添加标签,输出并存储;
(6)判断是否还有未分类的数据,如果没有,结束分类过程,得到标准化数据,如果有,则继续按顺序输入未分类的数据,转步骤(3);
(7)当数据通过所有的分类器组,剩余的数据为新安全类型数据,将用到模糊聚类的方法对数据进行聚类,得到新的安全类别,更新训练数据集,计算新的安全类型特征子集,新的安全类型分类器,更新串并行结构分类器组的顺序。
(8)根据以上所提步骤,网络数据的采集与分类过程完成,得到可用于网络安全度量的标准化数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于串并行结构网络安全数据处理方法,其特征在于,所述基于串并行结构网络安全数据处理方法包括:部署过滤器筛选正常数据,网络安全数据采集,获得网络安全相关的可疑数据并存储;输入采集的网络安全数据,判断是否存在未被标记的数据,对于未被标记网络安全数据,用数据模糊聚类的方法判断剩余网络安全数据的分类,并标记;更新训练数据集合、训练数据集合并重新排序分类器序列。
2.如权利要求1所述的基于串并行结构网络安全数据处理方法,其特征在于,所述基于串并行结构网络安全数据处理方法包括:线下训练;线上采集;线下组合;
所述线下训练包括:特征子集训练过程和分类器训练过程;
所述线上采集包括:在网络中部署网络数据采集器监控整个网络,设置数据过滤器,移除正常数据后采集网络安全相关数据;
所述线下组合包括:
(1)所有参与数据组合过程的分类器排序,得到串并行结构的分类器序列;
(2)输入采集到的网络安全相关数据到排序好的分类器,当数据被输入到某组分类器,按照分类器所依赖的特征子集对数据进行特征提取操作,确定数据是否属于该类别,如果属于则做标记并输出,如果不属于则保持不变;
(3)判断是否还存在未被标记的数据,如果没有,则直接得到标准化的网络安全相关数据;如果有,判断是否存在没有进行数据分类操作的分类器,如果没有,则数据属于新的安全类型的数据,如果有,则继续按顺序输入未被标记的数据到剩余的分类器中进行分类操作;
(4)对于剩余的未被标记的数据,数据模糊聚类判断剩余数据的分类,并对其做标记,更新训练数据集合,为新的数据类型训练新的特征子集和分类器,更新训练数据集合并重新排序分类器序列。
3.如权利要求2所述的基于串并行结构网络安全数据处理方法,其特征在于,所述特征子集训练过程具体包括:
(1)确定进行特征选择操作的安全类别;
(2)计算安全类别的数据相对于其它不属于该类别数据的特征选择指标,并依据特征选择指标的大小确定这个安全类别的特征子集;
(3)判断是否已为所有训练集合中的安全类别训练出特征子集;如果是,则特征选择过程结束;如果不是,重新确定没有特征子集的安全类别;
所述分类器训练过程具体包括:
(1)确定要训练分类器的类别;
(2)根据安全类别所依赖的特征子集确定球形分类器的最大间隔参数dk,球心ak,和半径Rk,确定分类器所能分类的范围,比较数据在特征空间上与球心的相对距离和半径,确定该数据是否属于安全类别;
(3)判断是否已为所有训练集合中的安全类别训练出分类器,如果是,则创建分类器过程结束;如果不是,则重新继续创建没有分类器的安全类别。
4.如权利要求2所述的基于串并行结构网络安全数据处理方法,其特征在于,所述线下组合具体包括以下步骤:
1)存储器采集的数据送入串并行结构的分类器中进行分类,依赖特征相同的分类器合并为并行结构,依赖特征不同的分类器顺序排列为串行结构;
2)根据分类器所依赖特征数Fn和一次输出的数据量大小Cn,确定分类器的顺序:
Ord=λ1·Fn+λ2·Cn;
其中λ1和λ2(λ1+λ2=1)为平衡两个影响分类器顺序的参数,分类器的Ord越大,越靠前;
3)根据数据通过分类器所依赖的特征子集对输入的原始数据进行特征提取,利用特征计算数据是否属于分类器所代表的类别,如果属于则标记输出并将数据从输入数据集中删除,如果不属于则继续输入下一组分类器重复分类、标记、输出过程;
4)当原始数据通过所有的分类器后,已知安全类别的数据从分类器输出被标记、化简。
5.如权利要求4所述的基于串并行结构网络安全数据处理方法,其特征在于,所述2)的分类器排序过程具体包括:
统计每个分类器所依赖特征子集中的特征数目Fn;
统计一段时间数据输入后每组分类器输出的数据量大小Cn;
引入两个平衡参数λ1和λ2来平衡Fn和Cn(λ1+λ2=1),计算分类器的顺序Ord,值越大所代表的分类器越靠前:
Ord=λ1·Fn+λ2·Cn。
6.如权利要求4所述的基于串并行结构网络安全数据处理方法,其特征在于,所述更新训练数据集合、训练数据集合并重新排序分类器序列具体包括:
1)数据进行模糊聚类操作确定数据的大致分类,标记数据,并用数据更新训练数据集,训练出新的分类器,更新分类器的串并行序列;
2)计算没有数据输出的分类器的时长,如果超过某个提前设定的阈值,表明长时间内网络中不会出现分类器代表的安全类型,则将分类器从串并行序列中移除;
3)根据参数Ord更新分类器序列的顺序,当有新的网络安全相关数据集合输入时,重新进行数据组合序列更新。
7.一种使用权利要求1所述基于串并行结构网络安全数据处理方法的基于串并行结构网络安全数据处理系统,其特征在于,所述基于串并行结构网络安全数据处理系统包括:
训练模块,用于特征子集训练过程和分类器训练;
网络安全数据采集模块,用于部署网络数据采集器,设置数据过滤器,移除正常数据;
网络安全数据组合模块,用于更新训练数据集合,为新的数据类型训练新的特征子集和分类器,更新训练数据集合并重新排序分类器序列。
8.如权利要求7所述的的基于串并行结构网络安全数据处理系统,其特征在于,所述网络安全数据组合模块包括:
分类器排序单元,用于所有参与数据组合过程的分类器排序,得到串并行结构的分类器序列;
特征提取单元,用于输入采集的网络安全相关数据到排序好的分类器,数据被输入到某组分类器,按照分类器所依赖的特征子集对数据进行特征提取操作,确定数据是否属于该类别;
数据标记判断单元,用于判断是否还存在未被标记的数据;
更新单元,用于对于剩余的未被标记的数据,数据模糊聚类判断剩余数据的分类,并做标记,更新训练数据集合,为新的数据类型训练新的特征子集和分类器,更新训练数据集合并重新排序分类器序列。
9.一种应用权利要求1~6任意一项所述所述基于串并行结构网络安全数据处理方法的社交网络。
10.一种应用权利要求1~6任意一项所述所述基于串并行结构网络安全数据处理方法的移动通信网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710740993.XA CN107483451B (zh) | 2017-08-25 | 2017-08-25 | 基于串并行结构网络安全数据处理方法及系统、社交网络 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710740993.XA CN107483451B (zh) | 2017-08-25 | 2017-08-25 | 基于串并行结构网络安全数据处理方法及系统、社交网络 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107483451A true CN107483451A (zh) | 2017-12-15 |
CN107483451B CN107483451B (zh) | 2020-08-25 |
Family
ID=60602634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710740993.XA Active CN107483451B (zh) | 2017-08-25 | 2017-08-25 | 基于串并行结构网络安全数据处理方法及系统、社交网络 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107483451B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549583A (zh) * | 2018-04-17 | 2018-09-18 | 成都致云科技有限公司 | 大数据处理方法、装置、服务器及可读存储介质 |
CN110943961A (zh) * | 2018-09-21 | 2020-03-31 | 阿里巴巴集团控股有限公司 | 数据处理方法、设备以及存储介质 |
CN112383563A (zh) * | 2020-12-03 | 2021-02-19 | 中国铁建重工集团股份有限公司 | 一种入侵检测方法及相关装置 |
CN112511384A (zh) * | 2020-11-26 | 2021-03-16 | 广州品唯软件有限公司 | 流量数据处理方法、装置、计算机设备和存储介质 |
CN111949740B (zh) * | 2019-05-15 | 2024-03-26 | 中国科学院声学研究所 | 基于多核处理器的并行网包分类方法、系统及网络设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080154820A1 (en) * | 2006-10-27 | 2008-06-26 | Kirshenbaum Evan R | Selecting a classifier to use as a feature for another classifier |
CN101399672A (zh) * | 2008-10-17 | 2009-04-01 | 章毅 | 一种多神经网络融合的入侵检测方法 |
CN102271091A (zh) * | 2011-09-06 | 2011-12-07 | 电子科技大学 | 一种网络异常事件分类方法 |
-
2017
- 2017-08-25 CN CN201710740993.XA patent/CN107483451B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080154820A1 (en) * | 2006-10-27 | 2008-06-26 | Kirshenbaum Evan R | Selecting a classifier to use as a feature for another classifier |
CN101399672A (zh) * | 2008-10-17 | 2009-04-01 | 章毅 | 一种多神经网络融合的入侵检测方法 |
CN102271091A (zh) * | 2011-09-06 | 2011-12-07 | 电子科技大学 | 一种网络异常事件分类方法 |
Non-Patent Citations (3)
Title |
---|
孙 博, 王建东, 陈海燕, 王寅同: "《集成学习中的多样性度量》", 《控制与决策》 * |
孟军,尉双云: "《基于近邻传播聚类的集成特征选择方法》", 《计算机科学》 * |
韦艳艳: "《分布式数据挖掘的分类器组合问题及相关技术研究》", 《中国硕士学位论文全文数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549583A (zh) * | 2018-04-17 | 2018-09-18 | 成都致云科技有限公司 | 大数据处理方法、装置、服务器及可读存储介质 |
CN108549583B (zh) * | 2018-04-17 | 2021-05-07 | 致云科技有限公司 | 大数据处理方法、装置、服务器及可读存储介质 |
CN110943961A (zh) * | 2018-09-21 | 2020-03-31 | 阿里巴巴集团控股有限公司 | 数据处理方法、设备以及存储介质 |
CN110943961B (zh) * | 2018-09-21 | 2022-06-21 | 阿里巴巴集团控股有限公司 | 数据处理方法、设备以及存储介质 |
US11418525B2 (en) | 2018-09-21 | 2022-08-16 | Alibaba Group Holding Limited | Data processing method, device and storage medium |
CN111949740B (zh) * | 2019-05-15 | 2024-03-26 | 中国科学院声学研究所 | 基于多核处理器的并行网包分类方法、系统及网络设备 |
CN112511384A (zh) * | 2020-11-26 | 2021-03-16 | 广州品唯软件有限公司 | 流量数据处理方法、装置、计算机设备和存储介质 |
CN112383563A (zh) * | 2020-12-03 | 2021-02-19 | 中国铁建重工集团股份有限公司 | 一种入侵检测方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107483451B (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107483451A (zh) | 基于串并行结构网络安全数据处理方法及系统、社交网络 | |
Janarthanan et al. | Feature selection in UNSW-NB15 and KDDCUP'99 datasets | |
CN105577679B (zh) | 一种基于特征选择与密度峰值聚类的异常流量检测方法 | |
Biggio et al. | Poisoning complete-linkage hierarchical clustering | |
CN108540451A (zh) | 一种用机器学习技术对网络攻击行为进行分类检测的方法 | |
CN108351985A (zh) | 用于大规模机器学习的方法和装置 | |
CN109670302B (zh) | 一种基于svm的虚假数据注入攻击的分类方法 | |
CN106817248A (zh) | 一种apt攻击检测方法 | |
Hwang et al. | A three-tier IDS via data mining approach | |
CN107832631A (zh) | 一种数据发布的隐私保护方法和系统 | |
Illavarason et al. | A Study of Intrusion Detection System using Machine Learning Classification Algorithm based on different feature selection approach | |
Song et al. | Unsupervised anomaly detection based on clustering and multiple one-class SVM | |
Bharati et al. | NIDS-network intrusion detection system based on deep and machine learning frameworks with CICIDS2018 using cloud computing | |
Aissa et al. | A genetic clustering technique for Anomaly-based Intrusion Detection Systems | |
Somwang et al. | Computer network security based on support vector machine approach | |
Chen et al. | An improved density peaks clustering algorithm based on grid screening and mutual neighborhood degree for network anomaly detection | |
Kumar et al. | Automatic detection of fake profiles in online social networks | |
Li et al. | Intrusion detection method based on imbalanced learning classification | |
Ng et al. | Assembling a multi-platform ensemble social bot detector with applications to US 2020 elections | |
CN113132291B (zh) | 一种边缘侧基于网络流量的异构终端特征生成及识别方法 | |
CN117294497A (zh) | 一种网络流量异常检测方法、装置、电子设备及存储介质 | |
CN117014193A (zh) | 一种基于行为基线的未知Web攻击检测方法 | |
Hadi et al. | Handling ambiguous packets in intrusion detection | |
Wagh et al. | Effective semi-supervised approach towards intrusion detection system using machine learning techniques | |
Komárek et al. | Explainable multiple instance learning with instance selection randomized trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |