CN106485188A - 一种工业用交换机用户异常行为检测方法 - Google Patents

一种工业用交换机用户异常行为检测方法 Download PDF

Info

Publication number
CN106485188A
CN106485188A CN201510534318.2A CN201510534318A CN106485188A CN 106485188 A CN106485188 A CN 106485188A CN 201510534318 A CN201510534318 A CN 201510534318A CN 106485188 A CN106485188 A CN 106485188A
Authority
CN
China
Prior art keywords
sample
overbar
data
prime
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510534318.2A
Other languages
English (en)
Inventor
陈奕钊
范浩
程大鹏
彭何义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUILIN XINTONG TECHNOLOGY Co Ltd
Original Assignee
GUILIN XINTONG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUILIN XINTONG TECHNOLOGY Co Ltd filed Critical GUILIN XINTONG TECHNOLOGY Co Ltd
Priority to CN201510534318.2A priority Critical patent/CN106485188A/zh
Publication of CN106485188A publication Critical patent/CN106485188A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种工业用交换机用户异常行为检测方法,基于多数类分布的处理算法,随机从中选特征指标,重复N次,构造N个指标子集,训练样本进行投影,得对应的样本,对所有对应元素进行投票,构成少数类样本集合,根据每个对少数类样本集合进行投影,得对应特征指标子空间上的少数类样本和多数类样本,设共有多个类别,对应的参照点集合为,对其余子空间的分类结果进行集成:在每个子空间的分类结果中查看不属于T的所有数据,若其与参照点同属一类,则将标记,设多数类分布的分析结果,每个类别包含数据数量,返回训练样本子集和特征指标子集合,最后,通过特征指标子集合,分析出工业用交换机用户的异常行为,时间需求减少,同时在准确性评价指标上表现更好。

Description

一种工业用交换机用户异常行为检测方法
技术领域
本发明属于图像目标提取领域,特别涉及一种工业用交换机用户异常行为检测方法。
背景技术
工业用交换机用户异常行为是网络面临的一大威胁,所谓异常行为,顾名思义,是指与正常行为相对应,由网络用户实施的对网络正常运行造成影响的行为,例如传播蠕虫、DDOS攻击等。这些行为会造成网络服务质量急剧下降,网络负载加重甚至瘫痪等后果。随着网络快速发展,网络用户异常行为的新变种以及新行为层出不穷,其威胁也日益严重。因此无论是加强对用户行为的管控,还是保障网络的正常运行,都要求能够对网络用户的异常行为实施快速、准确的检测。早期人们通常采用端口扫描、报文特征字段匹配等方法对异常行为进行深入分析以获取特征,从而实现网络用户异常行为的检测。然而,随着用户异常行为不断变化,依靠人工对异常行为进行分析以获取特征的代价越来越高昂甚至不可行。随着人工智能技术的发展,机器学习技术更多地被用于从网络数据中自动计算异常行为模式、提取其特征,从而自动产生检测规则,大大降低了开发代价。虽然协同学习方法能够因只需部分标记的训练样本数据而降低系统开销,但其通常假设训练样本是均匀和平衡的,而实际的网络环境中,包含网络用户异常行为的网络数据中存在着明显的非平衡性和分布复杂性,若将协同学习方法直接用于网络用户异常行为的检测,则其生成的成员分类器会产生过拟合现象,从而影响协同学习的效果、降低检测的准确性。
发明内容
针对现有技术的不足本发明提供一种工业用交换机用户异常行为检测方法,该方法对训练样本中标记数据的时间需求减少,同时在准确性评价指标上表现更好,能更快速准确地检测出网络用户的异常行为。
一种工业用交换机用户异常行为检测方法,包括如下步骤:
1)基于多数类分布的改进EasyEnssemble样本处理算法。
输入:训练样本
检测特征指标集Fobject={C1,C2,…,Cn},检测特征指标子空间的特征数量s,特征指标子空间数量N,其中s<n,N为奇数
输出:训练样本子集{X1,X2,…,XM},检测特征指标子集{F1,F2,…,FN}
2)随机从Fobject中选取s项特征指标,重复N次,构造N个特征指标子集{F1,F2,…,FN},对每一个Fi(i∈[1,N]),有Fi={C1,C2,…,Cs},其中C1,C2,…,Cs∈Fobject且各特征指标子集互不相同。
3)根据每个Fi(i∈[1,N])对训练样本X进行投影,得对应特征指标子空间上的样本
使用CUR方法对{a′1,a'2,…,a'm}进行二分类聚类(取聚类数目K=2,收缩因子a=0。3,从两种已标记数据中抽取约10%作为代表点),计算结果两个类别中对应t=1的元素数量,令数量多者为少数类结果Minor(Fi)。
4)对所有Minor(Fi)(i∈[1,N])中对应t=0元素进行投票,按简单多数确定其是否为少数类元素,投票结果与训练样本X中t=1元素合并,构成少数类样本集合设其s1项数据,则Minor={a1,a2,…,as1},其中或aj对应的t=1,或者t=0但其出现在过半数的Minor(Fi)中,其余元素构成多数类样本集合设其有s2项数据,则有s1+s2=m。
5)根据每个Fi对少数类样本集合Mayor进行投影,得对应特征指标子空间上的少数类样本
计算其中心位置,公式为其中
6)根据每个Fi对多数类样本集合Mayor进行投影,得对应特征指标子空间上的多数类样本
对其使用CLIQUE方法进行多类别聚类,设结果中类别数量最多的子空间为Mayor'(Fmax),计算其中每一类别的中心位置,公式为其中搜索距中心距离最近的数据为投票参照点,距离公式为
7)设共有t'个类别,对应的参照点集合为T={a1,a2,…,at'}
8)对其余子空间的分类结果进行集成:在每个子空间的分类结果中查看不属于T的所有数据,若其与参照点xt,(xt∈T)同属一类,则将xt标记加入该数据(若与多个xt同属一类则加入多个标记)。完毕后对多数类Mayor所有数据的标记投票,选择支持数最多(若相同则选择T中排列靠前的类别)的标记作为该数据类别,检查结果并去除仅含少数点的类别。
9)设多数类分布的分析结果为D1,D2,…,Dt,每个类别包含数据数量为Count(D1),Count(D2),…,Count(Dt),确定D1,D2,…,Dt的抽样权重
于是类别Di的抽样数量为
10)计算子样本空间数量构造M个多数类样本子集{X′1,X'2,…,X'M},每个子集初值为空,依次对多数类元素每个类别Di进行无放回抽样,取样数量计算为Size(Di),若取样过程Di中数据已被取完,则将该类数据重置为初始状态再继续抽取,共取M次,分别加入每个X'j(j∈[1,M])中。
11)构造M个训练样本子集{X1,X2,…,XM},其中Xi=Xi'∪Minor(i∈[1,M])。
12)返回训练样本子集{X1,X2,…,XM}和特征指标子集合{F1,F2,…,FN},最后,通过特征指标子集合,分析出工业用交换机用户的异常行为。
本发明的有益效果
一种工业用交换机用户异常行为检测方法,该方法对训练样本中标记数据的时间需求减少,同时在准确性评价指标上表现更好,能更快速准确地检测出网络用户的异常行为,针对训练样本存在非平衡性、多数类分布复杂以及部分标记的特点,在分析多数类分布基础上将非平衡训练样本划分为多个均衡且保留原分布信息的训练样本子集,分别供成员分类器训练;在成员分类器生成环节,结合训练样本处理方法,使用样本子空间、样本子空间特征和分类器参数互相组合的混合扰动方法生成足够数量且具备差异性的成员分类器,然后在成员分类器的训练过程中使用选择性集成结果计算置信度及更新数据以降低开销,最后在集成环节则根据所有成员分类器在训练过程中积累的准确性进行选择和组合,构造最终的集成分类器用于网络用户异常行为的检测。
具体实施例
下面对本发明做进一步的阐述,但不是对本发明的限定。
一种工业用交换机用户异常行为检测方法,包括如下步骤:
1)基于多数类分布的改进EasyEnssemble样本处理算法。
输入:训练样本
检测特征指标集Fobject={C1,C2,…,Cn},检测特征指标子空间的特征数量s,特征指标子空间数量N,其中s<n,N为奇数
输出:训练样本子集{X1,X2,…,XM},检测特征指标子集{F1,F2,…,FN}
2)随机从Fobject中选取s项特征指标,重复N次,构造N个特征指标子集{F1,F2,…,FN},对每一个Fi(i∈[1,N]),有Fi={C1,C2,…,Cs},其中C1,C2,…,Cs∈Fobject且各特征指标子集互不相同。
3)根据每个Fi(i∈[1,N])对训练样本X进行投影,得对应特征指标子空间上的样本
使用CUR方法对{a′1,a'2,…,a'm}进行二分类聚类(取聚类数目K=2,收缩因子a=0。3,从两种已标记数据中抽取约10%作为代表点),计算结果两个类别中对应t=1的元素数量,令数量多者为少数类结果Minor(Fi)。
4)对所有Minor(Fi)(i∈[1,N])中对应t=0元素进行投票,按简单多数确定其是否为少数类元素,投票结果与训练样本X中t=1元素合并,构成少数类样本集合设其s1项数据,则Minor={a1,a2,…,as1},其中或aj对应的t=1,或者t=0但其出现在过半数的Minor(Fi)中,其余元素构成多数类样本集合设其有s2项数据,则有s1+s2=m。
5)根据每个Fi对少数类样本集合Mayor进行投影,得对应特征指标子空间上的少数类样本
计算其中心位置,公式为其中
6)根据每个Fi对多数类样本集合Mayor进行投影,得对应特征指标子空间上的多数类样本
对其使用CLIQUE方法进行多类别聚类,设结果中类别数量最多的子空间为Mayor'(Fmax),计算其中每一类别的中心位置,公式为其中搜索距中心距离最近的数据为投票参照点,距离公式为
7)设共有t'个类别,对应的参照点集合为T={a1,a2,…,at'}
8)对其余子空间的分类结果进行集成:在每个子空间的分类结果中查看不属于T的所有数据,若其与参照点xt,(xt∈T)同属一类,则将xt标记加入该数据(若与多个xt同属一类则加入多个标记)。完毕后对多数类Mayor所有数据的标记投票,选择支持数最多(若相同则选择T中排列靠前的类别)的标记作为该数据类别,检查结果并去除仅含少数点的类别。
9)设多数类分布的分析结果为D1,D2,…,Dt,每个类别包含数据数量为Count(D1),Count(D2),…,Count(Dt),确定D1,D2,…,Dt的抽样权重
于是类别Di的抽样数量为
10)计算子样本空间数量构造M个多数类样本子集{X′1,X'2,…,X'M},每个子集初值为空,依次对多数类元素每个类别Di进行无放回抽样,取样数量计算为Size(Di),若取样过程Di中数据已被取完,则将该类数据重置为初始状态再继续抽取,共取M次,分别加入每个X'j(j∈[1,M])中。
11)构造M个训练样本子集{X1,X2,…,XM},其中Xi=Xi'∪Minor(i∈[1,M])。
12)返回训练样本子集{X1,X2,…,XM}和特征指标子集合{F1,F2,…,FN},最后,通过特征指标子集合,分析出工业用交换机用户的异常行为。

Claims (1)

1.一种工业用交换机用户异常行为检测方法,其特征在于,包括如下步骤:
1)基于多数类分布的改进EasyEnssemble样本处理算法。
输入:训练样本
检测特征指标集Fobject={C1,C2,…,Cn},检测特征指标子空间的特征数量s,特征指标子空间数量N,其中s<n,N为奇数
输出:训练样本子集{X1,X2,…,XM},检测特征指标子集{F1,F2,…,FN}
2)随机从Fobject中选取s项特征指标,重复N次,构造N个特征指标子集{F1,F2,…,FN},对每一个Fi(i∈[1,N]),有Fi={C1,C2,…,Cs},其中C1,C2,…,Cs∈Fobject且各特征指标子集互不相同。
3)根据每个Fi(i∈[1,N])对训练样本X进行投影,得对应特征指标子空间上的样本
使用CUR方法对{a′1,a'2,…,a'm}进行二分类聚类(取聚类数目K=2,收缩因子a=0。3,从两种已标记数据中抽取约10%作为代表点),计算结果两个类别中对应t=1的元素数量,令数量多者为少数类结果Minor(Fi)。
4)对所有Minor(Fi)(i∈[1,N])中对应t=0元素进行投票,按简单多数确定其是否为少数类元素,投票结果与训练样本X中t=1元素合并,构成少数类样本集合设其s1项数据,则其中或aj对应的t=1,或者t=0但其出现在过半数的Minor(Fi)中,其余元素构成多数类样本集合设其有s2项数据,则有s1+s2=m。
5)根据每个Fi对少数类样本集合Mayor进行投影,得对应特征指标子空间上的少数类样本
Minor ′ ( F i ) = a 1 ′ . . . a s 1 ′ = x 1 , 1 ... x 1 , s t 1 x 2 , 1 ... x 2 , s t 2 . . . . . . . . . . . . x s 1 , 1 ... x s 1 , s t m m × ( s + 1 ) - - - ( 3 )
计算其中心位置,公式为 Minor ′ ( F i ) ‾ = ( x 1 ‾ , x 2 ‾ , ... , x s ‾ ) , 其中 x i ‾ = Σ j = 1 s 1 x j , x s 1 .
6)根据每个Fi对多数类样本集合Mayor进行投影,得对应特征指标子空间上的多数类样本
Mayor ′ ( F i ) = a 1 ′ . . . a s 1 ′ = x 1 , 1 ... x 1 , s t 1 x 2 , 1 ... x 2 , s t 2 . . . . . . . . . . . . x s 1 , 1 ... x s 1 , s t m m × ( s + 1 ) - - - ( 4 )
对其使用CLIQUE方法进行多类别聚类,设结果中类别数量最多的子空间为Mayor'(Fmax),计算其中每一类别的中心位置,公式为 Mayor ′ ( F m a x ) ‾ = ( x 1 ‾ , x 2 ‾ , ... , x s ‾ ) , 其中 x i ‾ = Σ j = 1 s 1 x j , i s 1 , 搜索距中心距离最近的数据为投票参照点,距离公式为
d a j ′ = D i s t ( Minor ′ ( F i ) ‾ , a i ′ ) = ( x 1 ‾ - x i , 1 ) 2 + ( x 2 ‾ - x i , 2 ) 2 + ... + ( x n ′ ‾ - x i , s ) 2 - - - ( 5 )
7)设共有t'个类别,对应的参照点集合为T={a1,a2,…,at'}
8)对其余子空间的分类结果进行集成:在每个子空间的分类结果中查看不属于T的所有数据,若其与参照点xt,(xt∈T)同属一类,则将xt标记加入该数据(若与多个xt同属一类则加入多个标记)。完毕后对多数类Mayor所有数据的标记投票,选择支持数最多(若相同则选择T中排列靠前的类别)的标记作为该数据类别,检查结果并去除仅含少数点的类别。
9)设多数类分布的分析结果为D1,D2,…,Dt,每个类别包含数据数量为Count(D1),Count(D2),…,Count(Dt),确定D1,D2,…,Dt的抽样权重
R a t i o n = 1 - C o u n t ( D i ) Σ i = 1 t R a t i o n ( D i ) - - - ( 6 )
于是类别Di的抽样数量为
10)计算子样本空间数量构造M个多数类样本子集{X′1,X'2,…,X'M},每个子集初值为空,依次对多数类元素每个类别Di进行无放回抽样,取样数量计算为Size(Di),若取样过程Di中数据已被取完,则将该类数据重置为初始状态再继续抽取,共取M次,分别加入每个X'j(j∈[1,M])中。
11)构造M个训练样本子集{X1,X2,…,XM},其中Xi=X′i∪Minor(i∈[1,M])。
12)返回训练样本子集{X1,X2,…,XM}和特征指标子集合{F1,F2,…,FN},最后,通过特征指标子集合,分析出工业用交换机用户的异常行为。
CN201510534318.2A 2015-08-27 2015-08-27 一种工业用交换机用户异常行为检测方法 Pending CN106485188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510534318.2A CN106485188A (zh) 2015-08-27 2015-08-27 一种工业用交换机用户异常行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510534318.2A CN106485188A (zh) 2015-08-27 2015-08-27 一种工业用交换机用户异常行为检测方法

Publications (1)

Publication Number Publication Date
CN106485188A true CN106485188A (zh) 2017-03-08

Family

ID=58234255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510534318.2A Pending CN106485188A (zh) 2015-08-27 2015-08-27 一种工业用交换机用户异常行为检测方法

Country Status (1)

Country Link
CN (1) CN106485188A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809948A (zh) * 2018-05-21 2018-11-13 中国科学院信息工程研究所 一种基于深度学习的异常网络连接检测方法
CN109978009A (zh) * 2019-02-27 2019-07-05 广州杰赛科技股份有限公司 基于穿戴式智能设备的行为分类方法、装置及存储介质
CN112529033A (zh) * 2020-09-22 2021-03-19 陕西土豆数据科技有限公司 一种解决遥感影像多分类场景分割算法数据不均衡的方法
CN116882850A (zh) * 2023-09-08 2023-10-13 山东科技大学 一种基于大数据的园林数据智能管理方法以及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN102487293A (zh) * 2010-12-06 2012-06-06 中国人民解放军理工大学 基于网控的卫星通信网异常检测方法
CN102930248A (zh) * 2012-10-22 2013-02-13 中国计量学院 基于机器学习的人群异常行为检测方法
CN103780588A (zh) * 2012-10-24 2014-05-07 北京邮电大学 数字家庭网络中用户异常行为检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102487293A (zh) * 2010-12-06 2012-06-06 中国人民解放军理工大学 基于网控的卫星通信网异常检测方法
CN102176698A (zh) * 2010-12-20 2011-09-07 北京邮电大学 一种基于迁移学习的用户异常行为检测方法
CN102930248A (zh) * 2012-10-22 2013-02-13 中国计量学院 基于机器学习的人群异常行为检测方法
CN103780588A (zh) * 2012-10-24 2014-05-07 北京邮电大学 数字家庭网络中用户异常行为检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆悠 等: "一种基于选择性协同学习的网络用户异常行为检测方法", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809948A (zh) * 2018-05-21 2018-11-13 中国科学院信息工程研究所 一种基于深度学习的异常网络连接检测方法
CN108809948B (zh) * 2018-05-21 2020-07-10 中国科学院信息工程研究所 一种基于深度学习的异常网络连接检测方法
CN109978009A (zh) * 2019-02-27 2019-07-05 广州杰赛科技股份有限公司 基于穿戴式智能设备的行为分类方法、装置及存储介质
CN112529033A (zh) * 2020-09-22 2021-03-19 陕西土豆数据科技有限公司 一种解决遥感影像多分类场景分割算法数据不均衡的方法
CN116882850A (zh) * 2023-09-08 2023-10-13 山东科技大学 一种基于大数据的园林数据智能管理方法以及系统
CN116882850B (zh) * 2023-09-08 2023-12-12 山东科技大学 一种基于大数据的园林数据智能管理方法以及系统

Similar Documents

Publication Publication Date Title
Zurell et al. Do joint species distribution models reliably detect interspecific interactions from co‐occurrence data in homogenous environments?
CN103632168B (zh) 一种机器学习中的分类器集成方法
CN103793484B (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN103996047B (zh) 基于压缩谱聚类集成的高光谱图像分类方法
CN104239436B (zh) 一种基于文本分类和聚类分析的网络热点事件发现方法
CN108388927A (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
CN104680542B (zh) 基于在线学习的遥感影像变化检测方法
CN109344736A (zh) 一种基于联合学习的静态图像人群计数方法
CN103617235B (zh) 一种基于粒子群算法的网络水军账号识别方法及系统
CN103854063B (zh) 一种基于互联网开放信息的事件发生风险预测并预警方法
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN106485188A (zh) 一种工业用交换机用户异常行为检测方法
CN104166859A (zh) 基于ssae和fsals-svm极化sar图像分类
CN106709349B (zh) 一种基于多维度行为特征的恶意代码分类方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN103955926A (zh) 基于Semi-NMF的遥感图像变化检测方法
CN105023024B (zh) 一种基于正则化集合度量学习的遥感图像分类方法及系统
Verma et al. An ensemble approach to identifying the student gender towards information and communication technology awareness in european schools using machine learning
CN114707571B (zh) 基于增强隔离森林的信用数据异常检测方法
CN107516082A (zh) 基于自步学习的sar图像变化区域检测方法
CN113553624A (zh) 基于改进pate的wgan-gp隐私保护系统和方法
CN109816030A (zh) 一种基于受限玻尔兹曼机的图像分类方法及装置
CN109523514A (zh) 对逆合成孔径雷达isar的批量成像质量评估方法
CN106295708A (zh) 一种基于Fisher分类器组的连续型数据预处理方法
Golling et al. The interplay of machine learning-based resonant anomaly detection methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170308