CN108964998B - 一种网络实体行为奇异性检测方法及装置 - Google Patents
一种网络实体行为奇异性检测方法及装置 Download PDFInfo
- Publication number
- CN108964998B CN108964998B CN201810735317.8A CN201810735317A CN108964998B CN 108964998 B CN108964998 B CN 108964998B CN 201810735317 A CN201810735317 A CN 201810735317A CN 108964998 B CN108964998 B CN 108964998B
- Authority
- CN
- China
- Prior art keywords
- domain
- behavior
- singularity
- network
- network entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000006399 behavior Effects 0.000 claims abstract description 227
- 238000001514 detection method Methods 0.000 claims description 40
- 238000004891 communication Methods 0.000 claims description 34
- 238000012216 screening Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract description 8
- 230000001186 cumulative effect Effects 0.000 description 11
- 238000000691 measurement method Methods 0.000 description 9
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000009825 accumulation Methods 0.000 description 5
- 230000003542 behavioural effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种网络实体行为奇异性检测方法及装置,本发明通过提取训练周期内网络实体访问网络行为的时域、空域和频域特征,为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据,相对于现有技术来说,本发明采取自主学习而无需专家经验和先验知识,检测准确率较高,计算复杂性较低,且可以同步检测和演进画像以确保检测结果的时效性,可以支持多种基于网络流量检测技术的业务应用。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种网络实体行为奇异性检测方法及装置。
背景技术
网络实体((设备、用户、应用或服务)的行为分析和检测是鉴别网络实体健康度和辅助网络安全检测的基础手段之一,它在网络实体意图识别、网络应用感知、协议和服务发现、网络资产管理、网络流量分类、协议行为画像、网络服务选择评估等方面都有重要的应用。但是随着内容分发网络(CDN)、云平台、缓存、镜像、备份技术的广泛应用,多源下载、多流并发造成会话的多流和碎片化,使统计参数难以准确反映网络实体的网络行为等问题。
发明内容
本发明提供了一种网络实体行为奇异性检测方法及装置,以解决现有技术现有的统计参数不能很好的反应网络实体的网络行为的问题。
本发明一方面提供了一种网络实体行为奇异性检测方法,包括:旁路捕获网络上传输的网络数据包或采集NetFlow流记录,生成网流及网流集,并筛选出关注的网流集,生成网络实体;提取网络实体访问网络的时域特征、空域特征和频域特征,并基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性;通过表决方法集成时域、空域和频域奇异性检测结果确定网络实体行为的奇异性检测结果。
可选地,筛选出关注的网流集,具体包括:基于IP地址筛选出关注的网流集。
可选地,提取网络实体访问网络的时域特征、空域特征和频域特征,具体包括:基于时间槽分箱计算通信直方图特征作为时域特征,计算外联地址的质心特征和紧密中心度特征作为空域特征,计算端口出现的联合累积频率特征作为频域特征。
可选地,还包括:基于若干个时间周期内的时间槽分箱通信直方图特征及其皮尔逊积矩相关系数相似性生成网络实体的时域行为画像;基于若干个时间周期内的外联IP地址质心特征及其欧氏距离、紧密中心度特征及其协方差距离生成生成网络实体的空域行为画像;基于若干个时间周期内的频域外联端口号累积频率特征及其欧氏距离生成网络实体的频域行为画像。
可选地,基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性,具体包括:
基于网络实体当前行为的时域特征与其时域画像集中每个模板的皮尔逊积矩相关系数相似性判定当前行为的时域奇异性;
基于网络实体当前行为的空域外联IP地址质心特征、紧密中心度特征与其空域画像集中每个模板的欧氏距离、协方差距离判定当前行为的空域奇异性;
基于网络实体当前行为的的频域外联端口号累积频率特征与其频域画像集中每个模板的欧氏距离判定当前行为的频域奇异性。
本发明另一方面提供了一种网络实体行为奇异性检测装置,该装置包括:
网流生成器,用于旁路捕获网络上传输的网络数据包或采集NetFlow流记录,生成网流及网流集;
网流选择器,用于筛选出关注的网流集,生成网络实体;
特征提取器,用于提取网络实体访问网络的时域特征、空域特征和频域特征;
奇异检测器,用于基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性;通过表决方法集成时域、空域和频域奇异性检测结果确定网络实体行为的奇异性检测结果。
可选地,所述网流选择器还用于,基于IP地址筛选出关注的网流集。
可选地,所述特征提取器还用于,基于时间槽分箱计算通信直方图特征作为时域特征,计算外联地址的质心特征和紧密中心度特征作为空域特征,计算端口出现的联合累积频率特征作为频域特征。
可选地,还包括:行为成像器,用于基于若干个时间周期内的时间槽分箱通信直方图特征及其皮尔逊积矩相关系数相似性生成网络实体的时域行为画像;基于若干个时间周期内的外联IP地址质心特征及其欧氏距离、紧密中心度特征及其协方差距离生成生成网络实体的空域行为画像;基于若干个时间周期内的频域外联端口号累积频率特征及其欧氏距离生成网络实体的频域行为画像。
可选地,所述奇异检测器还用于,基于网络实体当前行为的时域特征与其时域画像集中每个模板的皮尔逊积矩相关系数相似性判定当前行为的时域奇异性;基于网络实体当前行为的空域外联IP地址质心特征、紧密中心度特征与其空域画像集中每个模板的欧氏距离、协方差距离判定当前行为的空域奇异性;基于网络实体当前行为的的频域外联端口号累积频率特征与其频域画像集中每个模板的欧氏距离判定当前行为的频域奇异性。
本发明有益效果如下:
本发明以网络实体在实施网络操作时形成的通信网迹作为输入,在时域、空域及频域对其画像,并通过定义时域、空域及频域的画像,检测发现网络实体行为的奇异性,从而有效解决了现有技术中统计参数不能很好的反应网络实体的网络行为的问题。
附图说明
图1是本发明实施例的一种网络实体行为奇异性检测方法的流程示意图;
图2是本发明实施例的另一种网络实体行为奇异性检测方法的流程示意图;
图3是本发明实施例的一种网络实体行为奇异性检测装置的结构示意图;
图4是本发明实施例的另一种网络实体行为奇异性检测装置的结构示意图。
具体实施方式
为了解决现有网络流量检测相关技术中存在的主动扫描方法干扰网络、基于人工静态特征的DPI方法规则需人工专家设计而时效性差、机器学习方法特征难以确定等问题,以及随着内容分发网络(CDN)、云平台、缓存、镜像、备份技术的广泛应用,多源下载、多流并发造成会话的多流和碎片化,使统计参数难以准确反映网络实体的网络行为等问题,本发明通过以网络实体在实施网络操作时形成的通信网迹作为输入,在时域、空域及频域对其画像,并通过定义时域、空域及频域的画像,检测发现网络实体行为的奇异性。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明实施例提供了一种网络实体行为奇异性检测方法,参见图1,该方法包括:
S101、旁路捕获网络上传输的网络数据包或采集NetFlow流记录,生成网流及网流集;
S102、筛选出关注的网流集,生成网络实体;
S103、提取网络实体访问网络的时域特征、空域特征和频域特征;
S104、基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性;
S105、通过表决方法集成时域、空域和频域奇异性检测结果确定网络实体行为的奇异性检测结果。
也就是说,本发明实施例通过提取训练周期内网络实体访问网络行为的时域、空域和频域特征,为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据,相对于现有技术来说,本发明采取自主学习而无需专家经验和先验知识,检测准确率较高,计算复杂性较低,且可以同步检测和演进画像以确保检测结果的时效性,可以支持多种基于网络流量检测技术的业务应用。
为了更好的解决网流检测中存在的指纹时效性差、检测特征复杂、数据隐私保护等问题,本发明提出了基于网迹多域特征的网络实体行为奇异性检测方法,可以针对性的从网络数据包或NetFlow流记录生成网流记录集,选择所关注的网络实体相关的网流集,提取其时域、空域和频域特征,在训练周期内生成其时域、空域和频域行为画像,采用适用的相似性度量方法判定网络实体当前行为与画像的相似性以检测行为奇异性。
具体实施时,本发明实施例所述筛选出关注的网流集,具体包括:基于IP地址筛选出关注的网流集。
具体来说,本发明实施例可实现根据用户选择来确定网流集,具体实施时,本领域的技术人员可设置通过其他方式来确定用户关注的网流集,本发明对此不作具体限定。
具体实施时,本发明实施例所述提取网络实体访问网络的时域特征、空域特征和频域特征,具体包括:基于时间槽分箱计算通信直方图特征作为时域特征,计算外联地址的质心特征和紧密中心度特征作为空域特征,计算端口出现的联合累积频率特征作为频域特征。
即,本发明实施例通过将网络实体访问网络划分为时域特征、空域特征和频域特征,并基于这几个特征分别设置相应的画像,然后基于各个画像计算各个行为的奇异性。
具体实施时,本发明实施例是基于若干个时间周期内的时间槽分箱通信直方图特征及其相似性度量方法生成时域行为画像,基于外联地址质心特征、紧密中心度特征及其相似性度量方法生成空域行为画像,基于联合累积频率特征及其相似性度量方法生成频域行为画像。
具体来说,本发明实施例是基于若干个时间周期内的时间槽分箱通信直方图特征及其皮尔逊积矩相关系数相似性生成网络实体的时域行为画像;基于若干个时间周期内的外联IP地址质心特征及其欧氏距离、紧密中心度特征及其协方差距离生成生成网络实体的空域行为画像;基于若干个时间周期内的频域外联端口号累积频率特征及其欧氏距离生成网络实体的频域行为画像。
本发明实施例通过提取网络实体访问网络行为的时域、空域和频域特征,并为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据。
具体实施时,本发明实施例所述基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性,具体包括:
基于网络实体当前行为的时域特征与其时域画像集中每个模板的皮尔逊积矩相关系数相似性判定当前行为的时域奇异性;
基于网络实体当前行为的空域外联IP地址质心特征、紧密中心度特征与其空域画像集中每个模板的欧氏距离、协方差距离判定当前行为的空域奇异性;
基于网络实体当前行为的的频域外联端口号累积频率特征与其频域画像集中每个模板的欧氏距离判定当前行为的频域奇异性。
总体来说,本发明实施例通过提取训练周期内网络实体访问网络行为的时域、空域和频域特征,为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据,相对于现有技术来说,本发明采取自主学习而无需专家经验和先验知识,检测准确率较高,计算复杂性较低,且可以同步检测和演进画像以确保检测结果的时效性,可以支持多种基于网络流量检测技术的业务应用。
图2是本发明实施例的另一种网络实体行为奇异性检测方法的流程示意图,下面将结合图2对本发明实施例所述的方法进行详细的解释和说明:
步骤101,旁路捕获网络上传输的网络数据包或采集NetFlow流记录,生成网流及网流集。
优选地,本发明实施例设实体ea与eb使用网络协议p发生网络操作,记作nop(ea,eb,p),其中p=(Pal,Pbs)分别为ea,eb通信时使用的端口号序列。设w0为时间窗口长度,在时间窗口(t0,t0+w0),nop(ea,eb,p)产生网迹(网络痕迹)序列其中tri称为网迹,tri=<ea,eb,pi,ti,s0,ti,d,li,B,li,P>,其中,ti,s0,ti,d,li,B,li,P分别为起始时间、持续时间、通信数据字节长度、通信包数;称为网迹集,如果tri(i=1,…,k)为网络数据包(如IP包),则称为网包集;如果tri(i=1,…,k)为网流(如Netflow记录),则称为网流集。
优选地,本发明实施例设在时间窗口(t0,t0+w0),与实体ea使用网络协议p发生网络操作的所有对端实体集为则在此时间窗口,与实体ea网络协议p相关的网迹集为 设在时间窗口(t0,t0+w0),与实体ea发生网络操作的所有对端实体集为则在此时间窗口,与实体ea相关的网迹集为
步骤102,选择关注的网络实体相关的网流集。
优选地,本发明实施例基于IP地址筛选。
步骤103,基于时间槽分箱计算通信直方图特征作为时域特征。
优选地,本发明实施例一个实体使用某个应用或服务或运行某种协议,因访问需要或访问习惯,往往会周期性地使用这个应用或服务或运行这种协议,例如用户周期性地收取邮件,习惯性地访问某些新闻网站或专业网站,从而在时域展现出周期性的特征。再如某种物联网监测设备定期与数据收集代理通信,上报所采集的数据,也展现出更强的周期性特征。
优选地,本发明实施例设起始时间为t0,时间周期为T,时间窗口大小为w0,时间槽数Snum=T/w0。Snum个时间槽分别记为[t0,t0+w0),…,[t0+Snum-1*w0,t0+Snum*w0)。实体ea在时间槽TSl内生成的网迹集为 对时间槽TSl设置n-分箱,分位点为{tq1,tq2,…,tqn-1},n-分箱为[tq0,tq1),[tq1,tq2),…,[tqn-1,tqn),其中tq0=t0+Snum+l-1*w0,tqn=t0+Snum+l*w0。
优选地,本发明实施例时域特征采用分箱的通信直方图表示。实体ea在时间槽TSl第s分箱[tqs-1,tqs)的通信直方图ha,l,s定义为该箱网迹集的所有网迹的平均包长之和的对数值,即对于 tri=<ea,eb,pi,ti,s0,ti,d,li,B,li,P>,则ha,l,s=log10∑i(li,B/li,P)。
步骤104,基于时间槽分箱计算网络实体外联IP地址的质心特征、紧密中心度特征作为空域特征。
优选地,本发明实施例一个实体使用某个应用或服务或运行某种协议,往往对应一组特定的外联IP地址及端口,即在空域上展示出一定的特性。首先采用极坐标表示一个实体所外联的地址,其中矢量对应外联的IP地址,表示外联的IP地址的大小,角度θ表示外联的端口的大小。鉴于外联的IP地址空间的稀疏性及地址高分段部分的组织相关性,采用IP地址缩放方式得到设外联IP地址为a.b.c.d,h(a)表示取a对应的数值的所有奇数位(最低位为第0位)构成的小于24的数值,令hvip=(h(a)<<8)||(h(b)<<4)||h(c),则hvip小于212=4096,设外联的端口号为pt,令θ=arctan(pt),0≤θ≤π/2。其次对于一个实体在特定时间窗口内所外联的地址空间其对应的极坐标为利用公式和将极坐标表示的地址空间转换为直角坐标表示的点集A={x1,y1),(x2,y2),…,(xk,yk)}。
优选地,本发明实施例空域特征采用质心特征和紧密中心度特征表示。设实体ea在时间槽TSl第s分箱[tqs-1,tqs)的外联地址空间所对应的点集A,质心特征以五元组表示,其中ct表示点集规模量级,ct=log2|A|,分别为xi,yi的均值,σx,σy分别为xi,yi的标准差。紧密中心度特征测量从每个结点到其他所有节点的平均距离,即 d((xi,yi),(xj,yj))为(xi,yi),(xj,yj)的欧氏距离,则实体ei的紧密中心度定义为序列
步骤105,基于时间槽分箱计算网络实体外联端口的累积频率特征作为频域特征。
优选地,本发明实施例一个实体使用某个应用或服务或运行某种协议,往往会触发相关的服务或协议。例如进行网页浏览,每个页面的访问过程往往是先进行域名请求和应答,然后再连接到目标网站下载网页,而如果网页中嵌入其它目标,如搜索引擎等,下载网页的同时会并发访问网页中嵌入的对象,从而生成其它网流,因此在频域表现出的特点是以DNS协议访问-HTTP协议访问重复出现。再如,用户使用支持加密搜索的搜索引擎服务,这一过程往往是以TLS/HTTPS加密协议进行查询,中间伴随着以HTTP明文方式访问查询应答结果页中的目标网页,因此在频域表现出的特点是HTTPS访问与DNS访问-HTTP访问交替出现。再如,网络视频访问,由于当前CDN、云化、缓存、镜像、备份等技术广泛使用,网络音视频播放访问往往对应与多个源头产生网络通信,产生多个来源的视频协议的多流并发访问。
优选地,本发明实施例频域特征采用联合累积频率表示。对于实体ea,设关注的m个外联端口号集合为{Y1,Y2,…,Ym}。基于Snum个时间槽及其各自的n-分箱,总共n*Snum个分箱上,对每个Ys,其在第k个分箱中的ck(Ys)个网迹中出现,在整个时间周期内其在个网迹中出现,则其在第k个分箱中分箱中出现的频率为fk(Ys)=ck(Ys)/cT(Ys),至第k个分箱的累积频率即对每个Ys,对应n*Snum个累积频率对于m个Ys,对应m*n*Snum个累积频率特征,特别地至第k个分箱时对应的m个累积频率特征为{Pak(Y1),Pak(Y2),…,Pak(Ym)}。
步骤106,基于训练周期内网络实体行为的时域特征和相似性度量方法生成时域行为画像。
优选地,本发明实施例实体ea的时域行为画像是在若干个时间周期内基于时域分箱的通信直方图特征为生成z幅画像1)在第一个时间周期,基于Snum个时间槽及其各自的n-分箱,每个时间槽的TSa,k上的通信直方图作为第一幅画像 2)设第i时间周期始,计算第i个时间周期Snum个时间槽及其各自的n-分箱,每个时间槽的TSa,k上的通信直方图对每个在时间槽TSa,k上的通信直方图分别为 和Hak的均值和方差分别为μak,σak。3)计算eak之间的皮尔逊积矩相关系数为避免ea行为在时间上小幅偏移产生的影响,对TSa,k采用双向滑动时间时间窗口,滑动步长为时间槽n-分箱的长度,滑动步数为±n。如果所有的(σt为经验值),则将ea第i周期对应的通信直方图加入画像集Pta。4)重复步骤2)和3),直到得到
步骤107,基于训练周期内网络实体行为的空域特征和相似性度量方法生成空域行为画像。
优选地,本发明实施例实体ea的空域行为画像是在若干个时间周期内基于时域分箱的质心特征和紧密中心度特征生成z幅画像 其中为n*Snum个质心,为n*Snum个紧密中心度。1)在第一个时间周期,基于Snum个时间槽及其各自的n-分箱,实体ea在时间槽TSl第s分箱[tqs-1,tqs)的质心为其紧密中心度为 共n*Snum个质心和紧密中心度令2)设ea第i时间周期记为eav,计算第i个时间周期Snum个时间槽及其各自的n-分箱,每个时间槽的TSa,k上第s分箱[tqs-1,tqs)的质心为其紧密中心度为 如果m≠n,不妨设m≤n,则需要对齐和两个序列,利用二分取近法将两个序列对齐:步骤一:取的中间元素扫描取与其值最接近的元素步骤二:对序列和序列重复步骤一;步骤三:对序列和序列重复步骤一;重复步骤二和步骤三,直至中所有元素处理完毕,若不存在对应的则取为0。最终得到实体ea的近似紧密中心度序列 对每个在时间槽TSa,k上的第s分箱的质心为其紧密中心度为 质心相似度系数定义为 紧密度相似度系数定义为序列和序列之间的协方差,记作 其中和分别为和的期望值。3)如上计算出全部n*Snum个质心相似度系数和n*Snum个紧密中心度系数 定义 为避免ea行为在时间上小幅偏移产生的影响,对TSa,k采用双向滑动时间时间窗口,滑动步长为时间槽n-分箱的长度,滑动频数为±n,如果所有的(σsc和σst为经验值),则将ea第i周期对应的质心序列和紧密中心度序列加入画像集Psa。4)重复步骤2)和3),直到得到
步骤108,基于训练周期内网络实体行为的频域特征和相似性度量方法生成频域行为画像。
优选地,本发明实施例实体ea的频域行为画像是在若干个时间周期内基于时域分箱的联合累积频率特征生成z幅画像设关注的m个外联端口号集合为{Y1,Y2,…,Ym}。1)在第一个时间周期,基于Snum个时间槽及其各自的n-分箱,总共n*Snum个分箱上,即对每个Ys,对应n*Snum个累积频率对于m个Ys,对应m*n*Snum个累积频率特征,记为有特别地至第k个分箱时对应的m个累积频率特征为{Pa1k(Y1),Pa1k(Y2),…,Pa1k(Ym)}。2)设第i时间周期始, 计算第i个时间周期Snum个时间槽及其各自的n-分箱,即对每个Ys,对应n*Snum个累积频率对于m个Ys,对应m*n*Snum个累积频率特征,记为Eav。特别地至第k个分箱时对应的m个累积频率特征为{Paik(Y1),Paik(Y2),…,Paik(Ym)}。对每个其对应的n*Snum个累积频率3)计算 为避免ea行为在时间上小幅偏移产生的影响,采用双向滑动时间时间窗口,滑动步长为时间槽q-分箱的长度,滑动步数为±q。如果所有的(σf为经验值),则将ea第i周期对应的联合累积频率Eav加入画像集Efa。4)重复步骤2)和3),直到得到
步骤109,基于网络实体当前行为的时域特征和时域画像集中每个模板的相似性判定当前行为的时域奇异性。
优选地,本发明实施例时域行为奇异性检测采用皮尔逊积矩相关系数度量。设实体ea的行为画像依次选择画像在其时间槽ea在时间槽TSa,k上的通信直方图分别为和 其均值和方差分别为μa,σa,则定义ea之间的皮尔逊积矩相关系数为避免ea行为在时间上小幅偏移产生的影响,对TSa,k采用双向滑动时间时间窗口,滑动步长为时间槽q-分箱的长度,滑动频数为±q。如果所有的则认为发生时域行为奇异性。
步骤110,基于网络实体当前行为的空域特征和空域画像集中每个模板的相似性判定当前行为的空域奇异性。
优选地,本发明实施例空域行为奇异性检测检测模型。设实体ea的行为画像依次选择画像在其时间槽TSa,k上第s分箱[tqs-1,tqs)的质心为紧密中心度为实体ea在当前时间周期的时间槽TSa,k上第s分箱tqs-1,tqs的质心为紧密中心度为计算和的质心相似度系数γc和紧密中心度相似度系数γt。如上计算出全部n*Snum个质心相似度系数 和n*Snum个紧密中心度系数定义为避免ea行为在时间上小幅偏移产生的影响,对TSa,k采用双向滑动时间时间窗口,滑动步长为时间槽n-分箱的长度,滑动频数为±n,如果所有的 则认为发生时域行为奇异性。
步骤111,基于网络实体当前行为的频域特征和频域画像集中每个模板的相似性判定当前行为的频域奇异性。
优选地,本发明实施例频域行为奇异性检测采用联合累积频率的欧氏距离度量。设实体ea的行为画像依次选择画像其对应的n*Snum个累积频率对ea当前时间周期Snum个时间槽及其各自的n-分箱,对每个Ys,对应n*Snum个累积频率特征计算为避免ea行为在时间上小幅偏移产生的影响,采用双向滑动时间时间窗口,滑动步长为时间槽q-分箱的长度,滑动步数为±q。如果所有的(σf为经验值),则认为发生频域行为奇异性。
步骤112,基于网络实体当前行为的时域奇异性、空域奇异性和频域奇异性集成判定当前行为的奇异性。
优选地,本发明实施例采用简单多数表决法判定。
本发明实施例还提供了一种网络实体行为奇异性检测装置,参见图3,该装置包括:
网流生成器,用于旁路捕获网络上传输的网络数据包或采集NetFlow流记录,生成网流及网流集;
网流选择器,用于筛选出关注的网流集,生成网络实体;
特征提取器,用于提取网络实体访问网络的时域特征、空域特征和频域特征;
奇异检测器,用于基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性;通过表决方法集成时域、空域和频域奇异性检测结果确定网络实体行为的奇异性检测结果。
也就是说,本发明实施例通过提取训练周期内网络实体访问网络行为的时域、空域和频域特征,为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据,相对于现有技术来说,本发明采取自主学习而无需专家经验和先验知识,检测准确率较高,计算复杂性较低,且可以同步检测和演进画像以确保检测结果的时效性,可以支持多种基于网络流量检测技术的业务应用。
为了更好的解决网流检测中存在的指纹时效性差、检测特征复杂、数据隐私保护等问题,本发明提出了基于网迹多域特征的网络实体行为奇异性检测方法,可以针对性的从网络数据包或NetFlow流记录生成网流记录集,选择所关注的网络实体相关的网流集,提取其时域、空域和频域特征,在训练周期内生成其时域、空域和频域行为画像,采用适用的相似性度量方法判定网络实体当前行为与画像的相似性以检测行为奇异性。
具体实施时,本发明实施例所述网流选择器还用于,基于IP地址筛选出关注的网流集。
具体来说,本发明实施例可实现根据用户选择来确定网流集,具体实施时,本领域的技术人员可设置通过其他方式来确定用户关注的网流集,本发明对此不作具体限定。
具体实施时,本发明实施例所述特征提取器还用于,基于时间槽分箱计算通信直方图特征作为时域特征,计算外联地址的质心特征和紧密中心度特征作为空域特征,计算端口出现的联合累积频率特征作为频域特征。
即,本发明实施例通过将网络实体访问网络划分为时域特征、空域特征和频域特征,并基于这几个特征分别设置相应的画像,然后基于各个画像计算各个行为的奇异性。
具体实施时,本发明实施例所述装置还包括:行为成像器,用于基于若干个时间周期内的时间槽分箱通信直方图特征及其皮尔逊积矩相关系数相似性生成网络实体的时域行为画像;基于若干个时间周期内的外联IP地址质心特征及其欧氏距离、紧密中心度特征及其协方差距离生成生成网络实体的空域行为画像;基于若干个时间周期内的频域外联端口号累积频率特征及其欧氏距离生成网络实体的频域行为画像。
具体实施时,本发明实施例所述奇异检测器还用于,基于网络实体当前行为的时域特征与其时域画像集中每个模板的皮尔逊积矩相关系数相似性判定当前行为的时域奇异性;基于网络实体当前行为的空域外联IP地址质心特征、紧密中心度特征与其空域画像集中每个模板的欧氏距离、协方差距离判定当前行为的空域奇异性;基于网络实体当前行为的的频域外联端口号累积频率特征与其频域画像集中每个模板的欧氏距离判定当前行为的频域奇异性。
总体来说,本发明实施例通过提取训练周期内网络实体访问网络行为的时域、空域和频域特征,为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据,相对于现有技术来说,本发明采取自主学习而无需专家经验和先验知识,检测准确率较高,计算复杂性较低,且可以同步检测和演进画像以确保检测结果的时效性,可以支持多种基于网络流量检测技术的业务应用。
图4是本发明实施例的另一种网络实体行为奇异性检测装置的结构示意图,如图4所示,本发明实施例所述基于网迹多域特征的网络实体行为奇异性检测装置包括:网流生成器、网流选择器、特征提取器、行为成像器、奇异检测器,其中,
网流生成器,网流生成器支持网包和NetFlow两种源数据输入。网包源数据基于网络旁路被动捕包得到的数据包序列,进行会话重组和信息计算,得到网流;NetFlow源数据来自网络设备生成的NetFlow数据生成器和数据收集器收集到的流集,生成网流。网流生成器生成的网流记录格式为<sip,dip,sport,dport,proto,stime,etime,cbyte,cpkt,d>,分别表示源IP地址,目的IP地址,源端口号,目的端口号,协议,起始时间,结束时间,流字节计数、流包计数以及通信方向,考虑到分布式路由的影响,源数据可能基于单向流,网流生成器生成的网流为单向流,以通信方向字段标记,初始值默置为1。
网流选择器,网流选择器对接网流生成器生成的网流数据,通过扫描sip字段和dip字段,实时筛选出与关注实体IP地址相关的网流。如果sip字段为关注实体IP地址,则保持网流记录不变;如果dip字段为关注实体IP地址,则对调sip字段和dip字段,对调sport字段和dport字段,并置通信方向字段值为-1。
特征提取器,包括网流时域特征提取器、空域特征提取器、频域特征提取器。时域特征提取器实现时间槽分箱的通信直方图计算;空域特征提取器实现时间槽分箱中外联地址的质心特征和紧密中心度特征计算;频域特征提取器实现时间槽分箱的联合累积频率特征计算。
行为成像器,包括实体行为时域成像器、空域成像器、频域成像器。时域成像器实现若干个时间周期内基于时间槽分箱通信直方图特征和皮尔逊积矩相关系数相似性度量方法生成z幅时域画像;空域成像器实现若干个时间周期内基于时间槽分箱外联地址质心特征和欧氏距离、紧密中心度特征和协方差距离生成z幅空域画像;频域成像器实现若干个时间周期内基于时间槽分箱的联合累积频率特征生成z幅频域画像。阈值σt,σsc,σst和σf受网络环境影响,初均取0.5,在训练中动态调整。调整原则为:若画像过程中,连续3个(亦可配置)时间周期未出现当前行为特征与匹配画像模板匹配,则进行步进调整,调整步长值为像集中所有画像的距离1/10。
奇异检测器,包括实体行为时域奇异性检测器、空域奇异性检测器、频域奇异性检测器和集成检测器。时域奇异性检测器计算当前行为的时域特征与时域画像中所有模板的相似度;空域奇异性检测器计算当前行为的空域特征与空域画像中所有模板的相似度;频域奇异性检测器计算当前行为的频域特征与频域画像中所有模板的相似度;集成检测器通过时域奇异性检测器、空域奇异性检测器、频域奇异性检测器的简单多数表决方法确定最终奇异性检测结果。
在本发明实施例中,各个模块的详细处理过程可以根据上述方法实施例中的相应内容进行理解,在此不再赘述。
综上所述,借助于本发明实施例的技术方案,通过提取训练周期内网络实体访问网络行为的时域、空域和频域特征,为其时域、空域和频域行为画像,并以此画像作为网络实体后续网络行为奇异性检测依据。检测方法和装置采取自举学习而无需专家经验和先验知识,检测准确率较高,计算复杂性较低,且可以同步检测和演进画像以确保检测结果的时效性,可以支持多种基于网络流量检测技术的业务应用。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的分布式文件系统数据导入装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (4)
1.一种网络实体行为奇异性检测方法,其特征在于,包括:
旁路捕获网络上传输的网络数据包或采集NetFlow流记录,生成网流及网流集,并筛选出关注的网流集,生成网络实体;
提取网络实体访问网络的时域特征、空域特征和频域特征,并基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性;
通过表决方法集成时域、空域和频域奇异性检测结果确定网络实体行为的奇异性检测结果;
提取网络实体访问网络的时域特征、空域特征和频域特征,具体包括:
基于时间槽分箱计算通信直方图特征作为时域特征,计算外联地址的质心特征和紧密中心度特征作为空域特征,计算端口出现的联合累积频率特征作为频域特征;
基于若干个时间周期内的时间槽分箱通信直方图特征及其皮尔逊积矩相关系数相似性生成网络实体的时域行为画像;
基于若干个时间周期内的外联IP地址质心特征及其欧氏距离、紧密中心度特征及其协方差距离生成网络实体的空域行为画像;
基于若干个时间周期内的频域外联端口号累积频率特征及其欧氏距离生成网络实体的频域行为画像;
基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性,具体包括:
基于网络实体当前行为的时域特征与其时域画像集中每个模板的皮尔逊积矩相关系数相似性判定当前行为的时域奇异性;
基于网络实体当前行为的空域外联IP地址质心特征、紧密中心度特征与其空域画像集中每个模板的欧氏距离、协方差距离判定当前行为的空域奇异性;
基于网络实体当前行为的频域外联端口号累积频率特征与其频域画像集中每个模板的欧氏距离判定当前行为的频域奇异性。
2.根据权利要求1所述的方法,其特征在于,筛选出关注的网流集,具体包括:
基于IP地址筛选出关注的网流集。
3.一种网络实体行为奇异性检测装置,其特征在于,包括:
网流生成器,用于旁路捕获网络上传输的网络数据包或采集NetFlow流记录,生成网流及网流集;
网流选择器,用于筛选出关注的网流集,生成网络实体;
特征提取器,用于提取网络实体访问网络的时域特征、空域特征和频域特征;
奇异检测器,用于基于当前行为时域特征与时域行为画像中所有模板的相似度判定时域行为奇异性,基于当前行为空域特征与空域行为画像中所有模板的相似度判定空域行为域奇异性,基于当前行为频域特征与频域画像中所有模板的相似度判定频域行为奇异性;通过表决方法集成时域、空域和频域奇异性检测结果确定网络实体行为的奇异性检测结果;
所述特征提取器还用于,基于时间槽分箱计算通信直方图特征作为时域特征,计算外联地址的质心特征和紧密中心度特征作为空域特征,计算端口出现的联合累积频率特征作为频域特征;
行为成像器,用于基于若干个时间周期内的时间槽分箱通信直方图特征及其皮尔逊积矩相关系数相似性生成网络实体的时域行为画像;基于若干个时间周期内的外联IP地址质心特征及其欧氏距离、紧密中心度特征及其协方差距离生成网络实体的空域行为画像;基于若干个时间周期内的频域外联端口号累积频率特征及其欧氏距离生成网络实体的频域行为画像;
所述奇异检测器还用于,基于网络实体当前行为的时域特征与其时域画像集中每个模板的皮尔逊积矩相关系数相似性判定当前行为的时域奇异性;基于网络实体当前行为的空域外联IP地址质心特征、紧密中心度特征与其空域画像集中每个模板的欧氏距离、协方差距离判定当前行为的空域奇异性;基于网络实体当前行为的频域外联端口号累积频率特征与其频域画像集中每个模板的欧氏距离判定当前行为的频域奇异性。
4.根据权利要求3所述的装置,其特征在于,
所述网流选择器还用于,基于IP地址筛选出关注的网流集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810735317.8A CN108964998B (zh) | 2018-07-06 | 2018-07-06 | 一种网络实体行为奇异性检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810735317.8A CN108964998B (zh) | 2018-07-06 | 2018-07-06 | 一种网络实体行为奇异性检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108964998A CN108964998A (zh) | 2018-12-07 |
CN108964998B true CN108964998B (zh) | 2021-10-15 |
Family
ID=64486022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810735317.8A Expired - Fee Related CN108964998B (zh) | 2018-07-06 | 2018-07-06 | 一种网络实体行为奇异性检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108964998B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580284B (zh) * | 2019-07-31 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种实体消歧方法、装置、计算机设备及存储介质 |
CN110889445B (zh) * | 2019-11-22 | 2022-09-27 | 咪咕文化科技有限公司 | 视频cdn盗链检测方法、装置、电子设备及存储介质 |
CN113157922B (zh) * | 2021-04-28 | 2022-01-21 | 江苏易安联网络技术有限公司 | 基于图的网络实体行为评估、可视化方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101150581A (zh) * | 2007-10-19 | 2008-03-26 | 华为技术有限公司 | 分布式拒绝服务攻击检测方法及装置 |
CN102663452B (zh) * | 2012-04-14 | 2013-11-06 | 中国人民解放军国防科学技术大学 | 基于视频分析的可疑行为检测方法 |
CN105337957B (zh) * | 2015-09-24 | 2019-04-23 | 中山大学 | 一种SDN网络DDoS和DLDoS分布式时空检测系统 |
US10116674B2 (en) * | 2015-10-30 | 2018-10-30 | Citrix Systems, Inc. | Framework for explaining anomalies in accessing web applications |
CN106713303A (zh) * | 2016-12-19 | 2017-05-24 | 北京启明星辰信息安全技术有限公司 | 一种恶意域名检测方法及系统 |
-
2018
- 2018-07-06 CN CN201810735317.8A patent/CN108964998B/zh not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
动态数据流环境下的自适应性行为识别算法设计;钱丽萍等;《传感技术学报》;20170630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108964998A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108964998B (zh) | 一种网络实体行为奇异性检测方法及装置 | |
Najafabadi et al. | User behavior anomaly detection for application layer ddos attacks | |
CN105024872B (zh) | 网络性能测试的方法及装置 | |
US20140325596A1 (en) | Authentication of ip source addresses | |
CN113206860B (zh) | 一种基于机器学习和特征选择的DRDoS攻击检测方法 | |
CN111262959B (zh) | 区块链节点访问方法、装置及存储介质 | |
CN108154080A (zh) | 一种视频设备快速溯源的方法 | |
Greensmith et al. | The DCA: SOMe comparison: A comparative study between two biologically inspired algorithms | |
CN114143049B (zh) | 异常流量检测方法、装置、存储介质以及电子设备 | |
CN111028085A (zh) | 一种基于主被动结合的网络靶场资产信息采集方法及装置 | |
Gonzalez et al. | Net2Vec: Deep learning for the network | |
CN108512720A (zh) | 一种网站流量的统计方法及装置 | |
CN108022171A (zh) | 一种数据处理方法及设备 | |
CN114710417A (zh) | 基于格拉姆角场变换的Tor用户访问网站识别方法及系统 | |
CN113079157A (zh) | 获取网络攻击者位置的方法、装置、电子设备 | |
CN117041070B (zh) | 一种网络空间测绘节点发现与归属判别方法和装置 | |
CN111310796B (zh) | 一种面向加密网络流的Web用户点击识别方法 | |
Rizothanasis et al. | Identifying user actions from HTTP (S) traffic | |
CN105812204B (zh) | 一种基于连接度估计的递归域名服务器在线识别方法 | |
CN113055420A (zh) | Https业务识别方法、装置及计算设备 | |
CN113453076A (zh) | 用户视频业务质量评估方法、装置、计算设备和存储介质 | |
Tekeoglu et al. | Approximating the number of active nodes behind a NAT device | |
CN115189936A (zh) | 一种基于特征选择的Tor隐藏服务流量识别方法 | |
JP2010198111A (ja) | メタデータ抽出サーバ、メタデータ抽出方法およびプログラム | |
CN111711946B (zh) | 一种加密无线网络下的IoT设备识别方法及识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211015 |
|
CF01 | Termination of patent right due to non-payment of annual fee |