CN105812280A - 一种分类方法及电子设备 - Google Patents
一种分类方法及电子设备 Download PDFInfo
- Publication number
- CN105812280A CN105812280A CN201610292648.XA CN201610292648A CN105812280A CN 105812280 A CN105812280 A CN 105812280A CN 201610292648 A CN201610292648 A CN 201610292648A CN 105812280 A CN105812280 A CN 105812280A
- Authority
- CN
- China
- Prior art keywords
- node
- jth
- determined
- similarity
- communication information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/24—Traffic characterised by specific attributes, e.g. priority or QoS
- H04L47/2441—Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Discrete Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种分类方法及电子设备,所述分类包括:确定网络中的至少一个结点;获得所述至少一个结点中任意两个结点间的通信信息;基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。本发明提供的上述方法,解决现有技术中存在流量分类方法复杂的技术问题。
Description
技术领域
本发明涉及电子技术领域,特别涉及一种分类方法及电子设备。
背景技术
流量分类技术在网络测量与信息安全领域应用非常广泛,一方面,根据应用实时性要求优化网络通信资源;另一方面,实时流量分类提前识别并监控网络异常流量。传统的网络流量识别技术主要有基于端口识别与深度数据包检测的协议识别方法,随着P2P技术的不断发展,对等网络已被广泛应用于文件共享、即时通信、流媒体传输等领域,以及其他新兴互联网业务的应用,大量动态端口及协议加密技术被用于数据传输,导致基于端口和深度报文检测的流量分类方法逐步失效。为了不依赖于报文负载进行检测,基于机器学习的流量分类技术正逐步受到研究者的关注。它通过提取网络流的统计特征(如平均报文长度、流的持续时间等),将网络流抽象为由一组统计特征值构成的属性向量,实现了由流量分类向机器学习的转化。基于机器学习的流量分类方法存在以下缺陷:一是高速网络中,提取流量特征的时间复杂度随所统计的报文数量线性增加;二是概念飘移问题,导致这种现象的原因是网络时空环境和网络应用分布发生变化。
针对机器学习方法重度依赖网络环境和计算复杂度偏高的问题,用户级的流量分类方法不再关注应用层负载、流量特征的提取和统计,而是从用户行为学的角度进行研究。现有技术中可以分别从社会、功能、应用3个层面分析了各种应用的行为模式,提出了基于“用户交互行为”的流量分类方法。但这样的分类方法对于新出现的业务模式无能为力,并且计算复杂度较高,耗时长,必须进行离线分析。所以,现有技术中存在流量分类方法复杂获的技术问题。
发明内容
本发明实施例提供一种分类方法及电子设备,用于解决现有技术中存在流量分类方法复杂的技术问题。
本发明实施例一方面提供了一种分类方法,包括:
确定网络中的至少一个结点;
获得所述至少一个结点中任意两个结点间的通信信息;
基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
可选的,所述确定网络中的至少一个结点,具体为:
基于网络地址与端口信息确定所述网络中的至少一个结点。
可选的,所述获得所述至少一个结点中任意两个结点间的通信信息,具体为:
获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
可选的,所述基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图,具体包括:
获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
可选的,所述基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系,具体包括:
若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
可选的,所述基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,具体包括:
基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
本发明实施例另一方面提供一种电子设备,包括:
存储单元,用于存储至少一个程序模块;
至少一个处理器,所述至少一个处理器通过获得并运行所述至少一个程序模块,用于确定网络中的至少一个结点;获得所述至少一个结点中任意两个结点间的通信信息;基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
可选的,所述至少一个处理器还用于:
基于网络地址与端口信息确定所述网络中的至少一个结点。
可选的,所述至少一个处理器还用于:
获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
可选的,所述至少一个处理器还用于:
获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
可选的,所述至少一个处理器还用于:
若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
可选的,所述至少一个处理器还用于:
基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
本发明实施例另一方面提供一种电子设备,包括:
第一确定单元,用于确定网络中的至少一个结点;
第一获得单元,用于获得所述至少一个结点中任意两个结点间的通信信息;
第一构造单元,用于基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
第二确定单元,用于基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
第一分类单元,用于采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
1、由于在本申请实施例中的技术方案中,采用了确定网络中的至少一个结点;获得所述至少一个结点中任意两个结点间的通信信息;基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果的技术手段。这样,在进行分类时,从传统的IP流转移到用户,将用户之间的通信抽象为一种“社团行为”,构建用户连接图模型,基于谱聚类将用户连接图划分为互不相干的行为群体。这样,可以不依赖于通信报文载荷内容和网络流的统计特性,可获取聚类判据在放松的连续域中的全局最优解,有效避免奇异性问题,降低计算复杂度。所以,能有效解决现有技术中存在流量分类方法复杂的技术问题。
2、由于在本申请实施例中的技术方案中,采用了基于网络地址与端口信息确定所述网络中的至少一个结点的技术手段。这样,用户主机一般是由IP地址表示的,端口号则表明用户主机与某种应用服务相关联。基于端口进行分析区别于用IP地址标识用户的方法,加入端口可识别用户可能开启多个业务的情形,增加了用户标识的维度;还可以从业务识别的层面,用端口号来细化业务流,识别业务绑定端口的规律。
附图说明
为了更清楚地说明本申请实施例或现有技术方案中的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
图1为本申请实施例一中一种分类方法的流程图;
图2为本申请实施例一中结点相似性的示意图;
图3为本申请实施例二中一种电子设备的结构图;
图4为本申请实施例三中一种电子设备的结构图。
具体实施方式
本发明实施例提供一种分类方法及电子设备,用于解决现有技术中存在流量分类方法复杂的技术问题。
为解决上述的技术问题,本发明实施例提供一种分类方法,总体思路如下:
确定网络中的至少一个结点;
获得所述至少一个结点中任意两个结点间的通信信息;
基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
由于在本申请实施例中的技术方案中,采用了确定网络中的至少一个结点;获得所述至少一个结点中任意两个结点间的通信信息;基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果的技术手段。这样,在进行分类时,从传统的IP流转移到用户,将用户之间的通信抽象为一种“社团行为”,构建用户连接图模型,基于谱聚类将用户连接图划分为互不相干的行为群体。这样,可以不依赖于通信报文载荷内容和网络流的统计特性,可获取聚类判据在放松的连续域中的全局最优解,有效避免奇异性问题,降低计算复杂度。所以,能有效解决现有技术中存在流量分类方法复杂的技术问题。
下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
实施例一
请参考图1,本发明实施例提供一种分类方法,包括:
S101:确定网络中的至少一个结点;
S102:获得所述至少一个结点中任意两个结点间的通信信息;
S103:基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
S104:基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
S105:采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
具体的,在本实施例中,步骤S101:确定网络中的至少一个结点,在具体实施过程中,主要通过如下步骤实现:基于网络地址与端口信息确定所述网络中的至少一个结点。
将网络用户之间的交互行为通过用户连接图G(V,E)的形式进行抽象,用{IP地址,端口}作为用户的唯一标识,并抽象为连接图上的一个结点,将互联网中每个用户抽象为一个结点vi∈V,若用户vi,vj之间相互通信,则将对应的点连成一条边eij∈E,并且边eij的权重以用户vi,vj之间的相似度来表示。因此不同的网络应用场景将构成模式各异的网络拓扑结构。
用户主机一般是由IP地址表示的,端口号则与某种应用服务相关联。基于端口进行分析具有以下优势:一是区别于用IP地址标识用户的方法,加入端口可识别用户可能开启多个业务的情形,增加了用户标识的维度;二是从业务识别的层面,用端口号来细化业务流,识别业务绑定端口的规律。将用户主机的{IP地址,端口}这2维数组抽象成连接图中的结点。
进一步,步骤S102中,获得所述至少一个结点中任意两个结点间的通信信息,具体为:
获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
具体的,在本实施例中,在确定需要进行分类的结点集后,需要统计在预设时间范围内网络中的需要进行分类的结点集中任意两个结点间的通信连接关系和传输的报文总数,在具体实施过程中,预设时间范围可根据实际情况进行设定,比如:设定为24小时、7天、30天等等,在此,本申请不做限定。
在获得结点集中任意两个结点间的通信连接关系和传输的报文总数之后,步骤:所述基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图,具体包括:
获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
其中,若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
具体的,在本实施例中,用户连接图G(V,E)中的边通过用户之间的通信行为来抽象,在确定两个结点间是否存在边连接关系时,主要通过两结点在预设时间范围内的的通信连接关系和传输的报文总数来确定。
具体的,若在确定的待分类的结点集中任意的第i结点与第j结点两个结点间成功建立UDP连接,表明两个结点间成功建立了通信连接,并且两个结点通过建立的UDP连接成功传递报文,是可靠的连接,在满足该条件时可确定第i结点与第j结点间存在边连接。或者,若在确定的待分类的结点集中任意的第i结点与第j结点两个结点间成功建立TCP连接,表明两个结点间成功建立了通信连接,并且两个结点通过建立的TCP连接成功传递报文,是可靠的连接,在满足该条件时可确定第i结点与第j结点间存在边连接。或者,若在确定的待分类的结点集中任意的第i结点与第j结点两个结点间在预设时间范围内传输的报文总数大于预设阈值,比如:在1小时内,如果第i结点与第j结点间传输的报文总数大于预设阈值,则确定第i结点与第j结点间存在边连接。在具体实施过程中,预设阈值可根据实际情况进行设定,在此,本申请不作限制。
通过上述方式构建用户连接图G(V,E)后,基于谱聚类的网络用户行为分类的核心问题就是如何定义用户之间的相似性,即行为相似性度量,从而构建相似度矩阵。在本实施例中,所述基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,具体包括:
基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
具体的,在本实施例中,首先定义相邻结点,在连接图G(V,E)中,若结点vi与用户vj直接相连,则称vi和vj为相邻结点;若vi与v1,v2,v3相连,则定义结点vi的相邻用户结点集合Ui={v1,v2,v3}。
进一步,定义结点间的相似度,若结点vi与结点vj为相邻结点,则定义vi与vj的结点相似度为两者之间通信的字节总数或者报文总数bij;若结点vi与结点vj不相邻,结点vi与结点vj对应的相邻结点集合分别为Ui与Uj,两个相邻结点集合共享结点的个数为N=|Ui∩Uj|,则结点vi与结点vj的结点相似度定义为vi和vj与单个共享结点通信的字节总数或者报文总数的最小值minbn的求和其中minbn=min{bin,bjn,(n=1,2,...,N)};若结点vi与结点vj不相邻且无共享用户,则相似度bij=0。
一般地,同一时间段网络用户之间通信的内容越多,两个结点具有共同的互联网业务应用的概率就越大,相似度越高。结点相似度从用户的网络交互行为出发,不仅将单一结点对之间的通信所传输的字节总数或报文总数与结点相似度关联,并且引入了以不相邻结点之间共享通信内容的总和为指标的相似性度量。如图2所示,结点A和结点B之间共享5个结点连接,根据用户相似度的定义,结点A和结点B之间的相似度为其中minbn=min{bAi,bBi,(i=1,2,...,5)}。
在定义好结点的相似性后,即可获得结点对应的相似性矩阵,进而采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
具体的,在本实施例中,基于谱聚类将用户连接图G(V,E)进行行为子簇划分,即实现对网络用户行为的划分,具体划分步骤如下所示:
首先,输入用户集合U={u1,u2,...un},聚簇个数K,尺度参数σ,输出为行为聚簇集合C={C1,C2,...,CK};
进而,若用户ui,uj为相邻用户,则用户相似度bij=字节总数或报文总数,即交互通信所传输的内容大小;若用户ui,uj不相邻,则用户相似度其中N=|Ui∩Uj|为两相邻用户集合共享用户的个数,Ui,Uj分别为ui,uj的相邻用户集合;
进而,计算相似度矩阵S=[sij]N×N,其中令用户ui的自相似值为最大值bii=∞,sii=0;构建L=D-1/2SD-1/2,其中D为对角矩阵,定义为找出L最大的K个特征值λ1≥λ2≥...≥λK和对应的特征向量[f1,f2,...,fK],构成矩阵FN×K=[f1,f2,...,fK];对矩阵FN×K进行规范化处理,得到矩阵YN×K,其中将YN×K的每一行看成RK空间中的一点,使用K-means将其聚为K类C1,C2,...,CK;如果YN×K的第i行属于Cj,则将用户ui划分到子簇集合Cj中。
通过这样的方式,在进行分类时,从传统的IP流转移到用户,将用户之间的通信抽象为一种“社团行为”,构建用户连接图模型,基于谱聚类将用户连接图划分为互不相干的行为群体。这样,可以不依赖于通信报文载荷内容和网络流的统计特性,可获取聚类判据在放松的连续域中的全局最优解,有效避免奇异性问题,降低计算复杂度。所以,能有效解决现有技术中存在流量分类方法复杂的技术问题。
实施例二
请参考图3,本申请实施例还提供一种电子设备,包括:
存储单元301,用于存储至少一个程序模块;
至少一个处理器302,所述至少一个处理器通过获得并运行所述至少一个程序模块,用于确定网络中的至少一个结点;获得所述至少一个结点中任意两个结点间的通信信息;基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
可选的,所述至少一个处理器还用于:
基于网络地址与端口信息确定所述网络中的至少一个结点。
可选的,所述至少一个处理器还用于:
获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
可选的,所述至少一个处理器还用于:
获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
可选的,所述至少一个处理器还用于:
若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
可选的,所述至少一个处理器还用于:
基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
实施例三
请参考图4,本申请实施例还提供一种电子设备,包括:
第一确定单元401,用于确定网络中的至少一个结点;
第一获得单元402,用于获得所述至少一个结点中任意两个结点间的通信信息;
第一构造单元403,用于基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
第二确定单元404,用于基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
第一分类单元405,用于采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
可选的,所述第一确定单元具体包括:
第一确定模块,用于基于网络地址与端口信息确定所述网络中的至少一个结点。
可选的,所述第一获得单元具体包括:
第一获得模块,用于获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
可选的,所述第一获得单元具体包括:
第一获得模块,用于获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
第二确定模块,用于基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
第三确定模块,用于基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
可选的,所述第二确定模块具体包括:
第一确定子模块,用于若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;
第二确定子模块,用于若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;
第三确定子模块,用于若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
可选的,所述第二确定单元具体包括:
第四确定模块,用于基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
第五确定模块,用于如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
第六确定模块,用于如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
通过本申请实施例中的一个或多个技术方案,可以实现如下一个或多个技术效果:
1、由于在本申请实施例中的技术方案中,采用了确定网络中的至少一个结点;获得所述至少一个结点中任意两个结点间的通信信息;基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果的技术手段。这样,在进行分类时,从传统的IP流转移到用户,将用户之间的通信抽象为一种“社团行为”,构建用户连接图模型,基于谱聚类将用户连接图划分为互不相干的行为群体。这样,可以不依赖于通信报文载荷内容和网络流的统计特性,可获取聚类判据在放松的连续域中的全局最优解,有效避免奇异性问题,降低计算复杂度。所以,能有效解决现有技术中存在流量分类方法复杂的技术问题。
2、由于在本申请实施例中的技术方案中,采用了基于网络地址与端口信息确定所述网络中的至少一个结点的技术手段。这样,用户主机一般是由IP地址表示的,端口号则表明用户主机与某种应用服务相关联。基于端口进行分析区别于用IP地址标识用户的方法,加入端口可识别用户可能开启多个业务的情形,增加了用户标识的维度;还可以从业务识别的层面,用端口号来细化业务流,识别业务绑定端口的规律。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
具体来讲,本申请实施例中的分类对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与分类对应的计算机程序指令被一电子设备读取或被执行时,包括如下步骤:
确定网络中的至少一个结点;
获得所述至少一个结点中任意两个结点间的通信信息;
基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
可选的,所述存储介质中存储的与步骤:确定网络中的至少一个结点对应的计算机程序指令在被执行时,具体包括如下步骤:
基于网络地址与端口信息确定所述网络中的至少一个结点。
可选的,所述存储介质中存储的与步骤:获得所述至少一个结点中任意两个结点间的通信信息对应的计算机程序指令在被执行时,具体包括如下步骤:
获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
可选的,所述存储介质中存储的与步骤:基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图对应的计算机程序指令在被执行时,具体包括如下步骤:
获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
可选的,所述存储介质中存储的与步骤:基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系对应的计算机程序指令在被执行时,具体包括如下步骤:
若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
可选的,所述存储介质中存储的与步骤:基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性对应的计算机程序指令在被执行时,具体包括如下步骤:
基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (13)
1.一种分类方法,包括:
确定网络中的至少一个结点;
获得所述至少一个结点中任意两个结点间的通信信息;
基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
2.如权利要求1所述的分类方法,其特征在于,所述确定网络中的至少一个结点,具体为:
基于网络地址与端口信息确定所述网络中的至少一个结点。
3.如权利要求1所述的分类方法,其特征在于,所述获得所述至少一个结点中任意两个结点间的通信信息,具体为:
获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
4.如权利要求3所述的分类方法,其特征在于,所述基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图,具体包括:
获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
5.如权利要求4所述的分类方法,其特征在于,所述基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系,具体包括:
若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
6.如权利要求4所述的分类方法,其特征在于,所述基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,具体包括:
基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
7.一种电子设备,包括:
存储单元,用于存储至少一个程序模块;
至少一个处理器,所述至少一个处理器通过获得并运行所述至少一个程序模块,用于确定网络中的至少一个结点;获得所述至少一个结点中任意两个结点间的通信信息;基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
8.如权利要求7所述的电子设备,其特征在于,所述至少一个处理器还用于:
基于网络地址与端口信息确定所述网络中的至少一个结点。
9.如权利要求7所述的电子设备,其特征在于,所述至少一个处理器还用于:
获得在预设时间范围内所述至少一个结点中任意两个结点间的通信连接关系和传输的报文总数。
10.如权利要求9所述的电子设备,其特征在于,所述至少一个处理器还用于:
获得所述至少一个结点中任意的第i结点与第j结点间通信连接关系;
基于所述通信连接关系,确定所述第i结点与所述第j结点间的边连接关系;
基于获得的所述任意的第i结点与第j结点间的边连接关系,确定所述至少一个结点对应的连接图。
11.如权利要求10所述的电子设备,其特征在于,所述至少一个处理器还用于:
若所述第i结点与所述第j结点间成功建立UDP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间成功建立TCP连接,确定所述第i结点与所述第j结点间存在边连接;或
若所述第i结点与所述第j结点间传输的报文总数大于预设阈值,确定所述第i结点与所述第j结点间存在边连接。
12.如权利要求10所述的电子设备,其特征在于,所述至少一个处理器还用于:
基于所述连接图,确定所述第i结点与所述第j结点是否为相邻结点;
如果是,则基于所述第i结点与所述第j结点间传输的报文总数确定所述所述第i结点与所述第j结点的相似性;
如果否,则获得所述第i结点的相邻结点集与所述第j结点的相邻结点集间的并集,基于所述并集中的结点与所述第i结点和所述第j结点间的传输报文信息,确定所述所述第i结点与所述第j结点的相似性。
13.一种电子设备,包括:
第一确定单元,用于确定网络中的至少一个结点;
第一获得单元,用于获得所述至少一个结点中任意两个结点间的通信信息;
第一构造单元,用于基于所述任意两个结点间的通信信息,构造与所述至少一个结点对应的连接图;
第二确定单元,用于基于所述连接图与所述任意两个结点间的通信信息,确定所述至少一个结点中任意两个结点的相似性,确定相似性矩阵;
第一分类单元,用于采用谱聚类算法对所述相似性矩阵进行谱聚类,获得聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610292648.XA CN105812280B (zh) | 2016-05-05 | 2016-05-05 | 一种分类方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610292648.XA CN105812280B (zh) | 2016-05-05 | 2016-05-05 | 一种分类方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105812280A true CN105812280A (zh) | 2016-07-27 |
CN105812280B CN105812280B (zh) | 2019-06-04 |
Family
ID=56455331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610292648.XA Active CN105812280B (zh) | 2016-05-05 | 2016-05-05 | 一种分类方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105812280B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106789346A (zh) * | 2017-01-22 | 2017-05-31 | 中国人民解放军信息工程大学 | 一种基于用户连接图的深度行为关联方法 |
CN107358265A (zh) * | 2017-07-17 | 2017-11-17 | 南京华苏科技有限公司 | 基于谱聚类的外来常住人口识别方法 |
CN110826311A (zh) * | 2020-01-13 | 2020-02-21 | 支付宝(杭州)信息技术有限公司 | 对象识别方法以及装置 |
CN113364703A (zh) * | 2021-06-03 | 2021-09-07 | 中国电信股份有限公司 | 网络应用流量的处理方法、装置、电子设备和可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101345627A (zh) * | 2008-08-12 | 2009-01-14 | 中国科学院软件研究所 | 一种p2p网络中基于行为相似度的共谋团体识别方法 |
CN102202012A (zh) * | 2011-05-30 | 2011-09-28 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的社团划分方法与系统 |
CN102855638A (zh) * | 2012-08-13 | 2013-01-02 | 苏州大学 | 基于谱聚类的车辆异常行为检测方法 |
CN103095711A (zh) * | 2013-01-18 | 2013-05-08 | 重庆邮电大学 | 一种针对网站的应用层DDoS攻击检测方法和防御系统 |
CN103150678A (zh) * | 2013-03-12 | 2013-06-12 | 中国科学院计算技术研究所 | 微博中用户间潜在关注关系的发现方法及装置 |
CN105099799A (zh) * | 2014-05-05 | 2015-11-25 | 华为技术有限公司 | 僵尸网络检测方法和控制器 |
US20150363699A1 (en) * | 2014-06-16 | 2015-12-17 | Mitsubishi Electric Research Laboratories, Inc. | Method for Anomaly Detection in Time Series Data Based on Spectral Partitioning |
-
2016
- 2016-05-05 CN CN201610292648.XA patent/CN105812280B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101345627A (zh) * | 2008-08-12 | 2009-01-14 | 中国科学院软件研究所 | 一种p2p网络中基于行为相似度的共谋团体识别方法 |
CN102202012A (zh) * | 2011-05-30 | 2011-09-28 | 中国人民解放军总参谋部第五十四研究所 | 通信网络的社团划分方法与系统 |
CN102855638A (zh) * | 2012-08-13 | 2013-01-02 | 苏州大学 | 基于谱聚类的车辆异常行为检测方法 |
CN103095711A (zh) * | 2013-01-18 | 2013-05-08 | 重庆邮电大学 | 一种针对网站的应用层DDoS攻击检测方法和防御系统 |
CN103150678A (zh) * | 2013-03-12 | 2013-06-12 | 中国科学院计算技术研究所 | 微博中用户间潜在关注关系的发现方法及装置 |
CN105099799A (zh) * | 2014-05-05 | 2015-11-25 | 华为技术有限公司 | 僵尸网络检测方法和控制器 |
US20150363699A1 (en) * | 2014-06-16 | 2015-12-17 | Mitsubishi Electric Research Laboratories, Inc. | Method for Anomaly Detection in Time Series Data Based on Spectral Partitioning |
Non-Patent Citations (2)
Title |
---|
张震: "《基于流量测量的高速IP业务感知技术研究》", 《中国博士学位论文全文数据库(电子期刊)信息科技辑》 * |
张震等: "《互联网中基于用户连接图的流量分类机制》", 《电子与信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106789346A (zh) * | 2017-01-22 | 2017-05-31 | 中国人民解放军信息工程大学 | 一种基于用户连接图的深度行为关联方法 |
CN107358265A (zh) * | 2017-07-17 | 2017-11-17 | 南京华苏科技有限公司 | 基于谱聚类的外来常住人口识别方法 |
CN110826311A (zh) * | 2020-01-13 | 2020-02-21 | 支付宝(杭州)信息技术有限公司 | 对象识别方法以及装置 |
CN110826311B (zh) * | 2020-01-13 | 2020-05-05 | 支付宝(杭州)信息技术有限公司 | 对象识别方法以及装置 |
CN113364703A (zh) * | 2021-06-03 | 2021-09-07 | 中国电信股份有限公司 | 网络应用流量的处理方法、装置、电子设备和可读介质 |
CN113364703B (zh) * | 2021-06-03 | 2023-08-08 | 天翼云科技有限公司 | 网络应用流量的处理方法、装置、电子设备和可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105812280B (zh) | 2019-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khare et al. | Big data in IoT | |
US11627517B2 (en) | Network provisioning | |
Alshammari et al. | Identification of VoIP encrypted traffic using a machine learning approach | |
US9621431B1 (en) | Classification techniques to identify network entity types and determine network topologies | |
Boshmaf et al. | Graph-based sybil detection in social and information systems | |
US9600494B2 (en) | Line rate visual analytics on edge devices | |
CN105812280A (zh) | 一种分类方法及电子设备 | |
CN112822189A (zh) | 一种流量识别方法及装置 | |
CN115510936A (zh) | 基于联邦学习的模型训练方法及聚类分析器 | |
CN115686868A (zh) | 一种基于联邦哈希学习的面向跨节点多模态检索方法 | |
Jenefa et al. | A multi-phased statistical learning based classification for network traffic | |
CN114401516A (zh) | 一种基于虚拟网络流量分析的5g切片网络异常检测方法 | |
Ding et al. | Internet traffic classification based on expanding vector of flow | |
CN112468324B (zh) | 基于图卷积神经网络的加密流量分类方法及装置 | |
WO2021052439A1 (zh) | 一种管理网络的方法和一种网管系统 | |
Pasteris et al. | Data distribution and scheduling for distributed analytics tasks | |
CN113726809B (zh) | 基于流量数据的物联网设备识别方法 | |
Zhukova et al. | IoT data collection based on social network models | |
de Souza et al. | Network traffic classification using AdaBoost dynamic | |
CN113872784A (zh) | 网络配置的验证方法和装置 | |
Huang et al. | Data-driven clustering in ad-hoc networks based on community detection | |
Roeling et al. | Stochastic block models as an unsupervised approach to detect botnet-infected clusters in networked data | |
Munther et al. | Active build-model random forest method for network traffic classification | |
CN115242716A (zh) | 一种基于bgp前缀树的ip地址路由可达性识别方法 | |
CN116244700A (zh) | 一种针对边缘计算中雾节点的信任管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |