CN104283737B - 数据流的处理方法和装置 - Google Patents

数据流的处理方法和装置 Download PDF

Info

Publication number
CN104283737B
CN104283737B CN201410524517.0A CN201410524517A CN104283737B CN 104283737 B CN104283737 B CN 104283737B CN 201410524517 A CN201410524517 A CN 201410524517A CN 104283737 B CN104283737 B CN 104283737B
Authority
CN
China
Prior art keywords
cluster
data
clustering
clustering cluster
cluster set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410524517.0A
Other languages
English (en)
Other versions
CN104283737A (zh
Inventor
涂丹丹
张友华
庄仕岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Hangzhou Huawei Digital Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huawei Digital Technologies Co Ltd filed Critical Hangzhou Huawei Digital Technologies Co Ltd
Priority to CN201410524517.0A priority Critical patent/CN104283737B/zh
Publication of CN104283737A publication Critical patent/CN104283737A/zh
Application granted granted Critical
Publication of CN104283737B publication Critical patent/CN104283737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Complex Calculations (AREA)

Abstract

本发明实施例提供一种数据流的处理方法和装置,该处理方法包括:在采样时刻对网络中的数据流进行采样,获得第一数据;根据第一数据,确定第一数据的第一特征向量;若根据聚类簇集合和第一特征向量,确定数据流不为异常流,则根据聚类簇集合对第一特征向量进行聚类分析,获得新的聚类簇集合,并返回执行所述在采样时刻对网络中的数据流进行采样;其中,聚类簇集合中簇的个数与新的聚类簇集合中簇的个数不相同;本发明实施例提供的数据流的处理方法和装置,由于用于确定数据流是否为异常流的聚类簇集合是实时更新的,且聚类簇集合中簇的个数也是实时变化的,可提高对数据流判断的准确性。

Description

数据流的处理方法和装置
技术领域
本发明实施例涉及网络技术领域,尤其涉及一种数据流的处理方法和装置。
背景技术
在网络故障或者网络受到恶意攻击时,网络中会出现异常流,这些异常流会消耗网络带宽,耗费网络设备的处理时间,导致用户不能正常使用网络提供的服务与应用,使得网络的服务质量降低,因此需要对网络中的数据流实时的进行检测,以及时发现异常流而进行警报。
通常来说,对网络中的数据流实时采样,通过比对实时采样获得的数据和已建立的数据模型,判断网络中的数据流是否为异常流;其中数据模型是根据正常数据流中的数据建立的,则可以理解的,若采样获得的数据的特征与已建立的数据模型之间的差异过大(例如采样获得的数据的特征与已建立的数据模型的匹配度低于预设值),则可确定数据流为异常流。
但本领域技术人员在采用上述方法检测网络中的异常流时发现,网络服务的内容是不断变化的,则网络中正常数据流中的数据所具备的特征也是不断在变化的,但是上述已建立的数据模型不能实时地适应网络中数据流的变化,导致对网络中异常流进行检测时,容易出现误判、漏判等情况。
发明内容
本发明实施例提供一种数据流的处理方法和装置,用于提高对网络中异常流的判断的准确性。
第一方面,本发明实施例提供一种数据流的处理方法,包括:
在采样时刻对网络中的数据流进行采样,获得第一数据;
根据所述第一数据,确定所述第一数据的第一特征向量;
若根据聚类簇集合和所述第一特征向量,确定所述数据流不为异常流,则根据所述聚类簇集合对所述第一特征向量进行聚类分析,获得新的聚类簇集合,并返回执行所述在采样时刻对网络中的数据流进行采样;
其中,所述聚类簇集合中簇的个数与所述新的聚类簇集合中簇的个数不相同。
结合第一方面,在第一实施方式中,还包括:
结合所述第一数据和在所述采样时刻之前获得的数据,确定数据样本;
根据所述数据样本,对所述采样时刻所依照的采样频率进行调整,获得适配所述网络的采样频率;
根据所述采样时刻和所述适配所述网络的采样频率,确定新的采样时刻。
结合第一方面或第一方面第一实施方式,在第二实施方式中,根据所述聚类簇集合对所述第一特征向量进行聚类分析,获得新的聚类簇集合,包括:
在所述聚类簇集合中确定与所述第一特征向量距离最短的第一簇,并将所述第一特征向量添加至所述第一簇中,以使所述聚类簇中的第一簇更新,获得更新后的第一簇;
在所述聚类簇集合中确定与所述更新后的第一簇距离最短的第二簇;
根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理或拆分处理;
当确定对所述聚类簇集合进行合并处理,则将所述聚类簇集合中的所述更新后的第一簇和所述第二簇合并,获得新的聚类簇集合;
当确定对所述聚类簇集合进行拆分处理,则将所述聚类簇集合中的所述更新后的第一簇拆分,获得新的聚类簇集合。
结合第一方面至第一方面第二实施方式中任意一种实施方式,在第三实施方式中,所述根据聚类簇集合和所述第一特征向量,确定所述数据流不为异常流,包括:
判断所述第一特征向量与所述聚类簇集合中各个簇的平均距离是否均大于预设阈值;
若否,确定所述数据流不为异常流。
结合第一方面第二实施方式,在第四实施方式中,所述根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理或拆分处理,包括:
根据更新后的第一簇和所述第二簇,获得包括更新后的第一簇中的各个特征向量和所述第二簇中各个特征向量的样本向量集合;
计算所述样本向量集合的均方差;
若所述均方差小于预设的拆分值,则确定对所述聚类簇集合进行合并处理。
若所述均方差大于预设的拆分值,则确定对所述聚类簇集合进行拆分处理。
结合第一方面至第一方面第四实施方式中任意一种实施方式,在第五实施方式中,根据所述第一数据,确定所述第一数据的第一特征向量,包括:
根据所述第一数据,确定所述第一数据对应的原始特征向量;
对所述原始特征向量进行降维处理,获得所述第一特征向量。
第二方面,本发明实施例提供一种数据流的处理装置,包括:
采样模块,用于在采样时刻对网络中的数据流进行采样,获得第一数据;
分析模块,用于根据所述第一数据,确定所述第一数据的第一特征向量;
处理模块,用于若根据聚类簇集合和所述第一特征向量,确定所述数据流不为异常流,则根据所述聚类簇集合对所述第一特征向量进行聚类分析,获得新的聚类簇集合,并返回执行所述在采样时刻对网络中的数据流进行采样;
其中,所述聚类簇集合中簇的个数与所述新的聚类簇集合中簇的个数不相同。
结合第二方面,在第一实施方式中,还包括:
调整模块,用于结合所述第一数据和在所述采样时刻之前获得的数据,确定数据样本;
根据所述数据样本,对所述采样时刻所依照的采样频率进行调整,获得适配所述网络的采样频率;
根据所述采样时刻和所述适配所述网络的采样频率,确定新的采样时刻。
结合第二方面或第二方面第一实施方式,在第二实施方式中,所述处理模块具体用于
在所述聚类簇集合中确定与所述第一特征向量距离最短的第一簇,并将所述第一特征向量添加至所述第一簇中,以使所述聚类簇中的第一簇更新,获得更新后的第一簇;
在所述聚类簇集合中确定与所述更新后的第一簇距离最短的第二簇;
根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理或拆分处理;
当确定对所述聚类簇集合进行合并处理,则将所述聚类簇集合中的所述更新后的第一簇和所述第二簇合并,获得新的聚类簇集合;
当确定对所述聚类簇集合进行拆分处理,则将所述聚类簇集合中的所述更新后的第一簇拆分,获得新的聚类簇集合。
结合第二方面至第二方面第二实施方式中任意一种实施方式,在第三实施方式中,所述处理模块具体用于
判断所述第一特征向量与所述聚类簇集合中各个簇的平均距离是否均大于预设阈值;
若否,确定所述数据流不为异常流。
结合第二方面第二实施方式,在第四实施方式中,所述处理模块具体用于根据更新后的第一簇和所述第二簇,获得包括更新后的第一簇中的各个特征向量和所述第二簇中各个特征向量的样本向量集合;
计算所述样本向量集合的均方差;
若所述均方差小于预设的拆分值,则确定对所述聚类簇集合进行合并处理;
若所述均方差大于预设的拆分值,则确定对所述聚类簇集合进行拆分处理。
结合第二方面至第二方面第四实施方式中任意一种实施方式,在第五实施方式中,所述分析模块具体用于根据所述第一数据,确定所述第一数据对应的原始特征向量;
对所述原始特征向量进行降维处理,获得所述第一特征向量。
本发明实施例提供的数据流的处理方法和装置,由于用于确定数据流是否为异常流的聚类簇集合是实时更新的,且聚类簇集合中簇的个数也是实时变化的,则本实施例在检测数据流是否为异常流时,避免了因簇中特征向量越来越多,导致根据聚类簇集合不能准确判断数据流是否为异常流的情况,从而提高了判断数据流是否为异常流的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据流的处理方法实施例一的流程示意图;
图2为本发明数据流的处理方法实施例二的流程示意图;
图3为本发明数据流的处理装置实施例一的结构示意图;
图4为本发明数据流的处理装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明数据流的处理方法实施例一的流程示意图。如图1所示,本实施例的执行主体为数据流的处理装置,该处理装置可以采用软件和/或硬件的方式实现,较优的,该处理装置集成在网络中的交换机节点上,具体的,本实施例包括:
S101、在采样时刻对网络中的数据流进行采样,获得第一数据;
较优的,本实施例中上述交换机节点位于SDC(Software Defined Network,软件定义网络)架构中,由于SDN架构中通过核心技术OpenFlow,将网络中网络设备的控制平面与数据的转发平面分离开来,从而实现了网络流量的灵活控制,因此本实施例中集成在交换机节点中的处理装置可对全网络中的数据流进行全面控制,利于及时、准确的检测出异常流。
上述采样时刻是依照采样频率而确定的,例如处理装置在t1时刻开始工作并确定采样频率为5,则采样间隔为0.2,而(t1+0.2)时刻即为一个采样时刻,随后(t1+0.4)时刻也为一个采样时刻,以此类推,每间隔0.2s为一个采样时刻;
在客观时间范畴上,当前时刻为采样时刻(t1+0.2),从而在采样时刻通过采样获得的数据即为上述第一数据;上述“第一”为相对概念,即随着客观时间推移,新的当前时刻为(t1+0.4s)时,即在客观时间范畴上时间到达新的采样时刻,则在新的采样时刻(t1+0.4)采样获得的数据即为新的第一数据。
S102、根据第一数据,确定第一数据的第一特征向量;
通常可以通过归一化等处理方法,将数据处理为一个特征向量,该特征向量中的各个元素为可以反映该数据的属性或特征的特征值,例如数据的特征向量中,某个特征值可以表示该数据的数据量的大小;当特征向量中包括的元素越多,即反映数据的特征越多,从而根据该数据的特征向量判断数据流是否为异常流的准确率越高;具体的,在某个采样时刻,交换机节点对网络中的数据流进行采样,会获得该数据流中的数据;通常数据在网络中传输时,是以数据包的形式被传输,因此对网络中的数据流进行采样而获得的数据通常为一个数据包,则可使用该数据包的IP包中的四元组作为该数据包的特征向量中的四个元素。
S103、若根据聚类簇集合和第一特征向量,确定数据流不为异常流,则根据聚类簇集合对第一特征向量进行聚类分析,获得新的聚类簇集合;并返回执行S101。
其中,聚类簇集合包括至少一个簇,至少一个簇是通过对在所述采样时刻之前获得的数据的特征向量进行聚类分析而生成的;
具体的,在一个采样时刻之前,处理装置通过有限次地采样获得了多个数据,并对这些数据进行聚类,从而得到包括至少一个簇的聚类簇集合,也就是说,对一些数据的特征向量按照其特征值所表示的特征进行分类,将具有相同或相近特征的特征向量分为同一类,即具有相同或相近特征的特征向量构成一个簇;例如在t1时刻通过采样获取了第一数据,并将该第一数据的特征向量添加至聚类簇集合中,则在(t1+0.2)时刻,再次采样获得了相对(t1+0.2)时刻来说的第一数据,则对于(t1+0.2)时刻来说,t1时刻采样获得的数据即为采样时刻(t1+0.2)时刻之前获得的数据,且t1时刻采样获得的数据的特征向量则为采样时刻(t1+0.2)时刻之前获得的数据的特征向量,可以理解的,若对于(t1+0.2)时刻来说的第一特征向量被添加至聚类簇集合中,则随着客观时间的推移,在下一个采样时刻(t1+0.4)时采样获得的数据则为新的第一数据,且下一个采样时刻(t1+0.4)时采样获得的数据的特征向量为新的第一特征向量;
由于聚类簇集合中,位于同一个簇中的特征向量是具有相同或相近的特征,则本实施例中通过比较第一特征向量与各个簇中各个特征向量,根据第一特征向量与各个簇中各个特征向量的差异度,确定该第一特征向量对应的第一数据所在的数据流是否是异常流;
假设当前网络遭到黑客攻击,网络中的数据流为异常流,则本实施例的处理装置在采样时刻执行前述S101和S102,获得第一特征向量,则该特征向量的特征必然与由正常数据流中的数据的特征向量构成的簇的差异较大,则本实施例的处理装置可以判定当前时刻网络中的数据流为异常流;
进一步的,网络中的数据流是实时变化的,例如正常数据流中数据具备的特征值也是随时间而变化的,聚类簇集合需要实时更新,以获得更全面反映正常数据流的特征,具体如在采样时刻(t1+0.2),依次执行上述S101~S103后,获得的新的聚类簇集合,随后在新的采样时刻(t1+0.4),返回执行S101,获得相对于采样时刻(t1+0.4)来说的第一数据,随后执行S102得到第一数据的第一特征向量;由于此时采用的聚类簇集合中包括相对于采样时刻(t1+0.2)的第一特征向量,即该聚类簇集合已实时更新,则根据该聚类簇集合和相对于采样时刻(t1+0.4)来说的第一特征向量,可准确确定网络中的数据流是否为异常流;进一步的,本实施例还考虑到根据聚类簇集合和第一特征向量确定数据流为正常数据流后,便将第一特征向量添加至聚类簇集合中的某个簇中,则随着各个簇中特征向量越来越多,导致聚类簇集合中各个簇之间的距离越来越小,则可能的,在随后的采样时刻,由于通过聚类分析不能准确确定第一特征向量可归于某一个簇,则有可能将该正常数据流误判为异常流;也就是说,若聚类簇集合中簇的个数不实时改变,则随着簇中特征向量越来越多,根据该聚类簇集合不能准确判断数据流是否为异常流,容易出现误判或漏判的情况,因此本实施例中聚类簇集合中簇的个数也是实时变化的,即聚类簇集合中簇的个数与新的聚类簇集合中簇的个数不相同。
本实施例中,用于确定数据流是否为异常流的聚类簇集合是实时更新的,且聚类簇集合中簇的个数也是实时变化的,则本实施例在检测数据流是否为异常流时,避免了因簇中特征向量越来越多,导致根据聚类簇集合不能准确判断数据流是否为异常流的情况,从而提高了对数据流判断的准确性。
图2为本发明数据流的处理方法实施例二的流程示意图。如图2所示,本实施例是在图1所示的实施例的基础上,作出进一步的描述,具体包括:
S201、在采样时刻对网络中的数据流进行采样,获得第一数据。
S202、根据第一数据,确定第一数据的第一特征向量。
可选的,实际应用中执行S202后继续执行S206,但本实施例考虑到网络中数据流是随时间实施变化的,即不同时刻,数据流的流量、各特征值是不同的,而在网络中数据流随时间变化较小时,即使以较低的采样频率对数据流采样,获得的数据也可真实反映网络中数据流的情况,因此可以降低采样频率以减低处理装置的采样负荷;而在网络中数据流随时间变化较大时,需要适量的提高采样频率,以使采样获得的数据可真实反映当前时刻数据流的情况;较优的,在本实施例在依次执行S202、S206~S214的同时,还执行下述S203,以对S201中采样时刻所依照的采样频率进行调整,例如上述S201中依照采样频率5,在采样时刻(t1+0.2)时采样获得第一数据,若仍然依照采样频率5,则新的采样时刻为(t1+0.4),但本实施例通过S203~S205,对采样频率5进行调整,得到适配网络的采样频率10,则根据采样频率10和前述采样时刻(t1+0.2),则可确定新的采样时刻为(t1+0.2+0.1);具体过程如下:。
S203、结合第一数据和在采样时刻之前获得的数据,确定数据样本。
具体的,采样时刻(t1+0.2)获得第一数据A,而在采样时刻(t1+0.2)之前通过各次采样获得的数据为B、C、D;则A、B、C、D构成了数据样本;
S204、根据数据样本,对所述采样时刻所依照的采样频率进行调整,获得适配所述网络的采样频率。
当在采样时刻(t1+0.2)网络中数据流相对于在采样时刻(t1+0.2)之前的数据流来说,其变化较小,则数据样本中的各个数据会服从或近似服从某个分布特征(如正太分布),当数据样本中的各个数据不服从该分布特征时,则说明在采样时刻(t1+0.2)网络中数据流相对于在采样时刻(t1+0.2)之前的数据流来说,发生了交大的变化;
举例来说,可以对数据样本中各个数据的各个特征向量中表示数据量大小的特征值进行分析,则可确定数据样本中各个数据服从的分布特征是否为正太分布;若服从正太分布,则说明网络中数据流的变化比较平稳,可以采用较低的采样频率(具体为预设的低采样频率);若不服从正太分布,则说明网络中数据流的变化比较大,需要采用较高的采样频率(具体为预设的高采样频率),以使采样获得的数据与数据流的真实变化趋势保持一致;可以理解的,数据流的变化趋势不可准确确定,因此根据数据样本发现网络中数据流的变化较大时,只有通过较高的采样频率,对数据流进行尽量多的采样,则获得的数据才能与数据流的真实变化趋势保持一致,也就是说,网络中数据流的变化较大时,较高的采样频率适配该网络。
S205、根据所述采样时刻和所述适配所述网络的采样频率,确定新的采样时刻。
本实施例开始实施时,采样频率5为5,但通过上述S204进行调整,得到适配网络的采样频率10,则执行S205,根据采样频率10和前述采样时刻(t1+0.2),则可确定新的采样时刻为(t+0.2+0.1);随后随着客观时间的推移,时间到达S205中确定的新的采样时刻时,由S201重新开始实施本实施例。
本实施例中通过S203~S205,可以实时的根据网络中数据流的变化,自适应调整采样频率,从而随着自适应调整的采样频率,在采样时刻获取的数据可及时反映网络中数据流的情况,利于使处理装置对网络中异常流的检测的及时性、准确率趋于较高的水平。
S206、判断第一特征向量与所述聚类簇集合中各个簇的平均距离是否大于预设阈值;若是,执行S207;若否,执行S208。
需要在此说明的是,本实施例中聚类簇集合中各个簇中的特征向量是正常数据流中数据的特征向量,可以在实施本实施例之前,采集网络中正常数据流中的数据,并根据正常数据流中数据的特征向量,建立初始聚类簇集合;随后在作为采样时刻的当前时刻采样获得第一数据,并通过S206确定第一数据的第一特征向量与聚类簇集合中各个簇的平均距离大于预设阈值,则可说明第一特征向量与聚类簇集合中的特征向量的差异度较大,当前时刻网络中的数据流为异常流,则执行S207;若通过S206确定第一数据的第一特征向量与聚类簇集合中各个簇的平均距离小于预设阈值,则可说明第一特征向量与聚类簇集合中的特征向量的差异度较小,当前时刻网络中的数据流为正常数据流,并执行S208;
执行S206的具体方法多样,本实施例中可以具体可以采用公式执行S206,其中diff为平均距离,n为聚类簇中簇的个数,μk为第k个簇的中心点(簇的中心点是根据簇中的特征向量确定的),k为1~n中任意一个数,ο为上述第一特征向量,“||”表示向量的模,σ为聚类簇集合中全部簇的均方差。
S207、进行异常流量警报。
S208、在所述聚类簇集合中确定与所述第一特征向量距离最短的第一簇,并将所述第一特征向量添加至所述第一簇中,以使所述聚类簇中的第一簇更新,获得更新后的第一簇。
具体的,使用各个簇的中心点来确定与第一特征向量距离最短的第一簇;例如聚类簇集合中包括簇C1、簇C2和簇C3,簇C1的中心点为μ1,簇C2的中心点为μ2,簇C3的中心点为μ3,则比较|μ1-ο|、|μ2-ο|和|μ3-ο|的大小,例如|μ1-ο|的值为三者中的最小值,则第一簇为簇C1
在S208之前,簇C1具体为[α123],α123均为簇C1中的3个特征向量,则执行S208后,对簇C1更新后得到簇C1′,簇C1′具体为[α123,ο]。
现有技术中,进行聚类时是不改变聚类簇中簇的个数,而在本实施例中,为了使处理装置根据聚类簇集合准确确定数据流是否为异常流,则根据更新后的第一簇和与所述更新后的第一簇距离最短的第二簇,确定将更新后的第一簇和所述第二簇合并,或者将更新后的第一簇进行拆分,具体如下:
S209、在所述聚类簇集合中确定与所述更新后的第一簇距离最短的第二簇。
具体的,比较|μ21|和|μ31|的大小,例如|μ21|大于|μ31|,则第二簇为簇C2
S210、根据更新后的第一簇和所述第二簇,获得包括更新后的第一簇中的各个特征向量和所述第二簇中各个特征向量的样本向量集合。
举例来说,簇C1′具体为[α123,ο],簇C2具体为[β12],则样本向量集合为[α123,ο,β12]。
S211、计算所述样本向量集合中各个特征向量的均方差。
S212、判断样本向量集合的均方差是否大于预设的拆分值;若否,则执行S213;若是,则执行S214。
S213、将所述聚类簇集合中的所述更新后的第一簇和所述第二簇合并,获得新的聚类簇集合。
通过上述S210~S212,当根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理,则将所述聚类簇集合中的所述更新后的第一簇和所述第二簇合并,获得新的聚类簇集合;具体的,根据更新后的第一簇和所述第二簇所得到的样本向量集合的均方差不大于预设的拆分值时,则说明更新后的第一簇和所述第二簇内的特征向量的特征相近,可以合并为一个簇,即将[α123,ο,β12]作为一个簇,对聚类簇集合实现了更新。
S214、将更新后的第一簇进行拆分为两个簇。
通过上述S210~S212,当根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行拆分处理,则将所述聚类簇集合中的所述更新后的第一簇拆分,获得新的聚类簇集合;具体的,根据更新后的第一簇和所述第二簇所得到的样本向量集合的均方差大于预设的拆分值,则说明更新后的第一簇中各个特征向量之间的差异较大,需将更新后的第一簇拆分为两个簇。
可以采取多种方法对簇进行拆分,本实施例中下述拆分方法仅用于说明拆分过程,在实际应用中并不以此拆分方法为限制,具体包括:
S1、将更新后的第一簇划分为第一临时簇和第二临时簇;
其中第一临时簇中的特征向量与上述第一簇(也可以说是更新前的第一簇)的特征向量相同,第二临时簇中包括上述第一特征向量,即第一临时簇为[α123],第二临时簇为[ο]。
S2、获取第一临时簇中每一个特征向量对应的第一距离和第二距离;
第一距离是第一临时簇中任意一个特征向量与第一临时簇的中心点的距离,第二距离是该特征向量与第二临时簇的中心点的距离;以第一临时簇中的α1示例,由于第一临时簇中的特征向量与所述第一簇的特征向量相同,第二临时簇中仅包括第一特征向量,则α1对应的第一距离即为|α11|,α1对应的第二距离即为|α1-ο|。
S3、若第一临时簇中存在对应的第一距离大于对应的第二距离的特征向量,则将所述对应的第一距离大于对应的第二距离的特征向量移动至第二临时簇中,获得移动后的第一临时簇和移动后的第二临时簇。
即将上述更新后的第一簇拆分为移动后的第一临时簇和移动后的第二临时簇。
例如α1对应的第一距离即为|α11|,α1对应的第二距离即为|α1-ο|,α2对应的第一距离即为|α21|,α1对应的第二距离即为|α2-ο|;α3对应的第一距离即为|α31|,α3对应的第二距离即为|α3-ο|;
若|α11|>|α1-ο|,而|α21|<|α2-ο|,|α31|<|α3-ο|,则将α1移动至第二临时簇[ο]中,得到移动后的第二临时簇[α1,ο],则移动后的第一临时簇为[α23]。
在执行完S213或S214后,客观时间到达下一个采样时刻,则返回执行S201;由于本实施例中执行了S203~S205,则客观时间到达的下一个采样时刻是由S205中确定的新的采样时刻。
另外需要补充说明的是,考虑到处理装置的数据处理能力,上述S202的一种可选的实现方式如下:
C1、根据所述第一数据,确定所述第一数据对应的原始特征向量;
即利用归一化处理,将第一数据处理为可量化的各个原始特征值,各个原始特征值构成原始特征向量;
C2、对所述原始特征向量进行降维处理,获得所述第一特征向量。
但为了计算简便,对原始特征向量降维,获得所述第一特征向量;具体的,原始特征向量的维度大于第一特征向量,可利用PCA(Principal Component Analysis,主成分分析)算法提取原始特征向量中反映第一数据主要特征的原始特征值,则反映第一数据主要特征的原始特征值构成第一特征向量;
或者也可以理解为,当原始特征向量的维度为处理装置可处理的维度,则C2的降维处理是去除了原始特征向量的0个维度,也就是说将原始特征向量直接作为第一特征向量。
本实施例中,每一次根据采样获得的数据的特征向量和聚类簇集合判断数据流是否为异常流时,该聚类簇集合已实时更新,可准确判断数据流是否为异常流;且聚类簇集合中簇的个数也是实时变化的,则本实施例在检测数据流是否为异常流时,避免了因簇中特征向量越来越多,导致根据聚类簇集合不能准确判断数据流是否为异常流的情况,从而提高了对数据流判断的准确性。
图3为本发明数据流的处理装置实施例一的结构示意图。如图3所示,包括:
采样模块31,用于在采样时刻对网络中的数据流进行采样,获得第一数据;
分析模块32,用于根据所述第一数据,确定所述第一数据的第一特征向量;
处理模块33,用于若根据聚类簇集合和所述第一特征向量,确定所述数据流不为异常流,则根据所述聚类簇集合对所述第一特征向量进行聚类分析,获得新的聚类簇集合,并返回执行所述在采样时刻对网络中的数据流进行采样;
其中,所述聚类簇集合中簇的个数与所述新的聚类簇集合中簇的个数不相同。
本实施例中,每一次根据采样获得的数据的特征向量和聚类簇集合判断数据流是否为异常流时,该聚类簇集合已实时更新,可准确判断数据流是否为异常流;且聚类簇集合中簇的个数也是实时变化的,则本实施例在检测数据流是否为异常流时,避免了因簇中特征向量越来越多,导致根据聚类簇集合不能准确判断数据流是否为异常流的情况,从而提高了对数据流判断的准确性。
图4为本发明数据流的处理装置实施例二的结构示意图。如图4所示,本实施例是在图3所示的实施例的基础上做出进一步的描述,包括:
调整模块34,用于结合所述第一数据和在所述采样时刻之前获得的数据,确定数据样本;
根据所述数据样本,对所述采样时刻所依照的采样频率进行调整,获得适配所述网络的采样频率;
根据所述采样时刻和所述适配所述网络的采样频率,确定新的采样时刻。
进一步的,所述处理模块33具体用于
在所述聚类簇集合中确定与所述第一特征向量距离最短的第一簇,并将所述第一特征向量添加至所述第一簇中,以使所述聚类簇中的第一簇更新,获得更新后的第一簇;
在所述聚类簇集合中确定与所述更新后的第一簇距离最短的第二簇;
当根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理,则将所述聚类簇集合中的所述更新后的第一簇和所述第二簇合并,获得新的聚类簇集合;
当根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行拆分处理,则将所述聚类簇集合中的所述更新后的第一簇拆分,获得新的聚类簇集合。
进一步的,所述处理模块33具体用于
判断所述第一特征向量与所述聚类簇集合中各个簇的平均距离是否均大于预设阈值;
若否,确定所述数据流不为异常流。
进一步的,所述处理模块33具体用于根据更新后的第一簇和所述第二簇,获得包括更新后的第一簇中的各个特征向量和所述第二簇中各个特征向量的样本向量集合;
计算所述样本向量集合的均方差;
若所述均方差小于预设的拆分值,则确定对所述聚类簇集合进行合并处理。
进一步的,所述处理模块33具体用于根据更新后的第一簇和所述第二簇,获得包括更新后的第一簇中的各个特征向量和所述第二簇中各个特征向量的样本向量集合;
计算所述样本向量集合的均方差;
若所述均方差大于预设的拆分值,则确定对所述聚类簇集合进行拆分处理。
进一步的,所述分析模块32具体用于根据所述第一数据,确定所述第一数据对应的原始特征向量;
对所述原始特征向量进行降维处理,获得所述第一特征向量。
本实施例中,每一次根据采样获得的数据的特征向量和聚类簇集合判断数据流是否为异常流时,该聚类簇集合已实时更新,可准确判断数据流是否为异常流;且聚类簇集合中簇的个数也是实时变化的,则本实施例在检测数据流是否为异常流时,避免了因簇中特征向量越来越多,导致根据聚类簇集合不能准确判断数据流是否为异常流的情况,从而提高了对数据流判断的准确性。
需要说明的是,上述各个装置实施例中的各个模块与前述各个方法实施例中的各个步骤相对应,则各个模块的具体的工作过程及技术效果可参考前述各个方法实施例。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据流的处理方法,其特征在于,包括:
在采样时刻对网络中的数据流进行采样,获得第一数据;
根据所述第一数据,确定所述第一数据的第一特征向量;
若根据聚类簇集合和所述第一特征向量,确定所述数据流不为异常流,则根据所述聚类簇集合对所述第一特征向量进行聚类分析,获得新的聚类簇集合,并返回执行所述在采样时刻对网络中的数据流进行采样;
其中,所述聚类簇集合中簇的个数与所述新的聚类簇集合中簇的个数不相同;
所述根据所述聚类簇集合对所述第一特征向量进行聚类分析,获得新的聚类簇集合,包括:
在所述聚类簇集合中确定与所述第一特征向量距离最短的第一簇,并将所述第一特征向量添加至所述第一簇中,以使所述聚类簇中的第一簇更新,获得更新后的第一簇;
在所述聚类簇集合中确定与所述更新后的第一簇距离最短的第二簇;
根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理或拆分处理;
当确定对所述聚类簇集合进行合并处理,则将所述聚类簇集合中的所述更新后的第一簇和所述第二簇合并,获得新的聚类簇集合;
当确定对所述聚类簇集合进行拆分处理,则将所述聚类簇集合中的所述更新后的第一簇拆分,获得新的聚类簇集合。
2.根据权利要求1所述的处理方法,其特征在于,还包括:
结合所述第一数据和在所述采样时刻之前获得的数据,确定数据样本;
根据所述数据样本,对所述采样时刻所依照的采样频率进行调整,获得适配所述网络的采样频率;
根据所述采样时刻和所述适配所述网络的采样频率,确定新的采样时刻。
3.根据权利要求1所述的处理方法,其特征在于,所述根据聚类簇集合和所述第一特征向量,确定所述数据流不为异常流,包括:
判断所述第一特征向量与所述聚类簇集合中各个簇的平均距离是否均大于预设阈值;
若否,确定所述数据流不为异常流。
4.根据权利要求1所述的处理方法,其特征在于,所述根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理或拆分处理,包括:
根据更新后的第一簇和所述第二簇,获得包括更新后的第一簇中的各个特征向量和所述第二簇中各个特征向量的样本向量集合;
计算所述样本向量集合的均方差;
若所述均方差小于预设的拆分值,则确定对所述聚类簇集合进行合并处理;
若所述均方差大于预设的拆分值,则确定对所述聚类簇集合进行拆分处理。
5.根据权利要求1~4任一项所述的处理方法,其特征在于,根据所述第一数据,确定所述第一数据的第一特征向量,包括:
根据所述第一数据,确定所述第一数据对应的原始特征向量;
对所述原始特征向量进行降维处理,获得所述第一特征向量。
6.一种数据流的处理装置,其特征在于,包括:
采样模块,用于在采样时刻对网络中的数据流进行采样,获得第一数据;
分析模块,用于根据所述第一数据,确定所述第一数据的第一特征向量;
处理模块,用于若根据聚类簇集合和所述第一特征向量,确定所述数据流不为异常流,则根据所述聚类簇集合对所述第一特征向量进行聚类分析,获得新的聚类簇集合,并返回执行所述在采样时刻对网络中的数据流进行采样;
其中,所述聚类簇集合中簇的个数与所述新的聚类簇集合中簇的个数不相同;
所述处理模块具体用于:
在所述聚类簇集合中确定与所述第一特征向量距离最短的第一簇,并将所述第一特征向量添加至所述第一簇中,以使所述聚类簇中的第一簇更新,获得更新后的第一簇;
在所述聚类簇集合中确定与所述更新后的第一簇距离最短的第二簇;
根据更新后的第一簇和所述第二簇,确定对所述聚类簇集合进行合并处理或拆分处理;
当确定对所述聚类簇集合进行合并处理,则将所述聚类簇集合中的所述更新后的第一簇和所述第二簇合并,获得新的聚类簇集合;
当确定对所述聚类簇集合进行拆分处理,则将所述聚类簇集合中的所述更新后的第一簇拆分,获得新的聚类簇集合。
7.根据权利要求6所述的处理装置,其特征在于,还包括:
调整模块,用于结合所述第一数据和在所述采样时刻之前获得的数据,确定数据样本;
根据所述数据样本,对所述采样时刻所依照的采样频率进行调整,获得适配所述网络的采样频率;
根据所述采样时刻和所述适配所述网络的采样频率,确定新的采样时刻。
8.根据权利要求6所述的处理装置,其特征在于,所述处理模块具体用于
判断所述第一特征向量与所述聚类簇集合中各个簇的平均距离是否均大于预设阈值;
若否,确定所述数据流不为异常流。
9.根据权利要求6所述的处理装置,其特征在于,所述处理模块具体用于根据更新后的第一簇和所述第二簇,获得包括更新后的第一簇中的各个特征向量和所述第二簇中各个特征向量的样本向量集合;
计算所述样本向量集合的均方差;
若所述均方差小于预设的拆分值,则确定对所述聚类簇集合进行合并处理;
若所述均方差大于预设的拆分值,则确定对所述聚类簇集合进行拆分处理。
10.根据权利要求6~9任一项所述的处理装置,其特征在于,所述分析模块具体用于根据所述第一数据,确定所述第一数据对应的原始特征向量;
对所述原始特征向量进行降维处理,获得所述第一特征向量。
CN201410524517.0A 2014-09-30 2014-09-30 数据流的处理方法和装置 Active CN104283737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410524517.0A CN104283737B (zh) 2014-09-30 2014-09-30 数据流的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410524517.0A CN104283737B (zh) 2014-09-30 2014-09-30 数据流的处理方法和装置

Publications (2)

Publication Number Publication Date
CN104283737A CN104283737A (zh) 2015-01-14
CN104283737B true CN104283737B (zh) 2018-01-12

Family

ID=52258243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410524517.0A Active CN104283737B (zh) 2014-09-30 2014-09-30 数据流的处理方法和装置

Country Status (1)

Country Link
CN (1) CN104283737B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189151A (zh) * 2019-06-12 2019-08-30 北京奇艺世纪科技有限公司 一种账号检测方法及相关设备

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007175A (zh) * 2015-06-03 2015-10-28 北京云杉世纪网络科技有限公司 一种基于openflow的流深度关联分析方法及系统
CN107045503B (zh) * 2016-02-05 2019-03-05 华为技术有限公司 一种特征集确定的方法及装置
CN107682319B (zh) * 2017-09-13 2020-07-03 桂林电子科技大学 一种基于增强型角度异常因子的数据流异常检测及多重验证的方法
CN108156018B (zh) * 2017-11-27 2021-06-04 上海观安信息技术股份有限公司 电力网络设备拓扑识别方法、电子设备和计算机存储介质
CN109471717B (zh) * 2018-10-11 2024-06-18 平安科技(深圳)有限公司 样本库拆分方法、装置、计算机设备及存储介质
CN110213227B (zh) * 2019-04-24 2020-12-22 华为技术有限公司 一种网络数据流检测方法及装置
CN110225036B (zh) * 2019-06-12 2022-03-22 北京奇艺世纪科技有限公司 一种账号检测方法、装置、服务器及存储介质
CN112636642B (zh) * 2020-12-17 2023-03-24 广东工业大学 一种柔性材料数控切割刀头性能状态评估方法及装置
CN112612887A (zh) * 2020-12-25 2021-04-06 北京天融信网络安全技术有限公司 日志处理方法、装置、设备和存储介质
CN114697247B (zh) * 2022-03-01 2024-02-06 乐视云网络技术(北京)有限公司 流媒体系统的故障检测方法、装置、设备和存储介质
CN114595217B (zh) * 2022-03-30 2022-11-18 国网河北省电力有限公司营销服务中心 电力运营渠道数据流实时监测和拟合方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915347A (zh) * 2012-09-26 2013-02-06 中国信息安全测评中心 一种分布式数据流聚类方法及系统
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和系统
CN103179105A (zh) * 2012-10-25 2013-06-26 四川省电力公司信息通信公司 一种基于网络流量中行为特征的智能木马检测装置及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102053992B (zh) * 2009-11-10 2014-12-10 阿里巴巴集团控股有限公司 聚类方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915347A (zh) * 2012-09-26 2013-02-06 中国信息安全测评中心 一种分布式数据流聚类方法及系统
CN103179105A (zh) * 2012-10-25 2013-06-26 四川省电力公司信息通信公司 一种基于网络流量中行为特征的智能木马检测装置及其方法
CN103001825A (zh) * 2012-11-15 2013-03-27 中国科学院计算机网络信息中心 Dns流量异常的检测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于网络行为分析的HTTP木马检测模型;易军凯等;《北京化工大学学报》;20140331;第41卷(第3期);全文 *
基于特征聚类的海量恶意代码在线自动分析模型;徐小林等;《通信学报》;20130831;第34卷(第8期);全文 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189151A (zh) * 2019-06-12 2019-08-30 北京奇艺世纪科技有限公司 一种账号检测方法及相关设备

Also Published As

Publication number Publication date
CN104283737A (zh) 2015-01-14

Similar Documents

Publication Publication Date Title
CN104283737B (zh) 数据流的处理方法和装置
CN110262273A (zh) 一种家居设备控制方法、装置、存储介质及智能家居系统
CN109145937A (zh) 一种模型训练的方法及装置
CN110428137B (zh) 一种风险防控策略的更新方法及装置
CN112148772A (zh) 告警根因识别方法、装置、设备和存储介质
CN106294325B (zh) 自然语言生成语句的优化方法及装置
CN107818077A (zh) 一种敏感内容识别方法及装置
CN106156041B (zh) 热点信息发现方法及系统
WO2018161900A1 (zh) 一种风控事件自动处理方法及装置
CN106649831A (zh) 一种数据过滤方法及装置
CN109472019A (zh) 一种基于同义词典的短文本相似度匹配方法及系统
Weiß et al. Chain binomial models and binomial autoregressive processes
CN113489674A (zh) 一种面向物联网系统的恶意流量智能检测方法及应用
CN109753762A (zh) 基于类别修正的配电网两阶段网络拓扑识别方法及装置
CN110245584A (zh) 一种电压暂降原因识别方法及系统
CN112862005A (zh) 视频的分类方法、装置、电子设备和存储介质
CN108875532A (zh) 一种基于稀疏编码和长度后验概率的视频动作检测方法
CN109977977A (zh) 一种识别潜在用户的方法及对应装置
WO2022143625A1 (zh) 神经网络模型、方法、电子设备及可读介质
Xie et al. The study of methods for post-pruning decision trees based on comprehensive evaluation standard
CN109039797A (zh) 基于强化学习的大流检测方法
CN113657468A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN114078274A (zh) 人脸图像检测方法、装置、电子设备以及存储介质
CN113537245A (zh) 一种基于特征图的神经网络剪枝方法
CN103778479A (zh) 自适应信息容错保护方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200416

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee after: HUAWEI TECHNOLOGIES Co.,Ltd.

Address before: 301, A building, room 3, building 301, foreshore Road, No. 310053, Binjiang District, Zhejiang, Hangzhou

Patentee before: Huawei Technologies Co.,Ltd.

TR01 Transfer of patent right