CN109885684B - 一种类簇处理方法及装置 - Google Patents

一种类簇处理方法及装置 Download PDF

Info

Publication number
CN109885684B
CN109885684B CN201910097868.0A CN201910097868A CN109885684B CN 109885684 B CN109885684 B CN 109885684B CN 201910097868 A CN201910097868 A CN 201910097868A CN 109885684 B CN109885684 B CN 109885684B
Authority
CN
China
Prior art keywords
cluster
family
clusters
network node
network nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910097868.0A
Other languages
English (en)
Other versions
CN109885684A (zh
Inventor
杨耀荣
谭昱
曹有理
邓永
许天胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910097868.0A priority Critical patent/CN109885684B/zh
Publication of CN109885684A publication Critical patent/CN109885684A/zh
Application granted granted Critical
Publication of CN109885684B publication Critical patent/CN109885684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种类簇处理方法及装置,所述方法包括:获取待分类数据集;对所述待分类数据集进行聚类以得到家族类簇;滤除所述家族类簇中的噪声节点以得到待重组家族类簇;获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系;根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇;根据第一类簇中各个节点的动态行为对所述第一类簇进行调整以得到第二类簇。本发明通过去噪、静态调整和动态调整三个步骤实现了对于聚类结果的自动优化,使得基于聚类算法得到的聚类结果具备更高的准确性,高自动性高准确性的技术效果可以使得其在多个领域中被广泛应用,并显著降低人力成本。

Description

一种类簇处理方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种类簇处理方法及装置。
背景技术
社区结构在各种复杂网络中具有普遍存在性,社区结构能够用于反应网络中的个体行为的局部性特征以及其相互之间的关联关系,对理解整个网络的结构和功能起到至关重要的作用,因此社区结构发现算法具有广阔的应用前景。虽然现有技术提出了多种社区结构发现算法,但是基于社区结构发现算法所得到的聚类结果存在较大的不确定性,还需要依赖于人工对聚类结果进行优化,从而导致了社区结构发现过程需要耗费较多人力,自动化程度不高。
发明内容
本发明提供了一种类簇处理方法及装置。
第一方面,本发明提供了一种类簇处理方法,所述方法包括:
获取待分类数据集;
对所述待分类数据集进行聚类以得到家族类簇;
滤除所述家族类簇中的噪声节点以得到待重组家族类簇;
获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系;
根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇;
根据第一类簇中各个节点的动态行为对所述第一类簇进行调整以得到第二类簇。
第二方面提供了一种类簇处理装置,所述装置包括:
待分类数据集获取模块,用于获取待分类数据集;
聚类模块,用于对所述待分类数据集进行聚类以得到家族类簇;
过滤模块,用于滤除所述家族类簇中的噪声节点以得到待重组家族类簇;
拓扑获取模块,用于获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系;
重组模块,用于根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇;
调整模块,根据第一类簇中各个节点的动态行为对所述第一类簇进行调整以得到第二类簇。
本发明提供的一种类簇处理方法及装置,其通过去噪、静态调整和动态调整三个步骤实现了对于聚类结果的自动优化,使得基于聚类算法得到的聚类结果具备更高的准确性,本发明所提供的一种类簇处理方法及装置所具备的高自动性高准确性的技术效果可以使得其在多个领域中被广泛应用,并显著降低人力成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明提供的一种类簇处理方法的流程图;
图2是本发明提供的需要拆分的类簇关系示意图;
图3是本发明提供的需要合并的类簇关系示意图;
图4是本发明提供的一种获取所述待重组家族类簇的拓扑结构的方法流程图;
图5是本发明提供的家族类簇的图谱示意图;
图6是本发明提供的根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇流程图;
图7(1)是本发明提供的核心节点示意图;
图7(2)是本发明提供的子类簇示意图;
图7(3)是本发明提供的第一类簇示意图;
图8是本发明提供的需要基于动态行为进行类簇调整的示意图;
图9是本发明提供的基于动态行为进行类簇调整的流程示意图;
图10是本发明提供的类簇处理方法整体示意图;
图11是本发明提供的一种类簇处理装置框图;
图12是本发明提供拓扑获取模块框图;
图13是本发明提供的重组模块框图;
图14是本发明提供的关联度计算单元框图;
图15是本发明提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
社区结构发现算法(简称社区发现算法)多种多样,在社区发现过程中,不可避免受到原始关系及样本纯度的影响,会产生聚类结果的不准确,从而影响了聚类结果的具体应用。本发明实施例以社区发现算法应用于网络安全管理领域为例进行说明。
据统计,在网络安全管理领域社区发现算法虽然能够对海量样本进行聚类,但是仍然约有30%左右的聚类结果(类簇)存在不准确的可能,需要依赖安全运营人员的经验进行清洗,其具体流程大致包括:
(1)首先从知识图谱中抽取类簇所关联的域名、IP、父子关系等相关关系;
(2)然后进行人工去噪,将所有的相关关系之间的结构层次整理清楚;
(3)对类簇进行更进一步的分析和确认。
如此循环往复,对所有类簇一一进行处理。假设每个安全运营人员每天最多能处理20个类簇,但是社区发现算法每天产生的类簇超过300个,远远超出了安全运营人员的运营能力,导致大量类簇积压。
有鉴于此,本发明实施例提供一种类簇处理方法,如图1所示,所述方法包括:
S101.获取待分类数据集。
S102.对所述待分类数据集进行聚类以得到家族类簇。
在大型复杂网络中进行社区搜寻或发现社区(家族类簇),具有重要的实用价值。如,社会网络中的社区代表根据兴趣或背景而形成的真实的社会团体;引文网络中的社区代表针对同一主题的相关论文;网站中的社区可以为讨论相关主题的若干网站而生物化学网络或者电子电路网络中的社区则可能是某一类功能单元;网络安全领域中的社区可以是具备相似行为或者相关继承关系的合法或非法地址。发现这些网络中的社区(家族类簇),并对社区进行自动化的处理有助于研究人员更加有效地理解和开发这些社区。
具体地,本发明实施例将通过聚类算法得到的结果称之为家族类簇,所述家族类簇可以包括一个或多个类簇。所述聚类算法可以为社区结构发现算法或其它聚类算法,本发明实施例并不限定具体的聚类算法。
在一个可行的实施方式中,所述聚类算法可以为一种基于图数据的社区发现算法。具体地,所述基于图数据的社区发现算法的优化目标为最大化整个数据的模块度。所述社区发现算法的迭代设计可以被简要概括为:最开始,将每个原始节点都看成一个独立的社区,社区内的连边权重为0。扫描数据中的所有节点,针对每个节点遍历该节点的所有邻居节点,衡量把该节点加入其邻居节点所在的社区所带来的模块度的收益。并选择对应最大收益的邻居节点,加入其所在的社区。按照这一过程化重复进行直至每一个节点的社区归属都不再发生变化。
所述基于图数据的社区发现算法的最大优势就是速度很快,在效率和效果上都表现比较好,并且能够发现层次性的社区结构。
在另一个可行的实施方式中,所述聚类算法还可以为一种试探优化法。它是一种利用贪婪算法将复杂网络划分为两个社团的二分法。该算法引入增益值P,并将P定义两个社团内部的边数减去连接两个社团之间的边数,然后再寻找使P值最大的划分方法。整个算法可描述如下:
首先,将网络中的节点随机地划分为已知大小的两个社团。在此基础上,考虑所有可能的节点对,其中每个节点对的节点分别来自两个社团。对每个节点对,计算如果交换这两个节点可能得到的P的增益ΔP=P交换后-P交换前,然后交换最大的ΔP对应的节点对,同时记录交换以后的P值。规定每个节点只能交换一次。重复这个交换过程,直到某个社团内所有的节点都被交换一次为止。需要注意的是,在节点对交换的过程中,P值并不一定是单调增加的。不过,即使某一步的交换会使P值有所下降,仍然可能在其后的步骤中出现一个更大的P值。当交换完毕后,便找到上述交换过程中所记录的最大的P值。这时对应的社团结构就认为是该网络实际的社团结构。
在另一个可行的实施方式中,所述聚类算法还可以为一种分裂方法。其基本思想是不断的从网络中移除介数最大的边。边介数定义为网络中经过每条边的最短路径的数目。具体算法如下:①计算网络中所有边的介数。②移除介数最高的边。③重新计算所有受影响的边的介数。④重复步骤②,直到每个节点就是一个退化社团为止。
S103.滤除所述家族类簇中的噪声节点以得到待重组家族类簇。
具体地,所述噪声节点可以包括第一噪声节点和/或第二噪声节点。所述第一噪声节点为与所述家族类簇应用场景相关的噪声节点,所述第二噪声节点为根据家族类簇中各节点之间关系计算得到的噪声节点。步骤S103中可以滤除第一噪声节点、第二噪声节点或对这两种噪声节点均执行滤除操作。
具体地,本发明实施例提供一种第一噪声节点的滤除方法,所述方法包括:
从所述家族类簇中获取第一噪声节点集;从家族类簇中滤除被纳入所述第一噪声节点集中的节点。
所述从所述家族类簇中获取第一噪声节点集,包括:
S1.获取所述家族类簇的应用场景。
S2.获取所述应用场景对应的噪声节点选择方法。
S3.根据所述噪声节点选择方法从所述家族类簇中选择噪声节点以构成第一噪声节点集。
以网络安全应用场景为例,家族类簇用于表征对网络安全造成威胁的网络成员之间的关系,而确定对网络安全不会造成威胁的网络成员即为第一噪声节点。在一个可行的实施方式中,可以通过白名单、IDC/VPN IP以及可信域名滤除第一噪声节点。
IDC/VPN IP都是互联网服务提供商提供给网民使用的公共IP。IDC为互联网数据中心,其为互联网内容提供商(ICP)、企业、媒体和各类网站提供大规模、高质量、安全可靠的专业化服务器托管、空间租用、网络批发带宽以及ASP、EC等业务。VPN为虚拟专用网络,其功能是:在公用网络上建立专用网络。
在网络安全应用场景中,IDC/VPN IP会给聚类结果带来一定污染,需要去除。
具体地,本发明实施例提供一种第二噪声节点的滤除方法,所述方法包括:
从所述家族类簇中获取第二噪声节点集,从家族类簇中滤除被纳入所述第二噪声节点集中的节点;
所述从所述家族类簇中获取第二噪声节点集,包括:
S10.置空第二噪声节点集;
S20.遍历所述家族类簇中的节点,计算所述节点与所述家族类簇的关联度;判断所述关联度是否小于预设的关联度阈值,如果是,则将所述节点加入第二噪声节点集。
具体地,节点与家族的关联度可以通过很多实际应用的规则计算得到,本发明实施例并不具体限定其获取方式。具体地,可以通过计算节点在家族网络中的介数中心性并结合相关规则,得到节点与家族的关联度。
S104.获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系。
具体地,所述第一类簇为根据待重组家族类簇的静态信息对待重组家族类簇的重组结果,其可以包括一个或多个类簇。
家族类簇是聚类算法根据各个家族成员(节点)之间的动态行为关系,静态关系进行聚类而得到的。以社区发现算法对网络地址进行聚类为例,其得到的家族类簇是通过家族成员之间的访问关系、父子关系等经过多层关系扩散聚类得到的,因此类簇中部分成员之间的联系可能会比较弱,而部分类簇之间的联系也可能会比较强。家族类簇重组的主要目的是把弱关联的子类簇独立出来,把强关联的多个类簇合并为一个更加大的类簇。
如图2所示,由于节点“74388dc1b4dede901a3fbe718f9e33e8”同时访问了家族A和家族B的C2域名,Louvain算法将家族A和家族B聚到了同一家族类簇中。但实际上节点“74388dc1b4dede901a3fbe718f9e33e8”为噪声节点,家族A与家族B并无其他关联。类似的家族类簇需要进行合理拆分,才能得到更加准确的子类簇。
如图3所示,子类簇A和子类簇B有多个共同关联的样本,同时子类簇A的域名mokoshoponline.com还解析到了子类簇B的IP 202.150.215.82。显而易见,子类簇A和子类簇B存在强关联关系,需要将它们重组合并为一个更大的类簇。
进一步地,为了更好的执行步骤S104,本发明实施例还提供了一种获取所述待重组家族类簇的拓扑结构的方法,如图4所示,包括:
S1041.计算所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系。
S1042.根据所述拓扑结构生成所述待重组家族类簇的图谱。
如图5所示,其示出了家族类簇的图谱示意图。所述图谱示意图可以使用Pythonnetwork库绘制而得。
Python network是基于python进行图计算的一个代码库。Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。
S1043.计算所述图谱中各个节点的度。
S105.根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇。
在一个可行的实施方式中,如图6所示,所述方法包括:
S1051.根据所述图谱中各个节点的度选取核心节点。
本发明实施例并不限定核心节点的获取方法,在一个优选的实施方式中,可以将所述图谱中度最高的N个节点作为核心节点,N可以根据实际情况进行设定和调整。
如图7(1)所示,其示出了图5中核心节点示意图,所述核心节点使用圆圈圈出。
S1052.从所述图谱中以所述核心节点为中心提取子类簇,每个子类簇的节点均为所述核心节点的邻居节点。
如图7(2)所示,其示出了子类簇示意图,每个子类簇均使用圆圈圈出。
S1053.各个子类簇之间进行两两组合。
S1054.计算每个组合中两个子类簇的关联度。
在一个可行的实施方式中,所述计算每个组合中两个子类簇的关联度包括:
S10541.计算两个子类簇的交集中公共节点数量。
S10542.计算两个子类簇并集的节点总和。
S10543.计算所述公共节点数量与所述节点总和的比值。
S10544.获取两个子类簇的核心节点的关联系数。
具体地,所述关联系数可以与应用场景有关,不同场景下关联系数可以不同。比如,关联系数可以为由多条规则综合计算得到的一个分数,也可以根据实际需要进行设定或者调整。
S10545.将所述关联系数和所述比值的总和作为所述关联度。
S1055.根据关联度对所述子类簇进行重组以得到第一类簇。
如图7(3)所示,其示出了第一类簇示意图,重组后的每个类簇均使用圆圈圈出。
本发明提供的第一类簇获取方法能够从图谱角度进行各个类簇关系的调整,从而得到更加符合待重组家族类簇各个节点之间静态关系的第一类簇。
S106.根据第一类簇中各个节点的动态行为对所述第一类簇进行调整以得到第二类簇。
如图8所示,在病毒分析场景中社区发现算法会把同时访问相同域名anthraxgold.no-ip.info的6个病毒样本归到同一家族聚类中,但实际上该家族聚类中同时包含了家族A和家族B的样本,这种情况就需要进行基于动态行为的调整。
第一类簇为对家族类簇各个节点之间静态关系进行分析调整得到的类簇结果,这一类簇结构也可能存在一些问题,比如某些节点联系紧密且属于平级关系,无法单纯根据静态关系进行区分,从而导致第一类簇也存在一定程度的不准确性。以病毒分析场景为例,各个病毒节点无法单纯地从网络访问关系、父子关系等将其区分,但是却可以通过其具体的行为特征将它们进行有效的区分。如图9所示,其示出了基于动态行为进行类簇调整的流程示意图。通过将第一类簇输入到动态行为聚类系统中,将第一类簇(包含N个类簇)中行为相似的成员划分为同一家族后,即可得到第二类簇(包含M个类簇)。本发明实施例并不对动态行为聚类系统进行限定,能够根据动态行为对第一类簇进行调整的动态聚类系统均可以视实际情况进行选用。
进一步地,还可以将得到的第二类簇保存到家族库之中。
本发明实施例提供的一种类簇处理方法,如图10所示,其通过去噪、静态调整和动态调整三个步骤实现了对于聚类结果的自动优化,使得基于聚类算法得到的聚类结果具备更高的准确性。本发明实施例所达到的高自动高准确性的技术效果可以使得其在多个领域中被广泛应用,以网络安全应用场景为例,其可以达到下述有益效果:
(1)病毒家族确认过程全程自动化,无需安全运营人员参与;
(2)解决了人力运营的瓶颈问题,实现了海量家族类簇的日清,降低了安全运营的成本;
(3)使安全运营人员可以集中更多的时间和精力在家族数据的整理和挖掘上,产生更多的有用的家族情报。
进一步地,本发明实施例提供了一种类簇处理装置,如图11所示,所述装置包括:
待分类数据集获取模块201,用于获取待分类数据集;
聚类模块202,用于对所述待分类数据集进行聚类以得到家族类簇;
过滤模块203,用于滤除所述家族类簇中的噪声节点以得到待重组家族类簇;
拓扑获取模块204,用于获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系;
重组模块205,用于根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇;
调整模块206,根据第一类簇中各个节点的动态行为对所述第一类簇进行调整以得到第二类簇。
进一步地,如图12所示,所述拓扑获取模块204包括:
拓扑计算单元2041,用于计算所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系;
图谱生成单元2042,用于根据所述拓扑结构生成所述待重组家族类簇的图谱;
度计算单元2043,用于计算所述图谱中各个节点的度。
进一步地,如图13所示,所述重组模块205包括:
核心节点选取单元2051,用于根据所述图谱中各个节点的度选取核心节点;
子类簇提取单元2052,用于从所述图谱中以所述核心节点为中心提取子类簇,每个子类簇的节点均为所述核心节点的邻居节点;
组合单元2053,用于各个子类簇之间进行两两组合;
关联度计算单元2054,用于计算每个组合中两个子类簇的关联度;
重组单元2055,用于根据关联度对所述子类簇进行重组以得到第一类簇。
进一步地,如图14所示,所述关联度计算单元2054包括:
第一计算单元20541,用于计算两个子类簇的交集中公共节点数量;
第二计算单元20542,用于计算两个子类簇并集的节点总和;
比值计算单元20543,用于计算所述公共节点数量与所述节点总和的比值;
关联系数获取单元20544,用于获取两个子类簇的核心节点的关联系数;
关联度计算单元20545,用于将所述关联系数和所述比值的总和作为所述关联度。
本发明实施例中公开的一种类簇处理装置与方法实施例均基于相同发明构思。
本实施例还提供了一种存储介质。该存储介质包括存储的程序,其中在程序运行时可以执行本发明实施例所述的一种类簇处理方法。
可选地,程序所执行的方法包括:
获取待分类数据集;
对所述待分类数据集进行聚类以得到家族类簇;
滤除所述家族类簇中的噪声节点以得到待重组家族类簇;
获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系;
根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇;
根据第一类簇中各个节点的动态行为对所述第一类簇进行调整以得到第二类簇。
可选的,程序所执行的方法还包括:
所述滤除所述家族类簇中的噪声节点以得到待重组家族类簇包括:
从所述家族类簇中获取第一噪声节点集;
从家族类簇中滤除被纳入所述第一噪声节点集中的节点;
所述从所述家族类簇中获取第一噪声节点集,包括:
获取所述家族类簇的应用场景;
获取所述应用场景对应的噪声节点选择方法;
根据所述噪声节点选择方法从所述家族类簇中选择噪声节点以构成第一噪声节点集。
可选的,程序所执行的方法还包括:
所述滤除所述家族类簇中的噪声节点以得到待重组家族类簇包括:
从所述家族类簇中获取第二噪声节点集;
从家族类簇中滤除被纳入所述第二噪声节点集中的节点;
所述从所述家族类簇中获取第二噪声节点集,包括:
置空第二噪声节点集;
遍历所述家族类簇中的节点,计算所述节点与所述家族类簇的关联度;判断所述关联度是否小于预设的关联度阈值,如果是,则将所述节点加入第二噪声节点集。
可选的,程序所执行的方法还包括:
所述获取所述待重组家族类簇的拓扑结构,包括:
计算所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个节点的连接关系和类簇间的连通关系;
根据所述拓扑结构生成所述待重组家族类簇的图谱;
计算所述图谱中各个节点的度。
可选的,程序所执行的方法还包括:
所述根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇,包括:
根据所述图谱中各个节点的度选取核心节点;
从所述图谱中以所述核心节点为中心提取子类簇,每个子类簇的节点均为所述核心节点的邻居节点;
各个子类簇之间进行两两组合;
计算每个组合中两个子类簇的关联度;
根据关联度对所述子类簇进行重组以得到第一类簇。
可选的,程序所执行的方法还包括:
所述计算每个组合中两个子类簇的关联度,包括:
计算两个子类簇的交集中公共节点数量;
计算两个子类簇并集的节点总和;
计算所述公共节点数量与所述节点总和的比值;
获取两个子类簇的核心节点的关联系数;
将所述关联系数和所述比值的总和作为所述关联度。
进一步地,图15示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图,所述设备可以为计算机终端、移动终端或服务器。如图15所示,计算机终端10(或移动设备10或服务器10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图15所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图15中所示更多或者更少的组件,或者具有与图15所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中所述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的类簇处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种类簇处理方法,其特征在于,所述方法包括:
获取待分类数据集;
对所述待分类数据集进行聚类以得到家族类簇,所述家族类簇表征对网络安全造成威胁的网络节点之间的关系;
从所述家族类簇中获取第一噪声网络节点集;所述第一噪声网络节点集中的第一噪声网络节点为对网络安全不会造成威胁的网络节点;
从所述家族类簇中滤除被纳入所述第一噪声网络节点集中的网络节点,得到待重组家族类簇;
获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个所述网络节点的连接关系和类簇间的连通关系;
根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇,所述第一类簇为对所述家族类簇中的网络节点之间静态关系进行调整后所得到的类簇结果;
根据第一类簇中各个网络节点的动态行为对所述第一类簇进行调整以得到第二类簇,所述第二类簇中属于同一类的网络节点具备相似行为或者相关继承关系。
2.根据权利要求1所述方法,其特征在于,所述从所述家族类簇中获取第一噪声网络节点集,包括:
获取对网络安全造成威胁的场景对应的噪声网络节点选择方法;
根据所述噪声网络节点选择方法从所述家族类簇中选择噪声网络节点以构成所述第一噪声网络节点集。
3.根据权利要求2所述的方法,其特征在于,所述从所述家族类簇中滤除被纳入所述第一噪声网络节点集中的网络节点,得到待重组家族类簇,还包括:
从所述家族类簇中获取第二噪声网络节点集;
从所述家族类簇中滤除被纳入所述第二噪声网络节点集中的网络节点,得到所述待重组家族类簇;
所述从所述家族类簇中获取第二噪声网络节点集,包括:
置空第二噪声网络节点集;
遍历所述家族类簇中的网络节点,计算所述网络节点与所述家族类簇的关联度;判断所述关联度是否小于预设的关联度阈值,如果是,则将所述网络节点加入第二噪声网络节点集。
4.根据权利要求1所述方法,其特征在于,所述获取所述待重组家族类簇的拓扑结构,包括:
计算所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个网络节点的连接关系和类簇间的连通关系;
根据所述拓扑结构生成所述待重组家族类簇的图谱;
计算所述图谱中各个网络节点的度。
5.根据权利要求4所述方法,其特征在于,所述根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇,包括:
根据所述图谱中各个网络节点的度选取核心网络节点;
从所述图谱中以所述核心网络节点为中心提取子类簇,每个子类簇的网络节点均为所述核心网络节点的邻居网络节点;
各个子类簇之间进行两两组合;
计算每个组合中两个子类簇的关联度;
根据关联度对所述子类簇进行重组以得到第一类簇。
6.根据权利要求4所述方法,其特征在于,所述计算每个组合中两个子类簇的关联度,包括:
计算两个子类簇的交集中公共网络节点数量;
计算两个子类簇并集的网络节点总和;
计算所述公共网络节点数量与所述网络节点总和的比值;
获取两个子类簇的核心网络节点的关联系数;
将所述关联系数和所述比值的总和作为所述关联度。
7.一种类簇处理装置,其特征在于,所述装置包括:
待分类数据集获取模块,用于获取待分类数据集;
聚类模块,用于对所述待分类数据集进行聚类以得到家族类簇,所述家族类簇表征对网络安全造成威胁的网络节点之间的关系;
过滤模块,用于从所述家族类簇中获取第一噪声网络节点集;所述第一噪声网络节点集中的第一噪声网络节点为对网络安全不会造成威胁的网络节点;从所述家族类簇中滤除被纳入所述第一噪声网络节点集中的网络节点,得到待重组家族类簇;
拓扑获取模块,用于获取所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个所述网络节点的连接关系和类簇间的连通关系;
重组模块,用于根据所述拓扑结构对所述待重组家族类簇进行重组以得到第一类簇,所述第一类簇为对所述家族类簇中的网络节点之间静态关系进行调整后所得到的类簇结果;
调整模块,根据第一类簇中各个网络节点的动态行为对所述第一类簇进行调整以得到第二类簇,所述第二类簇中属于同一类的网络节点具备相似行为或者相关继承关系。
8.根据权利要求7所述装置,其特征在于,所述拓扑获取模块包括:
拓扑计算单元,用于计算所述待重组家族类簇的拓扑结构,所述拓扑结构包括类簇内各个网络节点的连接关系和类簇间的连通关系;
图谱生成单元,用于根据所述拓扑结构生成所述待重组家族类簇的图谱;
度计算单元,用于计算所述图谱中各个网络节点的度。
9.根据权利要求8所述装置,其特征在于,所述重组模块包括:
核心网络节点选取单元,用于根据所述图谱中各个网络节点的度选取核心网络节点;
子类簇提取单元,用于从所述图谱中以所述核心网络节点为中心提取子类簇,每个子类簇的网络节点均为所述核心网络节点的邻居网络节点;
组合单元,用于各个子类簇之间进行两两组合;
关联度计算单元,用于计算每个组合中两个子类簇的关联度;
重组单元,用于根据关联度对所述子类簇进行重组以得到第一类簇。
10.根据权利要求9所述装置,其特征在于,所述关联度计算单元包括:
第一计算单元,用于计算两个子类簇的交集中公共网络节点数量;
第二计算单元,用于计算两个子类簇并集的网络节点总和;
比值计算单元,用于计算所述公共网络节点数量与所述网络节点总和的比值;
关联系数获取单元,用于获取两个子类簇的核心网络节点的关联系数;
关联度计算单元,用于将所述关联系数和所述比值的总和作为所述关联度。
CN201910097868.0A 2019-01-31 2019-01-31 一种类簇处理方法及装置 Active CN109885684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910097868.0A CN109885684B (zh) 2019-01-31 2019-01-31 一种类簇处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910097868.0A CN109885684B (zh) 2019-01-31 2019-01-31 一种类簇处理方法及装置

Publications (2)

Publication Number Publication Date
CN109885684A CN109885684A (zh) 2019-06-14
CN109885684B true CN109885684B (zh) 2022-11-22

Family

ID=66927655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910097868.0A Active CN109885684B (zh) 2019-01-31 2019-01-31 一种类簇处理方法及装置

Country Status (1)

Country Link
CN (1) CN109885684B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110327623B (zh) * 2019-07-09 2023-09-19 腾讯科技(深圳)有限公司 一种基于交互式应用的节点控制方法以及相关装置
CN111191235B (zh) * 2019-10-11 2024-04-02 腾讯科技(深圳)有限公司 可疑文件分析方法、装置和计算机可读存储介质
CN110807487B (zh) * 2019-10-31 2023-01-17 北京邮电大学 一种基于域名系统流量记录数据识别用户的方法及装置
CN113593262B (zh) * 2019-11-14 2022-09-27 北京百度网讯科技有限公司 交通信号控制方法、装置、计算机设备和存储介质
CN113033584B (zh) * 2019-12-09 2023-07-07 Oppo广东移动通信有限公司 数据处理方法及相关设备
CN111259154B (zh) * 2020-02-07 2021-04-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN114937165B (zh) * 2022-07-20 2022-10-28 浙江大华技术股份有限公司 一种类簇合并方法、装置、终端及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102917016A (zh) * 2012-09-12 2013-02-06 华中科技大学 一种基于内容的发布订阅模型的拓扑结构优化方法
CN104899232A (zh) * 2014-03-07 2015-09-09 华为技术有限公司 协同聚类的方法和设备
CN107145897A (zh) * 2017-03-14 2017-09-08 中国科学院计算技术研究所 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统
CN107194415A (zh) * 2017-04-28 2017-09-22 浙江工业大学 一种基于拉普拉斯中心性的峰值聚类方法
CN107800567A (zh) * 2017-09-18 2018-03-13 中南大学 一种混合模式的p2p流媒体网络拓扑模型的建立方法
CN108427723A (zh) * 2018-02-09 2018-08-21 哈尔滨工业大学深圳研究生院 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996510B2 (en) * 2007-09-28 2011-08-09 Intel Corporation Virtual clustering for scalable network control and management
EP3805957A1 (en) * 2014-01-31 2021-04-14 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Computer-implemented method and apparatus for determining a relevance of a node in a network
US20170357644A1 (en) * 2016-06-12 2017-12-14 Apple Inc. Notable moments in a collection of digital assets

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102917016A (zh) * 2012-09-12 2013-02-06 华中科技大学 一种基于内容的发布订阅模型的拓扑结构优化方法
CN104899232A (zh) * 2014-03-07 2015-09-09 华为技术有限公司 协同聚类的方法和设备
CN107145897A (zh) * 2017-03-14 2017-09-08 中国科学院计算技术研究所 一种基于通信时空特征的演变网络特殊群体挖掘方法及系统
CN107194415A (zh) * 2017-04-28 2017-09-22 浙江工业大学 一种基于拉普拉斯中心性的峰值聚类方法
CN107800567A (zh) * 2017-09-18 2018-03-13 中南大学 一种混合模式的p2p流媒体网络拓扑模型的建立方法
CN108427723A (zh) * 2018-02-09 2018-08-21 哈尔滨工业大学深圳研究生院 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dynamic community detection based on network structural perturbation and topological similarity;Peizhuo Wang等;《Journal of Statistical Mechanics: Theory and Experiment》;20170131;1-8页 *
基于服务网络社团发现算法研究;贾盼盼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130315;I139-188 *

Also Published As

Publication number Publication date
CN109885684A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109885684B (zh) 一种类簇处理方法及装置
Hegeman et al. Toward optimal bounds in the congested clique: Graph connectivity and MST
CN108900541B (zh) 一种针对云数据中心sdn安全态势感知系统及方法
Oliveira et al. VELVET: an adaptive hybrid architecture for very large virtual environments
CN106302104B (zh) 一种用户关系识别方法及装置
CN108985954B (zh) 一种建立各标识的关联关系的方法以及相关设备
CN110224859B (zh) 用于识别团伙的方法和系统
WO2021047402A1 (zh) 应用识别方法、装置及存储介质
CN109344126B (zh) 贴图的处理方法、装置、存储介质和电子装置
CN107517203B (zh) 一种用户行为基线建立方法及装置
US11240174B2 (en) Systems and methods for intelligent application grouping
US12088556B2 (en) Automated firewall feedback from network traffic analysis
CN109327356B (zh) 一种用户画像的生成方法和装置
KR20150079422A (ko) 서버 그룹핑 장치, 그 방법 및 기록 매체
CN110032603A (zh) 一种对关系网络图中的节点进行聚类的方法及装置
CN103248677A (zh) 互联网行为分析系统及其工作方法
Jansen et al. Privacy-preserving dynamic learning of tor network traffic
Prashar et al. Blockchain‐Based Automated System for Identification and Storage of Networks
CN107566513A (zh) 测试设备dos环境数据采集方法和系统
Gaeta A model of information diffusion in interconnected online social networks
Ren et al. On efficient delay-aware multisource multicasting in NFV-Enabled softwarized networks
CN104349395A (zh) 用于处理数据报文的方法、用户终端和系统
Marshall CANDID: classifying assets in networks by determining importance and dependencies
Meiss et al. Properties and evolution of internet traffic networks from anonymized flow data
CN112906171B (zh) 一种综合能源系统可信协同优化方法及仿真平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant