CN115051936A

CN115051936A - 一种基于多图的连通分量增量计算方法

Info

Publication number: CN115051936A
Application number: CN202210357034.0A
Authority: CN
Inventors: 李常宝; 高泽; 李云鹏; 潘爽; 袁媛; 刘忠麟; 赵静
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-09-13

Abstract

本发明公开了一种基于多图的连通分量增量计算方法，通过对连通分量进行重新编号，连接形成一张图，再进行计算得到新的连通分量，实现合并含有相同点的不同图后再进行连通分量的计算，解决了在合并图时，需要重新计算连通分量，导致计算时间长、效率低的问题。

Description

一种基于多图的连通分量增量计算方法

技术领域

本发明属于计算机网络流量分析技术领域，具体涉及一种基于多图的连通分量增量计算方法。

背景技术

在网络流量分析过程中，依据大规模流量数据分析网络数据时，在解决不同来源的网络数据的网络归属判断问题以及由网络实效性带来的节点变化问题时，往往需要重新计算连通分量。

在分析网络数据时，对于不同渠道、不同设备获取的网络数据，在需要判断其是否属于同一网络时间时需要经过详细的数据分析，计算连通性时往往无法获得完备的网络归属，所以当判断两组网络数据属于同一物理网络时，需要重新计算连通分量。此时，通常采用的方法是获取所有符合条件的协议数据重新进行计算，然而重新计算会极大地耗费空间和时间资源。

此外，由于网络连通性具有时效性，当原网络数据中的某些节点发生改变时，连通性往往会随之改变，尤其是发生了网络地址重新分配时连通性也会改变。此时，如果需要获取新的连通数据，往往需要去除掉网络状况更改之前的数据，对于这种情况，通常采用的方法是获取所有符合条件的协议数据重新进行计算，同样会耗费大量的时间，造成了资源的浪费。

综上所述，针对上述两种场景，现有技术均是通过获取所有符合条件的协议数据再重新进行计算的方式得到连通性，且此类计算都属于全量计算，这会极大的耗费空间和时间资源。

发明内容

有鉴于此，本发明提供了一种基于多图的连通分量增量计算方法，实现了将现有的连通分量数据进行合并得到新图后再计算得到新的连通分量。

本发明提供的一种基于多图的连通分量增量计算方法，包括以下步骤：

收集现有的连通分量ID形成连通分量集合，且不同图ID所包含的连通分量的ID均不相同；对所述连通分量集合进行聚合操作，将所有连通分量ID对应的图ID收集起来，形成(compontID,Set(图ID))；令Set(图ID)中只有一条数据的节点与自身连接形成自连接的边，令Set(图ID)中具有多条数据的节点彼此互联形成互联的边，由此形成新图；对所述新图进行连通分量计算得到Ip与新连通分量ID的数据对。

进一步地，所述对所述连通分量集合进行聚合操作的方式为采用大数据处理框架Spark的reduceByKey方法实现。

进一步地，在所述对所述新图进行连通分量计算得到Ip与新连通分量ID的数据对后，将Ip与新连通分量ID的数据对存储为(IP,新连通分量ID，新图ID)。

进一步地，所述将Ip与新连通分量ID的数据对存储为(IP,新连通分量ID，新图ID)的过程为分成时间阶段进行存储，即先计算所述时间阶段内的连通分量，再对连通分量进行合并后计算全部数据的连通分量。

进一步地，所述时间阶段为一周。

有益效果：

1、本发明通过对连通分量进行重新编号，连接形成一张图，再进行计算得到新的连通分量，实现合并含有相同点的不同图后再进行连通分量的计算，解决了在合并图时，需要重新计算连通分量，导致计算时间长、效率低的问题。

2、本发明通过记录设定时间内的连通分量数据，实现在需要去除某些冗余数据时，将其时间的数据进行合并计算，避免了重新获取所有边再计算，减小了单次计算的时间以及空间占用，使得在去除冗余数据时更加方便、效率。

具体实施方式

下面列举实施例，对本发明进行详细描述。

本发明涉及以下定义及方法：

图ID：用来标记图的索引，所有包含同一图ID的数据，都属于这张图，可在此图上进行图论相关算法的计算，数据类型为整型。

连通分量ID(componentID)：用于标记图中的每一连通分量(connectedcomponent)唯一性的索引值，同一连通分量ID内的所有节点都属于同一张图，并且是相互连通的，数据类型为整型。

reduceByKey：为Spark中的聚合方法，使用关联和交换归约函数合并每个键的值。

本发明提供的一种基于多图的连通分量增量计算方法的技术原理是：

假设两个节点n1、n2在合并之前的某张图中互相连通，那么这两个节点在合并后的图中依旧互相连通；假设两个节点n1、n2在图G1中不能连通且分别属于连通分量c1、c2，且存在图Gk，图Gk中存在连通分量c3包含这两个节点，那么合并之后c1、c2、c3中包含的所有节点都是互相连通的；将图中的连通分量化简为节点，节点与节点之间的边化简为连通分量的自连边，合并时不会导致计算连通分量时的信息丢失，可将多个图中的大量点和边化简为连通分量，以及连通分量之间的边。本发明的处理逻辑满足大规模数据的拆分计算的基本思路，因此实现方式采用基于大数据框架思想，实现过程中包含部分大数据处理框架Spark的操作方法以简化难度。

本发明提供的一种基于多图的连通分量增量计算方法，具体包括以下步骤：

步骤1、收集现有的连通分量ID，且保证不同的图ID所包含的连通分量的ID不同。

收集现有的连通分量ID(componentID)，并对不同的图ID下的componentID重新编号，使得其不会重复。具体来说，对现有的连通分量集合，将所有(componentID，图ID)转化为(componentID,Set(图ID))，此时每个Set只有一个值。

步骤2、对于现有的连通分量集合，进行reduceBykey操作找出出现在多个图中的IP，得到得到一组(compontID,Set(图ID))。

具体来说，通过执行reduceByKey(fun(set1,set2)＝>set1+set2)收集操作，得到一组(compontID,Set(图ID))，实现将所有componentID对应的图ID收集起来。reduceByKey方法聚合componentID相同的所有数据，并通过规约函数将两个集合合并起来。例如((Ip1,(1))、(Ip1,(2))合并之后得到((Ip,(1,2))。

即对于由现有连通分量(IP,set(componentID，图ID))组成的键值(key-value)对，进行reduceByKey操作，将在多个图中出现的IP都找出来，此时reduceByKey的结果为同一IP对应的所有(componentID,图ID)的集合。对于数据中的任何一个IP，对应的集合中包含所有出现过此IP的连通分量ID以及图ID。

然后，将所有图中的componentID取数值上的最大值，记为Cmax，再将不同图下重复的componentID重新编号，由于当前连通分量的最大值为Cmax，那么重新编号时大于Cmax的值都可保证其唯一性，将重新编号后的词典广播到所有计算节点上，在整个分布式集群上应用。

经过上述操作后，得到一组(IP,componentID,图ID)，此时不同的图ID对应的componentID都各不相同。

步骤3、将Set中只有一条数据的所有节点与自身连接，形成一条自连接的边。将Set中具有多条数据的节点，flatmap成多个(componentID,图ID)彼此互联的边，由此形成了一张新图。

具体来说，对连通分量重新编号后，对现有的连通分量集合中的图进行重新计算，得到新的连通分量，并将其存储。对于每一条IP而言，将value集合中的所有节点连接一下自身，形成一条自连接的边。将value集合中有多条数据的节点，展开成多个(componentID,图ID)彼此互联的边。这样做的意义是，由于集合中的所有componentID都代表了一个连通分量，那么连通分量内的IP之间互联关系表现出来的情况就是一个自连边。而不属于同一componentID之间的IP的连接关系，则表现为两个componentID之间的互联边。经过此变换形成了一张新图。

例如，一条("192.168.1.100",((5,"图1"),(8,"图2"),(10100,"图3"))的数据，重组之后的edge就是((5->5),(8->8),(10100->10100),(5->8),(5->10100))此时5条边即可保证此图的连通性变换正确，此时新图的连接关系可以完整表现所有IP节点的连接关系。

步骤4、将这张新图进行连通分量计算，可以得到(Ip，新的连通分量ID)，更新数据库，存储为(IP,新的连通分量ID，新图ID)。

此外，之前保存的(IP，componentID，图ID)数据保留一段时间，当需要回滚操作时删除(IP,新的连通分量ID，新图ID)即可还原，当确认更新时删除所有旧的图ID对应的数据即可。更新数据库，存储为(IP,新的连通分量ID，新图ID)。此时合并后的连通分量已经计算完成。

合并后的图ID对于计算并没有影响，只是用来标识整张图的索引，具有唯一性，所有包含这一个图ID的IP数据，都属于这张图。例如：(图1,图2)合并为图3，那么对于数据来讲，原始数据应该是一组(IP,连通分量id1,"图1")和一组(IP,连通分量id2,"图2")，最后的结果数据就是一组(IP,连通分量id3,"图3")，"图3"加上IP两个字段构成"唯一索引"。

此外，为了进一步提高存储效率，本发明采用分层存储的方式。

分层存储的方法建立在连通分量合并的基础上，通过分阶段对连通分量进行存储计算，以应对数据的时效性，避免了数据更新删除带来的连通分量全量计算，较好的提高了计算效率。具体步骤如下：计算设定时间内的连通分量，通过合并连通分量后计算全部的连通分量，当需要去除一部分冗余数据时，取出正确的数据进行合并，相比重新计算极大的提升了性能。

例如，当分层存储的方法建立在连通分量合并的基础上，将数据按周划分阶段，对连通分量进行存储计算，以应对数据的时效性，避免了数据更新删除带来的连通分量全量计算，较好的提高了计算效率。具体步骤如下：

S1、计算一周的连通分量；

S2、通过上述合并连通分量后，计算全部的连通分量；

S3、当需要去除一部分冗余数据，那么取出正确的数据，进行合并即可。

综上，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多图的连通分量增量计算方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的连通分量增量计算方法，其特征在于，所述对所述连通分量集合进行聚合操作的方式为采用大数据处理框架Spark的reduceByKey方法实现。

3.根据权利要求1所述的连通分量增量计算方法，其特征在于，在所述对所述新图进行连通分量计算得到Ip与新连通分量ID的数据对后，将Ip与新连通分量ID的数据对存储为(IP,新连通分量ID，新图ID)。

4.根据权利要求3所述的连通分量增量计算方法，其特征在于，所述将Ip与新连通分量ID的数据对存储为(IP,新连通分量ID，新图ID)的过程为分成时间阶段进行存储，即先计算所述时间阶段内的连通分量，再对连通分量进行合并后计算全部数据的连通分量。

5.根据权利要求4所述的连通分量增量计算方法，其特征在于，所述时间阶段为一周。