CN110309367B

CN110309367B - 信息分类的方法、信息处理的方法和装置

Info

Publication number: CN110309367B
Application number: CN201810179474.5A
Authority: CN
Inventors: 黄维东; 黄俊洲; 黄文炳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2022-11-08
Anticipated expiration: 2038-03-05
Also published as: CN110309367A

Abstract

本发明实施例公开了一种信息处理的方法，所述方法应用于分布式系统，所述信息分类信息包括多个第一服务器以及第二服务器，所述方法包括：获取待分类关系图的全局信息，其中，所述全局信息包含多个局部信息；对所述待分类关系图的局部信息进行处理，得到子变化信息；向所述第二服务器发送所述子变化信息，以使所述第二服务器根据所述多个第一服务器发送的子变化信息确定总变化信息，所述第二总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果。本发明实施例中还公开了一种服务器。本发明实施例大幅地降低了信息处理量，减少通信开销，从而提升分布式系统的性能。

Description

信息分类的方法、信息处理的方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及信息分类的方法、信息处理的方法和装置。

背景技术

复杂网络已成为计算机科学、生物学和社会信息学等多个领域的研究热点之一，如何准确且高效地发现复杂网络中存在的具有社区特性的系统结构分布，成为值得深入研究的问题。图是复杂网络的一种体现，图包含有节点和边的集合，通常节点代表该系统的组成成员，边用以描述系统成员间的相互作用关系。

目前，可采用分布式系统框架对复杂网络进行团伙划分，一种常见的分布式系统框架为社区发现(fast-unfolding)算法框架，请参阅图1，图1为fast-unfolding算法的分布式系统框架示意图，如图所示，首先采用专门的图分割算法，保证不同节点设备之间子图节点的相互邻居最少，然后只在第一次迭代使用分布式，这样可以保证分布式的效果下降不太严重，由于图变小计算量变少了，后续的迭代改为单机进行，最终完成整个团伙划分的过程。

然而，由于图学习所需要计算的数据规模越来越大，单机往往无法进行计算，所以需要分布式节点设备共同处理才能够完成数据的训练，而目前的处理方式需要对全局信息进行迭代处理，这样的话会带来较大的通信开销，从而降低分布式系统的性能。

发明内容

本发明实施例提供了一种信息分类的方法、信息处理的方法和装置，在分布式系统中对局部信息的变化进行汇总后进行下一次的迭代处理，大幅地降低了信息处理量，减少通信开销，从而提升分布式系统的性能。

有鉴于此，本发明第一方面提供了一种信息分类的方法，所述方法应用于分布式系统，所述分布式系统包括多个第一服务器以及第二服务器，所述方法包括：

获取待分类关系图的全局信息，其中，所述全局信息包含第一局部信息和第二局部信息；

对所述第一局部信息进行处理，得到第一子变化信息；

向所述第二服务器发送所述第一子变化信息，以使所述第二服务器根据所述多个第一服务器发送的第一子变化信息确定第一总变化信息；

接收所述第二服务器发送的所述第一总变化信息；

根据所述第一总变化信息对所述第二局部信息进行处理，得到第二子变化信息；

向所述第二服务器发送所述第二子变化信息，以使所述第二服务器根据所述多个第一服务器发送的第二子变化信息确定第二总变化信息，所述第二总变化信息用于确定所述待分类关系图的信息分类结果。

本发明第二方面提供了一种信息处理的方法，所述方法应用于分布式系统，所述信息分类信息包括多个第一服务器以及第二服务器，所述方法包括：

获取待分类关系图的全局信息，其中，所述全局信息包含多个局部信息；

对所述待分类关系图的局部信息进行处理，得到子变化信息；

向所述第二服务器发送所述子变化信息，以使所述第二服务器根据所述多个第一服务器发送的子变化信息确定总变化信息，所述总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果。

本发明第三方面提供了一种信息处理的方法，所述方法应用于分布式系统，所述信息分类信息包括多个第一服务器以及第二服务器，所述方法包括：

接收每个第一服务器发送的子变化信息，其中，所述子变化信息为所述每个第一服务器根据对待分类关系图的局部信息进行处理后得到的，所述局部信息属于所述待分类关系图的全局信息的一部分；

根据所述每个第一服务器发送的子变化信息确定总变化信息；

根据所述总变化信息确定所述待分类关系图的信息分类结果。

本发明第四方面提供了一种服务器，所述服务器应用于分布式系统，所述信息分类信息还包括第二服务器，所述服务器包括：

获取模块，用于获取待分类关系图的全局信息，其中，所述全局信息包含多个局部信息；

处理模块，用于对所述待分类关系图的局部信息进行处理，得到子变化信息；

发送模块，用于向所述第二服务器发送所述处理模块处理得到的所述子变化信息，以使所述第二服务器根据所述多个服务器发送的子变化信息确定总变化信息，所述总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果。

本发明第五方面提供了一种服务器，所述服务器应用于分布式系统，所述信息分类信息还包括多个第一服务器，所述服务器包括：

接收模块，用于接收每个第一服务器发送的子变化信息，其中，所述子变化信息为所述每个第一服务器根据对待分类关系图的局部信息进行处理后得到的，所述局部信息属于所述待分类关系图的全局信息的一部分；

确定模块，用于根据所述接收模块接收的所述每个第一服务器发送的子变化信息确定总变化信息；

本发明第六方面提供了一种服务器，所述服务器应用于分布式系统，所述信息分类信息还包括第二服务器，所述服务器包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

向所述第二服务器发送所述子变化信息，以使所述第二服务器根据所述多个第一服务器发送的子变化信息确定总变化信息，所述总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明第七方面提供了一种服务器，所述服务器应用于分布式系统，所述信息分类信息还包括多个第一服务器，所述服务器包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述总变化信息确定所述待分类关系图的信息分类结果；

本发明第八方面提供了一种分布式系统，所述分布式系统包括多个第一服务器以及第二服务器，所述分布式系统包括：

所述第一服务器获取待分类关系图的全局信息，其中，所述全局信息包含多个局部信息；

所述第一服务器对所述待分类关系图的局部信息进行处理，得到子变化信息；

所述第一服务器向所述第二服务器发送所述子变化信息；

所述第二服务器根据所述每个第一服务器发送的子变化信息确定总变化信息；

所述第二服务器根据所述总变化信息确定所述待分类关系图的信息分类结果。

本发明的第九方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供了一种信息处理的方法，首先由第一服务器获取待分类关系图的全局信息，其中，全局信息包含多个局部信息，然后第一服务器对待分类关系图的局部信息进行处理，得到子变化信息，最后第一服务器向第二服务器发送子变化信息，以使第二服务器根据多个第一服务器发送的子变化信息确定总变化信息，第二总变化信息用于第二服务器确定待分类关系图的信息分类结果。通过上述方式，在分布式系统中每次迭代处理的数据仅为全局信息中的局部信息，对局部信息的变化进行汇总后进行下一次的迭代处理，由此，大幅地降低了信息处理量，减少通信开销，从而提升分布式系统的性能。

附图说明

图1为fast-unfolding算法的分布式系统框架示意图；

图2为本发明实施例中分布式系统的一个架构示意图；

图3为本发明实施例中信息分类的方法一个实施例示意图；

图4为本发明实施例中信息处理的方法一个实施例示意图；

图5为本发明实施例中团伙分类的一个示意图；

图6为本发明实施例中信息分类的方法另一个实施例示意图；

图7为本发明应用场景中分布式图学习系统初始化的一个结构示意图；

图8为本发明应用场景中分布式图学习系统计算的一个结构示意图；

图9为本发明实施例中第一服务器的一个实施例示意图；

图10为本发明实施例中第一服务器的另一个实施例示意图；

图11为本发明实施例中第二服务器的一个实施例示意图；

图12为本发明实施例中第二服务器的另一个实施例示意图；

图13为本发明实施例中第二服务器的另一个实施例示意图；

图14为本发明实施例中服务器的一个实施例示意图；

图15为本发明实施例中分布式系统的一个实施例示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明实施例主要应用于图学习的分布式系统，虽然不会直接面向产品，但是覆盖的图学习算法能够应用在推荐系统、金融风控和社交互换画像等产品领域，能够达到用户聚类的目的，从而确定每个用户所属的群体。比如，在广告推荐系统中的图(graph，G)是表示用户与用户之间的关系，通过图学习能够得到属于相同类型的用户群体，根据该用户群体便能更准确地推送广告。

图是一个有序二元组(V,E)，其中，“V”称为节点集(vertex set，V)，“E”称为边集(edge set，E)，E与V不相交，它们亦可写成V(G)和E(G)。E的元素都是二元组，可以用(x,y)表示。此外，图也可以是一个有序三元组(V,E,I)其中，“V”称为节点集(vertex set，V)，“E”称为边集(edge set，E)，E与V不相交，“I”称为关联函数，I将E中的每一个元素映射到V×V，它们亦可写成V(G)、E(G)和I(G)。此处以二元组为例进行介绍，然而这并不构成对本方案的限定，

本发明实施例中，可以采用如下基本操作对图进行处理，可以理解的是，在实际应用中，对图的基本操作包含但不仅限于如下内容：

(1)创建一个图结构CreateGraph(G)；

(2)检索给定顶点LocateVex(G,elem)；

(3)获取图中某个顶点GetVex(G,v)；

(4)为图中顶点赋值PutVex(G,v,value)；

(5)返回第一个邻接点FirstAdjVex(G,v)；

(6)返回下一个邻接点NextAdjVex(G,v,w)；

(7)插入一个顶点InsertVex(G,v)；

(8)删除一个顶点DeleteVex(G,v)；

(9)插入一条边InsertEdge(G,v,w)；

(10)删除一条边DeleteEdge(G,v,w)；

(11)遍历图Traverse(G,v)。

为了便于介绍，请参阅图2，图2为本发明实施例中分布式系统的一个架构示意图，如图所示，分布式系统包括多台第一服务器和一台第二服务器，第二服务器为主服务器(server)，第一服务器为即为独立机器(worker)，worker也是分布式系统中独立机器的描述词。每个第一服务器均能与第二服务器进行通信，既可以向第二服务器发送信息，也可以接收第二服务器发送的信息。第一服务器用于处理图的一部分信息，由第二服务器进行汇总，再将汇总后的信息下发至第一服务器，多次迭代后可形成图的分类结果。

下面先结合图3，介绍本发明实施例中信息分类的方法，请参阅图3，图3为本发明实施例中信息分类的方法一个实施例示意图，以两次迭代为例进行介绍，在实际应用中，可能会存在更多次的迭代，此处仅为一个示意，并不应构成对本发明的限定。信息分类的方法一个实施例包括：

101、获取待分类关系图的全局信息，其中，全局信息包含第一局部信息和第二局部信息；

本实施例中，分布式系统中的每个第一服务器需要获取待分类关系图的全局信息，其中，全局信息具体包括待分类关系图中各个节点之间的连接关系，以及各个节点与边之间的连接关系。将全局信息划分为多个局部信息，局部信息即为全局信息的一部分，这里以将全局信息划分为第一局部信息和第二局部信息为例进行说明。

102、对第一局部信息进行处理，得到第一子变化信息；

本实施例中，每个第一服务器均对划分好的第一局部信息进行处理，具体可以是聚类处理，也就是将第一局部信息中具有关联关系的节点信息划分到一个团伙，并采用不同的身份标识(identification，ID)来表示不同的团伙。将本次对第一局部信息进行处理后得到的团伙分类结果与上一次得到的团队分类结果进行对比，可以得到第一子变化信息。

比如，上一次得到的团队分类结果如表1所示。

表1

团伙ID	节点信息
		A	1、2、5、9、11
B	3、6、10
		C	4、7、8、12

本次得到的团队分类结果如表2所示。

表2

团伙ID	节点信息
		A	1、2、5、9、11
B	3、6、10
		C	4、7
D	8、12

对表1和表2中的结果进行对比，可以看出，团伙ID发生了变化，且团伙ID为C的节点信息和团伙ID为D的节点信息也发生了变化，于是将这些变化的信息作为第一子变化信息。

103、向第二服务器发送第一子变化信息，以使第二服务器根据多个第一服务器发送的第一子变化信息确定第一总变化信息；

本实施例中，每个第一服务器分别将对比后得到的第一子变化信息发送至第二服务器，由第二服务器进行汇总，并得到汇总后的第一总变化信息。

104、接收第二服务器发送的第一总变化信息；

本实施例中，每个第一服务器都会接收到第二服务器下发的第一总变化信息，第一服务器可以将第一总变化信息存储在本地，因为这会影响下一轮迭代计算的结果，同时，还可根据第一总变化信息对待分类关系图的全局信息进行更新，使得全局信息更趋近于最终的分类结果。至此，可认为完成一次计算迭代。

105、根据第一总变化信息对第二局部信息进行处理，得到第二子变化信息；

本实施例中，在第二轮迭代计算中，每个第一服务器根据第一总变化信息获取更新后的全局信息，更新后的全局信息中节点信息之间的关联性也会发生变化，于是，根据更新后的全局信息对第二局部信息进行处理，处理方式与上述步骤102类似，故此处不做赘述。

106、向第二服务器发送第二子变化信息，以使第二服务器根据多个第一服务器发送的第二子变化信息确定第二总变化信息，第二总变化信息用于确定待分类关系图的信息分类结果。

本实施例中，每个第一服务器分别将对比后得到的第二子变化信息发送至第二服务器，由第二服务器进行汇总，并得到汇总后的第二总变化信息。第二服务器能够根据第二总变化信息对待分类关系图进行处理，得到所需的信息分类结果。

本发明实施例中，在对待分类关系图进行划分时无需采用特定的算法，只需简单切割即可得到局部信息，从而具有较好的通用性。此外，由于切割不需要采用特定的算法，从而降低了计算开销。另外，在分布式系统中每次迭代处理的数据仅为全局信息中的局部信息，对局部信息的变化进行汇总后进行下一次的迭代处理，由此，大幅地降低了信息处理量，减少通信开销，从而提升分布式系统的性能。

下面将从第一服务器的角度，对本发明中信息处理的方法进行介绍，请参阅图4，本发明实施例中信息处理的方法应用于分布式系统，该分布式系统包括多个第一服务器以及第二服务器，信息处理的方法一个实施例包括：

201、获取待分类关系图的全局信息，其中，全局信息包含多个局部信息；

本实施例中，首先，分布式系统中的每个第一服务器需要获取待分类关系图的全局信息，其中，全局信息具体包括待分类关系图中各个节点之间的连接关系，以及各个节点与边之间的连接关系。将全局信息划分为多个局部信息，局部信息即为全局信息的一部分，本发明可以将全局信息划分多个局部信息。

202、对待分类关系图的局部信息进行处理，得到子变化信息；

本实施例中，每个第一服务器均对划分好的局部信息进行处理，具体可以是聚类处理，也就是将局部信息中具有关联关系的节点信息划分到一个团伙，并采用不同的ID来表示不同的团伙。将本次对局部信息进行处理后得到的团伙分类结果与上一次得到的团队分类结果进行对比，可得到子变化信息。

203、向第二服务器发送子变化信息，以使第二服务器根据多个第一服务器发送的子变化信息确定总变化信息，总变化信息用于第二服务器确定待分类关系图的信息分类结果。

本实施例中，每个第一服务器分别将对比后得到的子变化信息发送至第二服务器，由第二服务器进行汇总，并得到汇总后的总变化信息。后续，第二服务器能够根据总变化信息对待分类关系图进行处理，得到所需的信息分类结果。

可选地，在上述图4对应的实施例的基础上，本发明实施例提供的信息处理的方法第一个可选实施例中，获取待分类关系图的全局信息之前，还可以包括：

获取待分类关系图，其中，待分类关系图被划分为N份节点信息，其中，N为大于0的正整数，每个第一服务器对应1/N份节点信息；

向第二服务器发送1/N份节点信息，以使第二服务器获取多个第一服务器发送的1/N份节点信息。

本实施例中，分布式系统在计算信息分类结果之前，还需要先做一次信息初始化处理，信息初始化进行一次即可，后续的计算是迭代进行的。下面将介绍信息初始化的第一个过程，即信息读取的过程。

具体地，首先需要将完整的待分类关系图分发到不同的(N个)第一服务器上进行计算，完整的待分类关系图对应分布式任务而言是非常大的，每个第一服务器读取一份完整的待分类关系图速度很慢。因此，可以将待分类关系图拆分成N份(让相邻节点信息称为一份)，因此，每个第一服务器读取其中的1/N份，然后根据节点分布算法确定每台第一服务器负责的节点信息。由于一般图算法需要图全局的信息，比如全局边数或全局权重数等，因此每个第一服务器需要在汇总本地的1/N份节点信息之后，将这些信息发送至第二服务器端进行信息汇总。

其次，本发明实施例中，将待分类关系图划分为N份节点信息，每台第一服务器只需要读取1/N份节点信息即可，并将读取结果发送给第二服务器，第二服务器汇总各个第一服务器发送的读取结果，从而得到整个待分类关系图的全局信息。通过上述方式，将待分类关系图拆分为多份信息，分别在不同的设备上读取，能够大幅度地提升数据读取的效率。

可选地，在上述图4对应的第一个实施例的基础上，本发明实施例提供的信息处理的方法第二个可选实施例中，获取待分类关系图的全局信息，可以包括：

接收第二服务器发送的待分类关系图的全局信息，其中，全局信息为第二服务器根据多个第一服务器发送的1/N份节点信息所确定的。

本实施例中，由于在信息计算阶段需要使用到待分类关系图的全局信息，在前一个阶段已经完成全局信息的汇总，所以这个阶段需要将全局的信息分发到不同的第一服务器，这样能够保证所有的第一服务器关于全局信息全部一致。

再次，本发明实施例中，第一服务器能够接收第二服务器发送的待分类关系图的全局信息。通过上述方式，能够保证所有的第一服务器得到一致的全局信息，从而在后续的计算阶段，各个第一服务器对全局信息的计算具有较好的协同性，以此，提升信息分类结果的可靠性。

可选地，在上述图4对应的第一个或第二个实施例的基础上，本发明实施例提供的信息处理的方法第三个可选实施例中，向第二服务器发送1/N份节点信息之前，还可以包括：

向与第一服务器属于相同服务器的其他第一服务器发送关联节点信息，其中，关联节点信息与1/N份节点信息具有关联关系。

本实施例中，第一服务器在根据节点分布算法确定第一服务器负责的节点信息之后，还可以向与第一服务器属于相同服务器的其他第一服务器发送关联节点信息。

具体地，假设待分类关系图有M个节点信息，第一台第一服务器负责节点信息的ID可以是[0,(M/N)-1)，第二台第一服务器负责节点信息的ID可以是[M/N,(2M/N)-1)，依次类推。每台第一服务器将属于其他第一服务器的节点信息发送至其他第一服务器，比如第一服务器管理3号节点信息，与3号节点信息具有关联的5号节点信息属于另一个第一服务器，此时，管理3号节点信息的第一服务器会告诉另一个管理5号节点信息的第一服务器，使得节点信息在第一服务器之间互通。

进一步地，本发明实施例中，第一服务器在向第二服务器发送1/N份节点信息之前，还可以向与第一服务器属于相同服务器的其他第一服务器发送关联节点信息，其中，关联节点信息与1/N份节点信息具有关联关系。通过上述方式，多个第一服务器之间也能够相互通信，从而相互之间可传递关联的节点信息，从而使得每个第一服务器获取到更多的周边相关节点信息，有利于提升信息初始化的准确性和全面性。

可选地，在上述图4对应的实施例的基础上，本发明实施例提供的信息处理的方法第四个可选实施例中，对待分类关系图的局部信息进行处理，得到子变化信息，可以包括：

通过团伙分类模型对待分类关系图的局部信息进行处理，得到局部信息所对应的第一团伙分类结果，其中，团伙分类模型用于划分具有关联关系的节点信息；

根据第一团伙分类结果与第二团伙分类结果确定子变化信息，其中，第二团伙分类结果为上一个局部信息处理后得到的分类结果。

本实施例中，将介绍如何得到子变化信息，在得到子变化信息的过程中，还需要了解如何得到团伙分类结果。即通过团伙分类模型对待分类关系图的局部信息进行处理，得到局部信息所对应的第一团伙分类结果，其中，团伙分类模型用于划分具有关联关系的节点信息。

具体地，请参阅图5，图5为本发明实施例中团伙分类的一个示意图，如图所示，假设待处理关系图包含0号至16号的节点信息，采用小批次(minibatch)计算，将节点信息进行关联，将每个节点信息划分到与其邻接的节点所在的团伙中，以使得模块度的值不断变大，划分后的团伙如下表3所示。

表3

团伙ID	关联节点信息
		A	0号、1号、2号、4号和5号
B	3号、6号和7号
		C	8号、9号、12号、14号和15号
D	11号和13号

根据划分的结果进行团伙分类，将上一步划分出来的团伙聚合成为一个点，即根据上一步生成的社区结构重新构造网络。重复以上的过程，直到网络中的结构不再改变为止，重构的过程可以是，将关联节点信息输入至通过团伙分类模型，并输出对应的团伙分类结果，再将该团伙分类结果输入至通过团伙分类模型，直到生成最终的团伙分类结果。

其次，本发明实施例中，首先通过团伙分类模型对待分类关系图的局部信息进行处理，得到局部信息所对应的第一团伙分类结果，然后根据第一团伙分类结果与第二团伙分类结果确定子变化信息。通过上述方式，采用minibatch的技术能够利用部分信息来代表整体信息进行计算，从而提升计算的效率，这种做法能够实时同步变化信息，并且需要通信的信息只是图算法中的一些变化信息，往往这种信息数据量非常少，并不会带来很大的通信开销，这样能够保证分布式系统的性能。

可选地，在上述图4或图4对应的四个实施例的基础上，本发明实施例提供的信息处理的方法第五个可选实施例中，

向第二服务器发送子变化信息，以使第二服务器根据多个第一服务器发送的子变化信息确定总变化信息之后，还可以包括：

接收第二服务器发送的总变化信息；

根据总变化信息更新待分类关系图的全局信息。

本实施例中，第二服务器在收到每个第一服务器发送的子变化信息后，会对这些子变化信息进行汇总，从而得到总变化信息。于是第二服务器向每个第一服务器发送总变化信息，每个第一服务器在收到总变化信息之后，会在本地存储总变化信息，存储在本地可以便于下一次minibatch的计算，直接在本地调用总变化信息能够有效地提升计算效率。此外，每个第一服务器还会更新总变化信息更新本地存储的全局信息，因为全局信息会影响下一次本地minibatch的计算结果。

其次，本发明实施例中，第二服务器会分别向每个第一服务器发送总变化信息，以使每个第一服务器存储总变化信息，并更新待分类关系图的全局信息。通过上述方式，第二服务器完成的总变化信息汇总后，需要将汇总后的总变化信息分发到所有第一服务器，这样每一次minibatch计算后都能够保证所有第一服务器的总变化信息能够同步一次，从而使得第一服务器的本地化计算损失最小化。

下面将从第二服务器的角度，对本发明中信息处理的方法进行介绍，请参阅图6，本发明实施例中信息处理的方法应用于分布式系统，该分布式系统包括多个第一服务器以及第二服务器，信息处理的方法一个实施例包括：

301、接收每个第一服务器发送的子变化信息，其中，子变化信息为每个第一服务器根据对待分类关系图的局部信息进行处理后得到的，局部信息属于待分类关系图的全局信息的一部分；

本实施例中，分布式系统中的每个第一服务器需要获取待分类关系图的全局信息，其中，全局信息具体包括待分类关系图中各个节点之间的连接关系，以及各个节点与边之间的连接关系。将全局信息划分为多个局部信息，局部信息即为全局信息的一部分，本发明可以将全局信息划分多个局部信息。每个第一服务器均对划分好的局部信息进行处理，具体可以是聚类处理，也就是将局部信息中具有关联关系的节点信息划分到一个团伙，并采用不同的ID来表示不同的团伙。将本次对局部信息进行处理后得到的团伙分类结果与上一次得到的团队分类结果进行对比，可得到子变化信息。

分布式系统中的第二服务器将收到每个第一服务器发送的子变化信息。

302、根据每个第一服务器发送的子变化信息确定总变化信息；

本实施例中，由第二服务器对每个第一服务器发送的子变化信息进行汇总处理，简单地说，汇总就是把收集到的所有子变化信息进行合并，从而形成总变化信息。

303、根据总变化信息确定待分类关系图的信息分类结果。

本实施例中，分布式系统中的第二服务器能够根据总变化信息对待分类关系图进行训练，并得到训练后输出的信息分类结果。

本发明实施例中，第二服务器接收每个第一服务器发送的子变化信息，然后根据每个第一服务器发送的子变化信息确定总变化信息，最后第二服务器根据总变化信息确定待分类关系图的信息分类结果。通过上述方式，在分布式系统中每次迭代处理的数据仅为全局信息中的局部信息，对局部信息的变化进行汇总后进行下一次的迭代处理，由此，大幅地降低了信息处理量，减少通信开销，从而提升分布式系统的性能。

可选地，在上述图6对应的实施例的基础上，本发明实施例提供的信息处理的方法第一个可选实施例中，待分类关系图被划分为N份节点信息，N为大于0的正整数；

接收每个第一服务器发送的子变化信息之前，还可以包括：

接收每个第一服务器发送的1/N份节点信息；

根据每个第一服务器发送的1/N份节点信息，获取待分类关系图的全局信息。

因此，在第二服务器接收多个第一服务器发送的子变化信息之前，需要完成信息初始化处理，也就是接收每个第一服务器发送的1/N份节点信息，然后根据每个第一服务器发送的1/N份节点信息，获取待分类关系图的全局信息，在将待分类关系图的全局信息分发给每个第一服务器。

可选地，在上述图6对应的第一个实施例的基础上，本发明实施例提供的信息处理的方法第二个可选实施例中，根据每个第一服务器发送的1/N份节点信息，获取待分类关系图的全局信息之后，方法还包括：

向每个第一服务器发送待分类关系图的全局信息，以使每个第一服务器对全局信息中的局部信息进行处理，得到子变化信息。

可选地，在上述图6、图6对应的第一个或第二个实施例的基础上，本发明实施例提供的信息处理的方法第三个可选实施例中，根据每个第一服务器发送的子变化信息确定总变化信息之后，还可以包括：

分别向每个第一服务器发送总变化信息，以使每个第一服务器存储总变化信息，并更新待分类关系图的全局信息。

进一步地，本发明实施例中，第二服务器会分别向每个第一服务器发送总变化信息，以使每个第一服务器存储总变化信息，并更新待分类关系图的全局信息。通过上述方式，第二服务器完成的总变化信息汇总后，需要将汇总后的总变化信息分发到所有第一服务器，这样每一次minibatch计算后都能够保证所有第一服务器的总变化信息能够同步一次，从而使得第一服务器的本地化计算损失最小化。

为了便于理解，分布式系统包括信息初始化与信息计算两部分，下面将结合图7和图8介绍这两个部分。

首先是信息初始化阶段，信息初始化阶段包括读信息、信息汇总与信息分发三个阶段。请参阅图7，图7为本发明应用场景中分布式图学习系统初始化的一个结构示意图，如图所示，图中的3个第一服务器仅为一个示意，在实际应用中，存在其他数量的第一服务器，具体地：

读信息阶段，需要将完整的待处理关系图G(包括节点信息V和边信息E)分发的不同的N台第一服务器上进行计算，完整数据对于分布式任务而言，文件大小非常大，每个节点完整读一份文件速度较慢，因此可以将完整的待处理关系图G进行拆分，得到N份节点信息，每个第一服务器只需要读1/N份节点信息，然后完成整个待处理关系图的读取。

信息汇总阶段，由于一般图算法需要图全局的信息，比如全局边数以及全局权重数等，因此每个第一服务器需要首先汇总本地的这些信息，然后将这些信息发送至第二服务器端进行信息汇总。

信息分发阶段，由于在计算阶段算法需要使用到全局图的相关信息，在前一个阶段已经完成全局信息的汇总，这个阶段需要将全局的信息分发到不同的第一服务器上，这样能够保证所有的第一服务器关于全局信息全部一致。

然后是计算阶段，计算阶段包括本地minibatch计算、变化信息汇总、变化信息分发与变化信息本地化四个阶段。请参阅图8，图8为本发明应用场景中分布式图学习系统计算的一个结构示意图，如图所示，图中的3个第一服务器仅为一个示意，在实际应用中，存在其他数量的第一服务器，具体地：

本地minibatch计算，将本地负责的节点数M，根据设置的minibatch大小X，拆分成M/X个minibatch，每个minibatch只计算X个节点，这样能够保证局部分布式计算带来的损失尽量最少。可以理解的是，X的大小可以调整，X越大分布式计算的速度越快，但是效果会有所降低，而X越小，效果越好甚至相比单机版不会有下降，但是计算速度会有所下降，因此，需要选择合适的X大小。

变化信息汇总，每个第一服务器计算完一次minibatch后需要根据算法将图结构变化信息进行汇总，例如团伙划分，每次minibatch后图中每个节点信息所属于的团伙信息会发生变化，只需要将发生变化的这些信息汇总即可，每个第一服务器将子变化信息发送至第二服务器进行汇总，由第二服务器完成全局信息的汇总。

变化信息分发，上一个阶段第二服务器完成的总变化信息汇总后，需要将汇总后的总变化信息分发到所有第一服务器，这样每一次minibatch计算后都能够保证所有第一服务器的总变化信息能够同步一次。

变化信息本地化，第一服务器上一个阶段收到的第二服务器汇总的总变化信息，需要作用在本地存储上，并更新一次本地图的全局信息，影响下一次本地minibatch计算的结果，这样就完成一次minibatch的全部过程。

上述4个阶段构成一次minibatch的全部过程，一次训练完整迭代由多次minibatch构成，这种做法能够实时同步分布式图的计算信息，并且需要通信的数据只是图算法中的一些改变信息，往往这种信息数据量非常少，并不会带来很大的通信开销，这样能够保证分布式图系统的性能。

下面对本发明中的第一服务器进行详细描述，请参阅图9，图9为本发明实施例中第一服务器一个实施例示意图，第一服务器应用于分布式系统，分布式系统还包括第二服务器，服务器40包括：

获取模块401，用于获取待分类关系图的全局信息，其中，所述全局信息包含多个局部信息；

处理模块402，用于对所述待分类关系图的局部信息进行处理，得到子变化信息；

发送模块403，用于向所述第二服务器发送所述处理模块402处理得到的所述子变化信息，以使所述第二服务器根据所述多个服务器发送的子变化信息确定总变化信息，所述总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果。

本实施例中，获取模块401获取待分类关系图的全局信息，其中，所述全局信息包含多个局部信息，处理模块402对所述待分类关系图的局部信息进行处理，得到子变化信息，发送模块403向所述第二服务器发送所述处理模块402处理得到的所述子变化信息，以使所述第二服务器根据所述多个服务器发送的子变化信息确定总变化信息，所述总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果。

本发明实施例提供了一种服务器，首先获取待分类关系图的全局信息，其中，全局信息包含多个局部信息，然后对待分类关系图的局部信息进行处理，得到子变化信息，最后向第二服务器发送子变化信息，以使第二服务器根据多个第一服务器发送的子变化信息确定总变化信息，第二总变化信息用于第二服务器确定待分类关系图的信息分类结果。通过上述方式，在分布式系统中每次迭代处理的数据仅为全局信息中的局部信息，对局部信息的变化进行汇总后进行下一次的迭代处理，由此，大幅地降低了信息处理量，减少通信开销，从而提升分布式系统的性能。

可选地，在上述图9所对应的实施例的基础上，本发明实施例提供的服务器40的另一实施例中，

所述获取模块，还用于所述获取待分类关系图的全局信息之前，获取所述待分类关系图，其中，所述待分类关系图被划分为N份节点信息，其中，所述N为大于0的正整数，每个第一服务器对应1/N份节点信息；

所述发送模块，还用于向所述第二服务器发送所述1/N份节点信息，以使所述第二服务器获取所述多个第一服务器发送的1/N份节点信息。

所述获取模块，具体用于接收所述第二服务器发送的待分类关系图的全局信息，其中，所述全局信息为所述第二服务器根据所述多个第一服务器发送的1/N份节点信息所确定的。

所述发送模块，用于向所述第二服务器发送所述1/N份节点信息之前，向与所述第一服务器属于相同服务器的其他第一服务器发送关联节点信息，其中，所述关联节点信息与所述1/N份节点信息具有关联关系。

处理模块402，具体用于通过团伙分类模型对所述待分类关系图的局部信息进行处理，得到所述局部信息所对应的第一团伙分类结果，其中，所述团伙分类模型用于划分具有关联关系的节点信息；

根据所述第一团伙分类结果与第二团伙分类结果确定所述子变化信息，其中，所述第二团伙分类结果为上一个局部信息处理后得到的分类结果。

可选地，在上述图9所对应的实施例的基础上，请参阅图10，本发明实施例提供的服务器40的另一实施例中，所述服务器40还包括接收模块404和更新模块405；

所述接收模块404，用于所述发送模块向所述第二服务器发送所述子变化信息，以使所述第二服务器根据所述多个第一服务器发送的子变化信息确定总变化信息之后，接收所述第二服务器发送的所述总变化信息；

所述更新模块405，用于根据所述接收模块404接收的所述总变化信息更新所述待分类关系图的全局信息。

再次，本发明实施例中，第二服务器会分别向每个第一服务器发送总变化信息，以使每个第一服务器存储总变化信息，并更新待分类关系图的全局信息。通过上述方式，第二服务器完成的总变化信息汇总后，需要将汇总后的总变化信息分发到所有第一服务器，这样每一次minibatch计算后都能够保证所有第一服务器的总变化信息能够同步一次，从而使得第一服务器的本地化计算损失最小化。

下面对本发明中的第二服务器进行详细描述，请参阅图11，图11为本发明实施例中第二服务器一个实施例示意图，第二服务器应用于分布式系统，分布式系统还包括多个第一服务器，服务器50包括：

接收模块501，用于接收每个第一服务器发送的子变化信息，其中，所述子变化信息为所述每个第一服务器根据对待分类关系图的局部信息进行处理后得到的，所述局部信息属于所述待分类关系图的全局信息的一部分；

确定模块502，用于根据所述接收模块501接收的所述每个第一服务器发送的子变化信息确定总变化信息；

本实施例中，接收模块501接收每个第一服务器发送的子变化信息，其中，所述子变化信息为所述每个第一服务器根据对待分类关系图的局部信息进行处理后得到的，所述局部信息属于所述待分类关系图的全局信息的一部分，确定模块502根据所述接收模块501接收的所述每个第一服务器发送的子变化信息确定总变化信息，根据所述总变化信息确定所述待分类关系图的信息分类结果。

本发明实施例中，提供了一种服务器，该服务器接收每个第一服务器发送的子变化信息，然后根据每个第一服务器发送的子变化信息确定总变化信息，最后该服务器根据总变化信息确定待分类关系图的信息分类结果。通过上述方式，在分布式系统中每次迭代处理的数据仅为全局信息中的局部信息，对局部信息的变化进行汇总后进行下一次的迭代处理，由此，大幅地降低了信息处理量，减少通信开销，从而提升分布式系统的性能。

可选地，在上述图11所对应的实施例的基础上，请参阅图12，本发明实施例提供的服务器50的另一实施例中，所述待分类关系图被划分为N份节点信息，所述N为大于0的正整数，所述服务器50还包括获取模块503；

所述接收模块501，还用于接收每个第一服务器发送的子变化信息之前，接收所述每个第一服务器发送的1/N份节点信息；

所述获取模块503，用于根据所述接收模块501接收的所述每个第一服务器发送的1/N份节点信息，获取所述待分类关系图的全局信息。

可选地，在上述图12所对应的实施例的基础上，请参阅图13，本发明实施例提供的服务器50的另一实施例中，所述服务器50还包括发送模块504；

所述发送模块504，用于所述获取模块503根据所述每个第一服务器发送的1/N份节点信息，获取所述待分类关系图的全局信息之后，向所述每个第一服务器发送所述待分类关系图的全局信息，以使所述每个第一服务器对所述全局信息中的局部信息进行处理，得到子变化信息。

可选地，在上述图11、图12或图13所对应的实施例的基础上，本发明实施例提供的服务器50的另一实施例中，

所述发送模块504，还用于根据所述每个第一服务器发送的子变化信息确定总变化信息之后，分别向所述每个第一服务器发送所述总变化信息，以使所述每个第一服务器存储所述总变化信息，并更新所述待分类关系图的全局信息。

图14是本发明实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图14所示的服务器结构。

所述CPU 622用于执行如下步骤：

对所述第一局部信息进行处理，得到第一子变化信息；

接收所述第二服务器发送的所述第一总变化信息；

下面将对本发明提供的分布式系统进行介绍，请参阅图15，图15为本发明实施例中分布式系统的一个实施例示意图，如图所示，分布式系统包括多个第一服务器701以及第二服务器702，分布式系统包括：

第一服务器701获取待分类关系图的全局信息，其中，全局信息包含多个局部信息，第一服务器701对待分类关系图的局部信息进行处理，得到子变化信息，第一服务器701向第二服务器702发送子变化信息，第二服务器702根据每个第一服务器701发送的子变化信息确定总变化信息，第二服务器702根据总变化信息确定待分类关系图的信息分类结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种信息分类的方法，其特征在于，所述方法应用于分布式系统，所述分布式系统包括多个第一服务器以及第二服务器，所述方法包括：

对所述第一局部信息进行处理，得到第一子变化信息；

接收所述第二服务器发送的所述第一总变化信息；

2.一种信息处理的方法，其特征在于，所述方法应用于分布式系统，所述分布式系统包括多个第一服务器以及第二服务器，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述获取待分类关系图的全局信息之前，所述方法还包括：

获取所述待分类关系图，其中，所述待分类关系图被划分为N份节点信息，其中，所述N为大于0的正整数，每个第一服务器对应1/N份节点信息；

向所述第二服务器发送所述1/N份节点信息，以使所述第二服务器获取所述多个第一服务器发送的1/N份节点信息。

4.根据权利要求3所述的方法，其特征在于，所述获取待分类关系图的全局信息，包括：

接收所述第二服务器发送的待分类关系图的全局信息，其中，所述全局信息为所述第二服务器根据所述多个第一服务器发送的1/N份节点信息所确定的。

5.根据权利要求3或4所述的方法，其特征在于，所述向所述第二服务器发送所述1/N份节点信息之前，所述方法还包括：

向与所述第一服务器属于相同服务器的其他第一服务器发送关联节点信息，其中，所述关联节点信息与所述1/N份节点信息具有关联关系。

6.根据权利要求2所述的方法，其特征在于，所述对所述待分类关系图的局部信息进行处理，得到子变化信息，包括：

通过团伙分类模型对所述待分类关系图的局部信息进行处理，得到所述局部信息所对应的第一团伙分类结果，其中，所述团伙分类模型用于划分具有关联关系的节点信息；

7.根据权利要求2或6所述的方法，其特征在于，所述向所述第二服务器发送所述子变化信息，以使所述第二服务器根据所述多个第一服务器发送的子变化信息确定总变化信息之后，所述方法还包括：

接收所述第二服务器发送的所述总变化信息；

根据所述总变化信息更新所述待分类关系图的全局信息。

8.一种信息处理的方法，其特征在于，所述方法应用于分布式系统，所述分布式系统包括多个第一服务器以及第二服务器，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，所述待分类关系图被划分为N份节点信息，所述N为大于0的正整数；

所述接收每个第一服务器发送的子变化信息之前，所述方法还包括：

接收所述每个第一服务器发送的1/N份节点信息；

根据所述每个第一服务器发送的1/N份节点信息，获取所述待分类关系图的全局信息。

10.根据权利要求9所述的方法，其特征在于，所述根据所述每个第一服务器发送的1/N份节点信息，获取所述待分类关系图的全局信息之后，所述方法还包括：

向所述每个第一服务器发送所述待分类关系图的全局信息，以使所述每个第一服务器对所述全局信息中的局部信息进行处理，得到子变化信息。

11.根据权利要求8至10中任一项所述的方法，其特征在于，所述根据所述每个第一服务器发送的子变化信息确定总变化信息之后，所述方法还包括：

分别向所述每个第一服务器发送所述总变化信息，以使所述每个第一服务器存储所述总变化信息，并更新所述待分类关系图的全局信息。

12.一种第一服务器，其特征在于，所述第一服务器应用于分布式系统，所述分布式系统还包括第二服务器，所述第一服务器包括：

发送模块，用于向所述第二服务器发送所述处理模块处理得到的所述子变化信息，以使所述第二服务器根据多个第一服务器发送的子变化信息确定总变化信息，所述总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果。

13.一种第二服务器，其特征在于，所述服务器应用于分布式系统，所述分布式系统还包括多个第一服务器，所述第二服务器包括：

14.一种第一服务器，其特征在于，所述第一服务器应用于分布式系统，所述分布式系统还包括第二服务器，所述第一服务器包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

向所述第二服务器发送所述子变化信息，以使所述第二服务器根据多个第一服务器发送的子变化信息确定总变化信息，所述总变化信息用于所述第二服务器确定所述待分类关系图的信息分类结果；

15.一种第二服务器，其特征在于，所述第二服务器应用于分布式系统，所述分布式系统还包括多个第一服务器，所述第二服务器包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：