CN113590720A

CN113590720A - 数据分类方法、装置、计算机设备和存储介质

Info

Publication number: CN113590720A
Application number: CN202110062637.3A
Authority: CN
Inventors: 牟帅; 肖万鹏; 鞠奇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-11-02

Abstract

本申请涉及人工智能技术领域，具体包括一种数据分类方法、装置、计算机设备和存储介质。所述方法在通过获取待分类图数据，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重；对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重；根据归一化连边权重对待分类图数据中的中心节点进行采样，获取节点采样结果；并进一步根据中心节点的节点采样结果对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。本申请所得的采样结果能有效利用邻居节点中的特征信息，保证所得分类结果的有效性。

Description

数据分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据分类方法、装置、计算机设备和存储介质。

背景技术

图是用于描述社区关系链最直接的工具，由节点与边构成，节点代表关系链对象，边代表两个对象之间的联系紧密程度。随着人工智能技术与图(graph)技术的发展，基于图数据进行数据分类的方法也越来越广泛的被得到应用。例如可以基于图卷积神经网络(Graph Convolutional Networks，GCN)来对社交网络图中的节点，即用户进行分类。

然而在目前的数据分类方法中，一般需要对图数据的中心节点对应邻居节点的特征进行抽样来提升算法鲁棒性，但是在这些特征抽样并不能保证抽样所得到的邻居节点局部信息的有效性，从而影响最终分类结果的准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能更准确获取数据分类结果的数据分类方法、装置、计算机设备和存储介质。

一种数据分类方法，所述方法包括：

获取待分类图数据，确定所述待分类图数据的中心节点与对应的邻居节点之间的连边权重；

对所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述待分类图数据中各邻居节点对应的归一化连边权重；

根据所述归一化连边权重对所述待分类图数据中的所述中心节点进行采样，获取节点采样结果；

根据所述中心节点的节点采样结果对所述中心节点进行分类，获取所述待分类图数据对应的节点数据分类结果。

一种数据分类装置，所述装置包括：

数据获取模块，用于获取待分类图数据，确定所述待分类图数据的中心节点与对应的邻居节点之间的连边权重；

归一化处理模块，用于对所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述待分类图数据中各邻居节点对应的归一化连边权重；

节点采样模块，用于根据所述归一化连边权重对所述待分类图数据中的所述中心节点进行采样，获取节点采样结果；

数据分类模块，用于根据所述中心节点的节点采样结果对所述中心节点进行分类，获取所述待分类图数据对应的节点数据分类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述数据分类方法、装置、计算机设备和存储介质，在数据分类的过程中时，通过获取待分类图数据，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重；对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重；根据归一化连边权重对待分类图数据中的中心节点进行采样，获取节点采样结果；根据中心节点的节点采样结果对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。本申请先获取待分类图数据中各邻居节点对应的归一化连边权重，而后基于归一化连边权重对中心节点进行采样，能有效利用待分类图数据中的权重数据，所得的采样结果能有效利用邻居节点中的特征信息，保证所得分类结果的有效性。

附图说明

图1为一个实施例中数据分类方法的应用环境图；

图2为一个实施例中数据分类方法的流程示意图；

图3为一个实施例中归一化连边权重步骤的流程示意图；

图4为一个实施例中对中心节点进行采样步骤的流程示意图；

图5为一个实施例中根据归一化连边权重排名对待分类图数据进行剪枝处理步骤的流程示意图；

图6为一个实施例中剪枝处理前后的节点结构示意图；

图7为一个实施例中更新采样节点的节点信息的步骤示意图；

图8为一个实施例中原有采样以及预聚合采样的节点结构对比示意图；

图9为一个实施例中对采样节点对应的采样邻居节点的节点特征信息进行聚合步骤的流程示意图；

图10为一个实施例中数据分类装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的机器学习(Machine Learning,ML)等技术，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术，本申请的方案具体通过如下实施例进行说明：

本申请提供的数据分类方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以向服务器104发送待分类图数据，以通过服务器104来对待分类图数据中的各个节点进行分类，从而根据分类结果进行信息推荐等后续处理。首先，服务器104则获取终端102提交的待分类图数据，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重；对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重；根据归一化连边权重对待分类图数据中的中心节点进行采样，获取节点采样结果；根据中心节点的节点采样结果对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。在一个具体的实施例中，服务器104搭载有训练完成的图卷积神经网络分类模型，在在得到待分类图数据，可以通过图卷积神经网络分类模型对待分类图数据进行上述处理，以得到最终的节点数据分类结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在另一个实施例中，非必要的，本申请的数据分类方法也可以应用于终端，用户可以直接在终端侧执行该方法。

在一个实施例中，如图2所示，提供了一种数据分类方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤201，获取待分类图数据，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重。

其中，本申请的数据分类方法具体用于对待分类图数据中的各个节点进行分类，而分类的依据为节点间的连接关系以及节点的特征。待分类图数据中的图是用于描述社区关系链最直接的工具，由节点与边构成，节点代表关系链对象，边代表两个对象之间的联系紧密程度。在得到待分类图数据时，结构图中节点之间的边还附带相应的连边权重数据。连边权重用于体现节点所代表的两个对象之间的联系紧密程度。图中的中心节点是数据分类过程中的分类对象，在处理的过程中，待分类图数据中每一个节点都需要作为中心节点来进行计算，而邻居节点则是与中心节点直接连接或间接连接的其他节点，对于不同的中心节点，其对应的邻居节点也是不相同的。在其中一个实施例中，本申请具体通过图卷积神经网络分类模型来实现待分类图数据中的节点数据分类。卷积神经网络(ConvolutionalNeural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络，而图卷积神经网络就是在图上使用卷积运算，而提取的特征也是图上的特征。本申请中的图卷积神经网络分类模型具体为基于空间域的图卷积神经网络分类模型。

具体地，当终端102方希望服务器104对图数据中的各个节点进行分类时时，可以将需要分类的图数据，作为待分类图数据输入到服务器104中，通过服务器104来对待分类图数据中的节点进行分类。输入服务器104的待分类图数据包含有节点、节点之间的连边以及连边的权重数据。在其中一个实施例中，服务器104搭载有训练完成的图卷积神经网络分类模型。本申请的数据分类方法具体通过半监督训练来训练图卷积神经网络模型，此时可以通过历史数据中的训练图数据来对初始图卷积神经网络模型进行训练，训练图数据包含有一些已被标记的节点，服务器104则将这些已被标记的节点作为模型训练的中心节点开始训练，并基于输入数据确定中心节点与对应的邻居节点的连边权重。在其中一个实施例中，本申请的图卷积神经网络模型具体为GraphSAGE图卷积神经网络分类模型，此时确定邻居节点过程可以对每个中心节点随机抽取N(N<<每个中心节点的邻居数)个节点作为采样的邻居节点，并基于输入的待分类图数据确定中心节点与对应的邻居节点的连边权重。

步骤203，对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重。

其中，归一化就是要把需要处理的数据经过处理后限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便，其次是保证程序运行时收敛加快。归一化的具体作用是归纳统一样本的统计分布性。在本申请中，归一化处理的作用主要将中心节点与各个邻居节点之间的连边权重映射到一个框架中，以区分各个邻居节点相对于中心节点的重要程度。

具体地，在原有的基于图数据进行数据分类的方法中，如在图卷积神经网络分类模型GraphSAGE模型中，采样过程的有的邻居聚合方式是等权的，一般通过的数学公式表达为

,其中代表抽样邻居u在第k-1层网络的隐藏层特征，N为抽样的邻居节点的集合。即不管中心节点与对应的邻居节点的连边权重是0.1还是0.9，算法都会等同处理。在这种情况下，对中心节点与对应的邻居节点的聚合，会丢失具有判别性的局部特征。因此，在本申请中，为了在邻居聚合的过程中突出判别性局部特征，在邻居聚合中引入连边权重来辅助进行抽样，提高邻居抽样的处理效果。首先，在确定中心节点与对应的邻居节点后，先确定中心节点与对应的邻居节点的连边权重，而后对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重。如此一来就将各个邻居节点相对中心节点的连边权重放入一个框架下进行比较，通过比对与中心节点连接的各个邻居节点的归一化连边权重，就能确定该邻居节点相对于中心节点的重要程度。同时对于与中心节点的一阶邻居节点的二阶邻居节点，则可以将一阶邻居节点作为中心节点，将二阶邻居节点作为邻居节点，来计算其相应的归一化连边权重。

步骤205，根据归一化连边权重对待分类图数据中的中心节点进行采样，获取节点采样结果。

具体地，数据分类过程中需要将待分类图数据的邻居节点上的特征聚合至中心节点处以完成采样。而且聚合过程是一个等权重过程，即对于有权图，算法仍然会将其视为无权图处理，丢失具有判别性的局部特征。因此在本申请中的数据分类方法中，引入归一化的连边权重，基于邻居节点相对于中心节点的重要程度来将邻居节点上的特征聚合至中心节点处以完成采样。可以有效保留原邻居节点上的特征，从而所得到的分类结果的有效性。

步骤207，根据中心节点的节点采样结果对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。

其中，节点采样结果具体包括了中心节点的特征数据，以及采样得到的中心节点对应的各个邻居节点的特征数据。这些特征数据即为节点数据分类的依据。在数据分类过程中，可以基于待分类图数据中各个中心节点对应的不同特征，将中心节点划分在不同的预设类别中，所得到的数据即为节点数据分类结果。如对于一个社交网络图，当需要对图中的实际用户进行分类时，在计算时，可以将每个用户都视为一个中心节点，而所得的节点采样结果，即为用户以及在社交网络图中与其连接的关联用户的特征综合。可以基于这些特征将用户分配到预先设置好的用户类别中，而在将社交网络图中的所有用户都分类后，所得到的即为社交网络图对应的节点数据分类结果。

具体地，在对中心节点进行采样，得到能有效利用邻居节点中的特征信息的节点采样结果后，后续的处理过程与目前的数据分类方法类似，可以基于这些图数据中各个中心节点对应的节点采样结果，将其划分为不同的类别。如在一个具体的实施例中，基于训练好的图卷积神经网络模型来进行数据分类，此时在通过图卷积神经网络进行上述步骤的采样，并获得节点采样结果后，可以基于图卷积神经网络模型的聚合器，将邻居节点的特征与中心节点的特征拼接起来，形成聚合特征，而后基于图卷积神经网络模型的分类器对聚合特征进行处理，得到中心节点对应的分类结果。将待分类图数据中所有中心节点的分类结果聚合起来，即为待分类图数据对应的节点数据分类结果。在其中一个实施例中，本申请的数据分类方法可以应用于用户分类领域。而在另一个实施例中，作为一种拓展，本申请的数据分类方法可以应用于好友推荐以及广告推荐等领域，即基于数据分类结果进行相应的好友推荐以及广告推荐。

上述数据分类方法，在数据分类的过程中时，通过获取待分类图数据，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重；对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重；根据归一化连边权重对待分类图数据中的中心节点进行采样，获取节点采样结果；根据中心节点的节点采样结果对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。本申请先获取待分类图数据中各邻居节点对应的归一化连边权重，而后基于归一化连边权重对中心节点进行采样，能有效利用待分类图数据中的权重数据，所得的采样结果能有效利用邻居节点中的特征信息，保证所得分类结果的有效性。

在一个实施例中，如图3所示，步骤203包括：

步骤302，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重中的最大权重值以及最小权重值。

步骤304，针对待分类图数据中的每个中心节点，根据中心节点对应的最大权重值以及最小权重值，对每个中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取每个中心节点对应的邻居节点对应的归一化连边权重。

其中，最大权重值表示与中心节点联系最紧密的邻居节点，而最小权重值表示与中心节点联系最不紧密的邻居节点，可以基于确定待分类图数据的中心节点与对应的邻居节点之间的连边权重中的最大权重值以及最小权重值，来确定中心节点对应的一个重要程度区间。而后基于这个区间来对权重进行归一化。

具体地，在得到一张待分类图数据，并确定待分类图数据的中心节点与对应的邻居节点之间的连边权重后，需要对这些连边权重进行相应的归一化处理，此时对于一个中心节点与对应的邻居节点的归一化，可以先确定选出的各个邻居节点对应的连边权重中的最大权重值以及最小权重值，而后基于连边权重中的最大权重值以及最小权重值，来将中心节点与对应的邻居节点的连边权重进行归一化，数学公式如下：

其中w_u表示邻居节点u与中心节点连边的权重，w_u表示归一化连边权重，而w_min和w_max分别表示与该中心节点连接的所有节点的连边中权重的最小值和最大值。本实施例中，通过连边权重中的最小值和最大值可以有效建立归一化处理的对照区间，从而有效的将中心节点与各个邻居节点之间的连边权重归一到该区间内，有效地获得最终的归一化连边权重。

在其中一个实施例中，如图4所示，步骤205包括：

步骤401，获取待分类图数据中的每个中心节点对应的邻居节点的特征数据。

步骤403，针对待分类图数据中的每个中心节点，根据中心节点对应的邻居节点的特征数据以及邻居节点对应的归一化连边权重，对中心节点进行采样，获取中心节点对应的节点采样结果。

具体地，可以通过图卷积神经网络，进行卷积处理，在通过卷积层将邻居节点内的特征数据聚合至中心节点时，可以根据中心节点对应的邻居节点的特征数据以及邻居节点对应的归一化连边权重，对中心节点进行采样。具体可以为，将每个邻居节点特征点乘上之前归一化后的权重，从而到达区分邻居重要程度的目的，具体的数学表达式如下：

其中，Aggregate^k表示求和，w_u表示归一化连边权重，其中

代表抽样邻居u在第k-1层网络的隐藏层特征，N为抽样的邻居节点的集合。在本实施例中，通过用归一化连边权重来对原本的隐藏层特征进行修改，而后进行聚合采样，从而提高聚合采样过程中节点采样数据的有效性。

在其中一个实施例中，如图5所示，步骤203之前，还包括：

步骤502，针对待分类图数据中的每个中心节点，将中心节点与对应的邻居节点之间的连边权重按由高至低的顺序排名，得到每个中心节点对应的连边权重排名。

步骤504，针对每个中心节点保留对应的连边权重排名中前一个或多个邻居节点，对其他邻居节点进行剪枝处理，得到剪枝处理后的待分类图数据。

步骤203包括，步骤506，对剪枝处理后的待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取剪枝处理后的待分类图数据中各邻居节点对应的归一化连边权重。

在本申请一个实施例中，针对每个中心节点保留对应的连边权重排名中前一个或多个邻居节点，对其他邻居节点进行剪枝处理，得到剪枝处理后的待分类图数据。其中，其他邻居节点对应的连边权重较小，在连边权重排名中排名靠后，通过剪枝处理去除这部分连边权重较小的邻居节点，并且，针对待处理图数据中的每个中心节点都执行上述剪枝处理，即可实现对整个待处理图数据的剪枝处理，去除每个中心节点所对应连边权重较小的邻居节点，得到剪枝处理后的待分类图数据。由于这些连边权重较小的邻居节点对于中心节点的特征影响较小，因此在具体的实施例中，通过去除这部分节点，可以提高分类结果的稳定性。

具体地，原有的图数据分类方法中，例如对于图卷积神经网络分类模型中的GraphSAGE模型，在推理过程中，仍然存在一个邻居随机抽样的过程，会导致同一个样本，在多次推理过程中部分的结果不一致的情况。而本申请中，在进行节点采样处理之前，会对原始的待分类图数据网络结构进行了剪枝处理，即保留每个中心节点边权重最高的前K个(TopK)的邻居节点，对待分类图数据进行剪枝处理的示意图可以参照图6，其中A为中心节点，B、C为权重较高的邻居节点，而D为权重较低的邻居节点，在执行剪枝处理后，D以及与D连接的其他邻居节点被剪枝。其中TopK中的K取值为2，即K＝2。本实施例中，通过这种对方式来预处理图网络存在两个优点：一是解决了因为邻居随机采样导致模型结果不稳定的问题；二则是精简了图网络结构，可以大幅提升算法的运行效率，降低算法内存消耗。

在其中一个实施例中，如图7所示，步骤203之前，还包括：

步骤702，识别待分类图数据中的采样节点以及对应的采样邻居节点。

步骤704，针对待分类图数据中的每个采样节点，根据采样节点对应的采样邻居节点的节点信息，更新采样节点的节点信息，得到节点信息更新后的待分类图数据。

步骤706，从节点信息更新后待分类图数据中的各采样节点以及对应的采样邻居节点中，确定节点信息更新后待分类图数据中的中心节点以及对应的邻居节点。

步骤203包括，步骤708，对节点信息更新后的待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取节点信息更新后的待分类数据中各邻居节点对应的归一化连边权重。

其中采样节点是指在待分类图数据中被选定为中心节点以及邻居节点的节点。

具体地，原本的数据分类方案中，如图卷积神经网络在训练和推理过程中由于引入了邻居抽样，如图8左边所示图结构，图中标注1的为采样节点，标注2的为不采样节点，可以看出，对于一个采样的中心节点，由于邻居抽样会导致大部分不采样节点内的1阶和2阶特征信息无法聚合到中心节点，从而会导致部分局部信息的丢失。此时，可以考虑将与采样节点连接的部分节点作为弱采样的节点，将这部分节点内的信息聚合至采样节点中，保证对图内局部信息可以进行有效地提取。具体地，如图8右边所示图结构，可以考虑将直接与采样节点1连接的节点被作为采样邻居节点3，而后将不采样的采样邻居节点3内的特征部分信息统合聚合至采样节点1中。在具体的实施过程中，由于需要将待分类图数据中的每一个节点都作为中心节点来进行采样，因此，针对每个节点，都要分别计算其在采样过程中对应的采样节点以及对应的采样邻居节点，而后进行相应的特征聚合预处理，保证特征信息的有效聚合。在本实施例中，则可以先识别出采样邻居节点的节点信息，而后将这部分节点信息加入到采样节点的节点信息中，对采样节点的节点信息进行更新，从而保证采样节点可以有效聚合邻居节点内的特征信息，提高中心节点处的信息聚合效率，并大幅提升算法获取图局部信息的能力。

在其中一个实施例中，如图9所示，步骤704包括：

步骤902，对采样节点对应的采样邻居节点的节点特征信息进行聚合，获取特征聚合数据。

步骤904，将特征聚合数据拼接至采样节点对应的特征数据内，获取特征拼接结果。

步骤906，根据特征拼接结果更新采样节点的节点信息。

具体地，对于根据采样邻居节点的节点信息，更新采样节点的节点信息的过程，首先需要先对采样节点对应的采样邻居节点的节点特征信息进行聚合，获取特征聚合数据，在其中一个实施例中，可以求取这些邻居节点内节点特征信息的均值，而后将其作为特征聚合数据。而后将这部分特征聚合数据拼接到采样节点的特征中，如原本采样节点内的特征为32维的特征向量数据。而特征聚合数据也是一个32维的特征向量数据，则可以将这两个32维的特征向量数据进行拼接，得到一个64维的特征向量数据，这个64维的特征向量数据即为采样节点对应的特征拼接结果。而后可以建立特征拼接结果与采样节点的联系，将其作为采样节点对应的特征数据。在本实施例中，通过采样邻居节点内节点特征信息的聚合，以及特征聚合数据与采样节点对应的特征数据的拼接，可以有效保证采样节点可以有效地聚合到周边邻居节点内的特征信息，提高中心节点处的信息聚合效率，并大幅提升算法获取图局部信息的能力。

在其中一个实施例中，步骤207包括：对节点采样结果进行聚合，获取中心节点对应的节点聚合特征；根据节点聚合特征对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。

具体地，对节点采样结果进行聚合的过程可以操作上述步骤902中的特征聚合过程，与上述过程不同的是，上述过程具体为将不采样节点的特征聚合至邻居节点上。而本实施例中，则是将邻居节点的特征聚合到中心节点上。特别的，对于多重结构的图网络，其特征聚合过程也是分层进行的，比如对于三层结构的网络，可以先将二阶邻居节点的特征聚合到一阶邻居节点，而后将一阶邻居节点聚合到中心节点，得到的最终结果即为中心节点对应的节点聚合特征。而基于节点聚合特征可以将中心节点分配到不同的预设类别中。在一个具体的实施例中，基于图卷积神经网络模型来完成对待分类图数据中节点的分类处理。此时，对于上述特征聚合以及特征分类的过程，分别可以基于图卷积神经网络模型中的聚合器以及分类器来完成。

本申请还提供一种应用场景，该应用场景应用上述的数据分类方法。具体地，该数据分类方法在该应用场景的应用如下：

在一个用户分类的场景下，需要根据用户的社交对象类型，来对用户进行适当的分类。此时，可以通过图卷积神经网络来进行分类处理，同时基于本申请的数据分类方法来完成对图卷积神经网络的训练。具体地，在方法实施时，可以基于用户数据，来构建用户的社交结构图。例如，可以将用户与聊天对象视为节点结构图中的节点，根据用户与聊天对象的聊天频率为其赋予相应的权重，来构建图。而后将标注完成的待分类图数据输入至服务器104中，服务器104获取待分类图数据，而后基于图中携带的信息，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重。而后确定待分类图数据的中心节点与对应的邻居节点之间的连边权重中的最大权重值以及最小权重值；针对待分类图数据中的每个中心节点，根据中心节点对应的最大权重值以及最小权重值，对每个中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取每个中心节点对应的邻居节点对应的归一化连边权重。并获取待分类图数据中的每个中心节点对应的邻居节点的特征数据；针对待分类图数据中的每个中心节点，根据中心节点对应的邻居节点的特征数据以及邻居节点对应的归一化连边权重，对中心节点进行采样，获取中心节点对应的节点采样结果。而后对节点采样结果进行聚合，获取中心节点对应的节点聚合特征；根据节点聚合特征对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。节点与用户对应，节点数据分类结果所表征的就是用户对应的分类结果。同时，对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重之前，还包括对待分类图数据进行剪枝处理的过程，这一过程中，具体可以针对待分类图数据中的每个中心节点，将中心节点与对应的邻居节点之间的连边权重按由高至低的顺序排名，得到每个中心节点对应的连边权重排名；针对每个中心节点保留对应的连边权重排名中前一个或多个邻居节点，对其他邻居节点进行剪枝处理，得到剪枝处理后的待分类图数据。

此外，本申请的方案还包含预聚合采样的过程，这一过程中具体可以包括：识别待分类图数据中的采样节点以及对应的采样邻居节点；根据采样邻居节点的节点信息，更新采样节点的节点信息，得到节点信息更新后的待分类图数据；从节点信息更新后待分类图数据中的各采样节点以及对应的采样邻居节点中，确定节点信息更新后待分类图数据中的中心节点以及对应的邻居节点。根据采样邻居节点的节点信息，更新采样节点的节点信息具体包括：对采样节点对应的采样邻居节点的节点特征信息进行聚合，获取特征聚合数据；将特征聚合数据拼接至采样节点对应的特征数据内，获取特征拼接结果；根据特征拼接结果更新采样节点的节点信息。本申请的上述过程具体可以基于图卷积神经网络分类模型中的GraphSAGE模型实现，此时，方案同时还包含图卷积神经网络模型训练部分的内容，模型训练可以采用半监督的训练方式，模型训练的数据处理过程与上述数据分类过程类似，不过模型训练时不需要进行剪枝处理，因为模型训练过程不涉及本申请的方案重点，在此处就不再赘述。如下表1所示，实验显示，在针对图卷积神经网络分类模型GraphSAGE模型训练以及模型测试时，通过加权聚合、网络剪枝以及预聚合抽样可以有效提高模型的分类准确率。

表1本方案提出的数据分类方法在半监督节点分类场景效果

应该理解的是，虽然图2-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种数据分类装置100，该数据分类装置100可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该数据分类装置100具体包括：数据获取模块1001、归一化处理模块1103、节点采样模块1105和数据分类模块1107，其中：

数据获取模块1001，用于获取待分类图数据，确定待分类图数据的中心节点与对应的邻居节点之间的连边权重。

归一化处理模块1003，用于对待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取待分类图数据中各邻居节点对应的归一化连边权重。

节点采样模块1005，用于根据归一化连边权重对待分类图数据中的中心节点进行采样，获取节点采样结果。

数据分类模块1007，用于根据中心节点的节点采样结果对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。

在其中一个实施例中，归一化处理模块1003具体用于：确定待分类图数据中的中心节点与对应的邻居节点之间的连边权重中的最大权重值以及最小权重值；针对待分类图数据中的每个中心节点，根据中心节点对应的最大权重值以及最小权重值，对每个中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取每个中心节点对应的邻居节点对应的归一化连边权重。

在其中一个实施例中，节点采样模块1005具体用于：获取待分类图数据中的每个中心节点对应的邻居节点的特征数据；针对待分类图数据中的每个中心节点，根据中心节点对应的邻居节点的特征数据以及邻居节点对应的归一化连边权重，对中心节点进行采样，获取中心节点对应的节点采样结果。

在其中一个实施例中，数据分类装置100还包括剪枝模块，用于：针对待分类图数据中的每个中心节点，将中心节点与对应的邻居节点之间的连边权重按由高至低的顺序排名，得到每个中心节点对应的连边权重排名；针对每个中心节点保留对应的连边权重排名中前一个或多个邻居节点，对其他邻居节点进行剪枝处理，得到剪枝处理后的待分类图数据。归一化处理模块1003还用于，对剪枝处理后的待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取剪枝处理后的待分类图数据中各邻居节点对应的归一化连边权重。

在其中一个实施例中，数据分类装置100还包括预聚合处理模块，用于：识别待分类图数据中的采样节点以及对应的采样邻居节点；根据采样邻居节点的节点信息，更新采样节点的节点信息，得到节点信息更新后的待分类图数据；从节点信息更新后待分类图数据中的各采样节点以及对应的采样邻居节点中，确定节点信息更新后待分类图数据中的中心节点以及对应的邻居节点。归一化处理模块1003还用于，对节点信息更新后的待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取节点信息更新后的待分类数据中各邻居节点对应的归一化连边权重。

在其中一个实施例中，预聚合处理模块还用于：对采样节点对应的采样邻居节点的节点特征信息进行聚合，获取特征聚合数据；将特征聚合数据拼接至采样节点对应的特征数据内，获取特征拼接结果；根据特征拼接结果更新采样节点的节点信息。

在其中一个实施例中，数据分类模块1007具体用于：对节点采样结果进行聚合，获取中心节点对应的节点聚合特征；根据节点聚合特征对中心节点进行分类，获取待分类图数据对应的节点数据分类结果。

关于数据分类装置的具体限定可以参见上文中对于数据分类方法的限定，在此不再赘述。上述数据分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备110，该计算机设备100可以是服务器，其内部结构图可以如图11所示。该计算机设备110包括通过系统总线1101连接的处理器1102、存储器和网络接口1104。其中，该计算机设备110的处理器1102用于提供计算和控制能力。该计算机设备110的存储器包括非易失性存储介质1105、内存储器1103。该非易失性存储介质1105存储有操作系统1106、计算机程序1107和数据库1108。该内存储器1103为非易失性存储介质1105中的操作系统1106和计算机程序1107的运行提供环境。该计算机设备的数据库1108用于存储输入的待分类图数据以及数据分类方法执行过程中的运行数据。该计算机设备的网络接口1104用于与外部的终端通过网络连接通信。该计算机程序1107被处理器1102执行时以实现一种数据分类方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据分类方法，其特征在于，所述方法包括：

获取待分类图数据，确定所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重；

2.根据权利要求1所述的方法，其特征在于，所述对所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述待分类图数据中各邻居节点对应的归一化连边权重包括：

确定所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重中的最大权重值以及最小权重值；

针对所述待分类图数据中的每个中心节点，根据所述中心节点对应的所述最大权重值以及所述最小权重值，对每个所述中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取每个中心节点的所述邻居节点对应的归一化连边权重。

3.根据权利要求2所述的方法，其特征在于，所述根据所述归一化连边权重对所述待分类图数据中的所述中心节点进行采样，获取节点采样结果包括：

获取所述待分类图数据中的每个中心节点对应的邻居节点的特征数据；

针对所述待分类图数据中的每个中心节点，根据所述中心节点对应的邻居节点的特征数据以及所述邻居节点对应的归一化连边权重，对所述中心节点进行采样，获取所述中心节点对应的节点采样结果。

4.根据权利要求1所述的方法，其特征在于，所述对所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述待分类图数据中各邻居节点对应的归一化连边权重之前，还包括：

针对所述待分类图数据中的每个中心节点，将所述中心节点与对应的邻居节点之间的连边权重按由高至低的顺序排名，得到每个所述中心节点对应的连边权重排名；

针对每个所述中心节点保留对应的所述连边权重排名中前一个或多个邻居节点，对其他邻居节点进行剪枝处理，得到剪枝处理后的待分类图数据；

所述对所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述待分类图数据中各邻居节点对应的归一化连边权重包括：

对所述剪枝处理后的所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述剪枝处理后的所述待分类图数据中各邻居节点对应的归一化连边权重。

5.根据权利要求1所述的方法，其特征在于，所述对所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述待分类图数据中各邻居节点对应的归一化连边权重之前，还包括：

识别所述待分类图数据中的采样节点以及对应的采样邻居节点；

针对所述待分类图数据中的每个采样节点，根据所述采样节点对应的采样邻居节点的节点信息，更新所述采样节点的节点信息，得到节点信息更新后的待分类图数据；

从所述节点信息更新后待分类图数据中的各采样节点以及对应的采样邻居节点中，确定所述节点信息更新后待分类图数据中的中心节点以及对应的邻居节点；

对所述节点信息更新后的待分类图数据中的中心节点与对应的邻居节点之间的连边权重进行归一化处理，获取所述节点信息更新后的待分类数据中各邻居节点对应的归一化连边权重。

6.根据权利要求5所述的方法，其特征在于，所述根据所述采样邻居节点的节点信息，更新所述采样节点的节点信息包括：

对所述采样节点对应的采样邻居节点的节点特征信息进行聚合，获取特征聚合数据；

将所述特征聚合数据拼接至所述采样节点对应的特征数据内，获取特征拼接结果；

根据所述特征拼接结果更新所述采样节点的节点信息。

7.根据权利要求1所述的方法，其特征在于，所述根据所述中心节点的节点采样结果对所述中心节点进行分类，获取所述待分类图数据对应的节点数据分类结果包括：

对所述节点采样结果进行聚合，获取所述中心节点对应的节点聚合特征；

根据所述节点聚合特征对所述中心节点进行分类，获取所述待分类图数据对应的节点数据分类结果。

8.一种数据分类装置，其特征在于，所述装置包括：

数据获取模块，用于获取待分类图数据，确定所述待分类图数据中的中心节点与对应的邻居节点之间的连边权重；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。