CN110097472A

CN110097472A - 一种社团属性识别方法及相关设备

Info

Publication number: CN110097472A
Application number: CN201910383592.2A
Authority: CN
Inventors: 李佳; 荣钰; 黄文炳; 徐挺洋; 陈远斌; 潘煜文; 郑丰; 廖晨; 张�杰; 黄俊洲; 杨勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2019-08-06
Anticipated expiration: 2039-05-08
Also published as: CN110097472B

Abstract

本发明实施例提供了一种社团属性识别方法及相关设备，所述方法包括：获取第一社团的各个成员之间的关联关系信息和各个成员的特征信息；根据关联关系信息确定与第一社团中各个成员有关联关系的成员，并分别将与第一社团中各个成员有关联关系的成员的特征信息进行融合，生成第一社团中各个成员对应的特征融合信息；根据特征融合信息，评估第一社团中各个成员的重要程度，生成第一社团中各个成员的重要程度信息；将各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成第一社团中全部成员的加权特征融合信息；根据第一社团中全部成员的加权特征融合信息，确定第一社团的社团属性。通过本发明可以提高社团属性识别的有效性。

Description

一种社团属性识别方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种社团属性识别方法及相关设备。

背景技术

随着互联网技术的发展，越来越多的用户通过互联网进行社交。互联网的群组聊天、论坛留言等功能为大众提供便利的同时，也为一些黑产团体，如赌博、欺诈、传销等团体带来了便利，如何将这些黑产团体识别出来，成为了净化互联网环境的关键。目前常用的做法是通过根据互联网平台中用户的行为建立用户的信息图，然后根据图的结构、节点特征、边特征等信息直接进行社团的识别，但是实际场景中，建立的信息图通常为异构图，往往由于社团中节点和边的数量不一致，以及节点顺序变化，给社团识别带来较大的困难，导致只能建立较为单一的识别模型，往往不能有效识别社团的属性。

发明内容

本申请提供一种社团属性识别方法及相关设备，通过本发明可以提高社团属性识别的有效性。

本发明实施例第一方面提供了一种社团属性识别方法，包括：

获取第一社团的各个成员之间的关联关系信息，并获取所述第一社团的各个成员的特征信息；

根据所述第一社团的各个成员之间的关联关系信息确定与所述第一社团中各个成员有关联关系的成员，并分别将与所述第一社团中各个成员有关联关系的成员的特征信息进行融合，生成所述第一社团中各个成员对应的特征融合信息；

根据所述第一社团中各个成员对应的特征融合信息，评估所述第一社团中各个成员在所述第一社团中的重要程度，生成所述第一社团中各个成员的重要程度信息；

将所述第一社团的各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息；

根据所述第一社团中全部成员的加权特征融合信息，确定所述第一社团的社团属性。

本发明实施例第二方面提供了一种社团属性识别装置，包括：

信息获取模块，用于获取第一社团的各个成员之间的关联关系信息，以及获取所述第一社团的各个成员的特征信息；

特征融合模块，用于根据所述第一社团的各个成员之间的关联关系信息确定与所述第一社团中各个成员有关联关系的成员，以及分别将与所述第一社团中各个成员有关联关系的成员的特征信息进行融合，生成所述第一社团中各个成员对应的特征融合信息；

重要度评估模块，用于根据所述第一社团中各个成员对应的特征融合信息，评估所述第一社团中各个成员在所述第一社团中的重要程度，生成所述第一社团中各个成员的重要程度信息；

重要度融合模块，用于将所述第一社团的各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息；

属性确定模块，用于根据所述第一社团中全部成员的加权特征融合信息，确定所述第一社团的社团属性。

本发明实施例第三方面提供了一种社团属性识别装置，包括：处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本发明实施例中一方面中的方法。

本发明实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如本发明实施例中一方面中的方法。

本发明实施例中，获取第一社团的各个成员之间的关联关系信息和各个成员的特征信息，并根据第一社团中各个成员之间的关联关系信息确定与第一社团中各个成员有关联关系的成员，进而分别将与第一社团中各个成员有关联关系的成员的特征信息进行融合，生成第一社团中各个成员对应的特征融合信息，然后根据各个成员对应的特征融合信息，评估各个成员在所述第一社团中的重要程度，生成各个成员的重要程度信息，并将各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成第一社团中全部成员的加权特征融合信息，进而根据第一社团中全部成员的加权特征融合信息，确定第一社团的社团属性。通过将根据第一社团中成员多维度提取到的信息融合后，作为第一社团属性识别的特征数据，可以提高社团属性识别的有效性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种社团属性识别方法的流程示意图；

图2为本发明实施例提供的另一种社团属性识别方法的流程示意图；

图3为本发明实施例提供的一种第一社团的结构图像示意图；

图4为本发明实施例提供的一种加权特征融合矩阵的确定方法的示意图；

图5为本发明实施例提供的一种模型训练方法的流程示意图；

图6为本发明实施例提供的一种社团属性识别装置的结构示意图；

图7为本发明实施例提供的另一种社团属性识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的第一社团可以是现有的任意一种社交团体形式，例如即时聊天群组、话题帖子、微博以及回复、同一视频直播的观看团体，如第一社团为即时聊天群组时，第一社团中的成员可以是构成第一社团的群组成员，通过本发明实施例可以识别该即时聊天群组是否为有指定聊天主题的群组；第一社团为话题帖子时，第一社团中的成员可以是该话题帖子的回帖者，通过本发明实施例可以识别该话题帖子是否为指定主题的帖子；第一社团为微博及其回复时，第一社团中的成员可以是该微博的发布者及其回复者，通过本发明实施例可以识别该微博是否为指定微博主题的微博；第一社团为同一视频直播的观看团体时，第一社团中的成员可以是该视频直播的弹幕发送者，通过本发明实施例可以识别该视频直播是否为指定主题的视频直播。

本发明实施例的社团属性识别方法不仅适用在赌博、欺诈、传销等黑产社团的识别整治场景中，也适用在针对特定属性的社团进行推荐或营销的场景中，如识别婴幼儿妈妈社团、高考美术生社团等，进行相应的信息推送或商品营销信息推送等，还可以适用在金融风控中识别高风险用户社团的场景中，具体的社团属性识别场景不做限定。

参见图1，图1为本发明实施例提供的一种社团属性识别方法的流程示意图，如图所示，所述方法可以包括：

S101，获取第一社团的各个成员之间的关联关系信息，并获取所述第一社团的各个成员的特征信息。

其中，关联关系根据第一社团的不同而不同，当第一社团是即时聊天群组时，成员之间的关联关系可以为好友关系，当第一社团是话题帖子时，成员之间的关联关系可以为帖子留言回复关系，当第一社团是微博及其回复，成员之间的关系可以为微博留言回复关系。相应的，关联关系信息为具有关联关系的成员之间的信息，以包含成员a、成员b和成员c的即时聊天群组为例，各个成员之间的关联关系信息可以为：成员a和成员b有好友关系，成员a与成员c无好友关系，成员b与成员c无好友关系。

各个成员的特征信息可以包含各个成员在预设的多个特征条目下的特征信息，例如，针对即时聊天群组的特征条目可以为聊天账号注册时间、群组内发言次数、被举报次数等，针对话题帖子的特征条目可以为发贴账号注册时间、本条帖子的主动回复次数、本条帖子的被回复字数、被点赞次数、被举报次数等。特征信息为各个特征条目对应的值。

这里，第一社团的各个成员之间的关联关系信息和成员的特征信息可以从存储第一社团的运营信息的数据库中提取。

S102，根据所述第一社团的各个成员之间的关联关系信息确定与所述第一社团中各个成员有关联关系的成员，并分别将与所述第一社团中各个成员有关联关系的成员的特征信息进行融合，生成所述第一社团中各个成员对应的特征融合信息。

这里，在成员的关联关系对等的社团中，将与第一社团中的某个成员有关联关系的成员的特征信息进行融合的方式可以为，直接将与该成员的有关联关系的成员在各个特征条目下对应的特征信息相加。例如，在即时聊天群组中，关联关系为好友关系，将各个群组成员的好友(即有好友关系的成员)在各个特征条目下对应的特征信息相加，得到各个成员的特征融合信息。

可选的，在成员的关联关系不对等的社团中，将与第一社团中的某个成员有关联关系的成员的特征信息进行融合的方式可以为，将与该成员的有关联关系的成员在各个特征条目下对应的特征信息，按照各个关联成员的身份权重进行加权相加。例如，在话题帖子中，将各个楼层的回帖者的回复者(即有帖子留言回复关系的成员)在各个特征条目下对应的特征信息，按照回复者的身份权重进行加权相加，例如，针对某一层楼，楼主作为回复者的权重为0.6，非楼主的回复者的权重为0.4。按照各个关联成员的身份权重进行特征信息融合，可以提高第一社团的特征的合理性。

进一步可选的，得到第一社团中各个成员对应的特征融合信息后，可以将各个成员的自身特征信息融合至对应的特征融合信息中，生成各个成员的全局特征信息。具体的，确定某个成员的全局特征信息的方式可以将该成员在各个特征条目下的自身特征信息，与同一特征条目下的特征融合信息相加，得到该成员的全局特征信息。

进一步可选的，在具体实现中，可以根据第一社团的各个成员之间的关联关系信息，构建第一社团的社团结构数据，并根据第一社团的各个成员的特征信息，构建第一社团的成员特征数据；进而将第一社团的社团结构数据及第一社团的成员特征数据输入特征融合模型，得到第一社团的特征融合数据，特征融合数据携带所述第一社团中各个成员对应的特征融合信息。

其中上述第一社团的社团结构数据以及成员特征数据可以是矩阵或向量等特定的形式，例如，可以根据第一社团的各个成员之间的关联关系信息，确定第一社团的成员关系矩阵，并将第一社团的成员关系矩阵确定为第一社团的社团结构数据，根据第一社团的各个成员的特征信息，确定第一社团的成员属性矩阵，并将第一社团的成员属性矩阵确定为第一社团的成员特征数据。一种实现方式中，上述成员关系矩阵可以为第一社团的结构图像对应的邻接矩阵，上述成员属性矩阵可以为第一社团的结构图像对应的属性矩阵。

上述特征融合模型的初始网络模型可以采用图卷积神经网络(GraphConvolutionalNeuralNetwork，图卷积神经网络)模型，或其他神经网络模型，此处不做限定，通过神经网络模型将第一社团中各个成员的特征信息中隐含的多维度的抽象信息提取出来。

可以理解的是，无论是将有关联关系的成员的特征信息直接相加，或加权相加，还是通过神经网络的确定，得到的各个成员对应的特征融合信息均包含各个成员多维度的特征融合信息。

S103，根据所述第一社团中各个成员对应的特征融合信息，评估所述第一社团中各个成员在所述第一社团中的重要程度，生成所述第一社团中各个成员的重要程度信息。

这里，各个成员的特征融合信息能反映出成员在第一社团中的成员行为，成员的行为决定在第一社团中的重要性。例如，仅从发言次数这一角度来说，针对即时聊天群组A中，用户a的发言次数较多，则用户a的发言内容对即时聊天群组A的社团属性的影响力较大，也就是用户a在第一社团中的重要性较大。

具体的，可以将第一社团中各个成员的不同维度的特征融合信息，按照各个维度预设的特征权重进行加权相加，得到各个成员在第一社团中的重要程度得分，进而将各自的重要程度得分与第一社团中所有成员的重要程度得分总和的比值，确定为各个成员的重要程度信息。

可选的，可以将第一社团的特征融合数据输入重要度评价模型，得到第一社团的成员重要度分布数据，第一社团的成员重要度分布数据携带第一社团中各个成员在第一社团中的重要程度信息。例如，重要度评价模型的初始网络模型可以为基于注意力机制的神经网络模型，基于注意力机制的神经网络模型可以根据输入的各个成员的特征融合信息，输出各个成员被分配注意力的概率信息，可以理解为成员被分配注意力的概率越高，在第一社团中的重要性越高。

可选的，若步骤S102中将各个成员的自身特征信息融合至对应的特征融合信息中生成各个成员的全局特征信息，则将根据所述第一社团中各个成员的全局特征信息评估各个成员在第一社团中的重要程度，生成第一社团中各个成员的重要程度信息。

S104，将所述第一社团的各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息。

具体的，步骤S102中得到的第一社团中各个成员对应的特征融合信息为各个成员的多维度的特征融合信息，步骤S104中将各个维度下，不同成员的特征融合信息按照各个成员对应的重要程度信息进行加权相加，得到第一社团中所有成员特征融合信息与各自的重要程度信息融合后，得到的加权特征融合信息。例如，若第一社团包含3个成员，分别为成员a、成员b和成员c，步骤S102中得到第一社团的各个成员的特征融合信息包含2个维度下的特征融合信息，2个维度分别为维度1和维度2，3个成员在2个维度下的特征融合信息分别为：成员a对应的维度1和维度2的特征融合信息分别为A1和A2，成员b对应的维度1和维度2的特征融合信息分别为B1和B2，成员c对应的维度1和维度2的特征融合信息分别为C2和C2，步骤S103中得到的成员a、成员b和成员c对应的重要程度信息分别为α1、α2和α3，则对成员a、成员b和成员c的特征融合信息进行加权融合，得到两个维度下的加权特征融合信息，分别为维度1下的加权特征融合信息α1×A1+α2×B1+α3×C1，以及维度2下的加权特征融合信息α1×A2+α2×B2+α3×C2。

可选的，若步骤S102中将各个成员的自身特征信息融合至对应的特征融合信息中生成各个成员的全局特征信息，步骤S103中根据各个成员的全局特征信息生成各个成员的重要程度信息，则将所述第一社团的各个成员对应的全局特征信息，按照各自根据全局特征信息确定的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息。

S105，根据所述第一社团中全部成员的加权特征融合信息，确定所述第一社团的社团属性。

这里，可以根据第一社团的全部成员的加权特征融合信息，确定第一社团与已知社团属性的目标社团的属性相似度，根据属性相似度确定第一社团的社团属性；也可以根据第一社团中全部成员的加权特征融合信息，构建作为第一社团的属性识别特征数据，进而将第一社团的属性识别特征数据输入预设的社团属性分类模型中，基于社团属性分类模型的输出确定第一社团的社团属性，社团属性分类模型可以为基于LR(LogisticRegression，逻辑回归)、SVM(Support Vector Machine，支持向量机)或DNN(Deep NeuralNetworks，深度神经网络)建立的分类模型，此处不做限定。

参见图2，图2为本发明实施例提供的另一种社团属性识别方法的流程示意图，如图所示，所述方法可以包括：

S201，构建第一社团的结构图像。

其中，第一社团的图像结构包括至少两个节点，每个节点在第一社团中有唯一对应的成员，第一社团中还可以包括边，每条边连接在第一社团中有关联关系的两个成员各自对应的节点，第一社团中成员之间的关联关系与结构图像中节点的相邻关系相对应。这里，第一社团的结构图像为无向图。例如，社团S中包含成员A、成员B、成员C、成员D和成员E，共计5个成员，则社团S对应的结构图像如图3所示，节点A、节点B、节点C、节点D和节点E分别对应成员A、成员B、成员C、成员D和成员E，边a代表成员A和成员C之间有好友关系，边b代表成员A和成员B之间有好友关系，边c代表成员A与成员D之间有好友关系，边d代表成员B与成员C之间有好友关系，边e代表成员B和成员E之间有好友关系。

S202，获取第一社团的结构图像对应的邻接矩阵和属性矩阵。

第一社团的结构图像对应的邻接矩阵为主对角线上均为0的n阶方阵，其中n为第一社团的结构图像中节点的数量，方阵中的其他位置的元素的值由对应节点之间是否存在边决定。方阵中从第一行到第N行分别与结构图像中的n个节点相互对应，方阵中第一列到第N列按照同样的对应顺序与结构图像中的N个节点互相对应。以图3为例，图3的结构图像对应的邻接矩阵中从第一行至第五行分别与节点A、节点B、节点C、节点D和节点E对应，则从第一列至第五列分别对应的节点也为节点A、节点B、节点C、节点D和节点E。若方阵中主对角线以外的某一位置所在的行对应节点，与该位置所在的列对应的节点之间存在边，则该位置的元素的值为1，否则为0。因此，如3的结构图像对应的邻接矩阵A为：

第一社团的结构图像对应的属性矩阵为n×m的矩阵，属性矩阵中从第一行至第n行按照与邻接矩阵相同的对应顺序，与第一社团的结构图像中的各个节点互相对应，属性矩阵中从第一列至第m列分别与不同的特征条目相对应，属性矩阵中某一位置的元素的值为：该位置所在的行对应的节点所代表的成员，在该位置所在的列对应的特征条目下的特征信息。例如，若属性矩阵从第一列至第三列分别与注册天数、群内发言次数和被举报次数这三个特征条目相对应，成员A在这三个特征条目下的特征信息依次为1020、101和1，成员B在这三个特征条目下的特征信息依次为458、20和0，成员C在这三个特征条目下的特征信息依次为2095、0和0，成员D在这三个特征条目下的特征信息依次为541、78和1，成员E在这三个特征条目下的特征信息依次为2140、54和0，则图3的结构图像对应的属性矩阵X为：

S203，对第一社团的邻接矩阵进行预处理。

这里，对第一社团的邻接矩阵进行预处理可以通过以下公式实现对邻接矩阵的预处理：

其中，A为邻接矩阵，I_n为与A阶数相同的单位矩阵，为A+In对应的度矩阵，为预处理之后的邻接矩阵。通过上述公式对邻接矩阵的预处理包括补充各个节点的自环信息以及归一化处理。自环信息的补充可以使得补充后的邻接矩阵除了包含各个节点之间的相邻关系外，还包含节点自身的存在信息，补充后的邻接矩阵包含第一社团的结构图像更加完整的结构信息。归一化处理可以解决数值范围问题以及在特征融合模型及重要度评估模型训练过程中的求解问题。

S204，将第一社团预处理后的邻接矩阵和属性矩阵输入特征融合模型，得到第一社团的特征融合矩阵。

其中，特征融合模型可以为基于GCN模型训练得到的，GCN的感受域与GCN的层数有关系，经过输入层后，每个节点包含了邻居节点(有相邻关系的节点)信息，经过输入层的下一层后，每个节点还包含了邻居节点的邻居节点信息，也就是说，层数越多，感受域越广，参与运算的信息就越充分，更能提取结构图像中各个节点之间的更多的联系信息。另一方面，GCN层数过多会使GCN在训练时，将样本中的随机噪声作为特征提取出来，导致训练得到的模型出现过拟合的问题。因此可以在模型训练阶段，根据GCN模型的学习情况设定合理的网络层数。

在一种可实现的方式中，特征融合模型可仅包含输入层和输出层，特征融合模型可以用如下公式表示：

其中，为步骤S204预处理后的邻接矩阵，X为第一社团的结构图像对应的属性矩阵，W⁰为输入层的权重矩阵，W¹为输出层的权重矩阵，ReLU为输入层的激活函数，H为输出的第一社团的特征融合矩阵。

S205，将第一社团的特征融合矩阵输入重要度评估模型，得到所述第一社团的重要度分布矩阵。

这里，重要度评估模型可以为基于自注意力机制(Self Attention Mechanism)的神经网络模型。注意力机制源于人类视觉的研究，在认知科学中，人类会选择性地关注信息的一部分，同时忽略另一部分，这就是人类的注意力，而机器学习中的注意力机制就是模仿了生物观察行为的内部过程，专注于输入部分的某一特征的机制，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，可以快速提取稀疏数据的重要特征。自注意力机制是注意力机制的改进，减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

一种可实现的方式中，重要度评估模型包含输入层和输出层，重要度评估模型可以用如下公式表示：

S＝softmax[W^S2tanh(W^S1H^T)]……公式(3)，

其中，H为第一社团的特征融合矩阵，W^S1为输入层的权重矩阵，tanh为输入层的激活函数，W^S2为输出层的权重矩阵，softmax为归一化指数函数，S为第一社团的重要度分布矩阵。将第一社团的特征融合矩阵输入注意力评估模型后，经过输入层，得到对第一社团的结构图像中各个节点的特征融合信息的线性变换后的形式，经过输出层，得到第一社团的结构图像中各个节点的原始注意力评分矩阵，然后通过softmax将各个节点的原始注意力评分进行归一化，得到第一社团的结构图像中各个节点的注意力权重矩阵。各个节点被分配的注意力越多，对应的成员在第一社团中的重要度就越高，因此第一社团的结构图像中各个节点的注意力权重矩阵，也就是第一社团的重要度分布矩阵。

S206，将第一社团的特征融合矩阵与重要度分布矩阵输入重要度融合模型，得到所述第一社团的加权特征融合矩阵。

这里，根据重要度评估模型确定的第一社团的重要度分布矩阵，对第一社团的特征融合矩阵进行特征更新，即通过重要度融合模型e＝SH，对第一社团的结构图像中所有节点的特征进行加权求和，得到所述第一社团的加权特征融合矩阵，其中S为第一社团的重要度分布矩阵，H为第一社团的特征融合矩阵，e为第一社团的加权特征融合矩阵。

S207，根据第一社团的加权特征融合矩阵与第二社团的加权特征融合矩阵，确定第一社团与第二社团的特征相似度。

其中第二社团为预先标记的社团属性为第一社团属性的参照社团。一种实现方式中，第一社团和第二社团的特征相似度，可以通过第一社团的加权特征融合矩阵和第二社团的加权特征融合矩阵之间的欧式矩阵表示。

S208，在第一社团与第二社团的特征相似性不小于预设相似度阈值的情况下，确定第一社团的社团属性为第一社团属性。

本发明实施例中，获取第一社团的结构图像对应的邻接矩阵和属性矩阵，通过将第一社团的结构图像对应的邻接矩阵和属性矩阵输入特征融合模型，得到第一社团的特征融合矩阵，然后将第一社团的特征融合矩阵输入重要度评估模型，得到第一社团的重要度评估矩阵，进而根据第一社团的重要度评估矩阵，将第一社团的特征融合矩阵进行加权融合，得到第一社团的加权特征融合矩阵，并根据第一社团的加权特征融合矩阵确定第一社团和第二社团的特征相似度，确定第一社团的社团属性。通过特征融合模型将第一社团的结构图像中各个节点的特征与相邻接点的特征进行融合，通过重要度评估模型对第一社团的结构图像中各个节点的重要度进行评估，通过重要度融合模型将各个节点融合之后的特征与对应的重要度相融合，根据各个节点多维度的特征，实现了有效地识别第一社团的社团属性。

参见图4，图4为本发明实施例提供的一种加权特征融合矩阵的确定方法的示意图，本实施例结合特征融合模型、重要度评估模型以及重要度融合模型各自的输入数据维度和输入数据维度，介绍加权特征融合矩阵的确定方法，如图所示，所述加权特征融合矩阵的确定方法包括以下步骤：

S10、从存储第一社团的运营信息的数据库中，获取第一社团的成员关系之间的关联关系信息以及各个成员的特征信息。

其中，第一社团包含n个成员，图4中n的值为4，各个成员的特征信息包含m个特征条目下的特征信息。

S20、根据第一社团的成员关系之间的关联关系信息以及各个成员的特征信息，构建第一社团的结构图像。

S30、获取第一社团的结构图像的邻接矩阵和属性矩阵。

其中，第一社团的结构图像的邻接矩阵的维度为n×n，第一社团的结构矩阵的属性矩阵为n×m。

S40、将第一社团的结构图像的邻接矩阵和属性矩阵输入特征融合模型，得到第一社团的特征融合矩阵。

这里，特征融合模型仅包含输入层401和输出层402，特征融合模型对应的公式表示参见图2对应的实施例中公式(2)。其中输入层401的权重矩阵的维度为m×h₁，则输入层401的输出数据的维度为n×h₁；输出层402的权重矩阵的维度为h₁×v，将输入层401的输出数据作为输出层402的输入数据，则输出层402的输出数据的维度为n×v，也就是第一社团的特征融合矩阵的维度为n×v。

S50、将第一社团的特征融合矩阵输入重要度评估模型，得到第一社团的重要度分布矩阵。

这里，重要度评估模型包含输入层403和输出层404，重要度评估模型对应的公式表示参见图2对应的实施例中公式(3)。其中输入层403的权重矩阵的维度为s×v，特征融合矩阵的转置矩阵的维度为v×n，则输入层403的输出数据的维度为s×n；输出层404的权重矩阵的维度为r×s，将输入层403的输出数据作为输出层404的输入数据，则输出层404的输出数据的维度为r×n，经过softmax函数归一化后得到重要度分布矩阵的维度为r×n。

其中特征融合矩阵的转置矩阵与输入层403维度为s×v的权重矩阵相乘的过程，对节点的特征融合矩阵进行了空间变换，相当于s个神经元分别将n个节点各自在v个维度下的特征，变换成n个节点各自在s个维度下的特征；经过激活函数tanh后，矩阵的维度不变；进而将输出层404维度为r×s的权重矩阵与输入层403的输出数据相乘的过程，相当于r个神经元分别对n个节点各自在s个维度下的特征进行重要度评价，得到r个神经元分别对n个节点的重要度评价；经过softmax函数进行归一化后，矩阵的维度不变。

S60、将第一社团的特征融合矩阵与重要度分布矩阵相乘，得到第一社团的加权特征融合矩阵。

其中第一社团的特征融合矩阵维度为n×v，第一社团的加权特征融合矩阵的维度为r×n，则得到的第一社团的加权特征融合矩阵的维度为r×n。

本实施例中，对于包含任意成员数量n的第一社团，根据其对应的n×n维度的邻接矩阵和n×m维度的属性矩阵，都可以得到固定维度的r×n的加权特征融合矩阵，并且邻接矩阵的行列与成员的对应顺序发生变化时，不会影响得到的加权特征融合矩阵。因此，将固定维度的加权特征融合矩阵作为第一社团的特征矩阵，进行社团属性识别，克服了现有技术中由于节点数量或边的数量的不一致，带来的社团之间特征难以比较的问题，进而提高了社团属性识别的有效性。

参见图5，图5为本发明实施例提供的一种模型训练方法的流程示意图，通过该流程可以实现对特征融合模型以及重要度评估模型的训练，如图所示，所述方法可以包括：

S501，获取至少两个样本社团的社团结构数据，并获取所述样本社团的成员特征数据。

所述至少两个样本社团包括社团属性为第一社团属性的第一样本社团，以及社团属性为第二社团属性的第二样本社团。

S502，分别将各个所述样本社团的社团结构数据，以及各个所述样本社团的成员特征数据输入初始化的特征融合模型，得到各个所述样本社团的特征融合数据。

各个所述样本社团的特征融合数据携带各个样本社团中每个成员的特征融合信息。

可选的，样本社团的社团结构数据可以加入自环信息并进行归一化处理后，与成员特征数据输入特征融合模型。

S503，分别将各个所述样本社团的特征融合数据输入重要度评价模型，得到各个所述样本社团的成员重要度分布数据。

各个所述样本社团的重要度分布数据携带各个样本社团中每个成员在对应的样本社团中的重要度分布信息。

S504，将各个所述样本社团中每个成员的特征融合信息，按照各自的重要程度信息进行样本社团范围内的加权融合，生成分别针对各个所述样本社团中成员的加权特征融合信息。

步骤S501～步骤S504中对样本社团的相关数据的确定方式可以图2对应的实施例中对第一社团的相关数据的确定方式，此处不再赘述。

其中特征融合模型的初始化方式，以及重要度评估模型的初始化方式均可以采用高斯分布初始权重方法、均匀分布初始权重方法、Glorot初始权重方法、He初始权重方法、稀疏矩阵初始权重方法等方法中的任一种，此处不做限定。

S505，根据各个所述样本社团中成员的加权特征融合信息，对所述样本社团进行分类，得到针对所述样本社团的分类结果。

这里，可以将第一样本社团的样本标签记为1，第二样本社团的样本标签记为0，并将各个样本社团中成员的加权特征融合信息输入初始化的社团分类模型，例如LR分类模型，概率大于0.5的样本社团对应的分类结果为第一分类社团，概率小于0.5的样本社团对应的分类结果为第二分类社团。

S506，根据所述样本社团的分类结果以及各个样本社团的社团属性，训练所述特征融合模型以及所述重要度评价模型。

在模型训练的过程中，因为希望模型的输出尽可能的接近样本实际的标签值，所以可以通过比较当前网络的预测值和样本实际的标签值，再根据两者之间的差异情况来更新模型中的权重矩阵，比如，如果模型的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到模型能够预测出样本实际的标签值或与实际的标签值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objective function)，它们是用于衡量预测值和样本实际的标签值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么机器学习模型的训练就变成了尽可能缩小这个loss的过程。

这里，一种可实现的方式中，可以根据社团分类模型对样本社团进行分类输出的概率标签以及各个样本社团的样本标签，构建交叉熵损失函数，具体公式如下：

其中，i为各个样本社团的索引，n为样本社团的数量，y⁽ⁱ⁾为第i个样本社团的样本标签，为社团分类模型对第i个样本社团进行分类输出的概率标签。在其他的一些实现方式中，损失函数还可以包括防止模型过拟合的正则化项，此处不做具体限定。

损失函数构建完成后，通过最小化损失函数来优化模型中的权重矩阵，具体可以根据社团分类模型对样本社团进行分类输出的概率标签以及样本社团的样本标签的误差所确定的梯度，通过误差反向传播算法(back propagation，BP)传播到社团分类模型、重要度评估模型以及和特征融合模型，进而调节社团分类模型中的参数以及重要度评估模型和特征融合模型的权重矩阵。其中在误差反向传播算法中，通过反向传播误差损失信息来更新初始的机器学习模型中参数，从而使误差损失收敛，以误差损失为主导的反向传播运动，可以实现在训练过程中修正初始化的社团分类模型中的参数以及重要度评估模型和特征融合模型中的权重矩阵，使得模型的重建误差损失越来越小。

通过本发明实施例，通过特征融合模型和重要度评估模型，将各个样本社团的多维度的特征信息进行融合后，得到的加权特征融合信息作为各个样本社团的社团分类特征信息，输入预设的社团分类模型，并根据社团分类模型对样本社团的分类结果以及各个样本社团的社团属性，训练特征融合模型、重要度评价模型和社团分类模型。当社团分类模型可以根据第一样本社团的社团分类特征信息和第二样本社团的社团分类特征信息，将第一样本社团和第二样本社团分成不同的社团类别的情况下，表示通过特征融合模型和重要度评估模型融合得到的样本社团的加权特征融合信息，能够较优地代表各个样本社团的社团分类特征，而针对未知社团属性的样本社团，也能实现较优地进行社团分类特征的提取，并通过社团分类模型进一步有效地识别社团属性。

参见图6，图6为本发明实施例提供的一种社团属性识别装置的结构示意图，如图所示，所述社团识别装置6可以至少包括信息获取模块10、特征融合模块20、重要度评估模块30、重要度融合模块40和属性确定模块50，其中：

信息获取模块10，用于获取第一社团的各个成员之间的关联关系信息，以及获取所述第一社团的各个成员的特征信息。

特征融合模块20，用于根据所述第一社团的各个成员之间的关联关系信息确定与所述第一社团中各个成员有关联关系的成员，以及分别将与所述第一社团中各个成员有关联关系的成员的特征信息进行融合，生成所述第一社团中各个成员对应的特征融合信息。

重要度评估模块30，用于根据所述第一社团中各个成员对应的特征融合信息，评估所述第一社团中各个成员在所述第一社团中的重要程度，生成所述第一社团中各个成员的重要程度信息。

重要度融合模块40，用于将所述第一社团的各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息。

属性确定模块50，用于根据所述第一社团中全部成员的加权特征融合信息，确定所述第一社团的社团属性。

上述信息获取模块10、特征融合模块20、重要度评估模块30、重要度融合模块40和属性确定模块50的具体功能实现方式可参见图1对应的实施例中步骤S101～步骤S105的具体实现方式，此处不再赘述。

如图6所示，一种可选的方式中，所述特征融合模块20可以包括：数据构建单元201和特征融合单元202，其中：

所述数据构建单元201，用于根据所述第一社团的各个成员之间的关联关系信息，构建所述第一社团的社团结构数据，并根据所述第一社团的各个成员的特征信息，构建所述第一社团的成员特征数据；

所述特征融合单元202，用于将所述第一社团的社团结构数据及所述第一社团的成员特征数据输入特征融合模型，得到所述第一社团的特征融合数据，所述特征融合数据携带所述第一社团中各个成员对应的特征融合信息。

数据构建单元201和特征融合单元202的具体功能实现方式可以参见图1对应的实施例中步骤S102和图2对应的实施例中步骤S201～步骤S202的具体实现方式，此处不再赘述。

在一种可选的方式中，所述重要度评估模块203，具体用于将所述第一社团的特征融合数据输入重要度评价模型，得到所述第一社团的成员重要度分布数据，所述第一社团的成员重要度分布数据携带所述第一社团中各个成员在所述第一社团中的重要程度信息。

重要度评估模块203的具体功能实现方式可以参见图1对应的实施例中步骤S103和图2对应的实施例中步骤S204的具体实现方式，此处不再赘述。

参见图6，在一种可选的方式中，所述社团属性识别装置6还包括训练模块60，具体用于：

获取至少两个样本社团的社团结构数据，并获取所述样本社团的成员特征数据，所述至少两个样本社团包括社团属性为第一社团属性的第一样本社团，以及社团属性为第二社团属性的第二样本社团；

分别将各个所述样本社团的社团结构数据，以及各个所述样本社团的成员特征数据输入初始化的特征融合模型，得到各个所述样本社团的特征融合数据，各个所述样本社团的特征融合数据携带各个样本社团中每个成员的特征融合信息；

分别将各个所述样本社团的特征融合数据输入重要度评价模型，得到各个所述样本社团的成员重要度分布数据，各个所述样本社团的重要度分布数据携带各个样本社团中每个成员在对应的样本社团中的重要度分布信息；

将各个所述样本社团中每个成员的特征融合信息，按照各自的重要程度信息进行样本社团范围内的加权融合，生成分别针对各个所述样本社团中成员的加权特征融合信息；

根据各个所述样本社团中成员的加权特征融合信息，对所述样本社团进行分类，得到针对所述样本社团的分类结果；

根据所述样本社团的分类结果以及各个样本社团的社团属性，训练所述特征融合模型以及所述重要度评价模型。

训练模块60的具体功能实现方式可以参见图5对应的实施例中步骤S501～S506的具体实现方式，此处不再赘述。

在一种可选的实现方式中，所述数据构建单元201，具体用于：

根据所述第一社团的各个成员之间的关联关系信息，确定所述第一社团的成员关系矩阵，并将所述第一社团的成员关系矩阵确定为所述第一社团的社团结构数据；

根据所述第一社团的各个成员的特征信息，确定所述第一社团的成员属性矩阵，并将所述第一社团的成员属性矩阵确定为所述第一社团的成员特征数据。

数据构建单元201的具体功能实现方式可以参见图2对应的实施例中步骤S201的具体实现方式，此处不再赘述。

一种可选的实现方式中，所述特征融合模块20还用于分别将所述第一社团中各个成员对应的特征融合信息与各个成员的自身特征信息融合，生成所述第一社团中各个成员的全局特征信息；

所述重要度评估模块30，具体用于根据所述第一社团中各个成员的全局特征信息，评估所述第一社团中各个成员在所述第一社团中的重要程度，生成所述第一社团中各个成员的重要程度信息；

所述重要度融合模块40，具体用于将所述第一社团的各个成员的全局特征信息，按照各自的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息。

特征融合模块20、重要度评估模块30和重要度融合模块40的具体功能实现方式可以参见图1对应的实施例中步骤S102～S104的具体实现方式，此处不再赘述。

参见图6，一种可选的方式中，所述属性确定模块50包括相似性确定单元501和属性确定单元502，其中：

所述相似性确定单元501，用于根据所述第一社团中全部成员的加权特征融合信息，确定所述第一社团与第二社团的特征相似度，所述第二社团的社团属性为第一社团属性；

所述属性确定单元502，用于在所述特征相似度不小于预设相似度阈值的情况下，确定所述第一社团的社团属性为第一社团属性。

相似性确定单元501和属性确定单元502具体功能实现方式可以参见图1对应的实施例中步骤S105和图2对应的实施例中步骤S207～S208的具体实现方式，此处不再赘述。

本发明实施例中，信息获取模块获取第一社团的各个成员之间的关联关系信息和各个成员的特征信息，特征融合模块根据第一社团中各个成员之间的关联关系信息确定与第一社团中各个成员有关联关系的成员，进而分别将与第一社团中各个成员有关联关系的成员的特征信息进行融合，生成第一社团中各个成员对应的特征融合信息，然后重要度评估模块根据各个成员对应的特征融合信息，评估各个成员在所述第一社团中的重要程度，生成各个成员的重要程度信息，重要度融合模块将各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成第一社团中全部成员的加权特征融合信息，进而属性确定模块根据第一社团中全部成员的加权特征融合信息，确定第一社团的社团属性。通过将根据第一社团中成员多维度提取到的信息融合后，作为第一社团属性识别的特征数据，可以提高社团属性识别的有效性。

参见图7，图7为本发明实施例提供的另一种社团属性识别装置的结构示意图，如图所示，所述社团属性识别装置7包括：至少一个处理器701，例如CPU，至少一个网络接口704，用户接口703，存储器705，至少一个通信总线702。其中，通信总线702用于实现这些组件之间的连接通信。其中，用户接口703可以包括显示屏(Display)、摄像头(Camera)，可选用户接口703还可以包括标准的有线接口、无线接口。网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器705可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示，作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及终端运动状态的确定应用程序。

在图7所示的社团属性识别装置7中，用户接口703用于在特征融合模型和重要度评估模型训练过程中接收用户输入的接口；网络接口704用于连接存储第一社团的运营信息的数据库，而处理器701可以用于调用存储器705中存储的终端运动状态的确定应用程序，并具体执行以下操作：

应当理解，本发明实施例中所描述的社团属性识别装置7可执行前文图1、图2、图4或图5所对应实施例中对所述社团属性识别方法的描述，也可执行前文图6所对应实施例中对所述社团属性识别装置6的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法，所述计算机可以为上述提到的终端运动状态的确定装置的一部分。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种社团属性识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述第一社团的各个成员的关联关系信息确定与所述第一社团中各个成员有关联关系的成员，并分别将与所述第一社团中各个成员有关联关系的成员的特征信息进行融合，生成所述第一社团中各个成员对应的特征融合信息包括：

根据所述第一社团的各个成员之间的关联关系信息，构建所述第一社团的社团结构数据，并根据所述第一社团的各个成员的特征信息，构建所述第一社团的成员特征数据；

将所述第一社团的社团结构数据及所述第一社团的成员特征数据输入特征融合模型，得到所述第一社团的特征融合数据，所述特征融合数据携带所述第一社团中各个成员对应的特征融合信息。

3.如权利要求2所述的方法，其特征在于，所述根据所述第一社团中各个成员对应的特征融合信息，生成所述第一社团中各个成员在所述第一社团中的重要程度信息包括：

将所述第一社团的特征融合数据输入重要度评价模型，得到所述第一社团的成员重要度分布数据，所述第一社团的成员重要度分布数据携带所述第一社团中各个成员在所述第一社团中的重要程度信息。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求2所述的方法，其特征在于，所述根据所述第一社团的各个成员之间的关联关系信息，构建所述第一社团的社团结构数据，并根据所述第一社团的各个成员的特征信息，构建所述第一社团的成员特征数据包括：

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

分别将所述第一社团中各个成员对应的特征融合信息与各个成员的自身特征信息融合，生成所述第一社团中各个成员的全局特征信息；

所述根据所述第一社团中各个成员对应的特征融合信息，评估所述第一社团中各个成员在所述第一社团中的重要程度，生成所述第一社团中各个成员的重要程度信息包括：

根据所述第一社团中各个成员的全局特征信息，评估所述第一社团中各个成员在所述第一社团中的重要程度，生成所述第一社团中各个成员的重要程度信息；

所述将所述第一社团的各个成员对应的特征融合信息，按照各自的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息包括：

将所述第一社团的各个成员的全局特征信息，按照各自的重要程度信息进行加权融合，生成所述第一社团中全部成员的加权特征融合信息。

7.如权利要求1所述的方法，其特征在于，所述根据所述第一社团中全部成员的加权特征融合信息，确定所述第一社团的社团属性包括：

根据所述第一社团中全部成员的加权特征融合信息，确定所述第一社团与第二社团的特征相似度，所述第二社团的社团属性为第一社团属性；

在所述特征相似度不小于预设相似度阈值的情况下，确定所述第一社团的社团属性为第一社团属性。

8.一种社团属性识别装置，其特征在于，包括：

9.一种社团属性识别装置，其特征在于，处理器和存储器；

所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1至7任意一项所述的方法。