CN112288195A

CN112288195A - 基于好友行为预测中心用户行为的方法、装置和电子设备

Info

Publication number: CN112288195A
Application number: CN202011328501.4A
Authority: CN
Inventors: 张帆进; 唐杰; 刘雪怡; 侯振宇; 谢若冰; 庄凯; 张旭; 林乐宇; 刘德兵; 仇瑜
Original assignee: Beijing Zhiyuan Artificial Intelligence Research Institute
Current assignee: Beijing Zhipu Huazhang Technology Co ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-01-29
Anticipated expiration: 2040-11-24
Also published as: CN112288195B

Abstract

本发明公开了一种基于社交圈好友行为预测中心用户行为的方法和电子设备。该方法为：首先生成局部子图和第一输入特征，然后将第一输入特征在局部子图调制后的谱空间上进行传播，得到第二输入特征，再然后采用图表示学习方法编码局部子图中的分层子图，生成局部子图的分层子图的表示，进而得到局部子图的表示，最后，将所述局部子图的表示经过全连接网络生成所述中心用户行为的二维预测结果。采用本发明的技术方案，不仅可以实现端到端的训练，而且，实验表明预测结果的精准度更高。

Description

基于好友行为预测中心用户行为的方法、装置和电子设备

技术领域

本发明涉及推荐技术领域，尤其涉及一种基于社交圈好友行为预测中心用户行为的方法和电子设备。

背景技术

在线社交网络在人们日常生活中的应用，使得用户不仅可以很容易看到好友在社交网络上的动态，其行为也会或多或少的受到社交圈的影响。基于此，近些年涌现了很多结合社交网络的推荐和广告系统。一方面，很多推荐引擎隐式地利用社交关系和用户的喜好为用户推荐产品；另一方面，一些在线社交平台例如Facebook，微信等，显式地利用用户社交关系，为每个用户展示其好友喜欢或分享的内容。例如，在微信看一看应用中，用户可以看到其朋友“在看”(表示喜欢和分享)的内容，用户可以有不同的反馈，如“在看”，“点击”或者没有反馈。因此，基于社交圈好友的行为预测中心用户行为是推荐和广告系统中一个广泛存在的问题。

目前，对中心用户行为的预测主要包括两类方法，一类方法是利用人工设计的用户特征和网络特征，通过分类器(如逻辑回归、支持向量机)预测中心用户的行为。例如，"Social influence locality for modeling retweeting behaviors."(In IJCAI,vol.13,pp.2761-2767.2013.)定义了基于随机游走的用户之间成对相似度，以及基于用户局部子图的连通分量数量的结构相似度，之后用逻辑回归对中心用户的行为进行分类。另一类方法是利用神经网络进行端到端的预测，在DeepInf方法中，以用户的局部子图作为输入，经过图神经网络(例如图注意力网络)去学习用户的隐层表示，之后基于中心用户的隐层表示进行预测。其中，第一类方法依赖于人工设计的特征，第二类方法的设计动机没有考虑社交影响力的特性，如结构影响力，所以，两类方法的预测效果都未能达到满意的效果。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下技术方案。

本发明的一方面提供了一种基于好友行为预测中心用户行为的方法，包括：

根据社交网络上所述中心用户的好友关系和好友行为生成局部子图，所述局部子图中的每个结点表示一个用户；

为所述局部子图中的每个结点生成第一输入特征；

将所述第一输入特征在所述局部子图调制后的谱空间上进行传播，生成第二输入特征；

以第二输入特征为输入，采用图表示学习方法编码所述局部子图中的分层子图，生成所述局部子图的分层子图的表示；

将各分层子图的表示进行拼接，得到所述局部子图的表示；

将所述局部子图的表示经过全连接网络生成所述中心用户行为的二维预测结果。

优选地，以所述中心用户为初始结点，根据所述中心用户的好友关系和好友行为采用宽度优先搜索(BFS)方式采样，生成所述局部子图。

优选地，所述第一输入特征由以下部分拼接而成：结点的网络嵌入表示、结点对应用户的个人画像特征和在社交网络上的结构特征、结点对应用户的活跃状态以及是否为中心用户的表示。

优选地，所述将所述第一输入特征在所述局部子图调制后的谱空间上进行传播，生成第二输入特征，包括：

采用如下公式调制所述局部子图的拉普拉斯矩阵：

其中，

是调制后的拉普拉斯矩阵，λ_j是拉普拉斯矩阵的第j个特征值，U是特征向量矩阵，g是调制器函数，μ∈[0,2]，θ是一个可训练的标量参数；

采用如下公式将所述第一输入特征在调制后的谱空间上进行传播

其中，

是在谱空间传播后生成的第二输入特征的矩阵，X是第一输入特征的矩阵，A是局部子图的邻接矩阵，m是局部子图中结点的数量，I_m是单位矩阵，D是度数矩阵。

优选地，所述以第二输入特征为输入，采用图表示学习方法编码所述局部子图中的分层子图，生成所述局部子图的分层子图的表示，包括：

生成所述局部子图中的结点表示；

学习得到一个分配矩阵；

利用所述分配矩阵和结点表示将所述局部子图转化为分层子图；

生成各分层子图中的结点表示；

对各分层子图中的结点表示进行池化操作，得到各分层子图的表示。

优选地，利用图神经网络GNN生成所述局部子图中的结点表示和各分层子图中的结点表示。

优选地，还包括：

将所述二维预测结果与所述中心用户的真实行为比较，根据比较结果利用交叉熵损失函数和优化器进行训练。

本发明第二方面提供了一种基于好友行为预测中心用户行为的装置，包括：

局部子图生成模块，用于根据社交网络上所述中心用户的好友关系和好友行为生成局部子图，所述局部子图中的每个结点表示一个用户；

第一输入特征生成模块，用于为所述局部子图中的每个结点生成第一输入特征；

第二输入特征生成模块，用于将所述第一输入特征在所述局部子图调制后的谱空间上进行传播，生成第二输入特征；

分层子图表示生成模块，用于以第二输入特征为输入，采用图表示学习方法编码所述局部子图中的分层子图，生成所述局部子图的分层子图的表示；

局部子图表示生成模块，用于将各分层子图的表示进行拼接，得到所述局部子图的表示；

二维预测结果生成模块，用于将所述局部子图的表示经过全连接网络生成所述中心用户行为的二维预测结果。

本发明第三方面还提供了一种存储器，存储有多条指令，所述指令用于实现上述的方法。

本发明第四方面还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如上述的方法。

本发明的有益效果是：本发明提供的技术方案中，首先生成局部子图和第一输入特征，然后将第一输入特征在局部子图调制后的谱空间上进行传播，得到第二输入特征，再然后，采用图表示学习方法编码局部子图中的分层子图，生成局部子图的分层子图的表示，进而得到局部子图的表示，最后，将所述局部子图的表示经过全连接网络生成所述中心用户行为的二维预测结果。本发明中，采用分层子图表示中心用户的不同维度的小社交圈，符合中心用户行为和其局部子图的结构具有相关性的规律。所以，采用本发明的技术方案，不仅可以实现端到端的训练，而且，实验表明预测结果的精准度更高。

附图说明

图1为本发明所述基于好友行为预测中心用户行为的方法流程示意图；

图2为本发明实施例所述一个局部子图的示例；

图3为本发明实施例所述将图层次化聚类的过程示意图；

图4为本发明所述基于好友行为预测中心用户行为的装置结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

如图1所示，本发明实施例提供了一种基于好友行为预测中心用户行为的方法，包括：

S101，根据社交网络上所述中心用户的好友关系和好友行为生成局部子图，所述局部子图中的每个结点表示一个用户；

S102，为所述局部子图中的每个结点生成第一输入特征；

S103，将所述第一输入特征在所述局部子图调制后的谱空间上进行传播，生成第二输入特征；

S104，以第二输入特征为输入，采用图表示学习方法编码所述局部子图中的分层子图，生成所述局部子图的分层子图的表示；

S105，将各分层子图的表示进行拼接，得到所述局部子图的表示；

S106，将所述局部子图的表示经过全连接网络生成所述中心用户行为的二维预测结果。

本发明中，为了构建一种社交影响力驱动的用户行为预测模型，首先对大规模用户日志数据进行了分析，结果发现用户行为(如点击、转发)和其局部子图连通分量的个数有较强相关性，当子图被清洗(如去除子图中的孤立结点)后，这种相关性变得更强。

其中，局部子图连通分量的个数可以记为#CC。比如，在微信看一看数据上，假设在活跃好友数量一定的情况下(活跃代表好友和展示内容有交互关系)，#CC越大，中心用户转发该内容的概率越小，而点击该内容的概率更大。#CC代表了中心用户具有的不同维度的小社交圈的数量。基于此，本发明采用分层的图表示方法来表示这些小社交圈，采用这种方式，使得相似的结点依次聚集成小的子图，聚集后的子图可以对应于连通分量。另外，研究发现局部子图中有些边缘结点对中心用户的影响可能是比较小的，因此本发明中通过将用户的特征在其局部子图调制后的谱空间进行传播的方式去除噪声，对局部子图进行清洗，得到它的1-core子图(1-core子图要求得到的子图中的结点至少有一条邻边)，使得基于1-core子图，中心用户的行为(转发和点击)和#CC的相关性变得更强。所以，采用本发明提供的方法，不仅可以实现端到端的训练，实验表明该方法的预测效果优于现有的预测方法。

本发明中，可以将要解决的问题形式化定义为，令

是用户u的τ度子图(ego network)，

是用户集合，

是用户之间的边集合，这里τ度子图是用户u的τ度邻居导出的子图。用户集合

的属性矩阵用

表示。假设用户u在时间戳ts时被展示了一个物品d，该物品和其部分好友有交互关系。用户集合

关于物品d的活跃状态记为

状态为1表示用户和物品之间有交互关系，反之则没有交互关系。问题的目标是基于好友行为预测中心用户行为，即计算中心用户在时间戳ts后被影响的概率

实际计算过程中，输入：用户日志L＝{(u,d,ts,act,af(u,d,ts))|u∈U,d∈D}、用户社交网络G＝{U,E}和用户特征C。其中，U是用户集合，D是物品集合，ts表示时间戳，act表示中心用户的反馈行为，af(u,d,ts)表示用户u的朋友里在时间ts之前已经和物品d有交互的用户集合，

表示用户之间的边集，用户特征C可以包括性别、年龄、区域等属性。

执行步骤S101，由于真实的社交网络非常稠密，比如在微信中可以有上千好友，生成的局部子图可以非常大，计算二度邻居的话子图会更大。所以，可以采用采样策略生成每条日志中中心用户的局部子图，比如，可以采用基于随机游走的方式生成随机子图。本发明中，采样策略根据实际社交网络特性来决定，比如在微信社交网络中，信息的传播呈局部化，用户只能看到其直接好友的动态，因此，可以以中心用户为中心，采用宽度优先搜索(BFS)采样近邻结点。生成采样的结点集后，再诱导生成中心结点的局部子图。局部子图中结点的数量可以设置为固定值。

图2为根据社交网络上所述中心用户的好友关系和好友行为生成的一个局部子图示例。其中，结点1为中心结点，结点之间的边表示双向的好友关系，结点2、4、6表示对应用户和某个物品有交互(点击或转发行为)，节点3、5表示对应用户和某个物品目前没有交互。图2所示的局部子图的生成过程可以为：先考虑中心结点1的一度邻居(即直接邻居)中的活跃用户，包括结点2和4，将其加入局部子图；之后，再将中心结点1的一度邻居中的不活跃用户加入局部子图，包括结点3和5；下一轮，考虑中心结点1的二度邻居(即所述中心结点的一度邻居的直接邻居，中心结点及其一度邻居除外)，根据一度邻居的加入顺序来选择二度邻居(符合BFS的流程)，例如，结点2的邻居优先于结点5的邻居加入局部子图，因此，结点2的邻居结点6优先加入局部子图，之后才轮到结点5的邻居结点7加入局部子图。在此过程中，可以设定局部子图中结点的最大数量m，比如可以设为32。局部子图的生成只考虑了中心结点的1度邻居和2度邻居，若这些邻居加入后仍没有达到设定的结点的最大数量，可以选择加入一些孤立“假结点”，即这些孤立结点和其他任何结点没有连边。

执行步骤S102，为所述局部子图中的每个结点生成第一输入特征。其中，第一输入特征由以下部分拼接而成：结点的网络嵌入表示、结点对应用户的个人画像特征和在社交网络上的结构特征、结点对应用户的活跃状态以及是否为中心用户的表示。

其中，对于结点的网络嵌入表示，考虑到计算效率和效果，本实施例中采用ProNE算法生成大规模网络上的用户嵌入表示。ProNE算法分为2步，第一步通过稀疏矩阵分解生成网络上结点的初始表示。第二步将第一步生成的结点表示在调制后的谱空间上进行传播，得到增强的结点表示。

本实施例中，用户的个人画像特征和在社交网络上的结构特征，可以包括用户的性别、年龄、地域和是否是意见领袖和结构洞用户。性别可以用0或1表示。可以将年龄属性按年龄段分类，每10岁一个年龄段，用独热编码进行描述。类似地，地域可以按照其地域分片(如华北、华东等)进行独热编码。对于意见领袖属性，首先在大规模用户转发网络(若用户1在用户2之后转发了一条内容，则用户1到用户2有一条有向边)上运行PageRank算法，将PageRank值最高的百分之一的用户定义为意见领袖，其他用户为非意见领袖，用一维表示。对于结构洞属性，首先在社交网络上用Targan算法寻找割点，将割点用户定义为结构洞用户，其他为非结构洞用户，用一维表示。

对于结点对应用户的活跃状态以及是否为中心用户的表示，可以图2为例进行说明。其中，结点2，4，6为活跃用户，其状态为1，其余结点状态为0；对于另外一维特征，结点1是中心用户，用1表示，其他结点用0表示。

经过此步骤生成的局部子图中结点的第一输入特征可以记为特征矩阵X。

执行步骤S103，首先将每个局部子图在谱空间上进行调制，然后将第一输入特征在调制后的谱空间上进行传播。通过调制谱空间可以过滤掉局部子图中的噪音。

在大规模网络中预训练的用户特征只捕捉了全局的网络结构特征，用户处于不同的局部子图中可能会起不同的作用，比如结点1在图2所示的局部子图中是中心用户，但是在别的局部子图中可能是活跃好友。因此，本步骤中采用图滤波器调制局部子图的拉普拉斯矩阵，并让S102中生成的特征矩阵X在调制后的谱空间传播，生成新的特征矩阵。这里调制局部子图的拉普拉斯矩阵可以过滤图中的噪音信号，实现对局部子图的清洗。

在图论中，随机游走的归一化的拉普拉斯矩阵定义为：L＝I_m-D^-1A，这里A是局部子图的邻接矩阵，m是局部子图中结点的数量，I_m表示单位矩阵，度数矩阵D＝∑_jA_ij。拉普拉斯矩阵可以分解为L＝UΛU^T，这里特征值矩阵Λ表示为Λ＝diag[λ₁,λ₂,…,λ_m]，在图的谱分析理论中，拉普拉斯矩阵中小的特征值控制着图被划分成几个大的子图的划分效果，也就是图的全局聚类效果；而大的特征值控制着图被划分为很多个小的子图的划分效果，也就是图的相对局域的聚类效果。L的第j个特征值λ_j越小，那么图被划分为j个子图的效果越好。本发明中，采用如下公式去调整拉普拉斯矩阵的特征值：

其中，

是调制后的拉普拉斯矩阵，λ_j是拉普拉斯矩阵的第j个特征值，U是特征向量矩阵，g是调制器函数，这里μ∈[0,2]，θ是一个可训练的标量参数；调制器g可以被看做一个带通滤波，它可以使某个范围内的特征值通过，并且过滤掉其他范围的特征值，这样可以减少图中的噪音。为了防止显式进行特征值分解带来的高复杂度，本发明实施例中，可以用切比雪夫展开式和Bessel函数进行高效近似计算。在本步骤中，μ被设定为一个可以训练的参数，可以被自适应地学习到。

然后，采用如下公式将步骤S102中得到的特征矩阵X在调制后的谱空间上进行传播，得到第二输入特征：

其中，

是在谱空间传播后生成的第二输入特征的矩阵，X是第一输入特征的矩阵，A是局部子图的邻接矩阵，m是局部子图中结点的数量，I_m是单位矩阵，D是度数矩阵，

是归一化邻接矩阵D^-1A被调制后的结果。

执行步骤S104，包括：

生成所述局部子图中的结点表示；

学习得到一个分配矩阵；

生成各分层子图中的结点表示；

其中，可以利用图神经网络GNN生成所述局部子图中的结点表示和各分层子图中的结点表示。具体的，可以采用图注意力网络来实现，图注意力网络的思想是它可以用注意力参数学习结点之间的权重，再用这个权重对每个结点的表示根据其邻居结点的表示加权进行更新。

研究发现，中心用户的行为与其局部子图的连通分量相关，本步骤的思想是设计一个分层的图表示学习方法来编码局部子图中的子结构。图中的子结构，例如连通分量，社区(community)等，可以视作图中高层次抽象的结构，因此，可以考虑将图中相似的结点依次聚类，形成一个个“超级结点”，超级结点之间连接有“超边”，超边上有不同的权重，并对聚类结果进行编码表示。本发明中可以使用图神经网络(GNN)来学习子结构的编码表示。

具体地，首先采用如下公式为局部子图中的结点用GNN来生成结点表示，GNN的输入结点特征是步骤S103中生成的第二输入特征：

其中，

是结点在第l₁层的隐层表示，

是局部子图的邻接矩阵A，

是结点输入特征。

为了生成层次化的子图结构，本实施例中参考DIFFPOOL工作，使用另一个GNN模块学习得到一个“分配矩阵”

其中，

矩阵

中的元素

表示在第l_k+1层将结点i分配到类簇j的概率。

根据分配矩阵

局部子图可以依次被转化为更小的图(形如图3所示)，相似的结点会被聚集成“超级结点”，参加下一轮聚类。更小的图的可以按照如下公式生成：

其中，

是分层子图中结点的特征矩阵，

是分层子图的邻接矩阵，矩阵中的边权表示不同类簇之间的连接强度。各分层子图中的结点表示矩阵可以用下面的公式计算，

在生成不同层级子图结点的表示后，在结点表示的基础上施加池化操作得到每个层级的子图表示。

执行步骤S105，采用如下公式由不同层级子图的表示拼接得到整个局部子图的表示：

其中，Z^graph为整个局部子图的表示，σ定义为对图中不同结点表示的每一维度做最大池化操作(max pooling)，即图的每一维表示是所有结点表示中该维度最大的值。

执行步骤S106，将所述局部子图的表示经过全连接网络生成所述中心用户行为的二维预测结果，表示为如下公式：

y^pred＝δ(WZ^graph+b)

其中，全连接网络即线性变换后施加激活函数(例如ReLU函数)。y^pred为二维预测结果，δ为ReLU激活函数，W为可训练的投影矩阵参数，Z^graph为局部子图的表示，b为可训练的偏置量。

本发明提供的方法，还包括步骤：

将所述二维预测结果与所述中心用户的真实行为比较，根据比较结果利用交叉熵损失函数和优化器进行训练。具体的，可以采用Adagrad优化器。

实施例二

如图4所示，本发明的另一方面还包括和前述方法流程完全对应一致的功能模块架构，即本发明实施例还提供了一种基于好友行为预测中心用户行为的装置，包括：

局部子图生成模块401，用于根据社交网络上所述中心用户的好友关系和好友行为生成局部子图，所述局部子图中的每个结点表示一个用户；

第一输入特征生成模块402，用于为所述局部子图中的每个结点生成第一输入特征；

第二输入特征生成模块403，用于将所述第一输入特征在所述局部子图调制后的谱空间上进行传播，生成第二输入特征；

分层子图表示生成模块404，用于以第二输入特征为输入，采用图表示学习方法编码所述局部子图中的分层子图，生成所述局部子图的分层子图的表示；

局部子图表示生成模块405，用于将各分层子图的表示进行拼接，得到所述局部子图的表示；

二维预测结果生成模块406，用于将所述局部子图的表示经过全连接网络生成所述中心用户行为的二维预测结果。

其中，在局部子图生成模块中，以所述中心用户为初始结点，根据所述中心用户的好友关系和好友行为采用宽度优先搜索(BFS)方式采样，生成所述局部子图。

进一步地，所述第一输入特征由以下部分拼接而成：结点的网络嵌入表示、结点对应用户的个人画像特征和在社交网络上的结构特征、结点对应用户的活跃状态以及是否为中心用户的表示。

在所述在第二输入特征生成模块中，采用如下公式调制所述局部子图的拉普拉斯矩阵：

其中，

其中，

在分层子图表示生成模块中，生成所述局部子图的分层子图的表示，包括：

生成所述局部子图中的结点表示；

学习得到一个分配矩阵；

生成各分层子图中的结点表示；

进一步地，利用图神经网络GNN生成所述局部子图中的结点表示和各分层子图中的结点表示。

本发明实施例提供的装置还包括训练模块，用于将所述二维预测结果与所述中心用户的真实行为比较，根据比较结果利用交叉熵损失函数和优化器进行训练。

该装置可通过上述实施例一提供的基于好友行为预测中心用户行为的方法实现，具体的实现方法可参见实施例一中的描述，在此不再赘述。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的方法。

本发明还提供了一种电子设备，包括处理器和与所述处理器连接的存储器，所述存储器存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。