CN112528163B

CN112528163B - 一种基于图卷积网络的社交平台用户职业预测方法

Info

Publication number: CN112528163B
Application number: CN202011404011.8A
Authority: CN
Inventors: 周凡; 马英洵; 陈湘萍
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2022-03-25
Anticipated expiration: 2040-12-04
Also published as: CN112528163A

Abstract

本发明公开了一种基于图卷积网络的社交平台用户职业预测方法。首先爬取用户的社交网络数据构建网络结构邻接矩阵，利用bag‑of‑words表示用户个人简介构建节点属性特征矩阵，之后输入图卷积网络得到网络特征向量；然后再与由用户基本属性和行为属性构造的主用户属性特征向量进行拼接，得到主用户特征向量，并输入逻辑斯特回归分类器进行训练得到最终的职业分类模型。本发明充分利用用户在社交平台上留下的数据，使用图卷积网络模型构建社交网络，使用户职业预测更加准确；预测社交网络用户职业有利于用户画像的构建，可以优化平台的广告推荐、用户推荐算法，进而有效地增强平台用户粘性。

Description

一种基于图卷积网络的社交平台用户职业预测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于图卷积网络的社交平台用户职业预测方法。

背景技术

社交平台用户的特征预测是自然语言处理的一个热门主题。例如新浪微博作为一个大型的社交平台，就拥有几亿用户，用户在平台上活动产生了大量的用户属性(个人简介、性别、年龄、地区)、用户行为(评论、转发、点赞)以及用户社交关系(关注、粉丝)数据，数据挖掘研究和应用提供了大量的数据支持。对用户的某些特征进行预测可以为用户个性化推荐提供支撑，有利于为用户提供更好的服务、为平台创造更大的收益。同时，网络信息安全得到越来越多的重视，对用户的属性进行预测有利于提高对社交平台中用户身份识别的准确率，有利遏制和打击网络犯罪。

社交平台用户的个人基本属性以及用户活跃在平台上产生的大量文本数据可以构成用户的基本特征，同时，用户主页可以获取用户的关注用户以及粉丝，以此可以构建用户的社交网络关系图获得用户的社交网络特征。结合用户的基本特征以及社交网络特征对用户职业利用深度学习算法进行预测可以达到较高的分类精度。

在20世纪80年代，由David Runelhart、Geoffrey Hinton等人提出了用于训练多层神经网络的BP算法，将计算机的学习过程提高到以往不能企及的高度，使得神经网络再度迎来春天。由于传统的多层感知机很容易陷入局部最小，直接使用BP算法求取的分类效果不太明显，因此多伦多大学Geoffery hinton教授提出了Deep learning的概念，引入了概率图模型里的生成模型。它能从训练数据里通过不断地学习自动提取出所需要的特征，解决了传统手工特征提取考虑不周的问题，并且更好地对神经网络权重进行初始化，之后通过BP算法不断修正权重，得到的分类效果良好。

CNN自LeCun提出的LeNet网络结构在对手写数字识别上取得很好效果之后开始被广泛认知。CNN不需要对输入进行过多的预处理，通过卷积运算，可以学习到图像或文本的局部特征，从而达到一个良好的分类效果，在图像处理以及自然语言处理领域得到广泛运用。

图卷积网络(GCN)是近几年提出的可以很好地处理图结构数据的卷积神经网络模型。普通的CNN研究的对象需要具备规则的空间结构，比如图片是规则的正方形、语音是规则的序列。可以通过有限维度的矩阵将这些对象表示出来作为网络的输入。然而现实生活中许多数据不具备规则的空间结构，比如社交网络。利用GCN可以很好地对空间结构不规则的数据进行学习分类。此外，GCN的输入参数包括邻接矩阵以及特征矩阵，不仅能学习网络结构，还能利用网络节点的属性进行学习，相比一般的表示图结构的模型GCN学习到的信息更加充分。

文本的表示最早采用one-hot方法，每一个单词对应向量中的一位，但是one-hot方法占用的内存空间过大。有学者提出了Bag-of-words模型，该模型假定对于一个文档，忽略它的语法、句法以及单词顺序等要素，把它仅仅看作作干个词汇的集合，是信息检索领域常用的文档表示方法。用短文本预处理时用Bag-of-word表示能起到很好的模型训练效果。

目前的现有技术之一，专利“挖掘用户职业的方法、装置、计算机可读存储介质和终端设备”，基于用户基本特征，结合用户职业构建特征向量达到预测用户职业的目的。具体步骤如下：1、提取样本用户的特征值，将样本用户的特征值转换为样本用户的特征词；2、根据样本用户的特征词和样本用户的职业标签，获取所有职业标签嵌入向量和待挖掘用户的嵌入向量，其中，职业标签嵌入向量和待挖掘用户的嵌入向量隶属于同一向量空间；3、待挖掘用户的嵌入向量与所有职业标签嵌入向量中的每一个职业标签嵌入向量相匹配，取与待挖掘用户的嵌入向量最匹配的职业标签嵌入向量对应的职业标签作为待挖掘用户的职业标签。该技术的缺点是没有利用用户社交网络结构。技术一仅仅利用用户的基本特征构建特征向量，特征维度太少。用户在平台上活跃会与许多其他用户发生联系，会产生社交网络图。社交网络图上的每个节点都是用户，含有大量的用户信息。将社交网络结构作为用户职业预测的特征之一可以大大提高用户职业预测的准确率。

目前的现有技术之二，专利“一种基于节点嵌入的在线社交网络用户缺失属性预测方法”，通过构建社交网络结构向量，利用相关用户属性进行学习，预测用户确实属性的值，具体步骤如下：1、收集在线社交网络数据；2、用node2vec方法进行节点嵌入得到表征网络结构的特征向量，构造表征用户其他特征的向量，并进行特征拼接得到网络模型；3、逻辑斯特回归模型进行分类预测。该方法的缺点是将网络节点用node2vec进行表示后直接与用户特征向量进行拼接，作为逻辑斯特回归模型的输入进行分类预测，没有利用神经网络模型结合网络结构特征和用户属性对社交网络进行更加充分的学习。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于图卷积网络的社交平台用户职业预测方法。本发明解决的主要问题，一是现有方法进行用户职业预测时特征维度过少的问题，即如何充分利用社交网络的结构以及用户的属性，构建神经网络模型进行学习。二是社交网络结构的特征学习问题，即如何利用图卷积网络结合网络结构特征和用户属性对社交网络进行更加充分的学习并进行分类预测。

为了解决上述问题，本发明提出了一种基于图卷积网络的社交平台用户职业预测方法，所述方法包括：

数据收集及预处理，爬取社交平台中的用户数据，其中用户数据包括用户基本数据以及社交网络数据，用户基本数据包括用户的基本属性、行为属性，社交网络数据包括用户好友列表以及好友列表用户的基本属性，被搜集了行为属性及好友列表的用户为主用户，好友列表用户为相关用户；

对所述社交网络数据中所述相关用户进行数据过滤，仅保留在5个及以上主用户的好友列表中出现过的相关用户作为所述主用户的相邻节点，若进行数据过滤后所述主用户的相关用户都被过滤掉，则直接用该主用户原有相关用户作为该主用户的相邻节点，之后最终确定的相邻节点与所述主用户节点构建网络结构邻接矩阵；

构建bag-of-words的词库，之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示，构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵；

将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习，对模型参数进行学习调整之后得到网络特征向量；

对所述主用户的基本属性和行为属性进行预处理，构造主用户属性特征向量；

将所述网络特征向量和所述主用户属性特征向量进行拼接，得到最终代表主用户特征的主用户特征向量；

将所述主用户特征向量输入逻辑斯特回归分类器，对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型；

将待预测职业的社交平台用户数据输入所述职业分类模型，模型输出结果即为预测得到的用户职业。

优选地，所述数据收集及预处理阶段，需要根据所述用户基本属性标定其所属职业用于训练，职业划分按照《中华人民共和国职业分类大典》分为8大类，用数字表示，分别为：0-各类专业及技术人员、1-国家党政机关或企事业单位人员、2-办事人员和有关人员、3-商业工作人员、4-服务性工作人员、5-农林牧渔劳动者、6-生产工作/运输工作和部分体力劳动者、7-不方便分类的其他劳动者。

优选地，所述构建bag-of-words的词库，之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示，构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵，具体为：

将包括所述主用户与所述相关用户在内的所有用户的个人简介作为语料库，对语料库进行分词、去停词之后保留出现频率最高的5000个词，作为bag-of-words的词库。

将用户的个人简介用bag-of-words表示得到用户节点的属性特征，构建与所述网络结构邻接矩阵结构相对应的节点属性特征矩阵，矩阵结构为d_N*d_f，其中N表示用户节点数量，f表示特征数量。

优选地，所述将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习，对模型参数进行学习调整之后得到网络特征向量，具体为：

将所述网络结构邻接矩阵以及所述节点属性特征矩阵的集合划定为训练集和测试集；

图卷积网络模型表示为f(H^(l),A)，其中H⁽⁰⁾＝X是所述节点属性特征矩阵，A是所述网络结构邻接矩阵：

其中，

是A+λI的度矩阵，即

I是单位矩阵，λ是控制节点权重的超参数，W^(l)和b^(l)分别是第l层的可训练参数以及偏置值，σ为非线性激活函数；

在图卷积网络模型的每一层中，每个节点通过

聚集其邻接节点的特征，再通过W和b进行线性转化；

图卷积网络模型的输入为所述网络结构邻接矩阵和所述节点属性特征矩阵，采用3层卷积层，激活函数选择ReLU，得到网络特征向量：

在训练过程通过调整参数使预测结果拟合程度更高。

优选地，所述将所述网络特征向量和所述主用户属性特征向量进行拼接，得到最终代表主用户特征的主用户特征向量，具体为：

在所述划定的训练集和测试集中，分别将所述主用户属性特征向量加到所述网络特征向量后进行拼接，得到结构为d_主用户*d_{节点特征+属性特征}的主用户特征向量。

优选地，所述将所述主用户特征向量输入逻辑斯特回归分类器，对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型，具体为：

使用逻辑斯特回归算法进行分类：

其中h是所述主用户特征向量，u是所述职业划分的代号，将问题转化为预测某个用户的职业是0,1,2…7号职业的概率y是多少，最后选择概率最高的作为其最终预测所得的职业。

逻辑斯特回归采用L2正则化：

本发明提出的一种基于图卷积网络的社交平台用户职业预测方法，通过采集社交平台用户的好友列表信息构建社交网络，同时采集用户基本属性以及行为特征，充分利用用户在社交平台上留下的数据；选取用户的个人简介的bag-of-word表示作为节点的特征，使用图卷积网络模型构建社交网络，使用户职业预测更加准确；预测社交网络用户职业有利于用户画像的构建，可以优化平台的广告推荐、用户推荐算法，进而有效地增强平台用户粘性。

附图说明

图1是本发明实施例的一种基于图卷积网络的社交平台用户职业预测方法的总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的一种基于图卷积网络的社交平台用户职业预测方法的总体流程图，如图1所示，该方法包括：

S1，数据收集及预处理，爬取社交平台中的用户数据，其中用户数据包括用户基本数据以及社交网络数据，用户基本数据包括用户的基本属性、行为属性，社交网络数据包括用户好友列表以及好友列表用户的基本属性，被搜集了行为属性及好友列表的用户为主用户，好友列表用户为相关用户；

S2，对所述社交网络数据中所述相关用户进行数据过滤，仅保留在5个及以上主用户的好友列表中出现过的相关用户作为所述主用户的相邻节点，若进行数据过滤后所述主用户的相关用户都被过滤掉，则直接用该主用户原有相关用户作为该主用户的相邻节点，之后最终确定的相邻节点与所述主用户节点构建网络结构邻接矩阵；

S3，构建bag-of-words的词库，之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示，构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵；

S4，将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习，对模型参数进行学习调整之后得到网络特征向量；

S5，对所述主用户的基本属性和行为属性进行预处理，构造主用户属性特征向量；

S6，将所述网络特征向量和所述主用户属性特征向量进行拼接，得到最终代表主用户特征的主用户特征向量；

S7，将所述主用户特征向量输入逻辑斯特回归分类器，对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型；

S8，将待预测职业的社交平台用户数据输入所述职业分类模型，模型输出结果即为预测得到的用户职业。

步骤S1，具体如下：

S1-1，以微博为例，主用户基本属性包括用户个人简介、性别、年龄、所在地、是否加V，用户行为包括原创微博数与总微博数的百分比、用户主页最热门微博的点赞数、转发数、评论数之和。好友列表指主用户的关注列表以及粉丝列表，此处存储相关用户的uid，好友列表基本属性特指相关用户的个人简介。

S1-2，根据所述用户基本属性标定其所属职业用于训练，职业划分按照《中华人民共和国职业分类大典》分为8大类，用数字表示，分别为：0-各类专业及技术人员、1-国家党政机关或企事业单位人员、2-办事人员和有关人员、3-商业工作人员、4-服务性工作人员、5-农林牧渔劳动者、6-生产工作/运输工作和部分体力劳动者、7-不方便分类的其他劳动者。

S1-3，对数据进行预处理。将用户性别表示为0-男性、1-女性、2-未知，，是否加V表示为0-否、1-是，所在地按照一线二线城市进行划分，1-一线城市、2-二线城市以此类推，用户年龄和用户的点赞数、转发数、评论数、原创微博数与总微博数的百分比则有其具体的数字不需要进行数据抽象。之后对数据进行标准化处理。标准化处理是为了防止数据过大的特征过于突出而导致其他特征被削弱。

步骤S2，具体如下：

S2-1，对S1得到的相关用户数据进行过滤，仅保留在5个及以上主用户的好友列表中出现过的相关用户作为主用户的相邻节点。

S2-2，数据过滤之后导致少数主用户失去了所有相关用户，则直接用该主用户原有相关用户作为该主用户的相邻节点。

S2-3，为预处理完的用户社交网络构建邻接矩阵，矩阵结构为d_N*d_N(N表示节点数量)。

步骤S3，具体如下：

S3-1，将包括主用户与相关用户在内的所有用户的个人简介作为语料库，对语料库进行分词、去停词之后保留出现频率最高的5000个词，作为bag-of-words的词库。

S3-2，将用户的个人简介用bag-of-words表示得到用户节点的属性特征，构建与网络结构邻接矩阵结构相对应的节点属性特征矩阵，矩阵结构为d_N*d_f(f表示特征数量)。由于一开始对主用户职业进行判断很大程度上是根据主用户个人简介进行判断的，为了避免其因为权重过大而无法突出社交网络特征对于分类结果的影响，将主用户的属性特征设为空。

步骤S4，具体如下：

S4-1，将网络结构邻接矩阵以及节点属性特征矩阵的集合的80％作为训练集，20％作为测试集。在神经网络的训练中，训练集是神经网络学习数据分布的来源，而测试集则是用来检测模型有没有发生过拟合，可以衡量模型学习的效果。

S4-2，图卷积网络模型表示为f(H^(l),A)，其中H⁽⁰⁾＝X是所述节点属性特征矩阵，A是所述网络结构邻接矩阵：

其中，

是A+λI的度矩阵，即

I是单位矩阵，λ是控制节点权重的超参数，W^(l)和b^(l)分别是第l层的可训练参数以及偏置值，σ为非线性激活函数。

S4-3，在图卷积网络模型的每一层中，每个节点通过

聚集其邻接节点的特征，再通过W和b进行线性转化。图卷积网络是一个多层的图卷积神经网络，每一个卷积层仅处理一阶领域信息，通过叠加若干卷积层可以实现多阶领域的信息传递。

S4-4，图卷积网络模型的输入为网络结构邻接矩阵和节点属性特征矩阵，采用3层卷积层，激活函数选择ReLU，得到网络特征向量：

S4-5，在训练过程通过调整参数使预测结果拟合程度更高。

步骤S5，具体如下：

S5-1，将转发数、评论数、点赞数等用户行为数据进行数据标准化处理，对用户属性中的用户所在地进行标号处理，得到经过预处理的用户属性及行为数据。

S5-2，经过预处理的用户属性以及行为数据按照用户性别、年龄、是否加V、所在地、点赞数、转发数、评论数、原创微博占总微博数的百分比的顺序构建主用户属性特征向量。

步骤S6，具体如下：

步骤S7，具体如下：

S7-1，使用逻辑斯特回归算法进行分类：

S7-2，逻辑斯特回归采用L2正则化：

本发明实施例提出的一种基于图卷积网络的社交平台用户职业预测方法，通过采集社交平台用户的好友列表信息构建社交网络，同时采集用户基本属性以及行为特征，充分利用用户在社交平台上留下的数据；选取用户的个人简介的bag-of-word表示作为节点的特征，使用图卷积网络模型构建社交网络，使用户职业预测更加准确；预测社交网络用户职业有利于用户画像的构建，可以优化平台的广告推荐、用户推荐算法，进而有效地增强平台用户粘性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于图卷积网络的社交平台用户职业预测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于图卷积网络的社交平台用户职业预测方法，其特征在于，所述方法包括：

2.如权利要求1所述的一种基于图卷积网络的社交平台用户职业预测方法，其特征在于，所述数据收集及预处理阶段，需要根据所述用户基本属性标定其所属职业用于训练，职业划分按照《中华人民共和国职业分类大典》分为8大类，用数字表示，分别为：0-各类专业及技术人员、1-国家党政机关或企事业单位人员、2-办事人员和有关人员、3-商业工作人员、4-服务性工作人员、5-农林牧渔劳动者、6-生产工作/运输工作和部分体力劳动者、7-不方便分类的其他劳动者。

3.如权利要求1所述的一种基于图卷积网络的社交平台用户职业预测方法，其特征在于，所述构建bag-of-words的词库，之后将所述相关用户的基本属性中的个人简介通过该bag-of-words表示，构建与所述网络结构邻接矩阵结构相同的节点属性特征矩阵，具体为：

将包括所述主用户与所述相关用户在内的所有用户的个人简介作为语料库，对语料库进行分词、去停词之后保留出现频率最高的5000个词，作为bag-of-words的词库；

4.如权利要求1所述的一种基于图卷积网络的社交平台用户职业预测方法，其特征在于，所述将所述网络结构邻接矩阵以及所述节点属性特征矩阵输入图卷积网络模型进行学习，对模型参数进行学习调整之后得到网络特征向量，具体为：

图卷积网络模型表示为f(H^(l)，A)，其中H⁽⁰⁾＝X是所述节点属性特征矩阵，A是所述网络结构邻接矩阵：

其中，

是A+λI的度矩阵，即

在图卷积网络模型的每一层中，每个节点通过

聚集其邻接节点的特征，再通过W和b进行线性转化；

在训练过程通过调整参数使预测结果拟合程度更高。

5.如权利要求4所述的一种基于图卷积网络的社交平台用户职业预测方法，其特征在于，所述将所述网络特征向量和所述主用户属性特征向量进行拼接，得到最终代表主用户特征的主用户特征向量，具体为：

6.如权利要求2所述的一种基于图卷积网络的社交平台用户职业预测方法，其特征在于，所述将所述主用户特征向量输入逻辑斯特回归分类器，对逻辑斯特回归分类器进行训练之后得到最终的职业分类模型，具体为：

使用逻辑斯特回归算法进行分类：

其中h是所述主用户特征向量，u是所述职业划分的代号，将问题转化为预测某个用户的职业是0，1，2…7号职业的概率y是多少，最后选择概率最高的作为其最终预测所得的职业；

逻辑斯特回归采用L2正则化：