CN111159569A

CN111159569A - 一种基于用户个性化特征的社交网络用户行为预测方法

Info

Publication number: CN111159569A
Application number: CN201911283164.9A
Authority: CN
Inventors: 刘晓明; 李敏杰; 沈超; 周亚东; 管晓宏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-05-15

Abstract

本发明公开了一种基于用户个性化特征的社交网络用户行为预测方法，首先基于若干社交网络用户的多维行为属性数据，构建不同类别的用户标记向量；对社交网络用户进行分类，划分为不同归属类别的用户，并对其行为进行行为特征向量转化，得到向量化后的用户行为；将向量化用户行为按时序排列，采用长短时记忆神经网络进行预测，所需预测结果；本发明对社交网络用户进行分类定义，对社交网络用户的类别及行为属性进行区分；对每一归属类别的用户行为的时序数据进行排序，通过对该类别用户行为数据的学习迭代来进行用户行为预测，降低了对预测过程中参数化的假设；充分考虑了社交网络用户在时序行为上的动态过程，提高了预测结果的真实性。

Description

一种基于用户个性化特征的社交网络用户行为预测方法

技术领域

本发明属于数据挖掘技术领域，特别涉及一种基于用户个性化特征的社交网络用户行为预测方法。

背景技术

在数据挖掘领域中，用户行为数据是一种非常重要的处理数据，用户行为数据是由用户在网络空间中的各种动态行为数据组成。随着互联网的迅速发展，社交网络在生活中越来越普及，用户的行为数据越来越多；同时，用户行为数据以及其行为产生者随着社会网络的发展以各种形式存在于各个网络；用户行为数据涉及用户时间、空间各个维度的数据，例如用户定位某个地点后发表推文或用户在某个时间点进行网页浏览等。由于网络的庞大性和用户的复杂性，这些用户的时空行为数据在各个社交网络上快速增长。

在一个社交网络中，用户不仅拥有其自身的属性也随之产生与其相关的时序行为数据。如果我们能对用户的行为进行较为准确的预测，则可以针对用户进行一些商品推荐，好友推荐、信息转发或者信息扩散。现有的用户行为预测，更多的是针对于一些评论行为、购买意向、点击率以及转发行为预测，未考虑用户在时序上的一个长期行为；并且，以往的用户行为预测往往定焦于用户的某个特定行为上，未考虑用户的不同行为；同时，以往的方法参数化假设性强，缺乏考虑在线社交网络用户在时序行为上的动态过程。

发明内容

针对现有技术中存在的技术问题，本发明提供了一种基于用户个性化的社交网络用户行为预测方法，以解决现有技术中的用户行为预测未考虑用户在时序上的长期行为或定焦于用户的某个特定行为，参数化假设性强，缺乏考虑在线社交网络用户在时序行为上的动态过程的技术问题。

为达到上述目的，本发明采用的技术方案为：

本发明提供了一种基于用户个性化特征的社交网络用户行为预测方法，包括以下步骤：

步骤1、基于若干社交网络用户的多维行为属性数据，构建不同类别的用户标记向量；

步骤2、基于不同类别的用户标记向量，对社交网络用户进行分类，划分为不同归属类别的用户；

步骤3、对每一归属类别的用户行为进行行为特征向量转化，得到向量化用户行为；将向量化用户行为按时序排列，并采用长短时记忆神经网络进行用户行为预测，得到社交网络用户的预测行为特征；对社交网络用户的预测行为特征进行解码，得到所需的用户行为。

进一步的，步骤1中，构建不同类别的用户标记向量时，具体包括以下步骤：

步骤11、提取若干个社交网络用户的多维行为属性数据，构建每个社交网络用户的用户属性特征向量；对每个用户属性特征向量进行归一化处理，得到每个社交网络用户的归一化用户属性特征向量；

步骤12、利用聚类算法及先验知识，对每个社交网络用户的归一化用户属性特征向量的进行分类标记，得到不同类别的用户标记向量。

进一步的，步骤1中，多维行为属性数据包括社交网络用户的动态数、点赞数、关注数、粉丝数、原创频率及转发频率。

进一步的，步骤11中，对每个用户属性特征向量进行归一化处理时，采用对社交网络用户的每个行为属性数据利用归一化公式进行归一化处理。

进一步的，步骤12中，对每个社交网络用户的归一化用户属性特征向量进行分类标记时，具体包括以下步骤：

s1、选取k个社交网络用户的归一化用户属性特征向量作为初始对象；

s2、分别计算每个社交网络用户的归一化用户属性特征向量到k个初始对象的距离，将社交网络用户的归一化属性特征向量与其距离最短的初始对象划归为一类，得到k类初步社交网络用户的归一化属性特征向量组；

s3、计算步骤s2中的每一类初步社交网络用户的归一化属性特征向量组的中心，不断迭代，直至每类初步社交网络用户的归一化属性特征向量组的中心数据不发生改变，得到k类社交网络用户归一化属性特征向量；

s4、结合先验知识对剔除后的k类社交网络用户归一化属性特征向量组中的行为属性数据进行标记，得到不同类别的用户标记向量。

进一步的，步骤2中，采用SVM法、KNN法、随机森林法或朴素贝叶斯法对社交网络用户进行分类。

进一步的，步骤2中，采用SVM法对社交网络用户进行分类时，具体包括以下步骤：

步骤21、构建用户类型判别函数；

步骤22、通过拉格朗日定理构建目标函数，采用SMO算法，求解用户类型判别函数；

步骤23、利用步骤22中的判别函数对用户个性化特征进行判断，根据用户个性化特征的权重，将社交网络用户划分为不同归属类别的用户。

进一步的，步骤21中，构建的判别函数为：

f(x)＝sign(W^tx+b)；

步骤22中，目标函数为：

0≤α_i≤C,i＝1,2,...,N

其中，W为权重参数，b为偏置参数，

N为社交网络用户个数；

x为用户的特征属性向量；

x_i为第i个用户的特征属性向量；

x_j为第j个用户的特征属性向量；

y_i为第i个用户的类别标签；

y_j为第j个用户的类别标签；

α_i为拉格朗日乘子；

α_j为拉格朗日乘子。

进一步的，步骤3具体包括以下步骤：

步骤31、对每一归属类别的用户的用户行为进行定义，利用one-hot方法，构建每一归属类别用户的用户行为特征向量；

步骤32、将用户行为特征向量按照时序先后顺序排列，得到用户行为特征矩阵；

步骤33、构建长短时神经网络，利用用户行为特征矩阵中的部分用户行为特征向量作为训练数据，其余数据作为测试数据；通过反向传播算法，对长短时神经网络进行参数更新；得到预测的用户行为向量；

步骤34、对预测的用户行为向量进行解析，得到预测的用户行为。

进一步的，步骤33中，选取用户行为特征矩阵中的50％-90％的用户行为特征向量作为训练数据。

与现有技术相比，本发明的有益效果为：

本发明提供了一种基于用户个性化特征的社交网络用户行为预测方法，基于若干社交网络用户的多维行为属性数据，通过对社交网络用户进行分类定义，对社交网络用户的类别及行为属性进行区分；对每一归属类别的用户行为的时序数据进行排序，通过对该类别用户行为数据的学习迭代来进行用户行为预测，降低了对预测过程中参数化的假设；充分考虑了社交网络用户在时序行为上的动态过程，提高了预测结果的真实性。

本发明中通过对社交网络用户进行分类定义，提出对用户的有用分类定义，标记用户，增强用户标记的适用性。不同用户之间有着明显的行为特征，用户与行为之间存在着广泛的动态交互和相互影响，相似用户拥有类似的行为活动，对用户先分类再进行行为预测的用户个性化的社交网络的行为预测可以很好的捕捉这一特性。

附图说明

图1为本发明所述的基于用户个性化特征的社交网络用户行为预测方法流程示意图；

图2为本发明所述的用户行为预测方法中的对社交网络用户分类过程的流程示意图；

图3为本发明所述的用户行为预测方法中的行为预测过程流程示意图；

图4为实施例1中所述的用户行为预测方法中用户分类准确率与训练数据曲线图

图5为实施例1中所述的用户行为预测方法中行为预测结果准确率与训练数据的曲线图。

具体实施方式

下面结合附图及具体实施方式对本发明作进一步详细说明。

如附图1-3所示，本发明提供了一种基于用户个性化特征的社交网络用户行为预测方法，包括以下步骤：

具体的，包括以下步骤：

步骤11、提取若干个社交网络用户的多维行为属性数据，构建每个社交网络用户的用户属性特征向量；对每个用户属性特征向量进行归一化处理，得到每个社交网络用户的归一化用户属性特征向量；所述多维行为属性数据包括社交网络用户的动态数、点赞数、关注数、粉丝数、原创频率及转发频率；对每个用户属性特征向量进行归一化处理时，采用对社交网络用户的每个行为属性数据利用归一化公式进行归一化处理。

步骤12、利用聚类算法及先验知识，对每个社交网络用户的归一化用户属性特征向量的进行分类标记，得到不同类别的用户标记向量；其中对每个社交网络用户的归一化用户属性特征向量进行分类标记时，具体包括以下步骤：

步骤2、基于不同类别的用户标记向量，利用SVM法、KNN法、随机森林法或朴素贝叶斯法，对社交网络用户进行分类，划分为不同归属类别的用户；

其中，采用SVM法对社交网络用户进行分类时，具体包括以下步骤：

步骤21、构建用户类型判别函数；判别函数如下：

f(x)＝sign(W^tx+b)

其中，x为用户特征属性向量；W为权重参数，b为偏置参数；t表示转置；

其中，目标函数如下：

0≤α_i≤C,i＝1,2,...,N

其中，N为社交网络用户个数；x为用户的特征属性向量；x_i为第i个用户的特征属性向量；x_j为第j个用户的特征属性向量；y_i为第i个用户的类别标签；y_j为第j个用户的类别标签；α_i为拉格朗日乘子；α_j为拉格朗日乘子。

步骤3、对每一归属类别的用户行为进行行为特征向量转化，得到向量化后的用户行为；将向量化用户行为按时序排列，并采用长短时记忆神经网络进行用户行为预测，得到社交网络用户的预测行为特征；对社交网络用户的预测行为特征进行解码，得到所需的用户行为；

具体的，包括以下步骤：

步骤33、构建长短时神经网络，利用用户行为特征矩阵中的部分用户行为特征向量作为训练数据，其余数据作为测试数据；通过反向传播算法，对长短时神经网络进行参数更新；得到预测的用户行为向量；优选的，选取用户行为特征矩阵中的50％-90％的用户行为特征向量作为训练数据；

实施例

本发明所述的一种基于用户个性化特征的社交网络用户行为预测方法，包括以下步骤：

步骤1，对若干个社交网络用户的多维用户属性数据进行提取及标记，达到用户个性化特征表示；具体的，

步骤1.1，提取若干个社交网络用户的多维用户行为属性数据，构建用户属性特征向量，并对用户属性特征向量中的用户行为属性数据进行归一化处理；其中多维用户行为属性数据包括动态数、点赞数、关注数、粉丝数、原创频率及转发频率；

其中，采用归一化公式对用户行为属性数据进行处理，归一化公式如下：

其中，x表示用户某一行为属性的当前值；

x_min表示用户当前行为属性的最小值；

x_max表示用户当前行为属性的最大值；

步骤1.2，利用聚类算法与先验知识相结合的方法对用户类型进行分类标记，并采用不同类别的用户标记向量进行表示，不同类别的用户标记向量表示为：

T＝{(x₁,y₁),(x₂,y₂)…(x_i,y_i)…(x_N,y_N)}

其中，i表示第i个社交网络用户，x_i∈Rⁿ为特征属性向量，y_i∈{1,2…i…N}；

所述步骤1.2中所用的聚类方法具体步骤如下：并且对得到的用户数据进行标记，具体标记过程如下：

首先，选择k个对象作为初始点，其中k一般选择3、5或8；

然后，计算每个用户数据到k个初始对象的距离，选择距离最短的将其与初始对象归为一类；

其次，再次计算每一类的中心，不断迭代，当每一类的中心位置不再改变则停止；

最后，得到k类用户，在每类用户数据中，若某个用户的数据大于3倍的中心点，则剔除该数据，结合先验知识最后对用户进行类别标记。

步骤2，基于不同类别的用户标记向量，对社交网络用户进行分类，划分为不同属性的用户；具体的；

步骤2.1，基于标记好的不同类别的用户标记向量中的N类用户，将每两类用户分为一组，共分成N*N(N-1)/2种，在每个组合中分别将两类组合标记为1和-1，即y_i∈{-1,1}，表示每类用户标记；

步骤2.2，基于N个组合中的用户行为属性数据，构建用户类型判别函数模型，其中判别函数模型如下：

f(x)＝sign(W^tx+b)

其中，W为权重参数，b为偏置参数；W及b初始化随机值为0.1；

步骤2.3，基于N个组合中的用户行为属性数据，将每个用户的行为属性特征数据进行归一化，通过拉格朗日定理构建目标函数，使用部分用户行为属性数据，通过SMO算法，求得拉格朗日因子α^*的最优解，基于α^*和部分已知的x_i及y_i，进行参数W和b的更新；得到用户类型判别函数；其中，通过SMO算法求最优解，α^*＝(α₁ ^*,α₂ ^*,...,α_N ^*)，基于α^*、x_i及y_i更新W和b，W和b的迭代公式分别为：

其中，x_i为第i个用户的特征属性向量；x_j为第j个用户的特征属性向量；y_i为第i个用户的类别标签；y_j为第j个用户的类别标签；

其中，部分训练数据的选取一般为总数据的50％～90％。

步骤2.4、对于步骤2.1中N*N(N-1)/2种组合均进行判断一次，每次判断某个用户的归属类别，同时在该类的权重上加1，所有组合判断完成后，比较所有类别的权重，权重最大的类别则为该用户所属的类别，将用户分为N类；

步骤3，将不同归属类别用户的时间序列行为进行特征提取，使用长短时神经网络预测用户下一时刻行为，具体步骤如下：

步骤3.1，对不同归属类别用户的行为进行定义，假设用户行为定义为P类，使用one-hot构建用户行为特征向量，表示为P维向量；

步骤3.2，将用户行为特征向量按照时间顺序排列好，即得到一个M行P列的矩阵；其中，M代表某一类用户中的某个行为最少的用户数其对应的行为数，P代表行为总数；

步骤3.3，选取部分数据作为训练数据，剩下的数据作为测试数据；构建长短时神经网络，投入训练数据通过反向传播算法不断进行参数更新，得到预测的新的行为即P维向量，若该向量第K位为1，用户在某时刻出现行为K，则将P维向量的第K位表示为1，其他位表示0，即用户行为表示为P维向量(0,0,..1,0)，其中第K位为1，则代表该行为是第K个行为。

本实施例中用户分类方法也可选取KNN，随机森林以及朴素贝叶斯等方法。用户行为需提前定义，提取的行为特征向量简单易于辨别。转化复杂度低，易于与神经网络相连接。

如图4、5所示，当社交网络用户数为1000用户数，提取的用户行为属性数据共10万条时，筛选用户的关注数、被关注数、点赞数、动态数、原创频率及转发频率，作为用户的特征向量x_i＝(x_i1,x_i2,x_i3,x_i4,x_i5,x_i6)，x_i表示第i个用户的特征属性向量，归一化处理；

然后，选取5个对象作为初始点，计算每个用户数据到初始对象的距离，选择最短的将其与初始对象归为一类，再次计算每一类的中心，不断迭代直到中心位置不再改变停止，得到5类用户，在每类用户中若某个用户的数据大于3倍的中心点，则剔除该数据，人工筛查数据合理性后对用户进行类别标记；

一共5类用户，将其两两分组，一共分成10组，每一组用户构建分类判别函数：

f(x)＝sign(W^tx+b)

并将W和b初始化为随机值；通过输入的特征向量x_i＝(x_i1,x_i2,x_i3,x_i4,x_i5,x_i6)以及用户类别标签y_i通过以下目标函数计算拉格朗日算子α^*＝(α₁ ^*,α₂ ^*,...,α_N ^*)；之后通过，x_i，y_i来更新判别函数中的W和b；

然后将W和b带入分类判别函数，输入新用户的特征向量判断其类别；在10种组合中循环对每一个用户进行判断，判别其归属类别，将权重累加，最后权重最大的则为其归属类别。

本次实验结果的用户分类准确率选择不同的训练数据，准确率相应不同，当训练数据越多，用户分类的准确率越高，具体参见图4。

本实施例中对每一个归属类别用户的行为进行定义，提取的数据包括用户的推文、回复标志及引用标志等信息，将用户行为定义为转发行为、原创行为、回复行为、原创并提及他人行为、引用并提及他人行为；用户一共有5个行为，因此对每个用户的行为创建5维向量：例如(1,0,0,0,0)表示行为1，(0,1,0,0,0)表示行为2，(0,0,1,0,0)表示行为3，(0,0,0,1,0)表示行为4，(0,0,0,0,1)表示行为5；

同时对每个用户提取其两年的时间行为，选取在此期间最少行为的用户，将其行为数记为M，将用户行为时间转化为时间戳按时间排序后，构造M行5列的初始向量；对每一类用户的所有数据排序好后，依次将每一个用户行为数据输入四层的长短时神经网络中，通过反向传播算法优化，得到预测结果，对用户的预测结果应为5维向量(1,0,0,0,0)，(0,1,0,0,0)，(0,0,1,0,0)，(0,0,0,1,0)，(0,0,0,0,1)，分别解析为行为1，行为2，行为3，行为4及行为5。

如附图5所示，不同训练数据对用户行为预测结果不同，但分类后用户行为预测结果比不分类显著提高。

本发明在整个用户行为预测中，无需用户的网络拓扑信息，只需用户的属性数据以及行为数据，使得该方法具有极强的普适性；使用的聚类算法确定k个中心点迭代、分类算法以及长短时记忆神经网络等方法的本身特性决定了本发明方法的简单实现，复杂度低。不同用户之间有着明显的行为特征，用户与行为之间存在着广泛的动态交互和相互影响，相似用户拥有类似的行为活动，对用户先分类后进行行为预测可以很好的捕捉到这一特性，增强算法的通用性。

以上所述仅表示本发明的优选实施方式，任何人在不脱离本发明的原理下而做出的结构变形、改进和润饰等，这些变形、改进和润饰等均视为在本发明的保护范围内。

Claims

1.一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤1中，构建不同类别的用户标记向量时，具体包括以下步骤：

3.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤1中，多维行为属性数据包括社交网络用户的动态数、点赞数、关注数、粉丝数、原创频率及转发频率。

4.根据权利要求2所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤11中，对每个用户属性特征向量进行归一化处理时，采用对社交网络用户的每个行为属性数据利用归一化公式进行归一化处理。

5.根据权利要求2所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤12中，对每个社交网络用户的归一化用户属性特征向量进行分类标记时，具体包括以下步骤：

6.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤2中，采用SVM法、KNN法、随机森林法或朴素贝叶斯法对社交网络用户进行分类。

7.根据权利要求6所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤2中，采用SVM法对社交网络用户进行分类时，具体包括以下步骤：

步骤21、构建用户类型判别函数；

8.根据权利要求7所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤21中，构建的判别函数为：

f(x)＝sign(W^tx+b)；

步骤22中，目标函数为：

0≤α_i≤C,i＝1,2,...,N

其中，W为权重参数，b为偏置参数，

N为社交网络用户个数；

x为用户的特征属性向量；

x_i为第i个用户的特征属性向量；

x_j为第j个用户的特征属性向量；

y_i为第i个用户的类别标签；

y_j为第j个用户的类别标签；

α_i为拉格朗日乘子；

α_j为拉格朗日乘子。

9.根据权利要求1所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤3具体包括以下步骤：

10.根据权利要求9所述的一种基于用户个性化特征的社交网络用户行为预测方法，其特征在于，步骤33中，选取用户行为特征矩阵中的50％-90％的用户行为特征向量作为训练数据。