CN107977726B

CN107977726B - 用户关系预测模型的建立及用户动态关系的预测方法

Info

Publication number: CN107977726B
Application number: CN201610921904.7A
Authority: CN
Inventors: 盛益强; 李南星; 刘学
Original assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Shanghai 3Ntv Network Technology Co Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2021-03-16
Anticipated expiration: 2036-10-21
Also published as: CN107977726A

Abstract

本发明公开了一种用户关系预测模型的建立方法，所述方法包括：步骤S1)从原始社交关系网络中通过随机游走抽样得到两个用户关系的子网络；步骤S2)分别提取子网络中每条边连接的用户二元组的共同好友数、共同好友集聚系数、好友集聚系数和最短路径距离四个拓扑特征，形成训练集；步骤S3)建立用户关系预测模型，该模型为前馈神经网络结构；步骤S4)基于训练集和建立的用户关系预测模型；使用遗传算法得到最优个体，该个体为训练好的用户关系预测模型。此外，本发明还提供了一种用户动态关系的预测方法，该方法能够预测用户关系的动态变化。该预测方法在预测用户关系时不受最短路径距离D的限制，提高了预测用户关系的准确率及弱关系的分析能力。

Description

用户关系预测模型的建立及用户动态关系的预测方法

技术领域

本发明涉及网络通信技术领域，尤其涉及用户关系预测模型的建立及用户动态关系的预测方法。

背景技术

随着社交网络的迅猛发展，基于社交网络的应用已经深刻地改变了人类的交互行为以及信息的传播方式。用户通过社交媒体获取与传播最新资讯，寻找相同兴趣或附近的人，维系当前的好友关系、分享购物经验、推荐视频信息等。根据尼尔森2014年的调查报告，社交媒体活跃用户数量达18.6亿，每个社交媒体用户每天在社交媒体上所花费的平均时间为1.5小时。尼尔森的调查结果显示，90％的用户相信朋友对他们的推荐，70％的用户相信其他用户对广告商品的评论。

由此可见社交网络的应用前景十分广阔。对社交网站、电子商务、视频服务网站等基于社交网络的应用而言，如何通过分析和挖掘社交网络促进用户交互、提升用户体验和忠诚度是一个关键性难题。

现有的对社交网络的研究主要集中在：1、根据用户地理位置分析社交网络；2、根据用户好友关系分析社交网络。

在根据用户地理位置分析社交网络的研究成果(见参考文献[1]：《FriendRecommendation Algorithm Based on Multiple factors in LBSNs》)中，可以通过用户的地理位置信息分析社交网络并应用于好友推荐场景。该方法适用于移动端的社交网络应用，通过移动端可以准确地收集到用户的地理位置信息，而对于在线社交网络应用却很难做到这点。

FOF(Friends Of Friends)方法是用户关系分析的基本的方法，其本质为三元闭包原理：用户二元组存在越多的共同好友，则彼此成为好友的几率越大。该方法的一个显著缺点是在分析用户关系时只考虑好友的好友即距离D＝2的用户，对于D>2的用户无法给出分析结果，因此弱关系分析能力较差。

基于图模型的用户关系分析方法(见参考文献[2]：《A Graph-Based FriendRecommendation System Using Genetic Algorithm》)，其原理是从社交关系网络中提取用户二元组的三个拓扑特征，通过遗传算法搜索这三个特征的最佳线性加权来分析用户二元组的社交关系并应用于好友推荐场景。虽然该方法有很好的线性分类能力，但非线性分类效果较差。

发明内容

本发明的目的在于为了克服现有用户关系分析方法存在的上述缺陷，提出了一种用户关系预测模型的建立方法，该方法建立了基于前馈神经网络模型的用户关系预测模型，并对该模型进行训练，该模型具有良好的非线性分类能力。此外，本发明还提供了一种用户动态关系的预测方法，该方法具有良好的全局搜索能力，而且在分析用户关系时不受最短路径距离D的限制。因此本发明的方法提高了分析用户关系的准确率与弱关系的能力。

为了实现上述目的，本发明提供了用户关系预测模型的建立方法，所述方法包括：

步骤S1)从原始社交关系网络中通过随机游走抽样得到两个用户关系的子网络；

步骤S2)分别提取子网络中每条边连接的用户二元组的共同好友数、共同好友集聚系数、好友集聚系数和最短路径距离四个拓扑特征，形成训练集；

步骤S3)建立用户关系预测模型，该模型为前馈神经网络结构；

步骤S4)基于训练集和建立的用户关系预测模型；使用遗传算法得到最优个体，该个体为训练好的用户关系预测模型。

上述技术方案中，所述步骤S2)的具体实现过程为：

用户二元组

用户U_i的邻接节点集合为F_i，用户U_j的邻接节点集合为F_j；U_ij的QOCF、CCOCF、CCOF三个特征计算公式如下：

其中，F为节点集合；|F|为集合F的元素个数即节点个数；

的取值如下：

如果U_p和U_q存在关注关系

如果U_p和U_q不存在关注关系

U_ij的D特征为U_ij的最短路径距离，如果D(U_ij)＝1，则两个用户之间存在关注关系；如果D(U_ij)>1，则两个用户之间不存在关注关系。

上述技术方案中，所述步骤S3)的具体实现过程为：

所述用户关系预测模型采用3层结构的前馈神经网络结构：输入层、隐藏层及输出层；输入层由4个输入构成，为用户二元组特征向量

的4个分量；隐藏层的神经元个数为10；输出层的输出值

若

则认为对应的用户二元组U_ij不存在关注关系，若

则认为U_ij存在关注关系。

上述技术方案中，所述步骤S4)的具体实现过程为：

步骤1)初始化当前种群为P_t＝{NN_m，0<m≤100}，将用户关系预测模型的各神经元的权值与阈值组成的向量

定义为种群个体NN_m的染色体，其中

为神经网络中第l层第i个神经元连接该神经元的第j个输入的权值，

为神经网络中第l层第i个神经元的阈值；染色体

中每个位点为介于(-1,1)之间的随机浮点数；

步骤2)计算种群个体NN_m的适应度；

适应度计算公式如下：

其中，用户二元组U_ij关注关系判别函数为

为NN_m正确判定训练集中关注关系类别的用户二元组个数，

为NN_m错误判定训练集中关注关系类别的用户二元组个数；

步骤3)将NN_m根据

降序排列，取第一个个体为最优个体NN_Best，设NN_Best的保持代数T＝0；

步骤4)若T≥4，则转入步骤10)；否则，转入步骤5)；

步骤5)选出前10个精英个体，将这些精英个体加入下一代种群P_t+1中；P_t+1初始为空；

步骤6)判断S(P_t+1)≥S(P_t)是否成立，S(P_t+1)为种群P_t+1的个体个数，S(P_t)为种群P_t的个体个数；如果判断结果是肯定，转入步骤9)；否则，转入步骤7)；

步骤7)以轮盘赌方式从P_t中随机选择NN_i和NN_j执行交叉算子，得到两个子代；

步骤8)将生成的两个子代分别执行变异算子，得到两个新的子代，并将这两个新的子代加入P_t+1中；转入步骤6)；

步骤9)令t＝t+1，计算种群P_t中个体的适应度；

步骤10)将种群P_t中个体NN_m根据

进行降序排列，若

则NN_Best＝NN₀且T＝0，若

则T＝T+1；转入步骤4)；

步骤10)返回最优个体NN_Best，NN_Best为训练好的用户关系预测模型。

上述技术方案中，所述步骤7)的具体实现过程为：

对相互配对的个体NN_i和NN_j，染色体交叉采用两点交叉方式，NN_i和NN_j以0.7的概率发生染色体交叉重组；若不发生交叉重组则将NN_i和NN_j作为子代；若发生交叉重组则在

和

上随机设置两个交叉点，然后交换两个交叉点之间的基因，得到两个新的子代。

基于上述方法建立的用户关系预测模型，本发明还提供了用户动态关系的预测方法，所述方法包括：

步骤T1)提取待预测用户U_m和用户U_n的二元组特征向量

的四个分量：

用户二元组

U_m的邻接节点集合为F_m，U_n的邻接节点集合为F_n；

步骤T2)将特征向量

的四个分量输入所述用户关系预测模型的输入层；

步骤T3)获取所述用户关系预测模型的输出值

若如果D(U_mn)＝1，而

则预测用户m和用户n会取消关注关系，即从强关系转换为弱关系；如果D(U_mn)>1，而

则预测用户U_m和用户U_n会产生关注关系，即从弱关系转换为强关系。

本发明的优点在于：

1、本发明提出了一种用户关系预测模型的建立方法，该模型具有良好的非线性分类能力，使用遗传算法对模型进行训练，该算法具有良好的全局搜索能力；

2、本发明的用户关系的预测方法在预测用户关系时不受最短路径距离D的限制，提高了预测用户关系的准确率及弱关系的分析能力。

附图说明

图1是本发明的用户关系预测模型的建立方法的流程图；

图2是本发明实施例提供的整体的神经网络的结构；

图3是本发明实施例提供的一个神经网络结构演示交叉过程；

图4是本发明实施例提供的染色体的交叉点在各基因交接点中选择方法；

图5是本发明实施例提供的训练前馈神经网络的流程图。

具体实施方式

以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种用户关系预测模型的建立方法，该方法包括：

具体地，在一种具体实施方式中，以2012KDD Cup数据集为例，数据集包含user_sns.txt文件，为用户关注关系数据文件。

用户关注关系数据文件中每行是一个用户二元组关注关系，格式为：(Follower-userid)\t(Followee-userid)。Follower-userid为关注者ID，Followee-userid为被关注者ID。

步骤S2)分别提取子网络中每条边连接的用户二元组的共同好友数(QOCF)、共同好友集聚系数(CCOCF)、好友集聚系数(CCOF)和最短路径距离(D)四个拓扑特征，形成训练集；

用户二元组

用户U_i的邻接节点集合为F_i，用户U_j的邻接节点集合为F_j。U_ij的QOCF、CCOCF、CCOF三个特征计算公式如下：

其中，F为节点集合；|F|指的是集合F的元素个数即节点个数，也可以用card(F)来表示；

的取值如下：

如果U_p和U_q存在关注关系

如果U_p和U_q不存在关注关系

步骤S3)建立用户关系预测模型；

本实施例中用户关系预测模型采用3层结构的前馈神经网络结构，输入层、隐藏层及输出层各一层。神经网络的输入为训练集中用户二元组特征向量

由4个分量构成，因此输入层由4个输入构成；神经网络的输出

为用户二元组U_ij的社交关系类别，在本实施例中只存在两种结果即该用户二元组存在或者不存在关注关系，因此输出层只需由1个神经元构成；隐藏层的神经元个数有很多的经验公式可供参考，经试验后得到隐藏层的神经元个数取10可以得到较好的结果。整体的神经网络的结构如下图2所示。

神经元的激活函数f取Sigmoid函数，函数表达式如下：

第j个神经元的输出：

其中，N_j为第j个神经元的输入个数，W_ji为第j个神经元的第i个权值，x_ji为第j个神经元的第i个输入，b_j为第j个神经元的阈值。

因为神经网络的输出层的神经元的激活函数也为Sigmoid函数，所以神经网络的输出

设定若

则认为对应的用户二元组U_ij不存在关注关系，若

则认为U_ij存在关注关系。

步骤S4)基于训练集使用遗传算法得到最优个体，该个体为训练好的用户关系预测模型；

具体地，在一种具体实施方式中，将前馈神经网络看作种群中的个体，使用遗传算法搜索全局最优的前馈神经网络。

神经网络NN的准确率计算公式如下：

其中，用户二元组U_ij关注关系判别函数为

为NN正确判定关注关系类别的用户二元组个数，

为NN错误判定关注关系类别的用户二元组个数。

将NN的各神经元的权值与阈值组成向量

定义为种群个体NN_m的染色体，其中

为神经网络中第l层第i个神经元的阈值；F_NN定义为种群个体NN的适应度，从而将神经网络的训练转化为遗传算法的优化问题。

当代种群P_t大小

其中NN_i为种群个体。遗传算法的选择算子：采用保留最佳个体策略，将P_t中所有个体NN_i按照适应度

大小进行降序排序，选取前10个个体作为P_t的精英个体加入P_t+1，这10个精英个体不参与交叉算子和变异算子避免其优良基因被破坏。

遗传算法的交叉算子：对相互配对的个体NN_i和NN_j，染色体交叉采用两点交叉方式。NN_i和NN_j以0.7的概率发生染色体交叉重组。若不发生交叉重组则将NN_i和NN_j作为子代；若发生交叉重组则在

和

上随机设置两个交叉点，然后交换两个交叉点之间的基因，得到两个新的子代。以一个较简单的神经网络结构演示交叉过程,如图3所示。

因为个体染色体对应神经网络的权值向量，所以神经网络中神经元的权值向量对应染色体上的基因。在交叉算子中若交叉点是完全随机，则交叉点很可能落在某个基因内而不是基因之间，如图4所示，第一个交叉点落在NN_i和NN_j第一个神经元内，第二个交叉点落在NN_i和NN_j第二个神经元内。将导致经过优化后的神经元不能保留其完整的优良特性，降低优化效率。为了避免上述问题，染色体的交叉点应在各基因交接点中随机选择，如图4所示。

遗传算法的变异算子采用基本位变异的实值变异方式：对一个种群个体NN_i，其染色体

上每个位点均以0.1概率发生变异，发生变异的位点在原来的浮点数值基础加上一个介于[-0.3,0.3]之间的随机数。

定义为种群个体NN_m的染色体；染色体

中每个位点为介于(-1,1)之间的随机浮点数；

步骤2)计算种群个体NN_m的适应度；

适应度计算公式如下：

其中，用户二元组U_ij关注关系判别函数为

为NN_m正确判定训练集中关注关系类别的用户二元组个数，

为NN_m错误判定训练集中关注关系类别的用户二元组个数；

步骤3)将NN_m根据

步骤4)若T≥4，则转入步骤10)；否则，转入步骤5)；

步骤9)令t＝t+1，计算种群P_t中个体的适应度；

步骤10)将种群P_t中个体NN_m根据

进行降序排列，若

则NN_Best＝NN₀且T＝0，若

则T＝T+1；转入步骤4)；

步骤T1)提取待预测用户U_m和用户U_n的二元组特征向量

的四个分量：

用户二元组

U_m的邻接节点集合为F_m，U_n的邻接节点集合为F_n。

步骤T2)将特征向量

的四个分量输入用户关系预测模型的输入层；

具体地，将用户二元组

的四个拓扑特征作为预测模型NN_Best的输入；

步骤T3)获取用户关系预测模型的输出值

若如果D(U_mn)＝1，而

若模型预测结果显示用户关系将从强关系转换为弱关系，则提示用户取消关注或者屏蔽；若模型预测结果显示用户关系将从弱关系转换为强关系，则根据现有技术如好友推荐提示用户关注。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。