CN109325875B

CN109325875B - 基于在线社交用户隐特征的隐式群体发现方法

Info

Publication number: CN109325875B
Application number: CN201811011767.9A
Authority: CN
Inventors: 刘业政; 贺菲菲; 田志强; 姜元春; 孙见山
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2021-08-10
Anticipated expiration: 2038-08-31
Also published as: CN109325875A

Abstract

本发明提供一种基于在线社交用户隐特征的隐式群体发现方法，涉及网络技术领域。包括以下步骤：针对社交网络构建用户社交关系矩阵；利用稀疏自编码器学习用户社交关系的隐特征；利用隐藏层输出编码矩阵进行鲁棒性连续聚类；利用特征矩阵构建图结构，从图结构的连通分支中确定隐式群体。本发明通过发现用户连接的内在机理，从隐特征角度考虑用户间的连接关系，其更加符合真实隐性群体聚合情况，实现了更精准的隐式用户群体的发现。

Description

基于在线社交用户隐特征的隐式群体发现方法

技术领域

本发明涉及社交网络技术领域，具体涉及一种基于在线社交用户隐特征的隐式群体发现方法。

背景技术

随着Web2.0应用以及其它各种类型的社会媒体的发展，在线社交网络(onlinesocial networks，OSN)已经成为人们网络生活的最主要平台，在这些平台上，用户并不是单独存在的，他们可能会因为社会选择或者社会影响等形成某些隐性群体。随着电子商务的快速发展，信息过载现象愈加严重，作为缓解信息过载的有效工具，推荐系统已经成为了现代电商网站和社交平台的标配。因此，能够有效捕捉到隐性群体，相比于研究整个社交网络用户对某个用户的偏好影响，研究隐性群体的偏好将有利于我们对群体用户进行深入的行为分析，进而为群体或个人推荐更加准确的目标产品和服务。

针对社交关系数据，选择合适的方法对原始连接数据进行表示，会对结果产生深刻的影响。在深度学习出现之前，大多采用特征工程表示数据，特征工程需要专家知识的帮助，同时需要大量的人力物力。深度学习的出现使得我们可以从原始数据中自动学习特征，从原始数据中抽取高层次、抽象的特征，使用其他简单的表示来表达复杂表示，是表示学习的一种。而自编码器作为表示学习和神经网络的一种典型方法，由编码器和解码器两部分组成，希望通过模型的学习将输出等同于输入，通常情况下，自编码器的编码器的输入神经元个数小于模型输入的维度，这种限制使得自编码器学习到欠完备的表示，即强制自编码器捕捉数据中的显著特征。于是，结合社交关系数据的自编码器方法可用于用户隐特征的学习。

聚类算法广泛应用于群体发现的研究，现有的聚类算法有 K-Means、DBSCAN、WAVE-CLUSTER、FCM、COD、GMM、谱聚类等，但是没有任何一种聚类算法可以普遍适用于揭示各种多维数据集所呈现出来的多种多样的结构，现有的聚类算法在高维数据的有效性上表现有限，而且针对不同的研究领域或者数据集都要调整很多的参数。鲁棒性连续聚类方法(Robust continuous clustering，RCC)可用于大规模数据集的无监督聚类，适用于不同类型的数据，如文本、图像、数字等，在高维数据的聚类上也有很好的性能，但是该方法无法实现只有社交网络用户连接关系的用户聚类问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于在线社交用户隐特征的隐式群体发现方法，可解决社交网络环境下基于用户隐偏好发现隐式群体的技术难点问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于在线社交用户隐特征的隐式群体发现方法，包括以下步骤：

针对社交网络构建用户社交关系矩阵；

利用稀疏自编码器学习用户社交关系的隐特征；

利用隐藏层输出编码矩阵进行鲁棒性连续聚类；

利用特征矩阵构建图结构，从图结构的连通分支中确定隐式群体。

进一步的，所述稀疏自编码器是包括输入层、隐藏层和输出层的三层神经网络。

进一步的，所述针对社交网络构建用户社交关系矩阵，包括：

将社交网络中的用户集合记为U，U＝{u₁,...,u_i,...,u_j,...u_n}，n为用户数量；

以R_ij表达社交网络中第i个用户u_i和第j个用户u_j之间的关系， 1＜i＜n，1＜j＜n；

定义R_ii＝1；若用户u_i和用户u_j在所述社交网络中存在连接关系，则 R_ij＝1，否则R_ij＝0；

获得由式(1)所表征的n×n的用户社交关系矩阵R：

进一步的，所述利用稀疏自编码器学习用户社交关系的隐特征，包括以所构建的用户社交关系矩阵R作为所述稀疏自编码器的输入矩阵，由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出编码矩阵：

E＝f(RW^T+b)＝[F₁,...,F_i,...,F_n]＝{F_i1,...,F_ih,...,F_id} (2)，

式(2)中，E是用户社交关系矩阵R在稀疏自编码器中的n×d的隐藏层输出编码矩阵，n是用户数量，d是用户隐特征数；F_i表示第i个用户的特征值向量，1＜i＜n；F_ih表示第i个用户的第h个特征值，1＜h＜d； f(·)是选择为双曲正切函数的激活函数；W是用户社交关系矩阵R的权重矩阵；b是m×d的偏差矩阵，T表示矩阵转置；

将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层，由式(3) 所表征的函数获得稀疏自编码器输出矩阵：

式(3)中，

是n×n的稀疏自编码器输出矩阵；g(·)是选择为Sigmoid 函数的激活函数，

是隐藏层输出编码矩阵E的权重矩阵，

是m×m的矩阵形式的偏差向量；

针对所述稀疏自编码器构建由式(4)所表征的误差训练目标函数：

采用反向传播算法和Adadelta方法针对所述误差训练目标函数进行参数求解，经过迭代实现针对由式(4)所表征的误差训练目标函数的优化，迭代结束时，获得优化后的权重矩阵W和偏差矩阵b；

利用式(2)计算得到隐藏层输出编码矩阵E的最优取值，记为：最优隐藏层输出编码矩阵E*，E^*＝[F₁ ^*,...,F_i ^*,...,F_n ^*]。

进一步的，所述利用隐藏层输出编码矩阵进行鲁棒性连续聚类，包括：

构建图结构的聚类目标函数C；

将所述最优隐藏层输出编码矩阵E^*＝[F₁ ^*,...,F_i ^*,...,F_n ^*]通过m-KNN方法连接形成图结构，连接形成一条边的两个用户互为彼此的最近邻，以此避免孤立用户的存在；

针对所述图结构的聚类目标函数C由式(5)所表征：

其中，ε表示图结构中边的集合；初始化特征矩阵G， G＝[G₁,...,G_i,...,G_p,...,G_q,...,G_n]，1＜i,p,q＜n，、G_i、G_p、G_q分别表示第i个用户、第p个用户和第q个用户的初始特征向量；初始化系数μ，μ＝3γ²， γ是图结构中的最大边长度；l_p,q是辅助变量；

ω_p,q是由式(6)所表征的边(p,q)的权重系数：

式(6)中，N_i、N_p、N_q分别表示图结构中连接第i个用户、第p个用户和第q个用户的边数；λ是由式(7)表征的均衡系数：

式(7)中，e_p表示第p个元素为1的指示向量，e_q表示第q个元素为 1的指示向量；

利用块坐标下降算法，针对所述聚类目标函数C按如下方式进行迭代优化：

利用式(8)计算得到辅助变量l_p,q的最优取值，记为：最优辅助变量

式(8)中，μ每经过四次迭代即衰减为原来的一半；

根据式(8)和式(5)，针对初始化特征矩阵G求偏导，获得特征矩阵 G^*，G^*＝[G^* ₁,...,G^* _p,...,G^* _q,...,G^* _n]。

进一步的，所述利用特征矩阵构建图结构，从图结构的连通分支中确定隐式群体，包括：

利用特征矩阵G^*构建图结构，所述图结构中形成边的两个用户的特征向量满足式(9)，δ为阈值，

最终从图结构的连通分支中得到隐式群体。

(三)有益效果

本发明公开了一种基于在线社交用户隐特征的隐式群体发现方法，通过针对社交网络构建用户社交关系矩阵；利用稀疏自编码器学习用户社交关系的隐特征；利用隐藏层输出编码矩阵进行鲁棒性连续聚类；利用较优的特征矩阵构建图结构，从图结构的连通分支中确定隐式群体。本发明通过发现用户连接的内在机理，从隐特征角度考虑用户间的连接关系，其更加符合真实隐性群体聚合情况，实现了更精准的隐式用户群体的发现。

附图说明

图1为本发明流程示意图；

图2为本发明中稀疏自编码器结构图；

图3为本发明中Eu-email社交网络数据集的群体发现结果可视化图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明实施例的一种基于在线社交用户隐特征的隐式群体发现方法，包括以下步骤：

针对社交网络构建用户社交关系矩阵；

利用稀疏自编码器学习用户社交关系的隐特征；

利用隐藏层输出编码矩阵进行鲁棒性连续聚类；

下面针对每一个步骤做详细说明：

步骤1、针对社交网络构建用户社交关系矩阵R

定义：在所述社交网络中的用户集合U为：U＝{u₁,...,u_i,...,u_j,...u_n}，n 为用户数量；

定义R_ii＝1；若用户u_i和用户u_j在所述社交网络中存在连接关系，则R_ij＝1，否则R_ij＝0；

获得用户社交关系矩阵R，所述R是由式(1)所表征的n×n矩阵：

步骤2、利用稀疏自编码器学习用户社交关系的隐特征

如图2所示，采用稀疏自编码器，所述稀疏自编码器是包含有输入层、隐藏层和输出层的三层神经网络，通过对模型的输入进行编码，得到数据的隐层表示，然后通过隐藏层到输出层进行编码，得到输出。输入数据和输出数据的尽可能相同使得自编码器的隐藏层能够学习到数据的另一种表示，当隐藏层神经元小于输入层时，隐藏层的输出可以作为数据的压缩表示；

以步骤1中所构建的用户社交关系矩阵R作为所述稀疏自编码器的输入矩阵，由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出编码矩阵：

式(2)中，E是用户社交关系矩阵R在稀疏自编码器中的隐藏层输出编码矩阵，所述E是n×d矩阵，n是用户数量，d是用户隐特征数；F_i表示第i用户的特征值向量，1＜i＜n；F_ih表示第i用户的第h个特征值， 1＜h＜d；f(·)为激活函数，所述激活函数f(·)选择双曲正切函数；W是权重矩阵，所述W是d×m矩阵；b为偏差矩阵，所述b是m×d矩阵；T表示矩阵转置；

将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层，由式(3) 所表征的函数获得稀疏自编码器的输出矩阵

式(3)中，

是稀疏自编码器的输出矩阵，所述

是n×n矩阵；g(·) 为激活函数，所述激活函数g(·)选择Sigmoid函数；

为权重矩阵，所述

是m×d矩阵；

为偏差向量，所述

是m×m矩阵；

使用反向传播算法和Adadelta方法进行误差训练目标函数的参数求解，经过迭代实现针对由式(4)所表征的误差训练目标函数的优化，每次迭代都可以得到优化的参数

W、b、

将优化后的参数W、 b带入式(2)可得到优化的隐特征矩阵E，再将E和参数

带入公式 (3)，可以得到输出层的输出矩阵，直到迭代结束时，得到优化参数W 和b，利用式(2)计算得到优化的隐藏层输出编码矩阵 E^*＝[F₁ ^*,...,F_i ^*,...,F_n ^*]；

步骤3、利用隐藏层输出编码矩阵E按如下过程进行鲁棒性连续聚类

步骤3.1、如下过程构建图结构的聚类目标函数C

将所述优化的隐藏层输出编码矩阵E^*＝[F₁ ^*,...,F_i ^*,...,F_n ^*]通过m-KNN方法连接形成图结构，连接形成一条边的两个用户互为彼此的最近邻，以此避免孤立用户的存在；

针对所述图结构的聚类目标函数C由式(5)所表征：

式(5)中，ε表示图结构中边的集合；初始化特征矩阵 G＝[G₁,...,G_i,...,G_p,...,G_q,...,G_n]，1＜i,p,q＜n，、G_i、G_p、G_q分别表示第i个、第p个、第q个用户的初始特征向量；初始化系数μ＝3γ²，γ是图结构中的最大边长度；l_p,q是辅助变量；

ω_p,q是由式(6)所表征的边(p,q)的权重系数：

式(6)中，N_i、N_p、N_q分别表示图结构中连接第i个、第p个、第 q个用户的边数；

λ是由式(7)表征的均衡系数：

式(7)中，e_p表示第p个元素为1的指示向量，e_q表示第q个元素为1的指示向量。

步骤3.2、利用块坐标下降算法，针对所述聚类目标函数C，进行如下迭代优化:

对辅助变量l_p,q求偏导从而获得如式(8)所示的较优值

式(8)中，μ每经过四次迭代都会衰减为原来的一半。

根据式(8)和式(5)，对G求偏导从而获得较优的特征矩阵G^*， G^*＝[G^* ₁,...,G^* _p,...,G^* _q,...,G^* _n]。

步骤4、利用较优的特征矩阵G^*，构建图结构，所述图结构中形成边的两个用户的特征向量必须满足式(9)：

式(9)中，δ表示阈值。

从图结构的连通分支中可以得到隐式群体。

步骤5、使用标准数据集进行实验，首先针对数据集的网络进行基本分析，了解该社交网络的统计性分析情况，然后本方法与基础算法在机器学习相关性能指标，如标准化的互信息(Normalized mutual information，NMI)指标来度量聚类的精度，但是考虑到NMI在细粒度的区分方面有偏差，于是这里采取调整的互信息(Adjusted mutualinformation，AMI)度量指标来比较和判断该方法的优越性。

针对本发明方法进行实验论证，具体包括：

1)准备标准数据集

本发明使用Eu-email社交网络数据集作为标准数据集验证方法有效性，该数据集是斯坦福大学汇集整理的一个大规模社交网络数据集。 Eu-email数据集来自欧洲一个研究机构的真实email网络数据，包括了来自42个部门的1005位独立用户的25571条边数据，数据集中部门成员间可以相互发送邮件，数据集不记录发送或者接收来自机构外部的数据，平均每个用户和50个人连接，其平均聚类系数为0.37。

2)评价指标

互信息(Mutual Information，MI)，表示两个变量X与Y是否有关系，以及关系的强弱。调整化的互信息(Adjusted mutual information，AMI)常用于聚类研究中来度量聚类结果的相似程度，在NMI基础上旨在消除造成精细划分的偏差，其具体计算公式如下：

其中，H表示熵，

表示C和

的互信息值，C和

表示被比较的两个聚类结果。

3)标准数据集实验

为了验证本发明所提方法的有效性，本文在email-Eu-core的真实数据集进行建模和预测。首先，社交连接数据通过稀疏自编码器得到1005个用户的隐特征表示，其中，隐藏层设置50个神经元，激活函数取tanh，输出层使用Sigmoid函数，学习率0.01，根据数据大小收敛情况不定训练3000-6000代，用户隐特征d个数设置10、15、20、 25、30、35和40七组实验；其次，通过鲁棒性连续聚类方法得到隐式群体结果，其中，设置最近邻k＝10，最大迭代次数为100，阈值δ＝0.1。最后，将本发明提出的G2V方法与GN、LPA、RW、FG、LM、MCL、Inf和SA八种算法进行比较，同时基于RCC方法对DP和node2vec进行比较，还基于node2vec方法对RCC和DP、ACC、ACW、AF、GMM、K-means++、 SEC七种方法在评价指标上进行比较，实验结果如表1所示，通过本发明方法得到的隐式群体效果明显优于其他方法。

表1

综上，本发明实施例与已有技术相比，本发明的有益效果体现在：

1、本发明首次提出基于隐偏好发现隐式用户群体的方法，其核心思想是认为社交网络中的用户之所以存在连接关系是因为用户间在某些隐特征维度上存在着相似性，相比于传统基于图结构进行聚类的方法而言，本发明通过发现用户连接的内在机理，从而实现更加精准的隐式用户群体发现。

2、大数据环境下存在大量稀疏的用户关系反馈数据，直接通过图聚类存在较大偏差，而且可能会忽略整个网络中可能存在相似偏好却没有连接关系的用户，从而导致推荐精度和满意度下降，本发明在为发现用户连接内在机理的过程中，无需进行大规模的特征工程，通过自编码器自动学习社交网络用户连接关系的显著特征，从而得到高维用户-用户矩阵的降维(压缩)表示，即用户-隐特征矩阵表示，从隐特征角度考虑用户间的关系更加符合真实隐性群体聚合情况。

3、真实社交环境中，影响用户产生连接关系的影响因素可能不同，本发明可以针对不同类型的数据和社交环境，设置不同的隐特征数量，即使是高维的隐特征空间，相比普通的群体发现方法，所提方法在鲁棒性和性能上都较优，本发明适用于针对大规模群体在高维特征空间下的群体发现。

4、本发明可用于用户购买等显示反馈、用户浏览等隐式反馈、社交网络关系、评论文本，以及图像视频等的隐式群体发现，在电脑和手机的网页，以及在APP等平台上使用，应用范围十分广泛。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于在线社交用户隐特征的隐式群体发现方法，其特征在于，包括以下步骤：

针对社交网络构建用户社交关系矩阵；

利用稀疏自编码器学习用户社交关系的隐特征；

利用隐藏层输出编码矩阵进行鲁棒性连续聚类；

利用特征矩阵构建图结构，从图结构的连通分支中确定隐式群体；

所述稀疏自编码器是包括输入层、隐藏层和输出层的三层神经网络；

所述针对社交网络构建用户社交关系矩阵，包括：

以R_ij表达社交网络中第i个用户u_i和第j个用户u_j之间的关系，1＜i＜n，1＜j＜n；

获得由式(1)所表征的n×n的用户社交关系矩阵R：

所述利用稀疏自编码器学习用户社交关系的隐特征，包括以所构建的用户社交关系矩阵R作为所述稀疏自编码器的输入矩阵，由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出编码矩阵：

E＝f(RW^T+b)＝[F₁,...,F_i,...,F_n]＝{F_i1,...,F_ih,...,F_id} (2)，

式(2)中，E是用户社交关系矩阵R在稀疏自编码器中的n×d的隐藏层输出编码矩阵，n是用户数量，d是用户隐特征数；F_i表示第i个用户的特征值向量，1＜i＜n；F_ih表示第i个用户的第h个特征值，1＜h＜d；f(·)是选择为双曲正切函数的激活函数；W是用户社交关系矩阵R的权重矩阵；b是m×d的偏差矩阵，T表示矩阵转置；

将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层，由式(3)所表征的函数获得稀疏自编码器输出矩阵：

式(3)中，

是n×n的稀疏自编码器输出矩阵；g(·)是选择为Sigmoid函数的激活函数，

是隐藏层输出编码矩阵E的权重矩阵，

是m×m的矩阵形式的偏差向量；

利用式(2)计算得到隐藏层输出编码矩阵E的最优取值，记为：最优隐藏层输出编码矩阵E*，E^*＝[F₁ ^*,...,F_i ^*,...,F_n ^*]；

所述利用隐藏层输出编码矩阵进行鲁棒性连续聚类，包括：

构建图结构的聚类目标函数C；

针对所述图结构的聚类目标函数C由式(5)所表征：

其中，ε表示图结构中边的集合；初始化特征矩阵G，G＝[G₁,...,G_i,...,G_p,...,G_q,...,G_n]，1＜i,p,q＜n，G_i、G_p、G_q分别表示第i个用户、第p个用户和第q个用户的初始特征向量；初始化系数μ，μ＝3γ²，γ是图结构中的最大边长度；l_p,q是辅助变量；

ω_p,q是由式(6)所表征的边(p,q)的权重系数：

式(7)中，e_p表示第p个元素为1的指示向量，e_q表示第q个元素为1的指示向量；

式(8)中，μ每经过四次迭代即衰减为原来的一半；

根据式(8)和式(5)，针对初始化特征矩阵G求偏导，获得特征矩阵G^*，G^*＝[G^* ₁,...,G^* _p,...,G^* _q,...,G^* _n]。

2.如权利要求1所述的基于在线社交用户隐特征的隐式群体发现方法，其特征在于，所述利用特征矩阵构建图结构，从图结构的连通分支中确定隐式群体，包括：

最终从图结构的连通分支中得到隐式群体。