CN109325875B - 基于在线社交用户隐特征的隐式群体发现方法 - Google Patents

基于在线社交用户隐特征的隐式群体发现方法 Download PDF

Info

Publication number
CN109325875B
CN109325875B CN201811011767.9A CN201811011767A CN109325875B CN 109325875 B CN109325875 B CN 109325875B CN 201811011767 A CN201811011767 A CN 201811011767A CN 109325875 B CN109325875 B CN 109325875B
Authority
CN
China
Prior art keywords
matrix
user
users
graph structure
implicit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811011767.9A
Other languages
English (en)
Other versions
CN109325875A (zh
Inventor
刘业政
贺菲菲
田志强
姜元春
孙见山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811011767.9A priority Critical patent/CN109325875B/zh
Publication of CN109325875A publication Critical patent/CN109325875A/zh
Application granted granted Critical
Publication of CN109325875B publication Critical patent/CN109325875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于在线社交用户隐特征的隐式群体发现方法,涉及网络技术领域。包括以下步骤:针对社交网络构建用户社交关系矩阵;利用稀疏自编码器学习用户社交关系的隐特征;利用隐藏层输出编码矩阵进行鲁棒性连续聚类;利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。本发明通过发现用户连接的内在机理,从隐特征角度考虑用户间的连接关系,其更加符合真实隐性群体聚合情况,实现了更精准的隐式用户群体的发现。

Description

基于在线社交用户隐特征的隐式群体发现方法
技术领域
本发明涉及社交网络技术领域,具体涉及一种基于在线社交用户 隐特征的隐式群体发现方法。
背景技术
随着Web2.0应用以及其它各种类型的社会媒体的发展,在线社交 网络(onlinesocial networks,OSN)已经成为人们网络生活的最主要平 台,在这些平台上,用户并不是单独存在的,他们可能会因为社会选 择或者社会影响等形成某些隐性群体。随着电子商务的快速发展,信 息过载现象愈加严重,作为缓解信息过载的有效工具,推荐系统已经 成为了现代电商网站和社交平台的标配。因此,能够有效捕捉到隐性 群体,相比于研究整个社交网络用户对某个用户的偏好影响,研究隐 性群体的偏好将有利于我们对群体用户进行深入的行为分析,进而为 群体或个人推荐更加准确的目标产品和服务。
针对社交关系数据,选择合适的方法对原始连接数据进行表示, 会对结果产生深刻的影响。在深度学习出现之前,大多采用特征工程 表示数据,特征工程需要专家知识的帮助,同时需要大量的人力物力。 深度学习的出现使得我们可以从原始数据中自动学习特征,从原始数 据中抽取高层次、抽象的特征,使用其他简单的表示来表达复杂表示, 是表示学习的一种。而自编码器作为表示学习和神经网络的一种典型 方法,由编码器和解码器两部分组成,希望通过模型的学习将输出等 同于输入,通常情况下,自编码器的编码器的输入神经元个数小于模 型输入的维度,这种限制使得自编码器学习到欠完备的表示,即强制 自编码器捕捉数据中的显著特征。于是,结合社交关系数据的自编码 器方法可用于用户隐特征的学习。
聚类算法广泛应用于群体发现的研究,现有的聚类算法有 K-Means、DBSCAN、WAVE-CLUSTER、FCM、COD、GMM、谱聚 类等,但是没有任何一种聚类算法可以普遍适用于揭示各种多维数据 集所呈现出来的多种多样的结构,现有的聚类算法在高维数据的有效 性上表现有限,而且针对不同的研究领域或者数据集都要调整很多的 参数。鲁棒性连续聚类方法(Robust continuous clustering,RCC)可用于 大规模数据集的无监督聚类,适用于不同类型的数据,如文本、图像、 数字等,在高维数据的聚类上也有很好的性能,但是该方法无法实现 只有社交网络用户连接关系的用户聚类问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于在线社交用户隐特 征的隐式群体发现方法,可解决社交网络环境下基于用户隐偏好发现 隐式群体的技术难点问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于在线社交用户隐特征的隐式群体发现方法,包括以下步 骤:
针对社交网络构建用户社交关系矩阵;
利用稀疏自编码器学习用户社交关系的隐特征;
利用隐藏层输出编码矩阵进行鲁棒性连续聚类;
利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。
进一步的,所述稀疏自编码器是包括输入层、隐藏层和输出层的 三层神经网络。
进一步的,所述针对社交网络构建用户社交关系矩阵,包括:
将社交网络中的用户集合记为U,U={u1,...,ui,...,uj,...un},n为用户 数量;
以Rij表达社交网络中第i个用户ui和第j个用户uj之间的关系, 1<i<n,1<j<n;
定义Rii=1;若用户ui和用户uj在所述社交网络中存在连接关系,则 Rij=1,否则Rij=0;
获得由式(1)所表征的n×n的用户社交关系矩阵R:
Figure BDA0001785197200000031
进一步的,所述利用稀疏自编码器学习用户社交关系的隐特征, 包括以所构建的用户社交关系矩阵R作为所述稀疏自编码器的输入矩 阵,由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出编码矩 阵:
E=f(RWT+b)=[F1,...,Fi,...,Fn]={Fi1,...,Fih,...,Fid} (2),
式(2)中,E是用户社交关系矩阵R在稀疏自编码器中的n×d的隐 藏层输出编码矩阵,n是用户数量,d是用户隐特征数;Fi表示第i个用 户的特征值向量,1<i<n;Fih表示第i个用户的第h个特征值,1<h<d; f(·)是选择为双曲正切函数的激活函数;W是用户社交关系矩阵R的权 重矩阵;b是m×d的偏差矩阵,T表示矩阵转置;
将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层,由式(3) 所表征的函数获得稀疏自编码器输出矩阵:
Figure BDA0001785197200000032
式(3)中,
Figure BDA0001785197200000033
是n×n的稀疏自编码器输出矩阵;g(·)是选择为Sigmoid 函数的激活函数,
Figure BDA0001785197200000034
是隐藏层输出编码矩阵E的权重矩阵,
Figure BDA0001785197200000035
是m×m的 矩阵形式的偏差向量;
针对所述稀疏自编码器构建由式(4)所表征的误差训练目标函数:
Figure BDA0001785197200000036
采用反向传播算法和Adadelta方法针对所述误差训练目标函数进 行参数求解,经过迭代实现针对由式(4)所表征的误差训练目标函数的 优化,迭代结束时,获得优化后的权重矩阵W和偏差矩阵b;
利用式(2)计算得到隐藏层输出编码矩阵E的最优取值,记为:最 优隐藏层输出编码矩阵E*,E*=[F1 *,...,Fi *,...,Fn *]。
进一步的,所述利用隐藏层输出编码矩阵进行鲁棒性连续聚类, 包括:
构建图结构的聚类目标函数C;
将所述最优隐藏层输出编码矩阵E*=[F1 *,...,Fi *,...,Fn *]通过m-KNN方法 连接形成图结构,连接形成一条边的两个用户互为彼此的最近邻,以 此避免孤立用户的存在;
针对所述图结构的聚类目标函数C由式(5)所表征:
Figure BDA0001785197200000041
其中,ε表示图结构中边的集合;初始化特征矩阵G, G=[G1,...,Gi,...,Gp,...,Gq,...,Gn],1<i,p,q<n,、Gi、Gp、Gq分别表示第i个 用户、第p个用户和第q个用户的初始特征向量;初始化系数μ,μ=3γ2, γ是图结构中的最大边长度;lp,q是辅助变量;
ωp,q是由式(6)所表征的边(p,q)的权重系数:
Figure BDA0001785197200000042
式(6)中,Ni、Np、Nq分别表示图结构中连接第i个用户、第p个 用户和第q个用户的边数;λ是由式(7)表征的均衡系数:
Figure BDA0001785197200000043
式(7)中,ep表示第p个元素为1的指示向量,eq表示第q个元素为 1的指示向量;
利用块坐标下降算法,针对所述聚类目标函数C按如下方式进行迭 代优化:
利用式(8)计算得到辅助变量lp,q的最优取值,记为:最优辅助变量
Figure RE-GDA0001926646600000051
Figure RE-GDA0001926646600000052
式(8)中,μ每经过四次迭代即衰减为原来的一半;
根据式(8)和式(5),针对初始化特征矩阵G求偏导,获得特征矩阵 G*,G*=[G* 1,...,G* p,...,G* q,...,G* n]。
进一步的,所述利用特征矩阵构建图结构,从图结构的连通分支 中确定隐式群体,包括:
利用特征矩阵G*构建图结构,所述图结构中形成边的两个用户的特 征向量满足式(9),δ为阈值,
Figure BDA0001785197200000053
最终从图结构的连通分支中得到隐式群体。
(三)有益效果
本发明公开了一种基于在线社交用户隐特征的隐式群体发现方 法,通过针对社交网络构建用户社交关系矩阵;利用稀疏自编码器学 习用户社交关系的隐特征;利用隐藏层输出编码矩阵进行鲁棒性连续 聚类;利用较优的特征矩阵构建图结构,从图结构的连通分支中确定 隐式群体。本发明通过发现用户连接的内在机理,从隐特征角度考虑 用户间的连接关系,其更加符合真实隐性群体聚合情况,实现了更精 准的隐式用户群体的发现。
附图说明
图1为本发明流程示意图;
图2为本发明中稀疏自编码器结构图;
图3为本发明中Eu-email社交网络数据集的群体发现结果可视化 图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结 合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、 完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。
如图1所示,本发明实施例的一种基于在线社交用户隐特征的隐 式群体发现方法,包括以下步骤:
针对社交网络构建用户社交关系矩阵;
利用稀疏自编码器学习用户社交关系的隐特征;
利用隐藏层输出编码矩阵进行鲁棒性连续聚类;
利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体。
下面针对每一个步骤做详细说明:
步骤1、针对社交网络构建用户社交关系矩阵R
定义:在所述社交网络中的用户集合U为:U={u1,...,ui,...,uj,...un},n 为用户数量;
以Rij表达社交网络中第i个用户ui和第j个用户uj之间的关系, 1<i<n,1<j<n;
定义Rii=1;若用户ui和用户uj在所述社交网络中存在连接关系, 则Rij=1,否则Rij=0;
获得用户社交关系矩阵R,所述R是由式(1)所表征的n×n矩阵:
Figure BDA0001785197200000071
步骤2、利用稀疏自编码器学习用户社交关系的隐特征
如图2所示,采用稀疏自编码器,所述稀疏自编码器是包含有输 入层、隐藏层和输出层的三层神经网络,通过对模型的输入进行编码, 得到数据的隐层表示,然后通过隐藏层到输出层进行编码,得到输出。 输入数据和输出数据的尽可能相同使得自编码器的隐藏层能够学习到 数据的另一种表示,当隐藏层神经元小于输入层时,隐藏层的输出可 以作为数据的压缩表示;
以步骤1中所构建的用户社交关系矩阵R作为所述稀疏自编码器 的输入矩阵,由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出 编码矩阵:
Figure BDA0001785197200000072
式(2)中,E是用户社交关系矩阵R在稀疏自编码器中的隐藏层输 出编码矩阵,所述E是n×d矩阵,n是用户数量,d是用户隐特征数;Fi表示第i用户的特征值向量,1<i<n;Fih表示第i用户的第h个特征值, 1<h<d;f(·)为激活函数,所述激活函数f(·)选择双曲正切函数;W是 权重矩阵,所述W是d×m矩阵;b为偏差矩阵,所述b是m×d矩阵;T表 示矩阵转置;
将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层,由式(3) 所表征的函数获得稀疏自编码器的输出矩阵
Figure BDA0001785197200000073
Figure BDA0001785197200000074
式(3)中,
Figure BDA0001785197200000081
是稀疏自编码器的输出矩阵,所述
Figure BDA0001785197200000082
是n×n矩阵;g(·) 为激活函数,所述激活函数g(·)选择Sigmoid函数;
Figure BDA0001785197200000083
为权重矩阵,所 述
Figure BDA0001785197200000084
是m×d矩阵;
Figure BDA0001785197200000085
为偏差向量,所述
Figure BDA0001785197200000086
是m×m矩阵;
针对所述稀疏自编码器构建由式(4)所表征的误差训练目标函数:
Figure BDA0001785197200000087
使用反向传播算法和Adadelta方法进行误差训练目标函数的参数 求解,经过迭代实现针对由式(4)所表征的误差训练目标函数的优化, 每次迭代都可以得到优化的参数
Figure BDA0001785197200000088
W、b、
Figure BDA0001785197200000089
将优化后的参数W、 b带入式(2)可得到优化的隐特征矩阵E,再将E和参数
Figure BDA00017851972000000810
带入公式 (3),可以得到输出层的输出矩阵,直到迭代结束时,得到优化参数W 和b,利用式(2)计算得到优化的隐藏层输出编码矩阵 E*=[F1 *,...,Fi *,...,Fn *];
步骤3、利用隐藏层输出编码矩阵E按如下过程进行鲁棒性连续聚 类
步骤3.1、如下过程构建图结构的聚类目标函数C
将所述优化的隐藏层输出编码矩阵E*=[F1 *,...,Fi *,...,Fn *]通过m-KNN方 法连接形成图结构,连接形成一条边的两个用户互为彼此的最近邻, 以此避免孤立用户的存在;
针对所述图结构的聚类目标函数C由式(5)所表征:
Figure BDA00017851972000000811
式(5)中,ε表示图结构中边的集合;初始化特征矩阵 G=[G1,...,Gi,...,Gp,...,Gq,...,Gn],1<i,p,q<n,、Gi、Gp、Gq分别表示第i个、 第p个、第q个用户的初始特征向量;初始化系数μ=3γ2,γ是图结构 中的最大边长度;lp,q是辅助变量;
ωp,q是由式(6)所表征的边(p,q)的权重系数:
Figure BDA0001785197200000091
式(6)中,Ni、Np、Nq分别表示图结构中连接第i个、第p个、第 q个用户的边数;
λ是由式(7)表征的均衡系数:
Figure BDA0001785197200000092
式(7)中,ep表示第p个元素为1的指示向量,eq表示第q个元素 为1的指示向量。
步骤3.2、利用块坐标下降算法,针对所述聚类目标函数C,进行 如下迭代优化:
对辅助变量lp,q求偏导从而获得如式(8)所示的较优值
Figure RE-GDA0001926646600000093
Figure RE-GDA0001926646600000094
式(8)中,μ每经过四次迭代都会衰减为原来的一半。
根据式(8)和式(5),对G求偏导从而获得较优的特征矩阵G*, G*=[G* 1,...,G* p,...,G* q,...,G* n]。
步骤4、利用较优的特征矩阵G*,构建图结构,所述图结构中形成 边的两个用户的特征向量必须满足式(9):
Figure BDA0001785197200000095
式(9)中,δ表示阈值。
从图结构的连通分支中可以得到隐式群体。
步骤5、使用标准数据集进行实验,首先针对数据集的网络进行基 本分析,了解该社交网络的统计性分析情况,然后本方法与基础算法 在机器学习相关性能指标,如标准化的互信息(Normalized mutual information,NMI)指标来度量聚类的精度,但是考虑到NMI在细粒 度的区分方面有偏差,于是这里采取调整的互信息(Adjusted mutualinformation,AMI)度量指标来比较和判断该方法的优越性。
针对本发明方法进行实验论证,具体包括:
1)准备标准数据集
本发明使用Eu-email社交网络数据集作为标准数据集验证方法有 效性,该数据集是斯坦福大学汇集整理的一个大规模社交网络数据集。 Eu-email数据集来自欧洲一个研究机构的真实email网络数据,包括 了来自42个部门的1005位独立用户的25571条边数据,数据集中部 门成员间可以相互发送邮件,数据集不记录发送或者接收来自机构外 部的数据,平均每个用户和50个人连接,其平均聚类系数为0.37。
2)评价指标
互信息(Mutual Information,MI),表示两个变量X与Y是否有 关系,以及关系的强弱。调整化的互信息(Adjusted mutual information,AMI)常用于聚类研究中来度量聚类结果的相似程度, 在NMI基础上旨在消除造成精细划分的偏差,其具体计算公式如下:
Figure BDA0001785197200000101
其中,H表示熵,
Figure BDA0001785197200000102
表示C和
Figure BDA0001785197200000103
的互信息值,C和
Figure BDA0001785197200000104
表示被比 较的两个聚类结果。
3)标准数据集实验
为了验证本发明所提方法的有效性,本文在email-Eu-core的真 实数据集进行建模和预测。首先,社交连接数据通过稀疏自编码器得 到1005个用户的隐特征表示,其中,隐藏层设置50个神经元,激活 函数取tanh,输出层使用Sigmoid函数,学习率0.01,根据数据大小 收敛情况不定训练3000-6000代,用户隐特征d个数设置10、15、20、 25、30、35和40七组实验;其次,通过鲁棒性连续聚类方法得到隐式 群体结果,其中,设置最近邻k=10,最大迭代次数为100,阈值δ=0.1。 最后,将本发明提出的G2V方法与GN、LPA、RW、FG、LM、MCL、Inf和SA八种算法进行比较,同时基于RCC方法对DP和node2vec进行比 较,还基于node2vec方法对RCC和DP、ACC、ACW、AF、GMM、K-means++、 SEC七种方法在评价指标上进行比较,实验结果如表1所示,通过本发 明方法得到的隐式群体效果明显优于其他方法。
表1
Figure BDA0001785197200000111
综上,本发明实施例与已有技术相比,本发明的有益效果体现在:
1、本发明首次提出基于隐偏好发现隐式用户群体的方法,其核心 思想是认为社交网络中的用户之所以存在连接关系是因为用户间在某 些隐特征维度上存在着相似性,相比于传统基于图结构进行聚类的方 法而言,本发明通过发现用户连接的内在机理,从而实现更加精准的 隐式用户群体发现。
2、大数据环境下存在大量稀疏的用户关系反馈数据,直接通过图 聚类存在较大偏差,而且可能会忽略整个网络中可能存在相似偏好却 没有连接关系的用户,从而导致推荐精度和满意度下降,本发明在为 发现用户连接内在机理的过程中,无需进行大规模的特征工程,通过 自编码器自动学习社交网络用户连接关系的显著特征,从而得到高维 用户-用户矩阵的降维(压缩)表示,即用户-隐特征矩阵表示,从隐特 征角度考虑用户间的关系更加符合真实隐性群体聚合情况。
3、真实社交环境中,影响用户产生连接关系的影响因素可能不同, 本发明可以针对不同类型的数据和社交环境,设置不同的隐特征数量, 即使是高维的隐特征空间,相比普通的群体发现方法,所提方法在鲁 棒性和性能上都较优,本发明适用于针对大规模群体在高维特征空间 下的群体发现。
4、本发明可用于用户购买等显示反馈、用户浏览等隐式反馈、社 交网络关系、评论文本,以及图像视频等的隐式群体发现,在电脑和 手机的网页,以及在APP等平台上使用,应用范围十分广泛。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅 仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定 要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺 序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性 的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅 包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括 为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的 情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要 素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管 参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不 使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (2)

1.一种基于在线社交用户隐特征的隐式群体发现方法,其特征在于,包括以下步骤:
针对社交网络构建用户社交关系矩阵;
利用稀疏自编码器学习用户社交关系的隐特征;
利用隐藏层输出编码矩阵进行鲁棒性连续聚类;
利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体;
所述稀疏自编码器是包括输入层、隐藏层和输出层的三层神经网络;
所述针对社交网络构建用户社交关系矩阵,包括:
将社交网络中的用户集合记为U,U={u1,...,ui,...,uj,...un},n为用户数量;
以Rij表达社交网络中第i个用户ui和第j个用户uj之间的关系,1<i<n,1<j<n;
定义Rii=1;若用户ui和用户uj在所述社交网络中存在连接关系,则Rij=1,否则Rij=0;
获得由式(1)所表征的n×n的用户社交关系矩阵R:
Figure FDA0003100142280000011
所述利用稀疏自编码器学习用户社交关系的隐特征,包括以所构建的用户社交关系矩阵R作为所述稀疏自编码器的输入矩阵,由式(2)所表征的函数获得稀疏自编码器中的隐藏层输出编码矩阵:
E=f(RWT+b)=[F1,...,Fi,...,Fn]={Fi1,...,Fih,...,Fid} (2),
式(2)中,E是用户社交关系矩阵R在稀疏自编码器中的n×d的隐藏层输出编码矩阵,n是用户数量,d是用户隐特征数;Fi表示第i个用户的特征值向量,1<i<n;Fih表示第i个用户的第h个特征值,1<h<d;f(·)是选择为双曲正切函数的激活函数;W是用户社交关系矩阵R的权重矩阵;b是m×d的偏差矩阵,T表示矩阵转置;
将隐藏层输出编码矩阵E输入到稀疏自编码器的输出层,由式(3)所表征的函数获得稀疏自编码器输出矩阵:
Figure FDA0003100142280000021
式(3)中,
Figure FDA0003100142280000022
是n×n的稀疏自编码器输出矩阵;g(·)是选择为Sigmoid函数的激活函数,
Figure FDA0003100142280000023
是隐藏层输出编码矩阵E的权重矩阵,
Figure FDA0003100142280000024
是m×m的矩阵形式的偏差向量;
针对所述稀疏自编码器构建由式(4)所表征的误差训练目标函数:
Figure FDA0003100142280000025
采用反向传播算法和Adadelta方法针对所述误差训练目标函数进行参数求解,经过迭代实现针对由式(4)所表征的误差训练目标函数的优化,迭代结束时,获得优化后的权重矩阵W和偏差矩阵b;
利用式(2)计算得到隐藏层输出编码矩阵E的最优取值,记为:最优隐藏层输出编码矩阵E*,E*=[F1 *,...,Fi *,...,Fn *];
所述利用隐藏层输出编码矩阵进行鲁棒性连续聚类,包括:
构建图结构的聚类目标函数C;
将所述最优隐藏层输出编码矩阵E*=[F1 *,...,Fi *,...,Fn *]通过m-KNN方法连接形成图结构,连接形成一条边的两个用户互为彼此的最近邻,以此避免孤立用户的存在;
针对所述图结构的聚类目标函数C由式(5)所表征:
Figure FDA0003100142280000026
其中,ε表示图结构中边的集合;初始化特征矩阵G,G=[G1,...,Gi,...,Gp,...,Gq,...,Gn],1<i,p,q<n,Gi、Gp、Gq分别表示第i个用户、第p个用户和第q个用户的初始特征向量;初始化系数μ,μ=3γ2,γ是图结构中的最大边长度;lp,q是辅助变量;
ωp,q是由式(6)所表征的边(p,q)的权重系数:
Figure FDA0003100142280000031
式(6)中,Ni、Np、Nq分别表示图结构中连接第i个用户、第p个用户和第q个用户的边数;λ是由式(7)表征的均衡系数:
Figure FDA0003100142280000032
式(7)中,ep表示第p个元素为1的指示向量,eq表示第q个元素为1的指示向量;
利用块坐标下降算法,针对所述聚类目标函数C按如下方式进行迭代优化:
利用式(8)计算得到辅助变量lp,q的最优取值,记为:最优辅助变量
Figure FDA0003100142280000033
Figure FDA0003100142280000034
式(8)中,μ每经过四次迭代即衰减为原来的一半;
根据式(8)和式(5),针对初始化特征矩阵G求偏导,获得特征矩阵G*,G*=[G* 1,...,G* p,...,G* q,...,G* n]。
2.如权利要求1所述的基于在线社交用户隐特征的隐式群体发现方法,其特征在于,所述利用特征矩阵构建图结构,从图结构的连通分支中确定隐式群体,包括:
利用特征矩阵G*构建图结构,所述图结构中形成边的两个用户的特征向量满足式(9),δ为阈值,
Figure FDA0003100142280000041
最终从图结构的连通分支中得到隐式群体。
CN201811011767.9A 2018-08-31 2018-08-31 基于在线社交用户隐特征的隐式群体发现方法 Active CN109325875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811011767.9A CN109325875B (zh) 2018-08-31 2018-08-31 基于在线社交用户隐特征的隐式群体发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811011767.9A CN109325875B (zh) 2018-08-31 2018-08-31 基于在线社交用户隐特征的隐式群体发现方法

Publications (2)

Publication Number Publication Date
CN109325875A CN109325875A (zh) 2019-02-12
CN109325875B true CN109325875B (zh) 2021-08-10

Family

ID=65263508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811011767.9A Active CN109325875B (zh) 2018-08-31 2018-08-31 基于在线社交用户隐特征的隐式群体发现方法

Country Status (1)

Country Link
CN (1) CN109325875B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263227B (zh) * 2019-05-15 2023-07-18 创新先进技术有限公司 基于图神经网络的团伙发现方法和系统
CN110347932B (zh) * 2019-06-04 2021-11-23 中国科学院信息工程研究所 一种基于深度学习的跨网络用户对齐方法
US11699065B2 (en) * 2019-08-08 2023-07-11 Nec Corporation Ensemble of clustered dual-stage attention-based recurrent neural networks for multivariate time series prediction
CN110750730B (zh) * 2019-09-10 2023-04-07 合肥工业大学 基于时空约束的群体检测方法和系统
CN111291395B (zh) * 2020-02-05 2022-07-19 北卡科技有限公司 一种基于智能计算的信息隐藏方法
CN112445939A (zh) * 2020-03-26 2021-03-05 西安交通大学 一种社交网络群体发现系统、方法及存储介质
CN113591983B (zh) * 2021-07-30 2024-03-19 金地(集团)股份有限公司 图像识别方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529574A (zh) * 2016-10-17 2017-03-22 北京工业大学 基于稀疏自动编码器和支持向量机的图像分类方法
CN107038184A (zh) * 2016-10-14 2017-08-11 厦门大学 一种基于分层隐变量模型的新闻推荐方法
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN107451278A (zh) * 2017-08-07 2017-12-08 北京工业大学 基于多隐层极限学习机的中文文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038184A (zh) * 2016-10-14 2017-08-11 厦门大学 一种基于分层隐变量模型的新闻推荐方法
CN106529574A (zh) * 2016-10-17 2017-03-22 北京工业大学 基于稀疏自动编码器和支持向量机的图像分类方法
CN107392229A (zh) * 2017-06-21 2017-11-24 清华大学 一种基于最面向社会关系抽取的网络表示方法
CN107451278A (zh) * 2017-08-07 2017-12-08 北京工业大学 基于多隐层极限学习机的中文文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"A Non-negative Symmetric Encoder-Decoder Approach for Community Detection";Bing-Jie Sun et.al;《CIKM’17》;20171110;全文 *
"基于深度稀疏自动编码器的社区发现算法";尚敬文 等;《软件学报》;20161129;第28卷(第3期);第1节到第5节 *
"多粒度犹豫模糊语言信息下的群推荐方法";陈秀明 等;《系统工程理论与实践》;20160831;全文 *
Towards Enhancing Stacked Extreme Learning Machine With Sparse Autoencoder by Correntropy;Xiong Luo et.al;《Journal of the Franklin Institute》;20171231;全文 *

Also Published As

Publication number Publication date
CN109325875A (zh) 2019-02-12

Similar Documents

Publication Publication Date Title
CN109325875B (zh) 基于在线社交用户隐特征的隐式群体发现方法
CN110807154B (zh) 一种基于混合深度学习模型的推荐方法与系统
TWI677852B (zh) 一種圖像特徵獲取方法及裝置、電子設備、電腦可讀存儲介質
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
CN111310063B (zh) 基于神经网络的记忆感知门控因子分解机物品推荐方法
CN110362738B (zh) 一种基于深度学习的结合信任和影响力的个性化推荐方法
CN110321473B (zh) 基于多模态注意力的多样性偏好信息推送方法、系统、介质及设备
CN109992676B (zh) 一种跨媒体资源检索方法及检索系统
CN111737578A (zh) 一种推荐方法及系统
CN111241992B (zh) 人脸识别模型构建方法、识别方法、装置、设备及存储介质
CN109800853B (zh) 融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备
CN109241442B (zh) 基于预测值填充的项目推荐方法、可读存储介质和终端
CN110781401A (zh) 一种基于协同自回归流实现的Top-n项目推荐方法
CN114491263A (zh) 推荐模型训练方法及装置、推荐方法及装置
CN111178986A (zh) 用户-商品偏好的预测方法及系统
CN114238676A (zh) 一种基于图神经网络的mbd模型检索方法及装置
CN112541530B (zh) 针对聚类模型的数据预处理方法及装置
CN111325221B (zh) 基于图像深度信息的图像特征提取方法
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN116204628A (zh) 一种知识图谱增强的物流知识神经协同过滤推荐方法
CN114936890A (zh) 一种基于逆倾向加权方法的反事实公平的推荐方法
CN111078820B (zh) 基于权重符号社交网络嵌入的边权预测方法
CN112529637B (zh) 基于情景感知的服务需求动态预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant