CN110781406B - 一种基于变分自动编码器的社交网络用户多属性推断方法 - Google Patents

一种基于变分自动编码器的社交网络用户多属性推断方法 Download PDF

Info

Publication number
CN110781406B
CN110781406B CN201910971152.9A CN201910971152A CN110781406B CN 110781406 B CN110781406 B CN 110781406B CN 201910971152 A CN201910971152 A CN 201910971152A CN 110781406 B CN110781406 B CN 110781406B
Authority
CN
China
Prior art keywords
attribute
user
matrix
encoder
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910971152.9A
Other languages
English (en)
Other versions
CN110781406A (zh
Inventor
周亚东
丁志浩
刘晓明
沈超
管晓宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910971152.9A priority Critical patent/CN110781406B/zh
Publication of CN110781406A publication Critical patent/CN110781406A/zh
Application granted granted Critical
Publication of CN110781406B publication Critical patent/CN110781406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于变分自动编码器的社交网络用户多属性推断方法,包括:预处理在线社交网络数据,构建用户属性网络;构建属性推断模型,包括用户变分自动编码器,属性变分自动编码器和判别器,模型将输入数据编码得到用户和属性信息的潜在表示,并通过用户潜在表示重建出补全后的用户属性矩阵;通过对抗训练方式训练模型,使得得到的用户潜在表示中包含更完整属性信息;将待补全的用户属性数据以及用户间好友关系输入模型,输出的用户属性矩阵表示用户拥有不同属性的概率。本发明可用于补全在线社交网络中用户属性数据,从而获得完整的用户画像,所需数据易于获取,计算复杂度低,可在复杂网络中快速推断属性,同时在多数属性预测中准确率非常高。

Description

一种基于变分自动编码器的社交网络用户多属性推断方法
技术领域
本发明属于图数据挖掘技术领域,特别涉及一种基于变分自动编码器(VAE)的社交网络用户多属性推断方法。
背景技术
随着互联网技术的高速发展,在线社交网络如QQ、微博、Facebook、Twitter等已经成为我们生活中不可或缺的一部分。用户为了获得更好的社交体验,往往会在这些社交平台上填写一些个人的属性信息如性别、年龄、所在地、家乡、公司、学校等,这些信息构成了对一个用户全面的描述也就是人物画像。这些属性信息无论是对于相关研究人员对社交网络的研究还是对社交平台利用这些信息进行管理和分析都有着重要意义。然而现实的社交网络中这些信息存在着大量缺失,因而以补全这些缺失属性数据为目的的属性推断技术在学术界和工业界引起广泛关注。
传统的属性推断方法主要分为基于标签传播的方法以及基于分类的方法。这些方法往往需要依靠先验知识对属性与用户联系之间的关系进行建模,然而当属性种类和数量较多的情况下,先验知识往往难以准确刻画这种复杂的联系,因此这些传统方法难以取得令人满意的效果。
近些年来随着深度学习的发展,深度生成模型在学习数据分布方面取得了惊人的进展。这对于生成新的同分布数据以及对现有缺失数据的补全都能获得很好的效果。如何将深度生成模型应用到属性推断上是接下来属性推断问题的研究重点。
发明内容
针对上述在线网络用户属性数据异常稀疏等问题,本发明的目的在于提供一种基于变分自动编码器的社交网络用户多属性推断方法,能够同时在多个属性下取得较高的属性推断准确性。
为了实现上述目的,本发明采用的技术方案是:
一种基于变分自动编码器的社交网络用户多属性推断方法,包括以下步骤:
步骤1:在线社交网络数据预处理
步骤1.1:在社交网络数据集中用户的个人属性信息中确定n个属性类别用于属性推断,提取已知属性的用户属性信息得到n个属性类别下的具体属性值,然后对所述已知属性的用户属性信息进行one-hot编码得到每个用户的属性向量,即将所有m个不同属性值对应到m个状态位,每个用户的属性向量只有在已有属性值对应的状态位下为1,其余部分都为0;
步骤1.2:利用社交网络数据集构建属性网络G=(V,E,A,X,T),其中节点集V由社交网络数据集中的所有用户构成;E表示用户间关系构成的边集;邻接矩阵A储存了所有边的数据;属性矩阵X由所有用户的属性向量构成;属性类别矩阵T储存了所有用户n个属性类别下的属性缺失情况;
步骤2:构建基于变分自动编码器的社交网络用户多属性推断方法的模型,模型一共由三个模块组成,包括用户变分自动编码器、属性变分自动编码器和判别器;模型的构建具体包括以下步骤:
步骤2.1:构建用户变分自动编码器;包括编码器E1和生成器G1;编码器E1为k1层图卷积神经网络(GCN),将属性网络G中的邻接矩阵A和属性矩阵X作为输入,输出用户潜在表示Zv;生成器G1为k2层全连接神经网络,将用户潜在表示Zv作为输入,输出重建的属性矩阵
Figure GDA0002937339400000021
步骤2.2:构建属性变分自动编码器;包括编码器E2和生成器G2;编码器E2为k3层全连接神经网络,将属性网络G中的属性矩阵X和属性类别矩阵T作为输入,输出属性潜在表示Za;生成器G2为k4层全连接神经网络,将属性潜在表示Za作为输入,输出重建的属性类别矩阵
Figure GDA0002937339400000022
步骤2.3:构建判别器D;判别器D为k5层全连接神经网络,将用户潜在表示Zv和属性潜在表示Za作为输入,输出评分矩阵
Figure GDA0002937339400000031
评分矩阵中
Figure GDA0002937339400000032
表示第i个用户潜在表示Zv i中包含第j个属性潜在表示Za j中信息的概率,反映用户信息和属性信息融合的效果;
步骤2.4:通过对抗训练的方式训练基于变分自动编码器的社交网络用户多属性推断方法的模型,保存最终的模型参数;
步骤3:利用训练好的模型推断用户缺失的属性,具体包括以下步骤:
步骤3.1:将步骤1得到的属性网络G中的邻接矩阵A、存在缺失的属性矩阵X输入到步骤2中的用户变分自动编码器,得到的输出为补全后的属性矩阵
Figure GDA0002937339400000033
步骤3.2:从补全后的属性矩阵
Figure GDA0002937339400000034
中提取出每个用户对应的属性向量,对于预测后的属性向量
Figure GDA0002937339400000035
分别选取n个属性类别下的最大值所在n个状态位,将这n个状态位根据步骤1中的one-hot编码方式对应到具体属性值作为该用户属性推断的结果。
所述步骤1.1中的属性类别包括性别、年龄、学校、所在地、家乡以及公司等。
作为优选,所述步骤2.4中的对抗训练具体包括以下步骤:
步骤1:以用户信息变分下界
Figure GDA0002937339400000036
作为损失函数,利用属性矩阵X、邻接矩阵A和用户潜在表示Zv,采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E1和生成器G1中的神经网络参数,储存用户潜在表示Zv
Figure GDA0002937339400000037
其中,
Figure GDA0002937339400000038
θ1分别代表待训练的编码器E1和生成器G1中的神经网络参数;Ez~Q[logP(X|Zv)]表示分布P(X|Zv)的对数期望;DKL(Q(Zv|X,A)|P(Zv))表示分布Q(Zv|X,A)与P(Zv)的KL距离;
步骤2:以属性信息变分下界
Figure GDA0002937339400000039
作为损失函数,利用属性矩阵X、属性类别矩阵T和属性潜在表示Za,采用随机梯度下降法(SGD)训练属性变分自动编码器的编码器E2和生成器G2中的神经网络参数,储存属性潜在表示Za
Figure GDA0002937339400000041
其中,
Figure GDA0002937339400000042
θ2分别代表待训练的编码器E2和生成器G2中的神经网络参数;Ez~Q[logP(T|Za)]表示分布P(T|Za)的对数期望;DKL(Q(Za|X,T)|P(Za))表示分布Q(Za|X,T)与P(Za)的KL距离;
步骤3:循环步骤1、2训练模型N1轮;
步骤4:以交叉熵Ld作为损失函数,利用用户潜在表示Zv和属性潜在表示Za作为输入时判别器D输出的评分矩阵
Figure GDA0002937339400000043
以及属性类别矩阵T,采用随机梯度下降法(SGD)训练判别器D部分的神经网络参数;
Figure GDA0002937339400000044
步骤5:以交叉熵Le作为损失函数,利用用户潜在表示Zv和属性潜在表示Za作为输入时判别器D输出的评分矩阵
Figure GDA0002937339400000045
以及判别器的目标输出矩阵Y′,采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E1部分的神经网络参数;
Figure GDA0002937339400000046
其中,对于判别器目标输出矩阵Y′,由于希望每个用户的潜在表示都包含了所有属性的信息,因此Y′的每一位都为1;
步骤6:循环步骤1~步骤5,训练模型直到达到预设的训练轮数,预设训练轮数取N2
与现有技术相比,本发明的有益效果是:
(1)、本发明仅通过用户已有的不完整属性信息和用户间的好友关系进行属性推断,不需要额外的用户行为特征信息,对社交网络数据的要求较低,适用于大多数在线社交网络。
(2)、本发明通过变分自动编码器分别将已有属性信息、用户间的联系以及属性类别信息嵌入得到用户潜在表示和属性潜在表示,不但对用户属性与用户间联系之间关系进行建模同时考虑了不同属性之间的关系,从而使得本发明可以对多种属性同时进行推断,并获得更高的准确度。
(3)、本发明通过对抗训练的方式让已知的用户信息和多种属性信息更充分地融合,使得到的用户潜在表示中包含更完整的属性信息,进而让本发明能在已有用户数据非常稀疏的情况下依然能够取得较高的属性推断准确率。
附图说明
图1为基于变分自动编码器的多属性推断方法的模型示意图。
图2为本发明实施例中用户属性网络示意图。
图3为基于变分自动编码器的多属性推断方法的一种具体实施方式流程图。
图4为用户潜在表示空间。
图5为属性潜在表示空间。
图6为对抗训练的算法流程图。
图7为基于变分自动编码器的多属性推断方法在Facebook100数据集上应用结果的示意图。
具体实施方式
下面结合实施例及其附图对本发明做进一步详细描述。
如图1所示,本发明一种基于变分自动编码器的多属性推断方法,包括以下步骤:
步骤S1:在线社交网络数据预处理,构建用户属性网络,得到用户属性矩阵、用户邻接矩阵、属性类别矩阵;
本实施例中的在线社交网络数据集来源于http://people.maths.ox.ac.uk/~porterm/data/facebook100.zip,该社交网络是包括6637名Facebook用户以及这些用户间所有的497,778条好友关系,选取其中7名用户所构成的子网络用于说明本发明提出的方法。选取m=3个属性类别用作属性推断,分别为性别,专业,住址。每个属性类别下拥有多个属性值,性别下有2个不同属性值;专业下有2个不同属性值;住址下有2个不同属性值。对于所有属性类别,总共有m=6个属性值。对用户的信息进行one-hot编码,得到每个用户的属性向量,6个属性值对应6个状态位,也就是属性向量为6维。若用户拥有某个属性,则该属性值对应属性向量状态位为1,否则为0。
利用该数据集数据构建属性网络G=(V,E,A,X,T),参考图2,其中节点集V由数据集中7名用户构成;E表示用户间9条好友关系构成的边集;如表1所示,邻接矩阵A∈R7×7储存了所有边的数据,若节点vi和节点vi间存在边eij则Ai,j=1,否则Ai,j=0;
表1
用户1 用户2 用户3 用户4 用户5 用户6 用户7
用户1 0 1 1 1 0 0 0
用户2 1 0 1 1 0 0 0
用户3 1 1 0 1 0 0 0
用户4 1 1 1 0 1 0 0
用户5 0 0 0 1 0 1 1
用户6 0 0 0 0 1 0 0
用户7 0 0 0 0 1 0 0
如表2所示,属性矩阵X∈R7×6由所有用户的属性向量构成;
表2
性别1 性别2 专业1 专业2 住址1 住址2
用户1 1 0 0 0 1 0
用户2 1 0 1 0 1 0
用户3 0 0 1 0 0 0
用户4 1 0 0 0 1 0
用户5 0 1 0 1 0 0
用户6 0 1 0 0 0 1
用户7 1 0 0 0 0 0
如表3所示,属性类别矩阵T∈R7×3储存了所有用户n=3个属性类别下的属性缺失情况,若节点vi缺失了第j个属性,则Ti,j=0,否则Ti,j=1。
表3
性别 专业 住址
用户1 1 0 1
用户2 1 1 1
用户3 0 1 0
用户4 1 0 1
用户5 1 1 0
用户6 1 0 1
用户7 1 0 0
步骤S2:构建基于变分自动编码器的社交网络用户多属性推断方法的模型,如图3所示模型一共由三个模块组成,包括用户变分自动编码器,属性变分自动编码器和判别器;
用户变分自动编码器包括编码器E1和生成器G1;编码器E1为k1=2层图卷积神经网络(GCN),将属性网络G中的邻接矩阵A,属性矩阵X作为输入,输出为
用户信息潜在表示Zv∈R7×2,如图4所示,Zv i中将所有与用户i有关的信息映射到2维的低维空间中,实现对用户特征的提取。
生成器G1为k2=2层全连接神经网络,将用户潜在表示Zv作为输入,输出重建的属性矩阵
Figure GDA0002937339400000071
Figure GDA0002937339400000072
表示用户i拥有属性值j的概率。即从用户信息潜在表示Zv所包含的用户特征中重建出补全后的用户属性数据。
属性变分自动编码器包括编码器E2和生成器G2;编码器E2为k3=2层全连接神经网络,将属性网络G中的属性矩阵X,属性类别矩阵T作为输入,输出为属性信息潜在表示Za∈R3 ×2,如图5所示,Za i中将所有与属性i有关的信息映射到2维的低维空间中,实现对属性特征的提取。
生成器G2为k4=2层全连接神经网络,将属性潜在表示Za作为输入,输出重建的属性类别矩阵
Figure GDA0002937339400000073
Figure GDA0002937339400000074
表示用户i拥有属性j的概率。
判别器D为k5=3层全连接神经网络,将用户潜在表示Zv和属性潜在表示Za作为输入,输出评分矩阵
Figure GDA0002937339400000081
评分矩阵中
Figure GDA0002937339400000082
表示第i个用户潜在表示Zv i中包含第j个属性潜在表示Za j中信息的概率,若
Figure GDA0002937339400000083
越大则表示Zv i中包含了用户i在属性j上的信息概率越大,从而重建出的属性矩阵
Figure GDA0002937339400000084
中的
Figure GDA0002937339400000085
对属性j部分的补全效果越好。
步骤S3:通过对抗训练的方式训练模型,首先判别器D能够比较用户和属性潜在表示中信息的融合程度,再通过判别器D的输出结果进一步指导用户变分自动编码器中神经网络的训练,使得得到的用户潜在表示中包含更完整的属性信息,参考图6,其具体包括:
步骤S301:以用户信息变分下界
Figure GDA0002937339400000086
作为损失函数,利用属性矩阵X,邻接矩阵A,用户潜在表示Zv,采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E1和生成器G1中的神经网络参数;储存用户潜在表示Zv
步骤S302:以属性信息变分下界
Figure GDA0002937339400000087
作为损失函数,利用属性矩阵X,属性类别矩阵T,属性潜在表示Za,采用随机梯度下降法(SGD)训练属性变分自动编码器的编码器E2和生成器G2中的神经网络参数;储存属性潜在表示Za
步骤S303:循环步骤S301、S302训练模型N1=5轮;
步骤S304:以交叉熵Ld作为损失函数,利用用户潜在表示Zv和属性潜在表示Za作为输入时判别器D输出的评分矩阵
Figure GDA0002937339400000088
以及属性类别矩阵T,采用随机梯度下降法(SGD)训练判别器D部分的神经网络参数;
Figure GDA0002937339400000089
步骤S305:以交叉熵Le作为损失函数,利用用户潜在表示Zv和属性潜在表示Za作为输入时判别器D输出的评分矩阵
Figure GDA00029373394000000811
以及判别器目标输出矩阵Y′∈R6637×6,采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E1部分的神经网络参数;
Figure GDA00029373394000000810
其中,对于判别器目标输出矩阵Y′,由于希望每个用户的潜在表示都包含了所有属性的信息,因此Y′的每一位都为1;
步骤S306:循环步骤S301~S05训练模型直到达到预设的训练轮数,训练轮数取N2=200;
步骤S4:推断用户缺失的属性:将步骤S1得到的待补全的用户属性数据即存在缺失的属性矩阵X以及用户间好友关系即邻接矩阵A输入训练好的模型,输出的补全后的属性矩阵
Figure GDA0002937339400000091
表示用户拥有不同属性标签的概率;
从得到的属性矩阵
Figure GDA0002937339400000092
中提取出每个用户对应的属性向量,对于预测后的属性向量分别选取n=3个属性类别下的n=3个最大值,将这m=6个状态位根据步骤(1)中的one-hot编码方式对应到n=3个具体属性值作为该用户属性推断的结果,得到该数据集中每个用户补全后的性别,专业,住址;表4为补全后的属性矩阵
Figure GDA0002937339400000093
选择每名用户每个属性类别下的最大值作为用户该属性的推断结果,该结果用加粗字体标注。
表4
性别1 性别2 专业1 专业2 住址1 住址2
用户1 0.985478 0.09395 0.90455 0.304962 0.952206 0.075883
用户2 0.999276 0.099481 0.957317 0.09082 0.978451 0.099772
用户3 0.512487 0.29022 0.923204 0.06331 0.977294 0.254517
用户4 0.970275 0.060297 0.894189 0.349825 0.952375 0.050974
用户5 0.071555 0.904149 0.015646 0.992071 0.42845 0.705422
用户6 0.538649 0.352829 0.49481 0.736918 0.094411 0.932377
用户7 0.929837 0.090262 0.181982 0.54742 0.23136 0.642887
为了检验在本实施例中本发明所提出的基于变分自动编码器的社交网络用户多属性推断方法的效果,在整个数据集上进行了测试,整个数据集中包含6637名Facebook用户以及这些用户间所有的497,778条好友关系,并且包括了学生/教师状态,性别,专业,第二专业,住址,入学年份,高中这6个属性。选择该数据集中80%左右的用户已有属性作为训练集,10%左右的用户已有属性作为验证集,10%左右的用户已有属性作为测试集。在测试集上计算AUC和AP两个值作为评价指标。
AUC(Area under Curve)值是接收者操作特征(ReceiverOperatingCharacteristic,ROC)曲线与坐标轴围成的面积。反映了模型对正负样本的区分能力。
平均准确率(Average Precision,AP)是以准确率(Precision)为横轴,以召回率(Recall)为纵轴,在对模型预测结果取不同阈值情况下得到的多组(Precision,Recall)值与坐标轴围成的面积。能更全面地评价模型在不同情况下的准确率和召回率。
本次实施例的实验结果如下:
测试集的AUC值稳定在0.92391,AP值稳定在0.9471。
对于本实施例所选取的6个属性类别在测试集中AUC和AP值如图7所示,其中横坐标0~5分别代表学生/教师状态,性别,专业,第二专业,住址,入学年份,高中这6个属性。6个属性的AUC值分别为:[0.9626154896148479,0.895243166489173,0.7556640609853509,0.7639568004464529,0.8671245850322504,0.9602466373546323];6个属性的AP值分别为:[0.9996131706579606,0.99702326149596,0.9626164601455499,0.9364422411935492,0.9840198851561244,0.9933631386020725]。
该实验结果表明本发明所提出的基于变分自动编码器的社交网络用户多属性推断方法可以在在线社交网络中实现对多属性的属性推断并取得很好的效果。
综上,本发明可应用于在线社交网络中用户属性数据的补全,从而获得完整的用户人物画像,所需要数据在现实社交网络中易于获取,计算复杂度低,可在复杂网络中快速地实现属性推断,同时在多数属性预测中获得非常高的准确率。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (3)

1.一种基于变分自动编码器的社交网络用户多属性推断方法,其特征在于,包括以下步骤:
步骤1:在线社交网络数据预处理
步骤1.1:在社交网络数据集中用户的个人属性信息中确定n个属性类别用于属性推断,提取已知属性的用户属性信息得到n个属性类别下的具体属性值,然后对所述已知属性的用户属性信息进行one-hot编码得到每个用户的属性向量,即将所有m个不同属性值对应到m个状态位,每个用户的属性向量只有在已有属性值对应的状态位下为1,其余部分都为0;
步骤1.2:利用社交网络数据集构建属性网络G=(V,E,A,X,T),其中节点集V由社交网络数据集中的所有用户构成;E表示用户间关系构成的边集;邻接矩阵A储存了所有边的数据;属性矩阵X由所有用户的属性向量构成;属性类别矩阵T储存了所有用户n个属性类别下的属性缺失情况;
步骤2:构建基于变分自动编码器的社交网络用户多属性推断方法的模型,模型一共由三个模块组成,包括用户变分自动编码器、属性变分自动编码器和判别器;模型的构建具体包括以下步骤:
步骤2.1:构建用户变分自动编码器;包括编码器E1和生成器G1;编码器E1为k1层图卷积神经网络(GCN),将属性网络G中的邻接矩阵A和属性矩阵X作为输入,输出用户潜在表示Zv;生成器G1为k2层全连接神经网络,将用户潜在表示Zv作为输入,输出重建的属性矩阵
Figure FDA0002937339390000011
步骤2.2:构建属性变分自动编码器;包括编码器E2和生成器G2;编码器E2为k3层全连接神经网络,将属性网络G中的属性矩阵X和属性类别矩阵T作为输入,输出属性潜在表示Za;生成器G2为k4层全连接神经网络,将属性潜在表示Za作为输入,输出重建的属性类别矩阵
Figure FDA0002937339390000012
步骤2.3:构建判别器D;判别器D为k5层全连接神经网络,将用户潜在表示Zv和属性潜在表示Za作为输入,输出评分矩阵
Figure FDA0002937339390000021
评分矩阵中
Figure FDA0002937339390000022
表示第i个用户潜在表示Zv i中包含第j个属性潜在表示Za j中信息的概率,反映用户信息和属性信息融合的效果;
步骤2.4:通过对抗训练的方式训练基于变分自动编码器的社交网络用户多属性推断方法的模型,保存最终的模型参数;
步骤3:利用训练好的模型推断用户缺失的属性,具体包括以下步骤:
步骤3.1:将步骤1得到的属性网络G中的邻接矩阵A、存在缺失的属性矩阵X输入到步骤2中的用户变分自动编码器,得到的输出为补全后的属性矩阵
Figure FDA0002937339390000026
步骤3.2:从补全后的属性矩阵
Figure FDA0002937339390000027
中提取出每个用户对应的属性向量,对于用户i预测后的属性向量
Figure FDA0002937339390000028
分别选取n个属性类别下的最大值所在n个状态位,将这n个状态位根据步骤1中的one-hot编码方式对应到具体属性值作为该用户属性推断的结果。
2.根据权利要求1所述基于变分自动编码器的社交网络用户多属性推断方法,其特征在于,所述步骤1.1中的属性类别包括性别、年龄、学校、所在地、家乡以及公司。
3.根据权利要求1所述基于变分自动编码器的社交网络用户多属性推断方法,其特征在于,所述步骤2.4中的对抗训练具体包括以下步骤:
步骤2.4.1:以用户信息变分下界
Figure FDA0002937339390000023
作为损失函数,利用属性矩阵X、邻接矩阵A和用户潜在表示Zv,采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E1和生成器G1中的神经网络参数,储存用户潜在表示Zv
Figure FDA0002937339390000024
其中,
Figure FDA0002937339390000025
θ1分别代表待训练的编码器E1和生成器G1中的神经网络参数;Ez~Q[logP(X|Zv)]表示分布P(X|Zv)的对数期望;DKL(Q(Zv|X,A)|P(Zv))表示分布Q(Zv|X,A)与P(Zv)的KL距离;
步骤2.4.2:以属性信息变分下界
Figure FDA0002937339390000031
作为损失函数,利用属性矩阵X、属性类别矩阵T和属性潜在表示Za,采用随机梯度下降法(SGD)训练属性变分自动编码器的编码器E2和生成器G2中的神经网络参数,储存属性潜在表示Za
Figure FDA0002937339390000032
其中,
Figure FDA0002937339390000033
θ2分别代表待训练的编码器E2和生成器G2中的神经网络参数;Ez~Q[logP(T|Za)]表示分布P(T|Za)的对数期望;DKL(Q(Za|X,T)|P(Za))表示分布Q(Za|X,T)与P(Za)的KL距离;
步骤2.4.3:循环步骤2.4.1、2.4.2训练模型N1轮;
步骤2.4.4:以交叉熵Ld作为损失函数,利用用户潜在表示Zv和属性潜在表示Za作为输入时判别器D输出的评分矩阵
Figure FDA0002937339390000034
以及属性类别矩阵T,采用随机梯度下降法(SGD)训练判别器D部分的神经网络参数;
Figure FDA0002937339390000035
步骤2.4.5:以交叉熵Le作为损失函数,利用用户潜在表示Zv和属性潜在表示Za作为输入时判别器D输出的评分矩阵
Figure FDA0002937339390000036
以及判别器的目标输出矩阵Y′,采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E1部分的神经网络参数;
Figure FDA0002937339390000037
其中,判别器目标输出矩阵Y′的每一位都为1;
步骤2.4.6:循环步骤2.4.1~步骤2.4.5,训练模型直到达到预设的训练轮数,预设训练轮数取N2
CN201910971152.9A 2019-10-14 2019-10-14 一种基于变分自动编码器的社交网络用户多属性推断方法 Active CN110781406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910971152.9A CN110781406B (zh) 2019-10-14 2019-10-14 一种基于变分自动编码器的社交网络用户多属性推断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910971152.9A CN110781406B (zh) 2019-10-14 2019-10-14 一种基于变分自动编码器的社交网络用户多属性推断方法

Publications (2)

Publication Number Publication Date
CN110781406A CN110781406A (zh) 2020-02-11
CN110781406B true CN110781406B (zh) 2021-07-06

Family

ID=69385289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910971152.9A Active CN110781406B (zh) 2019-10-14 2019-10-14 一种基于变分自动编码器的社交网络用户多属性推断方法

Country Status (1)

Country Link
CN (1) CN110781406B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428147B (zh) * 2020-03-25 2021-07-27 合肥工业大学 结合社交和兴趣信息的异源图卷积网络的社交推荐方法
CN111581189B (zh) * 2020-03-27 2022-11-08 浙江大学 一种空气质量检测数据缺失的补全方法及补全装置
CN111640483B (zh) * 2020-06-09 2022-10-28 南京邮电大学 基于akc模型的健身方案推荐方法
CN111767472A (zh) * 2020-07-08 2020-10-13 吉林大学 一种社交网络异常账号检测方法及系统
CN112507185B (zh) * 2020-10-22 2022-08-19 复旦大学 用户肖像的确定方法和装置
CN112445957A (zh) * 2020-11-05 2021-03-05 西安电子科技大学 社交网络异常用户检测方法、系统、介质、设备、终端
CN113194493B (zh) * 2021-05-06 2023-01-06 南京大学 基于图神经网络的无线网络数据缺失属性恢复方法及装置
CN113505307B (zh) * 2021-09-06 2021-12-07 南京航空航天大学 一种基于弱监督增强的社交网络用户地域识别方法
CN113807978B (zh) * 2021-09-07 2024-06-18 中国船舶重工集团公司第七0九研究所 基于注意力图神经网络的隐藏社群属性获取方法与系统
CN115081512A (zh) * 2022-05-17 2022-09-20 支付宝(杭州)信息技术有限公司 特征补齐方法及装置、特征补齐模型、介质、设备及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107169063A (zh) * 2017-05-03 2017-09-15 西安交通大学 一种基于社交信息的用户属性预测方法与系统
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8160993B2 (en) * 2007-05-22 2012-04-17 The Regents Of The University Of California System and methods for evaluating inferences of unknown attributes in a social network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145977A (zh) * 2017-04-28 2017-09-08 电子科技大学 一种对在线社交网络用户进行结构化属性推断的方法
CN107169063A (zh) * 2017-05-03 2017-09-15 西安交通大学 一种基于社交信息的用户属性预测方法与系统
CN109636061A (zh) * 2018-12-25 2019-04-16 深圳市南山区人民医院 医保欺诈预测网络的训练方法、装置、设备及存储介质
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用变分自编码器进行网络表示学习;张蕾等;《计算机科学与探索》;20190422;全文 *

Also Published As

Publication number Publication date
CN110781406A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110781406B (zh) 一种基于变分自动编码器的社交网络用户多属性推断方法
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN111753189A (zh) 一种少样本跨模态哈希检索共同表征学习方法
KR20210040248A (ko) 물질의 생성 구조-특성 역 계산 공동 설계
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN109960737B (zh) 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN109711883B (zh) 基于U-Net网络的互联网广告点击率预估方法
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN108536784B (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN110889450B (zh) 超参数调优、模型构建方法和装置
CN112487291B (zh) 一种基于大数据的个性化新闻推荐方法及装置
CN110245310B (zh) 一种对象的行为分析方法、装置及存储介质
WO2021035412A1 (zh) 一种自动机器学习AutoML系统、方法及设备
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN112561031A (zh) 基于人工智能的模型搜索方法、装置及电子设备
CN109783805A (zh) 一种网络社区用户识别方法及装置
CN110688484B (zh) 一种基于不平衡贝叶斯分类的微博敏感事件言论检测方法
CN115358809A (zh) 一种基于图对比学习的多意图推荐方法及装置
CN112417267A (zh) 一种用户行为分析方法、装置、计算机设备及存储介质
CN115496144A (zh) 配电网运行场景确定方法、装置、计算机设备和存储介质
CN115170874A (zh) 一种基于解耦蒸馏损失的自蒸馏实现方法
CN112817563A (zh) 目标属性配置信息确定方法、计算机设备和存储介质
CN111079930A (zh) 数据集质量参数的确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant