CN110781406B

CN110781406B - 一种基于变分自动编码器的社交网络用户多属性推断方法

Info

Publication number: CN110781406B
Application number: CN201910971152.9A
Authority: CN
Inventors: 周亚东; 丁志浩; 刘晓明; 沈超; 管晓宏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2021-07-06
Anticipated expiration: 2039-10-14
Also published as: CN110781406A

Abstract

一种基于变分自动编码器的社交网络用户多属性推断方法，包括：预处理在线社交网络数据，构建用户属性网络；构建属性推断模型，包括用户变分自动编码器，属性变分自动编码器和判别器，模型将输入数据编码得到用户和属性信息的潜在表示，并通过用户潜在表示重建出补全后的用户属性矩阵；通过对抗训练方式训练模型，使得得到的用户潜在表示中包含更完整属性信息；将待补全的用户属性数据以及用户间好友关系输入模型，输出的用户属性矩阵表示用户拥有不同属性的概率。本发明可用于补全在线社交网络中用户属性数据，从而获得完整的用户画像，所需数据易于获取，计算复杂度低，可在复杂网络中快速推断属性，同时在多数属性预测中准确率非常高。

Description

一种基于变分自动编码器的社交网络用户多属性推断方法

技术领域

本发明属于图数据挖掘技术领域，特别涉及一种基于变分自动编码器(VAE)的社交网络用户多属性推断方法。

背景技术

随着互联网技术的高速发展，在线社交网络如QQ、微博、Facebook、Twitter等已经成为我们生活中不可或缺的一部分。用户为了获得更好的社交体验，往往会在这些社交平台上填写一些个人的属性信息如性别、年龄、所在地、家乡、公司、学校等，这些信息构成了对一个用户全面的描述也就是人物画像。这些属性信息无论是对于相关研究人员对社交网络的研究还是对社交平台利用这些信息进行管理和分析都有着重要意义。然而现实的社交网络中这些信息存在着大量缺失，因而以补全这些缺失属性数据为目的的属性推断技术在学术界和工业界引起广泛关注。

传统的属性推断方法主要分为基于标签传播的方法以及基于分类的方法。这些方法往往需要依靠先验知识对属性与用户联系之间的关系进行建模，然而当属性种类和数量较多的情况下，先验知识往往难以准确刻画这种复杂的联系，因此这些传统方法难以取得令人满意的效果。

近些年来随着深度学习的发展，深度生成模型在学习数据分布方面取得了惊人的进展。这对于生成新的同分布数据以及对现有缺失数据的补全都能获得很好的效果。如何将深度生成模型应用到属性推断上是接下来属性推断问题的研究重点。

发明内容

针对上述在线网络用户属性数据异常稀疏等问题，本发明的目的在于提供一种基于变分自动编码器的社交网络用户多属性推断方法，能够同时在多个属性下取得较高的属性推断准确性。

为了实现上述目的，本发明采用的技术方案是：

一种基于变分自动编码器的社交网络用户多属性推断方法，包括以下步骤：

步骤1：在线社交网络数据预处理

步骤1.1：在社交网络数据集中用户的个人属性信息中确定n个属性类别用于属性推断，提取已知属性的用户属性信息得到n个属性类别下的具体属性值，然后对所述已知属性的用户属性信息进行one-hot编码得到每个用户的属性向量，即将所有m个不同属性值对应到m个状态位，每个用户的属性向量只有在已有属性值对应的状态位下为1，其余部分都为0；

步骤1.2：利用社交网络数据集构建属性网络G＝(V,E,A,X,T)，其中节点集V由社交网络数据集中的所有用户构成；E表示用户间关系构成的边集；邻接矩阵A储存了所有边的数据；属性矩阵X由所有用户的属性向量构成；属性类别矩阵T储存了所有用户n个属性类别下的属性缺失情况；

步骤2：构建基于变分自动编码器的社交网络用户多属性推断方法的模型，模型一共由三个模块组成，包括用户变分自动编码器、属性变分自动编码器和判别器；模型的构建具体包括以下步骤：

步骤2.1：构建用户变分自动编码器；包括编码器E₁和生成器G₁；编码器E₁为k₁层图卷积神经网络(GCN)，将属性网络G中的邻接矩阵A和属性矩阵X作为输入，输出用户潜在表示Z^v；生成器G₁为k₂层全连接神经网络，将用户潜在表示Z^v作为输入，输出重建的属性矩阵

步骤2.2：构建属性变分自动编码器；包括编码器E₂和生成器G₂；编码器E₂为k₃层全连接神经网络，将属性网络G中的属性矩阵X和属性类别矩阵T作为输入，输出属性潜在表示Z^a；生成器G₂为k₄层全连接神经网络，将属性潜在表示Z^a作为输入，输出重建的属性类别矩阵

步骤2.3：构建判别器D；判别器D为k₅层全连接神经网络，将用户潜在表示Z^v和属性潜在表示Z^a作为输入，输出评分矩阵

评分矩阵中

表示第i个用户潜在表示Z^v _i中包含第j个属性潜在表示Z^a _j中信息的概率，反映用户信息和属性信息融合的效果；

步骤2.4：通过对抗训练的方式训练基于变分自动编码器的社交网络用户多属性推断方法的模型，保存最终的模型参数；

步骤3：利用训练好的模型推断用户缺失的属性，具体包括以下步骤：

步骤3.1：将步骤1得到的属性网络G中的邻接矩阵A、存在缺失的属性矩阵X输入到步骤2中的用户变分自动编码器，得到的输出为补全后的属性矩阵

步骤3.2：从补全后的属性矩阵

中提取出每个用户对应的属性向量，对于预测后的属性向量

分别选取n个属性类别下的最大值所在n个状态位，将这n个状态位根据步骤1中的one-hot编码方式对应到具体属性值作为该用户属性推断的结果。

所述步骤1.1中的属性类别包括性别、年龄、学校、所在地、家乡以及公司等。

作为优选，所述步骤2.4中的对抗训练具体包括以下步骤：

步骤1：以用户信息变分下界

作为损失函数，利用属性矩阵X、邻接矩阵A和用户潜在表示Z^v，采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E₁和生成器G₁中的神经网络参数，储存用户潜在表示Z^v；

其中，

步骤2：以属性信息变分下界

作为损失函数，利用属性矩阵X、属性类别矩阵T和属性潜在表示Z^a，采用随机梯度下降法(SGD)训练属性变分自动编码器的编码器E₂和生成器G₂中的神经网络参数，储存属性潜在表示Z^a；

其中，

步骤3：循环步骤1、2训练模型N₁轮；

步骤4：以交叉熵L_d作为损失函数，利用用户潜在表示Z^v和属性潜在表示Z^a作为输入时判别器D输出的评分矩阵

以及属性类别矩阵T，采用随机梯度下降法(SGD)训练判别器D部分的神经网络参数；

步骤5：以交叉熵L_e作为损失函数，利用用户潜在表示Z^v和属性潜在表示Z^a作为输入时判别器D输出的评分矩阵

以及判别器的目标输出矩阵Y′，采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E₁部分的神经网络参数；

其中，对于判别器目标输出矩阵Y′，由于希望每个用户的潜在表示都包含了所有属性的信息，因此Y′的每一位都为1；

步骤6：循环步骤1～步骤5，训练模型直到达到预设的训练轮数，预设训练轮数取N₂。

与现有技术相比，本发明的有益效果是：

(1)、本发明仅通过用户已有的不完整属性信息和用户间的好友关系进行属性推断，不需要额外的用户行为特征信息，对社交网络数据的要求较低，适用于大多数在线社交网络。

(2)、本发明通过变分自动编码器分别将已有属性信息、用户间的联系以及属性类别信息嵌入得到用户潜在表示和属性潜在表示，不但对用户属性与用户间联系之间关系进行建模同时考虑了不同属性之间的关系，从而使得本发明可以对多种属性同时进行推断，并获得更高的准确度。

(3)、本发明通过对抗训练的方式让已知的用户信息和多种属性信息更充分地融合，使得到的用户潜在表示中包含更完整的属性信息，进而让本发明能在已有用户数据非常稀疏的情况下依然能够取得较高的属性推断准确率。

附图说明

图1为基于变分自动编码器的多属性推断方法的模型示意图。

图2为本发明实施例中用户属性网络示意图。

图3为基于变分自动编码器的多属性推断方法的一种具体实施方式流程图。

图4为用户潜在表示空间。

图5为属性潜在表示空间。

图6为对抗训练的算法流程图。

图7为基于变分自动编码器的多属性推断方法在Facebook100数据集上应用结果的示意图。

具体实施方式

下面结合实施例及其附图对本发明做进一步详细描述。

如图1所示，本发明一种基于变分自动编码器的多属性推断方法，包括以下步骤：

步骤S1：在线社交网络数据预处理，构建用户属性网络，得到用户属性矩阵、用户邻接矩阵、属性类别矩阵；

本实施例中的在线社交网络数据集来源于http://people.maths.ox.ac.uk/～porterm/data/facebook100.zip，该社交网络是包括6637名Facebook用户以及这些用户间所有的497,778条好友关系，选取其中7名用户所构成的子网络用于说明本发明提出的方法。选取m＝3个属性类别用作属性推断，分别为性别，专业，住址。每个属性类别下拥有多个属性值，性别下有2个不同属性值；专业下有2个不同属性值；住址下有2个不同属性值。对于所有属性类别，总共有m＝6个属性值。对用户的信息进行one-hot编码，得到每个用户的属性向量，6个属性值对应6个状态位，也就是属性向量为6维。若用户拥有某个属性，则该属性值对应属性向量状态位为1，否则为0。

利用该数据集数据构建属性网络G＝(V,E,A,X,T)，参考图2，其中节点集V由数据集中7名用户构成；E表示用户间9条好友关系构成的边集；如表1所示，邻接矩阵A∈R^7×7储存了所有边的数据，若节点v_i和节点v_i间存在边e_ij则A_i,j＝1，否则A_i,j＝0；

表1

	用户1	用户2	用户3	用户4	用户5	用户6	用户7
								用户1	0	1	1	1	0	0	0
用户2	1	0	1	1	0	0	0
								用户3	1	1	0	1	0	0	0
用户4	1	1	1	0	1	0	0
								用户5	0	0	0	1	0	1	1
用户6	0	0	0	0	1	0	0
								用户7	0	0	0	0	1	0	0

如表2所示，属性矩阵X∈R^7×6由所有用户的属性向量构成；

表2

	性别1	性别2	专业1	专业2	住址1	住址2
							用户1	1	0	0	0	1	0
用户2	1	0	1	0	1	0
							用户3	0	0	1	0	0	0
用户4	1	0	0	0	1	0
							用户5	0	1	0	1	0	0
用户6	0	1	0	0	0	1
							用户7	1	0	0	0	0	0

如表3所示，属性类别矩阵T∈R^7×3储存了所有用户n＝3个属性类别下的属性缺失情况，若节点v_i缺失了第j个属性，则T_i,j＝0，否则T_i,j＝1。

表3

	性别	专业	住址
				用户1	1	0	1
用户2	1	1	1
				用户3	0	1	0
用户4	1	0	1
				用户5	1	1	0
用户6	1	0	1
				用户7	1	0	0

步骤S2：构建基于变分自动编码器的社交网络用户多属性推断方法的模型，如图3所示模型一共由三个模块组成，包括用户变分自动编码器，属性变分自动编码器和判别器；

用户变分自动编码器包括编码器E₁和生成器G₁；编码器E₁为k₁＝2层图卷积神经网络(GCN)，将属性网络G中的邻接矩阵A，属性矩阵X作为输入，输出为

用户信息潜在表示Z^v∈R^7×2，如图4所示，Z^v _i中将所有与用户i有关的信息映射到2维的低维空间中，实现对用户特征的提取。

生成器G₁为k₂＝2层全连接神经网络，将用户潜在表示Z^v作为输入，输出重建的属性矩阵

表示用户i拥有属性值j的概率。即从用户信息潜在表示Z^v所包含的用户特征中重建出补全后的用户属性数据。

属性变分自动编码器包括编码器E₂和生成器G₂；编码器E₂为k₃＝2层全连接神经网络，将属性网络G中的属性矩阵X，属性类别矩阵T作为输入，输出为属性信息潜在表示Z^a∈R³ ^×2，如图5所示，Z^a _i中将所有与属性i有关的信息映射到2维的低维空间中，实现对属性特征的提取。

生成器G₂为k₄＝2层全连接神经网络，将属性潜在表示Z^a作为输入，输出重建的属性类别矩阵

表示用户i拥有属性j的概率。

判别器D为k₅＝3层全连接神经网络，将用户潜在表示Z^v和属性潜在表示Z^a作为输入，输出评分矩阵

评分矩阵中

表示第i个用户潜在表示Z^v _i中包含第j个属性潜在表示Z^a _j中信息的概率，若

越大则表示Z^v _i中包含了用户i在属性j上的信息概率越大，从而重建出的属性矩阵

中的

对属性j部分的补全效果越好。

步骤S3：通过对抗训练的方式训练模型，首先判别器D能够比较用户和属性潜在表示中信息的融合程度，再通过判别器D的输出结果进一步指导用户变分自动编码器中神经网络的训练，使得得到的用户潜在表示中包含更完整的属性信息，参考图6，其具体包括：

步骤S301：以用户信息变分下界

作为损失函数，利用属性矩阵X，邻接矩阵A，用户潜在表示Z^v，采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E₁和生成器G₁中的神经网络参数；储存用户潜在表示Z^v；

步骤S302：以属性信息变分下界

作为损失函数，利用属性矩阵X，属性类别矩阵T，属性潜在表示Z^a，采用随机梯度下降法(SGD)训练属性变分自动编码器的编码器E₂和生成器G₂中的神经网络参数；储存属性潜在表示Z^a；

步骤S303：循环步骤S301、S302训练模型N₁＝5轮；

步骤S304：以交叉熵L_d作为损失函数，利用用户潜在表示Z^v和属性潜在表示Z^a作为输入时判别器D输出的评分矩阵

步骤S305：以交叉熵L_e作为损失函数，利用用户潜在表示Z^v和属性潜在表示Z^a作为输入时判别器D输出的评分矩阵

以及判别器目标输出矩阵Y′∈R^6637×6，采用随机梯度下降法(SGD)训练用户变分自动编码器的编码器E₁部分的神经网络参数；

步骤S306：循环步骤S301～S05训练模型直到达到预设的训练轮数，训练轮数取N₂＝200；

步骤S4：推断用户缺失的属性：将步骤S1得到的待补全的用户属性数据即存在缺失的属性矩阵X以及用户间好友关系即邻接矩阵A输入训练好的模型，输出的补全后的属性矩阵

表示用户拥有不同属性标签的概率；

从得到的属性矩阵

中提取出每个用户对应的属性向量，对于预测后的属性向量分别选取n＝3个属性类别下的n＝3个最大值，将这m＝6个状态位根据步骤(1)中的one-hot编码方式对应到n＝3个具体属性值作为该用户属性推断的结果，得到该数据集中每个用户补全后的性别，专业，住址；表4为补全后的属性矩阵

选择每名用户每个属性类别下的最大值作为用户该属性的推断结果，该结果用加粗字体标注。

表4

	性别1	性别2	专业1	专业2	住址1	住址2
							用户1	0.985478	0.09395	0.90455	0.304962	0.952206	0.075883
用户2	0.999276	0.099481	0.957317	0.09082	0.978451	0.099772
							用户3	0.512487	0.29022	0.923204	0.06331	0.977294	0.254517
用户4	0.970275	0.060297	0.894189	0.349825	0.952375	0.050974
							用户5	0.071555	0.904149	0.015646	0.992071	0.42845	0.705422
用户6	0.538649	0.352829	0.49481	0.736918	0.094411	0.932377
							用户7	0.929837	0.090262	0.181982	0.54742	0.23136	0.642887

为了检验在本实施例中本发明所提出的基于变分自动编码器的社交网络用户多属性推断方法的效果，在整个数据集上进行了测试，整个数据集中包含6637名Facebook用户以及这些用户间所有的497,778条好友关系，并且包括了学生/教师状态，性别，专业，第二专业，住址，入学年份，高中这6个属性。选择该数据集中80％左右的用户已有属性作为训练集，10％左右的用户已有属性作为验证集，10％左右的用户已有属性作为测试集。在测试集上计算AUC和AP两个值作为评价指标。

AUC(Area under Curve)值是接收者操作特征(ReceiverOperatingCharacteristic,ROC)曲线与坐标轴围成的面积。反映了模型对正负样本的区分能力。

平均准确率(Average Precision,AP)是以准确率(Precision)为横轴，以召回率(Recall)为纵轴，在对模型预测结果取不同阈值情况下得到的多组(Precision,Recall)值与坐标轴围成的面积。能更全面地评价模型在不同情况下的准确率和召回率。

本次实施例的实验结果如下：

测试集的AUC值稳定在0.92391，AP值稳定在0.9471。

对于本实施例所选取的6个属性类别在测试集中AUC和AP值如图7所示，其中横坐标0～5分别代表学生/教师状态，性别，专业，第二专业，住址，入学年份，高中这6个属性。6个属性的AUC值分别为：[0.9626154896148479,0.895243166489173,0.7556640609853509,0.7639568004464529,0.8671245850322504,0.9602466373546323]；6个属性的AP值分别为：[0.9996131706579606,0.99702326149596,0.9626164601455499,0.9364422411935492,0.9840198851561244,0.9933631386020725]。

该实验结果表明本发明所提出的基于变分自动编码器的社交网络用户多属性推断方法可以在在线社交网络中实现对多属性的属性推断并取得很好的效果。

综上，本发明可应用于在线社交网络中用户属性数据的补全，从而获得完整的用户人物画像，所需要数据在现实社交网络中易于获取，计算复杂度低，可在复杂网络中快速地实现属性推断，同时在多数属性预测中获得非常高的准确率。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。