CN112365356B

CN112365356B - 社交网络中基于多视图融合的用户审计方法

Info

Publication number: CN112365356B
Application number: CN202011165375.5A
Authority: CN
Inventors: 杨晓晖; 梁笑
Original assignee: Hebei University
Current assignee: Hebei University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-04-12
Anticipated expiration: 2040-10-27
Also published as: CN112365356A

Abstract

本发明提供了一种社交网络中基于多视图融合的用户审计方法。该方法重点包括特征提取和多视图融合两个阶段。首先，设计综合多视图信息的用户表征策略，分别构建用户行为、社交关系、文章内容三个视图对用户进行表征。针对现有方法未充分考虑用户粉丝及用户在社交网络中所处环境的不足，引入粉丝比率、粉丝平均双向连接率、基于社区的双向连接率、基于社区的集群系数等新特征。然后，构建基于线性加权函数的多视图融合决策模型，将来自各视图的分类结果进行线性加权融合，并通过最小化近似误差求得最优融合系数进而得到最终分类结果。与现有技术相比，本发明能够有效检测垃圾用户，有更高精确率和F1值，且在应对不平衡数据时表现出更强的稳定性。

Description

社交网络中基于多视图融合的用户审计方法

技术领域

本发明涉及社交网络安全领域，具体地说是一种社交网络中基于多视图融合的用户审计方法。

背景技术

在社交网络中，包括社交网站的社交网络系统能够使其用户(诸如个人或组织)与其交互，且用户通过其彼此交互。随着用户的输入，社交网络系统可以创建和储存与用户相关的用户配置文件。用户配置文件可包括用户的个人统计信息、通信渠道信息以及个人行为信息等。随着用户的使用，社交网络系统还可以创建和储存该用户与社交网络上的其他用户之间的关系记录，并且为促进两个用户或多个用户之间的社交提供服务(例如点赞、评论、话题、发私信等)。

微博等社交网络平台一方面给人们的生活带来便利，同时也给垃圾用户提供了良好的发展环境。社交网络上垃圾用户利用微博发布大量垃圾信息或请求，甚至涉及恶意URL链接、虚假广告、网络钓鱼、欺诈、色情等内容，给用户的财产安全带来巨大的隐患。此外，无用信息占据网络资源，消耗了大量的网络负载。垃圾用户检测作为社交网络环境维护中的基本任务有助于消除微博垃圾用户所带来的负面影响，维护社交网络的安全，改善用户的使用体验。

微博垃圾用户检测可以转化为分类问题，即基于分类的垃圾用户识别。其中，需要提取用户的各方面特征，特征提取的完整及合理程度直接影响识别的结果。当前，对于在线社交网络上的用户进行表征应考虑以下几个方面：基于用户配置文件相关的账号基本信息(包括账号注册日期、个人简介等)、基于用户使用行为相关的信息、基于用户间社交关系的信息、基于用户发布微博内容的信息。

集成学习(ensemble learning)是一种分类器融合方法，有时也被称为多分类器系统(multi-classifier system)，其一般结构为：先产生一组“个体学习器”，再用某种策略将它们结合起来。集成学习在分类任务的很多领域已经得到了广泛的应用，并且取得了很好的效果，但目前基于集成学习思想的微博垃圾用户检测方法还不是很成熟。

发明内容

本发明的目的就是提供一种社交网络中基于多视图融合的用户审计方法，通过该方法对社交网络中的用户进行审计，以检测出非正常的垃圾用户，该方法具有识别准确率高、适用性强的优点。

本发明是这样实现的：本发明的方法中，利用了一种综合多视图信息的用户表征策略和基于线性加权函数的融合决策模型。该方法重点包括两个阶段：第一阶段：特征提取；第二阶段：多视图融合决策。该方法包含以下内容：

1.一种综合多视图信息的用户表征策略

在本发明的第一阶段中，提供了一种完整且有效的特征构造方法，以对社交网络(例如微博)上的用户进行表征，即图1中的“特征提取”。本发明构建了一种基于多视图的用户表征策略，用于对用户的特点进行更加全面的描述。具体是：分别构建用户行为、社交关系、微博内容三个视图对用户进行表征。本阶段针对现有方法未充分考虑用户粉丝及用户在社交网络中所处环境的不足，引入粉丝比率、粉丝平均双向连接率、基于社区的双向连接率、基于社区的集群系数等新特征。

2.多视图融合决策，用于垃圾用户识别

在本发明的第二阶段中，在集成学习思想的基础上提出了一种基于线性加权函数的多视图融合决策模型。该部分采用第一部分的输出作为各基分类器的输入，利用来自不同视图的数据分别训练出一个基分类器，然后将来自各视图的分类结果进行线性加权融合，通过最小化近似误差求得最优融合系数进而得到最终的分类结果。其中融合模型的学习方法见公式(14-17)。上述决策方法在结合不同视图信息的基础上保证了融合策略能够随着垃圾用户所用策略的变化而及时更新。

附图说明

图1是本发明的整体框架图。

图2是本发明中社交网络示意图。

图3是本发明中特征“内容标签相似度”的计算流程图。

具体实施方式

本发明实施例中以微博用户为例进行说明，通过本发明的方法对微博用户进行审计，以检测出非正常的垃圾用户。

本发明中，将微博垃圾用户检测问题看作二分类问题，设P为微博中与用户有关的信息全集，P＝P_S∪P_N，其中，P_S为微博中垃圾用户的信息集合，P_N为微博中良性用户的信息集合。设p为微博中的一条用户信息，目标函数为φ(p):p→{0,1}(p∈P)，其中，

为二分函数，

微博垃圾用户检测的过程就是检测信息p是否属于P_S。

如图1所示，本发明所提供的社交网络中基于多视图融合的用户审计方法包含三个阶段。

1.第一阶段：特征提取

该部分的流程图见图1中的“特征提取”。通过研究现有文献的观点，结合近几年垃圾用户特征的变化，选取了13个特征，其中包括6个新定义的特征(粉丝比率、粉丝平均双向连接率、基于社区的双向连接率、基于社区的集群系数、阳光信用、内容标签相似度)和7个在现有方法中广泛使用并证明有效的特征(发博间隔标准差、转发比率、双向连接率、集群系数、平均标签数、平均URL数、单一提及率)。特征集由来自三个视图(分别为用户行为视图、社交关系视图和微博内容视图(在其他非微博的社交网络中，“微博内容视图”可写作“文章内容视图”))的四类特征构成：即基于用户行为的特征、基于微博内容的特征、基于社交关系的交互特征和社区特征。

1.1基于用户行为的特征

1.1.1发博间隔标准差(MTISD)：

MTISD由公式(2)表示，其中N(u)表示观测时间内用户发布的微博数量，MBⁱ表示第i条微博发布的时刻，

表示用户在观测时间内发布微博的平均间隔。

在其他非微博的社交网络中，该特征可以称为“发文间隔标准差”。下面相同，凡是涉及到微博的地方，对于非微博的社交网络，可以对相应“微博”进行替换。

1.1.2转发比率(RR)：

衡量用户已发布的微博中转发微博所占比例的特征RR可由公式(3)表示，其中R(u)表示观测时间内用户转发微博的数量。

1.1.3阳光信用(SC)：

微博将用户“阳光信用”等级由低到高分为五个级别，本发明中将“阳光信用”等级由低到高映射为1-5的整数值。

1.2基于社交关系的特征

将社交网络中用户之间的关注和被关注关系构造成有向图G＝{V,E}，顶点集V对应用户集U，v_i∈V对应社交用户u_i∈U，边集E对应用户间的关系，e_ij∈E表示u_i是u_j的粉丝。

1.2.1粉丝比率(FR)：

FR可由公式(4)表示，其中U_F代表用户u的粉丝集合，U_L代表用户u关注的人的集合。

1.2.2双向连接率(BR)：

BR可由公式(5)表示：

1.2.3粉丝平均双向连接率(FABR)：

FABR由公式(6)表示，其中u_v代表用户u的粉丝集合中的一个用户。

其中，R(u_v)表示用户u_v在观测时间内转发微博的数量。

1.2.4集群系数(CC)：

在社交网络图中一个顶点v_i的邻域N_i被定义为N_i＝{v_j:e_ij∈E∪e_ji∈E}。假定k_i是用户在社交网络图中所对应的顶点v_i的出入度之和，则用户的集群系数CC可由公式(7)表示：

在有向图中(边是带箭头的图)，一个顶点的出度是从其出发的有向边的条数，入度是箭头指向其的有向边的条数。

1.2.5基于社区的双向连接率(CBBR)：

CBBR可由公式(8)表示，其中m表示用户所在社区的个数，如图2所示，图2中示出了两个社区C1和C2，用户D既在社区C1中，也在社区C2中。|Ci|表示第i个社区中的成员总数，BR(Ci(j))表示用户所在的第i个社区的第j个成员的BR值。

1.2.6基于社区的集群系数(CBCC)：

CBCC可由公式(9)表示，其中m为用户所在社区的个数，CC_i为第i个社区的集群系数。

1.3基于微博内容的特征

1.3.1平均标签数(AT)：

AT可由公式(10)表示，其中N(u)表示在观测时间段内用户发布微博的总数，T(u)表示所发微博中使用标签的总数。

在微博中，标签一般是通过“#”来标识。

1.3.2内容标签相似度(CTS)：

CTS可由公式(11)表示，其中MTⁱ用于衡量用户发布的第i条微博的内容与这条微博中所添加标签的相似程度，结合图3，CTS的具体计算方法如下：

Step1：提取每条微博文本中的主题标签t₁,t₂,...,t_n，n为标签数。

Step2：利用典型的概率主题模型LDA计算每条微博文本中排名前三(Top3)的3个主题词w₁、w₂、w₃及其对应的概率值p₁、p₂、p₃。

Step3：计算每条微博的内容标签相似程度

其中s_ij表示第i个主题词与第j个标签在内容上的相似度。s_ij由python语言中用于计算文本间相似度的函数包synonyms计算得到。

Step4：计算内容标签相似度

1.3.3平均URL数(AURL)：

AURL由公式(12)表示，其中U(u)表示用户在观测时间内发布的微博中使用URL链接的总数。

1.3.4单一提及率(OM)：

OM可由如公式(13)表示，其中M(u)表示在观测时间内所发微博中使用提及符(一般由@标识)的总数，O(u)表示只被提及过一次的用户的数量。OM值越接近1证明该用户为垃圾用户的嫌疑越大。

在其他非微博的社交网络中，该基于微博内容的特征可写作“基于文章内容的特征”。

本发明综合多视图信息可以提取用户的上述13个特征，这13个特征的数据汇总到一起，构成一个数据集X，X为一个矩阵，矩阵的行数即为用户数量，矩阵的列数为13，分别对应上述13个特征信息。因此，数据集X中的一行即对应一个用户的相关信息。

2.第二阶段：多视图融合决策

该步骤的流程图见图1中的“多视图融合决策模型”。

本发明所提供的多视图融合决策模型，即获取一个基于融合的分类策略，融合过程形式化为一个线性加权求和函数，参数为融合系数向量θ＝[θ₁,θ₂,θ₃]，其中θ_v表示从第v个视图得到的决策与最终决策的相关性。将数据集X分成X₁和X₂两部分，采用交叉验证的方法获取数据集X在第v个视图下的全部用户的预测值Y^(v)(v＝1,2,3)，其真实值Y⁰已知。对应每一个视图，根据数据集X可训练得到一个基分类器。本发明根据数据集X可获得三个基分类器。将来自不同视图的结果进行线性加权求和得到最终的分类结果

用于近似真实值Y⁰。通过最小化Y^p与真实值Y⁰的误差来求得最优融合系数向量θ。θ的具体求解过程如下：

定义

其中

表示第i个用户来自第v个视图的概率型预测的值。

是通过相应基分类器来获得的。定义基于融合的函数，以获取最终的分类结果：

定义带有L2正则化的最小二乘损失函数，其中

为第i个用户的真实值(

为0，表示用户为良性用户；

为1，表示用户为垃圾用户)，n为数据集X中的用户总数，λ为正则化参数。

则θ的求解问题转化为

arg_θmin L(θ) (16)

令P＝[p₁,p₂,...,p_n]∈R^n×3，

则上述优化问题可表示为

于是式(16)可转化为

用正则方程法对式(17)中的θ求解，得到最优融合系数向量θ＝(P^TP+λI)^-1P^TY⁰，其中I为恒等矩阵，λ是维持P^TP+λI可逆的折中参数。

3.第三阶段：利用第二阶段得到的基于融合的分类策略，对用户进行审计。审计前首先要提取用户的上述13个特征。

Claims

1.一种社交网络中基于多视图融合的用户审计方法，其特征是，包括三个阶段：

第一阶段：特征提取；从用户的用户行为、社交关系和文章内容这三个视图中提取13个特征，所提取的13个特征分别为：发文间隔标准差、转发比率、阳光信用、粉丝比率、双向连接率、粉丝平均双向连接率、集群系数、基于社区的双向连接率、基于社区的集群系数、平均标签数、内容标签相似度、平均URL数和单一提及率；其中，基于用户行为的特征包括发文间隔标准差、转发比率和阳光信用，基于社交关系的特征包括粉丝比率、双向连接率、粉丝平均双向连接率、集群系数、基于社区的双向连接率和基于社区的集群系数，基于文章内容的特征包括平均标签数、内容标签相似度、平均URL数和单一提及率；所提取的13个特征构成一个数据集X，数据集X是一个行数为n、列数为13的矩阵；行数n对应用户数，列数13对应13个特征；

第二阶段：多视图融合；根据数据集X针对每一视图分别训练一个基分类器，利用线性加权函数将来自每一视图的分类结果进行线性加权融合，并通过最小化近似误差求得最优融合系数，进而得到最终的分类结果；

第三阶段：利用最终的分类结果对用户进行审计，审计前首先要提取用户的13个特征；

粉丝比率由如下公式计算：