CN110457404A

CN110457404A - 基于复杂异质网络的社交媒体账户分类方法

Info

Publication number: CN110457404A
Application number: CN201910763852.9A
Authority: CN
Inventors: 费高雷; 于娟娟; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-15
Anticipated expiration: 2039-08-19
Also published as: CN110457404B

Abstract

本发明公开了一种基于复杂异质网络的社交媒体账户分类方法，属于账户分类技术领域。本发明通过提取多种用户关系来构建多个用户关系网络，以及提取用户所发送的部分实体来构建实体网络，将多个用户关系网络以及实体网络相连得到复杂异质网络，在复杂异质网络中充分的考虑了用户‑用户之间的关系、用户‑实体之间的关系以及网络中潜在的社团关系，从而可以更全面的挖掘有效特征来表征用户，能够适应多种类型的账户分类需求，提高在少量标记样本的情况下的账户分类准确率。

Description

基于复杂异质网络的社交媒体账户分类方法

技术领域

本发明属于账户分类技术领域，具体涉及一种基于复杂异质网络的社交媒体账户分类方法。

背景技术

近年来，Twitter、Facebook、微博等社交媒体的快速发展为人们获取新闻、事件等信息带来了巨大的便利，成为了人们从事网络活动的重要工具。人们在社交网络中的活动需以账号为依托，通过账号获取信息、发表言论、沟通交友，因此社交网络账号及相关数据包含了大量有价值的信息，这些信息对社交网络的控制、管理和优化发挥了十分重要的作用。但由于目前社交媒体的接入门槛很低，导致其中存在大量的垃圾、虚假、恶意账号，这些账户的存在不仅干扰了普通用户的使用体验，其所散播的恶意、虚假信息也极大阻碍了的社会的发展及稳定。因此，通过有效的账户分类方法，可以更全面的找出这些垃圾、虚假和传播恶意信息的恶意账户等无价值账户，从而达到净化社交网络环境，保障其他用户安全的目的。

现有账户分类技术的实现方法主要可分为2大类：(1)基于文本层面的账户分类方法研究，(2)基于用户关系的账户分类方法研究。基于文本层面的账户分类方法需要依据账户所发短文本的主题分类结果来对账户进行分类，而基于用户关系的账户分类方法则是通过账户和其某种关系下的邻居节点的连接情况以及邻居节点的主题分布情况来对目标账户进行分类。基于文本层面的账户分类技术通常需要采集并处理大量文本信息，来进行文本结构信息、主题信息、语义信息的提取，并将其作为表征账户的特征来构建账户分类器。但是该方法严重的依赖于短文本信息，如果一个用户所发短文本的数量为零，或者待分类用户所发短文本的语言不相同的话，那么基于文本的账户分类方法将不适用于多元化的社交媒体用户的分类。而基于用户关系的账户分类技术将不考虑用户所发布的文本信息，而是仅仅基于用户关系来进行网络的构建，基于构建过后的网络来进行特征的提取以及用户的有效分类，该方法不仅可以同时处理使用多语言的用户，还能有效的挖掘用户潜在的本质属性信息。

目前，所采用的大部分网络分析方法大都基于同质信息网络的构建，而同质网络的建模方法通常只是提取了实际交互网络中的部分信息，不能有效的区分交互网络中用户之间的真正的联系与差异。而通过对用户关系进行异质网络的建模，综合考虑用户属性、关系、网络行为等多种信息，能够更全面描述账户用户各种类型信息之间的复杂关系，从而更完整的对社交网络数据进行深入的挖掘。所谓的异质网络就是网络中同时包含多种类型的节点以及多种类型的连接关系，而目前，我们可以从社交网络中提取得到的用户关系有：关注和被关注关系、转发关系、回复关系、@关系、#hashtag共现等6种关系。因此，相比于构建基于单个用户关系的异质网络，通过构建基于多个用户关系的异质网络可以更好的来实现用户的有效分类。

现有的账户分类方法主要可分为基于文本层面的账户分类方法和基于用户关系的账户分类方法。

基于文本层面的方法通常基于账户的背景信息或者账户所发布的文本内容进行特征提取，进而对账户进行识别。通常情况下，非价值账户会发布大量的恶意信息、骚扰信息、虚假信息，其发布的文本中会出现大量的#hashtag、@mentions以及重复的url，并且该类账号的关注者数量多于被关注者的可能性非常大。因此通过统计文本中出现的url比例、@mentions比例、#hashtag比例、关键词特征、以及用户的粉丝数与好友数的比例等作为特征，并采用传统的机器学习算法来训练分类模型从而对账户进行分类。不足的是，这种方法只能对使用英文的账户进行处理，并且大部分非价值账户很容易通过常用语替换和掩饰来逃避检测，因此，仅仅基于文本层间的分类方法还不足以达到较高的分类准确率。

基于用户关系的账户分类方法通过提取用户好友、交互等关系提取特征进行目标账户识别。文献一是针对雅虎平台上的用户进行兴趣定位以及好友推荐，从而构建一种用户-兴趣异质关系网络，通过根据用户之间的好友关系以及提取相应用户的兴趣列表来构建网络。在构建好的网络中，通过提取用户-用户关系特征以及用户-兴趣关系特征来表征网络中的每个节点来预测用户可能的兴趣以及用户之间潜在的好友关系，从而实现了为雅虎平台上的用户进行好友推荐以及兴趣推荐。而在文献二中，作者提到，目前可从社交媒体中提取得到的6种用户关系，分别是：RT转发关系、@提及关系、reply回复关系、#hashtag共现关系以及关注和被关注关系。通过分别将该6种关系构建成用户6个独立的用户关系网络并提取网络中每个用户节点所发的条短文本，在表征每个用户节点时，不仅使用了用户自身的条短文本信息，还使用了与其相连的个邻居节点条短文本信息，从而可以更加准确的对社交媒体用户实现共和党和民主党的二分类操作。

上述方法没有充分利用网络中的一些复杂关系，仅仅基于局部邻居关系来进行特征提取，而没有考虑从全局的角度来发现某些用户之间的相似性特征。另外，目前的大多基于用户关系的方法通常都是基于单异质网络来对用户进行表征，没有综合考虑多个异质网络之间所存在的潜在的关系特征。

发明内容

本发明的主要目的在于提供一种基于复杂异质网络的社交媒体账户分类方法，旨在解决既有方法中存在的以上技术问题。

为实现上述目的，本发明提供一种基于复杂异质网络的社交媒体账户分类方法，包括以下步骤：

S1、根据用户与用户之间的关系网络及用户与实体之间的关系网络构建复杂异质网络；

S2、基于构建的复杂异质网络提取用户-用户关系特征、用户-实体关系特征、潜在社团关系特征；

S3、将步骤S2提取的所有特征表征为特征向量，采用机器学习算法训练分类模型，并利用训练的分类模型对用户进行分类。

进一步地，所述用户与用户之间的关系网络的获取方法为：

首先人工选择一部分种子账户集A，然后分别基于@提及关系、RT转发关系、关注/被关注关系以广度优先搜索策略来获取账户集B，并将账户集B中去掉账户集A中所包含的种子账户，再通过对账户集B中的用户获取与该用户具有@提及关系、RT转发关系、关注/被关注关系的所有账户得到账户集C，通过使用账户集B到账户集C的映射关系来对账户集B中的用户节点进行相应网络关系连接，得到用户与用户之间的关系网络。

进一步地，所述用户与实体之间的关系网络的获取方法为：

选取每个用户所发布的短文本中出现的#hashtag、reply、url作为网络中的异质节点，确定用户基于异质节点建立的关系网络，得到用户与实体之间的关系网络。

进一步地，所述提取用户-用户关系特征具体为：

随机选择网络中少量节点进行标记，根据网络中用户节点的出度邻居节点的标记情况计算用户节点的RS分数，表示为

其中，p₀为观测概率，c为常数，n为标记的邻居节点数，λ为超参数；

根据每个用户节点的入度邻居节点的RS分数的分布情况来将该用户节点的用户-用户关系特征表征为一个k维的特征向量。

进一步地，所述提取用户-实体关系特征具体为：

根据每个实体的邻居节点的标记情况计算实体的RS分数，表示为

根据一个用户节点连接的所有实体的RS分数的分布情况将该用户节点的用户-实体关系特征表征为一个k维向量。

进一步地，所述提取潜在社团关系特征具体为：

设定一个用户节点为起始节点，根据上一节点到下一节点的概率构建随机游走采样序列，表示为

其中，v表示行走中的第i个节点，n_i表示行走中的第i个节点序号，x表示将要移动到的第i+1个节点，n_i+1表示将要移动到的下一节点序号，π_vx为转移概率，π_vx＝α_pq(t,x)·ω_vx，α_pq(t,x)为转移子概率，p,q为采样控制参数，t表示第i-1个节点，d_tx表示节点t到节点x之间的距离，ω_vx为权重，Z为归一化常数，E为网络图中所有边构成的集合；

依次以网络中每个节点作为起始点，通过采样得到N个不同的游走采样序列作为训练集，然后采用word2vec中的skim-gram模型来进行节点嵌入向量学习，将每个节点表示成一个d维连续特征向量。

进一步地，所述将步骤S2提取的所有特征表征为特征向量具体为：

根据步骤S2分别提取的每个用户在@提及用户关系网络、RT转发用户关系网络、关注/被关注用户关系网络中的用户-用户关系特征UUR₁,UUR₂,UUR₃、用户-实体关系特征UER及潜在社团关系特征LC₁,LC₂,LC₃，融合从多个用户关系网络中提取得到的特征，并将网络中每个用户节点表征成特征向量形式，即user_i＝＜UER,UUR₁,UUR₂,UUR₃,LC₁,LC₂,LC₃＞。

进一步地，所述采用机器学习算法训练分类模型具体为：

选取部分已标记的用户作为初始训练集，根据特征向量化处理后的网络中每个用户节点，采用GBDT机器学习算法进行初始分类模型训练，并使用训练后的分类模型对网络中未标记用户进行预测，根据预测结果对每个用户进行置信度排序，将置信度较高的一部分用户添加到初始训练集中构建得到一个新的训练集，再基新的训练集重新对用户节点进行特征提取以及分类模型训练，直到满足停止条件为止。

进一步地，所述停止条件表示为：

其中，ε为停止条件，X为上一次迭代过程中预测为正例的结果，Y为本次迭代过程中预测为正例的结果。

本发明具有以下有益效果：

(1)本发明能够在少量标记样本的情况下就能实现较高的账户分类准确率；

(2)本发明可同时处理多种语言的账户，而且分类性能不会因用户所使用语言不同而有所差异；

(3)本发明对于那些受保护的用，同样可以对该类用户实现有效的分类。

附图说明

图1是本发明的基于复杂异质网络的社交媒体账户分类方法流程示意图；

图2是本发明中基于单一用户关系的关系网络生成流程图；

图3是本发明中复杂异质网络关系示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

现有的账户分类方法大都单方面的考虑账户的文本特性或者网络特性，忽略了网络关系中邻居节点的重要性，这将导致挖掘到的账户属性信息不够全面，不足以更加全面、有区分性地表征一个账户。另外，现有方法大都只能处理语言统一的用户群体，而不能同时处理多种语言账户。

为了解决上述问题，本发明提出了一种针对社交媒体中的垃圾账户、虚假账户、以及传播不良信息的恶意账户等无价值账户进行有效的账户分类的社交媒体账户分类方法，该方法中未使用文本信息，而是通过提取多种用户关系来构建多个用户关系网络，以及提取用户所发送的部分实体来构建实体网络，将多个用户关系网络以及实体网络相连得到复杂异质网络。在复杂异质网络中充分的考虑了用户-用户之间的关系、用户-实体之间的关系以及网络中潜在的社团关系，从而可以更全面的挖掘有效特征来表征用户。

本发明实施例的主要解决方案为：

如图1所示，一种基于复杂异质网络的社交媒体账户分类方法，包括以下步骤：

本发明提供了完整的基于复杂异质网络社交媒体账户分类技术解决方案，主要涉及异质网络的构建、基于复杂网络的特征提取、模型的训练以及未标记用户预测三方面内容。在异质网络的构建过程中，对于给定的用户，利用用户之间的@提及关系、RT转发关系、关注\被关注关系在内的三种用户关系分别构建得到一个用户关系网络；然后提取网络中用户所发布短文本中提到的#hashtag、reply、url作为构建实体网络的节点，将三个用户关系网络分别与实体网络进行连接构建得到一个复杂异质网络；基于构建好的复杂异质网络，对其进行用户-用户关系特征、用户-实体关系特征以及潜在的社团关系特征提取并对三者进行融合，从而将网络中每个节点表征成一个特征向量的形式；最后，通过使用机器学习算法以及由部分标记用户构建的训练集来训练一个模型，从而可利用训练好的模型来对网络中的未标记用户进行分类

在本发明的一个可选实施例中，上述步骤S1涉及的社交媒体用户关系有6种，分别是：RT转发关系、@提及关系、follower被关注关系、following关注关系、reply回复关系、#hashtag共现关系。

考虑到仅仅基于单一的用户关系不足以挖掘出用户之间潜在的关系属性特征，因此本发明从多角度的用户关系来构建多个用户关系网络。

在用户与用户之间的关系网络构建的过程中，本发明通过分别构建@提及关系网络、RT转发关系网络、关注/被关注关系网络来实现用户与用户之间关系网络的构建，具体为：

首先人工选择一部分种子账户集A，然后分别基于@提及关系、RT转发关系、关注/被关注关系以广度优先搜索策略来获取账户集B，并将账户集B中去掉A中所包含的种子账户，再通过对账户集B中的用户获取与该用户具有@提及关系、RT转发关系、关注/被关注关系的所有账户得到账户集C，通过使用账户集B到账户集C的映射关系R2来对账户集B中的用户节点进行相应网络关系连接，从而分别得到3种关系下的用户关系网络图。

在异质节点的选择上，本发明没有直接使用用户所发短文本作为异质节点，而是通过抽取每个用户所发送的最新200条短文本中出现的#hashtag、reply、url三种实体来作为网络中的异质节点，因为对于使用不同语言的短文本来说，它们所使用的#hashtag、url以及reply的对象都是一致的，不存在语言上的差别。

如果多个用户同时提到了形同的#hashtag，那么可以认为这些用户很可能对某一事件都很感兴趣，从侧面也反应了这部分用户在兴趣上具有相似性。Reply则表示一条短文本被哪些用户所回复了，若用户A所发布的短文本被用户B所回复了，那说明用户B是密切关注用户A的，并且对用户A的言论感兴趣，同时用户A和用户B很可能认识的好友关系。因此，本发明分别提取了网络中所有用户所发布200条短文本中被回复了的那些reply用户名，若多个用户被同一个用户回复，那说明这多个用户之间存在某种潜在的好友关系。由于短文本存在字数限制，导致很多用户都是在短文本中直接附上链接用来描述其想表达具体内容。因此，若某两个用户所发url相同，则说明其两者之间存在共同的关注点，则两个用户很有可能属于同一社团。

在用户与实体之间的关系网络构建的过程中，本发明通过选取每个用户所发布的短文本中出现的#hashtag、reply、url作为网络中的异质节点，确定用户基于异质节点建立的关系网络，从而得到用户与实体之间的关系网络。

基于上述处理，本发明将构建得到的三种用户关系网络与实体关系网络进行连接得到一个复杂的异质网络结果。

本发明通过采用多种用户关系构建用户关系网络图，并且在构建实体网络过程中使用#hashtag、reply、url构建实体关系网络，融合用户的多个关系网络和实体网络，能够获得对用户相关信息的全面描述。

在本发明的一个可选实施例中，针对步骤S1构建的复杂异质网络，其目在于对网络中的用户节点进行分类，其中的实体节点是用于提供辅助信息而存在的，因此本发明只对网络中的用户节点进行特征提取并表征。

本发明针对每个用户，分别提取以下三种特征：用户-用户关系特征、用户-实体关系特征、潜在的社团关系特征。其中，用户-用户关系特征主要是用来表征异质网络中一个节点的邻居节点对该节点的影响，根据邻居节点的分布情况来对该节点进行表征；用户-实体关系特征是通过挖掘异质网络中用户潜在的兴趣属性来进行用户节点的表征；潜在的社团关系特征是通过使用图嵌入算法中的node2vec算法来对异质网络中的边进行聚类分析，从而得到每个节点潜在的社团属性特征。在进行用户-用户关系特征、用户-实体关系特征进行提取的过程中，需要先计算每个用户与正例的相关系数(Relation Score，RS分数)，而计算RS分数需要少量的标记数据，因此，在进行特征提取前，首先需要随机选择网络中少量节点进行标记。

(1)提取用户-用户关系特征(User-Relation features，UUR)

RS分数，该分数可以有效的度量每个节点属于正例的概率，其中RS分数越接近于1，说明该节点是正例的可能性越高，否则，该节点越有可能是反例节点。对于有向网络中的账户结点进行RS分数计算时，通常使用其出度邻居节点的标记情况来计算。在计算RS分数过程中最直观的就是根据标记的邻居节点中正例样本所占的比例来作为该节点的RS分数，然而在实际应用中，通常只有少量的标记节点，这将导致每个节点的标记邻居节点数非常少。在这种情况下，简单的使用正样本所占比例来表示RS分数是不合适的。

为了适应标记样本很少，且又能有效的表示节点RS分数，本发明采用概率计算方法来计算得到RS分数。设定观测概率为p₀(即标记的邻居节点中正例样本所占的比例)，并使用拉普拉斯平滑技术来避免p₀＝0，在原始概率的基础上添加常数c，c通常取值为0.5，n为标记的邻居节点数，λ为超参数，则RS分数的计算公式具体为：

根据上述RS分数的计算公式，可对异质网络中所有的用户节点进行RS分数计算，并且本发明中构建得到的三个网络均是有向网络，因此可以使用每个用户节点的出度标记邻居节点进行RS分数的计算，然后根据每个用户节点的入度邻居节点的RS分数的分布情况来将该用户节点的UUR特征表征为一个k维的特征向量，即统计每个入度邻居节点的RS分数落在的个数。

(2)提取用户-实体关系特征(User-Entity-Relation features，UER)

对异质网络中的实体进行RS分数计算时，每个实体的邻居节点就认为是其所连接的所有用户，根据这些用户的标记情况，可计算得到所有实体的RS分数，计算公式与上述公式相同，这里不再赘述。

本发明根据一个用户节点连接的所有实体的RS分数的分布情况将该用户节点的用户-实体关系特征表征为一个k维向量。

(3)提取潜在的社团特征(Latent Community features，LC)

仅仅使用UUR特征UER特征还不足以挖掘异质网络中相隔较远的两个节点之间潜在的连接关系，因此，本发明将介绍使用图嵌入算法node2vec来进行潜在社团信息的提取。Node2vec主要思想就是把一张图当成一个文本，把图中的节点当成文本中的一个单词，通过使用两个参数和来控制BFS和DFS从而实现对图中的节点进行采样，其中BFS是为了得到节点的同质信息，而DFS是为了得到节点的同构信息。

设定一个起始节点n₀＝u，构建一条长度为l的随机游走采样序列，n_i＝v表示行走中的第i个节点，n_i+1＝x表示将要移动到的下一个节点，根据节点n_i到节点n_i+1的概率来决定下一个节点，表示为

π_vx＝α_pq(t,x)·ω_vx

其中，v表示行走中的第i个节点，n_i表示行走中的第i个节点序号，x表示将要移动到的第i+1个节点，n_i+1表示将要移动到的下一节点序号，π_vx为转移概率，π_vx＝α_pq(t,x)·ω_vx，其计算结果依赖于α_pq(t,x)和权重ω_vx，α_pq(t,x)为在参数p和q以及上一节点n_i-1＝t到下一节点n_i+1＝x之间的距离为前提计算得到的转移子概率，p,q为采样控制参数，t表示第i-1个节点，d_tx表示节点t到节点x之间的距离，如果节点t到节点x之间有连边，这说明节点t到节点x之间的距离为1，即d_tx＝1，若两个节点之间没有连边，则判断两个节点是否可以通过中间的节点v进行连接，即如果节点t与节点v之间有边连接，且节点v到节点x之间有边连接，那么节点t到节点x之间之间的距离为2，即d_tx＝2。如果第i+1个节点是t自身的话，因为是随机游走，所有可能又回到了自己本身，即t＝x，那么此时的d_tx＝0，ω_vx为权重，Z为归一化常数，其目的是得到计算得到的p取值范围为0-1，E为网络图中所有边构成的集合，(v,x)∈E表示节点v与节点x之间存在一条边。

本发明依次以网络中每个节点作为起始点，通过采样可得到N个不同的实际游走采样序列作为训练集，然后采用word2vec中的skim-gram模型来进行节点嵌入向量的学习，从而达到将每个节点表示成一个d维连续特征向量(LC特征)的形式；该特征向量能够学习到网络中潜在的社团关系，从而丰富文本的表征。

本发明在构建好的复杂异质网络中，分别提取三种用户关系网络中的用户-用户关系特征、用户-实体关系特征、以及基于图嵌入算法node2vec得到的潜在社团特征，将提取得到的所有特征进行融合，从而实现全方面的描述每个用户的属性信息。

在本发明的一个可选实施例中，本发明所构建的复杂异质网络包括@提及用户关系网络(网络1)、RT转发用户关系网络(网络2)、关注/被关注用户关系网络(网络3)，通过使用特征提取方法分别提取每个用户在三个用户关系网络中的用户-用户关系特征UUR₁,UUR₂,UUR₃，以及每个用户在三个网络潜在社团关系特征LC₁,LC₂,LC₃，因为每个用户关系网络中的节点都是一样的，从而每个网络的URE特征相等，即UER₁＝URE₂＝URE₃，所以我们只需要提取一次用户-实体关系特征(URE特征)即可。

上述步骤S3融合从多个用户关系网络中提取得到的特征，并将网络中每个用户节点表征成特征向量形式，即user_i＝＜UER,UUR₁,UUR₂,UUR₃,LC₁,LC₂,LC₃＞。

在对网络中用户进行分类的过程中，本发明通过使用迭代的思想依次更新训练集来重新训练模型以及用户分类，直到达到停止条件ε为止，停止条件ε表示为：

本发明采用机器学习算法训练分类模型具体为：

选取部分已标记的用户作为初始训练集，根据特征向量化处理后的网络中每个用户节点，采用GBDT机器学习算法进行初始分类模型训练，并使用训练后的分类模型对网络中未标记用户进行预测，根据预测结果对每个用户进行置信度排序，将置信度较高的前m个用户添加到初始训练集中构建得到一个新的训练集，再基新的训练集重新对用户节点进行特征提取以及分类模型训练，迭代过程直到停止条件ε不再增加为止。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于复杂异质网络的社交媒体账户分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述用户与用户之间的关系网络的获取方法为：

3.如权利要求2所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述用户与实体之间的关系网络的获取方法为：

4.如权利要求3所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述提取用户-用户关系特征具体为：

5.如权利要求4所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述提取用户-实体关系特征具体为：

6.如权利要求5所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述提取潜在社团关系特征具体为：

7.如权利要求6所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述将步骤S2提取的所有特征表征为特征向量具体为：

8.如权利要求7所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述采用机器学习算法训练分类模型具体为：

9.如权利要求8所述的基于复杂异质网络的社交媒体账户分类方法，其特征在于，所述停止条件表示为：