CN112084335B

CN112084335B - 一种基于信息融合的社交媒体用户账号分类方法

Info

Publication number: CN112084335B
Application number: CN202010939237.1A
Authority: CN
Inventors: 费高雷; 明杨; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-04-12
Anticipated expiration: 2040-09-09
Also published as: CN112084335A

Abstract

本发明公开了一种基于信息融合的社交媒体用户账号分类方法，包括以下步骤：S1、输入社交媒体数据；S2、从社交媒体数据中选取种子用户，获取种子用户的文本信息；S3、进行文本预处理，提取出需要的节点信息；S4、构建异质信息网络，将提取的节点信息进行融合，得到特征向量；S5、利用异质信息网络构建图卷积注意网络，对社交媒体用户账号进行分类。本发明通过构建异质信息网络将不同类型的节点信息进行融合，还原真实网络的复杂状态、丰富网络信息，找到账号与账号之间的潜在关系；并在异质信息网络的基础上，构建异质图卷积网络并增加注意力机制，得到网络中不同类型节点对于该节点的影响重要性，提高账号分类的准确性。

Description

一种基于信息融合的社交媒体用户账号分类方法

技术领域

本发明涉及一种基于信息融合的社交媒体用户账号分类方法。

背景技术

随着互联网技术的快速发展，社交媒体作为互联网时代的产物，已经成为人们生活中不可或缺的一部分，用户账号作为信息的发布者和传播者，蕴藏着大量有价值的数据信息。因此对海量账号进行有针对性地识别和分类，有利于减少传统账号管理系统构建所需的人力资源和时间成本，同时也能更全面有效地获取某个领域的实时信息和动态。

现有的账号分类技术主要由以下两种方法构成：基于机器学习的账号分类方法和基于深度学习的账号分类方法。

基于机器学习的账号分类，主要是通过有监督的学习算法，把训练的数据和分类标签作为输入传入，通过不断训练学习得到一个分类的数学模型。接着给模型输入未知的新数据，通过模型计算，输出一个分类结果。但特征工程是机器学习的主要瓶颈，特征提取的好坏直接影响到最后结果的好坏，而特征工程往往又需要专业知识领域的专家进行研究来识别出重要的特征进行标记。

Marco等人基于梯度提升树(GBDT)算法构建了一个机器学习框架，通过提取用户的属性特征、行为特征、文本特征以及社交网络特征，来对用户账号进行分类。

其中用户的属性特征主要是针对用户的用户名长度，用户名中数字和字母字符的数量等。通过实验表明，用户的属性特征可以有效地用于引导训练数据，但它们并不包含足够的信息直接用于用户分类。行为特征则是统计用户发布、转发、回复的文本数量，每条文本的平均标签和URL数量等，通过行为特征可以反应一个账号的活跃程度。文本特征是提取推文中的原型词、Hashtag、主题来进行分类。在分类任务中，可以用原型词来描述类，即特定类人群的典型词汇表达以及表示该类人群典型兴趣的短语。Hashtag与主题提取也是同样的道理。社交网络特征则是通过用户之间的社交关系来提取，比如关注、转发、回复等来进行分类。

基于深度学习的账号分类是通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示后，再用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”或“表示学习”。不同于机器学习的特征，深度学习中不需要专家设计出好特征而是依靠建立神经网络。神经网络的主要思想是模拟人的神经元，每个神经元接受到信息，处理完后传递给与之相邻的所有神经元。它会从数据中自动学习特征，减少了特征提取的成本。

Kipf提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的半监督分类方法，它是基于部分图形结构和节点特征进行运算。通过在标记节点上训练GCN，更新所有节点共享的权重矩阵，有效的将节点标签信息传播给未标记的节点，因此共享邻居的节点往往具有相似的特征表示。实验证明，即使是随机初始化的特征，也可以通过使用图结构很好地分离图中的节点。不过这种方法只适用于同质网络，即节点都是同一类型的网络，而社交网络由于其复杂性，只使用同质网络是远远不够的。

现有的账号分类方法在信息的利用上，通常只单独考虑了一种或者多种信息，比如账号的基本属性特征或文本特征，没有考虑不同信息之间的联系。同时由于社交媒体数据本身具有不准确性、不完整性、模糊性等特点，导致现有的账号分类方法无法获得准确的账号分类结果。

发明内容

本发明的目的在于克服现有技术的不足，提供一种通过构建异质信息网络将不同类型的节点信息进行融合，还原真实网络的复杂状态、丰富网络信息，找到账号与账号之间的潜在关系，提高账号分类的准确性的基于信息融合的社交媒体用户账号分类方法。

本发明的目的是通过以下技术方案来实现的：一种基于信息融合的社交媒体用户账号分类方法，包括以下步骤：

S1、输入社交媒体数据；

S2、从社交媒体数据中选取种子用户，获取种子用户的文本信息；

S3、进行文本预处理，提取出需要的节点信息；

S4、构建异质信息网络，将提取的节点信息进行融合，得到特征向量；

S5、利用异质信息网络构建图卷积注意网络，对社交媒体用户账号进行分类。

进一步地，所述步骤S2中所述的种子用户是指与本文分类任务相关的主题性较强的用户；

通过以下步骤提取种子用户：

S21、通过主题关键词，从社交媒体官网上人工筛选一部分主题特性明显的用户构成用户集A；

S22、通过用户集A的社交关系得到另一批用户集B；

S23、删除用户集B中与用户集A交集的部分，得到最终用户集C，用户集C就是从社交媒体数据中提取的种子用户。

进一步地，所述步骤S3具体实现方法为：使用自然语言处理的方法对社交媒体数据中的文本数据进行分词、去噪、词性标注和命名实体识别；具体流程为：

S31、对文本进行分词处理，通过文本中的空格、换行符、标点作为分隔符，来对文本进行分词处理，得到一个由单词组成的列表；

S32、正则匹配去噪和提取信息，提取的信息包括Hashtag信息、转发RT信息、@用户信息；其中Hashtag信息是指分词后首部带有#符号的词；转发RT信息是指分词后首部带有RT符号的词；@用户信息是指分词后首部带有@符号的词；

S33、词性标注和命名实体识别；

通过上述的预处理流程，最后得到每条文本的Hashtag列表、命名实体列表，以及用户之间的@用户关系列表和转发RT关系列表。

进一步地，所述步骤S4中构建的异质信息网络包含了三种类型的节点：

(1)用户账号节点U＝(u₁,u₂...u_w)，其中w表示用户账号的总个数；

(2)Hashtag节点G，G＝(g₁,g₂...g_x)，其中x表示Hashtag的总个数；

(3)命名实体NER节点N，N＝(n₁,n₂...n_y)，其中y表示NER的总个数；

对于用户-用户的边连接关系，通过@关系列表、转发RT关系列表以及用户的好友关系，将种子用户集里的用户进行相互连接；对于用户-Hashtag和用户-NER，本发明根据用户的文本中是否出现Hashtag与NER，来判断是否与用户账号连接，最终得到异质信息网络。

进一步地，所述步骤S4中，采取node2vec方法得到用户账号节点的特征向量u＝(k₁,k₂...k_m)，其中m表示向量的维度；采用word2vec得到每一个Hahshtag词向量g＝(i₁,i₂...i_m)和NER词向量n＝(j₁,j₂...j_m)。

进一步地，所述步骤S5包括以下子步骤：

S51、异质图卷积网络构建，对GCN网络进行改进，使其能用于异质网络；改进后网络中第l层与l+1层之间的传播规则如下：

T表示节点类型，

是

的子矩阵，它的行|V|表示所有节点个数，列|V_t|表示该节点的t类型邻居节点个数；H_t是不同节点类型的节点特征向量，W_t是不同节点类型下的权重变化矩阵，表示了输入特征与输出特征之间的关系；agg(·)表示一个聚合函数；σ(·)是激活函数；

S52、注意力机制的添加：给定一个节点v，用

表示节点v的t类型邻居节点的集合，用

表示节点v的t类型邻居节点对节点v的注意力影响分数：

其中，h_v表示节点v的特征向量，

表示节点v的t类型邻居节点的特征向量，

是在

基础上归一化后的注意力分数，f(·)表示一个单层的前馈神经网络，用于计算两个节点之间注意力分数的函数，具体如下：

其中，||表示横向连接两个特征向量，

是μ_t的转置，是神经网络中连接层与层之间的权重矩阵；

得到不同类型节点的注意力分数后，得到最终层与层之间的传播规则为：

S53、模型训练，经过L层的异质图卷积注意力网络后，得到节点的最终特征向量并通过softmax函数进行分类，具体如下：

其中C代表分类类别数，z_i表示计算得到的该节点属于i类别的概率，p_i表示softmax后该节点属于i类别的概率；得到预测结果后，通过交叉熵损失函数与梯度下降方法，来对权重矩阵W进行更新：

y_ij是节点i属于节点j类别的真实概率，p_ij是节点i属于节点j类别的预测概率，N是输入的用户账号节点个数，C是分类类别数。

本发明的有益效果是：本发明不再只是考虑单一节点信息，而是通过构建异质信息网络将不同类型的节点信息进行融合，还原真实网络的复杂状态、丰富网络信息，找到账号与账号之间的潜在关系；并在异质信息网络的基础上，构建异质图卷积网络并增加注意力机制，得到网络中不同类型节点对于该节点的影响重要性，提高账号分类的准确性。

附图说明

图1为本发明基于信息融合的社交媒体用户账号分类方法的流程图；

图2为本发明异质信息网络结构图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种基于信息融合的社交媒体用户账号分类方法，包括以下步骤：

S1、输入社交媒体数据，这份数据包含社交媒体用户账号信息以及用户发布的文本信息；

所述的种子用户是指与本文分类任务相关的主题性较强的用户。由于社交网络中存在着海量的用户账号，如果随机选取用户账号进行构建网络，则容易出现网络稀疏性问题。种子用户选取可以使构建的异质信息网络更加稠密，从而提升用户特征提取的效果。

通过以下步骤提取种子用户：

S22、通过用户集A的社交关系，如好友关系、转发关系、@关系等来得到另一批用户集B；

S23、删除用户集B中与用户集A交集的部分，得到最终用户集C；之所以要删除用户集A与用户集B交集的部分是因为本发明是通过用户集A来得到的用户集B，用户集A与网络中某些用户的连接关系是必然的，如果不删除则可能导致本发明的模型泛化能力不够强。用户集C就是从社交媒体数据中提取的种子用户，用种子用户构建的异质信息网络解决了网络稀疏性和正负样本失衡的问题。同时这种网络包含的潜在属性信息价值更高，有利于本发明账号的分类。

S3、进行文本预处理，提取出需要的节点信息；

文本预处理是指使用自然语言处理的方法对社交媒体数据中的文本数据进行分词、去噪、词性标注和命名实体识别。由于文本中既有很多有用的信息，比如本发明需要的实体信息，又存在着许多表达不规范的地方，因此需要对文本进行一个预处理。这里的文本是指步骤S23得到的种子用户集C中提取的每个用户发布的最新的多条文本信息(一般为200条)。

具体流程为：

S32、正则匹配去噪和提取信息，由于列表中的单词存在着许多噪声信息，比如表情符号、停止词等，需要通过正则匹配来移除这些噪声信息。同时，还需要通过正则匹配提取Hashtag信息、转发RT信息、@用户信息，便于后续异质信息网络的构建。其中Hashtag信息是指分词后首部带有#符号的词，比如#China；转发RT信息是指分词后首部带有RT符号的词，比如RT@taw_lan，一般在文本的首部，表示转发taw_lan这名用户的文本；@用户信息是指分词后首部带有@符号的词，比如@Kahraman；

S33、词性标注和命名实体识别；命名实体(Named Entity Recognition，NER)是指具有特殊意义的单词，比如人名(PER)、机构名(ORG)、地名(LOC)，通过识别命名实体可以简单了解一条文本所包含的主要信息。命名实体通常是名词，并且命名实体的前后通常是动词或者介词，因此需要在词性标注的基础上对命名实体进行识别。

社交媒体信息具有复杂性和多样性的特点，而传统的账号分类方法只能利用其中的一个或几个信息特点，忽略了不同信息之间的隐藏联系。因此本发明将通过构建异质信息网络来融合不同信息解决这个问题。

为了提高账号分类的准确性，本发明构建的异质信息网络如图2所示，主要包含了三种类型的节点：

(1)用户账号节点U＝(u₁,u₂...u_w)，其中w表示用户账号的总个数；因为本发明是对用户账号进行分类，所以用户账号节点是必须的，图2中间一列为用户账号；

(2)Hashtag节点G，G＝(g₁,g₂...g_x)，其中x表示Hashtag的总个数；Hashtag通常表示文本的一个话题，可以概述文本的内容。如果多个用户同时提到了相同的Hashtag，那么可以认为这些用户对某一事件都很感兴趣，从侧面反应了这部分用户在兴趣上的相似性，图2左侧一列为Hashtag节点。

(3)命名实体NER节点N，N＝(n₁,n₂...n_y)，其中y表示NER的总个数；由于文本具有稀疏性，因此本发明没有直接使用用户所发文本作为异质节点，而是通过提取文本中的命名实体作为节点。可以从NER中得知时间、地点、人物的事件描述三元素信息，从而简单了解一条文本所包含的主要信息，图2右侧一列为命名实体NER节点。

为了将异质网络嵌入到后续的异质图卷积注意网络中，本发明需要针对异质网络中的每种节点信息的不同特点来提取不同的特征。

对于用户账号节点，仅基于单一的用户交互关系来构建的网络不足以充分地表征用户之间潜在的关系属性特征，因此，本发明将基于多种用户交互关系来提取异质信息网络节点特征。

本发明基于用户-用户的边连接网络，采取node2vec方法得到用户账号节点的特征向量。node2vec方法是通过随机游走采样得到节点的组合，它把随机游走采样得到的节点序列看作一个句子，用处理词向量的方法对这样的序列建模从而得到网络节点的向量表示。随机游走采样主要有两种方式，一种是基于广度优先搜索(Breadth-first Sampling，BFS)，一种是基于深度优先搜索(Depth-first Sampling，DFS)。BFS主要在节点的周围游走，周围的节点因为有类似的属性所以连接在一起，可以看作是一个聚类，反映了节点的同质性；DFS可以找到有潜在联系的节点，这些节点之间未必直接相连，却有相似的结构特征，很可能也是同一类节点，反映了节点的同构性。node2vec就是综合了BFS和DFS两种随机游走方式，既考虑同质性又考虑了同构性。通过node2vec可以找到用户节点之间潜在的信息，最终得到用户账号的特征向量u＝(k₁,k₂...k_m)，其中m表示向量的维度。

对于Hashtag和NER节点，由于文本的稀疏性，会得到大量不同的Hashtag和NER，若采用one-hot的编码方式，即向量的每一维表示一个词语，则会忽略词与词之间的顺序并破坏词与词之间的相互影响关系，最终得到一个离散稀疏的特征。因此本发明采用word2vec来得到每个词语的特征向量。word2vec可以将每个词语映射到一个词向量中，而词向量又具有良好的语义特性，每一维的值代表一个具有一定的语义和语法上解释的特征。两个意思相近的词语，通过word2vec映射后的词向量在空间距离上也相近。本发明主要使用Python实现的gensim模块中的word2vec工具学习词向量，是使用Skip-gram模型实现，通过中间词来预测上下文的词语。每一个Hahshtag词向量表示为g＝(i₁,i₂...i_m)，NER词向量表示为n＝(j₁,j₂...j_m)。Hashtag和NER通过使用word2vec的特征向量，可以更好地从侧面体现用户的语义特性。

在上述异质信息网络的基础上，本发明利用异质信息网络构建图卷积注意网络来实现账号分类。图卷积网络GCN是一个根据邻居节点属性来推导当前节点的特征向量的多层神经网络。对于图G＝(V,E)，V代表节点集，E代表边集。X∈R^|V|×m表示所有输入节点的特征向量矩阵，m是每个节点的特征向量维度。GCN中层与层之间的传播规则如下：

其中，σ(·)是激活函数，

是归一化后的邻接矩阵，保证每个元素的取值都在(0,1)之间，

的求法如下：

是包含自连接的邻居矩阵，由于邻接矩阵A的对角线上都是0，所以在和特征矩阵H相乘的时候，只会计算这个节点的所有邻居特征的加权和，而忽略该节点自身的特征。给A加上一个单位矩阵I，可以让信息在进行传播的时候保留节点自身的特征信息。D是度矩阵(degree matrix)，是一个对角矩阵，对角线上的元素值即为该节点的度

H^(l)是第l层的节点的特征向量，H⁽⁰⁾＝X。W^(l)是通过训练得到的权重变化矩阵。

本步骤具体包括以下子步骤：

S51、异质图卷积网络构建，由于GCN网络只适用于同质节点，而本发明中却有三种不同类型的节点：用户账号、Hashtag、NER。为了充分地利用节点信息，本发明需要对GCN网络进行改进，使其能用于异质网络；改进后网络中第l层与l+1层之间的传播规则如下：

T表示节点类型，

是

的子矩阵，它的行|V|表示所有节点个数，列|V_t|表示该节点的t类型邻居节点个数；H_t是不同节点类型的节点特征向量，W_t是不同节点类型下的权重变化矩阵，表示了输入特征与输出特征之间的关系；agg(·)表示一个聚合函数，可以是相加也可以是求均值。本发明定义在最后一层的时候求平均值，其余层则是相加。在改进后的网络中进行信息传输时，充分利用了不同类型的节点信息，并将不同类型节点的特征融合后传输给了下一层。

S52、注意力机制的添加；

GCN网络还有一个缺点：它分配给每个邻居节点的权重是一样的，即所有邻居节点对该节点的影响是一样大。但实际上，不同的邻居节点会产生不同的影响大小，比如说同种类型的节点可能会带来更多的有用信息，那它的影响权重就应该大一些。因此，在第一步的基础上，本发明提出了添加注意力机制，了解不同类型邻居节点对当前节点的影响。

首先，需要得到不同类型节点的权重。给定一个节点v，用