CN112084335B - 一种基于信息融合的社交媒体用户账号分类方法 - Google Patents

一种基于信息融合的社交媒体用户账号分类方法 Download PDF

Info

Publication number
CN112084335B
CN112084335B CN202010939237.1A CN202010939237A CN112084335B CN 112084335 B CN112084335 B CN 112084335B CN 202010939237 A CN202010939237 A CN 202010939237A CN 112084335 B CN112084335 B CN 112084335B
Authority
CN
China
Prior art keywords
node
user
information
network
social media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010939237.1A
Other languages
English (en)
Other versions
CN112084335A (zh
Inventor
费高雷
明杨
胡光岷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010939237.1A priority Critical patent/CN112084335B/zh
Publication of CN112084335A publication Critical patent/CN112084335A/zh
Application granted granted Critical
Publication of CN112084335B publication Critical patent/CN112084335B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息融合的社交媒体用户账号分类方法,包括以下步骤:S1、输入社交媒体数据;S2、从社交媒体数据中选取种子用户,获取种子用户的文本信息;S3、进行文本预处理,提取出需要的节点信息;S4、构建异质信息网络,将提取的节点信息进行融合,得到特征向量;S5、利用异质信息网络构建图卷积注意网络,对社交媒体用户账号进行分类。本发明通过构建异质信息网络将不同类型的节点信息进行融合,还原真实网络的复杂状态、丰富网络信息,找到账号与账号之间的潜在关系;并在异质信息网络的基础上,构建异质图卷积网络并增加注意力机制,得到网络中不同类型节点对于该节点的影响重要性,提高账号分类的准确性。

Description

一种基于信息融合的社交媒体用户账号分类方法
技术领域
本发明涉及一种基于信息融合的社交媒体用户账号分类方法。
背景技术
随着互联网技术的快速发展,社交媒体作为互联网时代的产物,已经成为人们生活中不可或缺的一部分,用户账号作为信息的发布者和传播者,蕴藏着大量有价值的数据信息。因此对海量账号进行有针对性地识别和分类,有利于减少传统账号管理系统构建所需的人力资源和时间成本,同时也能更全面有效地获取某个领域的实时信息和动态。
现有的账号分类技术主要由以下两种方法构成:基于机器学习的账号分类方法和基于深度学习的账号分类方法。
基于机器学习的账号分类,主要是通过有监督的学习算法,把训练的数据和分类标签作为输入传入,通过不断训练学习得到一个分类的数学模型。接着给模型输入未知的新数据,通过模型计算,输出一个分类结果。但特征工程是机器学习的主要瓶颈,特征提取的好坏直接影响到最后结果的好坏,而特征工程往往又需要专业知识领域的专家进行研究来识别出重要的特征进行标记。
Marco等人基于梯度提升树(GBDT)算法构建了一个机器学习框架,通过提取用户的属性特征、行为特征、文本特征以及社交网络特征,来对用户账号进行分类。
其中用户的属性特征主要是针对用户的用户名长度,用户名中数字和字母字符的数量等。通过实验表明,用户的属性特征可以有效地用于引导训练数据,但它们并不包含足够的信息直接用于用户分类。行为特征则是统计用户发布、转发、回复的文本数量,每条文本的平均标签和URL数量等,通过行为特征可以反应一个账号的活跃程度。文本特征是提取推文中的原型词、Hashtag、主题来进行分类。在分类任务中,可以用原型词来描述类,即特定类人群的典型词汇表达以及表示该类人群典型兴趣的短语。Hashtag与主题提取也是同样的道理。社交网络特征则是通过用户之间的社交关系来提取,比如关注、转发、回复等来进行分类。
基于深度学习的账号分类是通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,再用“简单模型”即可完成复杂的分类等学习任务。由此可将深度学习理解为进行“特征学习”或“表示学习”。不同于机器学习的特征,深度学习中不需要专家设计出好特征而是依靠建立神经网络。神经网络的主要思想是模拟人的神经元,每个神经元接受到信息,处理完后传递给与之相邻的所有神经元。它会从数据中自动学习特征,减少了特征提取的成本。
Kipf提出一种基于图卷积神经网络(Graph Convolutional Network,GCN)的半监督分类方法,它是基于部分图形结构和节点特征进行运算。通过在标记节点上训练GCN,更新所有节点共享的权重矩阵,有效的将节点标签信息传播给未标记的节点,因此共享邻居的节点往往具有相似的特征表示。实验证明,即使是随机初始化的特征,也可以通过使用图结构很好地分离图中的节点。不过这种方法只适用于同质网络,即节点都是同一类型的网络,而社交网络由于其复杂性,只使用同质网络是远远不够的。
现有的账号分类方法在信息的利用上,通常只单独考虑了一种或者多种信息,比如账号的基本属性特征或文本特征,没有考虑不同信息之间的联系。同时由于社交媒体数据本身具有不准确性、不完整性、模糊性等特点,导致现有的账号分类方法无法获得准确的账号分类结果。
发明内容
本发明的目的在于克服现有技术的不足,提供一种通过构建异质信息网络将不同类型的节点信息进行融合,还原真实网络的复杂状态、丰富网络信息,找到账号与账号之间的潜在关系,提高账号分类的准确性的基于信息融合的社交媒体用户账号分类方法。
本发明的目的是通过以下技术方案来实现的:一种基于信息融合的社交媒体用户账号分类方法,包括以下步骤:
S1、输入社交媒体数据;
S2、从社交媒体数据中选取种子用户,获取种子用户的文本信息;
S3、进行文本预处理,提取出需要的节点信息;
S4、构建异质信息网络,将提取的节点信息进行融合,得到特征向量;
S5、利用异质信息网络构建图卷积注意网络,对社交媒体用户账号进行分类。
进一步地,所述步骤S2中所述的种子用户是指与本文分类任务相关的主题性较强的用户;
通过以下步骤提取种子用户:
S21、通过主题关键词,从社交媒体官网上人工筛选一部分主题特性明显的用户构成用户集A;
S22、通过用户集A的社交关系得到另一批用户集B;
S23、删除用户集B中与用户集A交集的部分,得到最终用户集C,用户集C就是从社交媒体数据中提取的种子用户。
进一步地,所述步骤S3具体实现方法为:使用自然语言处理的方法对社交媒体数据中的文本数据进行分词、去噪、词性标注和命名实体识别;具体流程为:
S31、对文本进行分词处理,通过文本中的空格、换行符、标点作为分隔符,来对文本进行分词处理,得到一个由单词组成的列表;
S32、正则匹配去噪和提取信息,提取的信息包括Hashtag信息、转发RT信息、@用户信息;其中Hashtag信息是指分词后首部带有#符号的词;转发RT信息是指分词后首部带有RT符号的词;@用户信息是指分词后首部带有@符号的词;
S33、词性标注和命名实体识别;
通过上述的预处理流程,最后得到每条文本的Hashtag列表、命名实体列表,以及用户之间的@用户关系列表和转发RT关系列表。
进一步地,所述步骤S4中构建的异质信息网络包含了三种类型的节点:
(1)用户账号节点U=(u1,u2...uw),其中w表示用户账号的总个数;
(2)Hashtag节点G,G=(g1,g2...gx),其中x表示Hashtag的总个数;
(3)命名实体NER节点N,N=(n1,n2...ny),其中y表示NER的总个数;
对于用户-用户的边连接关系,通过@关系列表、转发RT关系列表以及用户的好友关系,将种子用户集里的用户进行相互连接;对于用户-Hashtag和用户-NER,本发明根据用户的文本中是否出现Hashtag与NER,来判断是否与用户账号连接,最终得到异质信息网络。
进一步地,所述步骤S4中,采取node2vec方法得到用户账号节点的特征向量u=(k1,k2...km),其中m表示向量的维度;采用word2vec得到每一个Hahshtag词向量g=(i1,i2...im)和NER词向量n=(j1,j2...jm)。
进一步地,所述步骤S5包括以下子步骤:
S51、异质图卷积网络构建,对GCN网络进行改进,使其能用于异质网络;改进后网络中第l层与l+1层之间的传播规则如下:
Figure GDA0003529833050000031
T表示节点类型,
Figure GDA0003529833050000032
Figure GDA0003529833050000033
的子矩阵,它的行|V|表示所有节点个数,列|Vt|表示该节点的t类型邻居节点个数;Ht是不同节点类型的节点特征向量,Wt是不同节点类型下的权重变化矩阵,表示了输入特征与输出特征之间的关系;agg(·)表示一个聚合函数;σ(·)是激活函数;
S52、注意力机制的添加:给定一个节点v,用
Figure GDA0003529833050000041
表示节点v的t类型邻居节点的集合,用
Figure GDA0003529833050000042
表示节点v的t类型邻居节点对节点v的注意力影响分数:
Figure GDA0003529833050000043
Figure GDA0003529833050000044
其中,hv表示节点v的特征向量,
Figure GDA0003529833050000045
表示节点v的t类型邻居节点的特征向量,
Figure GDA0003529833050000046
是在
Figure GDA0003529833050000047
基础上归一化后的注意力分数,f(·)表示一个单层的前馈神经网络,用于计算两个节点之间注意力分数的函数,具体如下:
Figure GDA0003529833050000048
其中,||表示横向连接两个特征向量,
Figure GDA0003529833050000049
是μt的转置,是神经网络中连接层与层之间的权重矩阵;
得到不同类型节点的注意力分数后,得到最终层与层之间的传播规则为:
Figure GDA00035298330500000410
S53、模型训练,经过L层的异质图卷积注意力网络后,得到节点的最终特征向量并通过softmax函数进行分类,具体如下:
Figure GDA00035298330500000411
其中C代表分类类别数,zi表示计算得到的该节点属于i类别的概率,pi表示softmax后该节点属于i类别的概率;得到预测结果后,通过交叉熵损失函数与梯度下降方法,来对权重矩阵W进行更新:
Figure GDA00035298330500000412
yij是节点i属于节点j类别的真实概率,pij是节点i属于节点j类别的预测概率,N是输入的用户账号节点个数,C是分类类别数。
本发明的有益效果是:本发明不再只是考虑单一节点信息,而是通过构建异质信息网络将不同类型的节点信息进行融合,还原真实网络的复杂状态、丰富网络信息,找到账号与账号之间的潜在关系;并在异质信息网络的基础上,构建异质图卷积网络并增加注意力机制,得到网络中不同类型节点对于该节点的影响重要性,提高账号分类的准确性。
附图说明
图1为本发明基于信息融合的社交媒体用户账号分类方法的流程图;
图2为本发明异质信息网络结构图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于信息融合的社交媒体用户账号分类方法,包括以下步骤:
S1、输入社交媒体数据,这份数据包含社交媒体用户账号信息以及用户发布的文本信息;
S2、从社交媒体数据中选取种子用户,获取种子用户的文本信息;
所述的种子用户是指与本文分类任务相关的主题性较强的用户。由于社交网络中存在着海量的用户账号,如果随机选取用户账号进行构建网络,则容易出现网络稀疏性问题。种子用户选取可以使构建的异质信息网络更加稠密,从而提升用户特征提取的效果。
通过以下步骤提取种子用户:
S21、通过主题关键词,从社交媒体官网上人工筛选一部分主题特性明显的用户构成用户集A;
S22、通过用户集A的社交关系,如好友关系、转发关系、@关系等来得到另一批用户集B;
S23、删除用户集B中与用户集A交集的部分,得到最终用户集C;之所以要删除用户集A与用户集B交集的部分是因为本发明是通过用户集A来得到的用户集B,用户集A与网络中某些用户的连接关系是必然的,如果不删除则可能导致本发明的模型泛化能力不够强。用户集C就是从社交媒体数据中提取的种子用户,用种子用户构建的异质信息网络解决了网络稀疏性和正负样本失衡的问题。同时这种网络包含的潜在属性信息价值更高,有利于本发明账号的分类。
S3、进行文本预处理,提取出需要的节点信息;
文本预处理是指使用自然语言处理的方法对社交媒体数据中的文本数据进行分词、去噪、词性标注和命名实体识别。由于文本中既有很多有用的信息,比如本发明需要的实体信息,又存在着许多表达不规范的地方,因此需要对文本进行一个预处理。这里的文本是指步骤S23得到的种子用户集C中提取的每个用户发布的最新的多条文本信息(一般为200条)。
具体流程为:
S31、对文本进行分词处理,通过文本中的空格、换行符、标点作为分隔符,来对文本进行分词处理,得到一个由单词组成的列表;
S32、正则匹配去噪和提取信息,由于列表中的单词存在着许多噪声信息,比如表情符号、停止词等,需要通过正则匹配来移除这些噪声信息。同时,还需要通过正则匹配提取Hashtag信息、转发RT信息、@用户信息,便于后续异质信息网络的构建。其中Hashtag信息是指分词后首部带有#符号的词,比如#China;转发RT信息是指分词后首部带有RT符号的词,比如RT@taw_lan,一般在文本的首部,表示转发taw_lan这名用户的文本;@用户信息是指分词后首部带有@符号的词,比如@Kahraman;
S33、词性标注和命名实体识别;命名实体(Named Entity Recognition,NER)是指具有特殊意义的单词,比如人名(PER)、机构名(ORG)、地名(LOC),通过识别命名实体可以简单了解一条文本所包含的主要信息。命名实体通常是名词,并且命名实体的前后通常是动词或者介词,因此需要在词性标注的基础上对命名实体进行识别。
通过上述的预处理流程,最后得到每条文本的Hashtag列表、命名实体列表,以及用户之间的@用户关系列表和转发RT关系列表。
S4、构建异质信息网络,将提取的节点信息进行融合,得到特征向量;
社交媒体信息具有复杂性和多样性的特点,而传统的账号分类方法只能利用其中的一个或几个信息特点,忽略了不同信息之间的隐藏联系。因此本发明将通过构建异质信息网络来融合不同信息解决这个问题。
为了提高账号分类的准确性,本发明构建的异质信息网络如图2所示,主要包含了三种类型的节点:
(1)用户账号节点U=(u1,u2...uw),其中w表示用户账号的总个数;因为本发明是对用户账号进行分类,所以用户账号节点是必须的,图2中间一列为用户账号;
(2)Hashtag节点G,G=(g1,g2...gx),其中x表示Hashtag的总个数;Hashtag通常表示文本的一个话题,可以概述文本的内容。如果多个用户同时提到了相同的Hashtag,那么可以认为这些用户对某一事件都很感兴趣,从侧面反应了这部分用户在兴趣上的相似性,图2左侧一列为Hashtag节点。
(3)命名实体NER节点N,N=(n1,n2...ny),其中y表示NER的总个数;由于文本具有稀疏性,因此本发明没有直接使用用户所发文本作为异质节点,而是通过提取文本中的命名实体作为节点。可以从NER中得知时间、地点、人物的事件描述三元素信息,从而简单了解一条文本所包含的主要信息,图2右侧一列为命名实体NER节点。
对于用户-用户的边连接关系,通过@关系列表、转发RT关系列表以及用户的好友关系,将种子用户集里的用户进行相互连接;对于用户-Hashtag和用户-NER,本发明根据用户的文本中是否出现Hashtag与NER,来判断是否与用户账号连接,最终得到异质信息网络。
为了将异质网络嵌入到后续的异质图卷积注意网络中,本发明需要针对异质网络中的每种节点信息的不同特点来提取不同的特征。
对于用户账号节点,仅基于单一的用户交互关系来构建的网络不足以充分地表征用户之间潜在的关系属性特征,因此,本发明将基于多种用户交互关系来提取异质信息网络节点特征。
本发明基于用户-用户的边连接网络,采取node2vec方法得到用户账号节点的特征向量。node2vec方法是通过随机游走采样得到节点的组合,它把随机游走采样得到的节点序列看作一个句子,用处理词向量的方法对这样的序列建模从而得到网络节点的向量表示。随机游走采样主要有两种方式,一种是基于广度优先搜索(Breadth-first Sampling,BFS),一种是基于深度优先搜索(Depth-first Sampling,DFS)。BFS主要在节点的周围游走,周围的节点因为有类似的属性所以连接在一起,可以看作是一个聚类,反映了节点的同质性;DFS可以找到有潜在联系的节点,这些节点之间未必直接相连,却有相似的结构特征,很可能也是同一类节点,反映了节点的同构性。node2vec就是综合了BFS和DFS两种随机游走方式,既考虑同质性又考虑了同构性。通过node2vec可以找到用户节点之间潜在的信息,最终得到用户账号的特征向量u=(k1,k2...km),其中m表示向量的维度。
对于Hashtag和NER节点,由于文本的稀疏性,会得到大量不同的Hashtag和NER,若采用one-hot的编码方式,即向量的每一维表示一个词语,则会忽略词与词之间的顺序并破坏词与词之间的相互影响关系,最终得到一个离散稀疏的特征。因此本发明采用word2vec来得到每个词语的特征向量。word2vec可以将每个词语映射到一个词向量中,而词向量又具有良好的语义特性,每一维的值代表一个具有一定的语义和语法上解释的特征。两个意思相近的词语,通过word2vec映射后的词向量在空间距离上也相近。本发明主要使用Python实现的gensim模块中的word2vec工具学习词向量,是使用Skip-gram模型实现,通过中间词来预测上下文的词语。每一个Hahshtag词向量表示为g=(i1,i2...im),NER词向量表示为n=(j1,j2...jm)。Hashtag和NER通过使用word2vec的特征向量,可以更好地从侧面体现用户的语义特性。
S5、利用异质信息网络构建图卷积注意网络,对社交媒体用户账号进行分类。
在上述异质信息网络的基础上,本发明利用异质信息网络构建图卷积注意网络来实现账号分类。图卷积网络GCN是一个根据邻居节点属性来推导当前节点的特征向量的多层神经网络。对于图G=(V,E),V代表节点集,E代表边集。X∈R|V|×m表示所有输入节点的特征向量矩阵,m是每个节点的特征向量维度。GCN中层与层之间的传播规则如下:
Figure GDA0003529833050000081
其中,σ(·)是激活函数,
Figure GDA0003529833050000082
是归一化后的邻接矩阵,保证每个元素的取值都在(0,1)之间,
Figure GDA0003529833050000083
的求法如下:
Figure GDA0003529833050000084
Figure GDA0003529833050000085
Figure GDA0003529833050000086
是包含自连接的邻居矩阵,由于邻接矩阵A的对角线上都是0,所以在和特征矩阵H相乘的时候,只会计算这个节点的所有邻居特征的加权和,而忽略该节点自身的特征。给A加上一个单位矩阵I,可以让信息在进行传播的时候保留节点自身的特征信息。D是度矩阵(degree matrix),是一个对角矩阵,对角线上的元素值即为该节点的度
Figure GDA0003529833050000087
H(l)是第l层的节点的特征向量,H(0)=X。W(l)是通过训练得到的权重变化矩阵。
本步骤具体包括以下子步骤:
S51、异质图卷积网络构建,由于GCN网络只适用于同质节点,而本发明中却有三种不同类型的节点:用户账号、Hashtag、NER。为了充分地利用节点信息,本发明需要对GCN网络进行改进,使其能用于异质网络;改进后网络中第l层与l+1层之间的传播规则如下:
Figure GDA0003529833050000088
T表示节点类型,
Figure GDA0003529833050000089
Figure GDA00035298330500000810
的子矩阵,它的行|V|表示所有节点个数,列|Vt|表示该节点的t类型邻居节点个数;Ht是不同节点类型的节点特征向量,Wt是不同节点类型下的权重变化矩阵,表示了输入特征与输出特征之间的关系;agg(·)表示一个聚合函数,可以是相加也可以是求均值。本发明定义在最后一层的时候求平均值,其余层则是相加。在改进后的网络中进行信息传输时,充分利用了不同类型的节点信息,并将不同类型节点的特征融合后传输给了下一层。
S52、注意力机制的添加;
GCN网络还有一个缺点:它分配给每个邻居节点的权重是一样的,即所有邻居节点对该节点的影响是一样大。但实际上,不同的邻居节点会产生不同的影响大小,比如说同种类型的节点可能会带来更多的有用信息,那它的影响权重就应该大一些。因此,在第一步的基础上,本发明提出了添加注意力机制,了解不同类型邻居节点对当前节点的影响。
首先,需要得到不同类型节点的权重。给定一个节点v,用
Figure GDA0003529833050000091
表示节点v的t类型邻居节点的集合,用
Figure GDA0003529833050000092
表示节点v的t类型邻居节点对节点v的注意力影响分数:
Figure GDA0003529833050000093
Figure GDA0003529833050000094
其中,hv表示节点v的特征向量,
Figure GDA0003529833050000095
表示节点v的t类型邻居节点的特征向量,
Figure GDA0003529833050000096
是在
Figure GDA0003529833050000097
基础上归一化后的注意力分数,f(·)表示一个单层的前馈神经网络,用于计算两个节点之间注意力分数的函数,具体如下:
Figure GDA0003529833050000098
其中,||表示横向连接两个特征向量,
Figure GDA0003529833050000099
是μt的转置,是神经网络中连接层与层之间的权重矩阵;
得到不同类型节点的注意力分数后,得到最终层与层之间的传播规则为:
Figure GDA00035298330500000910
S53、模型训练,经过L层的异质图卷积注意力网络后,得到节点的最终特征向量并通过softmax函数进行分类,具体如下:
Figure GDA00035298330500000911
其中C代表分类类别数,zi表示计算得到的该节点属于i类别的概率,pi表示softmax后该节点属于i类别的概率;得到预测结果后,通过交叉熵损失函数与梯度下降方法,来对权重矩阵W进行更新:
Figure GDA00035298330500000912
yij是节点i属于节点j类别的真实概率,pij是节点i属于节点j类别的预测概率,N是输入的用户账号节点个数,C是分类类别数。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种基于信息融合的社交媒体用户账号分类方法,其特征在于,包括以下步骤:
S1、输入社交媒体数据;
S2、从社交媒体数据中选取种子用户,获取种子用户的文本信息;
S3、进行文本预处理,提取出需要的节点信息;
S4、构建异质信息网络,将提取的节点信息进行融合,得到特征向量;构建的异质信息网络包含了三种类型的节点:
(1)用户账号节点U=(u1,u2...uw),其中w表示用户账号的总个数;采取node2vec方法得到用户账号节点的特征向量u=(k1,k2...km),其中m表示向量的维度;
(2)Hashtag节点G,G=(g1,g2...gx),其中x表示Hashtag的总个数;采用word2vec得到每一个Hahshtag词向量g=(i1,i2...im);
(3)命名实体NER节点N,N=(n1,n2...ny),其中y表示NER的总个数;采用word2vec得到每一个NER词向量n=(j1,j2...jm);
对于用户-用户的边连接关系,通过@关系列表、转发RT关系列表以及用户的好友关系,将种子用户集里的用户进行相互连接;对于用户-Hashtag和用户-NER,根据用户的文本中是否出现Hashtag与NER,来判断是否与用户账号连接,最终得到异质信息网络;
S5、利用异质信息网络构建图卷积注意网络,对社交媒体用户账号进行分类;包括以下子步骤:
S51、异质图卷积网络构建,对GCN网络进行改进,使其能用于异质网络;改进后网络中第l层与l+1层之间的传播规则如下:
Figure FDA0003509664490000011
T表示节点类型,
Figure FDA0003509664490000012
Figure FDA0003509664490000013
的子矩阵,它的行|V|表示所有节点个数,列|Vt|表示该节点的t类型邻居节点个数;Ht是不同节点类型的节点特征向量,Wt是不同节点类型下的权重变化矩阵,表示了输入特征与输出特征之间的关系;agg(·)表示一个聚合函数;σ(·)是激活函数;
S52、注意力机制的添加:给定一个节点v,用
Figure FDA0003509664490000014
表示节点v的t类型邻居节点的集合,用
Figure FDA0003509664490000015
表示节点v的t类型邻居节点对节点v的注意力影响分数:
Figure FDA0003509664490000016
Figure FDA0003509664490000021
其中,hv表示节点v的特征向量,
Figure FDA0003509664490000022
表示节点v的t类型邻居节点的特征向量,
Figure FDA0003509664490000023
是在
Figure FDA0003509664490000024
基础上归一化后的注意力分数,f(·)表示一个单层的前馈神经网络,用于计算两个节点之间注意力分数的函数,具体如下:
Figure FDA0003509664490000025
其中,||表示横向连接两个特征向量,
Figure FDA0003509664490000026
是μt的转置,是神经网络中连接层与层之间的权重矩阵;
得到不同类型节点的注意力分数后,得到最终层与层之间的传播规则为:
Figure FDA0003509664490000027
S53、模型训练,经过L层的异质图卷积注意力网络后,得到节点的最终特征向量并通过softmax函数进行分类,具体如下:
Figure FDA0003509664490000028
其中C代表分类类别数,zi表示计算得到的该节点属于i类别的概率,pi表示softmax后该节点属于i类别的概率;得到预测结果后,通过交叉熵损失函数与梯度下降方法,来对权重矩阵W进行更新:
Figure FDA0003509664490000029
yij是节点i属于节点j类别的真实概率,pij是节点i属于节点j类别的预测概率,N是输入的用户账号节点个数,C是分类类别数。
2.根据权利要求1所述的一种基于信息融合的社交媒体用户账号分类方法,其特征在于,所述步骤S2中所述的种子用户是指与本文分类任务相关的主题性较强的用户;
通过以下步骤提取种子用户:
S21、通过主题关键词,从社交媒体官网上人工筛选一部分主题特性明显的用户构成用户集A;
S22、通过用户集A的社交关系得到另一批用户集B;
S23、删除用户集B中与用户集A交集的部分,得到最终用户集C,用户集C就是从社交媒体数据中提取的种子用户。
3.根据权利要求1所述的一种基于信息融合的社交媒体用户账号分类方法,其特征在于,所述步骤S3具体实现方法为:使用自然语言处理的方法对社交媒体数据中的文本数据进行分词、去噪、词性标注和命名实体识别;具体流程为:
S31、对文本进行分词处理,通过文本中的空格、换行符、标点作为分隔符,来对文本进行分词处理,得到一个由单词组成的列表;
S32、正则匹配去噪和提取信息,提取的信息包括Hashtag信息、转发RT信息、@用户信息;其中Hashtag信息是指分词后首部带有#符号的词;转发RT信息是指分词后首部带有RT符号的词;@用户信息是指分词后首部带有@符号的词;
S33、词性标注和命名实体识别;
通过上述的预处理流程,最后得到每条文本的Hashtag列表、命名实体列表,以及用户之间的@用户关系列表和转发RT关系列表。
CN202010939237.1A 2020-09-09 2020-09-09 一种基于信息融合的社交媒体用户账号分类方法 Active CN112084335B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010939237.1A CN112084335B (zh) 2020-09-09 2020-09-09 一种基于信息融合的社交媒体用户账号分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010939237.1A CN112084335B (zh) 2020-09-09 2020-09-09 一种基于信息融合的社交媒体用户账号分类方法

Publications (2)

Publication Number Publication Date
CN112084335A CN112084335A (zh) 2020-12-15
CN112084335B true CN112084335B (zh) 2022-04-12

Family

ID=73732390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010939237.1A Active CN112084335B (zh) 2020-09-09 2020-09-09 一种基于信息融合的社交媒体用户账号分类方法

Country Status (1)

Country Link
CN (1) CN112084335B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560953B (zh) * 2020-12-16 2023-08-15 中国平安财产保险股份有限公司 私家车非法营运的识别方法、系统、设备及存储介质
CN112700342B (zh) * 2020-12-29 2022-09-13 四川大学 社交媒体信息真实性的个性化评分预测模型及预测方法
CN112989218B (zh) * 2021-03-12 2022-06-28 西华大学 基于多级属性嵌入和约束典型相关分析的身份链接方法
CN112685614B (zh) * 2021-03-17 2021-06-18 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法
CN113127752B (zh) * 2021-03-18 2023-04-07 中国人民解放军战略支援部队信息工程大学 基于用户命名习惯映射学习的社交网络账号对齐方法及系统
CN113159976B (zh) * 2021-05-13 2022-05-24 电子科技大学 一种微博网络重要用户的识别方法
CN113256438B (zh) * 2021-05-27 2022-12-23 山东省计算中心(国家超级计算济南中心) 网络用户的角色识别方法及系统
CN113628059B (zh) * 2021-07-14 2023-09-15 武汉大学 一种基于多层图注意力网络的关联用户识别方法及装置
CN113704502B (zh) * 2021-08-27 2023-04-21 电子科技大学 社交媒体中基于多模态信息融合账号位置识别方法
CN113806534B (zh) * 2021-09-03 2023-04-18 电子科技大学 一种面向社交网络的热点事件预测方法
CN113807978A (zh) * 2021-09-07 2021-12-17 中国船舶重工集团公司第七0九研究所 基于注意力图神经网络的隐藏社群属性获取方法与系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026544A (zh) * 2019-11-06 2020-04-17 中国科学院深圳先进技术研究院 图网络模型的节点分类方法、装置及终端设备
CN111310068A (zh) * 2020-03-11 2020-06-19 广东工业大学 基于动态图的社交网络节点分类方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317567B1 (en) * 2011-02-16 2016-04-19 Hrl Laboratories, Llc System and method of computational social network development environment for human intelligence
CN105260410A (zh) * 2015-09-22 2016-01-20 天津大学 基于亲密度和影响力的微博社交兴趣圈挖掘方法及其装置
CN109117891B (zh) * 2018-08-28 2022-04-08 电子科技大学 融合社交关系和命名特征的跨社交媒体账户匹配方法
CN110457404B (zh) * 2019-08-19 2021-11-02 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN110516077A (zh) * 2019-08-20 2019-11-29 北京中亦安图科技股份有限公司 面向企业商情的知识图谱构建方法及装置
CN111538827B (zh) * 2020-04-28 2023-09-05 清华大学 基于内容和图神经网络的判例推荐方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026544A (zh) * 2019-11-06 2020-04-17 中国科学院深圳先进技术研究院 图网络模型的节点分类方法、装置及终端设备
CN111310068A (zh) * 2020-03-11 2020-06-19 广东工业大学 基于动态图的社交网络节点分类方法

Also Published As

Publication number Publication date
CN112084335A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112084335B (zh) 一种基于信息融合的社交媒体用户账号分类方法
Kong et al. Fake news detection using deep learning
Ren et al. Neural networks for deceptive opinion spam detection: An empirical study
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN112231562A (zh) 一种网络谣言识别方法及系统
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112199606B (zh) 一种基于层次用户表示的面向社交媒体的谣言检测系统
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Asimuzzaman et al. Sentiment analysis of bangla microblogs using adaptive neuro fuzzy system
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
Singh et al. Detection framework for content-based cybercrime in online social networks using metaheuristic approach
Huang Research on sentiment classification of tourist destinations based on convolutional neural network
Nisha et al. Deep KNN Based Text Classification for Cyberbullying Tweet Detection
Meenakshi et al. Deep learning techniques for spamming and cyberbullying detection
CN113239143A (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
CN113157993A (zh) 一种基于时序图极化分析的网络水军行为预警模型
Cumalat Puig Sentiment analysis on short Spanish and Catalan texts using contextual word embeddings
Nanduri et al. Modified Fuzzy Approach to Automatic Classification of Cyber Hate Speech from the Online Social Networks (OSN's).
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质
Davis et al. Abusive Language Detection and Characterization of Twitter Behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant