CN112861967B - 基于异构图神经网络的社交网络异常用户检测方法及设备 - Google Patents

基于异构图神经网络的社交网络异常用户检测方法及设备 Download PDF

Info

Publication number
CN112861967B
CN112861967B CN202110168649.4A CN202110168649A CN112861967B CN 112861967 B CN112861967 B CN 112861967B CN 202110168649 A CN202110168649 A CN 202110168649A CN 112861967 B CN112861967 B CN 112861967B
Authority
CN
China
Prior art keywords
user
social network
meta
information
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110168649.4A
Other languages
English (en)
Other versions
CN112861967A (zh
Inventor
李阳阳
刘弋锋
武文翰
金昊
郭庆浪
曹银浩
彭浩
杨阳朝
石珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
China Academy of Electronic and Information Technology of CETC
Original Assignee
Shenzhen Wanglian Anrui Network Technology Co ltd
China Academy of Electronic and Information Technology of CETC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanglian Anrui Network Technology Co ltd, China Academy of Electronic and Information Technology of CETC filed Critical Shenzhen Wanglian Anrui Network Technology Co ltd
Priority to CN202110168649.4A priority Critical patent/CN112861967B/zh
Publication of CN112861967A publication Critical patent/CN112861967A/zh
Application granted granted Critical
Publication of CN112861967B publication Critical patent/CN112861967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异构图神经网络的社交网络异常用户检测方法及设备,基于异构图神经网络的社交网络异常用户检测方法,包括:针对社交网络收集用户信息,并对收集到的用户信息进行特征提取;基于提取的特征,构建基于社交网络的异构信息网络,并利用社交网络的关系属性设计相应的元路径和元图;基于异构信息网络、元路径和元图,根据用户之间的亲密度和相似度,确定用户在社交网络中的表示;基于用户在社交网络中的表示,检测用户类型,以确定异常用户。本发明整合了丰富的用户特征,基于真实的社交场景汇总用户信息形成了两个视角,即用户亲密程度和关系类型,模型具有出色的性能,在准确度和F1值上都表现较好。

Description

基于异构图神经网络的社交网络异常用户检测方法及设备
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于异构图神经网络的社交网络异常用户检测方法及设备。
背景技术
社交网络是人们沟通交流的重要平台,在其影响力不断增长的今天,平台中也存在大量的异常用户影响着用户的正常使用,如僵尸用户、垃圾信息发布者、社交机器人等。需要对这些用户进行检测清除,以保证社交网络的正常使用。
在现有的异常用户检测技术中,通常利用用户特征进行建模检测,多是传统的机器学习方法,利用随机森林,贝叶斯算法等技术进行分类。近期也有利用卷积神经网络(CNN)和长短期记忆网络等深度学习算法进行检测的方案。当前检测模型结构功能较为单一,大部分方案只能对某一类异常用户进行识别,比如恶意账号或者僵尸账号,却无法对其他类别的异常用户进行很好的检测识别。
发明内容
本发明实施例提供一种基于异构图神经网络的社交网络异常用户检测方法及设备,用以解决现有技术中的异常用户检测技术性能低的问题。
根据本发明实施例的基于异构图神经网络的社交网络异常用户检测方法,包括:
针对社交网络收集用户信息,并对收集到的用户信息进行特征提取;
基于提取的特征,构建基于社交网络的异构信息网络,并利用社交网络的关系属性设计相应的元路径和元图;
基于所述异构信息网络、元路径和元图,根据用户之间的亲密度和相似度,确定用户在社交网络中的表示;
基于所述用户在社交网络中的表示,检测用户类型,以确定异常用户。
根据本发明的一些实施例,所述对收集到的用户信息进行特征提取,包括:
从收集到的用户信息中提取用户元特征、行为特征、以及文本语义特征;
所述用户元特征包括以下特征中的至少一个:用户ID、用户昵称、展示昵称、链接、用户描述、注册时间、验证状态、关注者数目、关注数目、所属公共列表数量、喜爱的推文数目、推文数目、是否更改主页背景、以及推文保护状态;
所述行为特征包括发布推文行为和评论行为;
所述文本语义特征包括推文中的主题标签。
根据本发明的一些实施例,所述基于提取的特征,构建基于社交网络的异构信息网络,包括:
将用户、推文、评论和主题标签作为节点,将关注、发推、写评论、回复、转推和包含作为边,构建异构信息网络。
根据本发明的一些实施例,所述基于所述异构信息网络、元路径和元图,根据用户之间的亲密度和相似度,确定用户在社交网络中的表示,包括:
基于所述异构信息网络、元路径和元图,确定用户节点之间的连接类型,所述连接类型包括一跳连接和多跳连接;
针对所述一跳连接,从用户之间的亲密度出发,聚合用户节点的邻居节点信息;
针对所述多跳连接,从用户之间的相似度出发,聚合用户节点的邻居节点信息;
基于聚合的用户节点的所有邻居节点信息,确定用户在社交网络中的表示。
根据本发明的一些实施例,所述针对所述一跳连接,从用户之间的亲密度出发,聚合用户节点的邻居节点信息,包括:
给定元路径和元图的集合为:S={s1,s2,…sm},对于给定的一组节点(x,y)通过路径si相连,根据公式1计算邻居节点y与用户节点x之间的亲密度为:
Figure BDA0002938176860000031
其中,ux和uy分别表示用户节点x和邻居节点y的特征向量,
Figure BDA0002938176860000032
为由si所决定的矩阵,σ表示激活函数;
根据公式2计算邻居节点y的权重系数:
Figure BDA0002938176860000033
根据公式3计算用户节点x在路径si下的表示为:
Figure BDA0002938176860000034
其中,E表示采用多头注意力机制后用户连接次数;
根据公式4计算路径si对于用户节点x的重要性:
Figure BDA0002938176860000035
其中,
Figure BDA0002938176860000036
为权值矩阵,
Figure BDA0002938176860000037
为偏差,
Figure BDA0002938176860000038
为权重向量;
根据公式5计算路径Si的权重系数:
Figure BDA0002938176860000039
根据公式6计算用户节点x在非线性转换层的表示:
Figure BDA00029381768600000310
根据所述tx,计算用户表示矩阵T∈RN*F,N表示节点个数,F表示特征维数。
根据本发明的一些实施例,所述针对所述多跳连接,从用户之间的相似度出发,聚合用户节点的邻居节点信息,包括:
定义
Figure BDA00029381768600000311
其中,Ki表示节点类型,矩阵
Figure BDA00029381768600000312
表示节点Ki和Kj之间的邻接矩阵;
根据公式7计算基于关系的用户间相似度USSI:
Figure BDA0002938176860000041
其中,
Figure BDA0002938176860000042
表示路径si的权重;
基于所述USSI,构造权重矩阵M;
基于所述M,根据公式8-9,使用卷积结构聚合信息:
Figure BDA0002938176860000043
Figure BDA0002938176860000044
其中,IN表示单位矩阵,D为对角矩阵且满足Dii=∑jMij
根据本发明的一些实施例,所述基于聚合的用户节点的所有邻居节点信息,确定用户在社交网络中的表示,包括:
根据公式10计算用户特征矩阵H:
Figure BDA0002938176860000045
其中,σ1和σ2表示不同的激活函数,W(0)表示从输入层到隐藏层的可训练权重矩阵,W(1)表示从隐藏层到输出层的权重矩阵。
根据本发明的一些实施例,所述基于所述用户在社交网络中的表示,检测用户类型,包括:
基于所述用户特征矩阵H,采用Logistic Regression分类器对用户进行类型检测,所述用户的类型包括以下类型中的至少一种:正常用户、僵尸用户、垃圾信息散布者和社交机器人;
所述Logistic Regression分类器的损失函数为:
Figure BDA0002938176860000046
其中,V表示具有标签的用户节点索引集,yλ是一个二进制向量,yλ用于指示用户节点的标签,Pλ表示神经网络预测的概率。
根据本发明实施例的基于异构图神经网络的社交网络异常用户检测设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。
根据本发明实施例的计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如上所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。
本发明实施例整合了丰富的用户特征,基于真实的社交场景汇总用户信息形成了两个视角,即用户亲密程度和关系类型,模型具有出色的性能,在准确度和F1值上都表现较好。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:
图1是本发明实施例中基于异构图神经网络的社交网络异常用户检测方法流程图;
图2是本发明实施例中基于异构图神经网络的社交网络异常用户检测方法流程图;
图3是本发明实施例中元路径示意图;
图4是本发明实施例中元图示意图;
图5是本发明实施例中基于异构图神经网络的社交网络异常用户检测设备架构图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明第一方面实施例提出一种基于异构图神经网络的社交网络异常用户检测方法。
图神经网络是将神经网络应用于图(graph)上,应用到图结构数据中,目的是学习节点的表示,这其中聚集了节点的邻域信息,节点的表示输出可以用于聚类,分类和链接预测等任务。
异构图是相对于传统图神经网络中的同构图而言,在同构图数据中只存在一种节点和边,因此所有的节点特征维度相同,模型参数也相同。同时,异构图中可以存在多种节点和边,其特征或属性的维度可以不同,可以更好地表示社交网络的模型。异构图网络可以更好的综合用户本身特征和好友的影响,有助于综合判断用户是否为社交网络异常用户。
如图1所示,本发明实施例的基于异构图神经网络的社交网络异常用户检测方法,包括:
S1,针对社交网络收集用户信息,并对收集到的用户信息进行特征提取;
S2,基于提取的特征,构建基于社交网络的异构信息网络,并利用社交网络的关系属性设计相应的元路径和元图;
S3,基于所述异构信息网络、元路径和元图,根据用户之间的亲密度和相似度,确定用户在社交网络中的表示;
S4,基于所述用户在社交网络中的表示,检测用户类型,以确定异常用户。
本发明实施例整合了丰富的用户特征,基于真实的社交场景汇总用户信息形成了两个视角,即用户亲密程度和关系类型,模型具有出色的性能,在准确度和F1值上都表现较好。
在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。
根据本发明的一些实施例,所述对收集到的用户信息进行特征提取,包括:
从收集到的用户信息中提取用户元特征、行为特征、以及文本语义特征;
所述用户元特征包括以下特征中的至少一个:用户ID、用户昵称、展示昵称、链接、用户描述、注册时间、验证状态、关注者数目、关注数目、所属公共列表数量、喜爱的推文数目、推文数目、是否更改主页背景、以及推文保护状态;
所述行为特征包括发布推文行为和评论行为;
所述文本语义特征包括推文中的主题标签。
根据本发明的一些实施例,所述基于提取的特征,构建基于社交网络的异构信息网络,包括:
将用户、推文、评论和主题标签作为节点,将关注、发推、写评论、回复、转推和包含作为边,构建异构信息网络。
根据本发明的一些实施例,所述基于所述异构信息网络、元路径和元图,根据用户之间的亲密度和相似度,确定用户在社交网络中的表示,包括:
基于所述异构信息网络、元路径和元图,确定用户节点之间的连接类型,所述连接类型包括一跳连接和多跳连接;
针对所述一跳连接,从用户之间的亲密度出发,聚合用户节点的邻居节点信息;
针对所述多跳连接,从用户之间的相似度出发,聚合用户节点的邻居节点信息;
基于聚合的用户节点的所有邻居节点信息,确定用户在社交网络中的表示。
根据本发明的一些实施例,所述针对所述一跳连接,从用户之间的亲密度出发,聚合用户节点的邻居节点信息,包括:
给定元路径和元图的集合为:S={s1,s2,…sm},对于给定的一组节点(x,y)通过路径si相连,根据公式1计算邻居节点y与用户节点x之间的亲密度为:
Figure BDA0002938176860000081
其中,ux和uy分别表示用户节点x和邻居节点y的特征向量,
Figure BDA0002938176860000082
为由si所决定的矩阵,σ表示激活函数;
根据公式2计算邻居节点y的权重系数:
Figure BDA0002938176860000083
根据公式3计算用户节点x在路径si下的表示为:
Figure BDA0002938176860000084
其中,E表示采用多头注意力机制后用户连接次数;
根据公式4计算路径si对于用户节点x的重要性:
Figure BDA0002938176860000085
其中,
Figure BDA0002938176860000086
为权值矩阵,
Figure BDA0002938176860000087
为偏差,
Figure BDA0002938176860000088
为权重向量;
根据公式5计算路径Si的权重系数:
Figure BDA0002938176860000089
根据公式6计算用户节点x在非线性转换层的表示:
Figure BDA00029381768600000810
根据所述tx,计算用户表示矩阵T∈RN*F,N表示节点个数,F表示特征维数。
根据本发明的一些实施例,所述针对所述多跳连接,从用户之间的相似度出发,聚合用户节点的邻居节点信息,包括:
定义
Figure BDA00029381768600000811
其中,Ki表示节点类型,矩阵
Figure BDA00029381768600000812
表示节点Ki和Kj之间的邻接矩阵;
根据公式7计算基于关系的用户间相似度USSI:
Figure BDA00029381768600000813
其中,
Figure BDA00029381768600000814
表示路径si的权重;
基于所述USSI,构造权重矩阵M;
基于所述M,根据公式8-9,使用卷积结构聚合信息:
Figure BDA0002938176860000091
Figure BDA0002938176860000092
其中,IN表示单位矩阵,D为对角矩阵且满足Dii=∑jMij
根据本发明的一些实施例,所述基于聚合的用户节点的所有邻居节点信息,确定用户在社交网络中的表示,包括:
根据公式10计算用户特征矩阵H:
Figure BDA0002938176860000093
其中,σ1和σ2表示不同的激活函数,W(0)表示从输入层到隐藏层的可训练权重矩阵,W(1)表示从隐藏层到输出层的权重矩阵。
根据本发明的一些实施例,所述基于所述用户在社交网络中的表示,检测用户类型,包括:
基于所述用户特征矩阵H,采用Logistic Regression分类器对用户进行类型检测,所述用户的类型包括以下类型中的至少一种:正常用户、僵尸用户、垃圾信息散布者和社交机器人;
所述Logistic Regression分类器的损失函数为:
Figure BDA0002938176860000094
其中,V表示具有标签的用户节点索引集,yλ是一个二进制向量,yλ用于指示用户节点的标签,Pλ表示神经网络预测的概率。
下面参照图2-图5以一个具体的实施例详细描述根据本发明实施例的基于异构图神经网络的社交网络异常用户检测方法。值得理解的是,下述描述仅是示例性说明,而不是对本发明的具体限制。凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。
图2为本发明实施例的基于异构图神经网络的社交网络异常用户检测方法流程图,如图2所示,本发明实施例的基于异构图神经网络的社交网络异常用户检测方法包括:
S101:Twitter平台用户信息收集:
针对系统所适用的社交平台Twitter收集用户信息,可通过已有数据集或者官方接口的方式收集,收集到的信息包括:
用户身份信息,包括:用户ID,昵称,描述,好友数目,推文数,描述,注册时间,是否验证及更改默认背景等;
用户推文信息,包括:用户所发布推文及评论信息;
好友信息,包括:好友的身份信息,以及双方的互动信息如转推评论等互动交流。
S102:获得用户信息之后,提取所需的用户元特征,行为特征和文本语义特征,其特征包括:
用户元特征,行为特征和文本语义特征。其中用户元特征包括:用户ID,用户昵称,展示昵称,链接,用户描述,注册时间,验证状态,关注者数目,关注数目,所属公共列表数量,喜爱的推文数目,推文数目,是否更改主页背景,推文保护状态等14项;行为特征包括用户的发推和评论等行为特征;文本语义特征为在用户推文中所提取的主题标签(hashtag)。
S103:提取特征后,构建基于社交网络的异构信息网络,利用社交网络的关系属性设计特定的meta-paths(元路径)和meta-graphs(元图),在将用户,推文,评论和主题标签作为网络中的节点,网络中的边类型包括:关注-用户节点之间,发推-用户推文节点间,写评论-用户评论节点间,回复-评论推文节点间,转推-推文节点之间和包含-推文主题标签节点间等六种。
根据社交关系设计的meta-paths包括四种,如图3所示。设计的meta-graphs有两种,如图4所示。
S104:根据所构建的异构信息网络和meta-paths和meta-graphs,将用户间的连接类型分为一跳连接和多跳连接,并以此计算用户间的直接关联和潜在关联,用于计算用户节点x在社交网络中的表示。
对于用户间的一跳连接,即通过meta-paths或者meta-graphs直接相连,根据其连接的关系,为用户x聚合邻居节点的信息,根据特定连接下用户的内部重要性和连接本身的重要性,一跳连接可以分为两部分:亲密度和关系贡献。
首先计算用户节点间的亲密度,即不同邻居节点y与用户节点x的亲密程度。首先给定meta-path和meta-graph的集合S={s1,s2,…sm},对于给定的一组节点(x,y)通过路径si相连,以
Figure BDA0002938176860000111
表示节点y对于节点x的重要性,其计算方法为:
Figure BDA0002938176860000112
其中,ux和uy表示用户x和y的特征向量,
Figure BDA0002938176860000113
是由si所决定的矩阵,σ表示激活函数。在meta-graph情况下,计算方式类似,可将meta-graph是为meta-path的综合,假设一对节点通过meta-graph:s8相连,s8可视为s2和s3的结合,因此
Figure BDA0002938176860000114
其中Θ表示哈达玛积。即使相连路径相同,不同的邻居节点也会有不同的亲密度。得到节点(x,y)的
Figure BDA0002938176860000115
之后,通过softmax函数对其进行归一化得到权重系数
Figure BDA0002938176860000116
接下来通过系数计算节点x在特定连接下的节点表示:
Figure BDA0002938176860000117
其中
Figure BDA0002938176860000118
表示x在连接si下的节点表示,将多头注意力机制纳入用户连接中,反复计算用户连接E次并将其连接起来,以使训练结果更加稳定。对于给定的集合S={s1,s2,…sm},可以获得m组基于关系的用户节点表示
Figure BDA0002938176860000119
Figure BDA00029381768600001110
是矩阵
Figure BDA00029381768600001111
中节点x在路径si下的表示。
接下来由m组不同路径的用户表示作为输入,通过非线性转换层对用户向量进行转换,然后通过关系权重向量
Figure BDA00029381768600001112
计算路径关系si对于节点x的重要性:
Figure BDA00029381768600001113
其中,权值矩阵
Figure BDA00029381768600001114
偏差
Figure BDA00029381768600001115
以及关系权重向量由一组节点共享,
Figure BDA00029381768600001116
由训练得到。之后利用归一化函数得到每个路径的权重:
Figure BDA0002938176860000121
用户节点x的变化也会引起路径权重
Figure BDA0002938176860000122
的变化。将学到的权重作为系数,合并所有路径下的用户嵌入,得到这一层的用户表示:
Figure BDA0002938176860000123
用户表示矩阵T∈RN*F作为下一层的用户特征矩阵输入,N代表整个节点个数,F为特征维数。
在之前的单跳关系信息聚合之后,接下来从整个社交网络的角度,以多跳关系的方式对用户信息进行聚合,可以发现用户之间隐藏的、难以发现的联系。通过meta-path和meta-graph来衡量的用户之间的一致性被参数化为相似系数。然后用它们构造权重矩阵M,其中包含所有用户节点之间的相似度,在M中,采用卷积结构来融合所有用户的嵌入。
对于meta-pathP=K1K2…Kl,定义
Figure BDA0002938176860000124
其中Ki代表节点类型,矩阵
Figure BDA0002938176860000125
代表节点Ki,Kj间的邻接矩阵。meta-graph作为meta-path的综合,例如s8可视为s2和s3的结合,
Figure BDA0002938176860000126
Figure BDA0002938176860000127
Figure BDA0002938176860000128
其中Θ代表哈达玛积。
接下来就可以计算基于关系的用户间相似度USSI(:User RelationshipInstances BasedUser Similarity):
Figure BDA0002938176860000129
其中
Figure BDA00029381768600001210
表示路径si的权重。由USSI构造权重矩阵M之后,使用卷积结构聚合用户信息。用M作为输入,计算
Figure BDA00029381768600001211
其中IN表示单位矩阵。接下来计算
Figure BDA00029381768600001212
D为对角矩阵满足Dii=∑jMij,将应用两层的GCN结构如下所示:
Figure BDA0002938176860000131
其中σ1和σ2代表不同的激活函数,W(0)是从输入层到隐藏层的可训练权重矩阵,W(1)是从隐藏层到输出层的权重矩阵,T是来自上一层输出的用户特征矩阵。由此可以得到用户特征矩阵H,以及用户嵌入的集合h1h2…hN
S105:根据所得到的用户特征矩阵H,进行用户类型的检测,检测其是否为异常用户,可分类为正常用户、僵尸用户、垃圾信息散布者和社交机器人等。
经过一系列计算,输出是通过信息聚合的用户节点嵌入矩阵,采用LogisticRegression分类器来实现多异常检测。在训练过程中,我们的模型观察训练节点的标签,并最小化地面真实性和预测之间的交叉熵,以实现多类节点分类。损失函数如下:
Figure BDA0002938176860000132
其中V表示具有标签的用户节点索引集,yλ是一个二进制向量,指示用户节点的标签,Pλ表示神经网络预测的概率。
需要说明的是,以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明第二方面实施例提出一种基于异构图神经网络的社交网络异常用户检测设备,如图5所示,包括:存储器1010、处理器1020及存储在所述存储器1010上并可在所述处理器1020上运行的计算机程序,所述计算机程序被所述处理器1020执行时实现如上第一方面实施例所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。
本发明第三方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器执行时实现如上第一方面实施例所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。
需要说明的是,本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。所述程序被处理器可以是手机,计算机,服务器,空调器,或者网络设备等。
在本说明书的描述中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在此提供的方法不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

Claims (6)

1.一种基于异构图神经网络的社交网络异常用户检测方法,其特征在于,包括:
针对社交网络收集用户信息,并对收集到的用户信息进行特征提取;
基于提取的特征,构建基于社交网络的异构信息网络,并利用社交网络的关系属性设计相应的元路径和元图;
基于所述异构信息网络、元路径和元图,根据用户之间的亲密度和相似度,确定用户在社交网络中的表示;
基于所述用户在社交网络中的表示,检测用户类型,以确定异常用户;
所述基于所述异构信息网络、元路径和元图,根据用户之间的亲密度和相似度,确定用户在社交网络中的表示,包括:
基于所述异构信息网络、元路径和元图,确定用户节点之间的连接类型,所述连接类型包括一跳连接和多跳连接;
针对所述一跳连接,从用户之间的亲密度出发,聚合用户节点的邻居节点信息;
针对所述多跳连接,从用户之间的相似度出发,聚合用户节点的邻居节点信息;
基于聚合的用户节点的所有邻居节点信息,确定用户在社交网络中的表示;
所述针对所述一跳连接,从用户之间的亲密度出发,聚合用户节点的邻居节点信息,包括:
给定元路径和元图的集合为:S={s1,s2,…sm},对于给定的一组节点(x,y)通过路径si相连,根据公式1计算邻居节点y与用户节点x之间的亲密度为:
Figure FDA0004005188870000011
其中,ux和uy分别表示用户节点x和邻居节点y的特征向量,
Figure FDA0004005188870000012
为由si所决定的矩阵,σ表示激活函数;
根据公式2计算邻居节点y的权重系数:
Figure FDA0004005188870000021
根据公式3计算用户节点x在路径si下的表示为:
Figure FDA0004005188870000022
其中,E表示采用多头注意力机制后用户连接次数;
根据公式4计算路径si对于用户节点x的重要性:
Figure FDA0004005188870000023
其中,
Figure FDA0004005188870000024
为权值矩阵,
Figure FDA0004005188870000025
为偏差,
Figure FDA0004005188870000026
为权重向量;
根据公式5计算路径Si的权重系数:
Figure FDA0004005188870000027
根据公式6计算用户节点x在非线性转换层的表示:
Figure FDA0004005188870000028
根据所述tx,计算用户表示矩阵T∈RN*F,N表示节点个数,F表示特征维数;
所述针对所述多跳连接,从用户之间的相似度出发,聚合用户节点的邻居节点信息,包括:
定义
Figure FDA0004005188870000029
其中,Ki表示节点类型,矩阵
Figure FDA00040051888700000210
表示节点Ki和Kj之间的邻接矩阵;
根据公式7计算基于关系的用户间相似度USSI:
Figure FDA00040051888700000211
其中,
Figure FDA00040051888700000214
表示路径si的权重;
基于所述USSI,构造权重矩阵M;
基于所述M,根据公式8-9,使用卷积结构聚合信息:
Figure FDA00040051888700000212
Figure FDA00040051888700000213
其中,IN表示单位矩阵,D为对角矩阵且满足Dii=∑jMij
所述基于聚合的用户节点的所有邻居节点信息,确定用户在社交网络中的表示,包括:
根据公式10计算用户特征矩阵H:
Figure FDA0004005188870000031
其中,σ1和σ2表示不同的激活函数,W(0)表示从输入层到隐藏层的可训练权重矩阵,W(1)表示从隐藏层到输出层的权重矩阵。
2.如权利要求1所述的方法,其特征在于,所述对收集到的用户信息进行特征提取,包括:
从收集到的用户信息中提取用户元特征、行为特征、以及文本语义特征;
所述用户元特征包括以下特征中的至少一个:用户ID、用户昵称、展示昵称、链接、用户描述、注册时间、验证状态、关注者数目、关注数目、所属公共列表数量、喜爱的推文数目、推文数目、是否更改主页背景、以及推文保护状态;
所述行为特征包括发布推文行为和评论行为;
所述文本语义特征包括推文中的主题标签。
3.如权利要求2所述的方法,其特征在于,所述基于提取的特征,构建基于社交网络的异构信息网络,包括:
将用户、推文、评论和主题标签作为节点,将关注、发推、写评论、回复、转推和包含作为边,构建异构信息网络。
4.如权利要求1所述的方法,其特征在于,所述基于所述用户在社交网络中的表示,检测用户类型,包括:
基于所述用户特征矩阵H,采用Logistic Regression分类器对用户进行类型检测,所述用户的类型包括以下类型中的至少一种:正常用户、僵尸用户、垃圾信息散布者和社交机器人;
所述Logistic Regression分类器的损失函数为:
Figure FDA0004005188870000032
其中,V表示具有标签的用户节点索引集,yλ是一个二进制向量,yλ用于指示用户节点的标签,Pλ表示神经网络预测的概率。
5.一种基于异构图神经网络的社交网络异常用户检测设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至4中任一项所述的基于异构图神经网络的社交网络异常用户检测方法的步骤。
CN202110168649.4A 2021-02-07 2021-02-07 基于异构图神经网络的社交网络异常用户检测方法及设备 Active CN112861967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110168649.4A CN112861967B (zh) 2021-02-07 2021-02-07 基于异构图神经网络的社交网络异常用户检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110168649.4A CN112861967B (zh) 2021-02-07 2021-02-07 基于异构图神经网络的社交网络异常用户检测方法及设备

Publications (2)

Publication Number Publication Date
CN112861967A CN112861967A (zh) 2021-05-28
CN112861967B true CN112861967B (zh) 2023-04-07

Family

ID=75988918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110168649.4A Active CN112861967B (zh) 2021-02-07 2021-02-07 基于异构图神经网络的社交网络异常用户检测方法及设备

Country Status (1)

Country Link
CN (1) CN112861967B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449204B (zh) * 2021-07-13 2022-09-09 中国人民解放军国防科技大学 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113569870B (zh) * 2021-07-31 2022-06-07 西北工业大学 基于异构图神经网络的跨模态问题q矩阵自动构建方法
CN113779423A (zh) * 2021-10-22 2021-12-10 平安科技(深圳)有限公司 一种模型参数调整方法、装置、电子设备和存储介质
CN114048396B (zh) * 2022-01-13 2022-03-18 湖南大学 基于异构信息网络和深度学习的nqi服务推荐方法及系统
CN114077811B (zh) * 2022-01-19 2022-04-12 华东交通大学 一种基于图神经网络的电力物联网设备异常检测方法
CN114826735B (zh) * 2022-04-25 2023-11-03 国家计算机网络与信息安全管理中心 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统
CN115952438B (zh) * 2022-12-12 2023-11-17 中国科学院软件研究所 社交平台用户属性预测方法、系统、移动设备及存储介质
CN116680633B (zh) * 2023-05-06 2024-01-26 国网四川省电力公司广安供电公司 基于多任务学习的异常用户检测方法、系统及存储介质
CN117540232A (zh) * 2023-09-13 2024-02-09 广州大学 基于上下文路径的在线社交网络用户表示方法及装置
CN116993371A (zh) * 2023-09-25 2023-11-03 中邮消费金融有限公司 一种基于生物特征的异常检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197575A (zh) * 2018-01-05 2018-06-22 中国电子科技集团公司电子科学研究院 一种基于目标检测和骨点检测的异常行为识别方法及装置
CN112165496A (zh) * 2020-10-13 2021-01-01 清华大学 基于聚类图神经网络的网络安全异常检测算法和检测系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10855706B2 (en) * 2016-10-11 2020-12-01 Battelle Memorial Institute System and methods for automated detection, reasoning and recommendations for resilient cyber systems
US11463472B2 (en) * 2018-10-24 2022-10-04 Nec Corporation Unknown malicious program behavior detection using a graph neural network
CN110309154B (zh) * 2019-06-28 2021-06-29 京东数字科技控股有限公司 基于图谱的实体特征选择方法、装置、设备和存储介质
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
CN111401478B (zh) * 2020-04-17 2022-10-04 支付宝(杭州)信息技术有限公司 数据异常识别方法以及装置
CN112084422B (zh) * 2020-08-31 2024-05-10 腾讯科技(深圳)有限公司 一种账号数据智能处理方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197575A (zh) * 2018-01-05 2018-06-22 中国电子科技集团公司电子科学研究院 一种基于目标检测和骨点检测的异常行为识别方法及装置
CN112165496A (zh) * 2020-10-13 2021-01-01 清华大学 基于聚类图神经网络的网络安全异常检测算法和检测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Kollector: Detecting Fraudulent Activities on Mobile Devices Using Deep Learning;Sun Lichao 等;《 IEEE Transactions on Mobile Computing》;IEEE;20200106;全文 *
基于语义行为和社交关联的好友推荐模型;曲昭伟等;《南京大学学报(自然科学)》;20181130(第06期);全文 *

Also Published As

Publication number Publication date
CN112861967A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112861967B (zh) 基于异构图神经网络的社交网络异常用户检测方法及设备
Khan et al. CNN with depthwise separable convolutions and combined kernels for rating prediction
CN111881350B (zh) 一种基于混合图结构化建模的推荐方法与系统
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN111160954B (zh) 基于图卷积网络模型的面向群组对象的推荐方法
CN114817663B (zh) 一种基于类别感知图神经网络的服务建模与推荐方法
CN111858928B (zh) 一种基于图结构对抗学习的社交媒体谣言检测方法及装置
CN113268993B (zh) 基于互信息的属性异构信息网络无监督网络表示学习方法
Agarwal et al. Trust-enhanced recommendation of friends in web based social networks using genetic algorithms to learn user preferences
CN114064627A (zh) 一种针对多重关系的知识图谱链接补全方法及系统
CN112148875A (zh) 基于图卷积神经网络整合内容和结构信息的争议性检测方法
CN116416478A (zh) 一种基于图结构数据特征的生物信息学分类模型
CN113342994B (zh) 一种基于无采样协作知识图网络的推荐系统
CN114139066A (zh) 一种基于图神经网络的协同过滤推荐系统
Rashid et al. Topological to deep learning era for identifying influencers in online social networks: a systematic review
Praveena et al. Hybrid gated recurrent unit and convolutional neural network-based deep learning mechanism for efficient shilling attack detection in social networks
CN116595467A (zh) 一种基于动态加权图卷积的异常用户检测方法及存储介质
CN115545833A (zh) 一种基于用户社交信息的推荐方法及系统
CN115455302A (zh) 一种基于优化图注意网络的知识图谱推荐方法
CN113392334B (zh) 冷启动环境下的虚假评论检测方法
Le et al. Enhancing Anchor Link Prediction in Information Networks through Integrated Embedding Techniques
CN115905572A (zh) 一种对于推特用户的社交机器人检测方法及存储介质
CN114758174A (zh) 一种基于注意力机制的多视图谣言检测方法
Sharma et al. Comparative analysis of different algorithms in link prediction on social networks
CN113744023A (zh) 一种基于图卷积网络的双通道协同过滤推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant