CN113268782A - 一种基于图神经网络的机器账号识别及伪装对抗方法 - Google Patents

一种基于图神经网络的机器账号识别及伪装对抗方法 Download PDF

Info

Publication number
CN113268782A
CN113268782A CN202110442722.2A CN202110442722A CN113268782A CN 113268782 A CN113268782 A CN 113268782A CN 202110442722 A CN202110442722 A CN 202110442722A CN 113268782 A CN113268782 A CN 113268782A
Authority
CN
China
Prior art keywords
preset
user node
similarity
similarity threshold
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110442722.2A
Other languages
English (en)
Other versions
CN113268782B (zh
Inventor
李阳阳
刘弋锋
武文翰
金昊
郭庆浪
杨智钦
彭浩
杨阳朝
石珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
Electronic Science Research Institute of CTEC
Original Assignee
Shenzhen Wanglian Anrui Network Technology Co ltd
Electronic Science Research Institute of CTEC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanglian Anrui Network Technology Co ltd, Electronic Science Research Institute of CTEC filed Critical Shenzhen Wanglian Anrui Network Technology Co ltd
Priority to CN202110442722.2A priority Critical patent/CN113268782B/zh
Publication of CN113268782A publication Critical patent/CN113268782A/zh
Application granted granted Critical
Publication of CN113268782B publication Critical patent/CN113268782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/71Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
    • G06F21/73Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information by creating or determining hardware identification, e.g. serial numbers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图神经网络的机器账号识别及伪装对抗方法,本发明是基于图神经网络的机器账号识别是通过网络模型,学习到每一个用户节点的嵌入表示,在用户节点嵌入中将用户节点和其邻居节点之间的交互关系融合表示,在检测机器账号时,用户节点的嵌入表示中包含该用户节点和其他用户节点交互的丰富信息,所以基于该嵌入表示可以非常准确地达到检测目的,从而最终提高机器账号检测的准确率。

Description

一种基于图神经网络的机器账号识别及伪装对抗方法
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于图神经网络的机器账号识别及伪装对抗方法。
背景技术
随着互联网服务的蓬勃发展,人们的生活已经和互联网交织在一起,许多社交生活和信息获取的渠道也都由线下转向了线上,为人们的生活提供了很多的便利,但在便利的生活之余,诞生了一种由软件控制的机器账号,称之为社交机器人。例如恶意社交机器人是经过精心策划以实现在社交媒体上针对大规模舆论事件的方向进行操纵,例如引导各种政治事件的舆论导向等等。另外,机器账号还负责传播可信度较低的信息或一些极端的意识形态,以及增加网民在线讨论的混乱程度,等等。
而自从机器账号开始在社交网络中泛滥,就有许多针对机器账号的检测研究。但现有方法针对机器账号的检测都是以多维空间中独立的点组成的社交数据集的形式进行研究的,并不会将每个用户作为一个独立的数据点进行研究,所以现有机器账号检测的准确率较低,所以如何提高机器账号检测的准确率成为现在亟待需要解决的问题。
发明内容
本发明提供了一种基于图神经网络的机器账号识别及伪装对抗方法,以解决现有技术中不能很好地对机器账号进行准确识别的问题。
第一方面,本发明提供了一种基于图神经网络的机器账号识别方法,该方法包括:在第一预设关系下,基于所述第一预设关系的图神经网络GNN对该图神经网络GNN下各个用户节点的标签进行预测,得到所述第一预设关系下各用户节点的标签值;根据所述各用户节点标签值确定所述用户节点与其邻居节点的相似度;根据所述图神经网络GNN和所述相似度,按照第一预设相似度阈值来聚合所述用户节点和其相似的邻居节点,并过滤不相似的邻居节点,得到所述第一预设关系下所述用户节点的嵌入表示;重复执行上述步骤,获得其他预设关系下用户节点的嵌入表示;将不同预设关系下的用户节点的嵌入表示按照对应预设关系下的预设相似度阈值进行聚合,得到最终的嵌入表示,并基于该最终的嵌入表示判断用户节点是否是机器账号。
可选地,所述根据所述各用户节点标签值确定所述用户节点与其邻居节点的相似度之后,所述根据所述图神经网络GNN和所述相似度,按照第一预设相似度阈值来聚合所述用户节点和其相似的邻居节点之前,所述方法还包括:
根据损失函数
Figure BDA0003035588250000021
来对所确定的相似度进行修正,使预测得到的用户节点的标签值
Figure BDA0003035588250000022
越来越接近预设的用户节点的标签yv,最终使预测得到的用户节点的标签值更为准确;
其中,l代表网络的第l层,v代表用户,
Figure BDA0003035588250000023
代表第l层第v个节点的嵌入表示,yv表示预设的第v个用户节点的标签值,
Figure BDA0003035588250000024
为预测得到的用户节点的标签值。
可选地,所述标签为预先根据所述用户节点的特征而设置的,且所述标签值的范围在0-1之间,表示所述用户节点属于机器节点概率值。
可选地,所述方法还包括:通过强化学习来获取每种预设关系所对应的预设相似度阈值,以过滤掉具有伪装行为的不相似节点。
可选地,所述通过强化学习来获取每种预设关系所对应的预设相似度阈值,包括:预设初始的相似度阈值,并通过多臂伯努利机B(A,f,T)计算的两次相邻训练过程的相似度的平均值,通过该平均相似度差值来对得到的预设相似度阈值进行调整,直到得到最优相似度阈值,并将该最优相似度阈值作为对应的预设关系预设相似度阈值;其中,A为是动作空间,f为奖励函数,T为终止条件。
可选地,所述通过多臂伯努利机B(A,f,T)计算的两次相邻训练过程的平均相似度差值,通过该平均相似度差值来对得到的预设相似度阈值进行调整,直到得到最优相似度阈值,包括:
通过所述奖励函数基于用户节点与其邻居节点两次相邻训练过程的相似度的平均值来对所述预设的初始的相似度阈值进行奖惩的调整,如果本次训练进程与上次进程相比较,用户节点与其邻居节点的相似度的平均值更小,则对该轮动作进行奖励,反之则惩罚;
所述动作空间A根据所述奖励函数的奖励触发则对相似度阈值加上一个预设固定数值,并根据所述奖励函数的惩罚触发则对相似度阈值减去一个所述预设固定数值,且所述预设固定数值在0至1之间;
当满足所述终止条件,则将当天的相似度阈值确定为最优的相似度阈值。
可选地,所述当满足所述终止条件,则将当天的相似度阈值确定为最优的相似度阈值,包括:当连续预设数量个训练进程的奖励函数之和小于预设数值,则确定满足所述终止条件,将当天的相似度阈值确定为最优的相似度阈值。
可选地,所述根据所述图神经网络GNN和所述相似度,按照第一预设相似度阈值来聚合所述用户节点和其相似的邻居节点,并过滤不相似的邻居节点,还包括:根据所述第一预设关系的图神经网络GNN和所预测的相似度,按照第一预设相似度阈值来聚合与所述用户节点相似的top-p邻居节点,并过滤不相似的邻居节点,其中,p为自然数。
可选地,所述将不同预设关系下的用户节点的嵌入表示按照对应预设关系下的预设相似度阈值进行聚合,得到最终的嵌入表示,包括:将不同预设关系下的预设相似度作为对应预设关系的权重,并将不同预设关系下的所有用户节点按照对应的权重进行聚合,得到用户节点最终的嵌入表示。
第二方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一种所述的基于图神经网络的机器账号识别方法。
本发明有益效果如下:
本发明是基于图神经网络的机器账号识别是通过网络模型,学习到每一个用户节点的嵌入表示,在用户节点嵌入中将用户节点和其邻居节点之间的交互关系融合表示,在检测机器账号时,用户节点的嵌入表示中包含该用户节点和其他用户节点交互的丰富信息,所以基于该嵌入表示可以非常准确地达到检测目的,从而最终提高机器账号检测的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明第一实施例提供的一种基于图神经网络的机器账号识别方法的流程示意图;
图2是本发明第一实施例提供的另一种基于图神经网络的机器账号识别方法的流程示意图。
具体实施方式
本发明实施例针对现有机器账号检测方法检测机器账号检测的准确率较低的问题,本发明的基于图神经网络的机器账号识别是通过网络模型,学习到每一个用户节点的嵌入表示,在用户节点嵌入中将用户节点和其邻居节点之间的交互关系融合表示,在检测机器账号时,节点的嵌入表示中包含该用户节点和其他用户交互的丰富信息,以此达到检测目的。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明第一实施例提供了一种基于图神经网络的机器账号识别及伪装对抗方法,参见图1,该方法包括:
S101、在第一预设关系下,基于所述第一预设关系的图神经网络(GraphConvolutional Networks,GNN)对该图神经网络GNN下各个用户节点的标签进行预测,得到所述第一预设关系下各用户节点的标签值;
本发明实施例的核心构思是获得用户节点的嵌入表示,该嵌入表示中包含了用户节点的各种交互信息,最后基于该嵌入表示来识别机器账号。
需要说明的是,本发明实施例中用户之间包括多种关系,具体地,本发明实施例所述的预设关系可以包括互粉关系、评论关系等等。具体本领域技术人员可以根据实际需要进行任意设置,本发明对此不作具体限定。
具体实施时,本发明实施例用户节点标签值是0至1之间的任意值,具体的数值需要根据实际情况进行设定,例如,例如可以通过设置,使得标签值越接近1代表该用户更接近是机器账号的概率。
也即,本发明实施例所述标签为预先根据所述用户节点的特征而设置的,且所述标签值的范围在0-1之间,表示所述用户节点属于机器节点概率值。
另外,本发明实施例所针对的用户节点可以是预设范围内的用户,例如,预设区域内的用户节点,或者也可以是预设领域内的用户节点等等。
S102、根据所述各用户节点标签值确定所述用户节点与其邻居节点的相似度;
具体实施时,本发明实施例是根据损失函数
Figure BDA0003035588250000051
来对所确定的相似度进行修正,使预测得到的用户节点的标签值
Figure BDA0003035588250000052
越来越接近预设的用户节点的标签yv,最终使预测得到的用户节点的标签值更为准确;其中,l代表网络的第l层,v代表用户,
Figure BDA0003035588250000061
代表第l层第v个节点的嵌入表示,yv表示预设的第v个用户节点的标签值,
Figure BDA0003035588250000062
为预测得到的用户节点的标签值。
S103、根据所述图神经网络GNN和所述相似度,按照第一预设相似度阈值来聚合所述用户节点和其相似的邻居节点,并过滤不相似的邻居节点,得到所述第一预设关系下所述用户节点的嵌入表示;
具体地,本发明实施例是通过强化学习来获取每种预设关系所对应的预设相似度阈值,以过滤掉具有伪装行为的不相似节点。
在具体实施时,本发明实施例是通过预设初始的相似度阈值,并通过多臂伯努利机B(A,f,T)计算的两次相邻训练过程的相似度的平均值,通过该平均相似度差值来对得到的预设相似度阈值进行调整,直到得到最优相似度阈值,并将该最优相似度阈值作为对应的预设关系预设相似度阈值;其中,A为是动作空间,f为奖励函数,T为终止条件。
其中,本发明实施例中,所述通过多臂伯努利机B(A,f,T)计算的两次相邻训练过程的平均相似度差值,通过该平均相似度差值来对得到的预设相似度阈值进行调整,直到得到最优相似度阈值,包括:
通过所述奖励函数基于用户节点与其邻居节点两次相邻训练过程的相似度的平均值来对所述预设的初始的相似度阈值进行奖惩的调整,如果本次训练进程与上次进程相比较,用户节点与其邻居节点的相似度的平均值更小,则对该轮动作进行奖励,反之则惩罚;
所述动作空间A根据所述奖励函数的奖励触发则对相似度阈值加上一个预设固定数值,并根据所述奖励函数的惩罚触发则对相似度阈值减去一个所述预设固定数值,且所述预设固定数值在0至1之间;
当满足所述终止条件,则将当天的相似度阈值确定为最优的相似度阈值。
需要说明的是,本发明实施例中终止条件设置的是当连续预设数量个训练进程的奖励函数之和小于预设数值,则确定满足所述终止条件,将当天的相似度阈值确定为最优的相似度阈值。
S104、重复执行步骤S101-S103、,获得其他预设关系下用户节点的嵌入表示;
也即,本发明实施例是通过处理,得到对不同预设关系下用户节点的嵌入表示。
S105、将不同预设关系下的用户节点的嵌入表示按照对应预设关系下的预设相似度阈值进行聚合,得到最终的嵌入表示,并基于该最终的嵌入表示判断用户节点是否是机器账号。
具体,本发明实施例是将不同预设关系下的预设相似度作为对应预设关系的权重,并将不同预设关系下的所有用户节点按照对应的权重进行聚合,得到用户节点最终的嵌入表示。
总体来说,本发明实施例是针对现有的社交数据集并不是由多维空间中独立的点组成的,相反,每个用户作为一个独立的数据点,不同数据点之间可能会有相互依赖的关系,基于此考虑,本发明通过根据图神经网络的机器账号识别是通过网络模型,学习到每一个用户节点的嵌入表示,在用户节点嵌入中将用户节点和其邻居节点之间的交互关系融合表示,在检测机器账号时,用户节点的嵌入表示中包含该用户节点和其他用户节点交互的丰富信息,所以基于该嵌入表示可以非常准确地达到检测目的,从而最终提高机器账号检测的准确率。
也即,本发明实施例是学习到用户节点的嵌入表示,该嵌入表示中包含了该用户节点各种交互信息,具体本发明实施例所述方法包括:
第一,由于机器账号为了伪装自己而和一些正常用户建立了连接,如果不进行过滤就将邻居用户进行聚合来得到节点嵌入表示,这一行为将会导致最终的节点嵌入表示中,机器账号因为和多个正常用户交互而被抹除一些机器账号所具有的可识别特征,这将非常不利于机器账号的判别。因此应该过滤掉和自己行为不相似的邻居节点,而将和用户节点行为相似的邻居节点进行聚合,以此提高机器账号识别的准确率。本发明实施例提出一种有效的相似性度量指标来衡量自己与周围邻居用户的相似性。并且结合特定的领域知识对指标进行优化,即通过标注好的数据集进行参数化的学习。这种有监督的度量指标比起无监督的指标,更具有可靠性,并通过修改监督信息降低训练的时间复杂度,最终可以提高两个节点之间相似性度量指标计算的高效性。
第二,由于机器账号伪装行为在不同关系下会和不同数量的正常用户建立关系连接,以此来骗过机器账号识别系统,所以相似性需要达到多少的阈值以上才属于相似邻居是需要关注的问题。虽然通过标注好的数据可以准确获取每个关系下相似邻居的数量,且会取得最为准确的效果,但是标注数据成本较高,较难获得;因此,需要针对不同关系设计不同的邻居选择器,在每一种关系中自适应地计算出不同的过滤阈值,达到最优地不相似邻居的过滤效果。过滤不相似邻居可以将和自己行为相似的邻居信息聚合在一起,最终更易于机器账号的识别。此方法既适用于同构图,也能在异构图中很好地适用,即在多关系复杂网络中,仍然具有较高的准确性。在上述方法中相似性测度和自适应的选择阈值共同工作,为模型应用在各种具有伪装行为的机器账号检测中提供了可能。
第三,针对异构图中多关系的复杂场景,本发明实施例进行了专门的设计。学习不同关系的权重系数,通过不同的权重将多种关系聚合到一起,最终得到中心节点的嵌入表示,以此作为判断是否是机器账号的依据。
通过上述方法,最终可以实现一个带有自适应阈值选择,并且可以识别带有伪装特性的机器账号。该方法具有广泛的应用场景和较高的抗攻击能力,在带有噪声数据的数据集中也能进行工作,因为上述方法功能滤除了噪声数据对最终是被结果的影响,使得最后取得准确的识别结果。
下面将结合图2,通过一个具体的例子对本发明实施例所述的方法进行详细的解释和说明:
如图2所示,本发明实施例首先通过标签感知相似性测度计算用户节点与其邻居的相似度;然后利用邻居选择器,并通过GNN来聚合用户节点和相似的邻居节点,在训练GNN模型的同时利用强化学习来自主学习邻居选择器的过滤阈值,来过滤不相似邻居;最后使用关系间聚合器,将中心用户在不同关系下的所有邻居进行聚合,最终得到用户的嵌入表示。通过节点富含各种交互信息的嵌入表示,再通过分类器识别出哪些账户是机器账户,哪些是正常账户。
(1)标签感知相似性测度的计算
该测度为了清楚度量用户之间的相似性,使得度量具有说服力,运用多层感知机对用户的标签进行预测,用户标签预测结果的l1距离来代表两个用户之间的相似性。为了节省计算资源,本发明实施例只将用户本身的嵌入表示作为下一层的输入,而不使用嵌入表示的组合结果作为输入,因此时间复杂度由
Figure BDA0003035588250000091
降到
Figure BDA0003035588250000096
其中
Figure BDA0003035588250000092
是每个节点度数的均值,在现实世界的真实数据集中这个数字会非常大,d是用户节点选取特征的维度。
将相似度的计算变为GNN网络中的一层,拼接在聚合操作之前,但是如果不能高效地计算相似性,就会影响后续地检测任务。因此,MLP(Multi-layer Perceptron)的参数不能简单地通过反向传播来更新,要为相似性测度定义自己的损失函数,为此本方法定义了一个交叉熵损失函数,利用来自标签的监督信号直接训练相似性测度:
Figure BDA0003035588250000093
该公式l代表网络的第l层,v代表用户,
Figure BDA0003035588250000094
代表第l层第v个节点的嵌入表示,yv表示预设的第v个用户节点的标签值,
Figure BDA0003035588250000095
为预测得到的用户节点的标签值。相似性度量参数直接由该交叉熵损失函数训练得到,它保证在前几个批次内快速选择相似邻居。
(2)相似性感知邻居选择器的训练
在每种关系的邻居选择中,本发明实施例采用自适应的过滤阈值进行top-p采样,过滤掉与用户不相似的邻居用户,以此来得到中心用户在每种关系下的嵌入表示,即使机器账户通过关系伪装来逃避检测器,但是相似性的判断,也会将用于关系伪装而与正常用户建立的交互连接破坏掉,暴露出它机器账户的特征。
具体实施时,本发明采用强化学习来寻找自适应的最优过滤阈值。首先将最优过滤阈值寻找的过程表示为多臂伯努利机(Bernoulli Multi-armed Bandit,BMAB),即B(A,f,T)。其中A为是动作空间,f为奖励函数,T为终止条件。给定初始的过滤阈值,邻居选择器根据两个相邻训练过程的平均距离差,相应地对过滤阈值进行增加或减少。
本发明实施例的强化学习的各项组成解释如下:
动作空间:定义动作空间中每次动作就是根据奖励函数对过滤阈值加上或减去一个固定的数值,这个数值在0,1之间。
奖励函数:本发明实施例通过中心用户与邻居用户相似性的平均值来对过滤阈值进行奖惩的调整。如果本次训练进程与上次进程相比较,中心用户和邻居用户相似性的平均值更小,说明该轮动作使得周围邻居与中心用户更加相似,则对该轮动作进行奖励;反之则惩罚。
终止条件:当连续十个训练进程的奖励函数之和小于2的时候,则可以证明已经找到最优的过滤阈值。
在top-p采样中,过滤阈值的在0,1的一个闭区间内,闭区间代表可以把周围所有邻居都包括进来或者排除所有邻居节点。本发明实施例首先计算所有中心用户和周围邻居的相似性度量,然后在关系r下,将中心用户的所有邻居的相似性度量按照降序排列,通过过滤阈值来选择前p个邻居来进行聚合,得到每个用户在单一关系中的嵌入表示。
(3)关系感知邻居聚合器的设计
在每种关系内进行了邻居过滤后,本发明实施例应该对不同关系的信息进行聚合,因此本发明实施例需要学习到不同关系在聚合时不同的权重。之前的一些方法使用注意力机制或者通过监督学习来得到不同关系权重。但是基于上述方法处理之后,本发明实施例假设已经在每一种关系下选择了最相似的邻居,那么不同关系之间的注意系数或权重参数应该是相似的。因此,为了在保留重要关系信息的同时节省计算成本,直接采用关系内的最优过滤阈值当作关系间的聚合权重,即通过强化学习学到的自适应过滤阈值。
在聚合过程结束后,本发明实施例获得每个用户节点的嵌入表示,这些表示中富含了节点与周围邻居的交互信息,表达了他们之间的相互依赖;并且通过上述处理后,本发明实施例已经将伪装行为剔除掉,如果是机器账号也没有了伪装,更易于识别。最后本发明实施例使用分类器将每种账号的节点嵌入表示放入分类器中,最终得到每个账号的类别。
本发明实施例从中心用户与邻居的相似性度量,再到自适应的过滤阈值选择,最后进行关系间的聚合,运用强化学习寻找自适应的过滤阈值,完成机器用户的检测及伪装对抗的任务。本发明实现的关键点包括:
(1)一些伪装机器用户可能会与正常用户具有相似的特征,并进一步误导GNN产生无信息的节点嵌入。以往工作都是使用无监督的相似性度量,如余弦相似度,并不能很好地表达节点之间相似性的问题。因此需要一个由领域专家监督的,即标注好的数据参与训练的相似性表示指标。因此本发明提出的标签相似性测度,通过监督信号来对相似性进行衡量,有效解决了无监督信号不可靠的问题。对于有些监督信号计算需要耗费很长时间地问题,本方法也通过修改监督信号地损失函数来降低时间复杂度。
(2)在节点嵌入时,应选择与自己行为相似的邻居进行聚合,当机器账号具有伪装行为时,聚合不相似的邻居会对节点的嵌入表示造成很大的影响,甚至会改变对机器账号的判断,有时机器账号的嵌入表示和正常用户基本一致。为了过滤不相似的邻居,以此来提高GNN的聚合能力。本发明实施例设计了一个自适应的过滤采样标准来自动选择最优数量的相似邻居来进行聚合。因此,设计了一种基于强化学习的相似性感知的邻居选择器。它使用带有自适应过滤阈值的top-p抽样在每个关系下自动选择相似的邻居。
(3)由于社交网络的复杂性,单一关系的机器账号检测很显然不能适用于实际生活场景中。本发明通过对多种关系的抽样,完成对多关系的社交网络的信息挖掘,适用于各种伪装行为的机器账号识别检测。
本发明选用Caverlee、Midterm-2018和微博真实用户数据来研究基于GNN的机器账号检测问题及伪装行为。本发明对GNN模型进行了一定的改进,选用GCN(GraphConvolutionalNetwork,图卷积网络),GAT(GraphAttention Network,图注意力网络),RGCN(Relational Graph Convolutional Network,关系图卷积网络)和GraphSAGE(GraphSAmple and aggreGatE,图采样聚合网络)几个通常会用到的GNN模型,验证对于GNN的改进能够有效抵御社交数据中干扰检测性能的坏数据。并使用基于贝叶斯分类器的水军检测,基于磷虾群免疫神经网络的僵尸粉检测,基于SVM的垃圾用户检测和基于聚类的垃圾邮件检测作为机器账号检测的代表性方法,来比较本发明对于机器账号检测准确性的提高,以及对于伪装用户识别的有效性。使用Recall和AUC(Area Under Curve)来对模型进行衡量。
(1)在三个数据集上通过对两个衡量指标的计算,本发明在大多数训练比例和指标下都优于其他检测方法。在针对机器账号的检测效果中,本发明效果明显优于其他基于分类或基于聚类的检测方法。因为只有在基于GNN的方法中考虑到了用户之间的交互行为,很好地将用户之间地依赖关系表达出来。在具有伪装行为的数据集中,基于分类和基于聚类的方法效果较差,几乎无法识别伪装行为,这些技术发明在设计之初就没有将伪装行为考虑在内。而本方法针对伪装行为进行了特定的优化,在有较大范围伪装行为的机器账号数据集中,也能准确判断哪些是机器账号,哪些是正常用户。
(2)该方法对于最后关系间聚合沿用了之前的过滤阈值,在实验中选用几种其他关系间聚合权重,分别为注意力机制、学习权重或者均值和本发明实施例提出的方法进行比较,最后结果表明在大多数情况下注意力制和本发明实施例提出的方法具有相似的性能,即在关系间聚合时,注意力机制和学习权重方法是没有必要的。本发明实施例提出的方法即能节省计算资源,也可以获得很不错的效果。
(3)随着训练的进行,关系间的距离会变得越来越大,因为GNN将节点嵌入投影到更大范围的空间中去,使得它们更加容易识别,但是每种关系之间的差异越来越大,当模型过滤到噪声邻居之后,不同关系之间的平均距离会变得更近。之后将强化学习和其他两种不同的邻居机制进行比较。综上表明,强化学习具有更优的速度并且能在每种关系中找到包含信息的邻居,证明了强化学习的切实有效性。
综上,本发明实施例所述的方法具有自适应性:在给定任意多关系图的情况下,自适应地选择聚合的最佳邻域;且没有注意力机制或深度强化学习,能够进行高效计算;其他神经模块也能够很方便整合进本方法中,易于进行灵活的扩展。
本发明第二实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现本发明第一实施例中任一种所述的基于图神经网络的机器账号识别及伪装对抗方法。
本发明实施例的相关内容可参见本发明第一实施例进行理解,在此不做详细论述。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种基于图神经网络的机器账号识别及伪装对抗方法,其特征在于,包括:
在第一预设关系下,基于所述第一预设关系的图神经网络GNN对该图神经网络GNN下各个用户节点的标签进行预测,得到所述第一预设关系下各用户节点的标签值;
根据所述各用户节点标签值确定所述用户节点与其邻居节点的相似度;
根据所述图神经网络GNN和所述相似度,按照第一预设相似度阈值来聚合所述用户节点和其相似的邻居节点,并过滤不相似的邻居节点,得到所述第一预设关系下所述用户节点的嵌入表示;
重复执行上述步骤,获得其他预设关系下用户节点的嵌入表示;
将不同预设关系下的用户节点的嵌入表示按照对应预设关系下的预设相似度阈值进行聚合,得到最终的嵌入表示,并基于该最终的嵌入表示判断用户节点是否是机器账号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各用户节点标签值确定所述用户节点与其邻居节点的相似度之后,所述根据所述图神经网络GNN和所述相似度,按照第一预设相似度阈值来聚合所述用户节点和其相似的邻居节点之前,所述方法还包括:
根据损失函数
Figure FDA0003035588240000011
来对所确定的相似度进行修正,使预测得到的用户节点的标签值
Figure FDA0003035588240000012
越来越接近预设的用户节点的标签yv,最终使预测得到的用户节点的标签值更为准确;
其中,l代表网络的第l层,v代表用户,
Figure FDA0003035588240000013
代表第l层第v个节点的嵌入表示,yv表示预设的第v个用户节点的标签值,
Figure FDA0003035588240000014
为预测得到的用户节点的标签值。
3.根据权利要求1所述的方法,其特征在于,
所述标签为预先根据所述用户节点的特征而设置的,且所述标签值的范围在0-1之间,表示所述用户节点属于机器节点概率值。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过强化学习来获取每种预设关系所对应的预设相似度阈值,以过滤掉具有伪装行为的不相似节点。
5.根据权利要求4所述的方法,其特征在于,所述通过强化学习来获取每种预设关系所对应的预设相似度阈值,包括:
预设初始的相似度阈值,并通过多臂伯努利机B(A,f,T)计算的两次相邻训练过程的相似度的平均值,通过该平均相似度差值来对得到的预设相似度阈值进行调整,直到得到最优相似度阈值,并将该最优相似度阈值作为对应的预设关系预设相似度阈值;其中,A为是动作空间,f为奖励函数,T为终止条件。
6.根据权利要求5所述的方法,其特征在于,所述通过多臂伯努利机B(A,f,T)计算的两次相邻训练过程的平均相似度差值,通过该平均相似度差值来对得到的预设相似度阈值进行调整,直到得到最优相似度阈值,包括:
通过所述奖励函数基于用户节点与其邻居节点两次相邻训练过程的相似度的平均值来对所述预设的初始的相似度阈值进行奖惩的调整,如果本次训练进程与上次进程相比较,用户节点与其邻居节点的相似度的平均值更小,则对该轮动作进行奖励,反之则惩罚;
所述动作空间A根据所述奖励函数的奖励触发则对相似度阈值加上一个预设固定数值,并根据所述奖励函数的惩罚触发则对相似度阈值减去一个所述预设固定数值,且所述预设固定数值在0至1之间;
当满足所述终止条件,则将当天的相似度阈值确定为最优的相似度阈值。
7.根据权利要求6所述的方法,其特征在于,所述当满足所述终止条件,则将当天的相似度阈值确定为最优的相似度阈值,包括:
当连续预设数量个训练进程的奖励函数之和小于预设数值,则确定满足所述终止条件,将当天的相似度阈值确定为最优的相似度阈值。
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述图神经网络GNN和所述相似度,按照第一预设相似度阈值来聚合所述用户节点和其相似的邻居节点,并过滤不相似的邻居节点,还包括:
根据所述第一预设关系的图神经网络GNN和所预测的相似度,按照第一预设相似度阈值来聚合与所述用户节点相似的top-p邻居节点,并过滤不相似的邻居节点,其中,p为自然数。
9.根据权利要求1-6中任一项所述的方法,其特征在于,所述将不同预设关系下的用户节点的嵌入表示按照对应预设关系下的预设相似度阈值进行聚合,得到最终的嵌入表示,包括:
将不同预设关系下的预设相似度作为对应预设关系的权重,并将不同预设关系下的所有用户节点按照对应的权重进行聚合,得到用户节点最终的嵌入表示。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现权利要求1-9中任意一项所述的基于图神经网络的机器账号识别及伪装对抗方法。
CN202110442722.2A 2021-04-23 2021-04-23 一种基于图神经网络的机器账号识别及伪装对抗方法 Active CN113268782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110442722.2A CN113268782B (zh) 2021-04-23 2021-04-23 一种基于图神经网络的机器账号识别及伪装对抗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110442722.2A CN113268782B (zh) 2021-04-23 2021-04-23 一种基于图神经网络的机器账号识别及伪装对抗方法

Publications (2)

Publication Number Publication Date
CN113268782A true CN113268782A (zh) 2021-08-17
CN113268782B CN113268782B (zh) 2022-08-16

Family

ID=77229211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110442722.2A Active CN113268782B (zh) 2021-04-23 2021-04-23 一种基于图神经网络的机器账号识别及伪装对抗方法

Country Status (1)

Country Link
CN (1) CN113268782B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737934A (zh) * 2023-06-20 2023-09-12 合肥工业大学 一种基于半监督图神经网络的水军虚假评论检测算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852231B1 (en) * 2014-11-03 2017-12-26 Google Llc Scalable graph propagation for knowledge expansion
CN111860783A (zh) * 2020-07-22 2020-10-30 中山大学 图节点低维表征学习方法、装置、终端设备及存储介质
CN112258250A (zh) * 2020-11-16 2021-01-22 腾讯科技(深圳)有限公司 基于网络热点的目标用户识别方法、装置和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9852231B1 (en) * 2014-11-03 2017-12-26 Google Llc Scalable graph propagation for knowledge expansion
CN111860783A (zh) * 2020-07-22 2020-10-30 中山大学 图节点低维表征学习方法、装置、终端设备及存储介质
CN112258250A (zh) * 2020-11-16 2021-01-22 腾讯科技(深圳)有限公司 基于网络热点的目标用户识别方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩忠明等: "基于多信息融合表示学习的关联用户挖掘算法", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737934A (zh) * 2023-06-20 2023-09-12 合肥工业大学 一种基于半监督图神经网络的水军虚假评论检测算法
CN116737934B (zh) * 2023-06-20 2024-03-22 合肥工业大学 一种基于半监督图神经网络的水军虚假评论检测算法

Also Published As

Publication number Publication date
CN113268782B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
Zheng et al. A deep bayesian policy reuse approach against non-stationary agents
CN109548029B (zh) 一种面向无线传感器网络的两级节点信任评估方法
He et al. MTAD‐TF: Multivariate Time Series Anomaly Detection Using the Combination of Temporal Pattern and Feature Pattern
CN118013135B (zh) 基于关系图卷积神经网络的图对比学习推荐方法
CN113643033B (zh) 一种用于大数据风控分析的信息处理方法及服务器
CN112488316B (zh) 事件意图推理方法、装置、设备及存储介质
CN113268782B (zh) 一种基于图神经网络的机器账号识别及伪装对抗方法
Janani et al. Threat analysis model to control IoT network routing attacks through deep learning approach
CN116501956A (zh) 一种基于分层图对比学习的知识感知多域推荐方法及系统
Yang et al. Gated graph convolutional network based on spatio-temporal semi-variogram for link prediction in dynamic complex network
Al-Dyani et al. Improvements of bat algorithm for optimal feature selection: A systematic literature review
Zhao et al. Gradient-based adaptive particle swarm optimizer with improved extremal optimization
CN116916317A (zh) 一种基于大白鲨和随机森林的入侵检测方法
CN114297498B (zh) 一种基于关键传播结构感知的意见领袖识别方法和装置
CN113297500B (zh) 一种社交网络孤立节点链接预测方法
Yuan et al. Modeling Long-and Short-Term Service Recommendations with a Deep Multi-Interest Network for Edge Computing
Perez et al. Mahalanobis distance metric learning algorithm for instance-based data stream classification
Deng et al. An Ensemble Learning Model Based on Three-Way Decision for Concept Drift Adaptation
CN117544432B (zh) 一种电子政务外网接入管理方法及装置
CN115062230B (zh) 数据处理方法、装置、设备、介质和程序产品
CN117688472B (zh) 一种基于因果结构的无监督域适应多元时间序列分类方法
Ren et al. MAFSIDS: A reinforcement learning-based intrusion detection model for multi-intelligence feature selection networks
Wu A Hybrid Model Based on GAT and TAGCN for Node Classification
CN116155755B (zh) 一种基于线性优化封闭子图编码的链路符号预测方法
Chen et al. Trustworthiness Evaluation System of UEIOT Devices Based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant