CN113343123B - 一种生成对抗多关系图网络的训练方法和检测方法 - Google Patents

一种生成对抗多关系图网络的训练方法和检测方法 Download PDF

Info

Publication number
CN113343123B
CN113343123B CN202110685127.1A CN202110685127A CN113343123B CN 113343123 B CN113343123 B CN 113343123B CN 202110685127 A CN202110685127 A CN 202110685127A CN 113343123 B CN113343123 B CN 113343123B
Authority
CN
China
Prior art keywords
node
relation
graph
nodes
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110685127.1A
Other languages
English (en)
Other versions
CN113343123A (zh
Inventor
杨英光
谢海永
吴曼青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110685127.1A priority Critical patent/CN113343123B/zh
Publication of CN113343123A publication Critical patent/CN113343123A/zh
Application granted granted Critical
Publication of CN113343123B publication Critical patent/CN113343123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于检测机器账号的生成对抗多关系图网络模型的训练方法,所述训练方法包括:将平台建模成包含节点v和关系r的图
Figure DDA0003124299230000011
其中,所述图
Figure DDA0003124299230000012
的数量由所述关系r的类型数量确定;利用生成器G生成源节点v的虚假目标节点vt;将采样的节点对(v,u)和(v,vt)分别输入到连接关系判别器D中,重复训练所述连接关系判别器D;用训练好的所述连接关系判别器D推理所述图
Figure DDA0003124299230000013
中的节点对,确定所述节点对的连接关系,进而更新图
Figure DDA0003124299230000014
的结构;将节点的表征向量输入到分类器中,根据损失函数,反向传播更新模型的参数,进行多次训练,得到训练好的生成对抗多关系图网络模型。本发明同时公开了一种基于生成对抗多关系图网络模型的机器账号的检测方法。

Description

一种生成对抗多关系图网络的训练方法和检测方法
技术领域
本申请涉及机器账号检测领域,尤其涉及一种用于检测机器账号的生成对抗多关系图网络模型的训练方法和检测方法。
背景技术
2016年以来已经发现了第三代机器账号,这些账号由于人为操作和自动化的混合程度加深,甚至从其他真实账号盗取信息,利用人工智能技术生成高可信的文本或图片,其行为更像真实人类账号,使得机器账号更加难以被检测识别。
目前已提出不少机器账号检测方法的专利。例如通过分析用户好友的社会关系来区分正常账户和机器人账户;使用对蜜罐账号的发帖和关注策略收集账号,从收集的账号中检测机器人账号,并利用检测出的机器人账号找到更多的机器人账号;从用户和消息两类实体出发,采用非负矩阵三分解的方法同时给出用户和消息的划分指示矩阵,检测异常用户和消息;使用K-均值(K-means)算法和DBSCAN结合的聚类算法对社交网络中的账户进行聚类,使用聚类后的聚类中心附近的数据和簇边界附近的数据来训练支持向量机分类器用训练得到的SVM分类器对机器账号进行检测;利用网络爬虫自动获取微博和其他社交网络用户数据,分成训练集和测试集,用训练集训练SVM算法的分类器,利用训练好的分类器对社交网络用户进行检测。
然而上述现有技术面临以下问题:依赖大量数据样本,检测模型提出不及时;现有检测方案利用收集到的机器账号数据进行分析训练,进而提出对应训练集的检测模型并获得较好的效果,但是这些方法的泛化性较差。
发明内容
(一)要解决的技术问题
针对上述现有技术中存在的问题,本发明提供了一种用于检测机器账号的生成对抗多关系图网络模型的训练方法和一种基于生成对抗多关系图网络模型的机器账号的检测方法,旨在降低对数据样本的依赖,并充分利用账号之间不同交互操作所形成的不同类型的关系,丰富对账号检测的维度,提高机器账号检测的泛化性。
(二)技术方案
本发明公开了一种用于检测机器账号的生成对抗多关系图网络模型的训练方法,其中生成对抗多关系图网络模型包括生成器G、连接关系判别器D和分类器,上述训练方法包括:将不同平台上的账号建模成节点v;将账号之间的交互操作建模成关系r,其中上述关系r的数量由账号之间交互操作的类型数量确定;将不同平台建模成包含节点和关系的图
Figure BDA0003124299210000021
其中,上述图
Figure BDA0003124299210000022
的数量由上述关系r的数量确定;采样成对相连的节点对(v,u),利用上述生成器G生成源节点v的虚假目标节点vt;将节点对(v,u)和(v,vt)分别输入到上述连接关系判别器D中,用于训练上述连接关系判别器D,其中,当上述连接关系判别器D能够正确区分节点对(v,u)和(v,vt)的连接关系后,停止对上述连接关系判别器D的训练;用训练好的上述连接关系判别器D推理上述图
Figure BDA0003124299210000023
中的节点对,确定上述节点对的连接关系,进而更新图
Figure BDA0003124299210000024
的结构;选取上述图
Figure BDA0003124299210000025
中的一个节点,选择上述节点将被聚合的邻居节点;在同种关系下,聚合上述节点的邻居节点得到同种关系下的图嵌入向量;将上述节点在不同关系下的图嵌入向量进行向量运算得到不同关系下的上述节点的表征向量;将上述节点的表征向量输入到上述分类器中,根据上述生成对抗多关系图网络模型的损失函数,反向传播更新生成对抗多关系图网络模型的参数,当上述损失函数的输出的值不再发生变化后,则停止对生成对抗多关系图网络的训练,得到训练好的生成对抗多关系图网络模型。
根据上述的训练方法,其中利用上述生成器G生成源节点v的虚假目标节点vt,包括:将源节点v和潜在变量z相加,其中上述潜在变量z符合多元正态分布,具体表达式为
Figure BDA0003124299210000031
其中,
Figure BDA0003124299210000032
d等于源节点的特征向量维度;将相加后的结果输入到上述生成器G中生成上述虚假目标节点vt
根据上述的训练方法,其中上述生成器G的具体表达式为G(v;θG)=f(z;θf),其中f使用多层感知机实现,θf是f的参数,v是源节点,θG是上述生成器的参数;上述生成器G的损失函数定义为
Figure BDA0003124299210000033
其中上述生成器G的参数θG通过最小化
Figure BDA00031242992100000311
进行优化。
根据上述的训练方法,其中更新图
Figure BDA00031242992100000312
的结构包括:在上述连接关系判别器D判断节点对之间存在连接的情况下,则在节点对之间建立连接关系;在上述连接关系判别器D判断节点对之间不存在连接的情况下,则在节点对之间删除连接关系;
上述连接关系判别器D被定义为
Figure BDA0003124299210000034
其中f使用多层感知机实现,θf是f的参数,θD是连接关系判别器D的参数;
上述连接关系判别器D的损失函数定义为
Figure BDA0003124299210000035
其中
Figure BDA0003124299210000036
是正例采样时的上述连接关系判别器D的损失函数,具体形式为
Figure BDA0003124299210000037
是负例采样时上述连接关系判别器D的损失函数,具体形式为
Figure BDA0003124299210000038
其中上述正例采样即采样的节点对(v,u)在图
Figure BDA00031242992100000313
中是实际存在边连接的;
其中上述负例采样即对于一个给定的节点
Figure BDA00031242992100000314
vt表示为v的虚假邻居节点,由上述生成器生成,即vt~G(v;θG),则(v,vt)称为负例采样;采用负例采样时,上述连接关系判别器的损失函数为
Figure BDA00031242992100000310
根据上述的训练方法,其中选择上述节点将被聚合的邻居节点,包括:计算两个节点之间的L1范数距离;根据上述L1范数距离,计算两个节点的相似度;选择相似度大于选择阈值的节点作为上述节点将被聚合的邻居节点。
根据上述的训练方法,其中上述L1范数距离的计算公式为:
Figure BDA0003124299210000041
其中v′是节点v的邻居节点,f(l)代表在关系r下第l层的多层感知机,σ是非线性激活函数tanh,
Figure BDA0003124299210000042
表示节点v在l-1层的嵌入向量;
其中上述两个节点的相似度的计算公式为:
Figure BDA00031242992100000414
其中上述f(l)的损失函数为交叉损失函数,计算公式为:
Figure BDA0003124299210000043
其中yv是节点v的标签,yv∈{0,1},0代表节点为正常账号,1代表节点为机器账号。
根据上述的训练方法,其中上述同种关系下的图嵌入向量的计算公式为:
Figure BDA0003124299210000044
其中
Figure BDA0003124299210000045
是节点v在关系r下第l层的嵌入向量,v′是节点v的邻居节点,
Figure BDA0003124299210000046
是对于节点v的所有在关系r下抽取的邻居节点的嵌入向量取均值,ReLU是线性整流函数;其中上述表征向量的计算公式为:
Figure BDA0003124299210000047
其中
Figure BDA0003124299210000048
是上述节点v在l层得到的最终的嵌入向量,
Figure BDA0003124299210000049
是从上一层中得到的上述节点v的嵌入向量,
Figure BDA00031242992100000410
是设置的邻居过滤阈值。
根据上述的训练方法,其中上述损失函数计算公式为:
Figure BDA00031242992100000411
其中
Figure BDA00031242992100000415
是生成对抗多关系图神经网络的损失函数,
Figure BDA00031242992100000412
是交叉损失函数;
根据上述的训练方法,其中上述生成对抗多关系图神经网络模型的损失函数计算公式为:
Figure BDA00031242992100000413
其中yv∈{0,1}是节点v的标签,MLP是多层感知机。
本发明同时公开了一种基于生成对抗多关系图网络模型的机器账号的检测方法,包括:输入待检测的账号;将待检测账号与其他账号之间的交互操作建模成关系,其中每种交互操作对应一种关系;将待检测账号所在的平台建模成图,其中图的数量与关系的种类一致;使用生产对抗多关系图网络模型对待检测账号所在的图进行更新,其中上述生产对抗多关系图网络模型由权利要求1-9任一上述的方法训练得到;选取待检测账号将被聚合的邻居节点;在同种关系下,聚合上述待检测账号的邻居节点得到同种关系下的待检测账户的图嵌入向量;将上述待检测账号在不同关系下的图嵌入向量进行向量运算得到不同关系下的上述待检测账号的表征向量;将表征向量输入到上述生产对抗多关系图网络模型的分类器中,输出待检测账号的分类结果。
(三)有益效果
本发明能够充分利用账号之间交叉操作所形成的信息,从而构建一个多关系图的生成对抗网络模型,同时能够在训练过程中使用生成对抗多关系图网络模型改变多关系图的结构;依托于生成对抗多关系图神经网络模型对机器账号信息进行聚合得到表征向量,然后进行机器账号检测;同时利用社交平台中账号之前的关联关系,从而提升对机器账号的检测能力。
附图说明
图1是生成对抗多关系图网络模型图。
图2是生成对抗多关系图网络模型更新节点对之间关系的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明实施例公开了一种用于检测机器账号的生成对抗多关系图网络模型的训练方法,其中生成对抗多关系图网络模型包括生成器G、连接关系判别器D和分类器,所述训练方法包括:将不同平台上的账号建模成节点v;将账号之间的交互操作建模成关系r,其中所述关系r的数量由账号之间交互操作的类型数量确定;将不同平台建模成包含节点和关系的图
Figure BDA0003124299210000061
其中,所述图
Figure BDA0003124299210000065
的数量由所述关系r的数量确定;采样成对相连的节点对(v,u),利用所述生成器G生成源节点v的虚假目标节点vt;将节点对(v,u)和(v,vt)分别输入到所述连接关系判别器D中,用于训练所述连接关系判别器D,其中,当所述连接关系判别器D能够正确区分节点对(v,u)和(v,vt)的连接关系后,停止对所述连接关系判别器D的训练;用训练好的所述连接关系判别器D推理所述图
Figure BDA0003124299210000062
中的节点对,确定所述节点对的连接关系,进而更新图
Figure BDA0003124299210000063
的结构;选取所述图
Figure BDA0003124299210000064
中的一个节点,选择所述节点将被聚合的邻居节点;在同种关系下,聚合所述节点的邻居节点得到同种关系下的图嵌入向量;将所述节点在不同关系下的图嵌入向量进行向量运算得到不同关系下的所述节点的表征向量;将所述节点的表征向量输入到所述分类器中,根据所述生成对抗多关系图网络模型的损失函数,反向传播更新生成对抗多关系图网络模型的参数,当所述损失函数的输出的值不再发生变化后,则停止对生成对抗多关系图网络的训练,得到训练好的生成对抗多关系图网络模型。
本发明能够动态更新图的结构,并且充分利用了平台上账号之间交互操作(如回复、关注、朋友、评论等)的信息,在同种关系下(即同类型的关系,如回复)聚合节点相似的邻居节点,得到图嵌入向量,在不同关系下(即不同类型的关系,如回复、关注等)聚合同种关系下的图嵌入向量,得到一个反映账号信息的多维度多层次的表征向量,降低恶意用户为了伪装自身在社交平台中对关系图进行扰动的行为,提升检测器的检测效果。
图1是生成对抗多关系图网络模型图,其中vi表示节点,ri表示不同类型的关系,
Figure BDA0003124299210000066
表示节点i在与特定关系相对应的第j层的表征向量,对于一个中心节点需要聚合与中心节点在不同关系下与中心节点相连接的邻居节点,从而得到可以供下游分类任务进行分类的图嵌入向量。首先使用训练好的生成对抗网络模块来判别图中节点对是否存在连接关系,从而更新图结构。然后根据节点的相似度以及阈值选出将被聚合的邻居节点,在同种关系聚合层,得到中心节点在单一关系下的嵌入向量。在多种关系聚合层聚合中心节点在不同关系下的嵌入向量得到节点最终的表征向量供分类器分类。
图2是生成对抗多关系图网络模型更新节点对之间关系的示意图,其中图示标记的具体含义参考上述图1中的标记,从图中采样成对相连的节点(v,u),用源节点v训练生成器,生成节点v的虚假目标节点vt,同时将节点对(v,u)和(v,vt)输入到连接关系判别器中进行训练。然后从图中采样节点对输入连接关系判别器,推理当前采样节点对是否相似,即是否应该存在连接关系,用连接关系判别器的推理结果更新图结构。
根据本发明公开的训练方法,其中利用上述生成器G生成源节点v的虚假目标节点vt,包括:将源节点v和潜在变量z相加,其中上述潜在变量z符合多元正态分布,具体表达式为
Figure BDA0003124299210000071
其中,
Figure BDA0003124299210000072
d等于源节点的特征向量维度;将相加后的结果输入到上述生成器G中生成上述虚假目标节点vt
生成对抗多关系图网络模型中的生成器G的目标就是能够根据从图中取样得到的源节点生成接近于真实的目标节点。即,当给定了一个源节点
Figure BDA0003124299210000073
生成器G的目标就是生成虚假的目标邻居节点vt,节点vt应该尽可能的接近真实存在的节点。
根据本发明公开的训练方法,其中上述生成器G的具体表达式为G(v;θG)=f(z;θf),其中f使用多层感知机实现,θf是f的参数,v是源节点,θG是上述生成器的参数;上述生成器G的损失函数定义为
Figure BDA0003124299210000074
其中所述生成器G的参数θG通过最小化
Figure BDA0003124299210000075
进行优化。
通过上述生成器G能够生成较为真实的虚假账号,以提高判别器的判别效果。
根据本发明公开的训练方法,其中更新图
Figure BDA0003124299210000076
的结构包括:在上述连接关系判别器D判断节点对之间存在连接的情况下,则在节点对之间建立连接关系;在上述连接关系判别器D判断节点对之间不存在连接的情况下,则在节点对之间删除连接关系;
上述连接关系判别器D试着分辨从图中采样的源节点和邻居节点对(v,u)和源节点与生成器G生成的虚假邻居节点对(v,vt)。对于生成器G生成质量差的邻居节点给出与生成器G期望得到的相反标签,就会提高损失值,为了降低损失值,生成器只能不断优化生成邻居节点的质量,这样判别器D就强制G生成接近真实的虚假邻居节点。同时增强自身对于源节点和邻居节点是否存在真实连接的判别力。对于一个给定的节点对(v,u),D将输出节点v与u存在连接的可能性,因此被连接关系判别器D定义为
Figure BDA0003124299210000081
其中f使用多层感知机实现,θf是f的参数,θD是连接关系判别器D的参数;
上述连接关系判别器D的损失函数定义为
Figure BDA0003124299210000082
通过最小化
Figure BDA0003124299210000087
来优化判别器的参数θD,其中
Figure BDA0003124299210000083
是正例采样时的上述连接关系判别器D的损失函数,具体形式为
Figure BDA0003124299210000084
是负例采样时上述连接关系判别器D的损失函数,具体形式为
Figure BDA0003124299210000085
其中上述正例采样即采样的节点对(v,u)在图
Figure BDA00031242992100000813
中是实际存在边连接的;上述负例采样即对于一个给定的节点
Figure BDA0003124299210000088
vt表示为v的虚假邻居节点,由所述生成器生成,即vt~G(v;θG),则(v,vt)称为负例采样;采用负例采样时,上述连接关系判别器的损失函数为
Figure BDA0003124299210000086
通过从图中进行正例采样和通过使用生成器G生成的虚假节点训练判别器D。选定源节点v,从剩余的其他节点中采样邻居节点u,形成采样节点对
Figure BDA0003124299210000089
然后用训练好的判别器D,对节点对
Figure BDA00031242992100000810
进行推理,得到
Figure BDA00031242992100000811
存在关系r的可能性pe。手动设定阈值为TD,当pe大于阈值时表明图中应该存在连接
Figure BDA00031242992100000812
即更新图,在图中的节点v和u之间添加一条边;反之,将节点v和u之间存在的边删除。
为了能够对邻居有所筛选,需要对节点之间的相似度进行度量。为了实现这一点,在模型的每一层中使用一个单层的多层感知机,来预测两个节点的相关性,作为两个节点相似度的度量标准。
根据本发明公开的训练方法,其中选择所述节点将被聚合的邻居节点,包括:计算两个节点之间的L1范数距离;根据所述L1范数距离,计算两个节点的相似度;选择相似度大于选择阈值的节点作为所述节点将被聚合的邻居节点。
根据本发明公开的训练方法,其中上述L1范数距离的计算公式为:
Figure BDA0003124299210000091
其中v′是节点v的邻居节点,
Figure BDA0003124299210000092
是在第l层的关系r下的一个中心节点v和一个邻居节点v′存在的一条边,f(l)代表在关系r下第l层的多层感知机,σ是非线性激活函数tanh,
Figure BDA0003124299210000093
表示节点v在l-1层的嵌入向量;其中上述两个节点的相似度的计算公式为:
Figure BDA0003124299210000094
每一层都有一个多层感知机进行相似性度量;其中上述f(l)的损失函数为交叉损失函数,计算公式为:
Figure BDA0003124299210000095
其中yv是节点v的标签,yv∈{0,1},0代表节点为正常账号,1代表节点为机器账号。
对于中心节点,可以分别计算其与所有邻居节点的相似度。手动设定选择阈值
Figure BDA00031242992100000910
将所有邻居节点与中心节点的相似度大于
Figure BDA0003124299210000099
的邻居挑选出来。
通过相似度计算来选取节点的将要被聚合的相似邻居节点,能够挖掘节点潜在的信息,方便得到节点的表征向量。
根据本发明实施例公开的训练方法,其中上述同种关系下的图嵌入向量的计算公式为:
Figure BDA0003124299210000096
其中
Figure BDA0003124299210000098
是节点v在关系r下第l层的嵌入向量,v′是节点v的邻居节点,
Figure BDA0003124299210000097
是对于节点v的所有在关系r下抽取的邻居节点的嵌入向量取均值,ReLU是线性整流函数;
其中上述表征向量的计算公式为:
Figure BDA0003124299210000101
其中
Figure BDA0003124299210000102
是所述节点v在l层得到的最终的嵌入向量,
Figure BDA0003124299210000103
是从上一层中得到的所述节点v的嵌入向量,
Figure BDA0003124299210000104
是设置的邻居过滤阈值,与在关系r下得到的
Figure BDA0003124299210000106
相乘,然后与节点v的上一层嵌入向量相加,最后得到v在l层的图嵌入向量
Figure BDA0003124299210000107
通过同种关系下聚合节点的相似邻居节点得到图嵌入向量,并通过向量运算得到不同关系下的节点的表征向量,综合了节点多方面的信息,从而为机器账号检测提供了丰富的维度,提升了机器账号检测的效果和鲁棒性。
根据本发明实施例公开的训练方法,其中所述损失函数计算公式为:
Figure BDA0003124299210000105
其中
Figure BDA0003124299210000108
是生成对抗多关系图神经网络的损失函数,
Figure BDA0003124299210000109
是交叉损失函数;
根据本发明实施例公开的训练方法,其中上述生成对抗多关系图神经网络模型的损失函数计算公式为:
Figure BDA00031242992100001010
其中yv∈{0,1}是节点v的标签,MLP是多层感知机。
通过上述损失函数,可以不断优化模型的参数,最终得到最优的模型参数之。
本发明实施例还公开了一种基于生成对抗多关系图网络模型的机器账号的检测方法,包括:输入待检测的账号;将待检测账号与其他账号之间的交互操作建模成关系,其中每种交互操作对应一种关系;将待检测账号所在的平台建模成图,其中图的数量与关系的种类一致;使用生产对抗多关系图网络模型对待检测账号所在的图进行更新,其中所述生产对抗多关系图网络模型由本发明实施例公开的上述方法训练得到;选取待检测账号将被聚合的邻居节点;在同种关系下,聚合所述待检测账号的邻居节点得到同种关系下的待检测账户的图嵌入向量;将所述待检测账号在不同关系下的图嵌入向量进行向量运算得到不同关系下的所述待检测账号的表征向量;将表征向量输入到所述生产对抗多关系图网络模型的分类器中,输出待检测账号的分类结果。
本发明实施例公开的检测方法,采用训练好的生成对抗多关心图网络模型,不断更新图结构,为两个在图中没有直接相连的潜在相似节点增加连接,再聚合这些相似节点的特征,从而增强模型对潜在相似节点的聚合能力,并去除不相关账号对中心账号的影响;同时根据用户间不同的交互类型,建立多个关系图,在多个关系图下聚合邻居信息得到更加精准,表征能力更强的特征向量,从而提升了对机器账号检测的效果。
结合下述对机器账号训练和检测算法的具体描述,更有利于对本发明实施例公开的训练方法以及检测方法的理解。
首先初始化参数,设定阈值,然后在迭代样本的时候首先用连接关系判别器损失函数和L1范数距离计算公式训练生成对抗网络,如果迭代次数超过T就可以使用连接关系判别器进行推理,更新图结构;然后用相似度计算公式计算节点间的相似度,挑选邻居;然后用图嵌入向量的计算公式计算同种关系节点的图嵌入向量,以及用表征向量计算公式计算多种关系下的图嵌入向量;最后用生成对抗多关图网络模型损失函数公式计算相似度损失和GNN损失,更新参数值。
Figure BDA0003124299210000111
Figure BDA0003124299210000121
以上上述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上上述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于检测机器账号的生成对抗多关系图网络模型的训练方法,其中生成对抗多关系图网络模型包括生成器G、连接关系判别器D和分类器,所述训练方法包括:
将不同平台上的账号建模成节点v;
将账号之间的交互操作建模成关系r,其中所述关系r的数量由账号之间交互操作的类型数量确定;
将不同平台建模成包含节点和关系的图
Figure FDA0003690315140000011
其中,所述图
Figure FDA0003690315140000012
的数量由所述关系r的数量确定;
采样成对相连的节点对(v,u),利用所述生成器G生成源节点v的虚假目标节点vt
将节点对(v,u)和(v,vt)分别输入到所述连接关系判别器D中,用于训练所述连接关系判别器D,其中,当所述连接关系判别器D能够正确区分节点对(v,u)和(v,vt)的连接关系后,停止对所述连接关系判别器D的训练;
用训练好的所述连接关系判别器D推理所述图
Figure FDA0003690315140000013
中的节点对,确定所述节点对的连接关系,进而更新图
Figure FDA0003690315140000014
的结构;
选取所述图
Figure FDA0003690315140000015
中的一个节点,选择所述节点将被聚合的邻居节点;
在同种关系下,聚合所述节点的邻居节点得到同种关系下的图嵌入向量;
将所述节点在不同关系下的图嵌入向量进行向量运算得到不同关系下的所述节点的表征向量;
将所述节点的表征向量输入到所述分类器中,根据所述生成对抗多关系图网络模型的损失函数,反向传播更新生成对抗多关系图网络模型的参数,当所述损失函数的输出的值不再发生变化后,则停止对生成对抗多关系图网络的训练,得到训练好的生成对抗多关系图网络模型。
2.根据权利要求1所述的训练方法,其中利用所述生成器G生成源节点v的虚假目标节点vt,包括:
将源节点v和潜在变量z相加,其中所述潜在变量z符合多元正态分布,具体表达式为
Figure FDA0003690315140000021
其中,
Figure FDA0003690315140000022
d等于源节点的特征向量维度,
Figure FDA0003690315140000023
表示多元正态分布,
Figure FDA0003690315140000024
表示关于所述源节点v的潜在变量z的转置,
Figure FDA0003690315140000025
表示协方差变量;
将相加后的结果输入到所述生成器G中生成所述虚假目标节点vt
3.根据权利要求1所述的训练方法,其中所述生成器G的具体表达式为G(v;θG)=f(z;θf),其中f使用多层感知机实现,θf是f的参数,v是源节点,θG是所述生成器的参数;
所述生成器G的损失函数定义为
Figure FDA0003690315140000026
其中所述生成器G的参数θG通过最小化
Figure FDA0003690315140000027
进行优化。
4.根据权利要求1所述的训练方法,其中更新图
Figure FDA0003690315140000028
的结构包括:
在所述连接关系判别器D判断节点对之间存在连接的情况下,则在节点对之间建立连接关系;
在所述连接关系判别器D判断节点对之间不存在连接的情况下,则在节点对之间删除连接关系;
所述连接关系判别器D被定义为
Figure FDA0003690315140000029
其中f使用多层感知机实现,θf是f的参数,θD是连接关系判别器D的参数;
所述连接关系判别器D的损失函数定义为
Figure FDA00036903151400000210
其中
Figure FDA00036903151400000211
是正例采样时的所述连接关系判别器D的损失函数,具体形式为
Figure FDA00036903151400000212
Figure FDA00036903151400000213
是负例采样时所述连接关系判别器D的损失函数,具体形式为
Figure FDA00036903151400000214
其中所述正例采样即采样的节点对(v,u)在图
Figure FDA00036903151400000215
中是实际存在边连接的;
其中所述负例采样即对于一个给定的节点
Figure FDA00036903151400000216
vt表示为v的虚假邻居节点,由所述生成器生成,即vt~G(v;θG),则(v,vt)称为负例采样;采用负例采样时,所述连接关系判别器的损失函数为
Figure FDA0003690315140000031
5.根据权利要求1所述的训练方法,其中选择所述节点将被聚合的邻居节点,包括:
计算两个节点之间的L1范数距离;
根据所述L1范数距离,计算两个节点的相似度;
选择相似度大于选择阈值的节点作为所述节点将被聚合的邻居节点。
6.根据权利要求5所述的训练方法,其中所述L1范数距离的计算公式为:
Figure FDA0003690315140000032
其中v′是节点v的邻居节点,f(l)代表在关系r下第l层的多层感知机,σ是非线性激活函数tanh,
Figure FDA0003690315140000033
表示节点v在l-1层的嵌入向量;
其中所述两个节点的相似度的计算公式为:
Figure FDA0003690315140000034
其中所述f(l)的损失函数为交叉损失函数,计算公式为:
Figure FDA0003690315140000035
其中yv是节点v的标签,yv∈{0,1},0代表节点为正常账号,1代表节点为机器账号。
7.根据权利要求1所述的训练方法,其中所述同种关系下的图嵌入向量的计算公式为:
Figure FDA0003690315140000036
其中
Figure FDA0003690315140000037
是节点v在关系r下第l层的嵌入向量,v′是节点v的邻居节点,
Figure FDA0003690315140000038
是对于节点v的所有在关系r下抽取的邻居节点的嵌入向量取均值,ReLU是线性整流函数;
其中所述表征向量的计算公式为:
Figure FDA0003690315140000039
其中
Figure FDA00036903151400000310
是所述节点v在l层得到的最终的嵌入向量,
Figure FDA00036903151400000311
是从上一层中得到的所述节点v的嵌入向量,
Figure FDA00036903151400000312
是设置的邻居过滤阈值。
8.根据权利要求1所述的训练方法,其中所述损失函数计算公式为:
Figure FDA0003690315140000041
其中
Figure FDA0003690315140000042
是生成对抗多关系图神经网络的损失函数,
Figure FDA0003690315140000043
是交叉损失函数;
9.根据权利要求8所述的训练方法,其中所述生成对抗多关系图神经网络模型的损失函数计算公式为:
Figure FDA0003690315140000044
其中yv∈{0,1}是节点v的标签,MLP是多层感知机,
Figure FDA0003690315140000045
表示嵌入向量。
10.一种基于生成对抗多关系图网络模型的机器账号的检测方法,包括:
输入待检测的账号;
将待检测账号与其他账号之间的交互操作建模成关系,其中每种交互操作对应一种关系;
将待检测账号所在的平台建模成图,其中图的数量与关系的种类一致;
使用生产对抗多关系图网络模型对待检测账号所在的图进行更新,其中所述生产对抗多关系图网络模型由权利要求1-9任一所述的方法训练得到;
选取待检测账号将被聚合的邻居节点;
在同种关系下,聚合所述待检测账号的邻居节点得到同种关系下的待检测账户的图嵌入向量;
将所述待检测账号在不同关系下的图嵌入向量进行向量运算得到不同关系下的所述待检测账号的表征向量;
将表征向量输入到所述生产对抗多关系图网络模型的分类器中,输出待检测账号的分类结果。
CN202110685127.1A 2021-06-21 2021-06-21 一种生成对抗多关系图网络的训练方法和检测方法 Active CN113343123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110685127.1A CN113343123B (zh) 2021-06-21 2021-06-21 一种生成对抗多关系图网络的训练方法和检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110685127.1A CN113343123B (zh) 2021-06-21 2021-06-21 一种生成对抗多关系图网络的训练方法和检测方法

Publications (2)

Publication Number Publication Date
CN113343123A CN113343123A (zh) 2021-09-03
CN113343123B true CN113343123B (zh) 2022-09-09

Family

ID=77478425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110685127.1A Active CN113343123B (zh) 2021-06-21 2021-06-21 一种生成对抗多关系图网络的训练方法和检测方法

Country Status (1)

Country Link
CN (1) CN113343123B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822419B (zh) * 2021-09-26 2023-08-01 广东技术师范大学 一种基于结构信息的自监督图表示学习运行方法
CN116737934B (zh) * 2023-06-20 2024-03-22 合肥工业大学 一种基于半监督图神经网络的水军虚假评论检测算法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674929A (zh) * 2019-09-19 2020-01-10 东北大学 一种基于网络结构相似性的对抗网络表示学习方法
CN111210002A (zh) * 2019-12-30 2020-05-29 北京航空航天大学 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统
CN111415265A (zh) * 2020-02-20 2020-07-14 四川新网银行股份有限公司 生成式对抗网络的社交关系数据生成方法
CN112216273A (zh) * 2020-10-30 2021-01-12 东南数字经济发展研究院 一种针对语音关键词分类网络的对抗样本攻击方法
CN112818257A (zh) * 2021-02-19 2021-05-18 北京邮电大学 基于图神经网络的账户检测方法、装置和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019220128A1 (en) * 2018-05-18 2019-11-21 Benevolentai Technology Limited Graph neutral networks with attention
US11606389B2 (en) * 2019-08-29 2023-03-14 Nec Corporation Anomaly detection with graph adversarial training in computer systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674929A (zh) * 2019-09-19 2020-01-10 东北大学 一种基于网络结构相似性的对抗网络表示学习方法
CN111210002A (zh) * 2019-12-30 2020-05-29 北京航空航天大学 一种基于生成对抗网络模型的多层学术网络社区发现方法、系统
CN111415265A (zh) * 2020-02-20 2020-07-14 四川新网银行股份有限公司 生成式对抗网络的社交关系数据生成方法
CN112216273A (zh) * 2020-10-30 2021-01-12 东南数字经济发展研究院 一种针对语音关键词分类网络的对抗样本攻击方法
CN112818257A (zh) * 2021-02-19 2021-05-18 北京邮电大学 基于图神经网络的账户检测方法、装置和设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GraphGan:Graph Representation Learning with Generative Adversarial Nets;Hongwei Wang;《arXiv》;20171122;第1-8页 *
Relevance-Aware Anomalous Users Detection in Social Network via Graph Neural Network;Yangyang Li;《arXiv》;20210424;第1-8页 *
社交网络异常用户识别技术综述;仲丽君;《万方数据知识服务平台》;20180828;第13-23页 *
社交网络机器账号检测综述;李阳阳,曹银浩,杨英光;《中国电子科学研究学报》;20210331;第209-219页 *
面向图的异常检测研究综述;李忠;《软件学报》;20200727;第167-193页 *

Also Published As

Publication number Publication date
CN113343123A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113554089B (zh) 一种图像分类对抗样本防御方法、系统及数据处理终端
CN110070141B (zh) 一种网络入侵检测方法
CN106897738B (zh) 一种基于半监督学习的行人检测方法
CN110348437B (zh) 一种基于弱监督学习与遮挡感知的目标检测方法
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN113283909B (zh) 一种基于深度学习的以太坊钓鱼账户检测方法
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
US11410327B2 (en) Location determination apparatus, location determination method and computer program
CN113269228B (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN103136540B (zh) 一种基于隐结构推理的行为识别方法
CN117172875A (zh) 欺诈检测方法、装置、设备及存储介质
Aziz et al. Cluster Analysis-Based Approach Features Selection on Machine Learning for Detecting Intrusion.
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
Stracuzzi et al. Quantifying Uncertainty to Improve Decision Making in Machine Learning.
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Sheng et al. Network traffic anomaly detection method based on chaotic neural network
Murkute et al. Credit Card Fraud Detection Using Machine Learning Techniques
CN113408564A (zh) 图处理方法、网络训练方法、装置、设备以及存储介质
CN113990397B (zh) 基于有监督学习检测蛋白质复合物的方法及装置
CN112597699B (zh) 一种融入客观赋权法的社交网络谣言源识别方法
Zhao et al. Hypergraph learning with cost interval optimization
CN115620083A (zh) 模型训练方法、人脸图像质量评价方法、设备及介质
CN113469816A (zh) 基于多组学技术的数字货币识别方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant