CN112231592A - 基于图的网络社团发现方法、装置、设备以及存储介质 - Google Patents

基于图的网络社团发现方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN112231592A
CN112231592A CN202011240466.0A CN202011240466A CN112231592A CN 112231592 A CN112231592 A CN 112231592A CN 202011240466 A CN202011240466 A CN 202011240466A CN 112231592 A CN112231592 A CN 112231592A
Authority
CN
China
Prior art keywords
graph
node
sample
training
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011240466.0A
Other languages
English (en)
Inventor
荣钰
李佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011240466.0A priority Critical patent/CN112231592A/zh
Publication of CN112231592A publication Critical patent/CN112231592A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于图的网络社团发现方法、装置、设备以及存储介质,可适用于人工智能等领域。该方法包括:获取初始神经网络模型、以及训练数据集,初始神经网络模型包括依次级联的初始图生成模型和初始图节点分类模型,训练数据集包括各样本图;确定第一训练损失值;根据第一训练损失值和训练数据集对初始神经网络模型进行迭代训练,直至满足训练结束条件,以基于训练结束后的图节点分类模型确定待处理图中各节点的类别,并基于待处理图中各节点的类别确定待处理图中的目标网络社团。采用本申请实施例,可发现图中的网络社团,适用性高。

Description

基于图的网络社团发现方法、装置、设备以及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种基于图的网络社团发现方法、装置、设备以及存储介质。
背景技术
随着互联网的发展,人们发现许多实际网络中都存在着社团网络,如支付网络社团、社交网络社团等。近年来,人们对网络社团进行划分主要依据网络的拓扑结构,同时也需要节点的自身属性信息。
目前常用的网络社团划分方法,主要分为基于结构的划分方法和基于节点的划分方法,但是由于网络社团往往在动态变化,现有的社团划分方法往往不能及发现网络社团的细微变化,因而不能准确识别出对应的网络社团。例如,对于支付网络中的洗钱网络社团,团伙成员通过内部成员减少交易,多和正常的用户或者商户发生交易等等来改变洗钱网络社团的结构,进而使得现有的网络社团划分方法不能很好的识别出洗钱网络社团。
因此,如何提升识别网络社团的准确性,成为亟需解决的问题。
发明内容
本申请实施例提供一种基于图的网络社团发现方法、装置、设备以及存储介质,可准确发现图中的网络社团,适用性高。
第一方面,本申请实施例提供一种基于图的网络社团发现方法,该方法包括:
获取初始神经网络模型、以及训练数据集,上述初始神经网络模型包括依次级联的初始图生成模型和初始图节点分类模型,上述训练数据集包括各样本图;
对于每一上述样本图,获取该样本图的扰动参数,将该样本图和上述扰动参数输入上述初始图生成模型,得到上述样本图对应的扰动图;
基于各上述扰动图,通过上述初始图节点分类模型,得到各上述扰动图中各节点的预测类别;
基于各上述扰动图中各节点的预测类别,以及各上述样本图对应的关联特征,确定第一训练损失值,上述第一训练损失值表征了对应于不同类别的网络社团之间的差异;
根据上述第一训练损失值和上述训练数据集对上述初始神经网络模型进行迭代训练,直至满足训练结束条件,以基于训练结束后的图节点分类模型确定待处理图中各节点的类别,并基于上述待处理图中各节点的类别确定上述待处理图中的目标网络社团。
第二方面,本申请实施例提供一种基于图的网络社团发现方法,该方法包括:
获取待处理图;
基于上述待处理图,通过图节点分类模型确定上述待处理图中各节点的类别,其中,上述图节点分类模型是基于本申请实施例第一方面所提供的方法训练得到的;
基于上述待处理图中各节点的类别,确定上述待处理图中的目标网络社团。
第三方面,本申请实施例提供了一种基于图的网络社团发现装置,该装置包括:
获取模块,用于获取初始神经网络模型、以及训练数据集,上述初始神经网络模型包括依次级联的初始图生成模型和初始图节点分类模型,上述训练数据集包括各样本图;
图生成模块,用于对于每一上述样本图,获取该样本图的扰动参数,将该样本图和上述扰动参数输入上述初始图生成模型,得到上述样本图对应的扰动图;
类别确定模块,用于基于各上述扰动图,通过上述初始图节点分类模型,得到各上述扰动图中各节点的预测类别;
损失确定模块,用于基于各上述扰动图中各节点的预测类别,以及各上述样本图对应的关联特征,确定第一训练损失值,上述第一训练损失值表征了对应于不同类别的网络社团之间的差异;
训练模块,用于根据上述第一训练损失值和上述训练数据集对上述初始神经网络模型进行迭代训练,直至满足训练结束条件,以基于训练结束后的图节点分类模型确定待处理图中各节点的类别,并基于上述待处理图中各节点的类别确定上述待处理图中的目标网络社团。
第四方面,本申请实施例提供了一种基于图的网络社团发现装置,该装置包括:
获取模块,用于获取待处理图;
类别确定模块,用于基于上述待处理图,通过图节点分类模型确定上述待处理图中各节点的类别,其中,上述图节点分类模型是基于权利要求1-9任一项上述的方法训练得到的;
社团确定模块,用于基于上述待处理图中各节点的类别,确定上述待处理图中的目标网络社团。
第五方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;
上述存储器用于存储计算机程序;
上述处理器被配置用于在调用上述计算机程序时,执行上述第一方面或第二方面任一可选实施方式所提供的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现上述第一方面和/或第二方面任一种可能的实施方式所提供的方法。
第七方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面和/或第二方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过训练数据集对包括依次级联的初始图生成模型和初始图节点分类模型的进行训练,可在训练结束后得到可确定节点的类别的图节点分类模块。其中,通过初始图生成模型可得到训练数据集中各样本图的扰动图,进而基于扰动图进行训练,可提升训练得到的图节点分类模型确定节点的类别的准确性,从而基于图节点分类模型确定待处理图中各节点的类别,并基于待处理图中各节点的类别确定待处理图中的目标网络社团,适用性高。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于图的网络社团发现方法的一流程示意图;
图2是本申请实施例提供的基于扰动参数确定扰动图的场景示意图;
图3是本申请实施例提供的节点类别预测的场景示意图;
图4是本身实施例提供的确定训练损失值的场景示意图;
图5是本申请实施例提供的基于图的网络社团发现方法的另一流程示意图;
图6是本申请实施例提供基于图的网络社团发现装置的一结构示意图;
图7是本申请实施例提供基于图的网络社团发现装置的另一结构示意图;
图8是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的基于图的网络社团发现方法涉及人工智能(ArtificialIntelligence,AI)中机器学习(Machine Learning,ML)领域以及计算机视觉技术(Computer Vision,CV)等领域。其中,机器学习(Machine Learning,ML)是专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。计算机视觉技术可用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图进行处理。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。如本申请实施例可通过计算机视觉技术识别图中的节点,进而以神经网络为基础,通过机器学习使得机器具备发现图的网络社团的性能。
本申请实施例提供的基于图的网络社团发现方法还涉及云技术(Cloudtechnology)中的云计算(cloud computing)、人工智能云服务等领域。在本申请实施例中,通过云计算将基于图的网络社团发现方法中涉及到的计算任务分布在大量计算机构成的资源池上以提高图处理的效率。并且还可将基于图的网络社团发现方法作为一种人工智能服务,通过人工智能平台提供对应的基于图的网络社团发现的人工智能云服务。
本申请实施例提供的基于图的网络社团发现方法(为方便描述,以下简称本申请实施例提供的方法)可以由任一终端设备或者服务器执行。本申请实施例提供的方法由服务器执行时,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。本申请实施例提供的方法由终端设备执行时,该终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
参见图1,图1是本申请实施例提供的基于图的网络社团发现方法的一流程示意图。如图1所示,本申请实施例提供的基于图的网络社团发现方法可包括如下步骤:
步骤S11、获取初始神经网络模型、以及训练数据集。
在一些可行的实施方式中,本申请实施例中的训练数据集可从数据库、云存储中现有的数据中获取,或者基于大数据技术获取用于模型训练的训练数据,具体可基于实际应用场景需求确定,在此不做限制。
其中,训练数据集包括至少一个样本图,其中,任一样本图可包括一个或者多个网络社团,如社交网络、信息传播网络、支付网络等。其中,任一样本图可包括同一类型的网络社团中的不同类别的子网络社团,如支付网络中的洗钱网络以及正常支付网络等,具体可基于实际应用场景需求确定,在此不做限制。
其中,任一样本图中的一个网络社团可表示一定范围内的对象及其之间的关系,网络社团内的对象称为节点,各对象之间的关系用边来描述。在样本图时,可确定一定范围内的对象以及各对象之间的关系,进而将各对象作为节点,将各对象之间的关系映射为各对象之间的边,以基于各节点和各节点之间的边构成样本图。
在一些可行的实施方式中,初始神经网络包括依次级联的初始图生成模块和初始图节点分类模型。其中,初始图生成模块用于确定各样本图对应的扰动图,初始图节点分类模型用于确定各扰动图中各节点的类别。
步骤S12、对于每一样本图,获取该样本图的扰动参数,将该样本图和扰动参数输入初始图生成模型,得到样本图对应的扰动图。
在一些可行的实施方式中,初始图生成模型可以为基于变分自编码器的模型。具体的,对于每一样本图,通过初始图生成模型的编码器,即变分自编码器的编码器对样本图进行编码,得到该样本图的隐层特征的预测概率分布
Figure BDA0002768264210000061
其中,
Figure BDA0002768264210000062
为初始图生成模型的编码器(变分自编码器的编码器)的模型参数,Z为该样本图对应的隐层特征,G表示该样本图。其中,G=(A,X),A为该样本图对应的关联特征,该关联特征用于表示该样本图中各节点之间的边的关系,即该样本图中各节点间的关联关系,X为该样本图对应的初始节点特征。
进一步的,可基于该样本图对应的隐层特征对应的预测概率分布和扰动参数,通过初始图生成模型的解码器,即变分自编码器的解码器,得到该样本图对应的扰动图。具体的,基于该样本图对应的隐层特征的预测概率分布,可确定该样本对应的隐层特征。即基于初始图生成模型对该样本图进行编码采样后得到该样本图对应的隐层特征。其中,该样本图对应的隐层特征的预测概率分布服从高斯分布。
基于该样本图对应的隐层特征,可通过初始图生成模型的解码器,即变分自编码器的解码器,对该样本图对应的隐层特征进行解码,得到基于该隐层特征生成扰动图的预测概率分布
Figure BDA0002768264210000063
其中,预测概率分布
Figure BDA0002768264210000064
可用于表示对该样本图进行采样后得到的隐层特征分布,进行解码后得到的新的图(扰动图)的预测概率分布。其中,θ为初始图生成模型的解码器(变分自编码器的解码器)的模型参数,
Figure BDA0002768264210000071
为该样本图对应的扰动图,G表示该样本图。
进一步的,基于该样本图对应的隐层特征Z、基于该隐层特征生成扰动图的预测概率分布
Figure BDA0002768264210000072
以及该样本图的隐层特征的预测概率分布
Figure BDA0002768264210000073
可确定基于该样本图生成扰动图的预测概率分布
Figure BDA0002768264210000074
进而根据基于该样本图生成扰动图的预测概率分布
Figure BDA0002768264210000075
确定出基于该样本图所可能生成的图。
其中,可将相对应的预测概率较高的图确定为该样本图对应的扰动图。可选的,可将基于预测概率分布
Figure BDA0002768264210000076
确定出的图作为候选扰动图,基于扰动参数对候选扰动图进行更新。其中,扰动参数用于表示增加或者删减候选扰动图中节点间的关联特征的数量。即基于扰动参数,可增加和/或删减候选扰动图中与扰动参数数值相同的边,以对候选扰动图进行调整,并将调整后的候选扰动图确定为该样本图对应的最终的扰动图。
其中,基于扰动参数对候选扰动图进行调整,可在不改变候选扰动图节点的情况下,进一步提升各节点间的关联特征(边)的差异,以达到较好的训练效果。与此同时,对于扰动候选图中属于不同网络社团(每个网络社团中的节点的类别相同)来说,通过扰动参数对候选扰动图进行调整,可改变各网络社团的结构,从而基于调整后的候选扰动图训练得到的图节点分类模型可在图包含不同网络社团的情况下,准确预测图中各节点的预测类别。
如图2所示,图2是本申请实施例提供的基于扰动参数确定扰动图的场景示意图。图2所提供的候选扰动图中包括两个网络社团,如灰色部分为洗钱网络社团,无颜色标注部分为正常支付网络社团。通过扰动参数删除候选扰动图中正常支付网络社团的一个边,进而构建出新的正常支付网络社团和新的洗钱网络社团。
需要特别说明的是,在本申请实施例中,对于每一样本图,基于初始图生成模块得到的该样本图对应的扰动图中节点的数量,与该样本图中节点的数量一致。换句话说,每一样本图对应的扰动图中的节点,与该样本图中的节点一一对应。
步骤S13、基于各扰动图,通过初始图节点分类模型,得到各扰动图中各节点的预测类别。
在一些可行的实施方式中,通过初始图节点分类模型可得到各样本图对应的扰动图中各节点的预测类别。具体的,对于每一扰动图,可通过初始图节点分类模型的编码器得到该扰动图中各节点的编码特征。即确定该扰动图的初始节点特征和关联特征,将该扰动图的初始节点特征和关联特征输入至初始图节点分类模型,进而基于初始图节点分类模型的编码器得到该扰动图中各节点的编码特征。换句话说,通过初始图节点分类模型的编码器,可基于该扰动图的初始节点特征和关联特征,得到该样本图中的各节点的新的特征表示。
其中,上述初始图节点分类模型的编码器可基于图神经网络,如图卷积神经网络实现,在此不做限制。
进一步的,通过初始图节点分类模型的解码器,对该扰动图中各节点的编码特征进行处理,得到该扰动图中各节点的解码特征。具体可通过全连接层对该扰动图中各节点的解码特征进行融合,并通过Softmax函数得到该扰动图中每个节点属于每个类别的概率。对于每个节点而言,将其对应的属于每个节点的概率中,最高概率所对应的类别确定为该节点的预测类别。
基于此,可通过初始图节点分类模型得到各扰动图中各节点的预测类别。
如图3所示,图3是本申请实施例提供的节点类别预测的场景示意图。在图3中,假设扰动图对应的关联特征可用矩阵A∈RN×N表示,即关联特征为N×N的矩阵,N为样本图中节点数量。其中,关联特征A∈RN×N中的每一元素表示一个节点与另一节点的关联关系,如节点间是否通过边进行连接。例如,A12表示第一行对应的节点与第二列对应的节点间的关联关系。假设扰动图对应的初始节点特征可用矩阵X∈RN×d表示,初始节点特征X的每一行表示各节点的初始节点特征,每一列表示每个节点在一个特征维度的初始特征,其中初始节点特征X的中每个节点的特征维度数为d。
进一步的,基于扰动图的关联特征A∈RN×N以及初始节点特征X∈RN×d,通过图神经网络,如图卷积网络对扰动图中各节点进行编码,得到扰动图中各节点的编码特征。进而通过全连接层以及Softmax,得到扰动图中各节点的解码特征。其中,扰动图中各节点的解码特征可通过矩阵C∈RN×K表示,K为节点的类别数。其中,解码特征C中的每一行表示扰动图中一个节点的预测类别,即该节点的类别为各类别的概率,每一列表示各节点的类别为某类别的概率。对于扰动图中的每个节点而言,可将该节点对应于各类别的概率中,最高概率所对应的类别确定为该节点的预测类别。
可选的,还可通过初始图节点分类模型的编码器得到该扰动图中各节点的编码特征,并进一步基于各节点的编码特征以及其他聚类方法,如K-means等确定扰动图中各节点的预测类别。其中,上述聚类方法仅为示例,具体可基于实际应用场景需求确定,在此不做限制。
其中,初始图节点分类模型在迭代训练过程中所采用的分类方法保持一致。并且,由于每一样本图对应的扰动图中的节点,与该样本图中的节点一一对应,因此该样本图对应的扰动图中各节点的预测类别,可视为该样本图中相对应的节点的预测类别。
步骤S14、基于各扰动图中各节点的预测类别,以及各样本图对应的关联特征,确定各样本图中各网络社团之间的连接权重,基于连接权重确定第一训练损失值。
在一些可行的实施方式中,对于每一样本图,该样本图对应的关联特征可表示该样本图中各节点之间的边,即各节点之间的关联关系。其中,该样本图对应的关联特征可用矩阵B表示,该样本图对应的关联特征B中每一元素表示该样本图中的一个节点另一节点之间的关联关系,即该节点是否与另一节点通过边连接。如对于支付网络社团中的一个节点,该节点与另一节点通过边连接,表示这两个节点之间存在转账、支付等关系。
进一步的,基于该样本图对于的关联特征,以及该样本图各扰动图中各节点的预测类别,可确定基于该样本图中各节点的预测类别的作用下,该样本图中各类别对应的网络社团之间的连接权重,即各类别对应的网络社团之间的关联关系(边)对应的权重和Tr(CTAC)。对于任一对应于不同类别的网络社团而言,权重和越小表示二者之间的关联性越小,说明初始图节点分类模型的类别预测越准确。因此,可将各样本对应的权重和作为第一训练损失值。
其中,矩阵C中的每一元素表示扰动图中一个节点的类别为某一类别的概率。
可选的,为进一步减小上述权重和Tr(CTAC),以基于第一训练损失进行模型训练过程中更准确地衡量模型的稳定性,可基于各样本图对应扰动图中各节点的预测类别,确定该样本图中各节点对应的类别数,即该样本图中存在的网络社团的数量。进而基于类别数对上述权重和Tr(CTAC)做进一步处理,得到
Figure BDA0002768264210000101
并将
Figure BDA0002768264210000102
作为模型训练过程中的第一训练损失值。其中,K表示类别数,Tr表示计算矩阵的迹。
可选的,可基于该样本图对应的关联特征,可确定该样本图中每个节点对应的边的数量,进而基于该样本图中每个节点对应的边的数量,对上述权重和Tr(CTAC)进行归一化处理。即将各类别对应的网络社团之间的关联关系(边)对应的权重进行归一化,得到各类别对应的网络社团之间的关联关系(边)对应的归一化权重和
Figure BDA0002768264210000103
进而基于该样本图中的类别数K,得到最终的第一训练损失值
Figure BDA0002768264210000104
其中,对于每个样本图来说,该样本图中的每个节点对应的边的数量可用矩阵D表示,即该样本图对应的度矩阵。其中,度矩阵D为对角矩阵,对角矩阵中的每一元素表示一个节点对应的边的数量。其中,
Figure BDA0002768264210000105
表示两个矩阵对应元素相除。其中,CTDC表示基于该样本图中各节点的预测类别的作用下,该样本图中每个节点对应的边的数量。
步骤S15、根据第一训练损失值和训练数据集对初始神经网络模型进行迭代训练,直至满足训练结束条件,以基于训练结束后的图节点分类模型确定待处理图中各节点的类别,并基于待处理图中各节点的类别确定待处理图中的目标网络社团。
在一些可行的实施方式中,可将第一训练损失值作为模型训练过程中对应的总训练损失值,并根据总训练损失值和训练数据集对初始神经网络模型进行迭代训练。其中,当总训练损失值符合训练结束条件时可停止训练,得到训练出的图节点分类模型。其中,上述训练结束条件可以为上述训练总损失值达到收敛状态,或者为上述训练总损失值低于预设阈值等,具体可基于实际应用场景需求确定,在此不做限制。
进一步的,基于训练得到的图节点分类模块,可确定待处理图中各节点的类别,并基于待处理图中各节点的类别确定待处理图中的目标网络社团。
在一些可行的实施方式中,为进一步确保训练得到的图节点分类模型可稳定待处理图中各节点的类别,可基于第一训练损失值和训练过程中的其他训练损失值确定总训练损失值,进而基于总训练损失值和训练数据集对初始神经网络模型进行迭代训练。
其中,上述其他训练损失值包括第二训练损失值、第三训练损失值、第四训练损失值以及第五训练损失值中的至少一项。
具体的,对于第二训练损失值,可在基于初始图生成模型确定样本图对应的扰动图的过程中,获取各样本图对应的先验概率分布。对于每一样本图,该样本图对应的先验概率分布p(Z)表征该样本图的隐层特征的真实概率分布
Figure BDA0002768264210000111
如先验概率服分服从正态分布。进一步可确定样本图对应的先验概率分布p(Z)和该样本图的隐层特征的预测概率分布
Figure BDA0002768264210000112
的KL散度
Figure BDA0002768264210000113
并将先验概率分布p(Z)和预测概率分布
Figure BDA0002768264210000114
的KL散度
Figure BDA0002768264210000115
确定为图节点分类模型训练过程中的第二训练损失值,即第二训练损失值表征了先验概率分布p(Z)和预测概率分布
Figure BDA0002768264210000116
之间的差异。
其中,先验概率分布p(Z)和预测概率分布
Figure BDA0002768264210000117
的KL散度
Figure BDA0002768264210000118
越大,表示该样本图对应的隐层特征的预测概率分布
Figure BDA0002768264210000119
越接近该样本图对应的先验概率分布p(Z)。换句话说,先验概率分布p(Z)和预测概率分布
Figure BDA00027682642100001110
的KL散度
Figure BDA00027682642100001111
越大,基于初始图生成模型得到的扰动图越接近样本图,初始图生成模型越稳定,进而使得初始图节点分类模型的输出越稳定。
作为一可选实施例,在基于第一训练损失值和训练数据集对神经网络模型进行迭代训练时,可基于第一训练损失值和第二训练损失值确定总训练损失值,进而在总训练损失值满足训练结束条件时,得到训练结束后的图节点分类模型。
具体的,对于第三训练损失值,可在基于初始图生成模型确定出各样本图对应的扰动图之后,基于各样本图和各样本图对应的扰动图确定第三训练损失值,第三训练损失值表征了样本图和相对应的扰动图之间的差异。其中,可将各样本图的图特征和相对应的扰动图的图特征之间的差异(如相似度),确定为第三训练损失值。
作为一可选实施例,在基于第一训练损失值和训练数据集对神经网络模型进行迭代训练时,可基于第一训练损失值、第二训练损失值以及第三训练损失值确定总训练损失值,或者基于第一训练损失值和第三训练损失值确定总训练损失值,进而在总训练损失值满足训练结束条件时,得到训练结束后的图节点分类模型。
具体的,对于第四训练损失值,可通过基于初始图节点分类模型确定扰动图中各节点的预测类别的过程中得到的各扰动图中各节点对应的编码特征(为方便描述,以下简称第一编码特征),以及相对应的样本图中各节点对应的编码特征(为方便描述,以下简称第二编码特征),确定第四训练损失值。其中,对于每一样本图,可基于该样本图,通过初始图节点分类模型的编码器,得到该样本图中各节点的第二编码特征。
结合图4,图4是本身实施例提供的确定训练损失值的场景示意图。如图4所示,对于每一样本图,根据该样本图中各节点的第二编码特征,可确定该样本图中各节点对应于该样本图的第二编码特征ENC(vi|G),根据相对应的扰动图中各节点的第一编码特征,可确定该扰动图中各节点对应于该扰动图的第一编码特征
Figure BDA0002768264210000121
其中,vi表示该扰动图中的节点i,
Figure BDA0002768264210000122
表示扰动图,G为相对应的样本图。进一步可确定该样本图和扰动图中同一节点所对应的第二编码特征ENC(vi|G)和第一编码特征
Figure BDA0002768264210000123
的KL散度
Figure BDA0002768264210000124
并该样本图和扰动图中各节点所对应的KL散度和
Figure BDA0002768264210000125
确定为图节点分类模型训练过程中的第四训练损失值,即第四训练损失值表征了样本图和相对应的扰动图中各节点之间的差异。
其中,该样本图和扰动图中各节点所对应的KL散度和
Figure BDA0002768264210000126
越大,表示样本图和相对应的扰动图中各节点之间的差异越小,基于初始图生成模型得到的扰动图越接近样本图,初始图生成模型越稳定,进而使得初始图节点分类模型的输出越稳定。
作为一可选实施例,在基于第一训练损失值和训练数据集对神经网络模型进行迭代训练时,可基于第一训练损失值、第二训练损失值、第三训练损失值以及第四训练损失值确定总训练损失值,进而在总训练损失值满足训练结束条件时,得到训练结束后的图节点分类模型。
具体的,对于第五训练损失值,可基于初始图节点分类模型确定扰动图中各节点的预测类别的过程中得到的各扰动图中各节点对应的编码特征(为方便描述,以下简称第三编码特征),进一步通过初始图节点模型的解码器,得到各扰动图中各节点的解码特征。对于每一扰动图,基于该扰动图的解码特征可确定该扰动图中各节点为各类别的概率,进而确定该扰动图中各节点的预测类别。
进一步的,基于扰动图中各节点的预测类别,确定出类别为目标类别的目标节点,以基于每一目标节点属于各类别的概率确定各目标节点的解码特征的关联性。其中,该关联性可用矩阵C+表示,其中关联性C+中的每一列表示各目标节点的类别为某一类别的概率,每一行表示一个目标节点的类别为各类别的概率。其中,上述目标类别同样具体可基于实际应用场景需求确定,在此不做限制。
由于各目标节点同属于同一预测类别,因此可通过各目标节点所对应的类别概率分布(节点的类别为各类别的概率)之间的相似度,来确定基于图节点分类模型确定扰动图中各节点的预测类别的准确性。基于此,可先确定每两个目标节点所对应的类别概率分布的KL散度KL(Ci,:||Cj,:)以表示二者之间的相似度,KL(Ci,:||Cj,:)越大表示二者的相似度越高。其中,其中,Ci,:表示目标节点i的类别为各类别的概率,Cj,:表示目标节点j的类别为各类别的概率,其中j,i∈C+
进一步的,可将基于上述方式得到的所有KL(Ci,:||Cj,:)之和作为第五训练损失值。或者,由于KL(Ci,:||Cj,:)越大表示相似度越高,因此可将确定出的所有每两个目标节点所对应的类别概率分布的KL散度KL(Ci,:||Cj,:)中最小KL散度
Figure BDA0002768264210000131
作为第五训练损失值。
作为一可选实施例,在基于第一训练损失值和训练数据集对神经网络模型进行迭代训练时,可基于第一训练损失值、第二训练损失值、第三训练损失值、第四训练损失值以及第五训练损失值确定总训练损失值,进而在总训练损失值满足训练结束条件时,得到训练结束后的图节点分类模型。
进一步的,基于训练得到的图节点分类模块,可确定待处理图中各节点的类别,并基于待处理图中各节点的类别确定待处理图中的目标网络社团。其中,基于图节点分类模块确定待处理图中的目标网络社团的具体实现方式,可参见图5。图5是本申请实施例提供的基于图的网络社团发现方法的另一流程示意图。如5所示,本申请实施例提供的基于图的网络社团发现方法可包括如下步骤:
步骤S21、获取待处理图。
在一些可行的实施方式中,待处理图的获取方式可参见图1中步骤S11所示的实现方式,在此不做限制。
步骤S22、基于待处理图,通过图节点分类模型确定待处理图中各节点的类别。
在一些可行的实施方式中,在通过图节点分类模型确定待处理图中各节点的类别之前,可先确定待处理图中各节点的初始节点特征。同时,基于待处理图的图结构,可确定待处理图中各节点之间的关联特征,也可称为待处理图所对应的关联特征。
其中,待处理图对应的关联特征中的每一元素表示待处理中的一个节点另一节点之间的关联关系,即该节点是否与另一节点通过边连接。如对于支付网络社团中的一个节点,该节点与另一节点通过边连接,表示这两个节点之间存在转账、支付等关系。其中,待处理图中各节点之间具体的关联关系,可基于待处理图的具体图结构和其所对应的实际网络社团确定,如上述支付关系,或者信息传播关系等,在此不做限制。
进一步的,将待处理图对应的关联特征,和待处理图中各节点的初始节点特征作为图节点分类模型的模型输入,通过图节点分类模型的编码器得到待处理图中各节点的编码特征。换句话说,通过图节点分类模型的编码器,可基于待处理中各节点的初始节点特征和相对应的关联特征,得到待处理图中的各节点的新的特征表示。
其中,上述图节点分类模型的编码器可基于图神经网络,如图卷积神经网络实现,在此不做限制。
进一步的,通过图节点分类模型的解码器,对待处理图中各节点的编码特征进行处理,得到待处理图中各节点的解码特征。具体可通过全连接层对待处理图中各节点的解码特征进行融合,并通过Softmax函数得到待处理图中每个节点属于每个类别的概率。对于每个节点而言,将其对应的属于每个节点的概率中,最高概率所对应的类别确定为该节点的类别。
步骤S23、基于待处理图中各节点的类别,确定待处理图中的目标网络社团。
在一些可行的实施方式中,基于待处理图中各节点的类别,可确定出待处理图中所包含的至少一个网络社团。其中,每个网络社团对应一个节点的类别,即同一类别的节点所对应的图结构对应于一个网络社团。因此,基于待处理中节点的类别,可确定出待处理图中节点的类别为目标类别的各节点所对应的图结构,并将该图结构确定为待处理图中的目标网络社团。
其中,目标类别可待处理图中的各节点的类别以及实际应用场景需求确定在,在此不做限制。
例如,对于支付网络而言,即待处理图可表示一个完整的支付网络,基于步骤S21和步骤S22的方法可确定出待处理图中各节点的类别为正常或者异常。其中,正常表示该节点所参与的支付行为为正常行为,异常表示该节点所参与的支付行为为异常行为,如洗钱行为。若需要确定待处理图中的洗钱网络社团以加强资金管控,可将异常作为目标类别,将目标类别对应的各节点所对应的图结构,即目标类别对应的各节点以及各节点之间的连接关系所构成的网络确定为洗钱网络社团(目标网络社团)。
再例如,对于社交网络而言,即待处理图可表示一个完整的社交网络,基于步骤S21和步骤S22的方法可确定出待处理图中的各节点的类别为表示节点为谣言传播节点的类别,以及表示节点为无谣言节点的类别。在需要进行舆情控制以及信息辟谣的情况下,可将谣言传播节点所对应的图结构确定为待处理图中的目标网络社团。
可选的,还可基于待处理图中各节点的类别,确定待处理图中属于同一类别的节点所对应的图结构,进而确定出各图结构所对应的网络社团,以完成对网络社团的分类,并各类别对应的网络社团采取不同的网络社团处理方法。
例如,若待处理图表示一个类型的网络社团,如洗钱网络社团,当基于图节点分类模型确定出的待处理图中各节点的类别的粒度较细时,如确定待处理图中的各节点的类别可用于表示各节点的洗钱行为的严重程度,进而可基于待处理图中各节点的类别,对洗钱网络社团进行进一步的网络社团划分,以基于划分出的不同网络社团采取不同的金融风控措施。
在本申请实施例中,通过训练数据集对包括依次级联的初始图生成模型和初始图节点分类模型的进行训练,可在训练结束后得到可确定节点的类别的图节点分类模块。其中,通过初始图生成模型可得到训练数据集中各样本图的扰动图,进而基于扰动图进行训练,可提升训练得到的图节点分类模型确定节点的类别的准确性,从而基于图节点分类模型确定待处理图中各节点的类别,并基于待处理图中各节点的类别确定待处理图中的目标网络社团,适用性高。
参见图6,图6是本申请实施例提供基于图的网络社团发现装置的一结构示意图。本申请实施例提供的装置1包括:
获取模块11,用于获取初始神经网络模型、以及训练数据集,上述初始神经网络模型包括依次级联的初始图生成模型和初始图节点分类模型,上述训练数据集包括各样本图;
图生成模块12,用于对于每一上述样本图,获取该样本图的扰动参数,将该样本图和上述扰动参数输入上述初始图生成模型,得到上述样本图对应的扰动图;
类别确定模块13,用于基于各上述扰动图,通过上述初始图节点分类模型,得到各上述扰动图中各节点的预测类别;
损失确定模块14,用于基于各上述扰动图中各节点的预测类别,以及各上述样本图对应的关联特征,确定第一训练损失值,上述第一训练损失值表征了对应于不同类别的网络社团之间的差异;
训练模块15,用于根据上述第一训练损失值和上述训练数据集对上述初始神经网络模型进行迭代训练,直至满足训练结束条件,以基于训练结束后的图节点分类模型确定待处理图中各节点的类别,并基于上述待处理图中各节点的类别确定上述待处理图中的目标网络社团。
在一些可行的实施方式中,上述损失确定模块14,用于:
对于每一样本图,基于该样本图对应的关联特征,确定该样本图中每个节点对应的边的数量;
基于该样本图对应的扰动图中各节点的预测类别,确定该样本图中各节点对应的类别数;
基于各上述样本图对应的关联特征、各上述样本图对应的类别数以及各上述样本图中各节点对应的边的数量,确定第一训练损失值。
在一些可行的实施方式中,上述图生成模块12,用于:
对于每一上述样本图,基于该样本图,通过上述初始图生成模型的编码器,得到该样本图的隐层特征的预测概率分布;
基于上述隐层特征的预测概率分布和上述扰动参数,通过上述初始图生成模型的解码器,得到扰动图;
上述损失确定模块14,还用于:
对于每一样本图,获取该样本图所对应的先验概率分布;
基于各上述样本图所对应的预测概率分布和先验概率分布,确定第二训练损失值;
上述训练模块15,用于:
根据上述第一训练损失值、上述第二训练损失值以及上述训练数据集对上述初始神经网络模型进行迭代训练。
在一些可行的实施方式中,上述损失确定模块14,还用于:
基于各样本图和各样本图对应的扰动图,确定第三训练损失值;
上述训练模块15,用于:
根据上述第一训练损失值、上述第三训练损失值以及上述训练数据集对上述初始神经网络模型进行迭代训练。
在一些可行的实施方式中,上述类别确定模块13,用于:
对于每一扰动图,通过上述初始图节点分类模型的编码器,得到该扰动图中各节点对应的第一编码特征;
基于该扰动图中各节点的第一编码特征,通过上述初始图节点分类模型的解码器,得到该扰动图中各节点的预测类别;
上述损失确定模块14,还用于:
对于每一样本图,基于该样本图,通过上述初始图节点分类模型的编码器,得到该样本图中各节点的第二编码特征;
基于各上述样本图中各节点所对应的第一编码特征和第二编码特征,计算第四训练损失值;
上述训练模块15,用于:
根据上述第一训练损失值、上述第四训练损失值以及上述训练数据集对上述初始神经网络模型进行迭代训练。
在一些可行的实施方式中,
上述类别确定模块13,用于:
对于每一扰动图,通过上述初始图节点分类模型的编码器,得到该扰动图中各节点的第三编码特征;
基于该扰动图中各节点的第三编码特征,通过上述初始图节点分类模型的解码器,得到该扰动图中各节点的解码特征;
基于该扰动图中各节点的解码特征,得到该扰动图中各节点的预测类别;
上述损失确定模块14,还用于:
对于每一样本图,确定该样本图所对应的扰动图中预测类别为目标类别的各节点的解码特征的关联性;
基于各上述样本图所对应的关联性,确定第五训练损失值;
上述训练模块15,用于:
根据上述第一训练损失值、上述第五训练损失值以及上述训练数据集对上述初始神经网络模型进行迭代训练。
在一些可行的实施方式中,上述图生成模块12,用于:
基于上述隐层特征的预测概率分布确定该样本图对应的隐层特征;
基于上述隐层特征,通过上述初始图生成模型的解码器执行以下操作:
确定基于上述隐层特征生成扰动图的预测概率分布;
基于上述隐层特征的预测概率、上述隐层特征以及上述基于上述隐层特征生成扰动图的预测概率分布,确定基于该样本图生成扰动图的预测概率分布;
基于上述扰动参数,以及上述基于该样本图生成扰动图的预测概率分布,生成该样本图对应的扰动图。
在一些可行的实施方式中,上述图生成模块12,用于:
根据基于该样本图生成扰动图的预测概率分布,确定该样本图对应的候选扰动图;
基于扰动参数,调整候选扰动图对应的关联特征;
将调整后的候选扰动图确定为该样本图对应的扰动图。
具体实现中,上述装置1可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
参见图7,图7是本申请实施例提供基于图的网络社团发现装置的另一结构示意图。本申请实施例提供的装置2包括:
获取模块21,用于获取待处理图;
类别确定模块22,用于基于上述待处理图,通过图节点分类模型确定上述待处理图中各节点的类别,其中,上述图节点分类模型是上述装置1训练得到的;
社团确定模块23,用于基于上述待处理图中各节点的类别,确定上述待处理图中的目标网络社团。
在一些可行的实施方式中,上述类别确定模块22,用于:
基于待处理图,得到上述待处理图中各节点的初始节点特征、以及各上述节点之间的关联特征;
将各上述节点的初始节点特征、以及各上述节点之间的关联特征输入至上述图节点分类模型,得到上述待处理图中各节点的类别。
在一些可行的实施方式中,上述社团确定模块23,用于:
确定上述待处理图中节点的类别为目标类别的各节点所对应的图结构;
将上述图结构确定为上述待处理图中的目标网络社团。
具体实现中,上述装置2可通过其内置的各个功能模块执行如上述图5中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
参见图8,图8是本申请实施例提供的电子设备的结构示意图。如图8所示,本实施例中的电子设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述电子设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的电子设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现本申请实施例中任一实施例所提供的实现方式。
应当理解,在一些可行的实施方式中,上述处理器1001可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,被处理器执行以实现图1和/或图5中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的装置或设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(randomaccessmemory,RAM)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1和/或图5中各个步骤所提供的方法。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种基于图的网络社团发现方法,其特征在于,所述方法包括:
获取初始神经网络模型、以及训练数据集,所述初始神经网络模型包括依次级联的初始图生成模型和初始图节点分类模型,所述训练数据集包括各样本图;
对于每一所述样本图,获取该样本图的扰动参数,将该样本图和所述扰动参数输入所述初始图生成模型,得到所述样本图对应的扰动图;
基于各所述扰动图,通过所述初始图节点分类模型,得到各所述扰动图中各节点的预测类别;
基于各所述扰动图中各节点的预测类别,以及各所述样本图对应的关联特征,确定各所述样本图中各网络社团之间的连接权重,基于所述连接权重确定第一训练损失值,所述第一训练损失值表征了对应于不同类别的网络社团之间的差异;
根据所述第一训练损失值和所述训练数据集对所述初始神经网络模型进行迭代训练,直至满足训练结束条件,以基于训练结束后的图节点分类模型确定待处理图中各节点的类别,并基于所述待处理图中各节点的类别确定所述待处理图中的目标网络社团。
2.根据权利要求1所述的方法,其特征在于,所述基于各所述扰动图中各节点的预测类别,以及各所述样本图对应的关联特征,确定第一训练损失值,包括:
对于每一样本图,基于该样本图对应的关联特征,确定该样本图中每个节点对应的边的数量;
基于该样本图对应的扰动图中各节点的预测类别,确定该样本图中各节点对应的类别数;
基于各所述样本图对应的关联特征、各所述样本图对应的类别数以及各所述样本图中各节点对应的边的数量,确定第一训练损失值。
3.根据权利要求1或2所述的方法,其特征在于,所述对于每一所述样本图,获取该样本图的扰动参数,将该样本图和所述扰动参数输入所述初始图生成模型,得到所述样本图对应的扰动图,包括:
对于每一所述样本图,基于该样本图,通过所述初始图生成模型的编码器,得到该样本图的隐层特征的预测概率分布;
基于所述隐层特征的预测概率分布和所述扰动参数,通过所述初始图生成模型的解码器,得到扰动图;
所述方法还包括:
对于每一样本图,获取该样本图所对应的先验概率分布;
基于各所述样本图所对应的预测概率分布和先验概率分布,确定第二训练损失值;
所述根据所述第一训练损失值和所述训练数据集对所述神经网络模型进行迭代训练,包括:
根据所述第一训练损失值、所述第二训练损失值以及所述训练数据集对所述初始神经网络模型进行迭代训练。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
基于各样本图和各样本图对应的扰动图,确定第三训练损失值;
所述根据所述第一训练损失值和所述训练数据集对所述神经网络模型进行迭代训练,包括:
根据所述第一训练损失值、所述第三训练损失值以及所述训练数据集对所述初始神经网络模型进行迭代训练。
5.根据权利要求1或2所述的方法,其特征在于,所述基于各所述扰动图,通过所述初始图节点分类模型,得到各所述扰动图中各节点的预测类别,包括:
对于每一扰动图,通过所述初始图节点分类模型的编码器,得到该扰动图中各节点对应的第一编码特征;
基于该扰动图中各节点的第一编码特征,通过所述初始图节点分类模型的解码器,得到该扰动图中各节点的预测类别;
所述方法还包括:
对于每一样本图,基于该样本图,通过所述初始图节点分类模型的编码器,得到该样本图中各节点的第二编码特征;
基于各所述样本图中各节点所对应的第一编码特征和第二编码特征,计算第四训练损失值;
所述根据所述第一训练损失值和所述训练数据集对所述神经网络模型进行迭代训练,包括:
根据所述第一训练损失值、所述第四训练损失值以及所述训练数据集对所述初始神经网络模型进行迭代训练。
6.根据权利要求1或2所述的方法,其特征在于,所述基于各所述扰动图,通过所述初始图节点分类模型,得到各所述扰动图中各节点的预测类别,包括:
对于每一扰动图,通过所述初始图节点分类模型的编码器,得到该扰动图中各节点的第三编码特征;
基于该扰动图中各节点的第三编码特征,通过所述初始图节点分类模型的解码器,得到该扰动图中各节点的解码特征;
基于该扰动图中各节点的解码特征,得到该扰动图中各节点的预测类别;
所述方法还包括:
对于每一样本图,确定该样本图所对应的扰动图中预测类别为目标类别的各节点的解码特征的关联性;
基于各所述样本图所对应的关联性,确定第五训练损失值;
所述根据所述第一训练损失值和所述训练数据集对所述神经网络模型进行迭代训练,包括:
根据所述第一训练损失值、所述第五训练损失值以及所述训练数据集对所述初始神经网络模型进行迭代训练。
7.根据权利要求3所述的方法,其特征在于,所述基于所述隐层特征的预测概率分布和所述扰动参数,通过所述初始图生成模型的解码器,得到扰动图,包括:
基于所述隐层特征的预测概率分布确定该样本图对应的隐层特征;
基于所述隐层特征,通过所述初始图生成模型的解码器执行以下操作:
确定基于所述隐层特征生成扰动图的预测概率分布;
基于所述隐层特征的预测概率、所述隐层特征以及所述基于所述隐层特征生成扰动图的预测概率分布,确定基于该样本图生成扰动图的预测概率分布;
基于所述扰动参数,以及所述基于该样本图生成扰动图的预测概率分布,生成该样本图对应的扰动图。
8.根据权利要求7所述的方法,其特征在于,所述基于所述扰动参数,以及所述基于该样本图生成扰动图的预测概率分布,生成该样本图对应的扰动图,包括:
根据所述基于该样本图生成扰动图的预测概率分布,确定该样本图对应的候选扰动图;
基于所述扰动参数,调整所述候选扰动图对应的关联特征;
将调整后的候选扰动图确定为该样本图对应的扰动图。
9.一种基于图的网络社团发现方法,其特征在于,所述方法包括:
获取待处理图;
基于所述待处理图,通过图节点分类模型确定所述待处理图中各节点的类别,其中,所述图节点分类模型是基于权利要求1-8任一项所述的方法训练得到的;
基于所述待处理图中各节点的类别,确定所述待处理图中的目标网络社团。
10.根据权利要求9所述的方法,其特征在于,所述基于所述待处理图,通过图节点分类模型确定所述待处理图中各节点的类别,包括:
基于待处理图,得到所述待处理图中各节点的初始节点特征、以及各所述节点之间的关联特征;
将各所述节点的初始节点特征、以及各所述节点之间的关联特征输入至所述图节点分类模型,得到所述待处理图中各节点的类别。
11.根据权利要求10所述的方法,其特征在于,所述基于所述待处理图中各节点的类别,确定所述待处理图中的目标网络社团,包括:
确定所述待处理图中节点的类别为目标类别的各节点所对应的图结构;
将所述图结构确定为所述待处理图中的目标网络社团。
12.一种基于图的网络社团发现装置,其特征在于,所述装置包括:
获取模块,用于获取初始神经网络模型、以及训练数据集,所述初始神经网络模型包括依次级联的初始图生成模型和初始图节点分类模型,所述训练数据集包括各样本图;
图生成模块,用于对于每一所述样本图,获取该样本图的扰动参数,将该样本图和所述扰动参数输入所述初始图生成模型,得到所述样本图对应的扰动图;
类别确定模块,用于基于各所述扰动图,通过所述初始图节点分类模型,得到各所述扰动图中各节点的预测类别;
损失确定模块,用于基于各所述扰动图中各节点的预测类别,以及各所述样本图对应的关联特征,确定第一训练损失值,所述第一训练损失值表征了对应于不同类别的网络社团之间的差异;
训练模块,用于根据所述第一训练损失值和所述训练数据集对所述初始神经网络模型进行迭代训练,直至满足训练结束条件,以基于训练结束后的图节点分类模型确定待处理图中各节点的类别,并基于所述待处理图中各节点的类别确定所述待处理图中的目标网络社团。
13.一种基于图的网络社团发现装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图;
类别确定模块,用于基于所述待处理图,通过图节点分类模型确定所述待处理图中各节点的类别,其中,所述图节点分类模型是基于权利要求1-9任一项所述的方法训练得到的;
社团确定模块,用于基于所述待处理图中各节点的类别,确定所述待处理图中的目标网络社团。
14.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序;
所述处理器被配置用于在调用所述计算机程序时,执行如权利要求1至8任一项所述的方法或者权利要求9至11任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至8任一项所述的方法或者实现权利要求9至11任一项所述的方法。
CN202011240466.0A 2020-11-09 2020-11-09 基于图的网络社团发现方法、装置、设备以及存储介质 Pending CN112231592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011240466.0A CN112231592A (zh) 2020-11-09 2020-11-09 基于图的网络社团发现方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011240466.0A CN112231592A (zh) 2020-11-09 2020-11-09 基于图的网络社团发现方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN112231592A true CN112231592A (zh) 2021-01-15

Family

ID=74122228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011240466.0A Pending CN112231592A (zh) 2020-11-09 2020-11-09 基于图的网络社团发现方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN112231592A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906484A (zh) * 2021-01-25 2021-06-04 北京市商汤科技开发有限公司 一种视频帧处理方法及装置、电子设备和存储介质
CN113011282A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 图数据处理方法、装置、电子设备及计算机存储介质
CN113094758A (zh) * 2021-06-08 2021-07-09 华中科技大学 一种基于梯度扰动的联邦学习数据隐私保护方法及系统
CN113591893A (zh) * 2021-01-26 2021-11-02 腾讯医疗健康(深圳)有限公司 基于人工智能的图像处理方法、装置和计算机设备
CN114143206A (zh) * 2021-12-02 2022-03-04 广东电网有限责任公司 一种电力线通信网络拓扑控制方法及装置
CN115965058A (zh) * 2022-12-28 2023-04-14 连连(杭州)信息技术有限公司 神经网络训练方法、实体信息分类方法、装置及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906484A (zh) * 2021-01-25 2021-06-04 北京市商汤科技开发有限公司 一种视频帧处理方法及装置、电子设备和存储介质
WO2022156317A1 (zh) * 2021-01-25 2022-07-28 北京市商汤科技开发有限公司 视频帧处理方法及装置、电子设备和存储介质
CN113591893A (zh) * 2021-01-26 2021-11-02 腾讯医疗健康(深圳)有限公司 基于人工智能的图像处理方法、装置和计算机设备
CN113011282A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 图数据处理方法、装置、电子设备及计算机存储介质
CN113094758A (zh) * 2021-06-08 2021-07-09 华中科技大学 一种基于梯度扰动的联邦学习数据隐私保护方法及系统
CN114143206A (zh) * 2021-12-02 2022-03-04 广东电网有限责任公司 一种电力线通信网络拓扑控制方法及装置
CN114143206B (zh) * 2021-12-02 2023-09-19 广东电网有限责任公司 一种电力线通信网络拓扑控制方法及装置
CN115965058A (zh) * 2022-12-28 2023-04-14 连连(杭州)信息技术有限公司 神经网络训练方法、实体信息分类方法、装置及存储介质
CN115965058B (zh) * 2022-12-28 2024-03-29 连连(杭州)信息技术有限公司 神经网络训练方法、实体信息分类方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112231592A (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
US11190562B2 (en) Generic event stream processing for machine learning
CN110390408B (zh) 交易对象预测方法和装置
CN110009486B (zh) 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
WO2021068563A1 (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN110135978B (zh) 用户金融风险评估方法、装置、电子设备和可读介质
CN111932386A (zh) 用户账号确定方法及装置、信息推送方法及装置、电子设备
CN110148053B (zh) 用户信贷额度评估方法、装置、电子设备和可读介质
CN114612743A (zh) 深度学习模型的训练方法、目标对象识别方法和装置
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN115412401B (zh) 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN114898184A (zh) 模型训练方法、数据处理方法、装置及电子设备
CN114863162A (zh) 对象分类方法、深度学习模型的训练方法、装置和设备
CN111291196B (zh) 知识图谱的完善方法及装置、数据处理方法及装置
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备
CN116150429A (zh) 异常对象识别方法、装置、计算设备以及存储介质
CN116501993B (zh) 房源数据推荐方法及装置
CN113868438B (zh) 信息可信度的校准方法、装置、计算机设备及存储介质
CN112862536B (zh) 一种数据处理方法、装置、设备及存储介质
CN115018009B (zh) 对象描述方法、网络模型的训练方法及装置
CN114547448B (zh) 数据处理、模型训练方法、装置、设备、存储介质及程序
CN117391490A (zh) 金融业务的评价信息处理方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038190

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination