CN114329099A - 重叠社区识别方法、装置、设备、存储介质及程序产品 - Google Patents

重叠社区识别方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN114329099A
CN114329099A CN202111388158.7A CN202111388158A CN114329099A CN 114329099 A CN114329099 A CN 114329099A CN 202111388158 A CN202111388158 A CN 202111388158A CN 114329099 A CN114329099 A CN 114329099A
Authority
CN
China
Prior art keywords
node
meta
nodes
path
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111388158.7A
Other languages
English (en)
Other versions
CN114329099B (zh
Inventor
叶志豪
李晓雯
赵瑞辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111388158.7A priority Critical patent/CN114329099B/zh
Publication of CN114329099A publication Critical patent/CN114329099A/zh
Application granted granted Critical
Publication of CN114329099B publication Critical patent/CN114329099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于人工智能的重叠社区识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品;涉及人工智能技术;方法包括:获取包括多个对象节点的异构图;对异构图中的对象节点进行节点级注意力处理,得到对象节点的节点级嵌入特征;基于对象节点的节点级嵌入特征,对对象节点进行语义级注意力处理,得到对象节点的语义级嵌入特征;基于对象节点的语义级嵌入特征,对异构图进行分类处理,得到异构图的多个局部社区;对多个局部社区进行聚类处理,得到异构图的重叠社区,其中,重叠社区包括同时属于多个局部社区的对象节点。通过本申请,能够提高重叠社区识别的准确性。

Description

重叠社区识别方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的重叠社区识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
人工智能(AI,Artificial Intelligence)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
重叠社区识别是人工智能领域的重要应用之一,能够在大规模的图数据中识别出重叠社区,并基于重叠社区进行下游应用,例如检测出异常用户、活跃账号等。
相关技术中缺乏重叠社区识别的有效方案,主要依赖于对图数据进行编码,得到图数据的编码向量,以基于编码向量识别出重叠社区。但是,这种方案识别出的重叠社区不准确,浪费了大量的计算资源。
发明内容
本申请实施例提供一种基于人工智能的重叠社区识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高重叠社区识别的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的重叠社区识别方法,包括:
获取包括多个对象节点的异构图;
对所述异构图中的对象节点进行节点级注意力处理,得到所述对象节点的节点级嵌入特征;
基于所述对象节点的节点级嵌入特征,对所述对象节点进行语义级注意力处理,得到所述对象节点的语义级嵌入特征;
基于所述对象节点的语义级嵌入特征,对所述异构图进行分类处理,得到所述异构图的多个局部社区;
对所述多个局部社区进行聚类处理,得到所述异构图的重叠社区,其中,所述重叠社区包括同时属于所述多个局部社区的对象节点。
本申请实施例提供一种基于人工智能的重叠社区识别装置,包括:
获取模块,用于获取包括多个对象节点的异构图;
第一注意力模块,用于对所述异构图中的对象节点进行节点级注意力处理,得到所述对象节点的节点级嵌入特征;
第二注意力模块,用于基于所述对象节点的节点级嵌入特征,对所述对象节点进行语义级注意力处理,得到所述对象节点的语义级嵌入特征;
处理模块,用于基于所述对象节点的语义级嵌入特征,对所述异构图进行分类处理,得到所述异构图的多个局部社区;
对所述多个局部社区进行聚类处理,得到所述异构图的重叠社区,其中,所述重叠社区包括同时属于所述多个局部社区的对象节点。
上述技术方案中,所述对象节点具有多个元路径;所述第一注意力模块还用于确定通过任一所述元路径与所述对象节点连接的多个邻接节点;
对所述对象节点以及每个所述邻接节点分别进行特征转换处理,得到所述对象节点的转换特征以及所述邻接节点的转换特征;
对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行注意力处理,得到所述对象节点针对任一所述元路径的节点级嵌入特征。
上述技术方案中,所述第一注意力模块还用于确定所述对象节点的属性特征以及每个所述邻接节点的属性特征;
将所述对象节点的属性特征映射至特征空间,得到所述对象节点的转换特征;
将每个所述邻接节点的属性特征映射至所述特征空间,得到每个所述邻接节点的转换特征。
上述技术方案中,所述第一注意力模块还用于对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行基于所述元路径的注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对权重;
基于每个所述邻接节点的转换特征以及所述节点对权重,确定所述对象节点针对任一所述元路径的节点级嵌入特征。
上述技术方案中,所述第一注意力模块还用于基于所述节点对权重对每个所述邻接节点的转换特征进行加权求和处理,得到所述对象节点的加权特征;
对所述对象节点的加权特征进行映射处理,得到所述对象节点针对任一所述元路径的节点级嵌入特征。
上述技术方案中,所述第一注意力模块还用于对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行自注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对注意力系数;
对所述对象节点与每个所述邻接节点之间的节点对注意力系数进行归一化处理,得到所述对象节点与每个所述邻接节点之间的节点对权重。
上述技术方案中,所述第一注意力模块还用于对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行拼接处理,得到所述对象节点与每个所述邻接节点的拼接特征;
将所述元路径的节点级注意力向量与所述拼接特征相乘,得到所述对象节点与每个所述邻接节点的融合特征;
对所述对象节点与每个所述邻接节点的融合特征进行映射处理,得到所述对象节点与每个所述邻接节点之间的节点对注意力系数。
上述技术方案中,所述对象节点具有多个元路径,所述节点对象的节点级嵌入特征包括针对每个所述元路径的节点级嵌入特征;所述第二注意力模块还用于对所述对象节点针对每个所述元路径的节点级嵌入特征进行基于所述元路径的注意力处理,得到每个所述元路径的权重;
基于每个所述元路径的权重,对所述对象节点针对每个所述元路径的节点级嵌入特征进行加权求和处理,得到所述对象节点的语义级嵌入特征。
上述技术方案中,所述第二注意力模块还用于对每个所述对象节点针对任一所述元路径的节点级嵌入特征进行自注意力处理,得到任一所述元路径的注意力系数;
对任一所述元路径的注意力系数进行归一化处理,得到任一所述元路径的权重。
上述技术方案中,所述第二注意力模块还用于对每个所述对象节点针对任一所述元路径的节点级嵌入特征进行映射处理,得到每个所述对象节点针对任一所述元路径的映射特征;
将所述元路径的语义级注意力向量与每个所述对象节点针对任一所述元路径的映射特征相乘,得到每个所述对象节点针对任一所述元路径的融合系数;
对所述多个对象节点分别对应的针对任一所述元路径的融合系数进行平均处理,得到任一所述元路径的注意力系数。
上述技术方案中,所述处理模块还用于基于所述对象节点的语义级嵌入特征对所述对象节点进行映射处理,得到所述对象节点所属的社区;
当属于所述社区的对象节点为至少一个时,将所述社区作为所述异构图的局部社区;
对所述多个局部社区进行逻辑并处理,得到所述异构图的重叠社区。
上述技术方案中,所述获取包括多个对象节点的异构图之前,所述装置还包括:
构建模块,用于获取多个对象分别对应的对象信息,所述对象信息包括属性信息以及链接信息,所述对象与所述异构图的对象节点一一对应;
基于所述对象的属性信息,确定所述异构图的对象节点的属性特征;
基于所述对象的链接信息,确定的所述异构图中对象节点之间的元路径。
本申请实施例提供一种用于重叠社区识别的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的重叠社区识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于人工智能的重叠社区识别方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现本申请实施例提供的基于人工智能的重叠社区识别方法。
本申请实施例具有以下有益效果:
通过对异构图中的对象节点进行节点级注意力处理以及语义级注意力处理,以更好地对节点对象进行表征学习,从而基于准确的对象节点的语义级嵌入特征进行准确分类,从而提高重叠社区识别的准确性,并节约了相关的计算资源。
附图说明
图1是本申请实施例提供的重叠社区识别系统的应用场景示意图;
图2是本申请实施例提供的用于重叠社区识别的电子设备的结构示意图;
图3-图5是本申请实施例提供的基于人工智能的重叠社区识别方法的流程示意图;
图6是本申请实施例提供的局部社区的示意图;
图7是本申请实施例提供的重叠社区发现的输入到输出的示意图;
图8是本申请实施例提供的重叠社区发现的框架示意图;
图9是本申请实施例提供的语义级注意力和节点级注意力在异构图的特征抽取示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)异构图:又称异质图,异构图指的是图中存在不同类型的节点和边(节点和边至少有一个具有多种类型),异构图可应用于知识图谱的场景。处理异构信息的方式是使用独热编码类型信息并拼接在节点原有表示上。异构图在实际生活中比同构图要更为适用一些,或者可以认为异构图中节点间存在多种类型的边(关系),同时每一条边所具有的不同属性也会导致节点间的远近亲疏。
2)重叠社区:又称重叠团伙,重叠社区是网络中节点的集合,且社区内节点同时隶属于多个不同的社区,社区内部节点间的联系较为紧密,而属于不同社区的节点之间的联系较为稀疏,此类社区称为重叠社区。在反欺诈场景下,同一个欺诈个人很有可能在不同的团伙中。
3)伯努利-泊松分布模型:伯努利-泊松模型是一种可以生成重叠社区的模型,主要通过伯努利-泊松分布对图进行概率表征,然后通过一些优化算法比如蒙特卡洛算法,来训练该模型。
4)无监督算法:无监督学习是机器学习技术中的一类,用于发现数据中的模式,无监督的重叠社区识别表示的是在没有任何标签的前提下,对数据进行重叠社区发现。
本申请实施例提供一种基于人工智能的重叠社区识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高重叠社区识别的准确性。
本申请实施例所提供的基于人工智能的重叠社区识别方法,可以由终端独自实现;也可以由终端和服务器协同实现,例如终端独自承担下文所述的基于人工智能的重叠社区识别方法,或者,终端向服务器发送重叠社区的识别请求,服务器根据接收的重叠社区的识别请求,识别出异构图中的重叠社区,以提高重叠社区的准确性,从而顺利进行其他下游应用,例如信息检索、异常账号检测等。
本申请实施例提供的用于重叠社区识别的电子设备可以是各种类型的终端或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载设备等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
例如,其中的一种人工智能云服务可以为重叠社区识别服务,即云端的服务器封装有本申请实施例提供的重叠社区识别的程序。用户通过终端(运行有客户端,例如检测客户端、检索客户端)调用云服务中的重叠社区识别服务,以使部署在云端的服务器调用封装的重叠社区识别的程序,对异构图中的对象节点进行节点级注意力处理,得到对象节点的节点级嵌入特征,基于对象节点的节点级嵌入特征,对对象节点进行语义级注意力处理,得到对象节点的语义级嵌入特征,基于对象节点的语义级嵌入特征,对异构图进行分类处理,得到异构图的多个局部社区,对多个局部社区进行聚类处理,得到异构图的重叠社区,以提高重叠社区的准确性,从而顺利进行其他下游应用,例如信息检索、异常账号检测等。
作为一种应用示例,针对异常用户检测应用,在反欺诈的场景下,异构图中的对象节点为用户标识,通过本申请实施例的基于人工智能的重叠社区识别方法,识别出异构图中的重叠社区,则诈骗用户极有可能存在于重叠社区,从而进一步检测重叠社区中少量的用户,以快速地从大规模的异构图中筛选出诈骗团伙,提高反欺诈的效率。
作为另一种应用示例,针对信息检测应用,异构图中的对象节点为与查询信息相关的相关信息,通过本申请实施例的基于人工智能的重叠社区识别方法,识别出异构图中的重叠社区,则与查询信息最相关的信息极有可能存在于重叠社区,从而进一步通过其他规则从重叠社区中查询到与查询信息最相关的信息,以快速地从大规模的异构图中筛选出与查询信息最相关的信息,提高信息检索的效率。
参见图1,图1是本申请实施例提供的重叠社区识别系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端(运行有客户端,例如检测客户端、检索客户端)可以被用来获取重叠社区的识别请求,例如,用户通过终端输入异构图,终端自动获取重叠社区的识别请求(包括异构图)。
在一些实施例中,终端200中运行的客户端中可以植入有重叠社区识别插件,用以在客户端本地实现基于人工智能的重叠社区识别方法。例如,终端200调用重叠社区识别插件,以实现基于人工智能的重叠社区识别方法,对异构图中的对象节点进行节点级注意力处理,得到对象节点的节点级嵌入特征,基于对象节点的节点级嵌入特征,对对象节点进行语义级注意力处理,得到对象节点的语义级嵌入特征,基于对象节点的语义级嵌入特征,对异构图进行分类处理,得到异构图的多个局部社区,对多个局部社区进行聚类处理,得到异构图的重叠社区,以提高重叠社区的准确性,从而顺利进行其他下游应用,例如信息检索、异常账号检测等。
在一些实施例中,终端200获取重叠社区的识别请求后,调用服务器100的重叠社区识别接口(可以提供为云服务的形式,即重叠社区识别服务),服务器100基于重叠社区的识别请求,对异构图中的对象节点进行节点级注意力处理,得到对象节点的节点级嵌入特征,基于对象节点的节点级嵌入特征,对对象节点进行语义级注意力处理,得到对象节点的语义级嵌入特征,基于对象节点的语义级嵌入特征,对异构图进行分类处理,得到异构图的多个局部社区,对多个局部社区进行聚类处理,得到异构图的重叠社区,并将异构图的重叠社区发送至终端200,终端200基于异构图的重叠社区顺利进行其他下游应用,例如信息检索、异常账号检测等。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的重叠社区识别方法,计算机程序为如图1示出的终端200中运行的客户端,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在一些实施例中,多个服务器可组成为一区块链,而服务器100为区块链上的节点,区块链中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。其中,本申请实施例提供的基于人工智能的重叠社区识别方法所相关的数据(例如重叠社区识别的逻辑、重叠社区)可保存于区块链上。
下面说明本申请实施例提供的用于重叠社区识别的电子设备的结构,参见图2,图2是本申请实施例提供的用于重叠社区识别的电子设备500的结构示意图。以电子设备500是终端为例说明,图2所示的用于知识生成的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Onl y Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的基于人工智能的重叠社区识别装置可以采用软件方式实现,本申请实施例提供的基于人工智能的重叠社区识别装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
图2示出了存储在存储器550中的基于人工智能的重叠社区识别装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括获取模块5551、第一注意力模块5552、第二注意力模块5553、处理模块5554以及构建模块5555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
如前所述,本申请实施例提供的视频处理方法可以由各种类型的电子设备实施。参见图3,图3是本申请实施例提供的基于人工智能的重叠社区识别方法的流程示意图,结合图3示出的步骤进行说明。
步骤101中,获取包括多个对象节点的异构图。
其中,异构图包括不同类型的节点和不同类型的边(节点和边至少有一个具有多种类型),异构图中节点间存在多种类型的边(关系),同时每一条边所具有的不同属性也会导致节点间的远近亲疏。
作为示例,在医保基金监管中,异构图中的节点包括个人、医院、医生和投保单位等类型的对象,异构图中的边包括个人和医院之间的就诊次数、个人和医生之间的就诊次数、个人和单位的归属关系、医生和医院的归属关系等类型的边。
在一些实施例中,获取包括多个对象节点的异构图之前,基于节点的原始数据(即对象信息)构建异构图,异构图的构建方法如下:获取多个对象分别对应的对象信息,对象信息包括属性信息以及链接信息,对象与异构图的对象节点一一对应;基于对象的属性信息,确定异构图的对象节点的属性特征;基于对象的链接信息,确定异构图中对象节点之间的元路径。
例如,对象的属性信息为个人的属性,则将对象作为异构图中的对象节点,将对象的属性信息作为异构图中对象节点的属性特征,例如对象的属性信息为年龄、性别等。将对象之间的链接信息作为异构图中对象节点之间的边值,从而基于对象节点之间的边,构建对象节点之间的元路径,例如在医保基金监管中,异构图中对象节点之间的边值包括个人和医院之间的就诊次数、个人和医生之间的就诊次数、个人和单位的归属关系、医生和医院的归属关系等,两个节点之间可以通过不同的语义路径(关系)进行连接,例如对象节点A1和对象节点Al+1之间的一个复合关系
Figure BDA0003367829810000121
则对象节点A1和对象节点Al+1之间的元路径Φ可表示为A1A2…Al+1
步骤102中,对异构图中的对象节点进行节点级注意力处理,得到对象节点的节点级嵌入特征。
例如,在异构图中,节点可以通过各种类型的关系(如元路径)连接。给定一个元路径,每个节点都有很多基于元路径的邻接节点,选择一些信息丰富的邻接节点是必需的。对于每个节点,节点级注意力的目的是学习基于元路径的邻接节点的重要性,并为其分配不同的注意力值,从而更加准确的表征对象特征。
参见图4,图4是本申请实施例提供的基于人工智能的重叠社区识别方法的一个流程示意图,图4示出图3中的步骤102可以通过图4示出的步骤1021-步骤1023实现:在步骤1021中,对象节点具有多个元路径;确定通过任一元路径与对象节点连接的多个邻接节点;在步骤1022中,对对象节点以及每个邻接节点分别进行特征转换处理,得到对象节点的转换特征以及邻接节点的转换特征;在步骤1023中,对对象节点的转换特征以及每个邻接节点的转换特征进行注意力处理,得到对象节点针对任一元路径的节点级嵌入特征。
例如,节点之间通过各种类型的元路径连接,针对某一元路径,可以确定出通过该元路径与对象节点连接的多个邻接节点,例如在元路径Φi的情况下,对象节点i的邻接节点包括对象节点1和对象节点2。确定对象节点的属性特征以及每个邻接节点的属性特征,将对象节点的属性特征映射至特征空间,得到对象节点的转换特征,将每个邻接节点的属性特征映射至特征空间,得到每个邻接节点的转换特征,并对对象节点的转换特征以及每个邻接节点的转换特征进行注意力处理,得到对象节点针对任一元路径的节点级嵌入特征。
作为示例,异构图注意力网络使用类型特定的转换矩阵将异构图中不同类型的对象节点特征投影到同一特征空间,投影过程如公式(1)所示:
Figure BDA0003367829810000131
其中,
Figure BDA0003367829810000132
表示类型特定的转换矩阵,一种可学习参数,hi表示对象节点i的属性特征,h’i表示对象节点i的转换特征。
在一些实施例中,对对象节点的转换特征以及每个邻接节点的转换特征进行注意力处理,得到对象节点针对任一元路径的节点级嵌入特征,包括:对对象节点的转换特征以及每个邻接节点的转换特征进行基于元路径的注意力处理,得到对象节点与每个邻接节点之间的节点对权重;基于每个邻接节点的转换特征以及节点对权重,确定对象节点针对任一元路径的节点级嵌入特征。
例如,不同邻接节点对对象节点的影响不同,因此不能将所有对象节点的重要性进行等同,对于每个对象节点,学习基于元路径的邻接节点的重要性,并为其分配不同的权重,从而基于每个邻接节点的转换特征以及对应的权重,确定对象节点针对任一元路径的节点级嵌入特征,从而综合考虑不同重要性的邻接节点,更加准确的表征对象节点的特征。
在一些实施例中,对对象节点的转换特征以及每个邻接节点的转换特征进行基于元路径的注意力处理,得到对象节点与每个邻接节点之间的节点对权重,包括:对对象节点的转换特征以及每个邻接节点的转换特征进行自注意力处理,得到对象节点与每个邻接节点之间的节点对注意力系数;对对象节点与每个邻接节点之间的节点对注意力系数进行归一化处理,得到对象节点与每个邻接节点之间的节点对权重。
例如,对对象节点的转换特征以及每个邻接节点的转换特征进行自注意力处理,得到对象节点与每个邻接节点之间的节点对注意力系数,例如对象节点i与邻接节点j之间的节点对注意力系数为
Figure BDA0003367829810000133
通过归一化函数(例如softma x函数)对节点对注意力系数为
Figure BDA0003367829810000134
进行归一化,得到对象节点i与邻接节点j之间的节点对权重
Figure BDA0003367829810000135
承接上述示例,对对象节点的转换特征以及每个邻接节点的转换特征进行自注意力处理,得到对象节点与每个邻接节点之间的节点对注意力系数,包括:对对象节点的转换特征以及每个邻接节点的转换特征进行拼接处理,得到对象节点与每个邻接节点的拼接特征;将元路径的节点级注意力向量与拼接特征相乘,得到对象节点与每个邻接节点的融合特征;对对象节点与每个邻接节点的融合特征进行映射处理,得到对象节点与每个邻接节点之间的节点对注意力系数。
例如,自注意力处理过程如公式(2)所示:
Figure BDA0003367829810000141
其中,
Figure BDA0003367829810000142
表示元路径Φi的节点级注意力向量,一种可学习参数,||表示拼接操作,h’i表示对象节点i的转换特征,h’j表示邻接节点j的转换特征,σ表示一种激活函数。
需要说明的是,本申请实施例并不局限于公式(2)以获取节点对注意力系数,还可以适用于其他变形公式。
在一些实施例中,基于每个邻接节点的转换特征以及节点对权重,确定对象节点的节点级嵌入特征,包括:基于节点对权重对每个邻接节点的转换特征进行加权求和处理,得到对象节点的加权特征;对对象节点的加权特征进行映射处理,得到对象节点针对任一元路径的节点级嵌入特征。
例如,在获取每个邻接节点的转换特征以及对象节点与每个邻接节点之间的节点对权重后,基于对象节点与每个邻接节点之间的节点对权重,对每个邻接节点的转换特征进行加权求和处理,得到对象节点的加权特征,并通过一种激活函数对对象节点的加权特征进行映射处理,以得到对象节点针对任一元路径的节点级嵌入特征,从而对象节点针对元路径Φi的节点级嵌入特征考虑到不同重要性的邻接节点,以更加准确的表征对象节点的特征。
步骤103中,基于对象节点的节点级嵌入特征,对对象节点进行语义级注意力处理,得到对象节点的语义级嵌入特征。
例如,异构图形中包含着不同的有意义和复杂的语义信息,这些信息通过元路径来反映。异构图中不同的元路径可以提取不同的语义信息。语义级注意力的目的是学习每一个元路径的重要性,并赋予它们适当的权重。等同对待不同的元路径会削弱一些有用的元路径所提供的语义信息。因此,通过语义级注意力机制,能够提取包含各种不同语义信息的对象节点的特征,提高对象节点的表征的准确性。
参见图5,图5是本申请实施例提供的基于人工智能的重叠社区识别方法的一个流程示意图,图5示出图3中的步骤103可以通过图5示出的步骤1031-步骤1032实现:在步骤1031中,对象节点具有多个元路径,节点对象的节点级嵌入特征包括针对每个元路径的节点级嵌入特征;对对象节点针对每个元路径的节点级嵌入特征进行基于元路径的注意力处理,得到每个元路径的权重;在步骤1032中,基于每个元路径的权重,对对象节点针对每个元路径的节点级嵌入特征进行加权求和处理,得到对象节点的语义级嵌入特征。
例如,不同元路径对应的语义信息不同,且不同元路径对应的重要性也不同,因此,在获得每个元路径的权重后,基于每个元路径的权重,对对象节点针对每个元路径的节点级嵌入特征进行加权求和处理,得到对象节点的语义级嵌入特征,从而综合考虑不同语义信息,以提高对象节点的表征的准确性。
在一些实施例中,对对象节点针对每个元路径的节点级嵌入特征进行基于元路径的注意力处理,得到每个元路径的权重,包括:对每个对象节点针对任一元路径的节点级嵌入特征进行自注意力处理,得到任一元路径的注意力系数;对任一元路径的注意力系数进行归一化处理,得到任一元路径的权重。
例如,对所有对象节点针对任一元路径Φi的节点级嵌入特征进行自注意力处理,得到任一元路径Φi的注意力系数
Figure BDA0003367829810000151
通过归一化函数(例如softmax函数)对任一元路径Φi的注意力系数
Figure BDA0003367829810000152
进行归一化,得到任一元路径Φi的权重
Figure BDA0003367829810000153
在一些实施例中,对每个对象节点针对任一元路径的节点级嵌入特征进行自注意力处理,得到任一元路径的注意力系数,包括:对每个对象节点针对任一元路径的节点级嵌入特征进行映射处理,得到每个对象节点针对任一元路径的映射特征;将元路径的语义级注意力向量与每个对象节点针对任一元路径的映射特征相乘,得到每个对象节点针对任一元路径的融合系数;对多个对象节点分别对应的针对任一元路径的融合系数进行平均处理,得到任一元路径的注意力系数。
例如,通过映射函数对每个对象节点针对任一元路径Φi的节点级嵌入特征进行映射处理,得到每个对象节点针对任一元路径Φi的映射特征,其映射函数如公式(3)所示:
Figure BDA0003367829810000161
其中,W表示权重矩阵,b表示偏置向量,W、b是一种可学习参数,
Figure BDA0003367829810000162
表示对象节点i针对任一元路径Φi的节点级嵌入特征。需要说明的是,本申请实施例并不局限于公式(3),还可以适用于其他变形公式。
在获得对象节点i针对任一元路径Φi的映射特征f(i),将元路径的语义级注意力向量与对象节点i针对任一元路径Φi的映射特征f(i),得到对象节点i针对任一元路径Φi的融合系数
Figure BDA0003367829810000163
在获得所有对象节点针对任一元路径Φi的融合系数
Figure BDA0003367829810000164
后,对多个对象节点分别对应的针对任一元路径的融合系数进行平均处理,得到任一元路径的注意力系数,其计算过程如公式(4)所示:
Figure BDA0003367829810000165
其中,N表示对象节点的集合。
步骤104中,基于对象节点的语义级嵌入特征,对异构图进行分类处理,得到异构图的多个局部社区。
例如,在获得准确的语义级嵌入特征后,基于对象节点的语义级嵌入特征,对异构图进行分类处理,得到异构图的多个局部社区,其中,每个局部社区包括多个对象节点。例如,预先设置多个社区,基于对象节点的语义级嵌入特征对对象节点进行映射处理,得到对象节点所属的社区;当属于社区的对象节点为至少一个时,将社区作为异构图的局部社区。
如图6所示,异构图601中具有多个对象节点,对异构图进行分类处理后,得到3个局部社区,分别为局部社区602、局部社区603、局部社区604。
步骤105中,对多个局部社区进行聚类处理,得到异构图的重叠社区,其中,重叠社区包括同时属于多个局部社区的对象节点。
例如,每个局部社区包括至少一个对象节点,对象节点可能存在于多个局部社区中,对至少两个局部社区进行逻辑并处理,得到异构图的重叠社区。
在一些实施例中,重叠社区识别方法是通过调用重叠社区识别模型实现的,重叠社区识别模型的训练过程如下:对异构图样本中的对象节点样本进行节点级注意力处理,得到对象节点样本的节点级嵌入特征;基于对象节点样本的节点级嵌入特征,对对象节点样本进行语义级注意力处理,得到对象节点样本的语义级嵌入特征;基于对象节点样本的语义级嵌入特征,构建重叠社区识别模型的损失函数;更新重叠社区识别模型的参数直至损失函数收敛,将损失函数收敛时重叠社区识别模型所更新的参数,作为训练后的重叠社区识别模型的参数。
例如,基于对象节点样本的语义级嵌入特征,构建重叠社区识别模型的损失函数
Figure BDA0003367829810000171
其中,Fu表示对象节点u的语义级嵌入特征,Fv表示对象节点v的语义级嵌入特征,PE表示沿边的均匀分布,PN表示非边的均匀分布,更新重叠社区识别模型的参数直至损失函数收敛,将损失函数收敛时更新得到的参数,作为训练后的重叠社区识别模型的参数。
其中,确定重叠社区识别模型的损失函数的值后,可以判断损失函数的值是否达到预设阈值,当损失函数的值未达到预设阈值时,基于损失函数确定重叠社区识别模型的误差信号,将误差信息在重叠社区识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值,即根据输出结果与实际值之间的误差构建损失函数,并逐层求出损失函数对模型参数的偏导数,生成损失函数对各层模型参数的梯度,由于梯度的方向表明误差扩大的方向,因此对模型参数的梯度取反,与以各层模型的原始参数求和,将得到的求和结果作为更新后的各层模型参数,从而减小模型参数引起的误差;不断迭代上述过程,直至收敛,其中,重叠社区识别模型属于神经网络模型。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例可应用于各种重叠社区的场景,例如医保基金监管场景,在医保基金监管中,实现团伙反欺诈的应用;电子凭证实时监管场景,在电子凭证实时监管中,也能有比较良好的应用,针对电子凭证的实时数据,在对于用户新加入的就诊信息和个人信息,可以短时间内发现具有重叠欺诈个人的一些团伙。
下面结合医保基金监管场景进行说明:
相关技术中具有如下检测重叠社区的方法:
方案1:基于图神经网络的社区检测的算法,图神经网络可以在深度图卷积层中聚合节点邻域信息,从而全局捕获复杂特征用于社区检测。在现实世界中,社区分类方法由于缺乏标签而受到限制。
方案2:常规重叠社区检测算法基于产生的节点表征,通过聚类的方法得到图网络中的社区。但是,这种方法所产生的表征往往仅仅考虑了边的信息,而社区的形成往往需要更加紧密的结构。
方案3:基于图神经网络的重叠社区检测,在图网络获取图表征之后,利用聚类或者其他算法得到重叠社区的划分。
为了解决上述问题,本申请实施例针对重叠社区的检测,提出一种基于注意力异构图和伯努利-泊松的无监督重叠社区发现方法(由基于人工智能的重叠社区识别方法实现)。在基金监管领域,有许多欺诈团伙是具有重叠交叉的,或者在对新的个人进行挖掘的时候,可能是与之前发现的多个团伙都是有密切联系的。在医保基金监管场景,本申请实施例采用基于注意力的异构图神经网络来对异构图进行表征学习,在异构图神经网络对异构图进行表征学习之后,利用伯努利-泊松分布模型来对重叠社区进行挖掘,端到端对医保异构图进行高效的社区进行挖掘,快速有效的发现一些疑似的重叠欺诈团伙。
下面具体说明本申请实施例提出的基于注意力异构图和伯努利-泊松的无监督重叠社区发现方法:
如图7所示的重叠社区发现的输入到输出的示意图,在本申请实施例中,输入是一个图形式(包括图中的节点属性以及初始邻接矩阵),然后输出的是重叠社区划分。如图7所示,V表示的是节点(即对象节点),C表示的是社区(即局部社区),F表示的是归属关系,而一个节点可能存在于多个社区中。
如图8所示,本申请实施例提出的基于注意力异构图和伯努利-泊松的无监督重叠社区发现方法包括四个模块,分别为异构图构建模块、异构图学习模块、重叠社区检测模块和训练模块,下面具体说明本申请实施例四个模块:
1)异构图构建模块
通过异构图构建模块将原始的就诊或者个人数据转为异构图。
需要说明的是,异构图表示为G=(V,E),异构图包括一个对象集V和连接集E。异构图与节点类型映射函数
Figure BDA0003367829810000191
V→A和连接类型映射函数
Figure BDA0003367829810000192
E→B相关联。其中,A表示预定义对象类型的集合,B表示预定义连接类型的集合,其中|A|+|B|>2。
在医保基金监管中,异构图的构建方式如下:首先节点包括个人、医院、医生和投保单位等类型的对象,边值包括个人和医院之间的就诊次数、个人和医生之间的就诊次数、个人和单位的归属关系、医生和医院的归属关系等。另外在异构图中,两个节点之间可以通过不同的语义路径(关系)进行连接,称为元路径。元路径Φ的定义如公式(5)所示:
Figure BDA0003367829810000201
其中,元路径Φ可表示为A1A2…Al+1,描述对象A1和Al+1之间的一个复合关系
Figure BDA0003367829810000202
其中,
Figure BDA0003367829810000203
表示关系上的复合操作。
在基金监管中,本申请实施例包括以下的元路径,例如个人-单位-个人、个人-医生-医院、个人-医生-个人、单位-个人-医生、医生-医院-医生等等。不同的元路径表示着不同的语义关系。
2)异构图学习模块
本申请实施例提供的异构图注意力网络考虑了节点级注意力和语义级注意力两个注意力。在给定节点特征(即原始数据,比如个人节点,个人的属性作为节点特征,比如年龄,性别等等)作为输入,异构图注意力网络使用类型特定的转换矩阵将不同类型的节点特征投影到同一空间。然后,节点级注意力能够学习节点与其基于元路径的邻接节点之间的注意力值,而语义级注意旨在学习异构图中特定任务的不同元路径的注意力值。基于这两个层次学习的注意力值,异构图注意力网络能够以分层的方式得到邻接节点和多个元路径的最优组合,使得学习节点嵌入能够更好地捕获异构图中复杂的结构和丰富的语义信息。最后,通过端到端的反向传播,对整个模型进行优化。
关于语义级注意力:异构图形中包含着不同的有意义和复杂的语义信息,这些信息通常通过元路径来反映。异构图中不同的元路径可以提取不同的语义信息。语义级注意力的目的是学习每一个元路径的重要性,并赋予它们适当的权重。平等对待不同的元路径是不现实的,会削弱一些有用的元路径所提供的语义信息。例如在基金监管方面,个人-单位-个人、个人-医生-个人等元路径都是表示个人与个人之间的联系,对于某些个人,个人-医生-个人这条元路径对于表征是更加重要的,对于另外一些个人,个人-单位-个人这条元路径可能是更加重要的。
关于节点级注意力:在异构图中,节点可以通过各种类型的关系(如元路径)连接。给定一个元路径,每个节点都有很多基于元路径的邻接节点,选择一些信息丰富的邻接节点是必需的。对于每个节点,节点级注意力的目的是学习基于元路径的邻接节点的重要性,并为其分配不同的注意力值。例如在基金监管中,个人在多家医院或者医生都有就诊记录,但是有一部分的医生或者医院是更加重要的,利用注意力机制,可以更好的建模不同医生或者医院对个人的重要程度,更加准确的表征个人特征。
如图9所示的语义级注意力和节点级注意力在异构图的特征抽取示意图,通过节点级注意力获取节点i在节点级注意力的表征
Figure BDA0003367829810000211
其中P表示元路径的数量,然后通过语义级注意力获取节点i在语义级注意力的表征Zi
3)重叠社区检测模块
伯努利-泊松(BP,Bernoulli-Poisson)模型是一种允许重叠社区的图生成模型。给定已知隶属关系
Figure BDA0003367829810000212
(N表示异构图中节点V的数量,C表示社区的数量),通过BP模型计算邻接矩阵项,计算公式如公式(6)所示:
Figure BDA0003367829810000213
其中,Fu表示节点u的社区隶属关系行向量(矩阵F中的节点u所在行),Fv表示节点v的社区隶属关系行向量(矩阵F中的节点v所在行)。直观上,社区中节点u和节点v的共同点越多(即Fu
Figure BDA0003367829810000214
越大),它们被一条边连接的可能性就越大。在BP模型中使用坐标上移的最大似然估计或马尔可夫链蒙特卡罗进行推断,从而进一步的得到重叠社区的划分。其中,更新完成的节点嵌入特征作为矩阵F中的节点所在行,即节点的社区隶属关系行向量,Zu=Fu
随着图神经网络的发展,特别是异构图神经网络的进展,针对异构图的异构图神经网络可以对异构图进行有效的特征抽取。对于医保基金监管中包含的异构图,本申请实施例采用一个异构图神经网络作为特征抽取器,并结合BP模型来划分重叠社区,例如在医保反欺诈中,由于节点类型和边的类型不同,因此构建异构图,然后利用异构图神经网络对异构图进行特征抽取,也就是对节点信息进行更新,在对节点进行更新之后,用BP模型再对异构图进行社区划分,也就是将形似节点会聚在一起,形成一个社区。
将隶属关系矩阵F作为一个自由变量进行优化,采用异构图神经网络生成F,其计算公式如公式(7)所示:
F:=GNNθ(A,X) (7)
其中,A表示初始邻接矩阵,X表示节点属性,F表示最后输出的隶属关系矩阵,GNN表示异构图神经网络。其中,一个非线性函数(例如ReLU)被应用到输出层,以确保F的非负性。
4)训练模块
对于模型的训练损失函数,采用伯努利-泊松模型的负对数似然,损失函数如公式(8)所示:
Figure BDA0003367829810000221
其中,PE表示沿边的均匀分布,PN表示非边的均匀分布,本申请实施例通过最小化(平衡的)负对数似然值寻找神经网络参数θ,如公式(9)所示:
θ=argminθL(GNNθ(A,X)) (9)
需要说明的是,使用异构图神经网络来进行社区预测有以下优点。首先,由于适当的归纳偏差,异构图神经网络为邻近节点输出相似的社区隶属向量,这提高了预测的质量。此外,可以无缝地将节点特征加入模型中。
在医保基金监管的应用中,由于业务上的数据本身没有标签,该无监督的算法可以很好的适配于医保基金监管中的团伙欺诈检测中,可以挖掘和发现重叠社区和团伙。在挖掘出重叠社区之后,再通过规则或者异常检测方法对重叠社区进行筛选,进一步筛选出高可疑的团伙。
综上,本申请实施例提供的基于注意力异构图和伯努利-泊松的无监督重叠社区发现方法具有以下有益效果:
1)采用异构图表示来整合个人、医院、医生、投保单位之间的交互信息,能够有效的整合不同类型节点之间的联系。
2)采用基于注意力的异构图神经网络来对异构图进行表征学习,有效的对异构图进行特征聚合和标准,异构图神经网络在针对一个具有个人信息、医生信息、医院信息的图上可以更加有效的学习到不同的表征。
3)利用端对端的伯努利-泊松分布模型来对重叠社区进行挖掘,可以直接有效的对社区进行挖掘。
至此已经结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的基于人工智能的重叠社区识别方法。本申请实施例还提供基于人工智能的重叠社区识别装置,实际应用中,基于人工智能的重叠社区识别装置中的各功能模块可以由电子设备(如终端、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的基于人工智能的重叠社区识别装置555,其可以是程序和插件等形式的软件,例如,软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式,下面对不同的实现方式举例说明。
其中,基于人工智能的重叠社区识别装置555包括一系列的模块,包括获取模块5551、第一注意力模块5552、第二注意力模块5553、处理模块5554以及构建模块5555。下面继续说明本申请实施例提供的基于人工智能的重叠社区识别装置555中各个模块配合实现重叠社区识别方案。
获取模块5551,用于获取包括多个对象节点的异构图;第一注意力模块5552,用于对所述异构图中的对象节点进行节点级注意力处理,得到所述对象节点的节点级嵌入特征;第二注意力模块5553,用于基于所述对象节点的节点级嵌入特征,对所述对象节点进行语义级注意力处理,得到所述对象节点的语义级嵌入特征;处理模块5554,用于基于所述对象节点的语义级嵌入特征,对所述异构图进行分类处理,得到所述异构图的多个局部社区;对所述多个局部社区进行聚类处理,得到所述异构图的重叠社区,其中,所述重叠社区包括同时属于所述多个局部社区的对象节点。
在一些实施例中,所述对象节点具有多个元路径;所述第一注意力模块5552还用于确定通过任一所述元路径与所述对象节点连接的多个邻接节点;对所述对象节点以及每个所述邻接节点分别进行特征转换处理,得到所述对象节点的转换特征以及所述邻接节点的转换特征;对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行注意力处理,得到所述对象节点针对任一所述元路径的节点级嵌入特征。
在一些实施例中,所述第一注意力模块5552还用于确定所述对象节点的属性特征以及每个所述邻接节点的属性特征;将所述对象节点的属性特征映射至特征空间,得到所述对象节点的转换特征;将每个所述邻接节点的属性特征映射至所述特征空间,得到每个所述邻接节点的转换特征。
在一些实施例中,所述第一注意力模块5552还用于对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行基于所述元路径的注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对权重;基于每个所述邻接节点的转换特征以及所述节点对权重,确定所述对象节点针对任一所述元路径的节点级嵌入特征。
在一些实施例中,所述第一注意力模块5552还用于基于所述节点对权重对每个所述邻接节点的转换特征进行加权求和处理,得到所述对象节点的加权特征;对所述对象节点的加权特征进行映射处理,得到所述对象节点针对任一所述元路径的节点级嵌入特征。
在一些实施例中,所述第一注意力模块5552还用于对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行自注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对注意力系数;对所述对象节点与每个所述邻接节点之间的节点对注意力系数进行归一化处理,得到所述对象节点与每个所述邻接节点之间的节点对权重。
在一些实施例中,所述第一注意力模块5552还用于对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行拼接处理,得到所述对象节点与每个所述邻接节点的拼接特征;将所述元路径的节点级注意力向量与所述拼接特征相乘,得到所述对象节点与每个所述邻接节点的融合特征;对所述对象节点与每个所述邻接节点的融合特征进行映射处理,得到所述对象节点与每个所述邻接节点之间的节点对注意力系数。
在一些实施例中,所述对象节点具有多个元路径,所述节点对象的节点级嵌入特征包括针对每个所述元路径的节点级嵌入特征;所述第二注意力模块5553还用于对所述对象节点针对每个所述元路径的节点级嵌入特征进行基于所述元路径的注意力处理,得到每个所述元路径的权重;基于每个所述元路径的权重,对所述对象节点针对每个所述元路径的节点级嵌入特征进行加权求和处理,得到所述对象节点的语义级嵌入特征。
在一些实施例中,所述第二注意力模块5553还用于对每个所述对象节点针对任一所述元路径的节点级嵌入特征进行自注意力处理,得到任一所述元路径的注意力系数;对任一所述元路径的注意力系数进行归一化处理,得到任一所述元路径的权重。
在一些实施例中,所述第二注意力模块5553还用于对每个所述对象节点针对任一所述元路径的节点级嵌入特征进行映射处理,得到每个所述对象节点针对任一所述元路径的映射特征;将所述元路径的语义级注意力向量与每个所述对象节点针对任一所述元路径的映射特征相乘,得到每个所述对象节点针对任一所述元路径的融合系数;对所述多个对象节点分别对应的针对任一所述元路径的融合系数进行平均处理,得到任一所述元路径的注意力系数。
在一些实施例中,所述处理模块5554还用于基于所述对象节点的语义级嵌入特征对所述对象节点进行映射处理,得到所述对象节点所属的社区;当属于所述社区的对象节点为至少一个时,将所述社区作为所述异构图的局部社区;对所述多个局部社区进行逻辑并处理,得到所述异构图的重叠社区。
在一些实施例中,所述获取包括多个对象节点的异构图之前,所述装置还包括:构建模块5555,用于获取多个对象分别对应的对象信息,所述对象信息包括属性信息以及链接信息,所述对象与所述异构图的对象节点一一对应;基于所述对象的属性信息,确定所述异构图的对象节点的属性特征;基于所述对象的链接信息,确定所述异构图中对象节点之间的元路径。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的重叠社区识别方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的重叠社区识别方法,例如,如图3-图5示出的基于人工智能的重叠社区识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (16)

1.一种基于人工智能的重叠社区识别方法,其特征在于,所述方法包括:
获取包括多个对象节点的异构图;
对所述异构图中的对象节点进行节点级注意力处理,得到所述对象节点的节点级嵌入特征;
基于所述对象节点的节点级嵌入特征,对所述对象节点进行语义级注意力处理,得到所述对象节点的语义级嵌入特征;
基于所述对象节点的语义级嵌入特征,对所述异构图进行分类处理,得到所述异构图的多个局部社区;
对所述多个局部社区进行聚类处理,得到所述异构图的重叠社区,其中,所述重叠社区包括同时属于所述多个局部社区的对象节点。
2.根据权利要求1所述的方法,其特征在于,
所述对象节点具有多个元路径;
所述对所述异构图中的对象节点进行节点级注意力处理,得到所述对象节点的节点级嵌入特征,包括:
确定通过任一所述元路径与所述对象节点连接的多个邻接节点;
对所述对象节点以及每个所述邻接节点分别进行特征转换处理,得到所述对象节点的转换特征以及所述邻接节点的转换特征;
对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行注意力处理,得到所述对象节点针对任一所述元路径的节点级嵌入特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述对象节点以及每个所述邻接节点分别进行特征转换处理,得到所述对象节点的转换特征以及所述邻接节点的转换特征,包括:
确定所述对象节点的属性特征以及每个所述邻接节点的属性特征;
将所述对象节点的属性特征映射至特征空间,得到所述对象节点的转换特征;
将每个所述邻接节点的属性特征映射至所述特征空间,得到每个所述邻接节点的转换特征。
4.根据权利要求2所述的方法,其特征在于,所述对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行注意力处理,得到所述对象节点针对任一所述元路径的节点级嵌入特征,包括:
对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行基于所述元路径的注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对权重;
基于每个所述邻接节点的转换特征以及所述节点对权重,确定所述对象节点针对任一所述元路径的节点级嵌入特征。
5.根据权利要求4所述的方法,其特征在于,所述基于每个所述邻接节点的转换特征以及所述节点对权重,确定所述对象节点的节点级嵌入特征,包括:
基于所述节点对权重对每个所述邻接节点的转换特征进行加权求和处理,得到所述对象节点的加权特征;
对所述对象节点的加权特征进行映射处理,得到所述对象节点针对任一所述元路径的节点级嵌入特征。
6.根据权利要求4所述的方法,其特征在于,所述对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行基于所述元路径的注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对权重,包括:
对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行自注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对注意力系数;
对所述对象节点与每个所述邻接节点之间的节点对注意力系数进行归一化处理,得到所述对象节点与每个所述邻接节点之间的节点对权重。
7.根据权利要求6所述的方法,其特征在于,所述对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行自注意力处理,得到所述对象节点与每个所述邻接节点之间的节点对注意力系数,包括:
对所述对象节点的转换特征以及每个所述邻接节点的转换特征进行拼接处理,得到所述对象节点与每个所述邻接节点的拼接特征;
将所述元路径的节点级注意力向量与所述拼接特征相乘,得到所述对象节点与每个所述邻接节点的融合特征;
对所述对象节点与每个所述邻接节点的融合特征进行映射处理,得到所述对象节点与每个所述邻接节点之间的节点对注意力系数。
8.根据权利要求1所述的方法,其特征在于,
所述对象节点具有多个元路径,所述节点对象的节点级嵌入特征包括针对每个所述元路径的节点级嵌入特征;
所述基于所述对象节点的节点级嵌入特征,对所述对象节点进行语义级注意力处理,得到所述对象节点的语义级嵌入特征,包括:
对所述对象节点针对每个所述元路径的节点级嵌入特征进行基于所述元路径的注意力处理,得到每个所述元路径的权重;
基于每个所述元路径的权重,对所述对象节点针对每个所述元路径的节点级嵌入特征进行加权求和处理,得到所述对象节点的语义级嵌入特征。
9.根据权利要求8所述的方法,其特征在于,所述对所述对象节点针对每个所述元路径的节点级嵌入特征进行基于所述元路径的注意力处理,得到每个所述元路径的权重,包括:
对每个所述对象节点针对任一所述元路径的节点级嵌入特征进行自注意力处理,得到任一所述元路径的注意力系数;
对任一所述元路径的注意力系数进行归一化处理,得到任一所述元路径的权重。
10.根据权利要求9所述的方法,其特征在于,所述对每个所述对象节点针对任一所述元路径的节点级嵌入特征进行自注意力处理,得到任一所述元路径的注意力系数,包括:
对每个所述对象节点针对任一所述元路径的节点级嵌入特征进行映射处理,得到每个所述对象节点针对任一所述元路径的映射特征;
将所述元路径的语义级注意力向量与每个所述对象节点针对任一所述元路径的映射特征相乘,得到每个所述对象节点针对任一所述元路径的融合系数;
对所述多个对象节点分别对应的针对任一所述元路径的融合系数进行平均处理,得到任一所述元路径的注意力系数。
11.根据权利要求1所述的方法,其特征在于,
所述基于所述对象节点的语义级嵌入特征,对所述异构图进行分类处理,得到所述异构图的多个局部社区,包括:
基于所述对象节点的语义级嵌入特征对所述对象节点进行映射处理,得到所述对象节点所属的社区;
当属于所述社区的对象节点为至少一个时,将所述社区作为所述异构图的局部社区;
所述对所述多个局部社区进行聚类处理,得到所述异构图的重叠社区,包括:
对所述多个局部社区进行逻辑并处理,得到所述异构图的重叠社区。
12.根据权利要求1所述的方法,其特征在于,所述获取包括多个对象节点的异构图之前,所述方法还包括:
获取多个对象分别对应的对象信息,所述对象信息包括属性信息以及链接信息,所述对象与所述异构图的对象节点一一对应;
基于所述对象的属性信息,确定所述异构图的对象节点的属性特征;
基于所述对象的链接信息,确定所述异构图中对象节点之间的元路径。
13.一种基于人工智能的重叠社区识别装置,其特征在于,所述装置包括:
获取模块,用于获取包括多个对象节点的异构图;
第一注意力模块,用于对所述异构图中的对象节点进行节点级注意力处理,得到所述对象节点的节点级嵌入特征;
第二注意力模块,用于基于所述对象节点的节点级嵌入特征,对所述对象节点进行语义级注意力处理,得到所述对象节点的语义级嵌入特征;
处理模块,用于基于所述对象节点的语义级嵌入特征,对所述异构图进行分类处理,得到所述异构图的多个局部社区;
对所述多个局部社区进行聚类处理,得到所述异构图的重叠社区,其中,所述重叠社区包括同时属于所述多个局部社区的对象节点。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的基于人工智能的重叠社区识别方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时实现权利要求1至12任一项所述的基于人工智能的重叠社区识别方法。
16.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至12任一项所述的基于人工智能的重叠社区识别方法。
CN202111388158.7A 2021-11-22 2021-11-22 重叠社区识别方法、装置、设备、存储介质及程序产品 Active CN114329099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111388158.7A CN114329099B (zh) 2021-11-22 2021-11-22 重叠社区识别方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111388158.7A CN114329099B (zh) 2021-11-22 2021-11-22 重叠社区识别方法、装置、设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN114329099A true CN114329099A (zh) 2022-04-12
CN114329099B CN114329099B (zh) 2023-07-07

Family

ID=81046732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111388158.7A Active CN114329099B (zh) 2021-11-22 2021-11-22 重叠社区识别方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN114329099B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423639A (zh) * 2022-09-07 2022-12-02 四川大学 一种面向社交网络的安全社区发现方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960390A (zh) * 2017-01-03 2017-07-18 上海大学 基于节点聚合度的重叠社区划分方法
CN109978710A (zh) * 2019-04-11 2019-07-05 重庆大学 基于k-核迭代因子和社区隶属度的重叠社区划分方法
CN110046698A (zh) * 2019-04-28 2019-07-23 北京邮电大学 异质图神经网络生成方法、装置、电子设备及存储介质
CN110232638A (zh) * 2019-06-17 2019-09-13 重庆邮电大学 一种基于节点重要性与局部扩展的重叠社区发现方法
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别系统及方法
CN111709518A (zh) * 2020-06-16 2020-09-25 重庆大学 一种基于社区感知和关系注意力的增强网络表示学习的方法
US20210044870A1 (en) * 2019-08-07 2021-02-11 Hulu, LLC Representation Of Content Based On Content-Level Features
CN113095439A (zh) * 2021-04-30 2021-07-09 东南大学 基于注意力机制的异构图嵌入学习方法
CN113127730A (zh) * 2021-03-15 2021-07-16 厦门理工学院 一种基于重叠社区的社区检测方法、终端设备及存储介质
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
WO2021184367A1 (zh) * 2020-03-20 2021-09-23 清华大学 基于度分布生成模型的社交网络图生成方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960390A (zh) * 2017-01-03 2017-07-18 上海大学 基于节点聚合度的重叠社区划分方法
CN109978710A (zh) * 2019-04-11 2019-07-05 重庆大学 基于k-核迭代因子和社区隶属度的重叠社区划分方法
CN110046698A (zh) * 2019-04-28 2019-07-23 北京邮电大学 异质图神经网络生成方法、装置、电子设备及存储介质
CN110232638A (zh) * 2019-06-17 2019-09-13 重庆邮电大学 一种基于节点重要性与局部扩展的重叠社区发现方法
US20210044870A1 (en) * 2019-08-07 2021-02-11 Hulu, LLC Representation Of Content Based On Content-Level Features
CN111163057A (zh) * 2019-12-09 2020-05-15 中国科学院信息工程研究所 一种基于异构信息网络嵌入算法的用户识别系统及方法
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和系统
WO2021184367A1 (zh) * 2020-03-20 2021-09-23 清华大学 基于度分布生成模型的社交网络图生成方法
CN111709518A (zh) * 2020-06-16 2020-09-25 重庆大学 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN113127730A (zh) * 2021-03-15 2021-07-16 厦门理工学院 一种基于重叠社区的社区检测方法、终端设备及存储介质
CN113095439A (zh) * 2021-04-30 2021-07-09 东南大学 基于注意力机制的异构图嵌入学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
OLEKSANDR SHCHUR 等: "Overlapping Community Detection with Graph Neural Networks", 《HTTPS://ARXIV.ORG/ABS/1909.12201》 *
OLEKSANDR SHCHUR 等: "Overlapping Community Detection with Graph Neural Networks", 《HTTPS://ARXIV.ORG/ABS/1909.12201》, 26 September 2019 (2019-09-26), pages 1 - 7 *
薛维佳: "异构信息网络中基于聚类的社区发现方法研究", 《国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, pages 138 - 598 *
贾香恩 等: "异构图卷积网络研究进展", 《计算机工程与应用》, vol. 57, no. 09, pages 36 - 49 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423639A (zh) * 2022-09-07 2022-12-02 四川大学 一种面向社交网络的安全社区发现方法

Also Published As

Publication number Publication date
CN114329099B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
Fan et al. One2multi graph autoencoder for multi-view graph clustering
CN115511501A (zh) 一种数据处理方法、计算机设备以及可读存储介质
CN113011167B (zh) 基于人工智能的作弊识别方法、装置、设备及存储介质
CN114626890A (zh) 一种基于图结构学习的异常用户检测方法
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
CN111967271A (zh) 分析结果的生成方法、装置、设备及可读存储介质
CN112561031A (zh) 基于人工智能的模型搜索方法、装置及电子设备
Fan et al. An interactive visual analytics approach for network anomaly detection through smart labeling
CN111598711A (zh) 目标用户账号识别方法、计算机设备及存储介质
CN115718846A (zh) 用于智能化交互网络的大数据挖掘方法及系统
CN117061322A (zh) 物联网流量池管理方法及系统
CN116127190A (zh) 一种数字地球资源推荐系统及方法
Kumar et al. Development of a cloud-assisted classification technique for the preservation of secure data storage in smart cities
CN113228059A (zh) 面向跨网络的表示学习算法
CN112817563A (zh) 目标属性配置信息确定方法、计算机设备和存储介质
CN114329099A (zh) 重叠社区识别方法、装置、设备、存储介质及程序产品
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质
CN116090504A (zh) 图神经网络模型训练方法及装置、分类方法、计算设备
CN115114329A (zh) 数据流异常检测的方法、装置、电子设备和存储介质
CN112529025A (zh) 一种数据处理方法及装置
Khodadadi et al. Discovering the maximum k-clique on social networks using bat optimization algorithm
CN114756768A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
Wu et al. A domain generalization pedestrian re-identification algorithm based on meta-graph aware
CN113822294A (zh) 图数据分类模型训练方法、装置、设备及存储介质
CN111737319A (zh) 用户集群的预测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant