CN114819138A - 图数据处理方法、装置、电子设备及存储介质 - Google Patents

图数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114819138A
CN114819138A CN202210304735.8A CN202210304735A CN114819138A CN 114819138 A CN114819138 A CN 114819138A CN 202210304735 A CN202210304735 A CN 202210304735A CN 114819138 A CN114819138 A CN 114819138A
Authority
CN
China
Prior art keywords
node
matrix
graph data
classified
characteristic matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210304735.8A
Other languages
English (en)
Inventor
赵宏宇
赵国庆
蒋宁
王洪斌
吴海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210304735.8A priority Critical patent/CN114819138A/zh
Publication of CN114819138A publication Critical patent/CN114819138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种图数据处理方法、装置、电子设备及存储介质。所述方法包括:获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特征矩阵;基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个节点的重要性分数;基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节点,得到所述待分类的图数据对应的目标节点;获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩阵,得到所述待分类的图数据的特征矩阵;将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类的图数据的分类结果。从而提高了对待分类的图数据进行分类的准确性。

Description

图数据处理方法、装置、电子设备及存储介质
技术领域
本申请属于图数据处理技术领域,具体涉及一种图数据处理方法、装置、电子设备及存储介质。
背景技术
如今基于大数据的深度学习方法已经远远超越了传统的识别和检测方法。其中,图卷积神经网络 (Graph Convolutional Networks,简称GCNs)是深度学习当前较为热门的方法之一,图卷积神经网络是一 种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表 现。深度学习(deep learning)是机器学习的分支,它试图使用包含复杂结构或由多重非线性变换构成的多 个处理层对数据进行高层抽象的算法。
图卷积神经网络通过对图数据交替进行卷积和池化操作,逐渐提取图数据的高层特征,再使用神经 网络对特征分类,完成识别的功能。但相关的图数据处理方法,对图数据进行分类的分类准确性还有待 提高。
发明内容
鉴于上述问题,本申请提出了一种图数据处理方法、装置、电子设备以及存储介质,以实现改善 上述问题。
第一方面,本申请实施例提供了一种图数据处理方法,所述方法包括:获取待分类的图数据, 以及所述待分类的图数据对应的节点特征矩阵和/或结构特征矩阵;基于所述节点特征矩阵和/或所 述结构特征矩阵,确定所述待分类的图数据中每个节点的重要性分数;基于所述重要性分数,从 所述待分类的图数据所包括的节点中获取预设数量的节点,得到所述待分类的图数据对应的目标 节点;获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩阵,得到 所述待分类的图数据的特征矩阵;将所述待分类的图数据的特征矩阵输入到图分类模型中,得到 所述待分类的图数据的分类结果。
第二方面,本申请实施例提供了一种图像分类装置,所述装置包括:数据获取单元,用于获取待 分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特征矩阵;分数确定单元, 用于基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个节点的重要 性分数;节点获取单元,用于基于所述重要性分数,从所述待分类的图数据所包括的节点中获取 预设数量的节点,得到所述待分类的图数据对应的目标节点;矩阵获取单元,用于获取所述目标 节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩阵,确定所述待分类的图数据 的特征矩阵;分类单元,用于将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述 待分类的图数据的分类结果。
第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器以及存储器;一个或多 个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执 行,所述一个或多个程序配置用于执行上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储 有程序代码,其中,在所述程序代码运行时执行上述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程 序/指令被处理器执行时实现上述方法的步骤。
本申请实施例提供了一种图数据处理方法、装置、电子设备及存储介质,首先获取待分类的 图数据,以及待分类的图数据对应的节点特征矩阵和/或结构特征矩阵,然后基于节点特征矩阵和 结构特征矩阵,确定待分类的图数据中每个节点的重要性分数,基于重要性分数,从待分类的图 数据所包括的节点中获取预设数量的节点,得到待分类的图数据对应的目标节点,再获取目标节 点对应的节点特征矩阵,并根据目标节点对应的节点特征矩阵,得到待分类的图数据的特征矩阵, 最后将待分类的图数据的特征矩阵输入到图分类模型中,得到待分类的图数据的分类结果。通过 上述方法使得在对图数据进行分类的过程中,可以结合待分类的图数据的节点间的结构信息和节 点自身的特征信息,对待分类的图数据所包括的节点进行筛选,以得到重要性分数高的目标节点, 从而通过目标节点可以得到具有更多特征信息的特征矩阵,进而通过对具有更多特征信息的特征 表示进行识别,提高了对待分类的图数据进行分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简 单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来 讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提出的一种图数据处理方法的应用场景示意图;
图2示出了本申请一实施例提出的一种图数据处理方法的流程图;
图3示出了本申请一实施例提出的一种图数据处理模型的架构图;
图4示出了本申请一实施例提出的一种图数据处理模型的架构图;
图5示出了本申请另一实施例提出的一种图数据处理方法的流程图;
图6示出了本申请再一实施例提出的一种图数据处理方法的流程图;
图7示出了本申请再一实施例中迭代融合后节点的重要性分数变化示意图;
图8示出了本申请又一实施例提出的一种图数据处理方法的流程图;
图9示出了本申请实施例提出的一种图像分类装置的结构框图;
图10示出了本申请中用于执行根据本申请实施例的图数据处理方法的电子设备或服务器的结 构框图;
图11示出了本申请中用于保存或者携带实现根据本申请实施例的图数据处理方法的程序代码 的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施 例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请 保护的范围。
图数据就是一种非欧式空间的数据结构。近年来GCN(Graph ConvolutionalNetwork,图卷积 神经网络)在图数据处理中的应用得到了广泛应用。GCN模型基于邻域聚合方案,通过聚合来自邻 域的信息以生成节点嵌入。与传统方法相比,GCN在各种任务(例如半监督节点分类和图分类)中 均实现了令人满意的性能。但是,GCN模型使用邻接矩阵作为聚合矩阵,这会导致无法区分节点 的相对重要性,导致图数据分类的精确度不高。
因此,发明人提出了本申请中的图数据处理方法、装置、电子设备及存储介质。首先获取待 分类的图数据,以及待分类的图数据对应的节点特征矩阵和/或结构特征矩阵,然后基于节点特征 矩阵和结构特征矩阵,确定待分类的图数据中每个节点的重要性分数,基于重要性分数,从待分 类的图数据所包括的节点中获取预设数量的节点,得到待分类的图数据对应的目标节点,再获取 目标节点对应的节点特征矩阵,并根据目标节点对应的节点特征矩阵,得到待分类的图数据的特 征矩阵,最后将待分类的图数据的特征矩阵输入到图分类模型中,得到待分类的图数据的分类结 果。通过上述方法使得在对图数据进行分类的过程中,可以结合待分类的图数据的节点间的结构 信息和节点自身的特征信息,对待分类的图数据所包括的节点进行筛选,以得到重要性分数高的 目标节点,从而通过目标节点可以得到具有更多特征信息的特征矩阵,进而通过对具有更多特征 信息的特征表示进行识别,提高了对待分类的图数据进行分类的准确性。
在对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及一种应用环境进行介绍。
图1示出了根据本申请的实施例可以将本申请描述的各种方法和装置在其中实施的系统100 的示意图。参考图1,该系统100包括一个或多个电子设备110、服务器120以及将一个或多个电 子设备耦接到服务器120的一个或多个通信网络130。
在本申请的实施例中,服务器120可以运行使得能够执行图数据处理方法的一个或多个服务 或软件应用。在一些实施方式中,服务器120可以为分布式系统的服务器。服务器120也可以是 云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
可以使用电子设备110来获取待分类的图数据。电子设备110可以提供使电子设备110的用 户能够与电子设备110进行交互的接口。电子设备110还可以经由该接口向用户输出信息,比如 电子设备110可以通过该接口输出待分类的图数据。
电子设备110可以为各种类型可以获取待分类的图数据的计算机设备,例如便携式手持设备、 通用计算机(诸如个人计算机和膝上型计算机)以及可穿戴设备等。其中,便携式手持设备可以包括 蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等;可穿戴设备可以包括头戴式显示器和其 他设备。电子设备110能够执行各种不同的应用程序,例如各种与Internet相关的应用程序、通信 应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序,并且可以使用各种通信协议。
网络130可以是任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于 TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络130可以是局域网(LAN)、 基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、 外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络 的任意组合。
系统100还可以包括一个或多个数据库140。在某些实施例中,这些数据库可以用于存储不同 的待分类的图数据。数据库140可以驻留在各种位置。例如,由服务器120使用的数据库可以在 服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。 数据库140可以是不同的类型。在某些实施例中,由服务器120使用的数据库可以为关系数据库。 这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
可选的,电子设备110也可以运行使得能够执行图数据处理方法的一个或多个服务或软件应 用。
在本申请实施例中,本申请实施例提供的图数据处理方法可以由电子设备110和服务器120 协同执行。在由电子设备110和服务器120协同执行的这种方式中,本申请实施例提供的图数据 处理方法中的部分步骤可以由电子设备110执行,而另外部分的步骤则由服务器120来执行。
示例性的,电子设备110可以执行图数据处理方法中包括的:获取待分类的图数据,以及所 述待分类的图数据对应的节点特征矩阵和/或结构特征矩阵,并将所述待分类的图数据以及所述待 分类的图数据对应的节点特征矩阵和/或结构特征矩阵发送给所述服务器120,然后由服务器120 基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个节点的重要性分 数;基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节点,得到所 述待分类的图数据对应的目标节点;获取所述目标节点对应的节点特征矩阵,并根据所述目标节 点对应的节点特征矩阵,得到所述待分类的图数据的特征矩阵;将所述待分类的图数据的特征矩 阵输入到图分类模型中,得到所述待分类的图数据的分类结果,并由服务器120将待分类的图数 据的分类结果发送给电子设备110。
需要说明的是,在由电子设备110和服务器120协同执行的这种方式中,电子设备110和服 务器120分别执行的步骤不限于上述示例中所介绍的方式,在实际应用中,可以根据实际情况动 态的调整电子设备110和服务器120分别执行的步骤。
下面将结合附图具体描述本申请的各实施例。
请参阅图2,本申请实施例提供的一种图数据处理方法,应用于如图1所示的电子设备或服务 器,所述方法包括:
步骤S110:获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特 征矩阵。
在本申请实施例中,待分类的图数据为需要进行分类的图。待分类的图数据中包括有多个节 点,待分类的图数据中的每个节点表征一个个体。比如,若待分类的图数据为蛋白分子网络,那 么待分类的图数据中的每个氨基酸就是一个节点。在本申请实施例中,图是一种数据格式,它可 以用于表示欺诈团伙网络、社交网络、飞机航线网络、蛋白分子网络等,图中的节点表示网络中 的个体,连边表示个体之间的连接关系图。可选地,图是由顶点的有穷非空集合和顶点之间边的 集合组成,表示为G(V,E),其中G表示一个图,V是图G中顶点的集合,E是图G中边的集合。
作为一种方式,待分类的图数据可以为实时获取的图,也可以为预先获取到的图。作为其中 一种方式,当待分类的图数据为实时获取的图时,可以实时根据不同节点之间的关联关系来构建 图,将实时构建的图作为待分类的图数据。作为其中另一种方式,当待分类的图数据为预先获取 到的图时,可以预先根据不同节点之间的关联关系构建不同的图,并对预先构建的图进行存储。 当需要获取待分类的图数据时,就可以从存储有多个图的存储区域中获取图,将从存储区域中获 取到的图作为待分类的图数据。此时,可以将随机从存储区域中获取到的图都作为待分类的图数 据,当然也可以将从存储区域中获取到的指定的图作为待分类的图数据。
在本申请实施例中,待分类的图数据对应的节点特征矩阵用于表征待分类的图数据中的每个 节点的自身属性,待分类的图数据对应的结构特征矩阵用于表征待分类的图数据中不同节点之间 的关联属性。在待分类的图数据表征不同的网络的情况下,待分类的图数据对应的节点特征矩阵 和结构特征矩阵所表征的含义不同。作为其中一种示例,若待分类的图数据表征的是欺诈团伙网 络,那么待分类的图数据对应的节点特征矩阵用于表征每个个体在注册或提交贷款时提交的注册 信息,待分类的图数据对应的结构特征矩阵用于表征不同个体之间的关联关系,比如是否在同一 个位置处提交的注册信息;可选的,在本应用场景中,所要解决的是如何精确识别欺诈团伙的问 题。
作为其中另一种示例,若待分类的图数据表征的是社交网络,那么待分类的图数据对应的节 点特征矩阵用于表征社交网络中的每一个用户在注册社交账号时提交的信息,待分类的图数据对 应的结构特征用于表征不同用户的社交账号之间的关联关系,比如是否互为联系人;可选的,在 本应用场景中,所要解决的是如何识别不同用户之间是否互为联系人的问题。
作为其中又一种示例,若待分类的图数据表征的是飞机航线网络,那么待分类的图数据对应 的节点特征矩阵表征的是各机场的地理位置和飞机航线,待分类的图数据对应的结构特征矩阵表 征的是各机场之间的距离以及每两个机场之间的航班成本;在本应用场景中,所要解决的是找出 从一个城市到另一个城市的最小航行成本。
作为其中再一种示例,若待分类的图数据为蛋白质图,那么待分类的图数据对应的节点特征 矩阵用于表征每个氨基酸的类型,待分类的图数据对应的结构特征矩阵用于表征不同氨基酸之间 的距离;可选的,在本应用场景中,所要解决的是识别待分类的图数据是酶还是非酶的问题。
作为一种方式,可以通过图卷积神经网络来提取待分类的图数据对应的节点特征矩阵和结构 特征矩阵。可选地,图卷积神经网络可以通过对待分类的图数据进行卷积运算,得到待分类的图 数据的节点特征矩阵和结构特征矩阵。
步骤S120:基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个 节点的重要性分数。
在本申请实施例中,待分类的图数据中每个节点的重要性分数可以理解为通过节点特征矩阵 和权重参数计算得到的节点特征的注意力分数,其中权重参数是随机初始化的参数矩阵;待分类 的图数据中每个节点的重要性分数也可以理解为通过节点特征矩阵、权重参数以及结构特征矩阵 计算得到的节点的结构特征的注意力分数;可选地,待分类的图数据中每个节点的重要性分数也 可以理解为节点的结构特征的注意力分数和节点特征的注意力分数进行加权融合后得到的分数。 其中,节点的重要性分数表征节点在整个待分类的图数据中的重要程度,节点的重要性分数越高, 该节点对于待分类的图数据越重要;节点的结构特征的注意力分数表征该节点与邻居节点之间的 关联程度,节点的结构特征的注意力分数越高,表征该节点连接的邻居节点越多;节点特征的注 意力分数表征节点自身携带的信息量,节点特征的注意力分数越高,表征该节点自身携带的信息 量越多。
作为一种方式,步骤S120的具体步骤可以包括:基于所述节点特征矩阵和所述结构特征矩阵, 确定所述待分类的图数据中每个节点的结构特征的注意力分数;将所述每个节点的结构特征的注 意力分数作为所述每个节点的重要性分数;或者,基于所述节点特征矩阵,确定所述待分类的图 数据中每个节点的节点特征的注意力分数,将所述每个节点的节点特征的注意力分数作为所述每 个节点的重要性分数;或者,基于所述节点特征矩阵和所述结构特征矩阵,确定所述待分类的图 数据中每个节点的结构特征的注意力分数,基于所述节点特征矩阵,确定所述待分类的图数据中 每个节点的节点特征的注意力分数,将所述每个节点的结构特征的注意力分数和所述每个节点的 节点特征的注意力分数作为所述每个节点的重要性分数。
其中,基于所述节点特征矩阵和所述结构特征矩阵,确定所述待分类的图数据中每个节点的 结构特征的注意力分数的计算公式如下:
Figure BDA0003559306440000051
公式中,H(l)为第l层的隐状态向量(相当于本申请实施例中的节点特征矩阵);
Figure BDA0003559306440000052
表示进行归一化后的邻接矩阵(相 当于本申请实施例中的结构特征矩阵),反映了各节点间的邻接关系;St (l)是保存第l层的所有节 点分数的分数向量(相当于本申请实施例中节点的结构特征的注意力分数);Pt (l)表示第l层投影后 的向量,是非线性处理前的输入向量,
Figure BDA0003559306440000061
无实际含义,只是为了方便后 续计算。Wt (l)∈RV×1是待训练的权重参数。tanh函数用于对第l层的投影后的向量进行非线性拉 伸操作,softmax函数用于对待分类的图数据对应的特征矩阵进行归一化操作。TopK函数用于获 取待分类的图数据所包括的节点中结构特征的注意力分数最高的前K个节点的索引或值。为了适 应节点数量的变化,这里不直接设置K值,而是设置所选节点的比率r,K=rV1,V1是节点数 量。这里只设置了r的初始值,默认值为0.8。
其中,基于所述节点特征矩阵,确定所述待分类的图数据中每个节点的节点特征的注意力分 数的计算公式如下:
Figure BDA0003559306440000062
公式中,H(l)为第l层的隐状态向量 (相当于本申请实施例中的节点特征矩阵);Sf (l)是保存第l层所有节点分数的分数向量(相当于 本申请实施例中的节点特征的注意力分数)。Wf (l)∈RV×1是待训练的权重参数;
Figure BDA0003559306440000063
表示第l层投 影后的向量,是非线性处理前的输入向量,
Figure BDA0003559306440000064
无实际含义,只是为了方便 后续计算;sigmoid函数用于对待分类的图数据对应的特征矩阵进行归一化操作。TopK函数用于 获取待分类的图数据所包括的节点中节点特征的注意力分数最高的前K个节点索引或值。为了适 应节点数量的变化,这里不直接设置K值,而是设置所选节点的比率r,K=rV1,V1是节点数 量。这里只设置了r的初始值,默认值为0.8。
其中,节点的结构特征的注意力分数和节点特征的注意力分数进行内积融合后得到的分数的 计算公式如下:
Sfinal=αSt+(1-α)Sf,公式中,Sfinal表示重要性分数;St表示节点的结构特征的注意力 分数;Sf表示节点特征的注意力分数,α表示调节参数。
上述三种计算每个节点的重要性分数的公式可以适用于不同的场景中,基于结构特征来评价 节点的重要性分数一般应用于节点特征区分度较低、结构特征区分度较高的场景;基于节点特征 来评价节点的重要性分数一般应用于节点特征区分度较高、结构特征区分度较低的场景;基于结 构特征和节点特征来评价节点的重要性分数一般应用于同时考虑节点特征和结构特征的场景。通 过上述方式,使得对于处于不同场景中的节点,都可以准确计算得到每个节点的重要性分数,提 高了计算不同场景中的节点的重要性分数的灵活性。
步骤S130:基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节 点,得到所述待分类的图数据对应的目标节点。
在本申请实施例中,当通过上述公式计算得到每个节点的重要性分数后,可以根据每个节点 的重要性分数,通过TopK函数从待分类的图数据所包括的节点中获取预设数量的节点,得到待分 类图数据对应的目标节点。
步骤S140:获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩 阵,得到所述待分类的图数据的特征矩阵。
在本申请实施例中,目标节点对应的节点特征矩阵是由获取的预设数量的节点的节点特征构 成的,目标节点对应的结构特征矩阵是由获取的数量的节点的结构特征构成的。在本申请实施例 中,待分类图数据的特征矩阵用于表征待分类的图数据的全局特征。其中,全局特征是指待分类 的图数据的整体属性。
作为一种方式,可以通过获取到的预设数量的节点对图结构进行更新,得到待分类的图数据 对应的目标节点,即:
Figure BDA0003559306440000071
其中,
Figure BDA0003559306440000072
表示按行和按列索引的邻 接矩阵;A(l)表示目标节点的邻接矩阵,是新的邻接矩阵;
Figure BDA0003559306440000073
表示索引按行排列的节点特征矩 阵,是目标节点的节点特征矩阵,是新的节点特征矩阵;H(l)表示原节点特征矩阵,也就是步骤 S110中获取的节点特征矩阵。
在本申请实施例中,待分类的图数据的特征矩阵为待分类的图数据的全局特征。
可以通过对目标节点对应的节点特征矩阵进行全局最大池化操作和全局平均池化操作,以聚 合全局节点特征以形成固定大小的特征矩阵。
步骤S150:将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类的图数 据的分类结果。
在本申请实施例中,图分类模型为预先训练好的图卷积神经网络模型。对图分类模型进行训 练的过程可以包括:获取训练数据集,所述训练数据集中包括每个训练数据对应的标签;基于所 述训练数据集对初始图卷积神经网络模型进行迭代训练,直至满足训练结束条件,得到所述图分 类模型。其中,训练结束条件可以为图分类模型对应的损失函数的损失值达到预设值,或者迭代 次数达到预设次数,又或者是初始图卷积神经网络模型的参数收敛等,在此不做具体限定。示例 性的,将图分类模型应用于欺诈团伙检测场景中时,训练数据集就是多个团伙组成的数据集,并 且每个团伙对应有标签(正常团体,或者欺诈团体);然后将训练数据集输入到初始图卷积神经网络 中,对该初始图卷积神经网络进行训练,直至满足训练结束条件,得到最终的图分类模型。从而 在实际应用过程中,当输入待分类的图数据时,该图分类模型可以直接输出该待分类的图数据对 应的分类,判断该待分类的图数据是正常团体还是欺诈团体。
图分类模型可以为基于全局池化架构的图卷积神经网络模型,也可以为基于分层池化架构的 图卷积神经网络模型。其中,基于全局池化架构的图卷积神经网络模型的网络架构可以如图3所 示,基于全局池化架构的图卷积神经网络模型可以包括三个图卷积层、自适应图池化层、读出层 以及全连接层。全局池化架构由三个图卷积层组成,图卷积层用于输出待分类的图数据的节点特 征矩阵和结构特征矩阵,其中,每个图卷积层的输出(结构特征矩阵和节点特征矩阵)可以连接起来; 自适应图池化层用于从待分类的图数据所包括的节点中获取重要节点,得到子图的结构特征矩阵 和节点特征矩阵;读出层用于聚合目标节点的节点特征矩阵,得到待分类的图数据的特征矩阵, 最后将待分类的图数据的特征矩阵传递到全连接层进行分类。
基于分层池化架构的图卷积神经网络模型的网络架构可以如图4所示,基于分层池化架构的 图卷积神经网络模型可以包括三个模块(Block)、读出层以及全连接层。其中,分层池化架构由三 个模块(Block)组成,每一个模块(Block)由一个图卷积层和一个自适应图池化层组成。每个模块 (Block)的输出(目标节点的结构特征矩阵和目标节点的节点特征矩阵)汇总在读出层中,得到目标节 点的特征矩阵,然后将每个读出层输出的目标节点的特征矩阵相加,得到待分类的图数据的特征 矩阵,最后将待分类的图数据的特征矩阵传递到全连接层进行分类。其中,相加指的是将每一个 子图的特征矩阵中对应的元素进行相加。
可选的,在基于分层池化架构的图卷积神经网络模型中,图卷积层不改变待分类的图数据所 包括的节点的节点数量,只改变每个节点的节点特征矩阵和结构特征矩阵的维度,在自适应图池 化层中才会通过TopK函数获取预设数量的节点。
在基于分层池化架构的图卷积神经网络模型中,每一个模块(Block)都会通过TopK函数获取 预设数量的节点,并且上一个模块(Block)的输出为下一个模块(Block)的输入,也就是说每一个 模块(Block)输出的节点的数量都在减少。
在本申请实施例中,可以将待分类的图数据的特征矩阵输入到上述图分类模型中进行识别, 确定待分类的图数据的分类结果。示例性的,若待分类的图数据为蛋白质图数据,那么在对待分 类的图数据的特征矩阵进行识别后,可以确定该待分类的图数据是酶或者不是酶。
本申请提供的一种图数据处理方法,首先获取待分类的图数据,获取待分类的图数据对应的 节点特征矩阵和结构特征矩阵,然后基于节点特征矩阵和结构特征矩阵,确定待分类的图数据中 每个节点的重要性分数,基于重要性分数,从待分类的图数据所包括的节点中获取预设数量的节 点,得到待分类的图数据对应的目标节点,再获取目标节点对应的节点特征矩阵,基于子图对应 的节点特征矩阵,确定待分类的图数据的特征矩阵,最后将待分类的图数据的特征矩阵输入到图 分类模型中,确定待分类的图数据的分类结果。通过上述方法,能够从节点特征和结构特征两个 角度为节点进行打分,同时也能实现综合打分,并根据每个节点的重要性分数对节点进行筛选, 保留重要节点,从而基于重要节点的特征矩阵实现待分类的图数据的分类,提高了对待分类的图 数据进行分类的准确性。
请参阅图5,本申请实施例提供的一种图数据处理方法,应用于如图1所示的电子设备或服务 器,所述方法包括:
步骤S210:获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特 征矩阵。
步骤S220:基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个 节点的重要性分数。
步骤S230:基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节 点,得到所述待分类的图数据的目标节点。
在本申请实施例中,可以基于每个节点的重要性分数,通过TopK函数对待分类的图数据所包 括的节点按照重要性分数的大小降序排列,得到降序排列后的多个节点。
将所述降序排列后的多个节点中,排在前指定位置的节点作为所述预设数量的节点,得到所 述待分类的图数据对应的目标节点。
在本申请实施例中,前指定位置的节点为按照预设所选节点的比率计算得到的指定数量的节 点。
步骤S240:获取所述目标节点对应的节点特征矩阵。
步骤S250:对所述目标节点对应的节点特征矩阵进行全局平均池化操作,得到第一池化结果。
在本申请实施例中,对所述目标节点对应的节点特征矩阵进行全局平均池化操作,得到第一 池化结果的计算公式如下:
Figure BDA0003559306440000081
公式中,Ymean表示第一池化结果,N表示目标节点的节点数 量,xi表示目标节点中第i个节点的节点特征,
Figure BDA0003559306440000082
表示目标节点对应的节点特征矩阵。上式计 算了目标节点中所有节点特征在各个维度的均值。
步骤S260:对所述目标节点对应的节点特征矩阵进行全局最大池化操作,得到第二池化结果。
在本申请实施例中,对所述子图对应的节点特征矩阵进行全局最大池化操作,得到第二池化 结果的计算公式如下:
Ymax=max xi
Figure BDA0003559306440000091
公式中,Ymax表示第二池化结果,xi表示子图中第i个节点的节 点特征。上式计算了子图中所有节点特征在各个维度的最大值。
步骤S270:将所述第一池化结果和第二池化结果进行拼接,得到所述待分类的图数据的特征 矩阵。
在本申请实施例中,将所述第一池化结果和第二池化结果进行拼接,得到所述待分类的图数 据的特征表示的公式如下:
Y=Ymean||Ymax,其中,Ymean表示第一池化结果;Ymax表示第二池化结果;||表示拼接操作; Y表示输出的节点特征,也就是本申请实施例中的待分类的图数据的特征表示。
步骤S280:将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类的图数 据的分类结果。
本申请提供的一种图数据处理方法,首先获取待分类的图数据,获取待分类的图数据对应的 节点特征矩阵和/或结构特征矩阵,然后基于节点特征矩阵和/或结构特征矩阵,确定待分类的图数 据中每个节点的重要性分数,基于重要性分数,从待分类的图数据所包括的节点中获取预设数量 的节点,得到待分类的图数据的目标节点,然后再对目标节点对应的节点特征矩阵进行全局平均 池化操作,得到第一池化结果,对目标节点的节点特征矩阵进行全局最大池化操作,得到第二池 化结果,将第一池化结果和第二池化结果进行拼接,得到待分类的图数据的特征矩阵,最后将待 分类的图数据的特征矩阵输入到图分类模型中,得到待分类的图数据的分类结果。通过上述方法 使得在对图数据进行分类的过程中,可以结合待分类的图数据的节点间的结构信息和节点自身的 特征信息,以得到具有更多特征信息的特征矩阵,进而通过图分类模型对具有更多特征信息的特 征矩阵进行识别,提高了对待分类的图数据进行分类的准确性。
请参阅图6,本申请实施例提供的一种图数据处理方法,应用于如图1所示的电子设备或服务 器,所述方法包括:
步骤S310:获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特 征矩阵。
步骤S320:基于所述节点特征矩阵和/或所述结构特征矩阵,确定融合特征矩阵。
在本申请实施例中,融合特征矩阵指的是公式
Figure RE-GDA0003703923610000092
中的
Figure RE-GDA0003703923610000093
或者公式
Figure RE-GDA0003703923610000094
中的
Figure RE-GDA0003703923610000095
当然也可以为
Figure RE-GDA0003703923610000096
Figure RE-GDA0003703923610000097
进行内积 操作后得到的矩阵。其中,St (l)是保存第l层的所有节点分数的分数向量(相当于本申请实施例中 节点的结构特征的注意力分数);Wt (l)∈RV×1是待训练的权重参数;tanh函数用于对第l层的投影 后的向量进行非线性拉伸操作;softmax函数用于对待分类的图数据对应的特征矩阵进行归一化操 作;TopK函数用于获取待分类的图数据所包括的节点中结构特征/或节点特征的注意力分数最高的 前K个节点的索引或值;为了适应节点数量的变化,这里不直接设置K值,而是设置所选节点的 比率r,K=rV1,V1是节点数量;这里只设置了r的初始值,默认值为0.8;Pt (l)表示第l层投影 后的向量,是非线性处理前的输入向量,
Figure RE-GDA0003703923610000098
无实际含义,只是为了方便 后续计算;Sf (l)是保存第l层所有节点分数的分数向量(相当于本申请实施例中的节点特征的注意 力分数);Wf (l)∈RV×1是待训练的权重参数;sigmoid函数用于对待分类的图数据对应的特征矩阵 进行归一化操作;
Figure RE-GDA0003703923610000101
表示第l层投影后的向量,是非线性处理前的输入向量,
Figure RE-GDA0003703923610000102
无实际含义,只是为了方便后续计算。
在相关基于融合特征矩阵来确定节点的重要性分数时,通常只需要通过一组融合特征矩阵就 可以确定节点的重要性分数,这种方式,由于权重参数矩阵时随机初始化的,导致节点的重要性 分数是不稳定的,因此,在本申请实施例中,在基于融合特征矩阵确定节点的重要性分数时,会 通过迭代内积计算来对多组数据进行融合,得到多组数据的融合结果(也就是融合特征矩阵)。
作为一种方式,步骤S320可以包括以下步骤:在基于初始节点特征矩阵和初始结构特征矩阵, 得到第一融合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次 Dropout操作后的第一节点特征矩阵,其中,当前次Dropout操作后的第一节点特征矩阵为进行下 一次Dropout操作的第一节点特征矩阵;基于每次Dropout操作后的第一节点特征矩阵和所述结构 特征矩阵,得到每次Dropout操作后的第一参考融合特征矩阵;若Dropout操作的次数达到所述预 设次数,则将所述第一融合特征矩阵和所有所述第一参考融合特征矩阵进行内积计算,得到所述 融合特征矩阵。
作为另一种方式,步骤S320可以包括以下步骤:在基于初始节点特征矩阵,得到第二融合特 征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout操作后的第 二节点特征矩阵,其中,当前次Dropout操作后的第二节点特征矩阵为进行下一次Dropout操作的 第二节点特征矩阵;基于每次Dropout操作后的第二节点特征矩阵,得到每次Dropout操作后的第 二参考融合特征矩阵;若Dropout操作的次数达到所述预设次数,则将所述第二融合特征矩阵和所 有所述第二参考融合特征矩阵进行内积计算,得到所述融合特征矩阵。
其中,预设次数为预先设置的进行Dropout操作的次数,在本申请实施例中,一般设置为3。
在基于节点特征或结构特征的融合方式中,可以通过如下计算式得到融合特征矩阵: Px=Px,1⊙Px,2⊙...Px,i...Px,N,Px∈{Pt,Pf},其中,i和N是头数索引;⊙表示元素的乘积;Px表示融合特征矩阵,也就是多个Pt (l)进行内积后的结果,或者多个
Figure BDA0003559306440000103
进行内积后的结果; Pt和Pf均表示投影后的向量,是非线性处理前的输入向量。
上述计算式的伪代码为:
Figure BDA0003559306440000104
Figure BDA0003559306440000111
上述代码中的邻接矩阵A指的就是初始结构特征矩阵;节点特征矩阵X指的就是初始节点特 征矩阵,初始节点特征矩阵和初始结构特征矩阵指的就是步骤S310中的待分类的图数据对应的节 点特征矩阵和结构特征矩阵;Pt指的就是第一参考融合矩阵或第二参考融合特征矩阵。
从上述代码中可以看出,在进行迭代内积计算的过程中,还会通过迭代Dropout操作来迭代节 点特征矩阵。其中,迭代Dropout操作可以按照不同比率暂停神经网络单元的训练。实现在多尺度 下,消弱神经元节点间的联合适应性,从而进一步提高了模型的泛化能力,避免过拟合。
上述代码中的“Pt=TopK(Project(A,X))”也可以写成“Pt=TopK(Project(X))”。
可选地,步骤S320可以包括以下步骤:在基于初始节点特征矩阵和初始结构特征矩阵,得到 第一融合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout 操作后的第一节点特征矩阵,其中,当前次Dropout操作后的第一节点特征矩阵为进行下一次 Dropout操作的第一节点特征矩阵,基于每次Dropout操作后的第一节点特征矩阵和所述结构特征 矩阵,得到每次Dropout操作后的第一参考融合特征矩阵;在基于初始节点特征矩阵,得到第二融 合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout操作后 的第二节点特征矩阵,其中,当前次Dropout操作后的第二节点特征矩阵为进行下一次Dropout 操作的第二节点特征矩阵,基于每次Dropout操作后的第二节点特征矩阵,得到每次Dropout操作 后的第二参考融合特征矩阵;若Dropout操作的次数达到所述预设次数,则将所述第一融合特征矩 阵、所述第二融合特征矩阵、所有所述第一参考融合特征矩阵以及所有所述第二参考融合特征矩 阵进行内积计算,得到所述融合特征矩阵。
在同时考虑节点特征和结构特征的融合方式中,可以通过如下公式计算得到融合特征矩阵: Ptf=(Pt,1⊙Pf,1)⊙...(Pt,i⊙Pf,i)...,其中,i是头数索引;⊙表示元素的乘积;Ptf表示融合特征矩阵,Pt,i和Pf,i均表示投影后的向量,是非线性处理前的输入向量。在一些场景中, 节点的节点特征比节点的结构特征更能代表节点的特征,因此,上述公式还可以写成: Ptf=αPt,i+(1-α)Pf,i,其中,α为调节参数,默认为0.1,本公式中各参数的含义与前述公式 中对应的各函数的含义相同。
上述代码中的“Pt=TopK(Project(A,X))”也可以写成“Pt=TopK((Project(A,X))⊙(Project (X)))”。
通过上述方法,通过迭代操作自适应地选择重要节点,在迭代过程中,选择的重要节点逐渐 趋于稳定,也就是说,通过连续迭代,注意力集中在有限数量的节点上,这些节点应该首先被选 择并保留。采用多头方法从多个角度为节点评分,自适应的获得节点的评价结果,解决了传统图 池化方法过于依赖参数设置的问题。示例性的,如图7所示,图7中的纵坐标为迭代次数,图7 中的横坐标是随机选择的20个节点。随着迭代融合次数的增加,大多数节点之间的重要性分数差 异越来越小,最后,大多数节点的重要性分数接近于0,只有少数节点的重要性分数较高(非零)。 也就是说,通过连续迭代计算之后,节点的重要性分数趋于稳定,注意力集中在有限数量的节点 上,这些节点应该首先被保留下来。
步骤S330:基于所述融合特征矩阵,确定所述待分类的图数据中每个节点的重要性分数。
在本申请实施例中,当通过上述方法确定了待分类的图数据的融合特征矩阵后,可以通过 sigmoid函数或者softmax函数计算待分类的图数据中每个节点的重要性分数。
步骤S340:基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节 点,得到所述待分类的图数据对应的目标节点。
步骤S350:获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩 阵,确定所述待分类的图数据的特征矩阵。
在本申请实施例中,可以通过图分类模型中的读出层对目标节点对应的节点特征矩阵进行全 局平均池化和全局最大池化操作后得到的池化结果进行拼接,得到待分类的图数据的特征矩阵。
步骤S360:将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类的图数 据的分类结果。
本申请提供的一种图数据处理方法,首先获取待分类的图数据,以及待分类的图数据对应的 节点特征矩阵和/或结构特征矩阵,然后基于节点特征矩阵和/或结构特征矩阵,确定融合特征矩阵, 再基于融合特征矩阵,确定待分类的图数据中每个节点的重要性分数,基于重要性分数,从待分 类的图数据所包括的节点中获取预设数量的节点,得到待分类图数据对应的目标节点,进而可以 通过目标节点的节点特征矩阵,确定待分类的图数据的特征矩阵,最后可以通过图分类模型对待 分类的图数据的特征矩阵进行识别,得到待分类的图数据的分类结果。通过上述方法,通过迭代 的方式获得多组结构特征矩阵和/或结构特征矩阵的融合结果,可以保留在池化过程中容易丢失的 节点信息,得到具有更多节点信息的融合特征矩阵,进而根据具有更多节点信息的融合特征矩阵 来计算每个节点的重要性分数,可以使得基于重要性分数选择预设数量的节点时更加稳定和客观。
请参阅图8,本申请实施例提供的一种图分类方法,应用于金融欺诈检测场景中,应用于如图 1所示的电子设备或服务器,所述方法包括:
步骤S410:获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特 征矩阵,其中,所述节点特征矩阵表征每个节点提交的注册信息;所述结构特征矩阵表征不同节 点在提交注册信息时的位置关系。
在本申请实施例中,待分类的图数据为由一个个孤立的团体组成的网络。其中,每个团体可 以由两个个体组成,也可以由两个以上的个体组成。
在本申请实施例中,待分类的图数据中的节点为个体;每个节点提交的注册信息为每个个体 在注册或提交贷款时提交的注册信息(比如,身份证信息、姓名、性别、年龄等);不同节点在提交 注册信息时的位置关系为个体在注册或提交贷款时的GPS、IP、OCR地址等的距离关系,以及不 同个体之间是否互为联系人。
步骤S420:基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个 节点的重要性分数。
在本申请实施例中,基于上述的节点特征矩阵和/或结构特征矩阵,确定待分类的图数据中每 个个体的重要性分数。其中,节点特征矩阵表征的是每个个体提交的注册信息,结构特征矩阵表 征的是不同个体在提交注册信息时的位置关系。
步骤S430:基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节 点,得到所述待分类的图数据对应的目标节点。
在本申请实施例中,基于重要性分数,从待分类的图数据所包括的个体中选取互为联系人、 且在同一位置注册或提交贷款的多个个体,得到待分类的图数据对应的目标节点,目标节点为选 取的个体。
步骤S440:获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩 阵,得到所述待分类的图数据的特征矩阵。
在本申请实施例中,基于选取的互为联系人、且在同一位置注册或提交贷款的多个个体,获 取该多个个体对应的节点特征矩阵,得到待分类的图数据的特征矩阵。
步骤S450:将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类的图数 据的分类结果。
在本申请实施例中,将该特征矩阵输入到图分类模型中,可以确定该待分类的图数据中所包 括的团体是否为欺诈团体。具体的,将互为联系人、且在同一位置注册或提交贷款的多个个体组 成的团体确定为欺诈团体,否则,则确定不是欺诈团体。
本申请提供的一种图数据处理方法,通过本方法可以快速找到待分类的图数据中的欺诈团体。
请参阅图9,本申请实施例提供的一种图像分类装置500,所述图像分类装置500包括:
数据获取单元510,用于获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵 和/或结构特征矩阵。
分数确定单元520,用于基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的 图数据中每个节点的重要性分数。
作为一种方式,分数确定单元520,具体用于基于所述节点特征矩阵和所述结构特征矩阵,确 定所述待分类的图数据中每个节点的结构特征的注意力分数;将所述每个节点的结构特征的注意 力分数作为所述每个节点的重要性分数;或者,基于所述节点特征矩阵,确定所述待分类的图数 据中每个节点的节点特征的注意力分数,将所述每个节点的节点特征的注意力分数作为所述每个 节点的重要性分数;或者,基于所述节点特征矩阵和所述结构特征矩阵,确定所述待分类的图数 据中每个节点的结构特征的注意力分数,基于所述节点特征矩阵,确定所述待分类的图数据中每 个节点的节点特征的注意力分数,将所述每个节点的结构特征的注意力分数和所述每个节点的节 点特征的注意力分数作为所述每个节点的重要性分数。
作为另一种方式,分数确定单元520,具体用于基于所述节点特征矩阵和/或所述结构特征矩 阵,确定融合特征矩阵;基于所述融合特征矩阵,确定所述待分类的图数据中每个节点的重要性 分数。
可选的,分数确定单元520还具体用于在基于初始节点特征矩阵和初始结构特征矩阵,得到 第一融合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout 操作后的第一节点特征矩阵,其中,当前次Dropout操作后的第一节点特征矩阵为进行下一次 Dropout操作的第一节点特征矩阵;基于每次Dropout操作后的第一节点特征矩阵和所述结构特征 矩阵,得到每次Dropout操作后的第一参考融合特征矩阵;若Dropout操作的次数达到所述预设次 数,则将所述第一融合特征矩阵和所有所述第一参考融合特征矩阵进行内积计算,得到所述融合 特征矩阵。
可选的,分数确定单元520还具体用于在基于初始节点特征矩阵,得到第二融合特征矩阵后, 对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout操作后的第二节点特征 矩阵,其中,当前次Dropout操作后的第二节点特征矩阵为进行下一次Dropout操作的第二节点特 征矩阵;基于每次Dropout操作后的第二节点特征矩阵,得到每次Dropout操作后的第二参考融合 特征矩阵;若Dropout操作的次数达到所述预设次数,则将所述第二融合特征矩阵和所有所述第二 参考融合特征矩阵进行内积计算,得到所述融合特征矩阵。
可选的,分数确定单元520还具体用于在基于初始节点特征矩阵和初始结构特征矩阵,得到 第一融合特征矩阵后,对所述初始节点特征矩阵迭代进行预设次数的Dropout操作,得到每次 Dropout操作后的第一节点特征矩阵,其中,当前次Dropout操作后的第一节点特征矩阵为进行下 一次Dropout操作的第一节点特征矩阵,基于每次Dropout操作后的第一节点特征矩阵和所述结构 特征矩阵,得到每次Dropout操作后的第一参考融合特征矩阵;在基于初始节点特征矩阵,得到第 二融合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout 操作后的第二节点特征矩阵,其中,当前次Dropout操作后的第二节点特征矩阵为进行下一次 Dropout操作的第二节点特征矩阵,基于每次Dropout操作后的第二节点特征矩阵,得到每次 Dropout操作后的第二参考融合特征矩阵;若Dropout操作的次数达到所述预设次数,则将所述第 一融合特征矩阵、所述第二融合特征矩阵、所有所述第一参考融合特征矩阵以及所有所述第二参 考融合特征矩阵进行内积计算,得到所述融合特征矩阵。
节点获取单元530,用于基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预 设数量的节点,得到所述待分类的图数据对应的目标节点。
矩阵获取单元540,用于获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的 节点特征矩阵,确定所述待分类的图数据的特征矩阵。
作为一种方式,矩阵获取单元540,具体用于对所述目标节点对应的节点特征矩阵进行全局平 均池化操作,得到第一池化结果;对所述目标节点对应的节点特征矩阵进行全局最大池化操作, 得到第二池化结果;将所述第一池化结果和第二池化结果进行拼接,得到所述待分类的图数据的 特征矩阵。
分类单元550,用于将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类 的图数据的分类结果。
需要说明的是,本申请中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的 原理可以参见前述方法实施例中的内容,此处不再赘述。
下面将结合图10对本申请提供的一种电子设备或服务器进行说明。
请参阅图10,基于上述的图数据处理方法、装置,本申请实施例还提供的另一种可以执行前 述图数据处理方法的电子设备或服务器800。电子设备或服务器800包括相互耦合的一个或多个(图 中仅示出一个)处理器802、存储器804以及网络模块806。其中,该存储器804中存储有可以执 行前述实施例中内容的程序,而处理器802可以执行该存储器804中存储的程序。
其中,处理器802可以包括一个或者多个处理核。处理器802利用各种接口和线路连接整个 电子设备或服务器800内的各个部分,通过运行或执行存储在存储器804内的指令、程序、代码 集或指令集,以及调用存储在存储器804内的数据,执行电子设备或服务器800的各种功能和处 理数据。可选地,处理器802可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可 编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array, PLA)中的至少一种硬件形式来实现。处理器802可集成中央处理器(Central Processing Unit,CPU)、 图像处理器(Graphics ProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU 主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器 用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器802中,单独通过一 块通信芯片进行实现。
存储器804可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器 (Read-Only Memory)。存储器804可用于存储指令、程序、代码、代码集或指令集。存储器804 可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现 至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方 法实施例的指令等。存储数据区还可以存储电子设备或服务器800在使用中所创建的数据(比如 电话本、音视频数据、聊天记录数据)等。
所述网络模块806用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯 网络或者其他设备进行通讯,例如和音频播放设备进行通讯。所述网络模块806可包括各种现有 的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、 用户身份模块(SIM)卡、存储器等等。所述网络模块806可与各种网络如互联网、企业内部网、 无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、 无线局域网或者城域网。例如,网络模块806可以与基站进行信息交互。
请参考图11,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机 可读存储介质900中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描 述的方法。
计算机可读存储介质900可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、 硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质900包括非易失性计算机可读介 质(non-transitory computer-readable storage medium)。计算机可读存储介质900具有执行上述方 法中的任何方法步骤的程序代码910的存储空间。这些程序代码可以从一个或者多个计算机程序 产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码910可以例如以适当形式进 行压缩。
本申请提供的一种图数据处理方法、装置、电子设备以及存储介质,首先获取待分类的图数 据,以及待分类的图数据对应的节点特征矩阵和/或结构特征矩阵,然后基于节点特征矩阵和结构 特征矩阵,确定待分类的图数据中每个节点的重要性分数,基于重要性分数,从待分类的图数据 所包括的节点中获取预设数量的节点,得到待分类的图数据对应的目标节点,再获取目标节点对 应的节点特征矩阵,并根据目标节点对应的节点特征矩阵,得到待分类的图数据的特征矩阵,最 后将待分类的图数据的特征矩阵输入到图分类模型中,得到待分类的图数据的分类结果。通过上 述方法使得在对图数据进行分类的过程中,可以结合待分类的图数据的节点间的结构信息和节点 自身的特征信息,对待分类的图数据所包括的节点进行筛选,以得到重要性分数高的目标节点, 从而通过目标节点可以得到具有更多特征信息的特征矩阵,进而通过对具有更多特征信息的特征 表示进行识别,提高了对待分类的图数据进行分类的准确性。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的 具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离 本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (12)

1.一种图数据处理方法,其特征在于,所述方法包括:
获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特征矩阵;
基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个节点的重要性分数;
基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节点,得到所述待分类的图数据对应的目标节点;
获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩阵,得到所述待分类的图数据的特征矩阵;
将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类的图数据的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个节点的重要性分数,包括:
基于所述节点特征矩阵和所述结构特征矩阵,确定所述待分类的图数据中每个节点的结构特征的注意力分数;将所述每个节点的结构特征的注意力分数作为所述每个节点的重要性分数;
或者,基于所述节点特征矩阵,确定所述待分类的图数据中每个节点的节点特征的注意力分数,将所述每个节点的节点特征的注意力分数作为所述每个节点的重要性分数;
或者,基于所述节点特征矩阵和所述结构特征矩阵,确定所述待分类的图数据中每个节点的结构特征的注意力分数,基于所述节点特征矩阵,确定所述待分类的图数据中每个节点的节点特征的注意力分数,将所述每个节点的结构特征的注意力分数和所述每个节点的节点特征的注意力分数作为所述每个节点的重要性分数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标节点对应的节点特征矩阵,得到所述待分类的图数据的特征矩阵,包括:
对所述目标节点对应的节点特征矩阵进行全局平均池化操作,得到第一池化结果;
对所述目标节点对应的节点特征矩阵进行全局最大池化操作,得到第二池化结果;
将所述第一池化结果和第二池化结果进行拼接,得到所述待分类的图数据的特征矩阵。
4.根据权利要求1所述的方法,其特征在于,所述基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个节点的重要性分数,包括:
基于所述节点特征矩阵和/或所述结构特征矩阵,确定融合特征矩阵;
基于所述融合特征矩阵,确定所述待分类的图数据中每个节点的重要性分数。
5.根据权利要求4所述的方法,其特征在于,所述基于所述节点特征矩阵和/或所述结构特征矩阵,确定融合特征矩阵,包括:
在基于初始节点特征矩阵和初始结构特征矩阵,得到第一融合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout操作后的第一节点特征矩阵,其中,当前次Dropout操作后的第一节点特征矩阵为进行下一次Dropout操作的第一节点特征矩阵;
基于每次Dropout操作后的第一节点特征矩阵和所述结构特征矩阵,得到每次Dropout操作后的第一参考融合特征矩阵;
若Dropout操作的次数达到所述预设次数,则将所述第一融合特征矩阵和所有所述第一参考融合特征矩阵进行内积计算,得到所述融合特征矩阵。
6.根据权利要求4所述的方法,其特征在于,所述基于所述节点特征矩阵和/或所述结构特征矩阵,确定融合特征矩阵,包括:
在基于初始节点特征矩阵,得到第二融合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout操作后的第二节点特征矩阵,其中,当前次Dropout操作后的第二节点特征矩阵为进行下一次Dropout操作的第二节点特征矩阵;
基于每次Dropout操作后的第二节点特征矩阵,得到每次Dropout操作后的第二参考融合特征矩阵;
若Dropout操作的次数达到所述预设次数,则将所述第二融合特征矩阵和所有所述第二参考融合特征矩阵进行内积计算,得到所述融合特征矩阵。
7.根据权利要求4所述的方法,其特征在于,所述基于所述节点特征矩阵和所述结构特征矩阵,确定融合特征矩阵,包括:
在基于初始节点特征矩阵和初始结构特征矩阵,得到第一融合特征矩阵后,对所述初始节点特征矩阵迭代进行预设次数的Dropout操作,得到每次Dropout操作后的第一节点特征矩阵,其中,当前次Dropout操作后的第一节点特征矩阵为进行下一次Dropout操作的第一节点特征矩阵,基于每次Dropout操作后的第一节点特征矩阵和所述结构特征矩阵,得到每次Dropout操作后的第一参考融合特征矩阵;
在基于初始节点特征矩阵,得到第二融合特征矩阵后,对所述初始节点特征矩阵进行预设次数的Dropout操作,得到每次Dropout操作后的第二节点特征矩阵,其中,当前次Dropout操作后的第二节点特征矩阵为进行下一次Dropout操作的第二节点特征矩阵,基于每次Dropout操作后的第二节点特征矩阵,得到每次Dropout操作后的第二参考融合特征矩阵;
若Dropout操作的次数达到所述预设次数,则将所述第一融合特征矩阵、所述第二融合特征矩阵、所有所述第一参考融合特征矩阵以及所有所述第二参考融合特征矩阵进行内积计算,得到所述融合特征矩阵。
8.根据权利要求1-7任一所述的方法,其特征在于,所述节点特征矩阵表征每个节点提交的注册信息,所述结构特征矩阵表征不同节点在提交注册信息时的位置关系;或,所述节点特征矩阵表征每个节点注册社交账号时提交的信息,所述结构特征矩阵表征不同节点的社交账号之间的关联关系;或,所述节点特征矩阵表征每个节点的地理位置及对应的航线,所述结构特征矩阵表征每两个节点之间的距离以及航班成本;或,所述节点特征矩阵表征每个节点的类型,所述结构特征矩阵表征不同节点之间的距离。
9.一种图数据处理装置,其特征在于,所述装置包括:
数据获取单元,用于获取待分类的图数据,以及所述待分类的图数据对应的节点特征矩阵和/或结构特征矩阵;
分数确定单元,用于基于所述节点特征矩阵和/或所述结构特征矩阵,确定所述待分类的图数据中每个节点的重要性分数;
节点获取单元,用于基于所述重要性分数,从所述待分类的图数据所包括的节点中获取预设数量的节点,得到所述待分类的图数据对应的目标节点;
矩阵获取单元,用于获取所述目标节点对应的节点特征矩阵,并根据所述目标节点对应的节点特征矩阵,确定所述待分类的图数据的特征矩阵;
分类单元,用于将所述待分类的图数据的特征矩阵输入到图分类模型中,得到所述待分类的图数据的分类结果。
10.一种电子设备,其特征在于,包括一个或多个处理器;一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行权利要求1-8任一所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行权利要求1-8任一所述的方法。
12.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-8任一所述的方法的步骤。
CN202210304735.8A 2022-03-22 2022-03-22 图数据处理方法、装置、电子设备及存储介质 Pending CN114819138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210304735.8A CN114819138A (zh) 2022-03-22 2022-03-22 图数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210304735.8A CN114819138A (zh) 2022-03-22 2022-03-22 图数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114819138A true CN114819138A (zh) 2022-07-29

Family

ID=82531595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210304735.8A Pending CN114819138A (zh) 2022-03-22 2022-03-22 图数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114819138A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995024A (zh) * 2023-03-22 2023-04-21 成都理工大学 基于类图神经网络的图像分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995024A (zh) * 2023-03-22 2023-04-21 成都理工大学 基于类图神经网络的图像分类方法

Similar Documents

Publication Publication Date Title
CN111738357B (zh) 垃圾图片的识别方法、装置及设备
CN109522945B (zh) 一种群体情感识别方法、装置、智能设备及存储介质
WO2022095356A1 (zh) 用于图像分类的迁移学习方法、相关装置及存储介质
US20230401833A1 (en) Method, computer device, and storage medium, for feature fusion model training and sample retrieval
CN112395979A (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN113657087B (zh) 信息的匹配方法及装置
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
WO2023185925A1 (zh) 一种数据处理方法及相关装置
WO2024041483A1 (zh) 一种推荐方法及相关装置
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN113688814B (zh) 图像识别方法及装置
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN117459575A (zh) 业务数据推送方法、装置、计算机设备和存储介质
CN114819138A (zh) 图数据处理方法、装置、电子设备及存储介质
CN112418256A (zh) 分类、模型训练、信息搜索方法、系统及设备
CN116630630B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
CN116030466B (zh) 图像文本信息识别与处理方法、装置及计算机设备
CN112667864B (zh) 图对齐方法、装置、电子设备及存储介质
CN112364258B (zh) 基于图谱的推荐方法、系统、存储介质及电子设备
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112016548B (zh) 一种封面图展示方法及相关装置
CN117112880A (zh) 信息推荐、多目标推荐模型训练方法、装置和计算机设备
CN114358102A (zh) 数据分类方法、装置、设备及存储介质
CN118114123A (zh) 识别模型的处理方法、装置、计算机设备和存储介质
CN116978022A (zh) 对象分组方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination