CN113314188A - 图结构增强的小样本学习方法、系统、设备及存储介质 - Google Patents

图结构增强的小样本学习方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113314188A
CN113314188A CN202110665737.5A CN202110665737A CN113314188A CN 113314188 A CN113314188 A CN 113314188A CN 202110665737 A CN202110665737 A CN 202110665737A CN 113314188 A CN113314188 A CN 113314188A
Authority
CN
China
Prior art keywords
graph data
graph
data
encoder
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110665737.5A
Other languages
English (en)
Other versions
CN113314188B (zh
Inventor
何向南
冯福利
江顺宇
陈伟健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110665737.5A priority Critical patent/CN113314188B/zh
Publication of CN113314188A publication Critical patent/CN113314188A/zh
Application granted granted Critical
Publication of CN113314188B publication Critical patent/CN113314188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图结构增强的小样本学习方法、系统、设备及存储介质,在元训练阶段利用带标签的支持集,采用距离度量的方式预测查询集中各图数据的标签,同时,设计的编码器在进行编码时还可以考虑图数据的结构特征;综合以上两部分使得本发明提供的学习方案可以从少量带标签的数据中学习编码器的参数;实验表明,本发明提供的学习方案,在小样本图分类任务中取得了明显的性能提升。

Description

图结构增强的小样本学习方法、系统、设备及存储介质
技术领域
本发明涉及机器学习和图数据挖掘领域,尤其涉及一种图结构增强的小样本学习方法、系统、设备及存储介质。
背景技术
图模型由于其强大的建模关系和结构特点,被广泛应用于社会网络分析、化学分子性质预测和生物蛋白质合成等大量现实应用中。其中,图分类模型由于其巨大应用价值,受到了学术界和工业界的高度关注。
然而,由于图分类模型包含的参数很多,很大程度上遵循监督学习的范式,通常需要大量的有标签的数据才能进行模型训练,这一点严重地限制了它的应用——在很多场景下,收集大量有标签的数据是非常昂贵、困难、甚至不可能的。例如,在化学制药工业中,预测新的分子性质的需求不断涌现,而可供利用的新分子信息非常有限。能否仅利用少量带标签的数据来训练就得到一个好的图分类模型(即小样本学习)已经成为图学习的发展中一个十分重要的课题。
有一类小样本学习的思路是元学习(meta-learning)方法。元学习的大致想法是利用大量跟目标任务相似的任务(或者历史任务)来学习一个元学习器(meta-learner),然后作用到目标任务上获得一个不错的模型初值,从而能够仅利用少量目标任务的数据对模型进行快速适配。而现有小样本图分类方法简单地将计算机视觉领域中的方法“搬用”到图数据分类任务中,没能有效地考虑图数据的结构特殊性,未能灵活的利用其结构特征,导致分类预测性能不佳。
发明内容
本发明的目的是提供一种图结构增强的小样本学习方法、系统、设备及存储介质,在计算图数据的表示向量时考虑图数据的结构特征,有效提高了模型的预测性能。
本发明的目的是通过以下技术方案实现的:
一种图结构增强的小样本学习方法,应用于化学分子属性预测、蛋白质功能预测与社区种类预测,该方法包括:
构建待优化的编码器,所述待优化的编码器根据输入的图数据的结构特征进行编码,输出图数据的表示向量;其中,当应用于化学分子属性预测时,所述图数据由化学分子信息构造而成;当应用于蛋白质功能预测时,所述图数据由蛋白质信息构造而成;当应用于社区预测时,所述图数据由社区信息构造而成;
从给定的一组图数据及相应的标签中提取出训练集,并将训练集划分为支持集与查询集;其中,标签指示了图数据的类别,支持集与查询集中图数据具有相同的类别;
对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别下所有图数据的表示向量计算出每一类别的质心;对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签;综合查询集中所有图数据的标签与预测得到的相应标签之间的损失构建损失函数,优化所述编码器的参数。
一种图结构增强的小样本学习系统,用于实现前述的方法,该系统包括:
模型构建单元,用于构建待学习的编码器,所述待学习的编码器根据输入的图数据的结构特征进行编码,输出图数据的表示向量;
数据划分单元,用于从给定的一组图数据及相应的标签中提取出训练集,并将训练集划分为支持集与查询集;其中,标签指示了图数据的类别,支持集与查询集中图数据具有相同的类别;
元训练单元,用于对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别下所有图数据的表示向量计算出每一类别的质心;对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签;综合查询集中所有图数据的标签与预测得到的相应标签之间的损失构建损失函数,优化所述编码器的参数。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,本发明设计了一种基于度量的元学习方案,在元训练阶段利用带标签的支持集,采用距离度量的方式预测查询集中各图数据的标签,同时,设计的编码器在进行编码时还可以考虑图数据的结构特征;综合以上两部分使得本发明提供的学习方案可以从少量带标签的数据中学习编码器的参数;实验表明,本发明提供的学习方案,在小样本图分类任务中取得了明显的性能提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种图结构增强的小样本学习方法的框架图;
图2为本发明实施例提供的编码器中考虑全局结构的原理图;
图3为本发明实施例提供的编码器中考虑局部结构的原理图;
图4为本发明实施例提供的一种图结构增强的小样本学习系统的示意图;
图5为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种图结构增强的小样本学习方法,该方法计算图数据的表示向量时考虑图数据的结构特征,有效提高了模型的预测性能。该方法的适用范围可覆盖所有小样本图分类任务的场景,例如,化学分子性质预测。
如图1所示,为本发明上述方法的主要框架,该方法主要包括:
1)构建待优化的编码器,所述待优化的编码器根据输入的图数据的结构特征进行编码,输出图数据的表示向量。
如图1所示,将图神经网络(GNN)作为编码器主干部分。
由于本发明所涉及的领域为图神经网络,图神经网络中分为三个层级的任务:节点级、边级和图级。节点级任务的应用场景主要包括:论文引用网络分类、社交网络用户分类、恶意账户检测等;边级任务的应用场景主要包括:社会关系预测、推荐业务等;图级任务的应用场景主要包括:化学分子属性预测、蛋白质功能预测和社区种类预测等。
本发明主要是针对图神经网络领域中图级任务,因此,其具体的应用场景主要为以上图级任务应用场景所描述的三种。
本领域技术人员可以理解,图(Graph)结构是一种非线性的数据结构,图结构已经广泛应用于现有各项技术领域中,例如,比如交通运输网,地铁网络,社交网络,计算机中的状态执行(自动机)等等,这些技术领域中的数据都可以抽象成图结构。而图结构数据通常有两部分组成:节点和边。在当今真实世界中,社交网络、化学分子结构、生物蛋白质结构这些数据均为非欧几里得形式,非线性的图结构数据是一种很好的表示方法。
本领域技术人员可以理解,本发明中的每一图数据都是图结构形式的数据,包含了若干节点与若干条边。图数据的表示向量是专有名词,它是指利用向量来对图数据进行表示,代表着图数据在向量空间中的表示形式。
当本发明应用于化学分子属性预测时,每一个化学分子可以抽象成一个图结构数据的表示形式,相应的,每一个化学分子中的每一个原子对应图数据结构中的每一个节点,每一个化学分子中的每一条化学键(原子与原子之间的键)对应图数据结构中节点与节点相连的边,每一个原子和每一条化学键都有其所对应的化学性质,所以图结构数据中的每一个节点和每一条边也会有相应的特征。
本发明应用于蛋白质功能预测时,每一个蛋白质可以抽象成一个图结构数据的表示形式,相应的,每一个蛋白质中的每一个氨基酸对应图数据结构中的每一个节点,每一个蛋白质中的每一条肽键(氨基酸与氨基酸之间的键)对应图数据结构中节点与节点相连的边,每一个氨基酸和每一条肽键都有其所对应的生物性质,所以图结构数据中的每一个节点和每一条边也会有相应的特征。
本发明应用于社区预测时,每一个社区可以抽象成一个图结构数据的表示形式,相应的,社区中的每一个人对应图数据结构中的每一个节点,社区中的人与人的关系对应图数据结构中节点与节点相连的边,每一个人都有其特点,与他人的关系同样是有特征的,所以图结构数据中的每一个节点和每一条边也会有相应的特征。
以上主要以常见的三类应用场景为例进行说明,在实际应用中,还可以拓展到其他场景;相应的,可以根据具体的应用场景中的相关数据信息来构造图数据。
2)从给定的一组图数据及相应的标签中提取出训练集,并将训练集划分为支持集与查询集。
如图1所示,Support set表示支持集,Query set表示查询集。在本发明实施例中,支持集与查询集中图数据具有相同的类别,但每个类别下的图数据的数量不一定相同;训练集中标签为真实标签,指示了图数据所属的真实类别。例如,支持集中图数据的标签属于类别A、B、C、D,则查询集中图数据的标签也属于A、B、C、D这四个类别,但是不同类别下支持集与查询集中图数据的数量不做限制。
此外,为了配合后续测试阶段,训练集与测试集必须不包含相同的类别,因此,需要考虑真实标签的类别来提取训练集。
3)对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别下所有图数据的表示向量计算出每一类别的质心;对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签;综合查询集中所有图数据的标签与预测得到的相应标签之间的损失构建损失函数,优化所述编码器的参数。
如图1所示,上半部分为支持集的图数据处理支路。通过GNN进行图数据编码(Encoder),通过图嵌入的方式(Graph Embedding),得到图数据的表示向量(也可以称为图数据的嵌入向量);再统计每一类别下的图数据,基于统计得到的图数据的表示向量,利用求均值的方式(mean)计算出相应类别的质心。
如图1所示,下半部分为查询集的图数据标签预测支路。此阶段遮罩查询集中图数据的真实标签,通过GNN得到查询集中图数据的表示向量,通过测量查询集中图数据与每一类质心之间的距离(例如,图1所示的L2 distance,它属于欧几里得距离),使用最近邻分类方法预测(Predict)查询集中图数据的标签(Label)。
根据预测得到的标签跟真实标签的损失可以构建损失函数(Loss),从而对GNN的参数进行训练。
为了便于理解,下面针对编码器的原理、以及小样本学习方案进行详细的介绍;在此基础上,还提供一种优选的测试方案。
一、编码器。
如之前所述,本发明实施例中,编码器在计算图数据的表示向量时会考虑图数据的结构特征。
本发明实施例中,可以编码器使用图分类模型图同构网络(GIN)作为主干网络;所述图分类模型图同构网络是一种图神经网络。所述图分类模型图同构网络设有两个模块,分别编码全局结构和局部结构,具体原理分别如图2、图3所示。
1、编码全局结构。
如图2所示,一般情况下,如果GIN中有l层,每层的图表示向量(Each layerembedding){h1,h2,…,hl}是通过一个聚合节点表示的读出函数来实现的。通过连接每一层的表示,得到了输入图数据(Input graph)的表示向量hG=con(h1,h2,…,hl)。
直观地说,对于具有不同全局结构的图,不同层次的表示重要性不同,应该以不同的方式突出显示,而不是简单地平等对待。例如,hG应该突出浅层的表示,以避免过平滑的影响。
为了充分利用全局结构,本发明实施例中使用全局结构注意力机制学习图分类模型图同构网络中所有层的权重{w1,w2,…,wl},从而对不同层次的重要性进行建模,在此基础上,通过加权连接所有层输出的表示向量{h1,h2,…,hl}得到编码图数据全局结构的表示向量(以上方式在图2中简写为Methods),相关计算公式表示为:
hG=con(w1×h1,w2×h2,…,wl×hl)
其中,con为向量的连接操作。
2、编码局部结构。
本发明实施例中,认为图数据的属性特征取决于子结构特征。也就是说,图数据中的局部子结构对整个图数据的标签预测起着决定性的作用。在许多领域,关键的子结构可以根据领域知识来识别,如化学领域中的分子支架,若无法获得这些领域知识,只需将整个图划分为两个子结构(例如,划分成左半图和右半图)。
如图3所示,基于上述原理,编码局部结构时,根据图数据所属领域的知识,将输入的图数据(Input graph)划分为多个子结构(Sub-graph),记为:Gsubs={S1,S2,…,Sm},并得到所有子结构的表示向量(Embedding)
Figure BDA0003117325260000061
本领域技术人员可以理解,一个图数据中的子结构可以理解成图数据的子图数据,即图数据的子结构同样是由节点与边构成,因此,同样可以直接得到相应的表示向量。
考虑到子结构对不同图数据的预测的贡献是不相等的,因此,使用局部结构注意力机制学习全局结构与所有子结构的权重{r0,r1,…,rm},从而对全局结构与所有子结构的重要性进行建模,在此基础上,计算编码图数据全局结构的表示向量hG与所有子结构的表示向量的加权和,计算结果作为编码器输出的图数据的表示向量(以上方式在图3中简写为Methods),相关计算公式表示为:
Figure BDA0003117325260000071
其中,r0为全局结构的权重,用于加权编码图数据全局结构的表示向量hG,{r1,…,rm}为所有子结构的权重,m为子结构总数。
示例性的,可以通过均值池化将整个图数据的表示向量hG和子结构表示向量聚合得到最终的嵌入向量h。此处的均值池化是一个举例,原因是后文介绍了五种注意力机制,前文计算加权和是一种总体的描述方式,此处的均值池化是其中多种注意力机制进行加权和的一种表示形式。
对于全局结构注意力机制与局部结构注意力机制,二者目标都是学习一组权重,即{w1,w2,…,wl},{r0,r1,…,rm}。在具体计算过程中,尝试了五种不同的注意力模型来计算权重,每种方式都是独立的,它们各有利有弊,在应用中可任选其一:(1)训练权重;(2)原始注意力机制;(3)多头自注意力机制;(4)多层感知机;(5)Transformer机制。
二、小样本学习方案。
首先,对学习任务进行定义:给定一组图数据{G1,G2,…,Gm}∈G和它们的真实标签{y1,y2,…,ym}∈y,根据标签y对G划分为{Gtrain,ytrain}和{Gtest,ytest},分别作为训练集和测试集。注意这里的ytrain和ytest必须不包含相同的类别,其目的是为了从训练集{Gtrain,ytrain}中学习到一个分类器(元训练),可以推广到在ytest中仅给出少量标记图的预测任务(元测试)。在元训练阶段,从训练集中随机抽选得到支持集Dsup={Gsup,ysup}和查询集Dqry={Gqry,yqry}。对于每个元训练任务,其支持集和查询集具有相同的类别,但每个类别中的样本数量不一定相同。
给定带标签的支持集,训练时的目标是预测查询集中的标签。支持集中一般有N个类别,每个类别中有K个样本,也就是本发明需要解决的N-wayK-shot图分类问题。
还参见图1,它是本发明提供的小样本学习方案的主要框架,称为基于度量的元学习框架,其展示了元训练任务的主要流程,包括:
1、对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别所包含的图数据的表示向量计算出每一类别的质心。
支持集表示为Dsup={Gsup,ysup};其中,Gsup表示支持集中的图数据集合,ysup表示支持集中的真实标签集合,图数据与真实标签一一对应,真实标签指示了相应图数据的类别。
将支持集中的每一图数据分别输入至编码器,得到相应的表示向量
Figure BDA0003117325260000081
表示为:
Figure BDA0003117325260000082
其中,f表示编码器,θ为编码器参数,i为支持集中的图数据的序号,K为支持集中的图数据数目;n为类别序号,N为类别数目,不同图数据真实标签的值相同,则表示属于相同类别,否则属于不同类别;
Figure BDA0003117325260000083
表示支持集中的序号为i,属于类别n的图数据。
对于每一类别,根据所包含的图数据数目及相应图数据的表示向量,计算相应类别的质心,计算公式表示为:
Figure BDA0003117325260000084
其中,K为支持集中的图数据数目;n为类别序号,对应一个类别;k为一个类别所包含的图数据数目,
Figure BDA0003117325260000085
表示图数据的表示向量。
2、对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签。
查询集表示为Dqry={Gqry,yqry};其中,Gqry表示查询集中的图数据集合,yqry表示查询集中的真实标签集合,图数据与真实标签一一对应。
将查询集中的每一图数据分别输入至编码器,遮罩图数据的真实标签,将编码器输出的表示向量记为
Figure BDA0003117325260000086
其中,j∈[1,Q],j为查询集中的图数据的序号,Q为查询集中的图数据数目。
3、分别计算查询集中每一图数据的表示向量与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签,公式表示为:
Figure BDA0003117325260000087
其中,d(·)为距离度量函数(例如,欧几里得距离),n为类别序号,对应一个类别,cn表示一个类别的质心;
Figure BDA0003117325260000091
表示预测得到的标签,也即使得
Figure BDA0003117325260000092
达到最小值时的n的取值。
4、利用预测标签与真实标签的损失构建损失函数,通过损失函数优化编码器的参数。
本发明实施例中,预测标签与真实标签的损失为分类损失,构建的损失函数的公式表示为:
Figure BDA0003117325260000093
其中,
Figure BDA0003117325260000094
表示交叉熵损失函数,x、y依次对应上式中的
Figure BDA0003117325260000095
表示预测到的标签,
Figure BDA0003117325260000096
表示真实标签,j为查询集中的图数据的序号,θ为所述编码器的参数。
利用损失函数优化编码器参数的具体实施方式可参照常规技术实现,例如,利用损失函数优化编码器参数时,可采用的Adam优化器,在训练过程进行梯度下降,反向传播,进行参数的更新,直至编码器收敛。
三、测试方案。
利用损失函数完成所述编码器的参数优化后,对测试集中的图数据进行分类预测。将优化后的参数记为
Figure BDA0003117325260000097
所述测试集由提取出所述训练集后剩余的图数据及相应的真实标签构成,如之前所述,训练集与测试集是依照真实标签进行划分的,因此,所述测试集与训练集的真实标签的类别不同。
本发明实施例中,将测试集分为两部分,第一部分包含完整的图数据与相应的真实标签,第二部分遮罩真实标签,仅包含相应的图数据;两个部分中图数据的数量关系可以描述为:A1<<A2;其中,A1、A2对应为第一部分、第二部分中图数据的数量。分类预测的步骤包括:
1、将第一部分中的图数据逐一输入至参数优化后的编码器,得到相应的表示向量,并依次进行去中心化操作与缩放操作,得到转换后的表示向量。
其中,对于第t个图数据Gt,输入至参数优化后的编码器得到相应的表示向量ht,公式表示为:
Figure BDA0003117325260000098
对表示向量ht进行中心化操作,即减去训练集中所有图数据的平均表示向量,公式表示为:
Figure BDA0003117325260000101
其中,Gtrain表示训练集中的图数据集合,|Gtrain|表示图数据集合Gtrain中图数据的数目,Gj表示训练集中的图数据;
对去中心化操作后得到的表示向量
Figure BDA0003117325260000102
进行L2归一化,得到表示向量
Figure BDA0003117325260000103
之后将使用
Figure BDA0003117325260000104
来计算类别质心距离。
2、利用第一部分中每一类别所包含的图数据转换后的表示向量,计算出测试集中每一类别的质心。
这部分的方式与前文介绍的支持集中计算每一类别的质心的方式相同。
3、将第二部分中的每一图数据,输入至参数优化后的编码器,得到相应的表示向量,并依次进行去中心化操作与缩放操作,得到转换后的表示向量,再计算与测试集中每一类别的质心之间的距离,使用最近邻分类方法预测第二部分中的每一图数据的标签。
类似的,此阶段与前文元训练任务中介绍的方式相同;也就是说,在测试阶段,测试集中的第一部分图数据相当于元训练任务中的支持集,第二部分图数据相当于元训练任务中的查询集。
相比于现有的技术,本发明实施例提供的上述方法,利用多层图神经网络对输入图进行编码,不同的层以不同的粒度捕获信息,在计算图数据的表示时利用注意力机制明确考虑图数据的全局结构特征和局部结构特征,从少量带标签的数据中学习基模型的参数,在小样本图分类任务中取得了明显的性能提升。
为了验证本发明提供的方法的优点和积极效果,在一个多类别数据集Chembl和一个公共数据集TRIANGLES上进行了实验。由于两个数据集中类别数量的差异,在多类别数据集Chembl上进行了5-way5-shot的分类任务,在公共数据集TRIANGLES上进行了3-way5-shot的分类任务。两个数据集的统计信息如表1所示。
Figure BDA0003117325260000111
表1数据集的统计信息
表2展示了在多类别数据集Chembl和公共数据集TRIANGLES上,本发明提供的方法及其变体与当前性能较好的算法的对比结果。
Figure BDA0003117325260000112
表2SMF-GIN及其变体与当前性能较好的算法的对比结果
由表2可知,对于公共数据集TRIANGLES,现有的Pre-training的方法(即前三行的Pre-context、Pre-masking、Pre-infomax)并不适用,因为它是设计用来处理化学分子和生物蛋白质数据,所以仅适用于Chembl数据集。相比于目前性能较好的算法,本发明提供的方法(SMF-GIN)取得了较大的提升。同时,也实现了SMF-GIN的变体:SMF-GIN-G和SMF-GIN-L,分别仅使用全局结构注意力机制和局部结构注意力机制,二者的良好表现说明本发明设计的全局结构注意力机制和局部结构注意力机制均可有效的捕获图结构特征。进一步,在这两种注意力机制中采用集成学习的思想,设计了SMF-GIN-E模型,在所有模型对比中取得了最优的结果,这说明在小样本图分类任务中,充分利用图的结构特征有利于性能提升;其中,集成学习是指:将分别采用全局注意力机制和局部注意力机制而得到最好的预测结果,利用集成学习的方式,融合成一个更好的预测结果。而且以上三个变种的效果优于SMF-GIN,也就是相当于是一种消融实验,这三个变种从另一层面上也反映了SMF-GIN的有效性。
本发明另一实施例还提供一种图结构增强的小样本学习系统,其主要用于实现前述实施例提供的方法,如图4所示,该系统主要包括:
模型构建单元,用于构建待学习的编码器,所述待学习的编码器根据输入的图数据的结构特征进行编码,输出图数据的表示向量;
数据划分单元,用于从给定的一组图数据及相应的标签中提取出训练集,并将训练集划分为支持集与查询集;其中,标签指示了图数据的类别,支持集与查询集中图数据具有相同的类别;
元训练单元,用于对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别下所有图数据的表示向量计算出每一类别的质心;对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签;综合查询集中所有图数据的标签与预测得到的相应标签之间的损失构建损失函数,优化所述编码器的参数。
本发明另一实施例还提供一种电子设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述电子设备还包括至少一个输入设备与至少一个输出设备;在所述电子设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
本发明另一实施例还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述电子设备中,例如,作为电子设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种图结构增强的小样本学习方法,其特征在于,应用于化学分子属性预测、蛋白质功能预测与社区种类预测,该方法包括:
构建待优化的编码器,所述待优化的编码器根据输入的图数据的结构特征进行编码,输出图数据的表示向量;其中,当应用于化学分子属性预测时,所述图数据由化学分子信息构造而成;当应用于蛋白质功能预测时,所述图数据由蛋白质信息构造而成;当应用于社区预测时,所述图数据由社区信息构造而成;
从给定的一组图数据及相应的标签中提取出训练集,并将训练集划分为支持集与查询集;其中,标签指示了图数据的类别,支持集与查询集中图数据具有相同的类别;
对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别下所有图数据的表示向量计算出每一类别的质心;对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签;综合查询集中所有图数据的标签与预测得到的相应标签之间的损失构建损失函数,优化所述编码器的参数。
2.根据权利要求1所述的一种图结构增强的小样本学习方法,其特征在于,所述编码器使用图分类模型图同构网络作为主干网络;所述图分类模型图同构网络设有两个模块,分别编码全局结构和局部结构;其中:
编码全局结构时,使用注意力机制学习图分类模型图同构网络中所有层的权重{w1,w2,…,wl},通过加权连接所有层输出的表示向量{h1,h2,…,hl}得到编码图数据全局结构的表示向量hG,其中,l为图分类模型图同构网络的总层数;
编码局部结构时,根据图数据所属领域的知识,将图数据划分为多个子结构,记为:Gsubs={S1,S2,…,Sm},并得到所有子结构的表示向量
Figure FDA0003117325250000011
使用注意力机制学习全局结构与所有子结构的权重{r0,r1,…,rm},计算编码图数据全局结构的表示向量hG与所有子结构的表示向量的加权和,计算结果作为编码器输出的图数据的表示向量;其中,r0为全局结构的权重,用于加权编码图数据全局结构的表示向量hG,{r1,…,rm}为所有子结构的权重,m为子结构总数。
3.根据权利要求1所述的一种图结构增强的小样本学习方法,其特征在于,所述对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别下所有图数据的表示向量计算出每一类别的质心包括:
对于支持集Dsup={Gsup,ysup},其中,Gsup表示支持集中的图数据集合,ysup表示支持集中的标签集合,图数据与标签一一对应;
将支持集中的每一图数据分别输入至编码器,得到相应的表示向量
Figure FDA0003117325250000021
Figure FDA0003117325250000022
其中,i为支持集中的图数据的序号,K为支持集中的图数据数目;n为类别序号,N为类别数目,不同图数据的标签的值相同,则表示属于相同类别,否则属于不同类别;
对于每一类别,根据对应的图数据数目及相应图数据的表示向量,采用求均值的方式计算相应类别的质心。
4.根据权利要求1或3所述的一种图结构增强的小样本学习方法,其特征在于,每一类别的质心的计算公式为:
Figure FDA0003117325250000023
其中,K为支持集中的图数据数目;n为类别序号,对应一个类别;k为一个类别下的图数据数目,
Figure FDA0003117325250000024
表示图数据的表示向量。
5.根据权利要求1所述的一种图结构增强的小样本学习方法,其特征在于,所述对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签包括:
对于查询集Dqry={Gqry,yqry},其中,Gqry表示查询集中的图数据集合,yqry表示查询集中的标签集合,图数据与标签一一对应;
将查询集中的每一图数据分别输入至编码器,遮罩图数据的标签,将编码器输出的表示向量记为
Figure FDA0003117325250000025
其中,j∈[1,Q],j为查询集中的图数据的序号,Q为查询集中的图数据数目;
分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签的公式表示为:
Figure FDA0003117325250000026
其中,d(·)为距离度量函数,n为类别序号,对应一个类别,cn表示一个类别的质心;
Figure FDA0003117325250000027
表示预测得到的标签,也即使得
Figure FDA0003117325250000028
达到最小值时的n的取值。
6.根据权利要求1或5所述的一种图结构增强的小样本学习方法,其特征在于,构建的损失函数的公式表示为:
Figure FDA0003117325250000031
其中,
Figure FDA0003117325250000032
表示交叉熵损失函数,x、y依次对应上式中的
Figure FDA0003117325250000033
表示预测到的标签,
Figure FDA0003117325250000034
表示查询集中图数据的标签,j为查询集中的图数据的序号,θ为所述编码器的参数。
7.根据权利要求1所述的一种图结构增强的小样本学习方法,其特征在于,该方法还包括:利用损失函数完成所述编码器的参数优化后,对测试集中的图数据进行分类预测;将优化后的参数记为
Figure FDA0003117325250000035
所述测试集由提取出所述训练集后剩余的图数据及相应的标签构成,所述测试集与训练集的标签的类别数不同;将测试集分为两部分,第一部分包含完整的图数据与相应的标签,第二部分遮罩标签,仅包含相应的图数据;两个部分中图数据的数量关系描述为:A1<<A2;其中,A1、A2对应为第一部分、第二部分中图数据的数量;分类预测的步骤包括:
将第一部分中的图数据逐一输入至参数优化后的编码器,得到相应的表示向量,并依次进行去中心化操作与缩放操作,得到转换后的表示向量;
其中,对于第t个图数据Gt,输入至参数优化后的编码器得到相应的表示向量ht,公式表示为:
Figure FDA0003117325250000036
对表示向量ht进行中心化操作,即减去训练集中所有图数据的平均表示向量,公式表示为:
Figure FDA0003117325250000037
其中,Gtrain表示训练集中的图数据集合,|Gtrain|表示图数据集合Gtrain中图数据的数目,Gj表示训练集中的图数据;
对去中心化操作后得到的表示向量
Figure FDA0003117325250000038
进行L2归一化,得到表示向量
Figure FDA0003117325250000039
利用第一部分中每一类别下所有图数据转换后的表示向量,计算出测试集中每一类别的质心;
将第二部分中的每一图数据,输入至参数优化后的编码器,得到相应的表示向量,并依次进行去中心化操作与缩放操作,得到转换后的表示向量,再计算与测试集中每一类别的质心之间的距离,使用最近邻分类方法预测第二部分中的每一图数据的标签。
8.一种图结构增强的小样本学习系统,其特征在于,用于实现权利要求1~7任一项所述的方法,该系统包括:
模型构建单元,用于构建待学习的编码器,所述待学习的编码器根据输入的图数据的结构特征进行编码,输出图数据的表示向量;
数据划分单元,用于从给定的一组图数据及相应的标签中提取出训练集,并将训练集划分为支持集与查询集;其中,标签指示了图数据的类别,支持集与查询集中图数据具有相同的类别;
元训练单元,用于对于支持集,根据编码器得到所有图数据的表示向量,利用每一类别下所有图数据的表示向量计算出每一类别的质心;对于查询集中的每一图数据,根据编码器得到的表示向量,分别计算与每一类别的质心之间的距离,使用最近邻分类方法预测每一图数据的标签;综合查询集中所有图数据的标签与预测得到的相应标签之间的损失构建损失函数,优化所述编码器的参数。
9.一种电子设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。
10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
CN202110665737.5A 2021-06-16 2021-06-16 图结构增强的小样本学习方法、系统、设备及存储介质 Active CN113314188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110665737.5A CN113314188B (zh) 2021-06-16 2021-06-16 图结构增强的小样本学习方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110665737.5A CN113314188B (zh) 2021-06-16 2021-06-16 图结构增强的小样本学习方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113314188A true CN113314188A (zh) 2021-08-27
CN113314188B CN113314188B (zh) 2022-07-15

Family

ID=77379069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110665737.5A Active CN113314188B (zh) 2021-06-16 2021-06-16 图结构增强的小样本学习方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113314188B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821119A (zh) * 2022-06-22 2022-07-29 中国科学技术大学 针对图数据不变特征的图神经网络模型的训练方法和装置
WO2023240779A1 (zh) * 2022-06-15 2023-12-21 中国科学院微电子研究所 一种图小样本学习的存内计算方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection
CN112035683A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 用户交互信息处理模型生成方法和用户交互信息处理方法
CN112487805A (zh) * 2020-11-30 2021-03-12 武汉大学 一种基于元学习框架的小样本Web服务分类方法
CN112508121A (zh) * 2020-12-22 2021-03-16 南京大学 一种工业机器人感知外界的方法和系统
CN112766374A (zh) * 2021-01-19 2021-05-07 西安电子科技大学 一种多层mlp网络的图分类方法、介质及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection
CN109961089A (zh) * 2019-02-26 2019-07-02 中山大学 基于度量学习和元学习的小样本和零样本图像分类方法
CN112035683A (zh) * 2020-09-30 2020-12-04 北京百度网讯科技有限公司 用户交互信息处理模型生成方法和用户交互信息处理方法
CN112487805A (zh) * 2020-11-30 2021-03-12 武汉大学 一种基于元学习框架的小样本Web服务分类方法
CN112508121A (zh) * 2020-12-22 2021-03-16 南京大学 一种工业机器人感知外界的方法和系统
CN112766374A (zh) * 2021-01-19 2021-05-07 西安电子科技大学 一种多层mlp网络的图分类方法、介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KEYULU XU等: "HOW POWERFUL ARE GRAPH NEURAL NETWORKS?", 《ARXIV》 *
杨志豪等: "多层特征动态加权图卷积网络", 《小型微型计算机系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023240779A1 (zh) * 2022-06-15 2023-12-21 中国科学院微电子研究所 一种图小样本学习的存内计算方法、装置及电子设备
CN114821119A (zh) * 2022-06-22 2022-07-29 中国科学技术大学 针对图数据不变特征的图神经网络模型的训练方法和装置

Also Published As

Publication number Publication date
CN113314188B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Chen et al. Multi-level graph convolutional networks for cross-platform anchor link prediction
Din et al. Online reliable semi-supervised learning on evolving data streams
CN113299354B (zh) 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
Hu A multivariate grey prediction model with grey relational analysis for bankruptcy prediction problems
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
He et al. An efficient and accurate nonintrusive load monitoring scheme for power consumption
Xiao et al. Signature verification using a modified Bayesian network
CN113761250A (zh) 模型训练方法、商户分类方法及装置
Gao et al. Adversarial mobility learning for human trajectory classification
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Ragapriya et al. Machine Learning Based House Price Prediction Using Modified Extreme Boosting
Zhang et al. A crowd-AI dynamic neural network hyperparameter optimization approach for image-driven social sensing applications
Liu et al. Bridging the gap between training and inference for spatio-temporal forecasting
CN113159976B (zh) 一种微博网络重要用户的识别方法
Jiang et al. A survey of gnn-based graph similarity learning
Qi et al. A stock index prediction framework: Integrating technical and topological mesoscale indicators
CN114691981A (zh) 一种会话推荐方法、系统、装置及存储介质
CN114723554A (zh) 异常账户识别方法及装置
Shang et al. Imbalanced data augmentation for pipeline fault diagnosis: A multi-generator switching adversarial network
Shen et al. Long-term multivariate time series forecasting in data centers based on multi-factor separation evolutionary spatial–temporal graph neural networks
Bose Data mining in tourism
Singh A link prediction model using similarity and centrality based features
Almejrb et al. Applying C atboost Regression Model for Prediction of House Prices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant