CN114332469A

CN114332469A - 模型训练方法、装置、设备及存储介质

Info

Publication number: CN114332469A
Application number: CN202110975270.4A
Authority: CN
Inventors: 刘松涛; 李蓝青
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2022-04-12

Abstract

本申请提供了一种模型训练方法、装置、设备及存储介质，该方法包括：获取第一训练图数据和N组超参，第一训练图数据包括R个数据对，每个数据对由图网络中的一个中心节点的第一特征信息和中心节点的一个邻居图节点的第一特征信息组成；将第一训练图数据分别输入N组超参中每一组超参下的生成器中，以使生成器学习在给定中心节点的特征条件下中心节点的邻居节点的特征概率分布，得到N组超参中每一组超参下训练后的生成器；从N组超参下训练后的生成器中，确定出目标生成器，目标生成器用于生成第二抽样样本，第二抽样样本用于训练预设的图神经网络模型，解决了模型在训练时由于缺少样本而过拟合的问题，提升模型的鲁棒性和泛化性。

Description

模型训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种模型训练方法、装置、设备及存储介质。

背景技术

随着人工智能技术的快速发展，各种图神经网络模型应用而生，图神经网络模型的预测精度与训练过程紧密相关，而模型训练与样本的准备相关。例如，当样本空间不够或者样本数量不足的时候会严重影响训练或者导致训练出来的模型泛化程度不够，识别率与准确率不高。

因此，如何解决样本数量不足造成的模型训练泛化程度不够，成为本领域技术人员亟待解决的技术问题。

发明内容

本申请提供一种模型训练方法、装置、设备及存储介质，训练得到的生成器可以生成用于模型训练的抽样样本，以实现对模型的充分训练。

第一方面，本申请提供一种模型训练方法，包括：

获取第一训练图数据和N组超参，所述第一训练图数据包括R个数据对，每个数据对由图网络中的一个中心节点的第一特征信息和所述中心节点的一个邻居图节点的第一特征信息组成，所述N、R均为正整数；

将所述第一训练图数据分别输入所述N组超参中每一组超参下的生成器中，以使所述生成器学习在给定中心节点的特征条件下所述中心节点的邻居节点的特征概率分布，得到所述N组超参中每一组超参下训练后的生成器；

从N组超参下训练后的生成器中，确定出目标生成器，所述目标生成器用于生成第二抽样样本，所述第二抽样样本用于训练预设的图神经网络模型。

第二方面，提供了一种模型训练装置，包括：

获取单元，用于获取第一训练图数据和N组超参，所述第一训练图数据包括R个数据对，每个数据对由图网络中的一个中心节点的第一特征信息和所述中心节点的一个邻居图节点的第一特征信息组成，所述N、R均为正整数；

训练单元，用于将所述第一训练图数据分别输入所述N组超参中每一组超参下的生成器中，以使所述生成器学习在给定中心节点的特征条件下所述中心节点的邻居节点的特征概率分布，得到所述N组超参中每一组超参下训练后的生成器；

确定单元，用于从N组超参下训练后的生成器中，确定出目标生成器，所述目标生成器用于生成第二抽样样本，所述第二抽样样本用于训练预设的图神经网络模型。

在一些实施例中，确定单元，具体用于针对所述N组超参中的每一组超参，使用该组超参下训练后的生成器进行抽样，得到该组超参下训练后的生成器输出的第一抽样样本，并使用该组超参下训练后的生成器输出的第一抽样样本，对预设的第一预测模型进行训练，得到该组超参对应的训练后的第一预测模型；分别确定每一组超参对应的训练后的第一预测模型的预测准确度；将预测准确度最高的第一预测模型所对应的一组超参下训练后的生成器，确定为所述目标生成器。

在一些实施例中，训练单元，具体用于针对所述N组超参中的每一组超参下的生成器，根据预设的batch大小，从所述第一训练图数据中获取第i个批batch，所述第i个batch包括至少一个数据对，所述i为从1到M的正整数，所述M为预设的生成器的训练次数；使用所述第i个batch对该组超参下的生成器进行训练，以使所述生成器学习在给定所述第i个batch中的各中心节点的特征条件下各中心节点的邻居节点的特征概率分布，得到所述第i个batch训练后的生成器；使用所述第i个batch训练后的生成器进行抽样，得到所述生成器输出的所述第i个batch对应的第三抽样样本；将所述第i个batch对应的第三抽样样本输入预设的第二预测模型中，得到所述第二预测模型输出的所述第i个batch对应的预测结果；根据所述第二预测模型输出的所述第i个batch对应的预测结果，确定所述第i个batch对应的不确定性分数；将M个batch对应的不确定分数中最高不确定分数对应的batch所训练后的生成器，确定为该组超参下训练后的生成器。

在一些实施例中，所述生成器为条件变分自编码器，所述条件变分自编码器包括编码模块和解码模块，训练单元，具体用于针对所述第i个batch中的每一个数据对，将所述数据对输入所述编码模块中，得到所述编码模块输出的第一方差和第一均值；将所述第一方差和所述第一均值通过重参数化技巧转换为第一隐变量，并将所述第一隐变量与所述数据对中的中心节点的第一特征信息，输入所述解码模块中，得到所述解码模块输出的增广特征向量；使用所述增广特征向量对所述编码模块和所述解码模块进行训练，得到所述第i个batch训练后的所述编码模块和所述解码模块。

在一些实施例中，训练单元，具体用于选取K个节点的第一特征信息，所述K为正整数；为所述K个节点中的每一个节点随机选取一个第二方差和第二均值；针对所述K个节点中的每一个节点，将所述节点对应的第二方差和第二均值通过重参数化技巧转换为第二隐变量，并将所述第二隐变量与所述节点的第一特征信息输入所述第i个batch训练后的所述解码模块中，得到所述解码模块输出的第三抽样样本。

在一些实施例中，训练单元，还用于确定所述第i个batch对应的不确定性分数是否为前i个batch对应的不确定性分数中的最高不确定性分数；若确定所述第i个batch对应的不确定性分数为前i个batch对应的不确定性分数中的最高不确定性分数，则使用所述第i个batch训练后的生成器输出的第三抽样样本，对所述第二预测模型进行第一数量次训练；其中，训练第一数量次后的所述第二预测模型用于预测第i+1个batch训练后的生成器所输出的第三抽样样本的预测结果。

在一些实施例中，若i＝1，在一些实施例中，训练单元，还用于对所述第二预测模型预训练第二数量次；将所述第一个batch对应的第三抽样样本输入经过第二数量次训练后的第二预测模型中，得到所述第二预测模型输出的第一个batch对应的预测结果。

在一些实施例中，训练单元，还用于使用所述目标生成器进行抽样，得到所述目标生成器输出的第二抽样样本；使用所述目标生成器输出的第二抽样样本对预设的图神经网络模型进行训练。

在一些实施例中，所述生成器为条件变分自编码器，所述条件变分自编码器包括解码模块，训练单元，具体用于获取第二训练图数据，所述第二训练图数据包括多个第二节点的第一特征信息；为所述多个第二节点中的每个节点随机选取一个第三方差和第三均值；针对所述多个第二节点中的每个第二节点，将所述第二节点对应的第三方差和第三均值通过重参数化技巧转换为第三隐变量，并将所述第三隐变量与所述第二节点的第一特征信息输入所述目标生成器中的目标解码模块中，得到所述目标解码模块输出的关于所述第二节点的P个第二抽样样本，所述P为正整数。

在一些实施例中，训练单元，具体用于将所述第二训练图数据、以及所述目标解码模块输出的第二抽样样本输入所述图神经网络模型中，对所述图神经网络模型进行训练。

在一些实施例中，所述图神经网络模型包括一个第一特征提取单元、P个第二特征提取单元和一个预测单元，训练单元，具体用于针对所述多个第二节点中的每个第二节点，将所述第二节点的第一特征信息输入所述第一特征提取单元中，得到所述第一特征提取单元输出的所述第一节点的第二特征信息；将所述第二节点的P个第二抽样样本分别输入所述P个第二特征提取单元，得到所述P个第二抽样样本中每个第二抽样样本的第二特征信息；将所述第二节点的第二特征信息和所述P个第二抽样样本的第二特征信息进行级联，得到级联后的第二特征信息；将所述级联后的第二特征信息输入所述预测单元，对所述图神经网络模型进行训练。

第三方面，提供了一种计算设备，包括处理器和存储器。所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行上述第一方面或其各实现方式中的方法。

第四方面，提供了一种芯片，用于实现上述第一方面至第二方面中任一方面或其各实现方式中的方法。具体地，所述芯片包括：处理器，用于从存储器中调用并运行计算机程序，使得安装有所述芯片的设备执行如上述第一方面中任一方面或其各实现方式中的方法。

第五方面，提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使得计算机执行上述第一方面中任一方面或其各实现方式中的方法。

第六方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令使得计算机执行上述第一方面中任一方面或其各实现方式中的方法。

第七方面，提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面中任一方面或其各实现方式中的方法。

综上，本申请通过获取第一训练图数据和N组超参，其中第一训练图数据包括R个数据对，每个数据对由图网络中的一个中心节点的第一特征信息和中心节点的一个邻居图节点的第一特征信息组成，N、R均为正整数；将第一训练图数据分别输入N组超参中每一组超参下的生成器中，以使生成器学习在给定中心节点的特征条件下中心节点的邻居节点的特征概率分布，得到N组超参中每一组超参下训练后的生成器；从N组超参下训练后的生成器中，确定出目标生成器，目标生成器用于生成第二抽样样本，第二抽样样本用于训练预设的图神经网络模型。即本申请实施例的生成器以图上中心节点的第一特征作为条件，学习中心节点的附近邻居节点的特征概率分布，使得生成器不仅学习了图的拓扑结构信息，还学习了图节点的特征信息。将该生成器用于数据增广的问题，解决了模型在训练时由于缺少足够样本而过拟合的问题，极大地提升模型的鲁棒性和泛化性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例涉及的一种系统架构示意图；

图2为本申请一实施例提供的模型训练方法的流程示意图；

图3为本申请实施例涉及的一种模型训练过程示意图；

图4为本申请实施例涉及的条件变分自编码器的示意图；

图5为本申请实施例涉及的一种训练过程示意图；

图6为本申请实施例涉及的一种网络模型示意图；

图7为本申请一实施例提供的模型训练方法的流程示意图；

图8为本申请一实施例提供的模型训练示意图；

图9为本申请一实施例提供的模型训练过程示意图

图10是本申请一实施例提供的模型训练装置的示意性框图；

图11是本申请实施例提供的计算设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应理解，在本发明实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。

另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

为了便于理解本申请的实施例，首先对本申请实施例涉及到的相关概念进行如下简单介绍：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

自然语言模型：通过统计学模型将人类大量的语言文字转换成机器语言，进而用于认知、理解和生成。具体用途包括机器翻译和自动问答等。

预训练：通过大量无标注的语言文本进行语言模型的训练，得到一套模型参数；利用这套参数对模型进行初始化，实现模型“热启动”，再根据具体任务在现有语言模型的架构上对参数进行微调来拟合任务提供的标签数据。预训练的方法在自然语言处理的分类和标记任务中，都被证明拥有很好的效果。

图神经网络(graph neural networks)：属于深度学习的范畴，通常用于解决图上的一系列问题，例如图分类，图节点分类，图的边预测任务等。图神经网络由两部分组成，第一部分是刻画图结构的邻接矩阵，刻画图属性的特征矩阵。第二部分将图结构，图属性嵌入到学习过程中的网络结构，可以是前馈神经网络，基于注意力机制的神经网络。

条件变分自编码器(conditional variational autoencoder)：条件变分自编码器是一种生成网络，通过编码器学习数据的分布，得到隐变量，然后通过解码器将隐变量恢复到数据的原始形式。条件变分自编码器可以学习到数据的分布，然后抽样生成新的数据，通常用于图像生成，文本生成。

图卷积神经网络(graph convolutional networks)：图卷积神经网络是图神经网络的一种，图卷积神经网络利用邻居矩阵对节点附近的邻居特征进行操作，在局部范围内对所有节点的特征向量加权得到中心节点的特征向量。图卷积神经网络可以对图上所有节点的特征进行光滑操作，利于下游的节点分类任务。

重要性抽样(importance sampling)：重要性抽样是对数据选择性的抽样，利用神经网络对数据不确定性对数据进行打分，然后抽取分数高的数据。这种方法可以提高神经网络输入数据的多样性，使神经网络接触更多不同的数据，以提高泛化性。

级联(concatenation)：深度学习对网络间的隐变量进行级联操作，可以最大化地保留不同变量的分布，不会对隐变量进行平均操作而破坏数据的分布。

在一些实施例中，本申请实施例的系统架构如图1所示。

图1为本申请实施例涉及的一种系统架构示意图，用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。

其中，数据采集设备102用于从内容库106中读取训练数据，并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括第一训练图数据包括R个数据对，其中一个数据对由图结构中的一个中心节点的第一特征信息和中心节点的一个邻居图节点的第一特征信息组成。

在一些实施例中，用户设备101用于对数据库105中的数据进行标注操作，例如，标注出各节点的分类。

训练设备103基于数据库105中维护的训练数据，对生成器进行训练，使得训练后的生成器可以抽样出第二抽样样本，该第二抽样样本可以用于训练其他的预设的图神经网络模型。可选的，训练设备103得到的生成器可以应用到不同的系统或设备中。

在附图1中，执行设备104配置有I/O接口107，与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的第二训练图数据。执行设备104中的计算模块109使用训练好的生成器对输入的第二训练图数据进行处理，输出抽样样本，并将生成的抽样样本输入待训练的图神经网络模型中，对该图神经网络模型进行训练。

其中，用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)或其他具有安装浏览器功能的终端设备。

执行设备104可以为服务器。

示例性的，服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器，也可以是多个测试服务器所组成的测试服务器集群。

本实施例中，执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要说明的是，附图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中，上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述生成器和图神经网络模型可以位于不同的计算设备上。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上，上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。

本申请实施例提供一种模型训练方法，用于训练生成器的第一训练图数据包括R个数据对，一个数据对由图结构中的一个中心节点的第一特征信息和该中心节点的一个邻居图节点的第一特征信息组成。即本申请实施例的生成器以图上中心节点的第一特征作为条件，学习中心节点的附近邻居节点的特征概率分布，使得生成器不仅学习了图的拓扑结构信息，还学习了图节点的特征信息，这样使用训练好的生成器可以生成更多满足要求的抽样样本，使用这些抽样样本对图神经网络模型进行训练时，可以实现对图神经网络模型的充分训练，提高训练后的图神经网络模型的泛化程度、识别率以及准确率。

本申请的应用场景包括但不限于社交网络、人工智能制药、推荐系统、交通预测等任何图深度学习场景。例如，推荐系统中存在给用户推荐好友、产品等任务，由于其底层的推荐机制是相通的，因此可以使用本申请实施例的方法能够很好的提取局部子结构信息，能够更好地丰富用户的特征，能够提升推荐质量，学习到同时完成多个任务并能推广到新任务的策略。例如，人工智能制药应用场景中，本申请实施例可以利用已收集完成的药物数据，学习不同官能团附近的结构和特征信息，可以总结出药物分子局部结构的信息，提升药物合成的效率。

下面通过一些实施例对本申请实施例的技术方案进行详细说明。下面这几个实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请一实施例提供的模型训练方法的流程示意图。本申请实施例的执行主体为具有模型训练功能的装置，例如模型训练装置，该模型训练装置可以为计算设备，或者为计算设备中的一部分。下面以执行主体为计算设备为例进行说明。

如图2所示，本申请实施例的方法包括：

S201、获取第一训练图数据和N组超参。

其中，第一训练图数据包括R个数据对，每个数据对由图网络中的一个中心节点的第一特征信息和中心节点的一个邻居图节点的第一特征信息组成，N、R均为正整数。

图(Graph)数据包含着十分丰富的关系型信息。从文本、图像这些非结构化数据中进行推理学习，例如句子的依赖树、图像的场景图等，都需要图推理模型。图网络(Graphneural networks)是一种连接主义模型，它靠图中节点之间的信息传递来捕捉图中的依赖关系。

图是一种结构化数据，它由一系列的对象(nodes)和关系类型(edges)组成。作为一种非欧几里得形数据，图分析被应用到节点分类、链路预测和聚类等方向。

图通常可以表示为

是所有节点{v₁，…，v_N}的集合，ε是边的集合，其中|V|＝N。邻接矩阵可以定义为A∈{0，1}^N×N，并且当且仅当(v_i，v_j)∈ε时，有A_ij＝1。令

表示为节点v_i的邻居节点集合，D表示对角度矩阵，则

特征矩阵表示为

每个节点v对应一个F维特征向量X_v。Y∈{0，1}^N×C表示one-hot标签矩阵，其中Y_i∈{0，1}^C是one-hot向量并且

对于任意v_i∈V都成立。

本申请实施例所述的中心节点可以理解为图中的任意一个节点v_i，中心节点v_i的邻居节点为与中心节点v_i同属于一个边的节点，即与中心节点v_i相连的节点。

本申请实施例中的节点的第一特征信息可以理解为上述节点的特征向量X_v。

本申请实施例的第一训练图数据包括R个数据对，一个数据对由一个中心节点的第一特征信息和该中心节点的一个邻居节点的第一特征信息组成。

举例说明，以中心节点为v₂为例，该中心节点v₂的邻居节点包括v₃和v₄，v₂的第一特征信息记为X₂，v₃的第一特征信息记为X₃，v₄的第一特征信息记为X₄，其中(X₂，X₃)组成一个数据对，(X₂，X₄)组成一个数据对。

本申请实施例对第一训练图数据所包括的数据对R的数量不做限制，具体根据实际需要确定。

在一些实施例中，R为大于或等于2的正整数。

在模型的训练过程中模型参数包括已知参数和未知参数，模型训练过程可以理解为确定未知参数的过程。其中已知参数也称为超级参数，本实施例将超级参数简称为超参。

在一种示例中，上述N组超参可以为预设值。

在一种示例中，上述N组超参为经验值。

本申请实施例对获取第一训练图数据的方式不做限制。

在一种示例中，上述第一训练图数据为用户上传的。

在一种示例中，将图网络输入计算设备中，计算设备提取图网络中各节点的第一特征信息，并根据图网络中各节点的结构关系和第一特征信息，将中心节点的第一特征信息和该中心节点的一个邻居节点的第一特征信息组成一个数据对，依次形成R个数据对，这R个数据对构成第一训练图数据。可选的，上述R个数据对对应的节点为图网络中局部连通图对应的节点。可选的，上述R个数据对对应的节点可以不连通。

S202、将第一训练图数据分别输入N组超参中每一组超参下的生成器中，以使生成器学习在给定中心节点的特征条件下中心节点的邻居节点的特征概率分布，得到N组超参中每一组超参下训练后的生成器。

如图3所示，本申请实施例的局部增广是给定中心节点的特征信息，去学习周围节点特征的条件分布。如图3所示，X_v为中心节点的特征信息(或特征表示或特征向量)，X_u1、X_u2和X_u3为中心节点v的邻居节点的特征信息(或特征表示或特征向量)。

本申请实施例，在生成器的学习过程中，对所有节点的邻居用最大似然估计学习一个单独的分布，即解决如公式(1)所示的优化问题：

其中，第一训练图数据为集合

其中X_i为中心节点v_i的第一特征信息，

为中心节点v_i的邻居节点v_j的第一特征信息。P_ψ能被用作对所有邻居进行数据增广。对于一个局部子结构，假设每个邻居满足一个不同的条件分布，即存在一个条件分布带有隐变量z_j的p(·|X_i，z_j)，对于

使得X_j～p(X|X_i，z_j)，“～”表示服从或符合。一旦获得p(·|X_i，z_j)，则能生成增广的特征

由上述可知，本申请实施例的第一训练图数据包括R个数据对，每个数据对包括一个中心节点的第一特征信息和该中心节点的一个邻居节点的第一特征信息，将中心节点的第一特征信息和该中心节点的邻居节点的第一特征信息分别输入每一组超参下生成器中，以使生成器学习在给定中心节点的特征条件下中心节点的邻居节点的特征概率分布，即将上述公式(1)作为生成器的目标函数，对生成器进行训练，得到N组超参中每一组超参下训练后的生成器。

本申请实施例对使用第一训练图数据对生成器进行训练的方式不做限制，可以为目前已有的任意方式，例如，一次向生成器输入一个数据对，以实现对生成器的一次训练。可选的，还可以一次向生成器输入多个数据对，以实现对生成器的一次训练。可选的，还可以将所有数据对一次输入生成器中，实现对生成器的训练。

在一些实施例中，本申请实施例可以采用batch(批)的方式，对生成器进行训练，即上述S202包括如下S202-A1至S202-A6的步骤：

S202-A1、针对N组超参中的每一组超参下的生成器，根据预设的batch大小，从第一训练图数据中获取第i个batch。

其中，第i个batch包括至少一个数据对，i为从1到M的正整数，M为预设的生成器的训练次数。

本申请实施例对从第一训练图数据中获取batch的方式不做限制。

在一种示例中，根据预设的batch大小，每次从第一训练图数据所包括的R个数据对中，随机选取batch大小个数据对作为一个batch。其中不同的batch之间可能存在相同的数据对。

在一种示例中，根据预设的batch大小，将第一训练图数据所包括的R各数据对平均划分成若干份，将每一份作为一个batch。

本申请实施例中，N组超参中每一组超参下的生成器的训练过程相同，为了便于描述，本实施例以一组超参下的生成器的训练过程为例进行说明，其他组超参下的生成器的训练过程参照即可。

S202-A2、使用第i个batch对该组超参下的生成器进行训练，以使生成器学习在给定第i个batch中的各中心节点的特征条件下各中心节点的邻居节点的特征概率分布，得到第i个batch训练后的生成器。

S202-A3、使用第i个batch训练后的生成器进行抽样，得到生成器输出的第i个batch对应的第三抽样样本。

本申请实施例使用每一批batch对生成器进行训练的过程基本一致，且生成器的训练过程为一个迭代过程。例如，使用当前batch对生成器进行训练结束后，固定当前batch对应的生成器的参数，并将当前batch固定的生成器的参数作为下一个batch训练时生成器的初始参数，依次进行迭代，直接满足生成器的训练结束条件为止。其中生成器的训练结束条件可以为生成器的损失达到预设值，或者生成器的训练次数达到预设次数。

可选的，本实施例中生成器的训练结束条件为生成器的训练次数达到M次。

本申请实施例中，使用每个batch对生成器进行训练后，评估该batch训练后的生成器的质量，将质量最好的生成器确定为目标生成器。

其中，评估该batch训练后的生成器的质量的方法可以是使用训练好的生成器进行抽样，使用抽样得到的抽样样本对第二预测模型进行训练，根据训练后的第二预测模型的预测结果，来确定该batch训练后的生成器的质量。

本申请实施例对生成器的具体网络结构不做限制，例如可以为生成式对抗网络(Generative Adversarial Networks，简称GAN),能量模型(Energy-Based Model，简称EBM)等众多经典生成模型。

在一种可能的实现方式中，生成器为对抗网络中的生成器，该对抗网络包括生成器和判别器，此时，上述S202-A2包括：将第i个batch输入生成器，生成器将输出结果输入判别器，判断器判断生成器输出的样本是否为真，进而反向调整生成器中的参数，得到第i个batch训练后的生成器。对应的，上述S202-A3包括：从第一训练图数据中选取K个节点，为K个节点中的每个节点随机抽取一个扰动，将节点的第一特征信息和该节点的扰动输入第i个batch训练后的生成器中，得到第i个batch训练后的生成器输出的第三抽样样本。其中，第三抽样样本的数量可以为一个也可以为多个，具体可以进行设置。

在一种可能的实现方式中，本申请实施例的生成器为条件变分自编码器。如图4所示，该条件变分自编码器(VAE)是一种有方向的图形生成模型，包括编码模块和解码模块。在一些实施例中，条件变分自编码器中的编码模块称为编码器，解码模块称为解码器。在图4所示的条件变分自编码器基础上，上述S202-A2包括如下S202-A21至S202-A23的步骤：

S202-A21、针对第i个batch中的每一个数据对，将数据对输入编码模块中，得到编码模块输出的第一方差和第一均值。

S202-A22、将第一方差和第一均值通过重参数化技巧(reparameterizationtrick)转换为第一隐变量，并将第一隐变量与该数据对中的中心节点的第一特征信息，输入解码模块中，得到解码模块输出的增广特征向量。

S202-A23、使用增广特征向量对编码模块和解码模块进行训练，得到第i个batch训练后的编码模块和解码模块。

本申请实施例为了便于描述，将生成器训练过程中，编码模块输出的方差和均值分别记为第一方差和第一均值。

可选的，第一方差和第一均值符合高斯分布。

解码模块输出的增广特征向量的数量可以为一个或多个，具体数量可以设置。若为多个时，则多个增广特征向量相同。

将解码模块输出的增广特征向量与输入编码模块的中心节点的第一特征信息进行比较，根据两者的差异，对条件变分自编码器进行调整，进而得到第i个batch训练后的编码模块和解码模块。

在一些实施例中，条件变分自编码器的损失函数(或目标函数)如公式(2)所示：

其中，

为条件变分自编码器的损失函数(或目标函数)，编码模块为

解码模块为

{f，g}由神经网络近似。

为条件变分自编码器的参数，

表示变分参数，ψ表示生成参数，

为正态分布，数学期望为μ、方差为σ2，KL为散度运算，用于比较两个概率分布的接近程度。

下面对上述公式(2)的推导过程进行介绍：

在一些实施例中，使用条件变分自编码器学习隐变量分布z_j和条件分布p(·|X_i，z_j)。

为了推导出条件变分自编码器的优化问题，将上述公式(1)中的logp_ψ(X_j|X_i)写成如下公式(3)所示：

将上述公式(3)中的证据下界(Evidence Lower Bound，ELBO)，即

能被写成上述公式(2)，进而推出条件变分自编码器的损失函数(或目标函数)。

根据上述使用第i个batch对条件变分自编码器中的编码模块和解码模块进行训练，得到第i个batch训练后的编码模块和解码模块。

接着，对第i个batch训练后的变分自编码器进行抽样，具体是对第i个batch训练后的解码模块进行抽样。对应的，上述S202-A3中的抽样过程包括如下S202-A31至S202-A33的步骤：

S202-A31、选取K个节点的第一特征信息，K为正整数。

可选的，从第一训练图数据中随机选取K个节点。

可选的，从其他图数据中选取K个节点。

S202-A32、为K个节点中的每一个节点随机选取一个第二方差和第二均值。

可选的，第二方差与第二均值符合高斯分布。

S202-A33、针对K个节点中的每一个节点，将该节点对应的第二方差和第二均值通过重参数化技巧转换为第二隐变量，并将第二隐变量与该节点的第一特征信息输入第i个batch训练后的解码模块中，得到解码模块输出的第三抽样样本。

条件变分自编码器训练结束后，在实际抽样过程中，使用条件变分自编码器中的解码模块进行抽样，而编码模块在训练过程中，帮助解码模块学习中心节点的周围邻居节点的特征概率分布。

本申请实施例对使用第i个batch训练后的生成器进行抽样的方式不做限制，可以采用已有的任意抽样方式进行抽样。

可选的，可以采用重要性抽样方式，对第i个batch训练后的生成器进行抽样，得到生成器输出的第i个batch对应的第三抽样样本。

S202-A4、将第i个batch对应的第三抽样样本输入预设的第二预测模型中，得到第二预测模型输出的第i个batch对应的预测结果。

图5为本申请实施例涉及的一种训练过程示意图，如图5所示，使用第i个batch对生成器进行训练，得到第i个batch训练后的生成器，使用第i个batch训练后的生成器进行抽样，输出第i个batch对应的第三抽样样本，将第i个batch对应的第三抽样样本输入第二预测模型，得到第二预测模型输出的第i个batch对应的预测结果。

在一些实施例中，上述第二预测模型为训练好的预测模型。

在一些实施例中，上述第二预测模型为预先经过预设步数训练的预测模型。

本申请实施例对第二预测模型的具体类型不做限制。

在一种示例中，上述第二预测模型为图卷积模型(GCN)、图关注网络模型(GAT)、门控图形神经网络模型(GGNN)等中图神经网络中的任意一种。

在一些实施例中，第二预测模型为图卷积模型，则图卷积模型的预测结果为节点的分类结果。

根据上述步骤，使用第i个batch对生成器进行训练，得到第i个batch训练后的生成器，并使用第i个batch训练后的生成器进行抽样，得到第i个bacth对应的第三抽样样本，将该第三抽样样本输入第二预测模型中，得到第二预测模型的预测结果，接着执行如下S202-A5和S202-A6的步骤。

S202-A5、根据第二预测模型输出的第i个batch对应的预测结果，确定第i个batch对应的不确定性分数。

在一些实施例中，本申请引入重要性抽样，来捕捉合适的生成矩阵，以提升效率和加速最大似然估计的优化。在重要性抽样中，本申请引入不确定性分数来抽取最重要的样本。

例如，根据预设的不确定分数公式，确定第i个batch对应的不确定性分数。

在一种可能的实现方式中，将第二预测模型输出的第i个batch对应的预测结果输入如下公式(4)，确定第i个batch对应的不确定性分数：

其中，

为不确定分数，

为生成器抽样得到的抽样样本，T是蒙特卡洛抽样的样本数量，ω_t是第t次蒙特卡洛抽样的网络的参数。一个高的不确定性分数显示网络对生成的特征矩阵有非常高的不确定性，因此被选择出来以提升第二预测模型的性能。

本申请实施例采用重要性抽样技术，能更好地训练生成器，并使生成器提供更多更丰富的样本给下游的图神经网络。

在一些实施例中，上述第二预测模型为事先训练好的模型，本申请实施例不涉及第二预测模型的训练过程。

在一些实施例中，上述第二预测模型与生成器一起训练，即本申请实施例中，第二预测模型与生成器交替训练。

当第二预测模型与生成器交替训练时，本申请实施例在执行完S202-A5之后，还包括对第二预测模型的训练过程，其中，第二预测模型的训练过程包括如下步骤：

S202-A5-1、确定第i个batch对应的不确定性分数是否为前i个batch对应的不确定性分数中的最高不确定性分数。

S202-A5-2、若确定第i个batch对应的不确定性分数为前i个batch对应的不确定性分数中的最高不确定性分数，则使用第i个batch训练后的生成器输出的第三抽样样本，对第二预测模型进行第一数量次训练。其中，训练第一数量次后的第二预测模型用于预测第i+1个batch训练后的生成器所输出的第三抽样样本的预测结果。

若确定第i个batch对应的不确定性分数不是前i个batch对应的不确定性分数中的最高不确定性分数，则对当前的第二预测模型不进行训练。

在一些实施例中，在对变分生成器进行训练之前，先对第二预测模型预训练第二数量次，即本申请实施例，若i＝1，将第i个batch对应的第三抽样样本输入预设的第二预测模型中，得到第二预测模型输出的第i个batch对应的预测结果之前，即在S202-A4之前，本申请实施例的方法还包括：对第二预测模型预训练第二数量次。对应的，上述S202-A4包括：将第一个batch对应的第三抽样样本输入经过第二数量次训练后的第二预测模型中，得到第二预测模型输出的第一个batch对应的预测结果。

本申请实施例涉及的生成器的训练过程包括：首先对第二预测模型预训练第二数量次，使用第一个batch对该超参下的生成器进行训练，得到第一个batch训练后的生成器，接着，对第一个batch训练后的生成器进行抽样，得到第一个batch对应的第三抽样样本。然后将第一个batch对应的第三抽样样本输入经过第二数量次训练后的第二预测模型中，得到第二预测模型输出的第一个batch对应的预测结果，并根据第一个batch对应的预测结果，确定第一个batch对应的不确定分数。

接着，使用第二个batch对该超参下的生成器进行训练，得到第二个batch训练后的生成器，接着，对第二个batch训练后的生成器进行抽样，得到第二个batch对应的第三抽样样本。然后将第二个batch对应的第三抽样样本输入经过第二数量次训练后的第二预测模型中，得到第二预测模型输出的第二个batch对应的预测结果，并根据第二个batch对应的预测结果，确定第二个batch对应的不确定分数。检查第二个batch对应的不确定分数是否大于第一个batch对应的不确定分数，若第二个batch对应的不确定分数大于第一个batch对应的不确定分数，则使用第二个batch训练后的生成器输出的第三抽样样本，对当前的第二预测模型进行第一数量次训练。

接着，使用第三个batch对该超参下的生成器进行训练，得到第三个batch训练后的生成器，接着，对第三个batch训练后的生成器进行抽样，得到第三个batch对应的第三抽样样本。然后将第三个batch对应的第三抽样样本输入经过第一数量次训练后的第二预测模型中，得到第二预测模型输出的第三个batch对应的预测结果，并根据第三个batch对应的预测结果，确定第三个batch对应的不确定分数。检查第三个batch对应的不确定分数是否大于第一个batch对应的不确定分数且大于第二个batch对应的不确定分数，若第三个batch对应的不确定分数大于第一个batch对应的不确定分数且大于第二个batch对应的不确定分数，则使用第三个batch训练后的生成器输出的第三抽样样本，对当前的第二预测模型再进行第一数量次训练。以此类推，生成器的训练和第二预测模型的训练过程迭代进行，直到i＝M为止。

S202-A6、将M个batch对应的不确定分数中最高不确定分数对应的batch所训练后的生成器，确定为该组超参下训练后的生成器。

上述步骤S202-A1至S202-A5以第i个batch为例，对第i个batch训练后的生成器对应的不确定性分数的确定过程进行了介绍。确定M个batch训练后的生成器对应的不确定性分数的过程与上述确定第i个batch训练后的生成器对应的不确定性分数的过程一致，参照上述实施例的描述，在此不再赘述。

根据上述步骤，确定出M个batch中每个batch训练后的生成器对应的不确定性分数后，将M个batch对应的不确定分数中最高不确定分数对应的batch所训练后的生成器，确定为该组超参下训练后的生成器。

上述实施例以确定一组超参下训练后的生成器为例进行说明，确定N组超参中每一组超参下训练后的生成器的过程相同，参照上述描述即可。

S203、从N组超参下训练后的生成器中，确定出目标生成器，其中目标生成器用于生成第二抽样样本，第二抽样样本用于训练预设的图神经网络模型。

本申请实施例中从N组超参下训练后的生成器中，确定出目标生成器的方式包括但不限于如下几种方式：

方式一，使用测试样本验证每一组超参下训练后的生成器的准确性，将准确性最高的一组超参训练后的生成器，确定为目标生成器。

方式二，使用测试样本验证每一组超参下训练后的生成器的预测速度，将预测速度最快的一组超参训练后的生成器，确定为目标生成器。

方式三，对一组超参训练后的生成器进行抽样，使用抽样样本对第一预测模型进行训练，根据第一预测模型的训练效果，从N组超参下训练后的生成器中，确定出目标生成器。

在该方式三中，具体的上述S203包括如下S203-A1和S203-A2步骤

S203-A1、使用该组超参下训练后的生成器进行抽样，得到该组超参下训练后的生成器输出的第一抽样样本，并使用该组超参下训练后的生成器输出的第一抽样样本，对预设的第一预测模型进行训练，得到该组超参对应的训练后的第一预测模型。

S203-A2、分别确定每一组超参对应的训练后的第一预测模型的预测准确度。

S203-A3、将预测准确度最高的第一预测模型所对应的一组超参下训练后的生成器，确定为目标生成器。

图神经网络模型能够被看作为预测图节点标签的分类函数，可以由图神经网络的分类估计器P_θ(Y|A，X)来刻画标签Y对应于图结构A和特征矩阵X的条件分布，其中θ是参数。给定训练样本{A,X,Y}，参数θ能用最大似然估计(MLE)来进行估计，参照下列公式(5)：

其中，K是训练集合中在半监督训练期间能看到其标签的节点的索引。

本申请实施例，如图6所示，生成器用于生成抽样样本，该抽样样本用于训练第一预测模型。因此，本申请实施例提出一个新的模型

其中

为生成器进行抽样得到的抽样样本，该抽样样本可以理解为生成器进行特征增广生成的特征矩阵。对于图6所示的网络模型，最大似然估计在抽样样本

的基础上优化一个边际分布P，如公式(6)所示：

由于贝叶斯易处理性，将公式(6)中的P分解为两个后验概率的乘积，如下公式(7)所示：

其中，

和

分别表示为第一预测模型和生成器近似的概率分布，θ为生成器的参数，Φ为第一预测模型的参数。本申请实施例中，一旦Q_φ被训练好了之后，可以通过从Q_φ抽样

来优化

基于上述描述，本申请实施例确定生成器的超参数的过程可以是，针对N组超参中每一组超参下训练后的生成器，使用该组超参下训练后的生成器进行抽样，得到该组超参下训练后的生成器输出的第一抽样样本，其中，抽取得到第一抽样样本的过程与上述抽样得到第三抽样样本的过程基本相同，例如，选取训练图数据中的若干个节点的第一特征信息，为每个节点随机选取一个方差和均值，针对每一个节点，将该节点对应的方差和均值通过重参数化技巧转换为隐变量，并将该隐变量与该节点的第一特征信息输入该组超参下训练后的生成器中，得到该组超参下训练后的生成器输出的第一抽样样本。接着，使用该组超参下训练后的生成器输出的第一抽样样本，对预设的第一预测模型进行训练，得到该组超参对应的训练后的第一预测模型。参照上述方式，可以得到N组超参下每一组超参对应的训练后的第一预测模型。然后分别确定每一组超参对应的训练后的第一预测模型的预测准确度。例如，使用测试样本，测试每一组超参对应的训练后的第一预测模型的预测准确度，将预测准确度最高的第一预测模型所对应的一组超参下训练后的生成器，确定为目标生成器。

本申请实施例对第一预测模型的具体类型不做限制，例如，第一预测模型为分类模型或其他预测预测模型。

在一种可能的实现方式中，上述第一预测模型为图像卷积神经网络模型。

本申请实施例提供的模型训练方法，通过获取第一训练图数据和N组超参，其中第一训练图数据包括R个数据对，每个数据对由图网络中的一个中心节点的第一特征信息和中心节点的一个邻居图节点的第一特征信息组成，N、R均为正整数；将第一训练图数据分别输入N组超参中每一组超参下的生成器中，以使生成器学习在给定中心节点的特征条件下中心节点的邻居节点的特征概率分布，得到N组超参中每一组超参下训练后的生成器；从N组超参下训练后的生成器中，确定出目标生成器，目标生成器用于生成第二抽样样本，第二抽样样本用于训练预设的图神经网络模型。即本申请实施例的生成器以图上中心节点的第一特征作为条件，学习中心节点的附近邻居节点的特征概率分布，使得生成器不仅学习了图的拓扑结构信息，还学习了图节点的特征信息。将该生成器用于数据增广的问题，解决了模型在训练时由于缺少足够样本而过拟合的问题，极大地提升模型的鲁棒性和泛化性。

上文对生成器的训练过程进行了介绍，下面对使用上述训练好的生成器辅助其他模型的训练过程进行介绍。

图7为本申请一实施例提供的模型训练方法的流程示意图，图8为本申请一实施例提供的模型训练示意图，如图7和图8所示，该模型训练方法包括：

S701、使用所述目标生成器进行抽样，得到所述目标生成器输出的第二抽样样本。

本步骤中，抽样生成第二抽样样本的过程与上述抽样生成第三抽样样本的过程一致，可以参照上述实施例的描述。

在一些实施例中，生成器为条件变分自编码器，如图4所示，该条件变分自编码器包括编码模块和解码模块。在训练过程中，使用编码模块辅助解码模块训练。训练结束后，在抽样过程中，使用解码模块进行抽样。此时，上述S701包括如下步骤：

S701-A1、获取第二训练图数据。

上述第二训练图数据包括多个第二节点的第一特征信息。

其中，第二训练图数据与第一训练图数据的原始图网络可以相同，也可以不同，或者部分相同，部分不同，本申请实施例对此不作限制。

S701-A2、为多个第二节点中的每个节点随机选取一个第三方差和第三均值。

在一些实施例中，上述第三方差和第三均值为随机选取的任意值。

在一些实施例中，上述第三方差和第三均值满足高斯分布。

S701-A3、针对多个第二节点中的每个第二节点，将第二节点对应的第三方差和第三均值通过重参数化技巧转换为第三隐变量，并将该第三隐变量与该第二节点的第一特征信息输入目标生成器中的目标解码模块中，得到目标解码模块输出的关于第二节点的P个第二抽样样本，P为正整数。

上述P为预设值，可以理解为生成器模型的超级参数。

本申请实施例对P的具体取值不做限制，具体根据实际情况确定。

上述P个第二抽样样本相同。

S702、使用目标生成器输出的第二抽样样本对预设的图神经网络模型进行训练。

本申请实施例对图神经网络模型的具体类型不做限制，例如为图卷积网络或图注意力机制网络。

图神经网络模型通过图节点间的消息传播机制捕捉图的相互依赖，其中消息传播机制由以下公式(8)表示：

H^(l)＝f(A，H^l-1)

其中，其中f表示不同模型中的特殊的图神经网络层，H^(l)是l层的隐向量，并且H⁰＝X。例如，图卷积网络的表示是

其中

是

的度数矩阵，即

和

在一些实施例中，上述S702包括将上述目标生成器输出的第二抽样样本输入图神经网络模型中，对图神经网络模型进行训练。

在一些实施例中，上述S702包括S702-A：将第二训练图数据、以及目标解码模块输出的第二抽样样本输入图神经网络模型中，对图神经网络模型进行训练。

本申请实施例对S702-A中使用第二训练图数据和第二抽样样本对图神经网络模型进行训练的方式不做限制。

在一种可能的实现方式中，S702-A包括：将第二训练图数据和第二抽样样本输入图神经网络模型中的特征提取层中，得到第二训练图数据中每个第二节点的第二特征信息以及第二抽样样本的第二特征信息。计算第二节点的第二特征信息以及第二抽样样本的第二特征信息的平均值，将该平均值输入图神经网络模型中的下一层图神经网络层，得到图神经网络模型的输出结果。根据图神经网络模型的输出结果对图神经网络模型中的参数进行调整，得到训练后的图神经网络模型。

在一些实施例中，如图9所示，图神经网络模型包括一个第一特征提取单元、P个第二特征提取单元和一个预测单元，此时，上述S702-A包括：

S702-A1、针对多个第二节点中的每个第二节点，将第二节点的第一特征信息输入第一特征提取单元中，得到第一特征提取单元输出的第一节点的第二特征信息。

S702-A2、将第二节点的P个第二抽样样本分别输入P个第二特征提取单元，得到P个第二抽样样本中每个第二抽样样本的第二特征信息。

S702-A3、将第二节点的第二特征信息和P个第二抽样样本的第二特征信息进行级联，得到级联后的第二特征信息。

S702-A4、将级联后的第二特征信息输入预测单元，对图神经网络模型进行训练。例如，将级联后的第二特征信息输入预测单元，预测单元根据级联后的第二特征信息，输出图神经网络模型的预测结果，根据图神经网络模型的输出结果对图神经网络模型中的参数进行调整，得到训练后的图神经网络模型。

需要说明的是，图9中的第一特征提取单元、第二特征提取单元和预测单元为一种示例，本申请实施例对第一特征提取单元、第二特征提取单元和预测单元的具体网络结构不做限制，具体根据图神经网络模型的具体网络结构决定。

在一些实施例中，若图神经网络模型为图卷积模型，则图9中的H⁽²⁾根据如下公式(9)计算得到：

其中，Ⅱ表示级联操作，W为第一特征提取单元的网络参数，W₀至W_P-1分别为P个第二特征提取单元的网络参数。

本申请实施例使用目标生成器输出的第二抽样样本作为图神经网络模型的训练样本，解决图深度学习中的小量标签半监督学习带来的过拟合问题。本申请实施例所采用的数据增广技术，可推广到任何用于基于图的小量标签的方法。

本申请实施例的模型训练方法，可以适用于不同的图神经网络模型，可以在原有神经网络模型的基础上提升模型的训练准确性，进而提高模型的性能。

下面通过实验数据进一步说明本申请实施例所提供的模型训练方法的技术效果。

本申请(简称为LA-GNN)与现有方法的对比，在Cora、Citeseer，Pubmed三个数据上与其底层图学习算法GCN、GAT、GCNII、GRAND进行对比实验，各组实验均进行100次随机实验，实验结果如表1所示：

	Cora	Citeseer	Pubmed
				GCN	81.6％	70.3％	78.9％
GAT	83.0％	70.4％	OOM
				GCNII	85.2％	73.1％	80.0％
GRAND	85.3％	75.3％	82.7％
				LA-GCN	84.1％	72.5％	81.5％
LA-GAT	83.9％	72.3％	OOM
				LA-GCNII	85.2％	73.5％	81.0％
LA-GRAND	85.8％	75.8％	83.2％

本申请实施例将目标生成器分别与GCN、GAT、GCNII和GRAND结合，分别得到LA-GCN、LA-GAT、LA-GCNII和LA-GRAND模型。由上述表1可知，本申请实施例的LA-GCN、LA-GAT、LA-GCNII和LA-GRAND模型相比于已有的GCN、GAT、GCNII和GRAND在Cora、Citeseer，Pubmed三个数据上的预测准确性均有提升。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文结合图2至图9，详细描述了本申请的方法实施例，下文结合图10至图11，详细描述本申请的装置实施例。

图10是本申请一实施例提供的模型训练装置的示意性框图。该装置10可以为计算设备或者为计算设备中的一部分。

如图10所示，模型训练装置10可包括：

获取单元11，用于获取第一训练图数据和N组超参，所述第一训练图数据包括R个数据对，每个数据对由图网络中的一个中心节点的第一特征信息和所述中心节点的一个邻居图节点的第一特征信息组成，所述N、R均为正整数；

训练单元12，用于将所述第一训练图数据分别输入所述N组超参中每一组超参下的生成器中，以使所述生成器学习在给定中心节点的特征条件下所述中心节点的邻居节点的特征概率分布，得到所述N组超参中每一组超参下训练后的生成器；

确定单元13，用于从N组超参下训练后的生成器中，确定出目标生成器，所述目标生成器用于生成第二抽样样本，所述第二抽样样本用于训练预设的图神经网络模型。

在一些实施例中，确定单元13，具体用于针对所述N组超参中的每一组超参，使用该组超参下训练后的生成器进行抽样，得到该组超参下训练后的生成器输出的第一抽样样本，并使用该组超参下训练后的生成器输出的第一抽样样本，对预设的第一预测模型进行训练，得到该组超参对应的训练后的第一预测模型；分别确定每一组超参对应的训练后的第一预测模型的预测准确度；将预测准确度最高的第一预测模型所对应的一组超参下训练后的生成器，确定为所述目标生成器。

在一些实施例中，训练单元12，具体用于针对所述N组超参中的每一组超参下的生成器，根据预设的batch大小，从所述第一训练图数据中获取第i个batch，所述第i个batch包括至少一个数据对，所述i为从1到M的正整数，所述M为预设的生成器的训练次数；使用所述第i个batch对该组超参下的生成器进行训练，以使所述生成器学习在给定所述第i个batch中的各中心节点的特征条件下各中心节点的邻居节点的特征概率分布，得到所述第i个batch训练后的生成器；使用所述第i个batch训练后的生成器进行抽样，得到所述生成器输出的所述第i个batch对应的第三抽样样本；将所述第i个batch对应的第三抽样样本输入预设的第二预测模型中，得到所述第二预测模型输出的所述第i个batch对应的预测结果；根据所述第二预测模型输出的所述第i个batch对应的预测结果，确定所述第i个batch对应的不确定性分数；将M个batch对应的不确定分数中最高不确定分数对应的batch所训练后的生成器，确定为该组超参下训练后的生成器。

在一些实施例中，所述生成器为条件变分自编码器，所述条件变分自编码器包括编码模块和解码模块，训练单元12，具体用于针对所述第i个batch中的每一个数据对，将所述数据对输入所述编码模块中，得到所述编码模块输出的第一方差和第一均值；将所述第一方差和所述第一均值通过重参数化技巧转换为第一隐变量，并将该第一隐变量与所述数据对中的中心节点的第一特征信息，输入所述解码模块中，得到所述解码模块输出的增广特征向量；使用所述增广特征向量对所述编码模块和所述解码模块进行训练，得到所述第i个batch训练后的所述编码模块和所述解码模块。

在一些实施例中，训练单元12，具体用于选取K个节点的第一特征信息，所述K为正整数；为所述K个节点中的每一个节点随机选取一个第二方差和第二均值；针对所述K个节点中的每一个节点，将所述节点对应的第二方差和第二均值通过重参数化技巧转换为第二隐变量，并将该第二隐变量与所述节点的第一特征信息输入所述第i个batch训练后的所述解码模块中，得到所述解码模块输出的第三抽样样本。

在一些实施例中，训练单元12，还用于确定所述第i个batch对应的不确定性分数是否为前i个batch对应的不确定性分数中的最高不确定性分数；若确定所述第i个batch对应的不确定性分数为前i个batch对应的不确定性分数中的最高不确定性分数，则使用所述第i个batch训练后的生成器输出的第三抽样样本，对所述第二预测模型进行第一数量次训练；其中，训练第一数量次后的所述第二预测模型用于预测第i+1个batch训练后的生成器所输出的第三抽样样本的预测结果。

在一些实施例中，若i＝1，在一些实施例中，训练单元12，还用于对所述第二预测模型预训练第二数量次；将所述第一个batch对应的第三抽样样本输入经过第二数量次训练后的第二预测模型中，得到所述第二预测模型输出的第一个batch对应的预测结果。

在一些实施例中，训练单元12，还用于使用所述目标生成器进行抽样，得到所述目标生成器输出的第二抽样样本；使用所述目标生成器输出的第二抽样样本对预设的图神经网络模型进行训练。

在一些实施例中，所述生成器为条件变分自编码器，所述条件变分自编码器包括解码模块，训练单元12，具体用于获取第二训练图数据，所述第二训练图数据包括多个第二节点的第一特征信息；为所述多个第二节点中的每个节点随机选取一个第三方差和第三均值；针对所述多个第二节点中的每个第二节点，将所述第二节点对应的第三方差和第三均值通过重参数化技巧转换为第三隐变量，并将该第三隐变量与所述第二节点的第一特征信息输入所述目标生成器中的目标解码模块中，得到所述目标解码模块输出的关于所述第二节点的P个第二抽样样本，所述P为正整数。

在一些实施例中，训练单元12，具体用于将所述第二训练图数据、以及所述目标解码模块输出的第二抽样样本输入所述图神经网络模型中，对所述图神经网络模型进行训练。

在一些实施例中，所述图神经网络模型包括一个第一特征提取单元、P个第二特征提取单元和一个预测单元，训练单元12，具体用于针对所述多个第二节点中的每个第二节点，将所述第二节点的第一特征信息输入所述第一特征提取单元中，得到所述第一特征提取单元输出的所述第一节点的第二特征信息；将所述第二节点的P个第二抽样样本分别输入所述P个第二特征提取单元，得到所述P个第二抽样样本中每个第二抽样样本的第二特征信息；将所述第二节点的第二特征信息和所述P个第二抽样样本的第二特征信息进行级联，得到级联后的第二特征信息；将所述级联后的第二特征信息输入所述预测单元，对所述图神经网络模型进行训练。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图10所示的装置可以执行上述方法的实施例，并且装置中的各个模块的前述和其它操作和/或功能分别为了实现计算设备对应的方法实施例，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图11是本申请实施例提供的计算设备的示意性框图，该计算设备用于执行上述方法实施例。

如图11所示，该计算设备30可包括：

存储器31和处理器32，该存储器31用于存储计算机程序33，并将该程序代码33传输给该处理器32。换言之，该处理器32可以从存储器31中调用并运行计算机程序33，以实现本申请实施例中的方法。

例如，该处理器32可用于根据该计算机程序33中的指令执行上述方法步骤。

在本申请的一些实施例中，该处理器32可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器31包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序33可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器31中，并由该处理器32执行，以完成本申请提供的录制页面的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序33在该计算设备中的执行过程。

如图11所示，该计算设备30还可包括：

收发器34，该收发器34可连接至该处理器32或存储器31。

其中，处理器32可以控制该收发器34与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器34可以包括发射机和接收机。收发器34还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该计算设备30中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

根据本申请的一个方面，提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

根据本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算设备执行上述方法实施例的方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从N组超参下训练后的生成器中，确定出目标生成器，包括：

针对所述N组超参中的每一组超参，使用该组超参下训练后的生成器进行抽样，得到该组超参下训练后的生成器输出的第一抽样样本，并使用该组超参下训练后的生成器输出的第一抽样样本，对预设的第一预测模型进行训练，得到该组超参对应的训练后的第一预测模型；

分别确定每一组超参对应的训练后的第一预测模型的预测准确度；

将预测准确度最高的第一预测模型所对应的一组超参下训练后的生成器，确定为所述目标生成器。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一训练图数据分别输入所述N组超参中每一组超参下的生成器中，以使所述生成器学习在给定中心节点的特征条件下所述中心节点的邻居节点的特征概率分布，得到所述N组超参中每一组超参下训练后的生成器，包括：

针对所述N组超参中的每一组超参下的生成器，根据预设的批batch大小，从所述第一训练图数据中获取第i个batch，所述第i个batch包括至少一个数据对，所述i为从1到M的正整数，所述M为预设的生成器的训练次数；

使用所述第i个batch对该组超参下的生成器进行训练，以使所述生成器学习在给定所述第i个batch中的各中心节点的特征条件下各中心节点的邻居节点的特征概率分布，得到所述第i个batch训练后的生成器；

使用所述第i个batch训练后的生成器进行抽样，得到所述生成器输出的所述第i个batch对应的第三抽样样本；

将所述第i个batch对应的第三抽样样本输入预设的第二预测模型中，得到所述第二预测模型输出的所述第i个batch对应的预测结果；

根据所述第二预测模型输出的所述第i个batch对应的预测结果，确定所述第i个batch对应的不确定性分数；

将M个batch对应的不确定分数中最高不确定分数对应的batch所训练后的生成器，确定为该组超参下训练后的生成器。

4.根据权利要求3所述的方法，其特征在于，所述生成器为条件变分自编码器，所述条件变分自编码器包括编码模块和解码模块，所述使用第i个batch对该组超参下的生成器进行训练，以使所述生成器学习在给定所述第i个batch中的中心节点的特征条件下所述中心节点的邻居节点的特征概率分布，得到所述第i个batch训练后的生成器，包括：

针对所述第i个batch中的每一个数据对，将所述数据对输入所述编码模块中，得到所述编码模块输出的第一方差和第一均值；

将所述第一方差和所述第一均值通过重参数化技巧转换为第一隐变量，并将所述第一隐变量与所述数据对中的中心节点的第一特征信息，输入所述解码模块中，得到所述解码模块输出的增广特征向量；

使用所述增广特征向量对所述编码模块和所述解码模块进行训练，得到所述第i个batch训练后的所述编码模块和所述解码模块。

5.根据权利要求4所述的方法，其特征在于，所述使用所述第i个batch训练后的生成器进行抽样，得到所述生成器输出的第三抽样样本，包括：

选取K个节点的第一特征信息，所述K为正整数；

为所述K个节点中的每一个节点随机选取一个第二方差和第二均值；

针对所述K个节点中的每一个节点，将所述节点对应的第二方差和第二均值通过重参数化技巧转换为第二隐变量，并将所述第二隐变量与所述节点的第一特征信息输入所述第i个batch训练后的所述解码模块中，得到所述解码模块输出的第三抽样样本。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定所述第i个batch对应的不确定性分数是否为前i个batch对应的不确定性分数中的最高不确定性分数；

若确定所述第i个batch对应的不确定性分数为前i个batch对应的不确定性分数中的最高不确定性分数，则使用所述第i个batch训练后的生成器输出的第三抽样样本，对所述第二预测模型进行第一数量次训练；

其中，训练第一数量次后的所述第二预测模型用于预测第i+1个batch训练后的生成器所输出的第三抽样样本的预测结果。

7.根据权利要求6所述的方法，其特征在于，若i＝1，所述将所述第i个batch对应的第三抽样样本输入预设的第二预测模型中，得到所述第二预测模型输出的所述第i个batch对应的预测结果之前，所述方法还包括：

对所述第二预测模型预训练第二数量次；

所述将所述第i个batch对应的第三抽样样本输入预设的第二预测模型中，得到所述第二预测模型输出的所述第i个batch对应的预测结果，包括：

将第一个batch对应的第三抽样样本输入经过第二数量次训练后的第二预测模型中，得到所述第二预测模型输出的第一个batch对应的预测结果。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述方法还包括：

使用所述目标生成器进行抽样，得到所述目标生成器输出的第二抽样样本；

使用所述目标生成器输出的第二抽样样本对预设的图神经网络模型进行训练。

9.根据权利要求8所述的方法，其特征在于，所述目标生成器为目标条件变分自编码器，所述目标条件变分自编码器包括目标解码模块，所述使用所述目标生成器进行抽样，得到所述目标生成器输出的第二抽样样本，包括：

获取第二训练图数据，所述第二训练图数据包括多个第二节点的第一特征信息；

为所述多个第二节点中的每个节点随机选取一个第三方差和第三均值；

针对所述多个第二节点中的每个第二节点，将所述第二节点对应的第三方差和第三均值通过重参数化技巧转换为第三隐变量，并将所述第三隐变量与所述第二节点的第一特征信息输入所述目标生成器中的目标解码模块中，得到所述目标解码模块输出的关于所述第二节点的P个第二抽样样本，所述P为正整数。

10.根据权利要求9所述的方法，其特征在于，所述使用所述目标生成器输出的第二抽样样本对预设的图神经网络模型进行训练，包括：

将所述第二训练图数据、以及所述目标解码模块输出的第二抽样样本输入所述图神经网络模型中，对所述图神经网络模型进行训练。

11.根据权利要求10所述的方法，其特征在于，所述图神经网络模型包括一个第一特征提取单元、P个第二特征提取单元和一个预测单元，所述将所述第二训练图数据、以及所述目标解码模块输出的第二抽样样本输入所述图神经网络模型中，对所述图神经网络模型进行训练，包括：

针对所述多个第二节点中的每个第二节点，将所述第二节点的第一特征信息输入所述第一特征提取单元中，得到所述第一特征提取单元输出的所述第二节点的第二特征信息；

将所述第二节点的P个第二抽样样本分别输入所述P个第二特征提取单元，得到所述P个第二抽样样本中每个第二抽样样本的第二特征信息；

将所述第二节点的第二特征信息和所述P个第二抽样样本的第二特征信息进行级联，得到级联后的第二特征信息；

将所述级联后的第二特征信息输入所述预测单元，对所述图神经网络模型进行训练。

12.一种模型训练装置，其特征在于，包括：

13.一种计算设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序以实现如上述权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如上述权利要求1至11任一项所述的方法。