CN117010459A

CN117010459A - 基于模块化和序列化自动生成神经网络的方法

Info

Publication number: CN117010459A
Application number: CN202311278835.9A
Authority: CN
Inventors: 徐仁军; 许晓扬
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-11-07
Anticipated expiration: 2043-10-07
Also published as: CN117010459B

Abstract

本发明公开了一种基于模块化和序列化自动生成神经网络的方法，包括基于基础模块通过torchviz工具获取基础模块计算子图，获得各预训练模型计算图，基于基础模块计算子图将各预训练模型计算图分别转化为由于基础模块构建的模块化的模型计算图，在模块化的模型计算图中将部分基础模块组合成对应的功能单元从而得到粗颗粒化的模型计算图；编码各粗颗粒化的模型计算图得到字符序列，并作为训练集，通过训练集训练序列生成模型得到序列生成网络；将序列生成网络输出的预测字符序列转化为预测模型计算图。该方法降低了计算的复杂程度，提高了计算效率。

Description

基于模块化和序列化自动生成神经网络的方法

技术领域

本发明属于神经网络自动生成领域，具体涉及一种基于模块化和序列化自动生成神经网络的方法。

背景技术

模块化神经网络是将复杂任务分解为可以由各个模块处理的子任务。例如，在计算机视觉任务中，识别图像中的不同对象，一个模块化神经网络包括用于检测边缘、角点、纹理和形状的单独模块。每个模块负责学习特定的特征集，并以灵活的方式组合这些模块以构建适合当前任务的完整神经网络。模块化神经网络的优点在于通过降低整体网络的复杂性来简化设计过程。与设计一个可以处理复杂任务各个方面的单一庞大网络不同，模块化网络将任务分解为可管理的子任务，这使得网络的理解和优化更加容易，同时也使得网络更加灵活且可扩展。然而，设计模块化神经网络仍然需要相当数量的手动工作。设计者必须选择适合任务的模块，确定它们之间的连接方式，并优化参数。这个过程可能耗时且需要专业知识，特别是对于具有许多相互依赖子任务的复杂任务而言。

神经网络设计的技术背景可以追溯到人工智能和机器学习的发展历程。从神经元模型、反向传播算法、深度神经网络、GPU加速到大规模数据集、卷积神经网络、循环神经网络、迁移学习等关键技术和概念，随着网络规模和复杂性的增加，人工设计变得更加困难和耗时，需要大量的专业知识和经验，设计有效的神经网络需要大量的人工专业知识和试错过程。然而，手动设计神经网络存在设计复杂性、问题特定性和自动化需求的挑战。

自动化神经网络设计的出现是为了解决这些挑战，通过结构搜索和优化技术，快速迭代、高效优化和适应不同任务的需求，可以自动发现更优的网络结构和参数配置。

这样的自动设计方法能够减轻人工设计的负担，加速模型的开发和部署过程，减少不必要的计算开销，提高资源利用率，并在有限的时间内找到更好的设计方案。随着技术的不断进步，如进化算法、强化学习、遗传算法和贝叶斯优化等，人们开始探索将这些技术应用于神经网络的自动设计中。

这些技术可以通过搜索和评估大量的网络结构和参数组合，自动发现更优的设计方案。神经网络自动设计成为神经网络领域的重要研究方向，为构建更强大、高效的神经网络模型提供了新的可能性。

但现有的神经网络自动设计方法需要大量的人工手动操作，对于具有许多相互依赖子任务的复杂任务而言需要相当的专业知识。对于神经架构搜索而言，神经架构搜索算法计算复杂度高，需要大量的计算资源和时间。

发明内容

本发明提供了一种基于模块化和序列化自动生成神经网络的方法，该方法降低了计算的复杂程度，提高了计算效率，且能够获得准确预测特定结果的预测模型。

本发明具体实施例提供了一种基于模块化和序列化自动生成神经网络的方法，包括：

基于基础模块通过torchviz工具获取对应的基础模块计算子图，从HuggingFace库中获得各预训练模型计算图，基于基础模块计算子图将各预训练模型计算图分别转化为由基础模块构建的模块化的模型计算图，在模块化的模型计算图中将部分基础模块组合成对应的功能单元从而得到粗颗粒化的模型计算图；

对各粗颗粒化的模型计算图进行编码得到对应的字符序列，将获得的多个字符序列作为训练集，通过训练集训练序列生成模型得到序列生成网络；

应用时，将部分神经网络序列输入序列生成网络得到预测字符序列，将预测字符序列转化为预测模型计算图，基于预测模型计算图得到预测神经网络的结构。

进一步的，在各模块化的模型计算图中将部分基础模块组合成对应的功能单元从而得到粗颗粒化的模型计算图，包括：

步骤S1、在各模块化的模型计算图中将达到出现频次阈值的由部分基础模块组合的第一功能单元替换对应的部分基础模块得到第一粗颗粒化的模型计算图；

步骤S2、在第一粗颗粒化的模型计算图中将达到出现频次阈值的由部分基础模块和第一功能单元组合的第二功能单元替换对应的部分基础模块和第一功能单元得到第二粗颗粒化的模型计算图；

步骤S3、迭代步骤S2直至达到迭代次数阈值得到最终的粗颗粒化的模型计算图。

进一步的，基于基础模块计算子图将各预训练模型计算图分别转化为由于基础模块构建的模块化的模型计算图，包括：预训练模型计算图包括多个基础模块计算子图，基于基础模块计算子图与基础模块的对应关系将预训练模型计算图转化为对应的模块化的模型计算图。

进一步的，在构建粗颗粒化的模型计算图时，将各功能单元间的接口，功能单元与功能单元以外的基础模块间的接口，以及功能单元以外的基础模块间的接口进行维度适配。

进一步的，将各功能单元间的接口，功能单元与功能单元以外的基础模块间的接口，以及功能单元以外的基础模块间的接口进行维度适配，包括：

将粗颗粒化的模型计算图中的功能单元和功能单元以外的基础模块分别插入适配器，通过适配器对当前功能单元或基础模块的输入接口进行拼接和分裂以匹配上一个功能单元或基础模块的输出接口的个数，并通过适配器的线性层对输入接口和输出接口的维度进行匹配。

进一步的，所述功能单元包括全连接层、循环层、缩放点击注意力层、多头注意力层或时间递归层。

进一步的，所述基础模块包括卷积层、池化层、层归一化、批量归一化、反卷积层、求和层、拼接层或激活层。

进一步的，对各粗颗粒化的模型计算图进行编码得到对应的字符序列，包括：将粗颗粒化的模型计算图中的功能单元和功能单元以外的基础模块按照计算顺序进行编码得到字符序列。

进一步的，通过训练集训练序列生成模型得到序列生成网络，所述序列生成模型为基于序列的GPT模型，所述基于序列的GPT模型的序列编码器为transformer模型。

进一步的，将预测字符序列转化为预测模型计算图，包括：

将预测字符序列解码为对应的粗颗粒化的模型计算图，将粗颗粒化的模型计算图的功能单元逐层替换为对应的基础模块得到对应的模块化的模型计算图，将模块化的模型计算图的基础模块替换为基础模块计算子图得到预测模型计算图。

与现有技术相比，本发明的有益效果为：

本发明针对传统的神经网络架构自动搜索算法，伴随深度神经网络节点数的增加搜索空间也呈现天文数字的增长的问题，本发明设计的神经网络架构自动生成方法，基于海量HuggingFace库中已完成优化和调整的预训练模型作为训练集，实现有监督的高效学习，从而更好的生成和优化适应特定任务的新的神经网络架构。并且本发明还将复杂的预训练模型计算图瘦身为较为简单的粗颗粒化的模型计算图，但所蕴含的信息并未发生变化，因此使得本发明在保证训练质量的前提下训练效率有了较大提升，本发明将粗颗粒化的模型计算图转化为字符序列，从而避免了由于图神经网络的节点间、节点和边间，边与边间的复杂关系导致的复杂的训练过程，从而降低了模型训练过程的复杂性，提升了模型架构自动设计的效率，提升了训练完成后得到的模型的预测准确性。

附图说明

图1为本发明具体实施例提供的基于模块化和序列化自动生成神经网络的方法的流程图；

图2为本发明具体实施例提供的ResNet18模型的粗颗粒化的模型计算图；

图3为本发明具体实施例提供的部分粗颗粒化的模型计算图；

图4为本发明具体实施例提供的训练和推理基于序列的GPT的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

本发明具体实施例利用HuggingFace等大规模开源模型库中的预训练模型，基于瘦身的预训练模型计算图的文本表示训练生成模型，通过生成模型对文本表示集潜在空间的探索自动地、高效地创建新的有效神经网络。

本发明具体实施例提供了一种基于模块化和序列化自动生成神经网络的方法，如图1所示，包括：

（1）获得基础模块计算子图和各预训练模型计算图：从预训练模型库的各个预训练模型中获得基础模块，该基础模块为能够定义组成模型的基本模块和常用模块，在一实施例中，该基础模块来自于PyTorch中所定义的梯度反传类。基础模块包括但不限于卷积层、池化层、层归一化、批量归一化、反卷积层、求和层、拼接层、激活层等。功能单元包括但不限于全连接层、循环层、缩放点击注意力层、多头注意力层、时间序列递归层等。通过torchviz工具获得基础模块对应的基础模块计算子图，通过PyTorch中的梯度回传流定义各预训练模型计算图。

在一实施例中，预训练模型库为HuggingFace库，HuggingFace库包含244683个预训练模型，该预训练模型为在特定数据集上训练或微调具有很强的代表性，一般包含当时在特定任务上的最优架构。

（2）基于基础模块计算子图与基础模块的映射关系和功能单元获得粗颗粒化的模型计算图：本发明具体实施例将基础模块计算子图转换为基础模块得到模块化的模型计算图从而减少了节点和连线，降低了后续训练的复杂程度，提高了运算效率。如图2所示，对ResNet18模型进行基础模块替换后再进行功能单元替换得到的粗颗粒化的模型计算图，包括的基础模块包括卷积模块（Convolution）、批量归一化（BatchNorm）、最大池化（MaxPool）和平均池化（AvgPool），功能单元包括线性整流函数（ReLU）、瓶颈层（bottleneck）和线性层（linear），构建的模块化的模型计算图包括多个基础模块序列，该基础模块序列的长度不高于设定的长度阈值，在各模块化的模型计算图中将达到出现频次阈值的基础模块序列作为功能单元，将功能单元替换对应的基础模块，以及将当前步的功能单元替换上一步的功能单元和基础模块的组合得到当前粗颗粒化的模型计算图，从而进一步的减少节点和连线，提高后续训练过程中的运算效率，如图3所示，为粗颗粒化的模型计算图中的一部分，其中虚线部分为功能单元：循环神经网络单元（RNNCell）的成分，包括上一步的功能单元：线性层（linear），和基础模块：添加反向（addbackward）和双曲正切反向传播（tanhbackward），在构建粗颗粒化的模型计算图的同时，将各功能单元和功能单元以外的基础单元的接口进行适配。

在一具体实施例中，本实施例提供的在各模块化的模型计算图中将部分基础模块组合成功能单元从而得到对应的粗颗粒化的模型计算图，包括：

步骤S1、在各模块化的模型计算图中用达到出现频次阈值的由部分基础模块组合的第一功能单元替换对应的部分基础模块得到第一粗颗粒化的模型计算图。

步骤S2、在第一粗颗粒化的模型计算图中用达到出现频次阈值的由部分基础模块和第一功能单元组合的第二功能单元替换对应的部分基础模块和第一功能单元得到第二粗颗粒化的模型计算图。

步骤S3、迭代步骤S2直至达到迭代次数阈值得到最终的粗颗粒化的模型计算图。通过上述迭代过程将模块化的模型计算图进一步的瘦身得到所需要的粗颗粒化的模型计算图，其中，各功能单元的组成成分的长度为提前设定的，以提高运算效率。

在一具体实施例中，基于基础模块计算子图将各预训练模型计算图分别转化为由于基础模块构建的模块化的模型计算图，包括：预训练模型计算图包括多个基础模块计算子图，基于基础模块计算子图与基础模块的对应关系将预训练模型计算图转化为对应的模块化的模型计算图。

在一具体实施例中，本实施例提供的在构建粗颗粒化的模型计算图的同时，各功能单元和功能单元以外的基础模块的接口进行适配，包括：将粗颗粒化的模型计算图中的功能单元和功能单元以外的基础模块分别插入适配器，通过适配器对当前功能单元或基础模块的输入接口进行拼接和分裂以匹配上一个功能单元或基础模块的输出接口的个数，并通过适配器的线性层对输入接口和输出接口的维度进行匹配。

（3）将粗颗粒化的模型计算图编码为字符序列：将粗颗粒化的模型计算图中的功能单元和功能单元以外的基础模块按照计算顺序进行编码得到字符序列，该编码过程类比SMILES格式，即类SMILES格式，但与SMILES格式不同的是不区分各个化学键，仅仅按照对各个节点的计算顺序进行节点字符编码。本发明具体实施例提供的SMILES（SimplifiedMolecular Input Line Entry System）格式，是一种使用文本字符串表示分子结构的方法，例如，ResNet18在模块化处理后，能够简单的标记为:

“[Conv][BN][ReLU][Pooling][bottleneck1][bottleneck2][bottleneck1][bottleneck2][bottleneck1][bottleneck2][bottleneck1][Pooling][Linear]”。本发明具体实施例将神经网络转化为忽略节点连接方式的类SMILES的序列格式，即视为字符序列，将多个字符序列通过序列模型进行训练。

（4）将获得的多个字符序列作为训练集，通过训练集训练序列生成模型得到序列生成网络：本实施例提供的生成模型在字符序列的数据集上进行训练。训练完成后得到的生成模型用于生成与原始神经网络在字符序列格式上结构相似的新神经网络。

由于生成的字符序列不一定对应有效的神经网络，因为并非所有的字符序列都代表有效的模型结构。因此，可能需要进行额外的验证和测试，以确保生成的字符序列对应有效的神经网络。

本实施例采用基于训练集对基于序列的GPT进行训练，按照顺序逐步生成每个训练样本的操作类型和数据流向，通过学习大量的模型序列结构规律来捕捉模型数据流的语法和语义特征，该模型数据流为训练样本的特征，由于训练样本通过梯度流表达模型结构，所以宏观来看为训练样本的模型数据流，从而能够生成具有合理模型操作规划的新模型字符序列，即序列生成网络，将序列生成网络输出的预测字符序列还原为预测模型计算图，基于预测模型计算图得到预测模型的结构。

在一具体实施例中，如图4所示，基于序列的GPT的参数设置，使用12个变压块结构作为解码器，每个变压块由一个掩码自注意力块和一个前馈网络块构成，采取指针网络作为最后的概率分布生成网络，以提高模型生成出现概率不高的模块的能力。

如图4的（a）所示，在训练阶段，输入字符序列，随机掩码百分之二十的字符，输入到嵌入层，嵌入层包含字符嵌入和位置嵌入，拼接字符嵌入和位置嵌入作为变压器的输入，通过12个变压块和最后的指针网络层，得到预测的字符分布，即预测字符序列，损失函数表达为交叉熵损失函数，最小化掩码掉的字符预测分布和真实字符的交叉熵。为了更好的进行GPT模型的训练，词表中额外增加了起止符“[bos]”和“[eos]”以及填充符“[pad]”、未知符“[unk]”、掩码符“[mask]”。

在一具体实施例中，在训练过程中，通过使用遗传算法或强化学习等技术基于给定的任务对基于出现频次筛选的功能单元能进行优化，从而形成由新的基础模块配置的优化功能单元，配置新的基础模块过程中，基础模块或功能单元的类别不发生改变以保证维度和接口的匹配。在训练过程中，通过使用梯度下降或贝叶斯优化等技术，为给定基础模块或功能单元找到最佳参数值。

本发明具体实施例提供的功能单元和基础模块的类别。

如图4的（b）所示，在推理阶段，我们输入起始符“[bos]”递归的生成下一个字符，直到生成终止符或达到规定的最大序列长度得到输出字符序列，即预测模型的类SMILES字符序列。

在一具体实施例中，图生成网络是一类用于生成图结构的模型，能够生成具有特定特征和属性的图形数据，如社交网络图、分子图、推荐系统中的用户-项目图等。图生成网络可以采用图神经网络结合一些生成模型例如生成对抗模型和变分自编码器模型，用于模块化神经网络的生成。图生成网络的目标是学习从随机噪声或隐变量到图结构的映射关系。因此，图生成网络捕捉模型计算图数据的拓扑结构关系，生成符合计算图数据集潜在特征的新计算图，新计算图通过可视化等处理提供新模型的见解。

本发明具体实施例提供的模型评估采用重构模型并在基准数据集上测试的方式，最后获得直观的准确率结果。计算图的模块通过合理的数据流形状对齐还原为完整的模型，增加适配形状的由全连接层构成的适配器，一方面有利于连接模型的操作节点，另一方面减小模型受规定语法限制构建的影响。在计算机视觉任务的模型数据集上，采用简单的MNISIT数据集作为基准数据集，在自然语言处理数据集上采用情感分类数据集作为基准数据集。

Claims

1.一种基于模块化和序列化自动生成神经网络的方法，其特征在于，包括：

2.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，在各模块化的模型计算图中将部分基础模块组合成对应的功能单元从而得到粗颗粒化的模型计算图，包括：

3.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，基于基础模块计算子图将各预训练模型计算图分别转化为由于基础模块构建的模块化的模型计算图，包括：预训练模型计算图包括多个基础模块计算子图，基于基础模块计算子图与基础模块的对应关系将预训练模型计算图转化为对应的模块化的模型计算图。

4.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，在构建粗颗粒化的模型计算图时，将各功能单元间的接口，功能单元与功能单元以外的基础模块间的接口，以及功能单元以外的基础模块间的接口进行维度适配。

5.根据权利要求4所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，将各功能单元间的接口，功能单元与功能单元以外的基础模块间的接口，以及功能单元以外的基础模块间的接口进行维度适配，包括：

6.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，所述功能单元包括全连接层、循环层、缩放点击注意力层、多头注意力层或时间递归层。

7.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，所述基础模块包括卷积层、池化层、层归一化、批量归一化、反卷积层、求和层、拼接层或激活层。

8.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，对各粗颗粒化的模型计算图进行编码得到对应的字符序列，包括：将粗颗粒化的模型计算图中的功能单元和功能单元以外的基础模块按照计算顺序进行编码得到字符序列。

9.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，通过训练集训练序列生成模型得到序列生成网络，所述序列生成模型为基于序列的GPT模型，所述基于序列的GPT模型的序列编码器为transformer模型。

10.根据权利要求1所述的基于模块化和序列化自动生成神经网络的方法，其特征在于，将预测字符序列转化为预测模型计算图，包括：