CN114444012A

CN114444012A - 一种基于神经网络架构搜索的偏微分方程数值求解方法

Info

Publication number: CN114444012A
Application number: CN202111642962.3A
Authority: CN
Inventors: 仲林林; 王逸凡; 吴冰钰
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-06

Abstract

本发明公开一种基于神经网络架构搜索的偏微分方程数值求解方法，涉及人工智能和数值算法领域，包括如下步骤：步骤1，设置偏微分方程和计算域，将方程信息输入至神经网络；步骤2，设置搜索空间，在搜索空间中搜索求解该偏微分方程的最优神经网络架构；步骤3，重新训练搜索得到的网络模型，获得方程求解结果；同时，本发明在使用时，通过利用神经网络架构搜索算法实现用于偏微分方程求解的神经网络架构的自动构建，降低了偏微分方程神经网络求解方法对先验知识的依赖，同时提高了求解精度，进一步降低了偏微分方程求解的难度和复杂度。

Description

一种基于神经网络架构搜索的偏微分方程数值求解方法

技术领域

本发明涉及人工智能和数值算法领域，具体的是一种基于神经网络架构搜索的偏微分方程数值求解方法。

背景技术

偏微分方程是数学建模的常用工具之一，自然科学和应用科学中的许多实际问题都能以偏微分方程的形式建立数学模型。求解偏微分方程通常使用数值计算的方法，经典的偏微分方程数值计算方法包括有限差分法、有限元法等。在这些方法中，方程未知数的个数、网格的节点数以及计算的开销，都将随着偏微分方程的维数呈指数级增长，导致维数灾难。同时，传统数值计算方法仍存在网格剖分以及方程高阶离散的问题，对复杂方程的求解较为困难。

近年来随着人工智能技术的发展，涌现出一些基于深度神经网络的偏微分方程求解方法，此类方法无需对网格进行剖分，也无需对方程进行高阶离散，求解过程更加便捷。但神经网络如何设计尚未有统一的指导，十分依赖设计者的先验知识。在处理不同的方程时，往往也需要以不断试错的方式寻找适合的神经网络架构。因此，亟需一种能够根据方程自适应设计神经网络架构的新方法。

发明内容

为解决上述背景技术中提到的不足，本发明的目的在于提供一种基于神经网络架构搜索的偏微分方程数值求解方法，本发明该方法实现了基于神经网络架构搜索的偏微分方程数值求解，降低了偏微分方程神经网络求解方法对先验知识的依赖，同时提高了求解精度。

本发明的目的可以通过以下技术方案实现：

一种基于神经网络架构搜索的偏微分方程数值求解方法，包括以下步骤：

S1、设置偏微分方程和计算域，将方程信息输入至神经网络；

S2、设置搜索空间，在搜索空间中搜索求解该偏微分方程的最优神经网络架构；

S3、重新训练搜索得到的网络模型，获得方程求解结果。

进一步地，所述步骤S1中设置偏微分方程的方法，具体为：

基于下式所示的一般二维偏微分方程：

式中，u(x,y)为待求二维函数，x、y分别为横纵坐标，F(·)表示线性或非线性组合的运算，f(x,y)为关于x、y的已知函数，Ω为计算域，

为计算域边界。式(2) 为边界条件，H(·)表示线性或非线性组合的运算，h(x,y)为关于x、y的已知函数。记式(1)和式(2)中等号左边部分分别为：

依据上述PDE，设计神经网络的损失函数如下式所示：

式中，n、m分别为在计算域内、在边界上的采样点数，λ₁、λ₂为平衡计算域和边界采样点的权重，第一项对应PDE，第二项对应边界条件，

为神经网络输出的解。网络的训练目标是得到Loss的最小值，随着迭代的进行，Loss逐渐收敛，当收敛完成时，认为网络的输出满足了PDE和边界条件，从而实现方程的求解。

进一步地，所述步骤S2包括：

S201、设置搜索空间，包括待搜索的神经网络层数和可选用的连接操作等；

S202、对连接操作进行松弛化，得到混合操作，使搜索空间连续；

S203、训练网络搜索模型，进行神经网络架构搜索。

进一步地，所述步骤S201中待搜索的神经网络层数，为可搜索的最大神经网络层数，搜索方法将在训练过程中自适应地选择是否跳过某一层。

进一步地，所述步骤S201中可选用的连接操作，以卷积神经网络为例，具体为：

卷积核大小为1×1的卷积运算，卷积核大小为3×3的卷积运算，卷积核大小为5×5的卷积运算，恒等变换，以及卷积核大小分别为3×3、5×5的空洞卷积运算。其中，卷积运算的步长均为1。可选的连接操作不限于上述运算。

进一步地，除恒等变换外，所有运算后添加的非线性激活函数采用如下式所示的表达式：

f_activation(x)＝xtanh(ln(1+e^x)) (6)

该函数在定义域内处处连续且可导，适合应用于偏微分方程的神经网络求解。

进一步地，所述步骤S202中对连接操作进行松弛化，得到混合操作，使搜索空间连续，具体为：

设O为可选择的连接操作构成的集合，o(x)表示该集合中的任一元素，为对于输入x的某种运算，按下式对连接操作进行松弛化：

式中，

为经过松弛化后，第i层与第j层之间的连接操作；α_o ^(i,j)为第 i层与第j层之间连接操作o(x)的权重。经过松弛化，得到了第i层与第j层之间的混合操作，该混合操作既包含了每个可选的连接操作，也包含了每个连接操作对混合操作的贡献度信息。权重α作为可训练参数参与模型训练。

进一步地，所述步骤S203中训练网络搜索模型，具体为：

经过步骤S202的松弛化，搜索空间由离散的空间松弛为一个连续的空间。网络模型的训练有两类参数参与：一是连接操作的权重α，二是网络自身的权重 w。因此网络模型的训练为双层优化的过程，优化目标为：

式中，L_train和L_val分别为网络模型在训练集和在验证集上的损失函数值，使用训练集数据优化网络自身的权重w至收敛，再固定w，用验证集数据优化连接操作的权重α。在实际计算中，使用训练集数据优化一步后的权重w近似收敛值w^*，w和α作交替更新，以减小计算量。

进一步地，所述步骤S3中搜索得到的网络模型包括两个可选模型，具体为：

在计算资源充足的情况下，使用经过式(7)松弛化的混合操作组成最终的神经网络架构，即保留所有可能的连接操作及其权重，以混合操作代替一般神经网络中的某一固定运算操作；

在计算资源有限的情况下，以贡献度对连接操作进行排序，每层网络仅保留贡献度最高的一个连接操作，形成单向无环的网络架构。贡献度C按下式计算：

进一步地，所述步骤S3中重新训练网络，具体为：

仅保留神经网络架构，使用和搜索过程中相同的随机种子，对神经网络权重w进行随机初始化，并在训练集上以式(5)作为损失函数，重新训练网络权重 w直至损失函数收敛。

本发明的有益效果：

本发明通过利用神经网络架构搜索算法实现用于偏微分方程求解的神经网络架构的自动构建，降低了偏微分方程神经网络求解方法对先验知识的依赖，同时提高了求解精度，进一步降低了偏微分方程求解的难度和复杂度。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的整体流程图；

图2是本发明步骤S2的流程图；

图3是本发明的具体实施效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“开孔”、“上”、“下”、“厚度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的组件或元件必须具有特定的方位，以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，一种基于神经网络架构搜索的偏微分方程数值求解方法，包括以下步骤：

S3、重新训练搜索得到的网络模型，获得方程求解结果。

在本实例中，以一个二维泊松方程为例，步骤S1具体为：

S101、根据方程设计网络损失函数。泊松方程如下式所示：

式中，

为待求项，x、y分别为横纵坐标，Ω为计算域，

为计算域边界，式(2)表示方程满足狄利克雷(Dirichlet)边界条件。

该方程存在解析解，解为：

依据上述泊松方程，设计神经网络的损失函数如下式所示：

式中，n、m分别为在计算域内、在边界上的采样点数，在本实例中，n和m分别取500和100；λ₁、λ₂为平衡计算域和边界采样点的权重，在本实例中，λ₁和 λ₂均取值为1。式(4)中第一项对应泊松方程，第二项对应边界条件，

为神经网络输出的解。网络的训练目标是得到Loss的最小值，随着迭代的进行，Loss逐渐收敛，当收敛完成时，认为网络的输出满足了泊松方程和边界条件，从而实现方程的求解。

S102、设置计算域，并在计算域内和边界上分别采样坐标点。计算域的设置通过基本图形的交、并集操作实现，基本图形包括：矩形、圆形、三角形以及其他多边形。在本实例中，以正方形计算域为例，设置正方形左下角顶点为 (0,0)，右上角顶点为(1,1)，在计算域内作随机采样，在边界上作均匀采样，采样点数如步骤S101中所述。

在本实例中，如图2所示，所述步骤S2具体包括：

S201、设置待搜索的神经网络层数，并确定可选用的连接操作。

其中待搜索的神经网络层数，为可搜索的最大神经网络层数，搜索方法将在训练过程中自适应地选择是否跳过某一层。在本实例中神经网络一共有9层，待搜索的网络层数为7层，其中无需搜索的两层为：第一层卷积层，用于深化特征通道至输入的32倍；最后一层全连接层，作为网络的输出层。

可选用的连接操作，以卷积神经网络为例，具体为：

卷积核大小为1×1的卷积运算，卷积核大小为3×3的卷积运算，卷积核大小为5×5的卷积运算，恒等变换，以及卷积核大小分别为3×3、5×5的空洞卷积运算。其中，卷积运算的步长均为1。各种卷积运算都设置了zero-padding参数，以保证在相同输入的情况下，不同卷积运算的输出形状相同，对1×1、3×3、5×5 三种大小卷积核的卷积运算，zero-padding参数分别设置为：0、1、2。

对于上述可选的连接操作，除恒等变换外，所有运算后添加的非线性激活函数采用如下式所示的表达式：

f_activation(x)＝xtanh(ln(1+e^x)) (5)

S202、对连接操作进行松弛化，得到混合操作，使搜索空间连续。步骤S201 中选用的连接操作是离散的，即如果给操作进行从0至n的编号，那么任意两个节点之间的连接一定是0至n之间的某一个整数，这样的搜索空间不连续，无法使用基于梯度的优化方法，限制了算法的速度和效率。

式中，

为经过松弛化后，第i层与第j层之间的连接操作；α_o ^(i,j)为第 i层与第j层之间连接操作o(x)的权重。经过松弛化，得到了第i层与第j层之间的混合操作，该混合操作既包含了每个可选的连接操作，也包含了每个连接操作对混合操作的贡献度信息。权重α作为可训练参数参与模型训练，网络初始化时，将所有α值设为0.5。

S203、训练网络搜索模型，进行架构搜索。

经过步骤S202的松弛化，搜索空间由离散的空间松弛为一个连续的空间，网络模型的训练有两类参数参与：一是连接操作的权重α，二是网络自身的权重 w。于是网络模型训练的过程为双层优化的过程，优化目标为：

式中，L_train和L_val分别为网络模型在训练集和在验证集上的损失函数值。

即：使用训练集数据优化网络自身的权重w至收敛，再固定w，用验证集数据优化连接操作的权重α。在实际计算中，使用训练集数据优化一步后的权重 w近似收敛值w*，w和α作交替更新，以减小计算量。

在本实例中，网络自身的权重w采用随机初始化，随机种子取2021，训练集和验证集数据均按步骤S102所述的方法采样得到。该过程为双层优化，学习率值设定较大，在本实例中设为0.025，并按余弦规律随迭代次数的增加而衰减，最小为0.001，共训练10,000次。

在本实例中，如图3所示，步骤S3具体为：

S301、确定搜索得到的最优网络架构。

在不要求计算量的情况下，使用经过式(6)松弛化的混合操作组成最终的神经网络架构，即保留所有可能的连接操作及其权重，以混合操作代替一般神经网络中的某一固定运算操作；

在要求计算量的情况下，以贡献度对连接操作进行排序，每层网络仅保留贡献度最高的一个连接操作，形成单向无环的网络架构。贡献度C按下式计算：

在本实例中，选择第二种方法，每层网络仅保留一个连接操作。

S302、重新训练搜索得到的网络模型。

仅保留神经网络架构，使用和搜索过程中相同的随机种子，对神经网络权重w进行随机初始化，并在训练集上，以式(4)作为损失函数，重新训练网络权重w直至损失函数收敛。

在本实例中，随机种子设为2021，训练集数据按步骤S102所述的方法采样得到，学习率设为10^-4，共训练100,000次。

训练完成后，在计算域上(包含边界)均匀采样1,000,000个点，作为测试集，得到测试集上的计算结果。计算求解结果和解析解之间的L2误差，并与基于先验知识人工设计的神经网络在相同条件下比较，结果如表1所示：

表1 L2误差对比

其中，L2误差计算方法为：

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例” 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。