CN114444012A - 一种基于神经网络架构搜索的偏微分方程数值求解方法 - Google Patents
一种基于神经网络架构搜索的偏微分方程数值求解方法 Download PDFInfo
- Publication number
- CN114444012A CN114444012A CN202111642962.3A CN202111642962A CN114444012A CN 114444012 A CN114444012 A CN 114444012A CN 202111642962 A CN202111642962 A CN 202111642962A CN 114444012 A CN114444012 A CN 114444012A
- Authority
- CN
- China
- Prior art keywords
- neural network
- partial differential
- network architecture
- search
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
- G06F17/13—Differential equations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于神经网络架构搜索的偏微分方程数值求解方法,涉及人工智能和数值算法领域,包括如下步骤:步骤1,设置偏微分方程和计算域,将方程信息输入至神经网络;步骤2,设置搜索空间,在搜索空间中搜索求解该偏微分方程的最优神经网络架构;步骤3,重新训练搜索得到的网络模型,获得方程求解结果;同时,本发明在使用时,通过利用神经网络架构搜索算法实现用于偏微分方程求解的神经网络架构的自动构建,降低了偏微分方程神经网络求解方法对先验知识的依赖,同时提高了求解精度,进一步降低了偏微分方程求解的难度和复杂度。
Description
技术领域
本发明涉及人工智能和数值算法领域,具体的是一种基于神经网络架构搜 索的偏微分方程数值求解方法。
背景技术
偏微分方程是数学建模的常用工具之一,自然科学和应用科学中的许多实 际问题都能以偏微分方程的形式建立数学模型。求解偏微分方程通常使用数值 计算的方法,经典的偏微分方程数值计算方法包括有限差分法、有限元法等。 在这些方法中,方程未知数的个数、网格的节点数以及计算的开销,都将随着 偏微分方程的维数呈指数级增长,导致维数灾难。同时,传统数值计算方法仍 存在网格剖分以及方程高阶离散的问题,对复杂方程的求解较为困难。
近年来随着人工智能技术的发展,涌现出一些基于深度神经网络的偏微分 方程求解方法,此类方法无需对网格进行剖分,也无需对方程进行高阶离散, 求解过程更加便捷。但神经网络如何设计尚未有统一的指导,十分依赖设计者 的先验知识。在处理不同的方程时,往往也需要以不断试错的方式寻找适合的 神经网络架构。因此,亟需一种能够根据方程自适应设计神经网络架构的新方 法。
发明内容
为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于神经 网络架构搜索的偏微分方程数值求解方法,本发明该方法实现了基于神经网络 架构搜索的偏微分方程数值求解,降低了偏微分方程神经网络求解方法对先验 知识的依赖,同时提高了求解精度。
本发明的目的可以通过以下技术方案实现:
一种基于神经网络架构搜索的偏微分方程数值求解方法,包括以下步骤:
S1、设置偏微分方程和计算域,将方程信息输入至神经网络;
S2、设置搜索空间,在搜索空间中搜索求解该偏微分方程的最优神经网络 架构;
S3、重新训练搜索得到的网络模型,获得方程求解结果。
进一步地,所述步骤S1中设置偏微分方程的方法,具体为:
基于下式所示的一般二维偏微分方程:
式中,u(x,y)为待求二维函数,x、y分别为横纵坐标,F(·)表示线性或非线性组合的运算,f(x,y)为关于x、y的已知函数,Ω为计算域,为计算域边界。式(2) 为边界条件,H(·)表示线性或非线性组合的运算,h(x,y)为关于x、y的已知函数。 记式(1)和式(2)中等号左边部分分别为:
依据上述PDE,设计神经网络的损失函数如下式所示:
式中,n、m分别为在计算域内、在边界上的采样点数,λ1、λ2为平衡计算 域和边界采样点的权重,第一项对应PDE,第二项对应边界条件,为神经网络 输出的解。网络的训练目标是得到Loss的最小值,随着迭代的进行,Loss逐渐 收敛,当收敛完成时,认为网络的输出满足了PDE和边界条件,从而实现方程 的求解。
进一步地,所述步骤S2包括:
S201、设置搜索空间,包括待搜索的神经网络层数和可选用的连接操作等;
S202、对连接操作进行松弛化,得到混合操作,使搜索空间连续;
S203、训练网络搜索模型,进行神经网络架构搜索。
进一步地,所述步骤S201中待搜索的神经网络层数,为可搜索的最大神经 网络层数,搜索方法将在训练过程中自适应地选择是否跳过某一层。
进一步地,所述步骤S201中可选用的连接操作,以卷积神经网络为例,具 体为:
卷积核大小为1×1的卷积运算,卷积核大小为3×3的卷积运算,卷积核大 小为5×5的卷积运算,恒等变换,以及卷积核大小分别为3×3、5×5的空洞卷积 运算。其中,卷积运算的步长均为1。可选的连接操作不限于上述运算。
进一步地,除恒等变换外,所有运算后添加的非线性激活函数采用如下式 所示的表达式:
factivation(x)=xtanh(ln(1+ex)) (6)
该函数在定义域内处处连续且可导,适合应用于偏微分方程的神经网络求 解。
进一步地,所述步骤S202中对连接操作进行松弛化,得到混合操作,使搜 索空间连续,具体为:
设O为可选择的连接操作构成的集合,o(x)表示该集合中的任一元素,为对 于输入x的某种运算,按下式对连接操作进行松弛化:
式中,为经过松弛化后,第i层与第j层之间的连接操作;αo (i,j)为第 i层与第j层之间连接操作o(x)的权重。经过松弛化,得到了第i层与第j层之间 的混合操作,该混合操作既包含了每个可选的连接操作,也包含了每个连接操 作对混合操作的贡献度信息。权重α作为可训练参数参与模型训练。
进一步地,所述步骤S203中训练网络搜索模型,具体为:
经过步骤S202的松弛化,搜索空间由离散的空间松弛为一个连续的空间。 网络模型的训练有两类参数参与:一是连接操作的权重α,二是网络自身的权重 w。因此网络模型的训练为双层优化的过程,优化目标为:
式中,Ltrain和Lval分别为网络模型在训练集和在验证集上的损失函数值,使 用训练集数据优化网络自身的权重w至收敛,再固定w,用验证集数据优化连 接操作的权重α。在实际计算中,使用训练集数据优化一步后的权重w近似收敛 值w*,w和α作交替更新,以减小计算量。
进一步地,所述步骤S3中搜索得到的网络模型包括两个可选模型,具体为:
在计算资源充足的情况下,使用经过式(7)松弛化的混合操作组成最终的神 经网络架构,即保留所有可能的连接操作及其权重,以混合操作代替一般神经 网络中的某一固定运算操作;
在计算资源有限的情况下,以贡献度对连接操作进行排序,每层网络仅保 留贡献度最高的一个连接操作,形成单向无环的网络架构。贡献度C按下式计 算:
进一步地,所述步骤S3中重新训练网络,具体为:
仅保留神经网络架构,使用和搜索过程中相同的随机种子,对神经网络权 重w进行随机初始化,并在训练集上以式(5)作为损失函数,重新训练网络权重 w直至损失函数收敛。
本发明的有益效果:
本发明通过利用神经网络架构搜索算法实现用于偏微分方程求解的神经网 络架构的自动构建,降低了偏微分方程神经网络求解方法对先验知识的依赖, 同时提高了求解精度,进一步降低了偏微分方程求解的难度和复杂度。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明的整体流程图;
图2是本发明步骤S2的流程图;
图3是本发明的具体实施效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“开孔”、“上”、“下”、“厚 度”、“顶”、“中”、“长度”、“内”、“四周”等指示方位或位置关系, 仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必 须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限 制。
如图1所示,一种基于神经网络架构搜索的偏微分方程数值求解方法,包 括以下步骤:
S1、设置偏微分方程和计算域,将方程信息输入至神经网络;
S2、设置搜索空间,在搜索空间中搜索求解该偏微分方程的最优神经网络 架构;
S3、重新训练搜索得到的网络模型,获得方程求解结果。
在本实例中,以一个二维泊松方程为例,步骤S1具体为:
S101、根据方程设计网络损失函数。泊松方程如下式所示:
该方程存在解析解,解为:
依据上述泊松方程,设计神经网络的损失函数如下式所示:
式中,n、m分别为在计算域内、在边界上的采样点数,在本实例中,n和m分 别取500和100;λ1、λ2为平衡计算域和边界采样点的权重,在本实例中,λ1和 λ2均取值为1。式(4)中第一项对应泊松方程,第二项对应边界条件,为神经网 络输出的解。网络的训练目标是得到Loss的最小值,随着迭代的进行,Loss逐 渐收敛,当收敛完成时,认为网络的输出满足了泊松方程和边界条件,从而实 现方程的求解。
S102、设置计算域,并在计算域内和边界上分别采样坐标点。计算域的设 置通过基本图形的交、并集操作实现,基本图形包括:矩形、圆形、三角形以 及其他多边形。在本实例中,以正方形计算域为例,设置正方形左下角顶点为 (0,0),右上角顶点为(1,1),在计算域内作随机采样,在边界上作均匀采样,采样 点数如步骤S101中所述。
在本实例中,如图2所示,所述步骤S2具体包括:
S201、设置待搜索的神经网络层数,并确定可选用的连接操作。
其中待搜索的神经网络层数,为可搜索的最大神经网络层数,搜索方法将 在训练过程中自适应地选择是否跳过某一层。在本实例中神经网络一共有9层, 待搜索的网络层数为7层,其中无需搜索的两层为:第一层卷积层,用于深化 特征通道至输入的32倍;最后一层全连接层,作为网络的输出层。
可选用的连接操作,以卷积神经网络为例,具体为:
卷积核大小为1×1的卷积运算,卷积核大小为3×3的卷积运算,卷积核大 小为5×5的卷积运算,恒等变换,以及卷积核大小分别为3×3、5×5的空洞卷积 运算。其中,卷积运算的步长均为1。各种卷积运算都设置了zero-padding参数, 以保证在相同输入的情况下,不同卷积运算的输出形状相同,对1×1、3×3、5×5 三种大小卷积核的卷积运算,zero-padding参数分别设置为:0、1、2。
对于上述可选的连接操作,除恒等变换外,所有运算后添加的非线性激活 函数采用如下式所示的表达式:
factivation(x)=xtanh(ln(1+ex)) (5)
该函数在定义域内处处连续且可导,适合应用于偏微分方程的神经网络求 解。
S202、对连接操作进行松弛化,得到混合操作,使搜索空间连续。步骤S201 中选用的连接操作是离散的,即如果给操作进行从0至n的编号,那么任意两 个节点之间的连接一定是0至n之间的某一个整数,这样的搜索空间不连续, 无法使用基于梯度的优化方法,限制了算法的速度和效率。
设O为可选择的连接操作构成的集合,o(x)表示该集合中的任一元素,为对 于输入x的某种运算,按下式对连接操作进行松弛化:
式中,为经过松弛化后,第i层与第j层之间的连接操作;αo (i,j)为第 i层与第j层之间连接操作o(x)的权重。经过松弛化,得到了第i层与第j层之间 的混合操作,该混合操作既包含了每个可选的连接操作,也包含了每个连接操 作对混合操作的贡献度信息。权重α作为可训练参数参与模型训练,网络初始化 时,将所有α值设为0.5。
S203、训练网络搜索模型,进行架构搜索。
经过步骤S202的松弛化,搜索空间由离散的空间松弛为一个连续的空间, 网络模型的训练有两类参数参与:一是连接操作的权重α,二是网络自身的权重 w。于是网络模型训练的过程为双层优化的过程,优化目标为:
式中,Ltrain和Lval分别为网络模型在训练集和在验证集上的损失函数值。
即:使用训练集数据优化网络自身的权重w至收敛,再固定w,用验证集 数据优化连接操作的权重α。在实际计算中,使用训练集数据优化一步后的权重 w近似收敛值w*,w和α作交替更新,以减小计算量。
在本实例中,网络自身的权重w采用随机初始化,随机种子取2021,训练 集和验证集数据均按步骤S102所述的方法采样得到。该过程为双层优化,学习 率值设定较大,在本实例中设为0.025,并按余弦规律随迭代次数的增加而衰减, 最小为0.001,共训练10,000次。
在本实例中,如图3所示,步骤S3具体为:
S301、确定搜索得到的最优网络架构。
在不要求计算量的情况下,使用经过式(6)松弛化的混合操作组成最终的神 经网络架构,即保留所有可能的连接操作及其权重,以混合操作代替一般神经 网络中的某一固定运算操作;
在要求计算量的情况下,以贡献度对连接操作进行排序,每层网络仅保留 贡献度最高的一个连接操作,形成单向无环的网络架构。贡献度C按下式计算:
在本实例中,选择第二种方法,每层网络仅保留一个连接操作。
S302、重新训练搜索得到的网络模型。
仅保留神经网络架构,使用和搜索过程中相同的随机种子,对神经网络权 重w进行随机初始化,并在训练集上,以式(4)作为损失函数,重新训练网络权 重w直至损失函数收敛。
在本实例中,随机种子设为2021,训练集数据按步骤S102所述的方法采样 得到,学习率设为10-4,共训练100,000次。
训练完成后,在计算域上(包含边界)均匀采样1,000,000个点,作为测试 集,得到测试集上的计算结果。计算求解结果和解析解之间的L2误差,并与基 于先验知识人工设计的神经网络在相同条件下比较,结果如表1所示:
表1 L2误差对比
其中,L2误差计算方法为:
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例” 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含 于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表 述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或 者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明 还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (10)
1.一种基于神经网络架构搜索的偏微分方程数值求解方法,其特征在于,包括以下步骤:
S1、设置偏微分方程和计算域,将方程信息输入至神经网络;
S2、设置搜索空间,在搜索空间中搜索求解该偏微分方程的最优神经网络架构;
S3、重新训练搜索得到的网络模型,获得方程求解结果。
2.根据权利要求1所述的一种基于神经网络架构搜索的偏微分方程数值求解方法,其特征在于,所述步骤S1中设置偏微分方程的方法,具体为:
基于下式所示的一般二维偏微分方程:
式中,u(x,y)为待求二维函数,x、y分别为横纵坐标,F(·)表示线性或非线性组合的运算,f(x,y)为关于x、y的已知函数,Ω为计算域,为计算域边界。式(2)为边界条件,H(·)表示线性或非线性组合的运算,h(x,y)为关于x、y的已知函数。记式(1)和式(2)中等号左边部分分别为:
依据上述PDE,设计神经网络的损失函数如下式所示:
3.根据权利要求1所述的一种基于神经网络架构搜索的偏微分方程数值求解方法,其特征在于,所述步骤S2包括:
S201、设置搜索空间,包括待搜索的神经网络层数和可选用的连接操作等;
S202、对连接操作进行松弛化,得到混合操作,使搜索空间连续;
S203、训练网络搜索模型,进行神经网络架构搜索。
4.根据权利要求3所述的一种基于神经网络架构搜索的偏微分方程数值求解方法,其特征在于,所述步骤S201中待搜索的神经网络层数,为可搜索的最大神经网络层数,搜索方法将在训练过程中自适应地选择是否跳过某一层。
5.根据权利要求3所述的一种基于神经网络架构搜索的偏微分方程数值求解方法,其特征在于,所述步骤S201中可选用的连接操作,以卷积神经网络为例,具体为:
卷积核大小为1×1的卷积运算,卷积核大小为3×3的卷积运算,卷积核大小为5×5的卷积运算,恒等变换,以及卷积核大小分别为3×3、5×5的空洞卷积运算。其中,卷积运算的步长均为1。可选的连接操作不限于上述运算。
6.根据权利要求5所述的一种基于神经网络架构搜索的偏微分方程数值求解方法,其特征在于,除恒等变换外,所有运算后添加的非线性激活函数采用如下式所示的表达式:
factivation(x)=x tanh(ln(1+ex)) (6)
该函数在定义域内处处连续且可导,适合应用于偏微分方程的神经网络求解。
10.根据权利要求2所述的一种基于神经网络架构搜索的偏微分方程数值求解方法,其特征在于,所述步骤S3中重新训练网络,具体为:
仅保留神经网络架构,使用和搜索过程中相同的随机种子,对神经网络权重w进行随机初始化,并在训练集上以式(5)作为损失函数,重新训练网络权重w直至损失函数收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111642962.3A CN114444012A (zh) | 2021-12-29 | 2021-12-29 | 一种基于神经网络架构搜索的偏微分方程数值求解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111642962.3A CN114444012A (zh) | 2021-12-29 | 2021-12-29 | 一种基于神经网络架构搜索的偏微分方程数值求解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114444012A true CN114444012A (zh) | 2022-05-06 |
Family
ID=81365351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111642962.3A Pending CN114444012A (zh) | 2021-12-29 | 2021-12-29 | 一种基于神经网络架构搜索的偏微分方程数值求解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444012A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115422497A (zh) * | 2022-08-16 | 2022-12-02 | 哈尔滨工业大学 | 基于卷积微分算子与符号网络的常微分方程识别方法 |
-
2021
- 2021-12-29 CN CN202111642962.3A patent/CN114444012A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115422497A (zh) * | 2022-08-16 | 2022-12-02 | 哈尔滨工业大学 | 基于卷积微分算子与符号网络的常微分方程识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7191161B1 (en) | Method for constructing composite response surfaces by combining neural networks with polynominal interpolation or estimation techniques | |
CN108647370B (zh) | 基于双环迭代的无人直升机气动外形优化设计方法 | |
CN111783209B (zh) | 一种学习函数与kriging模型结合的自适应结构可靠性分析方法 | |
WO2013134705A1 (en) | Boundaries in fluid dynamic systems | |
CN112884236B (zh) | 一种基于vdm分解与lstm改进的短期负荷预测方法及系统 | |
CN115437795B (zh) | 一种异构gpu集群负载感知的显存重计算优化方法及系统 | |
CN111191785A (zh) | 一种基于拓展搜索空间的结构搜索方法 | |
CN114444012A (zh) | 一种基于神经网络架构搜索的偏微分方程数值求解方法 | |
CN113609763B (zh) | 基于不确定性的卫星组件布局温度场预测方法 | |
CN101241520A (zh) | 有限元建模中基于特征抑制的模型态生成方法 | |
Croicu et al. | Robust airfoil optimization using maximum expected value and expected maximum value approaches | |
CN112800690B (zh) | 一种基于群智能优化算法下的水下折展机构参数优化方法 | |
CN117910334A (zh) | 一种基于vmd-gwo-hkelm的企业电力能耗预测方法 | |
CN113688424A (zh) | 基于权重社会网络的个性化差分隐私保护方法 | |
CN112232565A (zh) | 基于两阶段的时间序列预测方法、预测系统、终端及介质 | |
CN114329320A (zh) | 一种基于启发式训练数据采样的偏微分方程数值求解方法 | |
Anand et al. | Generalizable deep learning module for rotorcraft inverse design applications | |
Borup et al. | Comparison of four non-derivative optimization methods on two problems containing heuristic and analytic knowledge | |
Wang et al. | Less Emphasis on Difficult Layer Regions: Curriculum Learning for Singularly Perturbed Convection-Diffusion-Reaction Problems | |
CN115146408A (zh) | 一种基于三叉元结构的机床结构件正向设计方法 | |
Xiong et al. | A new adaptive multi-fidelity metamodel method using meta-learning and Bayesian deep learning | |
CN113869350A (zh) | 基于空间特征差异的海流预测方法以及系统 | |
Papados | Solving hydrodynamic shock-tube problems using weighted physics-informed neural networks with domain extension | |
Lee et al. | Choice of Interior Penalty Coefficient for Interior Penalty Discontinuous Galerkin Method for Biot's System by Employing Machine Learning | |
Barrett et al. | Airfoil design and optimization using multi-fidelity analysis and embedded inverse design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |