CN109411028A

CN109411028A - 基于分子自由度深度学习计算水分子能量的方法

Info

Publication number: CN109411028A
Application number: CN201811133722.9A
Authority: CN
Inventors: 崔洪光; 周立川; 商祎行; 周毅
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-03-01

Abstract

本发明公开了一种基于分子自由度深度学习计算水分子能量的方法，属于分子能量计算技术领域，包括步骤S1：构建水分子数据库；S2：随机选取m个构型和对应能量作为训练组，其余1000‑m个构型和对应能量作为测试组；S3：将训练组水分子空间坐标转化，并作为计算的起始；S4：提取训练组能量数据作为训练组输出能量矩阵，并与列构型参数输入矩阵一一对应S5：构建测试组构型参数输入矩阵和测试组输出能量矩阵；S6：经过双神经层计算得到能量矩阵E^calc：本发明减小了训练组和测试组的比值对于训练结果准确性的影响。

Description

基于分子自由度深度学习计算水分子能量的方法

技术领域

本发明涉及分子能量计算技术领域，具体涉及一种基于分子自由度深度学习计算水分子能量的方法。

背景技术

当代人工智能的机器学习，在分子结构优化、最低能量计算领域中，显著特点是随着初始矩阵自由度的增大，即分子结构越复杂自由度越大，必须增大训练组与测试组的比值，才能得到准确的结果。受这一特点的制约，该方法在复杂分子体系或多分子体系应用中，很难得到满意结果。

发明内容

为解决现有技术中存在的缺陷，本发明提供一种通过深度学习计算水分子能量的方法，减小了训练组和测试组的比值对于训练结果准确性的影响。

本发明为解决其技术问题所采用的技术方案是：一种基于分子自由度深度学习计算水分子能量的方法，包括如下步骤：

S1：构建水分子数据库，所述水分子数据库包含1000个不同构型水分子的空间坐标和与构型对应的能量；

S2：随机选取m个构型和对应能量作为训练组，其余1000-m 个构型和对应能量作为测试组；

S3：将训练组水分子空间坐标转化为两个氢氧键键长r_O-H1，r_O-H2、分子键角θ以及三个原子间距离的倒数1/r_O-H1,1/r_O-H2,1/r_H1-H2，每个构型参数分别构成独立的六个列构型参数矩阵，并以此六个列构型参数矩阵作为计算的起始；

S4：提取训练组能量数据作为训练组输出能量矩阵，并与列构型参数输入矩阵一一对应，即训练组的六个列构型参数输入矩阵R₁， R₂，R₃，R₄，R₅，R₆和训练组输出能量矩阵E^real分别为：

S5：构建测试组构型参数输入矩阵和测试组输出能量矩阵，测试组矩阵行数为1000-m；即测试组的六个列构型参数输入矩阵和测试组输出能量矩阵分别为：

S6：依据训练组构型参数，采用双神经层计算结构对水分子能量进行学习，经过双神经层计算得到能量矩阵E^calc：

其中Activation Function为神经网络激活函数，当i为1到5时，应用的是tf.nn.relu线性整流函数，当i为6时，应用的是tf.nn.softmax 激活函数；R_i为训练组的第i个列构型参数输入矩阵，W_in_i为第一神经层第i个权重矩阵，b_in_i为第一神经层第i个偏置矩阵，W_out_i为第二神经层第i个权重矩阵，b_out_i为第二神经层第i个偏置矩阵。

进一步的，所述步骤S6的具体步骤为：第一神经层中当i为1 到5时，应用的是tf.nn.relu线性整流函数，当i为6时，应用的是 tf.nn.softmax激活函数，第二神经层不采用任何激活函数，每层神经元个数为10个，第一神经层六个权重矩阵W_in_i分别为：

第一神经层六个偏置矩阵b_in_i分别为：

第二神经层六个权重矩阵W_out_i分别为：

第二神经层六个偏置矩阵b_out_i为：

进一步的，W_in_i和W_out_i的初始值由随机数产生，b_in_i和b_out_i的初始值全部设为0.1。

本发明的有益效果是：摆脱了传统计算平台的制约；避免了收敛问题，将计算效率达到最优水准，减小了训练组和测试组的比值对于训练结果准确性的影响；可以更加灵活地在神经网络中使用多种激活函数，以得到更精确的计算结果。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例，对本发明的技术方案进行清楚、完整的描述。

实施例1

一种通过深度学习计算水分子能量的方法，采用1000个不同构型水分子的空间坐标和与之对应的能量。水分子的两个氢氧键变化范围为键角变化范围为104.2±8.59°。直接以分子构型训练分子能量，随机选取m个构型和对应能量作为训练组，其余1000-m个构型和对应能量作为测试组，计算水分子能量，验证训练结果的正确性。

将训练组分子空间坐标转化为两个氢氧键键长(r_O-H1，r_O-H2)、分子键角(θ)以及三个原子间距离的倒数(1/r_O-H1,1/r_O-H2,1/r_H1-H2)，每个构型参数分别构成独立的六个列构型参数矩阵，并以此六个列构型参数矩阵作为计算的起始。提取训练组能量数据作为训练组输出能量矩阵，并与列构型参数输入矩阵一一对应，即训练组的六个列构型参数输入矩阵R₁，R₂，R₃，R₄，R₅，R₆和训练组输出能量矩阵E^real分别为：

构建测试组构型参数输入矩阵和测试组输出能量矩阵，矩阵行数为1000-m；即测试组的六个列构型参数输入矩阵和测试组输出能量矩阵分别为：

依据训练组构型参数，采用双神经层计算结构对水分子能量进行学习。为保证学习效率，第一神经层采用激活函数，第二神经层未采用任何激活函数，每层神经元个数为10个，经过双神经层计算得到能量矩阵E^calc：

其中Activation Function为神经网络激活函数，当i为1到5时，应用的是tf.nn.relu线性整流函数，当i为6时，应用的是tf.nn.softmax激活函数；R_i为训练组的第i个列构型参数输入矩阵，W_in_i为第一神经层第i个权重矩阵，六个权重矩阵分别为：

b_in_i为第一神经层第i个偏置矩阵，六个偏置矩阵分别为：

W_out_i为第二神经层第i个权重矩阵，六个权重矩阵分别为：

b_out_i为第二神经层第i个偏置矩阵，六个偏置矩阵分别为：

其中，W_in_i和W_out_i初始值由随机数产生，b_in_i和b_out_i初始值全部设为0.1。

实施例2

本实施例给出了本发明的硬件平台与软件环境的优选方案。

选择低端的i5-6500 CPU@3.20GHz/NVIDIA Corporation GK208 [GeForce GT730]/4G Mem硬件平台，以获得更高的通用性能；软件环境为Linux kernel 4.9/TensorFlow-GPU 1.8.0(通过pip方式安装)，驱动程序为CUDA 9.0/cuDNN 7.1。

实施例3

本实施例给出了本发明输入数据选取的优选方案。

使用Brockherde等提供的water数据集，该数据集包含1000个水分子的构型和与之一一对应的能量，构型采用Bohr positions表达，能量单位为kcal/mol。这一方法在确保分子能量精确度随着训练集增大而提高的情况下，避免使用梯度下降法计算最小化总能量，将结果与使用标准DFT近似(PBE)所计算结果进行对比。水分子参数设置为三个：两个键长和一个键角。依据PBE结果构建优化的水分子构型(θ₀＝104.2°)为训练的起始点，在和 ±8.59°之间产生随机组合构型。

实施例4

本实施例给出了本发明结果计算的优选方案。

采用tensorflow-gpu默认配置，未启动CPU并行运算。双核四线程i5 CPU，每线程占用率约为40％左右，每线程内存占用率约为 19.4％。默认开启GPU运算，内存时钟频率为0.9015GHz，内存使用1.923/1.95GiB。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于分子自由度深度学习计算水分子能量的方法，其特征在于，包括如下步骤：

S2：随机选取m个构型和对应能量作为训练组，其余1000-m个构型和对应能量作为测试组；

S4：提取训练组能量数据作为训练组输出能量矩阵，并与列构型参数输入矩阵一一对应，即训练组的六个列构型参数输入矩阵R₁，R₂，R₃，R₄，R₅，R₆和训练组输出能量矩阵E^real分别为：

S5：构建测试组构型参数输入矩阵和测试组输出能量矩阵，测试组矩阵行数为1000-m；即测试组的六个列构型参数输入矩阵R_1*，R_2*，R_3*，R_4*，R_5*，R_6*和测试组输出能量矩阵E^real*分别为：

其中Activation Function为神经网络激活函数，当i为1到5时，应用的是tf.nn.relu线性整流函数，当i为6时，应用的是tf.nn.softmax激活函数；R_i为训练组的第i个列构型参数输入矩阵，W_in_i为第一神经层第i个权重矩阵，b_in_i为第一神经层第i个偏置矩阵，W_out_i为第二神经层第i个权重矩阵，b_out_i为第二神经层第i个偏置矩阵。

2.根据权利要求1所述的基于分子自由度深度学习计算水分子能量的方法，其特征在于，所述步骤S6的具体步骤为：第一神经层采用激活函数，第二神经层不采用任何激活函数，每层神经元个数为10个，第一神经层六个权重矩阵W_in_i分别为：

第一神经层六个偏置矩阵b_in_i分别为：

第二神经层六个权重矩阵W_-out_i分别为：

第二神经层六个偏置矩阵b_out_i为：

3.根据权利要求2所述的基于分子自由度深度学习计算水分子能量的方法，其特征在于，W_in_i和W_out_i的初始值由随机数产生，b_in_i和b_out_i的初始值全部设为0.1。