CN112786120B

CN112786120B - 神经网络辅助化学材料合成的方法

Info

Publication number: CN112786120B
Application number: CN202110105565.6A
Authority: CN
Inventors: 杨学昆; 康雁; 李�浩; 徐梅; 许忠明; 王飞; 王海宁; 徐玉龙
Original assignee: Yunnan University YNU
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-07-05
Anticipated expiration: 2041-01-26
Also published as: CN112786120A

Abstract

本发明公开了一种神经网络辅助化学材料合成的方法，包括以下步骤：步骤1，采集化学反应数据，去除无用属性和非数字字段，并进行独热编码；步骤2，去除相关性较强的冗余数据；步骤3，对数据进行特征工程和标准化处理；步骤4，使用多种方法分别对数据集进行降维处理，筛选出降维效果较好的方法，将其降维数据作为数据集；步骤5，提取数据集的局部特征和全部特征，融合后作为神经网络的输入；步骤6，构建神经网络架构，训练得到化学材料结晶预测模型；步骤7，对待预测化学反应进行预测；本发明使用算法模型反向选择特征数据，建立预测模型能更准确地预测化学反应结晶情况，进一步辅助化学反应的合成。

Description

神经网络辅助化学材料合成的方法

技术领域

本发明属于化学材料工程中的新材料研发技术领域，涉及一种神经网络辅助化学材料合成的方法。

背景技术

材料革新是技术进步和产业发展的基础和动力，传统研发新材料时常采用试错法获得预期的材料，该方法实验步骤繁琐、研发周期长、资源浪费较大，且操作中往往不能达到实验预期，产生大量不理想数据，使数据处理复杂化；随着计算机技术的发展，相继出现了许多用于计算材料结构和性能的理论，如第一原理计算、现场模拟、有限元分析等，这些方法往往计算量大、费用高，难以广泛推广，这极大地限制了材料的发展和变革。

基于上述背景，学者们发现利用人工智能将所有实验数据和计算模拟数据整合起来，形成具有一定数据的数据库，在数据库中根据材料的某些属性建立机器学习模型，便可快速地对材料的性能进行预测，甚至是设计新材料，指导材料合成，解决了材料合成实验周期长、成本高的问题。

使用“计算模型和机器学习进行材料预测与设计”这一理念，最早由加州大学伯克利分校的材料科学家Gerbrand Ceder教授提出，Ceder教授借鉴遗传科学的方法，就像DNA碱基对编码蛋白质等各生物材料，用“材料基因组”编码各种化合物，而实现这一编码的工具便是计算机的数据挖掘及机器学习算法等。

机器学习在材料科学中已经得到一些发展，如进行材料结构、相变及缺陷的分析、辅助材料测试的表征等，2018年有学者使用随机森林及回归模型研究超导体的临界温度，将分类和回归模型组合成一个集成管道，应用其搜索了整个无机晶体结构数据库，并预测出30多种新的潜在超导体。

目前通过特征选择技术，已经证明了一个双参数模型能够预测所给定的分子能否结晶，其准确度高达80％，但现有技术大多采用单一的机器学习算法进行数据降维，如PCA、LDA等，但单个算法都存在一定的缺陷：LDA不适合对非高斯分布的样本数据进行降维，采用PCA降维时各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强，方差小的非主成分也可能含有样本差异的重要信息，因降维丢失可能对后续数据处理有影响，所以将其用于化学材料结晶预测准确度不高。

发明内容

为了达到上述目的，本发明提供一种神经网络辅助化学材料合成的方法，本发明将多种机器学习算法融合起来进行降维，在对降维结果进行筛选，使得到的降维数据对神经网络的适应度较好，且包含了更多的属性特征，这些特征均对化学材料的结晶影响较大，用其训练的神经网络模型更符合实际情况，得到的化学材料结晶预测更加准确。

本发明的技术方案是，神经网络辅助化学材料合成的方法，包括以下步骤：

步骤1，采集化学反应数据，去除无用属性和非数字字段，并进行独热编码；

每条化学反应数据均包含如下属性特征：化学分子名称、化学分子物理化学性质、原子特性、反应条件、反应物摩尔比和反应产物结晶数据；

步骤2，保留相关系数在区间[-0.9，0.9]内的属性特征，去除相关系数在区间[-1，-0.9)和区间(0.9，1]的冗余数据；

步骤3，对化学反应数据进行特征工程和标准化处理得到初始数据集；

步骤4，使用多种降维算法分别对初始数据集进行降维，采用SVM模型筛选出降维效果最好的算法，并将其降维结果作为数据集；

步骤5，提取数据集中属性特征的局部特征和全局特征，将两者拼接后得到的融合特征作为神经网络的输入；

步骤6，搭建神经网络架构，使用融合特征训练得到化学材料结晶预测模型；

步骤7，将待预测化学反应数据输入化学材料结晶预测模型，对其结晶情况进行预测。

进一步的，所述步骤2中使用公式(1)计算各条化学反应数据中各属性特征的相关系数：

其中ρ_X,Y为属性特征X和属性特征Y的相关系数，cov(X,Y)＝E[(X-μ_X)(Y-μ_Y)]为属性特征X和属性特征Y之间的协方差，σ_X、σ_Y分别为属性特征X、属性特征Y的标准差，μ_X、μ_Y分别为属性特征X、属性特征Y的均值。

进一步的，所述步骤3中的特征工程包括清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择，数据标准化处理包括数据缩放和无量纲化。

进一步的，所述步骤4的具体过程如下：

步骤41，分别使用主成分分析、线性判别分析、随机森林、Adaboost算法和融合的随机森林-Adaboost算法对初始数据集进行降维处理；

步骤42，将各降维结果输入支持向量机进行结晶度预测，根据结晶度预测的准确率大小筛选出降维效果较好的方法，将其降维结果作为数据集。

进一步的，所述步骤5中使用滑动窗口提取属性特征的局部特征，使用文本卷积神经网络提取属性特征的全局特征，对局部特征和全局特征进行拼接操作得到融合特征。

进一步的，所述步骤6中化学材料结晶预测模型由两组卷积层、池化层、全连接层、dropout层、全连接和激活层组成，卷积层中卷积核的大小为3×3，步长为1，填充方式为same，通道数为融合特征的数量，池化层中池化窗口的大小为2×2。

本发明的有益效果是：本发明分别使用多种降维方法对原始数据集进行降维处理，再使用SVM筛选出降维效果更好的降维方法，该过程获得的降维数据对神经网络的适应度更好，包含的属性特征更为全面；本实施例分别提取属性特征的局部特征和全局特征，拼接得到的融合特征包含的信息更加全面，用其训练神经网络模型对化学材料的结晶进行预测，得到的结果更加准确，基于此通过优化反应条件等指导化学材料的合成，能节约大量时间，材料合成的成功率提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的具体流程图。

图2是特征提取的过程图。

图3是本发明实施例神经网络架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过预测化学反应中化学产物的结晶，即给定一组反应条件和试剂预测其反应产物中是否存在任何晶体，在化学材料合成预测过程中，化合物如果能够结晶出来，就可以通过表征晶体的方式，进行条件优化使材料合成的成功率更高，且合成的晶体也可以作为一种新材料，因此预测化学反应中化学产物的结晶过程也是一种化学材料合成的预测过程。

实施例

如图1所示，神经网络辅助化学材料合成的方法，包括以下步骤：

步骤1，从CSD和ZINC数据库中获取3955条完整化学反应数据，去除无用属性和非数值字段，并进行独热编码；

每条化学反应数据均包含化学分子名称、化学分子物理化学性质、原子特性、反应条件(温度、反应时间、PH值等)、反应物摩尔比、反应产物结晶数据等293个维度的属性特征，去除不能刻画自身分布规律的非数值字段及属性列(如Co属性值，99.9％的属性值为-1，而只有0.1％的数值为1)，对每个化学反应的产物进行标注，结晶时outcome值为1，否则为0；

步骤2，使用公式(1)计算化学反应数据中任意两个属性特征的相关系数ρ_X,Y，保留相关系数在区间[-0.9，0.9]内的属性特征，去除相关系数在区间[-1，-0.9)和区间(0.9，1]的属性特征；

ρ_X,Y为属性特征X和属性特征Y的相关系数，cov(X,Y)＝E[(X-μ_X)(Y-μ_Y)]为属性特征X和属性特征Y之间的协方差，σ_X、σ_Y分别为属性特征X、属性特征Y的标准差，μ_X、μ_Y分别为属性特征X、属性特征Y的均值；

调用pandas_profiling工具包生成统计报告，结果显示每条化学反应均保留有72个属性特征，属性特征的数据类型包括Numeric、Categorical、Boolean，经过处理的属性特征数据中没有空值，符合机器学习及神经网络训练的数据使用规范，可用于神经网络辅助化学材料合成的研究；

数据和特征会影响神经网络学习的上限，所述特征工程包含清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择，数据标准化处理包括数据缩放和无量纲化；

步骤4，使用多种降维算法分别对初始数据集进行降维，采用SVM模型筛选出降维效果最好的算法，将其降维结果作为数据集，具体包括以下步骤：

步骤41，分别使用主成分分析(PCA)、线性判别分析(LDA)对初始数据集进行降维处理；

训练随机森林(Random Forest)算法和Adaboost算法，将初始数据集分别输入随机森林算法和Adaboost算法，筛选出影响因子大于0.01的特征，及随机森林算法和Adaboost算法评分都较高的属性特征；

随机森林是以决策树为基分类器构建多个自助抽样集，并在决策树的训练过程中加入随机属性选择，随机森林算法简单易实现，可以通过样本扰动和属性扰动保证基分类器的多样性，假定随机森林中第t个基分类器h_t的错误率ε，令所有基分类器的错误率相互独立，由Hoeffding不等式可知，随机森林的集成错误率

其中k为分类正确的基分类器变量，T为基分类器的总数，

表示从T个基分类器中取出k个分类正确的基分类器的组合数，x表示每个基分类器的输入。

Adaboost算法是一种集成算法，其能将弱学习算法提升为强学习算法，基于弱学习器的线性组合函数

用其最小化指数损失函数l_exp(H|D)＝E_x～De^-f(x)H(x)]，其中α_t为第t个分类器的权重，h_t(x)为第t个分类器对特征因子的输出，T为基分类器的总数，t＝1,…,T，x为输入的样本，f(x)为损失函数的输入函数标签，E_x～D为x服从概率分布D的数学期望。

步骤42，使用支持向量机(SVM)分别对各降维结果进行评估，选择出在该化学反应数据集上降维效果较好的方法；

SVM的输入是各算法的降维结果，输出是SVM模型在化学反应数据集上的结晶度，根据各化学反应数据的结晶数据计算预测结果的准确率，并根据结晶预测结果准确率的高低从五种降维方法中筛选出降维效果最好的方法，将其降维结果作为数据集；

步骤5，针对数据集构建文本卷积神经网络(TextCNN)，如图2所示，使用滑动窗口法提取属性特征的局部特征，使用文本卷积神经网络提取属性特征的全局特征，拼接局部特征和全局特征得到融合特征，将融合特征作为神经网络的输入；

采用滑动窗口法提取目标属性特征的邻居特征，将其作为目标属性特征的局部特征，滑动窗口的大小为2n+1，包括位于中心的目标属性特征和其左右两侧2n个邻居特征，若滑动窗口大小为5，对于第i个目标属性特征，其局部特征为第i-2,i-1,i,i+1,i+2个属性特征，对于在左窗口或右窗口没有邻居特征的目标属性特征，使用与特征长度相同的全零向量表示其缺失的邻居特征；

采用文本卷积神经网络，通过卷积操作从数据集中提取其全局特征，文本卷积神经网络中的最大池化层能够捕获各通道中最重要的特征，并降低输出向量的维数，卷积核卷积操作能够得到数据序列的全局特征，将得到的局部特征和全局特征进行矩阵拼接操作得到融合特征，将其作为神经网络的输入；

步骤6，搭建神经网络架构，确定卷积核的个数、大小、步长、各层之间的顺序及输入数据的Shape，将数据集按照1:4分为训练集和验证集，使用训练集训练神经网络架构，使用验证集调整神经网络架构的参数得到化学材料结晶预测模型；

基于Tensorflow(人工智能学习系统)设计和搭建神经网络架构，针对数据集的结构特征确定神经网络架构的参数，如Shape、Filter、Strides和Padding；将每条化学反应数据作为一幅图像来处理，化学反应数据的维度与图像的宽对应，每行数据与图像的高对应，每条数据构成一幅1*72的灰度图像，因此神经网络架构的Shape为[batch_size,1,72,1]，Filter的大小为3*3，Strides为1，为了对图像元素做边缘扩充，将Padding设为same；

步骤7，将待预测的化学反应数据输入化学材料结晶预测模型，得到该化学分子的结晶情况。

如图3所示，所述神经网络架构由两组卷积层、池化层、全连接层、dropout层、全连接层和激活层组成，卷积层(conv_layer)中卷积核大小为3×3，二维输入数组为(32，16)，卷积层将二维输入数组与卷积核做互相关运算，并加上标准偏差得到二维输出数组，池化层(pooling)中池化窗口大小为2×2，本实施例在池化层和全连接层之间设置flatten层，能够减少参数的使用量，避免过拟合现象；全连接层(dense)用于输入层到隐藏层的神经元全部连接，卷积层、全连接层后一般都会连接非线性变化函数，例如Sigmoid、Tanh、ReLu等来增强网络的表达能力；dropout层用于在模型训练阶段随机让一些节点权重不工作，以提高网络的泛化能力，一定程度上防止过拟合；激活层(activation)使用Softmax进行分类，若化学材料分子的结晶度为0，则不能结晶，结晶度为1则可以进行结晶。

在训练过程中由于会对每层的参数进行不断更新，会导致下一次输入分布发生变化，所以需要使用Batch Normalization算法(BN算法)精心设计超参数，每个batch对神经网络中的每一层特征都做归一化处理，使神经网络中每层的分布相对稳定，BN算法不仅起到一定的正则作用，而且弱化了一些超参数的设计，经过实验证明，BN算法可以加速神经网络模型的收敛过程。

传统的算法模型在数据特征选择中注重数据本身的特性，先对数据进行降维处理，再让数据去适应模型，忽略了算法模型对数据的计算过程，这种方法对于大多数算法模型是有用的，但是并不能达到最佳效果，因为计算的结果在一定程度上表示出了数据对模型的适应度，合适的数据能够使模型的预测效果更优；本发明实施例提出一种多算法模型融合降维方法，首先使用五种降维方法对初始数据集进行降维，得到五个不同的数据集，然后采用SVM模型分别对这五个数据集的结晶度进行预测，根据各化学反应数据中的反应产物结晶数据，计算各个数据集的预测准确率，将准确率最高的数据集作为化学材料结晶预测模型的基础，该过程使用SVM模型反向选择特征数据，整个过程与传统技术相反，该过程可以看作是根据模型选择特征的过程(Feature SVM)，其在传统技术手段上有了较大的改进，考虑了数据对模型计算的适应度，对数据进行训练能得到预测效果更好的化学材料结晶预测模型，本发明实施例(Feature SVM)与传统技术手段(原生SVM、RBF内核SVM和线性SVM)的预测准确率对比如表1所示，根据模型的预测结果显示，本发明实施例的预测准确率优于本领域其它传统技术手段的预测结果。

表1预测准确率对比数据

方法	预测准确率
		SVM	74.00％
RBF SVM	79.97％
		Linear SVM	79.22％
Feature SVM(本实施例)	86.34％

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.神经网络辅助化学材料合成的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的神经网络辅助化学材料合成的方法，其特征在于，所述步骤2中使用公式(1)计算各条化学反应数据中各属性特征的相关系数：

3.根据权利要求1所述的神经网络辅助化学材料合成的方法，其特征在于，所述步骤3中的特征工程包括清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择，数据标准化处理包括数据缩放和无量纲化。

4.根据权利要求1所述的神经网络辅助化学材料合成的方法，其特征在于，所述步骤4的具体过程如下：

5.根据权利要求1所述的神经网络辅助化学材料合成的方法，其特征在于，所述步骤5中使用滑动窗口提取属性特征的局部特征，使用文本卷积神经网络提取属性特征的全局特征，对局部特征和全局特征进行拼接操作得到融合特征。

6.根据权利要求1所述的神经网络辅助化学材料合成的方法，其特征在于，所述步骤6中化学材料结晶预测模型由两组卷积层、池化层、全连接层、dropout层、全连接和激活层组成，卷积层中卷积核的大小为3×3，步长为1，填充方式为same，通道数为融合特征的数量，池化层中池化窗口的大小为2×2。