CN112786120B - 神经网络辅助化学材料合成的方法 - Google Patents
神经网络辅助化学材料合成的方法 Download PDFInfo
- Publication number
- CN112786120B CN112786120B CN202110105565.6A CN202110105565A CN112786120B CN 112786120 B CN112786120 B CN 112786120B CN 202110105565 A CN202110105565 A CN 202110105565A CN 112786120 B CN112786120 B CN 112786120B
- Authority
- CN
- China
- Prior art keywords
- data
- features
- neural network
- attribute
- chemical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000000126 substance Substances 0.000 title claims abstract description 46
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 40
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 10
- 230000009467 reduction Effects 0.000 claims abstract description 48
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 35
- 238000006243 chemical reaction Methods 0.000 claims abstract description 35
- 238000002425 crystallisation Methods 0.000 claims abstract description 31
- 230000008025 crystallization Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims abstract description 12
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000012706 support-vector machine Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000007795 chemical reaction product Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 claims description 3
- 239000000376 reactant Substances 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 239000013078 crystal Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000002887 superconductor Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012620 biological material Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
- 229910052725 zinc Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种神经网络辅助化学材料合成的方法,包括以下步骤:步骤1,采集化学反应数据,去除无用属性和非数字字段,并进行独热编码;步骤2,去除相关性较强的冗余数据;步骤3,对数据进行特征工程和标准化处理;步骤4,使用多种方法分别对数据集进行降维处理,筛选出降维效果较好的方法,将其降维数据作为数据集;步骤5,提取数据集的局部特征和全部特征,融合后作为神经网络的输入;步骤6,构建神经网络架构,训练得到化学材料结晶预测模型;步骤7,对待预测化学反应进行预测;本发明使用算法模型反向选择特征数据,建立预测模型能更准确地预测化学反应结晶情况,进一步辅助化学反应的合成。
Description
技术领域
本发明属于化学材料工程中的新材料研发技术领域,涉及一种神经网络辅助化学材料合成的方法。
背景技术
材料革新是技术进步和产业发展的基础和动力,传统研发新材料时常采用试错法获得预期的材料,该方法实验步骤繁琐、研发周期长、资源浪费较大,且操作中往往不能达到实验预期,产生大量不理想数据,使数据处理复杂化;随着计算机技术的发展,相继出现了许多用于计算材料结构和性能的理论,如第一原理计算、现场模拟、有限元分析等,这些方法往往计算量大、费用高,难以广泛推广,这极大地限制了材料的发展和变革。
基于上述背景,学者们发现利用人工智能将所有实验数据和计算模拟数据整合起来,形成具有一定数据的数据库,在数据库中根据材料的某些属性建立机器学习模型,便可快速地对材料的性能进行预测,甚至是设计新材料,指导材料合成,解决了材料合成实验周期长、成本高的问题。
使用“计算模型和机器学习进行材料预测与设计”这一理念,最早由加州大学伯克利分校的材料科学家Gerbrand Ceder教授提出,Ceder教授借鉴遗传科学的方法,就像DNA碱基对编码蛋白质等各生物材料,用“材料基因组”编码各种化合物,而实现这一编码的工具便是计算机的数据挖掘及机器学习算法等。
机器学习在材料科学中已经得到一些发展,如进行材料结构、相变及缺陷的分析、辅助材料测试的表征等,2018年有学者使用随机森林及回归模型研究超导体的临界温度,将分类和回归模型组合成一个集成管道,应用其搜索了整个无机晶体结构数据库,并预测出30多种新的潜在超导体。
目前通过特征选择技术,已经证明了一个双参数模型能够预测所给定的分子能否结晶,其准确度高达80%,但现有技术大多采用单一的机器学习算法进行数据降维,如PCA、LDA等,但单个算法都存在一定的缺陷:LDA不适合对非高斯分布的样本数据进行降维,采用PCA降维时各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强,方差小的非主成分也可能含有样本差异的重要信息,因降维丢失可能对后续数据处理有影响,所以将其用于化学材料结晶预测准确度不高。
发明内容
为了达到上述目的,本发明提供一种神经网络辅助化学材料合成的方法,本发明将多种机器学习算法融合起来进行降维,在对降维结果进行筛选,使得到的降维数据对神经网络的适应度较好,且包含了更多的属性特征,这些特征均对化学材料的结晶影响较大,用其训练的神经网络模型更符合实际情况,得到的化学材料结晶预测更加准确。
本发明的技术方案是,神经网络辅助化学材料合成的方法,包括以下步骤:
步骤1,采集化学反应数据,去除无用属性和非数字字段,并进行独热编码;
每条化学反应数据均包含如下属性特征:化学分子名称、化学分子物理化学性质、原子特性、反应条件、反应物摩尔比和反应产物结晶数据;
步骤2,保留相关系数在区间[-0.9,0.9]内的属性特征,去除相关系数在区间[-1,-0.9)和区间(0.9,1]的冗余数据;
步骤3,对化学反应数据进行特征工程和标准化处理得到初始数据集;
步骤4,使用多种降维算法分别对初始数据集进行降维,采用SVM模型筛选出降维效果最好的算法,并将其降维结果作为数据集;
步骤5,提取数据集中属性特征的局部特征和全局特征,将两者拼接后得到的融合特征作为神经网络的输入;
步骤6,搭建神经网络架构,使用融合特征训练得到化学材料结晶预测模型;
步骤7,将待预测化学反应数据输入化学材料结晶预测模型,对其结晶情况进行预测。
进一步的,所述步骤2中使用公式(1)计算各条化学反应数据中各属性特征的相关系数:
其中ρX,Y为属性特征X和属性特征Y的相关系数,cov(X,Y)=E[(X-μX)(Y-μY)]为属性特征X和属性特征Y之间的协方差,σX、σY分别为属性特征X、属性特征Y的标准差,μX、μY分别为属性特征X、属性特征Y的均值。
进一步的,所述步骤3中的特征工程包括清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择,数据标准化处理包括数据缩放和无量纲化。
进一步的,所述步骤4的具体过程如下:
步骤41,分别使用主成分分析、线性判别分析、随机森林、Adaboost算法和融合的随机森林-Adaboost算法对初始数据集进行降维处理;
步骤42,将各降维结果输入支持向量机进行结晶度预测,根据结晶度预测的准确率大小筛选出降维效果较好的方法,将其降维结果作为数据集。
进一步的,所述步骤5中使用滑动窗口提取属性特征的局部特征,使用文本卷积神经网络提取属性特征的全局特征,对局部特征和全局特征进行拼接操作得到融合特征。
进一步的,所述步骤6中化学材料结晶预测模型由两组卷积层、池化层、全连接层、dropout层、全连接和激活层组成,卷积层中卷积核的大小为3×3,步长为1,填充方式为same,通道数为融合特征的数量,池化层中池化窗口的大小为2×2。
本发明的有益效果是:本发明分别使用多种降维方法对原始数据集进行降维处理,再使用SVM筛选出降维效果更好的降维方法,该过程获得的降维数据对神经网络的适应度更好,包含的属性特征更为全面;本实施例分别提取属性特征的局部特征和全局特征,拼接得到的融合特征包含的信息更加全面,用其训练神经网络模型对化学材料的结晶进行预测,得到的结果更加准确,基于此通过优化反应条件等指导化学材料的合成,能节约大量时间,材料合成的成功率提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的具体流程图。
图2是特征提取的过程图。
图3是本发明实施例神经网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过预测化学反应中化学产物的结晶,即给定一组反应条件和试剂预测其反应产物中是否存在任何晶体,在化学材料合成预测过程中,化合物如果能够结晶出来,就可以通过表征晶体的方式,进行条件优化使材料合成的成功率更高,且合成的晶体也可以作为一种新材料,因此预测化学反应中化学产物的结晶过程也是一种化学材料合成的预测过程。
实施例
如图1所示,神经网络辅助化学材料合成的方法,包括以下步骤:
步骤1,从CSD和ZINC数据库中获取3955条完整化学反应数据,去除无用属性和非数值字段,并进行独热编码;
每条化学反应数据均包含化学分子名称、化学分子物理化学性质、原子特性、反应条件(温度、反应时间、PH值等)、反应物摩尔比、反应产物结晶数据等293个维度的属性特征,去除不能刻画自身分布规律的非数值字段及属性列(如Co属性值,99.9%的属性值为-1,而只有0.1%的数值为1),对每个化学反应的产物进行标注,结晶时outcome值为1,否则为0;
步骤2,使用公式(1)计算化学反应数据中任意两个属性特征的相关系数ρX,Y,保留相关系数在区间[-0.9,0.9]内的属性特征,去除相关系数在区间[-1,-0.9)和区间(0.9,1]的属性特征;
ρX,Y为属性特征X和属性特征Y的相关系数,cov(X,Y)=E[(X-μX)(Y-μY)]为属性特征X和属性特征Y之间的协方差,σX、σY分别为属性特征X、属性特征Y的标准差,μX、μY分别为属性特征X、属性特征Y的均值;
调用pandas_profiling工具包生成统计报告,结果显示每条化学反应均保留有72个属性特征,属性特征的数据类型包括Numeric、Categorical、Boolean,经过处理的属性特征数据中没有空值,符合机器学习及神经网络训练的数据使用规范,可用于神经网络辅助化学材料合成的研究;
步骤3,对化学反应数据进行特征工程和标准化处理得到初始数据集;
数据和特征会影响神经网络学习的上限,所述特征工程包含清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择,数据标准化处理包括数据缩放和无量纲化;
步骤4,使用多种降维算法分别对初始数据集进行降维,采用SVM模型筛选出降维效果最好的算法,将其降维结果作为数据集,具体包括以下步骤:
步骤41,分别使用主成分分析(PCA)、线性判别分析(LDA)对初始数据集进行降维处理;
训练随机森林(Random Forest)算法和Adaboost算法,将初始数据集分别输入随机森林算法和Adaboost算法,筛选出影响因子大于0.01的特征,及随机森林算法和Adaboost算法评分都较高的属性特征;
随机森林是以决策树为基分类器构建多个自助抽样集,并在决策树的训练过程中加入随机属性选择,随机森林算法简单易实现,可以通过样本扰动和属性扰动保证基分类器的多样性,假定随机森林中第t个基分类器ht的错误率ε,令所有基分类器的错误率相互独立,由Hoeffding不等式可知,随机森林的集成错误率其中k为分类正确的基分类器变量,T为基分类器的总数,表示从T个基分类器中取出k个分类正确的基分类器的组合数,x表示每个基分类器的输入。
Adaboost算法是一种集成算法,其能将弱学习算法提升为强学习算法,基于弱学习器的线性组合函数用其最小化指数损失函数lexp(H|D)=Ex~De-f(x)H(x)],其中αt为第t个分类器的权重,ht(x)为第t个分类器对特征因子的输出,T为基分类器的总数,t=1,…,T,x为输入的样本,f(x)为损失函数的输入函数标签,Ex~D为x服从概率分布D的数学期望。
步骤42,使用支持向量机(SVM)分别对各降维结果进行评估,选择出在该化学反应数据集上降维效果较好的方法;
SVM的输入是各算法的降维结果,输出是SVM模型在化学反应数据集上的结晶度,根据各化学反应数据的结晶数据计算预测结果的准确率,并根据结晶预测结果准确率的高低从五种降维方法中筛选出降维效果最好的方法,将其降维结果作为数据集;
步骤5,针对数据集构建文本卷积神经网络(TextCNN),如图2所示,使用滑动窗口法提取属性特征的局部特征,使用文本卷积神经网络提取属性特征的全局特征,拼接局部特征和全局特征得到融合特征,将融合特征作为神经网络的输入;
采用滑动窗口法提取目标属性特征的邻居特征,将其作为目标属性特征的局部特征,滑动窗口的大小为2n+1,包括位于中心的目标属性特征和其左右两侧2n个邻居特征,若滑动窗口大小为5,对于第i个目标属性特征,其局部特征为第i-2,i-1,i,i+1,i+2个属性特征,对于在左窗口或右窗口没有邻居特征的目标属性特征,使用与特征长度相同的全零向量表示其缺失的邻居特征;
采用文本卷积神经网络,通过卷积操作从数据集中提取其全局特征,文本卷积神经网络中的最大池化层能够捕获各通道中最重要的特征,并降低输出向量的维数,卷积核卷积操作能够得到数据序列的全局特征,将得到的局部特征和全局特征进行矩阵拼接操作得到融合特征,将其作为神经网络的输入;
步骤6,搭建神经网络架构,确定卷积核的个数、大小、步长、各层之间的顺序及输入数据的Shape,将数据集按照1:4分为训练集和验证集,使用训练集训练神经网络架构,使用验证集调整神经网络架构的参数得到化学材料结晶预测模型;
基于Tensorflow(人工智能学习系统)设计和搭建神经网络架构,针对数据集的结构特征确定神经网络架构的参数,如Shape、Filter、Strides和Padding;将每条化学反应数据作为一幅图像来处理,化学反应数据的维度与图像的宽对应,每行数据与图像的高对应,每条数据构成一幅1*72的灰度图像,因此神经网络架构的Shape为[batch_size,1,72,1],Filter的大小为3*3,Strides为1,为了对图像元素做边缘扩充,将Padding设为same;
步骤7,将待预测的化学反应数据输入化学材料结晶预测模型,得到该化学分子的结晶情况。
如图3所示,所述神经网络架构由两组卷积层、池化层、全连接层、dropout层、全连接层和激活层组成,卷积层(conv_layer)中卷积核大小为3×3,二维输入数组为(32,16),卷积层将二维输入数组与卷积核做互相关运算,并加上标准偏差得到二维输出数组,池化层(pooling)中池化窗口大小为2×2,本实施例在池化层和全连接层之间设置flatten层,能够减少参数的使用量,避免过拟合现象;全连接层(dense)用于输入层到隐藏层的神经元全部连接,卷积层、全连接层后一般都会连接非线性变化函数,例如Sigmoid、Tanh、ReLu等来增强网络的表达能力;dropout层用于在模型训练阶段随机让一些节点权重不工作,以提高网络的泛化能力,一定程度上防止过拟合;激活层(activation)使用Softmax进行分类,若化学材料分子的结晶度为0,则不能结晶,结晶度为1则可以进行结晶。
在训练过程中由于会对每层的参数进行不断更新,会导致下一次输入分布发生变化,所以需要使用Batch Normalization算法(BN算法)精心设计超参数,每个batch对神经网络中的每一层特征都做归一化处理,使神经网络中每层的分布相对稳定,BN算法不仅起到一定的正则作用,而且弱化了一些超参数的设计,经过实验证明,BN算法可以加速神经网络模型的收敛过程。
传统的算法模型在数据特征选择中注重数据本身的特性,先对数据进行降维处理,再让数据去适应模型,忽略了算法模型对数据的计算过程,这种方法对于大多数算法模型是有用的,但是并不能达到最佳效果,因为计算的结果在一定程度上表示出了数据对模型的适应度,合适的数据能够使模型的预测效果更优;本发明实施例提出一种多算法模型融合降维方法,首先使用五种降维方法对初始数据集进行降维,得到五个不同的数据集,然后采用SVM模型分别对这五个数据集的结晶度进行预测,根据各化学反应数据中的反应产物结晶数据,计算各个数据集的预测准确率,将准确率最高的数据集作为化学材料结晶预测模型的基础,该过程使用SVM模型反向选择特征数据,整个过程与传统技术相反,该过程可以看作是根据模型选择特征的过程(Feature SVM),其在传统技术手段上有了较大的改进,考虑了数据对模型计算的适应度,对数据进行训练能得到预测效果更好的化学材料结晶预测模型,本发明实施例(Feature SVM)与传统技术手段(原生SVM、RBF内核SVM和线性SVM)的预测准确率对比如表1所示,根据模型的预测结果显示,本发明实施例的预测准确率优于本领域其它传统技术手段的预测结果。
表1预测准确率对比数据
方法 | 预测准确率 |
SVM | 74.00% |
RBF SVM | 79.97% |
Linear SVM | 79.22% |
Feature SVM(本实施例) | 86.34% |
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (6)
1.神经网络辅助化学材料合成的方法,其特征在于,包括以下步骤:
步骤1,采集化学反应数据,去除无用属性和非数字字段,并进行独热编码;
每条化学反应数据均包含如下属性特征:化学分子名称、化学分子物理化学性质、原子特性、反应条件、反应物摩尔比和反应产物结晶数据;
步骤2,保留相关系数在区间[-0.9,0.9]内的属性特征,去除相关系数在区间[-1,-0.9)和区间(0.9,1]的冗余数据;
步骤3,对化学反应数据进行特征工程和标准化处理得到初始数据集;
步骤4,使用多种降维算法分别对初始数据集进行降维,采用SVM模型筛选出降维效果最好的算法,并将其降维结果作为数据集;
步骤5,提取数据集中属性特征的局部特征和全局特征,将两者拼接后得到的融合特征作为神经网络的输入;
步骤6,搭建神经网络架构,使用融合特征训练得到化学材料结晶预测模型;
步骤7,将待预测化学反应数据输入化学材料结晶预测模型,对其结晶情况进行预测。
3.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤3中的特征工程包括清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择,数据标准化处理包括数据缩放和无量纲化。
4.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤4的具体过程如下:
步骤41,分别使用主成分分析、线性判别分析、随机森林、Adaboost算法和融合的随机森林-Adaboost算法对初始数据集进行降维处理;
步骤42,将各降维结果输入支持向量机进行结晶度预测,根据结晶度预测的准确率大小筛选出降维效果较好的方法,将其降维结果作为数据集。
5.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤5中使用滑动窗口提取属性特征的局部特征,使用文本卷积神经网络提取属性特征的全局特征,对局部特征和全局特征进行拼接操作得到融合特征。
6.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤6中化学材料结晶预测模型由两组卷积层、池化层、全连接层、dropout层、全连接和激活层组成,卷积层中卷积核的大小为3×3,步长为1,填充方式为same,通道数为融合特征的数量,池化层中池化窗口的大小为2×2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105565.6A CN112786120B (zh) | 2021-01-26 | 2021-01-26 | 神经网络辅助化学材料合成的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105565.6A CN112786120B (zh) | 2021-01-26 | 2021-01-26 | 神经网络辅助化学材料合成的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112786120A CN112786120A (zh) | 2021-05-11 |
CN112786120B true CN112786120B (zh) | 2022-07-05 |
Family
ID=75757299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110105565.6A Active CN112786120B (zh) | 2021-01-26 | 2021-01-26 | 神经网络辅助化学材料合成的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112786120B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177733B (zh) * | 2021-05-20 | 2023-05-02 | 北京信息科技大学 | 基于卷积神经网络的中小微企业数据建模方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107255646A (zh) * | 2017-07-11 | 2017-10-17 | 华南理工大学 | 一种快速定量预测药物稳定性的方法 |
CN109493916A (zh) * | 2018-06-29 | 2019-03-19 | 北京大学 | 一种基于稀疏性因子分析的基因-基因交互作用识别方法 |
CN110232434A (zh) * | 2019-04-28 | 2019-09-13 | 吉林大学 | 一种基于属性图优化的神经网络架构评估方法 |
WO2020016579A2 (en) * | 2018-07-17 | 2020-01-23 | Gtn Ltd | Machine learning based methods of analysing drug-like molecules |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
CN111613289A (zh) * | 2020-05-07 | 2020-09-01 | 浙江大学医学院附属第一医院 | 个体化药物剂量预测方法、装置、电子设备及存储介质 |
CN111640471A (zh) * | 2020-05-27 | 2020-09-08 | 牛张明 | 基于双向长短记忆模型的药物小分子活性预测的方法和系统 |
CN111933221A (zh) * | 2020-08-03 | 2020-11-13 | 东北大学 | 一种预测Nb微合金钢动态再结晶分数的方法 |
CN111951891A (zh) * | 2019-05-16 | 2020-11-17 | 清华大学 | 确定优化的核苷酸序列的方法和系统 |
WO2020234188A1 (en) * | 2019-05-17 | 2020-11-26 | Nec Oncoimmunity As | Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide |
CN112164426A (zh) * | 2020-09-22 | 2021-01-01 | 常州微亿智造科技有限公司 | 基于TextCNN的药物小分子靶点活性预测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538558B2 (en) * | 2018-10-11 | 2022-12-27 | The Regents Of The University Of California | Optimization of gene sequences for protein expression |
-
2021
- 2021-01-26 CN CN202110105565.6A patent/CN112786120B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107255646A (zh) * | 2017-07-11 | 2017-10-17 | 华南理工大学 | 一种快速定量预测药物稳定性的方法 |
CN109493916A (zh) * | 2018-06-29 | 2019-03-19 | 北京大学 | 一种基于稀疏性因子分析的基因-基因交互作用识别方法 |
WO2020016579A2 (en) * | 2018-07-17 | 2020-01-23 | Gtn Ltd | Machine learning based methods of analysing drug-like molecules |
CN110232434A (zh) * | 2019-04-28 | 2019-09-13 | 吉林大学 | 一种基于属性图优化的神经网络架构评估方法 |
CN111951891A (zh) * | 2019-05-16 | 2020-11-17 | 清华大学 | 确定优化的核苷酸序列的方法和系统 |
WO2020234188A1 (en) * | 2019-05-17 | 2020-11-26 | Nec Oncoimmunity As | Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide |
CN110910964A (zh) * | 2019-11-08 | 2020-03-24 | 深圳先进技术研究院 | 一种分子间的结合活性预测方法及装置 |
CN111613289A (zh) * | 2020-05-07 | 2020-09-01 | 浙江大学医学院附属第一医院 | 个体化药物剂量预测方法、装置、电子设备及存储介质 |
CN111640471A (zh) * | 2020-05-27 | 2020-09-08 | 牛张明 | 基于双向长短记忆模型的药物小分子活性预测的方法和系统 |
CN111933221A (zh) * | 2020-08-03 | 2020-11-13 | 东北大学 | 一种预测Nb微合金钢动态再结晶分数的方法 |
CN112164426A (zh) * | 2020-09-22 | 2021-01-01 | 常州微亿智造科技有限公司 | 基于TextCNN的药物小分子靶点活性预测方法和装置 |
Non-Patent Citations (3)
Title |
---|
Convolutional Neural Networks for Crystal Material Property Prediction Using Hybrid Orbital-Field Matrix and Magpie Descriptors;Zhuo Cao等;《Crystals》;20190403;第9卷(第4期);全文 * |
基于序列的跨膜蛋白质结晶倾向性预测方法研究;朱奇志;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20200715(第7期);全文 * |
融合自注意力机制和多路金字塔卷积的软件需求聚类算法;康雁等;《计算机科学》;20200116;第47卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112786120A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schleder et al. | From DFT to machine learning: recent approaches to materials science–a review | |
Jiang et al. | Protein secondary structure prediction: A survey of the state of the art | |
Dehuri et al. | Evolutionarily optimized features in functional link neural network for classification | |
CN106980648B (zh) | 一种基于概率矩阵分解结合相似度的个性化推荐方法 | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
Carballido et al. | CGD-GA: A graph-based genetic algorithm for sensor network design | |
Eftekhari et al. | Eliciting transparent fuzzy model using differential evolution | |
Yu et al. | Learning protein multi-view features in complex space | |
CN112786120B (zh) | 神经网络辅助化学材料合成的方法 | |
Saha et al. | Gene selection by sample classification using k nearest neighbor and meta-heuristic algorithms | |
CN116798652A (zh) | 一种基于多任务学习的抗癌药物反应预测方法 | |
Hassantabar et al. | CURIOUS: Efficient neural architecture search based on a performance predictor and evolutionary search | |
CN115661546A (zh) | 一种特征选择与分类器联合设计的多目标优化分类方法 | |
Habib et al. | Classification of DNA sequence using machine learning techniques | |
Agarwal et al. | Crop Prediction Using Ensemble Learning | |
Reyaz-Ahmed et al. | Granular decision tree and evolutionary neural SVM for protein secondary structure prediction | |
Pokhrel | A comparison of AutoML hyperparameter optimization tools for tabular data | |
Li et al. | Using modified lasso regression to learn large undirected graphs in a probabilistic framework | |
Roussel et al. | Accelerated sampling with stacked restricted boltzmann machines | |
Ji et al. | Tri-objective optimization-based cascade ensemble pruning for deep forest | |
Novoselova et al. | Optimized leaf ordering with class labels for hierarchical clustering | |
Shivaprasad et al. | Ensemble model for accuracy prediction of protein secondary structure | |
US20240161864A1 (en) | Diffusion model for generative protein design | |
Emami et al. | Condensed Gradient Boosting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240219 Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province Patentee after: Dragon totem Technology (Hefei) Co.,Ltd. Country or region after: China Address before: 650091 Yunnan Province, Kunming city Wuhua District Lake Road No. 2 Patentee before: YUNNAN University Country or region before: China |