CN112786120B - 神经网络辅助化学材料合成的方法 - Google Patents

神经网络辅助化学材料合成的方法 Download PDF

Info

Publication number
CN112786120B
CN112786120B CN202110105565.6A CN202110105565A CN112786120B CN 112786120 B CN112786120 B CN 112786120B CN 202110105565 A CN202110105565 A CN 202110105565A CN 112786120 B CN112786120 B CN 112786120B
Authority
CN
China
Prior art keywords
data
features
neural network
attribute
chemical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110105565.6A
Other languages
English (en)
Other versions
CN112786120A (zh
Inventor
杨学昆
康雁
李�浩
徐梅
许忠明
王飞
王海宁
徐玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202110105565.6A priority Critical patent/CN112786120B/zh
Publication of CN112786120A publication Critical patent/CN112786120A/zh
Application granted granted Critical
Publication of CN112786120B publication Critical patent/CN112786120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种神经网络辅助化学材料合成的方法,包括以下步骤:步骤1,采集化学反应数据,去除无用属性和非数字字段,并进行独热编码;步骤2,去除相关性较强的冗余数据;步骤3,对数据进行特征工程和标准化处理;步骤4,使用多种方法分别对数据集进行降维处理,筛选出降维效果较好的方法,将其降维数据作为数据集;步骤5,提取数据集的局部特征和全部特征,融合后作为神经网络的输入;步骤6,构建神经网络架构,训练得到化学材料结晶预测模型;步骤7,对待预测化学反应进行预测;本发明使用算法模型反向选择特征数据,建立预测模型能更准确地预测化学反应结晶情况,进一步辅助化学反应的合成。

Description

神经网络辅助化学材料合成的方法
技术领域
本发明属于化学材料工程中的新材料研发技术领域,涉及一种神经网络辅助化学材料合成的方法。
背景技术
材料革新是技术进步和产业发展的基础和动力,传统研发新材料时常采用试错法获得预期的材料,该方法实验步骤繁琐、研发周期长、资源浪费较大,且操作中往往不能达到实验预期,产生大量不理想数据,使数据处理复杂化;随着计算机技术的发展,相继出现了许多用于计算材料结构和性能的理论,如第一原理计算、现场模拟、有限元分析等,这些方法往往计算量大、费用高,难以广泛推广,这极大地限制了材料的发展和变革。
基于上述背景,学者们发现利用人工智能将所有实验数据和计算模拟数据整合起来,形成具有一定数据的数据库,在数据库中根据材料的某些属性建立机器学习模型,便可快速地对材料的性能进行预测,甚至是设计新材料,指导材料合成,解决了材料合成实验周期长、成本高的问题。
使用“计算模型和机器学习进行材料预测与设计”这一理念,最早由加州大学伯克利分校的材料科学家Gerbrand Ceder教授提出,Ceder教授借鉴遗传科学的方法,就像DNA碱基对编码蛋白质等各生物材料,用“材料基因组”编码各种化合物,而实现这一编码的工具便是计算机的数据挖掘及机器学习算法等。
机器学习在材料科学中已经得到一些发展,如进行材料结构、相变及缺陷的分析、辅助材料测试的表征等,2018年有学者使用随机森林及回归模型研究超导体的临界温度,将分类和回归模型组合成一个集成管道,应用其搜索了整个无机晶体结构数据库,并预测出30多种新的潜在超导体。
目前通过特征选择技术,已经证明了一个双参数模型能够预测所给定的分子能否结晶,其准确度高达80%,但现有技术大多采用单一的机器学习算法进行数据降维,如PCA、LDA等,但单个算法都存在一定的缺陷:LDA不适合对非高斯分布的样本数据进行降维,采用PCA降维时各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强,方差小的非主成分也可能含有样本差异的重要信息,因降维丢失可能对后续数据处理有影响,所以将其用于化学材料结晶预测准确度不高。
发明内容
为了达到上述目的,本发明提供一种神经网络辅助化学材料合成的方法,本发明将多种机器学习算法融合起来进行降维,在对降维结果进行筛选,使得到的降维数据对神经网络的适应度较好,且包含了更多的属性特征,这些特征均对化学材料的结晶影响较大,用其训练的神经网络模型更符合实际情况,得到的化学材料结晶预测更加准确。
本发明的技术方案是,神经网络辅助化学材料合成的方法,包括以下步骤:
步骤1,采集化学反应数据,去除无用属性和非数字字段,并进行独热编码;
每条化学反应数据均包含如下属性特征:化学分子名称、化学分子物理化学性质、原子特性、反应条件、反应物摩尔比和反应产物结晶数据;
步骤2,保留相关系数在区间[-0.9,0.9]内的属性特征,去除相关系数在区间[-1,-0.9)和区间(0.9,1]的冗余数据;
步骤3,对化学反应数据进行特征工程和标准化处理得到初始数据集;
步骤4,使用多种降维算法分别对初始数据集进行降维,采用SVM模型筛选出降维效果最好的算法,并将其降维结果作为数据集;
步骤5,提取数据集中属性特征的局部特征和全局特征,将两者拼接后得到的融合特征作为神经网络的输入;
步骤6,搭建神经网络架构,使用融合特征训练得到化学材料结晶预测模型;
步骤7,将待预测化学反应数据输入化学材料结晶预测模型,对其结晶情况进行预测。
进一步的,所述步骤2中使用公式(1)计算各条化学反应数据中各属性特征的相关系数:
Figure BDA0002917272080000021
其中ρX,Y为属性特征X和属性特征Y的相关系数,cov(X,Y)=E[(X-μX)(Y-μY)]为属性特征X和属性特征Y之间的协方差,σX、σY分别为属性特征X、属性特征Y的标准差,μX、μY分别为属性特征X、属性特征Y的均值。
进一步的,所述步骤3中的特征工程包括清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择,数据标准化处理包括数据缩放和无量纲化。
进一步的,所述步骤4的具体过程如下:
步骤41,分别使用主成分分析、线性判别分析、随机森林、Adaboost算法和融合的随机森林-Adaboost算法对初始数据集进行降维处理;
步骤42,将各降维结果输入支持向量机进行结晶度预测,根据结晶度预测的准确率大小筛选出降维效果较好的方法,将其降维结果作为数据集。
进一步的,所述步骤5中使用滑动窗口提取属性特征的局部特征,使用文本卷积神经网络提取属性特征的全局特征,对局部特征和全局特征进行拼接操作得到融合特征。
进一步的,所述步骤6中化学材料结晶预测模型由两组卷积层、池化层、全连接层、dropout层、全连接和激活层组成,卷积层中卷积核的大小为3×3,步长为1,填充方式为same,通道数为融合特征的数量,池化层中池化窗口的大小为2×2。
本发明的有益效果是:本发明分别使用多种降维方法对原始数据集进行降维处理,再使用SVM筛选出降维效果更好的降维方法,该过程获得的降维数据对神经网络的适应度更好,包含的属性特征更为全面;本实施例分别提取属性特征的局部特征和全局特征,拼接得到的融合特征包含的信息更加全面,用其训练神经网络模型对化学材料的结晶进行预测,得到的结果更加准确,基于此通过优化反应条件等指导化学材料的合成,能节约大量时间,材料合成的成功率提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的具体流程图。
图2是特征提取的过程图。
图3是本发明实施例神经网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明通过预测化学反应中化学产物的结晶,即给定一组反应条件和试剂预测其反应产物中是否存在任何晶体,在化学材料合成预测过程中,化合物如果能够结晶出来,就可以通过表征晶体的方式,进行条件优化使材料合成的成功率更高,且合成的晶体也可以作为一种新材料,因此预测化学反应中化学产物的结晶过程也是一种化学材料合成的预测过程。
实施例
如图1所示,神经网络辅助化学材料合成的方法,包括以下步骤:
步骤1,从CSD和ZINC数据库中获取3955条完整化学反应数据,去除无用属性和非数值字段,并进行独热编码;
每条化学反应数据均包含化学分子名称、化学分子物理化学性质、原子特性、反应条件(温度、反应时间、PH值等)、反应物摩尔比、反应产物结晶数据等293个维度的属性特征,去除不能刻画自身分布规律的非数值字段及属性列(如Co属性值,99.9%的属性值为-1,而只有0.1%的数值为1),对每个化学反应的产物进行标注,结晶时outcome值为1,否则为0;
步骤2,使用公式(1)计算化学反应数据中任意两个属性特征的相关系数ρX,Y,保留相关系数在区间[-0.9,0.9]内的属性特征,去除相关系数在区间[-1,-0.9)和区间(0.9,1]的属性特征;
Figure BDA0002917272080000041
ρX,Y为属性特征X和属性特征Y的相关系数,cov(X,Y)=E[(X-μX)(Y-μY)]为属性特征X和属性特征Y之间的协方差,σX、σY分别为属性特征X、属性特征Y的标准差,μX、μY分别为属性特征X、属性特征Y的均值;
调用pandas_profiling工具包生成统计报告,结果显示每条化学反应均保留有72个属性特征,属性特征的数据类型包括Numeric、Categorical、Boolean,经过处理的属性特征数据中没有空值,符合机器学习及神经网络训练的数据使用规范,可用于神经网络辅助化学材料合成的研究;
步骤3,对化学反应数据进行特征工程和标准化处理得到初始数据集;
数据和特征会影响神经网络学习的上限,所述特征工程包含清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择,数据标准化处理包括数据缩放和无量纲化;
步骤4,使用多种降维算法分别对初始数据集进行降维,采用SVM模型筛选出降维效果最好的算法,将其降维结果作为数据集,具体包括以下步骤:
步骤41,分别使用主成分分析(PCA)、线性判别分析(LDA)对初始数据集进行降维处理;
训练随机森林(Random Forest)算法和Adaboost算法,将初始数据集分别输入随机森林算法和Adaboost算法,筛选出影响因子大于0.01的特征,及随机森林算法和Adaboost算法评分都较高的属性特征;
随机森林是以决策树为基分类器构建多个自助抽样集,并在决策树的训练过程中加入随机属性选择,随机森林算法简单易实现,可以通过样本扰动和属性扰动保证基分类器的多样性,假定随机森林中第t个基分类器ht的错误率ε,令所有基分类器的错误率相互独立,由Hoeffding不等式可知,随机森林的集成错误率
Figure BDA0002917272080000051
其中k为分类正确的基分类器变量,T为基分类器的总数,
Figure BDA0002917272080000052
表示从T个基分类器中取出k个分类正确的基分类器的组合数,x表示每个基分类器的输入。
Adaboost算法是一种集成算法,其能将弱学习算法提升为强学习算法,基于弱学习器的线性组合函数
Figure BDA0002917272080000053
用其最小化指数损失函数lexp(H|D)=Ex~De-f(x)H(x)],其中αt为第t个分类器的权重,ht(x)为第t个分类器对特征因子的输出,T为基分类器的总数,t=1,…,T,x为输入的样本,f(x)为损失函数的输入函数标签,Ex~D为x服从概率分布D的数学期望。
步骤42,使用支持向量机(SVM)分别对各降维结果进行评估,选择出在该化学反应数据集上降维效果较好的方法;
SVM的输入是各算法的降维结果,输出是SVM模型在化学反应数据集上的结晶度,根据各化学反应数据的结晶数据计算预测结果的准确率,并根据结晶预测结果准确率的高低从五种降维方法中筛选出降维效果最好的方法,将其降维结果作为数据集;
步骤5,针对数据集构建文本卷积神经网络(TextCNN),如图2所示,使用滑动窗口法提取属性特征的局部特征,使用文本卷积神经网络提取属性特征的全局特征,拼接局部特征和全局特征得到融合特征,将融合特征作为神经网络的输入;
采用滑动窗口法提取目标属性特征的邻居特征,将其作为目标属性特征的局部特征,滑动窗口的大小为2n+1,包括位于中心的目标属性特征和其左右两侧2n个邻居特征,若滑动窗口大小为5,对于第i个目标属性特征,其局部特征为第i-2,i-1,i,i+1,i+2个属性特征,对于在左窗口或右窗口没有邻居特征的目标属性特征,使用与特征长度相同的全零向量表示其缺失的邻居特征;
采用文本卷积神经网络,通过卷积操作从数据集中提取其全局特征,文本卷积神经网络中的最大池化层能够捕获各通道中最重要的特征,并降低输出向量的维数,卷积核卷积操作能够得到数据序列的全局特征,将得到的局部特征和全局特征进行矩阵拼接操作得到融合特征,将其作为神经网络的输入;
步骤6,搭建神经网络架构,确定卷积核的个数、大小、步长、各层之间的顺序及输入数据的Shape,将数据集按照1:4分为训练集和验证集,使用训练集训练神经网络架构,使用验证集调整神经网络架构的参数得到化学材料结晶预测模型;
基于Tensorflow(人工智能学习系统)设计和搭建神经网络架构,针对数据集的结构特征确定神经网络架构的参数,如Shape、Filter、Strides和Padding;将每条化学反应数据作为一幅图像来处理,化学反应数据的维度与图像的宽对应,每行数据与图像的高对应,每条数据构成一幅1*72的灰度图像,因此神经网络架构的Shape为[batch_size,1,72,1],Filter的大小为3*3,Strides为1,为了对图像元素做边缘扩充,将Padding设为same;
步骤7,将待预测的化学反应数据输入化学材料结晶预测模型,得到该化学分子的结晶情况。
如图3所示,所述神经网络架构由两组卷积层、池化层、全连接层、dropout层、全连接层和激活层组成,卷积层(conv_layer)中卷积核大小为3×3,二维输入数组为(32,16),卷积层将二维输入数组与卷积核做互相关运算,并加上标准偏差得到二维输出数组,池化层(pooling)中池化窗口大小为2×2,本实施例在池化层和全连接层之间设置flatten层,能够减少参数的使用量,避免过拟合现象;全连接层(dense)用于输入层到隐藏层的神经元全部连接,卷积层、全连接层后一般都会连接非线性变化函数,例如Sigmoid、Tanh、ReLu等来增强网络的表达能力;dropout层用于在模型训练阶段随机让一些节点权重不工作,以提高网络的泛化能力,一定程度上防止过拟合;激活层(activation)使用Softmax进行分类,若化学材料分子的结晶度为0,则不能结晶,结晶度为1则可以进行结晶。
在训练过程中由于会对每层的参数进行不断更新,会导致下一次输入分布发生变化,所以需要使用Batch Normalization算法(BN算法)精心设计超参数,每个batch对神经网络中的每一层特征都做归一化处理,使神经网络中每层的分布相对稳定,BN算法不仅起到一定的正则作用,而且弱化了一些超参数的设计,经过实验证明,BN算法可以加速神经网络模型的收敛过程。
传统的算法模型在数据特征选择中注重数据本身的特性,先对数据进行降维处理,再让数据去适应模型,忽略了算法模型对数据的计算过程,这种方法对于大多数算法模型是有用的,但是并不能达到最佳效果,因为计算的结果在一定程度上表示出了数据对模型的适应度,合适的数据能够使模型的预测效果更优;本发明实施例提出一种多算法模型融合降维方法,首先使用五种降维方法对初始数据集进行降维,得到五个不同的数据集,然后采用SVM模型分别对这五个数据集的结晶度进行预测,根据各化学反应数据中的反应产物结晶数据,计算各个数据集的预测准确率,将准确率最高的数据集作为化学材料结晶预测模型的基础,该过程使用SVM模型反向选择特征数据,整个过程与传统技术相反,该过程可以看作是根据模型选择特征的过程(Feature SVM),其在传统技术手段上有了较大的改进,考虑了数据对模型计算的适应度,对数据进行训练能得到预测效果更好的化学材料结晶预测模型,本发明实施例(Feature SVM)与传统技术手段(原生SVM、RBF内核SVM和线性SVM)的预测准确率对比如表1所示,根据模型的预测结果显示,本发明实施例的预测准确率优于本领域其它传统技术手段的预测结果。
表1预测准确率对比数据
方法 预测准确率
SVM 74.00%
RBF SVM 79.97%
Linear SVM 79.22%
Feature SVM(本实施例) 86.34%
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.神经网络辅助化学材料合成的方法,其特征在于,包括以下步骤:
步骤1,采集化学反应数据,去除无用属性和非数字字段,并进行独热编码;
每条化学反应数据均包含如下属性特征:化学分子名称、化学分子物理化学性质、原子特性、反应条件、反应物摩尔比和反应产物结晶数据;
步骤2,保留相关系数在区间[-0.9,0.9]内的属性特征,去除相关系数在区间[-1,-0.9)和区间(0.9,1]的冗余数据;
步骤3,对化学反应数据进行特征工程和标准化处理得到初始数据集;
步骤4,使用多种降维算法分别对初始数据集进行降维,采用SVM模型筛选出降维效果最好的算法,并将其降维结果作为数据集;
步骤5,提取数据集中属性特征的局部特征和全局特征,将两者拼接后得到的融合特征作为神经网络的输入;
步骤6,搭建神经网络架构,使用融合特征训练得到化学材料结晶预测模型;
步骤7,将待预测化学反应数据输入化学材料结晶预测模型,对其结晶情况进行预测。
2.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤2中使用公式(1)计算各条化学反应数据中各属性特征的相关系数:
Figure FDA0002917272070000011
其中ρX,Y为属性特征X和属性特征Y的相关系数,cov(X,Y)=E[(X-μX)(Y-μY)]为属性特征X和属性特征Y之间的协方差,σX、σY分别为属性特征X、属性特征Y的标准差,μX、μY分别为属性特征X、属性特征Y的均值。
3.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤3中的特征工程包括清洗异常数据、处理缺失值、数据变换、单个特征归一化处理、多特征的降维和选择,数据标准化处理包括数据缩放和无量纲化。
4.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤4的具体过程如下:
步骤41,分别使用主成分分析、线性判别分析、随机森林、Adaboost算法和融合的随机森林-Adaboost算法对初始数据集进行降维处理;
步骤42,将各降维结果输入支持向量机进行结晶度预测,根据结晶度预测的准确率大小筛选出降维效果较好的方法,将其降维结果作为数据集。
5.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤5中使用滑动窗口提取属性特征的局部特征,使用文本卷积神经网络提取属性特征的全局特征,对局部特征和全局特征进行拼接操作得到融合特征。
6.根据权利要求1所述的神经网络辅助化学材料合成的方法,其特征在于,所述步骤6中化学材料结晶预测模型由两组卷积层、池化层、全连接层、dropout层、全连接和激活层组成,卷积层中卷积核的大小为3×3,步长为1,填充方式为same,通道数为融合特征的数量,池化层中池化窗口的大小为2×2。
CN202110105565.6A 2021-01-26 2021-01-26 神经网络辅助化学材料合成的方法 Active CN112786120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110105565.6A CN112786120B (zh) 2021-01-26 2021-01-26 神经网络辅助化学材料合成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110105565.6A CN112786120B (zh) 2021-01-26 2021-01-26 神经网络辅助化学材料合成的方法

Publications (2)

Publication Number Publication Date
CN112786120A CN112786120A (zh) 2021-05-11
CN112786120B true CN112786120B (zh) 2022-07-05

Family

ID=75757299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110105565.6A Active CN112786120B (zh) 2021-01-26 2021-01-26 神经网络辅助化学材料合成的方法

Country Status (1)

Country Link
CN (1) CN112786120B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177733B (zh) * 2021-05-20 2023-05-02 北京信息科技大学 基于卷积神经网络的中小微企业数据建模方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107255646A (zh) * 2017-07-11 2017-10-17 华南理工大学 一种快速定量预测药物稳定性的方法
CN109493916A (zh) * 2018-06-29 2019-03-19 北京大学 一种基于稀疏性因子分析的基因-基因交互作用识别方法
CN110232434A (zh) * 2019-04-28 2019-09-13 吉林大学 一种基于属性图优化的神经网络架构评估方法
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules
CN110910964A (zh) * 2019-11-08 2020-03-24 深圳先进技术研究院 一种分子间的结合活性预测方法及装置
CN111613289A (zh) * 2020-05-07 2020-09-01 浙江大学医学院附属第一医院 个体化药物剂量预测方法、装置、电子设备及存储介质
CN111640471A (zh) * 2020-05-27 2020-09-08 牛张明 基于双向长短记忆模型的药物小分子活性预测的方法和系统
CN111933221A (zh) * 2020-08-03 2020-11-13 东北大学 一种预测Nb微合金钢动态再结晶分数的方法
CN111951891A (zh) * 2019-05-16 2020-11-17 清华大学 确定优化的核苷酸序列的方法和系统
WO2020234188A1 (en) * 2019-05-17 2020-11-26 Nec Oncoimmunity As Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538558B2 (en) * 2018-10-11 2022-12-27 The Regents Of The University Of California Optimization of gene sequences for protein expression

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107255646A (zh) * 2017-07-11 2017-10-17 华南理工大学 一种快速定量预测药物稳定性的方法
CN109493916A (zh) * 2018-06-29 2019-03-19 北京大学 一种基于稀疏性因子分析的基因-基因交互作用识别方法
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules
CN110232434A (zh) * 2019-04-28 2019-09-13 吉林大学 一种基于属性图优化的神经网络架构评估方法
CN111951891A (zh) * 2019-05-16 2020-11-17 清华大学 确定优化的核苷酸序列的方法和系统
WO2020234188A1 (en) * 2019-05-17 2020-11-26 Nec Oncoimmunity As Method and system for binding affinity prediction and method of generating a candidate protein-binding peptide
CN110910964A (zh) * 2019-11-08 2020-03-24 深圳先进技术研究院 一种分子间的结合活性预测方法及装置
CN111613289A (zh) * 2020-05-07 2020-09-01 浙江大学医学院附属第一医院 个体化药物剂量预测方法、装置、电子设备及存储介质
CN111640471A (zh) * 2020-05-27 2020-09-08 牛张明 基于双向长短记忆模型的药物小分子活性预测的方法和系统
CN111933221A (zh) * 2020-08-03 2020-11-13 东北大学 一种预测Nb微合金钢动态再结晶分数的方法
CN112164426A (zh) * 2020-09-22 2021-01-01 常州微亿智造科技有限公司 基于TextCNN的药物小分子靶点活性预测方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Convolutional Neural Networks for Crystal Material Property Prediction Using Hybrid Orbital-Field Matrix and Magpie Descriptors;Zhuo Cao等;《Crystals》;20190403;第9卷(第4期);全文 *
基于序列的跨膜蛋白质结晶倾向性预测方法研究;朱奇志;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20200715(第7期);全文 *
融合自注意力机制和多路金字塔卷积的软件需求聚类算法;康雁等;《计算机科学》;20200116;第47卷(第3期);全文 *

Also Published As

Publication number Publication date
CN112786120A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
Schleder et al. From DFT to machine learning: recent approaches to materials science–a review
Jiang et al. Protein secondary structure prediction: A survey of the state of the art
Dehuri et al. Evolutionarily optimized features in functional link neural network for classification
CN106980648B (zh) 一种基于概率矩阵分解结合相似度的个性化推荐方法
Hassan et al. A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
Carballido et al. CGD-GA: A graph-based genetic algorithm for sensor network design
Eftekhari et al. Eliciting transparent fuzzy model using differential evolution
Yu et al. Learning protein multi-view features in complex space
CN112786120B (zh) 神经网络辅助化学材料合成的方法
Saha et al. Gene selection by sample classification using k nearest neighbor and meta-heuristic algorithms
CN116798652A (zh) 一种基于多任务学习的抗癌药物反应预测方法
Hassantabar et al. CURIOUS: Efficient neural architecture search based on a performance predictor and evolutionary search
CN115661546A (zh) 一种特征选择与分类器联合设计的多目标优化分类方法
Habib et al. Classification of DNA sequence using machine learning techniques
Agarwal et al. Crop Prediction Using Ensemble Learning
Reyaz-Ahmed et al. Granular decision tree and evolutionary neural SVM for protein secondary structure prediction
Pokhrel A comparison of AutoML hyperparameter optimization tools for tabular data
Li et al. Using modified lasso regression to learn large undirected graphs in a probabilistic framework
Roussel et al. Accelerated sampling with stacked restricted boltzmann machines
Ji et al. Tri-objective optimization-based cascade ensemble pruning for deep forest
Novoselova et al. Optimized leaf ordering with class labels for hierarchical clustering
Shivaprasad et al. Ensemble model for accuracy prediction of protein secondary structure
US20240161864A1 (en) Diffusion model for generative protein design
Emami et al. Condensed Gradient Boosting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240219

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Country or region after: China

Address before: 650091 Yunnan Province, Kunming city Wuhua District Lake Road No. 2

Patentee before: YUNNAN University

Country or region before: China