CN115691699A - 适用于含能化合物数据挖掘的方法及系统 - Google Patents
适用于含能化合物数据挖掘的方法及系统 Download PDFInfo
- Publication number
- CN115691699A CN115691699A CN202211352817.6A CN202211352817A CN115691699A CN 115691699 A CN115691699 A CN 115691699A CN 202211352817 A CN202211352817 A CN 202211352817A CN 115691699 A CN115691699 A CN 115691699A
- Authority
- CN
- China
- Prior art keywords
- correlation
- features
- data
- mining
- energetic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种适用于含能化合物数据挖掘的方法及系统,属于化学信息学计算中含能化合物构效关系技术领域,包括步骤:S1,数据预处理;S2,提取分子拓扑结构特征和量子化学计算的特征,生成指纹普特征;S3,计算皮尔森相关性和信息熵,筛选出线性相关与非相信相关的特征,进行特征降维,删除特征之间线性相关性高于设定值的冗余特征;S4,知识挖掘与模型验证,发掘特征库之间的相关性与知识关联。本发明可以对含能材料按照骨架和基团进行数据分类,挖掘多维度的线性特征和非线性特征,将更多基于化学专业知识的特征嵌入图结构模型训练过程,利用本发明的数据挖掘引擎能够筛选出强关联的分子特征,可以弥补现有模型的不足。
Description
技术领域
本发明涉及化学信息学计算中含能化合物构效关系技术领域,更为具体的,涉及一种适用于含能化合物数据挖掘的方法及系统。
背景技术
含能材料是一类含有爆炸性基团或含有氧化剂和可燃物、能独立进行化学反应并输出能量的化合物或混合物,是军用炸药、发射药和火箭推进剂配方的重要组成部分,在国防、航天、民用都有广泛的应用。由于此类材料的实验合成存在危险和成本高昂的问题,并且实际应用中对感度和能量性质都有很高的要求(低感度:热稳定性好,机械感度低;爆轰性能:爆压、爆速、爆热等性质优秀),所以从理论计算入手加快含能材料的研发具有很高的研究价值。
自上世纪50年代以来,利用电子计算机的数值模拟兴起,基于密度泛函理论的计算能够准确可靠的模拟分子构象,这大大加快了含能材料的研究进展。然而这类的分子模拟计算过程繁琐并耗时长,消耗大量的计算成本,构建更快更精确的构效关系预测模型亟待解决。
本世纪以来,计算机的性能大大增强,与此相对应的是数据的快速增长,从而促进了大数据和人工智能技术的发展。现有的机器学习方法在含能材料的各种重要性质方面早有诸多应用,最前沿的研究以分子图作为输入图神经网络取得了巨大的模型性能提升。但含能材料领域一是存在数据样本紧缺,数据分布不均的问题,二则是某些化学性质例如分解、爆燃过程涉及复杂的反应机理,需要更多基于化学专业知识的特征嵌入图结构模型训练的过程。因此,通过数据挖掘引擎筛选出强关联的分子特征,用于弥补现有模型的不足成为此领域研究的关键。本发明技术方案旨在对上述技术问题提出解决方案。
发明内容
本发明的目的在于克服现有技术的不足,提供一种适用于含能化合物数据挖掘的方法及系统,解决了背景中的问题:让数据分布均匀、同时拥有更多基于化学专业知识的特征嵌入图结构模型训练过程。利用本发明的数据挖掘引擎能够筛选出强关联的分子特征,可以弥补现有模型的不足。
本发明的目的是通过以下方案实现的:
一种适用于含能化合物数据挖掘的方法,包括以下步骤:
S1,数据预处理:获取含能分子结构和其对应的物理化学属性值,根据组分和结构的筛选条件,筛选组分中仅含CHON四种元素的化合物,结构上含有硝基的单分子的电中性化合物,且分子中原子数量小于设定范围,将筛选结果进行去重后进行编码存储,作为数据集;再将数据集按照硝基键连化学环境的类型分类,构造类型均匀分布的训练集和测试集;
S2,计算特征:分别提取预处理后的分子拓扑结构特征和量子化学计算的特征,生成指纹普特征,构建特征库,针对不同的材料属性,建立多个分子特征库,一个特征库包含计算得到的所有特征;包括以下类型:采用Rdkit工具提取的分子2D结构特征、本发明定义的与含能材料领域相关的分子拓扑结构特征、采用量子化学计算得到的特征,完成构建特征库;
S3,筛选特征:计算皮尔森相关性和信息熵,筛选出线性相关与非相信相关的特征,用递归特征消除RFECV的方法进行特征降维,删除特征之间线性相关性高于设定值的冗余特征;
S4,知识挖掘与模型验证:发掘特征库之间的相关性与知识关联,从专家知识角度验证属性与特征的强相关性,拼接指纹普特征作为机器学习模型的输入,调整参数,在不同的模型上采用交叉验证的方法验证和评估特征,得到最优定量结构-性质关系QSPR模型,用于含能化合物数据挖掘。
进一步地,在步骤S1中,所述分子结构以正则SMILES编码进行存储,判断分子式是否含有CHON之外的元素用Python的字符处理分子式实现,采用生成好的正则SMILES集合用于去重;判断分子是否含有硝基和记录硝基的连接类型,排除分子结构中含有离子化合物或者水合物的情况,将分子所含原子总数控制在八十个以内;并且,水合物和离子盐用字符串比对实现,硝基的查找和类型用子结构查找和分子图算法搜索实现;将硝基按照键连化学环境的类型分成七大类,包括链状氧硝基、链状氮硝基、链状碳硝基、普通环氮硝基、普通环碳硝基、芳香环氮硝基、芳香环碳硝基;训练集和测试集按照设定比例的比例进行构造,保证每种类型的分子按照同样的比例划分,在依次加入训练集和测试集,以此来保证数据划分的合理性。
进一步地,在步骤S2中,所述生成指纹普特征,针对不同的材料属性,建立多个分子特征库,一个特征库包含计算得到的所有特征,包括如下子步骤:
步骤(1):采用Rdkit软件,调用rdMolDescriptors模块计算2D描述符,采用摩根指纹方法计算指纹普特征,并用于描述分子结构的扩展连通性能;
步骤(2):设计特征描述含能材料拓扑结构;
步骤(3):提取DFT计算文件的特征。
进一步地,在步骤S3中,所述筛选特征涵盖了线性的和非线性的筛选方法,具体包括如下子步骤:
步骤1):采用皮尔森相关系数筛选特征;
步骤2):采用非线性的评估方法Copula负熵来计算非线性特征的相关性;
步骤3):选定任一机器学习模型用递归特征消除RFECV的方法来扩充候选特征库,通过将程序迭代n次来解决训练数据集的拆分和特征的随机选择过程的偶然性影响,n正整数;
步骤4):计算特征相关性矩阵,去除特征之间皮尔森Pearson线性相关性大于设定值的冗余特征,优先保留与属性值相关性强的特征。
进一步地,在步骤S4中,所述不同的模型包括支持向量回归SVR、岭回归KRR、随机森林。
进一步地,在步骤S4中,所述发掘特征库之间的相关性与知识关联还包括步骤:对特征进行线性和非线性的分析,从化学机理角度分析属性值与那些特征相关,从而挖掘出大数据中的化学知识。
进一步地,在步骤(1)中,所述2D描述符包括表征TPSA、MolLogP、Charges、氢键供受体性质的描述符。
进一步地,在步骤3)中,包括步骤:将模型n次均支持的特征放入特征候选库。
进一步地,在步骤S4中,包括子步骤:对特征进行规范化处理,使其数据的可分性更强。
一种适用于含能化合物数据挖掘的系统,包括计算机设备;所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行如上任一项所述的方法。
本发明的有益效果包括:
本发明技术方案从基于含能分子的拓扑计算和高通量计算结果中挖掘出多维度的特征,并提供了一种能够用于构建材料属性专家知识库和增强QSPR模型性能的方法。
首先S1步骤中,数据预处理过程除了能保证数据集中的含能材料分子满足组分和结构上的要求,还能应对含能材料领域目前存在的数据分布不均的情况,数据预处理将数据集按照硝基这种最重要的含能基团键连化学环境的类型分成了七大类,构造类型均匀分布的训练集和测试集。含能材料实验数据匮乏是导致高性能材料性质准确预测困难的重要原因,特别的,对性能优异的少部分含能分子,由于其物理化学机理的复杂性和特殊性,而现有技术和方法由于缺少领域知识难以处理类似于感度性质或是牵涉复杂反应机理的性质预测,因此,本发明在S2步骤中设计了涵盖拓扑特征和DFT特征的特征库构建方法,发明实例结果表明针对含能分子热稳定属性,这些特征新颖且有效。含能材料性质预测面临的第二大挑战则是模型过度拟合,随着深度学习的发展,模型复杂度提高,此前研究中的线性筛选方法(如皮尔森相关性)不再满足需求,对提高模型的泛化能力有很大的局限性。所以,本发明S3步骤提出了一种线性特征与非线性特征结合的特征筛选方案,很好的解决了非线性特征丢失和模型过度拟合的问题。最终将得到的高相关性特征输入S4步骤中的机器学习模型进行交叉验证,指纹普和特征库中其它分子特征一样,均可构造同样格式的一维向量作为模型训练的输入。指纹普代表了整个分子的扩展连通信息,其他特征代表与物理化学机理相关的多维度信息,作为领域知识嵌入可用于增强模型。为了整合二者所表征信息,本发明创造性采用指纹普拼接特征构造向量的方法进一步增强了模型的性能。
总之,本发明技术方基于数据挖掘的概念设计,利用本发明构建的含能化合物数据挖掘的引擎能够抽取、计算、并筛选出强关联的分子特征,让表征更多基于化学专业知识的特征嵌入含能分子构效关系模型的训练过程,可以很好的弥补现有模型的不足。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例方法步骤流程图;
图2为本发明实施例中含能材料分解温度数据挖掘方法步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明技术方案属于化学信息学计算中含能化合物构效关系技术领域,尤其涉及分子结构表征以及分子特征(高通量计算特征和拓扑结构特征)的计算,以及这些特征与材料物理化学性质的相关性(线性和非线性关系)评估方法。
本发明技术方案构思如下:利用本发明技术方案提供一个含能材料化合物的数据挖掘引擎,从基于含能分子的拓扑计算和高通量计算结果中挖掘出多维度的特征,并用于构建材料属性专家知识库和增强QSPR模型性能。本发明技术方案中包括用于实现含能材料的感度、能量等属性与其分子结构之间关联性的数据挖掘方法。从整体而言,包括步骤:1)提取基于Rdkit化学信息处理工具计算的分子描述符和自定义设计的与含能分子相关的描述符(与硝基,氮原子,环状结构相关的结构描述符);2)提取DFT计算文件(.log、.chk)中的构象信息和化学表面电荷分析相关的描述符、硝基键解离能BDE、硝基电荷、三维空间距离相关的、平面性、生成焓以及K-J方程计算的性能描述符;3)在步骤1)、2)的基础之上,构建特征库,输入特征线性相关筛选和非线性特征的筛选器,得到特定属性强关联的特征空间,再进行特征去冗余,这个过程可以概括为特征降维。将这些特征输入几种机器学习模型中,经过参数优化和交叉验证的方法进行模型,特征输入可以连接指纹普组成特征向量,或按照以上分类独立输入自由组合。
在本发明的进一步发明构思中,提供一种适用于含能化合物数据挖掘的方法,包括以下步骤:
步骤一,进行数据的预处理,获取含能材料单质炸药分子的结构文件和其对应的某个物理化学属性值,筛选仅含CHON四种元素的化合物、含硝基的单分子结构、中性化合物,以正则smiles编码进行存储。
步骤二,计算特征,基于分子拓扑结构的计算程序在集成Rdkit化学信息计算工具的python环境中实现,量子化学计算得到.log和.wfn后缀名的两种结果文件,wfn的提取调用MultiWFN程序实现,结果文件中特征信息的提取统一采用python脚本实现。
步骤三,筛选特征,采用皮尔森相关系数,信息熵,递归特征消除(RFECV)的方法进行特征筛选与降维,得到线性相关与非相信相关的特征。
步骤四,知识挖掘与模型验证,发掘特征库之间的相关性与知识关联,一方面可以从专家知识角度验证某属性与特征的强相关性,另一方面,在不同的模型上采用交叉验证的方法验证和评估特征,得到QSPR的最优模型。
在上述技术方案中,更进一步的发明构思在于:步骤一中,所述数据的预处理,具体实现方法包括步骤:读取分子Mol文件,判断分子式是否含有CHON之外的元素,生成正则SMILES集合用于去重,判断分子是否含有硝基和记录硝基的连接类型,排除分子式中是否有离子化合物、或者水合物等异常结构,分子原子总数控制在八十个以内。水合物和离子盐用字符串比对实现,硝基的查找和记录类型用子结构查找和分子图算法搜索实现。将硝基按照键连化学环境的类型分成了七大类包括链状氧硝基、链状氮硝基、链状碳硝基、普通环氮硝基、普通环碳硝基、芳香环氮硝基、芳香环碳硝基,在这个阶段可以看出每类数据的分布情况。以含能材料分解温度数据集为例,移除其初始分解温度小于50℃的数据。采用Rdkit将Mol对象进行初始空间坐标优化(EmbedMolecule方法)、普遍力场构象优化(UFFOptimizeMolecule方法)两个步骤后重新存入,用于后续的DFT计算。
在上述技术方案中,更进一步的发明构思在于:步骤二中,特征的计算详细方法,包括如下步骤:
(1)采用Rdkit软件,调用rdMolDescriptors模块计算2D描述符,包括但不限于表征TPSA、MolLogP、Charges、氢键供受体性质等的200个描述符。指纹普特征用于描述分子结构的扩展连通性能,采用摩根指纹方法计算,连通半径设置为2,位长设置为2048,考虑特征和手性分子。
(2)除了硝基化学环境的分类信息,还设计了更多的特征描述以下含能材料拓扑结构,具体包括步骤一中可判断的硝基的类型、唑的种类及其出现次数、硝基氮原子在构象中的键的最小或最大长度、分子结构中C、N、O三种相同原子毗连出现的最大次数、硝基氨个数、芳香原子的比例、硝基原子的比例、氨基个数、桥接氧例如N-O-N或者C-O-C结构的数目、是否含有稠环,环上原子的比例。
进一步的,获取同种骨架原子毗连出现的最大次数,本发明方法设计的步骤描述为:
步骤1,获取分子某种骨架的原子列表;
步骤2,获遍历原子列表,对每个原子采用递归算法,记录递归的返回结果;
步骤3,获在递归算法中,输入该原子下标,遍历该原子的邻居原子,如果满足递归条件,该邻居原子作为下一步输入。最大毗连数等于递归深度加1,记录已经遍历的原子不再遍历,初始递归返回值设置为1。
步骤4,获对原子列表的递归算法结果求最大值作为算法的结果。
(3)采用Python实现对DFT计算文件的特征提取,所包含的特征有以下类型,分子表面静电势分析结果,自旋密度,非氢原子之间原子的化学键距,HOMO原子芳香性指数,堆积指数,分子形状和半径、带隙,NO2-R硝基最强最弱的键长,硝基电荷,提取和计算的方法步骤主要如下:
1)一方面,直接从log文件和wfn文件中截取相关的段落与提取特征信息,包括步骤:
步骤1,读取文件获得文件IO流;
步骤2,编译开始字符和结束字符之间的正则表达式,正则匹配特征文本;
步骤3,根据性质名称构建字典作为返回结果。
2)另一方面,从log文件中获得精确构象信息,计算原子间距和硝基键长,包括如下步骤:
步骤1,截取包含原子连接信息的键级表段落;
步骤2,根据键级别表解析出原子间距离的二维矩阵;
步骤3,遍历除氢原子以外的键级表和二位矩阵,保存距离大于0.05的间距值;
步骤4,构造原子间距类型字典,更新最大和最小值,作为返回结果。
在上述技术方案中,更进一步的发明构思中在于:步骤三中,特征筛选的方法,包括如下步骤:
满足Pearson相关性系数>0.3,P-value<0.05的项加入候选特征。
2)采用非线性的评估方法Copula负熵来计算非线性特征的相关性,其计算原理如公式所示,Copula负熵可以广泛应用各个领域,其定义如以下公式所示,x为多随机变量,u为x的多随机变量,c为Copula密度函数:
Hc(x)=-∫uc(u)logc(u)du.
调用Copula代码库计算,负熵取值大于0.1输入候选特征库。
3)选定基于任一机器学习模型的递归特征消除(RFECV)的方式来筛选特征,由于训练数据集的拆分和特征的随机选择过程具有偶然性,将程序迭代n次,该模型n次均支持的特征放入特征候选库,执行步骤如下:
步骤1,设置模型、迭代次数、最小特征数、交叉验证次数、特征消除步长、评分函数等全局参数。交叉验证次数指每一次迭代过程中机器学习模型拟合以及评分的次数;特征消除步长指程序每次递归消除的特征数量;评分函数指最终特征的排序所参照的评价指标,有拟合度R2以及绝对误差MAE两种方式。
步骤2,循环迭代次数,初始化递归特征消除对象并读入特征与标签,进行交叉验证拟合,将每次特征消除的结果保存到临时目录。
步骤3,构造特征集合,遍历特征消除结果,将屡次迭代排名值Rank<3的特征添加到集合中。
4)计算特征相关性矩阵,去除特征之间Pearson线性相关性大于0.95的冗余特征,优先保留与属性值相关性强的特征。属性特征库被归类整理为三类特征用于后续输入,指纹普,拓扑结构计算特征和高通量计算特征。
在上述技术方案中,更进一步的发明构思中,在于:步骤四中,将特征进行组合输入机器学习模型:模型调用Scikit-learn中的具体实现,训练过程涉及三种模型,分别是支持向量回归(SVR)、岭回归(KRR)、随机森林。在为某种性质构建好特征库的基础上,将指纹位向量与高通量计算特征、拓扑结构计算特征拼接构造成组合向量的形式输入以上机器学习模型,模型先采用格点参数优化的方式得到最佳参数,最后再用五重交叉验证的方式评估QSPR模型对分子属性的拟合效果。某些特征经过特征规范化处理,使其数据的可分性更强,公式可表述如下,Xmin为该特征中在广义实验样本数据中的最小值,Xmax对应为最大值:
模型评价函数有平均误差MAE和拟合度R2,计算公式如下:
进一步的:对特征进行线性和非线性的分析,可从化学机理角度分析属性值与哪些特征相关,从而挖掘出大数据中的化学知识,如特征表所示,分解温度与特征对应的化学原理强相关。一方面,非线性特征在传统模型中发挥的效果有限,另一方面与高通量计算的更加精准的强相关性特征密切相关,由此,数据挖掘引擎提取构建的特征库可输入基于深度神经网络用于矫正模型。
最后一步对属性特征库加以利用,以含能材料分解温度数据挖掘为例,其图2所示可详细描述为以下步骤,与分解温度强相关性的特征及其属性值如表1中所示:
表1
不同的特征组合在随机森林模型上得到拟合效果报表2如下所示,表中数据表明指纹普结合拓扑结构特征得到了最好的拟合效果(如非标注训练集,均为在测试集合上五重交叉验证的结果,FP表示指纹普,Topology指拓扑特征,DFT指高通量计算特征,短划线_表示特征组合):
表2
实施例1
一种适用于含能化合物数据挖掘的方法,包括以下步骤:
S1,数据预处理:获取含能分子结构和其对应的物理化学属性值,根据组分和结构的筛选条件,筛选组分中仅含CHON四种元素的化合物,结构上含有硝基的单分子的电中性化合物,且分子中原子数量小于设定范围(80),将筛选结果进行去重后进行编码存储,作为数据集;再将数据集按照硝基键连化学环境的类型分类,构造类型均匀分布的训练集和测试集;
S2,计算特征:分别提取预处理后的分子拓扑结构特征和量子化学计算的特征,生成指纹普特征,针对不同的材料属性,建立多个分子特征库,一个特征库包含计算得到的所有特征,完成构建特征库;所述计算得到的所有特征包括以下类型:采用Rdkit工具提取的分子2D结构特征、本发明定义的与含能材料领域相关的分子拓扑结构特征、采用量子化学计算得到的特征;
S3,筛选特征:计算皮尔森相关性和信息熵,筛选出线性相关与非相信相关的特征,用递归特征消除RFECV的方法进行特征降维,删除特征之间线性相关性高于设定值的冗余特征;
S4,知识挖掘与模型验证:发掘特征库之间的相关性与知识关联,从专家知识角度验证属性与特征的强相关性,拼接指纹普特征作为机器学习模型的输入,调整参数,在不同的模型上采用交叉验证的方法验证和评估特征,得到最优定量结构-性质关系QSPR模型,用于含能化合物数据挖掘。
实施例2
在实施例1的基础上,在步骤S1中,所述分子结构以正则SMILES编码进行存储,判断分子式是否含有CHON之外的元素用Python的字符处理分子式实现,采用生成好的正则SMILES集合用于去重;判断分子是否含有硝基和记录硝基的连接类型,排除分子结构中含有离子化合物或者水合物的情况,将分子所含原子总数控制在八十个以内;并且,水合物和离子盐用字符串比对实现,硝基的查找和类型用子结构查找和分子图算法搜索实现;将硝基按照键连化学环境的类型分成七大类,包括链状氧硝基、链状氮硝基、链状碳硝基、普通环氮硝基、普通环碳硝基、芳香环氮硝基、芳香环碳硝基;训练集和测试集按照设定比例的比例进行构造,保证每种类型的分子按照同样的比例划分,在依次加入训练集和测试集,以此来保证数据划分的合理性,在步骤S1中数据预处理后能够看出每类数据的分布情况。
实施例3
在实施例1的基础上,在步骤S2中,所述生成指纹普特征,针对不同的材料属性,建立多个分子特征库,一个特征库包含计算得到的所有特征,包括如下子步骤:
步骤(1):采用Rdkit软件,调用rdMolDescriptors模块计算2D描述符,采用摩根指纹方法计算指纹普特征,并用于描述分子结构的扩展连通性能;
步骤(2):设计特征描述含能材料拓扑结构;具体包括步骤S1中可判断的硝基的类型、唑的种类及其出现次数、硝基氮原子在构象中的键的最小或最大长度、分子结构中C、N、O三种相同原子毗连出现的最大次数、硝基氨个数、芳香原子的比例、硝基原子的比例、氨基个数、桥接氧的数目、是否含有稠环和环上原子的比例;
步骤(3):提取DFT计算文件的特征,具体包括步骤:步骤1)构建选定计算水平下的高斯计算文件,计算并生成log文件和chk文件,对chk文件进一步处理成相应的wfn文件;步骤2)从log文件和wfn文件中截取相关的段落与提取特征信息的伪代码;步骤3)从log文件中获得精确构象原子间距和硝基键长的伪代码。所述特征包括分子表面静电势分析结果、自旋密度、非氢原子之间原子的化学键距、HOMO原子芳香性指数、堆积指数、分子形状和半径、带隙、NO2-R硝基最强最弱的键长和硝基电荷。
实施例4
在实施例1的基础上,在步骤S3中,所述筛选特征涵盖了线性的和非线性的筛选方法,具体包括如下子步骤:
步骤1):采用皮尔森相关系数筛选特征;
步骤2):采用非线性的评估方法Copula负熵来计算非线性特征的相关性;
步骤3):选定任一机器学习模型用递归特征消除RFECV的方法来扩充候选特征库,通过将程序迭代n次来解决训练数据集的拆分和特征的随机选择过程的偶然性影响,n正整数;
步骤4):计算特征相关性矩阵,去除特征之间皮尔森Pearson线性相关性大于设定值的冗余特征,优先保留与属性值相关性强的特征。
实施例5
在实施例1的基础上,在步骤S4中,所述不同的模型包括支持向量回归SVR、岭回归KRR、随机森林。在为某种性质构建好特征库的基础上,将指纹位向量与高通量计算特征、拓扑结构计算特征拼接构造成组合向量的形式输入三种模型中任一机器学习模型,模型先采用格点参数优化的方式得到最佳参数,最后再用五重交叉验证的方式评估QSPR模型对分子属性的拟合效果。
实施例6
在实施例1的基础上,在步骤S4中,所述发掘特征库之间的相关性与知识关联还包括步骤:对特征进行线性和非线性的分析,从化学机理角度分析属性值与那些特征相关,从而挖掘出大数据中的化学知识。
实施例7
在实施例3的基础上,在步骤(1)中,所述2D描述符包括表征TPSA、MolLogP、Charges、氢键供受体性质在内的200个描述符。
实施例8
在实施例4的基础上,在步骤3)中,包括步骤:将模型n次均支持的特征放入特征候选库。
实施例9
在实施例5的基础上,在步骤S4中,包括子步骤:对特征进行规范化处理,使其数据的可分性更强。
实施例10
一种适用于含能化合物数据挖掘的系统,包括计算机设备;所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行如实施例1~实施例9任一项所述的方法。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种适用于含能化合物数据挖掘的方法,其特征在于,包括以下步骤:
S1,数据预处理:获取含能分子结构和其对应的物理化学属性值,根据组分和结构的筛选条件,筛选组分中仅含CHON四种元素的化合物,结构上含有硝基的单分子的电中性化合物,且分子中原子数量小于设定范围,将筛选结果进行去重后进行编码存储,作为数据集;再将数据集按照硝基键连化学环境的类型分类,构造类型均匀分布的训练集和测试集;
S2,计算特征:分别提取预处理后的分子拓扑结构特征和量子化学计算的特征,生成指纹普特征,针对不同的材料属性,建立多个分子特征库,一个特征库包含计算得到的所有特征,完成构建特征库;
S3,筛选特征:计算皮尔森相关性和信息熵,筛选出线性相关与非相信相关的特征,用递归特征消除RFECV的方法进行特征降维,删除特征之间线性相关性高于设定值的冗余特征;
S4,知识挖掘与模型验证:发掘特征库之间的相关性与知识关联,从专家知识角度验证属性与特征的强相关性,拼接指纹普特征作为机器学习模型的输入,调整参数,在不同的模型上采用交叉验证的方法验证和评估特征,得到最优定量结构-性质关系QSPR模型,用于含能化合物数据挖掘。
2.根据权利要求1所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤S1中,在步骤S1中,所述分子结构以正则SMILES编码进行存储,判断分子式是否含有CHON之外的元素用Python的字符处理分子式实现,采用生成好的正则SMILES集合用于去重;判断分子是否含有硝基和记录硝基的连接类型,排除分子结构中含有离子化合物或者水合物的情况,将分子所含原子总数控制在八十个以内;并且,水合物和离子盐用字符串比对实现,硝基的查找和类型用子结构查找和分子图算法搜索实现;将硝基按照键连化学环境的类型分成七大类,包括链状氧硝基、链状氮硝基、链状碳硝基、普通环氮硝基、普通环碳硝基、芳香环氮硝基、芳香环碳硝基;训练集和测试集按照设定比例的比例进行构造,保证每种类型的分子按照同样的比例划分,在依次加入训练集和测试集,以此来保证数据划分的合理性。
3.根据权利要求1所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤S2中,所述生成指纹普特征,针对不同的材料属性,建立多个分子特征库,一个特征库包含计算得到的所有特征,包括如下子步骤:
步骤(1):采用Rdkit软件,调用rdMolDescriptors模块计算2D描述符,采用摩根指纹方法计算指纹普特征,并用于描述分子结构的扩展连通性能;
步骤(2):设计特征描述含能材料拓扑结构;
步骤(3):提取DFT计算文件的特征。
4.根据权利要求1所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤S3中,所述筛选特征涵盖了线性的和非线性的筛选方法,具体包括如下子步骤:
步骤1):采用皮尔森相关系数筛选特征;
步骤2):采用非线性的评估方法Copula负熵来计算非线性特征的相关性;
步骤3):选定任一机器学习模型用递归特征消除RFECV的方法来扩充候选特征库,通过将程序迭代n次来解决训练数据集的拆分和特征的随机选择过程的偶然性影响,n正整数;
步骤4):计算特征相关性矩阵,去除特征之间皮尔森Pearson线性相关性大于设定值的冗余特征,优先保留与属性值相关性强的特征。
5.根据权利要求1所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤S4中,所述不同的模型包括支持向量回归SVR、岭回归KRR、随机森林。
6.根据权利要求1所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤S4中,所述发掘特征库之间的相关性与知识关联还包括步骤:对特征进行线性和非线性的分析,从化学机理角度分析属性值与那些特征相关,从而挖掘出大数据中的化学知识。
7.根据权利要求3所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤(1)中,所述2D描述符包括表征TPSA、MolLogP、Charges、氢键供受体性质的描述符。
8.根据权利要求4所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤3)中,包括步骤:将模型n次均支持的特征放入特征候选库。
9.根据权利要求5所述的适用于含能化合物数据挖掘的方法,其特征在于,在步骤S4中,包括子步骤:对特征进行规范化处理,使其数据的可分性更强。
10.一种适用于含能化合物数据挖掘的系统,其特征在于,包括计算机设备;所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器加载并执行如权利要求1~9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211352817.6A CN115691699A (zh) | 2022-11-01 | 2022-11-01 | 适用于含能化合物数据挖掘的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211352817.6A CN115691699A (zh) | 2022-11-01 | 2022-11-01 | 适用于含能化合物数据挖掘的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115691699A true CN115691699A (zh) | 2023-02-03 |
Family
ID=85047643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211352817.6A Pending CN115691699A (zh) | 2022-11-01 | 2022-11-01 | 适用于含能化合物数据挖掘的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115691699A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423394A (zh) * | 2023-10-19 | 2024-01-19 | 中北大学 | 基于Python提取产物、团簇和化学键信息的ReaxFF后处理方法 |
-
2022
- 2022-11-01 CN CN202211352817.6A patent/CN115691699A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117423394A (zh) * | 2023-10-19 | 2024-01-19 | 中北大学 | 基于Python提取产物、团簇和化学键信息的ReaxFF后处理方法 |
CN117423394B (zh) * | 2023-10-19 | 2024-05-03 | 中北大学 | 基于Python提取产物、团簇和化学键信息的ReaxFF后处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | Scalable graph-based bug search for firmware images | |
CN108399201B (zh) | 一种基于循环神经网络的Web用户访问路径预测方法 | |
Kollias et al. | Network similarity decomposition (nsd): A fast and scalable approach to network alignment | |
Berger et al. | Computational solutions for omics data | |
JP2022554074A (ja) | 所望の有機分子に対して有機合成経路を設計するためのシステムおよび方法 | |
RU2722692C1 (ru) | Способ и система выявления вредоносных файлов в неизолированной среде | |
CN115691699A (zh) | 适用于含能化合物数据挖掘的方法及系统 | |
Zhao et al. | Improving ELM-based microarray data classification by diversified sequence features selection | |
Karthik et al. | Prognostic Kalman Filter Based Bayesian Learning Model for Data Accuracy Prediction. | |
CN112002380B (zh) | 基于机器学习的高生成热含能材料的自适应设计方法 | |
Qian et al. | Optimizing Ratio of Monotone Set Functions. | |
US20230154572A1 (en) | Retrosynthesis-related synthetic accessibility | |
Liu et al. | Discovering representative attribute-stars via minimum description length | |
CN113838541A (zh) | 设计配体分子的方法和装置 | |
CN111090859B (zh) | 一种基于图编辑距离的恶意软件检测方法 | |
He et al. | Measuring boundedness for protein complex identification in PPI networks | |
Wu et al. | BiN: A two-level learning-based bug search for cross-architecture binary | |
Xu et al. | A structure-induced framework for multi-label feature selection with highly incomplete labels | |
Chen et al. | Towards contiguous sequences in uncertain data | |
CN113177191A (zh) | 基于模糊匹配的固件函数相似性检测方法及系统 | |
CN114610606B (zh) | 基于到达-定值分析的二进制模块相似性匹配方法及装置 | |
CN115966249B (zh) | 基于分数阶神经网的蛋白质-atp结合位点预测方法及装置 | |
CN117497095B (zh) | 基于特征融合和数据增强的含能材料键离解能的预测方法 | |
Cingovska et al. | Protein Function Prediction by Clustering of Protein-Protein Interaction Network | |
Sharma et al. | A study of frequent itemset mining techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |