CN113160906A - 一种MXenes材料稳定性分类系统及其运行方法 - Google Patents

一种MXenes材料稳定性分类系统及其运行方法 Download PDF

Info

Publication number
CN113160906A
CN113160906A CN202110429091.0A CN202110429091A CN113160906A CN 113160906 A CN113160906 A CN 113160906A CN 202110429091 A CN202110429091 A CN 202110429091A CN 113160906 A CN113160906 A CN 113160906A
Authority
CN
China
Prior art keywords
stability
mxenes
mxenes material
property
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110429091.0A
Other languages
English (en)
Other versions
CN113160906B (zh
Inventor
张磊
何牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110429091.0A priority Critical patent/CN113160906B/zh
Publication of CN113160906A publication Critical patent/CN113160906A/zh
Application granted granted Critical
Publication of CN113160906B publication Critical patent/CN113160906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C60/00Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

本发明公开了一种MXenes材料稳定性分类系统及其运行方法,该系统包括MXenes材料第一性原理性质计算数据库、特征处理模块、机器学习与预测模块和符号回归模块;所述特征处理模块的输入端与第一性原理性质计算数据库连接,输出端分别与机器学习与预测模块、符号回归模块连接。本发明引入特征工程用于稳定性相关性质描述符的筛选,有利于提高MXenes材料稳定性分类准确度至84%;引入符号回归突破性质描述符的局限性,回归出由基本特征组合而成的新描述符(PaulA‑RaV)3,更准确评价MXenes材料稳定性。

Description

一种MXenes材料稳定性分类系统及其运行方法
技术领域
本发明涉及一种材料分类系统,尤其涉及一种MXenes材料稳定性分类系统及其运行方法。
背景技术
MXenes材料作为一种二维无机过渡金属碳氮化物材料,同时具备高比表面积和高导电性,能大大减小导电材料和储能电池的体积,简化结构。目前已制备出的MXenes材料有限,而大量潜在的MXenes材料因为不清楚其稳定性,所以难以制备出新的稳定的MXenes材料。对于材料稳定性的筛选方法通常根据经验采用高通量筛选法,不过此种方法费时费力,且结果难以预测,效果有限。
近年来利用第一性原理和机器学习进行材料科学研究的方法逐渐被人所应用。CN110647989A公开了一种基于神经网络的石墨烯缺陷改性预测方法,利用第一性原理计算不同缺陷构型锯齿型石墨烯纳米带的电特性,构建模型训练、验证和测试数据集,然后利用构建好的数据集对神经网络模型进行训练,从而实现石墨烯电特性的快速预测。但对于MXenes材料稳定性而言,与之相关的性质多达数十种,除第一性原理能计算的特性外,额外引入的性质描述符需筛选、组合,以提高MXenes材料稳定性分类准确度。
发明内容
本发明的目的在于提供一种MXenes材料稳定性分类系统及其运行方法,将与稳定性相关性质的特征处理、符号回归与第一性原理和机器学习相结合,用于提高MXenes材料稳定性分类准确度,为实验制备提供指导。
本发明的目的通过以下技术方案实现,一种MXenes材料稳定性分类系统,包括MXenes材料第一性原理性质计算数据库、特征处理模块、机器学习与预测模块和符号回归模块;所述特征处理模块的输入端与第一性原理性质计算数据库连接,输出端分别与机器学习与预测模块、符号回归模块连接。
所述特征处理模块包括皮尔森系数单元和特征工程单元,两者的输入端与输出端相互连接;所述皮尔森系数单元根据各性质描述符作相关度测试;所述特征工程单元根据皮尔森系数相关度筛选MXenes材料性质。
所述符号回归模块通过MXenes材料的各性质符号回归运算,提炼、组合形成更好描述稳定性的新描述符。
一种MXenes材料稳定性分类系统的运行方法,包括以下步骤:
步骤1:收集获得MXenes材料第一性原理各项性质数据样本库。
步骤2:对步骤1中的性质数据样本进行特征处理,根据所有性质相关度系数筛选性质数据,并提取稳定性特征为机器学习输出项,其余性质为机器学习分类输入项。
步骤3:将步骤2特征处理后的性质数据样本按比例随机分成训练集和测试集,对训练集内性质数据样本进行机器学习,筛选准确评价各性质和稳定性间关系的模型并对MXenes材料的稳定性进行分类。
步骤4:用测试集内性质数据样本对步骤3训练好的模型进行测试,实际准确度达到80%以上,则可确定该模型作为MXenes材料稳定性分类的模型。
步骤5:对步骤2特征处理后的性质数据进行符号回归运算,以稳定性为因变量进行回归迭代,提炼、组合形成更好描述稳定性的新描述符。
优选的,所述步骤2中相关度系数筛选范围为:-0.95<相关度系数<0.95。
优选的,所述步骤3中训练集和测试集性质数据样本分配比例为6:2。
优选的,所述步骤3中各性质和稳定性间关系的模型选自KNN、随机森林、高斯、支持向量机中的一种,并以ROC曲线和AUC值筛选模型。
优选的,所述步骤5中更好描述稳定性的新描述符为 (PaulA-RaV)3,其中PaulA为A位元素的电负性,RaV为A位元素的范德瓦尔斯半径。
与现有技术相比,本发明的有益效果为:
1)本发明将特征工程引入第一性原理和和机器学习之间,用于稳定性相关性质描述符的筛选,有利于提高MXenes材料稳定性分类准确度至84%,为实验制备提供指导。
2)本发明将符号回归引入第一性原理和和机器学习之间,用于稳定性相关性质描述符的提炼、组合,突破性质描述符的局限性,回归出由基本特征组合而成的新描述符(PaulA-RaV)3,更准确评价MXenes材料稳定性。
附图说明
图1为实施例1 MXenes材料稳定性分类系统示意图;
图2为实施例1 MXenes材料稳定性分类系统特征处理模块示意图;
图3为实施例1 MXenes材料稳定性分类系统符号回归模块示意图;
图4为实施例2 MXenes材料稳定性分类系统运行方法特征处理皮尔森系数热力图;
图5为实施例2 MXenes材料稳定性分类系统运行方法特征处理相关度系数结果图;
图6为实施例2 MXenes材料稳定性分类系统运行方法机器学习不同算法模型ROC曲线图(a为KNN模型,b为随机森林模型,c为高斯模型,d为支持向量机模型);
图7为实施例2 MXenes材料稳定性分类系统运行方法模型测试混淆矩阵图;
图8为实施例2 MXenes材料稳定性分类系统运行方法符号回归运算结果图。
具体实施方式
下面结合附图和实施例对本发明技术方案作进一步说明。
实施例1
如图1所示,一种MXenes材料稳定性分类系统,包括MXenes材料第一性原理性质计算数据库、特征处理模块、机器学习与预测模块和符号回归模块,特征处理模块的输入端与第一性原理性质计算数据库连接,输出端分别与机器学习与预测模块、符号回归模块连接。
MXenes材料第一性原理性质计算数据库为收集得到的MXenes材料第一性原理各项性质数据样本库。
特征处理模块包括皮尔森系数单元和特征工程单元,两者的输入端与输出端相互连接。皮尔森系数单元根据各性质描述符作相关度测试。特征工程单元根据皮尔森系数相关度筛选MXenes材料性质,并确定机器学习与预测模块的输入项与输出项(稳定性)(如图2)。
机器学习与预测模块包括训练单元与测试单元,训练单元与测试单元的MXenes材料性质数据为按比例随机分配。训练单元通过算法模型学习输入项与输出项(稳定性)间的关系,并进行分类。测试单元检测算法模型实际准确度。
符号回归模块根据MXenes材料的数个现有性质描述符利用符号回归算法,以输出项为因变量进行回归迭代,提炼、组合形成更好描述输出项(稳定性)的新描述符(如图3)。
实施例2
一种MXenes材料稳定性分类系统的运行方法,包括以下步骤:
步骤1:利用爬虫程序、数据库搜索引擎等工具,收集MXenes材料第一性原理各项性质数据样本。
步骤2:对步骤1中的性质数据样本进行特征处理,根据所有性质相关度测试结构绘制皮尔森系数热力图(如图4),以-0.95<相关度系数<0.95筛选性质数据(如图5),并提取稳定性特征为机器学习输出项,其余性质为机器学习分类输入项。
步骤3:将步骤2特征处理后的性质数据样本按比例随机分成训练集和测试集,训练集和测试集性质数据样本分配比例为6:2。对训练集内性质数据样本进行机器学习,通过KNN、随机森林、高斯、支持向量机等不同算法模型学习各性质和稳定性之间的关系,并自动对MXenes材料的稳定性进行分类(稳定材料和不稳定材料),根据ROC曲线和AUC值(如图6)筛选模型。在本实施例中,图6a所示的KNN模型的ROC曲线最完美,AUC值最高达到了0.92,即所有阈值下的平均准确度在90%以上,因此选择KNN模型用于后续测试集中MXenes材料的稳定性分类。
步骤4:用测试集内性质数据样本对步骤3训练好的模型进行测试,根据测试结果绘制混淆矩阵(如图7),得出测试模型的实际准确度。本实施例中,对测试集内25个样本进行预测,预测结果与实际一致判断为不稳定材料的有5个,预测结果与实际一致判断为稳定材料的有16个,实际准确度为84%(>80%),可确定步骤3训练所得KNN模型作为MXenes材料稳定性分类的模型。
步骤5:对步骤2特征处理后的性质数据进行符号回归运算,以稳定性为因变量进行回归迭代(如图8),提炼、组合形成更好描述输出项的新描述符。本实施例中,通过符号回归运算结果二叉树逆推可得新描述符为(PaulA-RaV)3,其中PaulA为A位元素的电负性,RaV为A位元素的范德瓦尔斯半径,(PaulA-RaV)3与稳定性的关联度为0.43,比原始特征的最高值0.34更高,可以更好地判断材料是否稳定。

Claims (8)

1.一种MXenes材料稳定性分类系统,其特征在于,包括MXenes材料第一性原理性质计算数据库、特征处理模块、机器学习与预测模块和符号回归模块;所述特征处理模块的输入端与第一性原理性质计算数据库连接,输出端分别与机器学习与预测模块、符号回归模块连接。
2.如权利要求1所述的MXenes材料稳定性分类系统,其特征在于,所述特征处理模块包括皮尔森系数单元和特征工程单元,两者的输入端与输出端相互连接;所述皮尔森系数单元根据各性质描述符作相关度测试;所述特征工程单元根据皮尔森系数相关度筛选MXenes材料性质。
3.如权利要求1所述的MXenes材料稳定性分类系统,其特征在于,所述符号回归模块通过MXenes材料的各性质符号回归运算,提炼、组合形成更好描述稳定性的新描述符。
4.权利要求1所述的MXenes材料稳定性分类系统的运行方法,其特征在于,包括以下步骤:
步骤1:收集获得MXenes材料第一性原理各项性质数据样本库;
步骤2:对步骤1中的性质数据样本进行特征处理,根据所有性质相关度系数筛选性质数据,并提取稳定性特征为机器学习输出项,其余性质为机器学习分类输入项;
步骤3:将步骤2特征处理后的性质数据样本按比例随机分成训练集和测试集,对训练集内性质数据样本进行机器学习,筛选准确评价各性质和稳定性间关系的模型并对MXenes材料的稳定性进行分类;
步骤4:用测试集内性质数据样本对步骤3训练好的模型进行测试,实际准确度达到80%以上,则可确定该模型作为MXenes材料稳定性分类的模型;
步骤5:对步骤2特征处理后的性质数据进行符号回归运算,以稳定性为因变量进行回归迭代,提炼、组合形成更好描述稳定性的新描述符。
5.如权利要求4所述的MXenes材料稳定性分类系统的运行方法,其特征在于,所述步骤2中相关度系数筛选范围为:-0.95<相关度系数<0.95。
6.如权利要求4所述的MXenes材料稳定性分类系统的运行方法,其特征在于,所述步骤3中训练集和测试集性质数据样本分配比例为6:2。
7.如权利要求4所述的MXenes材料稳定性分类系统的运行方法,其特征在于,所述步骤3中各性质和稳定性间关系的模型选自KNN、随机森林、高斯、支持向量机中的一种,并以ROC曲线和AUC值筛选模型。
8.如权利要求4所述的MXenes材料稳定性分类系统的运行方法,其特征在于,所述步骤5中更好描述稳定性的新描述符为 (PaulA-RaV)3,其中PaulA为A位元素的电负性,RaV为A位元素的范德瓦尔斯半径。
CN202110429091.0A 2021-04-21 2021-04-21 一种MXenes材料稳定性分类系统及其运行方法 Active CN113160906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110429091.0A CN113160906B (zh) 2021-04-21 2021-04-21 一种MXenes材料稳定性分类系统及其运行方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110429091.0A CN113160906B (zh) 2021-04-21 2021-04-21 一种MXenes材料稳定性分类系统及其运行方法

Publications (2)

Publication Number Publication Date
CN113160906A true CN113160906A (zh) 2021-07-23
CN113160906B CN113160906B (zh) 2024-01-02

Family

ID=76867525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110429091.0A Active CN113160906B (zh) 2021-04-21 2021-04-21 一种MXenes材料稳定性分类系统及其运行方法

Country Status (1)

Country Link
CN (1) CN113160906B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180019A1 (en) * 2013-01-17 2016-06-23 Edico Genome, Inc. Bioinformatics Systems, Apparatuses, And Methods Executed On An Integrated Circuit Processing Platform
CN108604260A (zh) * 2016-01-11 2018-09-28 艾迪科基因组公司 用于现场或基于云的dna和rna处理和分析的基因组学基础架构
CN109844969A (zh) * 2016-07-18 2019-06-04 剑桥企业有限公司 可扩展量子限制装置
CN110411955A (zh) * 2019-07-15 2019-11-05 中山大学中山眼科中心 一种基于分子特征预测物质颜色气味的人工智能训练系统
US20200029858A1 (en) * 2018-07-29 2020-01-30 nGagelT Digital Health, Inc. Systems, Methods and Devices for Detecting and Identifying Substances in a Subject's Breath
CN112382352A (zh) * 2020-10-30 2021-02-19 华南理工大学 基于机器学习的金属有机骨架材料结构特征快速评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180019A1 (en) * 2013-01-17 2016-06-23 Edico Genome, Inc. Bioinformatics Systems, Apparatuses, And Methods Executed On An Integrated Circuit Processing Platform
CN108604260A (zh) * 2016-01-11 2018-09-28 艾迪科基因组公司 用于现场或基于云的dna和rna处理和分析的基因组学基础架构
CN109844969A (zh) * 2016-07-18 2019-06-04 剑桥企业有限公司 可扩展量子限制装置
US20200029858A1 (en) * 2018-07-29 2020-01-30 nGagelT Digital Health, Inc. Systems, Methods and Devices for Detecting and Identifying Substances in a Subject's Breath
CN110411955A (zh) * 2019-07-15 2019-11-05 中山大学中山眼科中心 一种基于分子特征预测物质颜色气味的人工智能训练系统
CN112382352A (zh) * 2020-10-30 2021-02-19 华南理工大学 基于机器学习的金属有机骨架材料结构特征快速评估方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
VENTURI V等: "Machine learning enabled discovery of application dependent design principles for two-dimensional materials", 《MACHINE LEARNING: SCIENCE AND TECHNOLOGY》, vol. 1, no. 3, pages 1 - 32 *
孙翔: "二维改性MXenes催化活化小分子的多尺度模拟研究", 《中国博士学位论文全文数据库 (工程科技Ⅰ辑)》, no. 2, pages 47 - 55 *
张磊等: "基于Sentinel-2A MSI数据的水体信息提取算法对比研究", 《激光与光电子学进展》, vol. 59, no. 12, pages 505 - 515 *
都时禹等: "自然启发算法库构建设想及其在新材料研发中的意义", 《无机材料学报》, vol. 34, no. 1, pages 27 - 36 *
齐新等: "MXenes二维纳米材料及其在锂离子电池中的应用研究进展", 《材料工程》, no. 12, pages 14 - 24 *

Also Published As

Publication number Publication date
CN113160906B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN112382352B (zh) 基于机器学习的金属有机骨架材料结构特征快速评估方法
Li et al. An ant colony optimization based dimension reduction method for high-dimensional datasets
CN111210871A (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
CN108363810A (zh) 一种文本分类方法及装置
Feng et al. A fast divisive clustering algorithm using an improved discrete particle swarm optimizer
CN113364751B (zh) 网络攻击预测方法、计算机可读存储介质及电子设备
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN113066528B (zh) 基于主动半监督图神经网络的蛋白质分类方法
CN114530210A (zh) 药物分子筛选方法及系统
CN112817954A (zh) 一种基于多种方法集成学习的缺失值插补方法
CN112365931B (zh) 一种用于预测蛋白质功能的数据多标签分类方法
CN113160906B (zh) 一种MXenes材料稳定性分类系统及其运行方法
Lanzarini et al. A new binary pso with velocity control
Dang et al. Using dimension reduction with feature selection to enhance accuracy of tumor classification
Singh et al. Multiclass imbalanced big data classification utilizing spark cluster
CN114492569A (zh) 一种基于宽度学习系统的台风路径分类方法
CN114417977A (zh) 一种基于变压器数据样本扩充的故障诊断方法及系统
CN112308160A (zh) 一种k—均值聚类人工智能优化算法
Zhong et al. Incremental clustering algorithm for intrusion detection using clonal selection
CN112085146A (zh) 基于de-qpso的mkrvm对rf-mems开关的寿命预测方法
CN117520802B (zh) 一种电力工程现场轻量级审计事件识别方法、系统及设备
Bhat et al. OTU clustering: A window to analyse uncultured microbial world
CN116662859B (zh) 非遗文化数据特征选择方法
CN115017125B (zh) 改进knn方法的数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant