CN113838538A - 基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统 - Google Patents

基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统 Download PDF

Info

Publication number
CN113838538A
CN113838538A CN202111001844.4A CN202111001844A CN113838538A CN 113838538 A CN113838538 A CN 113838538A CN 202111001844 A CN202111001844 A CN 202111001844A CN 113838538 A CN113838538 A CN 113838538A
Authority
CN
China
Prior art keywords
post
organic
amine
inorganic hybrid
hybrid perovskite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111001844.4A
Other languages
English (en)
Inventor
郑靖
陆文聪
麦嘉琪
申玉姝
王君亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202111001844.4A priority Critical patent/CN113838538A/zh
Publication of CN113838538A publication Critical patent/CN113838538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)

Abstract

本发明公开了一种基于随机森林快速分类有机‑无机杂化钙钛矿后处理胺的预测方法和系统,具体内容包括:建立数据集样本;生成描述符;随机划分训练集和测试集;利用最大相关最小冗余方法筛选变量,选出建模的最优变量子集;用随机森林分类算法建立快速分类有机‑无机杂化钙钛矿后处理胺的分类模型;根据建立的胺的快速分类模型,快速预报独立测试集的10个胺的类别。本发明基于可靠的文献真实值和建模方法,所建的有机‑无机杂化钙钛矿后处理胺的分类模型具有方便快捷,无化学污染的优点。

Description

基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺 的预测方法及其系统
技术领域
本发明涉及一种用于有机-无机杂化钙钛矿后处理胺的分类的方法和系统,是一种基于随机森林对后处理胺快速分类的方法,该方法应用于提高有机-无机杂化钙钛矿太阳能电池的稳定性。
背景技术
钙钛矿是指一类陶瓷氧化物,其分子通式为ABO3,A位离子通常是稀土或者碱土具有较大离子半径的金属元素,B位一般为离子半径较小的元素,一般为过渡金属元素,如Mn、Co、Fe等。钙钛矿由于具有特定的稳定晶体结构,使其在光电领域具有巨大的发展前景,因此钙钛矿太阳能电池成为了近年来的研究热点。钙钛矿材料用于太阳能电池方面,不仅可以达到同其它太阳能电池相比较高的光电转换效率,且制作工艺也相对简单,价格低廉,稳定性较好。
有机-无机杂化钙钛矿(HOIPs)材料是由有机分子和无机分子组成的一类新型的复合晶体材料。无机组分可以为杂化结构提供热稳定性,硬度以及磁性和介电性能;有机配体可以提供结构多样性,高效的电学、光学性质。近几年,有机-无机杂化钙钛矿在太阳能电池领域得到了很好的发展和应用。
传统太阳能电池是由活动层中的硅制成,经过几十年的改进,这些设备的效率才达到了20%以上。而钙钛矿太阳能电池仅用了10年时间就达到了同样的水平。但钙钛矿太阳能电池有一个非常明显的问题,它的稳定性较差,各种研究发现钙钛矿在潮湿、氧气、紫外线等条件下的稳定性较差。因此,对钙钛矿进行后处理以提高其稳定性对太阳能电池的未来发展具有非常重要的研究意义。
随机森林(Random Forest,简称RF)是非常具有代表性的装袋(Bagging)集成算法,采用随机样本和随机特征构建单个基评估器,它的所有基评估器都是决策树,并根据决策树的不同可以同时适应分类和回归任务。随机森林算法的优点有:(1)可以产生高准确度的分类器;(2)它可以处理大量的数据集;(3)在建模过程中采用了无偏估计;(4)能够处理具有高维特征的输入样本,而且不需要降维;(5)能够评估各个特征在分类问题上的重要性等。
最大相关最小冗余(mRMR)是一种常见的用于自变量筛选的方法。该方法是一种滤波式的特征筛选算法,基于所选择的特征之间的冗余度应最小,与目标变量之间的相关性最大的理论来筛选自变量。但如何将基于随机森林算法应用于快速预测有机-无机杂化钙钛矿后处理的胺进行快速还需要进一步地探索和研究。
发明内容
为了解决现有技术的问题,本发明的目的在于克服已有技术存在的不足,提供一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统,能对用于有机-无机杂化钙钛矿后处理的胺进行快速准确分类,从而改善钙钛矿太阳能电池的稳定性差的问题。该方法通过计算胺的描述符,利用最大相关最小冗余筛选变量,通过随机森林算法建模,预测胺的类别。该方法能在几分钟内得到分类结果,方便快捷,无需实验和繁杂的计算。
为达到上述发明创造目的,本发明采用如下技术方案:
一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,包括如下步骤:
(1)建立数据集样本:利用计算机系统,从文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构,作为数据集样本;
(2)生成描述符:用Chemdraw画出收集到的胺的结构,再用Dragon软件生成描述符;
(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量,利用Dragon生成的描述符为自变量,以变量自相关性为0.95初步筛选特征变量;
(4)利用最大相关最小冗余方法进一步筛选变量,选出建模的最优变量子集;
(5)随机划分训练集和测试集,测试集的比例占整个数据集的20%;
(6)采用随机森林分类算法建立后处理胺的分类模型;
(7)根据建立的模型,快速预报独立测试集的至少10个胺的结构式。
优选地,在所述的步骤(4)中,利用最大相关最小冗余方法进一步筛选特征变量的方法如下:
利用HyperMiner数据挖掘软件,将经过初筛的数据集导入,选择最大相关最小冗余的方法,确定好目标变量及自变量后点击“计算”,得到特征变量的相对重要性排序,在此基础上选择用于建模的特征变量。
一种实施用于有机-无机杂化钙钛矿后处理胺的预测的系统,执行本发明基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,包括:
输入模块:从公开发表的文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构数据,并作为输入数据;
数据分析模块:利用输入模块获得的数据,执行基于基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,快速预测有机-无机杂化钙钛矿后处理的胺;
输出模块:将有机-无机杂化钙钛矿后处理的胺数据输出。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
1.本发明的随机森林快速分类方法避免了重复试验,克服了传统实验“试错法”的不足,利用Dragon软件对画好的胺结构生成描述符,经过变量筛选与建模,将数据导入模型,可以在数秒内完成分类,能给实验人员提供指导与参考,从而缩短研发时间,降低研发成本;
2.本发明是在Dragon软件生成自变量并进行一定的特征筛选,再以随机森林建模,操作过程简单,成本低,节约人力及资源;
3.本发明整个过程不涉及实验及化学品,不产生环境污染,符合绿色环保理念。
附图说明
图1为本发明的程序框图。
图2为本发明的随机森林快速分类胺的分类模型建模结果混淆矩阵图。
图3为本发明的随机森林快速分类胺的分类模型留一法交叉验证结果混淆矩阵图。
具体实施方式
以下结合具体的实施例子对上述方案做进一步说明,本发明的优选实施例详述如下:
实施例一:
在本实施例中,参见图1,,一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,包括如下步骤:
(1)建立数据集样本:利用计算机系统,从文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构,作为数据集样本;
(2)生成描述符:用Chemdraw画出收集到的胺的结构,再用Dragon软件生成描述符;
(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量,利用Dragon生成的描述符为自变量,以变量自相关性为0.95初步筛选特征变量;
(4)利用最大相关最小冗余方法进一步筛选变量,选出建模的最优变量子集;
(5)随机划分训练集和测试集,测试集的比例占整个数据集的20%;
(6)采用随机森林分类算法建立后处理胺的分类模型;
(7)根据建立的模型,快速预报独立测试集的至少10个胺的结构式。
本实施例方法的步骤(6)中的随机森林分类算法是基于多个决策树的算法,与以往相关研究所用的支持向量机分类算法相比,具有更高的分类精确度。本实施例通过计算胺类分子二维结构的描述符,利用最大相关最小冗余筛选变量,并借助随机森林分类算法建模,预测预测胺的类别。通过这些方法能几分钟就可得到结果,方便快捷,无需实验和繁杂的计算。
实施例二
本实施例与实施例一基本相同,特别之处在于:
在本实施例中,在所述的步骤(4)中,利用最大相关最小冗余方法进一步筛选特征变量的方法如下:
利用HyperMiner数据挖掘软件,将经过初筛的数据集导入,选择最大相关最小冗余的方法,确定好目标变量及自变量后点击“计算”,得到特征变量的相对重要性排序,在此基础上选择用于建模的特征变量。
本实施例通过最大相关最小冗余方法筛选特征变量,可以快速准确的得到特征变量的相对重要性排序,便于后续的建模工作,该方法操作简单快捷,仅在数秒内就可以将成百上千个特征变量排序。
实施例三
本实施例与上述实施例基本相同,特别之处在于:
在本实施例中,一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理的胺的方法,包括如下步骤:
(1)利用计算机系统,从文献中查找用于有机-无机杂化钙钛矿后处理的胺,作为机器学习的数据集样本;,共找到符合要求的胺50个,部分结构如表1所示:
表1.部分胺结构表
Figure BDA0003235727800000041
Figure BDA0003235727800000051
(2)用Dragon软件对Chemdraw画出的胺二维结构生成描述符共5270个,部分描述符如表2所示:
表2.Dragon生成的部分胺的描述符表
Figure BDA0003235727800000052
Figure BDA0003235727800000061
(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量,发生反应的胺标记为类别0,不发生反应的胺标记为类别1,Dragon生成的描述符为自变量,以变量自相关性为0.95初步筛选出996个特征变量;
(4)以最大相关最小相关冗余筛选特征变量,选出了10个最优描述符,分别为:P_VSA_ppp_D;nHDon;CATS2D_00_DD;Hy;ChiA_B(m);CIC4;SpMAD_AEA(dm);SpMAD_L;TPSA(NO);GATS2m。部分样本的10个最优描述符的数据如表3所示:
表3. 10个最优描述符的部分数据表
Figure BDA0003235727800000062
5)随机划分训练集和测试集,比例为80%:20%,训练集与测试集的样本量分别为40和10;
6)上述的数据处理后,用随机森林分类算法建立后处理胺的快速分类模型;
7)根据建立的有机-无机杂化钙钛矿后处理胺的快速分类模型和待分类的胺,快速预报独立测试集的胺的类别。
在本实施例中,基于随机森林分类算法建立的胺分类模型建模效果的混淆矩阵如图2所示。利用随机森林分类算法对40个胺样本数据进行分类建模,分类精确度达到了97.50%。
在本实施例中,基于随机森林分类算法建立的胺分类模型的留一法交叉验证结果的混淆矩阵如图3所示。利用留一法交叉验证对40个样本数据建立的分类模型进行交叉验证,分类精确度达到了80.00%。
在本实施例中,基于随机森林分类算法建立的胺分类模型的独立测试集预报结果,如表4所示。
表4.为本实施例的随机森林快速分类胺的分类模型独立测试集分类结果表
Figure BDA0003235727800000071
有表4可知,通过建立随机森林分类算法的预报模型对独立测试集中的10个样本进行预报,预报结果较好,10个样本均分类正确。
实施例四
本实施例与上述实施例基本相同,特别之处在于:
在本实施例中,一种实施用于有机-无机杂化钙钛矿后处理胺的预测的系统,执行上述实施例基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,包括:
输入模块:从公开发表的文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构数据,并作为输入数据;
数据分析模块:利用输入模块获得的数据,执行基于基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,快速预测有机-无机杂化钙钛矿后处理的胺;
输出模块:将有机-无机杂化钙钛矿后处理的胺数据输出。
本实施例系统的程序基于随机森林快速分类有机-无机杂化钙钛矿后处理胺的方法,建立数据集样本;生成描述符;随机划分训练集和测试集;利用最大相关最小冗余方法筛选变量,选出建模的最优变量子集;用随机森林分类算法建立快速分类有机-无机杂化钙钛矿后处理胺的分类模型;根据建立的胺的快速分类模型,快速预报独立测试集的10个胺的类别。本实施例系统基于可靠的文献真实值和建模方法,所建的有机-无机杂化钙钛矿后处理胺的分类模型具有方便快捷,无化学污染的优点。
综上所述,上述实施例基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的方法,包括以下步骤:(1)利用计算机系统,从文献中查找用于有机-无机杂化钙钛矿后处理的胺,作为数据集样本;(2)用Chemdraw画出收集到的胺的结构,再用Dragon软件生成描述符;(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量,Dragon生成的描述符为自变量,以变量自相关性为0.95初步筛选特征变量;(4)利用最大相关最小冗余方法进一步筛选变量,选出建模的最优变量子集;(5)随机划分训练集和测试集,测试集的比例占整个数据集的20%;(6)用随机森林分类算法建立后处理胺的分类模型;(7)根据建立的模型,快速预报独立测试集的10个胺。
上述实施例基于可靠的文献真实值和建模方法,所建的黄嘌呤衍生物抑制活性的预报模型具有方便快捷,无化学污染等优点。
上述实施例方法避免了重复试验,不断试错的过程,利用Dragon软件对画好的胺结构生成描述符,经过变量筛选与随机森林分类建模,可快速准确对胺分类,能给实验人员提供参考,缩短研发时间,降低研发成本;上述实施例方法是在Dragon软件生成自变量并进行一定的筛选的基础上,再以随机森林分类算法建模,操作过程简单,成本低,仅需一人便可完成。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

Claims (3)

1.一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,其特征在于,包括如下步骤:
(1)建立数据集样本:利用计算机系统,从文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构,作为数据集样本;
(2)生成描述符:用Chemdraw画出收集到的胺的结构,再用Dragon软件生成描述符;
(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量,利用Dragon生成的描述符为自变量,以变量自相关性为0.95初步筛选特征变量;
(4)利用最大相关最小冗余方法进一步筛选变量,选出建模的最优变量子集;
(5)随机划分训练集和测试集,测试集的比例占整个数据集的20%;
(6)采用随机森林分类算法建立后处理胺的分类模型;
(7)根据建立的模型,快速预报独立测试集的至少10个胺的结构式。
2.根据权利要求1所述基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,其特征在于:在所述的步骤(4)中,利用最大相关最小冗余方法进一步筛选特征变量的方法如下:
利用HyperMiner数据挖掘软件,将经过初筛的数据集导入,选择最大相关最小冗余的方法,确定好目标变量及自变量后点击“计算”,得到特征变量的相对重要性排序,在此基础上选择用于建模的特征变量。
3.一种实施用于有机-无机杂化钙钛矿后处理胺的预测的系统,执行权利要求1-2中任意一项所述基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,其特征在于,包括:
输入模块:从公开发表的文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构数据,并作为输入数据;
数据分析模块:利用输入模块获得的数据,执行基于基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法,快速预测有机-无机杂化钙钛矿后处理的胺;
输出模块:将有机-无机杂化钙钛矿后处理的胺数据输出。
CN202111001844.4A 2021-08-30 2021-08-30 基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统 Pending CN113838538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111001844.4A CN113838538A (zh) 2021-08-30 2021-08-30 基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111001844.4A CN113838538A (zh) 2021-08-30 2021-08-30 基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统

Publications (1)

Publication Number Publication Date
CN113838538A true CN113838538A (zh) 2021-12-24

Family

ID=78961536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111001844.4A Pending CN113838538A (zh) 2021-08-30 2021-08-30 基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统

Country Status (1)

Country Link
CN (1) CN113838538A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275634A (zh) * 2023-11-20 2023-12-22 桑若(厦门)光伏产业有限公司 一种基于机器学习的钙钛矿太阳能电池设计方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275634A (zh) * 2023-11-20 2023-12-22 桑若(厦门)光伏产业有限公司 一种基于机器学习的钙钛矿太阳能电池设计方法及装置
CN117275634B (zh) * 2023-11-20 2024-05-28 桑若(厦门)光伏产业有限公司 一种基于机器学习的钙钛矿太阳能电池设计方法及装置

Similar Documents

Publication Publication Date Title
CN110659207B (zh) 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法
CN109448788B (zh) 基因组学及生物信息学的微生物组学在线分析平台架构
CN112382352A (zh) 基于机器学习的金属有机骨架材料结构特征快速评估方法
CN111091878A (zh) 一种快速预测钙钛矿介电常数的方法
CN109473147B (zh) 一种快速预测高分子禁带宽度的方法
CN110309867A (zh) 一种基于卷积神经网络的混合气体识别方法
CN110059765B (zh) 一种矿物智能识别分类系统与方法
CN109902379A (zh) 一种三元太阳能电池活性层材料的筛选系统及其筛选方法
CN113052367A (zh) 一种基于集成机器学习高效预测钙钛矿的稳定性的方法
CN113838538A (zh) 基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统
CN112132177A (zh) 基于机器学习快速预测abo3钙钛矿带隙的在线预报方法
CN114139639B (zh) 一种基于自步邻域保持嵌入的故障分类方法
CN112132187A (zh) 基于随机森林快速判断钙钛矿结构稳定性的方法
CN103311374B (zh) 基于光致发光的太阳能晶硅硅片质量预测、控制方法
Bansal et al. Machine learning in perovskite solar cells: recent developments and future perspectives
CN113808681A (zh) 基于SHAP-CatBoost快速预测ABO3型钙钛矿材料比表面积的方法及其系统
CN117434429A (zh) 芯片的稳定性测试方法及相关装置
Xu et al. Celldefectnet: A machine-designed attention condenser network for electroluminescence-based photovoltaic cell defect inspection
CN117541095A (zh) 一种农用地土壤环境质量类别划分的方法
Qin et al. EDDNet: An efficient and accurate defect detection network for the industrial edge environment
CN115908917A (zh) 一种基于煤炭光谱数据的煤炭种类识别方法
CN112132185B (zh) 一种基于数据挖掘快速预测双钙钛矿氧化物带隙的方法
CN112116962A (zh) 一种空气成分识别方法及系统
CN116884536B (zh) 一种工业废渣砖生产配方自动优化方法及系统
CN114077848B (zh) 一种新型传感器阵列板及其混合气体分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination