CN113838538A

CN113838538A - 基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统

Info

Publication number: CN113838538A
Application number: CN202111001844.4A
Authority: CN
Inventors: 郑靖; 陆文聪; 麦嘉琪; 申玉姝; 王君亚
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-24

Abstract

本发明公开了一种基于随机森林快速分类有机‑无机杂化钙钛矿后处理胺的预测方法和系统，具体内容包括：建立数据集样本；生成描述符；随机划分训练集和测试集；利用最大相关最小冗余方法筛选变量，选出建模的最优变量子集；用随机森林分类算法建立快速分类有机‑无机杂化钙钛矿后处理胺的分类模型；根据建立的胺的快速分类模型，快速预报独立测试集的10个胺的类别。本发明基于可靠的文献真实值和建模方法，所建的有机‑无机杂化钙钛矿后处理胺的分类模型具有方便快捷，无化学污染的优点。

Description

基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统

技术领域

本发明涉及一种用于有机-无机杂化钙钛矿后处理胺的分类的方法和系统，是一种基于随机森林对后处理胺快速分类的方法，该方法应用于提高有机-无机杂化钙钛矿太阳能电池的稳定性。

背景技术

钙钛矿是指一类陶瓷氧化物，其分子通式为ABO₃，A位离子通常是稀土或者碱土具有较大离子半径的金属元素，B位一般为离子半径较小的元素，一般为过渡金属元素，如Mn、Co、Fe等。钙钛矿由于具有特定的稳定晶体结构，使其在光电领域具有巨大的发展前景，因此钙钛矿太阳能电池成为了近年来的研究热点。钙钛矿材料用于太阳能电池方面，不仅可以达到同其它太阳能电池相比较高的光电转换效率，且制作工艺也相对简单，价格低廉，稳定性较好。

有机-无机杂化钙钛矿(HOIPs)材料是由有机分子和无机分子组成的一类新型的复合晶体材料。无机组分可以为杂化结构提供热稳定性,硬度以及磁性和介电性能；有机配体可以提供结构多样性，高效的电学、光学性质。近几年,有机-无机杂化钙钛矿在太阳能电池领域得到了很好的发展和应用。

传统太阳能电池是由活动层中的硅制成，经过几十年的改进，这些设备的效率才达到了20％以上。而钙钛矿太阳能电池仅用了10年时间就达到了同样的水平。但钙钛矿太阳能电池有一个非常明显的问题，它的稳定性较差，各种研究发现钙钛矿在潮湿、氧气、紫外线等条件下的稳定性较差。因此，对钙钛矿进行后处理以提高其稳定性对太阳能电池的未来发展具有非常重要的研究意义。

随机森林(Random Forest，简称RF)是非常具有代表性的装袋(Bagging)集成算法，采用随机样本和随机特征构建单个基评估器，它的所有基评估器都是决策树，并根据决策树的不同可以同时适应分类和回归任务。随机森林算法的优点有：(1)可以产生高准确度的分类器；(2)它可以处理大量的数据集；(3)在建模过程中采用了无偏估计；(4)能够处理具有高维特征的输入样本，而且不需要降维；(5)能够评估各个特征在分类问题上的重要性等。

最大相关最小冗余(mRMR)是一种常见的用于自变量筛选的方法。该方法是一种滤波式的特征筛选算法，基于所选择的特征之间的冗余度应最小，与目标变量之间的相关性最大的理论来筛选自变量。但如何将基于随机森林算法应用于快速预测有机-无机杂化钙钛矿后处理的胺进行快速还需要进一步地探索和研究。

发明内容

为了解决现有技术的问题，本发明的目的在于克服已有技术存在的不足，提供一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法及其系统，能对用于有机-无机杂化钙钛矿后处理的胺进行快速准确分类，从而改善钙钛矿太阳能电池的稳定性差的问题。该方法通过计算胺的描述符，利用最大相关最小冗余筛选变量，通过随机森林算法建模，预测胺的类别。该方法能在几分钟内得到分类结果，方便快捷，无需实验和繁杂的计算。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，包括如下步骤：

(1)建立数据集样本：利用计算机系统，从文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构，作为数据集样本；

(2)生成描述符：用Chemdraw画出收集到的胺的结构，再用Dragon软件生成描述符；

(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量，利用Dragon生成的描述符为自变量，以变量自相关性为0.95初步筛选特征变量；

(4)利用最大相关最小冗余方法进一步筛选变量，选出建模的最优变量子集；

(5)随机划分训练集和测试集，测试集的比例占整个数据集的20％；

(6)采用随机森林分类算法建立后处理胺的分类模型；

(7)根据建立的模型，快速预报独立测试集的至少10个胺的结构式。

优选地，在所述的步骤(4)中，利用最大相关最小冗余方法进一步筛选特征变量的方法如下：

利用HyperMiner数据挖掘软件，将经过初筛的数据集导入，选择最大相关最小冗余的方法，确定好目标变量及自变量后点击“计算”，得到特征变量的相对重要性排序，在此基础上选择用于建模的特征变量。

一种实施用于有机-无机杂化钙钛矿后处理胺的预测的系统，执行本发明基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，包括：

输入模块：从公开发表的文献中查找用于有机-无机杂化钙钛矿后处理的胺的结构数据，并作为输入数据；

数据分析模块：利用输入模块获得的数据，执行基于基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，快速预测有机-无机杂化钙钛矿后处理的胺；

输出模块：将有机-无机杂化钙钛矿后处理的胺数据输出。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明的随机森林快速分类方法避免了重复试验，克服了传统实验“试错法”的不足，利用Dragon软件对画好的胺结构生成描述符，经过变量筛选与建模，将数据导入模型，可以在数秒内完成分类，能给实验人员提供指导与参考，从而缩短研发时间，降低研发成本；

2.本发明是在Dragon软件生成自变量并进行一定的特征筛选，再以随机森林建模，操作过程简单，成本低，节约人力及资源；

3.本发明整个过程不涉及实验及化学品，不产生环境污染，符合绿色环保理念。

附图说明

图1为本发明的程序框图。

图2为本发明的随机森林快速分类胺的分类模型建模结果混淆矩阵图。

图3为本发明的随机森林快速分类胺的分类模型留一法交叉验证结果混淆矩阵图。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，,一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，包括如下步骤：

(6)采用随机森林分类算法建立后处理胺的分类模型；

本实施例方法的步骤(6)中的随机森林分类算法是基于多个决策树的算法，与以往相关研究所用的支持向量机分类算法相比，具有更高的分类精确度。本实施例通过计算胺类分子二维结构的描述符，利用最大相关最小冗余筛选变量，并借助随机森林分类算法建模，预测预测胺的类别。通过这些方法能几分钟就可得到结果，方便快捷，无需实验和繁杂的计算。

实施例二

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，在所述的步骤(4)中，利用最大相关最小冗余方法进一步筛选特征变量的方法如下：

本实施例通过最大相关最小冗余方法筛选特征变量，可以快速准确的得到特征变量的相对重要性排序，便于后续的建模工作，该方法操作简单快捷，仅在数秒内就可以将成百上千个特征变量排序。

实施例三

本实施例与上述实施例基本相同，特别之处在于：

在本实施例中，一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理的胺的方法，包括如下步骤：

(1)利用计算机系统，从文献中查找用于有机-无机杂化钙钛矿后处理的胺，作为机器学习的数据集样本；，共找到符合要求的胺50个，部分结构如表1所示：

表1.部分胺结构表

(2)用Dragon软件对Chemdraw画出的胺二维结构生成描述符共5270个，部分描述符如表2所示：

表2.Dragon生成的部分胺的描述符表

(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量，发生反应的胺标记为类别0，不发生反应的胺标记为类别1，Dragon生成的描述符为自变量，以变量自相关性为0.95初步筛选出996个特征变量；

(4)以最大相关最小相关冗余筛选特征变量，选出了10个最优描述符，分别为：P_VSA_ppp_D；nHDon；CATS2D_00_DD；Hy；ChiA_B(m)；CIC4；SpMAD_AEA(dm)；SpMAD_L；TPSA(NO)；GATS2m。部分样本的10个最优描述符的数据如表3所示：

表3. 10个最优描述符的部分数据表

5)随机划分训练集和测试集，比例为80％:20％，训练集与测试集的样本量分别为40和10；

6)上述的数据处理后，用随机森林分类算法建立后处理胺的快速分类模型；

7)根据建立的有机-无机杂化钙钛矿后处理胺的快速分类模型和待分类的胺，快速预报独立测试集的胺的类别。

在本实施例中，基于随机森林分类算法建立的胺分类模型建模效果的混淆矩阵如图2所示。利用随机森林分类算法对40个胺样本数据进行分类建模，分类精确度达到了97.50％。

在本实施例中，基于随机森林分类算法建立的胺分类模型的留一法交叉验证结果的混淆矩阵如图3所示。利用留一法交叉验证对40个样本数据建立的分类模型进行交叉验证，分类精确度达到了80.00％。

在本实施例中，基于随机森林分类算法建立的胺分类模型的独立测试集预报结果，如表4所示。

表4.为本实施例的随机森林快速分类胺的分类模型独立测试集分类结果表

有表4可知，通过建立随机森林分类算法的预报模型对独立测试集中的10个样本进行预报，预报结果较好，10个样本均分类正确。

实施例四

本实施例与上述实施例基本相同，特别之处在于：

在本实施例中，一种实施用于有机-无机杂化钙钛矿后处理胺的预测的系统，执行上述实施例基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，包括：

输出模块：将有机-无机杂化钙钛矿后处理的胺数据输出。

本实施例系统的程序基于随机森林快速分类有机-无机杂化钙钛矿后处理胺的方法，建立数据集样本；生成描述符；随机划分训练集和测试集；利用最大相关最小冗余方法筛选变量，选出建模的最优变量子集；用随机森林分类算法建立快速分类有机-无机杂化钙钛矿后处理胺的分类模型；根据建立的胺的快速分类模型，快速预报独立测试集的10个胺的类别。本实施例系统基于可靠的文献真实值和建模方法，所建的有机-无机杂化钙钛矿后处理胺的分类模型具有方便快捷，无化学污染的优点。

综上所述，上述实施例基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的方法，包括以下步骤：(1)利用计算机系统，从文献中查找用于有机-无机杂化钙钛矿后处理的胺，作为数据集样本；(2)用Chemdraw画出收集到的胺的结构，再用Dragon软件生成描述符；(3)以钙钛矿薄膜与后处理胺是否发生反应为目标变量，Dragon生成的描述符为自变量，以变量自相关性为0.95初步筛选特征变量；(4)利用最大相关最小冗余方法进一步筛选变量，选出建模的最优变量子集；(5)随机划分训练集和测试集，测试集的比例占整个数据集的20％；(6)用随机森林分类算法建立后处理胺的分类模型；(7)根据建立的模型，快速预报独立测试集的10个胺。

上述实施例基于可靠的文献真实值和建模方法，所建的黄嘌呤衍生物抑制活性的预报模型具有方便快捷，无化学污染等优点。

上述实施例方法避免了重复试验，不断试错的过程，利用Dragon软件对画好的胺结构生成描述符，经过变量筛选与随机森林分类建模，可快速准确对胺分类，能给实验人员提供参考，缩短研发时间，降低研发成本；上述实施例方法是在Dragon软件生成自变量并进行一定的筛选的基础上，再以随机森林分类算法建模，操作过程简单，成本低，仅需一人便可完成。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，其特征在于，包括如下步骤：

(6)采用随机森林分类算法建立后处理胺的分类模型；

2.根据权利要求1所述基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，其特征在于：在所述的步骤(4)中，利用最大相关最小冗余方法进一步筛选特征变量的方法如下：

3.一种实施用于有机-无机杂化钙钛矿后处理胺的预测的系统，执行权利要求1-2中任意一项所述基于随机森林快速分类用于有机-无机杂化钙钛矿后处理胺的预测方法，其特征在于，包括：

输出模块：将有机-无机杂化钙钛矿后处理的胺数据输出。