CN112687355A

CN112687355A - 一种机器学习辅助的聚合物合成逆分析方法

Info

Publication number: CN112687355A
Application number: CN202011408052.4A
Authority: CN
Inventors: 陈茂; 谷宇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-20

Abstract

本发明属于聚合物合成技术领域，具体为一种机器学习辅助的聚合物合成逆分析方法。本发明利用机器学习技术，对于任意聚合反应，以各种聚合条件（包括单体、引发剂、溶剂种类、温度、光照条件）作为参数，通过数据库学习建立与聚合结果的模型关系。根据该模型，对于任意目标分子量或分子量分布，可预测出合适的反应条件。结果表明，本发明应用于传统自由基聚合以及可控自由基聚合，实验值与目标值高度吻合。本发明克服了传统聚合反应分析中分子量分布预测难、反应物种类的复杂影响难以定量化等缺陷。本发明适用范围广、能够解决复杂聚合体系中条件与结果之间的多维关系，可在短时间内按需求精准得到不同分子量、分子量分布的聚合物样品。

Description

一种机器学习辅助的聚合物合成逆分析方法

技术领域

本发明属于聚合物合成技术领域，具体涉及一种机器学习辅助的聚合物合成逆分析方法。

背景技术

逆合成分析方法是有机合成路线设计中最基本、最常用的方法，该方法从目标分子结构出发逐步推断出从方便易得的原料出发的合成路线，在医学、药物、农业和天然产物全合成领域得到了广泛的应用。而在高分子合成过程中，虽然反应路线较为确定，但同样的聚合反应在不同聚合条件下会生成不同分子量、分子量分布的样品。由于分子量和分子量分布对聚合物的性能有较大影响[Macromolecules,1994,27,4639；Chem.Soc.Rev.,2017,46,4119；Nat.Rev.Mater.,2019,4,761.]，在聚合物材料开发时常常需要合成具有不同分子量和分子量分布的聚合物库来进行构效关系研究，这一过程涉及大量的条件筛选和优化过程，造成巨大的时间成本和资源浪费，从而对材料的研发带来了困难。

近30年来兴起的可控自由基聚合方法通过保持增长链的活性，可以在一定程度内控制聚合物的分子量和较窄的分子量分布[Chem.Rev.,2016,116,835；Chem.Rev.,2009,109,4963；Prog.Polym.Sci.2007,32,93.]，但在分子量分布的任意控制上仍存在局限性。同时，由于不同的反应物种类(包括单体、引发剂、催化剂等)对聚合过程的影响难以定量化，所以在合成不同化学结构的聚合物时需要额外的条件优化过程。因此，需要一种快速、精准的聚合物合成逆分析方法能够对任意目标分子量、分子量分布提供合适的聚合反应条件，同时可以广泛适用于不同的反应物种类，以更高效地开发出高性能的聚合物材料。

机器学习方法能够利用已有的数据库进行学习，通过深层次的分析建立条件与结果之间的关系，以对新的实例作出预测，这一技术在学术研究和日常生活中均获得了广泛的应用。近年来，该方法逐渐被用于有机合成[Science,2018,360,186；Nature,2019,571,343；Angew.Chem.Int.Ed.,2020,59,725.]、无机合成[Nature,2016,533,73.]和材料设计[Nat.Mater.,2016,15,1120；J.Am.Chem.Soc.,2020,142,3301.]领域。由于其在处理多变量分析问题和探索复杂关系上的优越性，成为了可靠的辅助分析方法。将机器学习技术用于高分子合成，即可通过对过往聚合数据的学习建立聚合条件和结果之间的模型关系，在这一模型的基础上可以对任意目标分子量和分子量分布推断出合适的聚合条件，满足高效合成多样化聚合物库的要求。

基于以上原因，本方法提供了一种适用于各类聚合体系的机器学习辅助的聚合物合成逆分析方法，为制备聚合物库提供了一种便捷高效的路径。

发明内容

本发明的目的是提供一种便捷高效、适用于各类聚合体系的机器学习辅助的聚合物合成逆分析方法。

本发明提供的机器学习辅助的聚合物合成逆分析方法，利用机器学习技术，对于任意聚合反应，以各种聚合条件(包括单体、引发剂、溶剂种类、温度、光照条件等)作为参数，通过数据库学习建立与聚合结果(包括分子量、分子量分布等)的模型关系。以此模型为基础，对于任意目标分子量或分子量分布，预测出合适的反应条件；具体步骤如下：

(1)建立聚合反应数据库，根据不同的聚合反应类型，确立用于建立模型的聚合条件参数，将其作为输入端，将测得的聚合结果(包括分子量、分子量分布)作为输出端，建立机器学习模型；输入端的条件选择依据不同的反应类型，分为四种：

反应A，包括单体种类、引发剂种类、溶剂种类、单体浓度、引发剂浓度、温度、反应时间；

反应B，包括单体种类、引发剂种类、金属催化剂种类、配体种类、溶剂种类、单体浓度、引发剂浓度、金属催化剂浓度、配体浓度、温度、反应时间；

反应C，包括单体种类、引发剂种类、催化剂种类、溶剂种类、单体浓度、引发剂浓度、催化剂浓度、温度、光照强度、反应时间；

反应D，包括单体种类、链转移剂种类、溶剂种类、单体浓度、链转移剂浓度、温度、反应时间；

(2)将聚合反应条件以及聚合结果整理为数据库，去除数据中明显错误或偏离期望值的坏点，再对数据进行归一化和正则化处理，作为训练机器学习模型的样本数据；

(3)将经过预处理的样本数据按50/50至90/10％的比例分为训练集和验证集，采用机器学习算法对训练集进行学习，训练过程中通过交叉验证的方法确定使模型在训练集上预测能力最优的超参数组合，再将模型运用到测试集上，评估模型的预测性能并对比筛选出最优的机器学习模型；所述的机器学习算法包括岭回归算法、支持向量机算法、邻近算法、贝叶斯算法、决策树算法、神经网络算法或随机森林算法。

(4)对于任意目标分子量和分子量分布，利用优化的机器学习模型预测出合适的反应条件组合；同时利用主动学习的方法，将新的反应结果不断更新到数据库中进一步学习，提高模型的精准度。

本发明中，所述的反应溶剂种类为二甲基亚砜，N,N-二甲基甲酰胺、碳酸二甲酯、碳酸二乙酯、N-甲基吡咯烷酮、甲苯、苯甲醚、乙腈、乙酸乙酯、水中的一种或多种。

本发明中，反应A采用的引发剂种类为偶氮类、有机过氧类或无机过氧类化合物，其结构以此如下式(1)、(2)、(3)所示：

式(1)中，R₁为碳原子数为1～12的脂肪族基团；

式(2)中，R₂为氢、烷基、酰基、酯基或碳酸酯基；

式(3)中，R₃为铵或钾原子。

本发明中，反应B和反应C中采用的引发剂种类为α-卤代酯或烷基卤，其结构依次如下式(4)、(5)所示：

式(4)中，R₁为氢、烷基或芳基，R₂为氢、烷基或芳基，R₃为氢、烷基或芳基，X为氯或溴原子；

式(5)中，R₄为氢原子、烷基或芳基，R₅为氢原子、烷基或芳基，X为氯或溴原子。

本发明中，反应B中采用的金属催化剂种类为铜、铁、镍或钌的卤代盐。

本发明中，反应B中采用的配体种类为邻吡啶及其衍生物、三(2-甲氨基乙基)胺及其衍生物、三胺类化合物或四胺类化合物，其结构依次如下式(6)、(7)、(8)、(9)所示：

式(6)中，R₁为碳原子数为1～12的脂肪族基团；

式(7)中，R₂为烷基或酯基；

式(8)中，n为2～3之间的整数；

式(9)中，m为2～3之间的整数。

本发明中，反应C中的催化剂为卟啉、苝、二氢吩嗪、吩噁嗪、吩噻嗪为骨架的有机小分子化合物中的一种或几种。

本发明中，，反应D中的引发剂为以偶氮为骨架的化合物，所述的链转移剂为硫代碳酸酯，其结构依次如下式(10)所示：

式(10)中，R₁为：碳原子数为1～12的脂肪族基团、芳香族基团，碳原子数为1～12的烷基巯基、芳基巯基，碳原子数为1～12的烷氧基、芳氧基，碳原子数为1～12的二烷基氨基；R₂为氢原子、碳原子数为1～12的烷基；R₃为碳原子数为1～12的烷基、芳基；R₄为：碳原子数为1～12的烷氧基羰基，碳原子数为1～12的氟代烷氧基羰基、芳氧基羰基、腈基，碳原子数为1～12的烷基氨基羰基。

本发明中，所述的单体为(甲基)丙烯酸酯及其衍生物、(甲基)丙烯酰胺及其衍生物、苯乙烯及其衍生物、醋酸乙烯酯及其衍生物，结构依次如下式(13)～(16)所示：

式(13)中，R₁为氢原子或甲基；R₂为氢原子、烷基或芳基；

式(14)中，R₃为氢原子或甲基，R₄为氢原子、烷基或芳基，R₅为氢原子、烷基或芳基；

式(15)中，R₆为氢原子、烷基或芳基；

式(16)中，R₇为烷基或芳基。

本发明中，所述的反应A、B、C和D中所用单体浓度为0.1～10mol·L^-1，反应A、B、C和D中所用的引发剂为单体的0.0001～0.1mol％，反应B中所用金属催化剂为单体的0.0001～0.01mol％；反应B中所用配体为单体的0.0001～0.01mol％；反应C中所用催化剂为单体的0.0001～0.01mol％；反应D中所用的链转移剂为单体的0.0001～0.1mol％；对于反应A、B和D，反应时间为1～10小时，加热温度为室温～100℃；对于反应C，反应时间为1～10小时，加热温度为室温～60℃，光照反应使用发射波长为390～700nm的光源。

本发明中，所述的机器学习算法包括岭回归算法、支持向量机算法、邻近算法、贝叶斯算法、决策树算法、神经网络算法或随机森林算法。其中优选的机器学习算法为随机森林算法。随机森林算法是一种集成算法，属于自举汇聚法(Bagging)的一种，通过组合多个弱分类器，最终结果通过投票或取均值，使得整体模型的结果具有较高的精确度和泛化性能。

实验结果表明，本发明方法对于传统自由基聚合和可控自由基聚合都能够通过数据库的学习建立聚合条件与结果的关系模型，基于此模型，对于任意目标分子量和分子量分布，能够准确预测出合适的反应条件，实验值使得实验值与目标值高度吻合。本发明适用于不同的聚合反应物结构(包括单体、引发剂等)，可以在短时间内合成出具有不同化学结构、分子量以及分子量分布的聚合物库。

附图说明

图1为机器学习辅助的聚合物合成逆分析方法流程图。

图2为随机森林算法的原理图。

图3为主动学习策略提升模型精准度的流程图。

图4为实施实例11中聚合物合成逆分析的流程图。

具体实施方式

下面结合部分具体实施方案对本发明进行详述，这些实施例仅用于说明本发明，而不用于限制本发明的范围，实施例中的制备方案仅为优选方案，但本发明并不局限于优选制备方案。对于同一个反应，建立优化的机器学习模型之后，可以在一定范围内对任意目标分子量和分子量分布预测出合适的反应条件，同时也适用与不同的反应物种类，以实现不同化学结构聚合物的合成。

第一部分：聚合物数据库的建立

实施例1：采用反应A，改变不同的反应底物和条件制备不同分子量、分子量分布的样品

将引发剂(包括偶氮类、有机过氧类或无机过氧类化合物)和各类不同单体(包括(甲基)丙烯酸酯及其衍生物、(甲基)丙烯酰胺及其衍生物、苯乙烯及其衍生物、醋酸乙烯酯及其衍生物)加入到带有磁子的小瓶中，加入2mL溶剂(包括二甲基亚砜，N,N-二甲基甲酰胺、碳酸二甲酯、碳酸二乙酯、N-甲基吡咯烷酮、甲苯、苯甲醚、乙腈、乙酸乙酯、水中的一种或多种)，单体浓度为0.1～10mol·L^-1之间不等，引发剂浓度占单体的0.0001～0.1mol％不等。搅拌溶解均匀后将反应混合物脱除氧气，随后使反应体系在室温～100℃不等的条件下反应1～10小时。根据不同的反应条件组合共进行288组实验，GPC测得的聚合物分子量M_n在500～1×10⁶g/mol不等，分子量分布M_w/M_n在1～10不等。

实施例2：采用反应B，改变不同的反应底物和条件制备不同分子量、分子量分布的样品

将各类引发剂(α-卤代酯或烷基卤)、各类不同单体(包括(甲基)丙烯酸酯及其衍生物、(甲基)丙烯酰胺及其衍生物、苯乙烯及其衍生物、醋酸乙烯酯及其衍生物)、各类金属催化剂(包括铜、铁、镍或钌的卤代盐)和配体(包括邻吡啶及其衍生物、三(2-甲氨基乙基)胺及其衍生物、三胺类化合物或四胺类化合物)加入到带有磁子的小瓶中，加入2mL溶剂(包括二甲基亚砜，N,N-二甲基甲酰胺、碳酸二甲酯、碳酸二乙酯、N-甲基吡咯烷酮、甲苯、苯甲醚、乙腈、乙酸乙酯、水中的一种或多种)，单体浓度为0.1～10mol·L^-1之间不等，引发剂浓度占单体的0.0001～0.1mol％不等，金属催化剂浓度占单体的0.0001～0.01mol％不等，配体浓度占单体的0.0001～0.01mol％不等。搅拌溶解均匀后将反应混合物脱除氧气，随后使反应体系在室温～100℃不等的条件下反应1～10小时。根据不同的反应条件组合共进行576组实验，GPC测得的聚合物分子量M_n在1000～1×10⁶g/mol不等，分子量分布M_w/M_n在1～3不等。

实施例3：采用反应C，改变不同的反应底物和条件制备不同分子量、分子量分布的样品

将各类引发剂(α-卤代酯或烷基卤)、各类不同单体(包括(甲基)丙烯酸酯及其衍生物、(甲基)丙烯酰胺及其衍生物、苯乙烯及其衍生物、醋酸乙烯酯及其衍生物)和各类催化剂(卟啉、苝、二氢吩嗪、吩噁嗪、吩噻嗪为骨架的有机小分子化合物中的一种或几种)加入到带有磁子的小瓶中，加入2mL溶剂(包括二甲基亚砜，N,N-二甲基甲酰胺、碳酸二甲酯、碳酸二乙酯、N-甲基吡咯烷酮、甲苯、苯甲醚、乙腈、乙酸乙酯、水中的一种或多种)，单体浓度为0.1～10mol·L^-1之间不等，引发剂浓度占单体的0.0001～0.1mol％不等，催化剂浓度占单体的0.0001～0.01mol％。搅拌溶解均匀后将反应混合物脱除氧气，随后使反应体系在室温～60℃不等的条件下光照反应1～10小时，光源波长在390～700nm不等。根据不同的反应条件组合共进行576组实验，GPC测得的聚合物分子量M_n在500～5×10⁵g/mol不等，分子量分布M_w/M_n在1～2.5不等。

实施例4：采用反应D，改变不同的反应底物和条件制备不同分子量、分子量分布的样品

将偶氮二异丁腈、各类不同单体(包括(甲基)丙烯酸酯及其衍生物、(甲基)丙烯酰胺及其衍生物、苯乙烯及其衍生物、醋酸乙烯酯及其衍生物)和链转移剂硫代碳酸酯加入到带有磁子的小瓶中，加入2mL溶剂(包括二甲基亚砜，N,N-二甲基甲酰胺、碳酸二甲酯、碳酸二乙酯、N-甲基吡咯烷酮、甲苯、苯甲醚、乙腈、乙酸乙酯、水中的一种或多种)，单体浓度为0.1～10mol·L^-1之间不等，引发剂浓度占单体的0.0001～0.1mol％不等，链转移剂浓度占单体的0.0001～0.01mol％不等。搅拌溶解均匀后将反应混合物脱除氧气，随后使反应体系在室温～100℃不等的条件下反应1～10小时。根据不同的反应条件组合共进行576组实验，GPC测得的聚合物分子量M_n在1000～5×10⁵g/mol不等，分子量分布M_w/M_n在1～2.5不等。

第二部分：机器学习模型的建立

实施例5：采用反应A，建立聚合条件与结果的定量关系模型

将实施例1中得到的288组聚合结果进行统计，其中反应物种类变量利用独热编码技术转换成二进制参数，与单体浓度、引发剂浓度、反应温度和反应时间共同组成模型输入端，聚合得到的分子量和分子量分布作为模型输出端。将样本数据进行预处理后，按50/50至90/10％的比例随机分为训练集和验证集，采用多种机器学习算法(包括岭回归算法、支持向量机算法、邻近算法、贝叶斯算法、决策树算法、神经网络算法或随机森林算法)对训练集进行学习，训练过程中通过5折交叉验证的方法确定使模型在训练集上预测能力最优的超参数组合，再将模型运用到测试集上，评估模型的预测性能，其中随机森林算法在对分子量和分子量分布预测的均方根误差分别为132g/mol和0.12，为所有算法中最低，因此选取随机森林算法作为优选模型。

实施例6：采用反应B，建立聚合条件与结果的定量关系模型

将实施例2中得到的576组聚合结果进行统计，其中反应物种类变量利用独热编码技术转换成二进制参数，与单体浓度、引发剂浓度、催化剂浓度、反应温度和反应时间共同组成模型输入端，聚合得到的分子量和分子量分布作为模型输出端。将样本数据进行预处理后，按50/50至90/10％的比例随机分为训练集和验证集，采用多种机器学习算法(包括岭回归算法、支持向量机算法、邻近算法、贝叶斯算法、决策树算法、神经网络算法或随机森林算法)对训练集进行学习，训练过程中通过5折交叉验证的方法确定使模型在训练集上预测能力最优的超参数组合，再将模型运用到测试集上，评估模型的预测性能，其中随机森林算法在对分子量和分子量分布预测的均方根误差分别为107g/mol和0.11，为所有算法中最低，因此选取随机森林算法作为优选模型。

实施例7：采用反应C，建立聚合条件与结果的定量关系模型

将实施例3中得到的576组聚合结果进行统计，其中反应物种类变量利用独热编码技术转换成二进制参数，与单体浓度、引发剂浓度、催化剂浓度、反应温度、反应时间和光源波长共同组成模型输入端，聚合得到的分子量和分子量分布作为模型输出端。将样本数据进行预处理后，按50/50至90/10％的比例随机分为训练集和验证集，采用多种机器学习算法(包括岭回归算法、支持向量机算法、邻近算法、贝叶斯算法、决策树算法、神经网络算法或随机森林算法)对训练集进行学习，训练过程中通过5折交叉验证的方法确定使模型在训练集上预测能力最优的超参数组合，再将模型运用到测试集上，评估模型的预测性能，其中随机森林算法在对分子量和分子量分布预测的均方根误差分别为76g/mol和0.08，为所有算法中最低，因此选取随机森林算法作为优选模型。

实施例8：采用反应D，建立聚合条件与结果的定量关系模型

将实施例4中得到的576组聚合结果进行统计，其中反应物种类变量利用独热编码技术转换成二进制参数，与单体浓度、引发剂浓度、催化剂浓度、反应温度和反应时间共同组成模型输入端，聚合得到的分子量和分子量分布作为模型输出端。将样本数据进行预处理后，按50/50至90/10％的比例随机分为训练集和验证集，采用多种机器学习算法(包括岭回归算法、支持向量机算法、邻近算法、贝叶斯算法、决策树算法、神经网络算法或随机森林算法)对训练集进行学习，训练过程中通过5折交叉验证的方法确定使模型在训练集上预测能力最优的超参数组合，再将模型运用到测试集上，评估模型的预测性能，其中随机森林算法在对分子量和分子量分布预测的均方根误差分别为57g/mol和0.08，为所有算法中最低，因此选取随机森林算法作为优选模型。

第三部分：基于机器学习模型和主动学习策略进行聚合物合成逆分析

实施例9：采用反应A，在二甲基亚砜溶液中，以过氧化二苯甲酰为引发剂，加热制备分子量M_n分别为5×10³、2×10⁴、1×10⁵g/mol且分子量分布M_w/M_n分别为2、3.5、5的聚甲基丙烯酸甲酯

将单体种类和溶剂种类分别设定为甲基丙烯酸甲酯和二甲基亚砜，进行独热编码后，设定其余所有可能的反应条件组合，基于优化后的机器学习模型预测出相应的分子量和分子量分布，寻找其中满足目标分子量(M_n分别为5×10³、2×10⁴、1×10⁵g/mol)以及分子量分布(M_w/M_n分别为2、3.5、5)的聚合反应条件库，选取其中的个例进行聚合反应实验。若聚合得到的分子量和分子量分布与目标相差较远，则将新的反应实例更新到原数据库重新建立机器学习模型，再一次预测合适的聚合反应条件，经过三次循环，得到9组合适的反应参数以制备具有目标分子量和分子量分布的样品，其中分子量和分子量分布的平均误差分别为306g/mol和0.15。

实施例10：采用反应B，在乙腈溶液中，以2-溴丙酸为引发剂，氯化亚铜为金属催化剂，邻吡啶为配体，加热制备分子量M_n分别为5×10³、2×10⁴、1×10⁵g/mol且分子量分布M_w/M_n分别为1.1、1.5、1.9的聚丙烯腈

将单体、引发剂、金属催化剂、配体和溶剂种类分别设定为丙烯腈、2-溴丙酸、氯化亚铜、邻吡啶和乙腈，进行独热编码后，设定其余所有可能的反应条件组合，基于优化后的机器学习模型预测出相应的分子量和分子量分布，寻找其中满足目标分子量(M_n分别为5×10³、2×10⁴、1×10⁵g/mol)以及分子量分布(M_w/M_n分别为1.1、1.5、1.9)的聚合反应条件库，选取其中的个例进行聚合反应实验。若聚合得到的分子量和分子量分布与目标相差较远，则将新的反应实例更新到原数据库重新建立机器学习模型，再一次预测合适的聚合反应条件，经过四次循环，得到9组合适的反应参数以制备具有目标分子量和分子量分布的样品，其中分子量和分子量分布的平均误差分别为106g/mol和0.05。

实施例11：采用反应C，在N,N-二甲基甲酰胺溶液中，以2-溴代异丁酸为引发剂，吩噻嗪为光催化剂，在室温下光照制备分子量M_n分别为5×10³、1×10⁴、2×10⁴g/mol且分子量分布M_w/M_n分别为1.1、1.5、1.9的聚苯乙烯

将单体、引发剂、催化剂和溶剂种类分别设定为苯乙烯、2-溴代异丁酸、吩噻嗪和N,N-二甲基甲酰胺，进行独热编码后，设定其余所有可能的反应条件组合，基于优化后的机器学习模型预测出相应的分子量和分子量分布，寻找其中满足目标分子量(M_n分别为5×10³、1×10⁴、2×10⁴g/mol)以及分子量分布(M_w/M_n分别为1.1、1.5、1.9)的聚合反应条件库，选取其中的个例进行聚合反应实验。若聚合得到的分子量和分子量分布与目标相差较远，则将新的反应实例更新到原数据库重新建立机器学习模型，再一次预测合适的聚合反应条件，经过四次循环，得到9组合适的反应参数以制备具有目标分子量和分子量分布的样品，其中分子量和分子量分布的平均误差分别为145g/mol和0.07。

实施例12：采用反应D，在碳酸二乙酯溶液中，以偶氮二异丁腈为引发剂，2-乙黄原酸基异丁酸为链转移剂，加热制备分子量M_n分别为5×10³、1×10⁴、5×10⁴g/mol且分子量分布M_w/M_n分别为1.1、1.5、1.9的聚乙酸乙烯酯

将单体、链转移剂和溶剂种类分别设定为乙酸乙烯酯、2-乙黄原酸基异丁酸和碳酸二乙酯，进行独热编码后，设定其余所有可能的反应条件组合，基于优化后的机器学习模型预测出相应的分子量和分子量分布，寻找其中满足目标分子量(M_n分别为5×10³、1×10⁴、5×10⁴g/mol)以及分子量分布(M_w/M_n分别为1.1、1.5、1.9)的聚合反应条件库，选取其中的个例进行聚合反应实验。若聚合得到的分子量和分子量分布与目标相差较远，则将新的反应实例更新到原数据库重新建立机器学习模型，再一次预测合适的聚合反应条件，经过四次循环，得到9组合适的反应参数以制备具有目标分子量和分子量分布的样品，其中分子量和分子量分布的平均误差分别为213g/mol和0.06。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种机器学习辅助的聚合物合成逆分析方法，其特征在于，具体步骤如下：

(3)将经过预处理的样本数据按50/50％至90/10％的比例分为训练集和验证集，采用机器学习算法对训练集进行学习，训练过程中通过交叉验证的方法确定使模型在训练集上预测能力最优的超参数组合，再将模型运用到测试集上，评估模型的预测性能并对比筛选出最优的机器学习模型；

所述的机器学习算法包括岭回归算法、支持向量机算法、邻近算法、贝叶斯算法、决策树算法、神经网络算法或随机森林算法；

2.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，所述的反应溶剂种类为二甲基亚砜，N,N-二甲基甲酰胺、碳酸二甲酯、碳酸二乙酯、N-甲基吡咯烷酮、甲苯、苯甲醚、乙腈、乙酸乙酯、水中的一种或多种。

3.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，反应A采用的引发剂种类为偶氮类、有机过氧类或无机过氧类化合物，其结构以此如下式(1)、(2)、(3)所示：

式(1)中，R₁为碳原子数为1～12的脂肪族基团；

式(2)中，R₂为氢、烷基、酰基、酯基或碳酸酯基；

式(3)中，R₃为铵或钾原子。

4.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，反应B和反应C中采用的引发剂种类为α-卤代酯或烷基卤，其结构依次如下式(4)、(5)所示：

5.根据权利要求1所述的一种机器学习辅助的聚合物合成逆分析方法，其特征在于，反应B中采用的金属催化剂种类为铜、铁、镍或钌的卤代盐。

6.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，反应B中采用的配体种类为邻吡啶及其衍生物、三(2-甲氨基乙基)胺及其衍生物、三胺类化合物或四胺类化合物，其结构依次如下式(6)、(7)、(8)、(9)所示：

式(6)中，R₁为碳原子数为1～12的脂肪族基团；

式(7)中，R₂为烷基或酯基；

式(8)中，n为2～3之间的整数；

式(9)中，m为2～3之间的整数。

7.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，反应C中的催化剂为卟啉、苝、二氢吩嗪、吩噁嗪、吩噻嗪为骨架的有机小分子化合物中的一种或几种。

8.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，反应D中的引发剂为以偶氮为骨架的化合物，所述的链转移剂为硫代碳酸酯，其结构依次如下式(10)所示：

9.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，所述的单体为(甲基)丙烯酸酯及其衍生物、(甲基)丙烯酰胺及其衍生物、苯乙烯及其衍生物、醋酸乙烯酯及其衍生物，结构依次如下式(13)～(16)所示：

式(13)中，R₁为氢原子或甲基；R₂为氢原子、烷基或芳基；

式(15)中，R₆为氢原子、烷基或芳基；

式(16)中，R₇为烷基或芳基。

10.根据权利要求1所述的机器学习辅助的聚合物合成逆分析方法，其特征在于，反应A、B、C和D中所用单体浓度为0.1～10mol·L^-1，反应A、B、C和D中所用的引发剂为单体的0.0001～0.1mol％，反应B中所用金属催化剂为单体的0.0001～0.01mol％；反应B中所用配体为单体的0.0001～0.01mol％；反应C中所用催化剂为单体的0.0001～0.01mol％；反应D中所用的链转移剂为单体的0.0001～0.1mol％；对于反应A、B和D，反应时间为1～10小时，加热温度为室温～100℃；对于反应C，反应时间为1～10小时，加热温度为室温～60℃，光照反应使用发射波长为390～700nm的光源。