CN115579093A

CN115579093A - 基于深度学习的设计硝化抑制剂缓释材料的方法及系统

Info

Publication number: CN115579093A
Application number: CN202211572682.4A
Authority: CN
Inventors: 闫瑞山; 申有青; 王金鹏
Original assignee: Kefeng Xingtai Hangzhou Biotechnology Co ltd
Current assignee: Kefeng Xingtai Hangzhou Biotechnology Co ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-01-06
Anticipated expiration: 2042-12-08
Also published as: CN115579093B

Abstract

本发明公开了基于深度学习的设计硝化抑制剂缓释材料的方法及系统，包括：随机选取可用作硝化抑制剂缓释材料的脂类聚合物不少于500种，建立特征信息数据库，将所述脂类聚合物生成SMILES形式的子结构字典，进行分子指纹编码，建立脂类聚合物的参数拟合模型，用神经网络训练并输出训练好的模型，预测出缓释效果最佳的硝化抑制剂缓释材料成分并验证。本发明的方法显著降低了硝化抑制剂缓释材料设计制作的门槛，并大大降低了验证所需要的时间成本，可用于同类产品的开发，具有良好的复用性，在肥料缓释技术领域具有广阔的应用前景。本发明方法设计的硝化抑制剂缓释材料增加硝化抑制剂的释放时间，并延长其利用率。

Description

基于深度学习的设计硝化抑制剂缓释材料的方法及系统

技术领域

本发明涉及计算机辅助材料设计的技术领域，具体涉及一种基于深度学习的设计硝化抑制剂缓释材料的方法及系统。

背景技术

我国人口众多，粮食生产在农业生产的发展中占有重要的位置。化肥是粮食增产的物质基础，随着化肥工业的快速发展以及农民对化肥依赖性的提高，中国出现了大量化肥滥用的问题，由此带来的副作用也逐渐显现。施用过量的肥料也破坏了土壤的微生物结构，造成土壤板结、保水能力下降，而且高施肥水平导致了化肥的利用率不高，当季氮肥利用率仅为35%，这也造成了严重的资源浪费，给农民造成大量的损失。因此，提高化肥的利用率对农业的可持续发展和环境保护等均具有重要意义。

施肥的集中性和作物吸收的缓慢性之间的矛盾导致了过量施肥。肥料一般包括氮肥、磷肥和钾肥，其中氮肥是农作物需求量最大，但是易于硝化淋失，以致施用量大而实际利用效率低下。目前农业生产主要的应对方案是在肥料中应用硝化抑制剂，例如2-氯-6-三氯甲基吡啶应用于铵态氮肥。在实际应用中，需要在其表面覆盖缓释包膜材料，以提高其硝化抑制作用的时长。带包膜的硝化抑制剂与肥料共同施用，可利用其特殊的物化性质调节和控释氮、磷、钾及必要的微量元素等养分供应强度与容量，能达到长效足量的肥料供应。同时，由于包膜使得化肥中的有效成分缓慢释放，有效避免了传统速溶肥料易流失的缺点，提升了作物对化肥的利用时间，提高了化肥的利用率，有效地减少了过度施用化肥带来的环境污染。

但是，本领域技术人员的难点在于，一方面设计硝化抑制剂缓释材料方案困难，本质上和设计农药有效成分难度相当，既需要有高深的理论研究经验，又需要有丰富的田间应用经验，而且验证硝化抑制剂缓释材料的设计方案也需要较长的周期，成本十分昂贵，因此研发的失败率一直居高不下。

本领域技术人员的两难点在于，由于研发也由于存在不确定性风险限制了系统性研发应用，但是如果硝化抑制剂缓释材料设计方案不进行系统性研发，即便能够开发出成功的产品，由于产品天然具有的独特性，很难将该产品的研发成果和经验迁移到其他品类的研发中。由于有此两难问题存在，使得硝化抑制剂缓释材料设计门槛一直居高不下，设计流程纷繁复杂，研发失败率高导致研发效率低下，研发时间和成本的也居高不下。

综上，本领域技术人员亟需一种能够降低硝化抑制剂缓释材料设计制作的门槛、简易、高效、节约时间和成本的技术。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度学习的硝化抑制剂缓释材料的设计方法，以解决现有技术中的硝化抑制剂缓释材料设计成本和时间成本高、不确定性大的问题。本发明将脂类聚合物的分子式转化成分子指纹，通过深度学习建立成熟的预测模型，从全新的角度为大分子缓释材料的设计提供了简易高效的工具。

为达到上述目的，本发明采取如下技术方案：

根据一方面，本发明提供一种基于深度学习的硝化抑制剂缓释材料的设计方法，包括：

（1）随机选取可用作硝化抑制剂缓释材料的脂类聚合物不少于500种，其中不低于80%的所述脂类聚合物的缓释时间不低于14天，

和/或不低于80%的所述脂类聚合物的分解时间不低于14天；

（2）建立所述脂类聚合物的特征信息数据库，所述特征信息包括聚合物结构式、分子量、孔径大小、分解温度、主链长度、支链长度、支链数量、支链之间距离、环状官能团之间距离、缓释时间和分解时间；

（3）将所述脂类聚合物生成SMILES形式的子结构字典，所述SMILES形式的全称是Simplified molecular input line entry system，是一种用ASCII字符串明确描述分子结构的规范；

（4）将所述脂类聚合物进行至少300位分子指纹编码得到至少300维数的分子指纹，其中1-220位是对应于所述子结构字典的分子的结构，221-240位对应的是特征信息包括分子量、孔径大小、分解温度，241-300位对应的是特征信息包括分子主链长度、支链长度、支链数量、支链之间距离、环状官能团之间距离，并且缓释时间和分解时间作为标签；

（5）采用递归特征消除算法，构建随机森林模型，计算每个分子特征的重要性，通过移除重要性低的若干特征来降低所述分子指纹的维数，得到所述脂类聚合物的目标分子指纹；

（6）对所述脂类聚合物的目标分子指纹建立参数拟合模型，采用多层前馈神经网络算法训练，采用修正线性单元ReLU作为激活函数，均方误差MSE作为损失函数，使用梯度下降优化，从而输出所述脂类聚合物的目标分子指纹训练完备模型；

（7）任意指定特定的脂类聚合物，输入该特定的脂类聚合物的所述目标分子指纹涵盖的特征信息，使用所述脂类聚合物的目标分子指纹训练完备模型，预测该任意指定的脂类聚合物作为硝化抑制剂缓释材料的缓释和分解时间。

其中，所述脂类聚合物为例如，500-2000种，1000-2000种，优选1500-2000种，优选1500-1800种，优选1500-1700种，优选1500-1600种。

进一步地，包括步骤（8），选用步骤（7）中预测的缓释和分解时间大于28天的脂类聚合物，进行合成制造，得到硝化抑制剂缓释材料。

其中，步骤（3）的子结构字典为： ['*O']['*F']['*N']['*I']['*C']['*CO']['*Cl']['*Br']['*O*']['*N*']['*CC']['*C*']['*S*']['*CC*']['*C#N']['*C#C']['*CCO']['*C=C']['*C=O']['*CCl']['*CCC']['*CC#N']['*CC#C']['*CCCO']['*N=N*']['*C=N*']['*CCCC']['*CC=C']['*C=C*']['*CCC*']['*CCCN']['*CCCl']['*C#C*']['*C(C)C']['*CCCCO']['*ClCCl']['*CCCCC']['*C(F)F']['*C(*)C']['*CCCC*']['*CCC#N']['*C=CC*']['*C(*)*']['*C(*)F']['*N(*)*']['*CCCCCC']['*CC(*)*']['*C(*)=C']['*C(*)Cl']['*C(*)=O']['*CCCCC*']['*S(*)=O']['*/C=C/*']['*CCCCCC*']['*C1CCC1*']['*n1cncn1']['*[SiH2]*']['*CCCCCCC']['*C(CI)CI']['*C=C(*)*']['*C1CCCC1']['*n1ccnc1']['*C1CCCC1*']['*c1ccncc1']['*c1ccccn1']['*CCCCCCCC']['*C(*)(F)F']['*C(*)(*)*']['*N1CCCCC1']['*/C=C/CC*']['*C1CCCCC1']['*C1CCCN1*']['*c1ccccc1']['*C(*)(*)F']['*CCC=CCC*']['*C(F)(F)F']['*c1cccnc1']['*CCCCCCC*']['*N1CCOCC1']['*N1CCCC1=O']['*C1CCCCC1*']['*C(*)(F)Cl']['*C(C)C(*)C']['*CC(*)(*)F']['*CCCCCCCC*']['*C(*)C(C)C']['*c1ccccc1*']['*/C=C/CCC*']['*[SiH](*)*']['*CCCCCCCCC']['*C(*)C(*)*']['*C1CC=CCC1']['*C(*)C(*)C']['*C1CCCCCC1']['*C1COC(*)O1']['*CCCCCCCCCC']['*C(*)=C(*)*']['*S(*)(=O)=O']['*N=P(*)(*)*']['*c1c[nH]cn1']['*c1ccc(*)s1']['*c1csc(*)c1']['*C1(*)CCCC1']['*C1CCC(*)C1']['*c1csc(*)n1']['*CCCCCCCCC*']['*c1nnc(*)o1']['*c1ccc(*)o1']['*C1CCCC(*)C1']['*C1CCCC(*)O1']['*C[N-][N+]#N']['*/C=C/CCCCC*']['*c1ccc(*)cc1']['*C1COC(*)OC1']['*C1(*)CCCCC1']['*c1nnc(*)n1*']['*c1cnc(*)cn1']['*CCCCCCCCCC*']['*CCCP(*)CCC*']['*N1CCN(*)CC1']['*[Si](*)(*)*']['*c1ccc(*)nc1']['*c1ccc(*)n1*']['*C(*)C(Cl)Cl']['*C1CCC(*)CC1']['*CCCCCCCCCCC']['*c1cccc(*)c1']['*C=CC(*)C(*)*']['*/C=C/CCCCCC*']['*CCCCCCCCCCCC']['*c1cccc(*)c1*']['*C1CC(*)(*)C1']['*C1(*)CCCCCC1']['*O[Si](*)(*)*']['*[N+](=O)[O-]']['*CCCCCCCCCCC*']['*CCCCCCCCCCCCC']['*C1CC(*)C(*)C1']['*C1C(*)C(*)C1*']['*n1cc2ccccc2n1']['*CCCCCCCCCCCC*']['*c1ccc(*)[nH]1']['*c1cc(*)c(*)s1']['*C1CC(*)N(*)C1']['*C1CCCCCCCCCCC1']['*c1ccc2ccccc2c1']['*CCCCCCCCCCCCCC']['*c1sc(*)c(*)c1*']['*/C=C/CCCCCCCC*']['*C1CCC(*)C(*)C1']['*C1CC(*)OC(*)O1']['*c1cc(*)cc(*)c1']['*C1Cc2ccccc2C1*']['*CC[N+](=O)[O-]']['*c1nc(*)nc(*)n1']['*c1ccc(*)c(*)c1']['*clcccc2ccccc12']['*CCCCCCCCCCCCC*']['*C1(*)CC2CCC1C2']['*/C=C/C(*)C(*)*']['*CCCCCCCCCCCCCC*']['*C1CC2CC1C(*)C2*']['*c1cc2ccccc2cc1*']['*c1ccc(*)c(*)c1*']['*CCCP(C)(=O)CCC*']['*c1cc(*)c(*)cc1*']['*CCCCCCCCCCCCCCC']['*CC(*)=C=C=C(*)C*']['*CCCCP(C)(=O)CCC*']['*CCCCCCCCCCCCCCCC']['*C(=C=C=C(*)CO)CO']['*/C=C/CCCCCCCCCC*']['*C1C(=O)OC(=O)C1*']['*c1ccc2nc(*)sc2c1']['*CICC2CC1C1CCCC21']['*c1cc(*)c(*)[nH]1']['*CCCCCCCCCCCCCCC*']['*c1ccc2oc(*)nc2c1']['*c1cc(*)c2ccccc2n1']['*CCCCCCCCCCCCCCCC*']['*CCCCCCCCCCCCCCCCC']['*c1ccc2cc(*)ccc2c1']['*c1[nH]c2ccccc2c1*']['*c1cccc2c(*)cccc12']['*c1ccc2ccc(*)cc2c1']['*c1cc(*)c(*)c(*)c1']['*c1[nH]c(*)c(*)c1*']['*C=C1CCCC(=C*)C1=O']['*c1ccc(*)c2ccccc12']['*C1OC(*)C(*)C(*)C1*']['*CCCCCCCCCCCCCCCCCC']['*c1cc(*)c2ccccc2c1*']['*CCCCCCCCCCCCCCCCC*']['*CCC(*)=C=C=C(*)CC*']['*CCCP(CCC*)CCCCCCCC']['*C1CC2CC(*)CC(C1)O2']['*c1cc(*)c(*)c(*)c1*']['*c1ccc2[nH]c(*)nc2c1']['*n1c2ccccc2c2ccccc21']['*C1CC(=O)N(*)C(=O)C1']['*C1C(=O)N(*)C(=O)C1*']['*C1C(*)(*)C(*)C1(*)*']['*CCCCCCCCCCCCCCCCCC*']['*c1ccc2nc(*)n(*)c2c1']['*C1(*)CC2CC1C1CCCC21']['*c1ccc2c(*)c(*)ccc2c1']['*C1(*)NC(=O)c2ccccc21']['*c1ccc2nc(*)cc(*)c2cl']['*C12CC3CC(CC(C3)C1)C2']['*C1CC(*)(*)CC(*)(*)C1']['*C1(*)OC(=O)c2ccccc21']['*c1ccc2nc(*)c(*)nc2c1']['*C1CC(*)C(*)(*)C1(*)*']['*C1C(*)C2CC1C1C=CCC12']['*C1(*)C2CC3CC(C2)CC1C3']['*CCCCCCCCCCCCCCCCCCCC*']['*c1nc2cc3nc(*)oc3cc2o1']['*c1c(*)c(*)c(*)c(*)c1*']['*c1nc2cc3sc(*)nc3cc2s1']['*c1cccc2c1C(=O)N(*)C2=O']，其中氢原子被省略，大写字母表示对应的元素，小写字母表示该元素处于芳香环中，*为通配符，=号为双键，#号为三键，有环的结构被打开，断开处的两个原子用同一个数字标记，以表示原子间有键相连，碳链上的分支用圆括号表示。

其中，步骤（3）中，将特征信息的分子指纹的维数降低至64位，由此获得最佳拟合效果。在本发明的一个实施方式中，所述64位包括对应于特征信息分子结构中的芳香环结构、孔径大小、分解温度、环状官能团之间距离的分子指纹。

其中，步骤（6）中，确定脂类聚合物的目标分子指纹设置的约束条件以及未满足条件下的损失，建立参数拟合模型。

其中，对步骤（6）的参数拟合模型的输入参数数据进行系统归一化处理，以提高模型的鲁棒性，并加速网络损失函数的收敛。

其中，步骤（2）的特征信息来源包括工业生产、实验室数据、文献资料、相关数据库等。

其中，深度神经网络模型包括输入层、隐藏层和输出层，隐藏层的大小和层数是可变动的，并在各层之间随机添加dropout层，以达到提升模型拟合能力和提高泛化能力的效果。

其中，深度神经网络模型采用修正线性单元作为激活函数，均方误差（MSE）作为损失函数。

其中，对参数拟合模型进行优化，包括以下步骤：

利用深度神经网络模型，采用均方误差作为网络的损失函数，通过反向传播调整各个节点的权值和阈值，使网络的损失函数最小化；

使用网格搜索调整模型参数，包括例如神经网络的层数、类型，各层节点的数量，随机失活率，学习率等，利用训练完成的深度神经网络模型对测试数据进行预测，计算缓释时间和分解时间与实际值之间的误差，选择误差最小的模型参数输出训练好的模型，即输出得到训练完备模型。

根据第二方面，本发明提供一种基于深度学习的设计硝化抑制剂缓释材料的系统，包括：

信息获取存储模块，用于存储脂类聚合物的特征信息作为初始参数，所述脂类化合物是随机选取的可用作硝化抑制剂缓释材料的脂类聚合物，所述特征信息包括聚合物结构式、分子量、孔径大小、分解温度、主链长度、支链长度、支链数量、支链之间距离、环状官能团之间距离、缓释和分解时间，所述特征信息是以SMILES形式呈现，包括从聚合物结构式得到的子结构字典，以及对应于分子量、孔径大小、分解温度、主链长度、支链长度、支链数量、支链之间距离、环之间距离的分子指纹编码，

预测模型构建模块，用于确定所述脂类聚合物的各项参数设置的约束条件以及未满足条件下的损失，建立初始的参数拟合模型，

预测模型训练模块，用于训练调整神经网络每个神经元的权重以及模型的超参数，获得训练好的拟合模型。

其中，信息获取存储模块中分子指纹编码维度为64维。

其中，预测模型构建模块采用多层前馈神经网络算法模型，其包括输入层、隐含层和输出层三层神经网络结构，每一层均考虑多影响因子，每一层均由多个神经元组成，各层之间用dropout层连接。

其中，预测模型训练模块包括：

初始条件设定单元，用于确定影响因子的内容和数量，确定输出层变量个数，设定时间尺度等初始条件，将初始参数输入训练模型，进行肥料缓释指标的预测；

训练条件确认单元，用于设定目标函数和约束条件，确定训练结束条件和模型训练的目标要求；

预测模型输出单元，用于当实现训练结果满足训练目标要求时结束训练，输出硝化抑制剂缓释材料训练设计模型；

重新训练单元，用于当实现结果不满足训练目标要求，调整参数变量重新训练，直至满足训练目标要求，若多次仍不能达到要求，则返回预测模型构建模块进行重新设计。

在一个实施方式中，所述系统可用于本发明的设计硝化抑制剂缓释材料的方法。

根据第三方面，本发明提供一种计算机可读存储介质，其存储有计算机程序，包括指令，当其在计算机上运行时，使得计算机执行所述的基于深度学习的设计硝化抑制剂缓释材料方法。

根据第四方面，本发明提供一种实现所述基于深度学习的硝化抑制剂缓释材料的优化系统的信息数据处理终端，包括存储器和处理器，所述处理器和存储器之间能够相互通信。

根据本发明，硝化抑制剂缓释材料是指延长土壤中硝化抑制剂的释放时间，起到缓释作用的材料。

根据本发明，硝化抑制剂缓释材料是包膜的形式。

根据本发明，硝化抑制剂包括2-氯-6-三氯甲基吡啶、双氰胺、3，4-二甲基吡唑磷酸盐、脒基硫脲、2-磺胺噻唑等。

本发明的技术方案具有如下有益效果∶

本发明的基于深度学习的设计硝化抑制剂缓释材料的方法，将脂类聚合物的分子式转化成分子指纹，通过深度学习建立成熟的预测模型，从全新的角度为大分子缓释材料的设计提供了简易高效的工具，能够降低硝化抑制剂的缓释材料设计制作的门槛，从而简易、高效、节约时间和成本的设计硝化抑制剂的缓释材料。根据本发明的方法设计的硝化抑制剂的缓释材料（分子式：C₂₉H₁₉N₃O₆）为一种全新的材料，经性能测试，测试硝化抑制率，结果表明，试验的肥料增效剂在培养的35d内都有一定的抑制效果，14天内抑制肥料氮素转化的效果较佳，42天之后与施肥差异不明显，与市面上的其他肥料增效剂相比同样具有明显优势。

本发明附加的方面和优点将在下面的具体实施部分中给出，本发明的优点将在下面的描述中体现，或通过本发明的实践了解到。

附图说明

图1是根据本发明一实施例提供的基于深度学习的设计硝化抑制剂缓释材料的系统的主要模块及其流程。

图2是根据本发明一实施例提供的基于深度学习的设计硝化抑制剂缓释材料的方法的参数拟合模型的预测模型训练。

图3是根据本发明一实施例提供的基于深度学习的设计硝化抑制剂缓释材料的方法的神经网络的主体架构。

图4是根据本发明一实施例训练拟合模型时测试集的损失函数曲线。其中横轴为epoch，竖轴为loss。

图5是300维度的分子指纹的模型预测精度（r1）。

图6是300维度的分子指纹和运用递归特征消除将分子指纹降低为64维特征后的模型预测精度（r2）。

图5与图6，通过300维度的分子指纹的模型预测精度（r1）和运用递归特征消除将分子指纹降低为64维特征后的模型预测精度（r2）对比，可以看到，相较于r1，r2的相关系数明显提高，模型预测精度更好。图5和图6标注的预测精度均为其对应决定系数r²。

具体实施方式

为了清楚地解释本发明的优点，下面结合实例详细描述本发明的实施方式。应当理解，本文所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

本领域技术人员应当理解，除非特别说明，本文使用的所有术语具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

本领域技术人员应当理解，除非特别说明，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

以下结合附图进一步说明本发明。

实施例1

如图1所示，本发明实施例1提供的基于深度学习的设计硝化抑制剂缓释材料的系统主要具有信息获取模块、预测模型构建模块、预测模型训练模块三个模块。

信息获取存储模块，用于存储脂类聚合物的特征信息作为初始参数，所述脂类化合物是随机选取的可用作硝化抑制剂缓释材料的脂类聚合物，所述特征信息包括聚合物结构式、分子量、孔径大小、分解温度、主链长度、支链长度、支链数量、支链之间距离、环状官能团之间距离、缓释和分解时间，其中结构式以SMILES（简化分子线性输入规范）描述符给出，并且特征信息进行分子指纹编码。

预测模型构建模块，用于确定所述脂类聚合物的各项参数设置的约束条件以及未满足条件下的损失，建立参数拟合模型，其中优选地，将分子指纹维度压缩为64维。

预测模型训练模块，用于训练硝化抑制剂的缓释材料训练变量权重，使网络的损失函数最小化，获得训练好的拟合模型。

结合图2、图3、图4，根据本发明实施例的预测模型的构建具体包括以下步骤：

（1）预处理

在本实施例中，获得1650个脂类聚合物样本，其均被报道可用作硝化抑制剂缓释材料，并且其中80%的脂类聚合物的公开的缓释和分解时间大于14d，获取这些样本的特征信息，包括聚合物结构式、分子量、孔径大小、分解温度、主链长度、支链长度、支链数量、支链之间距离、环状官能团之间距离以及缓释和分解时间等，

使用chemdraw软件将每个样本的结构式以SMILES（简化分子线性输入规范）描述符给出，获得子结构字典：['*O']['*F']['*N']['*I']['*C']['*CO']['*Cl']['*Br']['*O*']['*N*']['*CC']['*C*']['*S*']['*CC*']['*C#N']['*C#C']['*CCO']['*C=C']['*C=O']['*CCl']['*CCC']['*CC#N']['*CC#C']['*CCCO']['*N=N*']['*C=N*']['*CCCC']['*CC=C']['*C=C*']['*CCC*']['*CCCN']['*CCCl']['*C#C*']['*C(C)C']['*CCCCO']['*ClCCl']['*CCCCC']['*C(F)F']['*C(*)C']['*CCCC*']['*CCC#N']['*C=CC*']['*C(*)*']['*C(*)F']['*N(*)*']['*CCCCCC']['*CC(*)*']['*C(*)=C']['*C(*)Cl']['*C(*)=O']['*CCCCC*']['*S(*)=O']['*/C=C/*']['*CCCCCC*']['*C1CCC1*']['*n1cncn1']['*[SiH2]*']['*CCCCCCC']['*C(CI)CI']['*C=C(*)*']['*C1CCCC1']['*n1ccnc1']['*C1CCCC1*']['*c1ccncc1']['*c1ccccn1']['*CCCCCCCC']['*C(*)(F)F']['*C(*)(*)*']['*N1CCCCC1']['*/C=C/CC*']['*C1CCCCC1']['*C1CCCN1*']['*c1ccccc1']['*C(*)(*)F']['*CCC=CCC*']['*C(F)(F)F']['*c1cccnc1']['*CCCCCCC*']['*N1CCOCC1']['*N1CCCC1=O']['*C1CCCCC1*']['*C(*)(F)Cl']['*C(C)C(*)C']['*CC(*)(*)F']['*CCCCCCCC*']['*C(*)C(C)C']['*c1ccccc1*']['*/C=C/CCC*']['*[SiH](*)*']['*CCCCCCCCC']['*C(*)C(*)*']['*C1CC=CCC1']['*C(*)C(*)C']['*C1CCCCCC1']['*C1COC(*)O1']['*CCCCCCCCCC']['*C(*)=C(*)*']['*S(*)(=O)=O']['*N=P(*)(*)*']['*c1c[nH]cn1']['*c1ccc(*)s1']['*c1csc(*)c1']['*C1(*)CCCC1']['*C1CCC(*)C1']['*c1csc(*)n1']['*CCCCCCCCC*']['*c1nnc(*)o1']['*c1ccc(*)o1']['*C1CCCC(*)C1']['*C1CCCC(*)O1']['*C[N-][N+]#N']['*/C=C/CCCCC*']['*c1ccc(*)cc1']['*C1COC(*)OC1']['*C1(*)CCCCC1']['*c1nnc(*)n1*']['*c1cnc(*)cn1']['*CCCCCCCCCC*']['*CCCP(*)CCC*']['*N1CCN(*)CC1']['*[Si](*)(*)*']['*c1ccc(*)nc1']['*c1ccc(*)n1*']['*C(*)C(Cl)Cl']['*C1CCC(*)CC1']['*CCCCCCCCCCC']['*c1cccc(*)c1']['*C=CC(*)C(*)*']['*/C=C/CCCCCC*']['*CCCCCCCCCCCC']['*c1cccc(*)c1*']['*C1CC(*)(*)C1']['*C1(*)CCCCCC1']['*O[Si](*)(*)*']['*[N+](=O)[O-]']['*CCCCCCCCCCC*']['*CCCCCCCCCCCCC']['*C1CC(*)C(*)C1']['*C1C(*)C(*)C1*']['*n1cc2ccccc2n1']['*CCCCCCCCCCCC*']['*c1ccc(*)[nH]1']['*c1cc(*)c(*)s1']['*C1CC(*)N(*)C1']['*C1CCCCCCCCCCC1']['*c1ccc2ccccc2c1']['*CCCCCCCCCCCCCC']['*c1sc(*)c(*)c1*']['*/C=C/CCCCCCCC*']['*C1CCC(*)C(*)C1']['*C1CC(*)OC(*)O1']['*c1cc(*)cc(*)c1']['*C1Cc2ccccc2C1*']['*CC[N+](=O)[O-]']['*c1nc(*)nc(*)n1']['*c1ccc(*)c(*)c1']['*clcccc2ccccc12']['*CCCCCCCCCCCCC*']['*C1(*)CC2CCC1C2']['*/C=C/C(*)C(*)*']['*CCCCCCCCCCCCCC*']['*C1CC2CC1C(*)C2*']['*c1cc2ccccc2cc1*']['*c1ccc(*)c(*)c1*']['*CCCP(C)(=O)CCC*']['*c1cc(*)c(*)cc1*']['*CCCCCCCCCCCCCCC']['*CC(*)=C=C=C(*)C*']['*CCCCP(C)(=O)CCC*']['*CCCCCCCCCCCCCCCC']['*C(=C=C=C(*)CO)CO']['*/C=C/CCCCCCCCCC*']['*C1C(=O)OC(=O)C1*']['*c1ccc2nc(*)sc2c1']['*CICC2CC1C1CCCC21']['*c1cc(*)c(*)[nH]1']['*CCCCCCCCCCCCCCC*']['*c1ccc2oc(*)nc2c1']['*c1cc(*)c2ccccc2n1']['*CCCCCCCCCCCCCCCC*']['*CCCCCCCCCCCCCCCCC']['*c1ccc2cc(*)ccc2c1']['*c1[nH]c2ccccc2c1*']['*c1cccc2c(*)cccc12']['*c1ccc2ccc(*)cc2c1']['*c1cc(*)c(*)c(*)c1']['*c1[nH]c(*)c(*)c1*']['*C=C1CCCC(=C*)C1=O']['*c1ccc(*)c2ccccc12']['*C1OC(*)C(*)C(*)C1*']['*CCCCCCCCCCCCCCCCCC']['*c1cc(*)c2ccccc2c1*']['*CCCCCCCCCCCCCCCCC*']['*CCC(*)=C=C=C(*)CC*']['*CCCP(CCC*)CCCCCCCC']['*C1CC2CC(*)CC(C1)O2']['*c1cc(*)c(*)c(*)c1*']['*c1ccc2[nH]c(*)nc2c1']['*n1c2ccccc2c2ccccc21']['*C1CC(=O)N(*)C(=O)C1']['*C1C(=O)N(*)C(=O)C1*']['*C1C(*)(*)C(*)C1(*)*']['*CCCCCCCCCCCCCCCCCC*']['*c1ccc2nc(*)n(*)c2c1']['*C1(*)CC2CC1C1CCCC21']['*c1ccc2c(*)c(*)ccc2c1']['*C1(*)NC(=O)c2ccccc21']['*c1ccc2nc(*)cc(*)c2cl']['*C12CC3CC(CC(C3)C1)C2']['*C1CC(*)(*)CC(*)(*)C1']['*C1(*)OC(=O)c2ccccc21']['*c1ccc2nc(*)c(*)nc2c1']['*C1CC(*)C(*)(*)C1(*)*']['*C1C(*)C2CC1C1C=CCC12']['*C1(*)C2CC3CC(C2)CC1C3']['*CCCCCCCCCCCCCCCCCCCC*']['*c1nc2cc3nc(*)oc3cc2o1']['*c1c(*)c(*)c(*)c(*)c1*']['*c1nc2cc3sc(*)nc3cc2s1']['*c1cccc2c1C(=O)N(*)C2=O']

其中氢原子被省略，大写字母表示对应的元素，小写字母表示该元素处于芳香环中，*为通配符，=号为双键，#号为三键，有环的结构被打开，断开处的两个原子用同一个数字标记，以表示原子间有键相连，碳链上的分支用圆括号表示。

使用开源工具包RDKit对每种聚合物拥有某子结构的数量进行匹配。

利用基于子结构映射的分子指纹方法，将每个样本的特征信息转化为300位的分子指纹，每位所对应的编码以数值形式给出。分子指纹是一种固定长度的数组，其中不同的数位表示分子中存在不同的特征。在本实施例中，前220位对应于子结构字典的分子的结构，用于表示其所拥有的对应子结构的数量。221-240位对应的是分子量、孔径大小、分解温度。241-300位对应的是分子主链长度、支链长度、支链数量、支链之间距离、环之间距离信息。将缓释和分解时间信息作为神经网络模型的标签。

为了提高模型准确度，获得最佳拟合效果，在本实施例中，采用递归特征消除（RFE）算法，降低分子指纹的维数。递归特征消除（RFE）算法通过如下三步实现本发明的目的：

（1）将300位分子指纹作为300个特征的初始特征子集，加入标签后构建随机森林模型，计算得到每个特征的重要性。

（2）从当前特征子集中移除特征重要性最低的十个特征，即降低分子指纹的维度，得到一个新的特征子集，加入标签后再次输入到随机森林模型中，计算新的特征子集中每个特征的重要性，并用下述的深度神经网络模型对特征拟合情况进行预测。

（3）递归的重复步骤2，其中每次移除的特征逐次减少，最少为1，直至特征子集为空。选择模型预测精度最高的特征子集作为目标分子指纹的最优特征组合。

优选的，将分子指纹降低为64维特征，其中包括了对应有分子结构中的芳香环结构、孔径大小、分解温度、环之间距离等特征信息。图5和图6展示出了300维度的分子指纹和运用递归特征消除将分子指纹降低为64维特征后的模型预测精度（r²）对比。

在本实施例中，所有样本参数组成的矩阵形式为：

，标签矩阵形式为

其中，第一个下标表示共有n行训练样本，第二个下标表示每个样本有m个特征。在该实施例中，n为1650，m为64。

计算样本特征的均值

和标准差S_k

，

，其中，i表示第i行样本，k表示第k列特征。

将每个样本的均值和标准差按以下规则变化：

通过平移变换将影响特征归一化到[0,1]范围内

，

将标签信息做相同的归一化处理。

最终得到的矩阵为神经网络的初始输入。

（2）神经网络初始化

在本实施例中，神经网络构造基于Pytorch的模型来完成，系统将通过自动求梯度而自动生成反向传播函数来训练目标分子指纹的最优特征组合的参数。采用ReLU（修正线性单元）作为激活函数，均方误差（MSE）作为损失函数，使用梯度下降优化，设置学习率为0.001，动量为0.9，batch（数据批量分割）为32。初始的输入层为300维，隐藏层分别为64维，8维，最终的输出层为1维。各神经元按照均值为0，方差为0.01进行初始化，经过训练调参后逐渐优化各个超参数。

上述预测模型构建模块的多层前馈神经网络算法包括输入层、隐含层和输出层三层神经网络结构，每一层均考虑多影响因子，每一层均由多个神经元组成，各层之间用dropout（随机失活）层连接，用于降低模型的过拟合。优选的，神经网络模型由一个输入层，两个全连接隐藏层，和一个输出层组成，层间设置有dropout层（rate=0.3-0.5）。

由于分子的子结构的相互影响和它们的距离有很大关联，在全连接隐藏层额外设置有长短期记忆神经元。采用ReLU（修正线性单元）作为激活函数，均方误差（MSE）作为损失函数，使用梯度下降优化，设置学习率为0.001，动量为0.9，batch（数据批量分割）为32。输入层为64维，隐藏层分别为16维，4维，最终的输出层为1维。

ReLU激活函数为 f(x) = max(0, x)，均方误差

，其中i表示第i个样本。

根据本发明实施例的预测模型的训练，具体包括以下步骤：

在本实施例中，将输入样本随机划分为80%的训练集和20%测试集。在训练集中添加随机扰动，以增强模型的抗干扰能力；

随机扰动的公式为

，即符合均值为0，方差为

的正态分布，

为可变参数。

将训练次数初始化为0。首先在初始输入中选取一个batch的数据，将该数据进行前向传播，进行运算后得到预测值，用预测值和真实值计算损失函数，然后将神经元参数的梯度值初始化为0并将梯度反向传播到每个神经元参数，训练次数加一，上述步骤代表一次训练。重复上述步骤。

在本实施例中，设定模型训练epoch（指所有训练样本在神经网络中都进行了一代训练）为20000，损失函数为均方误差，当训练集损失函数收敛且决定系数

大于0.95时或epoch跑完则网络的训练完成。

其中，

，其中

表示实际分解时间，

表示预测分解时间，

表示分解时间的均值。流程见附图2。将该网络运用于测试集，设定测试epoch为20000，重复上述步骤，当测试集损失函数收敛且决定系数大于0.92时则停止训练，得到硝化抑制剂缓释材料的拟合模型。测试集的损失函数曲线如图4所示。

若跑完epoch但实现结果仍不满足训练目标要求，则返回预测模型构建模块重新进行网络设计和模型参数调整，以得到脂类聚合物的训练完备模型。

在训练完备模型中输入感兴趣的脂类聚合物的为目标分子指纹的最优特征组合涵盖的特征，如脂类聚合物的结构和相关属性特征，使用脂类聚合物的训练完备模型，预测其作为硝化抑制剂缓释材料的缓释和分解时间。

挑选出预测结果优异的聚合物作为硝化抑制剂缓释材料，进行生产制造。例如，缓释和分解时间大于28天被视为优异。

本发明实施例2提供了利用实施例1的方法设计的1种硝化抑制剂缓释材料（分子式：C₂₉H₁₉N₃O₆）的缓释性能测试，结构式为式（Ⅰ）

式（Ⅰ）。

具体为：

测量土壤硝态氮含量用来评价土壤的硝化水平。

培养试验设置3个处理，分别为：

处理1:空白对照处理，不施肥。

处理2:常规施肥处理，尿素施用量为纯氮200 mg/kg。

处理3:与常规施肥等养分量+增效剂处理，尿素施用量为纯氮200 mg/kg,增效剂用量30 mg/kg。

按试验处理设计称取土壤于玻璃容器，加入相应的尿素和肥料增效剂。充分混合均匀后，加入蒸馏水，控制土壤含水量30%。用封口膜密封后，均匀在膜上用针头刺破5个通气孔，然后置入25℃恒温培养箱培养。试验过程中采用称重法及时补充土壤水分。

按照采样时间设计间隔要求，测定土壤中硝态氮含量及含水量。

采样时间：8h、ld、3d、5d、7d、14d、21d、28d、35d、42d，共10次。

肥料增效剂的施用对土壤硝态氮含量影响的结果见下表1。

表1

从表可见，不施肥处理的土壤硝态氮含量最低，常规施肥处理的硝态氮含量较高。施用肥料增效剂后，土壤硝态氮的增加趋势明显变缓，说明在增效剂的作用下，土壤硝态氮的产生受到明显抑制。计算增效剂处理在8h、1d、3d、5d、7d、14d、21d、28d、35d、42d时的硝化抑制率，分别为8.3%、25.4%、40.9%、48.2%、32.9%、36.0%、16.9%、15.9%、9.7%、3.9%。增效剂的硝化抑制率结果表明，试验的肥料增效剂在培养的35d内都有一定的抑制效果，14天内抑制肥料氮素转化的效果较佳，42天之后与施肥差异不明显。与市面上的其他肥料增效剂相比同样具有明显优势。

本发明实施例3提供了一种实现基于神经网络的设计硝化抑制剂缓释材料的信息数据处理终端，包括可相互通信的存储器和处理器。

本发明实施例4提供了一种计算机可读的存储介质，该存储介质存储的计算机程序包括指令，使计算机在计算机上运行时执行基于深度学习的设计硝化抑制剂缓释材料的方法。

本领域的技术人员应了解，本发明的实施例可以作为方法、系统或计算机程序产品提供。因此，本发明可以采取全硬件实施例、全软件实施例或与软硬件方面的实施例相结合的形式。此外，本发明还可以采取在一个或多个包含计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光存储器等)上实现的计算机程序产品的形式。

根据应用的实施例，参照设备(系统)的方法、流程图和/或框图和计算机程序产品描述应用。计算机程序指令应理解流程和/或框图中的每个过程和/或方框和/或框图中的方框和/或流程和/或框图中的各个过程和/或框图。这些计算机程序指令可以提供给通用计算机、专用计算机、嵌入式处理器或其他可编程数据处理设备生产这样的机器指令通过计算机的处理器执行或其他可编程数据处理设备生产设备实现函数中指定一个流程图或多个进程和/或一块或框图。

这些计算机程序指令也可以存储在计算机可读存储器中，该存储器可以引导计算机或其他可编程数据处理设备以特定的方式工作，这样存储在计算机可读存储器中的指令就会产生包括实现该功能的指令设备在内的制造产品在流程图过程或多个过程和/或一个框图中指定。

这些计算机程序指令也可以装载到计算机或其他可编程数据处理设备上，以便在计算机或其他可编程设备上执行一系列操作步骤，以产生计算机实现的处理，因此，在计算机或其他可编程设备上执行的指令提供了实现流程图过程或多个进程和/或一个或多个框图中指定的功能的步骤。

本文所述的具体实施例仅用于解释本发明，而不用于定义本发明。对于本专业技术人员来说，本发明可能会有各种变化和变化。技术人员在不需要创造性劳动的情况下，根据发明的精神和原则所作的任何修改或者构成，都属于发明保护范围。

Claims

1.一种基于深度学习设计硝化抑制剂缓释材料的方法，其特征在于，包括如下步骤：

（1）随机选取可用作硝化抑制剂材料的脂类聚合物不少于500种，其中，不低于80%的所述脂类聚合物的缓释时间不低于14天，

和/或不低于80%的所述脂类聚合物的分解时间不低于14天；

（3）将所述脂类聚合物生成SMILES形式的子结构字典；

（4）将所述脂类聚合物进行至少300位分子特征编码得到至少300维数的分子指纹，其中1-220位是对应于所述子结构字典的分子结构，221-240位对应的是特征信息分子量、孔径大小、分解温度，241-300位对应的是特征信息分子主链长度、支链长度、支链数量、支链之间距离、环之间距离，并且缓释和分解时间作为标签；

（7）任意指定特定的脂类聚合物，输入该特定的脂类聚合物的所述目标分子指纹涵盖的特征信息，使用所述脂类聚合物的目标分子指纹训练完备模型，预测该特定的脂类聚合物作为硝化抑制剂缓释材料的缓释和分解时间。

2.根据权利要求1所述的方法，其特征在于，还包括步骤（8），选用步骤（7）中预测的缓释和分解时间大于28天的脂类聚合物，进行合成制造，得到硝化抑制剂缓释材料。

3.根据权利要求1所述的方法，其特征在于，步骤（5）中将所述分子指纹的维数降低至64维。

4.根据权利要求1所述的方法，其特征在于，对步骤（6）的参数拟合模型的目标分子指纹输入数据进行系统归一化处理。

5.根据权利要求1所述的方法，其特征在于，步骤（6）包括：

利用深度神经网络，采用均方根误差作为网络的损失函数，通过反向传播调整节点的权值和阈值，使网络的损失函数最小化；

使用网格搜索调整参数拟合模型的参数，根据训练好的深度学习模型对测试数据进行预测，计算缓释和分解时间与实际值之间的误差，选择误差最小的参数输出训练好的模型。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述深度神经网络算法模型包括输入层，隐藏层和输出层，层间设置有dropout层。

7.一种基于深度学习设计硝化抑制剂缓释材料的系统，其特征在于，包括：

信息获取存储模块，用于存储脂类聚合物的特征信息作为初始参数，所述脂类化合物是随机选取的可用作硝化抑制剂缓释材料的脂类聚合物，所述特征信息包括聚合物结构式、分子量、孔径大小、分解温度、主链长度、支链长度、支链数量、支链之间距离、环之间距离、缓释和分解时间，其中以SMILES形式呈现并存储从聚合物结构式得到的子结构字典，以及对应于分子量、孔径大小、分解温度、主链长度、支链长度、支链数量、支链之间距离、环状官能团之间距离的特征信息以分子指纹编码，

预测模型训练模块，用于训练调整神经网络每个神经元的权重以及模型的超参数，获得训练好的参数拟合模型。

8.根据权利要求7所述的系统，其特征在于，使用多层神经网络结构的所述预测模型构建模块采用前馈神经网络算法模型，

其中，所述前馈神经网络算法模型包括输入层，隐藏层和输出层，并在层间设置有dropout层。

9.一种存储有计算机程序的计算机可读存储介质，其特征在于，执行所述计算机程序被处理器，以实现基于深度学习的设计硝化抑制剂缓释材料的方法。

10.一种计算机设备，包括存储器和处理器，以及存储在所述处理器中并可在所属处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序，以实现基于深度学习的设计硝化抑制剂缓释材料的方法。