CN111540415A

CN111540415A - 燃料化学品性质建模预测方法及系统

Info

Publication number: CN111540415A
Application number: CN202010355982.1A
Authority: CN
Inventors: 韩东; 管程
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-14

Abstract

本发明提供了一种燃料化学品性质建模预测方法及系统，包括：步骤1：选定研究的燃料化学品种类与性质参数，采集燃料化学品测定的性质参数实验数据；步骤2：按照预设的输入规范描述燃料化学品分子结构；步骤3：将分子结构作为输入参数，燃料化学品性质参数作为输出参数，计算燃料化学品分子结构的分子拓扑指数；步骤4：根据燃料化学品测定的性质参数实验数据、分子结构和分子拓扑指数，建立活性子空间预测模型，得出预测的燃料化学品性质参数。本发明建立起的活性子空间模型一方面能对燃料化学品性质进行预测，以减小测量实验工作量，另一方面可用于对燃料化学品分子结构与性质之间的关系与影响机理的研究。

Description

燃料化学品性质建模预测方法及系统

技术领域

本发明涉及燃料化学品智能标定技术领域，具体地，涉及一种燃料化学品性质建模预测方法及系统。尤其地，涉及一种基于活性子空间算法与分子定量结构-性质关系的燃料化学品性质建模预测方法。

背景技术

随着排放法规的日益严格与对工程应用中对燃料燃烧经济性与效率要求的日益提高，新型燃料化学品不断被开发出来，其物理化学性质的准确测量变得越发重要。对于数量众多的燃料化学品，单纯使用实验方式进行性质测量存在着重复性较低，经济性不足等缺陷。出于燃料分子结构决定了其性质的基本考量，通过仿真软件或数据处理算法等方式结合分子定量结构-性质关系来对实验成本较高且耗时较多的燃料化学品性质测定实验进行分析与预测成为一种现实的选择。

燃料化学品性质参数预测模型中样本组数与作为输入参数的分子拓扑指数都较多，且具有一定的不确定性。因此，受限于算法的稳定性与计算资源消耗，现有的研究通常是取少数几个较重要的拓扑指数，如分子定量结构-性质关系研究中常用的Wiener指数等，来对燃料化学品性质参数进行建模与预测。这样的参数选择限制了模型的普遍性，且不利于对较复杂的对燃料化学品性质有较大影响的分子结构因素进行综合分析。活性子空间方法通过计算出模型中输入参数对输出的重要性，找到输出参数最主要的变化趋势来进行低维模型的建立。在类似于燃料化学品性质与分子结构关系预测这样的复杂系统中，该方法相对于其他算法具有两个主要的优势：首先，活性子空间预测模型的建立基于对输入参数的重要性计算，因此无关参数对预测模型的性能不会造成影响且能够被识别；其次，活性子空间方法是一个基于输入参数权重的降维算法，所以计算资源的消耗较小，能够同时对多个参数进行模型建立。

专利文献CN104408321A(申请号：201410737009.0)公开了一种采用交叉参照法来预测苯酚类化合物对大型溞繁殖毒性的方法，属于风险评估预测技术。所述方法依据苯酚类化合物的共同功能基团、理化性质、终点数据和毒性作用机制，建立苯酚类化合物的数据信息集，根据化学物质相似度以及终点变化的规律，选择交叉参照方法对苯酚类化学品对大型溞繁殖毒性终点数据进行预测。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种燃料化学品性质建模预测方法及系统。

根据本发明提供的燃料化学品性质建模预测方法，包括：

步骤1：选定研究的燃料化学品种类与性质参数，采集燃料化学品测定的性质参数实验数据；

步骤2：按照预设的输入规范描述燃料化学品分子结构；

步骤3：将燃料化学品分子结构作为输入参数，计算燃料化学品分子结构的分子拓扑指数；

步骤4：根据燃料化学品测定的性质参数实验数据、分子结构和分子拓扑指数，建立活性子空间预测模型，得出预测的燃料化学品性质参数。

优选的，所述步骤1包括：所述燃料化学品种类根据实际选定研究范围，包括碳氢化合物和含氧碳氢化合物；

所述燃料化学品性质参数包括十六烷值、辛烷值、标准生成焓和标准蒸发焓。

优选的，所述步骤2包括：所述输入规范包括简化分子线性输入规范SMILES和分子拓扑矩阵。

优选的，所述步骤3包括：所述分子拓扑指数通过对表征分子图的矩阵实施数字运算而获得，所述分子拓扑指数直接产生于分子结构，反映化合物的结构特征；

所述数字运算包括：通过Mordred和Dragon程序库进行计算。

优选的，所述步骤4建立活性子空间预测模型包括：

步骤4.1：将输入参数归一化至[-1,1]；

步骤4.2：计算得到数据库相对于输出参数的梯度

步骤4.3：建立矩阵：

其中，x为n维向量，包含了n个输入参数归一化到[-1,1]ⁿ后的值，ρ(x)为x的采样密度；

步骤4.4：将矩阵C特征分解为：

C＝WΛW^T

W＝[U₁,…,U_r,…,U_n]包含了矩阵C的n个特征向量U_i，Λ＝diag(λ₁,…,λ_r,…,λ_n)是对角线上元素为矩阵C特征值λ_i的对角矩阵；

步骤4.5：将矩阵经过行变换确保λ₁>…>λ_r>…>λ_n；

步骤4.6：比较各特征值，当某相邻两特征值间之间存在较大差异，即λ_r比λ_r+1大预设阈值的数量级时，那么对应前r个特征值的前r个特征向量S＝[U₁,U₂,…,U_r]被判定为最有影响力的方向，张成的子空间span{U₁,U₂,…,U_r}被称为活性子空间，其余较小特征值张成的子空间为非活性子空间；

步骤4.7：对模型进行降维处理，将输入输出间关系f(x)简化为：

f(x)≈g(S^Tx)

其中，函数g(S^Tx)为f(x)的活性子空间预测模型；

步骤4.8：当g为单调函数时，通过输入参数线性组合的系数S^T确定输入参数对输出的重要性及相关方向；

所述步骤4.2包括：

所述的计算数据库相对于输出参数的梯度

包括：

步骤4.2.1：从模型本身获得梯度，或是将有限差分法适用于模型，根据选定的采样密度ρ(x)得到梯度值；

步骤4.2.2：使用局部线性模型local linear model，对数据库中的每个点x'_i，从最接近x'_i点的点集{x_j}中取出p个点，形成子集χ_i，定义集合

为对应χ_i中的输出值{q_j}的集合，使用最小二乘法计算在x'_i附近的线性模型的系数：

步骤4.2.3：使用全局线性模型global linear model，先使用最小二乘法计算全局线性模型的系数：

q_j≈c+b^Tx_j,j＝1,…,n

再计算线性模型归一化后的梯度：

c_i表示局部线性模型中子集i的最小二乘法拟合方程的截距；

b_i表示局部线性模型中子集i的最小二乘法拟合方程的斜率；

c表示全局线性模型最小二乘法拟合方程的截距；

b表示全局线性模型最小二乘法拟合方程的斜率。

根据本发明提供的燃料化学品性质建模预测系统，包括：

模块M1：选定研究的燃料化学品种类与性质参数，采集燃料化学品测定的性质参数实验数据；

模块M2：按照预设的输入规范描述燃料化学品分子结构；

模块M3：将燃料化学品分子结构作为输入参数，计算燃料化学品分子结构的分子拓扑指数；

模块M4：根据燃料化学品测定的性质参数实验数据、分子结构和分子拓扑指数，建立活性子空间预测模型，得出预测的燃料化学品性质参数。

优选的，所述模块M1包括：所述燃料化学品种类根据实际选定研究范围，包括碳氢化合物和含氧碳氢化合物；

优选的，所述模块M2包括：所述输入规范包括简化分子线性输入规范SMILES和分子拓扑矩阵。

优选的，所述模块M3包括：所述分子拓扑指数通过对表征分子图的矩阵实施数字运算而获得，所述分子拓扑指数直接产生于分子结构，反映化合物的结构特征；

所述数字运算包括：通过Mordred和Dragon程序库进行计算。

优选的，所述模块M4建立活性子空间预测模型包括：

模块M4.1：将输入参数归一化至[-1,1]；

模块M4.2：计算得到数据库相对于输出参数的梯度

模块M4.3：建立矩阵：

模块M4.4：将矩阵C特征分解为：

C＝WΛW^T

模块M4.5：将矩阵经过行变换确保λ₁>…>λ_r>…>λ_n；

模块M4.6：比较各特征值，当某相邻两特征值间之间存在较大差异，即λ_r比λ_r+1大预设阈值的数量级时，那么对应前r个特征值的前r个特征向量S＝[U₁,U₂,…,U_r]被判定为最有影响力的方向，张成的子空间span{U₁,U₂,…,U_r}被称为活性子空间，其余较小特征值张成的子空间为非活性子空间；

模块M4.7：对模型进行降维处理，将输入输出间关系f(x)简化为：

f(x)≈g(S^Tx)

其中，函数g(S^Tx)为f(x)的活性子空间预测模型；

模块M4.8：当g为单调函数时，通过输入参数线性组合的系数S^T确定输入参数对输出的重要性及相关方向；

所述模块M4.2包括：

所述的计算数据库相对于输出参数的梯度

包括：

模块M4.2.1：从模型本身获得梯度，或是将有限差分法适用于模型，根据选定的采样密度ρ(x)得到梯度值；

模块M4.2.2：使用局部线性模型local linear model，对数据库中的每个点x'_i，从最接近x'_i点的点集{x_j}中取出p个点，形成子集χ_i，定义集合

模块M4.2.3：使用全局线性模型global linear model，先使用最小二乘法计算全局线性模型的系数：

q_j≈c+b^Tx_j,j＝1,…,n

再计算线性模型归一化后的梯度：

c_i表示局部线性模型中子集i的最小二乘法拟合方程的截距；

b_i表示局部线性模型中子集i的最小二乘法拟合方程的斜率；

c表示全局线性模型最小二乘法拟合方程的截距；

b表示全局线性模型最小二乘法拟合方程的斜率。

与现有技术相比，本发明具有如下的有益效果：

1、本发明由活性子空间方法对燃料化学品实验数据进行分析，建立燃料化学品性质与分子结构之间关系的预测模型，这样的方法比起以往更高效，节省了大量的时间和实验成本；

2、本发明活性子空间预测模型提供了各个输入参数对输出参数的重要性以及相关方向，这为我们探究影响燃料化学品性能的燃料分子结构提供了依据与方向；

3、本发明相较于其他数据处理或人工智能算法，活性子空间方法具有计算速度快、消耗计算资源小等优势，对于燃料化学品构效关系研究这样一个参数多、数据量大的实例来说，具有较好的适用性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一种基于活性子空间算法与分子定量结构-性质关系的燃料化学品性质建模预测方法流程图；

图2为标准生成焓预测模型中矩阵C的特征值及其自举法验证曲线图；

图3为由训练组数据建立的对标准生成焓的一维活性子空间预测模型折线图；

图4为(a)标准生成焓预测模型中各拓扑指数在模型线性组合中的系数，及其(b)绝对值对比图；

图5为(a)精确模型与(b)优化后模型实验值与模型预测值的对比图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明所采用的技术方案是一种基于活性子空间算法与分子定量结构-性质关系的燃料化学品性质建模预测方法，该方法如图1所示包括以下步骤：

步骤1：选定所研究的燃料化学品种类与性质参数，采集该类燃料化学品所实验测定的研究参数；

本例中，对碳氢燃料分子的标准生成焓进行了预测模型建立；

步骤2：按照特定的输入规范对燃料化学品分子结构进行描述；

本例中，使用了SMILES规范来描述燃料化学品分子结构；

步骤3：基于分子定量结构-性质关系方法，计算燃料化学品分子结构的分子拓扑指数；

步骤4：以基于分子定量结构-性质关系表示的分子结构作为输入参数，以所研究的燃料化学品性质作为输出参数，建立活性子空间预测模型以得到预测的燃料化学品性质参数，包括以下过程：

步骤4.1：将输入参数归一化至[-1,1]，避免参数间量纲差异影响预测模型；

本例中，输入参数即分子拓扑指数采用Mordred程序库进行计算，在先验地去掉完全一致与有所缺失的参数后，总共有902个拓扑指数被采用进此预测模型的建立，这些参数所采用的归一化公式为：

其中，x_i为某工况下的参数取值，x_min与x_max分别为该参数在数据库中所能取到的最大最小值，x'_i为此工况下经归一化处理后的参数取值；

步骤4.2：计算得到数据库相对于输出参数的梯度

包括以下过程：

步骤4.2.1：若从模型本身即可获得梯度，或是有限差分法等算法适用于模型，则可使用这些方式根据选定的采样密度ρ(x)得到较为精确的梯度值；

步骤4.2.2：使用局部线性模型(local linear model)，对数据库中的每个点x'_i，从最接近该点的点集{x_j}中取出p个点，形成子集χ_i，定义集合

为对应χ_i中的输出值{q_j}的集合，然后使用最小二乘法计算在x'_i附近的线性模型的系数：

步骤4.2.3：使用全局线性模型(global linear model)，先使用最小二乘法计算全局线性模型的系数：

q_j≈c+b^Tx_j,j＝1,…,n

再计算线性模型归一化后的梯度：

本例中使用全局线性模型来对梯度进行估算；

步骤4.3：出于不确定性量化的目的，建立矩阵：

步骤4.4：将矩阵C特征分解为：

C＝WΛW^T

其中W＝[U₁,…,U_r,…,U_n]包含了矩阵C的n个特征向量U_i，Λ＝diag(λ₁,…,λ_r,…,λ_n)是对角线上元素为矩阵C特征值λ_i的对角矩阵；

步骤4.5：将矩阵经过行变换以确保λ₁>…>λ_r>…>λ_n；

步骤4.6：比较各特征值，当某相邻两特征值间之间存在较大差异，即λ_r比λ_r+1大几个数量级时，那么对应前r个特征值的前r个特征向量S＝[U₁,U₂,…,U_r]可以被认为是最有影响力的方向，其张成的子空间span{U₁,U₂,…,U_r}被称为活性子空间，而与其余较小特征值对应的特征向量对输出并不重要，张成的子空间为非活性子空间；

如图2所示，本例中针对碳氢燃料分子的标准生成焓这一参数建立了预测模型，模型第一个特征值远大于后续特征值，这表明针此预测模型为一维活性子空间模型。此外，为了探究在样本数量进一步增加后，预测模型是否会产生较大变化，即现有的实验数据量是否已使得模型收敛，使用了自举法来估计样本数量变化引起的活性子空间模型的变动。图2中的灰色区域即为使用自举法估算出的特征值变化范围。从图2可看出，特征值点与其估计的变化范围区域趋势一致，且差异较小，这表明预测模型中使用的样本数量是足够的，预测模型已经收敛了；

步骤4.7：由于输出参数主要受活性子空间中向量的影响，则能够通过忽略非活性子空间中向量来对模型进行降维处理。这使得我们将输入输出间关系f(x)简化到一个在低维活性子空间中的函数：

f(x)≈g(S^Tx)

其中，函数g(S^Tx)即为f(x)的活性子空间预测模型；

在本例中，建立了对标准生成焓的一维活性子空间预测模型，图3即为将数据点根据梯度变化投影到一维活性子空间中的散点图，通过线性拟合即可得到标准生成焓的预测模型如图3中拟合直线所示；

步骤4.8：当g为单调函数时，可通过输入参数线性组合的系数S^T确定输入参数对输出的重要性及相关方向；

在本例中，各个拓扑指数对标准生成焓的重要性及相关方向如图4所示，可以看到，与少数重要程度较高的拓扑指数相比，大多数拓扑指数对预测模型的贡献要小得多，这表面我们可以进一步通过减少影响较小的拓扑指数来优化我们的预测模型；

经过验证，采用10个预测效果最佳的拓扑指数是优化预测模型的一个合理配置，此情况能使优化后的预测模型可在相当低的计算资源消耗基础上提供一个相对准确的预测。表1列出了优化预测模型中使用的对标准生成焓预测模型建立最重要的10个拓扑指数，其在模型线性组合中的系数即表征了对标准生成焓预测的重要性；

表一：

参数名	线性组合系数
		Wildman-Crippen摩尔折射率	0.3719
C:C:C-C基团数量	-0.3169
		价电子加权的Moreau-broto自相关描述符	0.2630
价电子移动计数	0.2175
		6元脂肪环数量	-0.2075
-CH<sub>2</sub>-基团数量	-0.1867
		连接2个碳原子的SP3杂化碳原子数量	-0.1867
12及12以上碳数的稠环数量	-0.1828
		12及12以上碳数的芳香稠环数量	-0.1828
≡C-基团数量	-0.1622

首先可以看出，在表1列出的最重要的10个拓扑指数中，摩尔折射率被认为是标准生成焓相关的最重要的拓扑指数。

摩尔折射率(MR)通常被定义为：

其中n为折射率，通常变化不大，Q为液体密度，MW为分子摩尔质量。因此，MR可以被视为描述分子体积和分子大小的描述符，且也与分子极化率信息相结合。其次，一些特定结构的原子基团也被认为是影响标准生成焓的重要因素，这些基团包括C:C:C-C，-CH₂-，≡C-和连接2个碳原子的SP3杂化碳原子。第三，由价电子加权的Moreau-Broto自相关描述符被认为是另一个重要的拓扑指标。由于Moreau-Broto自相关描述符描述了原子性质沿分子结构的分布属性,因此这里用到的价电子数，也就是参加化学反应时原子可以使用来形成化学键的电子,被认为是可以显著地影响标准生成焓。最后一组重要的拓扑指数涉及到环的数目，包括6元脂肪环、12元及以上的稠环和芳香稠环。这主要是由于分子中的碳原子环对分子的稳定性有很大的影响，因此与标准生成焓有很强的相关性。

步骤5：对于给定的某种燃料化学品，计算其分子拓扑指数后带入活性子空间预测模型，得到预测的燃料化学品性质；

本例中，将测试组数据带入建立好的预测模型中，得到的标准生成焓预测值与实验值的对比如图5所示。在精确模型(902个拓扑指数)与优化后模型(10个预测效果最佳拓扑指数)中，预测值与实验值的平均绝对误差(AAE)分别为6.74与20.05，考虑到实验测定燃料化学品性质过程中的误差对数据库的影响，本发明建立的活性子空间模型较精确地预测了所研究的燃料化学品性质参数。

根据本发明提供的燃料化学品性质建模预测系统，包括：

模块M2：按照预设的输入规范描述燃料化学品分子结构；

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。