CN112199862A

CN112199862A - 纳米粒子运移的预测方法、其影响因子分析方法及系统

Info

Publication number: CN112199862A
Application number: CN202011185025.5A
Authority: CN
Inventors: 刘颉; 李尚元; 周凯波; 周翔; 张昌河; 张凯锋; 曹贯男
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-08
Anticipated expiration: 2040-10-29
Also published as: CN112199862B

Abstract

本发明提供一种纳米粒子运移的预测方法、其影响因子分析方法及系统，包括：从多孔介质中纳米粒子运移实验中提取参数与结果数据，得到训练特征与目标特征；使用独热编码和随机森林的方法对数据预处理，编码类别型特征的同时填充缺失值；使用SMOTE技术进行数据平衡，结合支持分类特征梯度提升机建立并训练模型，对表征纳米粒子运移的指标进行回归或分类预测。最后通过沙普利累积解释方法分析不同特征对纳米粒子运移的影响的方向和大小。本发明节约了纳米粒子运移实验成本的同时提高了预测的泛化性；通过对不平衡数据进行数据处理，提高了样本数据质量和预测精度；将模型解释方法用于特征分析，使纳米粒子运移行为具有可解释性。

Description

纳米粒子运移的预测方法、其影响因子分析方法及系统

技术领域

本发明属于纳米粒子参数预测和分析领域，更具体地，涉及纳米粒子运移的预测方法、其影响因子分析方法及系统。

背景技术

工程纳米粒子作为纳米技术的应用工具之一，被广泛应用于生物医学、催化、电子、能源、环境、医药等领域。然而随着纳米粒子在消费产品中被广泛使用，它也不可避免地通过各种传播途径进入到土壤等多孔介质中，进而对环境造成污染。此外，纳米颗粒在石油工业应用中也显示出巨大的潜力，例如钻探和完井改善，储层传感成像和许多其他场景。因此，对纳米粒子在多孔介质中的运移行为进行预测，以降低纳米粒子对环境的影响或者运用纳米粒子进行采油，并对影响纳米粒子运移的各种环境因素做出评估，是实现和推广纳米粒子应用和管理的关键。

表征和描述纳米粒子的运移行为的方法可以分为三种类型：直接测量、数学模型和机器学习方法。最为准确的方法是通过直接测量的方法直接或间接的计算出描述纳米粒子运移行为的参数。传统的方法是建立数学模型，选取合适的经验参数，通过统计回归的方法得到纳米粒子运移参数，可以结合物理化学理论意义对影响纳米粒子运移的环境因素做出解释。与数学模型相比，机器学习的输出不依赖于经验参数的选择，直接利用样本数据与目标参数之间的非线性建立预测模型，具有一定的泛化能力。

以上三种方法虽然都可以表征和描述纳米粒子的运移，但各自都有一定的局限性：(1)直接测量方法没有预测性，只能用于分析影响纳米粒子运移的环境因素，而且耗时长、成本高；(2)通过数学模型描述纳米粒子的运移在理想情况下能够有效，但在复杂的环境中无法建立较为准确的纳米粒子运移预测模型；(3)机器学习方法作为一种黑箱模型，对纳米粒子运移参数的解释性不足。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种纳米粒子运移的预测方法、其影响因子分析方法及系统，旨在解决现有纳米粒子预测模型不准确，且对运移参数解释不足的问题。

为实现上述目的，第一方面，本发明提供了一种纳米粒子运移的预测方法，包括如下步骤：

确定纳米粒子在多孔介质中运移的相关历史参数；所述相关历史参数包括：数值型特征、类别型特征以及目标特征；所述数值型特征包括：多孔介质参数、纳米粒子溶液的物理化学参数、纳米粒子运移实验收集器参数以及纳米粒子参数；所述类别型特征包括：纳米粒子类别、纳米粒子溶液中离子的类别、纳米粒子表面涂层情况以及纳米粒子表面活性剂类别；所述目标特征包括：纳米粒子保留率和纳米粒子保留曲线类别；

通过CatBoost构建纳米粒子运移预测模型，所述运移预测模型的输入为纳米粒子的数值型特征和类别型特征，输出为预测的目标特征；基于所述相关历史参数训练所述运移预测模型，得到训练后的运移预测模型；

将纳米粒子当前时刻在多孔介质中运移的数值型特征和类别型特征输入到所述训练后的运移预测模型，预测得到纳米粒子的目标特征，从而基于所述目标特征评估纳米粒子的运移情况。

在一个可选的实施例中，所述基于所述相关历史参数训练所述运移预测模型之前，还包括如下步骤：

对纳米粒子的类别型特征进行独热编码，将独热编码后的类别型特征和所述数值型特征组合成训练特征；

将所述训练特征输入到所述运移预测模型，以预测对应的目标特征，以基于预测的目标特征和所述相关历史参数对应的目标特征优化所述运移预测模型的参数。

在一个可选的实施例中，若所述训练特征中存在缺失特征，则基于训练特征中其他没有缺失的特征建立随机森林回归模型预测所述缺失特征，并将预测的缺失特征填充到所述训练特征中，得到填充完整的训练特征。

在一个可选的实施例中，通过SMOTE上采样，对填充完整的训练特征或者无缺失特征的训练特征进行数据平衡；

采用平衡后的训练特征和对应的目标特征对所述运移预测模型进行训练。

第二方面，本发明提供了一种纳米粒子运移的影响因子分析方法，包括如下步骤：

基于上述第一方面提供的方法得到训练后的运移预测模型；

通过将训练特征中不同特征分别加入到所述运移预测模型，确定不同特征加入后对所述运移预测模型的预测结果的贡献情况，基于不同特征对预测结果的贡献情况计算每个特征的边际贡献，得到各个特征对应的沙普利Shapley值；所述训练特征包括所述数值型特征和类别型特征；所述Shapley值反映所述各个特征对模型预测结果的影响情况；

根据各个特征对应的Shapley值的符号与大小分别分析各个特征对纳米粒子运移的影响。

在一个可选的实施例中，第k个特征的Shapley值定义为：

其中，N是所有特征的集合，S是N中任意数量特征的子集，N\{k}表示第k个特征之前的特征序列中所有元素的子集，f(S)是与特征集合S相对应的运移预测模型的输出，总共有|S|！(|N|-|S|-1)！个序列，这些序列仅由S中在k之前的元素组成；序列中第k个的累积贡献表示为f(S∪{k})-f(S)；第k个的贡献值φ_k由特征集所有可能排列中的贡献平均值确定；

当φ_k＞0，说明第k个特征使预测值提升，对运移预测模型有正向贡献；反之，说明第k个特征使预测值降低，对运移预测模型有负向贡献；φ_k绝对值的大小表示第k个特征对运移预测模型预测值影响的大小。

第三方面，本发明提供了一种纳米粒子运移的预测系统，包括：

参数确定单元，用于确定纳米粒子在多孔介质中运移的相关历史参数；所述相关历史参数包括：数值型特征、类别型特征以及目标特征；所述数值型特征包括：多孔介质参数、纳米粒子溶液的物理化学参数、纳米粒子运移实验收集器参数以及纳米粒子参数；所述类别型特征包括：纳米粒子类别、纳米粒子溶液中离子的类别、纳米粒子表面涂层情况以及纳米粒子表面活性剂类别；所述目标特征包括：纳米粒子保留率和纳米粒子保留曲线类别；

模型训练单元，用于通过CatBoost构建纳米粒子运移预测模型，所述运移预测模型的输入为纳米粒子的数值型特征和类别型特征，输出为预测的目标特征；基于所述相关历史参数训练所述运移预测模型，得到训练后的运移预测模型；

运移预测单元，用于将纳米粒子当前时刻在多孔介质中运移的数值型特征和类别型特征输入到所述训练后的运移预测模型，预测得到纳米粒子的目标特征，从而基于所述目标特征评估纳米粒子的运移情况。

在一个可选的实施例中，该预测系统还包括：

独热编码单元，用于对纳米粒子的类别型特征进行独热编码，将独热编码后的类别型特征和所述数值型特征组合成训练特征；

所述模型训练单元，用于将所述训练特征输入到所述运移预测模型，以预测对应的目标特征，以基于预测的目标特征和所述相关历史参数对应的目标特征优化所述运移预测模型的参数。

第四方面，本发明提供了一种纳米粒子运移的影响因子分析系统，包括：

模型确定单元，用于基于上述第一方面提供的方法得到训练后的运移预测模型；

Shapley值确定单元，用于通过将训练特征中不同特征分别加入到所述运移预测模型，确定不同特征加入后对所述运移预测模型的预测结果的贡献情况，基于不同特征对预测结果的贡献情况计算每个特征的边际贡献，得到各个特征对应的沙普利Shapley值；所述训练特征包括所述数值型特征和类别型特征；所述Shapley值反映所述各个特征对模型预测结果的影响情况；

影响分析单元，用于根据各个特征对应的Shapley值的符号与大小分别分析各个特征对纳米粒子运移的影响。

在一个可选的实施例中，第k个特征的Shapley值定义为：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种纳米粒子运移的预测方法、其影响因子分析方法及系统，通过独热编码和随机森林的方法对纳米粒子运移数据进行预处理，合理的编码了类别型特征和填充了缺失特征，得到了可以应用于机器学习模型的完整的数据集。

本发明提供一种纳米粒子运移的预测方法、其影响因子分析方法及系统，通过基于SMOTE的上采样算法对纳米粒子运移数据进行数据平衡，使新合成的样本与原始样本不同且不影响不同类别样本在欧氏空间中的边界，因此可以提高纳米粒子运移预测模型的泛化性和防止过度拟合。

本发明提供一种纳米粒子运移的预测方法、其影响因子分析方法及系统，将CatBoost集成学习方法引入纳米粒子运移预测，提高了在存在大量类别型特征数据集下纳米粒子运移预测模型的回归和分类精度。

本发明提供一种纳米粒子运移的预测方法、其影响因子分析方法及系统，使用SHAP方法对模型进行可解释性分析，不仅可以评估特征对纳米粒子运移影响大小，还可以通过Shapley值的符号评估特征对纳米粒子运移的影响方向。

附图说明

图1是本发明实施例提供的纳米粒子运移的预测方法流程图；

图2是本发明实施例提供的纳米粒子运移的影响因子分析方法流程图；

图3是本发明实施例提供的多孔介质中纳米粒子运移行为预测和特征分析方法的流程图；

图4是本发明实施例提供的多孔介质中纳米粒子运移行为预测和特征分析方法的数据流向示意图；

图5是本发明实施例提供的数据填充方法原理示意图；

图6是本发明实施例提供的纳米粒子保留曲线预测结果的可视化散点图；

图7是本发明实施例提供的纳米粒子保留率预测结果的可视化散点图；

图8是本发明实施例提供的影响纳米粒子保留率的特征分析结果示意图；

图9是本发明实施例提供的影响纳米粒子保留曲线的特征分析结果示意图；

图10是本发明实施例提供的纳米粒子运移的预测系统架构图；

图11是本发明实施例提供的纳米粒子运移的影响因子分析系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明公开了一种多孔介质中纳米粒子运移行为预测和特征分析方法，该方法包括：首先从多孔介质中纳米粒子运移实验中提取参数与结果数据，得到训练特征与目标特征。其次，使用独热编码和随机森林的方法对数据预处理，编码类别型特征的同时填充缺失值。然后，使用合成少数类过采样技术(SMOTE)进行数据平衡，结合支持分类特征梯度提升机(CatBoost)建立并训练模型，对表征纳米粒子运移的指标进行回归或分类预测。最后通过沙普利(Shapley)累积解释方法(SHAP)分析不同特征对纳米粒子运移的影响的方向和大小。本发明采用了数据驱动的方法对多孔介质中纳米粒子运移行为进行预测，减少了成本的同时提高了预测泛化性；通过对不平衡数据进行数据处理，提高了样本数据质量和预测精度；将模型解释方法用于特征分析，使纳米粒子运移行为具有可解释性。

图1是本发明实施例提供的纳米粒子运移的预测方法流程图；如图1所示，包括如下步骤：

S101，确定纳米粒子在多孔介质中运移的相关历史参数；所述相关历史参数包括：数值型特征、类别型特征以及目标特征；所述数值型特征包括：多孔介质参数、纳米粒子溶液的物理化学参数、纳米粒子运移实验收集器参数以及纳米粒子参数；所述类别型特征包括：纳米粒子类别、纳米粒子溶液中离子的类别、纳米粒子表面涂层情况以及纳米粒子表面活性剂类别；所述目标特征包括：纳米粒子保留率和纳米粒子保留曲线类别；

S102，通过CatBoost构建纳米粒子运移预测模型，所述运移预测模型的输入为纳米粒子的数值型特征和类别型特征，输出为预测的目标特征；基于所述相关历史参数训练所述运移预测模型，得到训练后的运移预测模型；

S103，将纳米粒子当前时刻在多孔介质中运移的数值型特征和类别型特征输入到所述训练后的运移预测模型，预测得到纳米粒子的目标特征，从而基于所述目标特征评估纳米粒子的运移情况。

图2是本发明实施例提供的纳米粒子运移的影响因子分析方法流程图；如图2所示，包括如下步骤：

S201，确定纳米粒子在多孔介质中运移的相关历史参数；所述相关历史参数包括：数值型特征、类别型特征以及目标特征；所述数值型特征包括：多孔介质参数、纳米粒子溶液的物理化学参数、纳米粒子运移实验收集器参数以及纳米粒子参数；所述类别型特征包括：纳米粒子类别、纳米粒子溶液中离子的类别、纳米粒子表面涂层情况以及纳米粒子表面活性剂类别；所述目标特征包括：纳米粒子保留率和纳米粒子保留曲线类别；

S202，通过CatBoost构建纳米粒子运移预测模型，所述运移预测模型的输入为纳米粒子的数值型特征和类别型特征，输出为预测的目标特征；基于所述相关历史参数训练所述运移预测模型，得到训练后的运移预测模型；

S203，通过将训练特征中不同特征分别加入到所述运移预测模型，确定不同特征加入后对所述运移预测模型的预测结果的贡献情况，基于不同特征对预测结果的贡献情况计算每个特征的边际贡献，得到各个特征对应的沙普利Shapley值；所述训练特征包括所述数值型特征和类别型特征；所述Shapley值反映所述各个特征对模型预测结果的影响情况；

S204，根据各个特征对应的Shapley值的符号与大小分别分析各个特征对纳米粒子运移的影响。

在一个更具体的实施例中，如图3所示，本发明提供了一种多孔介质中纳米粒子运移行为预测和特征分析方法，使用独热编码和随机森林的方法对数据预处理，再使用SMOTE结合CatBoost的方法构建并训练模型，对表征纳米粒子运移的指标进行回归或分类，最后通过SHAP方法分析不同特征对纳米粒子运移的影响的方向和大小。预测方法的数据流向示意图如图4所示。

图3为本发明提供的一种多孔介质中纳米粒子运移行为预测和特征分析方法，该方法包括以下步骤：

步骤S1：获取纳米粒子运移实验的参数与结果数据；

具体的，步骤S1中纳米粒子运移参数与结果数据通过柱实验采集。

步骤S2：对步骤S1获取的数据进行特征提取，得到训练特征和目标特征；

具体的，步骤S2中提取的纳米粒子训练特征包括了数值型特征(如纳米粒子浓度)和类别型特征(如纳米粒子种类)；目标特征包括回归特征(如纳米粒子保留率)和分类特征(如纳米粒子保留曲线类别)。

步骤S3：用独热编码的方法处理类别型特征，得到编码后的新特征向量，和原有的特征向量组合成新的数据集；

具体的，步骤S3所述的方法包括：

对于包含n个类别的特征向量，通过n位状态寄存器来对n个状态进行编码，每个状态有独立的寄存器位，且仅有一位有效。通过独热编码，可以将类别型特征表示为二进制向量。在独热编码过程中，首先将类别映射到整数值，然后把整数值对应表示为二进制向量。在向量中，整数的索引标记为1，其余标记为0。

步骤S4：对于数据中的样本个别特征的缺失，使用完整的样本数据作为随机森林回归的训练集，用训练好的随机森林模型回归得到样本的缺失特征；

具体的，步骤S4所述的方法包括：

为了使用更多的训练样本训练随机森林模型，将数据中缺失最少的特征作为当前要填充的特征，用其余每个特征的均值分别填充其余特征向量的缺失；

将通过均值填充的完整数据样本作为训练集，包含缺失值的特征向量作为回归的目标特征训练随机森林模型；

使用经过训练的随机模型，对包含缺失值的样本进行预测，预测值作为缺失部分的填充值；

对其余特征重复上述过程，直到所有存在缺失的特征均被填充完整。具体的数据填充过程如图5所示。

步骤S5：通过SMOTE上采样算法，对数据填充后的样本进行数据平衡；

具体的，步骤S5所述的方法包括：

选择一个样本类别不平衡的纳米粒子运移特征向量，对于少数类的样本x_i，以欧氏距离为标准计算它到少数类样本集S_min中所有样本的距离，得到其k近邻；

根据样本不平衡比例设置采样倍率，对于少数类样本x_i，从其k近邻中随机选择若干样本，设为

对于每一个随机选择的近邻

按下式合成新的上采样样本：

其中，x_new表示新合成的上采样样本，rand(0,1)表示0-1之间的随机数。

步骤S6：通过CatBoost构建纳米粒子运移预测模型，将平衡后的数据集划分为训练集和测试集，并将训练集作为模型的输入以训练该模型；

具体的，步骤S6所述的方法包括：

将纳米粒子运移数据的全部样本划分为训练集和测试集，将训练集中的训练特征和目标特征分别输入CatBoost模型中。

CatBoost在传统目标统计的基础上改进为有序目标统计，利用排序原理随机生成特征排列，以实现具有时间序列的训练集，然后在不同的梯度提升步骤中使用不同的排列。假设随机生成的特征排列为σ＝(σ₁,…,σ_n)，第p个数据的第k个类别特征为：

其中，x_i,k代表第i个训练样本的第k个类别特征。Y_i表示第i个样本的目标特征。P是先验项，通常取为目标特征的平均值。a是一个加权系数(a＞0)。

CatBoost使用有序增强算法来获得梯度无偏估计。具体方法是在生成随机排列后σ＝(σ₁,…,σ_n)，构造n个不同的辅助模型M＝(M₁,...,M_n)，其中M_i是用排列中前i个样本得到的训练模型。在第t次迭代过程中，使用M_j-1得到第j个样本残差的估计值r^t。用这种方法得到的梯度估计可以减少预测漂移，防止出现过拟合。

数据被输入模型后，如果目标特征为数值型特征，训练纳米粒子运移回归预测模型；如果目标特征为类别型特征，训练纳米粒子运移分类预测模型。

步骤S7：将测试集输入所述纳米粒子运移预测模型，从而得到纳米粒子运移行为的描述性指标；

具体的，步骤S7中，将所述测试集样本的训练特征输入训练好的纳米粒子运移预测模型，得到所述待测样本运移指标参数的预测结果。

步骤S8：通过训练后的CatBoost模型与训练特征计算边际贡献，得到Shapley值；

具体的，步骤S8所述的方法包括：

假设第i个样本为x_i，第i个样本的第j个特征为x_i,j，CatBoost模型对第i个样本的预测值为y_i，模型基线y_base设置为所有样本目标特征的均值，则Shapley值服从等式：

y_i＝y_base+f(x_i,1)+f(x_i,2)+…+f(x_i,k)，

其中，f(x_i,k)为x_i,k的Shapley值，表示了第i个样本中的第j个特征对最终的预测值y_i的贡献。当f(x_i,k)＞0，说明该特征使预测值提升，对模型有正向贡献；反之，说明该特征使预测值降低，对模型有负向贡献。此外，f(x_i,k)绝对值的大小表示该特征对模型预测值影响的大小。具体地，第k个特征的Shapley值定义为：

其中，N是所有特征的集合，S可以是N中任意数量特征的子集，N\{k}表示第k个特征之前特征序列中所有元素的子集，并且f(S)是与特征集合S相对应的CatBoost模型的输出。并且总共有|S|！(|N|-|S|-1)！个序列，这些序列仅由S中在k之前的元素组成。序列中，第k个特征的累积贡献表示为f(S∪{k})-f(S)。最后，第k个特征的贡献值φ_k由特征集所有可能排列中的贡献平均值确定。

步骤S9：根据Shapley值的符号与大小分析特征对纳米粒子运移的影响。

具体的，步骤S9中，通过得到的Shapley值的符号判断特征对纳米粒子运移的影响方向，通过得到的Shapley值的绝对值大小判断特征对纳米粒子运移的影响大小。

下面进一步验证本发明的实用性。

实施例1：预测方法的有效性验证。

本实施例用已发表文献中公开的多孔介质中纳米粒子运移柱实验数据验证本发明所提出预测方法的有效性。从数据库中提取出19个训练特征和2个目标特征用于建立预测模型。目标特征分别为保留率(用于建立回归模型)和保留曲线类别(用于建立分类模型)，分别用于表示运移过程中滞留在多孔介质中的纳米粒子总量和纳米粒子分布情况。数据库共包含411个有效样本，其中403个样本的目标特征为保留率，用于回归预测；325个样本的目标特征为保留曲线类别，用于回归预测。在全部19个训练特征中，包含了15个数值型特征和4个分类型特征。在15个数值型特征中，有12个特征存在缺失，缺失特征的缺失率分别从0.73％到88.08％不等。数据的统计信息分别如表1-表3所示。

表1数值型训练特征表

其中，IEP表示等电点。

表2类别型训练特征表

其中，SRHA表示苏万尼河腐殖酸；TRIZMA表示三(羟甲基)氨基甲烷。

表3目标特征表

具体验证了不同数据填充方法、是否进行数据平衡和使用不同学习器对预测结果的影响，说明如下：

(1)与其他数据填充方法的比较

在上述纳米粒子运移数据中存在着较为明显的缺失情况，无法直接使用原始数据对保留率和保留曲线回归和分类。在提出的预测方法中，使用了独热编码和随机森林的方法填充了数据集中12个缺失特征的数据。为验证所用数据填充方法的效果，用两种传统的数据填充方法(零值填充和均值填充)作为比较。三种数据填充方法的预测效果对比如表4所示。

表4使用不同数据填充方法的模型预测表现对比表

对比可知，基于独热编码和随机森林的数据填充方法在对于保留率的预测中具有最高的决定系数和最小的均方误差，分别为0.9404和0.0067。同样，该方法在对保留曲线分类预测中也有更好的效果。使用该方法的精度和F1-分数比其他两种方法高1％。

(2)与未进行数据平衡的比较

在保留率和保留曲线类别的预测模型中，分别基于纳米粒子类别和保留曲线类别执行过采样进行数据平衡。通过SMOTE算法过采样后，用于保留率回归预测的样本数量从403增加到1106，每种纳米粒子类型的样本数量占总样本的7％。用于保留曲线类别预测的样本数量从325增加到604，每种保留曲线的样本数量占总样本的25％。为了显示本文中使用的数据平衡方法的效果，以是否进行过采样为变量进行对比实验，实验结果如表5所示。

表5是否进行数据平衡的模型预测表现对比

与没有进行过采样相比，保留率预测的判定系数和均方误差分别提高了0.16和0.017。在分类模型的性能中，精度和F1-分数的值分别增加了9％和14％。

(3)与使用其他回归器/分类器的比较

为了验证CatBoost对模型预测效果的贡献，数据集分别输入到随机森林(randomforest)、极端梯度提升(XGBoost)和轻量级梯度提升机(LightGBM)等集成学习模型中进行对比，相应的预测效果对比如表6所示。

表6使用不同学习器的模型预测表现对比

对于预测保留率的判定系数和均方误差，本发明方法采用的CatBoost学习器的预测效果最佳。四种学习器相比，CatBoost对保留曲线类别的分类预测效果最佳，精度和F1-分数的平均值分别为89.57％和89.50％，达到了理想的分类预测效果。

为了更为直观的展示本发明方法的优势，对保留曲线和保留率预测实验结果进行可视化，分别绘制了测试集中经过线性判别分析(LDA)降维的分类散点图和预测值和真实值的回归散点图。保留曲线和保留率预测的可视化结果分别如图6和图7所示，其中采用的方法：a)为均值填充+CatBoost学习器；b)为随机森林填充+CatBoost学习器；c)为随机森林填充+SMOTE过采样+随机森林学习器；d)为本发明方法。从图6中可以看出，b方法在采用了随机森林填充之后比a有更好的分类效果；a、b两种方法由于没有采用SMOTE过采样，分类结果不能将四种保留曲线类别区分开，分类效果不如采用了SMOTE过采样的c、d两种方法；c、d两种方法的分类效果不明显，这说明了不同学习器对保留曲线的分类影响不大。从图7可以看出，除了随机森林填充和SMOTE过采样提升了对保留率的预测效果之外，对比c、d两种方法可以看出，使用CatBoost学习器可以比随机森林学习器有更好的预测表现。综上，采用本发明方法的分类和回归结果相对其他三种对比方法表现出了最好的性能。

综上所述，本发明所提方法对多孔介质中纳米粒子运移预测有比其他对比方法更好的预测表现，验证了本发明所提方法预测的可靠性。

实施例2：特征分析的有效性

使用实施例1中的数据库和训练后的最优预测模型，通过SHAP方法分析影响保留率和保留曲线类型的特征。在每次分析中，选择对模型输出影响最大的10个特征作为关键特征，并结合现有的理论，具体验证了所用分析方法的有效性，说明如下：

(1)关于保留率的特征分析

基于SHAP的保留率可解释性分析结果如图8所示。相关的电势信息(颗粒IEP，颗粒电势和收集器电势)、孔隙流速、溶液浓度、进水体积和粒径与其他特征相比对模型的预测结果影响较大。

从Shapley值结果可以看出，较高的颗粒电势，收集器电势和较小的IEP有助于纳米粒子在多孔介质中的保留。对此的理论解释是，由于电势影响纳米粒子表面的稳定性，这使其在特定电势条件下更易于聚集和沉积。而且电势信息与纳米颗粒表面涂层和表面活性剂有关，并且包含这些特征的高阶信息，因此对模型有很大的影响。此外，大多数样品中溶液浓度对保留率的影响表现出很高的线性，浓度越高，对保留率的负向影响就越大。但是，Shapley值结果中反映了某些溶液浓度非常低的样品对保留率的负向影响也更大，这可以用阻断效应来解释，当纳米颗粒溶液的浓度低时，沉积的纳米颗粒不会饱和，低溶液浓度使保留率也相应降低，当浓度达到一定水平时，纳米颗粒不再沉积，此时溶液的浓度越高，保留的纳米颗粒的相对质量越低。

(2)关于指数型保留曲线的特征分析

基于SHAP的保留曲线可解释性分析结果如图9所示。相关的电势信息，进水体积，孔隙流速和纳米粒径特征等对产生指数型保留曲线最有影响。

从Shapley值结果可以看出，最容易区分对结果影响方向的是粒径特征，粒径越大，越容易产生指数型保留曲线。对应的理论解释为，纳米粒子的保留更可能在溶液注射的入口处发生，因为粒径影响孔喉或颗粒-颗粒结合处的物理保留，当多孔介质入口处发生应变时，保留曲线更容易表现为指数型。

综上所述，本发明所提方法在分析影响纳米粒子运移的关键特征中可以给出合理可信的评估结果，验证了本发明所提特征分析方法的有效性。

图10是本发明实施例提供的纳米粒子运移的预测系统架构图；如图10所示，包括：

参数确定单元1010，用于确定纳米粒子在多孔介质中运移的相关历史参数；所述相关历史参数包括：数值型特征、类别型特征以及目标特征；所述数值型特征包括：多孔介质参数、纳米粒子溶液的物理化学参数、纳米粒子运移实验收集器参数以及纳米粒子参数；所述类别型特征包括：纳米粒子类别、纳米粒子溶液中离子的类别、纳米粒子表面涂层情况以及纳米粒子表面活性剂类别；所述目标特征包括：纳米粒子保留率和纳米粒子保留曲线类别；

模型训练单元1020，用于通过CatBoost构建纳米粒子运移预测模型，所述运移预测模型的输入为纳米粒子的数值型特征和类别型特征，输出为预测的目标特征；基于所述相关历史参数训练所述运移预测模型，得到训练后的运移预测模型；

运移预测单元1030，用于将纳米粒子当前时刻在多孔介质中运移的数值型特征和类别型特征输入到所述训练后的运移预测模型，预测得到纳米粒子的目标特征，从而基于所述目标特征评估纳米粒子的运移情况。

独热编码单元1040，用于对纳米粒子的类别型特征进行独热编码，将独热编码后的类别型特征和所述数值型特征组合成训练特征；

模型训练单元1020，用于将所述训练特征输入到所述运移预测模型，以预测对应的目标特征，以基于预测的目标特征和所述相关历史参数对应的目标特征优化所述运移预测模型的参数。

可以理解的是，图10中各个单元的详细功能参见前述方法实施例中的介绍，在此不做赘述。

图11是本发明实施例提供的纳米粒子运移的影响因子分析系统架构图；如图11所示，包括：

模型确定单元1110，用于基于上述第一方面提供的方法得到训练后的运移预测模型；

Shapley值确定单元1120，用于通过将训练特征中不同特征分别加入到所述运移预测模型，确定不同特征加入后对所述运移预测模型的预测结果的贡献情况，基于不同特征对预测结果的贡献情况计算每个特征的边际贡献，得到各个特征对应的沙普利Shapley值；所述训练特征包括所述数值型特征和类别型特征；所述Shapley值反映所述各个特征对模型预测结果的影响情况；

影响分析单元1130，用于根据各个特征对应的Shapley值的符号与大小分别分析各个特征对纳米粒子运移的影响。

在一个可选的实施例中，第k个特征的Shapley值定义为：

可以理解的是，图11中各个单元的详细功能参见前述方法实施例中的介绍，在此不做赘述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种纳米粒子运移的预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的预测方法，其特征在于，所述基于所述相关历史参数训练所述运移预测模型之前，还包括如下步骤：

3.根据权利要求2所述的预测方法，其特征在于，若所述训练特征中存在缺失特征，则基于训练特征中其他没有缺失的特征建立随机森林回归模型预测所述缺失特征，并将预测的缺失特征填充到所述训练特征中，得到填充完整的训练特征。

4.根据权利要求3所述的预测方法，其特征在于，通过SMOTE上采样，对填充完整的训练特征或者无缺失特征的训练特征进行数据平衡；

5.一种纳米粒子运移的影响因子分析方法，其特征在于，包括如下步骤：

基于权利要求1至4任一项所述的方法得到训练后的运移预测模型；

6.根据权利要求5所述的影响因子分析方法，其特征在于，第k个特征的Shapley值定义为：

当φ_k>0，说明第k个特征使预测值提升，对运移预测模型有正向贡献；反之，说明第k个特征使预测值降低，对运移预测模型有负向贡献；φ_k绝对值的大小表示第k个特征对运移预测模型预测值影响的大小。

7.一种纳米粒子运移的预测系统，其特征在于，包括：

8.根据权利要求7所述的预测系统，其特征在于，还包括：

9.一种纳米粒子运移的影响因子分析系统，其特征在于，包括：

模型确定单元，用于基于权利要求1至4任一项所述的方法得到训练后的运移预测模型；

10.根据权利要求9所述的影响因子分析系统，其特征在于，第k个特征的Shapley值定义为：