CN114757433B

CN114757433B - 一种饮用水源抗生素抗性相对风险快速识别方法

Info

Publication number: CN114757433B
Application number: CN202210456486.4A
Authority: CN
Inventors: 蒋鹏; 吴颖; 胥文静; 姚黎明; 罗利
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2023-08-29
Anticipated expiration: 2042-04-24
Also published as: CN114757433A

Abstract

本发明公开了一种饮用水源抗生素抗性相对风险快速识别方法，涉及抗生素抗性识别技术领域，包括以下步骤，选取相关环境因素和土地使用类型因素作为初始特征变量，采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为目标变量，并以AMR相对风险分数的中位数为阈值，将问题转换为一个二分类问题；结合相关性分析和弹性网络建模执行特征工程，对输入特征变量进行有效筛选；将训练集数据输入随机森林分类器进行学习训练，结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准，以找到最优超参数组合，从而形成最佳的风险识别机器学习模型。本发明能够快速且准确地识别饮用水源地抗生素抗性的相对风险，从而大大节约了时间成本。

Description

一种饮用水源抗生素抗性相对风险快速识别方法

技术领域

本发明涉及抗生素抗性识别技术领域，尤其涉及一种饮用水源抗生素抗性相对风险快速识别方法。

背景技术

抗生素的大量使用使得自然水环境中抗生素抗性问题日益严峻。由携带抗性基因的抗性细菌及引起的感染治疗难度更大、治疗时间更长、治疗成本更高，甚至也会造成更高的死亡率。然而，由于缺乏抗性细菌致病及抗性基因污染的剂量效应模型及标准数据，以及获取相关数据存在较大的不确定性，对自然水环境中抗生素抗性风险的识别和定量评估也成了当今一大挑战。有学者从定性和定性-定量结合的层面提出了评估抗生素抗性风险的概念框架，但是目前还没有量化抗生素抗性风险的模型。

在此背景下，Goh等提出了一个评估饮用水源水环境中抗生素抗性相对风险的框架，以样本间的抗生素抗性相对风险替代难以量化的绝对风险，在该框架中，Goh等基于DALYs数据库和ARGs排序数据库，根据每种ARG和ARB的排名，计算了每种ARG和ARB的相对危害性权重，并结合多个自然流域的不同ARG和ARB的丰度量化了抗生素抗性的相对风险，该框架基于ARB和ARGs的真实检测数据计算抗生素抗性的相对风险。然而在实际应用中，ARB和ARGs的检测和提取是一个繁琐复杂且耗时的过程，使用该方法并不能快速识别出饮用水源水体中抗生素抗性的相对风险，基于众多易测量的潜在影响因素来执行抗生素抗性相对风险推断是一种值得尝试的途径，所以亟需一种有效的方法来快速识别饮用水源抗生素抗性相对风险。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种饮用水源抗生素抗性相对风险快速识别方法。其优点在于能够根据易测量的环境因素和土地使用类型等众多影响因素快速且准确地识别饮用水源地抗生素抗性的相对风险，从而大大节约了时间成本。

为了实现上述目的，本发明采用了如下技术方案：

一种饮用水源抗生素抗性相对风险快速识别方法，包括以下步骤：

步骤一：选取相关环境因素和土地使用类型因素为初始特征变量，其中环境因素包括：温度(Temp)、pH值(pH)、氧化还原电位(ORP)、电导率(EC)、电阻率(RES)、总溶解固体(TDS)、盐度(Sal)、压强(Press)、溶解氧(DO)、浊度(Turb)、24小时累计降雨量(24-hrrainfall)；土地使用类型因素包括：居民区比例(Residential)、农业区比例(Agriculture)、绿化区比例(Green)、城市区比例(Urban)，对各特征变量进行相关性分析，计算变量之间的Spearman相关系数及显著性水平(p值)，剔除相关关系显著的变量(p<0.05)，通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著，且Green与AMR相对风险值之间相关关系显著，因此剔除Residential、Urban和Agriculture三个特征变量，同理，EC、RES、TDS、Sal四个变量之间相关关系显著，又RES与AMR相对风险值之间的相关关系更显著，因此剔除EC、TDS、Sal三个特征变量，考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系，利用弹性网络对特征变量进行进一步筛选；

步骤二：采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为0～1范围内的连续值，将问题转换为一个二分类问题，相对风险值在中位数以上的样本的目标值编码为1，表示相对来说存在风险，相对风险值在中位数以下的样本的目标值编码为0，表示相对来说风险较小或没有风险；

步骤三：将样本数据按照7:3的比例划分训练集和测试集，将训练集数据输入随机森林分类器进行学习训练，用测试集数据测试训练得到的模型的性能；

步骤四：结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准，在此方法中主要利用遗传算法的全局搜索能力同时对多个超参数进行协同优化，以找到最优超参数组合，从而形成最佳的风险识别机器学习模型。

优选地，所述弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型，它是岭回归和套索回归的结合，既具有岭回归的稳定性，又具有套索回归特征选择的功能。

优选地，所述弹性网络的目标函数如下：通过目标函数筛选出权重值不为0的特征变量，最终的界定出的模型特征变量包括Green、ORP、RES、D0、Turb、24-hr rajnfall。

优选地，所述随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器，由多棵相对独立的决策树组合而成，模型最终结果由多棵决策树的结果投票决定，随机森林算法的随机性主要体现在对总体样本的Bootstrap抽样和总体特征的随机选择。

设训练集为D，样本数为N，特征数为M，h_t表示第t棵决策树，其中t＝1，2，…，T，则随机森林算法的步骤如下：

(1)通过Bootstrap方法从数据集D中有放回地随机抽取N个样本，共进行T次抽样，得到训练子集D_t，t＝1，2，…，T；

(2)利用训练子集D_t构建T棵决策树；

(3)对决策树的每一个节点，采用无放回随机抽样的方式从M个特征中抽取m个特征(m＜M)，遍历这m个特征，基于“基尼指数最小”原则来确定最优划分属性。对于训练子集D_t，设样本类别数为n，p_k为数据集D_t中第k类样本所占的比例，其中k＝1，2，…，n，则数据集D_t的基尼指数定义为：

如果特征A的某一取值a将数据集D_t分割成和/>两部分，则在特征A的条件下，数据集D_t的基尼指数为：

Gini(D_t，A)表示经A＝a划分后数据集D_t的不确定性，在基于基尼指数选择划分属性时，遍历所有特征和每个特征对应的值，以Gini(D_t，A)最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂，直至停止分裂；

(4)记录每棵决策树的分类结果，采用投票法，以得票最高的类别作为样本的预测结果。

优选地，所述超参数是机器学习算法在开始学习之前需要设置的参数，不同的超参数组合也会造成模型的性能不同，通过对超参数进行优化，选择最优的超参数组合可以提高学习的性能和效果，随机森林算法中树的数量和树的深度等都是超参数，以树的数量为例，nestimators太小容易造成欠拟合的问题，太大运算量太大，不能显著提升模型性能，需要对超参数进行调优以选择一个适中的数值。

优选地，所述超参数优化主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优，利用遗传算法进行超参数优化的具体步骤如下：

(1)种群初始化：给定每个超参数值的范围，让每个超参数在取值范围内随机取值，并通过排列组合生成多个超参数组合，每个超参数组合为一条染色体。

(2)计算适应度值。对于二分类问题，样本类别有正负两类，正类是饮用水源存在抗生素抗性风险，负类是饮用水源不存在抗生素抗性风险，可能出现的预测情况有以下四种：

①真阳性(TP)：实际上有风险，模型预测的结果也是有风险；

②假阳性(FP)：实际上没有风险，但是模型预测的结果是有风险；

③真阴性(TN)：实际上没有风险，模型预测的结果也是没有风险；

④假阴性(FN)：实际上有风险，但是模型预测的结果是没有风险。

在二分类问题中，常用的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-socre、AUC值等，其中AUC值即ROC曲线下的面积，ROC曲线是一条以真阳性率(TPR)为纵轴，以假阳性率(FPR)为横轴的曲线。TPR和FPR的计算公式如下：

AUC值指随机给定一个正样本和负样本，分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性，可用于评估模型的整体能力，AUC值越大，则模型分类正确率越高，以10折交叉验证的AUC值的均值为适应度函数，即

(3)选择。采用轮盘赌选择法对种群中的个体进行选择，个体i被选中的概率为

(4)交叉。采用单点交叉法，随机生成一个0～1之间的小数r，如果r小于交叉概率P_c，则在个体编码串中随机生成一个交叉点，将两个个体在交叉点前后的基因互换；否则，不进行交叉。

(5)变异。采用基本位变异法，随机生成一个0～1之间的小数r，如果r小于变异概率，则在个体编码串中随机生成一个变异点，通过对变异点的值加减1来进行变异，否则，不进行变异，直至达到算法收敛或者至最大允许的迭代次数。

本发明的有益效果为：

1、本发明能够根据易测量的环境因素和土地使用类型等众多影响因素快速且准确地识别饮用水源地抗生素抗性的相对风险，从而大大节约了时间成本。

2、本发明结合真实数据样本及遗传算法对随机森林算法的超参数进行全局优化，能够快速有效地搜索出最优超参数组合，使模型能够自适应地针对不同数据集选择最优的超参数组合。

3、本发明对真实饮用水源数据样本地进行案例分析研究，结果显示模型在测试数据集及检验数据集上的准确率、f1-score和AUC值均超过了90％，且与未进行调参的随机森林模型相比，准确率和AUC值分别提升了25％和18.2％。

附图说明

图1为本发明提出的一种饮用水源抗生素抗性相对风险快速识别方法的工作流程结构示意图。

具体实施方式

下面结合具体实施方式对本专利的技术方案作进一步详细地说明。

参照图1，一种饮用水源抗生素抗性相对风险快速识别方法，包括以下步骤：

本实施例中，弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型，它是岭回归和套索回归的结合，既具有岭回归的稳定性，又具有套索回归特征选择的功能。

本实施例中，弹性网络的目标函数如下：通过目标函数筛选出权重值不为0的特征变量，最终的界定出的模型特征变量包括Green、ORP、RES、DO、Turb、24-hr rainfall。

本实施例中，随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器，由多棵相对独立的决策树组合而成，模型最终结果由多棵决策树的结果投票决定，随机森林算法的随机性主要体现在对总体样本的Bootstrap抽样和总体特征的随机选择。由于其具有训练速度快、泛化能力强等特点，随机森林算法一直被认为是强大的机器学习算法，并被广泛用于风险识别领域。

(2)利用训练子集D_t构建T棵决策树；

本实施例中，超参数是机器学习算法在开始学习之前需要设置的参数，不同的超参数组合也会造成模型的性能不同，通过对超参数进行优化，选择最优的超参数组合可以提高学习的性能和效果，随机森林算法中树的数量和树的深度等都是超参数，以树的数量为例，nestimators太小容易造成欠拟合的问题，太大运算量太大，不能显著提升模型性能，需要对超参数进行调优以选择一个适中的数值，利用遗传算法对随机森林算法的nestimators，maxdepth，min_samples_split，max_leaf_nodes四个超参数调优，使模型能够自适应地针对不同数据集选择最优的超参数组合。

本实施例中，超参数优化主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优，利用遗传算法进行超参数优化的具体步骤如下：

①真阳性(TP)：实际上有风险，模型预测的结果也是有风险；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种饮用水源抗生素抗性相对风险快速识别方法，其特征在于，包括以下步骤：

步骤一：选取相关环境因素和土地使用类型因素为初始特征变量，环境因素包括：温度Temp、pH值、氧化还原电位ORP、电导率EC、电阻率RES、总溶解固体TDS、盐度Sal、压强Press、溶解氧DO、浊度Turb、24小时累计降雨量24-hr rainfall；土地使用类型因素包括：居民区比例Residential、农业区比例Agriculture、绿化区比例Green、城市区比例Urban；对各特征变量进行相关性分析，计算变量之间的Spearman相关系数及显著性水平，剔除相关关系显著的变量，通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著，且Green与AMR相对风险值之间相关关系显著，因此剔除Residential、Urban和Agriculture三个特征变量，同理，EC、RES、TDS、Sal四个变量之间相关关系显著，又RES与AMR相对风险值之间的相关关系更显著，因此剔除EC、TDS、Sal三个特征变量，考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系，利用弹性网络对特征变量进行进一步筛选；

步骤二：采用AMR相对风险评估框架计算出的AMR相对风险得分为0～1范围内的连续值，将问题转换为一个二分类问题，相对风险值在中位数以上的样本的目标值编码为1，表示相对来说存在风险，相对风险值在中位数以下的样本的目标值编码为0，则表示风险较小或没有风险；

步骤四：结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准，利用遗传算法的全局搜索能力同时对多个超参数进行协同优化，以找到最优超参数组合，从而形成最佳的风险识别机器学习模型。

2.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法，其特征在于，所述弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型，它是岭回归和套索回归的结合，既具有岭回归的稳定性，又具有套索回归特征选择的功能。

3.根据权利要求2所述的一种饮用水源抗生素抗性相对风险快速识别方法，其特征在于，所述弹性网络的目标函数如下：，通过目标函数筛选出权重值不为0的特征变量，最终的界定出的模型特征变量包括Green、ORP、RES、DO、Turb、24-hr rainfall。

4.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法，其特征在于，所述随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器，由多棵相对独立的决策树组合而成，模型最终结果由多棵决策树的结果投票决定，随机森林算法的随机性体现在对总体样本的Bootstrap抽样和总体特征的随机选择。

5.根据权利要求4所述的一种饮用水源抗生素抗性相对风险快速识别方法，其特征在于，所述训练集为D，样本数为N，特征数为M，表示第t棵决策树，其中/>，则随机森林算法的步骤如下：

步骤一：通过Bootstrap方法从数据集D中有放回地随机抽取N个样本，共进行T次抽样，得到训练子集，/>；

步骤二：利用训练子集构建T棵决策树；

步骤三：对决策树的每一个节点，采用无放回随机抽样的方式从M个特征中抽取m个特征，遍历这m个特征，基于“基尼指数最小”原则来确定最优划分属性，对于训练子集，设样本类别数为n，/>为数据集/>中第k类样本所占的比例，其中/>，则数据集/>的基尼指数定义为：/>；

如果特征A的某一取值a将数据集分割成/>和/>两部分，则在特征A的条件下，数据集的基尼指数为：

；

表示经/>划分后数据集/>的不确定性，在基于基尼指数选择划分属性时，遍历所有特征和每个特征对应的值，以/>最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂，直至停止分裂；

步骤四：记录每棵决策树的分类结果，采用投票法，以得票最高的类别作为样本的预测结果。

6.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法，其特征在于，所述超参数是机器学习算法在开始学习之前需要设置的参数，不同的超参数组合也会造成模型的性能不同，通过对超参数进行优化，选择最优的超参数组合用于提高学习的性能和效果，随机森林算法中树的数量和树的深度都是超参数，参照树的数量，nestimators太小容易造成欠拟合的问题，容易导致运算量太大，不能显著提升模型性能，需要对超参数进行调优以选择一个适中的数值。

7.根据权利要求6所述的一种饮用水源抗生素抗性相对风险快速识别方法，其特征在于，所述超参数优化步骤主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优，利用遗传算法进行超参数优化的具体步骤如下：

步骤一：种群初始化：给定每个超参数值的范围，让每个超参数在取值范围内随机取值，并通过排列组合生成多个超参数组合，每个超参数组合为一条染色体；

步骤二：计算适应度值：对于二分类问题，样本类别有正负两类，正类是饮用水源存在抗生素抗性风险，负类是饮用水源不存在抗生素抗性风险，可能出现的预测情况有以下四种：

①真阳性TP：实际上有风险，模型预测的结果也是有风险；

②假阳性FP：实际上没有风险，但是模型预测的结果是有风险；

③真阴性TN：实际上没有风险，模型预测的结果也是没有风险；

④假阴性FN：实际上有风险，但是模型预测的结果是没有风险；

在二分类问题中，评价指标有准确率Accuracy、精确率Precision、召回率Recall、F1-socre、AUC值，其中AUC值即ROC曲线下的面积，ROC曲线是一条以真阳性率TPR为纵轴，以假阳性率FPR为横轴的曲线;TPR和FPR的计算公式如下：

，/>；

AUC值指随机给定一个正样本和负样本，分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性，可用于评估模型的整体能力，AUC值越大，则模型分类正确率越高，以10折交叉验证的AUC值的均值为适应度函数，即；

步骤三：选择：采用轮盘赌选择法对种群中的个体进行选择，个体i被选中的概率为

；

步骤四：交叉：采用单点交叉法，随机生成一个0～1之间的小数r，如果r小于交叉概率，则在个体编码串中随机生成一个交叉点，将两个个体在交叉点前后的基因互换；否则，不进行交叉；

步骤五：变异：采用基本位变异法，随机生成一个0～1之间的小数r，如果r小于变异概率，则在个体编码串中随机生成一个变异点，通过对变异点的值加减1来进行变异，否则，不进行变异，直至达到算法收敛或者至最大允许的迭代次数。