CN114757433A - 一种饮用水源抗生素抗性相对风险快速识别方法 - Google Patents

一种饮用水源抗生素抗性相对风险快速识别方法 Download PDF

Info

Publication number
CN114757433A
CN114757433A CN202210456486.4A CN202210456486A CN114757433A CN 114757433 A CN114757433 A CN 114757433A CN 202210456486 A CN202210456486 A CN 202210456486A CN 114757433 A CN114757433 A CN 114757433A
Authority
CN
China
Prior art keywords
risk
value
hyper
relative risk
antibiotic resistance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210456486.4A
Other languages
English (en)
Other versions
CN114757433B (zh
Inventor
蒋鹏
吴颖
胥文静
姚黎明
罗利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210456486.4A priority Critical patent/CN114757433B/zh
Publication of CN114757433A publication Critical patent/CN114757433A/zh
Application granted granted Critical
Publication of CN114757433B publication Critical patent/CN114757433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)

Abstract

本发明公开了一种饮用水源抗生素抗性相对风险快速识别方法,涉及抗生素抗性识别技术领域,包括以下步骤,选取相关环境因素和土地使用类型因素作为初始特征变量,采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为目标变量,并以AMR相对风险分数的中位数为阈值,将问题转换为一个二分类问题;结合相关性分析和弹性网络建模执行特征工程,对输入特征变量进行有效筛选;将训练集数据输入随机森林分类器进行学习训练,结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。本发明能够快速且准确地识别饮用水源地抗生素抗性的相对风险,从而大大节约了时间成本。

Description

一种饮用水源抗生素抗性相对风险快速识别方法
技术领域
本发明涉及抗生素抗性识别技术领域,尤其涉及一种饮用水源抗生素抗性相对风险快速识别方法。
背景技术
抗生素的大量使用使得自然水环境中抗生素抗性问题日益严峻。由携带抗性基因的抗性细菌及引起的感染治疗难度更大、治疗时间更长、治疗成本更高,甚至也会造成更高的死亡率。然而,由于缺乏抗性细菌致病及抗性基因污染的剂量效应模型及标准数据,以及获取相关数据存在较大的不确定性,对自然水环境中抗生素抗性风险的识别和定量评估也成了当今一大挑战。有学者从定性和定性-定量结合的层面提出了评估抗生素抗性风险的概念框架,但是目前还没有量化抗生素抗性风险的模型。
在此背景下,Goh等提出了一个评估饮用水源水环境中抗生素抗性相对风险的框架,以样本间的抗生素抗性相对风险替代难以量化的绝对风险,在该框架中,Goh等基于DALYs数据库和ARGs排序数据库,根据每种ARG和ARB的排名,计算了每种ARG和ARB的相对危害性权重,并结合多个自然流域的不同ARG和ARB的丰度量化了抗生素抗性的相对风险,该框架基于ARB和ARGs的真实检测数据计算抗生素抗性的相对风险。然而在实际应用中,ARB和ARGs的检测和提取是一个繁琐复杂且耗时的过程,使用该方法并不能快速识别出饮用水源水体中抗生素抗性的相对风险,基于众多易测量的潜在影响因素来执行抗生素抗性相对风险推断是一种值得尝试的途径,所以亟需一种有效的方法来快速识别饮用水源抗生素抗性相对风险。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种饮用水源抗生素抗性相对风险快速识别方法。其优点在于能够根据易测量的环境因素和土地使用类型等众多影响因素快速且准确地识别饮用水源地抗生素抗性的相对风险,从而大大节约了时间成本。
为了实现上述目的,本发明采用了如下技术方案:
一种饮用水源抗生素抗性相对风险快速识别方法,包括以下步骤:
步骤一:选取相关环境因素和土地使用类型因素为初始特征变量,其中环境因素包括:温度(Temp)、pH值(pH)、氧化还原电位(ORP)、电导率(EC)、电阻率(RES)、总溶解固体(TDS)、盐度(Sal)、压强(Press)、溶解氧(DO)、浊度(Turb)、24小时累计降雨量(24-hrrainfall);土地使用类型因素包括:居民区比例(Residential)、农业区比例(Agriculture)、绿化区比例(Green)、城市区比例(Urban),对各特征变量进行相关性分析,计算变量之间的Spearman相关系数及显著性水平(p值),剔除相关关系显著的变量(p<0.05),通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著,且Green与AMR相对风险值之间相关关系显著,因此剔除Residential、Urban和Agriculture三个特征变量,同理,EC、RES、TDS、Sal四个变量之间相关关系显著,又RES与AMR相对风险值之间的相关关系更显著,因此剔除EC、TDS、Sal三个特征变量,考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系,利用弹性网络对特征变量进行进一步筛选;
步骤二:采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为0~1范围内的连续值,将问题转换为一个二分类问题,相对风险值在中位数以上的样本的目标值编码为1,表示相对来说存在风险,相对风险值在中位数以下的样本的目标值编码为0,表示相对来说风险较小或没有风险;
步骤三:将样本数据按照7:3的比例划分训练集和测试集,将训练集数据输入随机森林分类器进行学习训练,用测试集数据测试训练得到的模型的性能;
步骤四:结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,在此方法中主要利用遗传算法的全局搜索能力同时对多个超参数进行协同优化,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。
优选地,所述弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型,它是岭回归和套索回归的结合,既具有岭回归的稳定性,又具有套索回归特征选择的功能。
优选地,所述弹性网络的目标函数如下:
Figure BDA0003618931370000031
通过目标函数筛选出权重值不为0的特征变量,最终的界定出的模型特征变量包括Green、ORP、RES、DO、Turb、24-hr rainfall。
优选地,所述随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器,由多棵相对独立的决策树组合而成,模型最终结果由多棵决策树的结果投票决定,随机森林算法的随机性主要体现在对总体样本的Bootstrap抽样和总体特征的随机选择。
设训练集为D,样本数为N,特征数为M,ht表示第t棵决策树,其中t=1,2,…,T,则随机森林算法的步骤如下:
(1)通过Bootstrap方法从数据集D中有放回地随机抽取N个样本,共进行T次抽样,得到训练子集Dt,t=1,2,…,T;
(2)利用训练子集Dt构建T棵决策树;
(3)对决策树的每一个节点,采用无放回随机抽样的方式从M个特征中抽取m个特征(m<M),遍历这m个特征,基于“基尼指数最小”原则来确定最优划分属性。对于训练子集Dt,设样本类别数为n,pk为数据集Dt中第k类样本所占的比例,其中k=1,2,…,n,则数据集Dt的基尼指数定义为:
Figure BDA0003618931370000041
如果特征A的某一取值a将数据集Dt分割成
Figure BDA0003618931370000042
Figure BDA0003618931370000043
两部分,则在特征A的条件下,数据集Dt的基尼指数为:
Figure BDA0003618931370000044
Gini(Dt,A)表示经A=a划分后数据集Dt的不确定性,在基于基尼指数选择划分属性时,遍历所有特征和每个特征对应的值,以Gini(Dt,A)最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂,直至停止分裂;
(4)记录每棵决策树的分类结果,采用投票法,以得票最高的类别作为样本的预测结果。
优选地,所述超参数是机器学习算法在开始学习之前需要设置的参数,不同的超参数组合也会造成模型的性能不同,通过对超参数进行优化,选择最优的超参数组合可以提高学习的性能和效果,随机森林算法中树的数量和树的深度等都是超参数,以树的数量为例,nestimators太小容易造成欠拟合的问题,太大运算量太大,不能显著提升模型性能,需要对超参数进行调优以选择一个适中的数值。
优选地,所述超参数优化主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优,利用遗传算法进行超参数优化的具体步骤如下:
(1)种群初始化:给定每个超参数值的范围,让每个超参数在取值范围内随机取值,并通过排列组合生成多个超参数组合,每个超参数组合为一条染色体。
(2)计算适应度值。对于二分类问题,样本类别有正负两类,正类是饮用水源存在抗生素抗性风险,负类是饮用水源不存在抗生素抗性风险,可能出现的预测情况有以下四种:
①真阳性(TP):实际上有风险,模型预测的结果也是有风险;
②假阳性(FP):实际上没有风险,但是模型预测的结果是有风险;
③真阴性(TN):实际上没有风险,模型预测的结果也是没有风险;
④假阴性(FN):实际上有风险,但是模型预测的结果是没有风险。
在二分类问题中,常用的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-socre、AUC值等,其中AUC值即ROC曲线下的面积,ROC曲线是一条以真阳性率(TPR)为纵轴,以假阳性率(FPR)为横轴的曲线。TPR和FPR的计算公式如下:
Figure BDA0003618931370000061
AUC值指随机给定一个正样本和负样本,分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性,可用于评估模型的整体能力,AUC值越大,则模型分类正确率越高,以10折交叉验证的AUC值的均值为适应度函数,即
Figure BDA0003618931370000062
(3)选择。采用轮盘赌选择法对种群中的个体进行选择,个体i被选中的概率为
Figure BDA0003618931370000063
(4)交叉。采用单点交叉法,随机生成一个0~1之间的小数r,如果r小于交叉概率Pc,则在个体编码串中随机生成一个交叉点,将两个个体在交叉点前后的基因互换;否则,不进行交叉。
(5)变异。采用基本位变异法,随机生成一个0~1之间的小数r,如果r小于变异概率,则在个体编码串中随机生成一个变异点,通过对变异点的值加减1来进行变异,否则,不进行变异,直至达到算法收敛或者至最大允许的迭代次数。
本发明的有益效果为:
1、本发明能够根据易测量的环境因素和土地使用类型等众多影响因素快速且准确地识别饮用水源地抗生素抗性的相对风险,从而大大节约了时间成本。
2、本发明结合真实数据样本及遗传算法对随机森林算法的超参数进行全局优化,能够快速有效地搜索出最优超参数组合,使模型能够自适应地针对不同数据集选择最优的超参数组合。
3、本发明对真实饮用水源数据样本地进行案例分析研究,结果显示模型在测试数据集及检验数据集上的准确率、f1-score和AUC值均超过了90%,且与未进行调参的随机森林模型相比,准确率和AUC值分别提升了25%和18.2%。
附图说明
图1为本发明提出的一种饮用水源抗生素抗性相对风险快速识别方法的工作流程结构示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
参照图1,一种饮用水源抗生素抗性相对风险快速识别方法,包括以下步骤:
步骤一:选取相关环境因素和土地使用类型因素为初始特征变量,其中环境因素包括:温度(Temp)、pH值(pH)、氧化还原电位(ORP)、电导率(EC)、电阻率(RES)、总溶解固体(TDS)、盐度(Sal)、压强(Press)、溶解氧(DO)、浊度(Turb)、24小时累计降雨量(24-hrrainfall);土地使用类型因素包括:居民区比例(Residential)、农业区比例(Agriculture)、绿化区比例(Green)、城市区比例(Urban),对各特征变量进行相关性分析,计算变量之间的Spearman相关系数及显著性水平(p值),剔除相关关系显著的变量(p<0.05),通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著,且Green与AMR相对风险值之间相关关系显著,因此剔除Residential、Urban和Agriculture三个特征变量,同理,EC、RES、TDS、Sal四个变量之间相关关系显著,又RES与AMR相对风险值之间的相关关系更显著,因此剔除EC、TDS、Sal三个特征变量,考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系,利用弹性网络对特征变量进行进一步筛选;
步骤二:采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为0~1范围内的连续值,将问题转换为一个二分类问题,相对风险值在中位数以上的样本的目标值编码为1,表示相对来说存在风险,相对风险值在中位数以下的样本的目标值编码为0,表示相对来说风险较小或没有风险;
步骤三:将样本数据按照7:3的比例划分训练集和测试集,将训练集数据输入随机森林分类器进行学习训练,用测试集数据测试训练得到的模型的性能;
步骤四:结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,在此方法中主要利用遗传算法的全局搜索能力同时对多个超参数进行协同优化,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。
本实施例中,弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型,它是岭回归和套索回归的结合,既具有岭回归的稳定性,又具有套索回归特征选择的功能。
本实施例中,弹性网络的目标函数如下:
Figure BDA0003618931370000091
通过目标函数筛选出权重值不为0的特征变量,最终的界定出的模型特征变量包括Green、ORP、RES、DO、Turb、24-hr rainfall。
本实施例中,随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器,由多棵相对独立的决策树组合而成,模型最终结果由多棵决策树的结果投票决定,随机森林算法的随机性主要体现在对总体样本的Bootstrap抽样和总体特征的随机选择。由于其具有训练速度快、泛化能力强等特点,随机森林算法一直被认为是强大的机器学习算法,并被广泛用于风险识别领域。
设训练集为D,样本数为N,特征数为M,ht表示第t棵决策树,其中t=1,2,…,T,则随机森林算法的步骤如下:
(1)通过Bootstrap方法从数据集D中有放回地随机抽取N个样本,共进行T次抽样,得到训练子集Dt,t=1,2,…,T;
(2)利用训练子集Dt构建T棵决策树;
(3)对决策树的每一个节点,采用无放回随机抽样的方式从M个特征中抽取m个特征(m<M),遍历这m个特征,基于“基尼指数最小”原则来确定最优划分属性。对于训练子集Dt,设样本类别数为n,pk为数据集Dt中第k类样本所占的比例,其中k=1,2,…,n,则数据集Dt的基尼指数定义为:
Figure BDA0003618931370000101
如果特征A的某一取值a将数据集Dt分割成
Figure BDA0003618931370000102
Figure BDA0003618931370000103
两部分,则在特征A的条件下,数据集Dt的基尼指数为:
Figure BDA0003618931370000104
Gini(Dt,A)表示经A=a划分后数据集Dt的不确定性,在基于基尼指数选择划分属性时,遍历所有特征和每个特征对应的值,以Gini(Dt,A)最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂,直至停止分裂;
(4)记录每棵决策树的分类结果,采用投票法,以得票最高的类别作为样本的预测结果。
本实施例中,超参数是机器学习算法在开始学习之前需要设置的参数,不同的超参数组合也会造成模型的性能不同,通过对超参数进行优化,选择最优的超参数组合可以提高学习的性能和效果,随机森林算法中树的数量和树的深度等都是超参数,以树的数量为例,nestimators太小容易造成欠拟合的问题,太大运算量太大,不能显著提升模型性能,需要对超参数进行调优以选择一个适中的数值,利用遗传算法对随机森林算法的nestimators,maxdepth,min_samples_split,max_leaf_nodes四个超参数调优,使模型能够自适应地针对不同数据集选择最优的超参数组合。
本实施例中,超参数优化主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优,利用遗传算法进行超参数优化的具体步骤如下:
(1)种群初始化:给定每个超参数值的范围,让每个超参数在取值范围内随机取值,并通过排列组合生成多个超参数组合,每个超参数组合为一条染色体。
(2)计算适应度值。对于二分类问题,样本类别有正负两类,正类是饮用水源存在抗生素抗性风险,负类是饮用水源不存在抗生素抗性风险,可能出现的预测情况有以下四种:
①真阳性(TP):实际上有风险,模型预测的结果也是有风险;
②假阳性(FP):实际上没有风险,但是模型预测的结果是有风险;
③真阴性(TN):实际上没有风险,模型预测的结果也是没有风险;
④假阴性(FN):实际上有风险,但是模型预测的结果是没有风险。
在二分类问题中,常用的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-socre、AUC值等,其中AUC值即ROC曲线下的面积,ROC曲线是一条以真阳性率(TPR)为纵轴,以假阳性率(FPR)为横轴的曲线。TPR和FPR的计算公式如下:
Figure BDA0003618931370000121
AUC值指随机给定一个正样本和负样本,分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性,可用于评估模型的整体能力,AUC值越大,则模型分类正确率越高,以10折交叉验证的AUC值的均值为适应度函数,即
Figure BDA0003618931370000122
(3)选择。采用轮盘赌选择法对种群中的个体进行选择,个体i被选中的概率为
Figure BDA0003618931370000123
(4)交叉。采用单点交叉法,随机生成一个0~1之间的小数r,如果r小于交叉概率Pc,则在个体编码串中随机生成一个交叉点,将两个个体在交叉点前后的基因互换;否则,不进行交叉。
(5)变异。采用基本位变异法,随机生成一个0~1之间的小数r,如果r小于变异概率,则在个体编码串中随机生成一个变异点,通过对变异点的值加减1来进行变异,否则,不进行变异,直至达到算法收敛或者至最大允许的迭代次数。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,包括以下步骤:
步骤一:选取相关环境因素和土地使用类型因素为初始特征变量,环境因素包括:温度(Temp)、pH值(pH)、氧化还原电位(ORP)、电导率(EC)、电阻率(RES)、总溶解固体(TDS)、盐度(Sal)、压强(Press)、溶解氧(DO)、浊度(Turb)、24小时累计降雨量(24-hr rainfall);土地使用类型因素包括:居民区比例、农业区比例、绿化区比例、城市区比例。对各特征变量进行相关性分析,计算变量之间的Spearman相关系数及显著性水平(p值),剔除相关关系显著的变量(p<0.05),通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著,且Green与AMR相对风险值之间相关关系显著,因此剔除Residential、Urban和Agriculture三个特征变量,同理,EC、RES、TDS、Sal四个变量之间相关关系显著,又RES与AMR相对风险值之间的相关关系更显著,因此剔除EC、TDS、Sal三个特征变量,考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系,利用弹性网络对特征变量进行进一步筛选;
步骤二:采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为0~1范围内的连续值,将问题转换为一个二分类问题,相对风险值在中位数以上的样本的目标值编码为1,表示相对来说存在风险,相对风险值在中位数以下的样本的目标值编码为0,表示相对来说风险较小或没有风险;
步骤三:将样本数据按照7∶3的比例划分训练集和测试集,将训练集数据输入随机森林分类器进行学习训练,用测试集数据测试训练得到的模型的性能;
步骤四:结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,在此方法中主要利用遗传算法的全局搜索能力同时对多个超参数进行协同优化,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。
2.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型,它是岭回归和套索回归的结合,既具有岭回归的稳定性,又具有套索回归特征选择的功能。
3.根据权利要求2所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述弹性网络的目标函数如下:
Figure FDA0003618931360000021
通过目标函数筛选出权重值不为0的特征变量,最终的界定出的模型特征变量包括Green、ORP、RES、DO、Turb、24-hr rainfall。
4.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器,由多棵相对独立的决策树组合而成,模型最终结果由多棵决策树的结果投票决定,随机森林算法的随机性主要体现在对总体样本的Bootstrap抽样和总体特征的随机选择。
5.根据权利要求4所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述训练集为D,样本数为N,特征数为M,ht表示第t棵决策树,其中t=1,2,…,T,则随机森林算法的步骤如下:
(1)通过Bootstrap方法从数据集D中有放回地随机抽取N个样本,共进行T次抽样,得到训练子集Dt,t=1,2,…,T;
(2)利用训练子集Dt构建T棵决策树;
(3)对决策树的每一个节点,采用无放回随机抽样的方式从M个特征中抽取m个特征(m<M),遍历这m个特征,基于“基尼指数最小”原则来确定最优划分属性。对于训练子集Dt,设样本类别数为n,pk为数据集Dt中第k类样本所占的比例,其中k=1,2,…,n,则数据集Dt的基尼指数定义为:
Figure FDA0003618931360000031
如果特征A的某一取值a将数据集Dt分割成
Figure FDA0003618931360000032
Figure FDA0003618931360000033
两部分,则在特征A的条件下,数据集Dt的基尼指数为:
Figure FDA0003618931360000034
Gini(Dt,A)表示经A=a划分后数据集Dt的不确定性,在基于基尼指数选择划分属性时,遍历所有特征和每个特征对应的值,以Gini(Dt,A)最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂,直至停止分裂;
(4)记录每棵决策树的分类结果,采用投票法,以得票最高的类别作为样本的预测结果。
6.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述超参数是机器学习算法在开始学习之前需要设置的参数,不同的超参数组合也会造成模型的性能不同,通过对超参数进行优化,选择最优的超参数组合可以提高学习的性能和效果,随机森林算法中树的数量和树的深度等都是超参数,以树的数量为例,nestimators太小容易造成欠拟合的问题,太大运算量太大,不能显著提升模型性能,需要对超参数进行调优以选择一个适中的数值。
7.根据权利要求6所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述超参数优化步骤主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优,利用遗传算法进行超参数优化的具体步骤如下:
(1)种群初始化:给定每个超参数值的范围,让每个超参数在取值范围内随机取值,并通过排列组合生成多个超参数组合,每个超参数组合为一条染色体。
(2)计算适应度值。对于二分类问题,样本类别有正负两类,正类是饮用水源存在抗生素抗性风险,负类是饮用水源不存在抗生素抗性风险,可能出现的预测情况有以下四种:
①真阳性(TP):实际上有风险,模型预测的结果也是有风险;
②假阳性(FP):实际上没有风险,但是模型预测的结果是有风险;
③真阴性(TN):实际上没有风险,模型预测的结果也是没有风险;
④假阴性(FN):实际上有风险,但是模型预测的结果是没有风险。
在二分类问题中,常用的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-socre、AUC值等,其中AUC值即ROC曲线下的面积,ROC曲线是一条以真阳性率(TPR)为纵轴,以假阳性率(FPR)为横轴的曲线。TPR和FPR的计算公式如下:
Figure FDA0003618931360000051
AUC值指随机给定一个正样本和负样本,分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性,可用于评估模型的整体能力,AUC值越大,则模型分类正确率越高,以10折交叉验证的AUC值的均值为适应度函数,即
Figure FDA0003618931360000052
(3)选择。采用轮盘赌选择法对种群中的个体进行选择,个体i被选中的概率为
Figure FDA0003618931360000053
(4)交叉。采用单点交叉法,随机生成一个0~1之间的小数r,如果r小于交叉概率Pc,则在个体编码串中随机生成一个交叉点,将两个个体在交叉点前后的基因互换;否则,不进行交叉。
(5)变异。采用基本位变异法,随机生成一个0~1之间的小数r,如果r小于变异概率,则在个体编码串中随机生成一个变异点,通过对变异点的值加减1来进行变异,否则,不进行变异,直至达到算法收敛或者至最大允许的迭代次数。
CN202210456486.4A 2022-04-24 2022-04-24 一种饮用水源抗生素抗性相对风险快速识别方法 Active CN114757433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210456486.4A CN114757433B (zh) 2022-04-24 2022-04-24 一种饮用水源抗生素抗性相对风险快速识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210456486.4A CN114757433B (zh) 2022-04-24 2022-04-24 一种饮用水源抗生素抗性相对风险快速识别方法

Publications (2)

Publication Number Publication Date
CN114757433A true CN114757433A (zh) 2022-07-15
CN114757433B CN114757433B (zh) 2023-08-29

Family

ID=82334125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210456486.4A Active CN114757433B (zh) 2022-04-24 2022-04-24 一种饮用水源抗生素抗性相对风险快速识别方法

Country Status (1)

Country Link
CN (1) CN114757433B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331047A (zh) * 2023-12-01 2024-01-02 德心智能科技(常州)有限公司 基于毫米波雷达的人体行为数据分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
CN112633733A (zh) * 2020-12-30 2021-04-09 武汉轻工大学 基于可信度的随机森林土壤重金属风险评价方法及系统
US20210350930A1 (en) * 2020-05-11 2021-11-11 Roche Molecular Systems, Inc. Clinical predictor based on multiple machine learning models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977028A (zh) * 2019-04-08 2019-07-05 燕山大学 一种基于遗传算法和随机森林的软件缺陷预测方法
US20210350930A1 (en) * 2020-05-11 2021-11-11 Roche Molecular Systems, Inc. Clinical predictor based on multiple machine learning models
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
CN112633733A (zh) * 2020-12-30 2021-04-09 武汉轻工大学 基于可信度的随机森林土壤重金属风险评价方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331047A (zh) * 2023-12-01 2024-01-02 德心智能科技(常州)有限公司 基于毫米波雷达的人体行为数据分析方法及系统

Also Published As

Publication number Publication date
CN114757433B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110059852A (zh) 一种基于改进随机森林算法的股票收益率预测方法
CN116108758B (zh) 滑坡易发性评价方法
Chouhan et al. A deep learning approach for the classification of diseased plant leaf images
CN111681022A (zh) 一种网络平台数据资源价值评估方法
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
Elayidom et al. A generalized data mining framework for placement chance prediction problems
CN113435124A (zh) 一种基于长短时记忆和径向基函数神经网络的水质时空关联预测方法
Zhang et al. Support vector machine weather prediction technology based on the improved quantum optimization algorithm
CN114757433B (zh) 一种饮用水源抗生素抗性相对风险快速识别方法
CN109597944B (zh) 一种基于深度信念网络的单分类微博谣言检测模型
Sebastian Performance evaluation by artificial neural network using WEKA
CN115018357A (zh) 一种面向生产绩效提升的农户画像构建方法及系统
CN117314266B (zh) 一种基于超图注意力机制的新型科技人才智能评价方法
Buyrukoğlu et al. Correlation value determined to increase Salmonella prediction success of deep neural network for agricultural waters
CN115660221B (zh) 基于混合神经网络的油气藏经济可采储量评估方法及系统
Azmin et al. Soil classification based on machine learning for crop suggestion
CN110008975B (zh) 基于免疫危险理论的社交网络水军检测方法
CN111507472A (zh) 一种基于重要性剪枝的精度估计参数搜索方法
CN116720743A (zh) 基于数据聚类和机器学习的碳排放测算方法
CN116304941A (zh) 一种基于多模型组合的海洋数据质量控制方法及装置
Li et al. Applying Unascertained Theory, Principal Component Analysis and ACO-based Artificial Neural Networks for Real Estate Price Determination.
CN117648646B (zh) 基于特征选择和堆叠异构集成学习的钻采成本预测方法
CN114169457B (zh) 基于岩心重建的风暴岩测井识别方法
Dawson et al. Modelling Ranunculus presence in the Rivers test and Itchen using artificial neural networks
CN117591957A (zh) 一种基于msdbo-dbn-elm模型的矿井突水水源识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant