CN114757433B - 一种饮用水源抗生素抗性相对风险快速识别方法 - Google Patents
一种饮用水源抗生素抗性相对风险快速识别方法 Download PDFInfo
- Publication number
- CN114757433B CN114757433B CN202210456486.4A CN202210456486A CN114757433B CN 114757433 B CN114757433 B CN 114757433B CN 202210456486 A CN202210456486 A CN 202210456486A CN 114757433 B CN114757433 B CN 114757433B
- Authority
- CN
- China
- Prior art keywords
- risk
- value
- relative risk
- super
- antibiotic resistance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003115 biocidal effect Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000003651 drinking water Substances 0.000 title claims abstract description 28
- 235000020188 drinking water Nutrition 0.000 title claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 238000007637 random forest analysis Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000002068 genetic effect Effects 0.000 claims abstract description 12
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000010801 machine learning Methods 0.000 claims abstract description 8
- 238000010219 correlation analysis Methods 0.000 claims abstract description 4
- 238000012502 risk assessment Methods 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims abstract description 4
- 238000003066 decision tree Methods 0.000 claims description 20
- 230000035772 mutation Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 3
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 230000033116 oxidation-reduction process Effects 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 239000001301 oxygen Substances 0.000 claims description 3
- 238000010187 selection method Methods 0.000 claims description 3
- 239000007787 solid Substances 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000007786 learning performance Effects 0.000 claims description 2
- 229940125364 angiotensin receptor blocker Drugs 0.000 description 6
- 239000002333 angiotensin II receptor antagonist Substances 0.000 description 4
- 241000894006 Bacteria Species 0.000 description 2
- 239000003242 anti bacterial agent Substances 0.000 description 2
- 235000012206 bottled water Nutrition 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000008239 natural water Substances 0.000 description 2
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Genetics & Genomics (AREA)
- Primary Health Care (AREA)
- Physiology (AREA)
- Water Supply & Treatment (AREA)
Abstract
本发明公开了一种饮用水源抗生素抗性相对风险快速识别方法,涉及抗生素抗性识别技术领域,包括以下步骤,选取相关环境因素和土地使用类型因素作为初始特征变量,采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为目标变量,并以AMR相对风险分数的中位数为阈值,将问题转换为一个二分类问题;结合相关性分析和弹性网络建模执行特征工程,对输入特征变量进行有效筛选;将训练集数据输入随机森林分类器进行学习训练,结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。本发明能够快速且准确地识别饮用水源地抗生素抗性的相对风险,从而大大节约了时间成本。
Description
技术领域
本发明涉及抗生素抗性识别技术领域,尤其涉及一种饮用水源抗生素抗性相对风险快速识别方法。
背景技术
抗生素的大量使用使得自然水环境中抗生素抗性问题日益严峻。由携带抗性基因的抗性细菌及引起的感染治疗难度更大、治疗时间更长、治疗成本更高,甚至也会造成更高的死亡率。然而,由于缺乏抗性细菌致病及抗性基因污染的剂量效应模型及标准数据,以及获取相关数据存在较大的不确定性,对自然水环境中抗生素抗性风险的识别和定量评估也成了当今一大挑战。有学者从定性和定性-定量结合的层面提出了评估抗生素抗性风险的概念框架,但是目前还没有量化抗生素抗性风险的模型。
在此背景下,Goh等提出了一个评估饮用水源水环境中抗生素抗性相对风险的框架,以样本间的抗生素抗性相对风险替代难以量化的绝对风险,在该框架中,Goh等基于DALYs数据库和ARGs排序数据库,根据每种ARG和ARB的排名,计算了每种ARG和ARB的相对危害性权重,并结合多个自然流域的不同ARG和ARB的丰度量化了抗生素抗性的相对风险,该框架基于ARB和ARGs的真实检测数据计算抗生素抗性的相对风险。然而在实际应用中,ARB和ARGs的检测和提取是一个繁琐复杂且耗时的过程,使用该方法并不能快速识别出饮用水源水体中抗生素抗性的相对风险,基于众多易测量的潜在影响因素来执行抗生素抗性相对风险推断是一种值得尝试的途径,所以亟需一种有效的方法来快速识别饮用水源抗生素抗性相对风险。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种饮用水源抗生素抗性相对风险快速识别方法。其优点在于能够根据易测量的环境因素和土地使用类型等众多影响因素快速且准确地识别饮用水源地抗生素抗性的相对风险,从而大大节约了时间成本。
为了实现上述目的,本发明采用了如下技术方案:
一种饮用水源抗生素抗性相对风险快速识别方法,包括以下步骤:
步骤一:选取相关环境因素和土地使用类型因素为初始特征变量,其中环境因素包括:温度(Temp)、pH值(pH)、氧化还原电位(ORP)、电导率(EC)、电阻率(RES)、总溶解固体(TDS)、盐度(Sal)、压强(Press)、溶解氧(DO)、浊度(Turb)、24小时累计降雨量(24-hrrainfall);土地使用类型因素包括:居民区比例(Residential)、农业区比例(Agriculture)、绿化区比例(Green)、城市区比例(Urban),对各特征变量进行相关性分析,计算变量之间的Spearman相关系数及显著性水平(p值),剔除相关关系显著的变量(p<0.05),通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著,且Green与AMR相对风险值之间相关关系显著,因此剔除Residential、Urban和Agriculture三个特征变量,同理,EC、RES、TDS、Sal四个变量之间相关关系显著,又RES与AMR相对风险值之间的相关关系更显著,因此剔除EC、TDS、Sal三个特征变量,考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系,利用弹性网络对特征变量进行进一步筛选;
步骤二:采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为0~1范围内的连续值,将问题转换为一个二分类问题,相对风险值在中位数以上的样本的目标值编码为1,表示相对来说存在风险,相对风险值在中位数以下的样本的目标值编码为0,表示相对来说风险较小或没有风险;
步骤三:将样本数据按照7:3的比例划分训练集和测试集,将训练集数据输入随机森林分类器进行学习训练,用测试集数据测试训练得到的模型的性能;
步骤四:结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,在此方法中主要利用遗传算法的全局搜索能力同时对多个超参数进行协同优化,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。
优选地,所述弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型,它是岭回归和套索回归的结合,既具有岭回归的稳定性,又具有套索回归特征选择的功能。
优选地,所述弹性网络的目标函数如下:通过目标函数筛选出权重值不为0的特征变量,最终的界定出的模型特征变量包括Green、ORP、RES、D0、Turb、24-hr rajnfall。
优选地,所述随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器,由多棵相对独立的决策树组合而成,模型最终结果由多棵决策树的结果投票决定,随机森林算法的随机性主要体现在对总体样本的Bootstrap抽样和总体特征的随机选择。
设训练集为D,样本数为N,特征数为M,ht表示第t棵决策树,其中t=1,2,…,T,则随机森林算法的步骤如下:
(1)通过Bootstrap方法从数据集D中有放回地随机抽取N个样本,共进行T次抽样,得到训练子集Dt,t=1,2,…,T;
(2)利用训练子集Dt构建T棵决策树;
(3)对决策树的每一个节点,采用无放回随机抽样的方式从M个特征中抽取m个特征(m<M),遍历这m个特征,基于“基尼指数最小”原则来确定最优划分属性。对于训练子集Dt,设样本类别数为n,pk为数据集Dt中第k类样本所占的比例,其中k=1,2,…,n,则数据集Dt的基尼指数定义为:
如果特征A的某一取值a将数据集Dt分割成和/>两部分,则在特征A的条件下,数据集Dt的基尼指数为:
Gini(Dt,A)表示经A=a划分后数据集Dt的不确定性,在基于基尼指数选择划分属性时,遍历所有特征和每个特征对应的值,以Gini(Dt,A)最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂,直至停止分裂;
(4)记录每棵决策树的分类结果,采用投票法,以得票最高的类别作为样本的预测结果。
优选地,所述超参数是机器学习算法在开始学习之前需要设置的参数,不同的超参数组合也会造成模型的性能不同,通过对超参数进行优化,选择最优的超参数组合可以提高学习的性能和效果,随机森林算法中树的数量和树的深度等都是超参数,以树的数量为例,nestimators太小容易造成欠拟合的问题,太大运算量太大,不能显著提升模型性能,需要对超参数进行调优以选择一个适中的数值。
优选地,所述超参数优化主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优,利用遗传算法进行超参数优化的具体步骤如下:
(1)种群初始化:给定每个超参数值的范围,让每个超参数在取值范围内随机取值,并通过排列组合生成多个超参数组合,每个超参数组合为一条染色体。
(2)计算适应度值。对于二分类问题,样本类别有正负两类,正类是饮用水源存在抗生素抗性风险,负类是饮用水源不存在抗生素抗性风险,可能出现的预测情况有以下四种:
①真阳性(TP):实际上有风险,模型预测的结果也是有风险;
②假阳性(FP):实际上没有风险,但是模型预测的结果是有风险;
③真阴性(TN):实际上没有风险,模型预测的结果也是没有风险;
④假阴性(FN):实际上有风险,但是模型预测的结果是没有风险。
在二分类问题中,常用的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-socre、AUC值等,其中AUC值即ROC曲线下的面积,ROC曲线是一条以真阳性率(TPR)为纵轴,以假阳性率(FPR)为横轴的曲线。TPR和FPR的计算公式如下:
AUC值指随机给定一个正样本和负样本,分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性,可用于评估模型的整体能力,AUC值越大,则模型分类正确率越高,以10折交叉验证的AUC值的均值为适应度函数,即
(3)选择。采用轮盘赌选择法对种群中的个体进行选择,个体i被选中的概率为
(4)交叉。采用单点交叉法,随机生成一个0~1之间的小数r,如果r小于交叉概率Pc,则在个体编码串中随机生成一个交叉点,将两个个体在交叉点前后的基因互换;否则,不进行交叉。
(5)变异。采用基本位变异法,随机生成一个0~1之间的小数r,如果r小于变异概率,则在个体编码串中随机生成一个变异点,通过对变异点的值加减1来进行变异,否则,不进行变异,直至达到算法收敛或者至最大允许的迭代次数。
本发明的有益效果为:
1、本发明能够根据易测量的环境因素和土地使用类型等众多影响因素快速且准确地识别饮用水源地抗生素抗性的相对风险,从而大大节约了时间成本。
2、本发明结合真实数据样本及遗传算法对随机森林算法的超参数进行全局优化,能够快速有效地搜索出最优超参数组合,使模型能够自适应地针对不同数据集选择最优的超参数组合。
3、本发明对真实饮用水源数据样本地进行案例分析研究,结果显示模型在测试数据集及检验数据集上的准确率、f1-score和AUC值均超过了90%,且与未进行调参的随机森林模型相比,准确率和AUC值分别提升了25%和18.2%。
附图说明
图1为本发明提出的一种饮用水源抗生素抗性相对风险快速识别方法的工作流程结构示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
参照图1,一种饮用水源抗生素抗性相对风险快速识别方法,包括以下步骤:
步骤一:选取相关环境因素和土地使用类型因素为初始特征变量,其中环境因素包括:温度(Temp)、pH值(pH)、氧化还原电位(ORP)、电导率(EC)、电阻率(RES)、总溶解固体(TDS)、盐度(Sal)、压强(Press)、溶解氧(DO)、浊度(Turb)、24小时累计降雨量(24-hrrainfall);土地使用类型因素包括:居民区比例(Residential)、农业区比例(Agriculture)、绿化区比例(Green)、城市区比例(Urban),对各特征变量进行相关性分析,计算变量之间的Spearman相关系数及显著性水平(p值),剔除相关关系显著的变量(p<0.05),通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著,且Green与AMR相对风险值之间相关关系显著,因此剔除Residential、Urban和Agriculture三个特征变量,同理,EC、RES、TDS、Sal四个变量之间相关关系显著,又RES与AMR相对风险值之间的相关关系更显著,因此剔除EC、TDS、Sal三个特征变量,考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系,利用弹性网络对特征变量进行进一步筛选;
步骤二:采用Goh等提出的AMR相对风险评估框架计算出的AMR相对风险得分为0~1范围内的连续值,将问题转换为一个二分类问题,相对风险值在中位数以上的样本的目标值编码为1,表示相对来说存在风险,相对风险值在中位数以下的样本的目标值编码为0,表示相对来说风险较小或没有风险;
步骤三:将样本数据按照7:3的比例划分训练集和测试集,将训练集数据输入随机森林分类器进行学习训练,用测试集数据测试训练得到的模型的性能;
步骤四:结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,在此方法中主要利用遗传算法的全局搜索能力同时对多个超参数进行协同优化,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。
本实施例中,弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型,它是岭回归和套索回归的结合,既具有岭回归的稳定性,又具有套索回归特征选择的功能。
本实施例中,弹性网络的目标函数如下:通过目标函数筛选出权重值不为0的特征变量,最终的界定出的模型特征变量包括Green、ORP、RES、DO、Turb、24-hr rainfall。
本实施例中,随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器,由多棵相对独立的决策树组合而成,模型最终结果由多棵决策树的结果投票决定,随机森林算法的随机性主要体现在对总体样本的Bootstrap抽样和总体特征的随机选择。由于其具有训练速度快、泛化能力强等特点,随机森林算法一直被认为是强大的机器学习算法,并被广泛用于风险识别领域。
设训练集为D,样本数为N,特征数为M,ht表示第t棵决策树,其中t=1,2,…,T,则随机森林算法的步骤如下:
(1)通过Bootstrap方法从数据集D中有放回地随机抽取N个样本,共进行T次抽样,得到训练子集Dt,t=1,2,…,T;
(2)利用训练子集Dt构建T棵决策树;
(3)对决策树的每一个节点,采用无放回随机抽样的方式从M个特征中抽取m个特征(m<M),遍历这m个特征,基于“基尼指数最小”原则来确定最优划分属性。对于训练子集Dt,设样本类别数为n,pk为数据集Dt中第k类样本所占的比例,其中k=1,2,…,n,则数据集Dt的基尼指数定义为:
如果特征A的某一取值a将数据集Dt分割成和/>两部分,则在特征A的条件下,数据集Dt的基尼指数为:
Gini(Dt,A)表示经A=a划分后数据集Dt的不确定性,在基于基尼指数选择划分属性时,遍历所有特征和每个特征对应的值,以Gini(Dt,A)最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂,直至停止分裂;
(4)记录每棵决策树的分类结果,采用投票法,以得票最高的类别作为样本的预测结果。
本实施例中,超参数是机器学习算法在开始学习之前需要设置的参数,不同的超参数组合也会造成模型的性能不同,通过对超参数进行优化,选择最优的超参数组合可以提高学习的性能和效果,随机森林算法中树的数量和树的深度等都是超参数,以树的数量为例,nestimators太小容易造成欠拟合的问题,太大运算量太大,不能显著提升模型性能,需要对超参数进行调优以选择一个适中的数值,利用遗传算法对随机森林算法的nestimators,maxdepth,min_samples_split,max_leaf_nodes四个超参数调优,使模型能够自适应地针对不同数据集选择最优的超参数组合。
本实施例中,超参数优化主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优,利用遗传算法进行超参数优化的具体步骤如下:
(1)种群初始化:给定每个超参数值的范围,让每个超参数在取值范围内随机取值,并通过排列组合生成多个超参数组合,每个超参数组合为一条染色体。
(2)计算适应度值。对于二分类问题,样本类别有正负两类,正类是饮用水源存在抗生素抗性风险,负类是饮用水源不存在抗生素抗性风险,可能出现的预测情况有以下四种:
①真阳性(TP):实际上有风险,模型预测的结果也是有风险;
②假阳性(FP):实际上没有风险,但是模型预测的结果是有风险;
③真阴性(TN):实际上没有风险,模型预测的结果也是没有风险;
④假阴性(FN):实际上有风险,但是模型预测的结果是没有风险。
在二分类问题中,常用的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1-socre、AUC值等,其中AUC值即ROC曲线下的面积,ROC曲线是一条以真阳性率(TPR)为纵轴,以假阳性率(FPR)为横轴的曲线。TPR和FPR的计算公式如下:
AUC值指随机给定一个正样本和负样本,分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性,可用于评估模型的整体能力,AUC值越大,则模型分类正确率越高,以10折交叉验证的AUC值的均值为适应度函数,即
(3)选择。采用轮盘赌选择法对种群中的个体进行选择,个体i被选中的概率为
(4)交叉。采用单点交叉法,随机生成一个0~1之间的小数r,如果r小于交叉概率Pc,则在个体编码串中随机生成一个交叉点,将两个个体在交叉点前后的基因互换;否则,不进行交叉。
(5)变异。采用基本位变异法,随机生成一个0~1之间的小数r,如果r小于变异概率,则在个体编码串中随机生成一个变异点,通过对变异点的值加减1来进行变异,否则,不进行变异,直至达到算法收敛或者至最大允许的迭代次数。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,包括以下步骤:
步骤一:选取相关环境因素和土地使用类型因素为初始特征变量,环境因素包括:温度Temp、pH值、氧化还原电位ORP、电导率EC、电阻率RES、总溶解固体TDS、盐度Sal、压强Press、溶解氧DO、浊度Turb、24小时累计降雨量24-hr rainfall;土地使用类型因素包括:居民区比例Residential、农业区比例Agriculture、绿化区比例Green、城市区比例Urban;对各特征变量进行相关性分析,计算变量之间的Spearman相关系数及显著性水平,剔除相关关系显著的变量,通过计算发现Residential、Urban、Green、Agriculture四个变量之间相关关系显著,且Green与AMR相对风险值之间相关关系显著,因此剔除Residential、Urban和Agriculture三个特征变量,同理,EC、RES、TDS、Sal四个变量之间相关关系显著,又RES与AMR相对风险值之间的相关关系更显著,因此剔除EC、TDS、Sal三个特征变量,考虑到现场数据获取的不确定性以及相对风险与多个影响变量之间的非线性关系,利用弹性网络对特征变量进行进一步筛选;
步骤二:采用AMR相对风险评估框架计算出的AMR相对风险得分为0~1范围内的连续值,将问题转换为一个二分类问题,相对风险值在中位数以上的样本的目标值编码为1,表示相对来说存在风险,相对风险值在中位数以下的样本的目标值编码为0,则表示风险较小或没有风险;
步骤三:将样本数据按照7:3的比例划分训练集和测试集,将训练集数据输入随机森林分类器进行学习训练,用测试集数据测试训练得到的模型的性能;
步骤四:结合实际样本数据及遗传算法对随机森林算法的超参数进行自适应校准,利用遗传算法的全局搜索能力同时对多个超参数进行协同优化,以找到最优超参数组合,从而形成最佳的风险识别机器学习模型。
2.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述弹性网络是一种使用L1和L2范数作为先验正则项训练的线性回归模型,它是岭回归和套索回归的结合,既具有岭回归的稳定性,又具有套索回归特征选择的功能。
3.根据权利要求2所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述弹性网络的目标函数如下:,通过目标函数筛选出权重值不为0的特征变量,最终的界定出的模型特征变量包括Green、ORP、RES、DO、Turb、24-hr rainfall。
4.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述随机森林分类器是一种以CART决策树为基学习器构建的Bagging集成器,由多棵相对独立的决策树组合而成,模型最终结果由多棵决策树的结果投票决定,随机森林算法的随机性体现在对总体样本的Bootstrap抽样和总体特征的随机选择。
5.根据权利要求4所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述训练集为D,样本数为N,特征数为M, 表示第t棵决策树,其中/>,则随机森林算法的步骤如下:
步骤一:通过Bootstrap方法从数据集D中有放回地随机抽取N个样本,共进行T次抽样,得到训练子集,/>;
步骤二:利用训练子集构建T棵决策树;
步骤三:对决策树的每一个节点,采用无放回随机抽样的方式从M个特征中抽取m个特征,遍历这m个特征,基于“基尼指数最小”原则来确定最优划分属性,对于训练子集,设样本类别数为n,/>为数据集/>中第k类样本所占的比例,其中/>,则数据集/>的基尼指数定义为:/>;
如果特征A的某一取值a将数据集分割成/>和/>两部分,则在特征A的条件下,数据集的基尼指数为:
;
表示经/>划分后数据集/>的不确定性,在基于基尼指数选择划分属性时,遍历所有特征和每个特征对应的值,以/>最小的特征和特征值为最优划分特征和最优分割点对结点进行分裂,直至停止分裂;
步骤四:记录每棵决策树的分类结果,采用投票法,以得票最高的类别作为样本的预测结果。
6.根据权利要求1所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述超参数是机器学习算法在开始学习之前需要设置的参数,不同的超参数组合也会造成模型的性能不同,通过对超参数进行优化,选择最优的超参数组合用于提高学习的性能和效果,随机森林算法中树的数量和树的深度都是超参数,参照树的数量,nestimators太小容易造成欠拟合的问题,容易导致运算量太大,不能显著提升模型性能,需要对超参数进行调优以选择一个适中的数值。
7.根据权利要求6所述的一种饮用水源抗生素抗性相对风险快速识别方法,其特征在于,所述超参数优化步骤主要对随机森林算法的n_estimators、max_depth、min_samples_split、max_leaf_nodes四个超参数进行调优,利用遗传算法进行超参数优化的具体步骤如下:
步骤一:种群初始化:给定每个超参数值的范围,让每个超参数在取值范围内随机取值,并通过排列组合生成多个超参数组合,每个超参数组合为一条染色体;
步骤二:计算适应度值:对于二分类问题,样本类别有正负两类,正类是饮用水源存在抗生素抗性风险,负类是饮用水源不存在抗生素抗性风险,可能出现的预测情况有以下四种:
①真阳性TP:实际上有风险,模型预测的结果也是有风险;
②假阳性FP:实际上没有风险,但是模型预测的结果是有风险;
③真阴性TN:实际上没有风险,模型预测的结果也是没有风险;
④假阴性FN:实际上有风险,但是模型预测的结果是没有风险;
在二分类问题中,评价指标有准确率Accuracy、精确率Precision、召回率Recall、F1-socre、AUC值,其中AUC值即ROC曲线下的面积,ROC曲线是一条以真阳性率TPR为纵轴,以假阳性率FPR为横轴的曲线;TPR和FPR的计算公式如下:
,/>;
AUC值指随机给定一个正样本和负样本,分类器输出该正样本为正的概率值比上分类器输出该负样本为正的那个概率要大的可能性,可用于评估模型的整体能力,AUC值越大,则模型分类正确率越高,以10折交叉验证的AUC值的均值为适应度函数,即;
步骤三:选择:采用轮盘赌选择法对种群中的个体进行选择,个体i被选中的概率为
;
步骤四:交叉:采用单点交叉法,随机生成一个0~1之间的小数r,如果r小于交叉概率,则在个体编码串中随机生成一个交叉点,将两个个体在交叉点前后的基因互换;否则,不进行交叉;
步骤五:变异:采用基本位变异法,随机生成一个0~1之间的小数r,如果r小于变异概率,则在个体编码串中随机生成一个变异点,通过对变异点的值加减1来进行变异,否则,不进行变异,直至达到算法收敛或者至最大允许的迭代次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210456486.4A CN114757433B (zh) | 2022-04-24 | 2022-04-24 | 一种饮用水源抗生素抗性相对风险快速识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210456486.4A CN114757433B (zh) | 2022-04-24 | 2022-04-24 | 一种饮用水源抗生素抗性相对风险快速识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114757433A CN114757433A (zh) | 2022-07-15 |
CN114757433B true CN114757433B (zh) | 2023-08-29 |
Family
ID=82334125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210456486.4A Active CN114757433B (zh) | 2022-04-24 | 2022-04-24 | 一种饮用水源抗生素抗性相对风险快速识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114757433B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117331047A (zh) * | 2023-12-01 | 2024-01-02 | 德心智能科技(常州)有限公司 | 基于毫米波雷达的人体行为数据分析方法及系统 |
CN118428607B (zh) * | 2024-07-02 | 2024-10-11 | 江苏旭龙环境科技有限公司 | 一种抗生素全生命周期在线监测管理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977028A (zh) * | 2019-04-08 | 2019-07-05 | 燕山大学 | 一种基于遗传算法和随机森林的软件缺陷预测方法 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN112633733A (zh) * | 2020-12-30 | 2021-04-09 | 武汉轻工大学 | 基于可信度的随机森林土壤重金属风险评价方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11664126B2 (en) * | 2020-05-11 | 2023-05-30 | Roche Molecular Systems, Inc. | Clinical predictor based on multiple machine learning models |
-
2022
- 2022-04-24 CN CN202210456486.4A patent/CN114757433B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977028A (zh) * | 2019-04-08 | 2019-07-05 | 燕山大学 | 一种基于遗传算法和随机森林的软件缺陷预测方法 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN112633733A (zh) * | 2020-12-30 | 2021-04-09 | 武汉轻工大学 | 基于可信度的随机森林土壤重金属风险评价方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114757433A (zh) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113919448B (zh) | 一种任意时空位置二氧化碳浓度预测影响因素分析方法 | |
CN114757433B (zh) | 一种饮用水源抗生素抗性相对风险快速识别方法 | |
CN104239489B (zh) | 利用相似性搜索和改进bp神经网络预测水位的方法 | |
CN110782658B (zh) | 一种基于LightGBM算法的交通量预测方法 | |
CN106127242A (zh) | 基于集成学习的年极端降水预测系统及其预测方法 | |
CN117314266B (zh) | 一种基于超图注意力机制的新型科技人才智能评价方法 | |
CN102073882A (zh) | 高光谱遥感影像的dna计算光谱匹配分类方法 | |
CN111681022A (zh) | 一种网络平台数据资源价值评估方法 | |
CN116109195A (zh) | 一种基于图卷积神经网络的绩效评估方法及系统 | |
CN111401444B (zh) | 红酒原产地的预测方法、装置、计算机设备及存储介质 | |
CN114580762A (zh) | 一种基于XGBoost的水文预报误差校正方法 | |
Zhang et al. | Support vector machine weather prediction technology based on the improved quantum optimization algorithm | |
CN109597944B (zh) | 一种基于深度信念网络的单分类微博谣言检测模型 | |
CN114707692A (zh) | 基于混合神经网络的湿地出水氨氮浓度预测方法及系统 | |
CN117010274B (zh) | 一种基于集成增量学习的地下水有害元素智能预警方法 | |
CN115660221B (zh) | 基于混合神经网络的油气藏经济可采储量评估方法及系统 | |
CN112001436A (zh) | 一种基于改进的极限学习机的水质分类方法 | |
CN116304941A (zh) | 一种基于多模型组合的海洋数据质量控制方法及装置 | |
CN114841064A (zh) | 一种基于半监督集成学习的干旱灾害天气预测方法 | |
CN113850185A (zh) | 井下声发射源多分类方法、装置、终端、存储介质 | |
Sarmadian et al. | Neural computing model for prediction of soil cation exchange capacity: a data mining approach. | |
Li et al. | Applying Unascertained Theory, Principal Component Analysis and ACO-based Artificial Neural Networks for Real Estate Price Determination. | |
CN117648646B (zh) | 基于特征选择和堆叠异构集成学习的钻采成本预测方法 | |
CN114169457B (zh) | 基于岩心重建的风暴岩测井识别方法 | |
CN117591957A (zh) | 一种基于msdbo-dbn-elm模型的矿井突水水源识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |