CN116738172A

CN116738172A - 一种基于机器学习的大型混合暴露数据分析方法

Info

Publication number: CN116738172A
Application number: CN202310706304.9A
Authority: CN
Inventors: 杨晓波; 王飞; 葛小婷; 林园芯; 许家宁; 李相志; 覃莲; 韦富贵; 唐海峰
Original assignee: Guangxi Medical University
Current assignee: Guangxi Medical University
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-09-12

Abstract

本发明涉及环境流行病学技术领域，尤其是一种基于机器学习的大型混合暴露数据分析方法，包括下述步骤：根据流行病学信息及临床检查治疗信息，获取研究结局及相关协变量；根据对生物样本中污染物浓度的检测，获取暴露变量数据集，且将暴露变量数据集转化为标准化数据集；对标准化数据集进行Spearman相关性分析、主成分分析及变量聚类，对变量的共线性进行探索；构建不同机器学习模型，根据暴露变量在模型中重要性的排序选择变量；通过加权分位数和回归、分位数g计算模型、贝叶斯核函数回归对所述重要变量进行分析，以评价暴露的总体效应。本发明有利于有效整合多个暴露生物标志物数据，克服了传统方法中因多重共线性带来的问题。

Description

一种基于机器学习的大型混合暴露数据分析方法

技术领域

本发明涉及环境流行病学技术领域，尤其是一种基于机器学习的大型混合暴露数据分析方法。

背景技术

在环境流行病学领域，如何准确评价环境污染物混合暴露对健康效应一直是个统计学难题，原因是当两个或多个预测变量高度相关时存在共线性的问题。目前，环境多污染物混合暴露与健康关联研究的统计学方法上存在很大的局限性，暴露数据集的高维度以及污染物之间的强相关性使得传统的研究模型具有很大的不稳定性。而且现有的研究中的做法大多是逐个评价单种污染物与结局的关联，或者只在一个统计模型中同时纳入多个污染物进行分析、评价，这将不能正确估计混合暴露导致的、真实的效应。

发明内容

为了解决上述问题，本发明提供一种基于机器学习的大型混合暴露数据分析方法，有利于有效整合多个暴露生物标志物数据，克服了传统方法中因多维共线性带来的问题。

为了实现上述目的，本发明采用的技术方案为：

一种基于机器学习的大型混合暴露数据分析方法，包括下述步骤：

S1.根据流行病学信息及临床检查治疗信息，获取研究结局及相关协变量；根据对生物样本中污染物浓度的检测，获取暴露变量数据集，且将所述暴露变量数据集转化为标准化数据集；

S2.对所述标准化数据集进行Spearman相关性分析、主成分分析及变量聚类，对变量的共线性进行探索；

S3.基于caret包构建不同机器学习模型，且通过所述暴露变量标准化数据集及所述研究结局，评估所述机器学习模型的分类性能及评估暴露变量在所述机器学习模型中的重要性，对所述暴露变量进行排序，以根据所述暴露变量的排序选择重要变量；

S4.通过加权分位数和回归、分位数g计算模型、贝叶斯核函数回归对步骤S3的所述重要变量进行分析，以评价暴露的总体效应。

进一步地，在步骤S1中，采用Z-score标准化方法对所述暴露变量数据集转化为标准化数据集，且Z-score标准化公式为：

其中，Z为标准化数据集；x为个体的观测值；μ为总体数据的均值；σ为总体数据的标准差。

进一步地，在步骤S2中，计算所述标准化数据集的Spearman相关系数，以获得所述Spearman相关性分析；通过pheatmap包绘制出相关性热图，以将暴露变量进行聚类；通过FactoMineR和factoextra包对所述标准化数据集进行主成分分析，根据所述主成分分析，获得基于聚类的二维主成分分析图。

进一步地，通过FactoMineR和factoextra包进行主成分分析计算，以获得主成分的解释度，且根据所述主成分的解释度绘制滚石图；

提取所述主成分分析的变量，以根据各个暴露变量对第一主成份、第二主成分的贡献度，绘制重要性绘图，且对所述重要性绘图进行kmeans聚类，绘制基于聚类的二维主成分分析图。

进一步地，所述研究结局分为病例组与健康的对照组。

进一步地，在步骤S3中，重要变量的获得步骤为：

A1.对所述暴露变量数据集、所述标准化数据集及所述研究结局的数据进行处理，以获得标准结局分组数据集，且将所述标准结局分组数据集按8：2随机分成训练集和测试集；

A2.基于caret包构建不同机器学习模型，且通过所述训练集对所述机器学习模型进行训练，通过所述测试集评估所述机器学习模型性能；

A3.对暴露变量的相对重要性进行标准化，且根据所述机器学习模型性能获得所述暴露变量的重要性排序；

A4.根据所述暴露变量的重要性排序，选择暴露变量出现在所述机器学习模型大于阈值次数，且暴露变量位于对应所述机器学习模型的预设排序内的所述暴露变量为重要变量。

进一步地，在步骤A2中，对每一所述机器学习模型进行完整重复5次十折交叉验证，以计算所述训练集中样品的分类概率及计算所述机器学习模型的敏感性、特异性和AUC。

进一步地，在步骤A2中，通过选择机器学习模型对应的确定method及其所需要的包，以构建不同的机器学习模型。

进一步地，在步骤S4中，将所述重要变量的数据集通过加权分位数和回归，获得总体效应评价、总体效应的拟合图及重要变量权重；

将所述重要变量的数据集通过分位数g计算模型，且将年龄、性别、BMI定义为协变量，通过分位数g计算模型进行不校正协变量及校正协变量，以获得分位数g计算模型的拟合结果；

将所述重要变量的数据集通过贝叶斯核函数回归，获得所述重要变量对结局影响的相对重要程度、混合暴露下的单个暴露变量与结局间的非线性关联、混合物总体效应及单变量效应。

本发明的有益效果是：

利用流行病学信息、临床检查治疗信息、环境污染物样本及生物污染物样本，获得暴露分析所需的数据集，使用Spearman相关性分析、主成分分析及变量聚类分析数据集内部结构，能够获得变量共线性数据；同时基于暴露变量数据集和研究结局，使用弹性网络、人工神经网络、支持向量机、梯度提升机、随机森林等不同类型的有监督的机器学习算法，评估模型的分类性能及暴露变量在模型中的重要性，根据变量重要性排序进行变量选择，以选择获得重要变量，而较好的模型的准确性是变量选择可信的前提；根据重要变量使用加权分位数和回归、分位数g计算模型、贝叶斯核函数回归评价暴露的总体效应。本发明在环境流行病学研究分析领域引入机器学习算法，将变量选择作为在具有高度相关性的高维暴露数据集下构建因果结构和解释性模型的初步步骤，克服了传统方法中因多维共线性带来的问题，有利于有效整合多个暴露生物标志物数据。

附图说明

图1是本发明一较佳实施方式的基于机器学习的大型混合暴露数据分析方法的流程图。

图2是本发明一较佳实施方式的基于机器学习的大型混合暴露数据分析方法的相关性热图。

图3是本发明一较佳实施方式的基于机器学习的大型混合暴露数据分析方法的滚石图。

图4是本发明一较佳实施方式的基于机器学习的大型混合暴露数据分析方法的重要性绘图。

图5是本发明一较佳实施方式的基于机器学习的大型混合暴露数据分析方法的基于聚类的二维主成分分析图。

图6是本发明一较佳实施方式的基于机器学习的大型混合暴露数据分析方法的箱线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参见图1至图6，本发明的基于机器学习的大型混合暴露数据分析方法，包括下述步骤：

S1.根据流行病学信息及临床检查治疗信息，获取研究结局及相关协变量，其中，相关协变量为年龄、性别、BMI等数据，根据对生物样本中污染物浓度的检测，获取暴露变量数据集，且将暴露变量数据集转化为标准化数据集；

本实施例中研究暴露矩阵数据集为43种半挥发性有机物(semi-volatileorganic compounds,SVOCs)，研究的主要目的是探究SVOCs混合暴露对甲状腺乳头状癌(Papillary thyroid cancer,PTC)的影响。其中，在一项纳入了50对PTC和正常对照人群的研究中进行了一系列统计方法上的探索，研究结局分为病例组与健康的对照组。且本实施例的所有分析均使用R软件4.1.3版本进行。

在步骤S1中，采用Z-score标准化方法对暴露变量数据集转化为标准化数据集，Z-score标准化公式为：

本实施例通过>svocdata<-read_xlsx("D:/R/43种SVOCs暴露数据集.xlsx",sheet＝"Sheet1")将导入43种SVOCs暴露变量数据集。

通过>datastand<-scale(svocdata,center＝T,scale＝T)将暴露变量数据集转化为标准化数据集。

S2.对标准化数据集进行Spearman相关性分析、主成分分析及变量聚类，以获得变量数据共线性的线索。

在步骤S2中，计算标准化数据集的Spearman相关系数，以获得Spearman相关性分析，本实施例通过pheatmap包绘制出相关性热图，以将暴露变量进行聚类，相关性热图如图2所示，且通过设置参数cluster_rows＝TRUE将暴露变量进行聚类。

通过FactoMineR和factoextra包对标准化数据集进行主成分分析，根据主成分分析，获得基于聚类的二维主成分分析图。

本实施例通过FactoMineR和factoextra包进行主成分分析计算，以获得主成分的解释度，且根据主成分的解释度绘制滚石图。

通过>pca<-PCA(datastand,graph＝FALSE)进行主成分分析计算；

通过>eig.val<-get_eigenvalue(pca)

>eig.val显示主成分的解释度。

通过>fviz_eig(pca,ncp＝10,addlabels＝TRUE)绘制滚石图，滚石图如图3所示。

本实施例中，提取主成分分析的变量，以根据各个暴露变量对第一主成份、第二主成分的贡献度，绘制重要性绘图，且对重要性绘图进行kmeans聚类，绘制基于聚类的二维主成分分析图。本实施例中，设置参数center＝5聚类成5组，且将向量编码为因子，通过不同颜色表示不同聚类，以获得基于聚类的二维主成分分析图。

通过>var<-get_pca_var(pca)提取主成分分析的变量。

通过>zy<-fviz_contrib(pca,choice＝"var",axes＝1:2)获得暴露变量对第一主成份、第二主成分的贡献度。

通过>fviz_pca_var(pca,col.var＝"contrib",gradient.cols＝c("#00AFBB","#E7B800","#FC4E07"))实现用贡献度衡量重要性绘图。重要性绘图如图4所示。

通过>set.seed(1234)

>res.km<-kmeans(var$coord,centers＝5,nstart＝25)进行kmeans聚类，设置参数center＝5聚类成5组。

通过>grp<-as.factor(res.km$cluster)将向量编码为因子。

进行绘制基于聚类的二维主成分分析图，且用不同颜色表示不同聚类，基于聚类的二维主成分分析图如图5所示。

S3.基于caret包构建不同机器学习模型，且通过暴露变量标准化数据集及研究结局，评估机器学习模型的分类性能及评估暴露变量在机器学习模型中的重要性，对暴露变量进行排序，以根据暴露变量的排序选择重要变量。

在步骤S3中，重要变量的获得步骤为：

A1.对暴露变量数据集、标准化数据集及研究结局的数据进行处理，以获得标准结局分组数据集，且将标准结局分组数据集按8：2随机分成训练集和测试集。通过载入caret包，设置随机数，且通过设置参数p＝.80将数据集按8：2随机分成训练集和测试集。从而将标准结局分组数据集按8：2随机分成训练集和测试集。

本实施例中，通过>mydata<-read_xlsx("D:/R/RData/43SVOCs andgroup.xlsx",sheet＝"Sheet1")，导入43种暴露变量+结局分组的数据集(自行命名为mydata)。结局变量命名为“group”，用“0”代表对照组，“1”代表PTC病例组。

通过>mydata_stand<-as.data.frame(cbind(group＝mydata$group,datastand))将结局分组变量与第一部分步骤1的标准化数据集合并。

通过

>mydata_stand$group<-factor(mydata_stand$group,levels＝c(1,0),labels＝c("Case","Control"))将目标变量转换为因子。实现了数据的预处理。

本实施例的重要变量以结局分组用箱线图进行分布的可视化，x轴为重要变量，y为结局分组，箱线图的部分数据如图6所示。

A2.基于caret包构建不同机器学习模型，且通过训练集对机器学习模型进行训练，通过测试集评估机器学习模型性能。

在步骤A2中，对每一机器学习模型进行完整重复5次十折交叉验证，以计算训练集中样品的分类概率及计算机器学习模型的敏感性、特异性和AUC。

在步骤A2中，通过选择机器学习模型对应的确定method及其所需要的包，以构建不同的机器学习模型。

本实施例构建了弹性网络、人工神经网络、支持向量机、梯度提升机、随机森林机器学习模型，通过下述算法进行模型训练

>fitControl<-trainControl(method＝"repeatedcv",

number＝10,repeats＝5,classProbs＝TRUE,

summaryFunction＝twoClassSummary)

其中，number＝10和repeats＝5表示完整重复5次10-fold交叉验证；classProb＝TRUE表示需要计算验证集中样品的分类概率；summaryFunction＝twoClassSummary该参数用来计算模型的敏感性、特异性和AUC。

本实施例随机森林机器学习模型的构建方法为：

A2.1通过>library(randomForest)载入RF模型所需要的包，

A2.1>rfFit<-train(group～.,data＝train,method＝"rf",trControl＝fitControl,metric＝"ROC")拟合模型，其中，设置method＝"rf"构建随机森林模型，其他模型可通过修改此参数构建，可通过查阅https://topepo.github.io/caret/available-models.html确定method及其所需要的包。

A2.2可视化随机森林机器学习模型参数对性能的影响。

A2.3通过>rfGrid<-expand.grid(mtry＝c(1:44))自定义参数，其中mtry参数是随机森林建模中，构建决策树分支时随机抽样的变量个数，选择合适的mtry参数值可以降低随机森林模型的预测错误率。不同模型的参数名可在ttps://topepo.github.io/caret/available-models.html中查阅。

A2.4分析特征重要性。通过设置参数scale＝TRUE将变量的相对重要性标准化至0-100，设置参数top＝10表示可视化重要性前10的变量。

A2.5通过测试集评估模型性能。

本实施例的弹性网络、人工神经网络、支持向量机、梯度提升机均与随机森林的构建框架相同。

A3.根据机器学习模型性能获得暴露变量的重要性排序，且对暴露变量的相对重要性进行标准化。

A4.根据暴露变量的重要性排序，选择暴露变量出现在机器学习模型大于阈值次数，且暴露变量位于对应机器学习模型的预设排序内的暴露变量为重要变量。本实施例中在5个机器学习模型中，某暴露变量出现在3个及以上模型中的重要性前10的变量中即被视为重要变量，本实施例的重要变量为6种SVOCs化合物：Fluazifop-butyl、Fenpropathrin、PCB-138、DEHP、β-BHC、Fenitrothion。

本实施例基于caret包构建的机器学习模型为弹性网络、人工神经网络、支持向量机、梯度提升机、随机森林。本实施例可通过查阅https://topepo.github.io/caret/available-models.html确定不同模型的method参数及其所需要的包。本实施例所选择的不同类型算法，能够达到互补的作用，更有利于结果的解释。

S4.通过加权分位数和回归、分位数g计算模型、贝叶斯核函数回归对步骤S3的重要变量进行分析，以评价暴露的总体效应。本实施例重要变量的数据集包含结局分组变量(第1列)、6个暴露变量(2-7列)及3个协变量(年龄、性别、BMI；8-10列)

在步骤S4中，将重要变量的数据集通过加权分位数和回归，获得总体效应评价、总体效应的拟合图及重要变量权重。

本实施例通过>library(gWQS)>library(ggplot2)>library(dplyr)在载入加权分位数和回归所需的包。

通过>results1<-gwqs(group～wqs,

data＝my_data,mix_name＝toxic_chems,

q＝4,validation＝0.4,b＝100,

b1_pos＝TRUE,b1_constr＝FALSE,

family＝"binomial",

seed＝1234)

>results2<-gwqs(group～wqs+age+gender+BMI,

data＝mydata,mix_name＝toxic_chems,

q＝4,validation＝0.4,b＝100,

b1_pos＝TRUE,b1_constr＝FALSE,

family＝"binomial",

seed＝1234)

运行加权分位数和回归模型。

其中，wqs为加权分位数和回归的指数；mix_name为暴露混合物名称；q为分位数，可以指定为四分数或其他；validation为验证数据集比例(本实施例设为40％)；b为bootstrap样本数，一般大于100；b1_pos为混合物与结局关联方向，TRUE为正，FALSE为负；b1_constr为是否限制结局方向，TRUE为是，FALSE为否；family为根据结局变量类型决定，本研究二分类为binomial，若连续型为gaussian；seed为种子数，方便重复结果。

设置参数b1_pos＝FALSE进行加权分位数和回归的负向测试，以通过负向测试的总体效应评价、总体效应的拟合图及重要变量权重，判断是否存在负向关联。

将重要变量的数据集通过分位数g计算模型，且将年龄、性别、BMI定义为协变量，通过分位数g计算模型进行不校正协变量及校正协变量，以获得分位数g计算模型的拟合结果。

在分位数g计算模型中，其算法为：

>library(qgcomp)

>library(knitr)#加载所需要的包

>Exp<-c('Fluazifop-butyl','Fenpropathrin','PCB-138',

'DEHP','β-BHC','Fenitrothion')#定义暴露变量

>covars＝c('age','gender','BMI')#定义协变量

#拟合qgcomp模型

#Model1不校正协变量

>qc.fit1<-qgcomp.noboot(group～.,expnms＝Exp,data＝my_data[,c(Exp,'group')],family＝binomial(),q＝4)

#Model 2校正年龄、性别、BMI

>qc.fit2<-qgcomp.noboot(group～.,expnms＝Exp,data＝my_data[,c(Exp,covars,

'group')],family＝binomial(),q＝4)

#expnms：暴露变量；

#family＝binomial()：结局为二分类变量；

#q＝4默认设为四分位数

>qc.fit1

>qc.fit2#查看模型拟合结果

#对模型合结果进行可视化

>plot(qc.fit1)

>plot(qc.fit2)

将重要变量的数据集通过贝叶斯核函数回归，获得重要变量对结局影响的相对重要程度、混合暴露下的单个暴露变量与结局间的非线性关联、混合物总体效应及单变量效应。

贝叶斯核函数回归评价暴露的总体效应中，先加载贝叶斯核函数回归载所需要的包，然后定义数据，使y为结果的向量，Z为暴露的矩阵(每列是重要变量)，X为协变量的矩阵(每列是协变量)，其中重要变量量位于第2列至7列，协变量位于第8列至10列。

对贝叶斯核函数回归模型进行拟合，则有：

>set.seed(1234)#设置种子数(任意数字)，方便以后重复结果

>fitkm<-kmbayes(y＝y,Z＝z,X＝x,family＝"binomial",

iter＝25000,verbose＝FALSE,varsel＝TRUE)

其中，kmbayes为运行BKMR函数；y为反应变量；Z为混合物；X为协变量；iter为模拟次数，一般需要25,000以上；verbose为是否应打印总结模型拟合进度的临时输出，一般选否；varsel为是否对暴露变量进行变量选择，一般选是；fitkm为查看拟合结果。

通过暴露变量的后验包含概率获得重要变量对结局影响的相对重要程度。在单变量截面中查看混合暴露下的单个暴露变量与结局间的非线性关联。

混合物总体效应为混合物总体效应与结局的关联图，6种化合物同时固定不同百分位时与其固定在中位数时相比，估计结局的变化。单变量效应为查看单一变量在其余5种变量分别固定在25，50和75百分位时，自身位于第75和25百分数时与结局关联的差值。

本实施例中，利用流行病学信息、临床检查治疗信息、环境污染物样本及生物污染物样本，获得暴露分析所需的数据集，使用Spearman相关性分析、主成分分析及变量聚类分析数据集内部结构，能够获得变量共线性数据；同时基于暴露变量数据集和研究结局，使用弹性网络、人工神经网络、支持向量机、梯度提升机、随机森林等不同类型的有监督的机器学习算法，评估模型的分类性能及暴露变量在模型中的重要性，根据变量重要性排序进行变量选择，以选择获得重要变量，而较好的模型的准确性是变量选择可信的前提；根据重要变量使用加权分位数和回归、分位数g计算模型、贝叶斯核函数回归评价暴露的总体效应。

本实施例在环境流行病学研究分析领域引入机器学习算法，将变量选择作为在具有高度相关性的高维暴露数据集下构建因果结构和解释性模型的初步步骤，克服了传统方法中因多维共线性带来的问题，有利于有效整合多个暴露生物标志物数据。

Claims

1.一种基于机器学习的大型混合暴露数据分析方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：在步骤S1中，采用Z-score标准化方法对所述暴露变量数据集转化为标准化数据集，且Z-score标准化公式为：

3.根据权利要求1所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：在步骤S2中，计算所述标准化数据集的Spearman相关系数，以获得所述Spearman相关性分析；通过pheatmap包绘制出相关性热图，以将暴露变量进行聚类；通过FactoMineR和factoextra包对所述标准化数据集进行主成分分析，根据所述主成分分析，获得基于聚类的二维主成分分析图。

4.根据权利要求3所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：通过FactoMineR和factoextra包进行主成分分析计算，以获得主成分的解释度，且根据所述主成分的解释度绘制滚石图；

5.根据权利要求1所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：所述研究结局分为病例组与健康的对照组。

6.根据权利要求5所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：在步骤S3中，重要变量的获得步骤为：

A3.根据所述机器学习模型性能获得所述暴露变量的重要性排序，且对所述暴露变量的相对重要性进行标准化。

7.根据权利要求6所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：在步骤A2中，对每一所述机器学习模型进行完整重复5次十折交叉验证，以计算所述训练集中样品的分类概率及计算所述机器学习模型的敏感性、特异性和AUC。

8.根据权利要求6所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：在步骤A2中，通过选择机器学习模型对应的确定method及其所需要的包，以构建不同的机器学习模型。

9.根据权利要求1所述的一种基于机器学习的大型混合暴露数据分析方法，其特征在于：在步骤S4中，将所述重要变量的数据集通过加权分位数和回归，获得总体效应评价、总体效应的拟合图及重要变量权重；