CN110085324A - 一种多重生存终端结果联合分析的方法 - Google Patents
一种多重生存终端结果联合分析的方法 Download PDFInfo
- Publication number
- CN110085324A CN110085324A CN201910352169.6A CN201910352169A CN110085324A CN 110085324 A CN110085324 A CN 110085324A CN 201910352169 A CN201910352169 A CN 201910352169A CN 110085324 A CN110085324 A CN 110085324A
- Authority
- CN
- China
- Prior art keywords
- variable
- data
- dependent variable
- composite
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 230000001419 dependent effect Effects 0.000 claims abstract description 80
- 238000003066 decision tree Methods 0.000 claims abstract description 56
- 238000007637 random forest analysis Methods 0.000 claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 19
- 230000004083 survival effect Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000008901 benefit Effects 0.000 claims abstract description 6
- 239000002131 composite material Substances 0.000 claims description 24
- 238000004088 simulation Methods 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 12
- 239000012535 impurity Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 238000010998 test method Methods 0.000 claims description 2
- 230000036962 time dependent Effects 0.000 claims description 2
- 238000000691 measurement method Methods 0.000 claims 2
- 238000007405 data analysis Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 claims 1
- 238000009827 uniform distribution Methods 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 4
- 229940079593 drug Drugs 0.000 abstract description 3
- 239000003814 drug Substances 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 150000001875 compounds Chemical class 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 abstract 1
- 239000000523 sample Substances 0.000 abstract 1
- 230000004797 therapeutic response Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 239000000090 biomarker Substances 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 3
- 108010042653 IgA receptor Proteins 0.000 description 2
- 102100034014 Prolyl 3-hydroxylase 3 Human genes 0.000 description 2
- 238000002591 computed tomography Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003364 immunohistochemistry Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003541 multi-stage reaction Methods 0.000 description 1
- 238000012399 oncology drug development Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种多重生存终端结果联合分析的方法,属于医学统计学领域,可帮助研究者解决无法联合分析临床试验中生成的二值类和生存时间类因变量数据的难题。该发明在使用决策树和随机森林的框架下,提出了一个新型的复合分叉标准,以此整合不同类型因变量之间的相关性信息,从而达到预测各因变量、筛选重要自变量的技术目的。模拟实验表明,如果各因变量之间存在相关性,相比单因变量分析而言,本发明的多重输出分析方法可显著提高二值类和生存分析类囚变量的预测准确度,且在筛选重要特征时具备一定的优势。本发明可用于高维临床数据的联合终端结果分析,也可用于药物或新治疗反应机制的前期探究性研究。
Description
技术领域
本发明属于医学统计学领域,具体涉及了一种可联合分析二值类和生存时间类临床病人终端结果的方法。
背景技术
在临床肿瘤学药物研发或者新治疗方法的探索研究中,研究者通常会从病人身上采集大量的自变量(independent variable)数据(有时也称之为特征数据),其中包括分子水平的数据:如基因体突变(somatic mutation)频率、信使RNA(mRNA)表达水平、蛋白质表达水平等,细胞水平的数据:如实体肿瘤穿刺样品H&E染色病理学切片图片、免疫组化(IHC)染色图片等,和宏观水平数据:如计算机断层扫描(Computed Tomography,CT)、核磁共振(Magnetic Resonance Imaging,MRI)等影像图片。研究者可在试验中的多个时间点采集这些数据,从而进一步扩大了数据量的规模。另外一方面,临床试验会评估病人对药物或新治疗方法的反应,此类反应主要基于病人的终端结果(endpoint)数据,包括二值类终端结果(binary outcome):如最佳疗效(best overall response,BOR)、深度病理缓释(majorpathological response,MPR),和连续型的生存时间终端结果(survival outcome):如无疾病进展生存时间(progression-free survival,PFS)、总体生存时间(overallsurvival,OS)。这些数据有时也称之为因变量(dependent variable)数据。基于这些数据,研究者希望能够寻找到一组关键的生物标志物,可以用来同时预测多种类型的临床终端结果。
那么为什么需要联合分析,而不是以单独的临床终端结果做分析?其主要原因在于联合分析既可以提高预测的准确度,也可以寻找到真正的关键标志物。如图(图1)所示,假设有一个未知的机制在驱动两种类型的终端结果,那么在预测层面上,联合预测由于整合了多重终端结果之间的相关性信息,理论上相比单终端结果预测会有更好的预测准确度。在特征/生物标志物筛选层面上,由于单终端结果分析在筛选阈值附近生物标志物时会受到噪音影响,此影响会在简单整合多个单终端结果分析时进一步扩大,最终导致相关的标志物未被选取。如图(图2)所示例,蛋白质B在单终端结果分析中均未被选取,而联合分析由于考虑到各特征与两类终端结果的相关性,会有更大的可能正确选取蛋白质B作为关键标志物。
当下多重终端结果联合分析的方法有多元线性回归(multivariate linearregression)、复合反应决策树(composite response decision tree)以及聚合反应随机森林(joint response random forest)法。多元线性回归法将q>1个因变量回归至p个自变量上,对于第i号样本,设其因变量xi=(xi1,...,xip)′,自变量yi=(yi1,...,yip)′,回归误差∈i=(∈i1,...,∈ip)′,那么多元回归模型可以写作yi=B′xi+∈i,i=1,...,n,其中代表系数矩阵。这一模型用矩阵符号可以写作为Y=XB+E。此法在已发表文献中用模拟数据验证:相对于单因变量模型,随着因变量之间的相关度的增高,此法在模型拟合的准确度上越显优势。但是,此法假设因变量与自变量之间为线性关系,不能拟合生存时间类的因变量数据,而且无法为所有因变量筛选同一组相关的自变量,因而不适用于多重终端结果的联合分析。
决策树和随机森林方法可以较好的整合分析不同类型的因变量。决策树是一个树状结构(图3),其每个非叶节点代表一个特征测试的结果,每个分叉代表这个特征依据某个阈值所做的划分。对于不同类型的因变量,决策树使用不同的分叉标准来选择每个分叉点的特征和阈值,如二值类的因变量可选用香农熵(Shannon entropy),Ec(t)=-∑c∈Cp(c|x)log2p(c|x),其中C代表可能的类别数,p(c|x)代表其中一个类别在节点中的经验概率,熵值越小代表节点里因变量的纯度越高(图4);连续类的数据可使用差分墒(differentialentropy),Er(t)=-∫p(r|x)log2p(r|x)。决策树通常会计算信息增益(information gain,IG),即父节点(parent node)和子节点(child node)熵之差,来选择最优的特征和阈值组合,此局部最优的筛选方法称之为贪婪法(greedy algorithm)。复合反应决策树在分叉标准中整合了两类信息增益,即其中的各节点的熵值经由根节点熵值纠正,即从而达到每次分叉均有考量两类因变量的目的。
决策树虽可较好的整合不同类型的因变量信息,但预测的准确度会比较差,随机森林方法应运而生。如图(图5)所示,随机森林会首先将原始数据通过置回式取样(sampling with replacement)方法生成多份同等样本量大小的数据,每份数据可用于训练单棵决策树。与普通决策树小同的是,随机森林里的树在每个分叉点只随机选取一部分特征计算分叉标准。这种置回式取样和随机选取特征的方式保证了树与树之间的独立性,整合多棵独立决策树的分析结果会让随机森林的预测结果显著逼近真实值。另外,每份数据由于置回式取样产生的包外(out of bagging,oob)数据可用于评估每个决策树的预测准确度,因而随机森林自带了类似交叉验证(cross validation)的功能。随机森林还可以很好地处理高维数据(high-dimensional data),以及因变量与自变量之间的非线性关系。已有发表文献展示,多重输出随机森林在图像分割准确度上优于单输出随机森林。但是,当下尚无整合二值类和生存时间类因变量的多重输出随机森林。
本发明在以往研究的基础上,创新性地提出了一个可联合分析二值类和生存时间类因变量的多重随机森林方法。模拟实验表明,此方法在预测和特征选取的准确度上均优于单因变量随机森林方法。本发明辅助解决了临床医学研究中无法整合分析多种类型因变量的困境,可用于高维数据的联合终端分析及药物反应机制的前期探究性研究。
发明内容
本发明主要解决的技术问题是联合分析二值类和生存时间类的因变量数据。本发明采用的技术方案是基于复合反应决策树的多重输出随机森林方法。具体构建过程如下:
(1)构建节点不纯度衡量(impurity measure)方法:本发明由于需要整合不同类型因变量,所以需要不同的不纯度衡量方法。对于二值类因变量,采用负期望对数似然值(negative expected log-likelihood),公式如下:
其中反应概率可计算为k节点中发生阳性反应的样本数量。
对于生存时间类因变量,使用负指数对数似然值(negative exponential log-likelihood),公式如下:
其中风险率(hazard rate)和Yk分别代表k节点中发生事件总数和观察时间总和。此不纯度衡量方法假设生存时间服从指数分布。
(2)构建决策树的分叉标准(splitting criteria):采用纠正后不纯度的加权平均作为决策树的复合不纯度,公式如下:
其中分别代表根节点k0的二值类因变量和生存时间类因变量的不纯度,a控制着每种类型因变量对复合分叉标准的相对贡献。
决策树中的复合信息增益可定义为:
IG=(a)IGnorm,bin+(1-a)IGnorm,surv
决策树的每次分叉应保证此信息增益的最大化。最佳的权重a值可由训练数据的交叉验证选取。
决策树的输出如图(图6)所示。
(3)构建多重输出随机森林:如图(图7)所示,采用置回式取样方式生成多份同等样本量大小的数据,每份数据用于训练一棵上述的决策树,训练过程中使用3倍交叉验证(3-fold cross-validation)方法选取决策树分叉标准中的最佳权重值。决策树中每次分叉只考虑随机选取的约为总自变量数开1/2次方左右的特征。使用包外数据(oob)计算训练所得决策树的预测值,之后,随机森林用如下方式整合所有决策树的预测值,对于风险率预测:
对于反应率预测:
其中Ii,m=1如果第i个样本属于第m个包外数据之中,Ii,m=0如果第i个样本不属于第m个包外数据之中,Hm(t|xi)和Prm(y|xi)分别是使用第m个决策树所计算的第i个样本的风险率和反应率。
对于新样本的预测,如同包外数据的预测,只需整合已训练好决策树的预测值即可。
(4)对于自变量重要性的评估,本发明采用了置换检验(permutation test)的方法,流程如图(图7)所示。与预测的过程类似,自变量重要性评估过程中也需要将原始数据做置回式取样处理,决策树也经过同样的方式进行训练,不同的是,包外数据中的自变量在重要性评估中还会逐个被置换数据,然后计算预测值,置换后的预测值与未置换的预测值之差即代表此自变量的重要性。取各决策树的差值的平均值及方差
其中dmj代表单个决策树所计算的关于j自变量的差值,M代表决策树的数量。最终的j自变量重要性可经标准方差纠正,计算为
此数值越大,表明自变量的重要性越高。
附图说明
图1是联合分析的示意图;
图2是联合分析与单终端结果分析在筛选生物标志物方面的示例。虚线代表可能的筛选阈值;
图3是一个决策分类树的示例;
图4是香农熵值与节点类别纯度或分类经验概率的关系的示意图;
图5是随机森林方法框架的示意图;
图6是本发明中复合决策树输出的示例,图中第一行展示的是分叉的选择,黑框圈中的是一个终点叶点的示例,输出的是一个列表,包含的分别是节点中各类别的出现频率、风险率和节点样本量大小;
图7是本发明中自变量筛选的流程图;
图8是复合决策树与单因变量分析决策树预测结果的比较,其中normWeight指代复合决策树的结果,single_surv或single_bin指代单因变量分析决策树的结果,图中每个点代表一个数据集的结果;
图9是多重输出随机森林与单因变量分析随机森林预测结果的比较,其中normW.surv.RF和normW.bin.RF指代多重输出随机森林的结果,single.surv.RF或single.bin.RF指代单因变量分析随机森林的结果,图中每个点代表一个数据集的结果;
图10是重要特征筛选的结果,上图是基于二值类因变量的结果,下图是基于生存时间因变量的结果,每个盒子图(boxplot)包括了30个模拟数据集的结果。
具体实施方式
以下结合模拟实验的具体实施案例对本发明作进一步详细说明。由于临床试验类的数据较难获取,这里将使用模拟生成的具有一定相关性的二值类和生存分析类数据做演示。
数据的模拟生成包括以下步骤:
1)设样本量大小n=300,自变量个数p=40,其中10个自变量是原因变量(causalvariables);
2)设λ0=0.15,β0=-1,γ1控制二值类自变量对风险率的影响,γ1的大小可以自行决定;
3)生成服从标准正态分布的随机变量Zi~N(0,1),以此作为第i样本的自变量;
4)设二值类因变量的干扰自变量的系数矩阵β(-0)和生存时间类因变量的干扰自变量的系数矩阵γ(-1)为0,其他自变量的系数为1;
5)从以下逻辑斯蒂回归模型(logistic regression model)中模拟生成二值类因变量数据;
6)从中模拟生成生存时间随机变量,其中Wi是从均匀分布Unif(0,1)中模拟生成的随机变量,λ(t)由Cox比例风险模型模型(Cox proportional hazard model)生成:
7)独立生成删失时间(censoring time)。
本实施案例中使用不同的方法评估不同因变量预测的准确度。对于二值类因变量,使用AUC(area under the ROC curve,ROC曲线下的面积),对于生存时间类因变量,采用C-index(concordance index,一致性指数)。两种方法所得值的值域均为[0,1],0.5代表随机猜测,1代表完全准确的预测。
首先使用发明内容中所描述的复合决策树预测两类因变量。设γ1=-0.693(相当于风险比例hazard ratio=0.5),重复模拟生成30个数据集,每个数据集中随机选取20%作为测试集(testing dataset),剩余80%数据用作模型训练。使用3倍交叉验证法选取分叉标准中的最佳权重,用测试集评估预测准确度。数据运算结果如图(图8)所示,联合分析的结果整体均优于单因变量预测的结果。
由于系数γ1控制着因变量之间的相关性,使用不同的γ1生成数据以模拟现实中的真实数据,并使用t检验方法计算本发明的复合决策树和单因变量决策树之间预测结果相差的显著性p-value。如下表所示,随着因变量之间相关性的增强(γ1值越来越小),两种类型因变量预测结果差值的显著性越强。
γ<sub>1</sub> | -0.357 | -0.511 | -0.693 |
Pvalue<sub>C-index</sub> | 0.116 | 0.085 | 0.024 |
Pvalue<sub>AUC</sub> | 0.166 | 0.126 | 0.057 |
复合决策树虽然展示了相对更好的预测准确度,但是总体准确度尚待提高。本发明采用随机森林方法集合了众多相对独立的决策树,以此进一步优化预测结果。如发明内容中所述,随机森林中的决策树使用同等样本量大小的置回式取样样本训练,并且每次分叉中只考虑随机筛选的一部分自变量(约为总自变量数开1/2次方左右的自变量)。设γ1=-0.693,重复模拟生成30个数据集,每个数据集置回式取样100次,即需要训练100棵决策树,使用包外数据验证各树的预测准确度,结果如图(图9)所示,本发明的多重输出随机森林的预测准确度总体均优于单因变量随机森林。
为了显示多重输出随机森林预测的优势,我们计算了各模型对各类型因变量在相同30个独立模拟数据集上的平均预测准确度及标准方差,使用的模型包括单因变量决策树、复合决策树、单因变量随机森林和多重输出随机森林,结果如下表(括号内为标准方差)所示:联合分析方法均优于单因变量分析方法,随机森林方法的预测结果明显优于决策树,预测准确度最高的方法是联合分析的随机森林法,即本发明提出的多重输出随机森林法。各方法在预测结果的方差上并无明显区别。
为了验证本发明提出的技术方法在筛选重要特征上的功能,使用上述生成的模拟数据,按照发明内容中所述的自变量重要性评估的方法筛选原因变量(causal variable),结果如图(图10)所示,模拟数据过程中所用到的10个原因变量均被正确的筛选出,无论此筛选方法是基于二值类还是生存时间类因变量预测的结果。
本发明实施采用的技术路线在重要自变量筛选上也具有一定的优势。为了证明此优势,我们模拟生成了三大组数据,每组数据中二值类因变量对生存时间因变量的效应值(effect size)不同,同时使用单因变量随机森林和本发明的联合分析随机森林(多重输出随机森林)法拟合这些数据,进行特征筛选,并用AUC值评估特征重要性筛选的结果。若AUC=0.5则表示筛选的结果无异于随机猜测,若AUC=1则表明所有重要的特征均被成功筛选。如下列表所示,不同效应值所生成的模拟数据中,联合分析筛选的准确度均优于单因变量分析方法,当效应值处于中间水平(效应值=0.6)时,联合分析随机森林的筛选准确度明显好于单因变量随机森林方法。
效应值=0.4 | 单因变量分析 | 联合分析 |
基于二值类因变量预测 | 0.711 | 0.751 |
基于生存分析类因变量预测 | 0.810 | 0.810 |
效应值=0.6 | 单因变量分析 | 联合分析 |
基于二值类因变量预测 | 0.736 | 0.803 |
基于生存分析类因变量预测 | 0.850 | 0.895 |
效应值=1 | 单因变量分析 | 联合分析 |
基于二值类因变量预测 | 0.952 | 0.955 |
基于生存分析类因变量预测 | 0.961 | 0.981 |
模拟实验的测试结果显示,当因变量之间存在相关性时,本发明提出的多重输出随机森林方法相比单因变量分析随机森林法会有更高的预测准确度;如果此相关性处于中度水平时,使用多重输出随机森林法也可更准确的筛选出重要的自变量。
以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书、附图内容或实施的模拟实验方法或结果所作的调整或优化,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种多重生存终端结果联合分析的方法,其特征在于五个环节,包括:
(1)构建节点复合分叉标准,以此整合二值类和生存时间类因变量的不纯度衡量方法;
(2)构建复合决策树,使用经根节点数据纠正的复合分叉标准,输出各类因变量的预测值;
(3)构建多重输出随机森林,采用置回式取样训练决策树和选取局部自变量分叉的方式,整合多棵相对独立的复合决策树,输出平均的预测风险率和反应率;
(4)使用置换检验和多重输出随机森林筛选重要的自变量;
(5)使用模拟实验比较验证使用多重输出随机森林的优势。
2.根据权利要求1所述的方法,其特征在于:节点复合分叉标准的构建中,使用负指数对数似然值作为二值类因变量的不纯度衡量法,公式如下:
其中k节点中发生阳性反应的样本数量所占比例可计算为反应概率使用负指数对数似然值作为生存时间类因变量的不纯度衡量法,公式如下:
其中风险率(hazard rate)和Yk分别代表k节点中发生事件总数和观察时间总和。
3.根据权利要求1所述的方法,其特征在于:复合决策树分叉标准的构建中,采用纠正后不纯度的加权平均作为决策树的复合不纯度,公式如下:
其中分别代表根节点k0的二值类因变量和生存时间类因变量的不纯度,最佳的权重a的值可经由训练数据的交叉验证选取,决策树中的复合分叉标准可定义为复合信息增益:
IG=(a)IGnorm,bin+(1-a)IGnorm,surv
信息增益定义为两代节点之间的不纯度差值,复合决策树的每次分叉应保证复合信息增益的相对最大化。
4.根据权利要求1所述的方法,其特征在于:多重输出随机森林的构建中整合了多棵独立训练的复合决策树的预测结果,每棵决策树使用置回式取样所得数据训练,每次分叉只考虑随机选取的约为总自变量数开1/2次方左右的自变量,随机森林的输出为每一个测试样本的平均风险率和反应率。
5.根据权利要求1所述的方法,其特征在于:使用置换检验的方法处理待研究自变量,使用多重输出随机森林计算置换前和置换后两类因变量在包外数据中预测准确度发生的变化,此变化的平均值除以标准方差,所得数值作为待研究自变量的重要性评估结果。
6.根据权利要求1所述的方法,其特征在于:提出一个模拟数据生成的方法:从逻辑斯蒂回归模型中模拟生成二值类因变量数据,从中模拟生成生存时间随机变量,其中Wi是从均匀分布中模拟生成的随机变量,λ(t)由Cox比例风险模型模型生成:
其中系数γ1控制二值类因变量对生存时间因变量的影响的大小,Zi是自变量矩阵。
7.根据权利要求1所述的方法,其特征在于:利用模拟实验数据比较验证多重输出随机森林预测及重要自变量筛选的准确度,对比方法有单因变量分析决策树、单因变量分析随机森林、复合决策树和多重输出随机森林,评估方式依因变量类型而定:二值类因变量采用AUC,生存时间类因变量采用C-index。
8.根据权利要求1所述的方法,其特征在于:所述方法包括应用于临床试验的数据分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910352169.6A CN110085324B (zh) | 2019-04-25 | 2019-04-25 | 一种多重生存终端结果联合分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910352169.6A CN110085324B (zh) | 2019-04-25 | 2019-04-25 | 一种多重生存终端结果联合分析的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110085324A true CN110085324A (zh) | 2019-08-02 |
CN110085324B CN110085324B (zh) | 2023-09-08 |
Family
ID=67417486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910352169.6A Active CN110085324B (zh) | 2019-04-25 | 2019-04-25 | 一种多重生存终端结果联合分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085324B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110890131A (zh) * | 2019-11-04 | 2020-03-17 | 深圳市华嘉生物智能科技有限公司 | 一种基于遗传性基因突变预测癌症风险的方法 |
CN113408945A (zh) * | 2021-07-15 | 2021-09-17 | 广西中烟工业有限责任公司 | 一种烤烟纯度的检测方法、装置、电子设备及存储介质 |
CN117541068A (zh) * | 2024-01-10 | 2024-02-09 | 武汉华测卫星技术有限公司 | 基于无人船的崩岸风险评估方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120303205A1 (en) * | 2011-05-25 | 2012-11-29 | GM Global Technology Operations LLC | Detecting anomalies in fault code settings and enhancing service documents using analytical symptoms |
KR20120132116A (ko) * | 2011-05-27 | 2012-12-05 | 동서대학교산학협력단 | 예측 및 분석을 위한 분산 의사 결정 트리 생성방법 |
JP2015106391A (ja) * | 2013-12-03 | 2015-06-08 | 三菱電機株式会社 | 保全点検システム |
CN104933103A (zh) * | 2015-05-29 | 2015-09-23 | 上海交通大学 | 整合结构聚类和属性分类的多目标社区发现方法 |
CN106446957A (zh) * | 2016-10-08 | 2017-02-22 | 常熟理工学院 | 一种基于随机森林的雾霾图像分类方法 |
CN106611187A (zh) * | 2016-06-17 | 2017-05-03 | 四川用联信息技术有限公司 | 一种多维尺度的异构代价敏感决策树构建方法 |
CN109147949A (zh) * | 2018-08-16 | 2019-01-04 | 辽宁大学 | 一种基于分类回归树来用于检测教师亚健康状态的方法 |
-
2019
- 2019-04-25 CN CN201910352169.6A patent/CN110085324B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120303205A1 (en) * | 2011-05-25 | 2012-11-29 | GM Global Technology Operations LLC | Detecting anomalies in fault code settings and enhancing service documents using analytical symptoms |
KR20120132116A (ko) * | 2011-05-27 | 2012-12-05 | 동서대학교산학협력단 | 예측 및 분석을 위한 분산 의사 결정 트리 생성방법 |
JP2015106391A (ja) * | 2013-12-03 | 2015-06-08 | 三菱電機株式会社 | 保全点検システム |
CN104933103A (zh) * | 2015-05-29 | 2015-09-23 | 上海交通大学 | 整合结构聚类和属性分类的多目标社区发现方法 |
CN106611187A (zh) * | 2016-06-17 | 2017-05-03 | 四川用联信息技术有限公司 | 一种多维尺度的异构代价敏感决策树构建方法 |
CN106446957A (zh) * | 2016-10-08 | 2017-02-22 | 常熟理工学院 | 一种基于随机森林的雾霾图像分类方法 |
CN109147949A (zh) * | 2018-08-16 | 2019-01-04 | 辽宁大学 | 一种基于分类回归树来用于检测教师亚健康状态的方法 |
Non-Patent Citations (6)
Title |
---|
沈金榕等: "基于决策树和逐步回归的大数据研究", 《广东通信技术》 * |
沈金榕等: "基于决策树和逐步回归的大数据研究", 《广东通信技术》, no. 12, 15 December 2016 (2016-12-15), pages 49 - 51 * |
邵良杉等: "改进GSM-RFC模型在回采巷道围岩稳定性分级的预测", 《辽宁工程技术大学学报(自然科学版)》 * |
邵良杉等: "改进GSM-RFC模型在回采巷道围岩稳定性分级的预测", 《辽宁工程技术大学学报(自然科学版)》, no. 03, 15 June 2018 (2018-06-15), pages 3 - 9 * |
陈干霞等: "随机生存森林在大规模基因分型肺癌预后关联性研究中的降维作用", 《中华疾病控制杂志》 * |
陈干霞等: "随机生存森林在大规模基因分型肺癌预后关联性研究中的降维作用", 《中华疾病控制杂志》, no. 07, 10 July 2012 (2012-07-10), pages 77 - 80 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110890131A (zh) * | 2019-11-04 | 2020-03-17 | 深圳市华嘉生物智能科技有限公司 | 一种基于遗传性基因突变预测癌症风险的方法 |
CN110890131B (zh) * | 2019-11-04 | 2023-08-25 | 深圳市华嘉生物智能科技有限公司 | 一种基于遗传性基因突变预测癌症风险的方法 |
CN113408945A (zh) * | 2021-07-15 | 2021-09-17 | 广西中烟工业有限责任公司 | 一种烤烟纯度的检测方法、装置、电子设备及存储介质 |
CN117541068A (zh) * | 2024-01-10 | 2024-02-09 | 武汉华测卫星技术有限公司 | 基于无人船的崩岸风险评估方法及系统 |
CN117541068B (zh) * | 2024-01-10 | 2024-04-02 | 武汉华测卫星技术有限公司 | 基于无人船的崩岸风险评估方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110085324B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Müller et al. | Optimal sample size for multiple testing: the case of gene expression microarrays | |
McMurdie et al. | Waste not, want not: why rarefying microbiome data is inadmissible | |
US11341404B2 (en) | Analysis-data analyzing device and analysis-data analyzing method that calculates or updates a degree of usefulness of each dimension of an input in a machine-learning model | |
Simon et al. | Using cross-validation to evaluate predictive accuracy of survival risk classifiers based on high-dimensional data | |
Gatta et al. | Towards a modular decision support system for radiomics: A case study on rectal cancer | |
CN110085324A (zh) | 一种多重生存终端结果联合分析的方法 | |
JPWO2020006547A5 (zh) | ||
de Matos Simoes et al. | Influence of statistical estimators of mutual information and data heterogeneity on the inference of gene regulatory networks | |
Rajala et al. | Detecting multivariate interactions in spatial point patterns with Gibbs models and variable selection | |
US20070005257A1 (en) | Bayesian network frameworks for biomedical data mining | |
März | XGBoostLSS--An extension of XGBoost to probabilistic forecasting | |
Torabi | Likelihood inference in generalized linear mixed measurement error models | |
Shen et al. | A direct method to evaluate the time‐dependent predictive accuracy for biomarkers | |
JP7197795B2 (ja) | 機械学習プログラム、機械学習方法および機械学習装置 | |
Yue et al. | Sparse boosting for high‐dimensional survival data with varying coefficients | |
Timonen et al. | lgpr: an interpretable non-parametric method for inferring covariate effects from longitudinal data | |
Dandis et al. | A tutorial on dynamic risk prediction of a binary outcome based on a longitudinal biomarker | |
Zhang et al. | Deep learning-based methods for classification of microsatellite instability in endometrial cancer from HE-stained pathological images | |
Hu et al. | Joint modeling of zero-inflated longitudinal proportions and time-to-event data with application to a gut microbiome study | |
Luo et al. | Joint model for a diagnostic test without a gold standard in the presence of a dependent terminal event | |
KR102541510B1 (ko) | 국가건강검진 자료를 이용한 자살 예측 모델 구축 방법 | |
Green et al. | Selection stability in high dimensional statistical modelling: Defining a threshold for robust model inference | |
US20130080101A1 (en) | System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management | |
US20090006055A1 (en) | Automated Reduction of Biomarkers | |
Shestopaloff et al. | DCMD: Distance-based classification using mixture distributions on microbiome data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |