CN110085324A

CN110085324A - 一种多重生存终端结果联合分析的方法

Info

Publication number: CN110085324A
Application number: CN201910352169.6A
Authority: CN
Inventors: 李嘉路; 华芮
Original assignee: Shenzhen Huajia Biological Intelligence Technology Co Ltd
Current assignee: Shenzhen Huajia Biological Intelligence Technology Co Ltd
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-02
Anticipated expiration: 2039-04-25
Also published as: CN110085324B

Abstract

本发明公开了一种多重生存终端结果联合分析的方法，属于医学统计学领域，可帮助研究者解决无法联合分析临床试验中生成的二值类和生存时间类因变量数据的难题。该发明在使用决策树和随机森林的框架下，提出了一个新型的复合分叉标准，以此整合不同类型因变量之间的相关性信息，从而达到预测各因变量、筛选重要自变量的技术目的。模拟实验表明，如果各因变量之间存在相关性，相比单因变量分析而言，本发明的多重输出分析方法可显著提高二值类和生存分析类囚变量的预测准确度，且在筛选重要特征时具备一定的优势。本发明可用于高维临床数据的联合终端结果分析，也可用于药物或新治疗反应机制的前期探究性研究。

Description

一种多重生存终端结果联合分析的方法

技术领域

本发明属于医学统计学领域，具体涉及了一种可联合分析二值类和生存时间类临床病人终端结果的方法。

背景技术

在临床肿瘤学药物研发或者新治疗方法的探索研究中，研究者通常会从病人身上采集大量的自变量(independent variable)数据(有时也称之为特征数据)，其中包括分子水平的数据：如基因体突变(somatic mutation)频率、信使RNA(mRNA)表达水平、蛋白质表达水平等，细胞水平的数据：如实体肿瘤穿刺样品H&E染色病理学切片图片、免疫组化(IHC)染色图片等，和宏观水平数据：如计算机断层扫描(Computed Tomography，CT)、核磁共振(Magnetic Resonance Imaging，MRI)等影像图片。研究者可在试验中的多个时间点采集这些数据，从而进一步扩大了数据量的规模。另外一方面，临床试验会评估病人对药物或新治疗方法的反应，此类反应主要基于病人的终端结果(endpoint)数据，包括二值类终端结果(binary outcome)：如最佳疗效(best overall response，BOR)、深度病理缓释(majorpathological response，MPR)，和连续型的生存时间终端结果(survival outcome)：如无疾病进展生存时间(progression-free survival，PFS)、总体生存时间(overallsurvival，OS)。这些数据有时也称之为因变量(dependent variable)数据。基于这些数据，研究者希望能够寻找到一组关键的生物标志物，可以用来同时预测多种类型的临床终端结果。

那么为什么需要联合分析，而不是以单独的临床终端结果做分析？其主要原因在于联合分析既可以提高预测的准确度，也可以寻找到真正的关键标志物。如图(图1)所示，假设有一个未知的机制在驱动两种类型的终端结果，那么在预测层面上，联合预测由于整合了多重终端结果之间的相关性信息，理论上相比单终端结果预测会有更好的预测准确度。在特征/生物标志物筛选层面上，由于单终端结果分析在筛选阈值附近生物标志物时会受到噪音影响，此影响会在简单整合多个单终端结果分析时进一步扩大，最终导致相关的标志物未被选取。如图(图2)所示例，蛋白质B在单终端结果分析中均未被选取，而联合分析由于考虑到各特征与两类终端结果的相关性，会有更大的可能正确选取蛋白质B作为关键标志物。

当下多重终端结果联合分析的方法有多元线性回归(multivariate linearregression)、复合反应决策树(composite response decision tree)以及聚合反应随机森林(joint response random forest)法。多元线性回归法将q＞1个因变量回归至p个自变量上，对于第i号样本，设其因变量x_i＝(x_i1，...，x_ip)′，自变量y_i＝(y_i1，...，y_ip)′，回归误差∈_i＝(∈_i1，...，∈_ip)′，那么多元回归模型可以写作y_i＝B′x_i+∈_i，i＝1，...，n，其中代表系数矩阵。这一模型用矩阵符号可以写作为Y＝XB+E。此法在已发表文献中用模拟数据验证：相对于单因变量模型，随着因变量之间的相关度的增高，此法在模型拟合的准确度上越显优势。但是，此法假设因变量与自变量之间为线性关系，不能拟合生存时间类的因变量数据，而且无法为所有因变量筛选同一组相关的自变量，因而不适用于多重终端结果的联合分析。

决策树和随机森林方法可以较好的整合分析不同类型的因变量。决策树是一个树状结构(图3)，其每个非叶节点代表一个特征测试的结果，每个分叉代表这个特征依据某个阈值所做的划分。对于不同类型的因变量，决策树使用不同的分叉标准来选择每个分叉点的特征和阈值，如二值类的因变量可选用香农熵(Shannon entropy)，E_c(t)＝-∑_c∈Cp(c|x)log₂p(c|x)，其中C代表可能的类别数，p(c|x)代表其中一个类别在节点中的经验概率，熵值越小代表节点里因变量的纯度越高(图4)；连续类的数据可使用差分墒(differentialentropy)，E_r(t)＝-∫p(r|x)log₂p(r|x)。决策树通常会计算信息增益(information gain，IG)，即父节点(parent node)和子节点(child node)熵之差，来选择最优的特征和阈值组合，此局部最优的筛选方法称之为贪婪法(greedy algorithm)。复合反应决策树在分叉标准中整合了两类信息增益，即其中的各节点的熵值经由根节点熵值纠正，即从而达到每次分叉均有考量两类因变量的目的。

决策树虽可较好的整合不同类型的因变量信息，但预测的准确度会比较差，随机森林方法应运而生。如图(图5)所示，随机森林会首先将原始数据通过置回式取样(sampling with replacement)方法生成多份同等样本量大小的数据，每份数据可用于训练单棵决策树。与普通决策树小同的是，随机森林里的树在每个分叉点只随机选取一部分特征计算分叉标准。这种置回式取样和随机选取特征的方式保证了树与树之间的独立性，整合多棵独立决策树的分析结果会让随机森林的预测结果显著逼近真实值。另外，每份数据由于置回式取样产生的包外(out of bagging，oob)数据可用于评估每个决策树的预测准确度，因而随机森林自带了类似交叉验证(cross validation)的功能。随机森林还可以很好地处理高维数据(high-dimensional data)，以及因变量与自变量之间的非线性关系。已有发表文献展示，多重输出随机森林在图像分割准确度上优于单输出随机森林。但是，当下尚无整合二值类和生存时间类因变量的多重输出随机森林。

本发明在以往研究的基础上，创新性地提出了一个可联合分析二值类和生存时间类因变量的多重随机森林方法。模拟实验表明，此方法在预测和特征选取的准确度上均优于单因变量随机森林方法。本发明辅助解决了临床医学研究中无法整合分析多种类型因变量的困境，可用于高维数据的联合终端分析及药物反应机制的前期探究性研究。

发明内容

本发明主要解决的技术问题是联合分析二值类和生存时间类的因变量数据。本发明采用的技术方案是基于复合反应决策树的多重输出随机森林方法。具体构建过程如下：

(1)构建节点不纯度衡量(impurity measure)方法：本发明由于需要整合不同类型因变量，所以需要不同的不纯度衡量方法。对于二值类因变量，采用负期望对数似然值(negative expected log-likelihood)，公式如下：

其中反应概率可计算为k节点中发生阳性反应的样本数量。

对于生存时间类因变量，使用负指数对数似然值(negative exponential log-likelihood)，公式如下：

其中风险率(hazard rate)和Y_k分别代表k节点中发生事件总数和观察时间总和。此不纯度衡量方法假设生存时间服从指数分布。

(2)构建决策树的分叉标准(splitting criteria)：采用纠正后不纯度的加权平均作为决策树的复合不纯度，公式如下：

其中分别代表根节点k₀的二值类因变量和生存时间类因变量的不纯度，a控制着每种类型因变量对复合分叉标准的相对贡献。

决策树中的复合信息增益可定义为：

IG＝(a)IG_norm，bin+(1-a)IG_norm，surv

决策树的每次分叉应保证此信息增益的最大化。最佳的权重a值可由训练数据的交叉验证选取。

决策树的输出如图(图6)所示。

(3)构建多重输出随机森林：如图(图7)所示，采用置回式取样方式生成多份同等样本量大小的数据，每份数据用于训练一棵上述的决策树，训练过程中使用3倍交叉验证(3-fold cross-validation)方法选取决策树分叉标准中的最佳权重值。决策树中每次分叉只考虑随机选取的约为总自变量数开1/2次方左右的特征。使用包外数据(oob)计算训练所得决策树的预测值，之后，随机森林用如下方式整合所有决策树的预测值，对于风险率预测：

对于反应率预测：

其中I_i，m＝1如果第i个样本属于第m个包外数据之中，I_i，m＝0如果第i个样本不属于第m个包外数据之中，H_m(t|x_i)和Pr_m(y|x_i)分别是使用第m个决策树所计算的第i个样本的风险率和反应率。

对于新样本的预测，如同包外数据的预测，只需整合已训练好决策树的预测值即可。

(4)对于自变量重要性的评估，本发明采用了置换检验(permutation test)的方法，流程如图(图7)所示。与预测的过程类似，自变量重要性评估过程中也需要将原始数据做置回式取样处理，决策树也经过同样的方式进行训练，不同的是，包外数据中的自变量在重要性评估中还会逐个被置换数据，然后计算预测值，置换后的预测值与未置换的预测值之差即代表此自变量的重要性。取各决策树的差值的平均值及方差

其中d_mj代表单个决策树所计算的关于j自变量的差值，M代表决策树的数量。最终的j自变量重要性可经标准方差纠正，计算为

此数值越大，表明自变量的重要性越高。

附图说明

图1是联合分析的示意图；

图2是联合分析与单终端结果分析在筛选生物标志物方面的示例。虚线代表可能的筛选阈值；

图3是一个决策分类树的示例；

图4是香农熵值与节点类别纯度或分类经验概率的关系的示意图；

图5是随机森林方法框架的示意图；

图6是本发明中复合决策树输出的示例，图中第一行展示的是分叉的选择，黑框圈中的是一个终点叶点的示例，输出的是一个列表，包含的分别是节点中各类别的出现频率、风险率和节点样本量大小；

图7是本发明中自变量筛选的流程图；

图8是复合决策树与单因变量分析决策树预测结果的比较，其中normWeight指代复合决策树的结果，single_surv或single_bin指代单因变量分析决策树的结果，图中每个点代表一个数据集的结果；

图9是多重输出随机森林与单因变量分析随机森林预测结果的比较，其中normW.surv.RF和normW.bin.RF指代多重输出随机森林的结果，single.surv.RF或single.bin.RF指代单因变量分析随机森林的结果，图中每个点代表一个数据集的结果；

图10是重要特征筛选的结果，上图是基于二值类因变量的结果，下图是基于生存时间因变量的结果，每个盒子图(boxplot)包括了30个模拟数据集的结果。

具体实施方式

以下结合模拟实验的具体实施案例对本发明作进一步详细说明。由于临床试验类的数据较难获取，这里将使用模拟生成的具有一定相关性的二值类和生存分析类数据做演示。

数据的模拟生成包括以下步骤：

1)设样本量大小n＝300，自变量个数p＝40，其中10个自变量是原因变量(causalvariables)；

2)设λ₀＝0.15，β₀＝-1，γ₁控制二值类自变量对风险率的影响，γ₁的大小可以自行决定；

3)生成服从标准正态分布的随机变量Z_i～N(0，1)，以此作为第i样本的自变量；

4)设二值类因变量的干扰自变量的系数矩阵β_(-0)和生存时间类因变量的干扰自变量的系数矩阵γ_(-1)为0，其他自变量的系数为1；

5)从以下逻辑斯蒂回归模型(logistic regression model)中模拟生成二值类因变量数据；

6)从中模拟生成生存时间随机变量，其中W_i是从均匀分布Unif(0，1)中模拟生成的随机变量，λ(t)由Cox比例风险模型模型(Cox proportional hazard model)生成：

7)独立生成删失时间(censoring time)。

本实施案例中使用不同的方法评估不同因变量预测的准确度。对于二值类因变量，使用AUC(area under the ROC curve，ROC曲线下的面积)，对于生存时间类因变量，采用C-index(concordance index，一致性指数)。两种方法所得值的值域均为[0，1]，0.5代表随机猜测，1代表完全准确的预测。

首先使用发明内容中所描述的复合决策树预测两类因变量。设γ₁＝-0.693(相当于风险比例hazard ratio＝0.5)，重复模拟生成30个数据集，每个数据集中随机选取20％作为测试集(testing dataset)，剩余80％数据用作模型训练。使用3倍交叉验证法选取分叉标准中的最佳权重，用测试集评估预测准确度。数据运算结果如图(图8)所示，联合分析的结果整体均优于单因变量预测的结果。

由于系数γ₁控制着因变量之间的相关性，使用不同的γ₁生成数据以模拟现实中的真实数据，并使用t检验方法计算本发明的复合决策树和单因变量决策树之间预测结果相差的显著性p-value。如下表所示，随着因变量之间相关性的增强(γ₁值越来越小)，两种类型因变量预测结果差值的显著性越强。

γ<sub>1</sub>	-0.357	-0.511	-0.693
				Pvalue<sub>C-index</sub>	0.116	0.085	0.024
Pvalue<sub>AUC</sub>	0.166	0.126	0.057

复合决策树虽然展示了相对更好的预测准确度，但是总体准确度尚待提高。本发明采用随机森林方法集合了众多相对独立的决策树，以此进一步优化预测结果。如发明内容中所述，随机森林中的决策树使用同等样本量大小的置回式取样样本训练，并且每次分叉中只考虑随机筛选的一部分自变量(约为总自变量数开1/2次方左右的自变量)。设γ₁＝-0.693，重复模拟生成30个数据集，每个数据集置回式取样100次，即需要训练100棵决策树，使用包外数据验证各树的预测准确度，结果如图(图9)所示，本发明的多重输出随机森林的预测准确度总体均优于单因变量随机森林。

为了显示多重输出随机森林预测的优势，我们计算了各模型对各类型因变量在相同30个独立模拟数据集上的平均预测准确度及标准方差，使用的模型包括单因变量决策树、复合决策树、单因变量随机森林和多重输出随机森林，结果如下表(括号内为标准方差)所示：联合分析方法均优于单因变量分析方法，随机森林方法的预测结果明显优于决策树，预测准确度最高的方法是联合分析的随机森林法，即本发明提出的多重输出随机森林法。各方法在预测结果的方差上并无明显区别。

为了验证本发明提出的技术方法在筛选重要特征上的功能，使用上述生成的模拟数据，按照发明内容中所述的自变量重要性评估的方法筛选原因变量(causal variable)，结果如图(图10)所示，模拟数据过程中所用到的10个原因变量均被正确的筛选出，无论此筛选方法是基于二值类还是生存时间类因变量预测的结果。

本发明实施采用的技术路线在重要自变量筛选上也具有一定的优势。为了证明此优势，我们模拟生成了三大组数据，每组数据中二值类因变量对生存时间因变量的效应值(effect size)不同，同时使用单因变量随机森林和本发明的联合分析随机森林(多重输出随机森林)法拟合这些数据，进行特征筛选，并用AUC值评估特征重要性筛选的结果。若AUC＝0.5则表示筛选的结果无异于随机猜测，若AUC＝1则表明所有重要的特征均被成功筛选。如下列表所示，不同效应值所生成的模拟数据中，联合分析筛选的准确度均优于单因变量分析方法，当效应值处于中间水平(效应值＝0.6)时，联合分析随机森林的筛选准确度明显好于单因变量随机森林方法。

效应值＝0.4	单因变量分析	联合分析
			基于二值类因变量预测	0.711	0.751
基于生存分析类因变量预测	0.810	0.810

效应值＝0.6	单因变量分析	联合分析
			基于二值类因变量预测	0.736	0.803
基于生存分析类因变量预测	0.850	0.895

效应值＝1	单因变量分析	联合分析
			基于二值类因变量预测	0.952	0.955
基于生存分析类因变量预测	0.961	0.981

模拟实验的测试结果显示，当因变量之间存在相关性时，本发明提出的多重输出随机森林方法相比单因变量分析随机森林法会有更高的预测准确度；如果此相关性处于中度水平时，使用多重输出随机森林法也可更准确的筛选出重要的自变量。

以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书、附图内容或实施的模拟实验方法或结果所作的调整或优化，均同理包括在本发明的专利保护范围内。

Claims

1.一种多重生存终端结果联合分析的方法，其特征在于五个环节，包括：

(1)构建节点复合分叉标准，以此整合二值类和生存时间类因变量的不纯度衡量方法；

(2)构建复合决策树，使用经根节点数据纠正的复合分叉标准，输出各类因变量的预测值；

(3)构建多重输出随机森林，采用置回式取样训练决策树和选取局部自变量分叉的方式，整合多棵相对独立的复合决策树，输出平均的预测风险率和反应率；

(4)使用置换检验和多重输出随机森林筛选重要的自变量；

(5)使用模拟实验比较验证使用多重输出随机森林的优势。

2.根据权利要求1所述的方法，其特征在于：节点复合分叉标准的构建中，使用负指数对数似然值作为二值类因变量的不纯度衡量法，公式如下：

其中k节点中发生阳性反应的样本数量所占比例可计算为反应概率使用负指数对数似然值作为生存时间类因变量的不纯度衡量法，公式如下：

其中风险率(hazard rate)和Y_k分别代表k节点中发生事件总数和观察时间总和。

3.根据权利要求1所述的方法，其特征在于：复合决策树分叉标准的构建中，采用纠正后不纯度的加权平均作为决策树的复合不纯度，公式如下：

其中分别代表根节点k₀的二值类因变量和生存时间类因变量的不纯度，最佳的权重a的值可经由训练数据的交叉验证选取，决策树中的复合分叉标准可定义为复合信息增益：

IG＝(a)IG_norm，bin+(1-a)IG_norm，surv

信息增益定义为两代节点之间的不纯度差值，复合决策树的每次分叉应保证复合信息增益的相对最大化。

4.根据权利要求1所述的方法，其特征在于：多重输出随机森林的构建中整合了多棵独立训练的复合决策树的预测结果，每棵决策树使用置回式取样所得数据训练，每次分叉只考虑随机选取的约为总自变量数开1/2次方左右的自变量，随机森林的输出为每一个测试样本的平均风险率和反应率。

5.根据权利要求1所述的方法，其特征在于：使用置换检验的方法处理待研究自变量，使用多重输出随机森林计算置换前和置换后两类因变量在包外数据中预测准确度发生的变化，此变化的平均值除以标准方差，所得数值作为待研究自变量的重要性评估结果。

6.根据权利要求1所述的方法，其特征在于：提出一个模拟数据生成的方法：从逻辑斯蒂回归模型中模拟生成二值类因变量数据，从中模拟生成生存时间随机变量，其中W_i是从均匀分布中模拟生成的随机变量，λ(t)由Cox比例风险模型模型生成：

其中系数γ₁控制二值类因变量对生存时间因变量的影响的大小，Z_i是自变量矩阵。

7.根据权利要求1所述的方法，其特征在于：利用模拟实验数据比较验证多重输出随机森林预测及重要自变量筛选的准确度，对比方法有单因变量分析决策树、单因变量分析随机森林、复合决策树和多重输出随机森林，评估方式依因变量类型而定：二值类因变量采用AUC，生存时间类因变量采用C-index。

8.根据权利要求1所述的方法，其特征在于：所述方法包括应用于临床试验的数据分析。