CN112735542B

CN112735542B - 基于临床试验数据的数据处理方法及系统

Info

Publication number: CN112735542B
Application number: CN202110064413.6A
Authority: CN
Inventors: 周晓华; 邓宇昊; 陆芳; 赵阳
Original assignee: XIYUAN HOSPITAL OF CHINA ACADEMY OF CHINESE MEDICAL SCIENCES; Peking University
Current assignee: XIYUAN HOSPITAL OF CHINA ACADEMY OF CHINESE MEDICAL SCIENCES; Peking University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2023-08-22
Anticipated expiration: 2041-01-18
Also published as: CN112735542A

Abstract

本发明涉及一种基于临床试验数据的数据处理方法，属于临床试验评估技术领域，解决了现有技术未充分消除人群异质性带来的偏差、且未充分利用数据提高推断精度的问题。该方法包括：获取临床试验中治疗组、对照组的数据样本；基于上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型；获取所述样本生存估计模型中与治疗效果相关的协变量，根据样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率；根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间。该方法获得的SACE的置信区间，可用于判断临床试验是否有效，推断结论准确。

Description

基于临床试验数据的数据处理方法及系统

技术领域

本发明涉及临床试验评估技术领域，尤其涉及一种基于临床试验数据的数据处理方法及系统。

背景技术

在随机化因果试验中，受试者被随机地分配到治疗组或对照组。对于一些耗费时间的试验，受试者未能完成随访是缺失数据的一个常见来源，而另一个“缺失”的来源是由试验设计造成的。

需要注意的是，缺失数据和死亡截断是两个不同的概念，缺失数据是指存在结局而未被观测到，与之相比，死亡截断个体的结局是没有定义的，因为结局变量只对那些存活的个体有定义。目前，现有技术尚未准确地衡量缺失数据和死亡截断，无法消除人群异质性带来的偏差，无法获得准确的治疗效果的评估。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于临床试验数据的数据处理方法及系统，用以解决现有技术未充分消除人群异质性带来的偏差、且未充分利用数据提高推断精度的问题。

一方面，本发明实施例提供了一种基于临床试验数据的数据处理方法，包括如下步骤：

通过数据采集模块获取临床试验中治疗组、对照组的数据样本；

处理模块根据数据采集模块获取的上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型；

处理模块获取所述样本生存估计模型中与治疗效果相关的协变量，根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率；

处理模块根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间；

结果模块根据上述置信区间，输出临床试验有效性的结果数据。

上述技术方案的有益效果如下：在临床试验中考虑了发生受试者中途死亡的情形，即死亡截断，考虑了多种协变量对结局的影响，为临床试验中存在受试者死亡的情形提供了通用的分析框架，使得可以利用试验数据同时分析主要结局(存活状态S)和次要结局(生活质量分级Y)，处理部分受试者死亡导致的选择偏差，通过同时对样本生存估计模型中主要结局(S)和次要结局(Y)进行分析，最终获得了存活组平均因果作用SACE的置信区间。该SACE的置信区间消除了人群异质性带来的偏差，能够用于准确的治疗效果(某种药物或者某种治疗过程)的评估。

基于上述方法的进一步改进，所述治疗组、对照组的数据样本都包括与治疗效果相关的协变量集合W、治疗处理状态Z、存活状态S、生活质量分级Y；其中，

协变量集合W包括：与生存状态不相关的混杂变量集合X，以及一个与生存状态相关的工具变量A；并且，

所述混杂变量集合X包括性别、年龄；

所述工具变量A为与疾病严重程度相关的变量。

上述进一步改进方案的有益效果是：用两种变量(混杂变量集合X和工具变量A)独立地刻画了临床试验中主要结局和次要结局的变化模式，其中，工具变量与生存状态有关，并且只能通过生存状态来影响生活质量分级，不能跳过生存状态影响生活质量分级，为识别出个体的存活模式提供了保证。混杂变量与生存状态无关。

进一步，W＝(X^T,A)，所述处理模块根据数据采集模块获取的上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型的步骤，包括：

建立处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果模型，作为样本生存估计模型一；

建立处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理，或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果模型，作为样本生存估计模型二；

建立具备协变量X、A的个体接受治疗处理能够存活的概率模型，作为样本生存估计模型三；

建立具备协变量X、A的个体不接受治疗处理也能存活的概率模型，作为样本生存估计模型四；

基于上述治疗组、对照组的数据样本，获得上述潜在结果对应的真实数据，进而确定样本生存估计模型一至四的待定参数，完成样本生存估计模型一至四的确定。

上述进一步改进方案的有益效果是：对受试者个体接受治疗和不接受治疗的潜在结果分别建模，能够刻画治疗作用具有异质性的情形。

进一步，样本生存估计模型一通过处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果期望M₁来表征

M₁＝h₀(a₀₀+X^Ta₀₁+Aa₀₂)

样本生存估计模型二通过处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理，或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果期望M₂来表征

M₂＝h₁(a₁₀+X^Ta₁₁+Ga₁₂)

样本生存估计模型三通过具备协变量X、A的个体接受治疗处理的潜在存活概率M₃来表征

M₃＝g₁(β₀+X^Tβ₁+Aβ₂)

样本生存估计模型四通过具备协变量X、A的个体不接受治疗处理的潜在存活概率与接受治疗处理的潜在存活概率之比M₄来表征

M₄＝g_0/1(γ₀+X^Tγ₁+Aγ₂)

式中，X^T为集合X对应的行向量；系数a₀₀、向量a₀₁、系数a₀₂为样本生存估计模型一的待定参数；系数a₁₀、向量a₁₁、系数a₁₂为样本生存估计模型二的待定参数；系数β₀、向量β₁、系数β₂为样本生存估计模型三的待定参数；系数γ₀、向量γ₁、系数γ₂为样本生存估计模型四的待定参数；向量a₀₁、a₁₁、β₁、γ₁均为列向量，且元素个数相等，都等于X的元素个数；h₀()、h₁()、g₁()、g_0/1()是用户自定义的单调连续函数；G＝1表示处于治疗组、对照组均能存活的具备协变量X、A的个体，G＝0表示处于治疗组存活、对照组死亡的具备协变量X、A的个体。

上述进一步改进方案的有益效果是：使用了比现有技术更广的函数族建模，把存活状态和潜在结果(如生活质量分级)联系起来，允许结局变量Y受协变量X、A的影响具有更复杂的形式。因此，模型更加准确。

进一步，所述基于上述治疗组、对照组的数据样本，获得上述潜在结果对应的真实数据，进而确定样本生存估计模型一至四的待定参数，完成样本生存估计模型一至四的确定，进一步包括：

基于上述M₃、M₄，对样本生存概率进行建模，确定个体处于存活状态的似然函数l

其中

W＝(X^T,A)^T

式中，()^T表示转置运算；i表示临床试验中第i个个体，W_i、Z_i、S_i分别表示第i个个体的协变量集合、治疗处理状态、存活状态，1_{}表示示性函数；

根据治疗组、对照组的数据样本，获得具备协变量X、A的个体接受治疗、不接收处理的实际存活概率，代入上述M₃、M₄中，并最大化上述任一试验个体处于存活状态的似然函数l，确定所述M₃、M₄的待定参数，完成样本生存估计模型三、四的确定；

根据治疗组、对照组的数据样本，获得治疗组的存活概率代替上述M₂中的G，根据下面两个等式中对应的真实数据确定M₁、M₂模型的待定参数，完成样本生存估计模型一、二的确定

其中

式中，Y_i为第i个存活个体的生活质量分级，h₀′()、h₁′()分别为h₀()、h₁()函数的导数。

上述进一步改进方案的有益效果是：通过极大似然估计方法保证了求得的样本生存估计模型一至四的待定参数具有良好的逼近真值的性质，即如果样本量足够大，待定参数的估计量近似等于真值，因此可以更加准确地确定模型待定参数。

进一步，所述h₀()、h₁()为恒等函数；同时，所述g₁()、g_0/1()满足

g₁(x)＝exp(x)/(1+exp(x))

g_0/1(x)＝exp(x)/(1+exp(x))

式中，x为自变量。

上述进一步改进方案的有益效果是：上述参数的计算模型较为简单，适用性强，计算复杂度低，且保证了存活概率在0和1之间，符合存活概率的定义。

进一步，所述处理模块将与治疗相关的协变量带入上述潜在结果下的样本生存估计模型中，获得存活个体在治疗方案下的潜在结果估计，以及任一个体处于存活状态的概率，进一步包括：

将W分别代入所述M₁、G＝1的M₂中，获得存活个体在治疗方案z下的潜在结果估计其中，/>表示协变量为W的个体不接受治疗的潜在结果，表示协变量为W的个体接受治疗的潜在结果，/>i表示第i个个体；

将X、A分别代入所述M₃、M₄中，获得任一个体属于存活状态的概率其中，/>表示协变量为W的个体不接受治疗能存活的概率，表示协变量为W的个体接受治疗能存活的概率，/>

上述进一步改进方案的有益效果是：把受试者个体按照存活概率分类，并且，上述样本生存估计模型包含了协变量对潜在结果的影响，可用于估计不同治疗方案对应的潜在结果，便于比较治疗方案和协变量对潜在结果产生的差异大小。

进一步，所述处理模块根据上述存活个体在治疗方案下的潜在结果估计，以及任一个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间，包括：

根据上述存活个体在治疗方案下的潜在结果估计，以及任一个体处于存活状态的概率，通过下面公式确定SACE的点估计Δ_LL

通过Delta方法，获得上述SACE的点估计Δ_LL的渐近方差var(Δ_LL)；

根据上述SACE点估计Δ_LL和渐近方差var(Δ_LL)，确定存活组的平均因果作用SACE的(1-ε)100％置信区间[L U]满足

L＝Δ_LL+z_ε/2[var(Δ_LL)]^1/2

U＝Δ_LL-z_ε/2[var(Δ_LL)]^1/2

式中，z_ε/2为标准正态分布的上ε/2分位数。

上述进一步改进方案的有益效果是：利用存活概率对潜在结果加权，能够有效地应对治疗组和对照组样本中受试者个体存活状态不平衡的情况，降低选择偏差。

进一步，所述基于上述SACE的置信区间，判断治疗方案是否有效，包括：

基于上述置信区间，判定是否满足下面不等式，如果满足，判定治疗方案有效；否则，判定治疗方案无效

L>0。

上述进一步改进方案的有益效果是：通过假设检验的方法来判断治疗方案是否有效，能够处理随机试验中的随机性问题，通过控制SACE的(1-ε)100％置信区间的阈值下限，确定评估方法的有效性。

另一方面，本发明实施例提供了一种基于临床试验数据的数据处理系统，包括：

数据采集模块，用于获取临床试验中治疗组、对照组的数据样本；

处理模块，用于基于上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型；以及，用于获取所述样本生存估计模型中与治疗效果相关的协变量，根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率；并且，根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间。

采用上述方案的有益效果是：在临床试验中考虑了发生受试者中途死亡的情形，即死亡截断，考虑了多种协变量对结局的影响，为临床试验中存在受试者死亡的情形提供了通用的分析框架，使得可以利用试验数据同时分析主要结局(存活状态S)和次要结局(生活质量分级Y)，处理部分受试者死亡导致的选择偏差，通过同时对样本生存估计模型中主要结局(S)和次要结局(Y)进行分析，最终获得了存活组平均因果作用SACE的置信区间。该SACE的置信区间消除了人群异质性带来的偏差，能够用于准确的治疗效果(某种药物或者某种治疗方案)的评估。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例1基于临床试验数据的数据处理方法步骤示意图；

图2为本发明实施例3基于临床试验数据的数据处理系统组成示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

在随机化临床试验中，除死亡结局之外，有时研究者还对存活者的生活质量水平感兴趣。在潜在结果框架下，只要个体能够存活，对个体施加治疗或不施加治疗都对应着一个潜在的生活质量水平结果。事实上，如果个体死亡，生活质量水平就是没有意义的了，因此，本发明需要把目标人群限制在无论治疗或不治疗都将存活的个体，只有这类型人群的两个生活质量水平潜在结果都是良定义的。

定义存活组平均因果作用(SACE)，用于表示如果个体存活，在目标治疗方案下其生活质量水平会提高多少。然而，由于试验中无法同时对单一个体施加治疗和不施加治疗，因此这两种潜在结果只能观察到其中一个。本发明提出了一些模型，用于估计存活组平均因果作用SACE，并且能够给出SACE的置信区间。利用前期先导试验的SACE的区间估计，可用于计算后续试验的样本量，从而征集足够多的受试者，使得后续试验达到一定功效。

实施例1

本发明的一个具体实施例，公开了一种基于临床试验数据的数据处理方法，如图1所示，包括如下步骤：

S1.获取临床试验中治疗组、对照组的数据样本。

其中，临床试验的数据样本量为2n，治疗组和对照组的数据样本量分别为n。治疗组的数据样本为某治疗方案(包括药物或治疗手段或治疗过程，标记为z)对应的数据样本，对照组的数据样本为仅给予安慰剂或管控措施对应的数据样本。

S2.基于上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型。所述样本生存估计模型包括协变量为W的个体不接受治疗的潜在结果模型、协变量为W的个体接受治疗的潜在结果模型、协变量为W的个体接受治疗能存活的概率模型，协变量为W的个体不接受治疗能存活的概率模型。

S3.获取所述样本生存估计模型中与治疗效果相关的协变量，根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率；

S4.根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间；

S5.根据上述置信区间，输出临床试验有效性的结果数据。

实施时，把协变量分为混杂变量和工具变量，通过治疗组、对照组的数据样本估计样本生存估计模型中的参数，再利用估计好的样本生存估计模型求得平均因果作用SACE，计算置信区间。

与现有技术相比，本实施例提供的方法在临床试验中考虑了发生受试者中途死亡的情形，即死亡截断，考虑了多种协变量对结局的影响，为临床试验中存在受试者死亡的情形提供了通用的分析框架，使得可以利用试验数据同时分析主要结局(存活状态S)和次要结局(生活质量分级Y)，处理部分受试者死亡导致的选择偏差，通过同时对样本生存估计模型中主要结局(S)和次要结局(Y)进行分析，最终获得了存活组平均因果作用SACE的置信区间。该SACE的置信区间消除了人群异质性带来的偏差，能够用于准确的治疗效果(某种药物或者某种治疗方案)的评估。

实施例2

在实施例1方法的基础上进行优化，所述治疗组、对照组的数据样本都包括与治疗效果相关的协变量集合W、治疗处理状态Z、存活状态S、生活质量分级Y。

治疗处理状态Z为0表示不治疗，个体处于对照组，1表示实施治疗方案z的治疗，个体处于治疗组。

存活状态S为0表示死亡，1表示存活。

处理效果Y或称生活质量分级Y可根据需求设置，例如0表示无影响，1表示轻微影响，2表示严重受到影响。

用Y(Z)和S(Z)表示在治疗处理状态Z的潜在结果和潜在生存状态。事实上，在试验中，S(0)和S(1)只能观察到其中一个，因为只能给个体施加唯一的一种治疗方案；只有当观察到的S(Z)等于1，我们才能观察到响应的Y(Z)，但不能观察到Y(1-Z)。为了因果作用的识别性，假定S(1)≥S(0)，医疗组存活效果一定好于对照组，称之为本发明的单调性假设。因此，DL类型不存在，只剩下3种类型。事实上，由于潜在结果的特性，上述假设不会被观测数据所否定。

试验个体共有4种类型，见表1。其中，LL表示无论是否处理(处于治疗组或对照组)都会存活的个体；LD表示在处于治疗组会存活、对照组会死亡的个体；DL表示处于治疗组会死亡、对照组会存活的个体；DD表示处于治疗组和对照组都会死亡的个体。我们只对永远存活组LL组感兴趣，因为只有LL组的潜在结果是有定义的：如果个体已经死亡，那么再讨论潜在结果(生活质量水平Y，或称治疗效果Y)没有意义。

表1试验个体分类

协变量集合W包括：与生存状态不相关的混杂变量集合X，以及一个与生存状态相关的工具变量A。

混杂变量对治疗方案的分配对治疗处理状态Z、存活状态S、生活质量水平Y可能都会有影响。优选地，混杂变量集合X包括性别、年龄等。

工具变量A只能通过影响存活状态S来影响生活质量水平Y，而不能绕过存活状态S直接影响生活质量水平Y。优选地，工具变量A为与疾病严重程度相关的变量，例如，试验开始时的生活质量分级(可用得分表示)，或试验开始时是否患有高风险疾病(0/1变量)。

为了SACE的可识别性，制定以下假设：

a.单调性：S(1)≥S(0)几乎必然成立，且存活概率P(S(0)＝0|W)＞0。即，就存活而言，治疗组Z＝1的结果一定比对照组Z＝0的结果好，并且，试验中确实存在个体死亡的情况。

b.随机单调性：0≤ρ(W)≤1，其中

已知。假设b比假设a更加宽松，只需要医疗组的结果随机地比对照组的结果好(对于每一个个体，医疗处理未必比不处理只控制好，但对于人群整体，医疗处理能降低整体死亡率)。

c.S-可忽略性：对Z＝0或1，Z⊥S(Z)|W。即在给定了协变量之后，治疗方案z和存活状态S之间没有未被观测的混杂变量。只要是随机化试验，假设c都成立。

d.Y-可忽略性：对Z＝0或1，Z⊥Y(Z)|W,G。即在给定了协变量以及个体所处类型之后，治疗方案z和表示结局的生活质量水平Y之间再没有未被观测的混杂变量。只要是随机化试验，假设d都成立。

e.排他性约束1：A⊥Y(1)|Z＝1,G,X＝x。即在医疗组中，如果给定协变量和个体所处类型，变量A和结局就是独立的。换句话说，变量A只能通过Z来影响Y，而不能跨过Z直接影响Y。

f.排他性约束2：A⊥Y(0)|Z＝1,G,X＝x。即在对照组中，如果给定协变量和个体所处类型，变量A和结局就是独立的。换句话说，变量A只能通过Z来影响Y，而不能跨过Z直接影响Y。

g.替代相关性1：A/⊥G|Z＝1,S＝1,X＝x。即在医疗组中，变量A和个体所处类型是相关的，也就是变量A包含了关于个体所处类型的信息，通过观察A，能识别出个体应该属于哪一种类型。

h.替代相关性2：A/⊥G|Z＝0,S＝1,X＝x。即在对照组中，变量A和个体所处类型是相关的，也就是变量A包含了关于个体所处类型的信息，通过观察A，能识别出个体应该属于哪一种类型。

排他性约束和替代相关性假设的含义是，A和S相关但和不相关，是S的工具变量。在假设a,c-t,g或b-h条件下，SACE是可识别的。

优选地，步骤S2进一步细化为：

S21.建立处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果模型，作为样本生存估计模型一；

S22.建立处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理两种情况的(共同)潜在结果模型，作为样本生存估计模型二；

S23.建立具备协变量X、A的个体接受治疗处理能够存活的概率模型，作为样本生存估计模型三；

S24.建立具备协变量X、A的个体不接受治疗处理也能存活的概率模型，作为样本生存估计模型四；

S25.基于上述治疗组、对照组的数据样本，获得上述潜在结果对应的真实数据，进而确定样本生存估计模型一至四的待定参数，完成样本生存估计模型一至四的确定。

样本生存估计模型一通过处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果期望M₁来表征

M₁＝h₀(a₀₀+X^Ta₀₁+Aa₀₂) (1)

M₁的待确定参数为

M₂＝h₁(a₁₀+X^Ta₁₁+Ga₁₂) (3)

M₂的待确定参数为

M₃＝g₁(β₀+X^Tβ₁+Aβ₂) (5)

M₃的待确定参数为

M₄＝g_0/1(γ₀+X^Tγ₁+Aγ₂) (7)

M₄的待确定参数为

式中，h₀()、h₁()、g₁()、g_0/1()是用户自定义的单调连续函数；G＝1表示处于治疗组、对照组均能存活的具备协变量X、A的个体，G＝0表示处于治疗组存活、对照组死亡的具备协变量X、A的个体。列向量a₀₁、a₁₁、β₁、γ₁的元素个数取决于混杂变量集合X的元素个数。

借助M₃和M₄，考虑了随机化临床试验中发生受试者死亡对统计分析造成的影响，按照受试者接受治疗是否存活、不接受治疗是否存活把人群分类，可以根据受试者的协变量特征，判断出受试者接受治疗或不接受治疗分别对应的存活概率。

借助模型M₁和M₂，对受试者接受治疗的潜在结果和不接受治疗的潜在结果分别建模，允许治疗作用关于协变量W的变化是非可加的形式，因此模型更具一般性。

优选地，步骤S24，进一步细化为：

S241.基于上述M₃、M₄，对样本生存概率进行建模，确定个体处于存活状态的似然函数l

其中

W＝(X^T,A)^T

式中，()^T表示转置运算；i表示临床试验中第i个个体，W_i、Z_i、S_i分别表示第i个个体的协变量集合、治疗处理状态、存活状态；1_{}表示示性函数，其下角标事件发生时为1，否则为0。

S242.根据治疗组、对照组的数据样本，获得具备协变量X、A的个体接受治疗、不接收处理的实际存活概率，代入上述M₃、M₄中，并最大化上述任一试验个体处于存活状态的似然函数l，确定所述M₃、M₄的待定参数，完成样本生存估计模型三、四的确定；

S243.根据治疗组、对照组的数据样本，获得治疗组的存活概率代替上述M₂中的G，根据下面两个等式中对应的真实数据确定M₁、M₂模型的待定参数，完成样本生存估计模型一、二的确定

其中

式中，Y_i为第i个存活个体的生活质量分级(生活质量分级评分)，h₀′()、h₁′()分别为h₀()、h₁()函数的导数。

优选地，所述h₀()、h₁()为恒等函数；同时，所述g₁()、g_0/1()满足

g₁(x)＝exp(x)/(1+exp(x))

g_0/1(x)＝exp(x)/(1+exp(x)) (11)

式中，x为自变量。

优选地，步骤S3进一步包括：

S31.将W分别代入所述M₁、G＝1的M₂中，获得存活个体在治疗方案z下的潜在结果估计其中，/>表示协变量为W的个体不接受治疗的潜在结果，表示协变量为W的个体接受治疗的潜在结果，/>

S32.将X、A分别代入所述M₃、M₄中，获得任一个体属于存活状态的概率其中，/>表示协变量为W的个体接受治疗能存活的概率，表示协变量为W的个体接受治疗能存活的概率，/>i表示第i个个体。

优选地，步骤S4进一步细化为：

S41.根据上述存活个体在治疗方案下的潜在结果估计，以及任一个体处于存活状态的概率，通过下面公式确定SACE的点估计Δ_LL

S42.通过Delta方法，获得上述SACE的点估计Δ_LL的渐近方差var(Δ_LL)；具体地，渐近方差var(Δ_LL)可以通过R软件包“tbd”实现。

通过上述方法获得的渐近方差var(Δ_LL)比自采样方法得到的方差估计更精确。渐近方差的估计可以用来构造SACE的置信区间，由于自采样涉及大量重复估计，因此上述获取渐近方差var(Δ_LL)的方法可以更快地得到SACE的置信区间，这是本实施例方法的优势所在。

S43.根据上述SACE点估计Δ_LL和渐近方差var(Δ_LL)，确定存活组的平均因果作用SACE的(1-ε)100％置信区间[L U]满足

U＝Δ_LL+z_ε/2[var(Δ_LL)]^1/2

L＝Δ_LL-z_ε/2[var(Δ_LL)]^1/2 (13)

式中，z_ε/2为标准正态分布的上ε/2分位数，可通过查阅标准正态分布分位数表得到，也可以通过程序计算，在实践中，通常取ε＝0.05。

上述置信区间(区间估计)代表了治疗方案z对于存活组个体生活质量水平Y的提高程度。

优选地，该方法还包括步骤S5：

S5.基于上述SACE的置信区间，判断治疗方案是否有效。

步骤S5进一步包括：

L>0 (14)

如果满足上述判定条件，则说明治疗方案z能够显著改善生活质量水平。

与实施例1相比，本实施例提供的方法把存活状态和生活质量水平分别作为因变量，能够处理受试者个体死亡造成的选择偏差，通过对人群分类，识别出有实际意义的因果作用，基于假设检验的方法判定治疗方案z的有效性，处理随机化临床试验中的数据随机性。对于随机化临床试验，可以更精确地处理发生受试者死亡事件的统计分析，通过定义存活组平均因果作用SACE，给出了衡量治疗方案对于生活质量水平有效性的评价指标，这一指标在理论上和实践中都是有意义的。通过寻找存活组平均因果作用估计量的方差，提出了估计SACE置信区间的方法，进而可以判定治疗方案是否有效。提出了有意义的因果作用参数，消除了受试者死亡引发的选择偏差问题，用本实施例公开的方法判定治疗方案的有效性更加合理。当推导渐近方差的时候，忽略了高阶无穷小量，这可能会产生一些偏差，但模拟结果表明，这些偏差是可以接受的。如果样本量较大，偏差会很小。本实施例公开的方法比现有的基于自采样的方法计算速度更快，偏差更小。

实施例3

本发明还提供了一种与实施例1、2对应的数据处理系统，包括依次连接的数据采集模块、处理模块、结果模块，如图2所示。

数据采集模块，用于获取临床试验中治疗组、对照组的数据样本。

处理模块，用于基于上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型；以及获取所述样本生存估计模型中与治疗效果相关的协变量，根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率；并且，根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间。

结果模块，用于基于上述SACE的置信区间，判断治疗方案是否有效，并将获得的临床试验有效性的结果数据输出。

优选地，处理模块进一步包括样本生存估计模型建立模块、平均因果确定模块。

样本生存估计模型建立模块，用于基于上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型；以及获取所述样本生存估计模型中与治疗效果相关的协变量，根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率；

平均因果确定模块，用于根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于临床试验数据的数据处理方法，其特征在于，包括如下步骤：

通过数据采集模块获取临床试验中治疗组、对照组的数据样本，所述治疗组、对照组的数据样本都包括与治疗效果相关的协变量集合W、治疗处理状态Z、存活状态S、生活质量分级Y；其中，协变量集合W包括：与生存状态不相关的混杂变量集合X，以及一个与生存状态相关的工具变量A；并且，所述混杂变量集合X包括性别、年龄；所述工具变量A为与疾病严重程度相关的变量；

处理模块根据数据采集模块获取的上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型，包括：

建立处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果模型，作为样本生存估计模型一，样本生存估计模型一通过处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果期望M₁来表征：

M₁＝h₀(a₀₀+X^Ta₀₁+Aa₀₂)；

建立处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理，或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果模型，作为样本生存估计模型二，样本生存估计模型二通过处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理，或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果期望M₂来表征：

M₂＝h₁(a₁₀+X^Ta₁₁+Ga₁₂)；

建立具备协变量X、A的个体接受治疗处理能够存活的概率模型，作为样本生存估计模型三，样本生存估计模型三通过具备协变量X、A的个体接受治疗处理的潜在存活概率M₃来表征：

M₃＝g₁(β₀+X^Tβ₁+Aβ₂)；

建立具备协变量X、A的个体不接受治疗处理也能存活的概率模型，作为样本生存估计模型四，样本生存估计模型四通过具备协变量X、A的个体不接受治疗处理的潜在存活概率与接受治疗处理的潜在存活概率之比M₄来表征：

M₄＝g_0/1(γ₀+X^Tγ₁+Aγ₂)；

式中，X^T为集合X对应的行向量；a₀₀、向量a₀₁、a₀₂为样本生存估计模型一的待定参数；a₁₀、向量a₁₁、a₁₂为样本生存估计模型二的待定参数；β₀、向量β₁、β₂为样本生存估计模型三的待定参数；γ₀、向量γ₁、γ₂为样本生存估计模型四的待定参数；向量a₀₁、a₁₁、β₁、γ₁均为列向量，且元素个数相等，都等于X的元素个数；h₀()、h₁()、g₁()、g_0/1()是用户自定义的单调连续函数；G＝1表示处于治疗组、对照组均能存活的具备协变量X、A的个体，G＝0表示处于治疗组存活、对照组死亡的具备协变量X、A的个体；

基于上述治疗组、对照组的数据样本，获得上述潜在结果对应的真实数据，进而确定样本生存估计模型一至四的待定参数，完成样本生存估计模型一至四的确定，包括基于上述M₃、M₄，对样本生存概率进行建模，确定个体处于存活状态的似然函数l

其中

W＝(X^T,A)^T

根据治疗组、对照组的数据样本，获得治疗组的存活概率代替上述M₂中的G，根据下面两个等式中的结局确定M₁、M₂模型的待定参数，完成样本生存估计模型一、二的确定

其中

式中，Y_i为存活个体的生活质量分级，h₀′()、h₁′()分别为h₀()、h₁()函数的导数，所述h₀()、h₁()为恒等函数；同时，所述g₁()、g_0/1()满足

g₁(x)＝exp(x)/(1+exp(x))

g_0/1(x)＝exp(x)/(1+exp(x))

式中，x为自变量；

处理模块获取所述样本生存估计模型中与治疗效果相关的协变量，根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，包括：

将W分别代入所述M₁、G＝1的M₂中，获得存活个体在治疗方案下的潜在结果估计其中，/>表示协变量为W的个体不接受治疗的潜在结果，表示协变量为W的个体接受治疗的潜在结果，/>

将X、A分别代入所述M₃、M₄中，获得任一个体属于存活状态的概率其中，/>表示协变量为W的个体接受治疗能存活的概率，表示协变量为W的个体接受治疗能存活的概率，/>

处理模块根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间，包括：

根据上述SACE点估计Δ_LL和渐近方差var(Δ_LL)，确定存活组的平均因果作用SACE的(1-ε)100％置信区间[LU]满足

L＝Δ_LL+z_ε/2[var(Δ_LL)]^1/2

U＝Δ_LL-z_ε/2[var(Δ_LL)]^1/2

式中，z_ε/2为标准正态分布的上ε/2分位数；

L>0；

2.一种用于实现权利要求1所述数据处理方法的临床试验数据的数据处理系统，其特征在于，包括：

处理模块，用于基于上述治疗组、对照组的数据样本，确定潜在治疗结果下的样本生存估计模型；以及，获取所述样本生存估计模型中与治疗效果相关的协变量，根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率；并且，根据上述存活个体在治疗方案下的潜在结果估计，以及个体处于存活状态的概率，确定存活组的平均因果作用SACE的置信区间；

结果模块，用于根据上述置信区间，输出临床试验有效性的结果数据。