CN112735542B - 基于临床试验数据的数据处理方法及系统 - Google Patents
基于临床试验数据的数据处理方法及系统 Download PDFInfo
- Publication number
- CN112735542B CN112735542B CN202110064413.6A CN202110064413A CN112735542B CN 112735542 B CN112735542 B CN 112735542B CN 202110064413 A CN202110064413 A CN 202110064413A CN 112735542 B CN112735542 B CN 112735542B
- Authority
- CN
- China
- Prior art keywords
- treatment
- survival
- individual
- covariates
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 46
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000011282 treatment Methods 0.000 claims abstract description 192
- 230000004083 survival effect Effects 0.000 claims abstract description 172
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000001364 causal effect Effects 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 20
- 238000011269 treatment regimen Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 15
- 230000001225 therapeutic effect Effects 0.000 claims description 13
- 201000010099 disease Diseases 0.000 claims description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 4
- 230000005251 gamma ray Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000001558 permutation test Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000902 placebo Substances 0.000 description 1
- 229940068196 placebo Drugs 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000036299 sexual function Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于临床试验数据的数据处理方法,属于临床试验评估技术领域,解决了现有技术未充分消除人群异质性带来的偏差、且未充分利用数据提高推断精度的问题。该方法包括:获取临床试验中治疗组、对照组的数据样本;基于上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型;获取所述样本生存估计模型中与治疗效果相关的协变量,根据样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率;根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间。该方法获得的SACE的置信区间,可用于判断临床试验是否有效,推断结论准确。
Description
技术领域
本发明涉及临床试验评估技术领域,尤其涉及一种基于临床试验数据的数据处理方法及系统。
背景技术
在随机化因果试验中,受试者被随机地分配到治疗组或对照组。对于一些耗费时间的试验,受试者未能完成随访是缺失数据的一个常见来源,而另一个“缺失”的来源是由试验设计造成的。
需要注意的是,缺失数据和死亡截断是两个不同的概念,缺失数据是指存在结局而未被观测到,与之相比,死亡截断个体的结局是没有定义的,因为结局变量只对那些存活的个体有定义。目前,现有技术尚未准确地衡量缺失数据和死亡截断,无法消除人群异质性带来的偏差,无法获得准确的治疗效果的评估。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于临床试验数据的数据处理方法及系统,用以解决现有技术未充分消除人群异质性带来的偏差、且未充分利用数据提高推断精度的问题。
一方面,本发明实施例提供了一种基于临床试验数据的数据处理方法,包括如下步骤:
通过数据采集模块获取临床试验中治疗组、对照组的数据样本;
处理模块根据数据采集模块获取的上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型;
处理模块获取所述样本生存估计模型中与治疗效果相关的协变量,根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率;
处理模块根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间;
结果模块根据上述置信区间,输出临床试验有效性的结果数据。
上述技术方案的有益效果如下:在临床试验中考虑了发生受试者中途死亡的情形,即死亡截断,考虑了多种协变量对结局的影响,为临床试验中存在受试者死亡的情形提供了通用的分析框架,使得可以利用试验数据同时分析主要结局(存活状态S)和次要结局(生活质量分级Y),处理部分受试者死亡导致的选择偏差,通过同时对样本生存估计模型中主要结局(S)和次要结局(Y)进行分析,最终获得了存活组平均因果作用SACE的置信区间。该SACE的置信区间消除了人群异质性带来的偏差,能够用于准确的治疗效果(某种药物或者某种治疗过程)的评估。
基于上述方法的进一步改进,所述治疗组、对照组的数据样本都包括与治疗效果相关的协变量集合W、治疗处理状态Z、存活状态S、生活质量分级Y;其中,
协变量集合W包括:与生存状态不相关的混杂变量集合X,以及一个与生存状态相关的工具变量A;并且,
所述混杂变量集合X包括性别、年龄;
所述工具变量A为与疾病严重程度相关的变量。
上述进一步改进方案的有益效果是:用两种变量(混杂变量集合X和工具变量A)独立地刻画了临床试验中主要结局和次要结局的变化模式,其中,工具变量与生存状态有关,并且只能通过生存状态来影响生活质量分级,不能跳过生存状态影响生活质量分级,为识别出个体的存活模式提供了保证。混杂变量与生存状态无关。
进一步,W=(XT,A),所述处理模块根据数据采集模块获取的上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型的步骤,包括:
建立处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果模型,作为样本生存估计模型一;
建立处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理,或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果模型,作为样本生存估计模型二;
建立具备协变量X、A的个体接受治疗处理能够存活的概率模型,作为样本生存估计模型三;
建立具备协变量X、A的个体不接受治疗处理也能存活的概率模型,作为样本生存估计模型四;
基于上述治疗组、对照组的数据样本,获得上述潜在结果对应的真实数据,进而确定样本生存估计模型一至四的待定参数,完成样本生存估计模型一至四的确定。
上述进一步改进方案的有益效果是:对受试者个体接受治疗和不接受治疗的潜在结果分别建模,能够刻画治疗作用具有异质性的情形。
进一步,样本生存估计模型一通过处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果期望M1来表征
M1=h0(a00+XTa01+Aa02)
样本生存估计模型二通过处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理,或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果期望M2来表征
M2=h1(a10+XTa11+Ga12)
样本生存估计模型三通过具备协变量X、A的个体接受治疗处理的潜在存活概率M3来表征
M3=g1(β0+XTβ1+Aβ2)
样本生存估计模型四通过具备协变量X、A的个体不接受治疗处理的潜在存活概率与接受治疗处理的潜在存活概率之比M4来表征
M4=g0/1(γ0+XTγ1+Aγ2)
式中,XT为集合X对应的行向量;系数a00、向量a01、系数a02为样本生存估计模型一的待定参数;系数a10、向量a11、系数a12为样本生存估计模型二的待定参数;系数β0、向量β1、系数β2为样本生存估计模型三的待定参数;系数γ0、向量γ1、系数γ2为样本生存估计模型四的待定参数;向量a01、a11、β1、γ1均为列向量,且元素个数相等,都等于X的元素个数;h0()、h1()、g1()、g0/1()是用户自定义的单调连续函数;G=1表示处于治疗组、对照组均能存活的具备协变量X、A的个体,G=0表示处于治疗组存活、对照组死亡的具备协变量X、A的个体。
上述进一步改进方案的有益效果是:使用了比现有技术更广的函数族建模,把存活状态和潜在结果(如生活质量分级)联系起来,允许结局变量Y受协变量X、A的影响具有更复杂的形式。因此,模型更加准确。
进一步,所述基于上述治疗组、对照组的数据样本,获得上述潜在结果对应的真实数据,进而确定样本生存估计模型一至四的待定参数,完成样本生存估计模型一至四的确定,进一步包括:
基于上述M3、M4,对样本生存概率进行建模,确定个体处于存活状态的似然函数l
其中
W=(XT,A)T
式中,()T表示转置运算;i表示临床试验中第i个个体,Wi、Zi、Si分别表示第i个个体的协变量集合、治疗处理状态、存活状态,1{}表示示性函数;
根据治疗组、对照组的数据样本,获得具备协变量X、A的个体接受治疗、不接收处理的实际存活概率,代入上述M3、M4中,并最大化上述任一试验个体处于存活状态的似然函数l,确定所述M3、M4的待定参数,完成样本生存估计模型三、四的确定;
根据治疗组、对照组的数据样本,获得治疗组的存活概率代替上述M2中的G,根据下面两个等式中对应的真实数据确定M1、M2模型的待定参数,完成样本生存估计模型一、二的确定
其中
式中,Yi为第i个存活个体的生活质量分级,h0′()、h1′()分别为h0()、h1()函数的导数。
上述进一步改进方案的有益效果是:通过极大似然估计方法保证了求得的样本生存估计模型一至四的待定参数具有良好的逼近真值的性质,即如果样本量足够大,待定参数的估计量近似等于真值,因此可以更加准确地确定模型待定参数。
进一步,所述h0()、h1()为恒等函数;同时,所述g1()、g0/1()满足
g1(x)=exp(x)/(1+exp(x))
g0/1(x)=exp(x)/(1+exp(x))
式中,x为自变量。
上述进一步改进方案的有益效果是:上述参数的计算模型较为简单,适用性强,计算复杂度低,且保证了存活概率在0和1之间,符合存活概率的定义。
进一步,所述处理模块将与治疗相关的协变量带入上述潜在结果下的样本生存估计模型中,获得存活个体在治疗方案下的潜在结果估计,以及任一个体处于存活状态的概率,进一步包括:
将W分别代入所述M1、G=1的M2中,获得存活个体在治疗方案z下的潜在结果估计其中,/>表示协变量为W的个体不接受治疗的潜在结果,表示协变量为W的个体接受治疗的潜在结果,/>i表示第i个个体;
将X、A分别代入所述M3、M4中,获得任一个体属于存活状态的概率其中,/>表示协变量为W的个体不接受治疗能存活的概率,表示协变量为W的个体接受治疗能存活的概率,/>
上述进一步改进方案的有益效果是:把受试者个体按照存活概率分类,并且,上述样本生存估计模型包含了协变量对潜在结果的影响,可用于估计不同治疗方案对应的潜在结果,便于比较治疗方案和协变量对潜在结果产生的差异大小。
进一步,所述处理模块根据上述存活个体在治疗方案下的潜在结果估计,以及任一个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间,包括:
根据上述存活个体在治疗方案下的潜在结果估计,以及任一个体处于存活状态的概率,通过下面公式确定SACE的点估计ΔLL
通过Delta方法,获得上述SACE的点估计ΔLL的渐近方差var(ΔLL);
根据上述SACE点估计ΔLL和渐近方差var(ΔLL),确定存活组的平均因果作用SACE的(1-ε)100%置信区间[L U]满足
L=ΔLL+zε/2[var(ΔLL)]1/2
U=ΔLL-zε/2[var(ΔLL)]1/2
式中,zε/2为标准正态分布的上ε/2分位数。
上述进一步改进方案的有益效果是:利用存活概率对潜在结果加权,能够有效地应对治疗组和对照组样本中受试者个体存活状态不平衡的情况,降低选择偏差。
进一步,所述基于上述SACE的置信区间,判断治疗方案是否有效,包括:
基于上述置信区间,判定是否满足下面不等式,如果满足,判定治疗方案有效;否则,判定治疗方案无效
L>0。
上述进一步改进方案的有益效果是:通过假设检验的方法来判断治疗方案是否有效,能够处理随机试验中的随机性问题,通过控制SACE的(1-ε)100%置信区间的阈值下限,确定评估方法的有效性。
另一方面,本发明实施例提供了一种基于临床试验数据的数据处理系统,包括:
数据采集模块,用于获取临床试验中治疗组、对照组的数据样本;
处理模块,用于基于上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型;以及,用于获取所述样本生存估计模型中与治疗效果相关的协变量,根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率;并且,根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间。
采用上述方案的有益效果是:在临床试验中考虑了发生受试者中途死亡的情形,即死亡截断,考虑了多种协变量对结局的影响,为临床试验中存在受试者死亡的情形提供了通用的分析框架,使得可以利用试验数据同时分析主要结局(存活状态S)和次要结局(生活质量分级Y),处理部分受试者死亡导致的选择偏差,通过同时对样本生存估计模型中主要结局(S)和次要结局(Y)进行分析,最终获得了存活组平均因果作用SACE的置信区间。该SACE的置信区间消除了人群异质性带来的偏差,能够用于准确的治疗效果(某种药物或者某种治疗方案)的评估。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例1基于临床试验数据的数据处理方法步骤示意图;
图2为本发明实施例3基于临床试验数据的数据处理系统组成示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
在随机化临床试验中,除死亡结局之外,有时研究者还对存活者的生活质量水平感兴趣。在潜在结果框架下,只要个体能够存活,对个体施加治疗或不施加治疗都对应着一个潜在的生活质量水平结果。事实上,如果个体死亡,生活质量水平就是没有意义的了,因此,本发明需要把目标人群限制在无论治疗或不治疗都将存活的个体,只有这类型人群的两个生活质量水平潜在结果都是良定义的。
定义存活组平均因果作用(SACE),用于表示如果个体存活,在目标治疗方案下其生活质量水平会提高多少。然而,由于试验中无法同时对单一个体施加治疗和不施加治疗,因此这两种潜在结果只能观察到其中一个。本发明提出了一些模型,用于估计存活组平均因果作用SACE,并且能够给出SACE的置信区间。利用前期先导试验的SACE的区间估计,可用于计算后续试验的样本量,从而征集足够多的受试者,使得后续试验达到一定功效。
实施例1
本发明的一个具体实施例,公开了一种基于临床试验数据的数据处理方法,如图1所示,包括如下步骤:
S1.获取临床试验中治疗组、对照组的数据样本。
其中,临床试验的数据样本量为2n,治疗组和对照组的数据样本量分别为n。治疗组的数据样本为某治疗方案(包括药物或治疗手段或治疗过程,标记为z)对应的数据样本,对照组的数据样本为仅给予安慰剂或管控措施对应的数据样本。
S2.基于上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型。所述样本生存估计模型包括协变量为W的个体不接受治疗的潜在结果模型、协变量为W的个体接受治疗的潜在结果模型、协变量为W的个体接受治疗能存活的概率模型,协变量为W的个体不接受治疗能存活的概率模型。
S3.获取所述样本生存估计模型中与治疗效果相关的协变量,根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率;
S4.根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间;
S5.根据上述置信区间,输出临床试验有效性的结果数据。
实施时,把协变量分为混杂变量和工具变量,通过治疗组、对照组的数据样本估计样本生存估计模型中的参数,再利用估计好的样本生存估计模型求得平均因果作用SACE,计算置信区间。
与现有技术相比,本实施例提供的方法在临床试验中考虑了发生受试者中途死亡的情形,即死亡截断,考虑了多种协变量对结局的影响,为临床试验中存在受试者死亡的情形提供了通用的分析框架,使得可以利用试验数据同时分析主要结局(存活状态S)和次要结局(生活质量分级Y),处理部分受试者死亡导致的选择偏差,通过同时对样本生存估计模型中主要结局(S)和次要结局(Y)进行分析,最终获得了存活组平均因果作用SACE的置信区间。该SACE的置信区间消除了人群异质性带来的偏差,能够用于准确的治疗效果(某种药物或者某种治疗方案)的评估。
实施例2
在实施例1方法的基础上进行优化,所述治疗组、对照组的数据样本都包括与治疗效果相关的协变量集合W、治疗处理状态Z、存活状态S、生活质量分级Y。
治疗处理状态Z为0表示不治疗,个体处于对照组,1表示实施治疗方案z的治疗,个体处于治疗组。
存活状态S为0表示死亡,1表示存活。
处理效果Y或称生活质量分级Y可根据需求设置,例如0表示无影响,1表示轻微影响,2表示严重受到影响。
用Y(Z)和S(Z)表示在治疗处理状态Z的潜在结果和潜在生存状态。事实上,在试验中,S(0)和S(1)只能观察到其中一个,因为只能给个体施加唯一的一种治疗方案;只有当观察到的S(Z)等于1,我们才能观察到响应的Y(Z),但不能观察到Y(1-Z)。为了因果作用的识别性,假定S(1)≥S(0),医疗组存活效果一定好于对照组,称之为本发明的单调性假设。因此,DL类型不存在,只剩下3种类型。事实上,由于潜在结果的特性,上述假设不会被观测数据所否定。
试验个体共有4种类型,见表1。其中,LL表示无论是否处理(处于治疗组或对照组)都会存活的个体;LD表示在处于治疗组会存活、对照组会死亡的个体;DL表示处于治疗组会死亡、对照组会存活的个体;DD表示处于治疗组和对照组都会死亡的个体。我们只对永远存活组LL组感兴趣,因为只有LL组的潜在结果是有定义的:如果个体已经死亡,那么再讨论潜在结果(生活质量水平Y,或称治疗效果Y)没有意义。
表1试验个体分类
协变量集合W包括:与生存状态不相关的混杂变量集合X,以及一个与生存状态相关的工具变量A。
混杂变量对治疗方案的分配对治疗处理状态Z、存活状态S、生活质量水平Y可能都会有影响。优选地,混杂变量集合X包括性别、年龄等。
工具变量A只能通过影响存活状态S来影响生活质量水平Y,而不能绕过存活状态S直接影响生活质量水平Y。优选地,工具变量A为与疾病严重程度相关的变量,例如,试验开始时的生活质量分级(可用得分表示),或试验开始时是否患有高风险疾病(0/1变量)。
为了SACE的可识别性,制定以下假设:
a.单调性:S(1)≥S(0)几乎必然成立,且存活概率P(S(0)=0|W)>0。即,就存活而言,治疗组Z=1的结果一定比对照组Z=0的结果好,并且,试验中确实存在个体死亡的情况。
b.随机单调性:0≤ρ(W)≤1,其中
已知。假设b比假设a更加宽松,只需要医疗组的结果随机地比对照组的结果好(对于每一个个体,医疗处理未必比不处理只控制好,但对于人群整体,医疗处理能降低整体死亡率)。
c.S-可忽略性:对Z=0或1,Z⊥S(Z)|W。即在给定了协变量之后,治疗方案z和存活状态S之间没有未被观测的混杂变量。只要是随机化试验,假设c都成立。
d.Y-可忽略性:对Z=0或1,Z⊥Y(Z)|W,G。即在给定了协变量以及个体所处类型之后,治疗方案z和表示结局的生活质量水平Y之间再没有未被观测的混杂变量。只要是随机化试验,假设d都成立。
e.排他性约束1:A⊥Y(1)|Z=1,G,X=x。即在医疗组中,如果给定协变量和个体所处类型,变量A和结局就是独立的。换句话说,变量A只能通过Z来影响Y,而不能跨过Z直接影响Y。
f.排他性约束2:A⊥Y(0)|Z=1,G,X=x。即在对照组中,如果给定协变量和个体所处类型,变量A和结局就是独立的。换句话说,变量A只能通过Z来影响Y,而不能跨过Z直接影响Y。
g.替代相关性1:A/⊥G|Z=1,S=1,X=x。即在医疗组中,变量A和个体所处类型是相关的,也就是变量A包含了关于个体所处类型的信息,通过观察A,能识别出个体应该属于哪一种类型。
h.替代相关性2:A/⊥G|Z=0,S=1,X=x。即在对照组中,变量A和个体所处类型是相关的,也就是变量A包含了关于个体所处类型的信息,通过观察A,能识别出个体应该属于哪一种类型。
排他性约束和替代相关性假设的含义是,A和S相关但和不相关,是S的工具变量。在假设a,c-t,g或b-h条件下,SACE是可识别的。
优选地,步骤S2进一步细化为:
S21.建立处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果模型,作为样本生存估计模型一;
S22.建立处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理两种情况的(共同)潜在结果模型,作为样本生存估计模型二;
S23.建立具备协变量X、A的个体接受治疗处理能够存活的概率模型,作为样本生存估计模型三;
S24.建立具备协变量X、A的个体不接受治疗处理也能存活的概率模型,作为样本生存估计模型四;
S25.基于上述治疗组、对照组的数据样本,获得上述潜在结果对应的真实数据,进而确定样本生存估计模型一至四的待定参数,完成样本生存估计模型一至四的确定。
样本生存估计模型一通过处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果期望M1来表征
M1=h0(a00+XTa01+Aa02) (1)
M1的待确定参数为
样本生存估计模型二通过处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理,或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果期望M2来表征
M2=h1(a10+XTa11+Ga12) (3)
M2的待确定参数为
样本生存估计模型三通过具备协变量X、A的个体接受治疗处理的潜在存活概率M3来表征
M3=g1(β0+XTβ1+Aβ2) (5)
M3的待确定参数为
样本生存估计模型四通过具备协变量X、A的个体不接受治疗处理的潜在存活概率与接受治疗处理的潜在存活概率之比M4来表征
M4=g0/1(γ0+XTγ1+Aγ2) (7)
M4的待确定参数为
式中,h0()、h1()、g1()、g0/1()是用户自定义的单调连续函数;G=1表示处于治疗组、对照组均能存活的具备协变量X、A的个体,G=0表示处于治疗组存活、对照组死亡的具备协变量X、A的个体。列向量a01、a11、β1、γ1的元素个数取决于混杂变量集合X的元素个数。
借助M3和M4,考虑了随机化临床试验中发生受试者死亡对统计分析造成的影响,按照受试者接受治疗是否存活、不接受治疗是否存活把人群分类,可以根据受试者的协变量特征,判断出受试者接受治疗或不接受治疗分别对应的存活概率。
借助模型M1和M2,对受试者接受治疗的潜在结果和不接受治疗的潜在结果分别建模,允许治疗作用关于协变量W的变化是非可加的形式,因此模型更具一般性。
优选地,步骤S24,进一步细化为:
S241.基于上述M3、M4,对样本生存概率进行建模,确定个体处于存活状态的似然函数l
其中
W=(XT,A)T
式中,()T表示转置运算;i表示临床试验中第i个个体,Wi、Zi、Si分别表示第i个个体的协变量集合、治疗处理状态、存活状态;1{}表示示性函数,其下角标事件发生时为1,否则为0。
S242.根据治疗组、对照组的数据样本,获得具备协变量X、A的个体接受治疗、不接收处理的实际存活概率,代入上述M3、M4中,并最大化上述任一试验个体处于存活状态的似然函数l,确定所述M3、M4的待定参数,完成样本生存估计模型三、四的确定;
S243.根据治疗组、对照组的数据样本,获得治疗组的存活概率代替上述M2中的G,根据下面两个等式中对应的真实数据确定M1、M2模型的待定参数,完成样本生存估计模型一、二的确定
其中
式中,Yi为第i个存活个体的生活质量分级(生活质量分级评分),h0′()、h1′()分别为h0()、h1()函数的导数。
优选地,所述h0()、h1()为恒等函数;同时,所述g1()、g0/1()满足
g1(x)=exp(x)/(1+exp(x))
g0/1(x)=exp(x)/(1+exp(x)) (11)
式中,x为自变量。
优选地,步骤S3进一步包括:
S31.将W分别代入所述M1、G=1的M2中,获得存活个体在治疗方案z下的潜在结果估计其中,/>表示协变量为W的个体不接受治疗的潜在结果,表示协变量为W的个体接受治疗的潜在结果,/>
S32.将X、A分别代入所述M3、M4中,获得任一个体属于存活状态的概率其中,/>表示协变量为W的个体接受治疗能存活的概率,表示协变量为W的个体接受治疗能存活的概率,/>i表示第i个个体。
优选地,步骤S4进一步细化为:
S41.根据上述存活个体在治疗方案下的潜在结果估计,以及任一个体处于存活状态的概率,通过下面公式确定SACE的点估计ΔLL
S42.通过Delta方法,获得上述SACE的点估计ΔLL的渐近方差var(ΔLL);具体地,渐近方差var(ΔLL)可以通过R软件包“tbd”实现。
通过上述方法获得的渐近方差var(ΔLL)比自采样方法得到的方差估计更精确。渐近方差的估计可以用来构造SACE的置信区间,由于自采样涉及大量重复估计,因此上述获取渐近方差var(ΔLL)的方法可以更快地得到SACE的置信区间,这是本实施例方法的优势所在。
S43.根据上述SACE点估计ΔLL和渐近方差var(ΔLL),确定存活组的平均因果作用SACE的(1-ε)100%置信区间[L U]满足
U=ΔLL+zε/2[var(ΔLL)]1/2
L=ΔLL-zε/2[var(ΔLL)]1/2 (13)
式中,zε/2为标准正态分布的上ε/2分位数,可通过查阅标准正态分布分位数表得到,也可以通过程序计算,在实践中,通常取ε=0.05。
上述置信区间(区间估计)代表了治疗方案z对于存活组个体生活质量水平Y的提高程度。
优选地,该方法还包括步骤S5:
S5.基于上述SACE的置信区间,判断治疗方案是否有效。
步骤S5进一步包括:
基于上述置信区间,判定是否满足下面不等式,如果满足,判定治疗方案有效;否则,判定治疗方案无效
L>0 (14)
如果满足上述判定条件,则说明治疗方案z能够显著改善生活质量水平。
与实施例1相比,本实施例提供的方法把存活状态和生活质量水平分别作为因变量,能够处理受试者个体死亡造成的选择偏差,通过对人群分类,识别出有实际意义的因果作用,基于假设检验的方法判定治疗方案z的有效性,处理随机化临床试验中的数据随机性。对于随机化临床试验,可以更精确地处理发生受试者死亡事件的统计分析,通过定义存活组平均因果作用SACE,给出了衡量治疗方案对于生活质量水平有效性的评价指标,这一指标在理论上和实践中都是有意义的。通过寻找存活组平均因果作用估计量的方差,提出了估计SACE置信区间的方法,进而可以判定治疗方案是否有效。提出了有意义的因果作用参数,消除了受试者死亡引发的选择偏差问题,用本实施例公开的方法判定治疗方案的有效性更加合理。当推导渐近方差的时候,忽略了高阶无穷小量,这可能会产生一些偏差,但模拟结果表明,这些偏差是可以接受的。如果样本量较大,偏差会很小。本实施例公开的方法比现有的基于自采样的方法计算速度更快,偏差更小。
实施例3
本发明还提供了一种与实施例1、2对应的数据处理系统,包括依次连接的数据采集模块、处理模块、结果模块,如图2所示。
数据采集模块,用于获取临床试验中治疗组、对照组的数据样本。
处理模块,用于基于上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型;以及获取所述样本生存估计模型中与治疗效果相关的协变量,根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率;并且,根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间。
结果模块,用于基于上述SACE的置信区间,判断治疗方案是否有效,并将获得的临床试验有效性的结果数据输出。
优选地,处理模块进一步包括样本生存估计模型建立模块、平均因果确定模块。
样本生存估计模型建立模块,用于基于上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型;以及获取所述样本生存估计模型中与治疗效果相关的协变量,根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率;
平均因果确定模块,用于根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种基于临床试验数据的数据处理方法,其特征在于,包括如下步骤:
通过数据采集模块获取临床试验中治疗组、对照组的数据样本,所述治疗组、对照组的数据样本都包括与治疗效果相关的协变量集合W、治疗处理状态Z、存活状态S、生活质量分级Y;其中,协变量集合W包括:与生存状态不相关的混杂变量集合X,以及一个与生存状态相关的工具变量A;并且,所述混杂变量集合X包括性别、年龄;所述工具变量A为与疾病严重程度相关的变量;
处理模块根据数据采集模块获取的上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型,包括:
建立处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果模型,作为样本生存估计模型一,样本生存估计模型一通过处于治疗组、对照组均能存活且具备协变量X、A的个体不接受治疗处理的潜在结果期望M1来表征:
M1=h0(a00+XTa01+Aa02);
建立处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理,或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果模型,作为样本生存估计模型二,样本生存估计模型二通过处于治疗组、对照组均能存活且具备协变量X、A的个体接受治疗处理,或处于治疗组存活、对照组死亡且具备协变量X、A的个体接受治疗处理的潜在结果期望M2来表征:
M2=h1(a10+XTa11+Ga12);
建立具备协变量X、A的个体接受治疗处理能够存活的概率模型,作为样本生存估计模型三,样本生存估计模型三通过具备协变量X、A的个体接受治疗处理的潜在存活概率M3来表征:
M3=g1(β0+XTβ1+Aβ2);
建立具备协变量X、A的个体不接受治疗处理也能存活的概率模型,作为样本生存估计模型四,样本生存估计模型四通过具备协变量X、A的个体不接受治疗处理的潜在存活概率与接受治疗处理的潜在存活概率之比M4来表征:
M4=g0/1(γ0+XTγ1+Aγ2);
式中,XT为集合X对应的行向量;a00、向量a01、a02为样本生存估计模型一的待定参数;a10、向量a11、a12为样本生存估计模型二的待定参数;β0、向量β1、β2为样本生存估计模型三的待定参数;γ0、向量γ1、γ2为样本生存估计模型四的待定参数;向量a01、a11、β1、γ1均为列向量,且元素个数相等,都等于X的元素个数;h0()、h1()、g1()、g0/1()是用户自定义的单调连续函数;G=1表示处于治疗组、对照组均能存活的具备协变量X、A的个体,G=0表示处于治疗组存活、对照组死亡的具备协变量X、A的个体;
基于上述治疗组、对照组的数据样本,获得上述潜在结果对应的真实数据,进而确定样本生存估计模型一至四的待定参数,完成样本生存估计模型一至四的确定,包括基于上述M3、M4,对样本生存概率进行建模,确定个体处于存活状态的似然函数l
其中
W=(XT,A)T
式中,()T表示转置运算;i表示临床试验中第i个个体,Wi、Zi、Si分别表示第i个个体的协变量集合、治疗处理状态、存活状态,1{}表示示性函数;
根据治疗组、对照组的数据样本,获得具备协变量X、A的个体接受治疗、不接收处理的实际存活概率,代入上述M3、M4中,并最大化上述任一试验个体处于存活状态的似然函数l,确定所述M3、M4的待定参数,完成样本生存估计模型三、四的确定;
根据治疗组、对照组的数据样本,获得治疗组的存活概率代替上述M2中的G,根据下面两个等式中的结局确定M1、M2模型的待定参数,完成样本生存估计模型一、二的确定
其中
式中,Yi为存活个体的生活质量分级,h0′()、h1′()分别为h0()、h1()函数的导数,所述h0()、h1()为恒等函数;同时,所述g1()、g0/1()满足
g1(x)=exp(x)/(1+exp(x))
g0/1(x)=exp(x)/(1+exp(x))
式中,x为自变量;
处理模块获取所述样本生存估计模型中与治疗效果相关的协变量,根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,包括:
将W分别代入所述M1、G=1的M2中,获得存活个体在治疗方案下的潜在结果估计其中,/>表示协变量为W的个体不接受治疗的潜在结果,表示协变量为W的个体接受治疗的潜在结果,/>
将X、A分别代入所述M3、M4中,获得任一个体属于存活状态的概率其中,/>表示协变量为W的个体接受治疗能存活的概率,表示协变量为W的个体接受治疗能存活的概率,/>
处理模块根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间,包括:
根据上述存活个体在治疗方案下的潜在结果估计,以及任一个体处于存活状态的概率,通过下面公式确定SACE的点估计ΔLL
通过Delta方法,获得上述SACE的点估计ΔLL的渐近方差var(ΔLL);
根据上述SACE点估计ΔLL和渐近方差var(ΔLL),确定存活组的平均因果作用SACE的(1-ε)100%置信区间[LU]满足
L=ΔLL+zε/2[var(ΔLL)]1/2
U=ΔLL-zε/2[var(ΔLL)]1/2
式中,zε/2为标准正态分布的上ε/2分位数;
基于上述置信区间,判定是否满足下面不等式,如果满足,判定治疗方案有效;否则,判定治疗方案无效
L>0;
结果模块根据上述置信区间,输出临床试验有效性的结果数据。
2.一种用于实现权利要求1所述数据处理方法的临床试验数据的数据处理系统,其特征在于,包括:
数据采集模块,用于获取临床试验中治疗组、对照组的数据样本;
处理模块,用于基于上述治疗组、对照组的数据样本,确定潜在治疗结果下的样本生存估计模型;以及,获取所述样本生存估计模型中与治疗效果相关的协变量,根据所述样本生存估计模型计算获得存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率;并且,根据上述存活个体在治疗方案下的潜在结果估计,以及个体处于存活状态的概率,确定存活组的平均因果作用SACE的置信区间;
结果模块,用于根据上述置信区间,输出临床试验有效性的结果数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110064413.6A CN112735542B (zh) | 2021-01-18 | 2021-01-18 | 基于临床试验数据的数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110064413.6A CN112735542B (zh) | 2021-01-18 | 2021-01-18 | 基于临床试验数据的数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735542A CN112735542A (zh) | 2021-04-30 |
CN112735542B true CN112735542B (zh) | 2023-08-22 |
Family
ID=75592223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110064413.6A Active CN112735542B (zh) | 2021-01-18 | 2021-01-18 | 基于临床试验数据的数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735542B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116504423B (zh) * | 2023-06-26 | 2023-09-26 | 北京大学 | 一种药物有效性评估方法 |
CN117312881B (zh) * | 2023-11-28 | 2024-03-22 | 北京大学 | 临床试验治疗效果评估方法、装置、设备及存储介质 |
CN118213088B (zh) * | 2024-03-27 | 2024-08-09 | 北京大学 | 罕见病临床试验样本含量估算方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108028077A (zh) * | 2015-09-10 | 2018-05-11 | 豪夫迈·罗氏有限公司 | 用于整合临床护理的信息学平台 |
CN108922628A (zh) * | 2018-04-23 | 2018-11-30 | 华北电力大学 | 一种基于动态Cox模型的乳腺癌预后生存率预测方法 |
CN109427420A (zh) * | 2017-08-31 | 2019-03-05 | 谷歌有限责任公司 | 诊断有效性工具 |
CN111695835A (zh) * | 2020-06-23 | 2020-09-22 | 上海用正医药科技有限公司 | 用于评估临床试验风险的方法 |
CN112233809A (zh) * | 2020-09-30 | 2021-01-15 | 西安交通大学 | 一种分析个体治疗效果的亚群分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2015101194A4 (en) * | 2015-07-26 | 2015-10-08 | Macau University Of Science And Technology | Semi-Supervised Learning Framework based on Cox and AFT Models with L1/2 Regularization for Patient’s Survival Prediction |
-
2021
- 2021-01-18 CN CN202110064413.6A patent/CN112735542B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108028077A (zh) * | 2015-09-10 | 2018-05-11 | 豪夫迈·罗氏有限公司 | 用于整合临床护理的信息学平台 |
CN109427420A (zh) * | 2017-08-31 | 2019-03-05 | 谷歌有限责任公司 | 诊断有效性工具 |
CN108922628A (zh) * | 2018-04-23 | 2018-11-30 | 华北电力大学 | 一种基于动态Cox模型的乳腺癌预后生存率预测方法 |
CN111695835A (zh) * | 2020-06-23 | 2020-09-22 | 上海用正医药科技有限公司 | 用于评估临床试验风险的方法 |
CN112233809A (zh) * | 2020-09-30 | 2021-01-15 | 西安交通大学 | 一种分析个体治疗效果的亚群分析方法 |
Non-Patent Citations (1)
Title |
---|
"生存模型的理论及应用研究";李树生;《中国博士学位论文全文数据库》(第第08期期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112735542A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735542B (zh) | 基于临床试验数据的数据处理方法及系统 | |
US11710571B2 (en) | Long short-term memory model-based disease prediction method and apparatus, and computer device | |
CN113536697A (zh) | 一种基于改进残差网络和wgan的轴承剩余寿命预测方法 | |
KR20190109710A (ko) | 얼굴 이미지들로부터의 질적인 특성의 평가를 위한 컴퓨터-구현된 도구를 구축하기 위한 방법 | |
US20210365813A1 (en) | Management computer, management program, and management method | |
Lai et al. | Identifying multiple change points in a linear mixed effects model | |
US20230352125A1 (en) | Systems and Methods for Adjusting Randomized Experiment Parameters for Prognostic Models | |
CN110957010A (zh) | 一种免疫年龄模型学习方法 | |
Villarroel et al. | Cluster analysis using multivariate mixed effects models | |
CA3203577A1 (en) | Computer-implemented method and apparatus for analysing genetic data | |
Ali et al. | Interpreting predictive models through causality: A query-driven methodology | |
Bothmann et al. | Causal Fair Machine Learning via Rank-Preserving Interventional Distributions | |
CN113539517A (zh) | 时序干预效果的预测方法 | |
Xie et al. | Robust statistical inference for cell type deconvolution | |
CN118299070B (zh) | 基于反事实预测的治疗效果估计方法、系统、设备及介质 | |
Cochrane et al. | Application of Machine Learning to Predict the Risk of Alzheimer's Disease: An Accurate and Practical Solution for Early Diagnostics | |
Selvaratnam et al. | Three influential design quantities on the power of Wald-type tests for treatment comparisons in clinical trials | |
Kaygusuz et al. | Efficient multiple testing procedure for heterogeneous effect with survival forest | |
Boom et al. | Bayesian inference on the number of recurrent events: A joint model of recurrence and survival | |
Verschueren | Regularized Buckley–James Method: A Comprehensive Review and Applications | |
Aloui et al. | Individual Treatment Effects in Extreme Regimes | |
Pollard et al. | Supervised distance matrices | |
Quan | Latent Gaussian Copula Model for High Dimensional Mixed Data, and Its Applications | |
Benyó et al. | Unsupervised classification based analysis of the temporal pattern of insulin sensitivity and modelling noise of patient groups under tight glycemic control | |
Bo et al. | Estimating Interpretable Heterogeneous Treatment Effect with Causal Subgroup Discovery in Survival Outcomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |