CN112863622A - 利用历史对照数据的双稳健临床试验数据处理方法及系统 - Google Patents
利用历史对照数据的双稳健临床试验数据处理方法及系统 Download PDFInfo
- Publication number
- CN112863622A CN112863622A CN202110063096.6A CN202110063096A CN112863622A CN 112863622 A CN112863622 A CN 112863622A CN 202110063096 A CN202110063096 A CN 202110063096A CN 112863622 A CN112863622 A CN 112863622A
- Authority
- CN
- China
- Prior art keywords
- model
- clinical
- mean
- historical
- data sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 88
- 238000003672 processing method Methods 0.000 title abstract description 15
- 230000001364 causal effect Effects 0.000 claims abstract description 103
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000000750 progressive effect Effects 0.000 claims abstract description 23
- 238000011282 treatment Methods 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000003285 pharmacodynamic effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 27
- 238000013461 design Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 239000000902 placebo Substances 0.000 description 2
- 229940068196 placebo Drugs 0.000 description 2
- 238000011272 standard treatment Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000035977 Rare disease Diseases 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010197 meta-analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/20—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Epidemiology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Pathology (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种利用历史对照数据的双稳健临床试验数据处理方法及系统,属于医学数据处理技术领域,解决了现有临床试验数据处理方法依赖模型设定和人群同质性假定、效率低且精度差等问题。该方法包括,获取临床试验数据样本和历史对照数据样本;分别处理获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;并利用双稳健估计方法获得临床试验的平均因果作用估计值和其渐进方差估计值,进而判定是否存在平均因果作用。该方法引入历史对照数据能够提高药效推断结果的准确率和精度,具备良好的稳健性、灵活性和拓展性。
Description
技术领域
本发明涉及医学数据处理技术领域,尤其涉及一种利用历史对照数据的双稳健临床试验数据处理方法及系统。
背景技术
现有技术中,通常通过临床试验研究某种新药是否比标准治疗方案或安慰剂有着更好的疗效。在临床试验中,由于较高昂的试验成本等,样本量往往成为限制因果推断效率和精度最主要的因素之一。尤其是对于罕见疾病,可招募到的受试患者数量较少,临床试验更倾向于分配患者接受新药治疗,使得对照样本缺乏,限制了推断效率和精度。而在历史试验和真实世界中经常存在着大量的对照数据,如以往在标准方案下的治疗案例和记录。这些历史对照数据有着帮助提高因果推断效率的巨大潜力。
自1976年以来,如何利用历史对照数据来提高临床试验中的推断效率一直是研究的热点。美国食品药品管理局(FDA)也在指导文件中多次提及对历史对照数据的利用。直接将历史数据和临床试验数据结合在一起往往会给估计带来偏差,这是因为不同数据之间的代表人群存在着异质性,特别是当历史对照数据来源于真实世界时。传统方法,如频率学派方法、传统贝叶斯方法和Meta-analysis方法等,需要依赖历史数据和临床试验数据的代表人群具有某种程度的同质性,并没有充分利用协变量的信息来彻底消除异质性偏差,而且这类方法往往对工作模型(通常是线性模型等参数模型)的正确设定有着较强的依赖性。另一类方法如匹配方法,虽然充分利用了协变量的信息,但会舍弃或未充分利用某些样本,这使得推断效率和精度会有所降低。匹配方法也会改变因果推断所依赖的人群总体,同时当协变量维度较大时,匹配方法的效果往往不好,若使用倾向得分匹配,则依赖于模型设定和更强的人群同质性假定。
现有技术至少存在以下缺陷,一是现有方法将历史对照试验数据和临床试验数据结合使用时,需要依赖历史数据和临床试验数据的代表人群具有某种程度的同质性,未充分利用协变量以消除人群的异质性,且对设置的工作模型(通常是线性模型等参数模型)的正确设定具有依赖性;二是非参数的匹配方法虽然有助于缓解人群异质性问题和模型设定问题,但该方法未充分利用历史对照数据和临床试验数据的全部信息,一定程度上限制了因果推断效率和精度的提升,此外,当协变量维度较大时,匹配方法的效果往往不好,且该方法改变了推断基于的人群总体。
发明内容
鉴于上述的分析,本发明旨在提供一种利用历史对照数据的双稳健临床试验数据处理方法及系统,用以解决现有技术中未充分消除人群异质性带来的偏差、过于依赖模型设定以及未充分利用数据提高推断精度的问题。
一方面,本发明提供了一种利用历史对照数据的双稳健临床试验数据处理方法,包括以下步骤:
获取临床试验数据样本和历史对照数据样本,所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
进一步的,具体包括:
基于所述临床处理组数据样本,建立临床处理组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的临床处理组结果变量的处理组条件均值模型,以表征临床处理组结果变量的条件均值;
基于所述临床对照组数据样本和历史对照组数据样本,建立对照组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的对照组结果变量的对照组条件均值模型,以表征对照组结果变量的条件均值。
进一步的,基于所述临床试验数据样本,建立给定协变量对应的处理分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得处理分配倾向得分模型,以表征处理分配倾向得分。
进一步的,基于所述临床试验数据样本和历史对照数据样本,建立给定协变量对应的人群分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得人群分配倾向得分模型,以表征人群分配倾向得分。
进一步的,基于临床对照组数据样本,建立临床对照组结果变量关于协变量的第一条件方差函数;
基于历史对照组数据样本,建立历史对照组结果变量关于协变量的第二条件方差函数;
利用预设工作模型拟合所述第一条件方差函数和第二条件方差函数的比值,获得对应的条件方差比值模型,以表征条件方差比值。
进一步的,通过下述公式获得临床试验的平均因果作用估计值:
其中,表示临床试验的平均因果作用τ的估计值,X表示协变量,Y表示临床试验结果变量;T表示处理分配,其中,T=1表示处理组,T=0表示对照组;D表示数据样本来源,其中,D=1表示来源于临床试验,D=0表示来源于历史对照,表示经验算子;表示处理组条件均值模型,表示对照组条件均值模型,表示处理分配倾向得分模型,表示人群分配倾向得分模型,表示条件方差比值模型,表示临床试验数据样本占比,均表示残差,其中,
进一步的,通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
进一步的,当所述临床试验数据样本只包括临床处理组数据样本时,通过下述公式估计获得临床试验的平均因果作用估计值:
通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
其中,表示临床试验的平均因果作用估计值,表示平均因果作用估计值的渐进方差估计值,X表示协变量,D表示数据样本来源,其中,D=1表示来源于临床试验,D=0表示来源于历史对照,表示经验算子,表示临床试验数据样本占比,表示人群分配倾向得分模型,表示残差。
进一步的,通过下述方式判定是否存在平均因果作用:
设定原假设:τ=0,表示不存在平均因果作用;设定备择假设:τ≠0,表示存在平均因果作用,并设置显著水平值α;
构造检验统计量:
通过下述公式计算p值:
p=2×(1-Φ(|z|)),
其中,n表示临床试验数据样本和历史对照数据样本的总样本量,Φ(·)表示标准正态分布累积分布函数;
当p≤α,表示在设置的显著性水平值α下,原假设不成立;否则,不能否定原假设。
另一方面,本发明提供了一种利用历史对照数据的双稳健临床试验数据处理系统,包括:
数据处理模块,用于获取临床试验数据样本和历史对照数据样本;所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
模型建立模块,用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
平均因果作用判定模块,用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
还用于,基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于临床对照组数据样本、临床处理组数据样本、历史对照数据样本以及以及预设工作模型拟合处理组结果变量条件均值、对照组结果变量条件均值、处理分配倾向得分、人群分配倾向得分以及条件方差比值,并采用双稳健方法获得平均因果作用估计值,进而根据其渐进方差确定平均因果作用的估计精度,能够消除人群异质性所带来的偏差,且降低对单一模型正确设定的依赖性,有着稳健的性质。同时该方法能有效利用临床试验数据样本和历史数据样本,当模型正确设定时,渐进方差可达半参数方差下界,进而提高了因果推断的效率和结果判定的精度。
2、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统中,预设工作模型的选用具有极大的灵活性,除了选用传统的参数模型之外,还可以利用机器学习模型,如随机森林模型、深度神经网络模型等。
3、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于提出的双稳健估计方法能够量化利用历史对照数据样本所能带来的效率提升,从而为计算额外所需的历史数据样本数量以及试验设计提供一定的理论依据和支撑。
4、本发明提出的临床试验数据处理方法有着很好的拓展性,一方面,能够有效处理没有临床对照数据、临床试验结果变量满足分布可交换性等特殊情况;另一方面,还能够应用于稳健估计总体人群上的平均因果作用、历史对照组人群上的平均因果作用等其他目标参数。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例利用历史对照数据的双稳健临床试验数据处理方法的流程图;
图2为本发明实施例利用历史对照数据的双稳健临床试验数据处理系统的示意图。
附图标记:
110-数据处理模块;120-模型建立模块;130-平均因果作用判定模块。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种利用历史对照数据的双稳健临床试验数据处理方法。如图1所示,该方法包括以下步骤:
S110、获取临床试验数据样本和历史对照数据样本。其中,临床试验数据样本量为m,临床试验数据样本和历史对照数据样本的总样本量为n,该临床试验数据样本包括临床处理组数据样本和临床对照组数据样本。临床处理组数据样本为接受处理干预,即待评估药品,所对应的数据样本,对照组数据样本为接受对照干预,即安慰剂或标准治疗方案,所对应的数据样本,历史数据样本为与临床对照组使用相同药品等治疗方案的历史治疗数据,即历史对照组,该历史数据样本可来源于历史临床试验、真实世界的治疗方案或登记数据库。具体的,数据样本中均包括个体基本信息以及结果变量,其中,个体基本信息通常包括个体的性别、身高、体重、年龄、血压、受教育程度、职业、收入或既往病史等,即协变量。
优选的,设置Y为感兴趣的结果变量,即临床试验结果变量;T表示处理分配,T=1表示处理组,即接受处理干预的临床试验处理组,T=0表示对照组,即接受对照干预的临床试验对照组和历史对照组;D表示数据样本来源,D=1表示来源于临床试验,D=0表示来源于历史对照;X表示协变量。观测数据的形式可表示为O=(Y,T,D,X)。将个体接受处理T=t后所能观测到的结果称为潜在结果,记为Yt,t∈{0,1}。假定个体的潜在结果不受其他个体的影响,并且在每一种处理下每个个体只会有一个潜在结果,那么对每个个体,实际观察的结果变量Y可用潜在结果表示为Y=TY1+(1-T)Y0,感兴趣的目标参数为临床试验的平均因果作用,即τ=E(Y1-Y0|D=1)。
利用历史对照数据提高临床试验上平均因果作用的估计精度和推断效率,需要满足以下假定:
假定(i),可忽略性假定:(Y1,Y0)⊥D|X,即给定协变量,处理分配与潜在结果变量相独立。假定(ii),重叠假定:0<pr(T=1|D=1,X),且pr(T=0|D=1,X)+pr(D=0,X)>0,即个体分配在临床试验处理组的概率大于零,且分配在临床对照组和历史对照组中任意一组的概率也大于零。上述两条假定在随机化临床实验中都能够自然满足。基于历史对照数据,假定(ii)要比常见的重叠假定,即0<pr(T=1|D=1,X)<1要弱。假定(iii),均值可交换性假定:E(Y0|X,D=1)=E(Y0|X,D=0),即给定协变量,个体接受对照处理的结果条件期望均值在临床对照组和历史对照组是一致的。在满足假定(i)的情况下(如随机化临床实验),假定(iii)可等价地表示为E(Y|X,D=1,T=0)=E(Y|X,D=0),因而是可验证的。均值可交换性假定可由分布可交换性假定导出,其中分布可交换性假定是指Y0⊥D|X,即给定协变量,个体接受对照处理的结果不受该个体处于何组(即临床对照组或历史对照组)的影响。
S120、基于临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型。本发明中,实现平均因果作用估计n1/2的收敛速度,仅要求预设工作模型的收敛速度不低于n1/4即可,这使模型设定具有极大的灵活性。具体的,预设工作模型包括参数模型、半参数模型或非参数模型,优选的,可选用机器学习模型,该机器学习模型具体可以是随机森林模型、深度神经网络模型等。
S130、基于获得的处理组条件均值模型、对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型以及条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和平均因果作用估计值的渐进方差估计值。
S140、基于平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
优选的,步骤S120中,具体通过下述方式获得处理组条件均值模型和对照组条件均值模型:
基于临床处理组数据样本,建立临床处理组结果变量关于协变量的条件均值期望函数,即m1(X)=E(Y|X,T=1),并利用预设工作模型拟合该条件均值期望函数,获得对应的临床处理组结果变量的处理组条件均值模型该处理组条件均值模型可以表征临床处理组结果变量的条件均值。
基于临床对照组数据样本和历史对照组数据样本,建立对照组结果变量关于协变量的条件均值期望函数,即m0(X)=E(Y|X,T=0),并利用预设工作模型拟合该条件均值期望函数,获得对应的对照组结果变量的对照组条件均值模型该对照组条件均值模型可以表征对照组结果变量的条件均值。
优选的,通过下述方式获得处理分配倾向得分模型:
基于临床试验数据样本,建立给定协变量对应的处理分配倾向得分概率函数,即p(X)=pr(T=1|X,D=1),并利用预设工作模型拟合该概率函数,获得处理分配倾向得分模型该得分模型能够表征,对于给定协变量,在临床试验数据样本中处理组的分配比列。
优选的,通过下述方式获得人群分配倾向得分模型:
基于临床试验数据样本和历史对照数据样本,建立给定协变量对应的人群分配倾向得分概率函数,即π(X)=pr(D=1|X),并利用预设工作模型拟合该得分函数,获得人群分配倾向得分模型该得分模型能够表征,对于给定协变量,所述数据样本中临床试验组的分配比列。
优选的,通过下述方式获得条件方差比值模型:
基于临床对照组数据样本,建立临床对照组结果变量关于协变量的第一条件方差函数var(Y|X,D=1,T=0)。
基于历史对照组数据样本,建立历史对照组结果变量关于协变量的第二条件方差函数var(Y|X,D=0)。
利用预设工作模型拟合第一条件方差函数和第二条件方差函数的比值,即以获得对应的条件方差比值模型以表征条件方差比值。对于估计平均因果作用而言,方差比值r(X)并非必须设定模型并拟合,而是也可用指定的已知函数代替,示例性的,可以设定
优选的,通过下述方式估计获得临床试验的平均因果作用估计值:
基于前述假定(i)-(iii),平均因果作用的半参数方差下界为Bτ=E{EIF(O,τ)2},其中,
即在假定(i)-(iii)约束下的非参数模型中,任何正则和渐进线性的估计量的渐进方差均不小于方差下界Bτ,其中τ为目标参数,其他函数均为冗余参数。
将EIF(O,τ)=0作为估计方程以求解平均因果作用估计值,具体公式为:
其中,表示临床试验的平均因果作用τ的估计值;表示经验算子,即这里O(i)为O的第i个观测,h为观测数据的某个函数;表示处理组条件均值模型,表示对照组条件均值模型,表示处理分配倾向得分模型,表示人群分配倾向得分模型,表示条件方差比值模型,表示临床试验数据样本占比, 均表示残差,具体的,当对模型设定有信心时,可以用代替
在假定(i)-(iii)的约束下,且回归模型为正确设定的,或者倾向得分模型为正确设定的条件下,采用上述方法计算获得的即为平均因果作用的相合和渐进正太估计值。因此,本发明提出的数据处理方法具有双稳健的有益效果,即在满足任意一个条件下,即可获得可信的估计结果。双稳健的性质使得估计方法不再依赖于单一模型的正确设定。
优选的,也可以利用非参数的Bootstrap方法获得平均因果作用估计值的渐进方差估计值。
基于前述的双稳健临床试验数据的处理方法,现对特殊情况下如何应用该数据处理方法进行处理加以说明。
实施例1、临床试验数据样本只包括临床处理组数据样本(不包含临床对照组数据样本)
并通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
其中,表示临床试验的平均因果作用估计值,表示平均因果作用估计值的渐进方差估计值,X表示协变量,D=1表示临床试验,D=0表示历史对照,表示经验算子,表示临床试验数据样本占比,表示人群分配倾向得分模型,表示残差。
实施例2、缺乏历史对照数据样本
并通过下述公式获得平均因果作用估计值的渐进方差估计值:
实施例3、结果变量Y为二值的,或者分布可交换假定Y0⊥D|X成立
在该特殊情况下,条件方差比值r(X)已知,即r(X)=1,在公式(1)的基础上可以获得下述公式以计算平均因果作用估计值:
并通过下述公式计算获得平均因果作用估计值的渐进方差估计值:
实施例4、仅利用回归模型
在公式(1)的基础上,可以获得下述公式以计算获得平均因果作用估计值:
实施例5、仅利用倾向得分模型
在公式(1)的基础上,可以获得下述公式以计算获得平均因果作用估计值:
优选的,对于实施例4和5,均可以通过M估计方法或非参数Bootstrap方法获得平均因果作用估计值的渐进方差估计值。
优选的,通过假设检验的方法判定是否存在平均因果作用:
设定原假设:τ=0,表示不存在平均因果作用;设定备择假设:τ≠0,表示存在平均因果作用,并设置显著水平值为α,示例性的,α可以取值为0.05;
构造检验统计量:
通过下述公式计算p值:
p=2×(1-Φ(|z|)),
其中,n表示临床试验数据样本和历史对照数据样本的总样本量,Φ(·)表示标准正态分布累积分布函数;
当p≤α,表示在设置的显著性水平值α下,原假设不成立,即存在平均因果作用;否则,不能否定原假设。
优选的,基于上述假设,还可以通过构建置信区间的方法判定是否存在平均因果作用。具体的,构建的1-α置信区间范围为:
其中,表示标准正态分布的上分位数点,该置信区间表示平均因果作用真值所在的区间,当该置信区间不包含0时,否定原假设。示例性的,取α为0.05,则95%的置信区间为:即有95%的信心平均因果作用的真值在该区间中。
此外,本发明提出的双稳健临床试验数据处理方法还可以用于计算需要引入的历史对照数据样本量,以为临床试验的设计提供数据依据。
根据实施例2可知,相较于没有利用历史对照数据获得的平均因果作用估计值,基于全部样本数据的平均因果作用估计值有更小的渐进方差。已知基于全部样本数据的平均因果作用估计值的渐进方差可达方差下界Bτ,记没有利用额外对照数据获得的平均因果作用的估计值的渐进方差下界可达则有:
当利用的数据包括历史对照数据时,该项总是正的,表明利用历史对照数据获得的平均因果作用的渐进方差可达的方差下界更低,可以提高药效推断精度。
示例性的,如下随机化临床试验,其中,处理组是以常数概率p(X)=p随机分配的,而且满足以下条件,var(Y1|X,D=1)=var(Y0|X,D=1),且m1(X)-m0(X)=τ、r(X)=r、π(X)=π均为常数,则有:
当π趋于0,或者r趋于无穷大时,该比值逐渐降低,且最优可达到1-p,表示引入越多的历史对照数据越有利于提高推断效率。基于该公式,在临床试验数据样本的基础上,可以计算出要达到目标推断精度Bτ所需要的参数π,从而能够估算所需的历史对照数据样本量。
在进行临床试验之前便可获取历史对照数据样本的情况下,可以通过在临床试验设计中,选用能够有效降低Bτ的处理分配机制,即处理组分配倾向得分p(X),以提高平均因果作用推断精度。
此外,本发明提出的双稳健临床试验数据处理方法还可以应用到获取总体人群(包括临床试验组和历史对照组)上的平均因果作用ψ=E(Y1-Y0),以及历史对照人群上的平均因果作用ζ=E(Y1-Y0|D=0)。
具体通过下述公式分别计算其对应的平均因果作用估计值:
并通过下述公式分别计算其对应的平均因果作用估计值的渐进方差估计值:
在满足假定(i)-(iii)以及如下两个假定的情况下:
假定(iv):E(Y1|X,D=1)=E(Y1|X,D=0);
假定(v):0<π(x)<1。
本发明的另一个实施例,公开了一种利用历史对照数据的双稳健临床试验数据处理系统。
由于该实施例公开的系统与上述方法的原理相同,因此重复之处可以参数上述方法实施例,在此不再赘述。
具体的,如图2所述,该系统包括:
数据处理模块110,用于获取临床试验数据样本和历史对照数据样本;所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本。
模型建立模块120,用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型。
平均因果作用判定模块130,用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值。
还用于,基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
与现有技术相比,本发明实施例公开的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于临床对照组数据样本、临床处理组数据样本、历史对照数据样本以及预设工作模型拟合处理组结果变量条件均值、对照组结果变量条件均值、处理分配倾向得分、人群分配倾向得分以及条件方差比值,并采用双稳健方法获得平均因果作用估计值,进而根据其渐进方差确定平均因果作用的估计精度,能够消除人群异质性所带来的偏差,且降低对单一模型正确设定的依赖性,有着稳健的性质。同时,该方法能有效利用临床试验数据样本和历史数据样本,当模型正确设定时,渐进方差可达半参数方差下界,进而提高了因果推断的效率和结果判定的精度。其次,本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统中,预设工作模型的选用具有极大的灵活性,除了选用传统的参数模型之外,还可以利用机器学习模型,如随机森林模型、深度神经网络模型等。此外,本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于提出的双稳健估计方法能够量化利用历史对照数据样本所能带来的效率提升,从而为计算额外所述的历史数据样本数量以及试验设计提供一定的理论依据和支撑。最后,本发明提出的临床试验数据处理方法有着很好的拓展性,一方面,能够有效处理没有临床对照数据、临床试验结果变量满足分布可交换性等特殊情况;另一方面,还能够应用于稳健估计总体人群上的平均因果作用、历史对照组人群上的平均因果作用等其目标参数。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种利用历史对照数据的双稳健临床试验数据处理方法,其特征在于,包括以下步骤:
获取临床试验数据样本和历史对照数据样本,所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
2.根据权利要求1所述的方法,其特征在于,具体包括:
基于所述临床处理组数据样本,建立临床处理组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的临床处理组结果变量的处理组条件均值模型,以表征临床处理组结果变量的条件均值;
基于所述临床对照组数据样本和历史对照组数据样本,建立对照组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的对照组结果变量的对照组条件均值模型,以表征对照组结果变量的条件均值。
3.根据权利要求1所述的方法,其特征在于,
基于所述临床试验数据样本,建立给定协变量对应的处理分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得处理分配倾向得分模型,以表征处理分配倾向得分。
4.根据权利要求1所述的方法,其特征在于,
基于所述临床试验数据样本和历史对照数据样本,建立给定协变量对应的人群分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得人群分配倾向得分模型,以表征人群分配倾向得分。
5.根据权利要求1所述的方法,其特征在于,
基于临床对照组数据样本,建立临床对照组结果变量关于协变量的第一条件方差函数;
基于历史对照组数据样本,建立历史对照组结果变量关于协变量的第二条件方差函数;
利用预设工作模型拟合所述第一条件方差函数和第二条件方差函数的比值,获得对应的条件方差比值模型,以表征条件方差比值。
10.一种利用历史对照数据的双稳健临床试验数据处理系统,其特征在于,包括:
数据处理模块,用于获取临床试验数据样本和历史对照数据样本;所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
模型建立模块,用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
平均因果作用判定模块,用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
还用于,基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110063096.6A CN112863622B (zh) | 2021-01-18 | 2021-01-18 | 利用历史对照数据的双稳健临床试验数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110063096.6A CN112863622B (zh) | 2021-01-18 | 2021-01-18 | 利用历史对照数据的双稳健临床试验数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863622A true CN112863622A (zh) | 2021-05-28 |
CN112863622B CN112863622B (zh) | 2024-03-22 |
Family
ID=76006521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110063096.6A Active CN112863622B (zh) | 2021-01-18 | 2021-01-18 | 利用历史对照数据的双稳健临床试验数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863622B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4220650A1 (en) * | 2022-02-01 | 2023-08-02 | Unlearn.AI, Inc. | Systems and methods for designing augmented randomized trials |
CN117312881A (zh) * | 2023-11-28 | 2023-12-29 | 北京大学 | 临床试验治疗效果评估方法、装置、设备及存储介质 |
US11868900B1 (en) | 2023-02-22 | 2024-01-09 | Unlearn.AI, Inc. | Systems and methods for training predictive models that ignore missing features |
US12020789B1 (en) | 2023-02-17 | 2024-06-25 | Unlearn.AI, Inc. | Systems and methods enabling baseline prediction correction |
US12051487B2 (en) | 2019-08-23 | 2024-07-30 | Unlearn.Al, Inc. | Systems and methods for supplementing data with generative models |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102802511A (zh) * | 2009-06-12 | 2012-11-28 | 联合研究公司 | 医学治疗假设检验的系统和方法 |
CN110738591A (zh) * | 2019-09-20 | 2020-01-31 | 哈尔滨工业大学(威海) | 基于倾向值匹配的爬坡车道交通安全效益计算方法 |
CN111882066A (zh) * | 2020-07-23 | 2020-11-03 | 浙江大学 | 基于深度表征学习的反事实推理设备 |
-
2021
- 2021-01-18 CN CN202110063096.6A patent/CN112863622B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102802511A (zh) * | 2009-06-12 | 2012-11-28 | 联合研究公司 | 医学治疗假设检验的系统和方法 |
CN110738591A (zh) * | 2019-09-20 | 2020-01-31 | 哈尔滨工业大学(威海) | 基于倾向值匹配的爬坡车道交通安全效益计算方法 |
CN111882066A (zh) * | 2020-07-23 | 2020-11-03 | 浙江大学 | 基于深度表征学习的反事实推理设备 |
Non-Patent Citations (3)
Title |
---|
杨伟 等: "GBM倾向评分加权法用于因果推断的研究", 世界科学技术-中医药现代化, vol. 19, no. 9, pages 1462 - 1472 * |
苗旺 等: "On Varieties of Doubly Robust Estimators Under Missingness Not at Random With a Shadow Variable", STATISTICS, pages 1 - 8 * |
苗旺 等: "因果推断的统计方法", 中国科学, vol. 48, no. 12, pages 1753 - 1778 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12051487B2 (en) | 2019-08-23 | 2024-07-30 | Unlearn.Al, Inc. | Systems and methods for supplementing data with generative models |
EP4220650A1 (en) * | 2022-02-01 | 2023-08-02 | Unlearn.AI, Inc. | Systems and methods for designing augmented randomized trials |
US12020789B1 (en) | 2023-02-17 | 2024-06-25 | Unlearn.AI, Inc. | Systems and methods enabling baseline prediction correction |
US11868900B1 (en) | 2023-02-22 | 2024-01-09 | Unlearn.AI, Inc. | Systems and methods for training predictive models that ignore missing features |
CN117312881A (zh) * | 2023-11-28 | 2023-12-29 | 北京大学 | 临床试验治疗效果评估方法、装置、设备及存储介质 |
CN117312881B (zh) * | 2023-11-28 | 2024-03-22 | 北京大学 | 临床试验治疗效果评估方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112863622B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112863622A (zh) | 利用历史对照数据的双稳健临床试验数据处理方法及系统 | |
Rosenbaum | Propensity score | |
Buzas et al. | Measurement error | |
Lutz et al. | Empirically and clinically useful decision making in psychotherapy: Differential predictions with treatment response models. | |
JP2001508573A (ja) | 治療結果を予測する方法および装置 | |
EP1941410A2 (en) | Medical-risk stratifying method and system | |
JP2022544859A (ja) | 生成モデルを用いてデータを補完するためのシステムおよび方法 | |
US20220157413A1 (en) | Systems and Methods for Designing Augmented Randomized Trials | |
BR112020011632A2 (pt) | análise de imagem para pontuar movimento de uma parede do coração | |
Cheng et al. | Improving estimation and prediction in linear regression incorporating external information from an established reduced model | |
US20220344009A1 (en) | Systems and Methods for Designing Efficient Randomized Trials Using Semiparametric Efficient Estimators for Power and Sample Size Calculation | |
JP2022546984A (ja) | 遺伝子データを解析するためのコンピュータ実装方法および装置 | |
CN109785971B (zh) | 一种基于先验医学知识的疾病风险预测方法 | |
US20230352138A1 (en) | Systems and Methods for Adjusting Randomized Experiment Parameters for Prognostic Models | |
Kapelner et al. | Evaluating the effectiveness of personalized medicine with software | |
Gharibvand et al. | Analysis of survival data with clustered events | |
Lawless et al. | Estimation of prediction error for survival models | |
JP5280735B2 (ja) | Peg施行患者の予後の予測装置、及びpeg施行患者の予後の予測プログラム | |
Helmreich et al. | PSAgraphics: An R package to support propensity score analysis | |
Hajage et al. | Estimation of conditional and marginal odds ratios using the prognostic score | |
Chattopadhyay et al. | lmw: Linear model weights for causal inference | |
Luo et al. | DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime | |
WO2023212734A1 (en) | Systems and methods for adjusting randomized experiment parameters for prognostic models | |
CN113539517B (zh) | 时序干预效果的预测方法 | |
Zhao et al. | Constructing stabilized dynamic treatment regimes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |