CN112863622A - 利用历史对照数据的双稳健临床试验数据处理方法及系统 - Google Patents

利用历史对照数据的双稳健临床试验数据处理方法及系统 Download PDF

Info

Publication number
CN112863622A
CN112863622A CN202110063096.6A CN202110063096A CN112863622A CN 112863622 A CN112863622 A CN 112863622A CN 202110063096 A CN202110063096 A CN 202110063096A CN 112863622 A CN112863622 A CN 112863622A
Authority
CN
China
Prior art keywords
model
clinical
mean
historical
data sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110063096.6A
Other languages
English (en)
Other versions
CN112863622B (zh
Inventor
周晓华
苗旺
李新宇
陆芳
赵阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiyuan Hospital China Academy Of Chinese Medical Sciences
Peking University
Original Assignee
Xiyuan Hospital China Academy Of Chinese Medical Sciences
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiyuan Hospital China Academy Of Chinese Medical Sciences, Peking University filed Critical Xiyuan Hospital China Academy Of Chinese Medical Sciences
Priority to CN202110063096.6A priority Critical patent/CN112863622B/zh
Publication of CN112863622A publication Critical patent/CN112863622A/zh
Application granted granted Critical
Publication of CN112863622B publication Critical patent/CN112863622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Epidemiology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种利用历史对照数据的双稳健临床试验数据处理方法及系统,属于医学数据处理技术领域,解决了现有临床试验数据处理方法依赖模型设定和人群同质性假定、效率低且精度差等问题。该方法包括,获取临床试验数据样本和历史对照数据样本;分别处理获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;并利用双稳健估计方法获得临床试验的平均因果作用估计值和其渐进方差估计值,进而判定是否存在平均因果作用。该方法引入历史对照数据能够提高药效推断结果的准确率和精度,具备良好的稳健性、灵活性和拓展性。

Description

利用历史对照数据的双稳健临床试验数据处理方法及系统
技术领域
本发明涉及医学数据处理技术领域,尤其涉及一种利用历史对照数据的双稳健临床试验数据处理方法及系统。
背景技术
现有技术中,通常通过临床试验研究某种新药是否比标准治疗方案或安慰剂有着更好的疗效。在临床试验中,由于较高昂的试验成本等,样本量往往成为限制因果推断效率和精度最主要的因素之一。尤其是对于罕见疾病,可招募到的受试患者数量较少,临床试验更倾向于分配患者接受新药治疗,使得对照样本缺乏,限制了推断效率和精度。而在历史试验和真实世界中经常存在着大量的对照数据,如以往在标准方案下的治疗案例和记录。这些历史对照数据有着帮助提高因果推断效率的巨大潜力。
自1976年以来,如何利用历史对照数据来提高临床试验中的推断效率一直是研究的热点。美国食品药品管理局(FDA)也在指导文件中多次提及对历史对照数据的利用。直接将历史数据和临床试验数据结合在一起往往会给估计带来偏差,这是因为不同数据之间的代表人群存在着异质性,特别是当历史对照数据来源于真实世界时。传统方法,如频率学派方法、传统贝叶斯方法和Meta-analysis方法等,需要依赖历史数据和临床试验数据的代表人群具有某种程度的同质性,并没有充分利用协变量的信息来彻底消除异质性偏差,而且这类方法往往对工作模型(通常是线性模型等参数模型)的正确设定有着较强的依赖性。另一类方法如匹配方法,虽然充分利用了协变量的信息,但会舍弃或未充分利用某些样本,这使得推断效率和精度会有所降低。匹配方法也会改变因果推断所依赖的人群总体,同时当协变量维度较大时,匹配方法的效果往往不好,若使用倾向得分匹配,则依赖于模型设定和更强的人群同质性假定。
现有技术至少存在以下缺陷,一是现有方法将历史对照试验数据和临床试验数据结合使用时,需要依赖历史数据和临床试验数据的代表人群具有某种程度的同质性,未充分利用协变量以消除人群的异质性,且对设置的工作模型(通常是线性模型等参数模型)的正确设定具有依赖性;二是非参数的匹配方法虽然有助于缓解人群异质性问题和模型设定问题,但该方法未充分利用历史对照数据和临床试验数据的全部信息,一定程度上限制了因果推断效率和精度的提升,此外,当协变量维度较大时,匹配方法的效果往往不好,且该方法改变了推断基于的人群总体。
发明内容
鉴于上述的分析,本发明旨在提供一种利用历史对照数据的双稳健临床试验数据处理方法及系统,用以解决现有技术中未充分消除人群异质性带来的偏差、过于依赖模型设定以及未充分利用数据提高推断精度的问题。
一方面,本发明提供了一种利用历史对照数据的双稳健临床试验数据处理方法,包括以下步骤:
获取临床试验数据样本和历史对照数据样本,所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
进一步的,具体包括:
基于所述临床处理组数据样本,建立临床处理组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的临床处理组结果变量的处理组条件均值模型,以表征临床处理组结果变量的条件均值;
基于所述临床对照组数据样本和历史对照组数据样本,建立对照组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的对照组结果变量的对照组条件均值模型,以表征对照组结果变量的条件均值。
进一步的,基于所述临床试验数据样本,建立给定协变量对应的处理分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得处理分配倾向得分模型,以表征处理分配倾向得分。
进一步的,基于所述临床试验数据样本和历史对照数据样本,建立给定协变量对应的人群分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得人群分配倾向得分模型,以表征人群分配倾向得分。
进一步的,基于临床对照组数据样本,建立临床对照组结果变量关于协变量的第一条件方差函数;
基于历史对照组数据样本,建立历史对照组结果变量关于协变量的第二条件方差函数;
利用预设工作模型拟合所述第一条件方差函数和第二条件方差函数的比值,获得对应的条件方差比值模型,以表征条件方差比值。
进一步的,通过下述公式获得临床试验的平均因果作用估计值:
Figure BDA0002903072760000041
其中,
Figure BDA0002903072760000042
表示临床试验的平均因果作用τ的估计值,X表示协变量,Y表示临床试验结果变量;T表示处理分配,其中,T=1表示处理组,T=0表示对照组;D表示数据样本来源,其中,D=1表示来源于临床试验,D=0表示来源于历史对照,
Figure BDA0002903072760000043
表示经验算子;
Figure BDA0002903072760000044
表示处理组条件均值模型,
Figure BDA0002903072760000045
表示对照组条件均值模型,
Figure BDA0002903072760000046
表示处理分配倾向得分模型,
Figure BDA0002903072760000047
表示人群分配倾向得分模型,
Figure BDA0002903072760000048
表示条件方差比值模型,
Figure BDA0002903072760000049
表示临床试验数据样本占比,
Figure BDA00029030727600000410
均表示残差,其中,
Figure BDA00029030727600000411
进一步的,通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
Figure BDA00029030727600000412
其中,
Figure BDA00029030727600000413
表示平均因果作用估计值的渐进方差估计值。
进一步的,当所述临床试验数据样本只包括临床处理组数据样本时,通过下述公式估计获得临床试验的平均因果作用估计值:
Figure BDA00029030727600000414
通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
Figure BDA0002903072760000051
其中,
Figure BDA0002903072760000052
表示临床试验的平均因果作用估计值,
Figure BDA0002903072760000053
表示平均因果作用估计值的渐进方差估计值,X表示协变量,D表示数据样本来源,其中,D=1表示来源于临床试验,D=0表示来源于历史对照,
Figure BDA0002903072760000054
表示经验算子,
Figure BDA0002903072760000055
表示临床试验数据样本占比,
Figure BDA0002903072760000056
表示人群分配倾向得分模型,
Figure BDA0002903072760000057
表示残差。
进一步的,通过下述方式判定是否存在平均因果作用:
设定原假设:τ=0,表示不存在平均因果作用;设定备择假设:τ≠0,表示存在平均因果作用,并设置显著水平值α;
构造检验统计量:
Figure BDA0002903072760000058
通过下述公式计算p值:
p=2×(1-Φ(|z|)),
其中,n表示临床试验数据样本和历史对照数据样本的总样本量,Φ(·)表示标准正态分布累积分布函数;
当p≤α,表示在设置的显著性水平值α下,原假设不成立;否则,不能否定原假设。
另一方面,本发明提供了一种利用历史对照数据的双稳健临床试验数据处理系统,包括:
数据处理模块,用于获取临床试验数据样本和历史对照数据样本;所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
模型建立模块,用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
平均因果作用判定模块,用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
还用于,基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于临床对照组数据样本、临床处理组数据样本、历史对照数据样本以及以及预设工作模型拟合处理组结果变量条件均值、对照组结果变量条件均值、处理分配倾向得分、人群分配倾向得分以及条件方差比值,并采用双稳健方法获得平均因果作用估计值,进而根据其渐进方差确定平均因果作用的估计精度,能够消除人群异质性所带来的偏差,且降低对单一模型正确设定的依赖性,有着稳健的性质。同时该方法能有效利用临床试验数据样本和历史数据样本,当模型正确设定时,渐进方差可达半参数方差下界,进而提高了因果推断的效率和结果判定的精度。
2、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统中,预设工作模型的选用具有极大的灵活性,除了选用传统的参数模型之外,还可以利用机器学习模型,如随机森林模型、深度神经网络模型等。
3、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于提出的双稳健估计方法能够量化利用历史对照数据样本所能带来的效率提升,从而为计算额外所需的历史数据样本数量以及试验设计提供一定的理论依据和支撑。
4、本发明提出的临床试验数据处理方法有着很好的拓展性,一方面,能够有效处理没有临床对照数据、临床试验结果变量满足分布可交换性等特殊情况;另一方面,还能够应用于稳健估计总体人群上的平均因果作用、历史对照组人群上的平均因果作用等其他目标参数。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例利用历史对照数据的双稳健临床试验数据处理方法的流程图;
图2为本发明实施例利用历史对照数据的双稳健临床试验数据处理系统的示意图。
附图标记:
110-数据处理模块;120-模型建立模块;130-平均因果作用判定模块。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体实施例,公开了一种利用历史对照数据的双稳健临床试验数据处理方法。如图1所示,该方法包括以下步骤:
S110、获取临床试验数据样本和历史对照数据样本。其中,临床试验数据样本量为m,临床试验数据样本和历史对照数据样本的总样本量为n,该临床试验数据样本包括临床处理组数据样本和临床对照组数据样本。临床处理组数据样本为接受处理干预,即待评估药品,所对应的数据样本,对照组数据样本为接受对照干预,即安慰剂或标准治疗方案,所对应的数据样本,历史数据样本为与临床对照组使用相同药品等治疗方案的历史治疗数据,即历史对照组,该历史数据样本可来源于历史临床试验、真实世界的治疗方案或登记数据库。具体的,数据样本中均包括个体基本信息以及结果变量,其中,个体基本信息通常包括个体的性别、身高、体重、年龄、血压、受教育程度、职业、收入或既往病史等,即协变量。
优选的,设置Y为感兴趣的结果变量,即临床试验结果变量;T表示处理分配,T=1表示处理组,即接受处理干预的临床试验处理组,T=0表示对照组,即接受对照干预的临床试验对照组和历史对照组;D表示数据样本来源,D=1表示来源于临床试验,D=0表示来源于历史对照;X表示协变量。观测数据的形式可表示为O=(Y,T,D,X)。将个体接受处理T=t后所能观测到的结果称为潜在结果,记为Yt,t∈{0,1}。假定个体的潜在结果不受其他个体的影响,并且在每一种处理下每个个体只会有一个潜在结果,那么对每个个体,实际观察的结果变量Y可用潜在结果表示为Y=TY1+(1-T)Y0,感兴趣的目标参数为临床试验的平均因果作用,即τ=E(Y1-Y0|D=1)。
利用历史对照数据提高临床试验上平均因果作用的估计精度和推断效率,需要满足以下假定:
假定(i),可忽略性假定:(Y1,Y0)⊥D|X,即给定协变量,处理分配与潜在结果变量相独立。假定(ii),重叠假定:0<pr(T=1|D=1,X),且pr(T=0|D=1,X)+pr(D=0,X)>0,即个体分配在临床试验处理组的概率大于零,且分配在临床对照组和历史对照组中任意一组的概率也大于零。上述两条假定在随机化临床实验中都能够自然满足。基于历史对照数据,假定(ii)要比常见的重叠假定,即0<pr(T=1|D=1,X)<1要弱。假定(iii),均值可交换性假定:E(Y0|X,D=1)=E(Y0|X,D=0),即给定协变量,个体接受对照处理的结果条件期望均值在临床对照组和历史对照组是一致的。在满足假定(i)的情况下(如随机化临床实验),假定(iii)可等价地表示为E(Y|X,D=1,T=0)=E(Y|X,D=0),因而是可验证的。均值可交换性假定可由分布可交换性假定导出,其中分布可交换性假定是指Y0⊥D|X,即给定协变量,个体接受对照处理的结果不受该个体处于何组(即临床对照组或历史对照组)的影响。
S120、基于临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型。本发明中,实现平均因果作用估计n1/2的收敛速度,仅要求预设工作模型的收敛速度不低于n1/4即可,这使模型设定具有极大的灵活性。具体的,预设工作模型包括参数模型、半参数模型或非参数模型,优选的,可选用机器学习模型,该机器学习模型具体可以是随机森林模型、深度神经网络模型等。
S130、基于获得的处理组条件均值模型、对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型以及条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和平均因果作用估计值的渐进方差估计值。
S140、基于平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
优选的,步骤S120中,具体通过下述方式获得处理组条件均值模型和对照组条件均值模型:
基于临床处理组数据样本,建立临床处理组结果变量关于协变量的条件均值期望函数,即m1(X)=E(Y|X,T=1),并利用预设工作模型拟合该条件均值期望函数,获得对应的临床处理组结果变量的处理组条件均值模型
Figure BDA0002903072760000102
该处理组条件均值模型可以表征临床处理组结果变量的条件均值。
基于临床对照组数据样本和历史对照组数据样本,建立对照组结果变量关于协变量的条件均值期望函数,即m0(X)=E(Y|X,T=0),并利用预设工作模型拟合该条件均值期望函数,获得对应的对照组结果变量的对照组条件均值模型
Figure BDA0002903072760000103
该对照组条件均值模型可以表征对照组结果变量的条件均值。
优选的,通过下述方式获得处理分配倾向得分模型:
基于临床试验数据样本,建立给定协变量对应的处理分配倾向得分概率函数,即p(X)=pr(T=1|X,D=1),并利用预设工作模型拟合该概率函数,获得处理分配倾向得分模型
Figure BDA0002903072760000101
该得分模型能够表征,对于给定协变量,在临床试验数据样本中处理组的分配比列。
优选的,通过下述方式获得人群分配倾向得分模型:
基于临床试验数据样本和历史对照数据样本,建立给定协变量对应的人群分配倾向得分概率函数,即π(X)=pr(D=1|X),并利用预设工作模型拟合该得分函数,获得人群分配倾向得分模型
Figure BDA0002903072760000111
该得分模型能够表征,对于给定协变量,所述数据样本中临床试验组的分配比列。
优选的,通过下述方式获得条件方差比值模型:
基于临床对照组数据样本,建立临床对照组结果变量关于协变量的第一条件方差函数var(Y|X,D=1,T=0)。
基于历史对照组数据样本,建立历史对照组结果变量关于协变量的第二条件方差函数var(Y|X,D=0)。
利用预设工作模型拟合第一条件方差函数和第二条件方差函数的比值,即
Figure BDA0002903072760000112
以获得对应的条件方差比值模型
Figure BDA0002903072760000113
以表征条件方差比值。对于估计平均因果作用而言,方差比值r(X)并非必须设定模型并拟合,而是也可用指定的已知函数代替,示例性的,可以设定
Figure BDA0002903072760000114
优选的,称
Figure BDA0002903072760000115
为回归模型,
Figure BDA0002903072760000116
为倾向得分模型。
优选的,通过下述方式估计获得临床试验的平均因果作用估计值:
设置残差:
Figure BDA0002903072760000117
基于前述假定(i)-(iii),平均因果作用的半参数方差下界为Bτ=E{EIF(O,τ)2},其中,
Figure BDA0002903072760000118
即在假定(i)-(iii)约束下的非参数模型中,任何正则和渐进线性的估计量的渐进方差均不小于方差下界Bτ,其中τ为目标参数,其他函数均为冗余参数。
将EIF(O,τ)=0作为估计方程以求解平均因果作用估计值,具体公式为:
Figure BDA0002903072760000121
其中,
Figure BDA0002903072760000122
表示临床试验的平均因果作用τ的估计值;
Figure BDA0002903072760000123
表示经验算子,即
Figure BDA0002903072760000124
这里O(i)为O的第i个观测,h为观测数据的某个函数;
Figure BDA0002903072760000125
表示处理组条件均值模型,
Figure BDA0002903072760000126
表示对照组条件均值模型,
Figure BDA0002903072760000127
表示处理分配倾向得分模型,
Figure BDA0002903072760000128
表示人群分配倾向得分模型,
Figure BDA0002903072760000129
表示条件方差比值模型,
Figure BDA00029030727600001210
表示临床试验数据样本占比,
Figure BDA00029030727600001211
Figure BDA00029030727600001212
Figure BDA00029030727600001213
均表示残差,
Figure BDA00029030727600001214
具体的,当对模型
Figure BDA00029030727600001215
设定有信心时,可以用
Figure BDA00029030727600001216
代替
Figure BDA00029030727600001217
在假定(i)-(iii)的约束下,且回归模型
Figure BDA00029030727600001218
为正确设定的,或者倾向得分模型
Figure BDA00029030727600001219
为正确设定的条件下,采用上述方法计算获得的
Figure BDA00029030727600001220
即为平均因果作用的相合和渐进正太估计值。因此,本发明提出的数据处理方法具有双稳健的有益效果,即在满足任意一个条件下,即可获得可信的估计结果。双稳健的性质使得估计方法不再依赖于单一模型的正确设定。
此外,根据上述分析可知,条件方差比值模型
Figure BDA00029030727600001221
的正确设定与否不会影响最终获得的平均因果作用估计值的相合性,因此,在实际应用中,可以直接设定
Figure BDA00029030727600001222
为确定形式,示例性的,为了方便计算,可以设定
Figure BDA0002903072760000131
优选的,当回归模型、倾向得分模型和条件方差比值模型均为正确设定的,本发明提出的双稳健处理方法是半参数局部有效的,即
Figure BDA0002903072760000132
的渐进方差可以达到半参数方差下界Bτ
优选的,通过下述公式获得平均因果作用估计值
Figure BDA0002903072760000133
的渐进方差估计值:
Figure BDA0002903072760000134
其中,
Figure BDA0002903072760000135
表示平均因果作用估计值的渐进方差估计值,计算获得的渐进方差越小,临床试验的平均因果作用估计值的精度越高。
优选的,也可以利用非参数的Bootstrap方法获得平均因果作用估计值的渐进方差估计值。
基于前述的双稳健临床试验数据的处理方法,现对特殊情况下如何应用该数据处理方法进行处理加以说明。
实施例1、临床试验数据样本只包括临床处理组数据样本(不包含临床对照组数据样本)
在该特殊情况下,可以在公式(1)的基础上,设置
Figure BDA0002903072760000136
表示var(Y|X,D=1,T=0)足够大,从而可以忽略临床对照组,进而获得下述公式以计算平均因果作用估计值:
Figure BDA0002903072760000137
并通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
Figure BDA0002903072760000138
其中,
Figure BDA0002903072760000141
表示临床试验的平均因果作用估计值,
Figure BDA0002903072760000142
表示平均因果作用估计值的渐进方差估计值,X表示协变量,D=1表示临床试验,D=0表示历史对照,
Figure BDA0002903072760000143
表示经验算子,
Figure BDA0002903072760000144
表示临床试验数据样本占比,
Figure BDA0002903072760000145
表示人群分配倾向得分模型,
Figure BDA0002903072760000146
表示残差。
实施例2、缺乏历史对照数据样本
在该特殊情况下,
Figure BDA0002903072760000147
m=n。优选的,可以在公式(1)的基础上,设置
Figure BDA0002903072760000148
表示var(Y|X,D=0)足够大,从而可以忽略历史对照数据,进而获得下述公式以计算平均因果作用估计值:
Figure BDA0002903072760000149
并通过下述公式获得平均因果作用估计值的渐进方差估计值:
Figure BDA00029030727600001410
实施例3、结果变量Y为二值的,或者分布可交换假定Y0⊥D|X成立
在该特殊情况下,条件方差比值r(X)已知,即r(X)=1,在公式(1)的基础上可以获得下述公式以计算平均因果作用估计值:
Figure BDA00029030727600001411
并通过下述公式计算获得平均因果作用估计值的渐进方差估计值:
Figure BDA00029030727600001412
实施例4、仅利用回归模型
在公式(1)的基础上,可以获得下述公式以计算获得平均因果作用估计值:
Figure BDA00029030727600001413
实施例5、仅利用倾向得分模型
在公式(1)的基础上,可以获得下述公式以计算获得平均因果作用估计值:
Figure BDA0002903072760000151
优选的,对于实施例4和5,均可以通过M估计方法或非参数Bootstrap方法获得平均因果作用估计值的渐进方差估计值。
优选的,通过假设检验的方法判定是否存在平均因果作用:
设定原假设:τ=0,表示不存在平均因果作用;设定备择假设:τ≠0,表示存在平均因果作用,并设置显著水平值为α,示例性的,α可以取值为0.05;
构造检验统计量:
Figure BDA0002903072760000152
通过下述公式计算p值:
p=2×(1-Φ(|z|)),
其中,n表示临床试验数据样本和历史对照数据样本的总样本量,Φ(·)表示标准正态分布累积分布函数;
当p≤α,表示在设置的显著性水平值α下,原假设不成立,即存在平均因果作用;否则,不能否定原假设。
优选的,基于上述假设,还可以通过构建置信区间的方法判定是否存在平均因果作用。具体的,构建的1-α置信区间范围为:
Figure BDA0002903072760000153
其中,
Figure BDA0002903072760000161
表示标准正态分布的上
Figure BDA0002903072760000162
分位数点,该置信区间表示平均因果作用真值所在的区间,当该置信区间不包含0时,否定原假设。示例性的,取α为0.05,则95%的置信区间为:
Figure BDA0002903072760000163
即有95%的信心平均因果作用的真值在该区间中。
此外,本发明提出的双稳健临床试验数据处理方法还可以用于计算需要引入的历史对照数据样本量,以为临床试验的设计提供数据依据。
根据实施例2可知,相较于没有利用历史对照数据获得的平均因果作用估计值,基于全部样本数据的平均因果作用估计值有更小的渐进方差。已知基于全部样本数据的平均因果作用估计值的渐进方差可达方差下界Bτ,记没有利用额外对照数据获得的平均因果作用的估计值的渐进方差下界可达
Figure BDA0002903072760000164
则有:
Figure BDA0002903072760000165
当利用的数据包括历史对照数据时,该项总是正的,表明利用历史对照数据获得的平均因果作用的渐进方差可达的方差下界更低,可以提高药效推断精度。
示例性的,如下随机化临床试验,其中,处理组是以常数概率p(X)=p随机分配的,而且满足以下条件,var(Y1|X,D=1)=var(Y0|X,D=1),且m1(X)-m0(X)=τ、r(X)=r、π(X)=π均为常数,则有:
Figure BDA0002903072760000166
当π趋于0,或者r趋于无穷大时,该比值逐渐降低,且最优可达到1-p,表示引入越多的历史对照数据越有利于提高推断效率。基于该公式,在临床试验数据样本的基础上,可以计算出要达到目标推断精度Bτ所需要的参数π,从而能够估算所需的历史对照数据样本量。
在进行临床试验之前便可获取历史对照数据样本的情况下,可以通过在临床试验设计中,选用能够有效降低Bτ的处理分配机制,即处理组分配倾向得分p(X),以提高平均因果作用推断精度。
在上述随机临床试验中,给定协变量,若设定了r=1,那么极小化Bτ对应的参数p为
Figure BDA0002903072760000171
表明当存在历史对照数据时,在临床试验的设计中相应地分配更多个体至处理组,可以提高估计精度和推断效率。
此外,本发明提出的双稳健临床试验数据处理方法还可以应用到获取总体人群(包括临床试验组和历史对照组)上的平均因果作用ψ=E(Y1-Y0),以及历史对照人群上的平均因果作用ζ=E(Y1-Y0|D=0)。
具体通过下述公式分别计算其对应的平均因果作用估计值:
Figure BDA0002903072760000172
Figure BDA0002903072760000173
并通过下述公式分别计算其对应的平均因果作用估计值的渐进方差估计值:
Figure BDA0002903072760000174
Figure BDA0002903072760000181
在满足假定(i)-(iii)以及如下两个假定的情况下:
假定(iv):E(Y1|X,D=1)=E(Y1|X,D=0);
假定(v):0<π(x)<1。
若回归模型
Figure BDA0002903072760000182
或者倾向得分模型
Figure BDA0002903072760000183
为正确设定的,则
Figure BDA0002903072760000184
即分别为平均因果作用ψ、ζ的相合和渐进正太估计值,即也具备双稳健性质。
本发明的另一个实施例,公开了一种利用历史对照数据的双稳健临床试验数据处理系统。
由于该实施例公开的系统与上述方法的原理相同,因此重复之处可以参数上述方法实施例,在此不再赘述。
具体的,如图2所述,该系统包括:
数据处理模块110,用于获取临床试验数据样本和历史对照数据样本;所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本。
模型建立模块120,用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型。
平均因果作用判定模块130,用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值。
还用于,基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
与现有技术相比,本发明实施例公开的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于临床对照组数据样本、临床处理组数据样本、历史对照数据样本以及预设工作模型拟合处理组结果变量条件均值、对照组结果变量条件均值、处理分配倾向得分、人群分配倾向得分以及条件方差比值,并采用双稳健方法获得平均因果作用估计值,进而根据其渐进方差确定平均因果作用的估计精度,能够消除人群异质性所带来的偏差,且降低对单一模型正确设定的依赖性,有着稳健的性质。同时,该方法能有效利用临床试验数据样本和历史数据样本,当模型正确设定时,渐进方差可达半参数方差下界,进而提高了因果推断的效率和结果判定的精度。其次,本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统中,预设工作模型的选用具有极大的灵活性,除了选用传统的参数模型之外,还可以利用机器学习模型,如随机森林模型、深度神经网络模型等。此外,本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统,基于提出的双稳健估计方法能够量化利用历史对照数据样本所能带来的效率提升,从而为计算额外所述的历史数据样本数量以及试验设计提供一定的理论依据和支撑。最后,本发明提出的临床试验数据处理方法有着很好的拓展性,一方面,能够有效处理没有临床对照数据、临床试验结果变量满足分布可交换性等特殊情况;另一方面,还能够应用于稳健估计总体人群上的平均因果作用、历史对照组人群上的平均因果作用等其目标参数。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种利用历史对照数据的双稳健临床试验数据处理方法,其特征在于,包括以下步骤:
获取临床试验数据样本和历史对照数据样本,所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
2.根据权利要求1所述的方法,其特征在于,具体包括:
基于所述临床处理组数据样本,建立临床处理组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的临床处理组结果变量的处理组条件均值模型,以表征临床处理组结果变量的条件均值;
基于所述临床对照组数据样本和历史对照组数据样本,建立对照组结果变量关于协变量的条件均值期望函数,并利用预设工作模型拟合该条件均值期望函数,获得对应的对照组结果变量的对照组条件均值模型,以表征对照组结果变量的条件均值。
3.根据权利要求1所述的方法,其特征在于,
基于所述临床试验数据样本,建立给定协变量对应的处理分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得处理分配倾向得分模型,以表征处理分配倾向得分。
4.根据权利要求1所述的方法,其特征在于,
基于所述临床试验数据样本和历史对照数据样本,建立给定协变量对应的人群分配倾向得分概率函数,并利用预设工作模型拟合该概率函数,获得人群分配倾向得分模型,以表征人群分配倾向得分。
5.根据权利要求1所述的方法,其特征在于,
基于临床对照组数据样本,建立临床对照组结果变量关于协变量的第一条件方差函数;
基于历史对照组数据样本,建立历史对照组结果变量关于协变量的第二条件方差函数;
利用预设工作模型拟合所述第一条件方差函数和第二条件方差函数的比值,获得对应的条件方差比值模型,以表征条件方差比值。
6.根据权利要求1-5任意一项所述的方法,其特征在于,通过下述公式获得临床试验的平均因果作用估计值:
Figure FDA0002903072750000021
其中,
Figure FDA0002903072750000022
表示临床试验的平均因果作用τ的估计值,X表示协变量,Y表示临床试验结果变量;T表示处理分配,其中,T=1表示处理组,T=0表示对照组;D表示数据样本来源,其中,D=1表示来源于临床试验,D=0表示来源于历史对照,
Figure FDA0002903072750000023
表示经验算子;
Figure FDA0002903072750000024
表示处理组条件均值模型,
Figure FDA0002903072750000025
表示对照组条件均值模型,
Figure FDA0002903072750000026
表示处理分配倾向得分模型,
Figure FDA0002903072750000027
表示人群分配倾向得分模型,
Figure FDA0002903072750000028
表示条件方差比值模型,
Figure FDA0002903072750000029
表示临床试验数据样本占比,
Figure FDA00029030727500000210
均表示残差,其中,
Figure FDA00029030727500000211
7.根据权利要求6所述的方法,其特征在于,通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
Figure FDA0002903072750000031
其中,
Figure FDA0002903072750000032
表示平均因果作用估计值的渐进方差估计值。
8.根据权利要求1所述的方法,其特征在于,当所述临床试验数据样本只包括临床处理组数据样本时,通过下述公式估计获得临床试验的平均因果作用估计值:
Figure FDA0002903072750000033
通过下述公式获得所述平均因果作用估计值的渐进方差估计值:
Figure FDA0002903072750000034
其中,
Figure FDA0002903072750000035
表示临床试验的平均因果作用估计值,
Figure FDA0002903072750000036
表示平均因果作用估计值的渐进方差估计值,X表示协变量,D表示数据样本来源,其中,D=1表示来源于临床试验,D=0表示来源于历史对照,
Figure FDA0002903072750000037
表示经验算子,
Figure FDA0002903072750000038
表示临床试验数据样本占比,
Figure FDA0002903072750000039
表示人群分配倾向得分模型,
Figure FDA00029030727500000310
表示残差。
9.根据权利要求1-5、7、8任一项所述的方法,其特征在于,通过下述方式判定是否存在平均因果作用:
设定原假设:τ=0,表示不存在平均因果作用;设定备择假设:τ≠0,表示存在平均因果作用,并设置显著水平值α;
构造检验统计量:
Figure FDA00029030727500000311
通过下述公式计算p值:
p=2×(1-Φ(|z|)),
其中,n表示临床试验数据样本和历史对照数据样本的总样本量,Φ(·)表示标准正态分布累积分布函数;
当p≤α,表示在设置的显著性水平值α下,原假设不成立;否则,不能否定原假设。
10.一种利用历史对照数据的双稳健临床试验数据处理系统,其特征在于,包括:
数据处理模块,用于获取临床试验数据样本和历史对照数据样本;所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本;
模型建立模块,用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型,获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型;
平均因果作用判定模块,用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型,利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值;
还用于,基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。
CN202110063096.6A 2021-01-18 2021-01-18 利用历史对照数据的双稳健临床试验数据处理方法及系统 Active CN112863622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110063096.6A CN112863622B (zh) 2021-01-18 2021-01-18 利用历史对照数据的双稳健临床试验数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110063096.6A CN112863622B (zh) 2021-01-18 2021-01-18 利用历史对照数据的双稳健临床试验数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN112863622A true CN112863622A (zh) 2021-05-28
CN112863622B CN112863622B (zh) 2024-03-22

Family

ID=76006521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110063096.6A Active CN112863622B (zh) 2021-01-18 2021-01-18 利用历史对照数据的双稳健临床试验数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN112863622B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4220650A1 (en) * 2022-02-01 2023-08-02 Unlearn.AI, Inc. Systems and methods for designing augmented randomized trials
CN117312881A (zh) * 2023-11-28 2023-12-29 北京大学 临床试验治疗效果评估方法、装置、设备及存储介质
US11868900B1 (en) 2023-02-22 2024-01-09 Unlearn.AI, Inc. Systems and methods for training predictive models that ignore missing features
US12020789B1 (en) 2023-02-17 2024-06-25 Unlearn.AI, Inc. Systems and methods enabling baseline prediction correction
US12051487B2 (en) 2019-08-23 2024-07-30 Unlearn.Al, Inc. Systems and methods for supplementing data with generative models

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802511A (zh) * 2009-06-12 2012-11-28 联合研究公司 医学治疗假设检验的系统和方法
CN110738591A (zh) * 2019-09-20 2020-01-31 哈尔滨工业大学(威海) 基于倾向值匹配的爬坡车道交通安全效益计算方法
CN111882066A (zh) * 2020-07-23 2020-11-03 浙江大学 基于深度表征学习的反事实推理设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102802511A (zh) * 2009-06-12 2012-11-28 联合研究公司 医学治疗假设检验的系统和方法
CN110738591A (zh) * 2019-09-20 2020-01-31 哈尔滨工业大学(威海) 基于倾向值匹配的爬坡车道交通安全效益计算方法
CN111882066A (zh) * 2020-07-23 2020-11-03 浙江大学 基于深度表征学习的反事实推理设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨伟 等: "GBM倾向评分加权法用于因果推断的研究", 世界科学技术-中医药现代化, vol. 19, no. 9, pages 1462 - 1472 *
苗旺 等: "On Varieties of Doubly Robust Estimators Under Missingness Not at Random With a Shadow Variable", STATISTICS, pages 1 - 8 *
苗旺 等: "因果推断的统计方法", 中国科学, vol. 48, no. 12, pages 1753 - 1778 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12051487B2 (en) 2019-08-23 2024-07-30 Unlearn.Al, Inc. Systems and methods for supplementing data with generative models
EP4220650A1 (en) * 2022-02-01 2023-08-02 Unlearn.AI, Inc. Systems and methods for designing augmented randomized trials
US12020789B1 (en) 2023-02-17 2024-06-25 Unlearn.AI, Inc. Systems and methods enabling baseline prediction correction
US11868900B1 (en) 2023-02-22 2024-01-09 Unlearn.AI, Inc. Systems and methods for training predictive models that ignore missing features
CN117312881A (zh) * 2023-11-28 2023-12-29 北京大学 临床试验治疗效果评估方法、装置、设备及存储介质
CN117312881B (zh) * 2023-11-28 2024-03-22 北京大学 临床试验治疗效果评估方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112863622B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN112863622A (zh) 利用历史对照数据的双稳健临床试验数据处理方法及系统
Rosenbaum Propensity score
Buzas et al. Measurement error
Lutz et al. Empirically and clinically useful decision making in psychotherapy: Differential predictions with treatment response models.
JP2001508573A (ja) 治療結果を予測する方法および装置
EP1941410A2 (en) Medical-risk stratifying method and system
JP2022544859A (ja) 生成モデルを用いてデータを補完するためのシステムおよび方法
US20220157413A1 (en) Systems and Methods for Designing Augmented Randomized Trials
BR112020011632A2 (pt) análise de imagem para pontuar movimento de uma parede do coração
Cheng et al. Improving estimation and prediction in linear regression incorporating external information from an established reduced model
US20220344009A1 (en) Systems and Methods for Designing Efficient Randomized Trials Using Semiparametric Efficient Estimators for Power and Sample Size Calculation
JP2022546984A (ja) 遺伝子データを解析するためのコンピュータ実装方法および装置
CN109785971B (zh) 一种基于先验医学知识的疾病风险预测方法
US20230352138A1 (en) Systems and Methods for Adjusting Randomized Experiment Parameters for Prognostic Models
Kapelner et al. Evaluating the effectiveness of personalized medicine with software
Gharibvand et al. Analysis of survival data with clustered events
Lawless et al. Estimation of prediction error for survival models
JP5280735B2 (ja) Peg施行患者の予後の予測装置、及びpeg施行患者の予後の予測プログラム
Helmreich et al. PSAgraphics: An R package to support propensity score analysis
Hajage et al. Estimation of conditional and marginal odds ratios using the prognostic score
Chattopadhyay et al. lmw: Linear model weights for causal inference
Luo et al. DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime
WO2023212734A1 (en) Systems and methods for adjusting randomized experiment parameters for prognostic models
CN113539517B (zh) 时序干预效果的预测方法
Zhao et al. Constructing stabilized dynamic treatment regimes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant