CN112863622A

CN112863622A - 利用历史对照数据的双稳健临床试验数据处理方法及系统

Info

Publication number: CN112863622A
Application number: CN202110063096.6A
Authority: CN
Inventors: 周晓华; 苗旺; 李新宇; 陆芳; 赵阳
Original assignee: Xiyuan Hospital China Academy Of Chinese Medical Sciences; Peking University
Current assignee: Xiyuan Hospital China Academy Of Chinese Medical Sciences; Peking University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-28
Anticipated expiration: 2041-01-18
Also published as: CN112863622B

Abstract

本发明涉及一种利用历史对照数据的双稳健临床试验数据处理方法及系统，属于医学数据处理技术领域，解决了现有临床试验数据处理方法依赖模型设定和人群同质性假定、效率低且精度差等问题。该方法包括，获取临床试验数据样本和历史对照数据样本；分别处理获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型；并利用双稳健估计方法获得临床试验的平均因果作用估计值和其渐进方差估计值，进而判定是否存在平均因果作用。该方法引入历史对照数据能够提高药效推断结果的准确率和精度，具备良好的稳健性、灵活性和拓展性。

Description

利用历史对照数据的双稳健临床试验数据处理方法及系统

技术领域

本发明涉及医学数据处理技术领域，尤其涉及一种利用历史对照数据的双稳健临床试验数据处理方法及系统。

背景技术

现有技术中，通常通过临床试验研究某种新药是否比标准治疗方案或安慰剂有着更好的疗效。在临床试验中，由于较高昂的试验成本等，样本量往往成为限制因果推断效率和精度最主要的因素之一。尤其是对于罕见疾病，可招募到的受试患者数量较少，临床试验更倾向于分配患者接受新药治疗，使得对照样本缺乏，限制了推断效率和精度。而在历史试验和真实世界中经常存在着大量的对照数据，如以往在标准方案下的治疗案例和记录。这些历史对照数据有着帮助提高因果推断效率的巨大潜力。

自1976年以来，如何利用历史对照数据来提高临床试验中的推断效率一直是研究的热点。美国食品药品管理局(FDA)也在指导文件中多次提及对历史对照数据的利用。直接将历史数据和临床试验数据结合在一起往往会给估计带来偏差，这是因为不同数据之间的代表人群存在着异质性，特别是当历史对照数据来源于真实世界时。传统方法，如频率学派方法、传统贝叶斯方法和Meta-analysis方法等，需要依赖历史数据和临床试验数据的代表人群具有某种程度的同质性，并没有充分利用协变量的信息来彻底消除异质性偏差，而且这类方法往往对工作模型(通常是线性模型等参数模型)的正确设定有着较强的依赖性。另一类方法如匹配方法，虽然充分利用了协变量的信息，但会舍弃或未充分利用某些样本，这使得推断效率和精度会有所降低。匹配方法也会改变因果推断所依赖的人群总体，同时当协变量维度较大时，匹配方法的效果往往不好，若使用倾向得分匹配，则依赖于模型设定和更强的人群同质性假定。

现有技术至少存在以下缺陷，一是现有方法将历史对照试验数据和临床试验数据结合使用时，需要依赖历史数据和临床试验数据的代表人群具有某种程度的同质性，未充分利用协变量以消除人群的异质性，且对设置的工作模型(通常是线性模型等参数模型)的正确设定具有依赖性；二是非参数的匹配方法虽然有助于缓解人群异质性问题和模型设定问题，但该方法未充分利用历史对照数据和临床试验数据的全部信息，一定程度上限制了因果推断效率和精度的提升，此外，当协变量维度较大时，匹配方法的效果往往不好，且该方法改变了推断基于的人群总体。

发明内容

鉴于上述的分析，本发明旨在提供一种利用历史对照数据的双稳健临床试验数据处理方法及系统，用以解决现有技术中未充分消除人群异质性带来的偏差、过于依赖模型设定以及未充分利用数据提高推断精度的问题。

一方面，本发明提供了一种利用历史对照数据的双稳健临床试验数据处理方法，包括以下步骤：

获取临床试验数据样本和历史对照数据样本，所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本；

基于所述临床试验数据样本、历史对照数据样本和预设工作模型，获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型；

基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型，利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值；

基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。

进一步的，具体包括：

基于所述临床处理组数据样本，建立临床处理组结果变量关于协变量的条件均值期望函数，并利用预设工作模型拟合该条件均值期望函数，获得对应的临床处理组结果变量的处理组条件均值模型，以表征临床处理组结果变量的条件均值；

基于所述临床对照组数据样本和历史对照组数据样本，建立对照组结果变量关于协变量的条件均值期望函数，并利用预设工作模型拟合该条件均值期望函数，获得对应的对照组结果变量的对照组条件均值模型，以表征对照组结果变量的条件均值。

进一步的，基于所述临床试验数据样本，建立给定协变量对应的处理分配倾向得分概率函数，并利用预设工作模型拟合该概率函数，获得处理分配倾向得分模型，以表征处理分配倾向得分。

进一步的，基于所述临床试验数据样本和历史对照数据样本，建立给定协变量对应的人群分配倾向得分概率函数，并利用预设工作模型拟合该概率函数，获得人群分配倾向得分模型，以表征人群分配倾向得分。

进一步的，基于临床对照组数据样本，建立临床对照组结果变量关于协变量的第一条件方差函数；

基于历史对照组数据样本，建立历史对照组结果变量关于协变量的第二条件方差函数；

利用预设工作模型拟合所述第一条件方差函数和第二条件方差函数的比值，获得对应的条件方差比值模型，以表征条件方差比值。

进一步的，通过下述公式获得临床试验的平均因果作用估计值：

其中，

表示临床试验的平均因果作用τ的估计值，X表示协变量，Y表示临床试验结果变量；T表示处理分配，其中，T＝1表示处理组，T＝0表示对照组；D表示数据样本来源，其中，D＝1表示来源于临床试验，D＝0表示来源于历史对照，

表示经验算子；

表示处理组条件均值模型，

表示对照组条件均值模型，

表示处理分配倾向得分模型，

表示人群分配倾向得分模型，

表示条件方差比值模型，

表示临床试验数据样本占比，

均表示残差，其中，

进一步的，通过下述公式获得所述平均因果作用估计值的渐进方差估计值：

其中，

表示平均因果作用估计值的渐进方差估计值。

进一步的，当所述临床试验数据样本只包括临床处理组数据样本时，通过下述公式估计获得临床试验的平均因果作用估计值：

通过下述公式获得所述平均因果作用估计值的渐进方差估计值：

其中，

表示临床试验的平均因果作用估计值，

表示平均因果作用估计值的渐进方差估计值，X表示协变量，D表示数据样本来源，其中，D＝1表示来源于临床试验，D＝0表示来源于历史对照，

表示经验算子，

表示临床试验数据样本占比，

表示人群分配倾向得分模型，

表示残差。

进一步的，通过下述方式判定是否存在平均因果作用：

设定原假设：τ＝0，表示不存在平均因果作用；设定备择假设：τ≠0，表示存在平均因果作用，并设置显著水平值α；

构造检验统计量：

通过下述公式计算p值：

p＝2×(1-Φ(|z|))，

其中，n表示临床试验数据样本和历史对照数据样本的总样本量，Φ(·)表示标准正态分布累积分布函数；

当p≤α，表示在设置的显著性水平值α下，原假设不成立；否则，不能否定原假设。

另一方面，本发明提供了一种利用历史对照数据的双稳健临床试验数据处理系统，包括：

数据处理模块，用于获取临床试验数据样本和历史对照数据样本；所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本；

模型建立模块，用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型，获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型；

平均因果作用判定模块，用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型，利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值；

还用于，基于所述平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统，基于临床对照组数据样本、临床处理组数据样本、历史对照数据样本以及以及预设工作模型拟合处理组结果变量条件均值、对照组结果变量条件均值、处理分配倾向得分、人群分配倾向得分以及条件方差比值，并采用双稳健方法获得平均因果作用估计值，进而根据其渐进方差确定平均因果作用的估计精度，能够消除人群异质性所带来的偏差，且降低对单一模型正确设定的依赖性，有着稳健的性质。同时该方法能有效利用临床试验数据样本和历史数据样本，当模型正确设定时，渐进方差可达半参数方差下界，进而提高了因果推断的效率和结果判定的精度。

2、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统中，预设工作模型的选用具有极大的灵活性，除了选用传统的参数模型之外，还可以利用机器学习模型，如随机森林模型、深度神经网络模型等。

3、本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统，基于提出的双稳健估计方法能够量化利用历史对照数据样本所能带来的效率提升，从而为计算额外所需的历史数据样本数量以及试验设计提供一定的理论依据和支撑。

4、本发明提出的临床试验数据处理方法有着很好的拓展性，一方面，能够有效处理没有临床对照数据、临床试验结果变量满足分布可交换性等特殊情况；另一方面，还能够应用于稳健估计总体人群上的平均因果作用、历史对照组人群上的平均因果作用等其他目标参数。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例利用历史对照数据的双稳健临床试验数据处理方法的流程图；

图2为本发明实施例利用历史对照数据的双稳健临床试验数据处理系统的示意图。

附图标记：

110-数据处理模块；120-模型建立模块；130-平均因果作用判定模块。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种利用历史对照数据的双稳健临床试验数据处理方法。如图1所示，该方法包括以下步骤：

S110、获取临床试验数据样本和历史对照数据样本。其中，临床试验数据样本量为m，临床试验数据样本和历史对照数据样本的总样本量为n，该临床试验数据样本包括临床处理组数据样本和临床对照组数据样本。临床处理组数据样本为接受处理干预，即待评估药品，所对应的数据样本，对照组数据样本为接受对照干预，即安慰剂或标准治疗方案，所对应的数据样本，历史数据样本为与临床对照组使用相同药品等治疗方案的历史治疗数据，即历史对照组，该历史数据样本可来源于历史临床试验、真实世界的治疗方案或登记数据库。具体的，数据样本中均包括个体基本信息以及结果变量，其中，个体基本信息通常包括个体的性别、身高、体重、年龄、血压、受教育程度、职业、收入或既往病史等，即协变量。

优选的，设置Y为感兴趣的结果变量，即临床试验结果变量；T表示处理分配，T＝1表示处理组，即接受处理干预的临床试验处理组，T＝0表示对照组，即接受对照干预的临床试验对照组和历史对照组；D表示数据样本来源，D＝1表示来源于临床试验，D＝0表示来源于历史对照；X表示协变量。观测数据的形式可表示为O＝(Y,T,D,X)。将个体接受处理T＝t后所能观测到的结果称为潜在结果，记为Y_t，t∈{0,1}。假定个体的潜在结果不受其他个体的影响，并且在每一种处理下每个个体只会有一个潜在结果，那么对每个个体，实际观察的结果变量Y可用潜在结果表示为Y＝TY₁+(1-T)Y₀，感兴趣的目标参数为临床试验的平均因果作用，即τ＝E(Y₁-Y₀|D＝1)。

利用历史对照数据提高临床试验上平均因果作用的估计精度和推断效率，需要满足以下假定：

假定(i)，可忽略性假定：(Y₁,Y₀)⊥D|X，即给定协变量，处理分配与潜在结果变量相独立。假定(ii)，重叠假定：0＜pr(T＝1|D＝1,X)，且pr(T＝0|D＝1,X)+pr(D＝0,X)＞0，即个体分配在临床试验处理组的概率大于零，且分配在临床对照组和历史对照组中任意一组的概率也大于零。上述两条假定在随机化临床实验中都能够自然满足。基于历史对照数据，假定(ii)要比常见的重叠假定，即0＜pr(T＝1|D＝1,X)＜1要弱。假定(iii)，均值可交换性假定：E(Y₀|X,D＝1)＝E(Y₀|X,D＝0)，即给定协变量，个体接受对照处理的结果条件期望均值在临床对照组和历史对照组是一致的。在满足假定(i)的情况下(如随机化临床实验)，假定(iii)可等价地表示为E(Y|X,D＝1,T＝0)＝E(Y|X,D＝0)，因而是可验证的。均值可交换性假定可由分布可交换性假定导出，其中分布可交换性假定是指Y₀⊥D|X，即给定协变量，个体接受对照处理的结果不受该个体处于何组(即临床对照组或历史对照组)的影响。

S120、基于临床试验数据样本、历史对照数据样本和预设工作模型，获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型。本发明中，实现平均因果作用估计n^1/2的收敛速度，仅要求预设工作模型的收敛速度不低于n^1/4即可，这使模型设定具有极大的灵活性。具体的，预设工作模型包括参数模型、半参数模型或非参数模型，优选的，可选用机器学习模型，该机器学习模型具体可以是随机森林模型、深度神经网络模型等。

S130、基于获得的处理组条件均值模型、对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型以及条件方差比值模型，利用双稳健估计方法获得临床试验的平均因果作用估计值和平均因果作用估计值的渐进方差估计值。

S140、基于平均因果作用估计值和其渐进方差估计值通过假设检验判定是否存在平均因果作用。

优选的，步骤S120中，具体通过下述方式获得处理组条件均值模型和对照组条件均值模型：

基于临床处理组数据样本，建立临床处理组结果变量关于协变量的条件均值期望函数，即m₁(X)＝E(Y|X,T＝1)，并利用预设工作模型拟合该条件均值期望函数，获得对应的临床处理组结果变量的处理组条件均值模型

该处理组条件均值模型可以表征临床处理组结果变量的条件均值。

基于临床对照组数据样本和历史对照组数据样本，建立对照组结果变量关于协变量的条件均值期望函数，即m₀(X)＝E(Y|X,T＝0)，并利用预设工作模型拟合该条件均值期望函数，获得对应的对照组结果变量的对照组条件均值模型

该对照组条件均值模型可以表征对照组结果变量的条件均值。

优选的，通过下述方式获得处理分配倾向得分模型：

基于临床试验数据样本，建立给定协变量对应的处理分配倾向得分概率函数，即p(X)＝pr(T＝1|X,D＝1)，并利用预设工作模型拟合该概率函数，获得处理分配倾向得分模型

该得分模型能够表征，对于给定协变量，在临床试验数据样本中处理组的分配比列。

优选的，通过下述方式获得人群分配倾向得分模型：

基于临床试验数据样本和历史对照数据样本，建立给定协变量对应的人群分配倾向得分概率函数，即π(X)＝pr(D＝1|X)，并利用预设工作模型拟合该得分函数，获得人群分配倾向得分模型

该得分模型能够表征，对于给定协变量，所述数据样本中临床试验组的分配比列。

优选的，通过下述方式获得条件方差比值模型：

基于临床对照组数据样本，建立临床对照组结果变量关于协变量的第一条件方差函数var(Y|X,D＝1,T＝0)。

基于历史对照组数据样本，建立历史对照组结果变量关于协变量的第二条件方差函数var(Y|X,D＝0)。

利用预设工作模型拟合第一条件方差函数和第二条件方差函数的比值，即

以获得对应的条件方差比值模型

以表征条件方差比值。对于估计平均因果作用而言，方差比值r(X)并非必须设定模型并拟合，而是也可用指定的已知函数代替，示例性的，可以设定

优选的，称

为回归模型，

为倾向得分模型。

优选的，通过下述方式估计获得临床试验的平均因果作用估计值：

设置残差：

基于前述假定(i)-(iii)，平均因果作用的半参数方差下界为B_τ＝E{EIF(O,τ)²}，其中，

即在假定(i)-(iii)约束下的非参数模型中，任何正则和渐进线性的估计量的渐进方差均不小于方差下界B_τ，其中τ为目标参数，其他函数均为冗余参数。

将EIF(O,τ)＝0作为估计方程以求解平均因果作用估计值，具体公式为：

其中，

表示临床试验的平均因果作用τ的估计值；

表示经验算子，即

这里O(i)为O的第i个观测，h为观测数据的某个函数；

表示处理组条件均值模型，

表示对照组条件均值模型，

表示处理分配倾向得分模型，

表示人群分配倾向得分模型，

表示条件方差比值模型，

表示临床试验数据样本占比，

均表示残差，

具体的，当对模型

设定有信心时，可以用

代替

在假定(i)-(iii)的约束下，且回归模型

为正确设定的，或者倾向得分模型

为正确设定的条件下，采用上述方法计算获得的

即为平均因果作用的相合和渐进正太估计值。因此，本发明提出的数据处理方法具有双稳健的有益效果，即在满足任意一个条件下，即可获得可信的估计结果。双稳健的性质使得估计方法不再依赖于单一模型的正确设定。

此外，根据上述分析可知，条件方差比值模型

的正确设定与否不会影响最终获得的平均因果作用估计值的相合性，因此，在实际应用中，可以直接设定

为确定形式，示例性的，为了方便计算，可以设定

优选的，当回归模型、倾向得分模型和条件方差比值模型均为正确设定的，本发明提出的双稳健处理方法是半参数局部有效的，即

的渐进方差可以达到半参数方差下界B_τ。

优选的，通过下述公式获得平均因果作用估计值

的渐进方差估计值：

其中，

表示平均因果作用估计值的渐进方差估计值，计算获得的渐进方差越小，临床试验的平均因果作用估计值的精度越高。

优选的，也可以利用非参数的Bootstrap方法获得平均因果作用估计值的渐进方差估计值。

基于前述的双稳健临床试验数据的处理方法，现对特殊情况下如何应用该数据处理方法进行处理加以说明。

实施例1、临床试验数据样本只包括临床处理组数据样本(不包含临床对照组数据样本)

在该特殊情况下，可以在公式(1)的基础上，设置

表示var(Y|X,D＝1,T＝0)足够大，从而可以忽略临床对照组，进而获得下述公式以计算平均因果作用估计值：

并通过下述公式获得所述平均因果作用估计值的渐进方差估计值：

其中，

表示临床试验的平均因果作用估计值，

表示平均因果作用估计值的渐进方差估计值，X表示协变量，D＝1表示临床试验，D＝0表示历史对照，

表示经验算子，

表示临床试验数据样本占比，

表示人群分配倾向得分模型，

表示残差。

实施例2、缺乏历史对照数据样本

在该特殊情况下，

m＝n。优选的，可以在公式(1)的基础上，设置

表示var(Y|X,D＝0)足够大，从而可以忽略历史对照数据，进而获得下述公式以计算平均因果作用估计值：

并通过下述公式获得平均因果作用估计值的渐进方差估计值：

实施例3、结果变量Y为二值的，或者分布可交换假定Y₀⊥D|X成立

在该特殊情况下，条件方差比值r(X)已知，即r(X)＝1，在公式(1)的基础上可以获得下述公式以计算平均因果作用估计值：

并通过下述公式计算获得平均因果作用估计值的渐进方差估计值：

实施例4、仅利用回归模型

在公式(1)的基础上，可以获得下述公式以计算获得平均因果作用估计值：

实施例5、仅利用倾向得分模型

优选的，对于实施例4和5，均可以通过M估计方法或非参数Bootstrap方法获得平均因果作用估计值的渐进方差估计值。

优选的，通过假设检验的方法判定是否存在平均因果作用：

设定原假设：τ＝0，表示不存在平均因果作用；设定备择假设：τ≠0，表示存在平均因果作用，并设置显著水平值为α，示例性的，α可以取值为0.05；

构造检验统计量：

通过下述公式计算p值：

p＝2×(1-Φ(|z|))，

当p≤α，表示在设置的显著性水平值α下，原假设不成立，即存在平均因果作用；否则，不能否定原假设。

优选的，基于上述假设，还可以通过构建置信区间的方法判定是否存在平均因果作用。具体的，构建的1-α置信区间范围为：

其中，

表示标准正态分布的上

分位数点，该置信区间表示平均因果作用真值所在的区间，当该置信区间不包含0时，否定原假设。示例性的，取α为0.05，则95％的置信区间为：

即有95％的信心平均因果作用的真值在该区间中。

此外，本发明提出的双稳健临床试验数据处理方法还可以用于计算需要引入的历史对照数据样本量，以为临床试验的设计提供数据依据。

根据实施例2可知，相较于没有利用历史对照数据获得的平均因果作用估计值，基于全部样本数据的平均因果作用估计值有更小的渐进方差。已知基于全部样本数据的平均因果作用估计值的渐进方差可达方差下界B_τ，记没有利用额外对照数据获得的平均因果作用的估计值的渐进方差下界可达

则有：

当利用的数据包括历史对照数据时，该项总是正的，表明利用历史对照数据获得的平均因果作用的渐进方差可达的方差下界更低，可以提高药效推断精度。

示例性的，如下随机化临床试验，其中，处理组是以常数概率p(X)＝p随机分配的，而且满足以下条件，var(Y₁|X,D＝1)＝var(Y₀|X,D＝1)，且m₁(X)-m₀(X)＝τ、r(X)＝r、π(X)＝π均为常数，则有：

当π趋于0，或者r趋于无穷大时，该比值逐渐降低，且最优可达到1-p，表示引入越多的历史对照数据越有利于提高推断效率。基于该公式，在临床试验数据样本的基础上，可以计算出要达到目标推断精度B_τ所需要的参数π，从而能够估算所需的历史对照数据样本量。

在进行临床试验之前便可获取历史对照数据样本的情况下，可以通过在临床试验设计中，选用能够有效降低B_τ的处理分配机制，即处理组分配倾向得分p(X)，以提高平均因果作用推断精度。

在上述随机临床试验中，给定协变量，若设定了r＝1，那么极小化B_τ对应的参数p为

表明当存在历史对照数据时，在临床试验的设计中相应地分配更多个体至处理组，可以提高估计精度和推断效率。

此外，本发明提出的双稳健临床试验数据处理方法还可以应用到获取总体人群(包括临床试验组和历史对照组)上的平均因果作用ψ＝E(Y₁-Y₀)，以及历史对照人群上的平均因果作用ζ＝E(Y₁-Y₀|D＝0)。

具体通过下述公式分别计算其对应的平均因果作用估计值：

并通过下述公式分别计算其对应的平均因果作用估计值的渐进方差估计值：

在满足假定(i)-(iii)以及如下两个假定的情况下：

假定(iv)：E(Y₁|X,D＝1)＝E(Y₁|X,D＝0)；

假定(v)：0＜π(x)＜1。

若回归模型

或者倾向得分模型

为正确设定的，则

即分别为平均因果作用ψ、ζ的相合和渐进正太估计值，即也具备双稳健性质。

本发明的另一个实施例，公开了一种利用历史对照数据的双稳健临床试验数据处理系统。

由于该实施例公开的系统与上述方法的原理相同，因此重复之处可以参数上述方法实施例，在此不再赘述。

具体的，如图2所述，该系统包括：

数据处理模块110，用于获取临床试验数据样本和历史对照数据样本；所述临床试验数据样本包括临床处理组数据样本和临床对照组数据样本。

模型建立模块120，用于基于所述临床试验数据样本、历史对照数据样本和预设工作模型，获得表征临床处理组结果变量的处理组条件均值模型、表征对照组结果变量的对照组条件均值模型、处理分配倾向得分模型、人群分配倾向得分模型和条件方差比值模型。

平均因果作用判定模块130，用于基于获得的所述处理组条件均值模型、所述对照组条件均值模型、所述处理分配倾向得分模型、所述人群分配倾向得分模型以及所述条件方差比值模型，利用双稳健估计方法获得临床试验的平均因果作用估计值和所述平均因果作用估计值的渐进方差估计值。

与现有技术相比，本发明实施例公开的利用历史对照数据的双稳健临床试验数据处理方法及系统，基于临床对照组数据样本、临床处理组数据样本、历史对照数据样本以及预设工作模型拟合处理组结果变量条件均值、对照组结果变量条件均值、处理分配倾向得分、人群分配倾向得分以及条件方差比值，并采用双稳健方法获得平均因果作用估计值，进而根据其渐进方差确定平均因果作用的估计精度，能够消除人群异质性所带来的偏差，且降低对单一模型正确设定的依赖性，有着稳健的性质。同时，该方法能有效利用临床试验数据样本和历史数据样本，当模型正确设定时，渐进方差可达半参数方差下界，进而提高了因果推断的效率和结果判定的精度。其次，本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统中，预设工作模型的选用具有极大的灵活性，除了选用传统的参数模型之外，还可以利用机器学习模型，如随机森林模型、深度神经网络模型等。此外，本发明提出的利用历史对照数据的双稳健临床试验数据处理方法及系统，基于提出的双稳健估计方法能够量化利用历史对照数据样本所能带来的效率提升，从而为计算额外所述的历史数据样本数量以及试验设计提供一定的理论依据和支撑。最后，本发明提出的临床试验数据处理方法有着很好的拓展性，一方面，能够有效处理没有临床对照数据、临床试验结果变量满足分布可交换性等特殊情况；另一方面，还能够应用于稳健估计总体人群上的平均因果作用、历史对照组人群上的平均因果作用等其目标参数。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。