发明内容
本发明提供使用基因组数据、治疗模式和临床结果数据预测药物组合的计算机实现方法。
首先,本发明提供了一种药物联用对治疗结果的影响的确定方法,,所述方法包括:生成一个多元化的基因组和临床变量的组合(1)基因组学数据,(2)电子健康档案数据,和(3)临床治疗数据,在众多患者中,至少存在第一组患者使用治疗该病的一种药物,第二组患者使用治疗该病的另一种药物,第一组患者与第二组患者不完全重叠;建立多个二乘二列联表,其中行由多个基因组变量和临床变量中的每个变量的存在或不存在来定义,列由第一种药物和第二种药物中的每个药物的存在或不存在来定义;
基于Cox比例风险模型,计算第一种药物和第二种药物组合的独立危险因素、累积危险比和p值;确定作为一种相加性,增效剂或拮抗剂来治疗疾病第一种药物和第二种药物的组合的性质。
其次,本发明提供一种方法确定药物对疾病的治疗效果,包括步骤:生成一个多元化的基因组和临床变量的组合,(1)基因组学数据,(2)电子健康档案数据,和(3)临床治疗数据。在众多患者中,一部分(但不是全部)患者使用一个共同的生物标志物,一部分(但不是全部)患者使用同一种药物治疗一种疾病;基于基因组和临床变量的多样性和一个二乘二列联表,表示以下组合:
(1)使用该生物标记物并曾使用该药物治疗的患者人数;
(2)使用该生物标记物但未使用该药物治疗的患者人数;
(3)未使用该生物标记物并曾使用该药物治疗的患者人数;
(4)未使用该生物标志物和未使用该药物治疗的患者人数,使用Cox比例风险模型计算独立危险因素、累积危险比和药物与该生物标志物联合使用的p值;确定药物和生物标记物结合作为一种相加性,协同和拮抗治疗疾病的性质。
除此之外,本研究提供了一种方法,确定药物组合对治疗结果的影响,该方法包括:生成一个多元化的基因组和临床变量的组合(1)基因组学数据,(2)电子健康档案数据,和(3)临床治疗数据。众多患者中,至少存在第一组患者使用治疗该病的一种药物,第二组患者使用治疗该病的另一种药物,第三组患者使用治疗该病与前面两组不同的第三种药物,第一组患者、第二组患者、第三组患者与其他任一组患者不完全重叠。建立多个二乘二列联表,其中行由多个基因组和临床变量中的每个变量的存在或不存在定义,列由第一、第二和第三种药物中的每个药物的存在或不存在定义;基于Cox比例风险模型,计算独立危险因素,累积风险比,并推出各个药物组合的假定P值,确定第一、第二和第三种药物的所有可能的二元组合在治疗疾病时的加性、协同性和拮抗性。
在一些实施例中,首次获得患者肿瘤的全外显子组(WES)和转录组(RNA-Seq)序列。对测序数据进行生物信息学分析,为每个癌症患者提供特定的基因组特征,如基因表达、杂合性缺失(LOH)、拷贝数改变(CNA)、体细胞和种系突变、微卫星不稳定性(MSI)、肿瘤突变负担(TMB)、染色体变异(Chromosomal Variation)、突变标记,人类白细胞抗原分型(HLA)和人类病原体。人口统计、肿瘤类型/特征(生物标记、分期、病理)、治疗(处方、手术、放疗、诊断成像、副作用/不良事件)和可以从真实的临床电子健康记录(EHR)中获得长期生存结果临床变量。
本文公开的方法的任何步骤或方面都可以在使用一个或多个计算机处理器的计算机上执行。就如某些实施例所示。
具体实施方式
现在将结合相关附图和实施例,详细说明本发明。
首先,本研究提供了一种方法,确定药物组合对治疗结果的影响,包括:生成一个多元化的每个患者的以下基因组和临床变量的组合,(1)基因组学数据,(2)电子健康档案数据,和(3)临床治疗数据,在众多患者中,至少存在第一组患者使用治疗该病的一种药物,第二组患者使用治疗该病的另一种药物,第一组患者与第二组患者不完全重叠。建立多个二乘二列联表,其中行由多个基因组变量和临床变量中的每个变量的存在或不存在来定义,列由第一种药物和第二种药物中的每个药物的存在或不存在来定义;基于Cox比例风险模型,计算第一种药物和第二种药物组合的独立危险因素、累积危险比和p值;确定治疗该疾病作为一种相加性,增效剂和拮抗剂后第一种药物和第二种药物的组合的特性。
其次,本发明提供了一种方法,确定药物组合对治疗结果的影响,包括:生成一个多元化的每个患者的以下基因组和临床变量的组合(1)基因组学数据,(2)电子健康档案数据,和(3)临床治疗数据,在众多患者中,至少存在第一组患者使用治疗一疾病的一种药物,第二组患者使用治疗该病的另一种药物,第三组患者使用治疗该病与前面两组不同的第三种药物,第一组患者、第二组患者、第三组患者分别与其他组患者均不完全重叠。建立多个二乘二列联表,其中行由多个基因组变量和临床变量中的每个变量的存在或不存在来定义,列由第一种药物、第二种药物、第三种药物中的每个药物的存在或不存在来定义;基于Cox比例风险模型,计算第一种药物和第二种药物组合的独立危险因素、累积危险比和p值;确定第一、第二和第三种药物的所有可能的二元组合在治疗疾病时的加性、协同性和拮抗性。根据两种药物可能的二元组合的确定性质,可以选择两种药物的特定组合来治疗患者。
此外,本发明提供一种方法确定药物影响疾病的治疗效果,包括:生成一个多元化的每个患者的以下基因组和临床变量的组合(1)基因组学数据,(2)电子健康档案数据,和(3)临床治疗数据,;其中一些(但不是全部)患者使用一个共同的生物标志物,其中一些(但不是全部)患者使用同一种药物治疗一种疾病;基于基因组和临床变量的多样性和一个二乘二列联表,表示以下组合:
(1)使用该生物标记物并曾使用该药物治疗的患者人数;
(2)使用该生物标记物但未使用该药物治疗的患者人数;
(3)未使用该生物标记物并曾使用该药物治疗的患者人数;
(4)未使用该生物标志物和未使用该药物治疗的患者人数,
使用Cox比例风险模型计算独立危险因素、累积危险比和药物与该生物标志物联合使用的p值;确定作为一种相加性,协同和拮抗治疗疾病药物和生物标记物结合的性质。
本文公开的方法依靠某些数据源,这些数据源可以由医疗保健机构、医院、诊所、医疗实践小组和患者提供。例如,对于可能的癌症药物组合的疗效评价,可以使用癌症患者的数据。
可以从患者身上采集肿瘤组织,对组织进行病理检测,也可以对组织进行基因组测序,如全外显子组(WES)和转录组(RNA-Seq)测序。对测序数据进行生物信息学分析,为每个癌症患者提供特定的基因组特征,如基因表达、杂合性缺失(LOH)、拷贝数改变(CNA)、体细胞和种系突变、微卫星不稳定性(MSI)、肿瘤突变负担(TMB)、染色体变异(ChromosomalVariation)、突变标记,人类白细胞抗原分型(HLA)和人类病原体。
同时,通过真实临床电子健康记录(EHR)中的患者数据,可以获取患者的人口统计、病史、用药及过敏情况、免疫接种状况、实验室检测结果、放射图像、生命体征、年龄、体重等个人统计数据。此患者数据可以去隐私化、处理并存储到一个数据库中,供临床管理软件使用。可以对患者资料进行质量控制和检查,以减少或消除错误。
进一步的,还可以获得患者的临床治疗资料。例如,对于癌症患者,患者可能经历一种或多种治疗方法,并已接受一种或多种癌症药物治疗。临床治疗数据包括处方、手术、放疗、诊断影像、副作用/不良事件、其他治疗状态和进展,以及相应的结果。
表1基因组学数据摘要
表2来自真实临床电子健康记录(EHR)的临床和随访变量。
基于基因组学数据、EHR数据和真实的治疗数据,可以建立一个数据库来匹配这些数据,并生成多个基因组和临床变量。
图1和图2是全面基因组生物信息学分析全外显子组测序(WES)和转录组测序RNA-seq管道的数据处理流程图。
因此,本发明采用一种新的全面的Cox比例风险模型(ECPH)来评估所有可能的药物联用在延长患者生命方面的疗效。就疗效而言,可以有三种药物相互作用:加性、增效和拮抗。在临床试验和/或真实临床数据中确定药物联用的相互作用,有助于在顺序和同步治疗和设计新的药物联用之间做出选择。
相加交互作用是指两种化学制品的作用等于两种化学制品各自作用的总和。协同作用是指两种物质/药剂同时使用的效果大于相同剂量下它们各自的效果之和。拮抗相互作用是指两种物质/药剂的作用实际上小于两种药物相互独立作用的总和。根据数学交互作用的定义,确认组合效应是否大于两种药剂独立贡献的数学概率(协同性,Synergistic),等于它们独立活动的概率(相加性,Additive)或小于预测的概率(拮抗性,Antagonistic)。
Cox比例风险(CPH)模型本质上是一个用于医学研究的回归模型,用于研究患者生存时间与一个或多个预测变量之间的关系。CPH模型扩展了生存分析方法,以同时评估几个危险因素对生存时间的影响。
本发明中使用的方法进一步扩展了CPH模型。在一个样本采集过程中,用于少于一个治疗周期的药物或任何变量中小于15的患者数量的数据将被删除。然后,建立一个2×2列联表,其中行由每个唯一的基因组或临床变量定义,列由药物变量定义(见表3)。然后是CPH模型(如“Cox比例风险模型的全面推理”,D.Y.Lin&L.J.Wei,《美国统计协会期刊》,页数1074-1078,1989年)用于计算每个药物联用表中独立危险因素、累积危险比和p值。然后利用这些结果在相加性,协同和拮抗作用影响下预测并且对药物联用的优劣进行排序。
表3所有可能的药物联用的2x2关联表表格
因子/药物组合在实际临床结果中的加性、协同和拮抗作用可描述如下。
加性组合定义:同时含有药物A和因子B组的HR得分介于其他两个治疗组(A+B-和A-B+)之间。同时含有药物A和因子B组的p-值与其他两个治疗组(A+B-和A-B+)比较无统计学意义。
协同组合定义:同时含有药物A和因子B组的HR评分小于其他两个治疗组(A+B-和A-B+)。同时含有药物A和因子B组的p-值与其他两个治疗组(A+B-和A-B+)比较有统计学意义。同时含有药物A和因子B组为其他两个治疗组(A+B-和A-B+)的统计自变量。
拮抗组合定义:同时含有药物A和因子B组的HR评分大于其他两个治疗组(A+B-和A-B+)。同时含有药物A和因子B组的p-值与其他两个治疗组(A+B-和A-B+)比较有统计学意义。
在上述不同类型组合的定义中,因子B可以是用于治疗患者群的第二种药物,也可以是患者群的某个特征,例如,一基因组生物标志物。
所述方法的任何步骤都可以在一个或多个计算设备上执行(例如工作站、PC机、笔记本电脑、移动设备等,或分布式环境中的联网计算机,例如云盘)。如图6所示,本发明的实施例计算设备10包括计算处理器110、内存120、存储130、输入/输出(I/O)接口140、通信组件150和总线160。虽然该图说明了在特定排列中具有特定数量的特定组件的特定计算设备,但本发明可以采用在任何排列方式的具有各种合适数量的各种匹配组件的任何计算设备。处理器可以包括用于执行指令的硬件,这些指令组成一计算机程序或应用程序,例如,它可以从内部寄存器、内部缓存、内存、存储器中检索(或取得)指令;解码并执行它们;然后将一个或多个结果写入内部寄存器、内部缓存、内存或存储器。在具体实施例中,由110处理器执行的软件可以包括操作系统(例如,Windows、Unix、MacOS等),以及为实现本文所述方法而设计的应用程序。在某些实施例中,内存120可包括用于存储供处理器执行的指令或供处理器操作的数据的主存储器。一个或多根总线160可以连接处理器和存储器。内存120可以包括随机存取存储器(RAM)。在合适的地方,这个RAM可以是易失性存储器。在合适的情况下,这个RAM可以是动态RAM(DRAM)或静态RAM(SRAM)。存储130可以包括非易失性和/或非瞬态大容量存储或用于数据或指令的介质,例如HDD,SSD,闪存,光学介质等,或两者或两者以上的组合。I/O接口140可以包括硬件、软件,或两者都提供一个或多个接口,用于两个或多个计算设备和一个或多个I/O设备之间的通信。
通信组件150可以包括硬件、软件,或者两者都提供一个或多个接口,用于计算设备与另一个计算设备之间的通信(例如,基于数据包的通信),例如,网络接口控制器(NIC)或网络适配器,用于与以太网或有线网络通信或无线网卡(WNIC),用于与无线网络通信的无线适配器,如Wi-Fi网络或蜂窝网络,或两者或两者以上的组合。总线160可以包括硬件、软件或个人计算设备的两个耦合组件,例如,图形总线、增强的工业标准体系结构(EISA)总线、前端总线(FSB)或其他合适的组合。
下面的示例用于进一步表述本发明所述方法。
实施例1.乐伐替尼与PD-1/PD-L1免疫检查点抑制剂协同联合治疗肝癌(肝细胞癌)和肝内胆管癌(肝内胆管细胞癌)
图7显示了105例中国肝细胞癌和肝内胆管细胞癌患者中PD-1/PD-L1抑制剂联合乐伐替尼的真实生存数据,以及本发明中涉及的基于ECPH模型的方法的评估。蓝色(顶部)的生存曲线是46例乐伐替尼和PD-1/PD-L1抑制剂患者组,而橘黄色(底部)的生存曲线是59例仅接受PD-1/PD-L1抑制剂治疗的患者组。当PD-1/PD-L1抑制剂治疗后,在肝细胞癌和肝内胆管细胞癌中乐伐替尼是一个统计学上独立的良好预后因子。联合患者组(乐伐替尼和PD-1/PD-L1)的生存期在统计学意义上更优于乐伐替尼治疗组或PD-1/PD-L1治疗组(同时含有乐伐替尼和PD-L1组:HR:0.278,p值:0.008;含有PD-1/PD-L1和未使用乐伐替尼组:HR:0.503,p值:0.117;未使用PD-1/PD-L1和使用乐伐替尼组:HR:1.00 p-值:0.977)。
在本实施例中,数据是通过以下步骤收集和分析的:
(1)临床高通量测序及生物信息学分析流程图如图3所示。
(2)真实临床电子健康记录(EHR)采集、临床数据录入及长期随访,流程如图4所示。
(3)基因组学数据与现实治疗模式和临床结果特征数据库和分析流程相匹配,如图5所示。
(4)一个大的One-Hot编码矩阵(~10,000*10,000),包含基因和临床因子。
基于One-Hot编码矩阵,可以得到年龄、性别、基因突变、药物治疗等所有因素的联合效应。
一个One-Hot矩阵编码的示例片段如下表所示。
表4样本编码
在上表中,列标头表示以下变量:
R1:死亡-观察组
R2:存活月份
S1:性别_女性
S2:性别_男性
C1:阶段_1
M1:电流_ERBB2
T1:化疗
D1:阿帕替尼
D2:PD-1
D3:乐伐替尼
(5)应用穷尽的Cox比例风险模型(ECPH)
a.两药联合使用将患者分为四类。
例如:接受乐伐替尼治疗而不接受索拉非尼治疗的患者被定义为乐伐替尼治疗组。
使用索拉非尼而不使用乐伐替尼的患者被定义为索拉非尼治疗组。
索拉非尼和乐伐替尼治疗的患者被定义为索拉非尼和乐伐替尼治疗组。
未使用索拉非尼和乐伐替尼治疗的患者定义为无索拉非尼和乐伐替尼治疗组。
b.计算了所有可能的药物组合的2×2列联表:数百万种可能的乐伐替尼组合。
c.Cox PH模型(Cox比例风险模型的稳健推理—D.Y.Lin&L.J.Wei,1074-1078页)计算独立危险因素、累积危险比和每个药物组合表的p-值。
简单地说,风险函数可以解释为t时刻的死亡风险。可以估算如下:h(t)=h0(t)×exp(b1x1+b2x2+...+bpxp),其中
·t表示存活时间
·h(t)是由一组p协变量x1,x2,...,xp)确定的风险函数
·系数(b1,b2,...,bp)衡量协变量的影响(即效应大小)。
·术语h0指的是基线危害。如果所有的xi都等于0(exp(0)=1),它就对应危害的值。h(t)中的“t”提醒我们,危害可能随时间而变化。
Cox PH模型可以写成危害对变量xi的对数的多元线性回归,基线危害是一个随时间变化的“截距”项。使用间隔时间的平均危险率,即间隔时间内单位时间内死亡的患者数除以间隔时间中点处的平均存活人数:
h(t)=间隔时间内单位时间内死亡患者人数/(t时存活的人数-区间内患者死亡人数/2)
接受实验药物的患者与接受安慰剂的患者的危险比为:
h(t|x1=1)/h(t|x1=0)=exp(bi)
危险比(HR)定义为exp(bi)量。因此,如果HR=1,那么两种治疗方法的效果是一样的。如果HR小于1(HR大于1),实验药物比安慰剂给存活者带来更低(更高)的风险,那么两种治疗方法的效果是一样的。函数coxph(R软件包)可用于计算R中Cox比例风险回归模型。
(https://cran.r-project.org/web/packages/survival/survival.pdf).
以下面列联表A为例,得到三个治疗组的HR评分:同时使用索拉非尼和乐伐替尼组:HR:1.35,p-值:0.334;使用索拉非尼和不使用乐伐替尼组:HR:0.76,p-值:0.388;使用索拉非尼和不使用乐伐替尼组:HR:0.76p-值:0.388;不使用索拉非尼和使用乐伐替尼组:HR:0.56,p-值:0.058。利用这三种结果,根据加性、增效和拮抗作用(根据上述加性、增效和拮抗组合的定义)预测和优化有效的药物组合,并探讨联合治疗的动态及其在癌症治疗中对抗耐药性的作用。
以下三表为计算实例:
关联表A
|
索拉非尼治疗 |
无索拉非尼治疗 |
总计 |
乐伐替尼治疗 |
29 |
89 |
118 |
无乐伐替尼治疗 |
63 |
491 |
554 |
总计 |
92 |
580 |
|
同时使用索拉非尼和乐伐替尼组:HR:1.35,p-值:0.334;使用索拉非尼、不使用乐伐替尼组:HR:0.76,p-值:0.388;不使用索拉非尼、使用乐伐替尼组:HR:0.56 p-值:0.058。
关联表B
|
瑞格菲尼治疗 |
无瑞格菲尼治疗 |
总计 |
乐伐替尼治疗 |
9 |
109 |
118 |
无乐伐替尼治疗 |
24 |
543 |
567 |
总计 |
33 |
652 |
|
同时使用瑞格菲尼和乐伐替尼组:HR:1.88,p-值:0.475;使用瑞格菲尼、不使用乐伐替尼组:HR:0.99,p-值:0.984;不使用瑞格菲尼、使用乐伐替尼组HR:0.74,p-值:0.226。
关联表C
|
PD-1/PD-L1治疗 |
无PD-1/PD-L1治疗 |
总计 |
乐伐替尼治疗 |
46 |
96 |
142 |
无乐伐替尼治疗 |
59 |
625 |
684 |
总计 |
105 |
721 |
|
同时使用PD-1/PD-L1和乐伐替尼组:HR:0.278,p值:0.008;使用PD-1/PD-L1、不使用乐伐替尼组:HR:0.503,p值:0.117;不使用PD-1/PD-L1和使用乐伐替尼组:HR:1.00p值:0.977。
本例中使用的协同组合定义:
使用PD-1/PD-L1和乐伐替尼组的HR评分低于其他两组(HR:0.278<使用PD-1/PD-L1和不使用乐伐替尼组的HR为0.503以及不使用PD-1/PD-L1和使用乐伐替尼组的HR为1.00)。同时使用PD-1/PD-L1和乐伐替尼组的p-值与其他两组比较有统计学意义(p-值:0.008<使用PD-1/PD-L1不使用乐伐替尼组p-值为0.117以及不使用PD-1/PD-L1和使用乐伐替尼组p-值为0.977)。PD-1/PD-L1与乐伐替尼组为统计学自变量(卡方检验的独立性:p-值为0.223)。这些结果表明,与乐伐替尼或PD-1单独治疗相比,乐伐替尼和抗PD-1/PD-L1治疗诱导了显著的抗肿瘤活性。我们的ECPH模型为乐伐替尼和抗pd-1/PD-L1阻断来改善癌症免疫治疗提供了现实世界的科学依据。
这种验证也可以在以下文献中找到支持:
参考1:乐伐替尼联合抗pd-1抗体联合治疗通过减少肿瘤相关巨噬细胞和激活干扰素途径激活CD8+T细胞(2.776PLoS One.2019年2月27日;14(2):e0212513,doi:10.1371/journal.pone.0212513。eCollection 2019)作者在这里表明,乐伐替尼通过减少巨噬细胞来调节肿瘤微环境中的癌症免疫,当与PD-1阻断结合时,显示出通过IFN信号通路增强的抗肿瘤活性。
参考2:乐伐替尼和帕普利珠单抗联合PD-1/PD-L1免疫检查点抑制剂治疗转移性透明细胞肾细胞癌(mccRCC)后疾病进展的II期研究:中期分析的结果,ESMO 2019年肿瘤学大会年鉴(2019)30(suppl_5):v475-v532,10.1093/annonc/mdz253。在数据截止日期(2019年3月29日),对入组的前33名患者进行了≥12周的疗效评估,其中24名(73%)患者仍在接受研究治疗。客观有效率为52%,疾病控制率为94%,大部分患者肿瘤缩小。无进展生存者的随访时间中值为4.2个月。
参考3:乐伐替尼和帕普利珠单抗用于晚期子宫内膜癌患者:一项多中心、开放标签、单组、2期临床试验的中期分析,Lancet Oncol.2019年5月;20(5):711-718。doi:10.1016/S1470-2045(19)30020-8,电子版为2019年3月25日。文中提及乐伐替尼和帕博利珠单抗在晚期复发性子宫内膜癌患者中显示了抗肿瘤活性,其安全性与以前报道的乐伐替尼和帕博利珠单抗单药治疗类似,除了甲状腺功能减退频率增加。乐伐替尼和帕博利珠单抗可能代表这类患者群体的一种新的潜在治疗选择,目前正在进行一项3期随机研究。
实施例2.具有PD-1/PD-L1免疫检查点抑制剂的HLA生物标志物的抗性组合(抗药性)。
在本实施例中,一种特定的HLA-B生物标志物被认为是第二因素,其与PD-1/PD-L1药物的联合治疗的评估方法与上面概述的类似。例如,可以建立一个2×2列联表:
图8显示了445例中国肝细胞癌、胆管癌、胶质瘤、肺腺癌和软组织肉瘤患者中具有HLA-B*15:01因子的使用PD-1/PD-L1抑制剂的真实生存数据,以及本发明所述基于ECPH模型的方法的评估数据。蓝色(底部)的生存曲线是47个HLA-B*15:01加PD-1/PD-L1抑制剂的患者组,而橘黄色(顶部)曲线是398个HLA-B*15:01不存在加使用PD-1/PD-L1抑制剂的患者组。在PD-1/PD-L1抑制剂治疗后,HLA-B*15:01是一个统计上独立的主要实体肿瘤预后不良因素。生存者中,联合治疗的患者组(HLA-B*15:01和PD-1/PD-L1)显示在统计学意义上在比存在HLA-B*15:01等位基因组或PD-1/PD-L1治疗组情况更差(使用PD-1/PD-L1和HLA-B*15:01组:HR值:1.880,P-值:0.007;使用PD-1/PD-L1+和不存在HLA-B*15:01等位基因组:HR值:0.58,P-值:0.069;不使用PD-1/PD-L1-和存在HLA-B*15:01等位基因组HR值:1.15,P-值:0.442)。
可以从以下文献中找到同样的验证:患者HLA I类基因型影响肿瘤对检查点封锁免疫治疗的反应。(Science.2018 Feb 2;359(6375):582-587。doi:10.1126/science.aao4572,电子版2017年12月7日)在该文中,我们观察到两个独立的黑色素瘤组,HLA-B44超型患者的生存期延长,而HLA-B62超型(包括HLA-B*15:01)或HLA-I的体细胞杂合性缺失与不良预后相关。
应当理解,在此展示和描述的实施例只是说明本发明的原理,本领域的普通技术人员应当理解,在不脱离本发明的范围和实质的情况下,可以对本发明的技术方案进行各种修改。本领域的普通技术人员可以在不偏离本发明的范围和精神的情况下实施其他各种技术方案的组合。