CN115579049B

CN115579049B - 一种基于pdtx模型对抗肿瘤药物快速开发伴随诊断试剂的方法及应用

Info

Publication number: CN115579049B
Application number: CN202211451562.9A
Authority: CN
Inventors: 朱燕萍; 郑晖; 王乾; 谢剑邦; 陈馨; 宋航
Original assignee: Nanjing Puenrui Biotechnology Co ltd
Current assignee: Nanjing Puenrui Biotechnology Co ltd
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-03-31
Anticipated expiration: 2042-11-18
Also published as: CN115579049A

Abstract

一种基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法及应用，第一阶段，PDTX临床试验阶段；第二阶段，数据筛选和数学建模；第三阶段，一致性验证；第四阶段，阳性预测率验证。本发明能够帮助医药企业快速开发药物的伴随诊断试剂，降低伴随诊断研发周期和成本。传统抗肿瘤药物同步开发的伴随检测试剂是依赖于药物开发的周期，以最短的II期临床试验的周期计算，前期确立目标基因通常需要2‑3年，而通过本方案可以将这个时间周期缩短至6个月，并且II期临床试验的数据可以用于结果验证和方案修订，而不是仅仅用于确立目标基因，从而极大地减少后期所需的试验周期和成本，将开发成本从通常的亿级降低到千万级。

Description

一种基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法及应用

技术领域

本发明涉及生物技术领域，具体涉及抗肿瘤药物伴随诊断试剂的快速开发方法，尤其涉及一种基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法及应用。

背景技术

恶性肿瘤作为一种重大疾病在全球范围内都是社会和家庭的沉重负担，近年来我国恶性肿瘤呈现发病率持续增高、死亡率居高不下、发病人群年轻化等特点。据统计，2021年中国新增肿瘤病例约470万，约有310万人死亡，其中消化道肿瘤约占约45%，包括胃癌、肠癌、肝癌、胰腺癌、食管癌等。

当前对的抗肿瘤药物的选择主要依赖于临床指南，但是以指南为指导的药物选择总体有效率仅为50%。特别是经过一线治疗耐药后，药物的有效率往往急剧下降，仅有不到20%，这样会造成患者在就诊过程中需要承受不必要的药物毒副作用的影响和更大的诊疗经济负担，同时会延长患者住院诊疗时间和过多占用医疗资源，还会过多占用国家医保费用额度，不符合现阶段国家对于药物经济学方面的规范要求。因而目前临床急需一种技术手段，能够帮助医生能够准确选择有效的药物。

随着科技的进步，新的肿瘤治疗药物如靶向药物，能够通过伴随诊断检测来帮助医生准确选择适合该药物的患者，从而实现对肿瘤的精准医疗。然而，这些新的药物普遍存在获益患者比例少的问题。目前市场上已经成熟的和正在研发的抗肿瘤新药，也需要一种类似靶向药物的伴随诊断技术，从而有效选择适合的患者，实现精准医疗。特别是对于一些新药，上市初期还存在成本高昂问题，因而更需要伴随诊断来提升其精准性，避免更多的无效治疗和浪费。

发明内容

解决的技术问题：传统上对于伴随诊断的开发，是在药物II期和III期的临床试验中，与药物的开发同步进行的。但这种开发方式费时长，成本高，并伴随着较高的失败风险。特别是在开发前，并不能确定伴随诊断是否能够开发成功，很多情况即便药物本身研发成功了，也不能确保伴随诊断能够开发成功。因此，本发明提供一种基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法及应用，该方法适用于各类抗肿瘤药物的伴随诊断开发。

技术方案：一种基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法，步骤为：第一阶段，PDTX临床试验阶段：将活肿瘤组织移植入免疫缺陷型小鼠体内从而构建得到 PDTX模型，构建一个队列的PDTX模型，其中第一次样本数n>100，如果需要迭代，每次迭代增加的样本量n>20，通过PDTX模型获得TGI数据，采集TGI>70%和TGI<40%的肿瘤样本，所述

，其中Vcf和Vci分别为对照组肿瘤的终末体积和初始体积，Vtf和Vti分别为药物处理组肿瘤的终末体积和初始体积；第二阶段，数据筛选和数学建模：并依据第一阶段的TGI 分值，区分TGI>70%的药物有效的样本和TGI<40%的药物无效的样本，对药物有效和无效样本均做全外显子组测序，并选取其中70%-80%的样本用于模型构建，且有效和无效的样本总数>80，通过关联分析和数学模型筛选出可用于伴随诊断的基因panel；第三阶段，一致性验证：对基因panel作二次验证，将第二阶段产生的未用于模型构建的标本数据，用于对上述第一、二阶段的基因Panel和模型的验证，并根据结果修正相关的参数；重复上述第一阶段样本选取和第二阶段的过程，通过不断迭代，最终覆盖第一阶段的全部样本案例，并最终优化模型各参数，在此阶段模型预测结果的准确性不低于 70%；第四阶段，阳性预测率验证：将第三阶段生成的模型，用于预测未知标本，并通过PDTX 验证其预测的准确性和阳性预测值，如果模型的阳性预测值超过60%，则可以继续设计 Panel的具体实施方式，进行PCR检测或NGS检测。

上述PDTX模型为一个队列，该队列包含PDTX模型的数量与抗肿瘤药物的II期临床试验一致，为100-200组，每组含至少3例对照和3例药物处理组。

上述第二阶段首先对第一阶段采集的肿瘤样本做全外显子测序，检测出每例肿瘤中的体细胞突变基因，排除内含子和转录本上下游非翻译区的突变和外显区同义突变，包含RNA拼接位点和外显区非同义的突变，通过PlinK排除显著连锁不平衡的基因突变后，按照卡方检验的方式，对药物有效和无效组内基因突变的分布做筛选，挑选出p值<0.05的基因，并将这些基因按照在药物有效组和无效组中的分布情况进一步优选。

上述体细胞突变基因包括肿瘤驱动突变和非肿瘤驱动突变。

上述优选步骤为：首先挑选在药物有效组中的突变频率超过10%，且在药物无效组中无突变的基因；如果该基因突变在有效组和无效组中的分布差异p值<0.001，则可以将药物有效组中的突变频率超过10%，药物无效组中包含1-2例突变的基因纳入备选范围，上述纳入的基因作为阳性备选基因，按照药物无效组中的突变频率超过10%，且在药物有效组中无突变的基因，作为阴性排除的备选基因；将上述阳性和阴性备选基因，以及药效数据联合，建立广义线性模型；所述广义线性模型为标准的多元线性回归模型，每个基因突变可以被认为是一个元，或为按照逻辑回归的方式建立线性回归模型；上述模型均需要按照最小方差法来判定最合适的参数，需要按照有效样本的案例数n和最终筛选出的备选基因数m来决定具体用哪种方式来建立模型，所述有效样本案例数=药物有效案例数+药物无效案例数；当n>>m的时候，在1≤m≤30时，需要n超过m的10倍，此时选用标准的多元线性回归模型，当n仅是m的3~9倍时，用岭回归或者lasso回归的方式，加入约束罚值来纠正偏差，具体的约束罚值通过验证整体模型的阳性预测值和ROC曲线的方式确立；当阳性预测值达到最大或者ROC曲线下的面积最大时，所取的约束罚值即为模型所用的约束罚值；当上述方式均无法产生良好效果的时候，按照naïve贝叶斯分类法对于一个未知标本按照其基因突变预测分类。

上述模型预测结果的准确性低于70%时，继续在第一阶段增加PDTX样本量来增加效力。

上述方法在制备基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂盒中的应用。

上述应用制得的试剂盒。

该试剂盒包含了上述方法开发的伴随诊断试剂，该试剂盒检测的目标基因是依据上述方法而开发，相关的试剂的类型包含但不限于蛋白和核酸检测试剂。

有益效果：伴随诊断能够帮助病患准确选择有效的药物，是当前抗肿瘤药物实现精准医疗的发展趋势。本发明提供一种基于PDTX模型对抗肿瘤药物快速开发伴随诊断的方法及应用，降低伴随诊断研发周期和成本。传统地，抗肿瘤药物同步开发的伴随检测试剂是依赖于药物开发的周期，以最短的II期临床试验的周期计算，前期确立目标基因通常需要2-3年，而通过本方案可以将这个时间周期缩短至6个月，并且II期临床试验的数据可以用于结果验证和方案修订，而不是仅仅用于确立目标基因。相比传统方式，本发明可以极大地减少后期所需的试验周期和成本，将开发成本从通常的亿级降低到千万级。

附图说明

图1为本发明技术方案示意图；

图2为ROC曲线下的面积。

具体实施方式

下面通过实例对本发明进行具体描述，实施例给出详细的实施方式和具体的操作步骤，只用于对本发明的进一步说明，不能理解为对本发明保护范围的限制。

实施例1

第一阶段：基于PDTX模型，建立药效数据。

PDTX（Patient Derived Tumor Xenograft ）是一种动物药效模型，该模型是通过将活肿瘤组织直接移至入免疫缺陷型小鼠体内而构建，PDTX模型是当前最接近肿瘤患者实际情况的动物模型，也是最接近临床实际药效的肿瘤模型，该模型对抗肿瘤药物的有效性预测结果与临床的实际结果有超过80%的一致性。

本阶段PDTX药效模型的数量取决于抗肿瘤药物的实际有效率，大体数量与实际II期临床试验中纳入的患者数量相当，约100~200例，每个PDTX模型含至少3例对照和3例药物处理组。对于药效的判定，是基于TGI指标，TGI >70%，则认为药物对该肿瘤有抑制作用；TGI<40%，则认为药物对该肿瘤无效；若TGI介于40%和70%之间，则认为药物对该肿瘤的抑制作用待定。其中TGI的计算公式如下：

其中：Vcf和Vci分别为对照组肿瘤的终末体积和初始体积；Vtf和Vti分别为药物处理组肿瘤的终末体积和初始体积。

采集有明显抑制作用和明显无效的样本，即仅采集TGI>70%和TGI<40%的肿瘤样本，排除40% ≤ TGI ≤ 70%的肿瘤样本。随机选取有效样本中的80%用于模型构建。

以具体实施的某在研一类创新抗肿瘤药为例，针对的目标癌种是肠癌，该药物需要同步研发伴随诊断试剂，同时为了避免II期临床的漫长入组和等待以及可能的不确定性，在伴随诊断开发过程中采用了本方法。其中在第一阶段中实施的PDTX案例数为140例。在该140例中我们发现了78例药物有效案例和24例药物无效案例，其余38例为药效不明确案例，即这些案例40% ≤ TGI ≤ 70%。

第二阶段：通过关联分析和数学模型筛选出可用于伴随诊断的基因panel。

该阶段首先对上述第一阶段具有明确药效结论（78有效+34例无效）的PDTX案例样本做全外显子测序。全外显测序可以采用通用的测序试剂，如安捷伦全外显子V6版，或者其它类似的市售通用试剂。测序使用的仪器可以是Illunima公司、华大基因或者其它公司的任意一款测序仪，只要该测序仪与测序试剂兼容即可。测序完成后，需要检测出每例样本中的体细胞突变基因。具体过程为使用通用型的生物信息软件如Mutect 2.0检测出全部体细胞和胚系突，然后通过过滤获取体细胞突变。具体过程为，参照国际通用公开数据库如千人基因组计划中中国人群或者GenomAD数据库中亚人群中的突变频率分布数据，当样本中检测出的突变在上述数据库中的人群频率<1/10000，则被判定为体细胞突变，这些突变包含肿瘤驱动突变和非肿瘤驱动突变。对于这些体细胞排除发生在内含子区、转录本上下游非翻译区、在外显区同义突变，需要包含发生在拼接位点、外显区非同义的突变以及起始缺失、终止缺失和提前终止类型的突变。然后通过Pearson相关性检验，采用0.5为排除阈值，确认样本之间无显著相关性，再通过PlinK软件排除显著连锁不平衡的基因突变后，按照卡方检验的方式，对药物有效和无效组内基因突变的分布做筛选，挑选出p值<0.05的基因。以具体实施案例为例，示例如下：

其中PIK3CA 和 Gene X的突变在药物有效组和无效组中无显著差异（p值>0.05），因而被排除，而EGFR基因则被纳入备选基因。按照上述方式对102例样本中约11000个体细胞突变做检测和排除后，建立初级备选基因列表。

基于初级备选基因，按照在药物有效组和无效组中的分布情况进一步优选。具体实施方式为：

在药物有效组中按照基因突变的频率从高到低排序，挑选在药物有效组中的突变频率超过10%的基因，并且该基因在药物有效组中的突变比例需要超过在药物无效组中的比例。上述纳入的基因作为药物有效的备选基因，以具体实施的案例示例如下：

TERT基因因为在药物无效组中的突变比例需要超过在药物有效组中的比例，因而被排除，而其余的基因则被保留。经过上述过程以后，保留的基因作为药物有效的预测基因。

类似地，在药物无效组中按照基因突变的频率从高到低排序，挑选在药物有效组中的突变频率超过10%的基因，并且该基因在药物无效组中的突变比例需要超过在药物有效组中的比例。以具体实施的案例示例如下：

示例中的基因均可以被保留，作为药物无效的预测基因。

将上述阳性和阴性备选基因，以及药效数据联合，建立广义线性模型。广义线性模型可以是标准的多元线性回归模型，每个基因突变可以被认为是一个元；也可以按照逻辑回归的方式建立线性回归模型，通常情况下逻辑回归更适合药物有效和无效的这种情况。对于无论是标准的多元线性回归还是逻辑回归，均需要按照最小方差法来判定最合适的参数。在具体实施过程中，需要按照有效样本的案例数（药物有效和无效的案例， n）和最终筛选出的备选基因数m来决定具体用哪种方式来建立模型。具体地，当n>>m的时候，标准的多元线性回归模型是可以比较好产生预测结果。但是当n和 m比较接近的时候，这时标准的最小方差法会产生比较大的偏差，如果遇到这种情况，可以用岭回归或者lasso回归的方式，加入约束罚值来纠正偏差。在这种情况下，具体的约束罚值可以通过验证整体模型的阳性预测值和ROC曲线的方式确立。当阳性预测值达到最大或者ROC曲线下的面积最大时，所取的约束罚值即为模型所用的约束罚值。当上述方式均无法产生良好效果的时候，也可以按照naïve贝叶斯分类法对于一个未知标本按照其基因突变预测分类。经过上述方法后，对于线性模型中相关系数偏小和接近或等于零的基因，可以被排除掉。在上述具体实施的案例中，实际生成11个药物有效的预测基因和5个药物无效预测基因，并且产生了一个基于该16（11有效+5无效）基因对于药物效过预测的广义线性模型算法，该16基因即为伴随诊断试剂中基因panel的初期基础基因。

第三阶段：对基因panel作二次验证。

将第一阶段产生的未用于模型构建的标本数据（20%），用于对上述第一、二阶段的基因Panel和模型的验证，并根据结果修正相关的参数。重复上述第一阶段样本选取和第二阶段的过程，通过不断迭代，最终覆盖第一阶段的全部样本案例，并最终优化模型各参数。在此阶段模型预测结果的准确性需要超过70%，否则需要继续在第一阶段增加PDTX样本量来增加效力。在实施案例中，经过实际测试、迭代、增加第一阶段PDTX样本等操作后，上述16基因联合数学算法的对全部样本最终一致性验证的结果如下：

在该表中，对于药效(+/-)的案例, 即40% ≤ TGI ≤ 70%的案例我们全部按照药物无效处理，但实际这些案例有可能是药物有效的案例，所以表中的阳性预测值和准确率均是可能的最低值，实际值可能还会更高。由表中可见，经过16基因panel的阳性预测后，该在研新药的有效性可以达到>80%,相较于普通非伴随诊断检测的30-50%有效性，有了显著地提升。这样该16基因panel的方案可以进入第四阶段。

第四阶段：交叉验证。

将第三阶段生成的基因Panel和对应的算法，用于预测未知标本，并通过PDTX验证其预测的准确性和阳性预测值。如果该基因Panel和对应的算法阳性预测值超过60%，则可以继续设计Panel的具体实施方式，如PCR检测还是NGS检测等。具体的实施方式，需要依据实际开发药物的情况和发现的基因Panel的实际突变情况而调整，这对于本领域技术人员，均是比较常规的操作，并且完全可以按照实际情况设计和操作。

实施例2

本实施例提供了一种抗肿瘤药物奥沙利铂在治疗消化系统肿瘤的开发的伴随诊断试剂盒的预测效果。

第一阶段：基于PDTX模型，建立药效数据。本实施案例在第一阶段的队列中总计构建了143个PDTX，其中有效和无效案例数见下表：

第二阶段：通过关联分析和数学模型筛选出可用于伴随诊断的基因panel。在本实施例中，第二阶段药物有效和无效的PDTX模型总计117例。按照实施例1的实施方式筛选出了19个备选基因（具体实施步骤在前面案例1中已有详细的描述，在此不再赘述）。其结果列表如下：

在该案例中因为案例数n=117，而目标基因数m=19，在实际实施过程中模型训练集采用了100个案例，剩余17个案例用于模型构建的验证过程。因而n=100，m=19，未能满足n>>m（n通常>m的10倍），因而采用岭回归的方式构建算法模型，并通过ROC曲线优化。如图2所示，该图展示内容为本案例岭回归实际操作中生成的一个ROC曲线。通过不断调整模型参数，并比较每次参数对应的ROC曲线下的面积，计算使ROC曲线下的面积最大，来确立岭回归的具体约束罚值，从而建立多基因联合的算法模型。

第三阶段：对基因panel作二次验证。在本实施例中，在第三阶段对全部117例PDTX样本预测的结果如下表：盒在第三阶段和第四阶段的有效性结果如下表：

在此阶段，该19基因panel联合岭回归算法，在117例PDTX模型中，对奥沙利铂药效判别的准确率超过85%，对药敏患者的预测准确率超过了80%，满足准确率超过70%的预设要求，因而可以进入第四阶段。

第四阶段：交叉验证。在本实施例中，在第四阶段对34例全新的PDTX案例做预测，其结果如下表：

该实施例中，前第1-3阶段生成的基因panel联合数学算法，对超过30例新样本的预测结果，满足阳性预测值超过60%，故该19基因panel，可以被设计为NGS或者PCR的形式，做后续研究。

Claims

1. 一种基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法，其特征在于，步骤为：第一阶段，PDTX临床试验阶段：将活肿瘤组织移植入免疫缺陷型小鼠体内从而构建得到PDTX模型，构建一个队列的PDTX模型，其中第一次样本数n>100，如果需要迭代，每次迭代增加的样本量n>20，通过PDTX模型获得TGI数据，采集TGI>70%和TGI<40%的肿瘤样本，所述

，其中Vcf和Vci分别为对照组肿瘤的终末体积和初始体积，Vtf和Vti分别为药物处理组肿瘤的终末体积和初始体积；第二阶段，数据筛选和数学建模：并依据第一阶段的TGI 分值，区分TGI>70%的药物有效的样本和TGI<40%的药物无效的样本，对药物有效和无效样本均做全外显子组测序，并选取其中70%-80%的样本用于模型构建，且有效和无效的样本总数>80，通过关联分析和数学模型筛选出可用于伴随诊断的基因panel；第三阶段，一致性验证：对基因panel作二次验证，将第二阶段产生的未用于模型构建的标本数据，用于对上述第一、二阶段的基因Panel和模型的验证，并根据结果修正相关的参数；重复上述第一阶段样本选取和第二阶段的过程，通过不断迭代，最终覆盖第一阶段的全部样本案例，并最终优化模型各参数，在此阶段模型预测结果的准确性不低于70%；第四阶段，阳性预测率验证：将第三阶段生成的模型，用于预测未知标本，并通过PDTX验证其预测的准确性和阳性预测值，如果模型的阳性预测值超过60%，则继续设计Panel的具体实施方式，进行PCR检测或NGS检测。

2.根据权利要求1所述基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法，其特征在于，所述PDTX模型为一个队列，该队列包含PDTX模型的数量与抗肿瘤药物的II期临床试验一致，为100-200组，每组含至少3例对照和3例药物处理组。

3.根据权利要求1所述基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法，其特征在于，所述第二阶段首先对第一阶段采集的肿瘤样本做全外显子测序，检测出每例肿瘤中的体细胞突变基因，排除内含子和转录本上下游非翻译区的突变和外显区同义突变，包含RNA拼接位点和外显区非同义的突变，通过PlinK排除显著连锁不平衡的基因突变后，按照卡方检验的方式，对药物有效和无效组内基因突变的分布做筛选，挑选出p值<0.05的基因，并将这些基因按照在药物有效组和无效组中的分布情况进一步优选。

4.根据权利要求3所述基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法，其特征在于，所述体细胞突变基因包括肿瘤驱动突变和非肿瘤驱动突变。

5.根据权利要求3所述基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法，其特征在于，所述优选步骤为：首先挑选在药物有效组中的突变频率超过10%，且在药物无效组中无突变的基因；如果该基因突变在有效组和无效组中的分布差异p值<0.001，则将药物有效组中的突变频率超过10%，药物无效组中包含1-2例突变的基因纳入备选范围，上述纳入的基因作为阳性备选基因，按照药物无效组中的突变频率超过10%，且在药物有效组中无突变的基因，作为阴性排除的备选基因；将上述阳性和阴性备选基因，以及药效数据联合，建立广义线性模型；所述广义线性模型为标准的多元线性回归模型，每个基因突变被认为是一个元，或为按照逻辑回归的方式建立线性回归模型；上述模型均需要按照最小方差法来判定最合适的参数，需要按照有效样本的案例数n和最终筛选出的备选基因数m来决定具体用哪种方式来建立模型，所述有效样本案例数=药物有效案例数+药物无效案例数；当n>>m的时候，在1≤m≤30时，需要n超过m的10倍，此时选用标准的多元线性回归模型，当n仅是m的3~9倍时，用岭回归或者lasso回归的方式，加入约束罚值来纠正偏差，具体的约束罚值通过验证整体模型的阳性预测值和ROC曲线的方式确立；当阳性预测值达到最大或者ROC曲线下的面积最大时，所取的约束罚值即为模型所用的约束罚值；当上述方式均无法产生良好效果的时候，按照naïve贝叶斯分类法对于一个未知标本按照其基因突变预测分类。

6.根据权利要求1所述基于PDTX模型对抗肿瘤药物快速开发伴随诊断试剂的方法，其特征在于，所述模型预测结果的准确性低于70%时，继续在第一阶段增加PDTX样本量来增加效力。

7.含有权利要求1-6任一所述方法得到的伴随诊断试剂的试剂盒。

8.根据权利要求7所述试剂盒，其特征在于，该试剂盒包含了根据权利要求1-6任一所述方法获得的伴随诊断试剂，该试剂盒检测的目标基因是依据上述权利要求1-6任一所述方法而开发，相关的试剂的类型包含但不限于蛋白和核酸检测试剂。