CN110400601A

CN110400601A - 基于rna靶向测序和机器学习的癌症亚型分型方法及装置

Info

Publication number: CN110400601A
Application number: CN201910783893.4A
Authority: CN
Inventors: 杨家亮; 王博; 郎继东; 梁乐彬; 张燕香; 孙雪; 王伟伟; 王兴枝; 时淑舫; 田埂
Original assignee: Yuancode Gene Technology (wuxi) Co Ltd
Current assignee: Yuancode Gene Technology (wuxi) Co Ltd
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-01

Abstract

本发明公开基于RNA靶向测序和机器学习的癌症亚型分型方法及装置。本发明通过RNA靶向测序技术，高效富集目标基因区域，经过反转录、建库、测序步骤，得到目标区域的二代测序数据，并利用随机森林算法在TCGA数据集上训练得到肿瘤分型预测模型，从而准确地进行癌症多亚型分型。基于本发明的方法得到能够高准确率对肺癌和肾细胞癌分型模型。本发明的方法能够降低分型成本，而且分型速度、精度、分析结果的准确率上均超过传统方法。

Description

基于RNA靶向测序和机器学习的癌症亚型分型方法及装置

技术领域

本发明涉及癌症亚型分型领域，具体涉及基于RNA靶向测序和机器学习的癌症亚型分型方法。

背景技术

为了能够给癌症患者制定合理有效的个体化治疗方案，准确地进行癌症多亚型分类，并确定相关关键致病基因至关重要。病理学家需要较为丰富的经验才能够根据症状、切片图像等对亚型进行分类，但依然有一定的主观性。因而，能够通过自动的方式对亚型进行分类，不仅能够节省病理学家的时间，同时能够以相对客观的形式对病人的亚型进行分类，最终能够对病人的后期治疗有重要影响。

研究发现，转移灶肿瘤的基因表达谱与转移部位组织的基因表达谱存在差异，而与其原发部位组织的基因表达谱更相似，因此提示肿瘤在其发生、发展和转移的过程中，始终保留其组织起源的基因表达特征。根据这一原理，研究者开发了基于核酸表达的分子标志物用于识别肿瘤的组织起源。溯源产品目前已有多款问世产品，例如，产品CancerTYPEID使用实时RT-PCR技术检测患者肿瘤细胞中92个基因的表达，通过与确定的50种肿瘤分型数据库比对，明确患者的肿瘤分型和亚型，目前已获得FDA批准，可达到87％准确率[Ma XJ,Patel R,Wang X,et al.Molecular classification of human cancers using a 92-gene real-time quantitative polymerase chain reaction assay.Arch Pathol LabMed.2006；130(4):465-473]。产品Tissue Of Origin(简称TOO)是一种基于微阵列(microarray)技术的方法，通过检测2000个基因的表达，帮助识别不明肿瘤原发灶，包括转移性、低分化和未分化的癌症[Pillai R,Deeter R,Rigl CT,et al.Validation andreproducibility of a microarray-based gene expression test for tumoridentification in formalin-fixed,paraffin-embedded specimens.J MolDiagn.2011；13(1):48-56.doi:10.1016/j.jmoldx.2010.11.001]。该产品涵盖15种肿瘤类型，包括58种亚型，覆盖90％的实体肿瘤，目前已获FDA批准，可达到89％准确率。然而以上两款产品作为溯源产品功能冗余，价格相对较高，且对亚型的分型准确率较低，如CancerTYPE ID对肺腺癌的分型准确度仅有63％，因而亟需一款能够对特定亚型进行准确分型的产品。

据国家癌症中心发布的报告，我国平均每天超过1万人被确诊为癌症，肺癌位列发病首位。肺癌主要分为非小细胞肺癌(NSCLC)和小细胞肺癌(SCLC)，非小细胞肺癌约占肺癌的85％，其中腺癌(Lung adenocarcinoma，LUAD)占肺癌患者的50％左右，鳞癌(Lungsquamous cell carcinoma,LUSC)占30％左右，而大细胞肺癌则占比较少。鉴于肺癌亚型占比最高的是肺腺癌和肺鳞癌，本发明针对肺癌和肾细胞癌这两种主要癌症亚型进行分型。

在非小细胞癌中相对较轻的是鳞型，其次是而腺型。在癌转移方面，腺型的转移速度也比鳞型的快，鳞型易发生淋巴转移，腺型易发生血行转移及易出现远处转移，如肝脏，骨和脑转移。不同的肺癌亚型的区分对治疗方案的确定影响重大。在治疗方案上，肺鳞癌使用派姆单抗和纳武单抗等进行治疗效果较好。肺鳞癌需使用化学治疗，根据目前的观点，无论早期还是晚期，无论手术还是放疗，都要结合化疗，才能提高生存率。因此，进行原发灶是肺鳞癌还是肺腺癌的区分对病人和医生均有重大意义。

目前，常用于对肺癌亚型分型的技术是免疫组织化学染色。免疫标志物TTF-1(甲状腺转录因子-1)是诊断肺腺癌最常用的免疫标志物之一，75％-85％的肺腺癌表达TTF-1，且常呈弥漫一致性的强阳性，约20％的肺腺癌不表达TTF-1。免疫标志物p63是肺鳞癌常用的免疫标志物，一般认为高于90％的肺鳞癌p63呈强烈核表达，p63在肺腺癌中的阳性率为10％-33％，且常常呈局灶性低水平表达。p63诊断肺鳞癌的敏感度高达97.4％，但特异度较低，仅有72.8％。因而，仅根据免疫组织化学染色对结果进行肺癌亚型分型的准确率较低。

肾细胞癌分两大类，其中肾透明细胞癌(Kidney renal clear cell carcinoma,KIRC)占肾细胞癌的60-85％，预后较差，5年生存率补足70％。非肾透明细胞癌类型较多，主要是肾乳头状细胞癌(Kidney renal papillary cell carcinoma,KIRP)，其预后一般较好。对肾癌进行分型，预后的预估对治疗方案的决定有重要意义。目前常用的是磁共振成像(MRI)、超声造影和电子计算机断层扫描(CT)等，但是均需基于临床医生丰富的经验来对图像进行解读，并且相对费时费力，且结果有一定的主观性。因此，亟需一个相对简便的高准确率方法来对肾细胞癌进行分型。

发明内容

本发明立足于对癌症进行分型，提供了一种使用机器学习算法进行癌症亚型分型的方法及模型，该癌症分型方法及模型适用于所有癌症的分型。本发明的方法降低了成本并提高了预测的准确性。另外，本发明不要求有配对样本，适用于本发明中提到的基因区域捕获测序并进行双端(paired-end)测序的数据。

另外，基于本发明的方法首先挑选出对癌症具有重要作用的多个基因，之后使用这些基因对相应癌症成功地进行高准确性的分型。

具体地，本发明包括以下内容。

本发明的第一方面，提供基于RNA靶向测序和机器学习的癌症亚型分型方法，其包括以下步骤：

(1)建立癌症分型数据库，在基因表达数据库中筛选出与待分型癌种相关的多个基因，以该多个基因的表达数据作为特征，以亚型分类作为标签，建立癌症亚型分型数据库；

(2)确定分型预测模型，使用随机森林算法，设置每棵决策树桩的最大特征数为取整，其中N为该森林所有特征数，使用多棵决策树桩对所述癌症分型数据库进行分类训练，根据占比权重挑选出占比权重最高的x个基因作为分型用基因，并保存为分型预测模型，其中x为10以上的自然数；

(3)将从受试者的生物样本获取的RNA靶向测序数据输入所述分型预测模型，由此得到癌症的亚型分型。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症亚型分型的方法中，所述步骤(2)的确定分型预测模型包括对分型预测模型进行交叉验证的步骤，其中交叉验证包括：

a.将所述癌症亚型分型数据库中的样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，n为2以上的自然数；

b.重复步骤a进行n次，从而完成交叉验证并计算评价指数。

当本发明的评价指数低于预期值时，可进一步包括：

确定第二分型预测模型的步骤，根据占比权重排序挑选出占比权重最高的y个基因作为第二分型用基因，并保存为第二分型预测模型，其中y为10以上的自然数，且y小于x；对所述第二分型预测模型进行交叉验证得到评价指数的步骤。如果第二评价指数仍低于预期值重复分型预测模型再确定步骤直至得到预期值的步骤。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症亚型分型的方法中，所述评价指数包括精确度、召回率和F1分数。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症亚型分型的方法中，所述RNA靶向测序数据包括通过探针杂交和/或多重PCR获得的数据。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症亚型分型的方法中，所述RNA靶向测序数据包括液相杂交捕获和扩增子测序获得的数据。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症亚型分型的方法及装置中，所述RNA靶向测序数据的获取方法包括以下步骤：

(3-1)从生物样本中提取总RNA，去除其中的核糖体RNA，得到样本RNA；

(3-2)将所述样本RNA反转录为cDNA，并将其打断至280-320bp，优选为300bp；

(3-3)通过包括末端修复、接头连接和文库富集步骤的方法来构建基因文库；

(3-4)利用能够与目标基因选择性杂交的探针组从所述基因文库中捕获目标基因，其中所述探针组中的各探针为完全互补无重叠区的探针，且所述各探针各自分别包含标志物；

(3-5)利用高通量测序仪以双端模式进行测序，由此获取RNA靶向测序数据。

本发明的第二方面，提供肺癌亚型分型的方法，其包括以表1所示的基因作为分型用基因，并保存为基于随机森林算法的分型预测模型；

将从受试者的生物样本获取的RNA靶向测序数据输入所述分型预测模型，由此得到样本的肺癌亚型分型结果。

本发明的第三方面，提供肾细胞癌亚型分型的方法，其包括以下步骤：

以表3所示的基因作为分型用基因，并保存为基于随机森林算法的分型预测模型；

将从受试者的生物样本获取的RNA靶向测序数据输入所述分型预测模型，由此得到样本的肾细胞癌亚型分型结果。

本发明的第四方面，提供基于RNA靶向测序和机器学习的癌症亚型分型装置，所述装置包括：

模型建立模块，其被配置为能够从基因表达数据库中筛选出与待分型癌种相关的多个基因，以所述多个基因的表达数据作为特征，以亚型分类作为标签，建立癌症亚型分型数据库，运用随机森林算法，设置每棵决策树桩的最大特征数为取整，其中N为该森林所有特征数，使用多棵决策树桩对所述癌症亚型分分型数据库进行分类训练，根据占比权重排序，挑选出占比权重最高的多个基因，并保存为分型预测模型；

RNA靶向测序数据的提取模块，其被配置为能够从生物芯片获取受试者的生物样本的基因表达数据；

预测模块，其被配置为将获取的生物样本基因表达数据输入分型预测模块，由此运算得到癌症亚型分型结果。

优选地，根据本发明的靶向测序和机器学习的癌症亚型分型装置，在所述模型建立模块中，还包括对分型预测模型进行下述交叉验证的步骤：

a.将癌症亚型分型数据库中的样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证；

b.重复步骤a进行n次，从而完成所述交叉验证并计算包含精确度、召回率和F1分数的评价指数。

本发明通过RNA靶向测序技术，高效富集目标基因区域，经过反转录、建库、测序步骤，得到目标区域二代测序数据，并利用随机森林算法训练癌症亚型分型预测模型，从而准确地进行癌症多亚型分型。

本发明的癌症分型装置适用于所有癌症的分型情况，基于特异性探针的RNA靶向测序在降低基因测序成本的同时保证高深度测序，而且具有通量高、灵敏度高和特异性高的特点。

本发明的方法在算法速度、精度、分析结果的准确率上均超过传统方法。另外，本发明还通过增加临床验证结果对方法进行有效验证提高了准确性。

本发明能有效识别变异，用来分析特定基因组区域内的变异情况、拷贝数变异和微卫星不稳定等。探针捕获技术测序技术相比于全基因组测序和其他目标区域捕获测序，不仅效率高，而且可以在降低测序成本的同时保证高深度测序。通过二代测序，可对癌组织组织表达量进行测定，并通过算法，选择合适的能够确定亚型的基因，实现对癌症亚型的最终确认。在本发明的实施例中，肺癌的鳞癌/腺癌亚型分型准确率可达95％以上，肾细胞癌中的肾透明细胞癌/肾乳头状细胞癌亚型分型的准确率可达97％。

附图说明

图1为本发明方法的一种示例性流程图。

图2为本发明方法的肺癌实施例的模型展示图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。除非另有说明，否则“％”或“量”均为基于重量的百分数。

本发明中，术语“靶向基因测序”是指采用各种技术手段将待检测的目标区域富集之后，进行高通量测序的技术。本发明的靶向基因测序为RNA靶向基因的二代测序。更优选地，RNA靶向测序是指基于液相杂交捕获和扩增子测序。其中，液相杂交捕获需要针对目的基因的mRNA进行探针的设计，扩增子测序需要对目的基因的mRNA进行引物的设计。

本发明中，术语“机器学习”是指利用机器学习算法来处理数据。优选的机器学习算法为随机森林算法[Breiman L.Random Forests.Machine Learning,2001,45(1):5-32.doi:10.1023/A:1010933404324]。

[基于RNA靶向测序和机器学习的癌症亚型分型方法]

本发明的第一方面，提供基于RNA靶向测序和机器学习的癌症亚型分型方法，其至少包括以下三个步骤：

(1)建立癌症分型数据库，在基因表达数据库中筛选出与待分型癌种相关的多个基因，以所述多个基因的表达数据作为特征，以亚型分类作为标签，建立癌症亚型分型数据库；

(2)确定分型预测模型，使用随机森林算法，设置每棵决策树桩的最大特征数为取整，其中N为该森林所有特征数，使用多棵决策树桩对所述癌症分型数据库进行分类训练，根据占比权重排序挑选出占比权重最高的x个基因作为分型用基因，并保存为分型预测模型，其中x为10以上的自然数；

(3)将从受试者的生物样本获取的RNA靶向测序数据输入所述分型预测模型，由此得到样本的癌症亚型分型结果。

下面详细说明各步骤。

步骤(1)

本发明的步骤(1)为从基因表达数据库中建立癌症分型数据库的步骤。癌症分型数据库可来自于已知的任何数据库，只要其收录了足够量的基因表达数据即可。在示例性实施方案中，本发明的癌症分型数据库可以是根据例如从公开渠道收集的已知数据构建的数据库。在示例性实施方案中，本发明的癌症分型数据库是商业渠道购买的数据库。本发明的癌症分型数据库也可以采用未公开的数据库或未完全公开的数据库。如TCGA数据库。

本发明中，基因表达数据可以是与某一种癌症相关的基因的表达数据。也可以是与多种癌症，优选5种以上癌症，更优选10种以上癌症，特别优选15种以上癌症相关的基因表达数据。基因表达数据包括基因是否表达的数据，也包括基因表达强度/或表达量的数据。表达量可以是相对的表达量也可以是绝对的表达量。

本发明中，癌症的类型不特别限定，只要其具有两个以上的亚型即可。在示例性实施方案中，本发明的癌种为肺癌或肾细胞癌。

本发明中，与待分型癌种相关的多个基因的数量不限定，一般为10种以上人，优选为50种以上，更优选100种以上，进一步优选为500种以上，还进一步优选1000种以上。基因数量越多对于预测的准确性越高，因而是优选的。

步骤(2)

本发明的步骤(2)为确定分型预测模型的步骤，其包括使用随机森林算法，设置每棵决策树桩的最大特征数，使用多棵决策树桩对所述癌症亚型分型数据库进行分类训练，根据占比权重挑选出占比权重最高的x个基因作为分型用基因，并保存为分型预测模型。

本领域已知随机森林算法为一种已知算法。随机森林算法中，每棵决策树的最大特征数优选为的取整，但不限于接近该整数的其他数目，其中N为输入随机森林算法的特征数目。

本发明中，分型用基因是指根据随机森林算法所得到的占比权重挑选的x个最优基因，其中，x为10以上的自然数，优选为50以上的自然数。另外，一般情况下x为500以下的自然数，优选为300以下的自然数，更优选200以下的自然数。一般而言，最优基因是按占比权重从大到小排序后前面的x个基因。例如，可选取前面100、90、80、60和40个基因作为分型用基因。这些基因的表达数据与分型的相关性密切。因此，分型用基因是由多个基因组成的基因组合。需要说明的是，癌症类型不同，分型用基因的组成不同。

在示例性实施方案中，本发明的步骤(2)包括使用k棵决策树，对每一棵决策树，选择相应的袋外数据(out of bag，OOB)计算袋外数据误差，记为errOOB1。所谓袋外数据是指，每次建立决策树时，通过bootstrap方法抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。

随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值)，再次计算袋外数据误差，记为errOOB2。共有k棵树，则这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降(即errOOB2上升)，说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。通过此方法，对所有N个基因进行特征重要性降序排序，选择前n个基因作为之后分型用基因。

本发明中，确定分型预测模型还可进一步包括对分型预测模型进行交叉验证的步骤，其中交叉验证可以包括以下子步骤：a.将癌症分型数据库中的样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中，n为5-100之间的自然数，优选5-50之间的自然数，更优选5-20之间的自然数，例如8、10和12等；和b.重复步骤a进行n次，从而完成交叉验证。本发明中通过交叉验证可计算得到评价指数，例如精确度、召回率和F1分数。

在示例性实施方案中，本发明的n为10。即，本发明的交叉验证包括将样本数据随机的分成10份，依次选择其中的1份作为测试集，剩下的9份作为训练集，以9份训练集训练模型后，对1份测试集进行测试。在完成10次训练和测试流程后，每个样本正好被预测了1次。

本发明中，当通过交叉验证得到的评价指数达到或高于预期值时，可将该分型预测模型直接用于后续的步骤(3)。当通过交叉验证得到的评价指数低于预期值时，可进一步进行分型预测模型再确定步骤，直到得到具有或高于预期值的分型预测模型。根据需要，分型预测模型再确定步骤可重复一次至多次。再确定步骤可以与骤(2)相同，或者至少包括进一步根据占比权重排序挑选出占比权重最高的y个基因作为分型用基因，并保存为新分型预测模型。其中y为10以上的自然数，且y小于x。在步骤(2)得到的分型预测模型为第一分型预测模型的情况下，通过分型预测模型再确定步骤可得到第二分型预测模型、第三分型预测模型，依次类推，可能得到更多的分型预测模型。通过计算可得到这些分型预测模型的评价指数。选择具有达到或高于预期值的评价指数的分型预测模型进行后续的步骤(3)。

本发明中，确定分型预测模型可进一步包括利用临床样本数据进行再次验证，从而计算评价指数的步骤。其中，评价指数可包括精确度、召回率和F1分数。本发明通过验证可大大提升分型的准确率和召回率，从而使本发明的方法比已知方法例如Cancer TYPEID、Tissue Of Origin更具优势，例如本发明对肺癌的鳞癌/腺癌亚型分型准确率可达95％以上，肾细胞癌中的肾透明细胞癌/肾乳头状细胞癌亚型分型的准确率可达97％。

步骤(3)

本发明的步骤(3)为亚型分型步骤。具体地，其包括将从受试者的生物样本获取的RNA靶向测序数据输入分型预测模型，由此得到癌症的亚型分型。

本发明中，受试者是指待测对象，其一般是指癌症亚型不确定的患者、无法明确癌组织是原发性还是癌症复发的患者、原发灶在肺部且发生转移但无法确定亚型的患者、活检标本有限无法通过常规病理检测的患者和治疗效果不明显的患者。

本发明中，RNA靶向测序数据包括通过探针杂交和/或多重PCR获得的数据。例如通过液相杂交捕获和扩增子测序获得的数据。

在示例性实施方案中，RNA靶向测序数据的获取方法包括以下步骤：

(3-1)从生物样本中提取总RNA，去除其中的核糖体RNA，得到样本RNA。本发明发现除去核糖体RNA对于准确预测癌症亚型是重要的。

(3-2)将样本RNA反转录为cDNA，并将其打断至280-320bp。

(3-3)通过包括末端修复、接头连接和文库富集步骤的方法来构建基因文库。

(3-4)利用能够与目标基因选择性杂交的探针组从所述基因文库中捕获目标基因，其中所述探针组中的各探针为完全互补、无重叠区的探针，且所述各探针各自分别包含标志物。

本发明的步骤(3)通过对基因表达量矩阵进行预测，可输出该样本被预测为各亚型的概率。当针对某亚型的概率被预测为相对最大时，则判断样品中癌症为该亚型。例如，当待分的亚型为A和B两种时，如果A亚型的概率大于0.5，则将癌症预测为A亚型，反之预测为B亚型。再例如，当某癌症待分的亚型为A、B和C三种时，如果A亚型的概率为0.6，B亚型的概率为0.2，C亚型的概率为0.2，则将该癌症预测为A亚型。

需要说明的是，除了上述步骤(1)-(3)外，在不违背本发明的目的的前提下，本发明还可包括其他步骤。此类其他步骤可以在步骤(1)-(3)任何两者之间，或者在步骤(1)之前或在步骤(3)之后。只要能够实现本发明的目的，此类步骤的位置或顺序并不特别限定。此外，两个以上的步骤可合并同时进行。

[肺癌亚型分型的方法]

本发明的第二方面，提供肺癌亚型分型的方法。发明人选择来自TCGA数据库的RNAseq表达谱数据作为样本，通过第一方面所述方法得到表1所示的100个基因。出人意料的是，发明人发现当从表1的基因中选择至少部分基因作为分型用基因时，能够高效准确的对肺癌进行分型预测，其预测的准确率远超目前已知的方法。

[肾细胞癌亚型分型的方法]

本发明的第三方面，提供肾细胞癌亚型分型的方法。发明人选择来自TCGA数据库的RNAseq表达谱数据作为样本，通过第一方面所述方法得到表3所示的100个基因。出人意料的是，发明人发现当从表3的基因中选择至少部分基因作为分型用基因时，能够高效准确的对肾细胞癌进行分型预测，其预测的准确率远超目前已知的方法。

[基于RNA靶向测序和机器学习的癌症亚型分型装置]

本发明的第四方面，提供基于RNA靶向测序和机器学习的癌症亚型分型装置，其包括：

模型建立模块，其被配置为能够从基因表达数据库中筛选出与待分型癌种相关的多个基因，以所述多个基因的表达数据作为特征，以亚型分类作为标签，建立癌症亚型分型数据库，运用随机森林算法，设置每棵决策树桩的最大特征数为取整，其中N为该森林所有特征数，使用多棵决策树桩对所述癌症亚型分分型数据库进行分类训练，根据占比权重排序，挑选出占比权重最高的多个基因作为分型用基因，并保存为分型预测模型；

在某些实施方案中，本发明的模型建立模块中包括对分型预测模型进行下述交叉验证的子模块：

本发明的癌症亚型分型装置的具体形式在本领域内是已知的，具体可表现为计算机、处理器等。

以下实施例用于示例性说明本发明的方法。需要说明的是，无论是液相杂交捕获，还是扩增子测序均能实现本发明的目的。由于液相捕获的探针可与我们已有的检测SNP、Indel、融合基因等变异类型的其他探针pool结合，故具体实施例中展示的是液相捕获的技术手段。

实施例1

一、样本信息

选择来自TCGA数据库的患有肺癌的914名患者的RNAseq表达谱数据作为样本。

二、实验步骤

1.预处理：

1.1通过利用TCGA项目中肺癌的表达数据建立数据库，以914个基因的表达数据作为特征，以癌种亚型分类作为标签，建立分型数据库。

1.2使用随机森林算法，设置每棵决策树桩使用的最大特征数为143个，使用2000棵决策树桩，对以上亚型分型数据库进行分类训练，挑选出权重最高的100个基因(见表1)并保存模型，该模型为本发明的分型预测模型，模型以0.5为概率阈值，即预测样本为该亚型的概率超过0.5时即判断样本属于该亚型，基因为本发明设计的目标区域的基因。图2为本发明的肺癌实施例的模型展示图。其中，每个决策节点上的第一行为其子节点进行分支的判断标准，若该节点已经是一个叶节点，即其gini不纯度为0时，则该行省略，其下向左的箭头指示符合该判断标准的子节点，向右的箭头指示不符合该判断标准的子节点；第二行为其gini不纯度，gini的计算公式为：

其中p(i)为每个类别在该节点的频率；第三行为该节点所包含的不重复样本数；第四行为在这些样本中不同癌种的样本数目，可能有重复，这是由于随机森林的每棵树的初始数据采用有放回的抽样方式进行了抽样，因此会有部分样本出现重复；第五行为该节点处样本数最多的癌种标签。使用随机森林算法进行训练后的权重最高的100个基因如表1所示。

表1-使用随机森林算法进行训练后的权重最高的100个基因

2.RNA提取

使用患者石蜡包埋的病理切片或新鲜组织，采用Qiagen的GeneRead DNA FFPEKit(Cat No./ID:180134)进行总RNA提取。并使用Life Technologies Qubit4.0荧光定量仪针对RNA的含量进行测定。

3.杂交前核苷酸文库制备

使用EpiCentre公司的RiboZero方法来去除核苷酸中的核糖体RNA。

RNA提取的产物使用随机引物、聚合酶、RNaseH、dNTP等进行cDNA反转录。将cDNA打断至300bp左右。

使用ABclonal公司的Rapid DNA Lib Prep Kit进行核苷酸文库构建：包括末端修复、接头连接、文库富集等步骤。

将核苷酸文库使用Agencourt AMpure XP磁珠纯化后，使用Qubit4.0以及Agilent2100毛细管电泳进行质控。

4.探针捕获杂交

4.1目标基因探针设计：根据选取的目标基因，根据其转录本序列设计Non-overlapping的完全互补的探针序列，探针5’端需要用生物素标记。

4.2核苷酸文库杂交捕获：将500ng制备好的杂交前文库与人cot-1DNA5ug混合，使用真空抽滤泵45℃蒸干后，再复溶于杂交液中，室温孵育10min后上PCR仪，95℃5min后加入混合好的探针，再置于65℃杂交16-18h。

4.3链霉亲和素磁珠吸附与清洗：将产物与链霉亲和素磁珠混合，在PCR仪上孵育45min，后续用清洗液对磁珠进行清洗。

4.4探针捕获区域富集：使用引物、高保真聚合酶等对4.3中的产物进行富集，经过Agencourt AMPure XP磁珠纯化后使用Qubit4.0以及Agilent 2100毛细管电泳进行质控。

4.5使用高通量测序仪，例如Illumina MiSeq、NextSeq、NovaSeq等，以pair-end模式进行测序。

三、信息分析

按照图1所示流程进行模型训练模型后开展后续实验。取样本test为例，其双端测序结果为test_1.fq，test_2.fq。

使用软件cutadapt对测序数据进行修剪处理，主要去除序列中的接头序列和低质量序列，处理后的文件记为test_1.trim.fq和test_2.trim.fq。

使用软件比对软件bowtie，设置双端比对的方式，将test_1.trim.fq和test_2.trim.fq比对到参考基因组hg19.fa(UCSC下载)上，比对结果记为test.bam。

使用软件RSEM对test.bam进行基因表达定量并进行标准化，标准化后的结果记为test.quant。

test.quant结果输入到预处理后得到的分型预测模型中，得到预测结果。

四、结果总结

通过交叉验证，对肺癌进行训练及测试，并得到其精确度、召回率和F1分数(见表2)。根据结果，可以对肺癌进行准确的亚型分型。

10折交叉验证步骤如下：将样本数据随机的分成10份，依次选择其中的1份作为测试集，剩下的9份作为训练集，以9份训练集训练模型后，对1份测试集进行测试。在完成10次训练和测试流程后，每个样本正好被预测了1次。结果显示，我们对肺癌的鳞癌/腺癌亚型分型准确率可达95％以上，远超过Cancer TYPE ID的63％。

表2-肺癌亚型交叉验证精确度、召回率和F1分数

实施例2

在未特别说明的情况下，实施例2的其他步骤与实施例1相同。

一、样本信息

选择来自TCGA数据库的患有肾细胞癌的750名患者的RNAseq表达谱数据作为样本。

二、实验步骤

1.预处理：

1.1通过利用TCGA项目中肾细胞癌的表达数据建立数据库，以750个基因的表达数据作为特征，以癌种亚型分类作为标签，建立分型数据库。

1.2使用随机森林算法，设置每棵决策树桩使用的最大特征数为143个，使用2000棵决策树桩，对以上亚型分型数据库进行分类训练，挑选出权重最高的100个基因(见表3)并保存模型，该模型为本发明的分型预测模型，模型以0.5为概率阈值，即预测样本为该亚型的概率超过0.5时即判断样本属于该亚型，基因为本发明设计的目标区域的基因。使用随机森林算法进行训练后的权重最高的100个基因如表3所示。

表3-使用随机森林算法进行训练后的权重最高的100个基因

2.RNA提取

3.杂交前核苷酸文库制备

使用EpiCentre公司的RiboZero方法来去除核苷酸中的核糖体RNA。

4.探针捕获杂交

三、信息分析

四、结果总结

通过交叉验证，对肾细胞癌进行训练及测试，并得到其精确度、召回率和F1分数(见表4)。根据结果，可以对肾细胞癌进行准确的亚型分型。

10折交叉验证步骤如下：将样本数据随机的分成10份，依次选择其中的1份作为测试集，剩下的9份作为训练集，以9份训练集训练模型后，对1份测试集进行测试。在完成10次训练和测试流程后，每个样本正好被预测了1次。结果显示，我们对肾细胞癌中的肾透明细胞癌/肾乳头状细胞癌亚型分型的准确率可达97％，不同癌种的精确度、召回率和F1分数结果见表4所示。

表4-肾细胞癌亚型交叉验证精确度、召回率和F1分数

尽管已经参考示例性实施方案描述了本发明，但应理解本发明不限于公开的示例性实施方案。在不背离本发明的范围或精神的情况下，可对本发明说明书的示例性实施方案做多种调整或改变。本发明的权利要求的范围应基于最宽的解释以涵盖所有修改和等同结构与功能。

Claims

1.一种基于RNA靶向测序和机器学习的癌症亚型分型方法，其特征在于，包括以下步骤：

(1)建立癌症分型数据库的步骤，其包括在基因表达数据库中筛选出与待分型癌种相关的多个基因，以所述多个基因的表达数据作为特征，以亚型分类作为标签，建立癌症亚型分型数据库；

(2)确定分型预测模型的步骤，其包括使用随机森林算法，设置每棵决策树桩的最大特征数为取整，其中N为该森林所有特征数，使用多棵决策树桩对所述癌症分型数据库进行分类训练，根据占比权重排序挑选出占比权重最高的x个基因作为分型用基因，并保存为分型预测模型，其中x为10以上的自然数；

2.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症亚型分型方法，其特征在于，在步骤(2)的确定分型预测模型中包括对分型预测模型进行交叉验证的步骤，其中所述交叉验证包括：

a.将所述癌症亚型分型数据库中的样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中n为2以上的自然数；

b.重复步骤a共进行n次验证，从而完成所述交叉验证并计算评价指数。

3.根据权利要求2所述的基于RNA靶向测序和机器学习的癌症亚型分型方法，其特征在于，当所述评价指数低于预期值时，进一步包括：

分型预测模型再确定步骤，其包括根据占比权重排序挑选出占比权重最高的y个基因作为第二分型用基因，并保存为第二分型预测模型，其中y为10以上的自然数，且y小于x；

对所述第二分型预测模型进行交叉验证得到第二评价指数的步骤；和

如果第二评价指数仍低于预期值重复分型预测模型再确定步骤直至得到预期值的步骤。

4.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症亚型分型方法，其特征在于，所述RNA靶向测序数据包括通过探针杂交和/或多重PCR获得的数据。

5.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症亚型分型方法，其特征在于，所述RNA靶向测序数据包括液相杂交捕获和扩增子测序获得的数据。

6.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症亚型分型方法，其特征在于，步骤(3)中的RNA靶向测序数据的获取方法包括以下步骤：

(3-2)将所述样本RNA反转录为cDNA，并将其打断至280-320bp；

(3-4)利用能够与目标基因选择性杂交的探针组从所述基因文库中捕获目标基因，其中所述探针组中的各探针为完全互补、无重叠区的探针，且所述各探针各自分别包含标志物；

7.一种肺癌亚型分型的方法，其特征在于，包括以下步骤：

以选自表1所示的基因组成的组中至少部分基因作为分型用基因，并保存为基于随机森林算法的分型预测模型；

8.一种肾细胞癌亚型分型的方法，其特征在于，包括以下步骤：

以选自表3所示的基因组成的组中的至少部分基因作为分型用基因，并保存为基于随机森林算法的分型预测模型；

9.一种基于RNA靶向测序和机器学习的癌症亚型分型装置，其特征在于，所述装置包括：

10.根据权利要求9所述的基于RNA靶向测序和机器学习的癌症亚型分型装置，其特征在于，在所述模型建立模块中包括对分型预测模型进行下述交叉验证的子模块：