CN110379465A

CN110379465A - 基于rna靶向测序和机器学习的癌症组织溯源方法

Info

Publication number: CN110379465A
Application number: CN201910654039.8A
Authority: CN
Inventors: 杨家亮; 王博; 郎继东; 梁乐彬; 张燕香; 孙雪; 张海鹏; 王伟伟; 田埂
Original assignee: Meta Code Gene Technology (beijing) Ltd By Share Ltd
Current assignee: Meta Code Gene Technology (beijing) Ltd By Share Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-25

Abstract

本发明公开基于RNA靶向测序和机器学习的癌症组织溯源方法。本发明通过RNA靶向测序技术，高效富集目标基因区域，经过反转录、建库、测序步骤，得到目标区域的二代测序数据，并利用随机森林算法在TCGA数据集上训练得到肿瘤溯源预测模型，从而预测癌组织的原发灶位置。另外，本发明中特定探针的合成不仅降低了肿瘤溯源相关基因测序成本，而且很大程度上简化了检测过程，具有通量高、灵敏度高和特异性高的特点。本发明公开的方法在算法速度、精度、分析结果的准确率上均超过传统方法。

Description

基于RNA靶向测序和机器学习的癌症组织溯源方法

技术领域

本发明涉及基因检测，具体涉及基于RNA靶向测序和机器学习的癌症组织溯源方法。

背景技术

原发灶不明转移癌(cancer of unknown primary site,CUP)是指组织学确诊为转移癌，但无法明确原发位点的恶性肿瘤。这类肿瘤约占所有肿瘤的5％。CUP的治疗以经验性化疗为主，患者预后普遍较差，中位存活时间仅为8-11月。明确肿瘤的原发部位有助于医生制定针对性的治疗方案，提高患者生存率。然而，目前约20％-50％的CUP患者无法找到原发灶[陈金影、蔡虎、徐清华，原发灶不明转移癌的临床诊断[J].分子诊断与治疗杂志，2017，9(01):67-72.]。

研究发现肿瘤在其发生、发展、转移的过程中，始终保留其组织起源的基因表达特征。根据这一原理，目前已经开发了几种基于核酸表达的肿瘤溯源产品并获得美国FDA认证。例如，基于RT-PCR技术的Cancer TYPE ID[2.Ma XJ,Patel R,Wang X,et al.Molecularclassification of human cancers using a92-gene real-time quantitativepolymerase chain reaction assay.Arch Pathol LabMed.2006；130(4):465-73]、基于微阵列技术的组织溯源[Pillai R,Deeter R,Rigl CT,et al.Validation andreproducibility of a microarray-based gene expression test for tumoridentification in formalin-fixed,paraffin-embedded specimens.J MolDiagn.2011；13(1):48–56.doi:10.1016/j.jmoldx.2010.11.001]等。其中，Cancer TYPEID使用遗传算法对基因进行挑选，使用K近邻算法进行肿瘤的溯源，其在训练集交叉验证得到的总体准确率为91％。

靶向基因测序是指采用各种技术手段将待检测的目标区域富集之后，进行高通量测序的研究。二代靶向测序目前主流分为液相杂交捕获和扩增子测序两种技术手段，富集策略分别是探针杂交和多重PCR。二代靶向测序具有通量高、价格低、检测范围广等优点。相比较于其他全转录组测序，不仅效率高，而且可以在降低测序成本的同时保证高深度测序，除此之外，针对表达丰度较低的基因，靶向测序的高深度的优势就体现了其价值。因此，以靶向测序为基础的组织溯源具有明显的优势。然而，以靶向测序为基础的组织溯源需要高效而准确的算法模型，由于目前未开发出此类算法，因此以靶向测序为基础的组织溯源方案目前仍是空白。

发明内容

鉴于此，本发明建立一种基于RNA靶向测序和机器学习的癌症组织溯源方法。本发明利用随机森林算法在TCGA数据集上训练，从而得到一种肿瘤溯源预测模型。至少部分地基于此完成了本发明。具体地，本发明包括以下内容。

一种基于RNA靶向测序和机器学习的癌症组织溯源方法，其包括以下步骤：

(1)建立癌症溯源数据库，在多个癌种的基因表达数据中，以多个基因的表达数据作为特征，以癌种分类作为标签，建立所述癌症溯源数据库；

(2)确定溯源预测模型，使用随机森林算法，设置每棵决策树桩的最大特征数，使用多棵决策树桩对所述癌症溯源数据库进行分类训练，根据占比权重挑选出包含目标区域的多个模型基因，并保存为溯源预测模型；

(3)将从受试者的生物样本获取的RNA靶向测序数据输入所述溯源预测模型，由此得到癌症的组织溯源。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述步骤(2)的确定溯源预测模型包括对溯源预测模型进行交叉验证的步骤，其中交叉验证包括：

a.将所述癌症溯源数据库中的样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证；

b.重复步骤a进行n次，从而完成交叉验证。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，确定溯源预测模型进一步包括利用临床样本数据进行再次验证，从而计算评价指数的步骤。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述评价指数包括精确度、召回率和F1分数。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述RNA靶向测序数据包括通过探针杂交和/或多重PCR获得的数据。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述RNA靶向测序数据包括液相杂交捕获和扩增子测序获得的数据。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述癌种包括膀胱癌、乳腺癌、宫颈癌、结肠癌、多形成性胶质细胞瘤、头颈鳞状细胞癌、肾透明细胞癌、肾乳头状细胞癌、急性髓细胞样白血病、脑低级别胶质瘤、肝细胞肝癌、肺腺癌、肺鳞癌、卵巢浆液性囊腺癌、胰腺癌、前列腺癌、直肠腺癌、胃癌、甲状腺癌和子宫内膜癌。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述包含目标区域的多个模型基因选自由下述基因组成的组：AARD、ACPP、ACSM2A、ACSM2B、ANGPTL4、ANKRD30A、ANXA2P3、ATP5EP2、AZGP1、C6orf222、CDHR5、CDX1、CDX2、CHRNA2、CILP、CREB3L4、CRYGN、DAPK2、EEF1A1P9、EFHD1、EMX2、EMX2OS、ENPP3、ESM1、ESR1、FOXA1、FOXE1、FSIP1、FTH1P3、GALNT14、GATA3、GATA3-AS1、H3F3C、HNF1B、HNF4A、HOXB13、IRX5、KCNJ16、KLHL14、KLK2、KLK3、KLK4、KRT5、KRT6C、LCN12、LMX1B、LOC407835、LOC643387、MAGED2、MGAT4C、MGP、MSX1、MYB、NACA2、NACAP1、NAPSA、NAT1、NDUFA4L2、NKX2-1、NKX3-1、NME2P1、NOX1、OR51E2、PA2G4P4、PAX8、PKP1、PPIAL4C、PRLR、RDH11、RERG、RMST、RPL17、RPL19P12、RPL23P8、SALL1、SCGB2A2、SCGB3A2、SFTA3、SFTPA1、SFTPA2、SFTPB、SFTPC、SFTPD、SLC39A6、SLC45A3、SOX17、SPDEF、TBC1D9、TG、TM4SF5、TMEM241、TP63、TPO、TRPS1、TSHR、UBE2MP1、UQCRBP1、XBP1、YBX3P1和ZNF552。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述RNA靶向测序数据的获取方法包括以下步骤：

(3-1)从生物样本中提取总RNA，去除其中的核糖体RNA，得到样本RNA；

(3-2)将所述样本RNA反转录为cDNA，并将其打断至280-320bp，优选为300bp；

(3-3)通过包括末端修复、接头连接和文库富集步骤的方法来构建基因文库；

(3-4)利用能够与目标基因选择性杂交的探针组从所述基因文库中捕获目标基因，其中所述探针组中的各探针为完全互补无重叠区的探针，且所述各探针各自分别包含标志物；

(3-5)利用高通量测序仪以双端模式进行测序，由此获取RNA靶向测序数据。

优选地，在本发明的基于RNA靶向测序和机器学习的癌症组织溯源的方法中，所述受试者包括原发灶不明转移癌症患者、无法明确病灶是原发性还是癌症复发的患者、罕见恶性肿瘤患者、肿瘤活检标本有限无法通过常规病理检测的患者、治疗效果不明显的患者、有多种癌症病史的患者、临床病史和组织学诊断不同的患者。

本发明通过RNA靶向测序技术，高效富集目标基因区域，经过反转录、建库、测序步骤，得到目标区域二代测序数据，并在TCGA数据集上利用随机森林算法训练肿瘤溯源预测模型，完成了肿瘤溯源的精准检测Panel，从而预测癌组织的原发灶位置。另外，本发明通过特定探针的合成不仅降低了肿瘤溯源相关基因测序成本，而且很大程度上简化了检测过程，具有通量高，灵敏度高，特异性高的特点。本发明的方法在算法速度、精度、分析结果的准确率上均超过传统方法。另外，本发明还通过增加临床验证结果对方法进行有效验证，提高了准确性。

附图说明

图1为本发明方法的一种示例性流程图。

图2为本发明截取的某棵决策树的部分图。

具体实施方式

现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。除非另有说明，否则“％”或“量”均为基于重量的百分数。

本发明提供基于RNA靶向测序和机器学习的癌症组织溯源方法。其中，“靶向基因测序”是指采用各种技术手段将待检测的目标区域富集之后，进行高通量测序的研究。优选地，本发明的RNA靶向测序基于二代测序。更优选地，RNA靶向测序是指基于液相杂交捕获和扩增子测序。其中，液相杂交捕获需要针对目的基因的mRNA进行探针的设计，扩增子测序需要对目的基因的mRNA进行引物的设计。其中，“机器学习”是指利用机器学习算法来处理数据。优选的机器学习算法为随机森林算法[Breiman L.Random Forests.MachineLearning,2001,45(1):5-32.doi:10.1023/A:1010933404324]。

本发明的基于RNA靶向测序和机器学习的癌症组织溯源方法一般包括以下步骤：

(1)建立癌症溯源数据库，在M个样本组成的涵盖了多个癌种的基因表达数据中，以N个基因的表达数据作为特征，以癌种分类作为标签，建立癌症溯源数据库；

(2)确定溯源基因：使用随机森林算法，使用k棵决策树，对每一棵决策树，选择相应的袋外数据(out of bag，OOB)计算袋外数据误差，记为errOOB1.

所谓袋外数据是指，每次建立决策树时，通过bootstrap方法抽样得到一个数据用于训练决策树，这时还有大约1/3的数据没有被利用，没有参与决策树的建立。这部分数据可以用于对决策树的性能进行评估，计算模型的预测错误率，称为袋外数据误差。

随机对袋外数据OOB所有样本的特征X加入噪声干扰(可以随机改变样本在特征X处的值)，再次计算袋外数据误差，记为errOOB2。

共有k棵树，这个数值之所以能够说明特征的重要性是因为，如果加入随机噪声后，袋外数据准确率大幅度下降(即errOOB2上升)，说明这个特征对于样本的预测结果有很大影响，进而说明重要程度比较高。

通过此方法，对所有N个基因进行特征重要性降序排序，选择前n个基因作为之后模型选用的基因；

(3)确定溯源预测模型，使用随机森林算法，即通过设置k棵决策树，每棵树都以bootstrap方式抽取m个样本，设置每棵决策树的随机挑选的特征数为的1-n闭区间之间的整数，通过每棵决策树单独进行训练，最终得到k棵决策树训练得到的树作为模型，并以k棵树最终投票最多的癌种作为预测癌种结果，并以该最大投票数除以k为预测信心(概率)。通过使用多棵决策树桩对所述癌症溯源数据库进行分类训练所得到的模型即为溯源预测模型；

(4)将从受试者的生物样本获取的RNA靶向测序数据输入所述溯源预测模型，由此得到癌症的组织溯源。

需要说明的是，除了上述步骤(1)-(3)外，在不违背本发明的目的的前提下，本发明还可包括其他步骤。此类其他步骤可以在步骤(1)-(3)任何两者之间，或者在步骤(1)之前或在步骤(3)之后。只要能够实现本发明的目的，此类步骤的位置或顺序并不特别限定。此外，两个以上的步骤可合并同时进行。下面详细说明本发明的步骤(1)-(3)。

步骤(1)

本发明的步骤(1)为建立癌症溯源数据库，其包括在多个癌种的基因表达数据中，以多个基因的表达数据作为特征，以癌种分类作为标签建立所述癌症溯源数据库。

本发明中，癌症溯源数据库可来自于已知的任何数据库，只要其收录了足够量的基因表达数据即可。在示例性实施方案中，本发明的癌症溯源数据库可以是根据例如从公开渠道收集的已知数据构建的数据库。在示例性实施方案中，本发明的癌症溯源数据库是商业渠道购买的数据库。在示例性实施方案中，本发明的癌症溯源数据库来源于TCGA数据库。

本发明中，基因表达数据为多种癌症，优选5种以上癌症，更优选10种以上癌症，特别优选15种以上癌症的基因表达数据。这些数据包括基因是否表达的数据，也包括基因表达强度/或表达量的数据。在示例性实施方案中，本发明的癌种包括膀胱癌、乳腺癌、宫颈癌、结肠癌、多形成性胶质细胞瘤、头颈鳞状细胞癌、肾透明细胞癌、肾乳头状细胞癌、急性髓细胞样白血病、脑低级别胶质瘤、肝细胞肝癌、肺腺癌、肺鳞癌、卵巢浆液性囊腺癌、胰腺癌、前列腺癌、直肠腺癌、胃癌、甲状腺癌和子宫内膜癌。

本发明中，基因的数量不限定，优选为100种以上，更优选为500种以上，进一步优选1000种以上。基因数量越多对于预测的准确性越高，因而是优选的。随机森林算法中，每棵决策树选用的基因数目优选为的取整，但不限于接近该整数的其他数目，其中n为输入随机森林算法的特征数目。

步骤(2)

本发明的步骤(2)为确定溯源预测模型的步骤，其包括使用随机森林算法，设置每棵决策树桩的最大特征数，使用多棵决策树桩对所述癌症溯源数据库进行分类训练，根据占比权重挑选出包含目标区域的多个模型基因，并保存为溯源预测模型。

本领域已知随机森林算法为一种已知算法，本文在此不做具体说明。

本发明中，包含目标区域的多个模型基因是指根据随机森林算法所得到的占比权重挑选的最优基因。其中，这些基因至少包含与组织起源特征相关的目标区域。在示例性实施方案中，本发明的包含目标区域的多个模型基因选自由下述基因组成的组：AARD、ACPP、ACSM2A、ACSM2B、ANGPTL4、ANKRD30A、ANXA2P3、ATP5EP2、AZGP1、C6orf222、CDHR5、CDX1、CDX2、CHRNA2、CILP、CREB3L4、CRYGN、DAPK2、EEF1A1P9、EFHD1、EMX2、EMX2OS、ENPP3、ESM1、ESR1、FOXA1、FOXE1、FSIP1、FTH1P3、GALNT14、GATA3、GATA3-AS1、H3F3C、HNF1B、HNF4A、HOXB13、IRX5、KCNJ16、KLHL14、KLK2、KLK3、KLK4、KRT5、KRT6C、LCN12、LMX1B、LOC407835、LOC643387、MAGED2、MGAT4C、MGP、MSX1、MYB、NACA2、NACAP1、NAPSA、NAT1、NDUFA4L2、NKX2-1、NKX3-1、NME2P1、NOX1、OR51E2、PA2G4P4、PAX8、PKP1、PPIAL4C、PRLR、RDH11、RERG、RMST、RPL17、RPL19P12、RPL23P8、SALL1、SCGB2A2、SCGB3A2、SFTA3、SFTPA1、SFTPA2、SFTPB、SFTPC、SFTPD、SLC39A6、SLC45A3、SOX17、SPDEF、TBC1D9、TG、TM4SF5、TMEM241、TP63、TPO、TRPS1、TSHR、UBE2MP1、UQCRBP1、XBP1、YBX3P1和ZNF552。

本发明中，确定溯源预测模型一般包括对溯源预测模型进行交叉验证的步骤，其中交叉验证可以包括以下子步骤：a.将癌症溯源数据库中的样本数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中，n为5-100之间的自然数，优选5-50之间的自然数，更优选5-20之间的自然数，例如8、10和12等；和b.重复步骤a进行n次，从而完成交叉验证。

在示例性实施方案中，本发明的n为10。即，本发明的交叉验证包括将样本数据随机的分成10份，依次选择其中的1份作为测试集，剩下的9份作为训练集，以9份训练集训练模型后，对1份测试集进行测试。在完成10次训练和测试流程后，每个样本正好被预测了1次。

本发明中，确定溯源预测模型可进一步包括利用临床样本数据进行再次验证，从而计算评价指数的步骤。其中，评价指数可包括精确度、召回率和F1分数。可通过比较预测的原发灶组织和真实已知的原发灶组织来计算此类评价指数。本发明通过两种验证可大大提升溯源的准确率和召回率，从而使本发明的方法比已知方法例如Cancer TYPE ID更具优势，例如使准确性大于91％。另外，本发明的方法由于无需K近邻算法，速度提高，因此更加高效。

步骤(3)

本发明的步骤(3)为组织溯源步骤，其包括将从受试者的生物样本获取的RNA靶向测序数据输入所述溯源预测模型，由此得到癌症的组织溯源。

本发明中，受试者是指待测对象，其一般是指患有肿瘤或癌症的患者。优选地，本发明的受试者包括原发灶不明转移癌症患者、无法明确病灶是原发性还是癌症复发的患者、罕见恶性肿瘤患者、肿瘤活检标本有限无法通过常规病理检测的患者、治疗效果不明显的患者、有多种癌症病史的患者、临床病史和组织学诊断不同的患者。

本发明中，RNA靶向测序数据包括任何类型的数据，一般而言，包括主流的通过探针杂交和/或多重PCR获得的数据。例如，液相杂交捕获和扩增子测序获得的数据。

本发明的RNA靶向测序数据可通知已知的方法获取。在示例性获取方法中，其包括以下子步骤：

(3-2)将所述样本RNA反转录为cDNA，并将其打断至280-320bp；

(3-4)利用能够与目标基因选择性杂交的探针组从所述基因文库中捕获目标基因，其中所述探针组中的各探针为完全互补、无重叠区的探针，且所述各探针各自分别包含标志物；

实施例

本实施例用于示例性说明本发明方法。需要说明的是，无论是液相杂交捕获，还是扩增子测序均能实现本发明的目的。由于液相捕获的探针可与我们已有的检测SNP、Indel、融合基因等变异类型的其他探针pool结合，故具体实施例中展示的是液相捕获的技术手段。

一、样本信息

选择来自TCGA数据库的分别患有20种癌症的7633名患者的RNAseq表达谱数据作为样本。

二、实验步骤

1.预处理：

1.1通过利用TCGA项目中膀胱癌、乳腺癌、宫颈癌、结肠癌、多形成性胶质细胞瘤、头颈鳞状细胞癌、肾透明细胞癌、肾乳头状细胞癌、急性髓细胞样白血病、脑低级别胶质瘤、肝细胞肝癌、肺腺癌、肺鳞癌、卵巢浆液性囊腺癌、胰腺癌、前列腺癌、直肠腺癌、胃癌、甲状腺癌及子宫内膜癌等20个癌种的表达数据建立数据库，以20501个基因的表达数据作为特征，以癌种分类作为标签，建立溯源数据库。

1.2使用随机森林算法，设置每棵决策树桩使用的最大特征数为143个，使用2000棵决策树桩，对以上溯源数据库进行分类训练，挑选出权重最高的100个基因(见表1)并保存模型，该模型为本发明的溯源预测模型，基因为本发明设计的目标区域的基因。图2为截取的某棵决策树的部分截图。其上端省略了其上级的所有节点及所有其他节点。其中，每个决策节点上的第一行为其子节点进行分支的判断标准，若该节点已经是一个叶节点，即其gini不纯度为0时，则该行省略，其下向左的箭头指示符合该判断标准的子节点，向右的箭头指示不符合该判断标准的子节点；第二行为其gini不纯度，gini的计算公式为：

其中p(i)为每个类别在该节点的频率；第三行为该节点所包含的不重复样本数；第四行为在这些样本中不同癌种的样本数目，可能有重复，这是由于随机森林的每棵树的初始数据采用有放回的抽样方式进行了抽样，因此会有部分样本出现重复；第五行为该节点处样本数最多的癌种标签。使用随机森林算法进行训练后的权重最高的100个基因如表1所示。

表1-使用随机森林算法进行训练后的权重最高的100个基因

2.RNA提取

使用患者石蜡包埋的病理切片或新鲜组织，采用Qiagen的GeneRead DNA FFPEKit(Cat No./ID:180134)进行总RNA提取。并使用Life Technologies Qubit4.0荧光定量仪针对RNA的含量进行测定。

3.杂交前核苷酸文库制备

使用EpiCentre公司的RiboZero方法来去除核苷酸中的核糖体RNA。

RNA提取的产物使用随机引物、聚合酶、RNaseH、dNTP等进行cDNA反转录。将cDNA打断至300bp左右。

使用ABclonal公司的Rapid DNA Lib Prep Kit进行核苷酸文库构建：包括末端修复、接头连接、文库富集等步骤。

将核苷酸文库使用Agencourt AMpure XP磁珠纯化后，使用Qubit4.0以及Agilent2100毛细管电泳进行质控。

4.探针捕获杂交

4.1目标基因探针设计：根据选取的目标基因，根据其转录本序列设计Non-overlapping的完全互补的探针序列，探针5’端需要用生物素标记。

4.2核苷酸文库杂交捕获：将500ng制备好的杂交前文库与人cot-1DNA5ug混合，使用真空抽滤泵45℃蒸干后，再复溶于杂交液中，室温孵育10min后上PCR仪，95℃5min后加入混合好的探针，再置于65℃杂交16-18h。

4.3链霉亲和素磁珠吸附与清洗：将产物与链霉亲和素磁珠混合，在PCR仪上孵育45min，后续用清洗液对磁珠进行清洗。

4.4探针捕获区域富集：使用引物、高保真聚合酶等对4.3中的产物进行富集，经过Agencourt AMPure XP磁珠纯化后使用Qubit4.0以及Agilent 2100毛细管电泳进行质控。

4.5使用高通量测序仪，例如Illumina MiSeq、NextSeq、NovaSeq等，以pair-end模式进行测序。

三、信息分析

按照图1所示流程进行模型训练模型后开展后续实验。取样本test为例，其双端测序结果为test_1.fq，test_2.fq。

使用软件cutadapt对测序数据进行修剪处理，主要去除序列中的接头序列和低质量序列，处理后的文件记为test_1.trim.fq和test_2.trim.fq。

使用软件比对软件bowtie，设置双端比对的方式，将test_1.trim.fq和test_2.trim.fq比对到参考基因组hg19.fa(UCSC下载)上，比对结果记为test.bam。

使用软件RSEM对test.bam进行基因表达定量并进行标准化，标准化后的结果记为test.quant。

test.quant结果输入到预处理后得到的溯源预测模型中，得到预测结果。

四、结果总结

通过10折交叉验证，对20个癌种进行训练及测试，并得到不同癌种的精确度、召回率和F1分数(见表2)。根据结果，可以对除直肠腺癌外的大多数癌种进行准确的溯源。10折交叉验证步骤如下：将样本数据随机的分成10份，依次选择其中的1份作为测试集，剩下的9份作为训练集，以9份训练集训练模型后，对1份测试集进行测试。在完成10次训练和测试流程后，每个样本正好被预测了1次。再比较预测的原发灶组织和真实已知的原发灶组织，来计算统计学上常用的评价指数包括精确度、召回率和F1分数等。结果显示，我们对20种癌症溯源的准确率和召回率的均值为96％，远超过Cancer TYPE ID的91％。另外，由于K近邻算法的原理需要将所有训练集载入内存当中来完成一个新样本的溯源，因此速度较慢。本算法克服了该缺点，在训练过程中生成一个模型，并在新样本的溯源过程中可以仅载入该模型，因此速度较快。因此，本算法在速度及精度上均能够超过Cancer TYPE ID产品。不同癌种的精确度、召回率和F1分数结果见表2所示。

对7例原发灶为肺癌的患者，取其转移灶并进行本发明所述方法的检测。经本发明得到的结果，与临床诊断进行比较。准确率为100％。

表2-十倍交叉验证精确度、召回率和F1分数

在不背离本发明的范围或精神的情况下，可对本发明说明书的具体实施方式做多种改进和变化，这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。

Claims

1.一种基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，包括以下步骤：

(2)确定溯源预测模型，使用随机森林算法，设置每棵决策树桩的最大特征数为取整，其中N为该森林所有特征数，使用多棵决策树桩对所述癌症溯源数据库进行分类训练，根据占比权重挑选出包含目标区域的多个模型基因，并保存为溯源预测模型；

2.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，在步骤(2)的确定溯源预测模型中包括对所述溯源预测模型进行交叉验证的步骤，其中所述交叉验证包括：

b.重复步骤a进行n次，从而完成所述交叉验证。

3.根据权利要求2所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，在步骤(2)的确定溯源预测模型中进一步包括利用临床样本数据进行再次验证，从而计算评价指数的步骤。

4.根据权利要求3所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，所述评价指数包括精确度、召回率和F1分数。

5.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，所述RNA靶向测序数据包括通过探针杂交和/或多重PCR获得的数据。

6.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，所述RNA靶向测序数据包括液相杂交捕获和扩增子测序获得的数据。

7.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，所述癌种包括膀胱癌、乳腺癌、宫颈癌、结肠癌、多形成性胶质细胞瘤、头颈鳞状细胞癌、肾透明细胞癌、肾乳头状细胞癌、急性髓细胞样白血病、脑低级别胶质瘤、肝细胞肝癌、肺腺癌、肺鳞癌、卵巢浆液性囊腺癌、胰腺癌、前列腺癌、直肠腺癌、胃癌、甲状腺癌和子宫内膜癌。

8.根据权利要求7所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，所述包含目标区域的多个模型基因选自由下述基因组成的组：AARD、ACPP、ACSM2A、ACSM2B、ANGPTL4、ANKRD30A、ANXA2P3、ATP5EP2、AZGP1、C6orf222、CDHR5、CDX1、CDX2、CHRNA2、CILP、CREB3L4、CRYGN、DAPK2、EEF1A1P9、EFHD1、EMX2、EMX2OS、ENPP3、ESM1、ESR1、FOXA1、FOXE1、FSIP1、FTH1P3、GALNT14、GATA3、GATA3-AS1、H3F3C、HNF1B、HNF4A、HOXB13、IRX5、KCNJ16、KLHL14、KLK2、KLK3、KLK4、KRT5、KRT6C、LCN12、LMX1B、LOC407835、LOC643387、MAGED2、MGAT4C、MGP、MSX1、MYB、NACA2、NACAP1、NAPSA、NAT1、NDUFA4L2、NKX2-1、NKX3-1、NME2P1、NOX1、OR51E2、PA2G4P4、PAX8、PKP1、PPIAL4C、PRLR、RDH11、RERG、RMST、RPL17、RPL19P12、RPL23P8、SALL1、SCGB2A2、SCGB3A2、SFTA3、SFTPA1、SFTPA2、SFTPB、SFTPC、SFTPD、SLC39A6、SLC45A3、SOX17、SPDEF、TBC1D9、TG、TM4SF5、TMEM241、TP63、TPO、TRPS1、TSHR、UBE2MP1、UQCRBP1、XBP1、YBX3P1和ZNF552。

9.根据权利要求8所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，所述步骤(3)中的RNA靶向测序数据的获取方法包括以下步骤：

(3-2)将所述样本RNA反转录为cDNA，并将其打断至280-320bp；

10.根据权利要求1所述的基于RNA靶向测序和机器学习的癌症组织溯源方法，其特征在于，所述受试者包括原发灶不明转移癌症患者、无法明确病灶是原发性还是癌症复发的患者、罕见恶性肿瘤患者、肿瘤活检标本有限无法通过常规病理检测的患者、治疗效果不明显的患者、有多种癌症病史的患者、临床病史和组织学诊断不同的患者。