CN110706749B

CN110706749B - 一种基于组织器官分化层次关系的癌症类型预测系统和方法

Info

Publication number: CN110706749B
Application number: CN201910852801.3A
Authority: CN
Inventors: 李鹏; 施巍炜; 王凯
Original assignee: Origimed Technology Shanghai Co ltd
Current assignee: Origimed Technology Shanghai Co ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2022-06-10
Anticipated expiration: 2039-09-10
Also published as: CN110706749A

Abstract

本发明提供了一种基于组织器官分化层次关系的癌症类型预测系统和方法。该方法包括：获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集；将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级；基于组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值；对上述特征值进行归一化处理；将上述归一化处理的特征值输入机器学习算法以构建双层机器学习分类模型；以及对将处理后的待检测样本数据输入到双层机器学习分类模型中进行预测。

Description

一种基于组织器官分化层次关系的癌症类型预测系统和方法

技术领域

本发明涉及生物医学领域，尤其涉及一种基于组织器官分化层次关系的癌症类型预测系统和方法。

背景技术

原发肿瘤不明的转移性癌是指通过组织学或细胞学检查，可以证实为转移癌，但病史和临床表现不能提供原发肿瘤的证据。在原发肿瘤不明的转移性癌中，腺癌占40％，原发肿瘤可能为：肺、胰腺、胃肠道、胆、肝、肾、乳腺、前列腺、甲状腺、肾上腺以及生殖细胞的肿瘤；未分化癌占40％，几乎任何部位皆可发生；鳞癌占13％，主要来自肺、头颈部、食管、宫颈、膀胱等部位的肿瘤；其它类型的肿瘤占7％。

多原发性恶性肿瘤，是指同一患者的同一器官或多个器官、组织同时或先后发生2种及以上的原发性恶性肿瘤，全身各处均可发生。多处肿瘤同时存在的情况给医生的治疗带来困难。这种癌症一般无法准确判断各处肿瘤是在此处原发还是别的肿瘤转移过来的。

对原发肿瘤不明的转移性癌和多原发性恶性肿瘤需要首先判断癌症类型，因此准确判断和分类癌症类型至关重要。现在认为，原发灶不明癌的特征与其假定来源肿瘤相同，采用已知肿瘤的处理方案治疗某些原发灶不明癌的亚型能够获益。

目前临床上主要用于判断来源不明的转移癌症的方法有以下几个：

(1)免疫组化：根据特定的蛋白标记物来确定细胞类型和组织来源。比如CK7主要存在于乳腺、胰腺、肺、胆道、甲状腺、子宫内膜癌；CK20主要在胃肠、泌尿道上皮。甲胎蛋白(AFP)，与肝癌和非精原细胞的生殖细胞有关；前列腺特异性抗原(PSA)，与前列腺癌有关，腺癌或有骨骼转移者PSA升高提示前列腺癌。

(2)物理成像检查：如磁共振成像(MRI)、增强电脑断层扫描(CT)以及正电子发射计算机断层显像(PET-CT)

(3)内窥镜检查：如纤支镜，胃镜，肠镜。

(4)基于反转录酶-聚合酶链锁反应(reverse transcription-polymerase chainreaction，RT-PCR)技术的方法：比如美国Rosetta Genomics公司的48个微小RNA(microRNA)RT-PCR的方法。

(5)基于基因芯片的方法：比如荷兰AGENDIA公司的

产品利用基因表达芯片的方法来对癌症类型分类。

(6)基于转录组(RNA-Seq)的方法：2014年，Iris H.Wei(RNA-Seq AccuratelyIdentifies Cancer Biomarker Signatures to Distinguish Tissue of Origin)等人报道了一种基于RNA-Seq的癌症类型特征基因的选择方法，他们利用logistic回归算法，对8种癌症的分类准确率达到90％。2018年，William F.Flynn等人(Pan-cancer machinelearning predictors of tissue of origin and molecular subtype)利用TCGA的RNA-Seq数据和随机森林模型对癌症类型预测，在外部数据的表现上达到78％的敏感性。这些研究的特征基因选取和分类模型的构建方法都是基于所有不同癌症类型直接构建的，没有考虑到不同的癌症器官的分化关系。

而上述现有的方法均存在缺点：

(1)准确率低。免疫组化的准确率只有20％～30％。物理成像和内窥镜的检查成功率低于免疫组化的方法。虽然根据文献报道基于RT-PCR技术的方法和基于基因芯片的方法的准确率和达到75％～93％，但这些方法的准确率依然低，并且只能应用在在少数几种癌症类型上。

(2)可检测的癌症类型有限。基于RT-PCR技术的方法利用几十个分子标记物如microRNA的表达量结合机器学习算法来预测癌症类型，但这种方法只能预测少数几种类型，无法覆盖全身的不同器官。

(3)基因芯片技术固有的缺陷。现在公认地，基因芯片技术检测基因表达量不如转录组测序(RNA-seq)好。基因芯片技术所检测的基因表达倍数差异范围小，即无法准确地同时识别出表达量非常高和非常低的基因，可识别的基因表达动态范围小。RNA-seq具有更高的敏感性、更好的技术重复性和更小的技术波动。

(4)基于RNA-Seq数据的特征基因选择算法和癌症分类算法的准确性有待提高。虽然目前的一些研究可以利用RNA-Seq数据进行癌症类型预测，但算法的准确性有待提高。尤其涉及到一些不易区分的癌症类型，比如肺鳞癌和肺腺癌的区分、食管癌和胃癌以及结直肠癌的区分。

因此，需要一种基于转录组数据的、可以对多种癌症类型进行更加准确的特征基因选取和癌症类型预测的机器学习方法。

发明内容

针对现有技术的上述缺点，本发明提供了一种基于器官分化层次关系的癌症类型预测系统和方法，可以根据转录组(RNA-Seq)基因表达量数据，基于组织器官分化层次关系来进行特征基因选取和多层次模型构建，准确地预测癌症类型，从而可以准确判断肿瘤是在此处原发还是从别的哪个肿瘤转移过来。因此，本发明的方法解决了原发肿瘤不明的转移性癌或者多原发性恶性肿瘤难以判断癌症类型的问题。

本发明的一个方面提出了一种基于组织器官分化层次关系的癌症类型预测系统，包括：

获取模块，用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集；

组织器官分化层次关系定义模块，用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级；

特征选取模块，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型)，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值，基因表达量的值采用FPKM值；

归一化处理模块，用于对上述特征值进行归一化处理；

双层分类模型构建模块，用于将上述归一化处理的特征值输入机器学习算法以构建预测癌症类型的双层机器学习分类模型，即：对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出第二等级中每个等级癌症类型的分类模型；以及

检测模块，用于对待检测样本，经过转录组测序和生物信息分析，获得整个基因组所有基因表达量数据，并进行特征选取和归一化处理，将处理后的数据输入到所构建的所述双层机器学习分类模型中，首先预测出第一等级的结果，根据第一等级的预测结果选择对应的第二等级的分类模型，再利用第二等级的模型预测出待检测样本的癌症类型。

优选地，所述获取模块从公共数据库获取所述转录组基因表达量数据，或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。

优选地，所述公共数据库包括TCGA数据库、ICGC数据库、CPTAC数据库和NCBI数据库。

优选地，所述特征选取模块中，对于第一等级，选取用于第一等级分类的特征基因，即对于第一等级的不同器官系统，选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因；对于第二等级的不同器官系统下的癌症类型，分别选取用于每种第二等级分类的特征基因，即选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。

优选地，所述特征选取模块进一步包括如下子模块：

计算子模块，用于计算每种癌症和其它每种癌症在每个基因上的配对比较的表达差异性的p值，并且对每种癌症类型遍历计算该癌症类型和训练集中其它所有癌症在每个基因表达量上的平均值的比值的log2转换值并进行排序；

基因选取子模块，用于选取所述p值范围为0≤p≤0.05之间的基因，并且在前述选取的基因中进一步选取所述log2转换值大于一定数值X的基因或者该值前N个基因，所述X的范围为X≥1，所述N的范围为N≥20。

优选地，所述计算子模块，利用limma软件所包含的F检验方法计算所述p值。

优选地，所述归一化处理模块进一步包括如下子模块：

转换子模块，用于将所述FPKM值取log2转换，公式为：

y＝log₂(x+1)

标准化子模块，用于对所述转换子模块转换后的FPKM值进行Z-score标准化，即标准差标准化，公式为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

优选地，所述双层机器学习分类模型构建模块中，机器学习算法包括随机森林、人工神经网络、K最邻近或其组合。

优选地，所述双层机器学习分类模型构建模块中进一步包括模型优化模块：

将所述基因表达量数据的样本分为训练集和测试集，用训练集来按照上述方法进行训练、测试集进行测试，以进行交叉验证，从而获得最佳的模型参数。

优选地，所述检测模块中，所述待检测样本进行高通量转录组测序并经过生物信息分析，从而获得整个基因组所有基因表达量数据。

本发明的另一个方面提出了一种基于组织器官分化层次关系的癌症类型预测方法，包括：

获取步骤，用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集；

组织器官分化层次关系定义步骤：将不同的癌症类型按照组织器官分化关系分成如下第一等级和第二等级。

特征选取步骤，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型)，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值，基因表达量的值采用FPKM值。具体的，对于第一等级，选取用于第一等级分类的特征基因。对于第一等级的不同器官系统(中枢神经系统、胃肠系统、肝胆系统、内分泌系统、妇科、头颈部、血液淋巴系统、黑色素、神经鞘组织系统、软组织、胸部、泌尿)，选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因。对于第二等级的不同器官系统下的癌症类型，分别选取用于每种第二等级分类的特征基因。选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。比如，对于第一等级为中枢神经系统所对应的第二等级癌症类型(多形成性胶质细胞瘤(GBM),脑低级别胶质瘤(LGG))，对于GBM和LGG,选取这两种癌症类型相比较为差异表达基因并且高表达的基因。

归一化处理步骤，用于对上述特征值进行归一化处理；

双层分类模型构建步骤，用于将上述归一化处理的特征值输入机器学习算法以构建预测癌症类型的双层机器学习分类模型，即：对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出第二等级中每个等级癌症类型的分类模型。

优选地，所述获取步骤从公共数据库获取所述转录组基因表达量数据，或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。

优选地，所述特征选取步骤进一步包括如下子步骤：

计算子步骤，用于计算每种癌症和其它每种癌症在每个基因上的配对比较的表达差异性的p值，并且对每种癌症类型遍历计算该癌症类型和训练集中其它所有癌症在每个基因表达量上的平均值的比值的log2转换值并进行排序；

基因选取子步骤，用于选取所述p值范围为0≤p≤0.05之间的基因，并且在前述选取的基因中进一步选取所述log2转换值大于一定数值X的基因或者该值前N个基因，所述X的范围为X≥1，所述N的范围为N≥20。

优选地，所述计算子步骤，利用limma软件所包含的F检验方法计算所述p值。

优选地，所述归一化处理步骤进一步包括如下子步骤：

转换子步骤，用于将所述FPKM值取log2转换，公式为：

y＝log₂(x+1)

标准化子步骤，用于对所述转换子步骤转换后的FPKM值进行Z-score标准化，即标准差标准化，公式为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

优选地，所述分类模型构建步骤中，机器学习算法包括随机森林、人工神经网络、K最邻近或其组合。

优选地，分类模型构建步骤中进一步包括模型优化步骤：

优选地，进一步包括检测步骤，用于对待检测样本，经过转录组测序和生物信息分析，获得整个基因组所有基因表达量数据，并进行特征选取和归一化处理，将处理后的数据输入到所构建的所述双层机器学习分类模型中，首先预测出第一等级的结果，根据第一等级的预测结果选择对应的第二等级的分类模型，再利用第二等级的模型预测出待检测样本的癌症类型。

优选地，所述检测步骤中，所述待检测样本进行高通量转录组测序并经过生物信息分析，从而获得整个基因组所有基因表达量数据。

本发明具有如下有益效果：

本发明方法利用大数据训练机器学习模型来构建分类模型，通过识别不同肿瘤组织的特异基因表达模式，基于组织器官分化层次关系来进行特征基因选取和多层次模型构建，从而更加准确可靠地预测多种不同的肿瘤组织类型。通过预测肿瘤组织类型，可以判断肿瘤是在此处原发还是从别的哪个肿瘤转移过来，具有准确、全面、省时、节省成本的有益技术效果。

附图说明

图1是本发明本发明的一个实施例的基于组织器官分化层次关系预测癌症类型的系统的结构框图。

图2是根据本发明的一个实施例的基于组织器官分化层次关系预测癌症类型的方法的流程图。

具体实施方式

下面通过实施例对本发明作进一步说明，其目的仅在于更好地理解本发明的研究内容而非限制本发明的保护范围。

如图1所示，本发明的一个实施例的基于组织器官分化层次关系预测癌症类型的系统的结构框图，该系统包括：

获取模块1，用于获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集；组织器官分化层次关系定义模块2，用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级；特征选取模块3，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型)，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值即FPKM值作为特征值；归一化处理模块4，用于对上述特征值进行归一化处理；双层分类模型构建模块5，用于将上述归一化处理的特征值输入机器学习算法以构建预测癌症类型的双层机器学习分类模型，即：对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出第二等级中每个等级癌症类型的分类模型；以及检测模块6，用于对待检测样本，经过转录组测序和生物信息分析，获得整个基因组所有基因表达量数据，并进行特征选取和归一化处理，将处理后的数据输入到所构建的所述双层机器学习分类模型中，首先预测出第一等级的结果，根据第一等级的预测结果选择对应的第二等级的分类模型，再利用第二等级的模型预测出待检测样本的癌症类型。

所述特征选取模块3进一步包括如下子模块：

计算子模块31，用于计算每种癌症和其它每种癌症在每个基因上的配对比较的表达差异性的p值，并且对每种癌症类型遍历计算该癌症类型和训练集中其它所有癌症在每个基因表达量上的平均值的比值的log2转换值并进行排序；

基因选取子模块32，用于选取所述p值范围为0≤p≤0.05之间的基因，并且在前述选取的基因中进一步选取所述log2转换值大于一定数值X的基因或者该值前N个基因，所述X的范围为X≥1，所述N的范围为N≥20。

所述归一化处理模块4进一步包括如下子模块：

转换子模块41，用于将所述FPKM值取log2转换，公式为：

y＝log₂(x+1)

标准化子模块42，用于对所述转换子模块转换后的FPKM值进行Z-score标准化，即标准差标准化，公式为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

双层机器学习分类模型构建模块5中进一步包括模型优化模块51：将所述基因表达量数据的样本分为训练集和测试集，用训练集来按照上述方法进行训练、测试集进行测试，以进行交叉验证，从而获得最佳的模型参数。

如图2所示，本发明的一个实施例的基于组织器官分化层次关系利用机器学习分类模型预测癌症类型的方法，包括如下步骤。

首先，获取步骤：获取多个癌症类型中的每种癌症的转录组基因表达量数据作为训练集。转录组(transcriptome)广义上指某一生理条件下，细胞内所有转录产物的集合，包括信使RNA(mRNA)、核糖体RNA(rRNA)、转运RNA(tRNA)及非编码RNA；狭义上指所有mRNA的集合。本发明可以是广义的也可以是狭义的。

在一个实施例中，可以从公共数据库获取所述转录组基因表达量数据或者利用自己收集的样本进行转录组测序和生物信息分析获取所述转录组基因表达量数据。所述公共数据库指的是公开发表的关于不同癌症样本的转录组数据，这些数据的形成方法是基于下文详述的转录组测序实验。所述公共数据库包括TCGA(The Cancer Genome AtlasProgram,https://portal.gdc.cancer.gov/)数据库、ICGC(International CancerGenome Consortium,https://icgc.org/)数据库、CPTAC(Clinical Proteomic TumorAnalysis Consortium，https://cptac-data-portal.georgetown.edu/cptacPublic/)数据库以及NCBI(The National Center for Biotechnology Information,https://www.ncbi.nlm.nih.gov/)数据库。

以TCGA数据库为例(如下表1所示)，癌症类型包括33种，其中结肠癌(COAD)和直肠癌(READ)由于相似性大通常可以合并为结直肠癌(CRC)

表1：TCGA数据库癌症类型

在其它实施例中，可以利用自己收集的样本进行转录组测序和生物信息分析获取所述转录组基因表达量数据，首先需要通过转录组实验得到原始数据，再根据生物信息分析得到基因表达定量值。

转录组实验包括总RNA提取、mRNA分离纯化和片段化、mRNA逆转录成cDNA以及文库构建与上机测序四个步骤。

(1)总RNA提取

总RNA提取是从样本中分离出RNA，例如可以利用TRIzol RNA分离试剂(Invitrogen公司)来提取总的RNA。TRIzolRNA分离试剂中的主要成分为异硫氰酸胍和苯酚，其中异硫氰酸胍可裂解细胞，促使核蛋白体的解离，使RNA与蛋白质分离，并将RNA释放到溶液中。当加入氯仿时，它可抽提酸性的苯酚，而酸性苯酚可促使RNA进入水相，离心后可形成水相层和有机层，这样RNA与仍留在有机相中的蛋白质和DNA分离开。水相层(无色)主要为RNA，有机层(黄色)主要为DNA和蛋白质。

(2)mRNA分离纯化和片段化

mRNA分离纯化是从总RNA中分离纯化出来mRNA，即那些编码蛋白质的信使RNA。mRNA通常含有poly-A的尾巴，因此可以利用poly-T的磁珠来和mRNA结合纯化。mRNA片段化指的是将mRNA打断成小片段(200～400bp)，以便于后期扩增建库和测序反应。

(3)mRNA逆转录成cDNA(Complementary DNA)

cDNA是具有与某RNA链呈互补碱基序列的DNA。与RNA链互补的单链DNA，以其RNA为模板，在适当引物的存在下，由依赖RNA的DNA聚合酶(反转录酶)作用而合成，并且在合成单链cDNA后，再用碱处理除去与其对应的RNA以后，以单链cDNA为模板，由依赖DNA的DNA聚合酶或依赖RNA的DNA聚合酶作用合成双链cDNA。将片段化的mRNA经过逆转录酶的作用合成与之反向互补的且稳定的第一链(单链)cDNA。并且，随后利用DNA聚合酶合成第二链(双链)cDNA。

(4)文库构建与上机测序

以Illumina测序仪为例，将上述cDNA产物加入PCR引物、测序引物、测序接头、样本标签等试剂进行PCR扩增。扩增后的产物用于上机测序。测序过程可参照Illumina公司相关使用手册执行。

生物信息分析包括原始数据质量控制、序列比对和基因表达量定量三个步骤，具体如下：

(1)原始数据质量控制步骤，包括：去除低质量的序列、去除含有接头的序列、切除低质量的碱基以及去除长度过低的序列等。

测序仪得到的数据一般为原始数据，FASTQ格式。低质量的序列是整条序列的平均质量小于Q15～Q20的序列；低质量的碱基是序列开头或结尾的1～5个质量低于Q3的碱基；长度过低的序列是经过上述切除、过滤等步骤后序列长度低于30～50bp的序列。

(2)序列比对步骤，包括：将上一步处理的高质量数据比对到参考基因组上面。

参考基因组包括但不限于hg38(GRCh38)、hg19(GRCh19)。比对方法包括但不限于STAR、TopHat、HISAT2、HISAT、BWA、Bowtie、Bowtie2等比对软件，所用参数为默认参数。最终得到比对后的BAM格式的文件。

(3)基因表达量定量步骤，包括：计算每个基因的表达量的值，本发明采用FPKM(Fragments Per Kilobase of transcript per Million mapped reads，每1百万个比对上的序列中比对到外显子上每1000个碱基上的片段数)来表示。

FPKM的计算公式为：

在此公式中，C表示比对到该基因的序列数目，N表示比对到所有基因的序列数目，L表示该基因的长度。

接着是组织器官分化层次关系定义步骤，进行组织器官分化层次关系定义：

基于已知的知识，将不同的癌症类型按照组织器官分化关系分成如下二层等级。

表2：组织器官分化层次关系定义

特征选取步骤：进行特征选取，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型(统称癌症类型)，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值。这里，本发明基因表达量的值优选地采用FPKM值。

一般地，转录组基因表达量数据的表示方式(或单位)可以采用如下方式中的任何一种：原始计数(raw count)、每1百万个比对上的序列的序列数(RPM,Reads per millionmapped reads)、每1百万个比对上的序列中比对到外显子上每1000个碱基上的片段数(FPKM，Fragments Per Kilobase of transcript per Million mapped reads)、每1百万个比对上的序列中比对到外显子模型的每一千个碱基的转录本模型的序列数(TPM，Transcripts Per Kilobase of exon model per Million mapped reads)、每1百万个比对上的序列中比对到外显子上每1000个碱基上的序列数(RPKM，Reads Per Kilobase oftranscript per Million mapped reads)、RSEM软件表达值(RSEM，RNA-Seq byExpectation-Maximization)、edgeR软件的TMM(Trimmed Mean of M-values)值、edgeR软件的UQ(Upper Quartile)值、DESeq2软件的RLE(Relative Log Expression)值、DESeq2软件的VST(Variance stabilizing transformation)值、MRN(Median RatioNormalization)值、管家基因表达量的标准化值。但是，本发明从众多表达方式中选用了FPKM作为单位，通过机器学习能获得准确率更高的模型。

特征选取步骤进一步包括如下子步骤1～3。

子步骤1：具体的，对于第一等级，选取用于第一等级分类的特征基因。对于第一等级的不同器官系统(中枢神经系统、胃肠系统、肝胆系统、内分泌系统、妇科、头颈部、血液淋巴系统、黑色素、神经鞘组织系统、软组织、胸部、泌尿)，选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因。分别利用limma软件包的F检验方法计算每种组织器官类型和其它所有组织器官类型类型配对比较在每个基因上的表达差异性的p值(p值表示显著性的大小)，并且对每种组织器官类型遍历计算该组织器官类型和训练集中其它所有组织器官类型在每个基因表达量上的平均值比值的log2转换值并进行排。

子步骤2:对于第二等级的不同器官系统下的癌症类型，分别选取用于每种第二等级分类的特征基因。选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。比如，对于第一等级为中枢神经系统所对应的第二等级癌症类型(多形成性胶质细胞瘤(GBM),脑低级别胶质瘤(LGG))，对于GBM和LGG,选取这两种癌症类型用limma软件包的F检验方法计算相比较为差异表达基因并且高表达的基因。在第二等级，分别利用limma软件包的F检验方法计算每种癌症类型和其它所有癌症类型配对比较在每个基因上的表达差异性的p值(p值表示显著性的大小)，并且对每种癌症类型遍历计算该癌症类型和训练集中其它所有癌症在每个基因表达量上的平均值比值的log2转换值并进行排序。

子步骤3：在第一等级和第二等级的各个器官类型上，选取所述p值范围为0≤p≤0.05之间的基因，并且在前述选取的基因中进一步选取所述log2转换值大于一定数值X的基因或者该值前N个基因，所述X的范围为X≥1，所述N的范围为N≥20。

归一化处理步骤：对上述所有癌症类型选取的特征基因进行合并并且进行归一化处理。该步骤进一步包括如下子步骤1～2：

子步骤1：将所述FPKM值取log2转换，公式为：

y＝log₂(x+1)

子步骤2：对步骤d1转换后的FPKM值进行Z-score标准化，即标准差标准化，公式为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

标准差标准化的方法给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。

接着是双层机器学习分类模型构建步骤：将上述归一化处理的特征值输入机器学习算法以构建预测癌症类型的机器学习分类模型，即：对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出每个第二等级癌症类型的分类模型。这里，机器学习算法包括随机森林、人工神经网络、K最邻近(KNN)或其组合。可以用R语言软件包randomForest、Python Sklearn软件库等方法进行模型训练。比如利用R语言软件包randomForest进行模型训练。

本发明进一步包括优化模型的步骤：

为了得到更优化的模型，防止欠拟合和过拟合，将所述基因表达矩阵的样本分为训练集和测试集，用训练集来按照上述方法进行训练、用测试集进行测试，以进行交叉验证，从而获得最佳的模型参数。

下面对本发明的利用机器学习分类模型预测癌症类型的方法的一个具体实例进行详细说明。

(1)进行模型构建

本发明利用TCGA数据库中33个癌症类型，10363个肿瘤样本的RNA-seq数据(FPKM)作为模型的训练数据集(见表1)。将10363个样本按照80％：20％的比例分为训练集和测试集。按照表1进行组织器官分化层次关系定义。对于训练集，在每个等级层次中，利用limma软件包的F检验和基因倍数变化(log2 fold change)选取每种癌症和其他癌症类型配对相比较为差异表达基因并且是高表达的前200个基因作为特征基因。对这些基因的表达量数据进行对数转换、Z-score归一化之后，利用R语言软件包randomForest进行随机森林模型训练。对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出每个第二等级癌症类型的共11个分类模型。第一、二等级特征基因数量及模型训练、测试准确率见表3。

表3：第一、二等级特征基因数量及模型训练准确率

由上述表3可知，在测试集上，训练得到的模型的准确率达到了95％，优于以往的方法。例如，William F.Flynn于2018年5月发表的文章“Pan-cancer machine learningpredictors of tissue of origin and molecular subtype”(https://www.biorxiv.org/content/10.1101/333914v1，第1-38页)中揭示了一种方案，其采用了单层模型+RSEM软件表达值，预测准确率为59％。而本发明的方案通过采用双层模型+FKRM值，预测准确率达到95％。(2)进行待检测样本数据的收集

为展示本发明的实际应用情况，本发明利用一个公开的数据集来展示如何应用上述机器学习分类模型来预测待检测样本的癌症类型。该数据集来自2016年作者Lee,J.R.发表于《BMC Cancer》杂志的文章《转录组分析配对的结直肠癌和对应的肝脏转移癌发现了融合转录本和相似的基因表达模式》(Lee J.R.et al.Transcriptome analysis of pairedprimary colorectal carcinoma and liver metastases reveals fusion transcriptsand similar gene expression profiles in primary carcinoma and livermetastases.BMC Cancer 16,539,doi:10.1186/s12885-016-2596-3(2016))。该数据集共有5个不同结直肠癌伴随肝脏转移的病人，每个病人有4组样本数据(分为正常结直肠、正常肝脏、结直肠肿瘤和肝脏转移肿瘤)，合计共20个样本的数据。

(3)待检测样本数据处理与预测

(a)对从公开数据集下载的原始数据进行生物信息数据处理。

首先进行原始数据质量控制：利用Trimmomatic软件去除低质量的序列、去除含有接头的序列、切除低质量的碱基以及去除长度过低的序列等，所用参数为“ILLUMINACLIP:TruSeq3-PE.fa:2:30:10LEADING:3TRAILING:3SLIDINGWINDOW:4:15MINLEN:50”。ILLUMINACLIP:TruSeq3-PE.fa:2:30:10表示切除Illumina TruSeq3试剂的接头，按照“2:30:10”的参数执行接头序列的判断并去除含有接头的序列；LEADING:3表示切除开头前3个低质量的序列；TRAILING:3表示切除结尾3个低质量的序列；SLIDINGWINDOW:4:15表示以4个碱基为滑动窗口，切掉平均质量小于Q15的序列；MINLEN:50表示序列最低长度50bp。

其次进行序列比对：将上一步处理的高质量数据运用STAR比对到参考基因组GRCh38上面，所用参数为默认参数,最后计算基因表达量：计算每个基因的表达量的值，通常用FPKM来表示。

(b)进行癌症类型预测：将上述步骤a得到的基因表达量的FPKM值进行对数转换和Z-score归一化处理，输入到前述构建好的分类模型中预测每个样本的癌症类型。得到如下的预测结果：

表4：待测样本预测结果

*CRC:结直肠癌或结直肠组织

*LIHC：肝癌或肝脏组织

由上述表4预测结果可知：对于样本1～10，原发灶为结直肠癌(Primary coloncancer)和转移至肝脏的结直肠癌(Liver metastases，肝转移癌)都可以正确地被预测成为结直肠癌，并且对于正常的组织也能进行正确的区分，如样本11～20，正常的肝脏组织(Normal liver)和正常的结直肠组织(Normal colon)也被正确地分别判断为肝脏组织和结直肠组织，总体预测的准确率为100％。

显然，本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围。

Claims

1.一种基于组织器官分化层次关系的癌症类型预测系统，其特征在于，包括：

特征选取模块，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型统称癌症类型，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值，基因表达量的值采用FPKM值；

归一化处理模块，用于对上述特征值进行归一化处理；

2.根据权利要求1所述的系统，其特征在于，所述获取模块从公共数据库获取所述转录组基因表达量数据，或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。

3.根据权利要求2所述的系统，其特征在于，所述公共数据库包括TCGA数据库、ICGC数据库、CPTAC数据库和NCBI数据库。

4.根据权利要求2所述的系统，其特征在于，所述特征选取模块中，对于第一等级，选取用于第一等级分类的特征基因，即对于第一等级的不同器官系统，选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因；对于第二等级的不同器官系统下的癌症类型，分别选取用于每种第二等级分类的特征基因，即选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。

5.根据权利要求1所述的系统，其特征在于，所述特征选取模块进一步包括如下子模块：

6.根据权利要求5所述的系统，其特征在于，所述计算子模块，利用limma软件所包含的F检验方法计算所述p值。

7.根据权利要求1所述的系统，其特征在于，所述归一化处理模块进一步包括如下子模块：

转换子模块，用于将所述FPKM值取log2转换，公式为：

y＝log₂(x+1)

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

8.根据权利要求1所述的系统，其特征在于，所述双层机器学习分类模型构建模块中，机器学习算法包括随机森林、人工神经网络、K最邻近或其组合。

9.根据权利要求1所述的系统，其特征在于，所述双层机器学习分类模型构建模块中进一步包括模型优化模块：

将所述基因表达量数据的样本分为训练集和测试集，用训练集进行训练、测试集进行测试，以进行交叉验证，从而获得最佳的模型参数。

10.根据权利要求1所述的系统，其特征在于，所述检测模块中，所述待检测样本进行高通量转录组测序并经过生物信息分析，从而获得整个基因组所有基因表达量数据。

11.一种基于组织器官分化层次关系的癌症类型预测方法，其特征在于，包括：

组织器官分化层次关系定义步骤，用于将不同的癌症类型按照组织器官分化关系分成第一等级和第二等级；

特征选取步骤，用于基于所述组织器官分化层次关系进行特征选取，即对于每个等级的每种组织器官类型或癌症类型统称癌症类型，选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因，得到所选取的基因的每个的表达量的值作为特征值，基因表达量的值采用FPKM值；

归一化处理步骤，用于对上述特征值进行归一化处理；

双层分类模型构建步骤，用于将上述归一化处理的特征值输入机器学习算法以构建预测癌症类型的双层机器学习分类模型，即：对于第一等级而言构建出第一等级的分类模型；对于第二等级而言，分别构建出第二等级中每个等级癌症类型的分类模型，以及

检测步骤，用于对待检测样本，经过转录组测序和生物信息分析，获得整个基因组所有基因表达量数据，并进行特征选取和归一化处理，将处理后的数据输入到所构建的所述双层机器学习分类模型中，首先预测出第一等级的结果，根据第一等级的预测结果选择对应的第二等级的分类模型，再利用第二等级的模型预测出待检测样本的癌症类型。

12.根据权利要求11所述的方法，其特征在于，所述获取步骤从公共数据库获取所述转录组基因表达量数据，或者利用自己收集的样本经过转录组测序和生物信息分析获取所述转录组基因表达量数据。

13.根据权利要求12所述的方法，其特征在于，所述公共数据库包括TCGA数据库、ICGC数据库、CPTAC数据库和NCBI数据库。

14.根据权利要求12所述的方法，其特征在于，所述特征选取步骤中，对于第一等级，选取用于第一等级分类的特征基因，即对于第一等级的不同器官系统，选取该种器官系统类型和训练集中其它所有器官系统类型相比较为差异表达基因并且是高表达的基因；对于第二等级的不同器官系统下的癌症类型，分别选取用于每种第二等级分类的特征基因，即选取该种癌症类型和训练集中其它所有癌症类型相比较为差异表达基因并且是高表达的基因。

15.根据权利要求11所述的方法，其特征在于，所述特征选取步骤进一步包括如下子步骤：

16.根据权利要求15所述的方法，其特征在于，所述计算子步骤，利用limma软件所包含的F检验方法计算所述p值。

17.根据权利要求11所述的方法，其特征在于，所述归一化处理步骤进一步包括如下子步骤：

转换子步骤，用于将所述FPKM值取log2转换，公式为：

y＝log₂(x+1)

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

18.根据权利要求11所述的方法，其特征在于，所述双层机器学习分类模型构建步骤中，机器学习算法包括随机森林、人工神经网络、K最邻近或其组合。

19.根据权利要求11所述的方法，其特征在于，所述双层机器学习分类模型构建步骤中进一步包括模型优化步骤：

将所述基因表达量数据的样本分为训练集和测试集，用训练集来进行训练、测试集进行测试，以进行交叉验证，从而获得最佳的模型参数。

20.根据权利要求11所述的方法，其特征在于，所述检测步骤中，所述待检测样本进行高通量转录组测序并经过生物信息分析，从而获得整个基因组所有基因表达量数据。