CN112992273A

CN112992273A - 一种预测早期结直肠癌风险评估模型及系统

Info

Publication number: CN112992273A
Application number: CN202110348441.0A
Authority: CN
Inventors: 杨承刚; 李雨晨
Original assignee: Qingdao Yangshen Biomedical Co Ltd
Current assignee: Beijing Medintell Bioinformatic Technology Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-18

Abstract

本发明涉及一种预测早期结直肠癌风险评估模型及系统，所述风险评估模型包括4个子模块，所述系统嵌入了利用机器学习开发的早期结直肠癌的风险评估模型，通过接收来自受试者的测序信息，根据风险评估模型，判断受试者是否患病或者患病风险，进一步为治疗提供建议。

Description

一种预测早期结直肠癌风险评估模型及系统

技术领域

本发明属于生物医学领域，涉及一种预测早期结直肠癌风险评估模型及系统。

背景技术

结直肠癌是目前最常见的恶性肿瘤之一，在世界范围内，其发病率居所有恶性肿瘤第三位，死亡率更高达第二位。仅2018年，全球共有180万新发病例，同时有近86万人因结直肠癌而死亡。更为严峻的是，预计在2040年全球新发病例将增加72％达到300万，而死亡人数也将上涨86％突破160万(Bray F,Ferlay J,et al.Global cancer statistics2018:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancersin 185 countries.CA:a cancer journal for clinicians 2018,68(6):394-424.)。在中国，结直肠癌的发病率和死亡率均居所有恶性肿瘤第五位，而其在城市中的发病率和死亡率已分别高达第三位和第四位(Chen W,Sun K,et al.Cancer incidence and mortalityin China,2014.Chinese journal of cancer research＝Chung-kuo yen cheng yenchiu 2018,30(1):1-12.)。面对逐年增量的肠癌患者，探索与结直肠癌发生发展以及预后转归有关的分子标记物，对于实现结直肠癌的精准治疗具有重要的价值，这也是本领域研究的重点工作之一。

结直肠癌是对人类健康有严重威胁的疾病之一。结直肠癌的发生过程演变复杂，因素众多，研究者还不完全清楚其具体发病机理。开始，研究者对结直肠癌的研究几乎都集中在治疗方面。之后，研究者逐渐意识到了，如果能找到高效的早期筛查手段，提高结直肠癌的早期诊断率，就能够通过早期干预大大降低结直肠癌的发病率和死亡率。据公开文献报导，大部分的结直肠癌组织由息肉恶变而来，而这个转变过程可长达十年之久。结直肠癌患者的早期表现为腹部胀闷、消化不良，而后渐渐发展为便前腹痛以及排便习惯的改变。其早期症状不明显，常常会被漏诊，导致延误病情、危害生命。研究肠道息肉与结直肠癌的之间的区别，对于实现结直肠癌的早期诊断具有重要的意义。

发明内容

本发明的目的之一在于提供一种构建预测早期结直肠癌风险评估模型的方法，本发明的方法以机器学习为基础，展现出较高的灵敏性和特异性。

本发明的目的之二在于提供一种AI分子诊断产品，该产品可用于结直肠癌的早期筛查，预测疾病的发展，为临床医学的进一步诊疗提供辅助。

为了实现上述目的，本发明采用如下技术方案：

本发明第一方面提供了一种预测早期结直肠癌的风险评估模型的构建方法，包括

获取数据：获取样本TCGA数据库和SRA数据库的测序数据；

测序数据的处理：对测序数据进行处理和质控，得到cleandata；

序列比对：将cleandata比对至人类参考基因组上；

构建表达量矩阵：结合基因注释文件，对比对后的数据进行基因的表达量的定量，构建表达量矩阵；

临床信息处理：将临床信息按照样本分组信息进行特征标记；

数据分组：将样本随机拆分为训练集和测试集；

建模数据处理:将用训练集的数据进行特征剔除、批次效应校正；

模型训练和构建：采用voomNSC进行模型训练，构建风险评估模型。

进一步，所述方法还包括模型验证：使用构建的风险评估模型对测试集进行验证，得到预测分类结果。

进一步，特征剔除的步骤包括：使用featurefilter函数将所有基因单独进行过滤，计算表达量为0的样本数量，并统计其在总样本数中所占的比例，剔除高于特定比例的特征。

进一步，所述特定比例为0.05。

进一步，批次效应校正的步骤包括：将样本的分组信息和批次标记信息保存为向量，对表达量矩阵、分组信息向量、批次标记信息向量进行矩阵建模，估计代表批次效应的参数，将原始数据映射到预期的分布，进而生成新的表达量矩阵。

进一步，批次校正的函数为ComBat-Seq函数。

进一步，建模数据处理还包括离群样本剔除。

进一步，离群样本剔除的步骤包括：进行主成分分析，将剔除批次效应的表达量矩阵作为参数传入，进行数据的基因特征的维度映射，生成降低维度的主成分的数值矩阵，绘制PCA图，删除远离群体的样本。

进一步，所述表达量矩阵为M*N的基因表达量矩阵，表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值，其中1≤i≤M，1≤j≤N；M表示检测基因的数量，N表示分析样本的数量。

进一步，表达量矩阵的定量标准类型为基因ID。

进一步，表达量矩阵的定量模式为intersection-nonempty。

进一步，构建表达量矩阵还包括合并数据集。

进一步，利用基因ID合并数据集。

进一步，临床信息处理的步骤包括：

stage特征中I、IA、IB标记为TNM1；II、IIA、IIB、IIC标记为TNM2；III、IIIA、IIIB、IIIC标记为TNM3；IV、IVA、IVB标记为TNM4；

肠道息肉样本的subtype字段重命名为subclass，并标记为polyps；

添加字段source，标记样本来源TCGA或者是SRA。

进一步，所述模型包括四个子模型。

在本发明的具体实施方式中，所述四个子模型分别是子模型1：TNM1 vs息肉(polyps)，子模型2：TNM2 vs息肉(polyps)，子模型3：TNM3 vs息肉(polyps)，子模型4：TNM4vs息肉(polyps)，其中TNM1-4代表不同分期的癌组织。

进一步，采用voomNSC进行模型训练包括：构建用于子模型训练的表达量矩阵和设计矩阵。

进一步，设计矩阵的样本ID和临床表型一一对应。

进一步，模型训练还包括将表达量矩阵和设计矩阵封装为DESeqDataSetFromMatrix对象。

进一步，模型训练使用十折交叉进行验证。

进一步，十折交叉的参数设置如下：

-Method：repeatedcv；

-Number：10；

-Repeats：10。

进一步，voomNSC进行模型训练还包括构建voomControl控制器。

进一步，voomNSC使用classify方法进行模型训练。

进一步，传入参数为DESeqDataSetFromMatrix对象、voomControl控制器。

进一步，参数设置如下：

-Method：voomNSC，

-preProcessing：TMM。

进一步，预测分类结果为m*n矩阵，m为子模型的数量，n为待测样本的数量。

进一步，预测分类结果的判定标准为：待测样本的子模型1-4预测结果polyps的数量≥3，该样本判定分类为polyps；反之，则为结直肠癌。

本发明的第二方面提供了一种预测早期结直肠癌的风险评估模型，所述风险评估模型根据本发明第一方面所述的方法构建而成。

进一步，风险评估模型包括四个子模型。

进一步，子模型1为4-基因的风险评估模型。

进一步，所述4-基因选自：ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043。

进一步，子模型2为1-基因的风险评估模型。

进一步，所述1-基因为ENSG00000269028。

进一步，子模型3为7-基因的风险评估模型。

进一步，所述7-基因选自：ENSG00000255823、ENSG00000256045、ENSG00000267541、ENSG00000269028、ENSG00000271043、ENSG00000279274、ENSG00000229344。

进一步，子模型4为1-基因的风险评估模型。

进一步，所述1-基因为ENSG00000229344。

本发明的第三方面提供了如下任一种计算机可读存储介质：

(a)其存储有程序，该程序用于执行本发明第一方面所述的方法；

(b)其存储有程序，该程序用于执行本发明第二方面所述的风险评估模型。

本发明的第四方面提供了一种预测早期结直肠癌的风险评估系统，所述系统包括：

(a)被配置为接收数据输入的至少一个存储器单元，该数据输入包含由来自受试者的核酸样品生成的测序数据；

(b)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为可执行程序，可执行程序用于运行本发明第二方面所述的风险评估模型。

进一步，所述计算机处理器被编程为将所述测序数据映射到一参考序列。

进一步，其中所述参考序列为共有参考序列。

进一步，所述计算机处理器被编程为将测序数据构建表达量矩阵。

进一步，所述计算机处理器被编程为生成输出。

进一步，所述输出包含结直肠癌的风险评估报告。

进一步，所述报告递送至用户界面进行显示。

本发明的第五方面提供了一种电子设备，包括：

(a)客户端组件，其中所述客户端组件包含用户界面；

(b)服务器组件，其中所述服务器组件包含至少一个存储器单元，该至少一个存储器单元被配置为接收包含从样本中生成的测序数据的数据输入；

(c)与所述服务器组件可操作地耦合的所述用户界面；以及

(d)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为可执行程序，可执行程序用于运行本发明第二方面所述的风险评估模型。

进一步，其中所述参考序列为共有参考序列。

进一步，所述计算机处理器被编程为生成输出。

进一步，所述输出包含结直肠癌的风险评估报告。

本发明的第六方面提供了与结直肠癌相关的生物标志物，所述生物标志物选自ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043、ENSG00000229344、ENSG00000256045、ENSG00000267541、ENSG00000279274的一种或多种。

进一步，所述生物标志物选自：ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043的一种或多种；优选地为ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043的组合。

进一步，所述生物标志物选自ENSG00000255823、ENSG00000256045、ENSG00000267541、ENSG00000269028、ENSG00000271043、ENSG00000279274、ENSG00000229344的一种或多种；优选地为ENSG00000255823、ENSG00000256045、ENSG00000267541、ENSG00000269028、ENSG00000271043、ENSG00000279274、ENSG00000229344的组合。

相比肠道息肉，ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043、ENSG00000229344、ENSG00000256045、ENSG00000267541、ENSG00000279274在结直肠癌中的表达水平显著下调。

本发明的第七方面提供了如下任一项所述的应用：

(a)本发明第一方面所述的方法在制备预测早期结直肠癌风险评估系统/产品中的应用；

(b)本发明第二方面所述的风险评估模型在制备预测早期结直肠癌风险评估系统/产品中的应用；

(c)本发明第六方面所述的生物标志物在制备预测早期结直肠癌的产品中的应用；

(d)本发明第六方面所述的生物标志物在制备治疗结直肠癌的药物中的应用；

(e)本发明第六方面所述的生物标志物在构建预测早期结直肠癌风险评估模型中的应用；

进一步，(c)中所述产品包括检测所述生物标志物的试剂。

进一步，所述试剂选自：

识别所述生物标志物的探针；或

扩增所述生物标志物的引物；或

结合所述生物标志物表达产物的抗体。

本发明的第八方面提供了一种诊断早期结直肠癌的产品，所述产品包括检测本发明第六方面所述的生物标志物的试剂。

进一步，所述试剂包括通过反转录PCR、实时定量PCR、原位杂交、芯片技术、蛋白免疫技术检测生物标志物表达水平的试剂。

进一步，所述产品包括芯片、试剂盒。

本发明的第九方面提供了一种治疗结直肠癌的药物，所述药物改变生物标志物表达水平的试剂。

进一步，所述试剂为在结直肠癌中表达下调的生物标志物的促进剂。

进一步，所述促进剂促进ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043、ENSG00000229344、ENSG00000256045、ENSG00000267541、ENSG00000279274的表达水平。

本发明的优点和有益效果：

本发明中提供了一种构建预测早期结直肠癌风险评估模型的方法，采用该方法构建的早期结直肠癌风险评估模型具有较高的诊断敏感性和特异性。

本发明提供了风险评估模型，嵌入该风险模型的风险评估系统/产品以及计算机可读存储介质和电子设备，其预测准确性高，可以有效的实现癌症与息肉的区分。

附图说明

图1是生物标志物的表达情况图；其中图A是ENSG00000198744；图B是ENSG00000255823；图C是ENSG00000269028；图D是ENSG00000271043；图E是ENSG00000229344；图F是ENSG00000256045；图G是ENSG00000267541；图H是ENSG00000279274。

图2是风险评估模型的预测结果图；其中，图A是子模型1的预测结果图；图B是子模型2的预测结果图；图C是子模型3的预测结果图；图D是子模型4的预测结果图。

具体实施方式

本公开在对多种实施方案的详细描述中，出于说明的目的，阐述了许多具体细节以提供对所公开的实施方案的透彻理解。然而，本领域技术人员将理解，可以在具有或没有这些具体细节的情况下实践这些不同的实施方案。此外，本领域技术人员可以容易地理解，方法被提供及进行的具体顺序是说明性的，并且设想顺序可以不同并且仍然保持在本文公开的多种实施方案的范围内。

本文的公开内容提供了用于从测序数据确定受试者是否患有结直肠癌的方法/系统，所述方法/系统可包括接收包含由来自受试者的核酸样品生成的测序数据的数据输入。所述方法可进一步包括从测序数据确定是否患有结直肠癌。所述确定步骤可包括通过执行风险评估模型进行评估，进一步包括生成报告。所述报告可鉴别受试者是否患有结直肠癌。

本文提供的方法/系统可用于诊断受试者的疾病，进一步根据诊断提供治疗计划或建议。在一些情况下，该方法/系统可用来预测疾病对特定疗法的反应性。本文公开的方法/系统利用从核酸样品生成的测序数据并评估结直肠癌的风险。可生成是否患有结直肠癌或者患结直肠癌风险的报告以及基于风险的治疗建议。

在一些方面，本文提供了用于确定受试者中是否患有结直肠癌或者患结直肠癌风险的方法/系统。受试者可提交包含核酸的生物样品。受试者可以是健康的或者可以患有疾病。在一些情况下，受试者可能易于发展疾病。在一些情况下，本文公开的方法/系统可被医师或医疗保健提供者预订(例如，作为基因检测)。在一些情况下，本文公开的方法/系统可被临床实验室(例如，根据临床实验室改进修正案认证的实验室)预订。生物样品可以是取自受试者的组织或细胞或由受试者产生的物质(即，唾液、尿液)。在一些情况下，样品为福尔马林固定的、石蜡包埋(FFPE)的组织样品。生物样品通常将包含核酸分子。核酸分子可以是DNA或RNA或其任何组合。RNA可包括mRNA、miRNA、piRNA、siRNA、tRNA、rRNA、sncRNA、snoRNA等。DNA可包括cDNA、基因组DNA、线粒体DNA、核外体DNA、病毒DNA等。在特定情况下，DNA为基因组DNA。核酸可从生物细胞中分离或者可以是无细胞核酸(即，循环DNA)。

生物样品可通过任何数目的步骤进行处理和分析以确定疾病的存在或不存在。该方法可包括分析生物样品中生物标志物的存在或不存在。生物标志物的存在或不存在可指示疾病或发展疾病的倾向。生物标志物的存在或不存在可指示疾病对特定疗法可能有反应。在其他情况下，生物标志物的存在或不存在可指示疾病对特定疗法可能是难治性的。

可以通过本领域技术人员已知的任何方法来处理和/或分析核酸。在一些情况下，可通过对样品中的一个或多个核酸分子进行一个或多个富集反应来进行本文公开的方法。富集反应可包括使样品与一个或多个珠子或珠子组接触。富集反应可包括一个或多个杂交反应。该一个或多个杂交反应可包括使用一个或多个捕获探针。该一个或多个捕获探针可包括一个或多个靶标特异性捕获探针。该靶标特异性捕获探针可与基因的外显子中的核酸序列杂交。富集反应可进一步包括一个或多个杂交的核酸分子的分离和/或纯化。富集反应可包括全外显子组富集。富集反应可包括靶向富集。富集反应可利用试剂盒或小组(panel)进行，该试剂盒或小组的商购可得的实例包括但不限于Agilent Whole ExomeSureSelect、NuGEN Ovation Fusion Panel和Illumina TruSight Cancer Panel。

在一些情况下，富集反应可包括一个或多个扩增反应。该一个或多个扩增反应可包括通过例如聚合酶链反应扩增核酸序列。所述扩增可包括利用一个或多个引物组。该一个或多个引物组可以是靶标特异性引物，以扩增靶向核酸序列。该一个或多个靶标特异性引物组可与基因的外显子中的核酸序列杂交。扩增的核酸序列可以进一步进行纯化、分离、提取等。在一些情况下，可将一个或多个条形码和/或衔接子附加到扩增的核酸序列。该一个或多个条形码和/或衔接子可以是用于例如测序反应的条形码和/或衔接子。

在一些情况下，对核酸进行测序以生成测序数据。可通过任何已知的测序方法生成测序数据。测序方法可包括毛细管测序、下一代测序、Sanger测序、合成测序、单分子纳米孔测序、连接测序、杂交测序、纳米孔电流限制测序或其组合。合成测序可包括可逆终止子测序、持续单分子测序、连续核苷酸流测序或其组合。连续核苷酸流测序可包括焦磷酸测序、pH介导的测序、半导体测序或其组合。进行一个或多个测序反应包括未靶向测序(即，全基因组测序)或靶向测序(即，外显子组测序)。

所述测序方法可包括Maxim-Gilbert、链终止或高通量系统。备选地或另外，该测序方法可包括HelioscopeTM单分子测序、纳米孔DNA测序、Lynx Therapeutics的大规模平行签名测序(Massively Parallel Signature Sequencing，MPSS)、454焦磷酸测序、单分子实时(RNAP)测序、Illumina(Solexa)测序、SOLiD测序、Ion TorrentTM、离子半导体测序、单分子SMRT(TM)测序、聚合酶克隆测序(Polony sequencing)、DNA纳米球测序、VisiGenBiotechnologies方法或其组合。备选地或另外，该测序方法可包括一个或多个测序平台，该测序平台包括但不限于由Illumina提供的Genome Analyzer IIx、HiSeq、NextSeq和MiSeq，单分子实时(SMRTTM)技术，如由Pacific Biosciences(California)提供的PacBioRS系统和Solexa测序仪，真正单分子测序(tSMSTM)技术，如由Helicos Inc.(Cambridge,MA)提供的HeliScopeTM测序仪，由Genia Technologies,Inc.开发的基于纳米孔的测序平台和Oxford Nanopore MinION。

可接收测序数据(例如，通过与计算机存储器源耦合的计算机处理器)作为数据输入。可接收代表核苷酸序列的基于文本或二进制文件格式的测序数据。可以接收例如SRA、CRAM、FASTA、SAM、BAM或FASTQ文件格式的测序数据。在特定的实例中，接收FASTQ文件格式的测序数据。FASTQ文件格式存储核苷酸测序数据以及相应的质量数据。

本公开内容的系统

本公开内容进一步提供了用于执行本文所述方法的基于计算机的系统。在一些方面，所述系统可用于确定和报告样品是否患有结直肠癌或者患结直肠癌的风险。所述系统可包含一个或多个客户端组件。所述一个或多个客户端组件可包含用户界面。所述系统可包含一个或多个服务器组件。所述服务器组件可包含一个或多个存储器单元。所述一个或多个存储器单元可被配置为接收数据输入。所述数据输入可包含测序数据。可从来自受试者的核酸样品生成测序数据。已描述了适用于本公开内容的系统的测序数据的非限制性实例。所述系统可进一步包含一个或多个计算机处理器。所述一个或多个计算机处理器可以与一个或多个存储器单元可操作地耦合。所述一个或多个计算机处理器可被编程为将测序数据映射到参考序列。所述一个或多个计算机处理器可进一步被编程为从测序数据确定是否患有结直肠癌或者存在患结直肠癌的风险。所述确定步骤可包括本文所述的任何方法。所述一个或多个计算机处理器可进一步被编程为生成输出以在屏幕上显示。所述输出可包含判定受试者是否患有结直肠癌或存在患结直肠癌风险的报告。

本文所述系统可包含一个或多个客户端组件。所述一个或多个客户端组件可包含一个或多个软件组件、一个或多个硬件组件或其组合。所述一个或多个客户端组件可通过一个或多个服务器组件获得一项或多项服务。所述一项或多项服务可由一个或多个客户端组件通过网络获得。“服务”在本文用来指系统的任何产品、方法、功能或用途。例如，用户可以下订单进行基因检测。可通过系统的一个或多个客户端组件下订单，并且可通过网络将要求传送给所述系统的一个或多个服务器组件。网络可以为因特网、互联网和/或外联网，或者内联网和/或与因特网通信的外联网。网络在一些情况下为电信和/或数据网络。网络可以包括一个或多个计算机服务器，其可以实现分布式计算如云计算。在一些情况下，网络在计算机系统的帮助下可以实现对等网络，这可以使与计算机系统耦合的设备能够起到客户端或服务器的作用。

所述系统可以包括一个或多个存储器单元(例如，随机存取存储器、只读存储器、闪速存储器)、电子存储单元(例如，硬盘)、用于与一个或多个其他系统通信的通信接口(例如，网络适配器)以及外围设备，如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器、存储单元、接口和外围设备通过通信总线如主板与CPU通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。在一个实例中，一个或多个存储器单元可以存储接收的测序数据。

所述系统可包含一个或多个计算机处理器。所述一个或多个计算机处理器可以与一个或多个存储器单元可操作地耦合，以例如访问存储的测序数据。所述一个或多个计算机处理器可以执行机器可执行代码来执行本文所述方法。例如，所述一个或多个计算机处理器可以执行机器可读代码以将测序数据输入映射到参考序列，或构建基因表达量矩阵。

可以以软件的形式提供机器可执行或机器可读代码。在使用期间，代码可以由处理器执行。在一些情况下，可以从存储单元中检索代码并将其存储在存储器上以供处理器随时访问。在一些情况下，可以排除电子存储单元，并将机器可执行指令存储在存储器上。

代码可以进行预编译并配置为与具有适合于执行代码的处理器的机器一起使用，可以在运行期间进行编译或者可以在运行期间进行解释。代码可以以编程语言的形式提供，可以选择编程语言以使代码能够以预编译、编译或解释的方式执行。

本文提供的系统和方法的方面如风险评估系统可以在编程中体现。所述技术的各个方面可被认为是通常为承载于或体现在一种类型的机器可读介质中的机器(或处理器)可执行代码和/或有关数据形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元，如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的有形存储器或其相关模块(如各种半导体存储器、磁带驱动器、磁盘驱动器等)中的任一个或全部，其可以在任何时间提供非暂时性存储以供软件编程。软件的全部或部分有时可以通过因特网或多种其他电信网络进行通信。例如，这样的通信可以使软件能够从一个计算机或处理器加载到另一个计算机或处理器，例如从管理服务器或主计算机加载到应用服务器的计算机平台。因此，另一种类型的可以承载软件要素的介质包括如跨本地设备之间的物理接口，通过有线和光学陆上线路网络以及经各种空中链路使用的光波、电波和电磁波。携带这样的波的物理元件如有线或无线链路、光学链路等也可以被认为是承载软件的介质。除非局限于非暂时性、有形的“存储”介质，否则如本文所用的术语如计算机或机器“可读介质”是指参与为处理器提供用于执行的指令的任何介质。

因此，机器可读介质如计算机可执行代码可以采用许多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，如任何计算机等中的任何存储设备，如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，如这种计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤，包括在计算机系统中包含总线的电线。载波传输介质可以采用电信号或电磁信号，或者声波或光波如在射频(RF)和红外(IR)数据通信期间生成的那些声波或光波的形式。因此，计算机可读介质的常见形式包括例如：软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光介质、穿孔卡纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、输送数据或指令的载波、输送这样的载波的电缆或链路，或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可参与将一个或多个指令的一个或多个序列携带至处理器以供执行。

本文公开的系统可包含一个或多个电子显示器或与一个或多个电子显示器通信。电子显示器可以是计算机系统的一部分，或与计算机系统直接耦合或通过网络耦合。计算机系统可包含用于提供本文公开的多种特征和功能的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。UI可以提供交互工具，通过该交互工具用户可使用本文所述的方法和系统。举例而言，如本文所设想的UI可以是基于网络的工具，通过该工具医疗保健提供者可以预订基因检测，自定义待测试的基因的列表，以及接收和查看生物医学报告。

本文公开的方法/系统可以包括生物医学数据库、基因组数据库、生物医学报告、疾病报告、病例-对照分析以及基于来自一个或多个数据库的数据分析、一个或多个测定、一个或多个数据或结果、基于或来源于一个或多个测定的一个或多个输出、基于或来源于一个或多个数据或结果的一个或多个输出或其组合。

机器可执行代码/程序

如本文所述，一个或多个计算机处理器可以执行机器可执行代码/程序以执行本公开内容的方法。机器可执行代码/程序可包含任何数目的开放源或封闭源软件。可以执行机器可执行代码以分析数据输入。数据输入可以是由一个或多个测序反应生成的测序数据。计算机处理器可以与至少一个存储器单元可操作地耦合。计算机处理器可以访问来自所述至少一个存储器单元的测序数据。在一些情况下，计算机处理器可以执行机器可执行代码以将测序数据映射到参考序列。在一些情况下，计算机处理器可以执行机器可执行代码以从测序数据确定是否患有结直肠癌或者存在患结直肠癌的风险。在一些情况下，计算机处理器可以执行机器可执行代码/程序以生成用于在屏幕上显示的输出(例如，生物医学报告)，以判定受试者是否患有结直肠癌或存在患结直肠癌的风险。

机器可执行代码/程序(或机器可读代码/程序)可包括一个或多个序列比对软件。序列比对软件可包括DNA-seq比对仪。适合于执行本公开内容的方法的DNA-seq比对仪的非限制性实例包括BLAST、CS-BLAST、CUDASW++、FASTA、GGSEARCH/GLSEARCH、HMMER、HHpred/HHsearch、IDF、Infernal、KLAST、PSI-BLAST、PSI-Search、ScalaBLAST、Sequilab、SAM、SSEARCH、SWAPHI、SWAPHI-LS、SWIPE、ACANA、AlignMe、Bioconductor、Biostrings::pairwiseAlignment、BioPerldpAlign、BLASTZ、LASTZ、CUDAlign、DNADot、DOTLET、FEAST、G-PAS、GapMis、JAligner、K*Sync、LALIGN、NW-align、mAlign、matcher、MCALIGN2、MUMmer、needle、Ngila、Path、PatternHunter、ProbA(propA)、PyMOL、REPuter、SABERTOOTH、Satsuma、SEQALN、SIM、GAP、LAP、NAP、SPA、Sequences Studio、SWIFT Suit、stretcher、tranalign、UGENE、water、wordmatch、YASS、ABA、ALE、AMAP、anon.、BAli-Phy、Base-By-Base、CHAOS/DIALIGN、ClustalW、CodonCode Aligner、Compass,DECIPHER、DIALIGN-TX、DIALIGN-T、DNA Alignment、DNA Baser Sequence Assembler、EDNA、FSA、Geneious、KAlign、MAFFT、MARNA、MAVID、MSA、MSAProbes、MULTALIN、Multi-LAGAN、MUSCLE、Opal、Pecan、Phylo、Praline、PicXAA、POA、Probalign、ProbCons、PROMALS3D、PRRN/PRRD、PSAlign、RevTrans、SAGA、Se-Al、StatAlign、Stemloc、T-Coffee、UGENE、VectorFriends、GLProbs、ACT、AVID、BLAT、GMAP、Splign、Mauve、MGA、Mulan、Multiz、PLAST-ncRNA、Sequerome、Sequilab、Shuffle-LAGAN、SIBSim4、SLAM、BarraCUDA、BBMap、BFAST、BLASTN、Bowtie、HIVE-Hexagon、BWA、BWA-MEM、BWA-PSSM、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、CUSHAW3、drFAST、ELAND、ERNE、GASSST、GEM、Genalice MAP、Geneious Assembler、GensearchNGS、GMAP、GSNAP、GNUMAP、iSSAC、LAST、MAQ、mrFAST、mrsFAST、MOM、MOSAIK、MPscan、Novoalign、NovoalignCS、NextGENe、NextGenMap、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTGInvestigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOAP3-dp、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、VelociMapper、XPressAlign、ZOOM和YAHA。在一些情况下，序列比对软件可包括RNA-seq比对仪。适合于执行本公开内容的方法的RNA-seq比对仪的非限制性实例包括Bowtie、Cufflinks、Erange、GMAP、GSNAP、GSTRUCT、GEM、IsoformEx、HISAT、HPG aligner、HMMSplicer、MapAL、MapSplice、Olego、OSA、PALMapper、PASS、RNA_MATE、ReadsMap、RUM、RNASEQR、SAMMate、SOAPSplice、SMALT、STAR1、STAR2、SpliceSeq、SpliceMap、Subread、Subjunc、TopHat1、TopHat2和X-Mate。

机器可执行代码/程序可包括一个或多个比对可视化软件。比对可视化软件可包括但不限于Ale、IVistMSA、AliView、Base-By-Base、BioEdit、BioNumerics、BoxShade、CINEMA、CLC查看器、ClustalX查看器、Cylindrical BLAST查看器、DECIPHER、DiscoveryStudio、DnaSP、emacs-biomode、Genedoc、Geneious、整合基因组浏览器(IGB)、IntegrativeGenomics查看器(IGV)、Jalview 2、JEvTrace、JSAV、Maestro、MEGA、Multiseq、MView、PFAAT、Ralee、S2S RNA编辑器、Seaview、Sequilab、SeqPop、Sequlator、SnipViz、Strap、Tablet、UGENE、VISSA序列/结构查看器、Artemis、Savant、DNApy、比对注解器(AlignmentAnnotator)、Google Genomics API浏览器和PyBamView。

下面结合具体的实施例和附图进一步说明本发明，本发明的实施例仅用于解释本发明，并不意味着限制本发明的保护范围。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

实施例1结直肠癌风险评估模型的构建

1、数据来源与获取

构建结直肠癌风险评估模型的所有数据下载自TCGA和NCBI-SRA数据库，其中结直肠癌的癌症和癌旁的表达量文件下载自TCGA数据库，肠道息肉raw数据下载自NCBI-SRA数据库。检索获得共选取443个结直肠癌病例样本，31个肠道息肉的样本，72个正常样本，共计546个样本数据用于进一步筛选和质控。

2、Raw data的处理

使用fastp软件进行接头处理和质控，得到cleandata，步骤包括：

a.接头处理

利用fastp软件双端序列自动检测模式进行接头处理；

b.数据修剪和质控

最低N碱基数量阈值为5，reads最低长度阈值为15，碱基质量阈值Q15，低质量碱基百分比阈值为40％，以4个碱基为单位滑动窗口过滤，窗口平均质量阈值Q20。

3、序列比对

分析得到的clean data使用ICGC软件(https://github.com/akahles/icgc_rnaseq_align)比对到人类参考基因组，参考基因组版本为GRCh38.d1.vd1，基因组注释文件版本为gencode.v22.annotation.gtf，比对后得到bam格式数据文件。运行参数设置：

outFilterMultimapScoreRange：1

outFilterMultimapNmax：20

outFilterMismatchNmax：10

alignIntronMax：500000

alignMatesGapMax：1000000

sjdbScore：2

limitBAMsortRAM：0

alignSJDBoverhangMin：1

genomeLoad：NoSharedMemory

outFilterMatchNminOverLread：0.33

outFilterScoreMinOverLread：0.33

twopass1readsN：-1

sjdbOverhang：100

outSAMstrandField：intronMotif

outSAMunmapped：Within

比对得到的bam文件使用samtools的sort指令进行排序：

排序标准：name。

4、构建表达量矩阵

使用htseq软件，结合注释文件，对bam文件进行基因的表达量的定量。

定量模式：intersection-nonempty；

定量标准类型：gene_id；

链特异性：非特异性。

SRA数据库来源的所有样本的Count值表达量文件按照基因ID进行合并，构建M*N的基因表达量矩阵，基因表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值，其中1≤i≤M，1≤j≤N；M表示检测基因的数量，N表示分析样本的数量。将表达量矩阵保存为.Rdata对象文件。

不同数据来源的表达量矩阵的构建：

TCGA数据库来源count值表达量矩阵和SRA数据库来源样本的count值表达量矩阵(Rdata)按照基因ID进行合并。

5、临床信息处理

将临床信息进行特征标记。

stage字段重命名为subclass；

肠道息肉样本的subtype字段重命名为subclass，并标记为polyps；

无患病正常样本的subtype字段重命名为subclass，并标记为normal；

添加字段source，标记样本来源TCGA或者是SRA。将count表达量矩阵和临床信息保存为.Rdata对象文件。

6、数据分组

将.Rdata对象文件对样本集合进行拆分，分为训练集和测试集。针对临床信息subclass字段的每一分类，分别随机取样30％的样本作为测试集，剩余70％作为训练集，将拆分好的count训练集、count测试集、训练集临床信息、测试集临床信息保存为.Rdata对象文件。

7、建模数据处理

1)特征剔除

使用featurefilter函数将所有基因单独进行过滤，计算表达量为0的样本数量，并统计其在总样本数中所占的比例，剔除比例>0.05的特征，将剩余的特征保存为.Rdata对象文件。

2)批次效应校正

将样本分组信息和批次标记信息保存为向量，样本分组参照临床信息的source字段，批次标记信息参照临床信息的subclass字段；将待处理数据的表达量矩阵、分组信息向量、批次标记信息向量输入ComBat-Seq函数中进行运算，使用负二项式回归模型对count值进行建模，估计代表批次效应的参数，将原始count值映射到预期的分布，生成新的表达量矩阵，保存为.Rdata文件待用。

3)离群样本剔除

使用prcomp函数进行主成分分析，将剔除批次效应的表达量矩阵作为参数传入，进行数据的基因特征的维度映射，生成降低维度的主成分的数值矩阵；

选择主成分PC1和PC2的数值，并结合样本的分组信息，构建绘制pca plot所需要的长格式的数据集合；

计算主成分PC1和PC2的方差/所有主成分的方差，作为PC1和PC2的对于变异的解释度；

选择主成分PC1和PC2使用ggplot2绘制样本分布图，根据样本的分组信息标记颜色和形状，样本点标记样本ID；

选择远离群体的点作为待删除样本；

在表达量矩阵中删除以上被挑选的样本，重新保存为.Rdata文件待用。

8、模型训练

基于MLseq工具的进行模型的训练，模型保存为fit.Rdata对象文件。模型训练算法采用voomNSC。模型的设计思路是将结直肠癌、息肉样本进一步细分，模型拆分为4个子模型，预测的最终目标是区分结直肠癌早期、晚期和正常样本。

子模型列举如下：TNM1vs息肉(子模型1)，TNM2 vs息肉(子模型2)，TNM3 vs息肉(子模型3)，TNM4 vs息肉(子模型4)。

经过严格评估和筛选，选择voomNSC算法构建结预测早期直肠癌风险评估模型。

voomNSC算法子模型的训练：

读取建模数据处理步骤生成的.Rdata数据文件，使用训练集count表达量矩阵和训练集临床信息的数据。从count矩阵中选取对应分类样本，构建用于子模型训练的count表达量矩阵。从训练集临床信息的数据中选取对应分类样本，构建用于子模型训练的设计矩阵。设计矩阵需要样本ID和临床表型一一对应，临床表型字段设置为condition，因子型。

将上述处理好的表达量矩阵和设计矩阵，封装为DESeqDataSetFromMatrix对象。

构建模型训练的控制器，使用voomControl方法进行封装。模型训练使用十折交叉验证，参数设置如下：

Method：repeatedcv；

Number：10；

Repeats：10。

模型训练使用classify方法，需要传入参数DESeqDataSetFromMatrix对象、voomControl控制器。参数设置如下：

Method：voomNSC，

preProcessing：TMM。

对count表达矩阵进行TMM标准化处理，计算表达量的log-cpm值，估计基因的均值方差关系，为每个基因生成精确性权重，继而使用log-cpm值和精确性权重计算加权差异分值。使用soft-thresholding方法收缩加权差异分值，收缩阈值为0，选择未收缩至阈值的基因作为模型训练的特征。预处理后的训练集表达量数据随机拆分为10份，选择其一作为验证集，进行NSC模型训练和验证，反复十次择优。最优模型保存为fit.Rdata对象文件。

9、模型验证

读取数据分组步骤生成的.Rdata数据文件，使用测试集count表达量矩阵和测试集临床信息的数据构建的设计矩阵，封装为DESeqDataSetFromMatrix对象。使用predict方法，需要传入参数DESeqDataSetFromMatrix对象。测试集数据表达量进行转化，转换到和训练集相同的scale，进行后验概率的计算，得到预测分类结果。对模型的预测结果进行ROC分析，计算得到AUC值和ROC曲线。

将测试样本的最终预测判定结果与实际临床表型进行对比，预测正确的样本数量与测试集样本总数的比例，作为模型整体的准确度。

10、结果

使用voomNSC检测肠道息肉组织与结直肠癌组织，与结直肠癌相关的基因的表达情况和预测结果分别如图1和图2所示，count值以log₂表示，结果显示ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043、ENSG00000229344、ENSG00000256045、ENSG00000267541、ENSG00000279274在结直肠癌中表达显著下调。

上述实施例的说明只是用来理解本发明的技术方案。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，可以对本发明进行若干改进和修饰，这些改进和修饰也将落入本发明权利要求的保护范围内。

Claims

1.一种预测早期结直肠癌的风险评估模型的构建方法，其特征在于，包括获取数据：获取样本TCGA数据库和SRA数据库的测序数据；

序列比对：将cleandata比对至人类参考基因组上；

数据分组：将样本随机拆分为训练集和测试集；

模型训练和构建：采用voomNSC进行模型训练，构建风险评估模型；

优选地，所述方法还包括模型验证：使用构建的风险评估模型对测试集进行验证，得到预测分类结果；

优选地，特征剔除的步骤包括：使用featurefilter函数将所有基因单独进行过滤，计算表达量为0的样本数量，并统计其在总样本数中所占的比例，剔除高于特定比例的特征；

优选地，所述特定比例为0.05；

优选地，批次效应校正的步骤包括：将样本的分组信息和批次标记信息保存为向量，对表达量矩阵、分组信息向量、批次标记信息向量进行矩阵建模，估计代表批次效应的参数，将原始数据映射到预期的分布，进而生成新的表达量矩阵；

优选地，批次校正的函数为ComBat-Seq函数；

优选地，建模数据处理还包括离群样本剔除；

优选地，离群样本剔除的步骤包括：进行主成分分析，将剔除批次效应的表达量矩阵作为参数传入，进行数据的基因特征的维度映射，生成降低维度的主成分的数值矩阵，绘制PCA图，删除远离群体的样本；

优选地，所述表达量矩阵为M*N的基因表达量矩阵，表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值，其中1≤i≤M，1≤j≤N；M表示检测基因的数量，N表示分析样本的数量；

优选地，表达量矩阵的定量标准类型为基因ID；

优选地，表达量矩阵的定量模式为intersection-nonempty；

优选地，构建表达量矩阵还包括合并数据集；

优选地，利用基因ID合并数据集；

优选地，临床信息处理的步骤包括：

肠道息肉样本的subtype字段重命名为subclass，并标记为polyps；

添加字段source，标记样本来源TCGA或者是SRA；

优选地，所述模型包括四个子模型。

2.根据权利要求1所述的方法，其特征在于，采用voomNSC进行模型训练包括：构建用于子模型训练的表达量矩阵和设计矩阵；

优选地，设计矩阵的样本ID和临床表型一一对应；

优选地，模型训练还包括将表达量矩阵和设计矩阵封装为DESeqDataSetFromMatrix对象；

优选地，模型训练使用十折交叉进行验证；

优选地，十折交叉的参数设置如下：

-Method：repeatedcv；

-Number：10；

-Repeats：10；

优选地，voomNSC进行模型训练还包括构建voomControl控制器；

优选地，voomNSC使用classify方法进行模型训练；

优选地，传入参数为DESeqDataSetFromMatrix对象、voomControl控制器；

优选地，参数设置如下：

-Method：voomNSC，

-preProcessing：TMM；

优选地，预测分类结果预测分类结果为m*n矩阵，m为子模型的数量，n为待测样本的数量；

优选地，预测分类结果的判定标准为：待测样本的子模型1-4预测结果polyps的数量≥3，该样本判定分类为polyps；反之，则为结直肠癌。

3.一种预测早期结直肠癌的风险评估模型，其特征在于，所述风险评估模型根据权利要求1或2所述的方法构建而成；

优选地，风险评估模型包括四个子模型；

优选地，子模型1为4-基因的风险评估模型；

优选地，所述4-基因选自：ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043；

优选地，子模型2为1-基因的风险评估模型；

优选地，所述1-基因为ENSG00000269028；

优选地，子模型3为7-基因的风险评估模型；

优选地，所述7-基因选自：ENSG00000255823、ENSG00000256045、ENSG00000267541、ENSG00000269028、ENSG00000271043、ENSG00000279274、ENSG00000229344

优选地，子模型4为1-基因的风险评估模型；

优选地，所述1-基因为ENSG00000229344；

4.如下任一种计算机可读存储介质：

(a)其存储有程序，该程序用于执行权利要求1或2所述的方法；

(b)其存储有程序，该程序用于执行权利要求3所述的风险评估模型。

5.一种预测早期结直肠癌的风险评估系统，其特征在于，所述系统包括：

(b)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为可执行程序，可执行程序用于运行权利要求3所述的风险评估模型；

优选地，所述计算机处理器被编程为将所述测序数据映射到一参考序列；

优选地，其中所述参考序列为共有参考序列；

优选地，所述计算机处理器被编程为将测序数据构建表达量矩阵；

优选地，所述计算机处理器被编程为生成输出；

优选地，所述输出包含结直肠癌的风险评估报告；

优选地，所述报告递送至用户界面进行显示。

6.一种电子设备，其特征在于，包括：

(a)客户端组件，其中所述客户端组件包含用户界面；

(c)与所述服务器组件可操作地耦合的所述用户界面；以及

(d)与所述至少一个存储器单元可操作地耦合的计算机处理器，其中所述计算机处理器被编程为可执行程序，可执行程序用于运行权利要求3所述的风险评估模型；

优选地，其中所述参考序列为共有参考序列；

优选地，所述计算机处理器被编程为生成输出；

优选地，所述输出包含结直肠癌的风险评估报告。

7.与结直肠癌相关的生物标志物，其特征在于，所述生物标志物选自ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043、ENSG00000229344、ENSG00000256045、ENSG00000267541、ENSG00000279274的一种或多种。

8.如下任一项所述的应用：

(a)权利要求1或2所述的方法在制备预测早期结直肠癌风险评估系统/产品中的应用；

(b)权利要求3所述的风险评估模型在制备预测早期结直肠癌风险评估系统/产品中的应用；

(c)权利要求7所述的生物标志物在制备预测早期结直肠癌的产品中的应用；

(d)权利要求7所述的生物标志物在制备治疗结直肠癌的药物中的应用；

(e)权利要求7所述的生物标志物在构建预测早期结直肠癌风险评估模型中的应用；

优选地，(c)中所述产品包括检测所述生物标志物的试剂；

优选地，所述试剂选自：

识别所述生物标志物的探针；或

扩增所述生物标志物的引物；或

结合所述生物标志物表达产物的抗体。

9.一种诊断早期结直肠癌的产品，其特征在于，所述产品包括检测权利要求7所述的生物标志物的试剂；

优选地，所述试剂包括通过反转录PCR、实时定量PCR、原位杂交、芯片技术、蛋白免疫技术检测生物标志物表达水平的试剂；

优选地，所述产品包括芯片、试剂盒。

10.一种治疗结直肠癌的药物，其特征在于，所述药物改变生物标志物表达水平的试剂；优选地，所述试剂为在结直肠癌中表达下调的生物标志物的促进剂；优选地，所述促进剂促进ENSG00000198744、ENSG00000255823、ENSG00000269028、ENSG00000271043、ENSG00000229344、ENSG00000256045、ENSG00000267541、ENSG00000279274的表达水平。