CN113160895A - 一种结直肠癌风险评估模型及系统 - Google Patents

一种结直肠癌风险评估模型及系统 Download PDF

Info

Publication number
CN113160895A
CN113160895A CN202110350363.8A CN202110350363A CN113160895A CN 113160895 A CN113160895 A CN 113160895A CN 202110350363 A CN202110350363 A CN 202110350363A CN 113160895 A CN113160895 A CN 113160895A
Authority
CN
China
Prior art keywords
engg
risk assessment
colorectal cancer
matrix
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110350363.8A
Other languages
English (en)
Inventor
杨承刚
李雨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Yangshen Biomedical Co Ltd
Original Assignee
Qingdao Yangshen Biomedical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Yangshen Biomedical Co Ltd filed Critical Qingdao Yangshen Biomedical Co Ltd
Priority to CN202110350363.8A priority Critical patent/CN113160895A/zh
Publication of CN113160895A publication Critical patent/CN113160895A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Medicinal Chemistry (AREA)
  • Software Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种结直肠癌风险评估模型及系统,所述风险评估模型包括4个子模块,所述系统嵌入了利用机器学习开发的肠道息肉风险评估模型,通过接收来自受试者的测序信息,根据风险评估模型,判断受试者是否患病或者患病风险,进一步为治疗提供建议。

Description

一种结直肠癌风险评估模型及系统
技术领域
本发明属于生物医学领域,涉及一种结直肠癌的风险评估模型及系统。
背景技术
结直肠癌(colorectal cancer,CRC)是严重危害人类健康的常见恶性肿瘤之一(Siegel RL,Miller KD,Fedewa SA,et al.Colorectal cancer statistics,2017[J].CACancer J Clin,2017,67(3):177-193.)。据中国国家癌症登记中心统计,2015年我国新发结直肠癌患者376,300人,发病率占8.77%,位于全国恶性肿瘤发病第5位,仅次于肺癌、胃癌、食管癌、肝癌。死亡人数191,000,位于全国所有癌症死亡第5位(Chen WQ,Zheng RS,Baade PD,et al.Cancer statistics in China,2015[J].CA:a cancer journal forclinicians,2016,66(2):115-132.)。虽然与美国等西方国家相比,我国结直肠癌发病率相对较低,但近年来随着国人饮食结构及生活习惯的改变,我国无论是结直肠癌的发病率还是死亡率都呈现上升趋势。
目前,结直肠癌的治疗仍以手术为主,放化疗为辅,但是由于该疾病早期临床症状隐匿,绝大多数患者确诊时即为晚期,这类患者已失去手术治愈的机会,同时化疗效果不佳,因此整体预后较差。资料表明,I期及II期患者5年生存率可达90%,而IV期患者5年生存率仅为13.1%(Simoll K.Colofectal cancer development and advances in screening[J].Clin Intery Aging,2016,11:967-976.)。实现结直肠癌的早期诊断对于提高患者的生存率和生活质量具有重要的意义。
发明内容
本发明的目的之一在于提供一种构建结直肠癌风险评估模型的方法,本发明的方法以机器学习为基础,展现出较高的灵敏性和特异性。
本发明的目的之二在于提供一种AI分子诊断产品,该产品可用于结直肠癌的早期筛查,预测疾病的发展,为临床医学的进一步诊疗提供辅助。
为了实现上述目的,本发明采用如下技术方案:
本发明第一方面提供了一种预测结直肠癌的风险评估模型的构建方法,包括获取数据:获取样本TCGA数据库和SRA数据库的测序数据;
测序数据的处理:对测序数据进行处理和质控,得到cleandata;
序列比对:将cleandata比对至人类参考基因组上;
构建表达量矩阵:结合基因注释文件,对比对后的数据进行基因的表达量的定量,构建表达量矩阵;
临床信息处理:将临床信息按照样本分组信息进行特征标记;
数据分组:将样本随机拆分为训练集和测试集;
建模数据处理:将用训练集的数据进行特征剔除、批次效应校正;
模型训练和构建:采用voomNSC进行模型训练,构建风险评估模型。
进一步,所述方法还包括模型验证:使用构建的风险评估模型对测试集进行验证,得到预测分类结果。
进一步,特征剔除的步骤包括:使用featurefilter函数将所有基因单独进行过滤,计算表达量为0的样本数量,并统计其在总样本数中所占的比例,剔除高于特定比例的特征。
进一步,所述特定比例为0.05。
进一步,批次效应校正的步骤包括:将样本的分组信息和批次标记信息保存为向量,对表达量矩阵、分组信息向量、批次标记信息向量进行矩阵建模,估计代表批次效应的参数,将原始数据映射到预期的分布,进而生成新的表达量矩阵。
进一步,批次校正的函数为ComBat-Seq函数。
进一步,建模数据处理还包括离群样本剔除。
进一步,离群样本剔除的步骤包括:进行主成分分析,将剔除批次效应的表达量矩阵作为参数传入,进行数据的基因特征的维度映射,生成降低维度的主成分的数值矩阵,绘制PCA图,删除远离群体的样本。
进一步,所述表达量矩阵为M*N的基因表达量矩阵,表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值,其中1≤i≤M,1≤j≤N;M表示检测基因的数量,N表示分析样本的数量。
进一步,表达量矩阵的定量标准类型为基因ID。
进一步,表达量矩阵的定量模式为intersection-nonempty。
进一步,构建表达量矩阵还包括合并数据集。
进一步,利用基因ID合并数据集。
进一步,临床信息处理的步骤包括:
stage特征中I、IA、IB标记为TNM1;II、IIA、IIB、IIC标记为TNM2;III、IIIA、IIIB、IIIC标记为TNM3;IV、IVA、IVB标记为TNM4;
无患病正常样本的subtype字段重命名为subclass,并标记为normal;
添加字段source,标记样本来源TCGA或者是SRA。
进一步,所述模型包括四个子模型。
在本发明的具体实施方式中,所述四个子模型分别是子模型1:TNM1 vs正常组织(normal),子模型2:TNM2 vs正常组织(normal),子模型3:TNM3 vs正常组织(normal),子模型4:TNM4 vs正常组织(normal),其中TNM1-4代表不同分期的癌组织。
进一步,采用voomNSC进行模型训练包括:构建用于子模型训练的表达量矩阵和设计矩阵。
进一步,设计矩阵的样本ID和临床表型一一对应。
进一步,模型训练还包括将表达量矩阵和设计矩阵封装为DESeqDataSetFromMatrix对象。
进一步,模型训练使用十折交叉进行验证;进一步,十折交叉的参数设置如下:
-Method:repeatedcv;
-Number:10;
-Repeats:10。
进一步,voomNSC进行模型训练还包括构建voomControl控制器。
进一步,voomNSC使用classify方法进行模型训练。
进一步,传入参数为DESeqDataSetFromMatrix对象、voomControl控制器。
进一步,参数设置如下:
-Method:voomNSC,
-preProcessing:TMM。
进一步,预测分类结果为m*n矩阵,m为子模型的数量,n为待测样本的数量。
进一步,预测分类结果的判定标准为:待测样本的子模型1-4预测结果normal的数量≥3,该样本判定分类为normal;反之,则为结直肠癌。
本发明的第二方面提供了一种判断结直肠癌的风险评估模型,所述风险评估模型根据本发明第一方面所述的方法构建而成。
进一步,风险评估模型包括四个子模型。
进一步,子模型1为10-基因的风险评估模型。
进一步,所述10-基因选自:ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255。
进一步,子模型2为10-基因的风险评估模型。
进一步,所述10-基因选自:ENSG00000167767、ENSG00000062038、ENSG00000175832、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000163347、ENSG00000103888、ENSG00000101255、ENSG00000120254。
进一步,子模型3为13-基因的风险评估模型。
进一步,所述13-基因选自:ENSG00000016602、ENSG00000044012、ENSG00000062038、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000167767、ENSG00000174992、ENSG00000182271、ENSG00000183034。
进一步,子模型4为10-基因的风险评估模型。
进一步,所述10-基因选自:ENSG00000167767、ENSG00000175832、ENSG00000164283、ENSG00000164379、ENSG00000062038、ENSG00000105464、ENSG00000163347、ENSG00000103888、ENSG00000105989、ENSG00000122641。
进一步,预测分类结果为m*n矩阵,m为子模型的数量,n为待测样本的数量。
进一步,预测分类结果的判定标准为:待测样本的子模型1-4预测结果normal的数量≥3,该样本判定分类为normal;反之,则为结直肠癌。
本发明的第三方面提供了如下任一种计算机可读存储介质:
(a)其存储有程序,该程序用于执行本发明第一方面所述的方法;
(b)其存储有程序,该程序用于执行本发明第二方面所述的风险评估模型。
本发明的第四方面提供了一种结直肠癌的风险评估系统,所述系统包括:
(a)被配置为接收数据输入的至少一个存储器单元,该数据输入包含由来自受试者的核酸样品生成的测序数据;
(b)与所述至少一个存储器单元可操作地耦合的计算机处理器,其中所述计算机处理器被编程为可执行程序,可执行程序用于运行本发明第二方面所述的风险评估模型。
进一步,所述计算机处理器被编程为将所述测序数据映射到一参考序列。
进一步,其中所述参考序列为共有参考序列。
进一步,所述计算机处理器被编程为将测序数据构建表达量矩阵。
进一步,所述计算机处理器被编程为生成输出。
进一步,所述输出包含结直肠癌的风险评估报告。
进一步,所述报告递送至用户界面进行显示。
本发明的第五方面提供了一种电子设备,包括:
(a)客户端组件,其中所述客户端组件包含用户界面;
(b)服务器组件,其中所述服务器组件包含至少一个存储器单元,该至少一个存储器单元被配置为接收包含从样本中生成的测序数据的数据输入;
(c)与所述服务器组件可操作地耦合的所述用户界面;以及
(d)与所述至少一个存储器单元可操作地耦合的计算机处理器,其中所述计算机处理器被编程为可执行程序,可执行程序用于运行本发明第二方面所述的风险评估模型。
进一步,所述计算机处理器被编程为将所述测序数据映射到一参考序列。
进一步,其中所述参考序列为共有参考序列。
进一步,所述计算机处理器被编程为将测序数据构建表达量矩阵。
进一步,所述计算机处理器被编程为生成输出。
进一步,所述输出包含结直肠癌的风险评估报告。
本发明的第六方面提供了与结直肠癌相关的生物标志物,所述生物标志物选自ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255、ENSG00000103888、ENSG00000120254、ENSG00000016602、ENSG00000044012、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000174992、ENSG00000182271、ENSG00000183034、ENSG00000105989、ENSG00000122641的一种或多种。
进一步,所述生物标志物选自:ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255的一种或多种;优选地,为ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255的组合。
进一步,所述生物标志物选自:ENSG00000167767、ENSG00000062038、ENSG00000175832、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000163347、ENSG00000103888、ENSG00000101255、ENSG00000120254的一种或多种,优选地,为ENSG00000167767、ENSG00000062038、ENSG00000175832、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000163347、ENSG00000103888、ENSG00000101255、ENSG00000120254的组合。
进一步,所述生物标志物选自:ENSG00000016602、ENSG00000044012、ENSG00000062038、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000167767、ENSG00000174992、ENSG00000182271、ENSG00000183034的一种或多种;优选地,为ENSG00000016602、ENSG00000044012、ENSG00000062038、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000167767、ENSG00000174992、ENSG00000182271、ENSG00000183034的组合。
进一步,所述生物标志物选自:ENSG00000167767、ENSG00000175832、ENSG00000164283、ENSG00000164379、ENSG00000062038、ENSG00000105464、ENSG00000163347、ENSG00000103888、ENSG00000105989、ENSG00000122641的一种或多种;优选地,为ENSG00000167767、ENSG00000175832、ENSG00000164283、ENSG00000164379、ENSG00000062038、ENSG00000105464、ENSG00000163347、ENSG00000103888、ENSG00000105989、ENSG00000122641的组合。
进一步,ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255、ENSG00000103888、ENSG00000120254、ENSG00000105989、ENSG00000122641在结直肠癌中表达上调;ENSG00000016602、ENSG00000044012、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000174992、ENSG00000182271、ENSG00000183034在结直肠癌中表达下调。
本发明的第七方面提供了如下任一项所述的应用:
(a)本发明第一方面所述的方法在制备结直肠癌风险评估系统/产品中的应用;
(b)本发明第二方面所述的风险评估模型在制备结直肠癌风险评估系统/产品中的应用;
(c)本发明第六方面所述的生物标志物在制备诊断结直肠癌的产品中的应用;
(d)本发明第六方面所述的生物标志物在制备治疗结直肠癌的药物中的应用;
(e)本发明第六方面所述的生物标志物在构建预测结直肠癌风险评估模型中的应用。
进一步,(c)中所述产品包括检测所述生物标志物的试剂。
进一步,所述试剂选自:
识别所述生物标志物的探针;或
扩增所述生物标志物的引物;或
结合所述生物标志物表达产物的抗体。
本发明的第八方面提供了一种诊断结直肠癌的产品,所述产品包括检测本发明第六方面所述的生物标志物的试剂。
进一步,所述试剂包括通过反转录PCR、实时定量PCR、原位杂交、芯片技术、蛋白免疫技术检测生物标志物表达水平的试剂。
进一步,所述产品包括芯片、试剂盒。
本发明的第九方面提供了一种治疗结直肠癌的药物,所述药物改变生物标志物表达水平的试剂。
进一步,所述试剂为在结直肠癌中表达上调的生物标志物的抑制剂,或在结直肠癌中表达下调的生物标志物的促进剂。
进一步,所述抑制剂为抑制ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255、ENSG00000103888、ENSG00000120254、ENSG00000105989或ENSG00000122641表达水平的试剂;所述促进剂为促进ENSG00000016602、ENSG00000044012、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000174992、ENSG00000182271或ENSG00000183034表达水平的试剂。
本发明的优点和有益效果:
本发明中提供了一种构建结直肠癌风险评估模型的方法,采用该方法构建的结直肠癌风险评估模型具有较高的诊断敏感性和特异性。
本发明提供了风险评估模型,嵌入该风险模型的风险评估系统/产品以及计算机可读存储介质和电子设备,其预测准确性高,可以有效的实现疾病与正常。
附图说明
图1是生物标志物的表达情况图;其中图A是ENSG00000062038;图B是ENSG00000175832;图C是ENSG00000167767;图D是ENSG00000163347;图E是ENSG00000050344;图F是ENSG00000164283;图G是ENSG00000105464;图H是ENSG00000164379;图I是ENSG00000171617;图J是ENSG00000101255;图K是ENSG00000103888;图L是ENSG00000120254;图M是ENSG00000016602;图N是ENSG00000044012;图O是ENSG00000080493;图P是ENSG00000091138;图Q是ENSG00000103375;图R是ENSG00000104267;图S是ENSG00000133742;图T是ENSG00000155850;图U是ENSG00000174992;图V是ENSG00000182271;图W是ENSG00000183034;图X是ENSG00000105989;图Y是ENSG00000122641。
图2是风险评估模型的预测结果图;其中,图A是子模型1的预测结果图;图B是子模型2的预测结果图;图C是子模型3的预测结果图;图D是子模型4的预测结果图。
具体实施方式
本公开在对多种实施方案的详细描述中,出于说明的目的,阐述了许多具体细节以提供对所公开的实施方案的透彻理解。然而,本领域技术人员将理解,可以在具有或没有这些具体细节的情况下实践这些不同的实施方案。此外,本领域技术人员可以容易地理解,方法被提供及进行的具体顺序是说明性的,并且设想顺序可以不同并且仍然保持在本文公开的多种实施方案的范围内。
本文的公开内容提供了用于从测序数据确定受试者是否患有结直肠癌的方法/系统,所述方法/系统可包括接收包含由来自受试者的核酸样品生成的测序数据的数据输入。所述方法可进一步包括从测序数据确定是否患有结直肠癌。所述确定步骤可包括通过执行风险评估模型进行评估,进一步包括生成报告。所述报告可鉴别受试者是否患有结直肠癌。
本文提供的方法/系统可用于诊断受试者的疾病,进一步根据诊断提供治疗计划或建议。在一些情况下,该方法/系统可用来预测疾病对特定疗法的反应性。本文公开的方法/系统利用从核酸样品生成的测序数据并评估结直肠癌的风险。可生成是否患有结直肠癌或者患结直肠癌风险的报告以及基于风险的治疗建议。
在一些方面,本文提供了用于确定受试者中是否患有结直肠癌或者患结直肠癌风险的方法/系统。受试者可提交包含核酸的生物样品。受试者可以是健康的或者可以患有疾病。在一些情况下,受试者可能易于发展疾病。在一些情况下,本文公开的方法/系统可被医师或医疗保健提供者预订(例如,作为基因检测)。在一些情况下,本文公开的方法/系统可被临床实验室(例如,根据临床实验室改进修正案认证的实验室)预订。生物样品可以是取自受试者的组织或细胞或由受试者产生的物质(即,唾液、尿液)。在一些情况下,样品为福尔马林固定的、石蜡包埋(FFPE)的组织样品。生物样品通常将包含核酸分子。核酸分子可以是DNA或RNA或其任何组合。RNA可包括mRNA、miRNA、piRNA、siRNA、tRNA、rRNA、sncRNA、snoRNA等。DNA可包括cDNA、基因组DNA、线粒体DNA、核外体DNA、病毒DNA等。在特定情况下,DNA为基因组DNA。核酸可从生物细胞中分离或者可以是无细胞核酸(即,循环DNA)。
生物样品可通过任何数目的步骤进行处理和分析以确定疾病的存在或不存在。该方法可包括分析生物样品中生物标志物的存在或不存在。生物标志物的存在或不存在可指示疾病或发展疾病的倾向。生物标志物的存在或不存在可指示疾病对特定疗法可能有反应。在其他情况下,生物标志物的存在或不存在可指示疾病对特定疗法可能是难治性的。
可以通过本领域技术人员已知的任何方法来处理和/或分析核酸。在一些情况下,可通过对样品中的一个或多个核酸分子进行一个或多个富集反应来进行本文公开的方法。富集反应可包括使样品与一个或多个珠子或珠子组接触。富集反应可包括一个或多个杂交反应。该一个或多个杂交反应可包括使用一个或多个捕获探针。该一个或多个捕获探针可包括一个或多个靶标特异性捕获探针。该靶标特异性捕获探针可与基因的外显子中的核酸序列杂交。富集反应可进一步包括一个或多个杂交的核酸分子的分离和/或纯化。富集反应可包括全外显子组富集。富集反应可包括靶向富集。富集反应可利用试剂盒或小组(panel)进行,该试剂盒或小组的商购可得的实例包括但不限于Agilent Whole ExomeSureSelect、NuGEN Ovation Fusion Panel和Illumina TruSight Cancer Panel。
在一些情况下,富集反应可包括一个或多个扩增反应。该一个或多个扩增反应可包括通过例如聚合酶链反应扩增核酸序列。所述扩增可包括利用一个或多个引物组。该一个或多个引物组可以是靶标特异性引物,以扩增靶向核酸序列。该一个或多个靶标特异性引物组可与基因的外显子中的核酸序列杂交。扩增的核酸序列可以进一步进行纯化、分离、提取等。在一些情况下,可将一个或多个条形码和/或衔接子附加到扩增的核酸序列。该一个或多个条形码和/或衔接子可以是用于例如测序反应的条形码和/或衔接子。
在一些情况下,对核酸进行测序以生成测序数据。可通过任何已知的测序方法生成测序数据。测序方法可包括毛细管测序、下一代测序、Sanger测序、合成测序、单分子纳米孔测序、连接测序、杂交测序、纳米孔电流限制测序或其组合。合成测序可包括可逆终止子测序、持续单分子测序、连续核苷酸流测序或其组合。连续核苷酸流测序可包括焦磷酸测序、pH介导的测序、半导体测序或其组合。进行一个或多个测序反应包括未靶向测序(即,全基因组测序)或靶向测序(即,外显子组测序)。
所述测序方法可包括Maxim-Gilbert、链终止或高通量系统。备选地或另外,该测序方法可包括HelioscopeTM单分子测序、纳米孔DNA测序、Lynx Therapeutics的大规模平行签名测序(Massively Parallel Signature Sequencing,MPSS)、454焦磷酸测序、单分子实时(RNAP)测序、Illumina(Solexa)测序、SOLiD测序、Ion TorrentTM、离子半导体测序、单分子SMRT(TM)测序、聚合酶克隆测序(Polony sequencing)、DNA纳米球测序、VisiGenBiotechnologies方法或其组合。备选地或另外,该测序方法可包括一个或多个测序平台,该测序平台包括但不限于由Illumina提供的Genome Analyzer IIx、HiSeq、NextSeq和MiSeq,单分子实时(SMRTTM)技术,如由Pacific Biosciences(California)提供的PacBioRS系统和Solexa测序仪,真正单分子测序(tSMSTM)技术,如由Helicos Inc.(Cambridge,MA)提供的HeliScopeTM测序仪,由Genia Technologies,Inc.开发的基于纳米孔的测序平台和Oxford Nanopore MinION。
可接收测序数据(例如,通过与计算机存储器源耦合的计算机处理器)作为数据输入。可接收代表核苷酸序列的基于文本或二进制文件格式的测序数据。可以接收例如SRA、CRAM、FASTA、SAM、BAM或FASTQ文件格式的测序数据。在特定的实例中,接收FASTQ文件格式的测序数据。FASTQ文件格式存储核苷酸测序数据以及相应的质量数据。
本公开内容的系统
本公开内容进一步提供了用于执行本文所述方法的基于计算机的系统。在一些方面,所述系统可用于确定和报告样品是否患有结直肠癌或者患结直肠癌的风险。所述系统可包含一个或多个客户端组件。所述一个或多个客户端组件可包含用户界面。所述系统可包含一个或多个服务器组件。所述服务器组件可包含一个或多个存储器单元。所述一个或多个存储器单元可被配置为接收数据输入。所述数据输入可包含测序数据。可从来自受试者的核酸样品生成测序数据。已描述了适用于本公开内容的系统的测序数据的非限制性实例。所述系统可进一步包含一个或多个计算机处理器。所述一个或多个计算机处理器可以与一个或多个存储器单元可操作地耦合。所述一个或多个计算机处理器可被编程为将测序数据映射到参考序列。所述一个或多个计算机处理器可进一步被编程为从测序数据确定是否患有结直肠癌或者存在患结直肠癌的风险。所述确定步骤可包括本文所述的任何方法。所述一个或多个计算机处理器可进一步被编程为生成输出以在屏幕上显示。所述输出可包含判定受试者是否患有结直肠癌或存在患结直肠癌风险的报告。
本文所述系统可包含一个或多个客户端组件。所述一个或多个客户端组件可包含一个或多个软件组件、一个或多个硬件组件或其组合。所述一个或多个客户端组件可通过一个或多个服务器组件获得一项或多项服务。所述一项或多项服务可由一个或多个客户端组件通过网络获得。“服务”在本文用来指系统的任何产品、方法、功能或用途。例如,用户可以下订单进行基因检测。可通过系统的一个或多个客户端组件下订单,并且可通过网络将要求传送给所述系统的一个或多个服务器组件。网络可以为因特网、互联网和/或外联网,或者内联网和/或与因特网通信的外联网。网络在一些情况下为电信和/或数据网络。网络可以包括一个或多个计算机服务器,其可以实现分布式计算如云计算。在一些情况下,网络在计算机系统的帮助下可以实现对等网络,这可以使与计算机系统耦合的设备能够起到客户端或服务器的作用。
所述系统可以包括一个或多个存储器单元(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元(例如,硬盘)、用于与一个或多个其他系统通信的通信接口(例如,网络适配器)以及外围设备,如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器、存储单元、接口和外围设备通过通信总线如主板与CPU通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。在一个实例中,一个或多个存储器单元可以存储接收的测序数据。
所述系统可包含一个或多个计算机处理器。所述一个或多个计算机处理器可以与一个或多个存储器单元可操作地耦合,以例如访问存储的测序数据。所述一个或多个计算机处理器可以执行机器可执行代码来执行本文所述方法。例如,所述一个或多个计算机处理器可以执行机器可读代码以将测序数据输入映射到参考序列,或构建基因表达量矩阵。
可以以软件的形式提供机器可执行或机器可读代码。在使用期间,代码可以由处理器执行。在一些情况下,可以从存储单元中检索代码并将其存储在存储器上以供处理器随时访问。在一些情况下,可以排除电子存储单元,并将机器可执行指令存储在存储器上。
代码可以进行预编译并配置为与具有适合于执行代码的处理器的机器一起使用,可以在运行期间进行编译或者可以在运行期间进行解释。代码可以以编程语言的形式提供,可以选择编程语言以使代码能够以预编译、编译或解释的方式执行。
本文提供的系统和方法的方面如风险评估系统可以在编程中体现。所述技术的各个方面可被认为是通常为承载于或体现在一种类型的机器可读介质中的机器(或处理器)可执行代码和/或有关数据形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元,如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的有形存储器或其相关模块(如各种半导体存储器、磁带驱动器、磁盘驱动器等)中的任一个或全部,其可以在任何时间提供非暂时性存储以供软件编程。软件的全部或部分有时可以通过因特网或多种其他电信网络进行通信。例如,这样的通信可以使软件能够从一个计算机或处理器加载到另一个计算机或处理器,例如从管理服务器或主计算机加载到应用服务器的计算机平台。因此,另一种类型的可以承载软件要素的介质包括如跨本地设备之间的物理接口,通过有线和光学陆上线路网络以及经各种空中链路使用的光波、电波和电磁波。携带这样的波的物理元件如有线或无线链路、光学链路等也可以被认为是承载软件的介质。除非局限于非暂时性、有形的“存储”介质,否则如本文所用的术语如计算机或机器“可读介质”是指参与为处理器提供用于执行的指令的任何介质。
因此,机器可读介质如计算机可执行代码可以采用许多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,如任何计算机等中的任何存储设备,如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,如这种计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤,包括在计算机系统中包含总线的电线。载波传输介质可以采用电信号或电磁信号,或者声波或光波如在射频(RF)和红外(IR)数据通信期间生成的那些声波或光波的形式。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光介质、穿孔卡纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、输送数据或指令的载波、输送这样的载波的电缆或链路,或计算机可从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可参与将一个或多个指令的一个或多个序列携带至处理器以供执行。
本文公开的系统可包含一个或多个电子显示器或与一个或多个电子显示器通信。电子显示器可以是计算机系统的一部分,或与计算机系统直接耦合或通过网络耦合。计算机系统可包含用于提供本文公开的多种特征和功能的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。UI可以提供交互工具,通过该交互工具用户可使用本文所述的方法和系统。举例而言,如本文所设想的UI可以是基于网络的工具,通过该工具医疗保健提供者可以预订基因检测,自定义待测试的基因的列表,以及接收和查看生物医学报告。
本文公开的方法/系统可以包括生物医学数据库、基因组数据库、生物医学报告、疾病报告、病例-对照分析以及基于来自一个或多个数据库的数据分析、一个或多个测定、一个或多个数据或结果、基于或来源于一个或多个测定的一个或多个输出、基于或来源于一个或多个数据或结果的一个或多个输出或其组合。
机器可执行代码/程序
如本文所述,一个或多个计算机处理器可以执行机器可执行代码/程序以执行本公开内容的方法。机器可执行代码/程序可包含任何数目的开放源或封闭源软件。可以执行机器可执行代码以分析数据输入。数据输入可以是由一个或多个测序反应生成的测序数据。计算机处理器可以与至少一个存储器单元可操作地耦合。计算机处理器可以访问来自所述至少一个存储器单元的测序数据。在一些情况下,计算机处理器可以执行机器可执行代码以将测序数据映射到参考序列。在一些情况下,计算机处理器可以执行机器可执行代码以从测序数据确定是否患有结直肠癌或者存在患结直肠癌的风险。在一些情况下,计算机处理器可以执行机器可执行代码/程序以生成用于在屏幕上显示的输出(例如,生物医学报告),以判定受试者是否患有结直肠癌或存在患结直肠癌的风险。
机器可执行代码/程序(或机器可读代码/程序)可包括一个或多个序列比对软件。序列比对软件可包括DNA-seq比对仪。适合于执行本公开内容的方法的DNA-seq比对仪的非限制性实例包括BLAST、CS-BLAST、CUDASW++、FASTA、GGSEARCH/GLSEARCH、HMMER、HHpred/HHsearch、IDF、Infernal、KLAST、PSI-BLAST、PSI-Search、ScalaBLAST、Sequilab、SAM、SSEARCH、SWAPHI、SWAPHI-LS、SWIPE、ACANA、AlignMe、Bioconductor、Biostrings::pairwiseAlignment、BioPerldpAlign、BLASTZ、LASTZ、CUDAlign、DNADot、DOTLET、FEAST、G-PAS、GapMis、JAligner、K*Sync、LALIGN、NW-align、mAlign、matcher、MCALIGN2、MUMmer、needle、Ngila、Path、PatternHunter、ProbA(propA)、PyMOL、REPuter、SABERTOOTH、Satsuma、SEQALN、SIM、GAP、LAP、NAP、SPA、Sequences Studio、SWIFT Suit、stretcher、tranalign、UGENE、water、wordmatch、YASS、ABA、ALE、AMAP、anon.、BAli-Phy、Base-By-Base、CHAOS/DIALIGN、ClustalW、CodonCode Aligner、Compass,DECIPHER、DIALIGN-TX、DIALIGN-T、DNA Alignment、DNA Baser Sequence Assembler、EDNA、FSA、Geneious、KAlign、MAFFT、MARNA、MAVID、MSA、MSAProbes、MULTALIN、Multi-LAGAN、MUSCLE、Opal、Pecan、Phylo、Praline、PicXAA、POA、Probalign、ProbCons、PROMALS3D、PRRN/PRRD、PSAlign、RevTrans、SAGA、Se-Al、StatAlign、Stemloc、T-Coffee、UGENE、VectorFriends、GLProbs、ACT、AVID、BLAT、GMAP、Splign、Mauve、MGA、Mulan、Multiz、PLAST-ncRNA、Sequerome、Sequilab、Shuffle-LAGAN、SIBSim4、SLAM、BarraCUDA、BBMap、BFAST、BLASTN、Bowtie、HIVE-Hexagon、BWA、BWA-MEM、BWA-PSSM、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、CUSHAW3、drFAST、ELAND、ERNE、GASSST、GEM、Genalice MAP、Geneious Assembler、GensearchNGS、GMAP、GSNAP、GNUMAP、iSSAC、LAST、MAQ、mrFAST、mrsFAST、MOM、MOSAIK、MPscan、Novoalign、NovoalignCS、NextGENe、NextGenMap、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTGInvestigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOAP3-dp、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、VelociMapper、XPressAlign、ZOOM和YAHA。在一些情况下,序列比对软件可包括RNA-seq比对仪。适合于执行本公开内容的方法的RNA-seq比对仪的非限制性实例包括Bowtie、Cufflinks、Erange、GMAP、GSNAP、GSTRUCT、GEM、IsoformEx、HISAT、HPG aligner、HMMSplicer、MapAL、MapSplice、Olego、OSA、PALMapper、PASS、RNA_MATE、ReadsMap、RUM、RNASEQR、SAMMate、SOAPSplice、SMALT、STAR1、STAR2、SpliceSeq、SpliceMap、Subread、Subjunc、TopHat1、TopHat2和X-Mate。
机器可执行代码/程序可包括一个或多个比对可视化软件。比对可视化软件可包括但不限于Ale、IVistMSA、AliView、Base-By-Base、BioEdit、BioNumerics、BoxShade、CINEMA、CLC查看器、ClustalX查看器、Cylindrical BLAST查看器、DECIPHER、DiscoveryStudio、DnaSP、emacs-biomode、Genedoc、Geneious、整合基因组浏览器(IGB)、IntegrativeGenomics查看器(IGV)、Jalview 2、JEvTrace、JSAV、Maestro、MEGA、Multiseq、MView、PFAAT、Ralee、S2S RNA编辑器、Seaview、Sequilab、SeqPop、Sequlator、SnipViz、Strap、Tablet、UGENE、VISSA序列/结构查看器、Artemis、Savant、DNApy、比对注解器(AlignmentAnnotator)、Google Genomics API浏览器和PyBamView。
下面结合具体的实施例和附图进一步说明本发明,本发明的实施例仅用于解释本发明,并不意味着限制本发明的保护范围。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
实施例1结直肠癌风险评估模型的构建
1、数据来源与获取
构建结直肠癌风险评估模型的所有数据下载自TCGA和NCBI-SRA数据库,其中结直肠癌的癌症和癌旁的表达量文件下载自TCGA数据库,肠道息肉raw数据下载自NCBI-SRA数据库。检索获得共选取443个结直肠癌病例样本,31个肠道息肉的样本,72个正常样本,共计546个样本数据用于进一步筛选和质控。
2、Raw data的处理
使用fastp软件进行接头处理和质控,得到cleandata,步骤包括:
a.接头处理
利用fastp软件双端序列自动检测模式进行接头处理;
b.数据修剪和质控
最低N碱基数量阈值为5,reads最低长度阈值为15,碱基质量阈值Q15,低质量碱基百分比阈值为40%,以4个碱基为单位滑动窗口过滤,窗口平均质量阈值Q20。
3、序列比对
分析得到的clean data使用ICGC软件(https://github.com/akahles/icgc_rnaseq_align)比对到人类参考基因组,参考基因组版本为GRCh38.d1.vd1,基因组注释文件版本为gencode.v22.annotation.gtf,比对后得到bam格式数据文件。运行参数设置:
outFilterMultimapScoreRange:1
outFilterMultimapNmax:20
outFilterMismatchNmax:10
alignIntronMax:500000
alignMatesGapMax:1000000
sjdbScore:2
limitBAMsortRAM:0
alignSJDBoverhangMin:1
genomeLoad:NoSharedMemory
outFilterMatchNminOverLread:0.33
outFilterScoreMinOverLread:0.33
twopass1readsN:-1
sjdbOverhang:100
outSAMstrandField:intronMotif
outSAMunmapped:Within
比对得到的bam文件使用samtools的sort指令进行排序:
排序标准:name。
4、构建表达量矩阵
使用htseq软件,结合注释文件,对bam文件进行基因的表达量的定量。
定量模式:intersection-nonempty;
定量标准类型:gene_id;
链特异性:非特异性。
SRA数据库来源的所有样本的Count值表达量文件按照基因ID进行合并,构建M*N的基因表达量矩阵,基因表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值,其中1≤i≤M,1≤j≤N;M表示检测基因的数量,N表示分析样本的数量。将表达量矩阵保存为.Rdata对象文件。
不同数据来源的表达量矩阵的构建:
TCGA数据库来源count值表达量矩阵和SRA数据库来源样本的count值表达量矩阵(Rdata)按照基因ID进行合并。
5、临床信息处理
将临床信息进行特征标记。
stage特征中I、IA、IB标记为TNM1;II、IIA、IIB、IIC标记为TNM2;III、IIIA、IIIB、IIIC标记为TNM3;IV、IVA、IVB标记为TNM4;
stage字段重命名为subclass;
肠道息肉样本的subtype字段重命名为subclass,并标记为polyps;
无患病正常样本的subtype字段重命名为subclass,并标记为normal;
添加字段source,标记样本来源TCGA或者是SRA。将count表达量矩阵和临床信息保存为.Rdata对象文件。
6、数据分组
将.Rdata对象文件对样本集合进行拆分,分为训练集和测试集。针对临床信息subclass字段的每一分类,分别随机取样30%的样本作为测试集,剩余70%作为训练集,将拆分好的count训练集、count测试集、训练集临床信息、测试集临床信息保存为.Rdata对象文件。
7、建模数据处理
1)特征剔除
使用featurefilter函数将所有基因单独进行过滤,计算表达量为0的样本数量,并统计其在总样本数中所占的比例,剔除比例>0.05的特征,将剩余的特征保存为.Rdata对象文件。
2)批次效应校正
将样本分组信息和批次标记信息保存为向量,样本分组参照临床信息的source字段,批次标记信息参照临床信息的subclass字段;将待处理数据的表达量矩阵、分组信息向量、批次标记信息向量输入ComBat-Seq函数中进行运算,使用负二项式回归模型对count值进行建模,估计代表批次效应的参数,将原始count值映射到预期的分布,生成新的表达量矩阵,保存为.Rdata文件待用。
3)离群样本剔除
使用prcomp函数进行主成分分析,将剔除批次效应的表达量矩阵作为参数传入,进行数据的基因特征的维度映射,生成降低维度的主成分的数值矩阵;
选择主成分PC1和PC2的数值,并结合样本的分组信息,构建绘制pca plot所需要的长格式的数据集合;
计算主成分PC1和PC2的方差/所有主成分的方差,作为PC1和PC2的对于变异的解释度;
选择主成分PC1和PC2使用ggplot2绘制样本分布图,根据样本的分组信息标记颜色和形状,样本点标记样本ID;
选择远离群体的点作为待删除样本;
在表达量矩阵中删除以上被挑选的样本,重新保存为.Rdata文件待用。
8、模型训练
基于MLseq工具的进行模型的训练,模型保存为fit.Rdata对象文件。模型训练算法采用voomNSC。模型的设计思路是将结直肠癌、正常样本进一步细分,模型拆分为4个子模型,预测的最终目标是区分结直肠癌早期、晚期和正常样本。
子模型列举如下:TNM1vs正常组织(子模型1),TNM2 vs正常组织(子模型2),TNM3vs正常组织(子模型3),TNM4vs正常组织(子模型4)。
经过严格评估和筛选,选择voomNSC算法构建结直肠癌风险评估模型。
voomNSC算法子模型的训练:
读取建模数据处理步骤生成的.Rdata数据文件,使用训练集count表达量矩阵和训练集临床信息的数据。从count矩阵中选取对应分类样本,构建用于子模型训练的count表达量矩阵。从训练集临床信息的数据中选取对应分类样本,构建用于子模型训练的设计矩阵。设计矩阵需要样本ID和临床表型一一对应,临床表型字段设置为condition,因子型。
将上述处理好的表达量矩阵和设计矩阵,封装为DESeqDataSetFromMatrix对象。
构建模型训练的控制器,使用voomControl方法进行封装。模型训练使用十折交叉验证,参数设置如下:
Method:repeatedcv;
Number:10;
Repeats:10。
模型训练使用classify方法,需要传入参数DESeqDataSetFromMatrix对象、voomControl控制器。参数设置如下:
Method:voomNSC,
preProcessing:TMM。
对count表达矩阵进行TMM标准化处理,计算表达量的log-cpm值,估计基因的均值方差关系,为每个基因生成精确性权重,继而使用log-cpm值和精确性权重计算加权差异分值。使用soft-thresholding方法收缩加权差异分值,收缩阈值为0,选择未收缩至阈值的基因作为模型训练的特征。预处理后的训练集表达量数据随机拆分为10份,选择其一作为验证集,进行NSC模型训练和验证,反复十次择优。最优模型保存为fit.Rdata对象文件。
9、模型验证
读取数据分组步骤生成的.Rdata数据文件,使用测试集count表达量矩阵和测试集临床信息的数据构建的设计矩阵,封装为DESeqDataSetFromMatrix对象。使用predict方法,需要传入参数DESeqDataSetFromMatrix对象。测试集数据表达量进行转化,转换到和训练集相同的scale,进行后验概率的计算,得到预测分类结果。对模型的预测结果进行ROC分析,计算得到AUC值和ROC曲线。
将测试样本的最终预测判定结果与实际临床表型进行对比,预测正确的样本数量与测试集样本总数的比例,作为模型整体的准确度。
10、结果
使用voomNSC检测正常组织,与结直肠癌相关的基因的表达情况和预测结果分别如图1和图2所示,count值以log2表示,结果显示ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255、ENSG00000103888、ENSG00000120254、ENSG00000105989、ENSG00000122641在结直肠癌中表达显著上调;ENSG00000016602、ENSG00000044012、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000174992、ENSG00000182271、ENSG00000183034在结直肠癌中表达显著下调。
上述实施例的说明只是用来理解本发明的技术方案。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。

Claims (10)

1.一种预测结直肠癌的风险评估模型的构建方法,其特征在于,包括
获取数据:获取样本TCGA数据库和SRA数据库的测序数据;
测序数据的处理:对测序数据进行处理和质控,得到cleandata;
序列比对:将cleandata比对至人类参考基因组上;
构建表达量矩阵:结合基因注释文件,对比对后的数据进行基因的表达量的定量,构建表达量矩阵;
临床信息处理:将临床信息按照样本分组信息进行特征标记;
数据分组:将样本随机拆分为训练集和测试集;
建模数据处理:将用训练集的数据进行特征剔除、批次效应校正;
模型训练和构建:采用voomNSC进行模型训练,构建风险评估模型;
优选地,所述方法还包括模型验证:使用构建的风险评估模型对测试集进行验证,得到预测分类结果;
优选地,特征剔除的步骤包括:使用featurefilter函数将所有基因单独进行过滤,计算表达量为0的样本数量,并统计其在总样本数中所占的比例,剔除高于特定比例的特征;
优选地,所述特定比例为0.05;
优选地,批次效应校正的步骤包括:将样本的分组信息和批次标记信息保存为向量,对表达量矩阵、分组信息向量、批次标记信息向量进行矩阵建模,估计代表批次效应的参数,将原始数据映射到预期的分布,进而生成新的表达量矩阵;
优选地,批次校正的函数为ComBat-Seq函数;
优选地,建模数据处理还包括离群样本剔除;
优选地,离群样本剔除的步骤包括:进行主成分分析,将剔除批次效应的表达量矩阵作为参数传入,进行数据的基因特征的维度映射,生成降低维度的主成分的数值矩阵,绘制PCA图,删除远离群体的样本;
优选地,所述表达量矩阵为M*N的基因表达量矩阵,表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值,其中1≤i≤M,1≤j≤N;M表示检测基因的数量,N表示分析样本的数量;
优选地,表达量矩阵的定量标准类型为基因ID;
优选地,表达量矩阵的定量模式为intersection-nonempty;
优选地,构建表达量矩阵还包括合并数据集;
优选地,利用基因ID合并数据集;
优选地,临床信息处理的步骤包括:
stage特征中I、IA、IB标记为TNM1;II、IIA、IIB、IIC标记为TNM2;III、IIIA、IIIB、IIIC标记为TNM3;IV、IVA、IVB标记为TNM4;
无患病正常样本的subtype字段重命名为subclass,并标记为normal;
添加字段source,标记样本来源TCGA或者是SRA;
优选地,所述模型包括四个子模型。
2.根据权利要求1所述的方法,其特征在于,采用voomNSC进行模型训练包括:构建用于子模型训练的表达量矩阵和设计矩阵;
优选地,设计矩阵的样本ID和临床表型一一对应;
优选地,模型训练还包括将表达量矩阵和设计矩阵封装为DESeqDataSetFromMatrix对象;
优选地,模型训练使用十折交叉进行验证;
优选地,十折交叉的参数设置如下:
-Method:repeatedcv;
-Number:10;
-Repeats:10;
优选地,voomNSC进行模型训练还包括构建voomControl控制器;
优选地,voomNSC使用classify方法进行模型训练;
优选地,传入参数为DESeqDataSetFromMatrix对象、voomControl控制器;
优选地,参数设置如下:
-Method:voomNSC,
-preProcessing:TMM;
优选地,预测分类结果预测分类结果为m*n矩阵,m为子模型的数量,n为待测样本的数量;
优选地,预测分类结果的判定标准为:待测样本的子模型1-4预测结果normal的数量≥3,该样本判定分类为normal;反之,则为结直肠癌。
3.一种判断结直肠癌的风险评估模型,其特征在于,所述风险评估模型根据权利要求1或2所述的方法构建而成;
优选地,风险评估模型包括四个子模型;
优选地,子模型1为10-基因的风险评估模型;
优选地,所述10-基因选自:ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255;
优选地,子模型2为10-基因的风险评估模型;
优选地,所述10-基因选自:ENSG00000167767、ENSG00000062038、ENSG00000175832、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000163347、ENSG00000103888、ENSG00000101255、ENSG00000120254;
优选地,子模型3为13-基因的风险评估模型;
优选地,所述13-基因选自:ENSG00000016602、ENSG00000044012、ENSG00000062038、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000167767、ENSG00000174992、ENSG00000182271、ENSG00000183034;
优选地,子模型4为10-基因的风险评估模型;
优选地,所述10-基因选自:ENSG00000167767、ENSG00000175832、ENSG00000164283、ENSG00000164379、ENSG00000062038、ENSG00000105464、ENSG00000163347、ENSG00000103888、ENSG00000105989、ENSG00000122641;
优选地,优选地,预测分类结果预测分类结果为m*n矩阵,m为子模型的数量,n为待测样本的数量;
优选地,预测分类结果的判定标准为:待测样本的子模型1-4预测结果normal的数量≥3,该样本判定分类为normal;反之,则为结直肠癌。
4.如下任一种计算机可读存储介质:
(a)其存储有程序,该程序用于执行权利要求1或2所述的方法;
(b)其存储有程序,该程序用于执行权利要求3所述的风险评估模型。
5.一种结直肠癌的风险评估系统,其特征在于,所述系统包括:
(a)被配置为接收数据输入的至少一个存储器单元,该数据输入包含由来自受试者的核酸样品生成的测序数据;
(b)与所述至少一个存储器单元可操作地耦合的计算机处理器,其中所述计算机处理器被编程为可执行程序,可执行程序用于运行权利要求3所述的风险评估模型;
优选地,所述计算机处理器被编程为将所述测序数据映射到一参考序列;
优选地,其中所述参考序列为共有参考序列;
优选地,所述计算机处理器被编程为将测序数据构建表达量矩阵;
优选地,所述计算机处理器被编程为生成输出;
优选地,所述输出包含结直肠癌的风险评估报告;
优选地,所述报告递送至用户界面进行显示。
6.一种电子设备,其特征在于,包括:
(a)客户端组件,其中所述客户端组件包含用户界面;
(b)服务器组件,其中所述服务器组件包含至少一个存储器单元,该至少一个存储器单元被配置为接收包含从样本中生成的测序数据的数据输入;
(c)与所述服务器组件可操作地耦合的所述用户界面;以及
(d)与所述至少一个存储器单元可操作地耦合的计算机处理器,其中所述计算机处理器被编程为可执行程序,可执行程序用于运行权利要求3所述的风险评估模型;
优选地,所述计算机处理器被编程为将所述测序数据映射到一参考序列;
优选地,其中所述参考序列为共有参考序列;
优选地,所述计算机处理器被编程为将测序数据构建表达量矩阵;
优选地,所述计算机处理器被编程为生成输出;
优选地,所述输出包含结直肠癌的风险评估报告。
7.与结直肠癌相关的生物标志物,其特征在于,所述生物标志物选自ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255、ENSG00000103888、ENSG00000120254、ENSG00000016602、ENSG00000044012、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000174992、ENSG00000182271、ENSG00000183034、ENSG00000105989、ENSG00000122641的一种或多种。
8.如下任一项所述的应用:
(a)权利要求1或2所述的方法在制备结直肠癌风险评估系统/产品中的应用;
(b)权利要求3所述的风险评估模型在制备结直肠癌风险评估系统/产品中的应用;
(c)权利要求7所述的生物标志物在制备诊断结直肠癌的产品中的应用;
(d)权利要求7所述的生物标志物在制备治疗结直肠癌的药物中的应用;
(e)权利要求7所述的生物标志物在构建预测结直肠癌风险评估模型中的应用;
优选地,(c)中所述产品包括检测所述生物标志物的试剂;
优选地,所述试剂选自:
识别所述生物标志物的探针;或
扩增所述生物标志物的引物;或
结合所述生物标志物表达产物的抗体。
9.一种诊断结直肠癌的产品,其特征在于,所述产品包括检测权利要求7所述的生物标志物的试剂;
优选地,所述试剂包括通过反转录PCR、实时定量PCR、原位杂交、芯片技术、蛋白免疫技术检测生物标志物表达水平的试剂;
优选地,所述产品包括芯片、试剂盒。
10.一种治疗结直肠癌的药物,其特征在于,所述药物改变生物标志物表达水平的试剂;优选地,所述试剂为在结直肠癌中表达上调的生物标志物的抑制剂,或在结直肠癌中表达下调的生物标志物的促进剂;优选地,所述抑制剂抑制ENSG00000062038、ENSG00000175832、ENSG00000167767、ENSG00000163347、ENSG00000050344、ENSG00000164283、ENSG00000105464、ENSG00000164379、ENSG00000171617、ENSG00000101255、ENSG00000103888、ENSG00000120254、ENSG00000105989或ENSG0000012264的表达水平;所述促进剂促进NSG00000016602、ENSG00000044012、ENSG00000080493、ENSG00000091138、ENSG00000103375、ENSG00000104267、ENSG00000133742、ENSG00000155850、ENSG00000174992、ENSG00000182271或ENSG00000183034的表达水平。
CN202110350363.8A 2021-03-31 2021-03-31 一种结直肠癌风险评估模型及系统 Pending CN113160895A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110350363.8A CN113160895A (zh) 2021-03-31 2021-03-31 一种结直肠癌风险评估模型及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110350363.8A CN113160895A (zh) 2021-03-31 2021-03-31 一种结直肠癌风险评估模型及系统

Publications (1)

Publication Number Publication Date
CN113160895A true CN113160895A (zh) 2021-07-23

Family

ID=76885969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110350363.8A Pending CN113160895A (zh) 2021-03-31 2021-03-31 一种结直肠癌风险评估模型及系统

Country Status (1)

Country Link
CN (1) CN113160895A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423451A (zh) * 2023-12-19 2024-01-19 菏泽德康医学检验所有限公司 一种基于大数据分析的智能分子诊断方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423451A (zh) * 2023-12-19 2024-01-19 菏泽德康医学检验所有限公司 一种基于大数据分析的智能分子诊断方法及系统
CN117423451B (zh) * 2023-12-19 2024-05-03 菏泽德康医学检验所有限公司 一种基于大数据分析的智能分子诊断方法及系统

Similar Documents

Publication Publication Date Title
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
US11193175B2 (en) Normalizing tumor mutation burden
CN109072309B (zh) 癌症进化检测和诊断
CN109767810B (zh) 高通量测序数据分析方法及装置
CN110958853B (zh) 用于鉴定或监测肺病的方法和系统
JP2022521492A (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
CN110770838B (zh) 用于确定体细胞突变克隆性的方法和系统
CN112888459A (zh) 卷积神经网络系统及数据分类方法
US20210272649A1 (en) Systems and methods for automating rna expression calls in a cancer prediction pipeline
US20200219587A1 (en) Systems and methods for using fragment lengths as a predictor of cancer
CN112218957A (zh) 用于确定在无细胞核酸中的肿瘤分数的系统及方法
US20210358626A1 (en) Systems and methods for cancer condition determination using autoencoders
US20210407623A1 (en) Determining tumor fraction for a sample based on methyl binding domain calibration data
CN115410713A (zh) 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建
CN113160895A (zh) 一种结直肠癌风险评估模型及系统
CN113159529A (zh) 一种肠道息肉的风险评估模型及相关系统
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
CN112992273A (zh) 一种预测早期结直肠癌风险评估模型及系统
CN113710818A (zh) 病毒相关联的癌症风险分层
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
CN117965725A (zh) 区分肝癌与肝脏非癌疾病样本的方法、装置和试剂盒
Akbarzadeh et al. The Role of Different Linkage Disequilibrium Patterns in Genomic Prediction: The gBULP Based Exploratory Method in Tehran Cardiometabolic Genetic Study
CN117233389A (zh) 用于快速鉴定急性髓系白血病中cebpa双突变的标志物
CN116904575A (zh) 与矽肺患者体能衰退相关的生物标志物及其用途
CN118056016A (zh) 基因标志物在预测孕妇早产风险中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination