CN113362893A - 肿瘤筛查模型的构建方法及应用 - Google Patents
肿瘤筛查模型的构建方法及应用 Download PDFInfo
- Publication number
- CN113362893A CN113362893A CN202010151705.9A CN202010151705A CN113362893A CN 113362893 A CN113362893 A CN 113362893A CN 202010151705 A CN202010151705 A CN 202010151705A CN 113362893 A CN113362893 A CN 113362893A
- Authority
- CN
- China
- Prior art keywords
- model
- tumor
- screening
- classification
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pure & Applied Mathematics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Mathematical Optimization (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种肿瘤筛查模型的构建方法,所述方法包括采用支持向量机对单个分类指标进行分类模型构建,得到每个指标对样本的预测得分,然后使用逻辑回归模型对所述得分进行整合,进而得到所述肿瘤筛查模型。本发明还提供了基于所述方法构建的肿瘤筛查模型的癌症筛查、风险预测和/或诊断方法,以及相关的试剂盒、系统、装置、计算机可读存储介质和设备。实现了对各个分期的癌症,包括早期癌症的准确筛查。
Description
技术领域
本发明属于基因检测技术领域,具体涉及一种肿瘤筛查模型的构建方法以及根据该方法所构建的模型建立的癌症筛查、风险预测和/或诊断方法、系统、装置、计算机可读存储介质、设备。
背景技术
全球每年有近两千万癌症新增病例和近千万癌症死亡病例,而我国的癌症患病率处于国际中等偏上水平。WHO认为三分之一的癌症可通过早期发现得到根治。相比于晚期癌症,早期癌症未发生转移,更容易通过手术、放化疗等手段清除,在癌症早期进行治疗干预,有助于增加患者存活机会,减轻痛苦,降低经济负担。目前尚无有效治疗晚期癌症的手段,及早发现及早治疗被认为是处置癌症最有效的手段,因此提升肿瘤检测的灵敏度对于提高癌症患者生存率具有重大意义,这其中早筛早诊将会起到重要作用。
目前肿瘤早期检测主要使用的方法是影像学检查和血清学检查。但是影像学检查受到某些脏器的生理活动的影响,对较小的病灶存在漏诊的情况,血清学受到炎症影响,出现短暂的异常的信息,影响检测结果。对于血清中游离的DNA(cfDNA)的最新研究已经提高到一个新的高度,通过液态活检cfDNA被证明在肿瘤的检测与监测中具有潜力。目前cfDNA应用于肿瘤早期筛查的主要研发方向包括表观遗传学方向(甲基化、羟甲基化)、ctDNA(循环肿瘤DNA)突变检测及ctDNA突变结合蛋白指标的检测、CNV检测,以及利用ctDNA有别于cfDNA的其他物理化学特性进行的检测。
在DNA甲基化/羟甲基化检测方面,DNA甲基化异常伴随着肿瘤的发生发展,是肿瘤中常见的表观遗传变化之一,可通过外周循环血清、血浆和尿液等体液检测,是早期癌症检测的有效生物标志物。根据以往发表于Nature等国际著名杂志的文献报道,可以得知目前最优的利用甲基化区分肿瘤患者和正常人的模型其敏感性为83.3%,特异性为90.5%,对于早期和极早期肿瘤患者人群其准确性会进一步下降,其敏感性仅为 20%~40%。因此,仍然存在改进早期肿瘤患者检测的敏感性和/或特异性的巨大需求。
在ctDNA突变检测及其与蛋白指标的联合检测以及CNV检测方面,现有技术表明ctDNA是一种特征性的肿瘤生物标记物,关于ctDNA突变检测,现有的超灵敏度的检测方法主要包括TEC-Seq和CancerSEEK。TEC-Seq采用30000X的平均测序深度,Phallen J等人(2017)报道了使用该方法检测乳腺癌、结肠癌、肺癌和卵巢癌4种癌症的194 个病人的血浆样本,晚期肿瘤(III期和IV期)检出率超过75%,而早期肿瘤检出率只有62%。CancerSEEK方法联合了基因检测和蛋白标志物检测,Cohen J D等人(2018) 报道了使用该方法来确定实体肿瘤远端转移的早期预测,在不同肿瘤阶段的敏感性有所不同,II期和III期的敏感性分别为73%和78%,而对I期肿瘤的敏感性仅为43%。目前的研究显示,ctDNA突变检测存在的主要问题是ctDNA在血液中的含量很低,而且会被实时清理,ctDNA通常只有游离血浆DNA的0.1~1%,如果使用超深度测序,其检测费用非常昂贵,因此采用检测ctDNA突变的方式对早期肿瘤进行筛查仍存在很大瓶颈。
在利用ctDNA有别于cfDNA的其他物理化学特性方面。发表于ScienceTranslational Medicine的“Enhanced detection of circulating tumor DNA byfragment size analysis”的文章指出,ctDNA的片段长度要小于cfDNA的长度,并以此为依据通过片段特异富集进行液体活检,在多癌种中验证了可以比CT更早检出肿瘤。然而该文章中并未纳入早期肿瘤患者的队列,因此上述特性能否用于早期患者的诊断和筛查尚无具体定论。
综合现有技术的情况来看,针对肿瘤早筛早诊,各个研究方向在灵敏度和特异性等方面的表现各有优劣,但都未能取得满足人们需要的理想结果。
发明内容
本发明的目的之一是针对现有技术存在的缺陷,提供一种改进的肿瘤筛查模型的构建方法。本发明人发现,采用支持向量机(SVM)分类算法,对多个单个指标进行分类模型构建,得到每个指标对于样本的预测得分,然后使用逻辑回归(logistic regression)模型,对这些得分进行整合,得到的筛查预测模型其预测结果优于这些单个指标。
为了实现以上目的,本发明提供了一种肿瘤筛查模型的构建方法,所述方法包括采用支持向量机对单个分类指标进行分类模型构建,得到每个指标对样本的预测得分,然后使用逻辑回归模型对所述得分进行整合,得到所述肿瘤筛查模型。
本发明的方法可通过机器学习、集成学习等方式实现。
在本发明的具体实施方案中,使用的分类指标的数量为2个以上。
在本发明的具体实施方案中,分类指标优选为多组学分类指标,肿瘤筛查模型优选为多组学模型。
在本发明的具体实施方案中,所述预测得分可以选自单指标SVM模型输出的样本患有肿瘤的概率或分类结果。
本发明的肿瘤筛查模型构建方法还可以包括在训练的过程中对所述分类指标使用降维算法进行降维和特征提取的步骤,以减少数据的维度并且提取出相对重要的特征,定义合理的SVM模型对应参数;还可以包括使用网格搜索的方法选取最优参数组合的步骤;使用验证集或交叉验证对单指标分类模型的性能进行评价的步骤。
进一步地,所述降维算法优选LASSO(least absolute shrinkage and selectionoperator)回归、岭回归(Ridge regression)或弹性网络(Elastic Net)。
本发明中,逻辑回归可针对SVM和/或降维过程后确定的分类指标和基因组区域实施。
本发明所用分类指标可以是测序获得的指标;优选表观遗传学指标、低深度全基因组测序获得的指标或者它们的组合。所述表观遗传学指标可以选自DNA甲基化或羟甲基化;优选羟甲基化富集特征。所述低深度全基因组测序获得的指标选自核小体分布特征、碱基错配分布特征或片段化长度分布特征。在一个具体实施方式中,分类指标选自羟甲基化富集特征、核小体分布特征、碱基错配分布特征和片段化长度分布特征中的一种或几种的组合。
本发明的技术方案可以使用测序获得的数据。所述测序可以是超高深度测序、高深度测序、中等深度测序或低深度测序;优选低深度测序。所述测序深度优选1-5X,更优选2X。
本发明的另一个目的是提供一种癌症筛查、风险预测和/或诊断方法,所述方法包括使用肿瘤筛查模型的步骤,所述肿瘤筛查模型是采用本发明的肿瘤筛查模型构建方法所构建的肿瘤筛查模型。将受试者的分类指标测定数据输入本发明构建的已训练的肿瘤筛查模型,可以得到改善的预测结果。
本发明的各项方法还可以包含测序的步骤,测定样本的核苷酸序列。
本发明的技术方案可以在癌症的各种诊断和非诊断的应用场景中使用。本发明的技术方案可适用于任何分期的肿瘤,例如极早期肿瘤、早期肿瘤、中期肿瘤、晚期肿瘤;优选用于早期肿瘤或极早期肿瘤。
本发明还提供用于检测分类指标的试剂在制备癌症筛查试剂盒、风险预测试剂盒和/或诊断试剂盒中的用途,所述分类指标是采用本发明的肿瘤筛查模型构建方法所构建的肿瘤筛查模型中的分类指标。
本发明还提供一种癌症筛查、风险预测和/或诊断试剂盒,所述试剂盒包含用于检测采用本发明的肿瘤筛查模型构建方法所构建的肿瘤筛查模型中的分类指标的试剂。
本发明的另一个目的是提供一种用于癌症筛查、风险预测和/或诊断的系统或装置,所述系统或装置包括:获取模块,用于获取受试者的分类指标的测定数据,所述分类指标是采用本发明的肿瘤筛查模型构建方法所构建的肿瘤筛查模型中的分类指标;数据分析模块,用于将所述分类指标的测定数据输入采用本发明的肿瘤筛查模型构建方法所构建的肿瘤筛查模型中,以得出预测结果。
进一步地,所述系统或装置还可以包括:测序模块,用于对受试者进行测序分析。
进一步地,所述系统或装置还可以包括:诊断模块,用于生成疾病风险建议或诊断结果。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,所述计算机程序包括:
i)用于执行本发明的肿瘤筛查模型的构建方法的程序;和/或
ii)用于执行本发明的癌症筛查、风险预测和/或诊断方法的程序。
本发明还提供一种设备,包括处理器、存储器以及存储在所述存储器中的计算机程序,所述计算机程序包括:
i)用于执行本发明的肿瘤筛查模型的构建方法的程序;和/或
ii)用于执行本发明的癌症筛查、风险预测和/或诊断方法的程序。
本发明的有益效果至少包括以下方面:
(1)采用本发明的肿瘤筛查模型构建方法,能够显著提高肿瘤筛查模型的准确性,所得到的筛查模型的预测效果超过现有技术文献报道的模型预测效果,并且远超甲胎蛋白(AFP)的预测效果。
(2)本发明不仅提供了能够获得更准确预测结果的肿瘤筛查模型构建方法,还提供了新的肿瘤预测指标组合,实现了优于现有技术的预测效果。
(3)本发明的方法不依赖于肿瘤的进展程度,在不同分期的肿瘤患者中的预测效果没有明显差异,可适用于肿瘤的各个时期,能够解决早期和极早期肿瘤难以筛查的难题。
(4)采用低深度测序即可实现肿瘤的早筛早诊,避免了现有肿瘤早筛技术中高深度测序所产生的昂贵的检测成本。
(5)进一步采用LASSO降维算法有效降低了计算量,提高了准确性。
附图说明
图1为本发明多组学肿瘤筛查模型构建方法及其验证试验设计流程图。
图2a、图2b为4种特征在不同组间差异。A:羟甲基化富集特征;B:核小体分布特征;C:碱基错配分布特征;D:片段化长度分布特征。
图3为逻辑回归模型流程图。
图4为HIFI模型与单指标模型效果对比。
图5为HIFI模型与SVM多组学模型效果对比。
图6为HIFI模型与AFP检测效果对比。
图7为HIFI模型与AFP检测针对肿瘤不同分期的效果对比。
图8为肺癌预测效果。
具体实施方式
如无特别指明,本发明所使用术语均具有本领域通常的含义,所使用的试剂均为本领域常规商业化试剂。
本发明中术语“羟甲基化富集特征”是指羟甲基化修饰丰度的量化指标。优选用于量化羟甲基化修饰在启动子到转录起始位置肿瘤患者(或肿瘤组织)与正常人(或正常组织)5hmc含量具有差异的区域的信息,差异区域优选转录起始位点(tss)前不超过5000bp(优选100-4000bp;更优选500-2000bp;更优选1000-1500bp)的位置至tss 后10-500bp(优选100bp)的位置所覆盖的区域(命名为pro-tss区域)中羟甲基化修饰的量化值。所述pro-tss区域最优选tss前1000bp到tss后100bp总共1100bp区域。所述羟甲基化修饰。所述量化值可以选自FPKM、RPKM或TPM;优选FPKM值;可以统计所述区域中的读段(reads)数目,然后计算出FPKM、RPKM或TPM。
本发明中术语“核小体分布特征”是指核小体分布差异的量化指标。优选用核小体分布差异分值表示,所述核小体分布差异分值=(边缘区域测序深度/背景区域测序深度)-(中心区域测序深度/背景区域测序深度)。其中,中心区域为最接近于基因转录起始位点的前后500bp、250bp或100bp;边缘区域为中心区域两侧边缘各扩展 500bp、250bp或100bp;背景区域为边缘区域两侧各扩展至5000bp、2500bp或1000bp。可以将中心区域、边缘区域和背景区域构成的总区域等分为100、200、300、400、500、 600、700、800、900或1000个窗口来统计测序深度的信息,以每个窗口所包含的位点 (每个碱基)的测序深度的平均值代表每个窗口的测序深度,以每个区域所包含的窗口的测序深度均值代表每个区域的测序深度;每个位点的测序深度可以是覆盖该位点的读段(read)的数量。区域内的测序深度可用来代表该区域内核小体的分布情况。
本发明中术语“碱基错配分布特征”是指肿瘤相关碱基替换丰度的量化指标。在肿瘤人群与健康人群中所占比例存在显著差异的碱基替换类型所占的比例。具体地,全基因组测序数据中存在单碱基替换的位点,该位点受其左右碱基影响得到96种不同的碱基替换类型,计算不同碱基替换类型所占比例,筛选出在肿瘤人群与健康人群中这一比例存在显著差异的类型,使用这些差异的类型的碱基替换所占的比例作为模型构建的输入特征。
本发明中术语“片段化长度分布特征”是指肿瘤相关片段长度差异的量化指标。在肿瘤人群与健康人群中短片段与长片段的比例存在显著差异的区域中短片段与长片段的比例。具体地,可以将基因组以一定长度(优选1M、2M、5M或10M)划分成多个区域,计算每个区域的短片段(150bp以下,优选90到150bp)与长片段(151bp以上,优选151到220bp)的比例,筛选出在肿瘤人群与健康人群中这一比例存在显著差异的区域。使用这些区域短片段与长片段的比例作为模型构建的输入。
本发明中术语“灵敏度”(sensitivity)可以指真阳性的数量除以真阳性与假阴性数量的总和,可以用来表征正确鉴别真正患有癌症的群体的能力。
本发明中术语“特异性”(specificity)可以指真阴性的数量除以真阴性与假阳性数量的总和,可以用来表征正确鉴别真正未患癌症的群体的能力。
本发明中术语“ROC”或“ROC曲线”可以指受试者工作特征曲线(receiveroperating characteristic curve),可以用来表征分类器的表现。可以通过在各个阈值设置下用灵敏度对特异性作图来生成ROC曲线。
本发明中术语“AUC”可以指ROC曲线下的面积,可以用来表征癌症筛查/预测的表现。AUC的范围为0.5-1.0,数值越接近1.0表明该方法的筛查/预测表现越好。
下面将结合附图和具体实施例对本发明的技术内容作详细说明。本领域技术人员将会理解,以下实施例仅用于说明本发明,而不应视为限制本发明的范围。
实施例1
招募了3234名参与者,其中包括来自两个中心的508例肝癌(HCC)患者,13个中心的2250例肝硬化(LC)患者,476例健康对照(NC)。根据病理诊断,排除27个肝癌样本,根据MRI和增强CT排除3例肝硬化患者。最终确定的参与者的数目为3204例(图1)。
每名参与者取3ml外周血,收集保存于Streck cell-free DNA采血管,用Eppendorf 离心机(5810R和5427R,German),在4℃低温条件下,先1600g低速离心10min,仅取上清液;再16000g高速离心10min,取上清液,得到血浆样本。再用试剂盒MagMAX Cell-Free DNA Isolation Kit(Thermo)和核酸提取仪(Thermo Kingfisher FLEX, USA)提取血浆中的cfDNA。用Qubit 3核酸/蛋白质定量荧光计(Thermo,USA)检测提取的cfDNA浓度,用Fragment Analyzer(Agilent,USA)检测cfDNA的片段分布。
实施例2
对实施例1中制取的所有参与者的cfDNA样品进行5-羟甲基胞嘧啶测序 (5hmc-seq)。测序过程如下:
(1)HomeSeq文库构建和上机测序:取5ng cfDNA,掺入4pg内参DNA混合液(130bp)后使用Enzymatics公司(USA)的末端修复加A尾试剂盒(5X ER/A-Tailing Enzyme Mix),以及测序接头连接试剂盒(WGS Ligase)构建预文库,使文库具有可在Illumina NovaSeq6000测序仪上测序的结构。连接后使用AMPure XP beads(Beckman)进行纯化,使用EB 缓冲液(Qiagen)洗脱收集文库。预文库DNA在T4噬菌体β-糖基转移酶(T4 Phageβ -glucosyltransferase,NEB)的作用下与双磷酸尿苷-6-叠氮-葡糖酯 (UDP-6-azide-glucose,Jena Bioscience)发生反应,将UDP-6-N3-Glc的叠氮基团转移至5hmC形成5gmC-N3(即被转移上了糖基的5hmC)。用二苯基环辛炔-四聚乙二醇生物素(DBCO-PEG4-Biotin,Jena Bioscience)为5gmC-N3添加生物素标记。接着,用链酶亲和素磁珠M270(DynabeadsTMM-270Streptavidin,Thermo)捕获生物素标记的5hmC 片段,对捕获后的片段进行扩增,即获得通过化学标记法特异富集5hmC DNA片段的终文库,命名为HomeSeq。5hmC文库使用qPCR(KAPA Library Quant Kit,Roche)确定浓度值,使用Fragment Analyzer(Agilent,USA)确定文库大小。之后在Illumina NovaSeq 6000测序平台进行双端150bp的测序,上机数据量9G。
(2)数据处理:对测序下机数据进行去接头处理,使用BWA将过滤后的数据与Hg19参考基因组进行比对,得到每个DNA片段在基因组上对应的具体位置信息。
实施例3
对实施例1中制取的所有参与者的cfDNA样品进行低深度全基因组测序。测序过程如下:
(1)WGS文库构建和上机测序:取5ng cfDNA用Enzymatics公司(USA)相关试剂盒构建预文库,其中末端修复使用Enzymatics公司(USA)的末端修复加A尾试剂盒 (5X ER/A-Tailing Enzyme Mix),加接头步骤使用测序接头连接试剂盒(WGS Ligase),接头序列适用于Illumina NovaSeq 6000测序平台。接头连接后使用XP磁珠(Agencourt AMPure XPbeads,Beckman Coulter)进行纯化。WGS文库使用qPCR(KAPA Library Quant Kit,Roche)确定浓度值,使用Fragment Analyzer(Agilent,USA)确定文库大小。之后在IlluminaNovaSeq 6000测序平台进行双端150bp的测序,单样本数据量平均为全基因组2X。
(2)数据处理:使用Fastp软件对测序下机数据进行数据过滤,包括减去测序接头序列,去除测序读长小于50bp的DNA片段,去除测序质量较低的DNA片段。使用BWA 将过滤后的数据与Hg19参考基因组进行比对,得到每个DNA片段基因组上对应的具体位置信息。
实施例4
为了证明发明人的发现(即采用支持向量机分类算法,对多个单个指标进行分类模型构建,然后使用逻辑回归模型对单个指标分类模型的预测得分进行整合,能够显著提高指标的预测能力,提高癌症早筛效果),从发明人的前期工作中选择了数个对癌症早筛具有潜力的特征用以验证该发现,包括:
羟甲基化富集特征:为量化羟甲基化修饰在启动子到转录起始位置差异区域的信息,我们定义tss前1000bp与tss后100bp为基因的pro-tss区域。使用featureCounts 软件统计pro-tss区域的读段(reads)的数目,计算该区域的FPKM值用于分类筛查模型构建的指标。
核小体分布特征(NF):根据转录起始位点的区域,定义转录起始位点中心区域(即最接近于基因转录起始位点的前后250bp)、边缘区域(即中心区域两侧边缘各扩展250bp)、背景区域(即边缘区域两侧各扩展至2500bp)。将中心区域、边缘区域和背景区域构成的总区域等分为500个窗口来统计测序深度的信息,以每个窗口所包含的位点的测序深度的平均值代表每个窗口的测序深度,以每个区域所包含的窗口的测序深度均值代表每个区域的测序深度。核小体分布差异分值=(边缘区域测序深度/背景区域测序深度)-(中心区域测序深度/背景区域测序深度),以此分值代表核小体的分布及基因的转录活跃程度,且用于模型构建的输入特征。
碱基错配分布特征(Base mismatch):全基因组测序数据中存在单碱基替换的位点,该位点受其左右碱基影响得到96种不同的碱基替换类型,计算不同碱基替换类型所占比例,筛选出在肿瘤人群与健康人群中这一比例存在显著差异的类型。使用这些差异的类型的碱基替换所占的比例作为模型构建的输入特征。
片段化长度分布特征(Fragmentation):将基因组以5M的长度划分成多个区域,计算每个区域的短片段(90到150bp为短片段)与长片段(151到220bp为长片段) 的比例,筛选出在肿瘤人群与健康人群这一比例存在显著差异的区域。使用这些区域短片段与长片段的比例作为模型构建的输入。
如图2a和b所示,核小体的分布在不同组存在差异(图2a中A);羟甲基化的富集情况在不同组样本间也会有明显区别(图2a中B);对于不同疾病类型的患者血浆低深度WGS分析发现,cfDNA存在不同单碱基替换特征(图2b中C);血浆中ctDNA的片段长度比正常的cfDNA片段长度短,定义出肿瘤特征性片段分布区域(图2b中D)。
把招募到的样本随机分成训练集(862例)、验证集(295例)、测试集(2047例)。在使用训练集构建模型的过程中对上述提到的每个基因组特征指标(羟甲基化富集特征、核小体分布特征、碱基错配分布特征、片段化长度分布特征)使用LASSO回归算法,减少数据的维度并且提取出分类贡献度大的相对重要的特征。对于提取以后的特征,使用SVM通过交叉验证的方法来构建分类模型,得到4个分类模型。
把各个分类模型对样本的预测得分(单指标SVM模型输出的样本患有肿瘤的概率)作为输入特征,使用逻辑回归模型对各个指标的结果进行整合,得到最终的预测模型,命名为HIFI(5(H)mc+base m(I)smatch+(F)ragment size+nucleosome footpr(I)nt) 模型,使用验证集和测试集的数据对HIFI模型进行性能评估。如图3所示,单指标的预测模型的预测值对应图中的X列,X列的1对应的是截距项。对应的W项就是各个输入特征对应的权重,∑项就是特征项乘以权重的加和,训练时根据误差的大小来进一步调整权重W的值,直到迭代次数到达指定次数或者误差小于一定的阈值就会停止迭代,最终把∑的结果使用sigmoid函数映射到[0,1],最终根据映射的预测值进行量化,得到对应的类别信息Y。
对整合后的筛查模型(HIFI)的结果与4个单独指标构建的模型的结果分别绘制ROC曲线,对两种类型的结果进行比较。其中,把羟甲基化富集特征、核小体分布特征、碱基错配分布特征、片段化长度分布特征分别构建的单指标的HCC vs non-HCC(肝细胞癌VS非肝细胞癌)的分类模型和HIFI模型的ROC曲线绘制到同一坐标中(图4),以直观地鉴别优劣,靠近左上角的ROC曲线所代表的模型的预测最准确。使用AUC对模型的性能进行量化,通过直接比较AUC的大小对模型性能进行比较。结果显示,无论是验证集还是测试集,HIFI模型的AUC明显大于各个单指标模型的AUC,整合后的模型的灵敏度和特异性也都优于单个指标构建的模型的性能,大大提高了检测的准确性。上述结果证明,采用本发明的模型构建方法,能够显著提高指标的预测能力,提高癌症早筛效果。
此外,DNA甲基化检测是当前肿瘤早筛的最重要手段,发明人对发表于Nature等国际著名杂志的文献进行了梳理,发现目前最优的利用甲基化区分肿瘤患者和正常人的模型其敏感性为83.3%,特异性为90.5%,对于早期和极早期肿瘤患者人群其准确性会进一步下降,其敏感性仅为20%~40%(Xu R H,Wei W,Krawczyk M,et al.Circulating tumourDNA methylation markers for diagnosis and prognosis of hepatocellularcarcinoma[J].NATURE MATERIALS,2017.)。通过本发明方法所构建的筛查模型,其灵敏度和特异性均超过现有文献报道。
实施例5
本发明先采用SVM算法对单个指标进行分类模型构建并得到每个指标的预测得分,然后使用逻辑回归模型对预测得分进行整合,能够有效提高多组学筛查模型的预测效果。为了验证这一发现,针对上述4个分类指标,即羟甲基化富集特征、核小体分布特征、碱基错配分布特征、片段化长度分布特征,使用SVM算法直接构建了多组学肿瘤筛查模型,命名为SVM模型。
使用SVM模型对测试集样本进行预测,将预测结果与HIFI模型进行比较,结果如图5所示,HIFI模型(灵敏度95.42%,特异性97.76%)的预测效果远远优于SVM模型 (灵敏度84.1%,特异性85.8%)。从上述结果可以看出,整合后的模型整体效果明显优于直接使用四个指标组合然后使用SVM进行模型构建的结果,进一步突出本发明的方法对筛查结果明显的提升作用。
实施例6
为了比较本发明方法对肝癌预测效果的改进,与采用临床指标进行预测的方法进行对比,具体选择现有技术中肝癌诊断的金标准甲胎蛋白(AFP)作为对照指标,AFP 经常用于肝癌的诊断和早筛。
对整合后的筛查模型(HIFI)的结果与肝癌相关的临床指标(AFP)的结果在同一坐标中分别绘制ROC曲线(图6)。针对测试集,传统的AFP检测灵敏度和特异性为53.77%和90.81%,AUC低于0.85,而本发明HIFI模型在验证集中灵敏度和特异性为94.74%和98.50%,AUC为0.994,在测试集中灵敏度和特异性为95.42%和97.76%,AUC为0.997。可见,通过本发明的模型构建方法得到的预测模型,与传统的AFP检测相比,大大提升了检测准确性。
为了测试本发明方法对不同分期肿瘤病人的预测效果,对BCLC分期为0(最早期)、A(早期)、B(中期)、C(晚期)的患者分别进行了预测。结果显示(图7),对于处在不同BCLC分期的肿瘤病人,HIFI的预测分值基本没有差距,说明本发明的方法可适用于肿瘤的各个时期。尤其是对于分期为0和A的早期患者,本发明方法的预测能力远超 AFP检测。
综合以上结果可知,本发明的多组学肿瘤筛查模型构建方法所得到的预测模型,明显优于目前的临床指标。
实施例7
本发明的方法能够适用于不同的癌症。发明人招募了190例健康对照、22例结节患者、121例肺癌患者。参照实施例1-4的方法,对招募到的样本进行羟甲基化测序和低深度全基因组测序,随机把样本分成训练集、测试集,选择羟甲基化富集特征、核小体分布特征、片段化长度分布特征三项指标构建单个指标分类模型(碱基错配分布特征对肺癌预测的效果不显著,因而未选择),后续使用逻辑回归对模型进行整合。绘制ROC 曲线,以验证本发明方法对肺癌的筛查效果,结果如图8所示。结果显示,本发明方法 (图8中Comb)能够显著提高肺癌早筛的灵敏度,达到了100%,虽然特异性有些许降低,但筛查效果整体上有明显改善,AUC提高明显。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种肿瘤筛查模型的构建方法,其特征在于,所述方法包括采用支持向量机对单个分类指标进行分类模型构建,得到每个指标对样本的预测得分,然后使用逻辑回归模型对所述得分进行整合,进而得到所述肿瘤筛查模型。
2.根据权利要求1所述的构建方法,其特征在于,所述分类指标的数量为2个以上;优选所述肿瘤筛查模型为多组学模型。
3.根据权利要求1或2所述的构建方法,其特征在于,所述预测得分选自单指标SVM模型输出的样本患有肿瘤的概率或分类结果。
4.根据权利要求1-3任一项所述的构建方法,其特征在于,所述构建方法还包括对训练集数据中所述分类指标使用降维算法进行降维和特征提取的步骤;所述降维算法优选LASSO回归、岭回归(Ridge regression)或弹性网络(Elastic Net)。
5.一种癌症筛查、风险预测和/或诊断方法,其特征在于,所述方法包括使用肿瘤筛查模型的步骤,所述肿瘤筛查模型是根据权利要求1-4任一项所述的构建方法构建的肿瘤筛查模型。
6.用于检测分类指标的试剂在制备癌症筛查试剂盒、风险预测试剂盒和/或诊断试剂盒中的用途,其特征在于,所述分类指标是根据权利要求1-4任一项所述的构建方法构建的肿瘤筛查模型中的分类指标。
7.一种癌症筛查、风险预测和/或诊断试剂盒,其特征在于,所述试剂盒包含用于检测根据权利要求1-4任一项所述的构建方法构建的肿瘤筛查模型中的分类指标的试剂。
8.一种用于癌症筛查、风险预测和/或诊断的系统或装置,其特征在于,所述系统或装置包括:获取模块,用于获取受试者的分类指标的测定数据,所述分类指标是根据权利要求1-4任一项所述的构建方法构建的肿瘤筛查模型中的分类指标;数据分析模块,用于将所述分类指标的测定数据输入根据权利要求1-4任一项所述的构建方法构建的肿瘤筛查模型中,以得出预测结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,所述计算机程序包括:
i)用于执行根据权利要求1-4任一项所述的肿瘤筛查模型的构建方法的程序;和/或
ii)用于执行根据权利要求5所述的癌症筛查、风险预测和/或诊断方法的程序。
10.一种设备,包括处理器、存储器以及存储在所述存储器中的计算机程序,所述计算机程序包括:
i)用于执行根据权利要求1-4任一项所述的肿瘤筛查模型的构建方法的程序;和/或
ii)用于执行根据权利要求5所述的癌症筛查、风险预测和/或诊断方法的程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151705.9A CN113362893A (zh) | 2020-03-06 | 2020-03-06 | 肿瘤筛查模型的构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010151705.9A CN113362893A (zh) | 2020-03-06 | 2020-03-06 | 肿瘤筛查模型的构建方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113362893A true CN113362893A (zh) | 2021-09-07 |
Family
ID=77524132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010151705.9A Pending CN113362893A (zh) | 2020-03-06 | 2020-03-06 | 肿瘤筛查模型的构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362893A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998644A (zh) * | 2022-05-10 | 2022-09-02 | 中国医学科学院肿瘤医院 | 肿瘤诊断系统及其构建方法、终端设备及存储介质 |
CN115376616A (zh) * | 2022-10-24 | 2022-11-22 | 臻和(北京)生物科技有限公司 | 一种基于cfDNA多组学的多分类方法及装置 |
CN116580841A (zh) * | 2023-07-12 | 2023-08-11 | 北京大学 | 基于多组学数据的疾病诊断设备、装置及存储介质 |
-
2020
- 2020-03-06 CN CN202010151705.9A patent/CN113362893A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114998644A (zh) * | 2022-05-10 | 2022-09-02 | 中国医学科学院肿瘤医院 | 肿瘤诊断系统及其构建方法、终端设备及存储介质 |
WO2023216462A1 (zh) * | 2022-05-10 | 2023-11-16 | 中国医学科学院肿瘤医院 | 肿瘤诊断系统及其构建方法、终端设备及存储介质 |
CN115376616A (zh) * | 2022-10-24 | 2022-11-22 | 臻和(北京)生物科技有限公司 | 一种基于cfDNA多组学的多分类方法及装置 |
CN116580841A (zh) * | 2023-07-12 | 2023-08-11 | 北京大学 | 基于多组学数据的疾病诊断设备、装置及存储介质 |
CN116580841B (zh) * | 2023-07-12 | 2023-11-10 | 北京大学 | 基于多组学数据的疾病诊断设备、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112805563A (zh) | 用于评估和/或治疗癌症的无细胞dna | |
CN105296590B (zh) | 大肠癌标志物及其应用 | |
CN113362893A (zh) | 肿瘤筛查模型的构建方法及应用 | |
CN105132518B (zh) | 大肠癌标志物及其应用 | |
CN113454219A (zh) | 用于肝癌检测和诊断的甲基化标志物 | |
CN111863250B (zh) | 一种早期乳腺癌的联合诊断模型及系统 | |
CN113096728B (zh) | 一种微小残余病灶的检测方法、装置、存储介质及设备 | |
CN107034301A (zh) | 一种检测肺结节为良性或恶性的试剂盒及其应用 | |
CN113234829B (zh) | 结肠癌预后评估基因集及其构建方法 | |
CN110904213A (zh) | 一种基于肠道菌群的溃疡性结肠炎生物标志物及其应用 | |
CN110838365A (zh) | 肠易激综合症相关菌群标志物及其试剂盒 | |
CN108949979A (zh) | 一种通过血液样本判断肺结节良恶性的方法 | |
CN116064755A (zh) | 一种基于连锁基因突变检测mrd标志物的装置 | |
CN117079723B (zh) | 一种与肌萎缩侧索硬化症相关的生物标志物、诊断模型及其应用 | |
CN111833963A (zh) | 一种cfDNA分类方法、装置和用途 | |
CN112037863B (zh) | 一种早期nsclc预后预测系统 | |
CN113362897A (zh) | 基于核小体分布特征的肿瘤标志物筛选方法及应用 | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
CN110724743A (zh) | 人血液中结直肠癌诊断相关的甲基化生物标记物及其应用 | |
CN114317725B (zh) | 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法 | |
EP4131274A1 (en) | Method for characterization of cancer | |
CN115011695A (zh) | 基于游离环状dna基因的多癌种识别标志物、试剂盒及应用 | |
CN112481380A (zh) | 一种评估晚期膀胱癌抗肿瘤免疫治疗反应性和预后生存的标志物及其应用 | |
CN112725435A (zh) | 慢阻肺急性加重易感基因及其在预测易感慢阻肺急性加重中的应用 | |
CN106755322A (zh) | 一种预测肺癌转移的试剂盒及其使用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |