CN113362897A

CN113362897A - 基于核小体分布特征的肿瘤标志物筛选方法及应用

Info

Publication number: CN113362897A
Application number: CN202010151708.2A
Authority: CN
Inventors: 张清政; 白健; 吴�琳
Original assignee: Fujian Herui Gene Technology Co ltd
Current assignee: Beijing Herui Precision Medical Device Technology Co ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2021-09-07

Abstract

本发明公开了一种肿瘤标志物或肿瘤标志物组合的筛选方法，所述筛选方法：i)包含测定核小体分布情况的步骤；和/或ii)通过包括核小体分布情况在内的一种或多种指标筛选与肿瘤相关的标志物。本发明还提供了基于所述筛选方法的肿瘤筛查模型构建方法和癌症筛查、风险预测和/或诊断方法，以及相关的肿瘤标志物组合、试剂盒、系统、装置、计算机可读存储介质和设备。

Description

基于核小体分布特征的肿瘤标志物筛选方法及应用

技术领域

本发明属于基因检测技术领域，具体涉及一种基于核小体分布特征的肿瘤标志物筛选方法及其相关的肿瘤筛查模型构建方法、癌症筛查、风险预测和/或诊断方法、系统、装置、计算机可读存储介质、设备，以及相关的核小体分布情况量化方法。

背景技术

癌症是世界上严重危害人类健康三大疾病之一，据报道2018年全球有1819万癌症新增病例和960万癌症死亡病例，而我国的癌症患病率处于国际中等偏上水平。WHO认为三分之一的癌症可通过早期发现得到根治。相比于晚期癌症，早期癌症未发生转移，更容易通过手术、放化疗等手段清除，在癌症早期进行治疗干预，有助于增加患者存活机会，减轻痛苦，降低经济负担。目前尚无有效治疗晚期癌症的手段，及早发现及早治疗被认为是处置癌症最有效的手段，因此提升肿瘤检测的灵敏度对于提高癌症患者生存率具有重大意义，这其中早筛早诊将会起到重要作用。对于肿瘤的诊断，目前临床上主要依赖影像学检查和特异性肿瘤标志物的血液检测。但传统的影像学检测及特异性肿瘤标志物检测并没有较高的灵敏度。肿瘤标记物通常缺乏特异性，仅在辅助诊断、预后判断等方面有一定价值。影像学检测主要包括超声检测，计算机断层扫描(CT)检查，磁共振(MRI)等，但这些检测手段除了检测的灵敏度有限之外，对人体器官也有一定的损伤。

目前肿瘤基因组学领域被认为最有希望突破肿瘤灵敏检测的难题。随着液态活检技术的发展，血浆游离DNA在肿瘤临床检测中得到广泛应用。血浆游离DNA(cfDNA)由双链DNA片段组成，在健康人中，血浆cfDNA被认为主要来源于造血系正常细胞的凋亡，而来自其他组织的贡献微乎其微，而在特定的生理条件或疾病过程中，cfDNA的很大一部分可能由不同类型的组织提供，而不是典型的健康状态。近年来，这一事实被用来实现基于cfDNA组成的无创产前诊断。对于肿瘤病人来说，肿瘤与正常组织细胞会不断释放DNA片段进入血液，构成血浆游离DNA，其中肿瘤释放的循环肿瘤DNA(ctDNA)在众多维度上均带有肿瘤组织DNA特征，针对ctDNA的检测可实时反映体细胞基因组状态。目前技术多为检测cfDNA中的一些特定的序列变异特征，应用于中晚期肿瘤诊断，指导对患者的临床治疗。然而对于肿瘤筛查而言，仅用序列变异作为检测指标时，灵敏度以及组织特异性不足，原因主要是受限于肿瘤体细胞变异的随机性，并且ctDNA本身在血液中含量比较低且半衰期较短，大约只有cfDNA的0.1％到1％，如果使用超深度测序，其检测费用也很昂贵，血浆中突变检测所需数据量一般要超过30000X，所以ctDNA突变的检测也遇到了较大的瓶颈。

最近研究表明表观修饰改变通常发生于肿瘤发展早期阶段，可通过游离DNA全基因组测序，提取到更多广泛存在的表观修饰变异特征，以提高诊断的灵敏度和特异性，其中最为常见的为DNA甲基化的检测，根据最近发表于Nature等国际著名杂志的文献报道，可以得知目前最优的利用甲基化进行区分肿瘤患者和正常人的模型其敏感性为83.3％，特异性为90.5％，对于早期和极早期肿瘤患者人群其准确性会进一步下降，其敏感性仅为20％～40％。可以看出基于甲基化的检测也并未达到理想的效果，且甲基化的改变受环境因素影响较大，检测稳定性存在问题，且目前成本也较高。

综合上述情况来看，需要找到新的肿瘤标志物，以用于提升肿瘤筛查的灵敏度与特异性。有报道指出在管家基因(House Keeping)的启动子区域，其染色体结构较为松散，核小体分布较为稀疏，而在沉默基因(Silent)则不存在如此现象，染色体结构较为紧密，核小体分布较为均匀密集，提示可以通过血浆DNA的全基因组测序来推测表达的基因，因为在组织细胞DNA降解进入血液的过程中，未受核小体保护的DNA更易被降解而更不易被检测(Ulz,P.,Thallinger,G.G.,Auer,M.,Graf,R.,Kashofer,K.,Jahn,S.W.,…Speicher,M.R.(2016).Inferring expressed genes by whole-genome sequencing of plasmaDNA.Nature Genetics,48(10),1273–1278.doi:10.1038/ng.3648)。然而该研究仅能反映出核小体保护在推测表达的基因中具有一定潜力，并不能解决肿瘤筛查尤其是早期肿瘤的筛查及其相关生物标志物筛选的问题。

综合现有技术的情况来看，针对肿瘤早筛早诊，仍然需要有效的筛选相关肿瘤标志物的方法。

发明内容

本发明的目的之一是针对现有技术存在的缺陷，提供一种新的肿瘤标志物及其组合的筛选方法。发明人发现，通过对核小体分布情况进行量化，能够成功地将这一指标应用于肿瘤的早期筛查，筛选出对肿瘤早期筛查有效且高准确性的肿瘤标志物及组合。即使在低深度测序的条件下，通过量化某些特定基因转录起始位点区域测序深度差异，使用机器学习方法筛选肿瘤细胞与正常细胞存在差异的基因组合(panel)，仍能构建出具有高灵敏度和特异性的筛查模型，有效提升了对肿瘤的检测的准确性，与现有技术相比，本发明不受肿瘤类型的限制，可应用于不同类型肿瘤的检测，且具有更高的准确性。

为了实现以上目的，本发明提供了一种肿瘤标志物或肿瘤标志物组合的筛选方法，所述筛选方法：

i)包含测定核小体分布情况的步骤；和/或

ii)通过包括核小体分布情况在内的一种或多种指标筛选与肿瘤相关的标志物。

在本发明的具体实施方案中，核小体分布情况可以选自核小体的分布密度、核小体的密集程度或者核小体稀疏程度。

在本发明的具体实施方案中，核小体分布情况可以是核小体在转录起始位点(TSS)区域的分布情况，所述转录起始位点区域是包含转录起始位点及其两侧基因组序列的区域。

进一步地，所述转录起始位点区域为转录起始位点的上游x个碱基位置至转录起始位点的下游y个碱基位置的区域；其中，x为小于等于5000的整数，优选4000、3000、2500、2000、1500或1000；y为小于等于5000的整数，优选4000、3000、2500、2000、1500或1000。

对于转录起始位点区域的大小，可以根据测序情况(实际数据分布)和实际需要调整。由于测序深度、基因组覆盖度的影响，转录起始位点区域过大可能会导致某些区域没有覆盖，过小会导致无法衡量TSS周围核小体分布的变化程度，因此优选1000至5000的某个整数作为适合的长度。

本发明中，转录起始位点区域还可以进一步划分为中心区域和边缘区域。核小体分布情况可以是核小体在所述中心区域和所述边缘区域的分布情况；优选核小体在所述中心区域和所述边缘区域的分布差异。

所述中心区域是转录起始位点区域中覆盖了转录起始位点的区域；所述边缘区域是转录起始位点区域中位于所述中心区域两侧的区域；所述边缘区域与所述中心区域共同构成了转录起始位点区域的全部或一部分。优选地，所述中心区域与所述边缘区域的大小相同。

进一步地，所述中心区域可以是转录起始位点的上游m个碱基位置至转录起始位点的下游n个碱基位置的区域；其中，m为小于等于500的整数，n为小于等于500的整数。m优选250，n优选250。

进一步地，所述边缘区域可以是转录起始位点的上游o个碱基位置至转录起始位点的下游p个碱基位置的区域中去除所述中心区域后的区域，其中，o为小于等于1000的整数，p为小于等于1000的整数。o优选500，p优选500。

本发明中，转录起始位点区域也可以进一步划分为中心区域、边缘区域和背景区域。所述背景区域是指转录起始位点区域中位于所述边缘区域两侧的区域。背景区域可用来对核小体分布情况进行校正，消除各个基因检测到DNA片段总量的影响。因而本发明的筛选方法还可以包含使用核小体在所述背景区域的分布情况对核小体分布情况进行校正的步骤。

进一步地，所述边缘区域可以是转录起始位点的上游x个碱基位置至转录起始位点的下游y个碱基位置的区域中去除所述中心区域和所述边缘区域后的区域，其中，x为小于等于5000的整数，优选4000、3000、2500、2000、1500、1000或500，更优选2500；y为小于等于5000的整数，优选4000、3000、2500、2000、1500、1000或500，更优选2500。

在本发明的具体实施方案中，中心区域、边缘区域和背景区域的大小可以根据转录起始位点区域的大小进行调整。

本发明中，核小体分布情况的优选量化方式是通过测序技术测定，可以使用测序深度对所述核小体分布情况进行量化。

本发明可以使用各类测序技术，例如Sanger测序、二代测序(NGS)或单分子测序，优选二代测序。

进一步地，核小体分布情况可以用核小体分布差异分值来表征。优选地，所述核小体分布差异分值＝边缘区域测序深度–中心区域测序深度。更优选地，所述核小体分布差异分值＝(边缘区域测序深度/背景区域测序深度)–(中心区域测序深度/背景区域测序深度)。

本发明中，对于位点，测序深度可以是覆盖该位点的读段(read)的数量；对于区域，测序深度可以是该区域所有位点(每个碱基)测序深度的均值。

本发明中，为了降低使用低数据量时带来的误差，在计算测序深度时，可以将转录起始位点区域等分为若干个小区域，每个小区域的测序深度为每个小区域所包含的位点的测序深度的平均值。中心区域、边缘区域、背景区域的测序深度为每个区域所包含的小区域的测序深度均值。

进一步地，小区域的数量可以为50-5000；优选100-2000；更优选200-1000；更优选300、400、500、600、700、800或900。

进一步地，还可以将小区域的大小设定为5-50bp；优选6-40bp；更优选7-30bp；更优选8-20bp；更优选9或10bp。

在本发明的具体实施方案中，小区域的数量和小区域的大小可以根据转录起始位点区域、中心区域、边缘区域和/或背景区域的大小进行调整。

本发明的肿瘤标志物或肿瘤标志物组合的筛选方法还可以包含如下步骤：

a)任选地，对核小体分布情况进行数据标准化处理；

b)使用统计学方法筛选核小体分布情况或者经a)中标准化处理后的核小体分布情况在肿瘤患者和健康人群中存在显著差异的基因，筛选获得的基因作为肿瘤标志物；

c)任选地，对b)步骤筛选获得的基因进行降维处理，降维后的基因作为肿瘤标志物；

d)任选地，在受试者的核小体分布情况数据集合中随机选取若干受试者形成子集，重复步骤a)至步骤c)若干次，得到在每次重复中稳定存在显著差异的基因，作为肿瘤标志物；优选重复1次以上；更优选重复1-1000次；更优选重复200次。

进一步地，在步骤a)中，所述数据标准化处理的方法可以选自Z值(Z-score)计算、Min-max标准化或小数定标标准化；优选Z值计算。

进一步地，在步骤b)中，所述统计学方法可以选自秩和检验、T检验、方差齐性检验或卡方检验；优选秩和检验；优选p值小于0.05或0.01为显著性差异基因。

进一步地，在步骤c)中，所述降维处理可以选自LASSO回归算法、岭回归(Ridgeregression)算法或弹性网络(Elastic Net)；优选采用LASSO回归算法，筛选权重得分不为0的基因作为肿瘤标志物。

本发明中，用于测定核小体分布情况的测序可以是全基因组测序，也可以是选择感兴趣的基因、基因组合和/或染色体区域进行测序。

本发明中，核小体分布情况可以是全基因组中所有基因的核小体分布情况，或者是待筛选的候选基因的核小体分布情况，或者是筛选得到的肿瘤标志物或肿瘤标志物组合的核小体分布情况，或者是感兴趣的基因、基因组合和/或染色体区域的核小体分布情况。

本发明中，用于测定核小体分布情况的测序可以是低深度测序；优选测序深度为1-5X的低深度测序；更优选测序深度为2X的低深度测序。

本发明的技术方案可以在癌症的各种诊断和非诊断的应用场景中使用。本发明的技术方案可适用于任何分期的肿瘤，例如极早期肿瘤、早期肿瘤、中期肿瘤、晚期肿瘤；优选用于早期肿瘤或极早期肿瘤。

本发明的另一个目的是提供一种肿瘤筛查模型的构建方法，所述方法使用本发明的筛选方法筛选得到的肿瘤标志物或肿瘤标志物组合构建肿瘤筛查模型。

本发明中，肿瘤筛查模型的构建方法以所述肿瘤标志物或肿瘤标志物组合的核小体分布情况作为输入数据，通过机器学习的方法构建肿瘤筛查模型。

进一步地，机器学习的方法可以选自支持向量机(SVM)、随机森林、规则学习、神经网络和逻辑回归；优选支持向量机。

在本发明的具体实施方案中，所述构建方法还可以包括通过模型迭代训练确定最优参数的步骤。

本发明还提供采用本发明的筛选方法获得的肿瘤标志物组合。

进一步地，肿瘤标志物组合可以包含ROCK1P1、ARHGAP42、TBC1D3、LINC01663、POTEG、SERPINB3、FAH、HOOK2、FBLN2、ANKRD30BL、OVGP1、PRDM6、LINC01596、GGT3P、KIF2C、AQP7P1、SIMC1、LINC01719、HMGA2、NQO1、FAM74A3、NUTM2D、POTEB2、GLB1L、CLEC18B、CCDC66、NOTCH2NL、RASA4CP、LPGAT1、MST1L、CD8B、ANKRD60、VRTN、ETS1、PIK3CA、HHIPL1、ATRIP、ATOH8和SHCBP1。

进一步地，肿瘤标志物组合还可以包含IL2R、LINC0026、RRP1、PNLIPRP、KRT8、PRH、LINC0085、AVL、PG、AGTR、KIF2、LINC0150、MAF、HNRNPA1L、LINC0199、SLC26A、AKAP、NXPE、NXNL、FAM227、CBX、DEFB13、AGFG、SDR16C6、CFAP4、COC、PPP1R12、RAC、EPHX、CD、CASC1、SNX2、DPP、SIRPB、AP、STRB、ZNF64、TMEM151、ZNF42、SNP、MAP7D、TCP1、PKL、MRS2P、CD27、RET、PMCHL、MT1、ERO1、DENND5、DMRTC、PVRIG2、TRHD、REEP、SNC、LA、IPM、RASA4C、CAPN1、RDM、ZAP7、FOXK、RE、ADAM3和HABP。

本发明还提供一种肿瘤筛查、风险预测和/或诊断方法，所述方法包括使用肿瘤筛查模型的步骤，所述肿瘤筛查模型是采用本发明的构建方法所构建的肿瘤筛查模型。

本发明还提供一种肿瘤筛查、风险预测和/或诊断方法，所述方法使用采用本发明的筛选方法得到的肿瘤标志物或肿瘤标志物组合，或者本发明提供的上述肿瘤标志物组合。

本发明还提供用于特异性检测肿瘤标志物或肿瘤标志物组合的试剂在制备肿瘤筛查试剂盒、风险预测试剂盒和/或诊断试剂盒中的用途，所述肿瘤标志物或肿瘤标志物组合是采用本发明的筛选方法得到的肿瘤标志物或肿瘤标志物组合，或者是本发明提供的上述肿瘤标志物组合，或者是采用本发明的构建方法所构建的肿瘤筛查模型中的肿瘤标志物或肿瘤标志物组合。

本发明还提供一种肿瘤筛查、风险预测和/或诊断试剂盒，所述试剂盒包含用于特异性检测肿瘤标志物或肿瘤标志物组合的试剂，所述肿瘤标志物或肿瘤标志物组合是采用本发明的筛选方法得到的肿瘤标志物或肿瘤标志物组合，或者是本发明提供的上述肿瘤标志物组合，或者是采用本发明的构建方法所构建的肿瘤筛查模型中的肿瘤标志物或肿瘤标志物组合。

本发明还提供一种用于癌症筛查、风险预测和/或诊断的系统或装置，所述系统或装置包括：

获取模块，用于获取受试者的肿瘤标志物或肿瘤标志物组合的测定数据，所述肿瘤标志物或肿瘤标志物组合是采用本发明的筛选方法得到的肿瘤标志物或肿瘤标志物组合，或者是本发明提供的上述肿瘤标志物组合，或者是采用本发明的构建方法所构建的肿瘤筛查模型中的肿瘤标志物或肿瘤标志物组合，所述测定数据是核小体分布情况；

数据分析模块，用于将所述肿瘤标志物或肿瘤标志物组合的测定数据输入采用本发明的构建方法所构建的肿瘤筛查模型中，以得出筛查结果。

本发明的系统或装置还可以包括：测序模块，用于对受试者进行测序。

本发明的系统或装置还可以包括：诊断模块，用于生成疾病风险建议或诊断结果。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，所述计算机程序包含：

i)用于执行本发明的肿瘤标志物或肿瘤标志物组合的筛选方法的程序；和/或

ii)用于执行本发明的肿瘤筛查模型的构建方法的程序；和/或

iii)用于执行本发明的癌症筛查、风险预测和/或诊断方法的程序。

本发明还提供一种设备，包括处理器、存储器以及存储在所述存储器中的计算机程序，所述计算机程序包括：

ii)用于执行本发明的肿瘤筛查模型的构建方法的程序；和/或

本发明还提供一种核小体分布情况量化方法，所述方法使用测序深度对所述核小体分布情况进行量化。

在本发明的具体实施方案中，所述核小体分布情况用核小体分布差异分值表征。优选地，所述核小体分布差异分值＝边缘区域测序深度–中心区域测序深度。另外优选地，所述核小体分布差异分值＝(边缘区域测序深度/背景区域测序深度)–(中心区域测序深度/背景区域测序深度)。

在本发明的具体实施方案中，计算测序深度时，可以将转录起始位点区域等分为若干个小区域，以每个小区域的平均测序深度代表该小区域的测序深度。

本发明的各项方法还可以包含测序的步骤，测定样本的核苷酸序列。

本发明的有益效果至少包括以下方面：

(1)采用本发明的肿瘤标志物筛选方法，能够得到性能优异的基因组合(panel)，其构建的肿瘤筛查模型的准确性大为提高，远超甲胎蛋白(AFP)、靶向突变检测、甲基化检测、拷贝数变异检测和突变联合蛋白检测的预测效果。并且本发明方法获得的肿瘤标志物与常见的基于二代测序的标志物相比，其获取更方便，准确性也更高，所需数据量更少，采用低深度测序即可实现肿瘤的早筛早诊，避免了现有肿瘤早筛技术中高深度测序所产生的昂贵的检测成本。

(2)本发明不仅提供了能够获得更准确筛查结果的肿瘤标志物筛选方法，还提供了新的肿瘤标志物组合，实现了优于现有技术的筛查效果。

(3)本发明所涉及的方法原理不受肿瘤类型的限制，可应用于不同类型肿瘤的检测，因而潜在应用更为广泛。

(4)不同分期的肿瘤，其核小体分布差异分值基本没有差异，因此本发明的方法可以适用于肿瘤的各个时期，能够解决早期和极早期肿瘤难以筛查的难题。

(5)与临床影像学检测手段相比更安全无创不受检测人体质的影响：本发明仅需采集少量血液即可完成，而影像学检查受到某些脏器的生理活动的影响以及某些特殊体质病人无法进行检测，且某些放射性物质会对身体有一定的损伤。

(6)进一步采用LASSO降维算法有效降低了计算量，提高了准确性。

附图说明

图1为本发明实施例中的肿瘤标志物筛选方法及其评价试验设计流程图。

图2为采用本发明的筛选方法构建肿瘤筛查模型与AFP检测效果对比。

图3为肿瘤不同分期的核小体分布差异。

图4为肺癌检测效果。

具体实施方式

如无特别指明，本发明所使用术语均具有本领域通常的含义，所使用的试剂均为本领域常规商业化试剂。

本发明中术语“核小体分布特征”是指用来表征核小体分布情况的量化指标。

本发明中术语“转录起始位点区域”是指包含转录起始位点及其两侧基因组序列的区域。优选转录起始位点的上游x个碱基位置至转录起始位点的下游y个碱基位置的区域；其中，x为小于等于5000的整数，优选4000、3000、2500、2000、1500或1000；y为小于等于5000的整数，优选4000、3000、2500、2000、1500或1000。

本发明中术语“中心区域”是指转录起始位点区域中覆盖了转录起始位点的区域。优选转录起始位点的上游m个碱基位置至转录起始位点的下游n个碱基位置的区域；其中，m为小于等于500的整数，n为小于等于500的整数。m优选250，n优选250。

本发明中术语“边缘区域”是指转录起始位点区域中位于所述中心区域两侧的区域。优选转录起始位点的上游o个碱基位置至转录起始位点的下游p个碱基位置的区域中去除所述中心区域后的区域，其中，o为小于等于1000的整数，p为小于等于1000的整数。o优选500，p优选500。

本发明中术语“背景区域”是指转录起始位点区域中位于所述边缘区域两侧的区域。优选转录起始位点的上游x个碱基位置至转录起始位点的下游y个碱基位置的区域中去除所述中心区域和所述边缘区域后的区域，其中，x为小于等于5000的整数，优选4000、3000、2500、2000、1500、1000或500，更优选2500；y为小于等于5000的整数，优选4000、3000、2500、2000、1500、1000或500，更优选2500。

本发明中术语“小区域”是指为了降低使用低数据量时带来的误差，在计算测序深度时将转录起始位点区域进行等分得到的若干个小区域。

本发明中术语“灵敏度”(sensitivity)可以指真阳性的数量除以真阳性与假阴性数量的总和，可以用来表征正确鉴别真正患有癌症的群体的能力。

本发明中术语“特异性”(specificity)可以指真阴性的数量除以真阴性与假阳性数量的总和，可以用来表征正确鉴别真正未患癌症的群体的能力。

本发明中术语“ROC”或“ROC曲线”可以指受试者工作特征曲线(receiveroperating characteristic curve)，可以用来表征分类器的表现。可以通过在各个阈值设置下用灵敏度对特异性作图来生成ROC曲线。

本发明中术语“AUC”可以指ROC曲线下的面积，可以用来表征癌症筛查/预测的表现。AUC的范围为0.5-1.0，数值越接近1.0表明该方法的筛查/预测表现越好。

下面将结合附图和具体实施例对本发明的技术内容作详细说明。本领域技术人员将会理解，以下实施例仅用于说明本发明，而不应视为限制本发明的范围。

实施例1

确定入组的肿瘤患者和健康人群。招募了来自两个中心的508例肝癌(HCC)患者和476例健康人对照(NC)，共984名受试者。根据病理诊断，排除27个肝癌样本，最终确定受试者957例(图1)。

对肿瘤患者及健康人群的血浆游离DNA(cfDNA)进行提取。每名参与者取3ml外周血(收集保存于Streck cell-free DNA采血管)，用Eppendorf离心机(5810R和5427R，German)，在4℃低温条件下，先1600g低速离心10min，仅取上清液；再16000g高速离心10min，取上清液，得到血浆样本。再用试剂盒MagMAX Cell-Free DNA Isolation Kit(Thermo)和核酸提取仪(Thermo Kingfisher FLEX，USA)提取血浆中的游离DNA。用Qubit 3核酸/蛋白质定量荧光计(Thermo,USA)检测提取的cfDNA浓度，用Fragment Analyzer(Agilent,USA)检测cfDNA的片段分布。

实施例2

对实施例1中制取的所有参与者的cfDNA样品进行低深度全基因组测序。测序过程如下：

(1)WGS文库构建和上机测序：取5ng cfDNA用Enzymatics公司(USA)试剂盒构建预文库，主要包含末端修复(5X ER/A-Tailing Enzyme Mix)和加接头(WGS Ligase)两个步骤，接头序列适用于Illumina NovaSeq 6000测序平台。接头连接后使用XP磁珠(AgencourtAMPure XP beads，Beckman Coulter)进行纯化。WGS文库使用qPCR(KAPA Library QuantKit，Roche)确定浓度值，使用Fragment Analyzer(Agilent,USA)确定文库大小。之后在Illumina NovaSeq 6000测序平台进行双端150bp的测序，单样本数据量平均为全基因组2X。

(2)数据质控：使用Fastp软件对测序下机数据进行数据过滤，包括减去测序接头序列，去除测序读长小于50bp的DNA片段，去除平均测序质量较低的DNA片段。使用BWA将过滤后的数据与Hg19参考基因组进行比对，得到每个DNA片段基因组上对应的具体位置信息。使用sambamba软件去除PCR引入的数据冗余，使用samtools去除比对质量较低、未比对上、双端读长(reads)未能完美配对的DNA片段。将过滤过后的DNA片段按比对位置进行排序，便于后续分析处理。

实施例3

对实施例2中获得的测序数据进行全基因组基因的转录起始位点区域核小体分布差异量化，具体步骤如下：

(1)全基因组基因转录起始位点区域获取：使用USCS数据库中发布的参考基因的主要转录本的转录起始位点，前后各扩展2500bp作为基因的转录起始位点区域。

(2)转录起始位点区域测序深度获取：将转录起始位点区域等分为500个小区域，以每个小区域的平均测序深度代表该小区域的测序深度，从而消除了测序深度不足导致某些位点未有DNA片段覆盖的影响。

(3)转录起始位点中心区域，边缘区域及背景区域划定：转录起始位点中心区域为最接近于基因转录起始位点的前后250bp，边缘区域为转录起始位点中心区域两侧边缘各扩展250bp，背景区域为边缘区域两侧各扩展至2500bp。这样划分的原因是若基因转录活跃，则越靠近转录起始位点核小体分布越稀松，因此中心区域的测序深度应比边缘区域更低，而背景区域的作用是为了消除各个基因检测到DNA片段总量的影响。

(4)量化每个基因核小体分布的差异：核小体分布差异分值＝(边缘区域测序深度/背景区域测序深度)–(中心区域测序深度/背景区域测序深度)，以此分值代表核小体的分布及基因的转录活跃程度。

实施例4

将肿瘤患者和健康人群的测序数据分成独立的训练集(510例)、验证集(98例)及测试集(349例)。训练集作用为特征基因筛选，验证集作用为模型最优阈值确定，测试集用于模型性能评估。

在训练集中按基因进行数据标准化处理，具体做法为，计算每个基因核小体分布差异分值在训练集所有样本中的均值及标准差，根据Z值计算公式进行数据标准化处理，并记录得到的每个基因的均值及标准差，应用于验证集及测试集的数据标准化处理。标准化后的核小体分布差异分值＝(核小体分布差异分值–核小体分布差异分值的均值)/核小体分布差异分值的标准差。

然后进行传统统计学方法筛选，对各个基因的标准化后的核小体分布差异分值，使用秩和检验在训练集中筛选存在显著差异的基因，P值小于0.05为差异显著。使用机器学习方法LASSO(least absolute shrinkage and selection operator)回归算法对前述过程得到的存在显著差异的基因进行降维处理，筛选权重得分不为0的基因作为模型构建的基因组合。经随机选取训练集样本，重复以上步骤200次，得到稳定的51个基因(如表1所示)。

表1差异基因筛选结果

ROCK1P1	ARHGAP42	TBC1D3	STRADB
				LINC01663	POTEG	SERPINB3	LINC01582
FAH	HOOK2	FBLN2	LINC01925
				ANKRD30BL	OVGP1	PRDM6	SGSM2
LINC01596	GGT3P	KIF2C	BCL2L11
				AQP7P1	SIMC1	LINC01719	NUDT4
HMGA2	NQO1	FAM74A3	ZNF16
				NUTM2D	POTEB2	GLB1L	MMAB
CLEC18B	CCDC66	NOTCH2NL	CDH15
				RASA4CP	LPGAT1	MST1L	TNR
CD8B	ANKRD60	VRTN	HERC2P10
				ETS1	PIK3CA	HHIPL1	ZNF132
ATRIP	ATOH8	SHCBP1

提取各个样本测序数据中表1所示51个基因的核小体分布差异分值作为输入数据，构建肿瘤筛查模型。具体使用支持向量机(SVM)进行模型构建及迭代训练，训练集样本通过交叉验证的方法，尝试不同参数组合，通过迭代训练，确定并记录模型性能达到最优的参数，在验证集样本找到灵敏度和特异性为最优的阈值。使用确定好的模型的最优参数和最优阈值在独立的测试集中进行验证，绘制ROC曲线，计算AUC值，最终测试集的表现即代表模型的整体性能。

实施例5

为了测试本发明的肿瘤标志物的性能，对实施例4中构建的肿瘤筛查模型的预测效果进行验证，并与其他肿瘤标志物进行对比。

首先选择现有技术中肝癌诊断的金标准甲胎蛋白(AFP)作为对照指标，AFP经常用于肝癌的诊断和早筛。在测试集中，将实施例4中构建的筛查模型的预测结果与使用AFP作为指标的预测结果在同一坐标中分别绘制ROC曲线(图2)。如图2所示，传统的AFP检测灵敏度和特异性为51.44％和88.65％，AUC为0.764，而本发明的灵敏度和特异性为95.19％和97.87％，AUC为0.994，这大大提升了检测准确性。由此可见，按照本发明的方法筛选基因panel，所得到的肿瘤标志物与临床传统标志物相比有着更为优异的灵敏度和准确性。

除了作为金标准的临床标志物外，还与其他常用的基于二代测序的标志物进行了对比，具体包括靶向突变检测、甲基化检测、拷贝数变异检测和突变联合蛋白检测(SNV/INDEL和甲胎蛋白)，这些检测需要较为复杂的文库构建过程，需经各种技术手段处理，所需数据量也大。结果如表2所示，采用本发明的方法，仅仅使用2X的测序深度，就能获得AUC高达0.994的表现；而采用其他肿瘤标志物所需的测序深度至少为20X以上，多者高达20000X以上，并且即使采用超高深度测序也未能达到本发明方法的表现。

表2本发明方法与其他肿瘤标志物的测序深度和准确性对比

检测类型	所需数据量	准确性(AUC)
			靶向突变检测	>20000X	0.87
甲基化检测	30X-2000X	0.88
			拷贝数变异检测	20-50X	0.81
突变+蛋白检测	10000X	0.93
			本发明	2X	0.99

由此可见，采用本发明方法得到的肿瘤标志物与基于二代测序的其他肿瘤标志物相比获取更方便，准确性更高，文库构建过程相对简单，所需数据量更少。

实施例6

为了测试按照本发明的方法筛选得到的基因panel对不同分期肿瘤病人的预测效果，对BCLC分期为0+A(最早期+早期)、B(中期)、C(晚期)的患者分别进行了预测。结果如图3所示，对于处在不同的BCLC分期的肿瘤病人，核小体分布差异的分值基本没有差距，因此本发明的方法可以适用于肿瘤的各个时期。

实施例7

本发明方法能够适用于不同类型的肿瘤检测，具体地，可以使用不同类型肿瘤的患者和健康人的测序数据，通过本发明的核小体分布差异量化分析，筛选适用于不同癌种的差异基因，形成针对该癌症的基因panel，从而实现对不同癌种的检测。

本实施例中招募了306名受试者，其中包括101例早期肺癌(I期)，205例健康对照，根据病理诊断均符合入组。随机选取80例肺癌样本及100例健康对照样本作为训练集；随机选取21例肺癌样本及105例健康对照样本作为测试集；不设验证集。采用实施例1-4的方法，筛选出基因panel如下：

表3肺癌基因panel筛选结果

IL2R	LINC0026	RRP1	PNLIPRP
				KRT8	PRH	LINC0085	AVL
PG	AGTR	KIF2	LINC0150
				MAF	HNRNPA1L	LINC0199	SLC26A
AKAP	NXPE	NXNL	FAM227
				CBX	DEFB13	AGFG	SDR16C6
CFAP4	COC	PPP1R12	RAC
				EPHX	CD	CASC1	SNX2
DPP	SIRPB	AP	STRB
				ZNF64	TMEM151	ZNF42	SNP
MAP7D	TCP1	PKL	MRS2P
				CD27	RET	PMCHL	MT1
ERO1	DENND5	DMRTC	PVRIG2
				TRHD	REEP	SNC	LA
IPM	RASA4C	CAPN1	RDM
				ZAP7	FOXK	RE	ADAM3
HABP

使用实施例4的方法对上述基因panel构建肿瘤筛查模型并测试其性能，结果如图4所示，灵敏度为80.95％，特异性为89.52％，AUC为0.908，也达到理想的效果。

最后需要说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，但本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种肿瘤标志物或肿瘤标志物组合的筛选方法，其特征在于，所述筛选方法：

i)包含测定核小体分布情况的步骤；和/或

2.一种肿瘤筛查模型的构建方法，其特征在于，所述方法使用根据权利要求1所述的筛选方法筛选得到的肿瘤标志物或肿瘤标志物组合构建肿瘤筛查模型。

3.根据权利要求1所述的筛选方法获得的肿瘤标志物组合。

4.一种肿瘤筛查、风险预测和/或诊断方法，其特征在于，所述方法：

i)包括使用肿瘤筛查模型的步骤，所述肿瘤筛查模型是根据权利要求2所述的构建方法构建的肿瘤筛查模型；和/或

ii)使用根据权利要求1所述的筛选方法得到的肿瘤标志物或肿瘤标志物组合或者根据权利要求3所述的肿瘤标志物组合。

5.用于特异性检测肿瘤标志物或肿瘤标志物组合的试剂在制备肿瘤筛查试剂盒、风险预测试剂盒和/或诊断试剂盒中的用途，其特征在于，所述肿瘤标志物或肿瘤标志物组合是根据权利要求1所述的筛选方法得到的肿瘤标志物或肿瘤标志物组合，或者是根据权利要求3所述的肿瘤标志物组合，或者是根据权利要求2所述的构建方法构建的肿瘤筛查模型中的肿瘤标志物或肿瘤标志物组合。

6.一种肿瘤筛查、风险预测和/或诊断试剂盒，其特征在于，所述试剂盒包含用于特异性检测肿瘤标志物或肿瘤标志物组合的试剂，所述肿瘤标志物或肿瘤标志物组合是根据权利要求1所述的筛选方法得到的肿瘤标志物或肿瘤标志物组合，或者是根据权利要求3所述的肿瘤标志物组合，或者是根据权利要求2所述的构建方法构建的肿瘤筛查模型中的肿瘤标志物或肿瘤标志物组合。

7.一种用于癌症筛查、风险预测和/或诊断的系统或装置，其特征在于，所述系统或装置包括：

获取模块，用于获取受试者的肿瘤标志物或肿瘤标志物组合的测定数据，所述肿瘤标志物或肿瘤标志物组合是根据权利要求1所述的筛选方法得到的肿瘤标志物或肿瘤标志物组合，或者是根据权利要求3所述的肿瘤标志物组合，或者是根据权利要求2所述的构建方法构建的肿瘤筛查模型中的肿瘤标志物或肿瘤标志物组合，所述测定数据是核小体分布情况；

数据分析模块，用于将所述肿瘤标志物或肿瘤标志物组合的测定数据输入根据权利要求2所述的构建方法构建的肿瘤筛查模型中，以得出筛查结果。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，所述计算机程序包含：

i)用于执行根据权利要求1所述的肿瘤标志物或肿瘤标志物组合的筛选方法的程序；和/或

ii)用于执行根据权利要求2所述的肿瘤筛查模型的构建方法的程序；和/或

iii)用于执行根据权利要求4所述的癌症筛查、风险预测和/或诊断方法的程序。

9.一种设备，包括处理器、存储器以及存储在所述存储器中的计算机程序，所述计算机程序包括：

10.一种核小体分布情况量化方法，其特征在于，使用测序深度对所述核小体分布情况进行量化。