CN115831355A

CN115831355A - 多癌种wgs的肿瘤早期筛查方法

Info

Publication number: CN115831355A
Application number: CN202310030788.XA
Authority: CN
Inventors: 裴志华; 段小红; 张怡然; 李振聪; 万千惠; 王东亮; 牛孝亮
Original assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Current assignee: Beijing Qiuzhen Medical Laboratory Co ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-03-21

Abstract

本发明涉及医学分子生物学技术领域，特别涉及多癌种WGS的肿瘤早期筛查方法，利用健康人和肿瘤患者中fragment长度的差异区分健康人和肿瘤患者，在肠癌、胃癌、肝癌、肺癌、胰腺癌等癌种中的AUC效果均在0.9以上，可以用于多癌种早期筛查。

Description

多癌种WGS的肿瘤早期筛查方法

技术领域

本发明涉及医学分子生物学技术领域，特别涉及多癌种WGS的肿瘤早期筛查方法。

背景技术

据报道，全球死亡率前10位的癌症分别为：肺癌、结直肠癌、胃癌、肝癌、乳腺癌、胰腺癌、食管癌、前列腺癌、宫颈癌和非霍奇金淋巴瘤。人类癌症的发病率和死亡率大多是由于诊断较晚，而治疗干预的效果较差。然而可有效用于诊断和治疗患者的经临床证实的生物标记物并没有被广泛开发使用，现需要一种超高特异度（>99%）和高灵敏度的非侵入性生物标志物，作为临床新的肿瘤分子早期诊断工具。

最近对循环游离细胞DNA（cfDNA）的分析表明，利用肿瘤特异性突变的方法可能为早期诊断提供新的机会。循环细胞游离DNA分析已越来越多地用于癌症的检测和监测，不同的癌症相关分子特征，包括拷贝数畸变，甲基化变化，单核苷酸突变，癌症衍生病毒序列，染色体重排可以在各种类型癌症患者的血浆中检测到。然而，在cfDNA中存在克隆性造血相关的变异干扰，会降低检测的特异性。亚硫酸氢钠处理DNA甲基化引起的序列降解，会降低检测的灵敏度。这些局限性给遗传和表观遗传变异进行早期诊断带来了挑战。与基因改变的数量有限相比，cfDNA片段（fragment）的数量在循环中是很大的。cfDNA片段模式，如片段覆盖范围和大小，在癌症中会发生改变，且与不确定潜能的克隆性造血(CHIP)无关。它们衍生的模式，如核小体位置、转录起始位点附近的模式、cfDNA终止位置、超大碱基水平的大规模片段变化，提供了来自肿瘤的广泛信号，以及来自免疫细胞死亡的可能改变，可以显著提高癌症早期检测的敏感性。近年来许多研究表明来源于肿瘤细胞的游离DNA（ctDNA）与来源于正常细胞的cfDNA片段长短存在差异。现有研究表明，来自于肿瘤的ctDNA片段长度比非肿瘤来源的cfDNA片段短；来自于胎儿的cfDNA片段长度比孕妇的cfDNA片段短。另外，最近的许多研究也表明在癌症患者晚期，短长度的cfDNA比例会增加。cfDNA fragment模式，例如覆盖度和大小，会随着癌症的发生而产生变化，且与克隆性造血无关。为解决ctDNA的应用问题，本专利将多癌种WGS的fragment长短片段分布特征分析作为肿瘤早期筛查的方法。

发明内容

针对上述背景技术的不足，本发明提供了一种多癌种WGS的肿瘤早期筛查方法，解决了现有基于ctDNA检测的早期诊断对小的、无症状的肿瘤的敏感性有限、特异性不高，易造成过度诊断和过度治疗的问题。

多癌种WGS的肿瘤早期筛查方法，关键在于包括以下步骤：

S1. 对样品进行基因靶向测序，获取原始fastq文件；

S2. 对原始fastq文件进行数据控制，筛除低质量数据；

S3. 比对参考基因组获得bam文件，对bam文件进行数据过滤；

S4. 确定区分癌症和健康人群的短插入片段short fragment和长插入片段longfragment的cutoff值、窗口大小以及测序深度；

S5. 计算用于区分肿瘤病人的score值。

优选的，S2中数据控制具体为：去除接头，去除低质量数据以及含N较高的reads。

优选的，S3中所述参考基因组序列为hg19。

优选的，S3中数据过滤条件为：去重、去除多重比对的Reads以及只保留质量值大于30和常染色体的Reads。

优选的，S4具体为：

S41.对肿瘤样本和对照样本进行插入片段大小分析，找到用于区分癌症和健康人群的短插入片段short fragment和long fragment的阈值，并计算二者的cutoff值；

S42.基于与癌症相关的热点区间上下各扩1Kb，确定cfDNA片段计算模型的窗口大小；

S43.将原始样本在不同测序深度下进行downsample分析，以确定最优测序深度。

优选的，S4中窗口为Hotspot-1054。

优选的，S5具体为：根据S4所确定的cutoff值、窗口大小以及测序深度，对各样本进行低深度全基因组测序，并计算区间各个窗口的ratio值，并对每个窗口内插入片段的数目进行GC校正，将样本分为训练集和验证集，根据训练集癌症样本和健康人样本的差异程度，分别使用加和平均值计算出每个样本的score值，以及随机森林计算出每一个窗口的权重，确定使用加权平均值算法来对验证集进行预测，通过加权平均值算法计算出所有区间ratio的平均值，即每个样本的score值。

优选的，所述样品为来自于健康人群和肿瘤人群的组织液样品和块状样品，组织液样本包括组织研磨液、鼻拭子、病毒液、血液、血清、血浆、精液、唾液、尿液中的任一种；块状样品包括组织块、转基因小鼠尾巴、趾甲中的任一种。

有益效果：本发明所提供的多癌种WGS的肿瘤早期筛查方法，利用健康人和肿瘤患者中fragment长度的差异区分健康人和肿瘤患者，在肠癌、胃癌、肝癌、肺癌、胰腺癌等癌种中的AUC效果均在0.9以上，可以用于多癌种早期筛查。

附图说明

图1为本发明的低深度全基因组数据的分子片段特征分析流程图；

图2为肿瘤样本和健康样本进行插入片段大小分析图；

图3为累计概率密度分析图；

图4为健康人和肿瘤患者不同插入片段差异显著性分析图；

图5为健康人和肿瘤患者WGS数据fragment分析图；

图6为早降采样特征相关性分析图；

图7为基于本发明的分类性能AUC曲线图；

图8为基于不同癌种的分类性能AUC曲线图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合具体实施方式对本发明作详细说明。

实施例1 样本数据提取

随机选择两组人群的血浆进行上机测序，一组为健康人（N=32），另一组为癌症病人（n=112）。具体过程如下所示：

1）cfDNA提取

采用血浆提取试剂盒提取血浆样本中的cfDNA，具体的操作参见QIAGEN公司的QIAamp Circulating Nuleacid Kit试剂盒说明书，使用Qubit4.0和dsDNA HS Assay Kit对提取的DNA进行定量。

2）文库构建

末端修复并在3'末端加A尾；

取10-50ng cfDNA至PCR管中，用Low TE补至50 μL，按照下表1加入试剂。

表1

涡旋混匀，微离心，设置以下程序在PCR仪上进行反应，表2：

表2

连接接头

按照下表3在上述反应结束后的体系内加入相应试剂：

表3

涡旋混匀，微离心，设置以下程序在PCR仪上进行反应（热盖关闭），见下表4：

表4

3）连接后纯化：

准备试剂：Beckman Agencourt AMPure XP磁珠2~8℃保存，室温平衡至少30min。

在每个样本中加80 μL（1× 体积）AMPure XP 磁珠，用移液器吹打或者振荡充分混匀。室温静置5分钟。

放置磁力架静置2分钟。待磁珠全部吸附至侧壁，使用移液器吸取移弃上清。注意勿扰动磁珠。

在磁力架上沿磁珠相反方向的管壁缓慢加入200 μL 80%乙醇，静置30s-1min，使用移液器吸取移弃上清。

重复上步骤一次，用10 μL的移液器将残留的乙醇尽量吸弃干净。

室温干燥磁珠5分钟。

每个样本用21 μL low TE 缓冲液重悬磁珠。

用移液器吹打或者振荡充分混匀，室温孵育 1分钟。

放置磁力架上，室温孵育2分钟。

待磁珠完全吸附至侧壁，将20 μL上清液移到一个新的PCR管中等待扩增。

4）文库扩增

按照下表5在上述反应结束后的体系内加入相应试剂：

表5

涡旋混匀，微离心，设置以下程序在PCR仪上进行反应，表6：

表6

反应结束后，按照磁珠纯化的流程使用1X体积磁珠纯化PCR产物，之后用dsDNA HSAssay Kit测定预文库浓度，利用QIAxcel进行片段大小检测。

cfDNA全基因组测序: 将文库样本通过二代测序仪MGI2000进行上机测序，采用双端测序的测序方式，读长为100bp，测序深度为10×。

实施例2 计算区分癌症病人组和健康人组的score值

测序平台将得到的光信号转化为BCL格式的测序下机数据，并对下机数据进行拆分，根据样本index将单个样本的测序数据拆分出来，转换成fastq格式。

数据比对与质控：将下机数据比对到人类基因组序列(hg19)上,形成bam格式的文件。为获得高质量的碱基序列，对比对后的数据进行质控，质控指标结果如下表7所示：

表7

序列过滤：使用Samtools过滤功能对BAM文件进行过滤：首先去掉未比对上参考基因组、次要比对和补充比对的Reads，然后数据进行去重、去除多重比对的Reads，最终只保留质量值大于30的常染色体Reads。

计算样本fragment 长短片段分布cutoff值：首先对肿瘤样本和对照样本进行插入片段大小分析，如图2所示，结果表明与健康人比较，肿瘤患者整体分布会向左移，在以10bp为单位的递减处有一系列较小的峰，这类似于孕妇血浆中的观察结果。血浆中肿瘤DNA的含量越大，癌症患者血浆中短DNA的比例就越高；相反，血浆中肿瘤DNA含量越低，癌症患者血浆中长DNA的比例就越高；

其次，为了找到用于区分癌症和健康人群的短插入片段(short)和长插入片段(long)的阈值，首先进行累计概率密度分析，如图3所示，结果表明分别在177 bp累计概率密度差值达到最大；进而我们又进行统计学检验比较不同插入片段长度癌症和健康人的差异显著性，如图4所示，当插入片段为100bp~175bp、180bp~250bp这两个连续区域时，具有显著性的差异(T检验，p<=0.01)，因此我们将100bp<short<=175bp定义为short fragment，将180bp<=long<=250bp定义为long fragment，进而计算二者数量的cutoff值，来判断这个样本是来源于健康个体还是癌症患者；

再次，由于理论上讲，窗口大小范围可以在几千到百万级碱基，且窗口越小分辨率越高。故本申请使用与癌症相关的2120个热点，区间上下各扩1Kb，经过分析比较1054个窗口分析癌症和健康人差异，在低深度（1~2X）时有足够的fragment用于分析，为了保证分析的稳定性以及癌症和健康人的差异显著性，我们采用Hotspot-1054的窗口来估计cfDNA片段模型，如图5所示；

接着，分别将数据downsample在不同测序深度（5X, 3X, 1X, 0.5X, 0.1X），并分析与原始样本的相关性，如图6所示，结果发现随着深度的降低，相关性逐渐降低，当深度降低为1X时仍能保持较好的相关性(Pearson correlations >0.8)，为了保证分析的稳定性，采用5X的测序深度为标准；

计算score值：确定了shot/long的cutoff、窗口大小以及测序深度之后，对样本进行低深度全基因组测序（sWGS），并计算区间各个窗口的ratio值，并对每个窗口内插入片段的数目进行GC校正，将样本分为训练集和验证集，根据训练集癌症样本和健康人样本的差异程度，分别使用加和平均值计算出每个样本的score值，以及随机森林计算出每一个窗口的权重，确定使用加权平均值算法来对验证集进行预测，通过加权平均值算法计算出所有区间ratio的平均值，即每个样本的score值，根据每个样本的score值建立区分健康人和患者的算法模型。

在其它实施例中，score的计算方法不限于文中提到的加和平均值和/或加权平均值，也可以通过其他机器学习算法优化。

实施例3 性能验证

随机选取已知的健康人（N=12，随机抽样三次N=36），癌症患者（N=52）采用本发明的方法进行验证，此52例癌症患者中包括20例肠癌患者，14例胃癌患者，6例肺癌患者，6例胰腺癌患者，6例肝癌患者，图7表示基于score的ROC分析结果，不分癌种时AUC为96.14%；图8显示了不同癌种score的ROC分析结果，表明肠癌的AUC为96.05%，胃癌的AUC为99.35%，肝癌的AUC为99.5%，肺癌的AUC为99.05%，胰腺癌的AUC为99.33%。

最后需要说明，上述描述仅为本发明的优选实施例，本领域的技术人员在本发明的启示下，在不违背本发明宗旨及权利要求的前提下，可以做出多种类似的表示，这样的变换均落入本发明的保护范围之内。

Claims

1.多癌种WGS的肿瘤早期筛查方法，其特征在于包括以下步骤：

S1. 对样品进行基因靶向测序，获取原始fastq文件；

S2. 对原始fastq文件进行数据控制，筛除低质量数据；

S3. 比对参考基因组获得bam文件，对bam文件进行数据过滤；

S5. 计算用于区分肿瘤病人的score值。

2.根据权利要求1所述的多癌种WGS的肿瘤早期筛查方法，其特征在于：S2中数据控制具体为：去除接头，去除低质量数据以及含N较高的reads。

3.根据权利要求1所述的多癌种WGS的肿瘤早期筛查方法，其特征在于：

S3中所述参考基因组序列为hg19。

4.根据权利要求1所述的多癌种WGS的肿瘤早期筛查方法，其特征在于：S3中数据过滤条件为：去重、去除多重比对的Reads以及只保留质量值大于30和常染色体的Reads。

5.根据权利要求1所述的多癌种WGS的肿瘤早期筛查方法，其特征在于S4具体为：

6.根据权利要求1所述的多癌种WGS的肿瘤早期筛查方法，其特征在于S4中窗口为Hotspot-1054。

7.根据权利要求1所述的多癌种WGS的肿瘤早期筛查方法，其特征在于S5具体为：根据S4所确定的cutoff值、窗口大小以及测序深度，对各样本进行低深度全基因组测序，并计算区间各个窗口的ratio值，并对每个窗口内插入片段的数目进行GC校正，将样本分为训练集和验证集，根据训练集癌症样本和健康人样本的差异程度，分别使用加和平均值计算出每个样本的score值，以及随机森林计算出每一个窗口的权重，确定使用加权平均值算法来对验证集进行预测，通过加权平均值算法计算出所有区间ratio的平均值，即每个样本的score值。

8.根据权利要求1所述的多癌种WGS的肿瘤早期筛查方法，其特征在于：所述样品为来自于健康人群和肿瘤人群的组织液样品和块状样品，组织液样本包括组织研磨液、鼻拭子、病毒液、血液、血清、血浆、精液、唾液、尿液中的任一种；块状样品包括组织块、转基因小鼠尾巴、趾甲中的任一种。