CN117316281A

CN117316281A - 基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法

Info

Publication number: CN117316281A
Application number: CN202210704954.5A
Authority: CN
Inventors: 姜国娟; 段侨南; 张大东; 许晓雅; 陈升; 张玮; 陈灏; 年宝宁; 李志宽
Original assignee: Shanghai 3D Medicines Co Ltd
Current assignee: Shanghai 3D Medicines Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2023-12-29

Abstract

本发明公开了一种基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法及系统。该方法通过较低深度的全基因测序方式对肿瘤来源cfDNA与健康个体来源的cfDNA在TSS附近的测序数据覆盖深度模式差异统计，建立癌症的早期筛查模型，实现对癌症的无创早筛。定义TSS上下游500bp[‑250bp,250bp]的区域为中心区域，TSS上游[‑2000bp,‑1000bp]和下游[1000bp,2000bp]为周围区域；一个基因的NF值为中心区域的平均覆盖度除以周围区域的平均覆盖度。本发明采用低深度的全基因组测序方式，大幅降低成本，并且可以在癌症较早期检测到早于cfDNA突变的片段异常变化，此方法较检测cfDNA突变信息来说更加灵敏。

Description

基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法

技术领域

本发明属于医学检测技术领域，具体涉及一种基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法。

背景技术

近年来，液体活检技术在临床方面得到广泛的应用，特别是在辅助肿瘤患者诊断、治疗和术后监控等方面。相比于传统的术中取样，液体活检通过抽血获得样品。血浆中存在游离的核酸分子(cellfreeDNA，cfDNA)。健康人中，cfDNA主要来源于血液中淋巴细胞自然凋亡后，细胞核内DNA分子被一系列消化处理后，变成碎片化核酸分子被释放到血浆等体液中。当组织发生肿瘤时，大量的特异组织肿瘤细胞的碎片化核酸分子被释放到血浆中。目前，研究液体活检、癌症早筛的常规方法为通过对癌种特异性的致癌基因或者抑癌基因的突变检测来识别肿瘤释放的cfDNA。cfDNA的全基因组测序(WGS)可以识别癌症患者的染色体异常，但由于异常染色体变化的数量在肿瘤来源的cfDNA中占比很少，尤其是在癌症早期阶段，检测这种改变可能具有挑战性。对于利用cfDNA突变检测一个常见的限制是要求能检测到区分cfDNA的基因组层面的突变差异，例如无创产前诊断的胎儿与母亲、肿瘤诊断中的肿瘤与正常人。心肌梗塞、中风和自身免疫性疾病等疾病与cfDNA水平升高有关，这可能是组织损伤的结果，但由于缺乏这种DNA突变改变的差异，因此无法通过cfDNA进行专门监测，这种改变和肿瘤早期阶段极为相似。另外，并不是所有癌症细胞来源的ctDNA都携带突变信息，这就亟需我们提供一种的新的更为灵敏的方法来改变目前用于cfDNA检测的常规手段。

不同组织来源的细胞内的染色质状态并不是完全一致。染色质开放区域表现为核小体连接松散，利于转座酶和其他细胞功能调节因子的结合并行使功能。不同细胞群体由于需要执行的功能不一致，所以不同细胞群体的染色质开放区域也不一致。肿瘤细胞发生突变后，细胞功能发生改变，相比于正常细胞，染色质开放区域也发生改变。事实上，cfDNA反映核小体足迹的研究在2016年就已有报道。基于这些理论基础，cfDNA癌症液体活检领域又产生了一些新的重大突破。文献Matthew W.Snyder,Martin Kircher,Andrew J.Hill,etal.Cell-free DNA Comprises an In Vivo Nucleosome Footprint that Informs ItsTissues-Of-Origin.2016,164(1-2):57-68.Matthew等人通过从循环血浆中分离到的cfDNA，获得了全基因组范围内核小体占位的图谱，发现cfDNA的分布方式紧密和组织部位有关，通过研究cfDNA来预示核小体的分布方式，从而判断cfDNA的特定来源，可用于临床情况进行无创检测，但其仅限于理论层面，并未涉及具体应用，缺乏对病人cfDNA多组学的全面评价。

cfDNA是细胞凋亡后，DNA被消化酶降解并释放到血液等体液中。染色质开放区域由于缺乏核小体的保护，更易于被消化为小片段，从而导致cfDNA的基因组测序数据中，染色质开放区域的插入片段小且深度低。在活跃转录的基因中，TSS(转录起始点)上游约150bp的启动子区域是一个核小体耗尽区域(Nucleosome Depleted Regions,NDR)，属于染色质开放区域，有助于转录因子等复合体的结合，TSS两侧则是定位良好的核小体阵列。相比之下，非活性启动子既没有表现出明显的核小体消耗，也没有表现出核小体的强定位和定相。所以，表达基因和沉默基因TSS位点和附近区域染色体的开放程度和核小体定位差异导致全基因组DNA测序的覆盖深度模式呈现差异现象，所以可以通过cfDNA在TSS附近的WGS测序数据覆盖差异可以预测基因的表达情况，而组织特异性基因的表达又可推断出cfDNA的组织来源。文献Ulz,P.,etal.,Inferring expressed genes by whole-genomesequencing of plasma DNA.Nature Genetics,2016.48(10):p.1273-1278进一步研究发现这种基于TSS区域cfDNA测序深度差异的方法可能为寻找血液中的癌症迹象提供了一种更便宜的方法，作者发现健康人群的cfDNA主要是来源于血液中凋亡的白细胞，其cfDNA测序深度覆盖模式反映白细胞的基因表达特征。这表明，将健康对照和癌症患者的cfDNA在TSS区域附近的测序覆盖深度差异可作为癌细胞释放的ctDNA的一个特征识别手段。该文献中仅限于统计cfDNA的测序覆盖分布与基因表达的相关性，旨在用cfDNA的测序覆盖特征推断相关基因的表达情况，并没有用TSS位点附近的测序数据覆盖特点用于肿瘤患者的早期筛查及临床诊断的探讨。

目前，关于cfDNATSS附近测序深度覆盖差异用于研究胆胰恶性肿瘤液体活检早筛的研究报道尚未有报道。其中与本发明研究最相关的1个研究(PMID:33589745)：基于cfDNA在肝癌中的测试数据，文章作者检测了2250名肝硬化患者、508名肝细胞肝癌患者和476名健康对照的血浆cfDNA低深度WGS利用cfDNA反应的核小体定位信息中TSS附近测序覆盖深度的差异建立机器学习模型，可以很好的从健康人群和肝硬化患者中筛查出肝细胞肝癌患者，受试者工作特征曲线(ROC)的曲线下面积(AUC)可达0.97，但此研究只是初步研究了cfDNA用于肝细胞肝癌的早期筛查，其他癌肿的研究仍然需要大量的临床数据支持，尤其是胆胰恶性肿瘤。

发明内容

本发明的目的是，提供一种基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法。主要解决现有技术中胆胰恶性肿瘤的早期筛查特异性低、假阳性率高的技术问题。

本发明为解决上述技术问题所采用的技术方案如下：

一种基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法，该方法为：通过较低深度的全基因测序方式对肿瘤来源cfDNA与健康个体来源的cfDNA在TSS附近的测序数据覆盖深度模式差异统计，建立癌症的早期筛查模型，实现对癌症的无创早筛。所述较低深度的全基因测序是指测序深度为2X～4X。

作为优选实施方案，所述cfDNA在TSS附近的测序覆盖深度的参数计算方法为：定义TSS上下游500bp[-250bp,250bp]的区域为中心区域，TSS上游[-2000bp,-1000bp]和下游[1000bp,2000bp]为周围区域；基因的NF值为中心区域的平均覆盖度除以周围区域的平均覆盖度。

作为优选实施方案，采用LinearSVC算法以21334个基因TSS附近cfDNA的NF值为特征变量，使用30次重复5折交叉验证法，获得模型系数，建立癌症的早期筛查模型。

作为优选实施方案，所述癌症为胆胰恶性肿瘤。所述胆胰恶性肿瘤包括胰腺癌、胆囊癌和胆管癌。

本发明还提供一种基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛系统，该系统包括：

TSS数据特征提取模块，用于获得样本中cfDNA在TSS附近的测序覆盖深度特征数据；

机器学习分类模型建立模块，用于根据肿瘤来源cfDNA与健康个体来源的cfDNA在TSS附近的测序数据覆盖深度模式差异统计，建立癌症的早期筛查模型；

独立验证队列评估模块，用于通过独立验证队列对建立的机器学习分类模型的预测效能进行验证。

作为优选实施方案，所述TSS数据特征提取模块包括：

测序数据比对单元，用于去除测序数据测序接头后，将测序数据比对到人类参考基因组hg19；

reads过滤单元，用于对测序数据进行过滤筛选，过滤标准为：只考虑比对到常染色体1-22上的reads；质量评分大于20；插入长度在150至600之间；双端必须properpair；read的reference区域不包含简并碱基；

基因筛选和TSS确定单元，用于根据UCSChg19基因组的转录本注释确定基因转录的TSS；对于有多个TSS的基因，只保留不同TSS差距小于50bp的，并以它们的平均值作为基因的TSS，同时只考虑常染色体上的基因；

NF值计算单元，用于获取cfDNA在TSS附近的测序覆盖深度的参数，计算方式为：定义TSS上下游500bp[-250bp,250bp]的区域为中心区域；定义TSS上游[-2000bp,-1000bp]和下游[1000bp,2000bp]的2000bp为周围区域；一个基因的NF值为中心区域的平均coverage除以周围区域的平均coverage。

作为优选实施方案，所述机器学习分类模型建立模块包括：

样本数据分类单元，用于将样本按照4：1的比例分为训练集和测试集，并使得健康对照和各种癌种样本在两个集合的分布比例保持一致；

模型参数获取单元，用于对训练集中样品数据进行处理；在训练队列中，通过NF的标准差筛选基因，只保留标准差在[0,2]之间的基因，然后使用30次重复5折交叉验证法，获得模型参数；

模型效能评估单元，用于根据训练队列中每个样本的模型预测值及病理检测结果，绘制训练队列的接受者操作特性曲线。

与现有技术相比，本发明的有益效果如下：

目前，临床上广泛应用于鉴别胆胰恶性肿瘤的影像诊断和血清指标诊断，特异性较差，造成假阳性，且cfDNA相关突变信息诊断偏晚期。本发明针对cfDNA片段化分布作为癌症早诊体系研究存在以下几个特征：a.采用低深度的全基因组测序方式，与超高深度或高深度的靶标测序相比，测序费用大幅下降，成本降低；b.可以在癌症较早期检测到早于cfDNA突变的片段异常变化，方法较检测cfDNA突变信息来说更加灵敏；c.所用的病人患者都是较早期患者，比最相近研究所用患者更早期检测到相关特征的变化，并经过系统科学的分析验证，较已有相关研究的分类模型具有较好的诊断效能。

本发明采用临床中检测出的60例胆胰恶性肿瘤和31例健康对照血浆cfDNA采用低深度(2X～4X)全基因组检测，基于不同组织中开放的基因不同，健康人群和不同癌症来源的cfDNA在全基因组范围内不同区域的TSS附近和周边的测序数据深度覆盖模式差异，作为训练特征在所研究队列中建立用于胆胰恶性肿瘤的早期筛查模型，并评估模型的效能。更重要地，本发明独立验证入组47例胆胰肿瘤患者及20例健康人，进一步验证了早期筛查模型得效能。此方法采用更精准的分析血液中肿瘤DNA方法以寻找肿瘤早筛的线索，为临床精准应用提供更为坚实可靠的数据支撑。

附图说明

图1为本发明实施例1中训练集ROC曲线图。

图2为本发明实施例1中测试集ROC曲线图。

图3为本发明实施例1中独立验证队列受试者ROC曲线。

具体实施方式

下面结合实施例对本发明的技术方案进行详细说明。以下采用的试剂和生物材料如未特别说明，均为商业化产品。

实施例1

(1)研究队列及临床信息

本研究共纳入107列例经肿瘤标志物、影像学检查(如超声检查、腹腔CT扫描等)和病理检测结果确诊为胆胰肿瘤患者(胰腺癌、胆囊癌和胆管癌)及51健康人，于术前采集患者及健康个体的血液样本。每个入组的患者于术后根据病理检查结果给出准确的诊断。

(2)血液收集、分离和储存

将术前癌症患者和健康对照的全血收集在10ml游离核酸保存管中(REF43803，BD，USA)，室温运输。收到的全血样本采用两步离心法分离得到血浆。首先通过4℃、1600g离心10分钟将血浆和细胞成分分离，小心吸取上清液，注意不要吸到白细胞层，同时记录血浆的溶血等级，溶血等级≥5的样本不纳入后续研究。其次将血浆在4℃温度下以16,000g的速度再次离心15分钟以去除任何残存的细胞或细胞碎片。将上清液转移到离心管中分装成1ml每管，分离好的血浆样本放置于-80℃冰箱储存。

(3)cfDNA的提取

将血浆样本从-80℃冰箱取出放置于水浴锅中，37℃静态孵育5分钟左右，转移血浆到低温冷冻离心机中4℃、1600g离心10分钟，小心吸取上清液到离心管中。血浆cfDNA的提取使用QIAamp Circulating Nucleic Acid Kit(55114，Qiagen，Shanghai,China)试剂盒从1ml血浆中抽提cfDNA，具体的操作步骤参照产品说明书，最终使用30μl EB洗脱cfDNA。采用Qubit荧光定量仪和配套相应的试剂(Q32854，Thermo Fisher，USA)对所抽提cfDNA的总量进行定量。采用安捷伦2100生物分析仪及配套相应的Agilent High Sensitivity DNAKit&Reagents(5067-4626,Agilent,USA)进行cfDNA片段分布情况检测。

(4)cfDNA建库及WGS测序

将cfDNA质控合格的样本用于cfDNA文库构建及WGS测序。文库的制备选用KAPADNA Hyper Prep的试剂盒(KK8504,KAPA,USA)，详细操作流程参照产品说明书。每个cfDNA样本input量为10ng，随后将碱基末端补平加A尾，然后连接接头、接头纯化、PCR扩增7个循环富集文库，经纯化，最后用25μl洗脱液洗脱DNA，Qubit测定血浆cfDNA文库浓度，4150测定血浆cfDNA文库的片段分布。质量检测合格的文库选用NovoSeq 6000平台进行全基因组测序，测序策略2x150bp，测序量为～10G(～3×)。

(5)TSS附近测序数据深度模式特征提取

基于DNAsequencing检测技术，获得患者外周血中的cfDNA。测序数据的分析流程如下：

1)测序数据比对。去除DNAsequencing数据测序接头后，使用BWA软件(版本：0.7.17-r1188)将测序数据比对到人类参考基因组hg19(基因组下载链接：ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/technical/reference/human_g1k_v37.fasta.gz)。

2)read过滤。只考虑比对到常染色体1-22上的reads；质量评分(quality score)大于20；插入长度(insertion size)在150至600之间；双端必须proper pair；read的reference区域不包含简并碱基。

3)基因筛选和TSS确定。根据UCSC hg19基因组的转录本注释确定基因转录的起始位点(TSS)。对于有多个TSS的基因，只保留不同TSS差距小于50bp的，并以它们的平均值作为基因的TSS。同时，只考虑常染色体上的基因。

4)核小体足迹(Nucleosome footprint,NF)值计算。定义TSS上下游500bp[-250bp,250bp]的区域为中心区域。定义TSS上游[-2000bp,-1000bp]和下游[1000bp,2000bp]的2000bp为周围区域。一个基因的NF值计算方式为：中心区域的平均coverage除以周围区域的平均coverage。

(6)机器学习分类模型建立

1)将样本分为训练集和测试集。将所有样本按照4：1的比例分为训练集和测试集，并使得健康对照和各种癌种样本在两个集合的分布比例保持一致。

2)对训练集中样品数据进行处理。在训练队列中，通过NF的标准差筛选基因，只保留标准差在[0,2]之间的基因，共21334个。然后使用30次重复5折交叉验证法，获得模型参数。

3)评估模型的效能。根据训练队列中每个样本的模型预测值及病理检测结果，绘制训练队列的接受者操作特性曲线(ROC曲线，receiver operating characteristiccurve)。以预测值为准，设立一系列阈值将训练队列分为健康人群及癌症患者，再以病理检测结果为真值，评估模型预测效能。模型预测效能评估方法，包括ROC曲线下方面积(AUC，Area Under Curve，取值范围0～1)、阳性预测值(PPV，Positive Predictive Value，取值范围0～1)、特异性(取值范围0～1)、准确性(取值范围0～1)和灵敏度(取值范围0～1)，值越高效果越优。

(7)评分分类模型预测效能的验证

在独立验证队列中，根据训练队列中确定的分类模型及预测值，对模型预测分类的效能进行验证。过程如下：

1)确认变量。在独立验证队列中，以21334个基因的NF值为变量。

2)模型效能验证。根据测试集中每个样本的分子标记物表达量及病理检测结果，绘制测试集的ROC曲线。以预测值为准，将验证队列分为健康人群(同训练队列)和癌症组，并评估模型预测效能，包括特异性、敏感性和准确性，值越高效果越优。

实施例2

(1)研究队列及临床信息

本研究共纳入两个研究队列共计107例经肿瘤标志物、影像学检查(如超声检查、腹腔CT扫描等)和病理检测结果确诊为胆胰恶性肿瘤患者及51例健康人，于术前采集患者及健康对照的血液样本。每个入组的患者于术后根据病理检查结果给出准确的诊断。

训练集和测试集共纳入60例患者(胰腺癌29例、胆囊癌15例和胆管癌16例)及31例健康人(表1)。将训练队列中所有样本按照4：1的比例分为训练集和测试集，并使得健康对照和各种癌种样本在两个集合的分布比例保持一致。表1展示了训练集和测试集中健康对照及患者的分组信息。分析结果表明训练集和测试集样本的性别比例及健康对照、癌症患者数目分布比例并无显著差异。

表1：训练集和测试集信息

独立验证队列共入组47例胆胰肿瘤患者(胰腺癌19例、胆囊癌8例、胆管癌20例)及20例健康人(表2)。表2展示了训练集及独立验证队列中参与者信息，分析结果表明训练集与独立验证队列样本的性别比例及健康对照、癌症患者数目分布比例并无显著差异。

表2：训练集和独立验证队列信息

(2)健康、癌症分类评分模型

利用训练队列，结合病理检测结果，利用LinearSVC算法构建癌症患者、健康人群的评分模型。模型由变量、模型公式和预测值三部分组成。过程如下：

①模型变量及参数。在训练队列中，模型以21334个基因的NF值为特征变量(模型输入变量见表3)，使用30次重复5折交叉验证法，获得模型系数。

表3

序号	模型变量	NF值
			1	A1BG	NF1
2	A1CF	NF2
			…	……	……
21333	ZYX	NF21333
			21334	ZZEF1	NF21334

②评分模型。评分模型公式如下：

其中x_i为输入变量，模型参数w和b的计算公式如下：

其中λ为惩罚参数，n为样本数量，y_i是样本真值，1为癌症，-1为健康。

使用分类模型和每个样本的NF值，可以获得每个样本的类别预测结果。

③模型效能评估。

为了构建健癌症患者的诊断分类模型，利用预测值将训练队列样本分为健康和癌症患者。以病理检测结果为真值，根据队列中的预测值及病理结果绘制训练队列的ROC曲线，训练集AUC值高达1。参见图1，为训练集ROC曲线图。训练模型预测的PPV(准确性)、特异性和敏感性分别为100％、100％和100％(表4)。结果表明：在训练集中，此风险预测模型具有较高敏感性和NPV，模型对癌症的早期诊断的预测效能较优。

④判别模型预测效能验证。

为了验证判别模型的效能，以预测值设置的阈值，将测试集参与者，以病理检测结果为真值，根据训练队列中确定的分类模型及预测值，对模型的效能进行验证，绘制测试集的ROC曲线，测试集AUC值达0.88。参见图2，为测试集ROC曲线图。并评估模型预测效能，包括准确性、特异性和敏感性，分别为100％、100％和66.7％(表4)。结果表明：在测试集中，此风险预测模型同样具有较高特异性、敏感性和准确性，即模型预测效能较优。

表4：21334个变量模型效能评估

(3)独立验证队列评估

为了进一步验证判别模型的效能，以预测值设置的阈值(0.366)，将独立验证队列患者分为健康和癌症患者组(同训练集和测试集)。以病理检测结果为真值，根据训练队列中确定的分类模型及预测值，对模型的效能进行验证，绘制验证队列的ROC曲线，其AUC值为0.90。参见图3，为独立验证队列受试者ROC曲线。并评估模型预测效能，包括准确性、特异性和敏感性，分别为92.5％、85％和78.7％(表5)。结果表明：在验证队列中，此风险预测模型同样具有较高特异性、敏感性和准确性，即模型预测效能较优。

表5：独立验证队列21334个变量模型效能评估

上述仅为本发明的部分优选实施例，本发明并不仅限于实施例的内容。对于本领域中的技术人员来说，在本发明技术方案的构思范围内可以有各种变化和更改，所作的任何变化和更改，均在本发明保护范围之内。

Claims

1.一种基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法，该方法为：通过较低深度的全基因测序方式对肿瘤来源cfDNA与健康个体来源的cfDNA在TSS附近的测序数据覆盖深度模式差异统计，建立癌症的早期筛查模型，实现对癌症的无创早筛。

2.根据权利要求1所述的基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法，其特征在于，所述cfDNA在TSS附近的测序覆盖深度的参数计算方法为：定义TSS上下游500bp[-250bp,250bp]的区域为中心区域，TSS上游[-2000bp,-1000bp]和下游[1000bp,2000bp]为周围区域；基因的NF值为中心区域的平均覆盖度除以周围区域的平均覆盖度。

3.根据权利要求1所述的基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法，其特征在于：采用LinearSVC算法以21334个基因TSS附近cfDNA的NF值为特征变量，使用30次重复5折交叉验证法，获得模型系数，建立癌症的早期筛查模型。

4.根据权利要求1-3任一项所述的基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法，其特征在于：所述癌症为胆胰恶性肿瘤。

5.根据权利要求1-3任一项所述的基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛方法，其特征在于：所述胆胰恶性肿瘤包括胰腺癌、胆囊癌和胆管癌。

6.一种基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛系统，其特征在于，所述系统包括：

7.根据权利要求6所述的基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛系统，其特征在于，所述TSS数据特征提取模块包括：

基因筛选和TSS确定单元，用于根据UCSC hg19基因组的转录本注释确定基因转录的TSS；对于有多个TSS的基因，只保留不同TSS差距小于50bp的，并以它们的平均值作为基因的TSS，同时只考虑常染色体上的基因；

8.根据权利要求6所述的基于cfDNA在TSS附近测序覆盖深度特征的癌症无创早筛系统，其特征在于，所述机器学习分类模型建立模块包括：