CN113539355B

CN113539355B - 预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用

Info

Publication number: CN113539355B
Application number: CN202110802909.9A
Authority: CN
Inventors: 崔健
Original assignee: Yunkang Information Technology Shanghai Co ltd
Current assignee: Yunkang Information Technology Shanghai Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2022-11-25
Anticipated expiration: 2041-07-15
Also published as: CN113539355A

Abstract

本发明公开了一种预测cfDNA的组织特异性来源及相关疾病概率评估系统及其应用，系统包括全基因组测序单元；数据预处理单元，去除全基因组片段的接头进行序列比对，根据比对结果删除重复序列并进行序列排序并获得统计指标；数据分析单元，将数据预处理单元处理的序列与人类不同细胞组织来源的转录组表达谱数据库进行比对，根据比对的结果判断cfDNA的来源且将数据预处理单元处理的序列与细胞变异数据库进行比对，根据比对的结果判断犯相关疾病的风险；数据存储单元；基于cfDNA的全基因组测序可以达到超高灵敏的检测，可以在实体恶性肿瘤中观察到的数千个体细胞突变的累积信号。

Description

预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用

技术领域

本发明属于生物技术领域，具体涉及一种预测cfDNA的组织特异性来源及相关疾病概率评估系统及其应用。

背景技术

循环核酸(cfDNA)主要存在于人的循环血浆，尿液和其他体液中。cfDNA包含双链DNA片段，这些片段非常短(小于200bp)，并且浓度非常低。在健康个体中，血浆cfDNA被认为主要源自造血谱系正常细胞的凋亡。早期的研究发现cfDNA存在于循环系统中且半衰期很短，并有研究者提出了一种cfDNA从凋亡细胞中持续释放以及快速降解或过滤过程的统计分析模型。近年来，基于cfDNA的非侵入性诊断方法已经在妇幼医学领域实现，且商业化。例如，在孕妇中，约有10％–15％的cfDNA来自胎盘滋养细胞，在高危妊娠中普遍使用基于cfDNA的胎儿遗传异常筛查方法筛查唐氏综合征。在肿瘤学中，通过量化肿瘤脱落的cfDNA中的突变或非整倍性来监测晚期癌症越来越受到关注。在移植医学中，同种异体移植排斥事件可能与由移植的实体器官贡献的异常高水平的供体来源的cfDNA片段相关，从而凭借异常cfDNA信号评估排斥风险。尽管目前基于cfDNA的鉴别诊断疾病的方法取得一些进步，但都存在着共同的局限性，即需要遗传学差异的精准鉴别来达到实际的精准应用，例如需要比较胎儿与母亲，肿瘤与正常组织，供体与受体之间的cfDNA的差异性，这些方面的工作目前都是需要进一步完善并提升鉴别准确率的。

除上述领域外，研究者在慢性疾病(如心血管疾病，包括冠心病，心肌梗死，中风)患者和自身免疫性疾病患者中陆续发现cfDNA水平相对于健康对照人群普遍显著升高，这可能是由于组织损伤引起的，但是由于缺少遗传差异，目前无法通过cfDNA进行专门监测。而上述疾病在临床上还非常缺乏有效且快速的鉴别诊断和筛查的分子学方法，以至于广大患者群体处于缺乏精细化预判与管理的高危医学盲区，从而无法提升临床高告知率和降低死亡率。此外，即使在肿瘤学领域，cfDNA序列携带者的突变，并以此能够监控肿瘤来源和纯度，然而突变的含量比例在血浆分布及其微弱，因此难以稳定准确达到理想的起源组织分析的要求。

近期研究报道了cfDNA核酸片段可能携带着核小体或染色体的特征进入了血浆和循环系统，从而有可能凭借cfDNA片段大小推测出他所代表着的相对应的起源组织中核小体附着在基因组上的状态和物理占位分布特征。有研究报道了cfDNA能够对应到染色体上的核小体(约147bp)的峰分布特征和染色体(核小体+接头组蛋白；约167bp)对应的峰。目前，有一些假设或者间接的证据表明，与健康状态相比，特定的生理状况或疾病过程中的很大比例的cfDNA可能来自损伤疾病器官的凋亡细胞，cfDNA具有特定的损伤的组织特征与基因表达。因此，cfDNA具有一定潜能作为组织(包括肿瘤)损伤的无创非侵入性检测手段和技术应用于精准医学的临床实际工作指导，包括鉴别诊断和治疗方案指导和指定中。

测序技术的进步促进了个性化疾病风险分析和临床诊断。近年来，基于循环核酸(cfDNA)的非侵入性诊断取得了一些重大进展。它利用了死细胞将DNA片段释放到循环中的事实，并且某些DNA片段带有指示其起源组织的信息。根据用于识别cfDNA溯源的信号，现有方法可分为三类：基于cfDNA突变的方法，基于甲基化模式的方法和基于cfDNA片段模式的方法。在基于cfDNA突变的方法中，某些疾病的驱动基因中的SNP信息或检测到的突变被用于识别cfDNA的组织起源。开发了基于甲基化模式的方法，以基于组织特异性甲基化模式识别cfDNA的组织溯源。在基于cfDNA突变的方法中，不同的SNP或遗传突变可以指示cfDNA的组织来源。SNP基因分型信息可以通过基于全血样本的SNP标记获得。一旦发现了疾病的独特SNP或致病突变，通常会使用基于PCR的技术和基于测序的方法来检测cfDNA中的突变。随着被评估靶标数量的增加，基于PCR的技术变得越来越不实用；但是二代高通量测序技术的敏感性和特异性会随患者携带突变的cfDNA的水平和疾病突变的异质性而变化而最终导致结果不稳定。尽管不同的错误抑制策略已经被提出，基于ctDNA突变的检测与分析方法仍然存在很大的挑战。有方法提出单分子标签(UMI)标记技术用于消减因为PCR扩增引入的假阳性测序片段，降低ctDNA突变测序错误率，但基于cfDNA的驱动突变来判别组织溯源从组织表达特征的全局性角度讲仍然是不充分的不可靠的，无法区分cfDNA片段来自哪个组织的细胞。另外，还有基于DNA甲基化的cfDNA组织溯源分析方法。甲基化是一种表观遗传修饰，它是在胞嘧啶残基上添加共价甲基，尤其是在CpG二核苷酸中。不同的组织或细胞类型，包括正常的和异常的，具有不同的DNA甲基化模式。此外，DNA甲基化的改变与疾病有着非常密切的关系。例如，肿瘤抑制基因(如MLH1)中异常的启动子高甲基化会导致基因沉默，并导致肿瘤的发生；DPP6，MRPL36和MEST等肿瘤基因中异常的启动子低甲基化激活基因表达并促进细胞的无限增殖。当cfDNA从死细胞中释放时，胞嘧啶残基上的DNA甲基化修饰不会消失。因此，组织特异性甲基化模式被提出有希望用于指示cfDNA的组织来源。目前有研究报道了根据公开的DNA甲基化数据提取组织特异性甲基化位点或区域的研究。在基于CpG位点的方法中，每个CpG位点的甲基化信号是平均信号，它掩盖了来自组织衍生的cfDNA的微小部分的甲基化信号。此外，通过疾病样本和正常样本的甲基化数据之间的比较选择的差异甲基化的CpG位点表现出不同程度的异质性，这损害了临床诊断的预测准确性。因此，需要一个更灵敏的指标来扩增来自组织的cfDNA的甲基化信号，并且在选择CpG并计算甲基化分数进行分类时，目前还没有方法充分考虑到CpG位点异质性的不同程度，大大影响了组织溯源的判别能力。其次，在基于区域甲基化分析方法中，有方法选择具有密集CpG位点或高度共甲基化CpG位点的区域作为潜在的甲基化标记，该方法假设预计在相邻CpG位点之间具有相似的甲基化状态，通过采用如“甲基化不一致”或“甲基化单倍型负荷”的度量标准来训练数据进而筛选潜在的甲基化信号。但是，大多数甲基化信号混杂着不同来源的组织，特征标记的甲基化信号通常是根据训练数据中不同组织或正常血浆和患病组织中甲基化信号的线性组合来建模的，参数代表其相应的比例贡献。联立方程中的参数通过反卷积或最大似然算法求解,因此，反卷积和近似求解的方法惠带来的偏差并降低预测精度。最后，基于cfDNA甲基化的方法中，甲基化检测主要采用亚硫酸氢盐的转化，其转化率以及亚硫酸氢盐测序数据的覆盖范围和深度对预测精度也有很大的影响。亚硫酸氢盐的转化率和偏差随不同的文库制备方法而变化。

综上所述，目前基于cfDNA突变或甲基化技术追溯组织起源的方法的技术不足，分别体现在cfDNA特征的稀疏性，低频率，稳定性不高，单一信号维度/变异类型不足以重构出cfDNA的原始组织来源的全局性信号。另外甲基化检测本身也受制于亚硫酸盐转化效率，敏感度与特异度的问题都是技术的瓶颈。

发明内容

本发明的目的是提供一种预测cfDNA的组织特异性来源及相关疾病概率评估系统，为了实现上述目的，本发明采用以下技术方案：

一种预测cfDNA的组织特异性来源及相关疾病概率评估系统，包括：

全基因组测序单元，用于获取样品中的cfDNA，并对cfDNA进行全基因组测序，得到全基因组片段；

数据预处理单元，用于去除全基因组片段的接头，获得统计指标，并对去除接头后的全基因组片段进行序列比对，根据此比对结果及统计指标删除重复序列并进行序列排序，得到排序后序列；

数据分析单元，用于将排序后序列通过对核小体占位信号分布与人类不同细胞组织来源的转录组表达谱数据库进行比对，根据此比对的结果判断cfDNA的来源；还用于将数据排序后序列与细胞变异数据库进行比对，根据此比对的结果判断犯相关疾病的风险；

数据存储单元，用于存储现有的人类不同细胞组织来源的转录组表达谱数据库、细胞变异数据库和由数据分析单元得到的犯相关疾病的概率。

优选的，所述统计指标包括基于cfDNA序列的比对质量指标参数和测序覆盖度。

优选的，所述数据预处理单元还用于染色体不稳定性CNA得分评估计算，核小体占位信号以及与细胞系与组织来源表达谱的关联相关性得分。

优选的，所述细胞变异数据库包括SNV，SV和CNV的数据，核小体占位信号数据。

优选的，所述数据分析单元用于将获取的序列与细胞变异数据库进行比对时，具体步骤包括：

数据分析单元将排序后序列与细胞变异数据库进行比对，并使用pysam模块提取到包含变异的比对测序片段并提取所有唯一映射到目标变异信息，然后将所有提取的包含变异的比对测序片段进行后续肿瘤负荷模型构建训练与分类分析；

在本发明中提出推断：cfDNA WGS中观察到的患者特异性SNV的比例分数在N项独立的Bernoulli试验中遵循二项式分布，其中N是患者特异性突变图谱中SNV的数量(来自配对的肿瘤与胚系DNA对照的WGS数据所进行的标准SNV检测)。每个此类试验均包括多轮随机采样，具体取决于局部基因组区域测序覆盖的范围，其中每轮采样包含给定变体的DNA片段的概率被定义为肿瘤纯度(TF，即cfDNA库中循环肿瘤DNA的比例)。由于肿瘤亚克隆进化事件的存在，我们尚未明确建模杂合性或较低的VAF，因此本发明提出的伯努利模型可能会低估真实的TF)。

所述数据分析单元按照如下公式计算基于SNV的ctDNA定量：

M＝N(1-(1-TF)^cov)+μR；

其中，M代表样品中检测到的SNV数量，N代表患者特异性突变谱中SNV的总数，TF代表肿瘤比例，cov代表具有肿瘤特异性SNV的部位的局部覆盖率，μ代表与对照样本全基因组数据中评估的特定于患者的SNV谱相对应的平均噪声率，R表示涵盖特定于患者的突变体的读长read总数；这种关系允许即使是在等位基因极低的突变等位基因本身不能提供信息的情况下，能从突变检测率计算TF。

为了解决具有不同突变图谱的患者之间测序背景噪声(μ)的变化，我们应用了针对患者的突变图谱来计算对照样本队列中的预期噪声分布。执行上述过程以检测对照样本或其他患者中的患者特异性SNV(跨患者分析)。在构建背景噪声模型过程中，需要计算到人为突变检测率(μ，σ)的平均值和标准差。然后可以通过将患者特定的检测率(在cfDNA中检测到的SNV数量/检测的测序片段＝M/R)转换为z得分以及适当的阈值(z>>1.2，相当于>80％的特异度)来定义可信的cfDNA肿瘤检测结果。特异度与敏感度的性能评价通过ROCR包统计。进而，依据探测到的患者的点突变来计算肿瘤TF浓度比例公式：

TF＝1-(1-[M-μ*R]/N)^(1/cov)

其中M代表样品中检测到的SNV数量，N代表患者特异性突变谱中SNV的总数(突变负荷)，TF代表肿瘤比例，cov代表具有肿瘤特异性SNV的部位的局部覆盖率，μ表示与对照WGS数据中评估的特定于患者的SNV谱相对应的平均噪声率(错误数/评估的读长read)，R表示涵盖特定于患者的突变体的读长read总数。这种关系允许即使是在等位基因极低的突变等位基因本身本身不能提供信息的情况下，能从突变检测率计算TF。

cfDNA CNV定量，为了获取肿瘤患者cfDNA内的染色体不稳定性指标，本发明提出了一种基于cfDNA的CNV定量计算的方法框架；所述数据分析单元在训练集样本中，对肿瘤组织、癌旁组织分析出CNA，依据训练集组织水平鉴定的CNA事件，鉴定cfDNA中ctDNA的CNV事件；采取动态滑动窗口bin技术，对bin区域内测序深度进行样本内标准化处理，bin内覆盖度/样本平均覆盖度；对cfDNA样本做z得分标准化处理：在每个500bp的基因组bin窗口区间内，计算统计覆盖度的中位数和中位数绝对偏差，最后按下述公式计算标准化后的覆盖度：

标准化覆盖度＝(bin-中位数)/MAD；

其中，MAD代表统计覆盖度的中位数和中位数绝对偏差；

所述数据分析单元将SNV与CNA特征整合，为了定义术前术后的肿瘤负荷，本发明采用基于ROC分析所确立的阈值。对于SNV维度的特征，采用>96％特异度，z值>4；对于CNA维度的特征，采用>90％特异度，z值>1.5、或-1.5；因为基于SNV特征维度的模型与基于CNA特征维度的模型是独立生物学事件，不具有统计相关性，因此我们对其进行联合，以增强单一基因组特征对检出覆盖的偏差和减少检出率低的传统问题。本发明方案采用整合SNV与CNA的信号zscore,即综合肿瘤负荷TB z-score＝SNV z-score+CNA z-score，分别对肿瘤cfDNA与健康人的TB z-score进行计算，计算ROC与阈值筛选。

cfDNA CNA信号值计算，在患者cfDNA(可能来自手术前或手术后的样本)与健康人cfDNA之间比较后会发现：在基因组区间bin内将存在覆盖度具有因肿瘤特有扩增的正向偏移趋势和因肿瘤特有缺失造成的负向偏移的趋势。因此，在选定宽度的基因组区间(bin＝500bp)内，计算肿瘤cfDNA样本相对健康人群参考集cfDNA的CAN或SNV信号强度值CNAScore或SNAScore：

CNA Score＝Sum{P(i)-N(i)*sign(T(i)-N(i))，from i＝1..to M

SNA Score＝Sum{P(i)-N(i)*sign(T(i)-N(i))，from i＝1..to M

其中，P(i)与N(i)表示标准化后的在第i个bin区间上的肿瘤cfDNA的覆盖度深度z值得分和健康人对照组的cfDNA的覆盖度深度z值得分，sign(T(i)-N(i))则表示在第i个基因组区间上，肿瘤cfDNA的CAN或SNA区段分割趋势，+1表示扩增事件，-1表示缺失事件；

最后，为了获取判别CNA事件的阈值决定样本的变异负荷，CNA Score信号值得均值与方差(s.d.(μ,σ))。可信的CNA事件被定义为CNA z score＝(CNA score-μ)/σ，且>1.2(相当于特异度>80％)。判别方法的敏感度与特异度采用ROCR计算。其中，为了计算CNA的敏感度，采用抽样方法对CNA区域的测序片段进行随机抽样，并重算CNA z score分值，最后与健康人群CNA z score比较。

可信的CNA事件为CNA z score＝(CNA score-μ)/σ，且>1.2；

可信的SNA事件为SNA z score＝(SNA score-μ)/σ，且>1.2。

优选的，该系统还包括降噪单元，用于基于SNV的ctDNA定量前的降噪和基于CNV的ctDNA定量后的降噪；

降噪单元用于基于SNV的ctDNA定量前的降噪包括：根据每次检测的结果，计算机进行学习、更新，并基于机器学习的方法进行cfDNA测序数据的误差降噪处理，以区分是真实的体细胞变异与人为系统误差造成的变异；

降噪单元用于基于CNV的ctDNA定量后的降噪包括：对于来源健康人的cfDNA，在z得分标准化操作处理后，需要对覆盖度绝对数>1.5倍MAD的区域进行过滤操作。源自可能的克隆性造血的体细胞CNA事件也会在cfDNA CNA分析中产生偏差，因为大多数cfDNA都来自血细胞。为了评估这种潜在的人为因素，我们使用NBIC-seq(v0.7)对肿瘤cfDNA匹配的PMBCWGS数据进行CNA分析评估，还使用B-等位基因频率分析检查了杂合性事件的拷贝中性丢失。在PBMC中，选择log2大于0.2的片段(长度>1Mb)认定为为扩增，且选择log2小于-0.235的片段认定为缺失(分别对应于纯度为30％的基因组的单拷贝增益或缺失)，且这些选出的PMBC CNA将在肿瘤cfDNA结果中被过滤，以获得患者特异性CNA区间。

采用基于机器学习的方法进行低负荷cfDNA测序数据的误差降噪处理，以区分是真实的体细胞变异与人为系统误差造成的变异。改降噪处理操作参与cfDNA肿瘤纯度的计算。以测序片段读长(read)为中心的降噪方法采用了SVM框架。在模型训练中包含了如下5个已知能代表测序错误模式的特征，这些特征与我们的对群中的人为检测误差的控制有关，包括：(1)变异碱基质量(VBQ)表明了我们对特定错配的可信度，这种错配表现出了显着的序列错误富集度；(2)平均读取碱基质量(MRBQ)代表特定读取对中测序的总体质量；(3)读入位置(PIR)捕获特定反应循环周期引入的错误，因为3'与测序错误相关性更高。(4)R1和R2读长序列对之间的一致性，其中不一致与测序错误相关。(5)比对质量(MQ)是特定比对方式中提供一种比对可信度的一种度量标准。为了训练以读长为中心的SVM模型，我们首先专注于构建一个高品质的阳性集，包括真实的核酸突变与测序误差。对于高可信度的真实突变，我们的目标是提供高支持性的判别标准,在每个训练集个体上控制样上采用使用GATK(v4.0)使用-L参数仅指定dbSNP(内部版本151)变体中的返回位点。对于错误突变，我们通过使用SAMtools mpileup执行来鉴定整个基因组的错配，从而搜索支持程度较低的突变。然后将变异依据覆盖度(覆盖率>10倍)进行过滤，同时强制该变异具有≤0.1VAF的低支持。在模型训练中，采用sklearn的SVM工具包的线性SVM支持向量机算法和随机森林算法，经过性能比较，SVM模型效果更佳。

健康人参考数据集的创建，来自cfDNA于来自肿瘤组织或单核细胞PBMC的gDNA测序深度总显示出显著的差异性，主要因素是不同的文库构建方式(分别采用基于PCR法和无PCR法)，以及非均一性的cfDNA覆盖度(主要由DNA降解与表观组特征，如染色质接近性异质程度，中心粒区域，以及难以测序的区域所决定)。为了鉴别非特异性误差导致的cfDNACNV，本单元构建健康对照人的cfDNA参考集合，用于区分肿瘤特异CNA事件。本发明采用20个健康人外周血cfDNA样本，同样采用WGS，并采用与肿瘤患者cfDNA同等处理单元进行处理(2-8步骤)，并将其混合比对文件合成一个测序覆盖度统计文件。健康人参考数据集获得的z得分用于后续患者cfDNA特异CNA的鉴别分析；健康人参考数据集储存于数据存储单元中。

优选的，所述数据预处理单元还用于判断并去除污染样本。

优选的，所述数据预处理单元还用于判断并去除污染样本包括采取一致性得分指标参数分析实验cfDNA样本与配对内参样本，包括外周血白细胞基因组和肿瘤基因组的测序数据，用于评估样本个体内污染。

优选的，所述数据预处理单元用于序列比对采用GRCh37基因组版本。

有益效果为：将cfDNA进行深度测序会产生密集的、全基因组范围内的核小体足迹与占位分布特征。本发明的系统的工作原理中采用了高通量检测方法，即使用深度测序来绘制人类cfDNA所携带的核小体定位信息图谱，并构建高效分析算法并行高效的分析平台，将cfDNA核小体分布印记图谱与人类不同细胞组织来源的转录组表达谱数据进行关联分析，从而能够鉴定cfDNA物种的组织起源。本发明的系统主要应用于因组织损伤造成的疾病的早期探查和辅助分子诊断。本发明的系统通过无创外周血采集样本的便捷方式配合高通量基因组测序技术和大数据分析算法，为广泛的疾病，如肿瘤和心血管疾病所造成的器官损伤部位与程度，治疗疗效，肿瘤复发转移与不明原因结节等情况进行全方位的探查评估。

本发明还提供一种系统在预测cfDNA的组织特异性来源及相关疾病概率评估工具中的应用；此处的工具包括，基因组浏览器可视化组件，染色体不稳定性可视化组件工具，核小体占位分布统计工具，以及表达谱与cDNA相关性计算组件。

附图说明

图1为实施例1中预测cfDNA的组织特异性来源及相关疾病概率评估系统示意图；

图2为实施例4中预测cfDNA的组织特异性来源及相关疾病概率评估方法流程图。

具体实施方式

术语说明：

术语“包括”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元；

术语“人类不同细胞组织来源的转录组表达谱数据库”是指现有的论文、专利等报道的人类不同细胞的组织的转录组表达谱。

术语“INDEL”是指插入缺失标记，指的是两种亲本中在全基因组中的差异，相对另一个亲本而言，其中一个亲本的基因组中有一定数量的核苷酸插入或缺失(Jander etal.,2002)。

术语“SNV”是指单核苷酸变异，通俗的说法就是单个DNA碱基的不同。

术语“SV”是指基因组结构性变异(Structural variation，简称SV)。

术语“CNV”是指目前存在两种利用Read depth的信息检测大拷贝数变异(Copynumber variation，包括丢失序列和序列重复倍增，简称CNV)的策略。一种是通过检测样本在一个参考基因组上read的深度分布情况来检测CNV，适用于单样本；另一种则是通过和识别出比较两个样本中所存在的丢失和重复倍增区，以此来获得相对的CNV，适用于case-control模型的样本。这有点像CGH芯片。

术语“序列”是指4种核苷酸(A、T、G、C)排列组成。

对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

还需要说明的是，以下的具体实施例可以相互结合，对于其中相同或相似的概念或过程可能在某些实施例中不再赘述。

实施例1

如图1所示，一种预测cfDNA的组织特异性来源及相关疾病概率评估系统包括：全基因组测序单元：用于获取样品中的cfDNA，并对cfDNA进行全基因组测序，得到全基因组片段；

数据预处理单元：用于去除全基因组片段的接头，获得统计指标，并对去除接头后的全基因组片段进行序列比对，其中序列比对采用GRCh37基因组版本，根据此比对结果及统计指标删除重复序列并进行序列排序，得到排序后序列；并且获得统计指标，以及将序列进行INDEL重比和质量得分矫正；其中，统计指标不仅仅基于cfDNA序列的比对质量指标参数和测序覆盖度；

数据分析单元：一方面用于将排序后序列通过对核小体占位信号分布与人类不同细胞组织来源的转录组表达谱数据库进行比对，根据此比对的结果判断cfDNA的来源；

另一方面，将数据预处理单元处理的序列与细胞变异数据库进行比对，所述细胞变异数据库包括SNV，SV和CNV的数据，核小体占位信号数据；根据比对的结果判断犯相关疾病的风险，具体为：数据分析单元使用pysam模块高效地提取包含变异的比对测序片段，并提取所有唯一映射到目标变异信息，然后将所有提取的测序读长进行后续肿瘤负荷模型构建训练与分类分析；

数据分析单元基于SNV的ctDNA定量，按照如下公式计算基于SNV的ctDNA定量：

M＝N(1-(1-TF)^cov)+μR；

其中，M代表样品中检测到的SNV数量，N代表患者特异性突变谱中SNV的总数，TF代表肿瘤比例，cov代表具有肿瘤特异性SNV的部位的局部覆盖率，μ代表与对照样本全基因组数据中评估的特定于患者的SNV谱相对应的平均噪声率，R表示涵盖特定于患者的突变体的读长read总数；这种关系允许即使是在等位基因极低的突变等位基因本身本身不能提供信息的情况下，能从突变检测率计算TF。最终获得SNV维度的特征。

数据分析单元基于CNV的ctDNA定量，首先，在训练集样本中，对肿瘤组织、癌旁组织分析出CNV，依据训练集组织水平鉴定的CNV事件，鉴定cfDNA中ctDNA的CNV事件；采取动态滑动窗口bin技术，对bin区域内测序深度进行样本内标准化处理，bin内覆盖度/样本平均覆盖度；对cfDNA样本做z得分标准化处理：在每个500bp的基因组bin窗口区间内，计算统计覆盖度的中位数和中位数绝对偏差，最后按下述公式计算标准化后的覆盖度：

标准化覆盖度＝(bin-中位数)/MAD

其中，MAD代表统计覆盖度的中位数和中位数绝对偏差；

最终获得CNA维度的特征。

数据分析单元将SNV与CNA特征整合，对于获取的SNV维度的特征，采用>96％特异度，z值>4；对于获取的CNA维度的特征，采用>90％特异度，z值>1.5、或-1.5，分别计算SNV与CNA的信号z score,然后按照公式TB z-score＝SNV z-score+CNA z-score计算疾病的可能性；

数据分析单元计算肿瘤cfDNA样本相对健康人群参考集cfDNA的CAN或SNV信号强度值CNA Score或SNAScore：

CNA Score＝Sum{P(i)-N(i)*sign(T(i)-N(i))

SNA Score＝Sum{P(i)-N(i)*sign(T(i)-N(i))

其中，M表示无重复基因组区间的数量；P(i)与N(i)表示标准化后的在第i个bin区间上的肿瘤cfDNA的覆盖度深度z值得分和健康人对照组的cfDNA的覆盖度深度z值得分，sign(T(i)-N(i))则表示在第i个基因组区间上，肿瘤cfDNA的CAN或SNA区段分割趋势，+1表示扩增事件，-1表示缺失事件；

可信的CNA事件为CNA z score＝(CNA score-μ)/σ，且>1.2(相当于特异度>80％)；

可信的SNA事件为SNA z score＝(SNA score-μ)/σ，且>1.2(相当于特异度>80％)；μ＝健康人中指标的均值、σ健康人中指标的方差说明。

数据存储单元：存储现有的人类不同细胞组织来源的转录组表达谱数据库、细胞变异数据库和每次预测产生的数据。

实施例2

在实施例1的基础上，本实施例还包括降噪单元，降噪单元用于处理基于SNV的ctDNA定量前的降噪和基于CNV的ctDNA定量后的降噪；

降噪单元用于处理基于SNV的ctDNA定量前的降噪，具体如下：降噪单元根据每次检测的结果进行学习和更新，并根据学习的方法进行cfDNA测序数据的误差降噪处理以区分是真实的体细胞变异与人为系统误差造成的变异；

降噪单元用于处理基于CNV的ctDNA定量后的降噪，具体如下：降噪单元对肿瘤cfDNA匹配的PMBC WGS数据进行CNA分析评估，且使用B-等位基因频率分析检查了杂合性事件的拷贝中性丢失，在PBMC中，选择log2大于0.2的片段认定为扩增，且选择log2小于-0.235的片段认定为缺失，且这些选出的PMBC CNA将在肿瘤cfDNA结果中被过滤，以获得患者特异性CNA区间。

cfDNA测序误差降噪处理，相对于传统基于单一核酸碱基位置上测序片段情况来判断SNV准确率方法而言，本发明采用基于降噪单元学习的方法进行低负荷cfDNA测序数据的误差降噪处理，以区分是真实的体细胞变异与人为系统误差造成的变异。改降噪处理操作参与cfDNA肿瘤纯度的计算。以测序片段读长(read)为中心的降噪方法采用了SVM框架。在模型训练中包含了如下5个已知能代表测序错误模式的特征，这些特征与我们的对群中的人为检测误差的控制有关，包括：(1)变异碱基质量(VBQ)表明了我们对特定错配的可信度，这种错配表现出了显着的序列错误富集度；(2)平均读取碱基质量(MRBQ)代表特定读取对中测序的总体质量；(3)读入位置(PIR)捕获特定反应循环周期引入的错误，因为3'与测序错误相关性更高。(4)R1和R2读长序列对之间的一致性，其中不一致与测序错误相关。(5)比对质量(MQ)是特定比对方式中提供一种比对可信度的一种度量标准。为了训练以读长为中心的SVM模型，我们首先专注于构建一个高品质的阳性集，包括真实的核酸突变与测序误差。对于高可信度的真实突变，我们的目标是提供高支持性的判别标准,在每个训练集个体上控制样上采用使用GATK(v4.0)使用-L参数仅指定dbSNP(内部版本151)变体中的返回位点对于错误突变，我们通过使用SAMtools mpileup执行来鉴定整个基因组的错配，从而搜索支持程度较低的突变。然后将变异依据覆盖度(覆盖率>10倍)进行过滤，同时强制该变异具有≤0.1VAF的低支持。在模型训练中，采用sklearn的SVM工具包的线性SVM支持向量机算法和随机森林算法，经过性能比较，SVM模型效果更佳。

实施例3

在实施例1或2的基础上，数据预处理单元还用于判断并去除污染样本，具体如下：数据预处理单元采取一致性得分指标参数分析实验cfDNA样本与配对内参样本，包括外周血白细胞基因组和肿瘤基因组的测序数据，用于评估样本个体内污染。

实施例4

本实施例提供一种基于实施例3所公开系统的预测cfDNA的组织特异性来源及相关疾病概率评估方法，如图2所示，具体如下：

S1：将获取的cfDNA进行全基因组测序；

S2：去除步骤一获取的全基因组片段的接头，进行序列比对，序列比对采用GRCh37基因组版本，比对结果删除重复序列并进行序列排序；并且获得序列比对质量指标参数与测序覆盖度；

S3：将S2获取的序列与人类不同细胞组织来源的转录组表达谱数据库进行比对，根据比对的结果判断cfDNA的来源；

S4：将S2获取的序列与细胞变异数据库进行比对，根据比对的结果判断是否具有相关疾病的风险；细胞变异数据库包括SNV，SV和CNV的数据，核小体占位信号数据；

S5：cfDNA测序误差降噪处理，相对于传统基于单一核酸碱基位置上测序片段情况来判断SNV准确率方法而言，本发明在本单元模块采用基于机器学习的方法进行低负荷cfDNA测序数据的误差降噪处理，以区分是真实的体细胞变异与人为系统误差造成的变异。改降噪处理操作参与cfDNA肿瘤纯度的计算。以测序片段读长(read)为中心的降噪方法采用了SVM框架。在模型训练中包含了如下5个已知能代表测序错误模式的特征，这些特征与我们的对群中的人为检测误差的控制有关，包括：(1)变异碱基质量(VBQ)表明了我们对特定错配的可信度，这种错配表现出了显着的序列错误富集度；(2)平均读取碱基质量(MRBQ)代表特定读取对中测序的总体质量；(3)读入位置(PIR)捕获特定反应循环周期引入的错误，因为3'与测序错误相关性更高。(4)R1和R2读长序列对之间的一致性，其中不一致与测序错误相关。(5)比对质量(MQ)是特定比对方式中提供一种比对可信度的一种度量标准。为了训练以读长为中心的SVM模型，我们首先专注于构建一个高品质的阳性集，包括真实的核酸突变与测序误差。对于高可信度的真实突变，我们的目标是提供高支持性的判别标准,在每个训练集个体上控制样上采用使用GATK(v4.0)使用-L参数仅指定dbSNP(内部版本151)变体中的返回位点。对于错误突变，我们通过使用SAMtools mpileup执行来鉴定整个基因组的错配，从而搜索支持程度较低的突变。然后将变异依据覆盖度(覆盖率>10倍)进行过滤，同时强制该变异具有≤0.1VAF的低支持。在模型训练中，采用sklearn的SVM工具包的线性SVM支持向量机算法和随机森林算法，经过性能比较，SVM模型效果更佳。

S6：基于SNV的ctDNA定量，在本发明中提出推断：cfDNA WGS中观察到的患者特异性SNV的比例分数在N项独立的Bernoulli试验中遵循二项式分布，其中N是患者特异性突变图谱中SNV的数量(来自配对的肿瘤与胚系DNA对照的WGS数据所进行的标准SNV检测)。每个此类试验均包括多轮随机采样，具体取决于局部基因组区域测序覆盖的范围，其中每轮采样包含给定变体的DNA片段的概率被定义为肿瘤纯度(TF，即cfDNA库中循环肿瘤DNA的比例)。由于肿瘤亚克隆进化事件的存在，我们尚未明确建模杂合性或较低的VAF，因此本发明提出的伯努利模型可能会低估真实的TF)。因此，覆盖率，突变负荷(每个肿瘤的SNV)与cfDNA WGS和TF中检测到的变异数量之间的关系对应于以下方程式:

M＝N(1-(1-TF)^cov)+μ*R

其中M代表样品中检测到的SNV数量，N代表患者特异性突变谱中SNV的总数(突变负荷)，TF代表肿瘤比例，cov代表具有肿瘤特异性SNV的部位的局部覆盖率，μ表示与对照WGS数据中评估的特定于患者的SNV谱相对应的平均噪声率(错误数/评估的读长read)，R表示涵盖特定于患者的突变体的读长read总数。这种关系允许即使是在等位基因极低的突变等位基因本身不能提供信息的情况下，能从突变检测率计算TF。

TF＝1-(1-[M-μ*R]/N)^(1/cov)

S7：cfDNA CNV定量，为了获取肿瘤患者cfDNA内的染色体不稳定性指标，本发明提出了一种基于cfDNA的CNV定量计算的方法框架。首先，在训练集样本中，我们对肿瘤组织，肿瘤癌旁组织分析出CNV(包括缺失型，扩增型与拷贝数中性的杂合型缺失型)。依据训练集组织水平鉴定的CNV事件，鉴定cfDNA中ctDNA的CNV事件。我们采取动态滑动窗口bin技术(200bp-1kb范围)，对bin区域内测序深度进行样本内标准化处理(bin内覆盖度/样本平均覆盖度)。为了校对样本特定的平均深度的差异，需要对cfDNA样本做z得分标准化处理：在每个500bp的基因组bin窗口区间内，计算统计覆盖度的中位数和中位数绝对偏差(MAD)，最后按下述公式计算标准化后的覆盖度：

标准化覆盖度＝(bin-中位数)/MAD

S8：健康人参考数据集的创建，来自cfDNA于来自肿瘤组织或单核细胞PBMC的gDNA测序深度总显示出显著的差异性，主要因素是不同的文库构建方式(分别采用基于PCR法和无PCR法)，以及非均一性的cfDNA覆盖度(主要由DNA降解与表观组特征，如染色质接近性异质程度，中心粒区域，以及难以测序的区域所决定)。为了鉴别非特异性误差导致的cfDNACNV，本单元构建健康对照人的cfDNA参考集合，用于区分肿瘤特异CNA事件。本发明采用20个健康人外周血cfDNA样本，同样采用WGS，并采用与肿瘤患者cfDNA同等处理单元进行处理(2-8步骤)，并将其混合比对文件合成一个测序覆盖度统计文件。健康人参考数据集获得的z得分用于后续患者cfDNA特异CNA的鉴别分析。

S9：去除cfDNA CNA偏差的降噪处理，对于来源健康人的cfDNA，在z得分标准化操作处理后，需要对覆盖度绝对数>1.5倍MAD的区域进行过滤操作。源自可能的克隆性造血的体细胞CNA事件也会在cfDNA CNA分析中产生偏差，因为大多数cfDNA都来自血细胞。为了评估这种潜在的人为因素，我们使用NBIC-seq(v0.7)对肿瘤cfDNA匹配的PMBC WGS数据进行CNA分析评估，还使用B-等位基因频率分析检查了杂合性事件的拷贝中性丢失。在PBMC中，选择log2大于0.2的片段(长度>1Mb)认定为为扩增，且选择log2小于-0.235的片段认定为缺失(分别对应于纯度为30％的基因组的单拷贝增益或缺失)，且这些选出的PMBC CNA将在肿瘤cfDNA结果中被过滤，以获得患者特异性CNA区间。

S10：cfDNA CNA信号值计算，在患者cfDNA(可能来自手术前或手术后的样本)与健康人cfDNA之间比较后会发现：在基因组区间bin内将存在覆盖度具有因肿瘤特有扩增的正向偏移趋势和因肿瘤特有缺失造成的负向偏移的趋势。因此，在选定宽度的基因组区间(bin＝500bp)内，计算肿瘤cfDNA样本相对健康人群参考集cfDNA的CNA信号强度值CNAScore：

CNA Score＝Sum{P(i)-N(i)*sign(T(i)-N(i))},from i＝1..to M

其中，M表示无重复基因组区间的数量；P(i)与N(i)表示标准化后的在第i个bin区间上的肿瘤cfDNA的覆盖度深度z值得分和健康人对照组的cfDNA的覆盖度深度z值得分。sign(T(i)-N(i))则表示在第i个基因组区间上，肿瘤cfDNA的CNA区段分割趋势(+1表示扩增事件，-1表示缺失事件)。

最后，为了获取判别CNA事件的阈值决定样本的变异负荷，CNA Score信号值得均值与方差(s.d.(μ,σ))。可信的CNA事件被定义为CNA zscore＝(CNA score-μ)/σ，且>1.2(相当于特异度>80％)。判别方法的敏感度与特异度采用ROCR计算。其中，为了计算CNA的敏感度，采用抽样方法对CNA区域的测序片段进行随机抽样，并重算CNA z score分值，最后与健康人群CNA z score比较。

S11：SNV与CNA特征整合，为了定义术前术后的肿瘤负荷，本发明采用基于ROC分析所确立的阈值。对于SNV维度的特征，采用>96％特异度，z值>4；对于CNA维度的特征，采用>90％特异度，z值>1.5、或-1.5；因为基于SNV特征维度的模型与基于CNA特征维度的模型是独立生物学事件，不具有统计相关性，因此我们对其进行联合，以增强单一基因组特征对检出覆盖的偏差和减少检出率低的传统问题。本发明方案采用整合SNV与CNA的信号z score,即综合肿瘤负荷TB z-score＝SNV z-score+CNA z-score，分别对肿瘤cfDNA与健康人的TBz-score进行计算，计算ROC与阈值筛选。

以上所有实施例中的相关疾病包括但不限于炎症和癌症。

实验例1

S1：抽提血浆cfDNA

实验仪器：实时荧光定量PCR仪、扩增仪、离心机、酶标仪。

主要试剂：介孔纳米磁珠

血液样本：外周血样本取自21例志愿者，年龄20-75岁。分别用抗凝采血管抽取21例志愿者的外周静脉血5ml，并且于采血后的4h内进行抽提血浆cfDNA实验。其中，志愿者的具体信息及编号如下表1所示。

表1

S2：实验方法

S21：取血浆350ul，分别加入介孔纳米磁珠50ul；

S22：加入NaCl溶液，调节Na+浓度为0.4mol/L，旋涡震荡均匀；

S23：室内吸附10min后，再次旋涡震荡均匀后立即置于磁力吸附架上，静置5s；

S24：吸弃液体，加入洗涤液300ul，旋涡震荡均匀后立即置于磁力吸附架上，静置5s；

S25：重复步骤S24一次；

S26：室内开盖干燥10min，加入去离子水100ul，旋涡震荡均匀；

S27：65℃金属浴10min，旋涡震荡均匀后立即置于磁力吸附架上，静置5s；

S28：迅速将上清转移至新的离心管中，即得到了血浆cfDNA，-20℃保存。

S3：采用实施例3所述的系统对步骤S2得到的一部分血浆cfDNA进行预测cfDNA的组织特异性来源进行分析，结果如表2所示，

表2

根据表2结果可知，采用实施例3所公开的系统预测21个样本的cfDNA的组织特异性来源，结果均准确，说明提供的预测cfDNA的组织特异性来源及相关疾病评估系统准确性高，可用于推广使用。

实验例2

将实验例1中的步骤S2获得的一部分血浆cfDNA用于评估实施例3所述的系统的相关疾病概率评估，结果如表3所示，表3

根据表3结果可知，采用本实施例的方法预测21个样本的相关疾病概率评估，结果均准确。说明本发明提供的预测cfDNA的组织特异性来源及相关疾病评估系统准确性高，可用于推广使用。

综上所述，本发明对基因组的序列特征的广度的检测所带来的优点可以取代测序的深度带来的漏检的弊端，以克服cfDNA丰度低的缺陷。基于cfDNA的全基因组测序可以达到超高灵敏的检测，可以在实体恶性肿瘤中观察到的数千个体细胞突变的累积信号。此外，本发明还进行了大量的实验证明了本发明提供的预测cfDNA的组织特异性来源及相关疾病评估系统可实现动态肿瘤负荷跟踪和术后残留疾病检测，且无创不具有副作用。同时，本发明提出的一个全新技术框架整合了全基因组不同变异类型(SNV，SV以及CNV)以及全基因组基于cfDNA的甲基化检测分析，从基因组变异到表观组学改变角度两大维度的整合共同来监测癌症负荷，从而能够进行超灵敏的检测，克服cfDNA单一基于DNA信号的局限性，并期望对低疾病负荷下的肿瘤给予最即时有效的治疗效。

在上述说明书的描述过程中：

术语“本实施例”、“本发明实施例”、“如……所示”、“进一步的”、“进一步改进的技术分方案”等的描述，意指该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中；在本说明书中，对上述术语的示意性表述不是必须针对相同的实施例或示例，而且，描述的具体特征、结构、材料或者特点等可以在任意一个或者多个实施例或示例中以合适的方式结合或组合；此外，在不产生矛盾的前提下，本领域的普通技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合或组合。

最后应说明的是：

以上各实施例仅用以说明本发明的技术方案，而非是对其的限制；

尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，本领域技术人员根据本说明书内容所做出的非本质改进和调整或者替换，均属本发明所要求保护的范围。

Claims

1.一种预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，包括：

数据分析单元，用于将排序后序列通过对核小体占位信号分布与人类不同细胞组织来源的转录组表达谱数据库进行比对，根据此比对的结果判断cfDNA的来源；还用于将数据排序后序列与细胞变异数据库进行比对，根据此比对的结果判断犯相关疾病的概率；

数据存储单元，用于存储现有的人类不同细胞组织来源的转录组表达谱数据库、细胞变异数据库和由数据分析单元得到的犯相关疾病的概率；

该系统还包括降噪单元，用于基于SNV的ctDNA定量前的降噪和基于CNV的ctDNA定量后的降噪；

其中，降噪单元基于SNV的ctDNA定量前的降噪中，具体步骤包括：根据每次检测的结果，计算机进行学习、更新，并基于机器学习的方法进行cfDNA测序数据的误差降噪处理；

降噪单元基于CNV的ctDNA定量后的降噪中，具体步骤包括：对肿瘤cfDNA匹配的PMBCWGS数据进行CNA分析评估，还使用B-等位基因频率分析检查了杂合性事件的拷贝中性丢失，在PBMC中，选择log2大于0.2的片段认定为扩增，且选择log2小于-0.235的片段认定为缺失，且这些选出的PMBC CNA将在肿瘤cfDNA结果中被过滤，以获得患者特异性CNA区间。

2.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述统计指标包括基于cfDNA序列的比对质量指标参数和测序覆盖度。

3.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述数据预处理单元还用于染色体不稳定性CNA得分评估计算，核小体占位信号、细胞系和组织来源表达谱的关联相关性得分。

4.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述细胞变异数据库包括SNV，SV和CNV的数据，核小体占位信号数据。

5.根据权利要求4所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述数据分析单元将排序后序列与细胞变异数据库进行比对时，具体步骤包括：

所述数据分析单元基于SNV进行ctDNA定量检测，得到样品中检测到的SNV数量，其中，样品中检测到的SNV数量为：

M＝N(1-(1-TF)^cov)+μR；

其中，M代表样品中检测到的SNV数量，N代表患者特异性突变谱中SNV的总数，TF代表数据库中肿瘤比例，cov代表具有肿瘤特异性SNV的部位的局部覆盖率，μ代表与对照样本全基因组数据中评估的特定于患者的SNV谱相对应的平均噪声率，R表示涵盖特定于患者的突变体的读长read总数；

所述数据分析单元在训练集样本中，对肿瘤组织、癌旁组织分析出CNA，依据训练集组织水平鉴定的CNA事件，鉴定cfDNA中ctDNA的CNV事件；采取动态滑动窗口bin技术，对bin区域内测序深度进行样本内标准化处理，bin内覆盖度/样本平均覆盖度；对cfDNA样本做z得分标准化处理：在每个500bp的基因组bin窗口区间内，计算统计覆盖度的中位数和中位数绝对偏差，最后按下述公式计算标准化后的覆盖度：

标准化覆盖度＝(bin-中位数)/MAD；

其中，MAD代表统计覆盖度的中位数和中位数绝对偏差；

所述数据分析单元将SNV与CNA特征整合，对于SNV数据维度的特征，采用>96％特异度，z值>4；对于CNA数据维度的特征，采用>90％特异度，z值>1.5、或-1.5，分别计算SNV与CNA的信号z score,然后按照公式TB z-score＝SNV z-score+CNA z-score计算相关疾病的概率；

计算肿瘤cfDNA样本相对健康人群参考集cfDNA的CAN或SNV信号强度值CNA Score或SNAScore：

CNA Score＝Sum{P(i)-N(i)*sign(T(i)-N(i))

SNA Score＝Sum{P(i)-N(i)*sign(T(i)-N(i))

可信的CNA事件为CNA z score＝(CNA score-μ)/σ，且CNA score>1.2；

可信的SNA事件为SNA z score＝(SNA score-μ)/σ，且CNA score>1.2；

μ＝健康人中指标的均值、σ健康人中指标的方差。

6.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述数据预处理单元还用于判断并去除污染样本。

7.根据权利要求6所述预测cfDNA的组织特异性来源及相关疾病概率评估系统，其特征在于，所述数据预处理单元还用于判断并去除污染样本，判断并去除污染样本的具体步骤包括：采取一致性得分指标参数分析实验cfDNA样本与配对内参样本，包括外周血白细胞基因组和肿瘤基因组的测序数据，用于评估样本个体内污染。

8.根据权利要求1所述预测cfDNA的组织特异性来源及相关疾病概率评估系统统，其特征在于，所述数据预处理单元进行序列比对时，采用GRCh37基因组版本进行序列比对。

9.一种如权利要求1-8任一项所述预测cfDNA的组织特异性来源及相关疾病概率评估系统在预测cfDNA的组织特异性来源及相关疾病概率评估工具中的应用。