一种基于染色质区域覆盖深度的癌症组织定位方法及系统
技术领域
本发明属于生物技术领域,特别涉及一种基于染色质区域覆盖深度的癌症组织定位方法及系统。
背景技术
液体活检在肿瘤早筛种具有广泛的应用前景,主要检测外周血游离DNA(circulating cell-free DNA,cfDNA),它主要是由细胞凋亡时受核小体保护的DNA脱落到血液循环组成的,cfDNA包括人体代谢循环中来源于肿瘤细胞和其他所有体细胞的DNA片段总和。由于肿瘤释放到循环血中的DNA数量很少,突变位点也有限,给肿瘤液态活检带来了很大的挑战性。导致即使突变能够监测肿瘤来源的cfDNA,它们也只能微弱地告知肿瘤的组织来源,无法准确获知肿瘤组织。
DNA甲基化同样能够用于肿瘤早筛,DNA甲基化是一种共价修饰,主要是在胞嘧啶环第五号碳原子上加入一个甲基基团,即5-甲基胞嘧啶,简称5mC(5-methylcytosine),且主要是在CpG(CG序列密集区)的背景下发生。DNA甲基化作为表观遗传重要的一种表现形式,能在不改变DNA序列的前提下改变遗传表现,具有分布广、数量多、密度大等优点,且具有组织特异性。理论上,cfDNA与其组织来源的基因组DNA的甲基化特征高度一致,因此,可利用甲基化信息实现组织溯源。目前可利用全基因组亚硫酸氢盐测序测定血浆cfDNA,应用机器学习选出癌种特异的甲基化位点,对每个癌种构建模型,通过模型比对判断癌种。但肿瘤DNA含量较低,全基因组亚硫酸氢盐目前在早期癌症患者中仍难以敏感地检测到这种低甲基化信号。且血浆cfDNA中有大量来源的造血系统提供的cfDNA,所以大量甲基化背景DNA分子可能影响测定的敏感性。再加上甲基化文库中经过亚硫酸氢盐处理,绝大多数的C都变成了T。所以甲基化文库中严重缺少C碱基,即碱基不平衡,导致测序得到的数据质量就较差,且经过PE过滤得到的有效的数据产量也会较低。
因此需要另一种能够准确预测癌症患者肿瘤位置的定位方法。
发明内容
针对上述问题,本发明涉及一种基于染色质区域覆盖深度的癌症组织定位方法及系统。
一种基于染色质区域覆盖深度的癌症组织定位方法,所述定位方法包括:
S1:根据不同癌种cfDNA数据、健康人的cfDNA数据以及组织特异开放染色质区域OCHROdb数据库,通过机器学习方法分别构建不同癌种组织定位模型;
S2:获取待检测cfDNA,并计算待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度;
S3:将所述待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度与所述各癌种组织定位模型进行机器学习预测分析,获得不同癌种组织定位模型的分值,根据分值定位患癌组织。
进一步的,所述步骤S1包括:
S1-1获取癌症患者、健康人外周血的cfDNA分子和白细胞,分别制备cfDNA分子和白细胞的全基因组文库;
S1-2将所述文库分别进行测序,对测序数据进行质控和过滤,获得第一数据;
S1-3将所述第一数据与人类参考基因组进行对比,舍弃重复数据,分别得到癌症患者和健康人cfDNA样本比对相同参考基因组的测序数据及白细胞样本比对相同参考基因组的测序数据,获得第二数据;
S1-4根据所述第二数据,计算成对测序片段的插入大小,并对插入大小进行过滤,保留目标插入片段大小的成对read,并根据组织特异开放染色质数据库获得特定组织特异开放染色质区间,计算每一个特定组织特异开放染色质区间内的目标插入片段大小的成对read数目,得到第三数据;
S1-5对所述第三数据进行相对拷贝数均一化、GC校正和测序数据量均一化,获得癌症患者和健康人每一个组织特异开放染色质区间内成对测序片段的实际覆盖深度,得到第四数据;
S1-6第四数据作为特征值,用机器学习的方法构建癌症组织定位模型。
进一步的,所述步骤S1-1具体包括:
S1-1-1获取待检测用户的血液,对所述血液进行分离,得到分离血浆;
S1-1-2从所述分离血浆中提取待检测的cfDNA分子;
S1-1-3将所述待检测的cfDNA分子进行末端修复、磷酸化、加A尾和片段两端连接接头操作,制备所述cfDNA分子的文库。
进一步地,所述步骤S1-2中过滤包括:从过滤测序接头序列、低质量序列和N碱基组成的序列;所述筛选包括对过滤后的数据中的数据碱基、碱基质量大于20的百分比(Q20)、碱基质量大于30的百分比(Q30)、GC含量、GC-AT_分离、N含量、平均读长长度、读长分布标准差、平均碱基质量以及Clean碱基比例进行筛选。
进一步地,所述步骤S1-4,保留插入片段大小为35-80bp、120-180bp的成对read。
进一步地,所述步骤S1-4,所述组织特异开放染色质通过OCHROdb数据库信息内开放染色质区域获得。
进一步地,所述步骤S1-5中,对所述第三数据进行相对拷贝数均一化处理的公式为:
Ci=ni/CNVs,
式中,Ci代表某个开放染色质区域短片段PE read或长片段PE read均一化覆盖深度,ni代表cfDNA样本某个开放染色质区域短片段PE read或长片段PE read数目,i代表不同开放染色质区域,CNVs代表该开放染色质区域所在基因组分段窗口的拷贝数;
其中,该开放染色质区域所在窗口的拷贝数CNVs的具体计算公式为:
式中,
和
分别代表cfDNA样本和白细胞基因组分段bins内的PE reads数目,N
t和N
n分别代表cfDNA样本和白细胞的reads总数。
进一步地,所述步骤S1-6中,所述机器学习采用二分类器,所述二分类器为支持向量机(SVM Classifier)、逻辑斯蒂回归模型(Logistic Regression Classifier)、随机森林、决策树分类器(Decision Tree Classifier)、梯度提升决策树分类器(GradientBoosting Decision Tree,GBDT)、Classifier、AdaBoost Classifier、高斯贝叶斯分类器(GaussianNB)、线性判别分析(Linear Discriminant Analysis)、二次判别分析(Quadratic Discriminant Analysis)、多项式朴素贝叶斯分类器(Multinomial NaiveBayes Classifier)、极端梯度提升(eXtreme Gradient Boosting,XGBoost)、投票分类器(voting classify)中的一种或多种组合;
所述机械学习同时对数据库OCHROdb内包含的任一组织或同一类型组织的组合进行癌症组织定位模型的构建。
进一步地,所述步骤S2中未知患癌部位的待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度的获取与步骤S1-1~步骤S1-5的操作步骤相同。
一种基于启动子序列的转录起始点(Transcription Start Site,TSS)区域的覆盖深度定位癌症组织方法,所述定位癌症组织方法包括上述任一项所述的定位方法;
所述启动子序列的转录起始点区域为:与基因组DNA相互作用的特异性反式作用因子或顺式作用元件。
一种基于染色质区域覆盖深度的癌症组织定位系统,所述系统包括:
模型建立模块,用于根据各癌种cfDNA数据、健康人的cfDNA数据以及组织特异开放染色质区域OCHROdb数据库,通过机器学习方法分别构建各癌种组织定位模型;
待检测数据获取模块,用于计算待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度;
预测分析模块,用于依据所述待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度与所述各癌种组织定位模型进行机器学习预测分析,获得不同癌种组织定位模型的分值,并根据分值定位患癌组织。
进一步地,所述模型建立模块包括:
血浆获取单元,用于采集癌症患者、健康人的外周血,并获得对应的血浆样本和白细胞;
cfDNA提取单元,用于从对应的所述血浆样本中提取癌症患者、健康人外周血的cfDNA分子;
文库构建单元,用于对癌症患者、健康人的cfDNA分子和白细胞分别进行全基因组文库构建;
测序单元,用于对所述癌症患者、健康人的cfDNA文库和白细胞全基因组文库进行测序获取对应测序数据;
质控过滤单元,用于对所述测序数据进行质控和过滤,获得第一数据;
比对筛选单元,用于将所述第一数据与人类参考基因组进行对比,获取比对相同的数据作为第二数据;
计算单元,用于依据所述第二数据计算成对测序片段的插入大小,计算每一个特定组织特异开放染色质区间内目标插入片段大小的成对read数目,得到第三数据;
校正单元,用于对所述第三数据进行相对拷贝数均一化、GC校正和测序数据量均一化,获得癌症患者和健康人每一个组织特异开放染色质区间内成对测序片段的实际覆盖深度,作为第四数据;
机器学习单元,用于将第四数据作为特征值进行机器学习建立癌症组织定位模型。
进一步地,所述待检测数据获取模块计算待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度包括:
通过所述血浆获取单元获取待测血浆样本和待检测白细胞;
通过所述cfDNA提取单元从待检测所述血浆样本中提取待检测cfDNA分子;
通过所述文库构建单元构建所述待检测cfDNA及白细胞全基因组文库;
通过所述测序单元对所述待检测cfDNA及白细胞全基因组文库进行测序,获取所述待检测测序数据;
通过所述质控过滤单元对所述待检测测序数据进行质控和过滤,获得待检测第一数据;
通过所述比对筛选单元对所述待检测第一数据与人类参考基因组进行对比,获取比对相同的数据作为待检测第二数据;
通过所述计算单元依据所述待检测第二数据计算成对测序片段的插入大小,并计算所述待检测cfDNA特定组织特异开放染色质区间内目标插入片段大小的成对read数目,得到待检测第三数据;
通过所述校正单元对所述待检测第三数据进行相对拷贝数均一化、GC校正和测序数据量均一化,获得所述待检测cfDNA的各组织特异开放染色质区间的均一化校正覆盖深度。
本发明通过采用将待检测样本cfDNA的组织特异开放染色质区域覆盖深度与现有癌种基于组织特异开放染色质区域覆盖深度的癌症组织定位模型进行预测分析,从而确定待检测样本患癌组织;本发明定位癌症组织的方法相较于现有的癌症组织定位的影像学检测或甲基化分析方法,该方法不会对人体造成辐射性伤害,同时建库测序成本低,操作和分析流程简便,不会对cfDNA结构造成人为破坏,也能避免制备样本时人为引入误差,定位结果准确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的基于组织特异开放染色质区域覆盖深度的癌症组织定位方法的流程图;
图2示出了根据本发明实施例的基于肺癌患者和健康人cfDNA样本的肺组织特异开放染色质区域覆盖深度构建肺癌组织定位模型的具体操作流程图;
图3示出了根据本发明实施例基于肺组织特异开放染色质区域覆盖深度的肺癌组织定位模型性能。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有研究表明cfDNA片段化特征逐渐成为癌症液体活检的一个新的具有潜力的研究方向。随着研究的进展,逐渐发现cfDNA的片段化是一个非随机的过程,它包含着细胞的表观遗传证据。
cfDNA的片段由DNA和组蛋白形成的染色质基本结构单位——核小体也是表观基因组的重要组成。在核小体中,DNA链像线轴一样缠绕着组蛋白。核小体可在不改变DNA序列的情况下影响基因表达,产生可以遗传的变化,对细胞功能产生影响。已有研究表明,细胞一旦死亡,核小体之间的DNA就会被切割。从表观遗传的角度,cfDNA记录了细胞死亡前的样子。目前关于cfDNA片段化特征的研究大多基于测序技术,因为测序技术可以明确每个cfDNA分子的边界和位置。cfDNA片段的边界因其与核小体的关联度不同而呈现偏差。科学家为检测与年龄、健康相关的表观遗传变化,收集了不同年龄,不同健康状况个体的血液样本进行全基因组测序。将cfDNA的测序数据与复杂的计算分析结合起来,重建核小体组装模式,用于评估基因组不同区域的核小体间距,包括典型的基因表达开放区域。结果表明拥有不同年龄不同健康状况的个体表现出不同的核小体模式,拥有适当间距的核小体可以保持适当的细胞功能并促进健康。研究人员还在数个基因组位置检测到cfDNA的相对缺失。很多细胞器都会参与核小体间距的维持。随着年龄的增长,相关细胞器水平的降低也会对核小体间距造成不同程度的影响。说明核小体间距的异常改变会影响基因组不同区域的可及性,进而导致更多错误的遗传事件,包括转录翻译。不同组织的核小体间距不同,通过对不同癌种的癌症患者cfDNA进行深度测序,可以绘制体内核小体占位的全基因组图谱,能够根据不同组织与核小体间距的对应关系,追溯cfDNA分子组织起源。
大多数基因组中的染色质都紧紧盘绕在细胞核内,但也有一些区域经染色质重塑后呈现出松散的状态,这部分无核小体的裸露DNA区域被称为开放染色质区域,这种区域通常不超过几百bp。染色质开放性是动态的不是静止的,整体的调控过程与染色质核小体的动态定位相关,因此,高效精确地定位基因组上的开放染色质位点、搞清核小体位置的动态变化,为成功地发掘基因组调控元件,乃至揭示基因表达调控机制提供重要线索和有效手段。前人研究结果表明健康个体cfDNA主要来源于死亡的造血细胞,其核小体间距与淋巴细胞和髓细胞的表观遗传学特征密切相关。可以推断,在癌症等病理状态下,核小体足迹可以用来推断外周血cfDNA来源的细胞类型。
在真核染色质中,核小体是DNA包装的基本单位,由一个DNA片段缠绕在组蛋白(约167bp)。核小体通常是通过一段相对短的linkerDNA(~10bp)连接的,除了在活跃的调控元件(如开放染色质区域),核小体丢失,DNA裸露。当细胞凋亡,cfDNA被释放,在凋亡DNA片段化过程中,核酸内切酶的作用更明显切割没有组蛋白保护的DNA。因此来源于开放染色质区域的DNA,将被降解成小片段,可能无法有效测序,导致测序read覆盖深度降低。
综上,本发明基于已发表的组织特异开放染色质区域数据库,设计了一种基于染色质区域覆盖深度的癌症组织定位方法,通过对比不同癌种类型组织特异性开放染色质区域的cfDNA信息,推断出血浆cfDNA的组织起源和预测癌症患者的肿瘤位置。具体如图1所示。
一种基于染色质区域覆盖深度的癌症组织定位方法,包括如下步骤:
S1:根据不同癌种cfDNA数据、健康人的cfDNA数据以及现有的组织特异开放染色质区域数据库OCHROdb,运用机器学习方法分别构建不同癌种组织定位模型;
S1-1获取癌症患者、健康人外周血的cfDNA分子和白细胞,分别制备cfDNA分子和白细胞的全基因组文库;
S1-1-1获取待检测用户的血液,对所述血液进行分离,得到分离血浆;
S1-1-2从所述分离血浆中提取待检测的cfDNA分子;
S1-1-3将所述待检测的cfDNA分子进行末端修复、磷酸化、加A尾和片段两端连接接头操作,制备所述cfDNA分子的文库。
S1-2将所述文库分别进行测序,对测序数据进行质控和过滤,获得第一数据;
过滤包括:从过滤测序接头序列、低质量序列和N碱基组成的序列;所述筛选包括对过滤后的数据中的数据碱基、碱基质量大于20的百分比(Q20)、碱基质量大于30的百分比(Q30)、GC含量、GC-AT_分离、N含量、平均读长长度、读长分布标准差、平均碱基质量以及Clean碱基比例进行筛选。
S1-3将所述第一数据与人类参考基因组进行对比,舍弃重复数据,分别得到癌症患者和健康人cfDNA样本比对上参考基因组的测序数据及白细胞样本比对上参考基因组的测序数据,获得第二数据;
S1-4根据所述第二数据,计算成对测序片段的插入大小,并对插入大小进行过滤,保留目标插入片段大小的成对read,并根据组织特异开放染色质数据库获得特定组织特异开放染色质区间,计算每一个特定组织特异开放染色质区间内的目标插入片段大小的成对read数目,得到第三数据;
保留插入片段大小为35-80bp、120-180bp的成对read;
所述组织特异开放染色质通过OCHROdb数据库信息内开放染色质区域获得。
S1-5对所述第三数据进行相对拷贝数均一化、GC校正和测序数据量均一化,获得癌症患者和健康人每一个组织特异开放染色质区间内成对测序片段的实际覆盖深度,得到第四数据;
S1-6第四数据作为特征值,用机器学习的方法构建癌症组织定位模型。
所述机器学习采用二分类器,所述二分类器为支持向量机(SVM Classifier)、逻辑斯蒂回归模型(Logistic Regression Classifier)、随机森林、决策树分类器(DecisionTree Classifier)、梯度提升决策树分类器(Gradient Boosting Decision Tree,GBDT)Classifier、AdaBoost Classifier、高斯贝叶斯分类器(GaussianNB)、线性判别分析(Linear Discriminant Analysis)、二次判别分析(Quadratic Discriminant Analysis)、多项式朴素贝叶斯分类器(Multinomial Naive Bayes Classifier)、极端梯度提升(eXtreme Gradient Boosting,XGBoost)、投票分类器(voting classify)中的一种或多种组合;
所述机械学习同时对数据库OCHROdb内包含的任一组织或同一类型组织的组合进行癌症组织定位模型的构建。
S2:获取未知患癌部位的待检测cfDNA,并检测待检测cfDNA将的各个组织特异开放染色质区域的均一化校正覆盖深度;
未知患癌部位的待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度的获取与步骤S1-1~步骤S1-5的操作步骤相同。
S3:通过各癌种组织定位模型对所述待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度进行机器学习预测分析,根据分析结果的分值对癌症患者的患癌组织进行定位。
本发明的定位方法同样适用于部分开放染色质区域作为特异性反式作用因子(如转录因子、酶等)和顺式作用元件(如增强子、绝缘子等),与基因组DNA相互作用的活跃区域。因此基于启动子序列的转录起始点(TSS)区域的覆盖深度也可能适用于癌症组织定位方法,也纳入本发明权利保护范畴。
本发明还涉及一种基于启动子序列的转录起始点(Transcription Start Site,TSS)区域的覆盖深度定位癌症组织方法,该种定位癌症组织方法与上述基于染色质区域覆盖深度的癌症组织定位方法相同的操作步骤实现;
所述启动子序列的转录起始点区域为:与基因组DNA相互作用的特异性反式作用因子或顺式作用元件。
本发明还涉及一种基于染色质区域覆盖深度的癌症组织定位系统,所述系统包括:
模型建立模块,用于根据各癌种cfDNA数据、健康人的cfDNA数据以及组织特异开放染色质区域OCHROdb数据库,通过机器学习方法分别构建各癌种组织定位模型。
具体的,所述模型建立模块包括:
血浆获取单元,用于采集癌症患者、健康人的外周血,并获得对应的血浆样本和白细胞;
cfDNA提取单元,用于从对应的所述血浆样本中提取癌症患者、健康人外周血的cfDNA分子;
文库构建单元,用于对癌症患者、健康人的cfDNA分子和白细胞分别进行全基因组文库构建;
测序单元,用于对所述癌症患者、健康人的cfDNA文库和白细胞全基因组文库进行测序获取对应测序数据;
质控过滤单元,用于对所述测序数据进行质控和过滤,获得第一数据;
比对筛选单元,用于将所述第一数据与人类参考基因组进行对比,获取比对相同的数据作为第二数据;
计算单元,用于依据所述第二数据计算成对测序片段的插入大小,并计算每一个特定组织特异开放染色质区间内目标插入片段大小的成对read数目,得到第三数据;
校正单元,用于对所述第三数据进行相对拷贝数均一化、GC校正和测序数据量均一化,获得癌症患者和健康人每一个组织特异开放染色质区间内成对测序片段的实际覆盖深度,作为第四数据;
机器学习单元,用于将第四数据作为特征值进行机器学习建立癌症组织定位模型。
待检测数据获取模块,用于计算待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度。
具体的,待检测数据获取模块通过采用模型建立模块内以下结构获取待检测cfDNA数据:
通过所述血浆获取单元获取待测血浆样本和待检测白细胞;
通过所述cfDNA提取单元从待检测所述血浆样本中提取待检测cfDNA分子;
通过所述文库构建单元构建所述待检测cfDNA及白细胞全基因组文库;
通过所述测序单元对所述待检测cfDNA及白细胞全基因组文库进行测序,获取所述待检测测序数据;
通过所述质控过滤单元对所述待检测测序数据进行质控和过滤,获得待检测第一数据;
通过所述比对筛选单元对所述待检测第一数据与人类参考基因组进行对比,获取比对相同的数据作为待检测第二数据;
通过所述计算单元依据所述待检测第二数据计算成对测序片段的插入大小,并计算所述待检测cfDNA特定组织特异开放染色质区间内目标插入片段大小的成对read数目,得到待检测第三数据;
通过所述校正单元对所述待检测第三数据进行相对拷贝数均一化、GC校正和测序数据量均一化,获得所述待检测cfDNA的各组织特异开放染色质区间的均一化校正覆盖深度。
预测分析模块,用于依据所述待检测cfDNA的各个组织特异开放染色质区域的均一化校正覆盖深度与所述各癌种组织定位模型进行机器学习预测分析,获得不同癌种组织定位模型的分值,并根据分值定位患癌组织。
实施例
本实施例基于肺癌患者的样本cfDNA和健康人cfDNA样本的肺组织特异开放染色质区域覆盖深度构建肺癌组织定位模型,并用此模型对两个未知患癌位置的样本进行了癌症组织定位预测,如图2所示,包括以下步骤:
1、以肺癌组织定位为例:获取30名肺癌患者样本、30名健康人样本,构建肺癌组织定位模型,具体包括:
1-1使用10mL Streck管采集待检测用户的外周血,采血量不低于8mL,采血后立即上下颠倒缓慢混匀。将采血管在4℃条件下1600g离心10min,离心后将上层血浆分装到离心管中进行同等条件二次分离,即为血浆样本;同时也吸取白细胞作为对照;
1-2采用QIAamp DNA Bolld Mini kit(Qiagen)试剂盒从上述血浆中提取待检测的Cell-free DNA(cfDNA);使用Qubit荧光剂(Thermo Fisher Scientific,Waltham,MA,USA)对DNA浓度进行定量,DNA浓度至少为20ng。
1-3使用文库构建试剂盒(
Ultralow Library Systems V2,NuGenTechnologies,San Carlos,CA,USA)对待检测的cfDNA、白细胞分别进行全基因组文库构建。
1-4采用测序仪(Illumina平台的HiSeqX-Ten)对待检测的cfDNA文库、白细胞全基因组文库进行测序,得到读长为100的双端测序数据(PE100Paired-end reads)。
1-5对各测序数据分别进行质控,并对质控结果进行过滤筛选,获得第一数据,选择符合设定阈值的质控数据执行步骤1-6;该步包括。
质控采用fastp软件进行质控;
过滤包括:从测序数据中去掉测序接头序列、低质量序列和N碱基组成的序列,其中,低质量序列为单端Read中质量值<5的碱基数超过该条read长度比例50%的reads,N碱基组成的序列为单端read中N碱基个数超过该条read碱基总数10%的reads;
筛选包括:对过滤后的测序数据去接头后的碱基数(Clean_Base)、碱基质量大于20的百分比(Q20)、碱基质量大于30的百分比(Q30)、GC含量、N含量(N_Rate)、平均读长长度(Average_read_length)进行筛选,得到第一数据;
设定阈值为:Clean_Base>5G、Q20>90%、Q30>85%、GC含量>40%并且<60%、N_Rate<20%和平均读长长度=100±10bp。
若测序数据质控后均不满足阈值标准,则需调节fastp质控软件的参数得到合格质控数据进行后续分析或从分析队列中排除。
1-6将第一数据与人类参考基因组(hs37d5)进行比对筛选,获得第二数据。
比对筛选采用BWA-MEM软件,具体的:将质控后的双端测序reads与人类参考基因组(hs37d5)进行比对,过滤掉比对上线粒体基因组,X和Y染色体的reads,丢掉比对质量值(MAPQ)为0的reads。
利用SAMtools软件的rmdup功能去除PCR重复reads。
1-7根据上述筛选后的第二数据,计算cfDNA成对测序片段(read)的插入大小。
该步骤中,保留插入片段大小为35-80bp、120-180bp的小片段DNA,具体用PicardInsertSize Metrics功能计算成对read插入大小;
保留插入片段大小为35-80bp(定义为短片段PE read)、120-180bp的成对read(定义为长片段PE read),获得成对read比对到参考基因组上的起点(参考基因组坐标小的为起点)和终点(参考基因组坐标大的为终点)。
1-8肺组织特异开放染色质区域根据OCHROdb数据库获得,共得到223281个肺组织特异开放染色质区域。
1-9计算肺癌患者及其健康人样本223281个肺组织特异开放染色质区域中的每个组织特异开放染色质区域的覆盖深度。找出每个肺组织特异开放染色质区间内短片段PEread和长片段PE read的数目。
1-10对开放染色质区域短片段PE read和长片段PE read的覆盖深度分别进行均一化。
由于癌症患者的外周血样本中经常能观察到拷贝数(CNV)改变,拷贝数不同会对覆盖度产生影响。为了不影响后续分析需要使用相对拷贝数,对开放染色质区域短片段PEread和长片段PE read的覆盖深度分别进行均一化。
具体公式为:
Ci=ni/CNVs,
式中,Ci代表某个开放染色质区域短片段PE read或长片段PE read均一化覆盖深度,ni代表cfDNA样本某个开放染色质区域短片段PE read或长片段PE read数目,i代表不同开放染色质区域,CNVs代表该开放染色质区域所在基因组分段窗口的拷贝数(bins)。
其中,该开放染色质区域所在窗口的拷贝数CNVs的具体计算公式为:
式中,
和
分别代表cfDNA样本和白细胞基因组分段bins内的PE reads数目,N
t和N
n分别代表cfDNA样本和白细胞的reads总数。
1-12对CNV中GC bias进行校正处理,排除GC含量对CNV的影响。
由于在二代测序仪上测出的数据,通常都会表现出测序深度与GC含量的相关性(GCbias),富含GC或少含GC的染色体的测序数据会出现显著偏差。为了使GC含量差异不影响CNV的准确计算,对GC bias进行校正处理,排除GC含量对CNV的影响。
对计算的CNV中GC校正具体通过应用R语言的Lowess模型进行校正。
1-13将计算所得每一个组织特异开放染色质区间的GC均一化短片段PE read或长片段PE read序列覆盖深度进行测序数据量均一化,得到的数值(feature值)为候选变量,作为机器学习的输入文件。
为了防止样本间测序数据量的严重差异对结果的影响,测序数据量均一化具体公式如下,
Fi=(Ci*G)/(Nt*L)
式中,Fi代表某个开放染色质区域的真实序列覆盖深度;Ci代表某个开放染色质区域短片段PE read或长片段PE read均一化序列覆盖深度,Nt代表cfDNA样本reads总数;L代表cfDNA read的碱基数,G代表参考基因组碱基总数。
1-14将feature值作为列,将60个样本(30个肺癌患者,30个健康患者)作为行,应用R语言的caret包中的train函数,使用Gradient Boosting Decision Tree模型构建肺癌组织定位模型,并使用pROC包画ROC曲线图。所得曲线图如图2所示。
图2可以看出该模型性能灵敏度为100%(病人中得出阳性检测的样本占病人总数的百分比),特异性为85.2%(即健康人中得出阴性检测的样本占健康人总数的百分比)。机器学习得到的患癌部位为肺的参考值范围为0.2,即数值>0.2的肺部患癌风险大。
2、基于步骤1中构建肺癌组织定位模型,分析两个未知患癌部位的组织样本是否为肺癌患者,具体包括:
2-1参考步骤1-1—步骤1-13的具体操作方法,分别获得2个样本肺组织特异开放染色质区间短片段PE read和长片段PE read序列覆盖深度共223281x2=446562个feature值。
2-2将这些feature值作为列,将2个样本(1个肺癌患者,1个肺癌患者)作为行,应用R语言的caret包中的predict函数,将已构建的肺癌模型对象以及2个样本446562个肺组织特异开放染色质区间内校正的短片段PE read和长片段PE read序列覆盖深度值作为输入,机器学习得到分值。根据分值判断这两个样本是否肺部为患癌组织。
通过本发明基于组织特异开放染色质区域覆盖深度的癌症组织定位方法分别对两个待检测用户样本的cfDNA进行患癌组织定位的结果数据,如表1所示:
表1
通过表1中数据可知:样本1机器学习检测值为0.8870,高于患癌部位为肺的参考值范围,肺部患癌风险高;而样本2机器学习检测值为0.0120,低于患癌部位为肺的参考值范围,肺部患癌风险低,可能为健康人,也有可能患癌部位在其它器官,还需用其它组织的定位模型进行验证。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。