CN115910349B - 基于低深度wgs测序末端特征的癌症早期预测方法 - Google Patents

基于低深度wgs测序末端特征的癌症早期预测方法 Download PDF

Info

Publication number
CN115910349B
CN115910349B CN202310029968.6A CN202310029968A CN115910349B CN 115910349 B CN115910349 B CN 115910349B CN 202310029968 A CN202310029968 A CN 202310029968A CN 115910349 B CN115910349 B CN 115910349B
Authority
CN
China
Prior art keywords
sample
samples
proportion
sequencing
motif
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310029968.6A
Other languages
English (en)
Other versions
CN115910349A (zh
Inventor
万千惠
张轶群
李振聪
张怡然
裴志华
王东亮
牛孝亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiuzhen Medical Laboratory Co ltd
Original Assignee
Beijing Qiuzhen Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiuzhen Medical Laboratory Co ltd filed Critical Beijing Qiuzhen Medical Laboratory Co ltd
Priority to CN202310029968.6A priority Critical patent/CN115910349B/zh
Publication of CN115910349A publication Critical patent/CN115910349A/zh
Application granted granted Critical
Publication of CN115910349B publication Critical patent/CN115910349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及医学分子生物学技术领域,特别涉及基于低深度WGS测序末端特征的癌症早期预测方法,通过采集健康人群与肿瘤人群样本,同时提取和统计样本cfDNA片段末端特征及break‑point末端特征,全面地考虑了不同长度和不同位置的片段末端特征,并利用优化的Mscore算法,更简便区分健康人组和癌症病人组,且在不同数据量的情况下仍能保持高稳定性。

Description

基于低深度WGS测序末端特征的癌症早期预测方法
技术领域
本发明涉及医学分子生物学技术领域,特别涉及基于低深度WGS测序末端特征的癌症早期预测方法。
背景技术
目前癌症早筛主要可以分为两大类, 一类是依靠计算机扫描技术,内镜检查技术和细胞涂片技术等传统检测方法,包括利用低剂量计算机扫描(low-dose computedtomography, LDCT) 检测肺癌,利用肠镜检测肠癌和利用宫颈细胞涂片检测宫颈癌等。这一类方法普遍具有较低的特异性和灵敏度,同时又具有较高的侵入性。
癌症早筛的另一类方法是液体活检方法。液体活检方法相对于上述方法检测侵入性更低同时更有利于早期癌症的检测。液体活检目前主要采用血液,尿液或者唾液等作为样品,从样品中检测肿瘤来源的细胞,DNA,mRNA, microRNA和蛋白等来确定癌症病人的状态。其中外周血血浆游离DNA(cell-free DNA, cfDNA)是在癌症早筛中应用最广泛也是最有前景的。癌症病人和健康人的cfDNA有很大差异,包括突变,拷贝数,染色体重组,片段特征和甲基化等方面的显著差异。在最近的研究中,利用cfDNA片段特征来探索癌症早筛方法的研究越来越多,cfDNA末端特征(motif)属于其中的一个分支。cfDNA末端特征是指cfDNA片段5’末端的若干个碱基,研究表明健康人cfDNA的末端特征比癌症患者更有偏好性,比如CCCA, CCAG和CCTG这些末端特征的比例在健康人血浆中比在癌症病人血浆中高。目前,如何将cfDNA片段末端特征来助力早期癌症预测,具有十分重要的意义。
发明内容
针对以上述背景技术的不足,本发明提供基于低深度WGS测序末端特征的癌症早期预测方法。
本发明采用的技术方案如下:基于低深度WGS测序末端特征的癌症早期预测方法,关键在于:包括以下步骤:
S1. 对样品进行基因靶向测序,获取原始fastq文件;
S2. 对原始fastq文件进行数据控制,筛除低质量数据;
S3. 将质控后的fastq文件比对参考基因组获得bam文件,对bam文件进行数据过滤,去除重复序列;
S4. 分别统计cfDNA片段末端特征、break-point末端特征的数量和比例;
S5. 计算用于区分癌症病人的Mscore值。
优选的,S2中质量控制条件为:样品的测序深度不低于5×,碱基错误低于0.1%的碱基占总碱基数的比例大于90%,比对到基因组上的reads占所用reads的比例大于95%, 测序结果对基因组序列的覆盖度大于90%。
优选的,S3中所述参考基因组序列为hg19。
优选的,S3中过滤条件为:基于CIGAR值取成对的reads(CIGAR值用来表明哪些reads与参考基因组完全吻合,哪些reads和参考基因组对比有缺失,那些reads和参考基因组对比有插入),最多错配为3bp,最多indel数量为2 bp,最长indel的gap为3bp。
优选的,S4中cfDNA片段末端特征数量和比例统计方法为:从每条read的正链及负链的5’端的4-6bp的末端,分别取4-6bp长度的末端序列片段,统计序列末端序列片段的数量和占比。
优选的,S4中break-point末端特征的数量和比例统计方法为:从每条read的负链5’端取2bp和3bp的末端序列片段,从参考基因组与read的负链5’端衔接端取2 bp和3 bp序列,将二者拼接得到4bp和6bp的break-point特征序列,统计break-point特征序列的数量和占比。
优选的,S5具体为:基于S4得到的样本cfDNA片段末端特征及break-point末端特征的数量和比例,用LASSO法筛选出motif,采用式1计算第i个样品的Mscore值
Figure SMS_1
式1
其中,t ij 表示极差法得到的样品i的第j个motif的归一化的比例值;m为筛选出的motif数量;W j 为motifj的重要性。
优选的,所述t ij 采用式2计算:
Figure SMS_2
式2
其中,P ij 是样品i的第j个motif的比例,i代表所有样品中的第i个样品,j代表所有motif中的第j个motif,对第i个样品的第j个motif;
优选的,由随机森林得到的每个motif j权重w j ,当
Figure SMS_3
≥0时,W j =w j ;当/>
Figure SMS_4
<0时,W j =-w j
Figure SMS_5
式3
其中,
Figure SMS_6
是第j个motif的比例的均值在健康组和肿瘤组之间的差值;n h表示健康人样品的数量,n t表示肿瘤样品的数量,i h表示第i个健康人样品,i t 表示第i个肿瘤样品,P ihj 是健康人样品i h的第j个motif的比例,P itj 是肿瘤病人样品i t 的第j个motif的比例。
优选的,所述样品为来自于健康人群和肿瘤人群的组织液样品和块状样品,组织液样本包括组织研磨液、鼻拭子、病毒液、血液、血清、血浆、精液、唾液、尿液中的任一种;块状样品包括组织块、转基因小鼠尾巴、趾甲中的任一种。
有益效果:与现有技术相比,本发明提供的基于低深度WGS测序末端特征的癌症早期预测方法,通过采集健康人群与肿瘤人群样本,同时提取和统计样本cfDNA片段末端特征及break-point末端特征,全面地考虑了不同长度和不同位置的片段末端特征,并利用优化的Mscore算法,更简便区分健康人组和癌症病人组,且在不同数据量的情况下仍能保持高稳定性。
附图说明
图1为基于5×深度下的稳定性示意图;
图2为基于本发明的分类性能AUC曲线图;
图3为基于不同癌种的分类性能AUC曲线图;
图4为不同深度下的稳定性示意图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。
实施例1 样本数据提取
随机选择两组人群的血浆进行上机测序,一组为健康人(N=32,随机抽样三次N=96),另一组为癌症病人(n=112)。具体过程如下所示:
cfDNA提取:采用血浆提取试剂盒提取血浆样本中的cfDNA,具体的操作参见QIAGEN公司的QIAamp Circulating Nuleacid Kit试剂盒说明书,使用Qubit4.0和dsDNAHS Assay Kit对提取的DNA进行定量。
文库构建:末端修复并在3'末端加A尾;取10-50ng cfDNA至PCR管中,用Low TE补至50 μL,按照下表1加入试剂。
表1
Figure SMS_7
涡旋混匀,微离心,设置以下程序在PCR仪上进行反应,表2:
表2
Figure SMS_8
连接接头:按照下表3在上述反应结束后的体系内加入相应试剂:
表3
Figure SMS_9
涡旋混匀,微离心,设置以下程序在PCR仪上进行反应(热盖关闭),表4:
表4
Figure SMS_10
连接后纯化:Beckman Agencourt AMPure XP磁珠2~8℃保存,室温平衡至少30min;在每个样本中加80 μL(1× 体积)AMPure XP 磁珠,用移液器吹打或者振荡充分混匀。室温静置5分钟;放置磁力架静置2分钟,待磁珠全部吸附至侧壁,使用移液器吸取移弃上清,注意勿扰动磁珠;在磁力架上沿磁珠相反方向的管壁缓慢加入200 μL 80%乙醇,静置30s-1min,使用移液器吸取移弃上清;重复上步骤一次,用10 μL的移液器将残留的乙醇尽量吸弃干净;室温干燥磁珠5分钟;每个样本用21 μL low TE 缓冲液重悬磁珠;用移液器吹打或者振荡充分混匀,室温孵育 1分钟;放置磁力架上,室温孵育2分钟;待磁珠完全吸附至侧壁,将20 μL上清液移到一个新的PCR管中等待扩增;文库扩增:按照下表5在上述反应结束后的体系内加入相应试剂:
表5
Figure SMS_11
涡旋混匀,微离心,设置以下程序在PCR仪上进行反应,表6:
表6
Figure SMS_12
反应结束后,按照磁珠纯化的流程使用1X体积磁珠纯化PCR产物,之后用dsDNA HSAssay Kit测定预文库浓度,利用QIAxcel核酸电泳分析系统进行片段大小检测。
cfDNA全基因组测序: 将文库样本通过二代测序仪MGI2000进行上机测序,采用双端测序的测序方式,读长为100bp,测序深度为10×。
实施例2 区分癌症病人组和健康人组的Mscore的计算
按照样品的索引,将测序平台获取的BCL文件进行拆分,得到每个样本的fastq格式的数据,将fastq格式的数据比对到基因组序列(hg19)获得每个样品的bam文件,对每个样品的数据进行质量控制,质量控制条件包括:样品的测序深度为5×,碱基错误低于0.1%的碱基占总碱基数的比例大于90%,比对到基因组上的reads占所用reads的比例大于95%,测序结果对基因组序列的覆盖度大于90%;
对通过质量控制的样品数据进行reads水平的过滤,过滤条件为:取成对的reads(CIGAR值为83/163和99/147),最多错配为3bp,最多indel数量为2 bp,最长indel的gap为3bp;
从每条read的5’末端,取4-6bp长度的末端序列片段,统计序列末端序列片段的数量和占比;从每条read的5’端取2bp和3bp的末端序列片段,然后取参考基因组上,对应该5’端上游的2 bp和3 bp序列,将二者分别拼接得到4bp和6bp的break-point特征序列,统计break-point特征序列的数量和占比;
LASSO筛选出m个 motif,由随机森林得到的每个motif j权重w j ,当
Figure SMS_13
≥0时,W j = w j ;当/>
Figure SMS_14
<0时,W j =-w j ;第/>
Figure SMS_15
个motif的比例的均值在健康组和肿瘤组之间的差∆P j 根据式3计算得到/>
Figure SMS_16
式3
其中,
Figure SMS_17
是第j个motif的比例的均值在健康组和肿瘤组之间的差值;n h表示健康人样品的数量,n t表示肿瘤样品的数量,i h表示第i个健康人样品,i t 表示第i个肿瘤样品,P ihj 是健康人样品i h的第j个motif的比例,P itj 是肿瘤病人样品i t 的第j个motif的比例;
极差法归一化motif 的比例值t ij 采用式2计算:
Figure SMS_18
式2
其中,P ij 是样品i的第j个motif的比例,i代表所有样品中的第i个样品,j代表所有motif中的第j个motif,对第i个样品的第j个motif;
最后,采用式1计算样品的Mscore值
Figure SMS_19
式1
图1中横坐标为健康和肿瘤组(包括肺癌,肠癌,胃癌,肝癌和胰腺癌),纵坐标是Mscore,图1中看到,基于5×深度数据的Mscore可以区分健康人组合癌症组的样品;图2表示基于Mscore的ROC分析结果,不分癌种时AUC为0.9934,TAScore阈值为0.3646时,特异性为1,灵敏度为0.9643;图3显示了不同癌种Mscore的ROC分析结果,肺癌的AUC为0.9659,肠癌的AUC为0.9926,胃癌、肝癌和胰腺癌的AUC均为1。当阈值为0.3646时,肺癌的特异性为1,灵敏度为0.8182;肠癌的特异性为1,灵敏度为0.8571;胃癌的特异行为1,灵敏度为0.9688;肝癌的特异性为1,灵敏度为1;胰腺癌的特异性为1,灵敏度为1。
实施例3 性能验证
选取两组人群的样本在不同深度的数据(0.1X、0.5X、1X、3X、5X、原始数据)为训练数据,计算Mscore值,并进行稳定性评估,结果如图4所示,说明了在用0.1×, 0.5×,1×,3×,5×和原始数据(RAW)的情况下,Mscore都可以区分健康人组和肿瘤组的样品,虚线位置的Mscore为0.3646,表明本方案在达到在算法稳定地前提下分类效果仍然很好,具有强灵敏度和特异性。
最后需要说明,上述描述仅为本发明的优选实施例,本领域的技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。

Claims (4)

1.基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于包括以下步骤:
S1. 对样品进行基因靶向测序,获取原始fastq文件;
S2. 对原始fastq文件进行数据控制,筛除低质量数据,质量控制条件为:样品的测序深度不低于5×,碱基错误低于0.1%的碱基占总碱基数的比例大于90%,比对到基因组上的reads占所用reads的比例大于95%, 测序结果对基因组序列的覆盖度大于90%;
S3. 将质控后的fastq文件比对参考基因组获得bam文件,对bam文件进行数据过滤,去除重复序列;
S4. 分别统计cfDNA片段末端特征、break-point末端特征的数量和比例,cfDNA片段末端特征数量和比例统计方法为:从每条read的正链及负链的5’端的4-6bp的末端,分别取4-6bp长度的末端序列片段,统计序列末端序列片段的数量和占比;break-point末端特征的数量和比例统计方法为:从每条read的负链5’端取2bp和3bp的末端序列片段,从参考基因组与read的负链5’端衔接端取2 bp和3 bp序列,将二者拼接得到4bp和6bp的break-point特征序列,统计break-point特征序列的数量和占比;
S5. 计算用于区分癌症病人的Mscore值,具体为:基于S4得到的样本cfDNA片段末端特征及break-point末端特征的数量和比例,用LASSO法筛选出motif,采用式1计算第i个样品的Mscore值
Figure QLYQS_1
式1
其中,t ij 表示极差法得到的样品i的第j个motif的归一化的比例值;m为筛选出的motif数量;W j 为motif j的重要性;
所述t ij 采用式2计算:
Figure QLYQS_2
式2
其中,P ij 是样品i的第j个motif的比例,i代表所有样品中的第i个样品,j代表所有motif中的第j个motif,对第i个样品的第j个motif;
由随机森林得到的每个motif j权重w j ,当
Figure QLYQS_3
≥0时,W j =w j ;当/>
Figure QLYQS_4
<0时,W j =-w j
Figure QLYQS_5
式3
其中,
Figure QLYQS_6
是第j个motif的比例的均值在健康组和肿瘤组之间的差值;n h表示健康人样品的数量,n t表示肿瘤样品的数量,i h表示第i个健康人样品,i t 表示第i个肿瘤样品,P ihj 是健康人样品i h的第j个motif的比例,P itj 是肿瘤病人样品i t 的第j个motif的比例。
2.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S3中所述参考基因组序列为hg19。
3.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于S3中过滤条件为:取成对的reads,最多错配为3bp,最多indel数量为2 bp,最长indel的gap为3bp。
4.根据权利要求1所述的基于低深度WGS测序末端特征的癌症早期预测方法,其特征在于:所述样品为来自于健康人群和肿瘤人群的组织液样品和块状样品,组织液样本包括组织研磨液、鼻拭子、病毒液、血液、血清、血浆、精液、唾液、尿液中的任一种;块状样品包括组织块、转基因小鼠尾巴、趾甲中的任一种。
CN202310029968.6A 2023-01-09 2023-01-09 基于低深度wgs测序末端特征的癌症早期预测方法 Active CN115910349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310029968.6A CN115910349B (zh) 2023-01-09 2023-01-09 基于低深度wgs测序末端特征的癌症早期预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310029968.6A CN115910349B (zh) 2023-01-09 2023-01-09 基于低深度wgs测序末端特征的癌症早期预测方法

Publications (2)

Publication Number Publication Date
CN115910349A CN115910349A (zh) 2023-04-04
CN115910349B true CN115910349B (zh) 2023-05-30

Family

ID=85753626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310029968.6A Active CN115910349B (zh) 2023-01-09 2023-01-09 基于低深度wgs测序末端特征的癌症早期预测方法

Country Status (1)

Country Link
CN (1) CN115910349B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016095093A1 (zh) * 2014-12-15 2016-06-23 天津华大基因科技有限公司 肿瘤筛查方法、目标区域变异检测方法和装置
KR101817785B1 (ko) * 2015-08-06 2018-01-11 이원다이애그노믹스(주) 다양한 플랫폼에서 태아의 성별과 성염색체 이상을 구분할 수 있는 새로운 방법
CN112086129B (zh) * 2020-09-23 2021-04-06 深圳吉因加医学检验实验室 预测肿瘤组织cfDNA的方法及系统
CN113981090A (zh) * 2021-11-18 2022-01-28 杭州求臻医学检验实验室有限公司 一种乳腺癌筛查标志组合物及其选取方法、乳腺癌筛查试剂盒
CN114045345B (zh) * 2022-01-07 2022-04-29 臻和(北京)生物科技有限公司 基于游离dna的基因组癌变信息检测系统和检测方法

Also Published As

Publication number Publication date
CN115910349A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
CN107475375B (zh) 一种用于与微卫星不稳定性相关微卫星位点进行杂交的dna探针库、检测方法和试剂盒
TW201718874A (zh) 血漿dna之單分子定序
CN114317738B (zh) 用于检测胃癌淋巴结节转移相关的甲基化生物标记物或其组合及应用
CN102628082B (zh) 基于高通量测序技术进行核酸定性定量检测的方法
CN108595918B (zh) 循环肿瘤dna重复序列的处理方法及装置
CN106845154B (zh) 一种用于ffpe样本拷贝数变异检测的装置
CN106498082B (zh) 卵巢癌易感基因变异文库构建方法
CN112176057A (zh) 利用CpG位点甲基化水平检测胰腺导管腺癌的标志物及其应用
WO2023226938A1 (zh) 甲基化生物标记物、试剂盒及用途
CN114480660A (zh) 一种用于检测泛癌种的基因Panel、探针及应用
CN114752672B (zh) 基于循环游离DNA突变进行滤泡性淋巴瘤预后评估的检测panel、试剂盒及应用
CN112259165B (zh) 用于检测微卫星不稳定性状态的方法及系统
CN108374047A (zh) 一种基于高通量测序技术检测膀胱癌的试剂盒
CN114182022A (zh) 一种基于cfDNA碱基突变频率分布检测肝癌特异突变的方法
CN115910349B (zh) 基于低深度wgs测序末端特征的癌症早期预测方法
WO2023226939A1 (zh) 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用
CN115831234A (zh) 基于染色体不稳定性的癌症早期筛查诊断方法
CN111020710A (zh) 造血及淋巴组织肿瘤的ctDNA高通量检测
CN115011695A (zh) 基于游离环状dna基因的多癌种识别标志物、试剂盒及应用
CN113817822B (zh) 一种基于甲基化检测的肿瘤诊断试剂盒及其应用
CN115807098A (zh) 一种用于检测分化型甲状腺癌基因突变的引物组合和试剂盒
CN113948150B (zh) Jmml相关基因甲基化水平评估方法、模型及构建方法
CN115831355A (zh) 多癌种wgs的肿瘤早期筛查方法
CN110964821A (zh) 一种预测肝癌转移模式及风险的检测panel及其应用
JPWO2019009431A1 (ja) 腫瘍細胞で生じた突然変異を高精度に識別する方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant