CN114267409A - 无创产前基因检测测序数据的分析方法、装置及存储介质 - Google Patents

无创产前基因检测测序数据的分析方法、装置及存储介质 Download PDF

Info

Publication number
CN114267409A
CN114267409A CN202210032341.1A CN202210032341A CN114267409A CN 114267409 A CN114267409 A CN 114267409A CN 202210032341 A CN202210032341 A CN 202210032341A CN 114267409 A CN114267409 A CN 114267409A
Authority
CN
China
Prior art keywords
chromosome
tumor
value
module
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210032341.1A
Other languages
English (en)
Inventor
李佳
周思
鞠佳
许雯秋
苏茜
赵立见
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huada Medical Laboratory Co ltd
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN202210032341.1A priority Critical patent/CN114267409A/zh
Publication of CN114267409A publication Critical patent/CN114267409A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种无创产前基因检测测序数据的分析方法、装置及存储介质。本申请方法包括,从NIPT测序数据中获取出现两条或以上染色体非整倍体的样本的原始测序结果,将其与参考基因组比对,去除不匹配或重复reads;根据NIFTY算法计算除Y和19号染色体外的其他染色体的Z值,计算Z值绝对值前五的平均值,如果其大于阈值,则判断待测对象为肿瘤高风险人群。本申请首次利用NIPT检测中MCA样本的染色体Z值绝对值前五的平均值评估孕期肿瘤情况,本申请分析方法直接利用NIPT测序数据即可,简单方便,没有NIPT测序以外的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用。

Description

无创产前基因检测测序数据的分析方法、装置及存储介质
技术领域
本申请涉及基因测序数据分析技术领域,特别是涉及一种无创产前基因检测测序数据的分析方法、装置及存储介质。
背景技术
怀孕合并肿瘤的发生比较罕见,发病率在0.07%至0.1%。较为常见的肿瘤类型包括淋巴瘤、乳腺癌、卵巢癌、黑色素瘤、白血病、结直肠癌。由于肿瘤的隐蔽性和潜伏性且发生在孕期,肿瘤常见的症状会被怀孕期间的生理变换所掩盖。又因为孕期的特殊性,考虑到胎儿暴露于补充性检查的固有风险,如电离辐射,使医生不容易立即检查引起这些症状的原因;另一方面怀孕干扰了诊断方法的敏感性和特异性,即使在症状得到适当检查的情况下,仍然有较高的误诊或漏诊。
肿瘤患者的外周血中,含有肿瘤来源的循环游离DNA(circulating tumor DNA,ctDNA)。ctDNA仅占所有的母体外周血中的游离DNA片段(cell-fell DNA,cfDNA)的小部分。ctDNA带有其肿瘤相关的分子特征,可以应用于液体活检,具有重要的临床应用价值。在怀孕期间,孕妇外周血中的cfDNA绝大部分来自于母体的造血系统,另外存在少量的来源于胎盘滋养细胞凋亡而释放进入母亲的血液循环系统。若母体存在肿瘤,则cfDNA中也存在部分肿瘤凋零ctDNA。
无创产前检测(non-invasive prenatal testing,NIPT),或称无创产前基因检测,是一种通过对母体外周血中的游离DNA片段(cell-fell DNA,cfDNA)进行高通量测序分析,检测胎儿染色体数目异常的非侵入性产前筛查技术。相比于传统的筛查手段,无创产前基因检测具有安全、方便等特点;并且,可以高敏感和高特异性地检出唐氏综合症(T21)、爱德华综合征(T18)、帕陶氏综合征(T13)。NIPT在2011年开始商业应用,据华大基因统计,迄今为止,全球已进行了超过一千万次NIPT检测。NIPT检测中常用染色体Z分数评估胎儿染色体非整倍体情况,一般Z分数的绝对值>3通常作为风险阈值。
现有研究显示,肿瘤是导致无创产前基因检测的检测失败或造成假阳性的原因之一;并且,有研究报道,NITP数据多条染色体离群样本中意外发现肿瘤样本的案例。Bianchi等人在JAMA上发表成果,对NIPT异常样本,即一条及一条以上染色体非整倍体,进行回顾性分析,研究NIPT多种异常类型样本中的肿瘤发生比例,得到如下结论:在两条及两条以上染色体非整倍体中发生比例最高可达18%,95%置信区间为7.5%-33.5%。Ji,X.,et al.在文献(Identifying occult maternal malignancies from 1.93 million pregnantwomen undergoing noninvasive prenatal screening tests.Genet Med,2019)中开发了一套基于拷贝数目变异(copy number variation,CNV)的NIPT异常(多条染色非整倍体)样本中检测母体肿瘤的信息分析算法,其灵敏度(sensitivity)83%,特异度(specificity)85%,若结合肿瘤标志物信息,阳性预测值(positive predictive value,PPV)提高到75%。该方法初步解决了肿瘤预测问题,但是无法给出具体的肿瘤类型。
目前,对于肿瘤的检测技术主要包括:
(1)基于血清学肿瘤标志物的检测,例如CA125、CA19-9、CEA、HGF等血清蛋白对于肿瘤的诊断、检测有一定的作用。
(2)CT、核磁共振等影像学手段。
(3)基于下一代测序技术进行的肿瘤检测,主要有以下方案:
a)SNV水平的基因组变异:近来对ctDNA的研究表明肿瘤特异性的突变研究可以用于肿瘤早筛,通过高深度靶向测序或者多重PCR等方法检测肿瘤特有的体细胞突变(somatic mutation)。
b)拷贝数变异检测:通过ctDNA全基因组测序可以检测染色体水平的变异或者拷贝数目变异。
c)甲基化:近年来的研究表明甲基化生物标志物也可以进行肿瘤预测。
d)肿瘤的cfDNA片段特有核小体相关印记:cfDNA测序可以反应包裹核小体cfDNA片段长度。Jiang P等人的研究指出,在肝癌患者的cfDNA中肿瘤的片段检测中发现肝癌患者的cfDNA片段长度会部分的短于正常人。Cristiano S等人将cfDNA在全基因组上的每个区间的短片段的比例作为特征可以用来预测肿瘤并识别其组织类型。核小体的位置,cfDNA的片段末端在基因组上的位置显示与肿瘤及其组织来源存在一定的相关性。
现有的产品及已发表的肿瘤预测研究成果中,通常是将上述技术结合来使用。例如Guardant Health的LUNAR-2(https://guardanthealth.com/solutions/#lunar-2)结合了上述a、c、d三个方案,在结直肠癌可以达到较高的灵敏度,具体方法未知。
Natera公司肿瘤术后检测产品signature(https://www.natera.com/signatera),基于上述a方案,选择16个特异的SNV位点,在结直肠癌和肺癌上的复发检测上可以达到有超高的灵敏度。
2018年Joshua D.cohen团队发表在Science上一篇研究成果。基于血清标志物与SNV的肿瘤检测方法CancerSEEK,在1005个患有肺癌、肝癌、结直肠癌等不同8种类型的肿瘤患者中。特异性可以达到99%,灵敏性根据癌种的不同在69%到98%之间。
基于血清学肿瘤标志物的检测,在肿瘤患者的诊断、管理中有一定的价值,但由于其在妊娠期间,肿瘤标志物水平会发生显著的变化,缺乏敏感性和特异性。常用的肿瘤标志物ca153、SCC、ca125和AFP水平在妊娠期升高;CEA、CA 19-9、LDH、AMH、HE-4水平一般不会增加,理论上,在肿瘤的检查上起到一定的作用。
CT、核磁共振等影像学手段,对于早期的肿瘤筛查存在较高的假阳性和假阴性风险,很难实现肿瘤的早期筛查。并且,因为孕期的特殊性,考虑到胎儿暴露于补充性检查的固有风险,如电离辐射,使医生不容易立即检查引起这些症状的原因。
基于下一代测序技术进行的肿瘤检测,各种方案都有其缺陷和不足,例如方案a,SNV水平的基因组变异,并不是所有患者均可检测到特异性变异,且实验成本较高很难实现大规模的普及。方案b,拷贝数变异检测,仅有少部分个体存在该种类型变异。方案c,甲基化检测,成本较高很难大规模的应用普及。方案d,肿瘤的cfDNA片段特有核小体相关印记,通常需要较高的测序深度,且仅在科研探索阶段很难应用于临床常规检测。
综上所述,目前尚未有能够基于无创产前基因检测有效预测无症状孕期肿瘤的技术。如何利用无创产前基因检测测序数据为无症状孕期肿瘤预测提供中间结果或参考数据,是亟待解决的问题。
发明内容
本申请的目的是提供一种新的无创产前基因检测测序数据的分析方法、装置及存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种无创产前基因检测测序数据的分析方法,包括以下步骤:
染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体(Multiple chromosomal aneuploidies,MCA)的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;
染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;
孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;
其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
需要说明的是,本申请首次巧妙的利用NIPT检测中MCA样本的染色体Z分数平均值评估孕期肿瘤情况,并创造性的将除Y染色体和19号染色体外,其他染色体的Z值分数绝对值最大的前5条染色体的平均值作为孕期肿瘤评估的阈值,在检测无症状母体癌症方面具有很高的敏感性和特异性。本申请的分析方法,简单且分析不涉及测序或实验的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用,对扩大NIPT在妊娠期间筛查胎儿21,13和18三体以外的隐匿性母体癌症的应用有重要意义。
可以理解,本申请的分析方法,最终获得的仅仅是待测对象的肿瘤患病风险,只能作为中间参考数据,不能直接用于诊断;原则上,对于判断为肿瘤高风险人群的待测对象,还需要进一步的进行医学检查,以确定是否患病。因此,本申请的分析方法,能够用于隐匿性母体癌症的广泛筛查,为无症状孕期肿瘤预测提供科学的参考依据。
本申请的一种实现方式中,根据NIFTY算法计算染色体的Z值的公式为,Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。其中,参考对照人群是指同批次进行检测样本,即sdj是所有同批次检测样本的(crij-cr’ij)的标准差。
需要说明的是,本申请根据NIFTY算法计算染色体的Z值可以参考文献:Jiang F,Ren J,Chen F,et al.Noninvasive Fetal Trisomy(NIFTY)test:an advancednoninvasive prenatal diagnosis methodology for fetal autosomal and sexchromosomal aneuploidies.BMC medical genomics,2012,5(1):1-11,因此,该文献中关于Z值计算的相关内容全部引用至本申请。
本申请的一种实现方式中,M TOP5 Z scores的计算公式为,
Figure BDA0003467018560000041
其中,absolute z scores即Z值绝对值。
本申请的一种实现方式中,染色体非整倍体获取及比对步骤中,出现两条或两条以上染色体非整倍体是指,除Y染色体和19号染色体以外的其他染色体出现两条或两条以上染色体非整倍体。
需要说明的是,之所以排除Y染色体和19号染色体,是因为研究发现,19号染色体拷贝数异常率过高,而Y染色体存在胎儿性别差异;因此,在定义MCA和M TOP5 Z scores时均排除这两个染色体。
本申请的一种实现方式中,训练集包括至少42例肿瘤样本和至少294例正常样本,训练获得的阈值为5.94。
需要说明的是,本阈值为5.94,训练集包括至少42例肿瘤样本和至少294例正常样本,这些都是本申请的一种实现方式中具体采用的样本和获得的阈值;可以理解,在本申请的发明构思下,可以采用更多或更少的样本,具体获得的阈值也可能有所不同,在此不作具体限定。
本申请的第二方面公开了一种无创产前基因检测测序数据的分析装置,包括染色体非整倍体获取及比对模块、染色体Z值计算模块、阈值训练模块和孕期肿瘤风险评估模块;染色体非整倍体获取及比对模块,包括用于从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;染色体Z值计算模块,包括用于根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Zscores;阈值训练模块,包括用于以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Zscores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值;孕期肿瘤风险评估模块,包括用于将待测对象的M TOP5 Z scores与M TOP5 Z scores阈值训练模块获得的阈值进行比较,如果待测对象的M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群。
需要说明的是,本申请的分析装置中,阈值训练模块主要是为了利用训练集获得阈值;可以理解,在已经获得阈值的情况下,可以直接使用该阈值;因此,不用每次都运行阈值训练模块。当然,在有新的待测对象及其检测结果的情况下,也可以将新的待测对象的检测结果提供给阈值训练模块,进一步训练完善,使其获得的阈值能够更准确有效的用于肿瘤风险评估。
还需要说明的是,本申请的无创产前基因检测测序数据的分析装置,实际上就是通过各模块分别实现本申请的无创产前基因检测测序数据的分析方法中的各步骤;因此,各模块的具体限定可以参考本申请的无创产前基因检测测序数据的分析方法,在此不累述。例如,NIFTY算法、M TOP5 Z scores的计算公式、训练集样本数和阈值等,都可以参考本申请的无创产前基因检测测序数据的分析方法。
本申请的第三方面公开了一种无创产前基因检测测序数据的分析装置,该装置包括存储器和处理器;存储器包括用于存储程序;处理器包括用于通过执行存储器存储的程序以实现本申请的无创产前基因检测测序数据的分析方法。
本申请的第四方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请的无创产前基因检测测序数据的分析方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请无创产前基因检测测序数据的分析方法,首次利用NIPT检测中MCA样本的染色体Z值绝对值前五的平均值评估孕期肿瘤情况;本申请分析方法直接利用NIPT测序数据即可,简单方便,且没有NIPT测序以外的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用。
附图说明
图1是本申请实施例中无创产前基因检测测序数据的分析方法的流程框图;
图2是本申请实施例中无创产前基因检测测序数据的分析装置的结构框图;
图3是本申请实施例中19号染色体在肿瘤孕妇和健康孕妇中多倍体和单倍体异常比例分析图;
图4是本申请实施例中62例肿瘤和434例正常样本的M TOP5 Z scores值比较分析图;
图5是本申请实施例中训练集与验证集M TOP5 Z scores的ROC曲线。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他装置、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
目前为止,尚未有一种方法能够直接利用无创产前基因检测进行有效的预测无症状孕期肿瘤。本申请巧妙的利用NIPT检测中MCA样本的染色体Z分数平均值评估孕期肿瘤情况,方法简单且分析不涉及测序或实验的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用,且无需额外费用,便于形成产品并推广。本申请的基本发明构思是,采用NIPT检测中生成的Z分数判断孕妇是否罹患肿瘤,具体的,分析NIPT检测中出现两条或两条以上染色体非整倍体(Multiple chromosomal aneuploidies,MCA)样本的染色体Z分数,M TOP5 Z scores是指除Y和19号染色体外,Z分数绝对值最大的前5条染色体的平均值,利用M TOP5 Z scores评估孕期肿瘤风险。
基于以上思路,本申请创造性的提出了一种无创产前基因检测测序数据的分析方法,如图1所示,包括染色体非整倍体获取及比对步骤11、染色体Z值计算步骤12和孕期肿瘤风险评估步骤13。
其中,染色体非整倍体获取及比对步骤11,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads。
本申请的一种实现方式中,具体是,利用bwa与参考基因组hg19进行比对,去除unmatched的reads及重复的reads。
染色体Z值计算步骤12,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores。
本申请的一种实现方式中,具体是计算公式为:Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。其中,参考对照人群是指同批次进行检测样本,即sdj是所有同批次检测样本的(crij-cr’ij)的标准差。Z值计算公式的详细说明和解释可以参考Jiang F,Ren J,Chen F,et al.Noninvasive Fetal Trisomy(NIFTY)test:an advancednoninvasive prenatal diagnosis methodology for fetal autosomal and sexchromosomal aneuploidies.BMC medical genomics,2012,5(1):1-11。
在本申请的孕期肿瘤(n=62)和正常对照(n=434)样本中,正常孕妇样本中chr19缺失(Z值<-3)和chr19扩增(Z值>3)的比例分别为53.92%和21.89%。肿瘤孕妇样本中chr19缺失(Z值<-3)和chr19扩增(Z值>3)的比例分别为22.58%和45.16%,如图3所示。鉴于chr19拷贝数异常率过高和Y染色体存在胎儿性别差异,本申请定义MCA和M TOP5 Zscores时,都排除这两个染色体。MCA定义为除Y染色体和19号染色体外至少两条染色体Z分数绝对值>3.0。
孕期肿瘤风险评估步骤13,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
本申请的一种实现方式中,训练集包括42例肿瘤和294例正常样本,确定M TOP5 Zscores的阈值为5.94,若待测样本计算出来的MTOP5Zscores>5.94,说明该样本属于肿瘤高风险人群,建议进行医学检查。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的无创产前基因检测测序数据的分析方法,本申请提出了一种无创产前基因检测测序数据的分析装置,如图2所示,包括染色体非整倍体获取及比对模块21、染色体Z值计算模块22、阈值训练模块23和孕期肿瘤风险评估模块24。
其中,染色体非整倍体获取及比对模块21,包括用于从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads。例如,参考bwa与参考基因组hg19进行比对。
染色体Z值计算模块22,包括用于根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores。
例如,M TOP5 Z scores的计算公式为,
Figure BDA0003467018560000081
其中,absolute z scores即Z值绝对值。
阈值训练模块23,包括用于以若干肿瘤样本和若干正常样本为训练集,以M TOP5Z scores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值。
例如,以42例肿瘤和294例正常样本为训练集,进行训练,最终确定M TOP5 Zscores的阈值为5.94。
孕期肿瘤风险评估模块24,包括用于将待测对象的M TOP5 Z scores与阈值训练模块获得的阈值进行比较,如果待测对象的M TOP5 Z scores大于所述阈值,则判断待测对象为肿瘤高风险人群。
本申请的另一实现方式中还提供了一种无创产前基因检测测序数据的分析装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体(Multiple chromosomalaneuploidies,MCA)的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体(Multiplechromosomal aneuploidies,MCA)的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Zscores;孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
实施例
本例利用62例肿瘤样本和434例正常样本NIPT测序数据,所有样本均为NIPT检测结果为MCA的样本,即除Y染色体和19号染色体外,其他染色体中至少两条染色体Z分数绝对值>3.0。将62例肿瘤样本和434例正常样本分为两组,一组为训练集,一组为验证集。其中,训练集中含有42例肿瘤样本和294例正常样本,验证集中含有20例肿瘤和140例正常样本,本例分别计算各样本的M TOP5 Z scores值,利用训练集获得阈值,利用验证集验证本例无创产前基因检测测序数据的分析方法,对肿瘤风险评估的准确性。具体如下:
(1)获取62例肿瘤样本和434例正常人NIPT下机数据;
(2)对于每一例样本的测序数据,分别利用bwa与参考基因组hg19进行比对,去除unmatched的reads及重复的reads;
(3)利用Jiang F,Ren J,Chen F,et al.Noninvasive Fetal Trisomy(NIFTY)test:an advanced noninvasive prenatal diagnosis methodology for fetalautosomal and sex chromosomal aneuploidies.BMC medical genomics,2012,5(1):1-11文献报道中的NIFTY算法计算除Y染色体和19号染色体以外的每条染色体的Z值,并计算每个样本中Z值绝对值前五的平均值,标记为M TOP5 Z scores。
Z值的公式为,
Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。其中,参考对照人群是指同批次进行检测样本,即sdj是所有同批次检测样本的(crij-cr’ij)的标准差。例如,对于训练集而言,就是42例肿瘤样本和294例正常样本中同批次检测的所有样本;对于验证集而言,就是20例肿瘤和140例正常样本中同批次检测的所有样本。
M TOP5 Z scores的计算公式为,
Figure BDA0003467018560000101
其中,absolute z scores即Z值绝对值。
采用训练集中的42例肿瘤样本和294例正常样本,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值,本例具体的M TOP5 Z scores的阈值为5.94,若待测样本计算出来的M TOP5 Z scores>5.94,说明该样本属于肿瘤高风险人群,建议进行医学检查。
以获得的阈值5.94为基础,对验证集中的20例肿瘤和140例正常样本进行肿瘤风险评估,将肿瘤风险评估结果与实际情况进行比较,验证本例无创产前基因检测测序数据的分析方法,对肿瘤风险评估的准确性。
本例的分析方法在训练集验证集中筛查孕期恶性肿瘤的效果如图4、图5和表1所示。
表1 M TOP5 Z scores在训练集和验证集中筛查孕期肿瘤的效果评价
Figure BDA0003467018560000111
表1中,括号内数值为对应参数的95%可信区间。
图4为62例肿瘤和434例正常样本M TOP5 Z scores值比较,图5为训练集与验证集M TOP5 Z scores的ROC曲线。图4、图5和表1的结果显示,与正常人相比,肿瘤病人具有更高的M TOP5 Z scores值;训练集的ROC曲线显示,训练集AUC为90.56%,验证集的ROC曲线显示,验证集AUC为88.14%。
由此可见,本例无创产前基因检测测序数据的分析方法能够对无症状孕期肿瘤进行预测,灵敏度达到85%以上,95%置信区间的最高灵敏度可达96%以上;并且,特异性达到80%以上,95%置信区间的最高特异性可达88%以上。因此,本例的无创产前基因检测测序数据的分析方法能够用于隐匿性母体癌症的早期筛查,进一步扩展了NIPT的应用。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (10)

1.一种无创产前基因检测测序数据的分析方法,其特征在于:包括以下步骤,
染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;
染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;
孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果MTOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;
所述阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
2.根据权利要求1所述的分析方法,其特征在于:根据NIFTY算法计算染色体的Z值的公式为,
Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。
3.根据权利要求1所述的分析方法,其特征在于:所述M TOP5 Z scores的计算公式为,
Figure FDA0003467018550000011
其中,absolute z scores即Z值绝对值。
4.根据权利要求1-3任一项所述的分析方法,其特征在于:所述染色体非整倍体获取及比对步骤中,出现两条或两条以上染色体非整倍体是指,除Y染色体和19号染色体以外的其他染色体出现两条或两条以上染色体非整倍体。
5.一种无创产前基因检测测序数据的分析装置,其特征在于:包括染色体非整倍体获取及比对模块、染色体Z值计算模块、阈值训练模块和孕期肿瘤风险评估模块;
所述染色体非整倍体获取及比对模块,包括用于从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;
所述染色体Z值计算模块,包括用于根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;
所述阈值训练模块,包括用于以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Zscores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值;
所述孕期肿瘤风险评估模块,包括用于将待测对象的M TOP5 Z scores与所述阈值训练模块获得的阈值进行比较,如果待测对象的M TOP5 Z scores大于所述阈值,则判断待测对象为肿瘤高风险人群。
6.根据权利要求5所述的分析装置,其特征在于:根据NIFTY算法计算染色体的Z值的公式为,
Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。
7.根据权利要求5所述的分析装置,其特征在于:所述M TOP5 Z scores的计算公式为,
Figure FDA0003467018550000021
其中,absolute z scores即Z值绝对值。
8.根据权利要求5-7任一项所述的分析装置,其特征在于:所述染色体非整倍体获取及比对模块中,出现两条或两条以上染色体非整倍体是指,除Y染色体和19号染色体以外的其他染色体出现两条或两条以上染色体非整倍体。
9.一种无创产前基因检测测序数据的分析装置,其特征在于,所述分析装置包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的无创产前基因检测测序数据的分析方法。
10.一种计算机可读存储介质,其特征在于:包括程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的无创产前基因检测测序数据的分析方法。
CN202210032341.1A 2022-01-12 2022-01-12 无创产前基因检测测序数据的分析方法、装置及存储介质 Pending CN114267409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210032341.1A CN114267409A (zh) 2022-01-12 2022-01-12 无创产前基因检测测序数据的分析方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210032341.1A CN114267409A (zh) 2022-01-12 2022-01-12 无创产前基因检测测序数据的分析方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114267409A true CN114267409A (zh) 2022-04-01

Family

ID=80832938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210032341.1A Pending CN114267409A (zh) 2022-01-12 2022-01-12 无创产前基因检测测序数据的分析方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114267409A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132271A (zh) * 2022-09-01 2022-09-30 北京中仪康卫医疗器械有限公司 一种基于批次内校正的cnv检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132271A (zh) * 2022-09-01 2022-09-30 北京中仪康卫医疗器械有限公司 一种基于批次内校正的cnv检测方法

Similar Documents

Publication Publication Date Title
Reuben et al. Genomic and immune heterogeneity are associated with differential responses to therapy in melanoma
Nicolaides et al. Validation of targeted sequencing of single‐nucleotide polymorphisms for non‐invasive prenatal detection of aneuploidy of chromosomes 13, 18, 21, X, and Y
Kim et al. Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts
JP5938484B2 (ja) ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体
IL249095B2 (en) Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies
CN115287348A (zh) Dna混合物中组织的单倍型的甲基化模式分析
Lu et al. Noninvasive prenatal testing for assessing foetal sex chromosome aneuploidy: a retrospective study of 45,773 cases
JP2023541368A (ja) がんを評価するための無細胞dna断片サイズ密度のための方法及びシステム
US20210090687A1 (en) Methods of quality control using single-nucleotide polymorphisms in pre-implantation genetic screening
BR112020026133A2 (pt) métodos e sistemas para monitorar a saúde e as doenças dos órgãos
Chen et al. Validation of fetal DNA fraction estimation and its application in noninvasive prenatal testing for aneuploidy detection in multiple pregnancies
Lannoo et al. Non‐invasive prenatal testing suggesting a maternal malignancy: What do we tell the prospective parents in Belgium?
EP3023504B1 (en) Method and device for detecting chromosomal aneuploidy
Tynan et al. Application of risk score analysis to low‐coverage whole genome sequencing data for the noninvasive detection of trisomy 21, trisomy 18, and trisomy 13
Zhao et al. Global analysis of methylation profiles from high resolution CpG data
Xu et al. Informative priors on fetal fraction increase power of the noninvasive prenatal screen
CN114267409A (zh) 无创产前基因检测测序数据的分析方法、装置及存储介质
Guanciali Franchi et al. Sequential combined test, second trimester maternal serum markers, and circulating fetal cells to select women for invasive prenatal diagnosis
Zhang et al. Count-based size-correction analysis of maternal plasma DNA for improved noninvasive prenatal detection of fetal trisomies 13, 18, and 21
Qu et al. The setup and application of reference material in sequencing-based noninvasive prenatal testing
Raymond et al. Placental, maternal, fetal and technical origins of false-positive cell-free DNA screening results
Nguyen et al. An Efficient Computational Method to Simulate Autosomal Chromosomes with Trisomy Aberrations
Zhu et al. A novel graphic-aided algorithm (gNIPT) improves the accuracy of noninvasive prenatal testing
Adil Accurate Quantification of Placental (Fetal) Fraction by Tissue Specific Cell-Free DNA Analysis
Koptyra et al. METB-11. EXPANSION OF THE PEDIATRIC BRAIN TUMOR ATLAS: AN OPEN SCIENCE EFFORT OF CHILDREN’S BRAIN TUMOR NETWORK, KIDS FIRST DATA RESOURCE AND CHILDHOOD CANCER DATA INITIATIVE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231020

Address after: 518083 Huada Complex Park, 21 Hongan Third Street, Yantian District, Shenzhen City, Guangdong Province, 7 buildings, 7 floors-14 floors

Applicant after: BGI SHENZHEN Co.,Ltd.

Applicant after: Shanghai Huada Medical Laboratory Co.,Ltd.

Address before: 518083 Huada Complex Park, 21 Hongan Third Street, Yantian District, Shenzhen City, Guangdong Province, 7 buildings, 7 floors-14 floors

Applicant before: BGI SHENZHEN Co.,Ltd.