CN107491666A - 异常组织中单样本体细胞突变位点检测方法、装置和存储介质 - Google Patents

异常组织中单样本体细胞突变位点检测方法、装置和存储介质 Download PDF

Info

Publication number
CN107491666A
CN107491666A CN201710779843.XA CN201710779843A CN107491666A CN 107491666 A CN107491666 A CN 107491666A CN 201710779843 A CN201710779843 A CN 201710779843A CN 107491666 A CN107491666 A CN 107491666A
Authority
CN
China
Prior art keywords
mutation
sample
sequence
simulation
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710779843.XA
Other languages
English (en)
Other versions
CN107491666B (zh
Inventor
王佳茜
高志博
陈超
李淼
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yukang Medical Laboratory
Original Assignee
Shenzhen Yulce Biological Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yulce Biological Technology Co Ltd filed Critical Shenzhen Yulce Biological Technology Co Ltd
Priority to CN201710779843.XA priority Critical patent/CN107491666B/zh
Publication of CN107491666A publication Critical patent/CN107491666A/zh
Application granted granted Critical
Publication of CN107491666B publication Critical patent/CN107491666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

一种异常组织中单样本体细胞突变位点检测方法、装置和存储介质,所述方法包括:获取异常样本和模拟的正常样本的有效测序序列;在上述有效测序序列中,对异常样本与模拟的正常样本不一致的碱基,根据突变碱基频率判断异常样本和模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据差异判断突变类型;以及通过对突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。所述方法具有高灵敏度、高特异性的特点,不仅对已知突变基因的突变检测具有比较高的灵敏度,而且能够找到新的突变基因。

Description

异常组织中单样本体细胞突变位点检测方法、装置和存储 介质
技术领域
本发明涉及突变检测技术领域,具体涉及一种异常组织中单样本体细胞突变位点检测方法、装置和存储介质。
背景技术
基因组测序技术为癌症研究提供新的方向和契机,近几十年来,研究者通过测序技术发现了大量新的肿瘤驱动基因(driver gene),加速了癌症分子标记物的发现和个体化医疗的进程。常规的实验设计是同时收集肿瘤样本和对照样本,通过比较肿瘤样本和对照样本之间的差异,找到体细胞突变(somatic mutation)。这是理想的实验设计方案,但实际上有部分肿瘤组织很难取到对照样本或在保存的过程中丢失了对照样本,这部分样本仍然具有很高的研究价值,因此针对非成对样本的体细胞突变检测就十分关键。
目前针对肿瘤体细胞突变的检测大部分都是基于成对样本开发的,例如常用的samtools、varscan、GATK等软件。Broad开发的mutect软件虽然有单样本模式的体细胞变异检测,但效果不尽如人意,假阳性率高达99%以上。由此可见,目前基于非成对样本的体细胞突变检测方法有很大的挑战,如何识别生殖遗传突变是关键,但是目前的数据库无论是人类多态性遗传位点数据库dbSNP(https://www.ncbi.nlm.nih.gov/projects/SNP/)还是千人基因组计划发布的多态性数据库(http://www.internationalgenome.org)都无法包含人类所有的生殖遗传突变信息,因此需要借助其它信息来过滤掉生殖遗传突变。
发明内容
本发明提供一种异常组织中单样本体细胞突变位点检测方法、装置和存储介质,应用简单模型,具有高灵敏度、高特异性的特点,不仅对已知突变基因的突变检测具有比较高的灵敏度,而且能够找到新的突变基因。
根据第一方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测方法,包括如下步骤:
获取异常样本和模拟的正常样本的有效测序序列;
在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和
通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
进一步地,上述异常样本是肿瘤样本。
上述获取异常样本和模拟的正常样本的有效测序序列之前,还包括将上述异常样本和模拟的正常样本的测序序列分别比对至参考基因组进行数据预处理的步骤;
进一步地,上述数据预处理包括如下至少一项:
过滤掉非目标物种基因组序列和测序重复序列;
过滤掉序列比对质量值小于预设值的序列,优选地,上述预设值是1;
保留重叠区域内两条成对序列中质量值较高的序列;和
过滤掉截断比对的序列、错配碱基富集的序列和比对有空隙的序列。
进一步地,上述根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型包括:
分别对上述异常样本和上述模拟的正常样本,选择测序位点深度均大于最低深度阈值的位点,若突变碱基频率大于频率阈值,则可认为在此位点有该碱基;
优选地,上述最低深度阈值是10×;
优选地,上述频率阈值是2%。
进一步地,上述根据上述差异判断突变类型包括:
若上述模拟的正常样本中无变异碱基而上述异常样本中有变异碱基,且差异检验p值小于0.05,则认为是体细胞突变;
若上述模拟的正常样本和上述异常样本中都有变异碱基,且两者的差异检验p值大于0.05,则认为是生殖细胞突变;以及
若上述模拟的正常样本中有变异碱基而上述异常样本中没有变异碱基,且差异检验p值小于0.05,则认为是杂合性缺失突变。
进一步地,上述过滤去除假阳性变异包括过滤去除如下至少一项:
碱基质量值低于预设值;
所在序列比对质量值低于预设值;
突变位置集中在序列末端;
突变具有链偏向性;
突变周围覆盖深度低于预设值;和
突变周围有插入缺失富集。
进一步地,上述过滤去除生殖细胞突变包括:
过滤去除常见生殖细胞突变;和
根据纯度和拷贝数信息矫正突变频率以过滤去除生殖细胞突变;
优选地,上述根据纯度和拷贝数信息矫正突变频率以过滤去除生殖细胞突变包括:
按照如下突变碱基频率的计算公式:
其中,AF表示突变碱基频率,p表示异常纯度,C表示异常拷贝数,M表示突变位点的拷贝数,
若g值等于0或接近于0,则认为是体细胞突变;
若g值等于1或接近于1,则认为是生殖细胞突变;
若g值介于0到1之间,则认为无法判断是体细胞突变还是生殖细胞突变;以及
若g值小于0,则认为是亚克隆体细胞突变。
根据第二方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测装置,包括:
数据获取装置,用于获取异常样本和模拟的正常样本的有效测序序列;
变异检测装置,用于在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和
过滤装置,用于通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
根据第三方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测装置,包括:
数据预处理装置,用于将异常样本和模拟的正常样本的测序序列,分别比对至参考基因组进行数据预处理得到有效测序序列;
数据获取装置,用于获取异常样本和模拟的正常样本的有效测序序列;
变异检测装置,用于在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和
过滤装置,用于通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
根据第四方面,一种实施例中提供一种异常组织中单样本体细胞突变位点检测装置,包括:
存储器,用于存储程序;
处理器,用于通过执行上述存储器存储的程序以实现如第一方面的方法。
根据第五方面,一种实施例中提供一种计算机可读存储介质,包括程序,上述程序能够被处理器执行以实现如第一方面的方法。
本发明的异常组织中单样本体细胞突变位点检测方法,应用于异常基因组点突变检测,对于缺少正常对照样本的异常组织样本,通过采用模拟的正常样本,经过数据预处理、变异检测和过滤处理,实现单样本体细胞突变位点检测,具有高灵敏度、高特异性的特点,不仅对已知突变基因的突变检测具有比较高的灵敏度,而且能够找到新的突变基因。
附图说明
图1为本发明一种实施例中的异常组织中单样本体细胞突变位点检测方法的流程示意图;
图2为本发明一种实施例中的异常组织中单样本体细胞突变位点检测装置的结构框图;
图3为本发明一种实施例中26个测序深度100X以上的外显子肿瘤样本,采用本发明的单样本体细胞突变位点检测方法得到的检测结果与基于成对样本的检测方法得到的检测结果的一致性数据的特异性情况;柱状表示样本的真阳性(true positive)和假阳性(false positive)的突变数目(No.of mutations);
图4为本发明一种实施例中26个测序深度100X以上的外显子肿瘤样本,采用本发明的单样本体细胞突变位点检测方法得到的检测结果与基于成对样本的检测方法得到的检测结果的一致性数据的灵敏性情况;柱状表示样本的真阳性(true positive)和假阴性(false negtive)的突变数目(No.of mutations);
图5为本发明一种实施例中26个测序深度100X以上的外显子肿瘤样本,采用本发明的单样本体细胞突变位点检测方法得到的检测结果与基于成对样本的检测方法得到的检测结果的一致性数据,示出了平均85%的特异性(Specificity)和平均82%的灵敏性(Sensitivity);
图6为本发明一种实施例中样本的重要基因(CGC)的突变采用本发明的单样本体细胞突变位点检测方法的找回情况,柱状表示样本的真阳性(true positive)和真阴性(true negtive)的CGC基因突变数目(No.of mutations in CGC genes),显示突变90%以上都能找回;其中,TP53和NOTCH1基因在测试数据食管鳞癌里的频率(Frequency ofmutation)分别为85%和12%,本发明的单样本体细胞突变位点检测方法都能100%的灵敏性(Sensitivity)找到;
图7为本发明一种实施例中一个样本T99,使用本发明的单样本体细胞突变位点检测方法(图中Single)找回的突变相对于基于成对样本的检测方法(图中Paired)的情况,显示找回83%真实的突变,并且发现了已知重要基因TP53的突变和新基因ZBNF750突变。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本发明相关的一些操作并没有在说明书中显示或者描述,这是为了避免本发明的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
如图1所示,本发明一种实施例示出了异常组织中单样本体细胞突变位点检测方法,包括如下步骤:
S101:数据预处理(可选的)
获取异常样本和模拟的正常样本的测序序列,分别比对参考基因组并进行数据预处理得到有效测序序列。
本发明中,由于缺乏正常对照样本,需要有一个模拟的正常样本作为对照进行检测,模拟的正常样本可以是,例如,提取十几个经过二代测序得到的原始序列,组合成一个100X深度的样本,经过比对到参考基因组(例如人类参考基因组)形成bam格式的比对文件。
本发明中,异常样本可以是肿瘤样本、组织增生样本、血液样本、胸腹水样本等,在本发明实例中,以肿瘤样本为例说明本发明的异常组织中单样本体细胞突变位点检测方法,应当理解,本发明不限于肿瘤样本,也可用于其它样本类型。
在本发明一个实施例中,数据预处理包括对一个比对后的bam文件,进行有效测序序列的过滤,具体包括如下至少一项:
(1)过滤掉非目标物种(例如人类)基因组序列和测序重复序列;
(2)过滤掉序列比对质量值小于预设值(例如1)的序列;
(3)对于重叠区域内成对序列的处理:若两条成对序列在重叠区域内碱基型一致,则只保留重叠区域内质量值较高的一条序列;若碱基型不一致,若其中一条序列质量值高,另一条质量值低,则保留质量值高的序列,否则两条都舍弃;以及
(4)过滤掉截断比对的序列(soft-clipped reads)、错配碱基富集的序列(clustered mismatchreads)和比对有空隙的序列(gapped reads),其中截断比对的序列是指当基因组发生某一段缺失,在测序过程中横跨缺失位点及剪接位点的序列比对到基因组时,一条序列被切成两段,匹配到不同的区域,这样的序列叫做截断比对的序列,这些序列对于鉴定染色体结构变异及外源序列整合具有重要作用。错配碱基富集的序列,例如可以是碱基错配率在10%以上的序列。比对有空隙的序列,即碱基比对有缺失的序列。
S102:数据获取
获取异常样本和模拟的正常样本的有效测序序列。例如,上一步数据预处理得到的有效测序序列。
S103:变异检测
以肿瘤样本作为异常样本为例进行说明,其它待检测样本类似。对肿瘤样本中与模拟的正常样本不一致的碱基,选择测序位点深度大于最低深度阈值的位点,根据突变碱基频率判断异常样本和模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据差异判断突变类型。
在本发明一个实施例中,具体步骤如下:
a.判断碱基型:对模拟的正常样本和肿瘤样本分别判断碱基型,在肿瘤样本和正常样本测序位点深度都大于最低深度阈值(例如10X,也可以设置其它值)的位点,若突变碱基频率(allele frequency)大于阈值(例如默认为2%,也可以设置其它值),则可认为在此位点有该碱基;
b.检测变异:用单侧Fisher检验统计正常样本和肿瘤样本的碱基频率差异;
c.根据碱基频率差异判断位点是体细胞突变、生殖细胞突变或者杂合性缺失突变:若正常样本中无变异碱基而肿瘤样本中有变异碱基,且差异检验p值小于0.05,则认为是体细胞突变;若正常样本和肿瘤样本中都有变异碱基,且两者的检验p值大于0.05,则认为是生殖细胞突变;若正常样本中有变异碱基而肿瘤样本中无变异碱基,且差异检验p值小于0.05,则认为是杂合性缺失突变。
S104:过滤
由于肿瘤组织数据中包含的变异位点来源于三种:生殖细胞突变、体细胞突变和测序错误产生的假阳性变异。因此,要识别单样本肿瘤组织中的体细胞突变位点,需要过滤去除假阳性变异和生殖细胞突变,以得到高可信度的体细胞突变位点。
(1)变异假阳性过滤
一般假阳性位点都有如下特点:a.碱基质量值低(例如低于预设值10或其它值);b.所在序列比对质量值低(例如低于预设值20或其它值);c.突变位置集中在序列末端;d.突变具有链偏向性;e.突变周围覆盖深度低(例如低于预设值10或其它值);f.突变周围有插入缺失富集等。
在本发明一个优选的实施例中,变异假阳性过滤的具体内容如下表1所示:
表1
(2)生殖细胞突变过滤
(a)常见生殖细胞突变过滤
在本发明一个实施例中,常见生殖细胞突变过滤包含两种过滤,一种是基于已知的人群多态性数据库,如人类多态性遗传位点数据库dbSNP(https://www.ncbi.nlm.nih.gov/projects/SNP/)或者千人基因组计划发布的多态性数据库(http://www.internationalgenome.org);另外一种是基于专门的数据库,例如深圳裕策生物科技有限公司累计的600多例正常人类基因组数据。如果出现在人群1%以上频率的位点,将会被过滤掉。
(b)根据纯度和拷贝数信息矫正突变频率判断是否是生殖细胞突变
通过预测肿瘤样本的纯度和拷贝数变异,则碱基突变频率符合以下公式:
其中,AF表示突变碱基频率(allele frequency),p表示肿瘤纯度,C表示肿瘤拷贝数,M表示突变位点的拷贝数,若g值等于0或接近于0(例如0.01),则认为是体细胞突变;若g值等于1或接近于1(例如0.99),则认为是生殖细胞突变;若g值介于0到1之间,则认为无法判断是体细胞突变还是生殖细胞突变;以及若g值小于0,则认为是亚克隆体细胞突变。
最后输出结果,在本发明一个实施例中,输出两个文件:a.*.mut:所有从肿瘤样本中找到的变异位点,包括生殖细胞突变和体细胞突变;b.*.mut.hc:高置信度的体细胞突变。
在本发明一个实施例中,输出表头如下表2所示:
表2
本发明实施例的异常组织中单样本体细胞突变位点检测方法,应用于异常基因组点突变检测,对于缺少正常对照样本的异常组织样本,通过采用模拟的正常样本,经过数据预处理、变异检测和过滤处理,实现单样本体细胞突变位点检测,具有高灵敏度、高特异性的特点,不仅对已知突变基因的突变检测具有比较高的灵敏度,而且能够找到新的突变基因。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
因此,本发明的一种实施例还提供一种异常组织中单样本体细胞突变位点检测装置,如图2所示,包括:数据预处理装置201(可选的),用于将异常样本和模拟的正常样本的测序序列,分别比对至参考基因组进行数据预处理得到有效测序序列;数据获取装置202,用于获取异常样本和模拟的正常样本的有效测序序列;变异检测装置203,用于在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和过滤装置204,用于通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
本发明的另一种实施例还提供一种异常组织中单样本体细胞突变位点检测装置,包括:存储器,用于存储程序;处理器,用于通过执行上述存储器存储的程序以实现如下的方法:获取异常样本和模拟的正常样本的测序序列,分别比对参考基因组并进行数据预处理得到有效测序序列;在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
本发明的又一种实施例还提供一种计算机可读存储介质,包括程序,上述程序能够被处理器执行以实现如下的方法:获取异常样本和模拟的正常样本的测序序列,分别比对参考基因组并进行数据预处理得到有效测序序列;在上述有效测序序列中,对上述异常样本与上述模拟的正常样本不一致的碱基,根据突变碱基频率判断上述异常样本和上述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据上述差异判断突变类型;和通过对上述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
以下通过实施例详细说明本发明的技术方案和效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
对于26个测序深度100X以上的外显子肿瘤样本,采用本发明实施例的单样本体细胞突变位点检测方法进行体细胞突变检测,同时采用基于成对样本的检测方法进行体细胞突变检测。
本实施例中单样本体细胞突变位点检测方法,具体方法和参数包括:
数据预处理:异常样本是肿瘤样本;模拟的正常样本是提取十几个经过二代测序得到的原始序列,组合成一个100X深度的样本;参考基因组是人类参考基因组;有效测序序列的过滤包括:过滤掉非人类基因组序列和测序重复序列;过滤掉序列比对质量值小于1的序列;对于重叠区域内成对序列的处理:若两条成对序列在重叠区域内碱基型一致,则只保留重叠区域内质量值较高的一条序列;若碱基型不一致,若其中一条序列质量值高,另一条质量值低,则保留质量值高的序列,否则两条都舍弃;以及过滤掉截断比对的序列、错配碱基富集的序列和比对有空隙的序列。
变异检测:a.判断碱基型:对模拟的正常样本和肿瘤样本分别判断碱基型,在肿瘤样本和正常样本测序位点深度都大于最低深度阈值10X的位点,若突变碱基频率大于阈值2%,则可认为在此位点有该碱基;b.检测变异:用单侧Fisher检验统计正常样本和肿瘤样本的碱基频率差异;c.根据碱基频率差异判断位点是体细胞突变、生殖细胞突变或者杂合性缺失突变:若正常样本中无变异碱基而肿瘤样本中有变异碱基,且差异检验p值小于0.05,则认为是体细胞突变;若正常样本和肿瘤样本中都有变异碱基,且两者的检验p值大于0.05,则认为是生殖细胞突变;若正常样本中有变异碱基而肿瘤样本中无变异碱基,且差异检验p值小于0.05,则认为是杂合性缺失突变。
过滤:
(1)变异假阳性过滤:a.碱基质量值低(例如低于预设值5);b.所在序列比对质量值低(例如低于预设值0);c.突变位置集中在序列末端;d.突变具有链偏向性;e.突变周围覆盖深度低(例如低于预设值10);f.突变周围有插入缺失富集等。
(2)生殖细胞突变过滤
(a)常见生殖细胞突变过滤:基于人类多态性遗传位点数据库dbSNP(https://www.ncbi.nlm.nih.gov/projects/SNP/)和千人基因组计划发布的多态性数据库(http://www.internationalgenome.org);深圳裕策生物科技有限公司累计的600多例正常人类基因组数据。如果出现在人群1%以上频率的位点,将会被过滤掉。
(b)根据纯度和拷贝数信息矫正突变频率判断是否是生殖细胞突变
通过预测肿瘤样本的纯度和拷贝数变异,则碱基突变频率符合以下公式:
其中,AF表示突变碱基频率(allele frequency),p表示肿瘤纯度,C表示肿瘤拷贝数,M表示突变位点的拷贝数,若g值等于0或接近于0(例如0.01),则认为是体细胞突变;若g值等于1或接近于1(例如0.99),则认为是生殖细胞突变;若g值介于0到1之间,则认为无法判断是体细胞突变还是生殖细胞突变;以及若g值小于0,则认为是亚克隆体细胞突变。
图3和图4分别示出了两种方法的一致性数据的特异性和灵敏性情况,图5示出了采用本发明实施例的单样本体细胞突变位点检测方法得到的检测结果与基于成对样本的检测方法得到的检测结果的一致性数据,示出了平均85%的特异性(Specificity)和平均82%的灵敏性(Sensitivity)。这些真阳性的位点都经过高深度测序验证了真实性。
实施例2
按照实施例1的具体方法和参数,对肿瘤样本的重要基因(CGC)的突变采用本发明实施例的单样本体细胞突变位点检测方法进行体细胞突变检测,分析重要基因(CGC)的突变找回情况。
如图6所示,柱状表示样本的真阳性(true positive)和真阴性(true negtive)的CGC基因突变数目(No.of mutations in CGC genes),显示突变90%以上都能找回,TP53和NOTCH1基因在测试数据食管鳞癌里的频率(Frequency of mutation)分别为85%和12%,本发明实施例的单样本体细胞突变位点检测方法都能100%找到。
如图7所示,其中一个样本T99,使用本发明实施例的单样本体细胞突变位点检测方法(图中Single)找回的突变相对于基于成对样本的检测方法(图中Paired),显示找回83%真实的突变,并且发现了已知重要基因TP53的突变和新基因ZBNF750突变。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种异常组织中单样本体细胞突变位点检测方法,其特征在于,包括如下步骤:
获取异常样本和模拟的正常样本的有效测序序列;
在所述有效测序序列中,对所述异常样本与所述模拟的正常样本不一致的碱基,根据突变碱基频率判断所述异常样本和所述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据所述差异判断突变类型;和
通过对所述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
2.根据权利要求1所述的单样本体细胞突变位点检测方法,其特征在于,所述获取异常样本和模拟的正常样本的有效测序序列之前,还包括将所述异常样本和模拟的正常样本的测序序列分别比对至参考基因组进行数据预处理的步骤,所述数据预处理包括如下至少一项:
过滤掉非目标物种基因组序列和测序重复序列;
过滤掉序列比对质量值小于预设值的序列,优选地,所述预设值是1;
保留重叠区域内两条成对序列中质量值较高的序列;和
过滤掉截断比对的序列、错配碱基富集的序列和比对有空隙的序列。
3.根据权利要求1所述的单样本体细胞突变位点检测方法,其特征在于,所述根据突变碱基频率判断所述异常样本和所述模拟的正常样本的碱基型包括:
分别对所述异常样本和所述模拟的正常样本,选择测序位点深度均大于最低深度阈值的位点,若突变碱基频率大于频率阈值,则可认为在此位点有该碱基;
优选地,所述最低深度阈值是10×;
优选地,所述频率阈值是2%。
4.根据权利要求3所述的单样本体细胞突变位点检测方法,其特征在于,所述根据所述差异判断突变类型包括:
若所述模拟的正常样本中无变异碱基而所述异常样本中有变异碱基,且差异检验p值小于0.05,则认为是体细胞突变;
若所述模拟的正常样本和所述异常样本中都有变异碱基,且两者的差异检验p值大于0.05,则认为是生殖细胞突变;以及
若所述模拟的正常样本中有变异碱基而所述异常样本中没有变异碱基,且差异检验p值小于0.05,则认为是杂合性缺失突变。
5.根据权利要求1所述的单样本体细胞突变位点检测方法,其特征在于,所述过滤去除假阳性变异包括过滤去除如下至少一项:
碱基质量值低于预设值;
所在序列比对质量值低于预设值;
突变位置集中在序列末端;
突变具有链偏向性;
突变周围覆盖深度低于预设值;和
突变周围有插入缺失富集。
6.根据权利要求1所述的单样本体细胞突变位点检测方法,其特征在于,所述过滤去除生殖细胞突变包括:
过滤去除常见生殖细胞突变;和
根据纯度和拷贝数信息矫正突变频率以过滤去除生殖细胞突变;
优选地,所述根据纯度和拷贝数信息矫正突变频率以过滤去除生殖细胞突变包括:
按照如下突变碱基频率的计算公式:
<mrow> <mi>A</mi> <mi>F</mi> <mo>=</mo> <mfrac> <mrow> <mi>p</mi> <mi>M</mi> <mo>+</mo> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mi>C</mi> <mo>+</mo> <mn>2</mn> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>p</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,AF表示突变碱基频率,p表示异常纯度,C表示异常拷贝数,M表示突变位点的拷贝数,
若g值等于0或接近于0,则认为是体细胞突变;
若g值等于1或接近于1,则认为是生殖细胞突变;
若g值介于0到1之间,则认为无法判断是体细胞突变还是生殖细胞突变;以及
若g值小于0,则认为是亚克隆体细胞突变。
7.一种异常组织中单样本体细胞突变位点检测装置,其特征在于,包括:
数据获取装置,用于获取异常样本和模拟的正常样本的有效测序序列;
变异检测装置,用于在所述有效测序序列中,对所述异常样本与所述模拟的正常样本不一致的碱基,根据突变碱基频率判断所述异常样本和所述模拟的正常样本的碱基型,然后用Fisher精确检验碱基型的差异,根据所述差异判断突变类型;和
过滤装置,用于通过对所述突变类型过滤去除假阳性变异和生殖细胞突变,得到高可信度的体细胞突变位点。
8.根据权利要求7所述的单样本体细胞突变位点检测装置,其特征在于,包括:
数据预处理装置,用于将异常样本和模拟的正常样本的测序序列,分别比对至参考基因组进行数据预处理得到所述有效测序序列。
9.一种异常组织中单样本体细胞突变位点检测装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1至6中任一项所述的方法。
CN201710779843.XA 2017-09-01 2017-09-01 异常组织中单样本体细胞突变位点检测方法、装置和存储介质 Active CN107491666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710779843.XA CN107491666B (zh) 2017-09-01 2017-09-01 异常组织中单样本体细胞突变位点检测方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710779843.XA CN107491666B (zh) 2017-09-01 2017-09-01 异常组织中单样本体细胞突变位点检测方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN107491666A true CN107491666A (zh) 2017-12-19
CN107491666B CN107491666B (zh) 2020-11-10

Family

ID=60651102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710779843.XA Active CN107491666B (zh) 2017-09-01 2017-09-01 异常组织中单样本体细胞突变位点检测方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN107491666B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304694A (zh) * 2018-01-30 2018-07-20 元码基因科技(北京)股份有限公司 基于二代测序数据分析基因突变的方法
CN108690871A (zh) * 2018-03-29 2018-10-23 深圳裕策生物科技有限公司 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
CN109033749A (zh) * 2018-06-29 2018-12-18 深圳裕策生物科技有限公司 一种肿瘤突变负荷检测方法、装置和存储介质
CN109411016A (zh) * 2018-11-14 2019-03-01 钟祥博谦信息科技有限公司 基因变异位点检测方法、装置、设备及存储介质
CN109411015A (zh) * 2018-09-28 2019-03-01 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN110060733A (zh) * 2019-04-28 2019-07-26 上海宝藤生物医药科技股份有限公司 基于单样本的二代测序肿瘤体细胞变异检测装置
CN110111839A (zh) * 2018-02-01 2019-08-09 深圳华大基因股份有限公司 一种精确定量肿瘤标准品中突变支持reads数的方法及其应用
CN110299186A (zh) * 2019-06-05 2019-10-01 复旦大学 基于MeanDiff值预测突变对RNA二级结构影响程度的方法及相关设备
CN110444255A (zh) * 2019-08-30 2019-11-12 深圳裕策生物科技有限公司 基于二代测序的生物信息质控方法、装置和存储介质
CN111199776A (zh) * 2018-11-16 2020-05-26 深圳华大生命科学研究院 评估肿瘤基因组测序数据分析质量的方法、装置及应用
CN111258826A (zh) * 2020-01-09 2020-06-09 深圳市德名利电子有限公司 一种存储设备的命令序列测试方法和装置以及设备
CN111899790A (zh) * 2020-08-17 2020-11-06 天津诺禾医学检验所有限公司 测序数据的处理方法及装置
CN112116953A (zh) * 2019-06-19 2020-12-22 希森美康株式会社 患者受试体的核酸序列的解析方法和系统及解析结果的提示方法、装置和程序
CN112289376A (zh) * 2020-10-26 2021-01-29 深圳基因家科技有限公司 一种检测体细胞突变的方法及装置
CN112424380A (zh) * 2018-11-01 2021-02-26 Illumina公司 用于体细胞变体检测的方法和组合物
WO2021120529A1 (zh) * 2019-12-20 2021-06-24 苏州赛美科基因科技有限公司 一种同源假基因变异检测的方法
CN113795886A (zh) * 2019-05-15 2021-12-14 深圳华大基因股份有限公司 基于测序数据的碱基突变检测方法、装置及存储介质
CN114566220A (zh) * 2020-11-27 2022-05-31 深圳华大生命科学研究院 基于dna甲基化水平确定样本类型的系统、可读介质及其应用
CN115394357A (zh) * 2022-09-01 2022-11-25 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN115424664A (zh) * 2022-11-07 2022-12-02 北京雅康博生物科技有限公司 人为突变程度评估方法及装置
CN116646006A (zh) * 2023-07-27 2023-08-25 华测检测认证集团股份有限公司 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置
CN117935907A (zh) * 2024-01-31 2024-04-26 苏州贝康医疗器械有限公司 真假基因的拷贝数变异的检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462869A (zh) * 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
CN106282320A (zh) * 2015-05-20 2017-01-04 广州华大基因医学检验所有限公司 检测体细胞突变的方法和装置
CN106407747A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 肿瘤对应的基因的突变位点的获取方法及装置
CN106778075A (zh) * 2016-12-29 2017-05-31 安诺优达基因科技(北京)有限公司 一种用于检测血液病相关体细胞突变的装置
CN106874710A (zh) * 2016-12-29 2017-06-20 安诺优达基因科技(北京)有限公司 一种用于利用肿瘤ffpe样本检测体细胞突变的装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462869A (zh) * 2014-11-28 2015-03-25 天津诺禾致源生物信息科技有限公司 检测体细胞单核苷酸突变的方法和装置
CN106282320A (zh) * 2015-05-20 2017-01-04 广州华大基因医学检验所有限公司 检测体细胞突变的方法和装置
CN106407747A (zh) * 2016-11-04 2017-02-15 成都鑫云解码科技有限公司 肿瘤对应的基因的突变位点的获取方法及装置
CN106778075A (zh) * 2016-12-29 2017-05-31 安诺优达基因科技(北京)有限公司 一种用于检测血液病相关体细胞突变的装置
CN106874710A (zh) * 2016-12-29 2017-06-20 安诺优达基因科技(北京)有限公司 一种用于利用肿瘤ffpe样本检测体细胞突变的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOBOLDT D C等: "VarScan 2: Somatic mutation and copy number alteration discovery in cancer by exome sequencing", 《GENOME RESEARCH》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304694B (zh) * 2018-01-30 2021-08-31 元码基因科技(北京)股份有限公司 基于二代测序数据分析基因突变的方法
CN108304694A (zh) * 2018-01-30 2018-07-20 元码基因科技(北京)股份有限公司 基于二代测序数据分析基因突变的方法
CN110111839A (zh) * 2018-02-01 2019-08-09 深圳华大基因股份有限公司 一种精确定量肿瘤标准品中突变支持reads数的方法及其应用
CN108690871A (zh) * 2018-03-29 2018-10-23 深圳裕策生物科技有限公司 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN108733975A (zh) * 2018-03-29 2018-11-02 深圳裕策生物科技有限公司 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
CN108690871B (zh) * 2018-03-29 2022-05-20 深圳裕策生物科技有限公司 基于二代测序的插入缺失突变检测方法、装置和存储介质
CN109033749A (zh) * 2018-06-29 2018-12-18 深圳裕策生物科技有限公司 一种肿瘤突变负荷检测方法、装置和存储介质
CN109411015B (zh) * 2018-09-28 2020-12-22 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN109411015A (zh) * 2018-09-28 2019-03-01 深圳裕策生物科技有限公司 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质
CN112424380A (zh) * 2018-11-01 2021-02-26 Illumina公司 用于体细胞变体检测的方法和组合物
CN109411016A (zh) * 2018-11-14 2019-03-01 钟祥博谦信息科技有限公司 基因变异位点检测方法、装置、设备及存储介质
CN109411016B (zh) * 2018-11-14 2020-12-01 钟祥博谦信息科技有限公司 基因变异位点检测方法、装置、设备及存储介质
CN111199776B (zh) * 2018-11-16 2023-03-28 深圳华大生命科学研究院 评估肿瘤基因组测序数据分析质量的方法、装置及应用
CN111199776A (zh) * 2018-11-16 2020-05-26 深圳华大生命科学研究院 评估肿瘤基因组测序数据分析质量的方法、装置及应用
CN110060733A (zh) * 2019-04-28 2019-07-26 上海宝藤生物医药科技股份有限公司 基于单样本的二代测序肿瘤体细胞变异检测装置
CN113795886B (zh) * 2019-05-15 2024-08-06 深圳华大基因股份有限公司 基于测序数据的碱基突变检测方法、装置及存储介质
CN113795886A (zh) * 2019-05-15 2021-12-14 深圳华大基因股份有限公司 基于测序数据的碱基突变检测方法、装置及存储介质
CN110299186A (zh) * 2019-06-05 2019-10-01 复旦大学 基于MeanDiff值预测突变对RNA二级结构影响程度的方法及相关设备
CN112116953A (zh) * 2019-06-19 2020-12-22 希森美康株式会社 患者受试体的核酸序列的解析方法和系统及解析结果的提示方法、装置和程序
CN110444255B (zh) * 2019-08-30 2023-06-13 深圳裕策生物科技有限公司 基于二代测序的生物信息质控方法、装置和存储介质
CN110444255A (zh) * 2019-08-30 2019-11-12 深圳裕策生物科技有限公司 基于二代测序的生物信息质控方法、装置和存储介质
WO2021120529A1 (zh) * 2019-12-20 2021-06-24 苏州赛美科基因科技有限公司 一种同源假基因变异检测的方法
CN111258826B (zh) * 2020-01-09 2023-08-15 深圳市德明利技术股份有限公司 一种存储设备的命令序列测试方法和装置以及设备
CN111258826A (zh) * 2020-01-09 2020-06-09 深圳市德名利电子有限公司 一种存储设备的命令序列测试方法和装置以及设备
CN111899790A (zh) * 2020-08-17 2020-11-06 天津诺禾医学检验所有限公司 测序数据的处理方法及装置
CN112289376A (zh) * 2020-10-26 2021-01-29 深圳基因家科技有限公司 一种检测体细胞突变的方法及装置
CN112289376B (zh) * 2020-10-26 2021-07-06 北京吉因加医学检验实验室有限公司 一种检测体细胞突变的方法及装置
CN114566220A (zh) * 2020-11-27 2022-05-31 深圳华大生命科学研究院 基于dna甲基化水平确定样本类型的系统、可读介质及其应用
CN115394357A (zh) * 2022-09-01 2022-11-25 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN115394357B (zh) * 2022-09-01 2023-06-30 杭州链康医学检验实验室有限公司 用于判断样本配对或污染的位点组合及其筛选方法和应用
CN115424664A (zh) * 2022-11-07 2022-12-02 北京雅康博生物科技有限公司 人为突变程度评估方法及装置
CN116646006A (zh) * 2023-07-27 2023-08-25 华测检测认证集团股份有限公司 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置
CN116646006B (zh) * 2023-07-27 2023-11-14 华测检测认证集团股份有限公司 一种基于高通量测序和高斯混合模型的肿瘤相关基因体系突变检测方法及装置
CN117935907A (zh) * 2024-01-31 2024-04-26 苏州贝康医疗器械有限公司 真假基因的拷贝数变异的检测方法和装置
CN117935907B (zh) * 2024-01-31 2024-09-03 苏州贝康医疗器械有限公司 真假基因的拷贝数变异的检测方法和装置

Also Published As

Publication number Publication date
CN107491666B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN107491666A (zh) 异常组织中单样本体细胞突变位点检测方法、装置和存储介质
Xu A review of somatic single nucleotide variant calling algorithms for next-generation sequencing data
US11560598B2 (en) Systems and methods for analyzing circulating tumor DNA
US20210017609A1 (en) Methylation markers and targeted methylation probe panel
CN108733975B (zh) 基于二代测序的肿瘤克隆变异检测方法、装置和存储介质
CN110739027B (zh) 一种基于染色质区域覆盖深度的癌症组织定位方法及系统
US11929148B2 (en) Systems and methods for enriching for cancer-derived fragments using fragment size
US20200219587A1 (en) Systems and methods for using fragment lengths as a predictor of cancer
WO2023115662A1 (zh) 一种变体核酸的检测方法
Muller et al. OutLyzer: software for extracting low-allele-frequency tumor mutations from sequencing background noise in clinical practice
CN111304308A (zh) 一种审核高通量测序基因变异检测结果的方法
WO2021178613A1 (en) Systems and methods for cancer condition determination using autoencoders
CN111968701A (zh) 检测指定基因组区域体细胞拷贝数变异的方法和装置
CN114743594A (zh) 一种用于结构变异检测的方法、装置和存储介质
CN114694750A (zh) 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法
CN110060733A (zh) 基于单样本的二代测序肿瘤体细胞变异检测装置
Van Dyk et al. RUBIC identifies driver genes by detecting recurrent DNA copy number breaks
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
KR102397822B1 (ko) 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법
Hynds et al. Representation of genomic intratumor heterogeneity in multi-region non-small cell lung cancer patient-derived xenograft models
WO2022087839A1 (zh) 基于无创产前基因检测数据的亲缘关系判定方法和装置
WO2024027591A1 (zh) 一种多癌种甲基化检测试剂盒及其应用
WO2022262569A1 (zh) 一种用于区分体细胞突变和种系突变的方法
CN116543835B (zh) 一种检测血浆样本微卫星状态的方法和装置
CN110867207B (zh) 验证ngs变异检测方法的评估方法及评估装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210114

Address after: 2 / F, building A28, Life Science Industrial Park, 140 Jinye Avenue, Kuiyong street, Dapeng New District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yukang Medical Laboratory

Address before: 518172 18-dl, Pearl River International Center, 9009 Longxiang Avenue, Longcheng street, Longgang District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN YUCE BIOTECHNOLOGY Co.,Ltd.