CN111326211B - 一种检测地中海贫血基因变异的方法及检测装置 - Google Patents

一种检测地中海贫血基因变异的方法及检测装置 Download PDF

Info

Publication number
CN111326211B
CN111326211B CN202010015754.XA CN202010015754A CN111326211B CN 111326211 B CN111326211 B CN 111326211B CN 202010015754 A CN202010015754 A CN 202010015754A CN 111326211 B CN111326211 B CN 111326211B
Authority
CN
China
Prior art keywords
sample
thalassemia
detected
copy number
number variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010015754.XA
Other languages
English (en)
Other versions
CN111326211A (zh
Inventor
何恩明
笑天
康康
李腾
唐森威
郑强
陈钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zaozhidao Technology Co ltd
Original Assignee
Shenzhen Zaozhidao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zaozhidao Technology Co ltd filed Critical Shenzhen Zaozhidao Technology Co ltd
Priority to CN202010015754.XA priority Critical patent/CN111326211B/zh
Publication of CN111326211A publication Critical patent/CN111326211A/zh
Application granted granted Critical
Publication of CN111326211B publication Critical patent/CN111326211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明实施例公开了一种检测地中海贫血基因变异的方法及检测装置,以及计算机可读存储介质,用于能利用一次测序,检测大部分与地中海贫血相关的变异,并根据变异检测结果,预测出该个体地中海贫血病的表型结果。本发明实施例方法包括:获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;根据所述地中海贫血相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。

Description

一种检测地中海贫血基因变异的方法及检测装置
技术领域
本发明涉及地中海贫血病领域,尤其涉及一种检测地中海贫血基因变异的方法及检测装置,以及计算机可读存储介质。
背景技术
地中海贫血病,简称地贫,是血红蛋白病的一种。地中海贫血病广泛分布于我国南方地区。地中海贫血的变异种类多样,光HbVar数据库收录就有504种。过去利用血象分析常用跨越断裂点的链式聚合酶反应(GAP-PCR)和反向斑点杂交(reverse dot blot,RDB)方法的低通量方法,一般只检测3-5种中国人中常见的阿尔法(alpha,α)地中海贫血的缺失型拷贝数变异和17-25种中国人中常见的贝塔(beta,β)地中海贫血的点突变,还有较多的罕见变异类型未能被这些检测所覆盖,导致容易造成漏检。
发明内容
本发明实施例提供了一种检测地中海贫血基因变异的方法及检测装置,以及计算机可读存储介质,用于能利用一次测序,检测大部分与地中海贫血相关的变异,并根据变异检测结果,预测出该个体地中海贫血病的表型结果。
有鉴于此,本发明第一方面提供了一种检测地中海贫血基因变异的方法,可以包括:
获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;
根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;
根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;
根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。
可选的,在本发明的一些实施例中,所述根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果,可以包括:
根据所述地中海贫血病相关的拷贝数变异信息,建立所述N个参考样本;
根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;
根据所述目标检测区域各位点的当前深度和所述N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值;
从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果。
可选的,在本发明的一些实施例中,所述根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值,可以包括:
对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;
根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,所述根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果,可以包括:
根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,使用GATK变异检测,得到所述待检测样本的点突变结果。
可选的,在本发明的一些实施例中,所述方法还可以包括:
格式化输出所述预测地中海贫血病的表型结果。
本发明第二方面提供一种检测装置,可以包括:
获取模块,用于获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;
处理模块,用于根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。
可选的,在本发明的一些实施例中,
所述处理模块,具体用于根据所述地中海贫血病相关的拷贝数变异信息,建立所述N个参考样本;根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和所述N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果。
可选的,在本发明的一些实施例中,
所述处理模块,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,
所述处理模块,具体用于根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,使用GATK变异检测,得到所述待检测样本的点突变结果。
可选的,在本发明的一些实施例中,
所述处理模块,还用于格式化输出所述预测地中海贫血病的表型结果。
本发明第三方面提供一种检测装置,可以包括:
收发器,处理器,存储器,其中,所述收发器,所述处理器和所述存储器通过总线连接;
所述存储器,用于存储操作指令;
所述收发器,用于获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;
所述处理器,用于调用所述操作指令,根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。
本发明第四方面提供一种终端设备,可以包括本发明第二方面或者第三方面提供的检测装置。
本申请实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。需要说明的是,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的全部或部分可以以软件产口的形式体现出来,所述计算机软件产品存储在一个存储介质中,用于储存为上述设备所用的计算机软件指令,其包含用于执行上述第一方面为检测装置或者终端设备所设计的程序。
所述存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例第六方面提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如本申请第一方面或第一方面任一可能实现方式中所述的检测地中海贫血基因变异的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中,获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。该方法能利用一次测序,检测大部分与地中海贫血相关的变异,该变异包括拷贝数变异和点突变,并根据变异检测结果,预测出该个体地中海贫血病的表型结果。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,还可以根据这些附图获得其它的附图。
图1为本发明实施例中检测地中海贫血基因变异的方法的一个实施例示意图;
图2A为本发明实施例中检测地中海贫血基因变异的方法的一个示意图;
图2B为本发明实施例中一个alpha地中海贫血病分型结果的示意图;
图2C为本发明实施例中一个点突变结果的示意图;
图2D为本发明实施例中一个预测地中海贫血病的表型结果的示意图;
图3为本发明实施例中检测装置的一个实施例示意图;
图4为本发明实施例中检测装置的另一个实施例示意图。
具体实施方式
本发明实施例提供了一种检测地中海贫血基因变异的方法及检测装置,以及计算机可读存储介质,用于能利用一次测序,检测大部分与地中海贫血相关的变异,并根据变异检测结果,预测出该个体地中海贫血病的表型结果。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,都应当属于本发明保护的范围。
现有技术中,地中海贫血病,简称地贫,是血红蛋白病的一种。地中海贫血病广泛分布与我国南方地区,又尤其以广东,广西,海南,福建,贵州,云南为高发区,与历史上这些地区疟疾的肆虐相关。地中海贫血病是由于alpha,beta珠蛋白合成的不平衡导致的溶血性贫血。根据变异基因的不同,一般分为alpha地中海贫血病和beta地中海贫血病。alpha地中海贫血病为HBA1,HBA2基因发生变异,引起的地中海贫血。alpha地中海贫血病大部分是由于HBA1,HBA2基因的缺失型拷贝数变异造成,也有少部分是由于点突变造成。beta地中海贫血病大部分是由于HBB的点突变造成,也有少部分是由于缺失型拷贝数变异。alpha地中海贫血病和beta地中海贫血病存在相互修饰的作用:当alpha缺失型地中海贫血病复合beta地中海贫血病,可能使地中海贫血病症状减轻;当alpha重复型地中海贫血病符合beta地中海贫血病,可能使地中海贫血病症状加重。KLF1是一个与地中海贫血病表型相关的基因,KLF1基因的变异能减轻部分beta地中海贫血病的症状。
本发明技术方案的初衷,是由于目前针对地中海贫血的传统检测技术,通量低,容易造成漏筛的特点,进行升级。目前对于地中海贫血的常规筛查,常用的是红细胞平均体积法、红细胞脆性试验、血红蛋白电泳分析等,这些方法灵敏度较差,存在较大的漏筛率。而对地中海贫血基因的检测通常使用的是GAP-PCR,或者RDB这样的低通量技术,这些技术每次只能检测十分有限变异分型,对于罕见变异仍会存在漏检的情况。也有使用定量链式聚合酶反应(RT-PCR)和一代测序的方法,能识别更多的变异数量,但两种方法同上述提到的GAP-PCR和RDB,每次只能检测alpha地中海贫血或beta地中海贫血的其中一种,导致实验流程较为繁琐。并且已知的KLF1基因等地中海贫血的调节因子,这些传统方法也不作检测。对于alpha地中海贫血,beta地中海贫血和调节因子的相互调节关系,传统方法得出的结果,往往需要专业医生去解读他们对表型的影响。
本发明技术方案可以采用第二代脱氧核糖核酸(Deoxyribo Nucleic Acid,DNA)测序技术(简称为二代测序)为基础,利用生物信息学手段,能一次同时对alpha地中海贫血,beta地中海贫血,以及地中海贫血的调节基因KLF1的数十种拷贝数变异和点突变进行检测,并根据变异携带情况提供表型的综合预测。本方法具有流程简便,高通量,高灵敏度,高特异性,变异检测数量多,可拓展性强,能自动给出表型综合结果的特点。本方法能对目前的地中海贫血筛查、预防工作,起到积极的推动作用。本发明公布了生物信息技术领域的一种基于二代测序检测地中海贫血病基因变异的方法。该方法能利用一次测序,检测大部分与地中海贫血相关的变异,包括拷贝数变异和点突变,并根据变异检测结果,预测出该个体地中海贫血病的表型结果。
下面以实施例的方式,对本发明技术方案做进一步的说明,如图1所示,为本发明实施例中检测地中海贫血基因变异的方法的一个实施例示意图,可以包括:
101、获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据。
检测装置可以使用二代测序技术获得全基因组的测序数据,获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据。
其中,拷贝数变异信息可以包括:拷贝数变异位置和拷贝数变异类型。
示例性的,拷贝数变异信息可以包括但不限于:疾病CNV信息和常见CNV信息;其中,疾病CNV会导致生病,常见CNV一般不会导致生病。
(1)检测装置获取地中海贫血病相关的拷贝数变异信息,可以包括但不限于以下的实现方式:
实现方式一:检测装置向云端服务器或者电子设备发送第一获取指令,所述第一获取指令用于所述云端服务器或者所述电子设备发送地中海贫血病相关的拷贝数变异信息;检测装置接收所述云端服务器或者所述电子设备发送的地中海贫血病相关的拷贝数变异信息;
或者,
实现方式二:检测装置接收云端服务器或者电子设备发送的地中海贫血病相关的拷贝数变异信息;
或者,
实现方式三:检测装置接收用户输入的关于地中海贫血病相关的拷贝数变异信息。
示例性的,下面先对地中海贫血病相关的拷贝数变异信息进行示例说明,如下述表1:
变异基因表示符号 名称 变异类型 alpha基因拷贝数
--^sea 东南亚缺失型 缺失 0
αα 正常 正常 2
表1
(2)检测装置获取待检测样本的全基因组测序数据,可以包括但不限于以下的实现方式:
实现方式一:检测装置向云端服务器或者电子设备发送第二获取指令,所述第二获取指令用于所述云端服务器或者所述电子设备发送待检测样本的全基因组测序数据;检测装置接收所述云端服务器或者所述电子设备发送的待检测样本的全基因组测序数据;
或者,
实现方式二:检测装置接收云端服务器或者电子设备发送的待检测样本的全基因组测序数据;
或者,
实现方式三:检测装置接收用户输入的关于待检测样本的全基因组测序数据。
(3)检测装置获取地中海贫血病相关的点突变信息,可以包括但不限于以下的实现方式:
实现方式一:检测装置向云端服务器或者电子设备发送第三获取指令,所述第三获取指令用于所述云端服务器或者所述电子设备发送地中海贫血病相关的点突变信息;检测装置接收所述云端服务器或者所述电子设备发送的地中海贫血病相关的点突变信息;
或者,
实现方式二:检测装置接收云端服务器或者电子设备发送的地中海贫血病相关的点突变信息;
或者,
实现方式三:检测装置接收用户输入的关于地中海贫血病相关的点突变信息。
示例性的,下面先对地中海贫血病相关的点突变信息进行示例说明,如下述表2和表3所示:
变异基因表示符号 名称 变异类型 beta基因功能分类
β^IVS-II-1 HBB:c.315+1G>A 点突变 0
β^N 正常 正常 N
表2
变异基因表示符号 名称 变异类型 KLF1基因功能分类
KLF1:c.895C>G KLF1:c.895C>G 点突变 klf1+
K^N 正常 正常 N
表3102、根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果。
检测装置根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果。
可选的,检测装置根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果,可以包括以下步骤:
1)根据所述地中海贫血病相关的拷贝数变异信息,建立所述N个参考样本。
检测装置根据所述地中海贫血病相关的拷贝数变异信息,建立所述N个参考样本,可以包括:检测装置根据所述拷贝数变异位置和所述拷贝数变异类型,生成N种参考基因组合;检测装置计算每种参考基因组合所在区域各位点的参考深度,生成所述N个参考样本。
示例性的,建立N个参考样本可以如下所示:
(1)收集权威数据库、文献中,各个检测区域已知的拷贝数变异信息,拷贝数变异信息包括变异位置和变异类型。
(2)根据搜集到变异位置及变异类型信息,编辑参考基因组合对应的序列。
(3)根据每一种编辑好的参考基因组合对应的序列,生成深度均匀的读段。并根据需要,可将变异相互组合,用以模拟各种纯合和杂合的情况,可得到N种参考基因组合。
(4)计算每一种变异匹配的参考基因组合的目标检测区域的各参考位点背景深度,生成一系列参考文件,目标检测区域上覆盖有多条读段。
2)根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度。
检测装置根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度。
3)根据所述目标检测区域各位点的当前深度和所述N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值。
具体的,对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时的似然值,得到的N个似然值。
示例性的,检测装置对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度,具体可以通过如下步骤实现:
(1)选定一段区域作为GC偏移的采样位置。
(2)该段区域为采样区域,计算采样区域的平均深度和平均GC含量。
(3)例如,以100bp窗口长度,50bp为滑动长度的窗口,对采样区域计算每次滑动时对应窗口的GC含量与深度,进而,再计算采样区域每种GC含量窗口的平均深度(GC含量取大于0的整数)。
(4)采用以下公式1,计算每一种GC含量对应的GC校正系数:
GC校正系数=采样区域平均深度/采样区域该GC含量窗口的平均深度
(公式1)
(5)例如,对目标检测区域,可以分成连续的50bp长度的窗口,以该窗口及前后,合共150bp长度的区域的平均GC含量表示该窗口的GC含量。对该50bp窗口的每一个位点,计算其GC校正深度,为该位点的深度,乘以该50bp窗口GC含量对应的GC校正系数:
GC校正深度=位点深度×对应的GC校正系数 (公式2)
示例性的,检测装置根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值,可以通过如下步骤实现:
(1)依次计算N个参考样本为待测样本的似然值。对与参考样本m(m属于N),取目标检测区域外的一段区域作为背景,计算其背景深度Average_depthrefm,再根据目标检测区域内单个位点的深度depthrefm,待测样本的平均深度Average_depthsample,计算该点在带有reference m的变异时,所期望该位点的深度expected_depth(sample=m)
其中,在公式3中,expected_depth(sample=m)表示所期望的该位点的深度,depthrefm表示目标检测区域内单个位点的深度,Average_depthrefm表示取目标检测区域外的一段区域作为背景,计算得到的背景深度,Average_depthsample为待测样本的平均深度。
(2)建立以期望深度expected_depth(sample=m)为λ值的泊松分布模型。并计算实际测出的该位点的深度k在该模型下的概率P(k)。
(3)依次计算待测样本对在检测区域每一点的P(k)进行累乘,得到待测样本带有参考样本m变异的似然值L(sample=refm),如下述公式4所示:
L(sample=refm)=∏dectect_regionP(k) (公式4)
(4)以似然值最大的参考样本代表的基因型组合为待测样本的拷贝数变异结果。
MLsample=max(L(sample=ref1),...,L(sample=refm),...,L(sample=refN))(公式5)
4)从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果。
检测装置从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果。
可以理解的是,该步骤是分析全基因组的测序数据中的HBA2,HBA1,HBB基因拷贝数变异信息的。可以搜集数据库、文献中,常见的HBA2,HBA1,HBB基因拷贝数变异位置、变异类型及表型信息等。根据搜集到变异位置及变异类型及表型信息,编辑参考基因组对应的序列。根据编辑好的序列生成参考样本。计算参考样本的HBA2,HBA1,HBB基因区域的各位点深度。计算待检测样本的HBA2,HBA1,HBB基因区域各个位点的实际测序深度。根据参考样本位点的深度信息,建立基于泊松分布的深度-概率模型,利用该模型计算待检测样本HBA2,HBA1,HBB基因区域各个位点在参考样本的深度-概率模型的概率,将所得概率进行累乘,得到待测试样本与参考样本一致的概率。根据待测试样本对应各参考样本的概率,得出待测试样本最可能HBA2,HBA1,HBB基因分型。
103、根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果。
检测装置根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果,可以包括:检测装置根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,使用GATK变异检测,得到所述待检测样本的点突变结果。
可以理解的是,检测装置可以分析序列中的HBA2,HBA1,HBB,KLF1基因点突变。(1)搜集数据库中,常见的HBA2,HBA1,HBB,KLF1点突变信息。(2)使用GATK变异检测标准流程,获取测序样本的HBA2,HBA1,HBB,KLF1的点突变结果。
104、根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。
检测装置根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。可以理解的是,搜集HBA2,HBA1,HBB,KLF1变异对表型的影响,以及相关的组合规则。根据获得的拷贝数变异结果和点突变结果,以及结合规则做出表型预测。
示例性的,下面对变异基因的功能与表型预测的关系进行说明,如下述表4所示:
表4
105、格式化输出所述预测地中海贫血病的表型结果。
检测装置格式化输出所述预测地中海贫血病的表型结果。如图2A所示,为本发明实施例中检测地中海贫血基因变异的方法的一个示意图。
图2B所示,为本发明实施例中一个alpha地中海贫血病分型结果的示意图;图2C所示,为本发明实施例中一个点突变结果的示意图;图2D所示,本发明实施例中一个预测地中海贫血病的表型结果的示意图。
可以理解的是,下面以示例的方式,对本发明技术方案做进一步的说明,如下所示:
示例一:
基因型:
alpha:αα/αα
beta:β^N/IVS-II-1
KLF1:K^N/K^N
预测表型:轻型地中海贫血
示例二:
基因型:
alpha:αα/αα
beta:β^N/β^N
KLF1:K^N/K^N
预测表型:正常
本发明可通过一次测序,获得多种地中海贫血的相关变异结果和表型预测,具有高通量,高灵敏度,高特异度的特点。本方法的可拓张性强,在已有全基因组数据的情况下,新发现的与地中海贫血的位点,可通过简单的数据库的更新,加入到本方法的检测范围中。本方法由于检测的变异比传统方法更全面,所以本方法可额外提供一个以往工具没有的,全面的地中海贫血的表型预测。
本发明公布了生物信息技术领域的一种基于二代测序检测地中海贫血病基因变异的方法,可通过一次测序,检测包括拷贝数变异,点突变等多种与alpha地中海贫血、beta地中海贫血相关的变异,并能根据多种变异结果预测出患者的表型结果。相对传统方法具有高通量,高灵敏度,高特异度的特点,对开展地中海贫血病人群筛查,遗传咨询和产前诊断具有重要意义。
在本发明实施例中,获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。该方法能利用一次测序,检测大部分与地中海贫血相关的变异,该变异包括拷贝数变异和点突变,并根据变异检测结果,预测出该个体地中海贫血病的表型。
如图3所示,为本发明实施例中检测装置的一个实施例示意图,可以包括:
获取模块301,用于获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;
处理模块302,用于根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。
可选的,在本发明的一些实施例中,
处理模块302,具体用于根据所述地中海贫血病相关的拷贝数变异信息,建立所述N个参考样本;根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和所述N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果。
可选的,在本发明的一些实施例中,
处理模块302,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,
处理模块302,具体用于根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,使用GATK变异检测,得到所述待检测样本的点突变结果。
可选的,在本发明的一些实施例中,
处理模块302,还用于格式化输出所述预测地中海贫血病的表型结果。
如图4所示,为本发明实施例中检测装置的另一个实施例示意图,可以包括:
收发器401,处理器402,存储器403,其中,收发器401,处理器402和存储器403通过总线连接;
存储器403,用于存储操作指令;
收发器401,用于获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;
处理器402,用于调用所述操作指令,根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果。
可选的,在本发明的一些实施例中,
处理器402,具体用于根据所述地中海贫血病相关的拷贝数变异信息,建立所述N个参考样本;根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;根据所述目标检测区域各位点的当前深度和所述N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值;从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果。
可选的,在本发明的一些实施例中,
处理器402,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时的似然值,得到的N个似然值。
可选的,在本发明的一些实施例中,
处理器402,具体用于根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,使用GATK变异检测,得到所述待检测样本的点突变结果。
可选的,在本发明的一些实施例中,
处理器402,还用于格式化输出所述预测地中海贫血病的表型结果。
可选的,本发明实施例还提供一种终端设备,还终端设备可以包括上述图3或者图4所示的检测装置。
在本发明实施例中,示例性的,终端设备可以包括一般的手持电子终端,诸如智能电话、便携式终端、终端、个人数字助理(Personal Digital Assistant,PDA)、便携式多媒体播放器(Personal Media Player,PMP)装置、笔记本电脑、笔记本(Note Pad)、无线宽带(Wireless Broadband,Wibro)终端、平板电脑(personal computer,PC)和智能PC。本申请还可应用于非便携式电子装置,诸如提供相机功能的智能电视。
终端设备也可以包括可穿戴设备。可穿戴设备即可以直接穿戴在用户身上,或是整合到用户的衣服或配件的一种便携式电子设备。可穿戴设备不仅仅是一种硬件设备,更可以通过软件支持以及数据交互、云端交互来实现强大的智能功能,比如:计算功能、定位功能、报警功能,同时还可以连接手机及各类终端。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD(Digital Video Disc))、或者半导体介质(例如固态硬盘(Solid StateDisk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种检测地中海贫血基因变异的方法,其特征在于,包括:
获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;
根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;
根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;
根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果;
所述根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果,包括:
根据所述地中海贫血病相关的拷贝数变异信息,建立N个参考样本;
根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;
根据所述目标检测区域各位点的当前深度和N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值;
从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果;
所述建立N个参考样本包括如下步骤:
搜集权威数据库、文献中,各个检测区域已知的拷贝数变异信息,所述拷贝数变异信息包括变异位置和变异类型;
根据搜集到变异位置及变异类型信息,编辑参考基因组合对应的序列;
根据每一种编辑好的参考基因组合对应的序列,生成深度均匀的读段,并将变异相互组合,以模拟各种纯合和杂合的情况,得到N种参考基因组合;
所述根据所述目标检测区域各位点的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值,包括:
对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;
根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时的似然值,得到的N个似然值;
所述方法还包括:
格式化输出所述预测地中海贫血病的表型结果。
2.根据权利要求1中所述的方法,其特征在于,所述根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果,包括:
根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,使用GATK变异检测,得到所述待检测样本的点突变结果。
3.一种检测装置,其特征在于,包括:
获取模块,用于获取地中海贫血病相关的拷贝数变异信息、地中海贫血病相关的点突变信息以及待检测样本的全基因组测序数据;
处理模块,用于根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果;根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的点突变结果;根据所述拷贝数变异结果和所述点突变结果,得到预测地中海贫血病的表型结果;
所述处理模块具体用于:
所述根据所述地中海贫血病相关的拷贝数变异信息和所述待检测样本的全基因组测序数据,得到所述待检测样本的拷贝数变异结果,包括:
根据所述地中海贫血病相关的拷贝数变异信息,建立N个参考样本;
根据所述待检测样本的全基因组测序数据,计算目标检测区域各位点的当前深度;
根据所述目标检测区域各位点的当前深度和N个参考样本,计算所述待检测样本为每个参考样本时,得到的N个似然值;
从所述N个似然值中,选择最大似然值的参考样本对应的基因型组合,作为所述待检测样本的拷贝数变异结果;
所述建立N个参考样本包括如下步骤:
收集权威数据库、文献中,各个检测区域已知的拷贝数变异信息,所述拷贝数变异信息包括变异位置和变异类型;
根据搜集到变异位置及变异类型信息,编辑参考基因组合对应的序列;
根据每一种编辑好的参考基因组合对应的序列,生成深度均匀的读段,并将变异相互组合,以模拟各种纯合和杂合的情况,得到N种参考基因组合;
所述处理模块,具体用于对所述目标检测区域各位点的当前深度进行校正,得到各位点校正后的当前深度;根据所述各位点校正后的当前深度和预先获取的N个参考样本,计算所述待检测样本为每个参考样本时的似然值,得到的N个似然值;
所述处理模块,还用于格式化输出所述预测地中海贫血病的表型结果。
4.根据权利要求3中所述的检测装置,其特征在于,所述处理模块,具体用于根据所述地中海贫血病相关的点突变信息和所述待检测样本的全基因组测序数据,使用GATK变异检测,得到所述待检测样本的点突变结果。
CN202010015754.XA 2020-01-07 2020-01-07 一种检测地中海贫血基因变异的方法及检测装置 Active CN111326211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010015754.XA CN111326211B (zh) 2020-01-07 2020-01-07 一种检测地中海贫血基因变异的方法及检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010015754.XA CN111326211B (zh) 2020-01-07 2020-01-07 一种检测地中海贫血基因变异的方法及检测装置

Publications (2)

Publication Number Publication Date
CN111326211A CN111326211A (zh) 2020-06-23
CN111326211B true CN111326211B (zh) 2023-12-19

Family

ID=71171237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010015754.XA Active CN111326211B (zh) 2020-01-07 2020-01-07 一种检测地中海贫血基因变异的方法及检测装置

Country Status (1)

Country Link
CN (1) CN111326211B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014023076A1 (zh) * 2012-08-10 2014-02-13 深圳华大基因科技有限公司 一种地中海贫血的分型方法及其应用
CN106480221A (zh) * 2016-12-19 2017-03-08 北京林业大学 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN106591441A (zh) * 2016-12-02 2017-04-26 深圳市易基因科技有限公司 基于全基因捕获测序的α和/或β‑地中海贫血突变的检测探针、方法、芯片及应用
WO2018174821A1 (en) * 2017-03-20 2018-09-27 Nanyang Technological University A sequencing method for detecting dna mutation
CN109486961A (zh) * 2018-11-06 2019-03-19 汕头大学 一种拟穴青蟹高密度遗传图谱的构建方法
CN110612353A (zh) * 2017-03-03 2019-12-24 加利福尼亚大学董事会 经由抑制性tRNAs和脱氨酶对突变进行RNA靶向

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014023076A1 (zh) * 2012-08-10 2014-02-13 深圳华大基因科技有限公司 一种地中海贫血的分型方法及其应用
CN106591441A (zh) * 2016-12-02 2017-04-26 深圳市易基因科技有限公司 基于全基因捕获测序的α和/或β‑地中海贫血突变的检测探针、方法、芯片及应用
CN106480221A (zh) * 2016-12-19 2017-03-08 北京林业大学 基于基因拷贝数变异位点对林木群体基因型分型的方法
CN110612353A (zh) * 2017-03-03 2019-12-24 加利福尼亚大学董事会 经由抑制性tRNAs和脱氨酶对突变进行RNA靶向
WO2018174821A1 (en) * 2017-03-20 2018-09-27 Nanyang Technological University A sequencing method for detecting dna mutation
CN109486961A (zh) * 2018-11-06 2019-03-19 汕头大学 一种拟穴青蟹高密度遗传图谱的构建方法

Also Published As

Publication number Publication date
CN111326211A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
Wenger et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome
Wick et al. Performance of neural network basecalling tools for Oxford Nanopore sequencing
Latorre-Pérez et al. Assembly methods for nanopore-based metagenomic sequencing: a comparative study
Palamara et al. High-throughput inference of pairwise coalescence times identifies signals of selection and enriched disease heritability
Garvin et al. Interactive analysis and assessment of single-cell copy-number variations
CN111445955B (zh) 新型冠状病毒变异分析方法及应用
Kuhlwilm et al. Ancient gene flow from early modern humans into Eastern Neanderthals
Gulko et al. A method for calculating probabilities of fitness consequences for point mutations across the human genome
Ding et al. Assessing mitochondrial DNA variation and copy number in lymphocytes of~ 2,000 Sardinians using tailored sequencing analysis tools
Cooper et al. Quantitative estimates of sequence divergence for comparative analyses of mammalian genomes
Harvey et al. QuASAR: quantitative allele-specific analysis of reads
Bravo et al. Model-based quality assessment and base-calling for second-generation sequencing data
CN110383385B (zh) 从肿瘤样品中检测突变负荷的方法
Webster et al. Compositional evolution of noncoding DNA in the human and chimpanzee genomes
Wilfert et al. Genome-wide significance testing of variation from single case exomes
US20230287487A1 (en) Systems and methods for genetic identification and analysis
Santani et al. Development and validation of targeted next-generation sequencing panels for detection of germline variants in inherited diseases
Talevich et al. CNVkit-RNA: copy number inference from RNA-sequencing data
Han et al. Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing
Piazza et al. CEQer: a graphical tool for copy number and allelic imbalance detection from whole-exome sequencing data
Fischer-Hwang et al. Denoising of aligned genomic data
CN111276184B (zh) 一种检测已知拷贝数变异的方法及检测装置
Österlund et al. UMIErrorCorrect and UMIAnalyzer: software for consensus read generation, error correction, and visualization using unique molecular identifiers
CN111326211B (zh) 一种检测地中海贫血基因变异的方法及检测装置
CN105916508A (zh) 核酸重复序列计数的自动调用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant