CN113308548B - 一种检测胎儿基因单倍体型的方法、装置和存储介质 - Google Patents

一种检测胎儿基因单倍体型的方法、装置和存储介质 Download PDF

Info

Publication number
CN113308548B
CN113308548B CN202110103901.3A CN202110103901A CN113308548B CN 113308548 B CN113308548 B CN 113308548B CN 202110103901 A CN202110103901 A CN 202110103901A CN 113308548 B CN113308548 B CN 113308548B
Authority
CN
China
Prior art keywords
pregnant woman
genotype
haplotype
husband
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110103901.3A
Other languages
English (en)
Other versions
CN113308548A (zh
Inventor
陈超
孙隽
彭智宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huada Medical Laboratory Co ltd
Tianjin Medical Laboratory Bgi
BGI Shenzhen Co Ltd
Original Assignee
Tianjin Medical Laboratory Bgi
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Medical Laboratory Bgi, BGI Shenzhen Co Ltd filed Critical Tianjin Medical Laboratory Bgi
Priority to CN202110103901.3A priority Critical patent/CN113308548B/zh
Publication of CN113308548A publication Critical patent/CN113308548A/zh
Application granted granted Critical
Publication of CN113308548B publication Critical patent/CN113308548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种检测胎儿基因单倍体型的方法、装置和存储介质。本申请方法包括,获取孕妇及其丈夫基因组基因型和孕妇血浆游离DNA基因型;根据孕妇及其丈夫基因组基因型,通过基因型与基因单倍体型对应数据库和单倍体型分析软件,获得孕妇及丈夫基因单倍体型;根据孕妇血浆游离DNA基因型,孕妇及丈夫基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法获得胎儿基因单倍体型。本申请方法所需样本简单,可操作性强,仅需孕妇及丈夫外周血,通过孕妇及丈夫基因组基因型和孕妇血浆游离DNA基因型,即可实现胎儿基因单倍体型构建。本申请方法检测周期短,成本低,能更好满足临床使用需求。

Description

一种检测胎儿基因单倍体型的方法、装置和存储介质
技术领域
本申请涉及基因单倍体型检测技术领域,特别是涉及一种检测胎儿基因单倍体型的方法、装置和存储介质。
背景技术
目前,确定胎儿单倍体型方法通常分为有创和无创两种,考虑到有创存在一定流产风险和并发症可能性,无创方法越来越得到推广和应用。
当前基于孕妇血浆游离DNA无创确定胎儿单倍体型方法主要包含以下几种:(1)对父母及先证者进行高通量测序(Massive parallel sequencing,MPS)构建单倍体型,或者对父母、祖父母及外祖父母进行高通量测序构建单倍体型,对孕妇的血浆进行高通量测序,根据血浆中胎儿遗传父母单倍体剂量信息不平衡原理,利用孕妇血浆数据推测胎儿遗传父母的单倍体型;(2)对父母双方进行复杂的实验,例如微流体稀释结合分子标签标记、分子交联、Fosmid质粒克隆、DNA稀释结合转座酶分子标签建库等,实验处理完后进行NGS文库构建和高通量测序,根据关联的分子标签信息把短的测序片段组装成长的父母单倍体型,对孕妇的血浆进行高通量测序,根据血浆中胎儿遗传父母单倍体剂量信息不平衡原理,利用孕妇血浆数据推测胎儿遗传父母的单倍体型;(3)对父母双方进行第三代测序文库构建和测序,根据长度长序列的杂合的SNP信息构建父母的单倍体型,对孕妇的血浆进行高通量测序,根据血浆中胎儿遗传父母单倍体剂量信息不平衡原理,利用孕妇血浆数据推测胎儿遗传父母的单倍体型。
综上所述,现有无创方式获取胎儿单倍体型的方法主要是以下两大类:
1.家系方法:对父母及先证者,或者对父母、祖父母及外祖父母进行高通量测序,利用家系数据推测出父母单倍体型,利用相同方法对孕妇血浆进行高通量测序。根据血浆中胎儿遗传父母单倍体剂量信息不平衡原理,利用隐马可夫模型和维特比算法推测胎儿的单倍体型。
2.实验方法:利用复杂的实验方法直接对夫妇双方进行单倍体型构建,目前主流的实验方法包括分子交联TLA、微流体技术、分子标签结合转座酶建库技术和三代建库等方法。前述几种方法,通过无限次的物理稀释或者物理分隔,再通过等温扩增的方式引入分子标签,测序后数据根据标签信息进行长片段组装,进而获得父母的单倍体型。获得父母单倍体型后,还需要对孕妇血浆进行NGS高通量测序,根据血浆中胎儿遗传父母单倍体剂量信息不平衡原理,利用隐马可夫模型和维特比算法推测胎儿的单倍体型。
无论是家系方法,还是实验方法都存在各自的优缺点。对家系方法而言,该方法需要借助夫妇双方父母或者已生育先证者,对无法获得先证者或其夫妇双方父母样本的不适用,检测样本数目多,检测方法成本昂贵,限制其应用。对于实验方法而言,需要通过无限次的物理稀释或者物理分隔,再通过等温扩增的方式引入分子标签,测序后数据根据标签信息进行长片段组装,进而获得父母的单倍体型;操作复杂,专业性极强,成本昂贵,普遍在2000美金以上,且检测周期长,需要20天-30天,很难在临床上推广使用。三代测序的方法,利用长片段建库和测序方法获取父母长片段序列,进行单倍体组装,同样存在实验操作复杂,对原始DNA片段完整性有很高要求,周期长,成本贵等不足;并且,三代测序准确性要远低于高通量测序的方法。三代测序的方法需要同时具备三代测序和二代测序平台,成本太高。
由此可见,现有的胎儿单倍体型检测方法,存在需要家系成员、实验操作复杂、对操作人员专业能力要求很高、检测成本昂贵及检测周期很长等缺点,极大限制其推广应用。
另外,对于胎儿地贫基因单倍体型的检测而言,现有胎儿单倍体型检测方法,只能一次性的检测能确定胎儿的alpha基因单倍体型,或者beta基因的单倍体型,不能实现同时能确定胎儿的alpha基因单倍体型和beta基因单倍体型。
发明内容
本申请的目的是提供一种新的检测胎儿基因单倍体型的方法、装置和存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的一方面公开了一种检测胎儿基因单倍体型的方法,包括以下步骤:
基因型获取步骤,包括获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型;
孕妇及其丈夫基因单倍体型分析步骤,包括根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;
胎儿基因单倍体型分析步骤,包括根据基因型获取步骤获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析步骤获得的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法获得胎儿的基因单倍体型;
其中,基因型与基因单倍体型对应数据库,是采用基因突变携带者的基因组基因型和基因单倍体型作为训练集,以基因组基因型为输入,基因单倍体型为输出,训练获得。
需要说明的是,本申请的胎儿基因单倍体型检测方法,只需要检测孕妇及其丈夫的外周血,检测孕妇及其丈夫的基因型,通过基因型与基因单倍体型对应数据库直接获得孕妇和孕妇丈夫的基因单倍体型;然后再采用常规的“孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理”以及“隐马可夫模型和维特比算法”,获得胎儿的基因单倍体型。本申请的检测方法,无需采用复杂的实验操作构建孕妇和孕妇丈夫的基因单倍体型,只需要简单的检测孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型即可,也无需昂贵的实验设备,检测周期短,检测成本低。并且,在本申请的一种实现方式中,采用本申请的方法能够同时确定胎儿的alpha和beta基因单倍体型。
还需要说明的是,本申请的一种实现方式中,具体采用的单倍体型分析软件为Beagle4.0;基因型与基因单倍体型对应数据库中,检测基因单倍体型采用的也是Beagle4.0。本申请的关键之一就是,基于大数据人群的数据库的单倍体型推算方法,可以简单、方便、准确的获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型。可以理解,虽然Beagle 4.0可以直接根据孕妇及其丈夫的基因型获得孕妇和其丈夫的单倍体型,但是在实际操作中,由于单倍体分型准确性的问题,很少直接采用Beagle 4.0进行单倍体分型检测;本申请创造性的采用已知样本作为训练集合,提供一个大数据参考集合,即基因型与基因单倍体型对应数据库,可以极大的提升孕妇及其丈夫单倍体分型准确性;从而使其可以用于本申请的基于孕妇血浆游离DNA的胎儿基因单倍体型检测。
本申请的一种实现方式中,基因型与基因单倍体型对应数据库具体为基因型与地贫基因单倍体型对应数据库,是采用地贫突变携带者的基因组基因型和地贫基因单倍体型作为训练集,以基因组基因型为输入,地贫基因单倍体型为输出,训练获得;孕妇及其丈夫基因单倍体型分析步骤,具体包括根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与地贫基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型;胎儿基因单倍体型分析步骤,具体包括根据基因型获取步骤获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析步骤获得的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法同时获得胎儿的alpha和beta基因单倍体型。
需要说明的是,同时检测胎儿的alpha和beta基因单倍体型,只是本申请的一种实现方式中,采用本申请的基本发明构思,具体实现的地贫基因单倍体型检测。可以理解,本申请的胎儿基因单倍体型检测方法,不仅限于胎儿的alpha和beta基因单倍体型检测;原则上,在本申请的发明构思下,还可以用于胎儿其他基因单倍体型的检测。
本申请的一种实现方式中,孕妇基因组基因型,采用分离自孕妇外周血的血细胞的基因组DNA样本,经过高通量测序和基因型检测获得。
本申请的一种实现方式中,孕妇血浆游离DNA的基因型,采用分离自孕妇外周血的血浆的游离DNA样本,经过高通量测序和基因型检测获得。
本申请的一种实现方式中,孕妇丈夫基因组基因型,采用孕妇丈夫外周血的基因组DNA样本,经过高通量测序和基因型检测获得。
需要说明的是,本申请检测胎儿基因单倍体型的方法,优选采用无创方法获得基因组DNA样本和游离DNA样本;当然,不排除还可以采用其它样本获取基因组DNA和胎儿DNA。
本申请的一种实现方式中,孕妇及其丈夫基因单倍体型分析步骤,还包括,将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,然后根据转换后的孕妇基因组基因型和孕妇丈夫基因组基因型,获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型。
需要说明的是,现有的算法普遍局限于点突变、小的插入和缺失突变,无法进行拷贝数变异的单倍体分型;因此,对于拷贝数变异的情况下,无法准确有效的进行单倍体型分型。本申请创造性的针对拷贝数变异的情况,将拷贝数变异转换成点突变,然后再利用算法进行单倍体型分型;很好的解决了拷贝数变异单倍体型分型的问题。现有技术中尚未有相关的研究和报道。
优选的,将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,具体包括,将拷贝数变异区域的SNP去掉,将拷贝数变异用杂合的SNP基因型0/1代替,拷贝数变异起点基因组坐标作为0/1的基因组坐标,0代表与参考序列相同的序列,1代表与参考序列不同的序列,0/1的单倍体型分型结果作为拷贝数变异的单倍体分型结果。
需要说明的是,将拷贝数变异用杂合的SNP基因型0/1代替,只是本申请的一种实现方式中具体采用的拷贝数变异转换成点突变的方式,不排除在相同的发明构思下还可以采用其它的转换方式。
本申请的另一方面公开了一种拷贝数变异单倍体型分型的方法,包括将拷贝数变异区域的SNP去掉,将拷贝数变异用杂合的SNP基因型0/1代替,拷贝数变异起点基因组坐标作为0/1的基因组坐标,0代表与参考序列相同的序列,1代表与参考序列不同的序列,0/1的单倍体型分型结果作为拷贝数变异的单倍体分型结果。
需要说明的是,本申请采用拷贝数变异转换成点突变的方式进行拷贝数变异单倍体型分型方法,不仅仅可以用于胎儿基因单倍体型分型,更不仅仅用于胎儿地贫基因单倍体型分型;还可以用于其它的所有需要对拷贝数变异进行单倍体型分型的检测;因此,本申请单独提出了一种拷贝数变异单倍体型分型的方法。本申请首次提出了将拷贝数变异(CNV)进行转化,将CNV变异转化成点突变(SNV)的形式,再利用算法进行单倍体型分型;首次解决了现有算法分型无法进行拷贝数单倍体型的难题。
当然,本申请的拷贝数变异单倍体型分型的方法尤其适用于地贫基因的单倍体型分型检测。由于alpha地贫以拷贝数突变(CNV)为主,约占80%以上,beta地贫突变形式以点突变(SNV)为主,约占80%以上。故本申请可同时确定胎儿alpha和beta地贫基因的单倍体型。拷贝数变异区域SNP位点进行变异检测时会被误认为是纯合的SNP,纯合的SNP无法用于算法分型,只有杂合的SNP才能用于算法分型,本申请的方法将拷贝数变异区域的SNP去掉,将CNV变异的用杂合的SNP基因型0/1代替,CNV变异起点基因组坐标作为0/1的基因组坐标,0代表与参考序列相同的序列,1代表与参考序列不同的序列。0/1的单倍体型分型结果作为CNV拷贝数变异的单倍体分型结果。
本申请的再一方面公开了一种检测胎儿基因单倍体型的装置,其包括基因型与基因单倍体型对应数据库训练模块、基因型获取模块、孕妇及其丈夫基因单倍体型分析模块和胎儿基因单倍体型分析模块;
基因型与基因单倍体型对应数据库训练模块,包括用于采用基因突变携带者的基因组基因型和基因单倍体型作为训练集,以基因组基因型为输入,基因单倍体型为输出,训练获得基因型与基因单倍体型对应数据库;
基因型获取模块,包括用于获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型;
孕妇及其丈夫基因单倍体型分析模块,包括用于根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;
胎儿基因单倍体型分析模块,包括用于根据基因型获取模块获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析模块获得的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法获得胎儿的基因单倍体型。
需要说明的是,本申请检测胎儿基因单倍体型的装置,实际上就是通过各模块分别实现本申请检测胎儿地贫基因单倍体型的方法中的各步骤;因此,各模块的具体限定可以参考本申请检测胎儿地贫基因单倍体型的方法。例如,本申请的一种实现方式中,基因型与基因单倍体型对应数据库训练模块,具体用于采用地贫突变携带者的基因组基因型和地贫基因单倍体型作为训练集,以基因组基因型为输入,地贫基因单倍体型为输出,训练获得基因型与地贫基因单倍体型对应数据库;孕妇及其丈夫基因单倍体型分析模块,具体用于根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与地贫基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型;胎儿基因单倍体型分析模块,具体用于根据基因型获取模块获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析模块获得的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法同时获得胎儿的alpha和beta基因单倍体型。另外,孕妇及其丈夫基因单倍体型分析模块,还可以用于将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,然后根据转换后的孕妇基因组基因型和孕妇丈夫基因组基因型,获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型。具体的,可以参考本申请的检测胎儿基因单倍体型的方法。
可以理解,本申请检测胎儿基因单倍体型的装置中,基因型与基因单倍体型对应数据库训练模块只需要在首次使用时运行;在获得基因组基因型与基因单倍体型的对应关系后,可以直接将获得的对应关系用于后续检测,而不需要每次进行胎儿基因单倍体型检测都执行基因型与基因单倍体型对应数据库训练模块。当然,为了不断提高检测的稳定性和准确性,可以在后续使用过程中不断的增加训练集中的基因突变携带者的基因组基因型和地贫基因单倍体型等信息,使得模型训练获得的对应关系更准确。例如,本申请的一种实现方式中,具体采用了4356例地贫突变携带者基因型数据进行合并,利用软件Beagle 4.0获得参考单倍体型集合。
本申请的再一面公开了一种检测胎儿基因单倍体型的装置,该装置包括存储器和处理器;其中,存储器,包括用于存储程序;处理器,包括用于通过执行该存储器存储的程序以实现本申请检测胎儿基因单倍体型的方法。
本申请的再一面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请检测胎儿基因单倍体型的方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请检测胎儿基因单倍体型的方法和装置,所需要样本简单,可操作性强,仅需要孕妇及其丈夫的外周血,通过孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型,即可实现胎儿的基因单倍体型构建,不需要复杂的实验操作。本申请的方法不需要昂贵的实验设备,也不需要检测家系成员或先证者样本,检测周期短,检测成本低,能更好的满足临床使用需求。
附图说明
图1是本申请实施例中胎儿地贫基因单倍体型检测的技术路线图;
图2是本申请实施例中胎儿基因单倍体型检测方法的流程框图;
图3是本申请实施例中胎儿基因单倍体型检测装置的结构框图;
图4是本申请实施例中孕妇及其丈夫的beta基因单倍体型示意图;
图5是本申请实施例中有生育alpha地贫患儿夫妇的胎儿遗传母源单倍体判断结果;
图6是本申请实施例中有生育alpha地贫患儿夫妇的胎儿遗传父源单倍体判断结果;
图7是本申请实施例中有生育beta地贫患儿高风险夫妇的胎儿遗传母源单倍体判断结果;
图8是本申请实施例中有生育beta地贫患儿高风险夫妇的胎儿遗传父源单倍体判断结果。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
现有的两大类主要的胎儿基因单倍体型检测方法中,“家系方法”需要检测家系成员或先证者样本,这些样本都很难取得,很难在临床上进行转化;“实验方法”需要采用复杂的试验操作构建父母的单倍体型,然后再根据血浆中胎儿遗传父母单倍体剂量信息不平衡原理,利用孕妇血浆数据推测胎儿遗传父母的单倍体型。
本申请创造性的利用历史积累的基因突变携带者基因型数据,对其进行合并,利用软件Beagle 4.0获得参考单倍体型集合,从而获得基因型与基因单倍体型对应数据库;采用该数据库,可以直接根据孕妇基因组基因型和孕妇丈夫基因组基因型,获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;无需采用复杂的实验操作构建孕妇和孕妇丈夫的基因单倍体型。
以胎儿地贫基因单倍体型检测为例,本申请的技术路线如图1所示,主要分为两大部分:第一部分,即通过历史4356例地贫基因检测数据,构建地贫单倍体型数据库。第二部分,即通过孕妇及其丈夫的外周血获得孕妇基因组DNA、孕妇丈夫基因组DNA和孕妇血浆游离DNA(即胎儿游离DNA);采用获得的三种DNA,分别进行文库构建、目标区域捕获、高通量测序,获得孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型;进一步的,基于构建的地贫单倍体型数据库,根据孕妇基因组基因型和孕妇丈夫基因组基因型获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;最后,根据孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,以及孕妇血浆游离DNA的基因型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法同时获得胎儿的alpha和beta基因单倍体型。
根据以上发明构思,本申请的胎儿基因单倍体型检测方法,如图2所示,包括基因型获取步骤21、孕妇及其丈夫基因单倍体型分析步骤22和胎儿基因单倍体型分析步骤23。
其中,基因型获取步骤21包括获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型。获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型的方法可以参考现有的目标基因的基因型分析方法;例如本申请的一种实现方式中,具体是通过孕妇外周血,从中分离血细胞,提取血细胞中的基因组DNA,然后进行高通量测序文库构建、靶标基因捕获、高通量测序;根据高通量测序结果,分别进行与参考序列比对、质控和基因型检测,获得孕妇基因组基因型。孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型的获得方法与孕妇基因组基因型的获得方法相同,只是具体采用的DNA样本有所区别,例如孕妇丈夫基因组基因型获得采用的DNA样本为提取自外周血的基因组DNA,孕妇血浆游离DNA的基因型获得采用的DNA样本为提取自孕妇外周血的血浆的游离DNA。
孕妇及其丈夫基因单倍体型分析步骤22,包括根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型。本申请的一种实现方式中,具体以胎儿的地贫基因单倍体型检测进行试验;因此,具体是根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与地贫基因单倍体型对应数据库,获得相应的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型。当然,如果检测其它基因单倍体型,也可以采用相应的基因型与基因单倍体型对应数据库,获得相应的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,在此不作具体限定。
本申请的一种实现方式中,孕妇及其丈夫基因单倍体型分析步骤还包括,将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,然后根据转换后的孕妇基因组基因型和孕妇丈夫基因组基因型,获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型。其中,将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,具体包括,将拷贝数变异区域的SNP去掉,将拷贝数变异用杂合的SNP基因型0/1代替,拷贝数变异起点基因组坐标作为0/1的基因组坐标,0代表与参考序列相同的序列,1代表与参考序列不同的序列,0/1的单倍体型分型结果作为拷贝数变异的单倍体分型结果。
其中,基因型与基因单倍体型对应数据库,是采用基因突变携带者的基因组基因型和基因单倍体型作为训练集,以基因组基因型为输入,基因单倍体型为输出,训练获得。例如基因型与地贫基因单倍体型对应数据库,是采用地贫突变携带者的基因组基因型和地贫基因单倍体型作为训练集,以基因组基因型为输入,地贫基因单倍体型为输出,训练获得。
胎儿基因单倍体型分析步骤23,包括根据基因型获取步骤获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析步骤获得的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法获得胎儿的基因单倍体型。本申请的一种实现方式中,具体以胎儿的地贫基因单倍体型检测进行试验;因此,具体是根据获取的孕妇血浆游离DNA的基因型,以及获得的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法同时获得胎儿的alpha和beta基因单倍体型。
本申请的胎儿基因单倍体型检测方法中,还可以根据需求增加基因型与基因单倍体型对应数据库训练步骤,包括采用基因突变携带者的基因组基因型和基因单倍体型作为训练集,以基因组基因型为输入,基因单倍体型为输出,训练获得基因型与基因单倍体型对应数据库。可以理解,在已经获得数据库的情况下,可以不重复进行基因型与基因单倍体型对应数据库训练步骤;因此,该步骤并非本申请胎儿基因单倍体型检测方法的必须步骤。但是,在首次采用本申请的方法进行胎儿基因单倍体型检测的情况下,尚未有相应的数据库时,必须先进行基因型与基因单倍体型对应数据库训练步骤,获得相应的基因型与基因单倍体型对应数据库;例如首次进行胎儿地贫基因单倍体型检测时,需要先获得基因型与地贫基因单倍体型对应数据库;首次进行其它胎儿基因单倍体型检测时,也需要先获得相应的基因的基因型与地贫基因单倍体型对应数据库。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的方法,本申请提出了一种检测胎儿基因单倍体型的装置,如图3所示,包括基因型与基因单倍体型对应数据库训练模块31、基因型获取模块32、孕妇及其丈夫基因单倍体型分析模块33和胎儿基因单倍体型分析模块34。
其中,基因型与基因单倍体型对应数据库训练模块31,包括用于采用基因突变携带者的基因组基因型和基因单倍体型作为训练集,以基因组基因型为输入,基因单倍体型为输出,训练获得基因型与基因单倍体型对应数据库。可以理解,对应某个具体的基因的胎儿基因单倍体型检测而言,则需要采用某个具体的靶标基因的突变携带者的基因组基因型和基因单倍体型作为训练集,获得相应的基因型与基因单倍体型对应数据库;例如胎儿地贫基因单倍体型检测,需要采用地贫突变携带者的数据信息,训练获得基因型与地贫基因单倍体型对应数据库。
基因型获取模块32,包括用于获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型。具体的,获取基因型的方式可以参考本申请的检测胎儿基因单倍体型的方法,在此不累述。
孕妇及其丈夫基因单倍体型分析模块33,包括用于根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型。本申请的一种实现方式中,具体是通过基因型与地贫基因单倍体型对应数据库,获得相应的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型。同样的,孕妇及其丈夫基因单倍体型分析模块33还包括用于将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,然后根据转换后的孕妇基因组基因型和孕妇丈夫基因组基因型,获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;其中,将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,具体包括,将拷贝数变异区域的SNP去掉,将拷贝数变异用杂合的SNP基因型0/1代替,拷贝数变异起点基因组坐标作为0/1的基因组坐标,0代表与参考序列相同的序列,1代表与参考序列不同的序列,0/1的单倍体型分型结果作为拷贝数变异的单倍体分型结果。
胎儿基因单倍体型分析模块34,包括用于根据基因型获取模块获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析模块获得的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法获得胎儿的基因单倍体型。本申请的一种实现方式中,具体是根据孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型,利用孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,隐马可夫模型和维特比算法同时获得胎儿的alpha和beta基因单倍体型。
本申请的装置,利用各模块相互协调作用,能够实现本申请的检测胎儿基因单倍体型的方法,特别是通过本申请装置的各模块能够实现本申请方法中相应的各个步骤,从而实现自动化的胎儿基因单倍体型检测。
本申请的另一实现方式中还提供了一种检测胎儿基因单倍体型的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:基因型获取步骤,包括获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型;孕妇及其丈夫基因单倍体型分析步骤,包括根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;胎儿基因单倍体型分析步骤,包括根据基因型获取步骤获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析步骤获得的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法获得胎儿的基因单倍体型;其中,基因型与基因单倍体型对应数据库,是采用基因突变携带者的基因组基因型和基因单倍体型作为训练集,以基因组基因型为输入,基因单倍体型为输出,训练获得。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现如下方法:基因型获取步骤,包括获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型;孕妇及其丈夫基因单倍体型分析步骤,包括根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;胎儿基因单倍体型分析步骤,包括根据基因型获取步骤获取的孕妇血浆游离DNA的基因型,以及孕妇及其丈夫基因单倍体型分析步骤获得的孕妇的基因单倍体型和孕妇丈夫的基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法获得胎儿的基因单倍体型;其中,基因型与基因单倍体型对应数据库,是采用基因突变携带者的基因组基因型和基因单倍体型作为训练集,以基因组基因型为输入,基因单倍体型为输出,训练获得。
下面通过具体实施例和附图对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例招募1对有生育alpha地贫患儿的夫妇,和1对有生育beta地贫患儿高风险的夫妇,用于无创产前进行胎儿alpha地贫和beta地贫单倍体型的检测。alpha地贫孕妇及其丈夫均为HBA基因SEA杂合携带;beta地贫孕妇是HBB基因c.52A>T杂合携带,丈夫是HBB基因c.126_129delCTTT杂合携带。本例具体实施方式如下:
(1)孕妇及其丈夫外周血样本获取
孕妇妊娠12周-21周时,采集孕妇丈夫5mL外周血,转移到EDTA管中于-20℃保存;采集孕妇5mL外周血,转移到Streck管中,常温运输,96h内完成孕妇外周血的血浆分离,血浆转移到1.5mL离心管中于-80℃保存,剩余血细胞于-20℃保存。基因组DNA进行超声打断,目前使用样品打断方法为Covaris打断法,将样品DNA打碎至100-700bp范围的片段。打断效果一般以所要求制备文库Insert片段主带位置在200-250bp位置较为理想,若打断效果不理想则需要进行重新打断。
(2)核酸提取
利用凯杰公司的DNeasy Blood&Tisue Kit提取丈夫外周血和孕妇血细胞基因组DNA;利用凯杰公司QIAamp Circulating Nucleic Acid Kit提取孕妇血浆游离DNA,所说的孕妇血浆游离DNA包含孕妇和胎儿游离DNA混合物。使用Qubit定量后直接进行文库构建。
(3)NGS文库制备、目标区域捕获及高通量测序
1.末端修复“加A”
反应液体系为:10×Polynucleotide Kinase Buffer(B904)5μL、dATP:dNTPs混合液0.6μL、T4 Polynucleotide Kinase(10U/μL)0.6μL、Klenow Fragment(5U/μL)0.1μL、T4DNA Polymerase(3U/μL)2μL、rTaq(5U/μL)0.2μL、H2O 1.5μL,总计10μL。
在冰上配置反应液,将配置好的反应液充分混匀后。将片段化DNA和血浆游离DNA加入到上述反应液,充分混匀。
反应程序:37℃30min,65℃15min;4℃hold on。结束后立即进入下一步。
2.Adapter连接和纯化
反应液体系为:10×Ligation buffer 5μL、50%PEG8000 12μL、ATP(100mM)0.8μL、T4 DNA Ligase(600U/μL)1.6μL、Ad153 Barcode Adapter N(10pM)5μL、ddH2O 5.6μL,总计30μL。
在冰上配置反应液,充分混匀后,每个反应加入30μL酶反应混合液。
反应条件:23℃,1h。
使用0.8倍体积XP磁珠进行产物纯化,回收的DNA溶于22μL的水中。
3.Pre-PCR扩增反应
反应液体系为:2×KAPA HiFi HotStart Ready Mix 25μL、Ad153_PCR2_1(20μM)2μL、Ad153_PCR2_2(20μM)2μL,总计29μL。
在冰上配制PCR反应混合液,将配置好的反应液震荡混匀。
用移液器吸取29μL配制好的PCR反应液与“2.Adapter连接和纯化”步骤回收的21μL的DNA混合,吹打混匀,置于PCR仪中,按照下述反应程序进行反应:98℃2min;然后进入12个循环:98℃15s、56℃15s、72℃30s;循环结束后72℃5min;4℃forever。
4.Pre-PCR扩增产物纯化
将上述Pre-PCR产物50μL转移至新的1.5mL的离心管中,然后添加50μL的XP磁珠吹打混匀后静置10min,至于磁力架上2-5min,弃上清,75%乙醇洗涤2次,乙醇洗涤在磁力架上操作,乙醇用量没过磁珠即可,冲洗,切勿打散磁珠,冲洗后,去上清,然后加32μL的TE缓冲液,吹打混匀后静置10min,吸取30μL用于下步反应。
5.芯片杂交目标区域捕获富集
本实验中参照NimbleGen使用说明书进行杂交洗脱,获取目的基因并PCR富集。富集后PCR产物进行Qubit-HS定量检测。
6.热变性与单链环化
6.1样本均一化
按照测定的浓度均一化下一步文库制备反应使用的样本起始量,统一调整至330ng,将对应体积样本(<45μL)转移新的离心管中,使用1×TE补齐使总体积为60μL。
6.2热变性单链分离
在均一化后的样品中加入10μL 10μM Ad153 splint oligo,混匀。将样品置于PCR仪反应:95℃3min。取出直接放冰上。
6.3环化
6.3.1提前5分钟准备反应mix,配制如下:
反应体系为:水36.4μL、10×TA Buffer(LK1)12μL、100mM ATP 1.2μL、600U/μLLigase 0.4μL,总计50μL。
6.3.2在单链分离产物中加入配置的50μL反应mix,混匀;置于PCR仪上反应,37℃60min;
6.4酶切消化(Exo I和Exo III)
6.4.1提前5分钟左右准备反应mix,配制如下:
反应体系为:水0.7μL、10×TA Buffer(LK1)0.8μL、20U/μL Exo I 3.9μL、100U/μLExo III 2.6μL,总计8μL。
6.4.2将配制的8μL酶切消化反应mix加入上一步的反应产物中,混匀。置于PCR仪上反应,37℃30min。
6.4.3酶切30min完成后,向样品中加入6μL 500mM EDTA终止酶反应。
6.4.4磁珠纯化:样品中加入170μL PEG32 beads结合10min,磁力架吸附1min,75%乙醇洗两次,晾干。加入42μL 1×TE,静置10min,磁力架吸附1min,将上清转移至新1.5ml离心管。
7.测序
本实验采用MGISEQ-2000PE101+10+101程序进行上机测序。
(4)结果分析
(一)参考单倍体型集合构建
1.变异检测
本例分别对历史积累数据3363例alpha地贫样本(携带者或患者)的bam文件和993例beta地贫样本的bam文件用gaea软件进行变异calling,得到两个大vcf文件,vcf文件过滤条件:
a.低质量位点过滤,Low quality filter
b.常规过滤
snp:QD<2.0||MQ<40.0||FS>60.0||HaplotypeScore>13.0||MQRankSum<-12.5||ReadPosRankSum<-8.0.
indel:ReadPosRankSum<-20.0||InbreedingCoeff<-0.8||FS>200.0。
c.人群频率过滤:过滤掉人群频率小于0.001的突变位点,并过滤掉目标区域外的位点。
d.低可信位点的过滤:
如果有2%以上的样本在这个位点上的深度都小于20×,则过滤掉该点;
如果有70%以上的样本在该位点allele ratio异常(0.05-0.4),则过滤掉该点。
2.针对alpha数据vcf文件,需要进行CNV进行点突变转化。
在vcf文件中根据各个样本的SEA,4.2和3.7型别(0/1杂合携带,0/0正常,1/1纯合),人为的引入点突变。具体如下:
chr16 215400.NN N...GT 0/1 0/0 0/0……1/1 0/1 0/0
chr16 219817.NN N...GT 0/1 0/0 0/0……1/1 0/1 0/0
chr16 223300.NN N...GT 0/1 0/0 0/0……1/1 0/1 0/0
3.对过滤后的人群数据进行phasing,构建参考单倍体型集合。
(二)待测夫妇双方变异检测
1.下机数据过滤:
过滤掉低质量的reads。
SOAPnuke filter-l 10-q 0.5-n 0.1-Q 2-G
过滤掉低质量(read中有50%以上位点质量值小于10)的reads、N含量超过10%的reads。
2.比对:
bwa men将质控合格的reads比对到人类参考基因组Hg19。
3.Reads去重:
用picard中的MarkDuplicates标记重复的reads。
4.Indel重比对:
indel区域局部重新比对,应用GATK的RealignerTargetCreator定位出所有需要进行序列重比对的目标区域;IndelRealigner对所有找到的目标区域运用算法进行序列重比对。
5.碱基质量值校正:
重新校正碱基的质量值,应用GATK的BaseRecalibrator计算出了所有需要进行重校正的read和特征值,然后把这些信息输出为一份校准表文件;PrintReads利用第一步得到的校准表文件重新调整原来BAM文件中的碱基质量值,并使用这个新的质量值重新输出一份新的BAM文件,并创建索引。
6.变异检测:
用GATK UnifiedGenotyper算法进行家系模式变异calling,得到家系vcf,包括丈夫、孕妇、孕妇血浆。
(三)确定孕妇及其丈夫的alpha和beta基因单倍体型
1.从上一步骤6中获得的家系vcf文件做人群频率过滤,过滤掉人群频率小于0.001的突变位点,然后从过滤后的家系vcf文件中提取父母的vcf文件。
如果是alpha地贫家系,则需要对父母VCF文件进行修改,引入SEA,4.2和3.7型别到vcf文件中,格式如下:最后两列分别是父母的CNV型别
chr16 215400.NN N...GT 0/1 0/0
chr16 219817.NN N...GT 0/0 0/0
chr16 223300.NN N...GT 0/0 0/1
2.将父母的vcf文件与参考单倍体型vcf文件进行合并,保留参考集合vcf和夫妇vcf共有的SNP位点。
3.对合并的vcf文件,利用beagle软件进行分型。
4.提取夫妇双方的alpha和beta基因单倍体型。
5.根据父母的致病位点的携带信息,定义携带致病位点的单倍体型为Hap0或Hap0,不携带致病位点的单倍体型为Hap1或Hap1,得到夫妇双方单倍体型文件:
*.parent.hap(输出顺序:chr pos ref alt Hap0 Hap1 Hap0 Hap1),如图4所示。
(四)确定胎儿的alpha和beta基因单倍体型
1.质控过滤:
a.过滤深度不足30×的位点,过滤对象为夫妇双方+孕妇血浆;
b.过滤夫妇杂合MAF≦0.4或纯合MAF≧0.1的点,过滤对象为父母基因型位点深度;
2.胎儿浓度的计算
选取父母不同纯合,计算血浆父源特异allele的比例(父源特异allele深度×2/血浆位点总深度),计算所有符合条件位点的血浆父源特异allele的比例的均值作为胎儿浓度。
3.测序错误率的计算
用父母相同纯合基因型的SNP位点,通过计算孕妇血浆平均MAF可以估计测序错误率:e={MAF}_{plasma}。
4.胎儿遗传父亲单倍体的确定
4.1过滤提取母亲纯合父亲杂合的位点,记为S={Ni},Ni={Pos,F0,F1,M0,M1,Mp_ref,Mp_alt,Mp_dp=Mp_ref+Mp_alt}.
4.2基于4.1提取的SNP位点集合构建隐马可夫模型(HMM)。
a.初始概率π={1/2,1/2}
隐藏状态Q={h0,h1},h0表示遗传父亲携带致病变异单体型上的allele
b.计算位点间重组率,通过HapMap可得位点间遗传距离cMj′-cMj,从而得到重组概率Pre(j,j′)=(cMj′-cMj)×1%
c.只使用从i点到i+1点这样的转移情况,其它转移概率置为空
d.进而得到转移概率矩阵
Figure BDA0002917098640000171
i,i′∈{0,1},j,j′∈{1,2,3,...,n}.
e.已知母亲纯合父亲杂合,父源特异性allele是否遗传给了胎儿。
e1.如果胎儿遗传父源特异性allele,该allele在孕妇血浆中的reads支持期望是Mp_dp*∈/2。
e2.如果胎儿不遗传父源特异性allele,该allele在孕妇血浆中的reads支持期望是Mp_dp*e。
基于期望值和观测值,用二项分布来计算相应P(Nj│hi)的概率,详情如表1所示。
表1二项分布计算结果
Figure BDA0002917098640000181
f.通过贝叶斯公式可以计算出发射概率
Figure BDA0002917098640000182
g.为避免异常位点产生过强的干扰信号,本例限制Pi,j值在[0.05,0.95]范围内
h.进而得到发射概率矩阵
B={bi,j},bi,j=Pi,j,i∈{0,1},j=1,2,3,…,n
i.基于以上构建的HMM模型,应用Viterbi算法找出最可能的隐藏状态路径,是理论概率最大的父源遗传情况,是胎儿遗传父亲的单倍体型。
5.胎儿遗传母亲单倍体的确定
a.取母亲所有杂合位点计算alt allele的ratio,取均值记为HetRatio。
b.过滤提取母亲杂合的点,由2和父亲单体型分型结果可以得到父亲整个单体型的遗传情况,去除无法判断的点。
c.构建HMM模型,详情如表2所示
表2 HMM模型
Figure BDA0002917098640000183
d.应用Viterbi算法找出最可能的隐藏状态路径,是理论概率最大的母源遗传情况,是胎儿遗传母亲的单倍体型。
(5)有生育alpha地贫患儿夫妇的检测结果
本例招募1对有生育alpha地贫患儿高风险的夫妇双方用于无创产前检测,进行胎儿alpha地贫单倍体型的构建。alpha地贫孕妇及其丈夫均为HBA基因SEA杂合携带。
胎儿基因单倍体型判断结果如图5和图6所示。图5为胎儿遗传母源单倍体判断结果,图6为胎儿遗传父源单倍体判断结果,图5和图6中,P代表致病单倍体型,N代表正常单倍体型,两条虚线竖线区域表示HBA基因区域。胎儿遗传父母单倍体型在0线(灰色横线)以上代表胎儿遗传致病单倍体型,在0线(灰色横线)以下代表胎儿遗传正常单倍体型。图5和图6的结果显示,该家系胎儿分别遗传了父母的正常单倍体型,胎儿alpha地贫基因型是正常。
(6)有生育beta地贫患儿高风险夫妇的检测结果
本例招募1对有生育beta地贫患儿高风险的夫妇双方用于无创产前检测,进行胎儿beta地贫单倍体型的构建。beta地贫孕妇是HBB基因c.52A>T杂合携带,丈夫是HBB基因c.126_129delCTTT杂合携带。
胎儿基因单倍体型判断结果如图7和图8所示。图7为胎儿遗传母源单倍体判断结果,图8为胎儿遗传父源单倍体判断结果,图7和图8中,P代表致病单倍体型,N代表正常单倍体型,虚线竖线表示HBB基因区域。胎儿遗传父母单倍体型在0线(灰色横线)以上代表胎儿遗传致病单倍体型,在0线(灰色横线)以下代表胎儿遗传正常单倍体型。图7和图8的结果显示,该家系胎儿分别遗传了父母的正常单倍体型,胎儿beta地贫基因型是正常。
以上试验结果显示,本例仅需要孕妇及孕妇丈夫的外周血就能同时实现胎儿alpha和beta地贫基因单倍体型构建,本例不需要复杂的实验操作,只需要父母的基因型数据就可实现单倍体型构建;本例不需要昂贵的实验设备比如10×Genomics设备;本例不需要检测家系成员或先证者样本,这些样本都很难取得,实际上现有的技术中检测方法很难在临床上进行转化。本例提供了一种无需检测家系成员、无需复杂实验操作、无需昂贵的实验设备、检测周期短(本例检测周期约7天)、检测成本低(本例检测成本约500元),且能同时确定胎儿alpha和beta基因单倍体型的地贫基因单倍体型检测方法。
可以理解,在本例方法的基础上,参考本例的基本试验思路,还可以对胎儿的其他基因的基因单倍体型进行检测。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (2)

1.一种检测胎儿基因单倍体型的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;
所述处理器,包括用于通过执行所述存储器存储的程序以实现检测胎儿基因单倍体型的方法,所述方法包括以下步骤,
基因型获取步骤,包括获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型;
孕妇及其丈夫基因单倍体型分析步骤,包括根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与地贫基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型;
胎儿基因单倍体型分析步骤,包括根据所述基因型获取步骤获取的孕妇血浆游离DNA的基因型,以及所述孕妇及其丈夫基因单倍体型分析步骤获得的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法同时获得胎儿的alpha和beta基因单倍体型;
所述基因型与地贫基因单倍体型对应数据库,是采用地贫突变携带者的基因组基因型和地贫基因单倍体型作为训练集,以基因组基因型为输入,地贫基因单倍体型为输出,训练获得;
所述孕妇基因组基因型,采用分离自孕妇外周血的血细胞的基因组DNA样本,经过高通量测序和基因型检测获得;
所述孕妇血浆游离DNA的基因型,采用分离自孕妇外周血的血浆的游离DNA样本,经过高通量测序和基因型检测获得;
所述孕妇丈夫基因组基因型,采用孕妇丈夫外周血的基因组DNA样本,经过高通量测序和基因型检测获得;
所述孕妇及其丈夫基因单倍体型分析步骤,还包括,将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,然后根据转换后的孕妇基因组基因型和孕妇丈夫基因组基因型,获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;
所述将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,具体包括,将拷贝数变异区域的SNP去掉,将拷贝数变异用杂合的SNP基因型0/1代替,拷贝数变异起点基因组坐标作为0/1的基因组坐标,0代表与参考序列相同的序列,1代表与参考序列不同的序列,0/1的单倍体型分型结果作为拷贝数变异的单倍体分型结果。
2.一种计算机可读存储介质,其特征在于:所述存储介质中存储有程序,所述程序能够被处理器执行以实现检测胎儿基因单倍体型的方法,所述方法包括以下步骤,
基因型获取步骤,包括获取孕妇基因组基因型、孕妇丈夫基因组基因型和孕妇血浆游离DNA的基因型;
孕妇及其丈夫基因单倍体型分析步骤,包括根据获取的孕妇基因组基因型和孕妇丈夫基因组基因型,通过基因型与地贫基因单倍体型对应数据库和单倍体型分析软件,获得相应的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型;
胎儿基因单倍体型分析步骤,包括根据所述基因型获取步骤获取的孕妇血浆游离DNA的基因型,以及所述孕妇及其丈夫基因单倍体型分析步骤获得的孕妇的alpha和beta基因单倍体型和孕妇丈夫的alpha和beta基因单倍体型,根据孕妇血浆中胎儿遗传父母单倍体型剂量信息不平衡原理,利用隐马可夫模型和维特比算法同时获得胎儿的alpha和beta基因单倍体型;
所述基因型与地贫基因单倍体型对应数据库,是采用地贫突变携带者的基因组基因型和地贫基因单倍体型作为训练集,以基因组基因型为输入,地贫基因单倍体型为输出,训练获得;
所述孕妇基因组基因型,采用分离自孕妇外周血的血细胞的基因组DNA样本,经过高通量测序和基因型检测获得;
所述孕妇血浆游离DNA的基因型,采用分离自孕妇外周血的血浆的游离DNA样本,经过高通量测序和基因型检测获得;
所述孕妇丈夫基因组基因型,采用孕妇丈夫外周血的基因组DNA样本,经过高通量测序和基因型检测获得;
所述孕妇及其丈夫基因单倍体型分析步骤,还包括,将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,然后根据转换后的孕妇基因组基因型和孕妇丈夫基因组基因型,获得孕妇的基因单倍体型和孕妇丈夫的基因单倍体型;
所述将孕妇基因组基因型和孕妇丈夫基因组基因型中所有的拷贝数变异转换成点突变,具体包括,将拷贝数变异区域的SNP去掉,将拷贝数变异用杂合的SNP基因型0/1代替,拷贝数变异起点基因组坐标作为0/1的基因组坐标,0代表与参考序列相同的序列,1代表与参考序列不同的序列,0/1的单倍体型分型结果作为拷贝数变异的单倍体分型结果。
CN202110103901.3A 2021-01-26 2021-01-26 一种检测胎儿基因单倍体型的方法、装置和存储介质 Active CN113308548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103901.3A CN113308548B (zh) 2021-01-26 2021-01-26 一种检测胎儿基因单倍体型的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103901.3A CN113308548B (zh) 2021-01-26 2021-01-26 一种检测胎儿基因单倍体型的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN113308548A CN113308548A (zh) 2021-08-27
CN113308548B true CN113308548B (zh) 2023-03-28

Family

ID=77370833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103901.3A Active CN113308548B (zh) 2021-01-26 2021-01-26 一种检测胎儿基因单倍体型的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN113308548B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093417B (zh) * 2021-11-23 2022-10-04 深圳吉因加信息科技有限公司 一种鉴定染色体臂杂合性缺失的方法和装置
CN114566214B (zh) * 2022-04-26 2022-07-05 北京泛生子基因科技有限公司 检测基因组缺失插入变异的方法及检测装置和计算机可读存储介质与应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012380221B2 (en) * 2012-05-14 2016-09-29 Bgi Genomics Co., Ltd Method, system and computer readable medium for determining base information in predetermined area of fetus genome
WO2019204632A1 (en) * 2018-04-18 2019-10-24 Rady Chidren's Hospital Research Center Method and system for rapid genetic analysis

Also Published As

Publication number Publication date
CN113308548A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN103874767B (zh) 对核酸样本中预定区域进行基因分型的方法和系统
JP6328934B2 (ja) 非侵襲性出生前親子鑑定法
JP2021035393A (ja) 染色体提示の決定
RU2597981C2 (ru) Способ и система для определения нуклеотидной последовательности в заданной области генома плода
US20190338349A1 (en) Methods and systems for high fidelity sequencing
WO2014204991A1 (en) Method for determining copy number variations in sex chromosomes
CN108220403B (zh) 特定突变位点的检测方法、检测装置、存储介质及处理器
CN105648045B (zh) 确定胎儿目标区域单体型的方法和装置
US20190338350A1 (en) Method, device and kit for detecting fetal genetic mutation
WO2016049993A1 (zh) 用于鉴定多个生物样本之间身份关系的方法和系统
CN105051208B (zh) 确定胚胎基因组中预定区域碱基信息的方法、系统和计算机可读介质
CN113308548B (zh) 一种检测胎儿基因单倍体型的方法、装置和存储介质
CN110770840A (zh) 用于对来自已知或未知基因型的多个贡献者的dna混合物分解和定量的方法和系统
CN111518917B (zh) 一种用于无创产前亲权关系判定的微单倍型遗传标记组合及方法
Tam et al. Noninvasive prenatal paternity testing by means of SNP‐based targeted sequencing
US20180142300A1 (en) Universal haplotype-based noninvasive prenatal testing for single gene diseases
CN110770839A (zh) 来自未知基因型贡献者的dna混合物的精确计算分解的方法
GB2559437A (en) Prenatal screening and diagnostic system and method
Yin et al. Identification of a de novo fetal variant in osteogenesis imperfecta by targeted sequencing-based noninvasive prenatal testing
Kong et al. Haplotype-Based Noninvasive Prenatal Diagnosis of 21 Families With Duchenne Muscular Dystrophy: Real-World Clinical Data in China
US20180119210A1 (en) Fetal haplotype identification
Deleye et al. Massively parallel sequencing of micro-manipulated cells targeting a comprehensive panel of disease-causing genes: A comparative evaluation of upstream whole-genome amplification methods
US11869630B2 (en) Screening system and method for determining a presence and an assessment score of cell-free DNA fragments
CN113981070B (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
US20180179595A1 (en) Fetal haplotype identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40051901

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231023

Address after: 300000 Tianjin Tianjin free trade area (Airport Economic Zone), 80 North East Road, business park, 3 building, 201-1.

Patentee after: TIANJIN MEDICAL LABORATORY, BGI

Patentee after: BGI SHENZHEN Co.,Ltd.

Patentee after: Shanghai Huada Medical Laboratory Co.,Ltd.

Address before: 300000 Tianjin Tianjin free trade area (Airport Economic Zone), 80 North East Road, business park, 3 building, 201-1.

Patentee before: TIANJIN MEDICAL LABORATORY, BGI

Patentee before: BGI SHENZHEN Co.,Ltd.

TR01 Transfer of patent right