CN112201306A - 基于高通量测序的真假基因突变分析方法及应用 - Google Patents

基于高通量测序的真假基因突变分析方法及应用 Download PDF

Info

Publication number
CN112201306A
CN112201306A CN202010996594.1A CN202010996594A CN112201306A CN 112201306 A CN112201306 A CN 112201306A CN 202010996594 A CN202010996594 A CN 202010996594A CN 112201306 A CN112201306 A CN 112201306A
Authority
CN
China
Prior art keywords
gene
true
reads
false
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010996594.1A
Other languages
English (en)
Other versions
CN112201306B (zh
Inventor
刘晶星
莫桂玲
林晓红
喻长顺
于世辉
严婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Domain Inspection Hong Kong Co ltd
Guangzhou Kingmed Diagnostics Group Co ltd
Guangzhou Kingmed Diagnostics Central Co Ltd
Original Assignee
Golden Domain Inspection Hong Kong Co ltd
Guangzhou Kingmed Diagnostics Group Co ltd
Guangzhou Kingmed Diagnostics Central Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Domain Inspection Hong Kong Co ltd, Guangzhou Kingmed Diagnostics Group Co ltd, Guangzhou Kingmed Diagnostics Central Co Ltd filed Critical Golden Domain Inspection Hong Kong Co ltd
Priority to CN202010996594.1A priority Critical patent/CN112201306B/zh
Publication of CN112201306A publication Critical patent/CN112201306A/zh
Application granted granted Critical
Publication of CN112201306B publication Critical patent/CN112201306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于高通量测序的真假基因突变分析方法及应用,属于生物信息学技术领域。该真假基因突变分析方法通过获取同源真基因和假基因参考序列中的的差异位点;将NGS测序数据与差异位点进行比较,分别得出对应于同一差异位点的真基因reads数和假基因reads数,通过同一差异位点的真基因reads数和假基因reads数之间的比值作为判断指标,按照预定策略,进行真基因的突变分析判断。可以对有真假基因的突变进行一个初步的筛查,找出可能有问题的基因,再结合临床的实际情况去判断。避免了挨个基因去做MLPA或sanger测序实验,极大的节约了实验成本和时间。

Description

基于高通量测序的真假基因突变分析方法及应用
技术领域
本发明涉及生物信息学技术领域,特别是涉及一种基于高通量测序的真假基因突变分析方法及应用。
背景技术
假基因也叫伪基因,为基因家族在进化过程中形成的无功能的残留物。它与正常基因相似,但丧失正常功能的DNA序列假基因可视为基因组中与编码基因序列非常相似的非功能性基因组DNA拷贝,一般情况都不被转录,且没有明确生理意义。
而在人类基因组中存在一些基因,其具有同源性很高的假基因,比如SMN1/SMN2和CYP21A2/CYP21A1P等同源基因对。当使用NGS测序时,由于reads的比对是基于最优匹配原则,当真基因中碱基突变为假基因的碱基时,会导致这些reads比对到假基因而匹配,从而无法识别真基因上发生的突变。
以SMN1/SMN2为例,该基因全长约28kbp,真假基因之间只有5个碱基的区别,如果真基因(SMN1)发生突变可能致病,假基因(SMN2)发生突变则无关紧要。其中,无论是真基因中的碱基突变为假基因的碱基、或者由于重组导致的真假基因中片段的置换都有可能致病。以SMN1:840C为例,假基因中该位置碱基为T,假设个别患者真基因中有该碱基的C>T突变。如果没有假基因的存在,该处附近的reads会比对到真基因上(虽然有一个mismatch,但仍然是最优匹配),因为C和T不匹配,比对后便可以发现该位置处C>T的突变;但由于基因组上有假基因SMN2的存在,导致该处附近的reads比对到假基因上才是最优匹配,因此发生该突变的reads事实上是比对不到真基因上的,也就无法发现真基因上该位置处C>T的突变。
目前NGS测序没有很好的处理假基因的方法,一般需要额外加做MLPA或者把真基因完整扩增出来后用sanger测序分析,成本较高且需要额外的实验时间。
发明内容
基于此,有必要针对上述问题,提供一种基于高通量测序的真假基因突变分析方法,采用该分析方法,可以对有真假基因的突变进行一个初步的筛查,找出可能有问题的基因,再结合临床的实际情况进行判断。
一种基于高通量测序的真假基因突变分析方法,包括以下步骤:
获取差异位点:将同源真基因和假基因的参考序列进行比较,获取其中具有差异的差异位点;
NGS数据比对:获取NGS测序数据,比对至参考基因组序列,以最优比对原则,得到覆盖真基因差异位点的真基因reads和覆盖假基因差异位点的假基因reads,分别将真基因reads和假基因reads与上述差异位点进行比较,识别对应差异位点坐标的碱基,得到真基因reads组和假基因reads组,分别对真基因reads组和假基因reads组在此差异位点坐标的碱基类型进行计数,得到对应于同一差异位点的真基因reads数和假基因reads数;
真假基因突变分析:以上述同一差异位点的真基因reads数和假基因reads数之间的比值作为判断指标,按照预定策略,进行真基因的突变分析判断。
本发明人在实践中发现,以常规方法处理假基因,使用MLPA或者把真基因完整扩增出来后用sanger测序,需要针对每个真假基因专门设计探针独立实验,由于罕见病的异质性,大多数情况下医生并不知道病人到底是哪个基因有问题,只能挨个基因去尝试,实验成本大且浪费时间。
而NGS测序可以一次实验检测人的全部2万多个基因,再配合本发明的突变分析方法,可以对有真假基因的突变进行一个初步的筛查,找出可能有问题的基因,再结合临床的实际情况去判断,避免了挨个基因去做MLPA或sanger测序实验,节约了实验成本和时间。
在其中一个实施例中,所述真假基因突变分析步骤中,如所述同源真基因与假基因在参考基因组序列中的拷贝数比为1:1,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0.9-1.1,则判断该差异位点处真基因无突变;
当真基因reads数和假基因reads数之间的比值为0.43-0.63,则判断该差异位点处真基因存在杂合缺失风险;
当真基因reads数和假基因reads数之间的比值为0.25-0.43,则判断该差异位点处真基因存在被假基因片段置换或者突变为假基因的点突变风险;
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
可以理解的,按照统计学原理,如同源真基因与假基因在参考基因组序列中的拷贝数比为1:1,则对于正常无突变基因,上述比值范围跟覆盖深度有关,覆盖越高比值越接近1。本发明人通过实验摸索和调整,以比值范围在0.9-1.1作为判断标准,能够较好的反应真假基因突变情况。
对于真基因存在杂合缺失的情况,真基因出现杂合缺失,则仅有一个拷贝,假基因正常为2个拷贝,二者的比值为1:2=0.5,即覆盖越高比值越接近0.5。本发明人将此风险判断标准范围设定为0.43-0.63,在0.5的上下浮动并未完全按照对称设计,设有0.03偏移,主要是考虑到外显子测序的数据是基于捕获的,而捕获的探针是针对真基因设计的,因此真基因的覆盖比假基因会稍高。
对于真基因存在被假基因片段置换或者突变为假基因点突变的情况,导致能检测到真基因的拷贝只有一个,而能检测到假基因的拷贝有3个,二者的比值为1:3=0.33,即覆盖越高比值越接近0.33。本发明人将此风险判断标准范围设定为0.25-0.43,如上所述,为充分理论情况和考虑实际检测条件后得出的综合判断值,能够较好的反应突变风险。
对于真基因存在纯合缺失、拷贝被假基因片段置换或者两个拷贝均突变为假基因点突变的情况,致检测到真基因的拷贝为0,而能检测到假基因的拷贝为2或4,比值都是0。因此做上述参考范围限定。
在其中一个实施例中,所述真假基因突变分析步骤中,如所述同源真基因与假基因在参考基因组序列中的拷贝数比不确定,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
可以理解的,如同源真基因与假基因在参考基因组序列中的拷贝数比不确定,如CYP21A2/CYP21A1P基因,由于CYP21A1P假基因在正常个体中的拷贝数0-4都有可能,因此不能同上述同样的方法,根据比例判断杂合的情况,只能根据真基因在这些位点上接近0的覆盖来判断纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的情况。
在其中一个实施例中,所述NGS数据比对步骤中,将对比到真基因reads中此差异位点坐标碱基与参考基因组序列一致的reads作为真基因reads组,将对比到假基因的reads中此差异位点坐标碱基与参考基因组序列一致的reads作为假基因reads组;
当所述差异位点为非多态性位点,以上述真基因reads数和假基因reads数之间的比值作为判断指标;
当所述差异位点为多态性位点,则将对比到真基因reads中此差异位点坐标的碱基与参考基因组序列不一致的reads单独列出,再根据碱基类型,将reads分为多态性位点组或致病位点组,将所述多态性位点组并入上述真基因reads组,以合并后真基因reads数和假基因reads数之间的比值作为判断指标。
在真假基因对中,部分差异位点多态性差异位点,即正常人群中存在真假基因互相突变的情况(例如CYP21A2:308G位点,真基因中参考序列是G,对应假基因中该位点参考序列是是A,但在亚洲人群的真基因中有19%的比例突变为A,即真基因中这个位点是G或A都是正常的)。
虽然多态性的差异位点对致病性的判断并无作用,但是这些位点会干扰reads在真假基因上的比对,因此在上述分析基础上单独列出与参考序列不一致的突变类型作为参考,根据碱基类型,将reads分为多态性位点组或致病位点组,将所述多态性位点组并入所述真基因reads组,以合并后真基因reads数和假基因reads数之间的比值作为判断指标。
在其中一个实施例中,所述同源真基因和假基因包括:SMN1和SMN2、CYP21A2和CYP21A1P中的至少一对。
可以理解的,上述同源真基因和假基因是两对较常见的真假基因,本方法并不限于这两对基因,只要是因为序列高度相似而导致不能使用常规突变分析的基因,均可适用于本发明的分析方法进行分析。
本发明还公开了上述的基于高通量测序的真假基因突变分析方法在研发和制备真假基因突变分析装置中的应用。
本发明还公开了一种基于高通量测序的真假基因突变分析装置,包括:
获取差异位点模块:用于将同源真基因和假基因的参考序列进行比较,获取其中具有差异的差异位点;
NGS数据比对模块:用于获取NGS测序数据,比对至参考基因组序列,以最优比对原则,得到覆盖真基因差异位点的真基因reads组和覆盖假基因差异位点的假基因reads组,分别将真基因reads组和假基因reads组与上述差异位点进行比较,识别对应差异位点坐标的碱基,分别对真基因reads组和假基因reads组在此差异位点坐标的碱基类型进行计数,得到对应于同一差异位点的真基因reads数和假基因reads数;
真假基因突变分析模块:用于以上述同一差异位点的真基因reads数和假基因reads数之间的比值作为判断指标,按照预定策略,进行真基因的突变分析判断。
在其中一个实施例中,所述真假基因突变分析模块中,如所述同源真基因与假基因在参考基因组序列中的拷贝数比为1:1,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0.9-1.1,则判断该差异位点处真基因无突变;
当真基因reads数和假基因reads数之间的比值为0.43-0.63,则判断该差异位点处真基因存在杂合缺失风险;
当真基因reads数和假基因reads数之间的比值为0.25-0.43,则判断该差异位点处真基因存在被假基因片段置换或者突变为假基因的点突变风险;
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险;
如所述同源真基因与假基因在参考基因组序列中的拷贝数比不确定,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
在其中一个实施例中,所述NGS数据比对模块中,将对比到真基因reads中此差异位点坐标碱基与参考基因组序列一致的reads作为真基因reads组,将对比到假基因的reads中此差异位点坐标碱基与参考基因组序列一致的reads作为假基因reads组;
当所述差异位点为非多态性位点,以上述真基因reads数和假基因reads数之间的比值作为判断指标;
当所述差异位点为多态性位点,则将对比到真基因reads中此差异位点坐标的碱基与参考基因组序列不一致的reads单独列出,再根据碱基类型,将reads分为多态性位点组或致病位点组,将所述多态性位点组并入上述真基因reads组,以合并后真基因reads数和假基因reads数之间的比值作为判断指标。
在其中一个实施例中,所述同源真基因和假基因包括:SMN1和SMN2、CYP21A2和CYP21A1P中的至少一对。
与现有技术相比,本发明具有以下有益效果:
本发明的一种基于高通量测序的真假基因突变分析方法,利用高通量测序(NGS)可以一次实验检测人的全部2万多个基因的特点,采用本发明的突变分析方法,可以对有真假基因的突变进行一个初步的筛查,找出可能有问题的基因,再结合临床的实际情况去判断。避免了挨个基因去做MLPA或Sanger测序实验,极大的节约了实验成本和时间。
本发明的基于高通量测序的真假基因突变分析方法在研发和制备真假基因突变分析装置中的应用,将上述方法应用于业界难题假基因的处理,能够提供有力的辅助参考信息,便于后续分析判断。
本发明的基于高通量测序的真假基因突变分析装置,可转化为具有实体设备的一体化机,也可以计算机软件的形式使用,其利用获取差异位点模块、NGS数据比对模块、真假基因突变分析模块等核心功能模块的使用,可以对有真假基因的突变进行一个初步的筛查,找出可能有问题的基因,再结合临床的实际情况去判断。避免了挨个基因去做MLPA或sanger测序实验,极大的节约了实验成本和时间。
附图说明
图1为实施例1中真假基因突变分析方法流程示意图;
图2为实施例3中真假基因突变分析方法流程示意图;
图3为实施例2中真假基因突变分析装置模块示意图。
其中:100.获取差异位点模块;200.NGS数据比对模块;300.真假基因突变分析模块。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1
一种基于高通量测序的真假基因突变分析方法,应用于SMN1/SMN2基因的突变分析中,如图1所示,包括以下步骤:
一、获取差异位点。
将同源真基因和假基因的参考序列进行比较,获取其中具有差异的差异位点。
以SMN1:840C为例,真基因SMN1中该位点在hg19(人类基因组参考序列,UCSC)中位于chr5:70247773,对应碱基为C,而假基因SMN2中该位点位于chr5:69372353,对应碱基为T。
获取上述SMN1/SMN2基因在hg19中具有差异的所有差异位点。
二、NGS数据比对。
获取NGS测序数据,比对至参考基因组序列(hg19),以最优比对原则,得到覆盖真基因差异位点的真基因reads组和覆盖假基因差异位点的假基因reads组,分别将真基因reads组和假基因reads组与上述差异位点进行比较,识别对应差异位点坐标的碱基,分别对真基因reads组和假基因reads组在此差异位点坐标的碱基类型进行计数,得到对应于同一差异位点的真基因reads数和假基因reads数。
以SMN1:840C为例,chr5:70247773(对应于真基因SMN1)和chr5:69372353(对应于假基因SMN2)上覆盖的reads中,提取出对应坐标上的碱基,比如某样本中chr5:70247773上覆盖了172个reads,这些reads在chr5:70247773坐标处的碱基都是C,而chr5:69372353上覆盖了365个reads,这些reads在chr5:69372353坐标处的碱基都是T。
即该样本两个坐标处的碱基都是各自参考序列中的碱基,无与参考序列不一致的突变类型,两个相对应的差异位点位置处的真基因reads数为172,而假基因reads数为365。
三、真假基因突变分析。
1、分析策略
以上述同一差异位点的真基因reads数和假基因reads数之间的比值作为判断指标,按照预定策略,进行真基因的突变分析判断。
如上述差异位点SMN1:840C,其中真基因reads数和假基因reads数之间的比值是C:T=172/365=0.47,即该比值为0.47。
本实施例中,真基因SMN1和假基因SMN2基因在参考基因组hg19中的拷贝数比为1:1,按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0.9-1.1,则判断该差异位点处真基因无突变;
当真基因reads数和假基因reads数之间的比值为0.43-0.63,则判断该差异位点处真基因存在杂合缺失风险;
当真基因reads数和假基因reads数之间的比值为0.25-0.43,则判断该差异位点处真基因存在被假基因片段置换或者突变为假基因的点突变风险;
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
根据上述判断策略,推测可能发生的突变,提示可能存在的突变风险。
2、分析结果。
按照上述方法,分别分析已知样本中SMN1/SMN2基因的4个差异位点。
1)样本一。
此样本为正常样本,来源于非肌肉疾病患者,分析结果如下表所示。
表1.样本一分析结果
Figure BDA0002692727050000061
Figure BDA0002692727050000071
注:ID项下,I指内含子intron,E指外显子exon,如I6是指SMN1基因的第6个内含子;E是exon(外显子)的意思,E7是指SMN1基因的第7个外显子。
位点命名项下按照HGVS命名(http://varnomen.hgvs.org/bg-material/numbering/),>前为真基因中参考序列碱基类型,>后为假基因中参考序列碱基类型。
该样本中SMN1/SMN2基因的4个差异位点的比值关系接近1:1,判断该样本在此差异位点处真基因无突变,与临床结论一致,即真假基因拷贝数一致且无突变。
2)样本二。
此样本可能存在杂合缺失,来源于某SMA(脊髓性肌萎缩症)患者的父母之一,分析结果如下表所示。
表2.样本二分析结果
ID 位点命名 比值 比值细节
I6 c.835-44G>A 0.61 G:A=25/41=0.61
E7 c.840C>T 0.51 C:T=49/97=0.51
I7-1 c.885+103A>G 0.95 A:G=114/120=0.95
I7-2 c.885+218A>G 1.02 A:G=135/133=1.02
该样本中SMN1/SMN2基因的4个差异位点中,c.885+103A>G和c.885+218A>G位点的比值关系接近1:1,判断该样本在此差异位点处真基因无突变。
而c.835-44G>A和c.840C>T位点处的比值关系接近0.5,表示真基因中可能存在杂合缺失,反之如果出现2左右的比值则表示假基因中可能存在杂合缺失。
该样本中因I7并没有缺失,暂无法确定exon7是否完整缺失,但不论是否完整缺失都是致病的突变,其患SMA的子女中的一个致病的突变即遗传自该样本,上述判断支持临床结论
3)样本三。
此样本真基因中有一个拷贝可能被假基因片段置换或者发生了突变为假基因的点突变,来源于某SMA(脊髓性肌萎缩症)患者的父母之一,分析结果如下表所示。
表3.样本三分析结果
ID 位点命名 比值 比值细节
I6 c.835-44G>A 0.36 G:A=39/107=0.36
E7 c.840C>T 0.34 C:T=79/229=0.34
I7-1 c.885+103A>G 0.34 A:G=116/344=0.34
I7-2 c.885+218A>G 0.34 A:G=104/308=0.34
该样本中SMN1/SMN2基因的4个差异位点的比值关系均接近0.33,判断该样本在此差异位点处真基因存在被假基因片段置换或者突变为假基因的点突变风险,反之如果出现3左右的比值则表示假基因中有一个拷贝可能被真基因片段置换或者发生了突变为真基因的点突变。
该样本为SMN1基因exon7及侧翼内含子被假基因置换了一个拷贝(也可能是发生了4个突变为假基因的点突变,但同时发生4个点突变的概率很低),其患SMA的子女中的一个致病的突变即遗传自该样本。上述判断支持临床结论。
4)样本四。
此样本真基因中真基因中可能存在纯合缺失,或者真基因中两个拷贝被假基因片段置换或者发生了突变为假基因的点突变,来源于某SMA(脊髓性肌萎缩症)患者,分析结果如下表所示。
表4.样本四分析结果
ID 位点命名 比值 比值细节
I6 c.835-44G>A 0 G:A=0/142=0.0
E7 c.840C>T 0 C:T=1/317=0.0
I7-1 c.885+103A>G 0 A:G=1/359=0.0
I7-2 c.885+218A>G 0 A:G=2/427=0.0
该样本中SMN1/SMN2基因的4个差异位点的比值关系均为0,真基因中可能存在纯合缺失,或者真基因中两个拷贝被假基因片段置换或者发生了突变为假基因的点突变,反之如果出现inf,即无穷大的比值则表示假基因中可能存在纯合缺失,或者假基因中两个拷贝被真基因片段置换或者发生了突变为真基因的点突变。
该样本为SMN1基因exon7纯合缺失,其临床症状为脊肌萎缩,与SMA完全匹配。上述判断与临床结论一致。
四、根据具体基因判断可能的临床影响
上述以SMN1/SMN2同源真假基因为例进行说明,该基因为隐性遗传,上述四种样本情况中样本一为正常,样本二和样本三为杂合携带者(有小概率可能为复合杂合型患者,需分析父母样本才能确认),样本四为纯合型患者。
通过本发明的真假基因突变分析方法,可以对有真假基因的突变进行一个初步的筛查,找出可能有问题的基因,再结合临床的实际情况去判断。避免了挨个基因去做MLPA或Sanger测序实验,极大的节约了实验成本和时间。
实施例2
将实施例1所述的基于高通量测序的真假基因突变分析方法,用于回顾分析本实验室32853例全外显子测序样本,测试结果发现125例纯合型患者(其中96个为神经肌肉病项目,与SMN1基因高度相关),1129例杂合携带者。
上述结果说明,实施例1的真假基因突变分析方法,能够为突变分析中对假基因的处理,能够提供有力的辅助参考信息,便于后续分析判断。
实施例3
一种基于高通量测序的真假基因突变分析方法,应用于CYP21A2/CYP21A1P基因的突变分析中,如图2所示,包括以下步骤:
一、获取差异位点。
将同源真基因和假基因的参考序列进行比较,获取其在hg19中具有差异的差异位点。
此对真假基因间的差异位点较多,本实施例中,后续以10个已经明确的致病性差异位点进行分析。
二、NGS数据比对。
获取NGS测序数据,比对至参考基因组序列(hg19),以最优比对原则,得到覆盖真基因差异位点的真基因reads组和覆盖假基因差异位点的假基因reads组,分别将真基因reads组和假基因reads组与上述差异位点进行比较,识别对应差异位点坐标的碱基,分别对真基因reads组和假基因reads组在此差异位点坐标的碱基类型进行计数,得到对应于同一差异位点的真基因reads数和假基因reads数。
同时,由于此对真假基因的差异位点中大部分是多态性差异位点,即正常人群中存在真假基因互相突变的情况(例如CYP21A2:308G位点,真基因中参考序列是G,对应假基因中该位点参考序列是是A,但在亚洲人群的真基因中有19%的比例突变为A,即真基因中这个位点是G或A都是正常的)。
虽然多态性的差异位点对致病性的判断并无作用,但是这些位点会干扰reads在真假基因上的比对,因此在上述分析基础上单独列出与参考序列不一致的突变类型作为参考。
具体的,当所述差异位点为多态性位点,则将此差异位点坐标的碱基与参考基因组序列不一致的reads单独列出,再根据碱基类型,将reads分为多态性位点组或致病位点组,将所述多态性位点组并入所述真基因reads组,以合并后真基因reads数和假基因reads数之间的比值作为判断指标。
三、真假基因突变分析。
1、分析策略
以上述同一差异位点的真基因reads数和假基因reads数之间的比值作为判断指标,按照预定策略,进行真基因的突变分析判断。
本实施例中,CYP21A1P假基因在正常个体中的拷贝数0-4都有可能,因此不能同上述实施例1中的方法根据比例判断杂合的情况,只能根据真基因在这些位点上接近0的覆盖来判断纯合的情况,即:
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
根据上述判断策略,推测可能发生的突变,提示可能存在的突变风险。
2、分析结果。
按照上述方法,分别分析已知两阳性样本中CYP21A2/CYP21A1P基因的10个差异位点。
1)样本五。
此样本来源于某CAH(先天性肾上腺皮质增生症)患者,分析结果如下表所示。
表5.样本五分析结果
ID 位点命名 比值 比值细节 其他碱基1 其他碱基2
U5 c.1-113G>A 1.11 G:A=31/28=1.11
E1 c.92C>T 1.13 C:T=51/45=1.13 C:6
I2 c.293-13C>G 0 C/A:G=0+0/18=0.0 G:29
E4 c.518T>A 1.02 T:A=41/40=1.02
E6-1 c.710T>A 1.04 T:A=27/26=1.04
E6-2 c.713T>A 1.08 T:A=28/26=1.08
E6-3 c.719T>A 1.16 T:A=29/25=1.16
E7-1 c.844G>T 1.03 G:T=35/34=1.03
E8-1 c.955C>T 1.46 C:T=35/24=1.46
E8-2 c.1069C>T 1.7 C:T=46/27=1.7
注:“其他碱基1”为比对到真基因上、且与真基因参考序列不一致的碱基的覆盖;“其他碱基2”为比对到假基因上、与假基因参考序列不一致的碱基的覆盖。
此样本中,c.293-13C位点有一个多态位点A,假基因对应位点为G,真基因上该位点突变为G致病,但突变为A不致病,所以C/A都作为正常位点统计覆盖深度。
本实施例中,由于真假基因间还有多态性的差异位点,这使得真基因上的碱基突变为假基因上的碱基后,reads比对到真假基因都有可能,通过“其他碱基1”和“其他碱基2”可以更直观的了解是否有这种情况发生。
通过上述分析结果,我们可以看出,真基因中位点突变为G,但reads并没有比到假基因上,从此我们得知该位置处真基因有29个覆盖都是G,假基因有18个覆盖也都是G。可以推测,该样本发生了c.293-13C>G的纯合点突变。
该样本中c.293-13C>G为CAH的一个热点致病突变,且患者症状与CAH完全一致。上述判断与临床结论一致。
1)样本六。
此样本来源于某CAH(先天性肾上腺皮质增生症)患者,分析结果如下表所示。
表6.样本六分析结果
ID 位点命名 比值 比值细节 其他碱基1 其他碱基2
U5 c.1-113G>A 0 G:A=0/51=0.0
E1 c.92C>T 0 C:T=0/87=0.0
I2 c.293-13C>G 0 C/A:G=0/32=0.0
E4 c.518T>A 0.38 T:A=15/40=0.38 T:2
E6-1 c.710T>A 0.43 T:A=15/35=0.43
E6-2 c.713T>A 0.34 T:A=12/35=0.34
E6-3 c.719T>A 0.38 T:A=12/32=0.38
E7-1 c.844G>T 0.84 G:T=32/38=0.84
E8-1 c.955C>T 0.62 C:T=18/29=0.62 T:9
E8-2 c.1069C>T inf C:T=61/0=inf C:11
注:“其他碱基1”为比对到真基因上、且与真基因参考序列不一致的碱基的覆盖;“其他碱基2”为比对到假基因上、与假基因参考序列不一致的碱基的覆盖。
此样本中,c.1-113G>A、c.92C>T、c.293-13C>G位点,比值为0,真基因中可能存在纯合缺失,或者真基因中两个拷贝被假基因片段置换或者发生了突变为假基因的点突变。
该样本临床症状与CAH完全一致,且exon1纯合缺失是必然致病的,即上述判断与临床结论一致。
实施例4
将实施例2所述的基于高通量测序的真假基因突变分析方法,用于回顾分析本实验室32853例全外显子测序样本,测试结果发现65例纯合型患者(其中59例为先天性肾上腺皮质增生症和性别发育异常等项目,与CYP21A2基因高度相关)。
上述结果说明,实施例2的真假基因突变分析方法,能够为突变分析中对假基因的处理,能够提供有力的辅助参考信息,便于后续分析判断。
实施例5
一种基于高通量测序的真假基因突变分析装置,如图3所示,包括:获取差异位点模块100、NGS数据比对模块200、真假基因突变分析模块300,其中获取差异位点模块按照实施例1或3中获取差异位点步骤方法,对基因序列数据进行处理;NGS数据比对模块按照实施例1或3中NGS数据比对步骤方法处理数据;真假基因突变分析模块按照实施例1或3中真假基因突变分析步骤方法处理数据。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于高通量测序的真假基因突变分析方法,其特征在于,包括以下步骤:
获取差异位点:将同源真基因和假基因的参考序列进行比较,获取其中具有差异的差异位点;
NGS数据比对:获取NGS测序数据,比对至参考基因组序列,以最优比对原则,得到覆盖真基因差异位点的真基因reads和覆盖假基因差异位点的假基因reads,分别将真基因reads和假基因reads与上述差异位点进行比较,识别对应差异位点坐标的碱基,得到真基因reads组和假基因reads组,分别对真基因reads组和假基因reads组在此差异位点坐标的碱基类型进行计数,得到对应于同一差异位点的真基因reads数和假基因reads数;
真假基因突变分析:以上述同一差异位点的真基因reads数和假基因reads数之间的比值作为判断指标,按照预定策略,进行真基因的突变分析判断。
2.根据权利要求1所述的基于高通量测序的真假基因突变分析方法,其特征在于,所述真假基因突变分析步骤中,如所述同源真基因与假基因在参考基因组序列中的拷贝数比为1:1,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0.9-1.1,则判断该差异位点处真基因无突变;
当真基因reads数和假基因reads数之间的比值为0.43-0.63,则判断该差异位点处真基因存在杂合缺失风险;
当真基因reads数和假基因reads数之间的比值为0.25-0.43,则判断该差异位点处真基因存在被假基因片段置换或者突变为假基因的点突变风险;
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
3.根据权利要求1所述的基于高通量测序的真假基因突变分析方法,其特征在于,所述真假基因突变分析步骤中,如所述同源真基因与假基因在参考基因组序列中的拷贝数比不确定,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
4.根据权利要求1-3任一项所述的基于高通量测序的真假基因突变分析方法,其特征在于,所述NGS数据比对步骤中,将对比到真基因reads中此差异位点坐标碱基与参考基因组序列一致的reads作为真基因reads组,将对比到假基因的reads中此差异位点坐标碱基与参考基因组序列一致的reads作为假基因reads组;
当所述差异位点为非多态性位点,以上述真基因reads数和假基因reads数之间的比值作为判断指标;
当所述差异位点为多态性位点,则将对比到真基因reads中此差异位点坐标的碱基与参考基因组序列不一致的reads单独列出,再根据碱基类型,将reads分为多态性位点组或致病位点组,将所述多态性位点组并入上述真基因reads组,以合并后真基因reads数和假基因reads数之间的比值作为判断指标。
5.根据权利要求1所述的基于高通量测序的真假基因突变分析方法,其特征在于,所述同源真基因和假基因包括:SMN1和SMN2、CYP21A2和CYP21A1P中的至少一对。
6.权利要求1-5任一项所述的基于高通量测序的真假基因突变分析方法在研发和制备真假基因突变分析装置中的应用。
7.一种基于高通量测序的真假基因突变分析装置,其特征在于,包括:
获取差异位点模块:用于将同源真基因和假基因的参考序列进行比较,获取其中具有差异的差异位点;
NGS数据比对模块:用于获取NGS测序数据,比对至参考基因组序列,以最优比对原则,得到覆盖真基因差异位点的真基因reads组和覆盖假基因差异位点的假基因reads组,分别将真基因reads组和假基因reads组与上述差异位点进行比较,识别对应差异位点坐标的碱基,分别对真基因reads组和假基因reads组在此差异位点坐标的碱基类型进行计数,得到对应于同一差异位点的真基因reads数和假基因reads数;
真假基因突变分析模块:用于以上述同一差异位点的真基因reads数和假基因reads数之间的比值作为判断指标,按照预定策略,进行真基因的突变分析判断。
8.根据权利要求7所述的基于高通量测序的真假基因突变分析装置,其特征在于,所述真假基因突变分析模块中,如所述同源真基因与假基因在参考基因组序列中的拷贝数比为1:1,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0.9-1.1,则判断该差异位点处真基因无突变;
当真基因reads数和假基因reads数之间的比值为0.43-0.63,则判断该差异位点处真基因存在杂合缺失风险;
当真基因reads数和假基因reads数之间的比值为0.25-0.43,则判断该差异位点处真基因存在被假基因片段置换或者突变为假基因的点突变风险;
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险;
如所述同源真基因与假基因在参考基因组序列中的拷贝数比不确定,则按照如下策略进行判断:
当真基因reads数和假基因reads数之间的比值为0-0.1,则判断该差异位点处真基因存在纯合缺失、两个拷贝均被假基因片段置换或者突变为假基因的点突变风险。
9.根据权利要求7所述的基于高通量测序的真假基因突变分析装置,其特征在于,所述NGS数据比对模块中,将对比到真基因reads中此差异位点坐标碱基与参考基因组序列一致的reads作为真基因reads组,将对比到假基因的reads中此差异位点坐标碱基与参考基因组序列一致的reads作为假基因reads组;
当所述差异位点为非多态性位点,以上述真基因reads数和假基因reads数之间的比值作为判断指标;
当所述差异位点为多态性位点,则将对比到真基因reads中此差异位点坐标的碱基与参考基因组序列不一致的reads单独列出,再根据碱基类型,将reads分为多态性位点组或致病位点组,将所述多态性位点组并入上述真基因reads组,以合并后真基因reads数和假基因reads数之间的比值作为判断指标。
10.根据权利要求7所述的基于高通量测序的真假基因突变分析装置,其特征在于,所述同源真基因和假基因包括:SMN1和SMN2、CYP21A2和CYP21A1P中的至少一对。
CN202010996594.1A 2020-09-21 2020-09-21 基于高通量测序的真假基因突变分析方法及应用 Active CN112201306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010996594.1A CN112201306B (zh) 2020-09-21 2020-09-21 基于高通量测序的真假基因突变分析方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010996594.1A CN112201306B (zh) 2020-09-21 2020-09-21 基于高通量测序的真假基因突变分析方法及应用

Publications (2)

Publication Number Publication Date
CN112201306A true CN112201306A (zh) 2021-01-08
CN112201306B CN112201306B (zh) 2024-06-04

Family

ID=74016294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010996594.1A Active CN112201306B (zh) 2020-09-21 2020-09-21 基于高通量测序的真假基因突变分析方法及应用

Country Status (1)

Country Link
CN (1) CN112201306B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863125A (zh) * 2020-08-04 2020-10-30 广州金域医学检验中心有限公司 基于NGS-trio的单亲二倍体检测方法及应用
CN113724791A (zh) * 2021-09-09 2021-11-30 天津华大医学检验所有限公司 Cyp21a2基因ngs数据分析的方法、装置及应用
CN117497049A (zh) * 2024-01-03 2024-02-02 广州迈景基因医学科技有限公司 一种snp突变来源的区分方法、系统及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107267613A (zh) * 2017-06-28 2017-10-20 安吉康尔(深圳)科技有限公司 测序数据处理系统和smn基因检测系统
WO2019118622A1 (en) * 2017-12-14 2019-06-20 Ancestry.Com Dna, Llc Detection of deletions and copy number variations in dna sequences
CN111292803A (zh) * 2020-02-10 2020-06-16 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN111292804A (zh) * 2020-04-08 2020-06-16 北京智因东方转化医学研究中心有限公司 一种借助高通量测序检测smn1基因突变的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107267613A (zh) * 2017-06-28 2017-10-20 安吉康尔(深圳)科技有限公司 测序数据处理系统和smn基因检测系统
WO2019118622A1 (en) * 2017-12-14 2019-06-20 Ancestry.Com Dna, Llc Detection of deletions and copy number variations in dna sequences
CN111292803A (zh) * 2020-02-10 2020-06-16 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN111292804A (zh) * 2020-04-08 2020-06-16 北京智因东方转化医学研究中心有限公司 一种借助高通量测序检测smn1基因突变的方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111863125A (zh) * 2020-08-04 2020-10-30 广州金域医学检验中心有限公司 基于NGS-trio的单亲二倍体检测方法及应用
CN111863125B (zh) * 2020-08-04 2024-04-12 广州金域医学检验中心有限公司 基于NGS-trio的单亲二倍体检测方法及应用
CN113724791A (zh) * 2021-09-09 2021-11-30 天津华大医学检验所有限公司 Cyp21a2基因ngs数据分析的方法、装置及应用
CN113724791B (zh) * 2021-09-09 2024-03-12 天津华大医学检验所有限公司 Cyp21a2基因ngs数据分析的方法、装置及应用
CN117497049A (zh) * 2024-01-03 2024-02-02 广州迈景基因医学科技有限公司 一种snp突变来源的区分方法、系统及装置
CN117497049B (zh) * 2024-01-03 2024-04-19 广州迈景基因医学科技有限公司 一种snp突变来源的区分方法、系统及装置

Also Published As

Publication number Publication date
CN112201306B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN112201306B (zh) 基于高通量测序的真假基因突变分析方法及应用
CN108642160B (zh) 检测胎儿地中海贫血致病基因的方法和试剂盒
CN105441432B (zh) 组合物及其在序列测定和变异检测中的用途
EP2926288B1 (en) Accurate and fast mapping of targeted sequencing reads
CN107368708B (zh) 一种精准分析dmd基因结构变异断点的方法及系统
CN104462869A (zh) 检测体细胞单核苷酸突变的方法和装置
CN103667438B (zh) 一种筛查HRDs致病突变的方法及涉及的基因芯片杂交探针设计方法
CN105177160B (zh) 检测多种新生儿遗传代谢病致病基因的引物及试剂盒
CN110211633B (zh) Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置
CN107992719B (zh) 一种基于高通量测序的膀胱癌检测试剂盒
CN108920899A (zh) 一种基于目标区域测序的单个外显子拷贝数变异预测方法
CN111091868B (zh) 一种染色体非整倍体的分析方法及系统
CN113450871B (zh) 基于低深度测序的鉴定样本同一性的方法
CN107949845A (zh) 能够在多个平台上区分胎儿性别和胎儿性染色体异常的新方法
CN106011302A (zh) Atp7b基因突变检测引物组和试剂盒、其检测方法及应用
CN111863125A (zh) 基于NGS-trio的单亲二倍体检测方法及应用
CN106367481A (zh) 一种扩增brca1/2基因的多重pcr引物及一种多重pcr引物的设计方法
CN113564266B (zh) Snp分型遗传标记组合、检测试剂盒及用途
CN117253539B (zh) 基于胚系突变检测高通量测序中样本污染的方法和系统
CN106906220A (zh) 一种突变的col4a5基因及其应用
WO2020124625A1 (zh) 基于ctDNA的基因检测方法、装置、存储介质及计算机系统
Kubiritova et al. On the critical evaluation and confirmation of germline sequence variants identified using massively parallel sequencing
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
CN111798926B (zh) 致病基因位点数据库及其建立方法
US20230282307A1 (en) Method for detecting uniparental disomy based upon ngs-trio, and use thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant