CN107368708A - 一种精准分析dmd基因结构变异断点的方法及系统 - Google Patents

一种精准分析dmd基因结构变异断点的方法及系统 Download PDF

Info

Publication number
CN107368708A
CN107368708A CN201710693688.XA CN201710693688A CN107368708A CN 107368708 A CN107368708 A CN 107368708A CN 201710693688 A CN201710693688 A CN 201710693688A CN 107368708 A CN107368708 A CN 107368708A
Authority
CN
China
Prior art keywords
variation
soft
sequence
clipping
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710693688.XA
Other languages
English (en)
Other versions
CN107368708B (zh
Inventor
糜庆丰
章凌杰
黄铨飞
朱鹏远
吴春求
周幸芝
王杨
林浩纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CapitalBio Genomics Co Ltd
Original Assignee
CapitalBio Genomics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CapitalBio Genomics Co Ltd filed Critical CapitalBio Genomics Co Ltd
Priority to CN201710693688.XA priority Critical patent/CN107368708B/zh
Publication of CN107368708A publication Critical patent/CN107368708A/zh
Application granted granted Critical
Publication of CN107368708B publication Critical patent/CN107368708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种精准分析DMD基因拷贝数变异断点的方法和系统,包括接收片段序列、初次比对、重比对、位置分析、疑似断点分析、深度校正这些流程,能够精准分析出DMD基因拷贝数变异的类型和断点位置,平均检测误差率小于4bp,精准度高,稳定性好;此外,本发明可同时涵盖外显子和内含子的变异检测,解决了现有技术无法精准分析基因拷贝数变异断点的弊端,为实现快速并行的DMD断点检测服务和DMD结构变异分子机制研究提供的技术支持。

Description

一种精准分析DMD基因结构变异断点的方法及系统
技术领域
本发明属于生物信息学领域,更具体地涉及一种精准分析DMD基因结构变异断点的方法及系统。
背景技术
假肥大型肌营养不良症(Duchenne muscular dystrophy,DMD)是一种以进行性四肢近端骨骼肌萎缩无力、小腿腓肠肌假性肥大为特征,同时累及心肌和呼吸肌,部分患者伴有智力障碍的致死性X连锁隐性遗传病,其发病率为活产男婴的1/3500。患者从3~5岁起病,12岁左右失去行走能力,20多岁死亡。Becker肌营养不良症(Becker musculardystrophy,BMD)与DMD互为等位基因异质性疾病,其发病率为1/30000,发病年龄比DMD晚,进展速度慢。目前国内外尚缺乏对本病特效的治疗方法,故通过对先证者的确诊、携带者的产前诊断和提供正确的遗传咨询以杜绝假肥大型肌营养不良症患儿的出生是降低本病发病率的关键措施。
DMD/BMD是由定位于Xp21.2-21.3的编码抗肌萎缩蛋白(dystrophin)的DMD基因突变所致,大约有60~65%的DMD患儿是由于DMD基因外显子缺失所致,5~10%是由于DMD基因外显子重复所致,其余约30%是由于DMD基因微小突变导致。DMD基因外显子拷贝数变异发生呈现出显著的热点效应,44~55号,及3~22号外显子为最常发生缺失区域,3~11号,21~37号为最常发生重复区段。因此,探究DMD基因发生拷贝数变异的分子基础,我们需要对基因拷贝数变异(Copy number variations,CNV)断点进行精确检测。
目前,现有技术对基因拷贝数变异的检测方法有:
1、细胞遗传学方法:如荧光原位杂交技术(FISH)及DNA纤维荧光原位杂交技术(stretched-fiber FISH),该方法分辨率较低、且费时费力;
2、基于PCR技术的靶向分析方法:如多重扩增探针杂交技术(MAPH)、依赖于连接的多重探针扩增技术(MLPA)等,该方法分辨率较高、成本低廉,但普遍通量低;
3、基于芯片和测序的高通量分析方法:如基于芯片的比较基因组杂交技术(array-CGH)、基于芯片的探针技术等,可实现基因拷贝数差异检测,该方法通量大、分辨率高,但难以精准分析基因拷贝数变异的断点位置;
为解决现有技术的不足,开发一种精准分析DMD基因拷贝数变异断点的方法及系统,为探索疾病发生的DNA遗传分子机制提供了有力的技术支持,是本领域急需解决的问题。
发明内容
本发明的目的在于提供一种精准分析DMD基因拷贝数变异断点的方法及系统。
本发明所采取的技术方案是:
一种精准分析DMD基因拷贝数变异断点的方法,包括如下步骤:
接收片段序列:接收样本在高通量测序平台下测得的片段序列;
初次比对:将片段序列与人类基因组参考序列进行比对,获得soft-clipping序列;
重比对:将soft-clipping序列与DMD基因参考序列进行比对;
位置分析:根据初次比对和重比对的soft-clipping序列的位置信息,判断soft-clipping序列支持的变异类型;
疑似断点分析:将soft-clipping序列两端位点按基因组坐标分类,根据类别内各位点的支持变异的序列数目,确定疑似变异断点;
深度校正:根据两端疑似变异断点划分变异区段,根据变异区段的平均深度水平及支持变异的序列数目,确定样本的DMD基因拷贝数变异类型和断点位置。
进一步的,所述方法还包括步骤:
样本质控:根据初次比对的结果,设定样本质控信息的阈值,筛选质控合格的样本。
进一步的,所述方法还包括步骤:
序列质控:重比对前,去除soft-clipping序列长度小于20bp的junction reads。
进一步的,高通量测序平台为半导体测序平台。
进一步的,步骤”位置分析”中,判断soft-clipping序列支持的变异类型的方法具体如下:
对于3’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段重复;
对于5’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段重复。
进一步的,步骤”疑似断点分析”具体包括:
将soft-clipping序列两端位点的基因组坐标进行取模、排序和聚类;
在类别内统计各位点的junction reads数目作为支持变异的序列数目;
支持变异的序列数目最多的位点为疑似变异断点。
进一步的,步骤”深度校正”具体包括:
根据两端疑似变异断点划分疑似变异区段;
统计疑似变异区段的平均深度水平及支持变异的序列数目,所述平均深度水平为疑似变异区段与疑似变异区段外的平均深度的比值;所述支持变异的序列数目为疑似变异区段的juntion reads数目;
确定样本的DMD基因拷贝数变异类型和断点位置,方法具体如下:
疑似变异区段的平均深度水平≤5%,判定为基因拷贝数纯合缺失;
疑似变异区段的平均深度水平>5%且≤50%,判定为基因拷贝数杂合缺失;
疑似变异区段的平均深度水平≥140%,判定为基因拷贝数重复;
上述判定的疑似变异区段存在交集情况下,纯合缺失的优先级高于杂合缺失;
确定变异类型后,支持变异的序列数目最多的疑似变异区段两端的位点则判定为样本的DMD基因拷贝数变异断点。
一种精准分析DMD基因拷贝数变异断点的系统,包括:
接收片段序列模块:用于接收样本在高通量测序平台下测得的片段序列;
初次比对模块:用于将片段序列与人类基因组参考序列进行比对,获得soft-clipping序列;
重比对模块:用于将soft-clipping序列与DMD基因参考序列进行比对;
位置分析模块:用于根据初次比对和重比对的soft-clipping序列的位置信息,判断soft-clipping序列支持的变异类型;
疑似断点分析模块:用于将soft-clipping序列两端位点按基因组坐标分类,根据类别内各位点的支持变异的序列数目,确定疑似变异断点;
深度校正模块:用于根据两端疑似变异断点划分变异区段,根据变异区段的平均深度水平及支持变异的序列数目,确定样本的DMD基因拷贝数变异类型和断点位置。
进一步的,所述系统还包括:
样本质控模块:用于根据初次比对的结果,设定样本质控信息的阈值,筛选质控合格的样本。
进一步的,所述系统还包括:
序列质控模块:用于重比对前,去除soft-clipping序列长度小于20bp的junctionreads。
本发明的有益效果是:
本发明开发了一种精准分析DMD基因拷贝数变异断点的方法和系统,包括接收片段序列、初次比对、重比对、位置分析、疑似断点分析、深度校正这些流程,能够精准分析出DMD基因拷贝数变异的类型和断点位置,检测误差率平均小于4bp,精准度高,稳定性好;此外,本发明可同时涵盖外显子和内含子的变异检测,解决了现有技术无法精准分析基因拷贝数变异断点的弊端,为实现快速并行的DMD断点检测服务和DMD结构变异分子机制研究提供的技术支持。
附图说明
图1:基因发生结构缺失、重复时出现junction reads的情况示意图;
图2:本发明的精准分析DMD基因拷贝数变异断点的方法的流程图;
图3:本发明采用位置分析基因缺失变异的判定原理,图中,蓝色粗实心箭头为初次比对序列匹配部分;倾斜的灰色细实心箭头表示初次比对未匹配的soft-clipping序列,水平的灰色细实心箭头表示重比对的位置;
图4:本发明采用位置分析基因重复变异的判定原理;图中,蓝色粗实心箭头为初次比对序列匹配部分;倾斜的灰色细实心箭头表示初次比对未匹配的soft-clipping序列,水平的灰色细实心箭头表示重比对的位置;
图5:本发明的精准分析DMD基因拷贝数变异断点的系统的流程图;
图6:本发明实施例1的步骤流程图。
具体实施方式
本发明涉及较多的生物信息学领域术语,未进一步解释的术语以本领域的常规解释为准,不作赘述。
本发明术语“soft-clipping序列”是生物信息学领域的常规术语,是指片段序列与参考序列在比对过程中出现终止,未比对上目标区域而被剪切掉的片段,称为soft-clipping序列。
本发明术语“junction reads”是生物信息学领域的常规术语,是指在比对时横跨两个区段的一段测序序列;对于基因组发生片段缺失或重复的情况下,junction reads覆盖了缺失或重复变异断点,其示意图如图1所示。
参照图2,一种精准分析DMD基因拷贝数变异断点的方法,包括如下步骤:
接收片段序列:接收样本在高通量测序平台下测得的片段序列;
初次比对:将片段序列与人类基因组参考序列进行比对,获得soft-clipping序列;
重比对:将soft-clipping序列与DMD基因参考序列进行比对;
位置分析:根据初次比对和重比对的soft-clipping序列的位置信息,判断soft-clipping序列支持的变异类型;
疑似断点分析:将soft-clipping序列两端位点按基因组坐标分类,根据类别内各位点的支持变异的序列数目,确定疑似变异断点;
深度校正:根据两端疑似变异断点划分变异区段,根据变异区段的平均深度水平及支持变异的序列数目,确定样本的DMD基因拷贝数变异类型和断点位置。
其中,DMD基因参考序列优选为DMD基因上下游3~10kb参考基因组序列,进一步优选为DMD基因上下游5kb参考基因组序列。
进一步作为优选的实施方式,所述方法还包括步骤:
样本质控:根据初次比对的结果,设定样本质控信息的阈值,筛选质控合格的样本。
其中,质控合格的样本优选为满足以下条件:Q20碱基比例≥75%,比对到目标区域的reads比例≥80%,50X覆盖的目标区域比例≥90%,目标区域的平均深度≥300X。
进一步作为优选的实施方式,所述方法还包括步骤:
序列质控:重比对前,去除soft-clipping序列长度小于20bp的junction reads。
作为优选的实施方式,高通量测序平台为半导体测序平台。
作为优选的实施方式,步骤”位置分析”中,判断soft-clipping序列支持的变异类型的方法具体如下:
对于3’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段重复;
对于5’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段重复。
其中,以上判断方法原理示意图如图3和图4所示。
作为优选的实施方式,步骤”疑似断点分析”具体包括:
将soft-clipping序列两端位点的基因组坐标进行取模、排序和聚类;
在类别内统计各位点的junction reads数目作为支持变异的序列数目;
支持变异的序列数目最多的位点为疑似变异断点。
其中,支持变异的序列数目也可以是soft-clipping序列数目,因为soft-clipping序列来自于junction reads,此外,类别内支持变异的序列数目越多的位点,表示测序数据对该位点的可信度越高。
作为优选的实施方式,步骤”深度校正”具体包括:
根据两端疑似变异断点划分疑似变异区段;
统计疑似变异区段的平均深度水平及支持变异的序列数目,所述平均深度水平为疑似变异区段与疑似变异区段外的平均深度的比值;所述支持变异的序列数目为疑似变异区段的juntion reads数目;
确定样本的DMD基因拷贝数变异类型和断点位置,方法具体如下:
疑似变异区段的平均深度水平≤5%,判定为基因拷贝数纯合缺失;
疑似变异区段的平均深度水平>5%且≤50%,判定为基因拷贝数杂合缺失;
疑似变异区段的平均深度水平≥140%,判定为基因拷贝数重复;
上述判定的疑似变异区段存在交集情况下,纯合缺失的优先级高于杂合缺失;
确定变异类型后,支持变异的序列数目最多的疑似变异区段两端的位点则判定为样本的DMD基因拷贝数变异断点。
参照图5,一种精准分析DMD基因拷贝数变异断点的系统,包括:
接收片段序列模块:用于接收样本在高通量测序平台下测得的片段序列;
初次比对模块:用于将片段序列与人类基因组参考序列进行比对,获得soft-clipping序列;
重比对模块:用于将soft-clipping序列与DMD基因参考序列进行比对;
位置分析模块:用于根据初次比对和重比对的soft-clipping序列的位置信息,判断soft-clipping序列支持的变异类型;
疑似断点分析模块:用于将soft-clipping序列两端位点按基因组坐标分类,根据类别内各位点的支持变异的序列数目,确定疑似变异断点;
深度校正模块:用于根据两端疑似变异断点划分变异区段,根据变异区段的平均深度水平及支持变异的序列数目,确定样本的DMD基因拷贝数变异类型和断点位置。
作为优选的实施方式,所述系统还包括:
样本质控模块:用于根据初次比对的结果,设定样本质控信息的阈值,筛选质控合格的样本。
作为优选的实施方式,所述系统还包括:
序列质控模块:用于重比对前,去除soft-clipping序列长度小于20bp的junctionreads。
以下结合附图和具体实施例对本发明方案作进一步详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明实施例涉及的样本均取自中山大学附属第一医院神经科实验室,DMD患者/携带者样本已通过常规分子诊断确诊。
实施例1
图6为本发明的一个具体实施方式流程图,更具体地,包括如下步骤:
(1)接收片段序列
接收样本在半导体测序平台下测得的片段序列。
(2)初次比对
采用Life Technologies公司提供的tmap套件,将片段序列与人类基因组参考序列NCBI build 37/hg19(获自http://www.ncbi.nlm.nih.gov/)进行比对,获得soft-clipping序列。
(3)样本质控
利用samtools工具(http://www.htslib.org/),将初次比对结果进行排序和索引建立,提取质控信息,根据每个样本的质控信息文件进行筛选,筛选质控合格的样本,其中,质控合格的样本满足以下条件:Q20碱基比例≥75%,比对到目标区域的reads比例≥80%,50X覆盖的目标区域比例≥90%,目标区域的平均深度≥300X。
(4)序列质控
重比对前,去除soft-clipping序列长度小于20bp的junction reads。
(5)重比对
采用tmap套件,将质控合格的soft-clipping序列与DMD基因上下游5kb参考基因组序列进行比对。
(6)位置分析
整合初次比对和重比对的soft-clipping序列两端位点的位置信息,所述位置信息包括基因组坐标和比对方向,按照下述流程判断每条soft-clipping序列支持的变异类型:
对于3’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段重复;
对于5’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段重复。
(7)疑似断点分析
将所有soft-clipping序列两端位点的基因组坐标汇总,对100取模,随后进行排序和聚类,在类别内统计各位点的junction reads数目,类别内junction reads数目最多的位点为疑似变异断点。
(8)深度校正
根据两端疑似变异断点划分疑似变异区段,统计疑似变异区段的平均深度水平及支持变异的序列数目,所述平均深度水平为疑似变异区段与疑似变异区段外的平均深度的比值;所述支持变异的序列数目为疑似变异区段的junction reads数目;以此确定样本的DMD基因拷贝数变异类型和断点位置,具体判断方法如下:疑似变异区段的平均深度水平≤5%,判定为基因拷贝数纯合缺失;疑似变异区段的平均深度水平>5%且≤50%,判定为基因拷贝数杂合缺失;疑似变异区段的平均深度水平≥140%,判定为基因拷贝数重复;上述判定的疑似变异区段存在交集情况下,纯合缺失的优先级高于杂合缺失;确定变异类型后,支持变异的序列数目最多的疑似变异区段两端的位点则判定为样本的DMD基因拷贝数变异断点。
实际样本检测结果
针对7例样本的DMD基因区段,采用本领域常规的DNA探针进行杂交捕获,采用IonPITMHi-QTMSequencing 200Kit(Life Technologies,A26772)进行半导体测序,获得相应的片段序列,应用本发明提供的精准分析DMD基因拷贝数变异断点的方法和系统,并且采用Sanger测序进行验证评价,每个样本重复分析3次,结果一致,如表1所示。
表1、7例样本的DMD基因拷贝数变异断点分析结果
如表1所示,对7例检测结果进行了sanger验证,结果显示通本发明分析的断点位置与sanger验证结果平均误差<4bp,其中9个断点(共14个断点)位置完全相同,说明本发明分析方法和系统的检测误差率小,精准度高,稳定性好。
深度校正结果
表2示出本发明提供的精准分析DMD基因拷贝数变异断点的方法和系统在处理10例样本采用深度校正前后的情况。
表2、10例样本的深度校正情况
注:1、平均深度水平为疑似变异区段与疑似变异区段外的平均深度的比值;
2、下划线标记的位点为样本的疑似变异断点位置。
如表2所示,以上10例样本经过深度校正,精准确定DMD基因变异类型和断点位置,排除疑似位点中的假阳性结果,不采用深度校正,无法准确获取样本的变异断点信息。其中,样本13根据判断标准,既存在CNV纯合缺失,又存在CNV杂合缺失,由于疑似变异区段存在交集,纯合缺失的优先级高于杂合缺失,因此判定为CNV纯合缺失。

Claims (10)

1.一种精准分析DMD基因拷贝数变异断点的方法,包括如下步骤:
接收片段序列:接收样本在高通量测序平台下测得的片段序列;
初次比对:将片段序列与人类基因组参考序列进行比对,获得soft-clipping序列;
重比对:将soft-clipping序列与DMD基因参考序列进行比对;
位置分析:根据初次比对和重比对的soft-clipping序列的位置信息,判断soft-clipping序列支持的变异类型;
疑似断点分析:将soft-clipping序列两端位点按基因组坐标分类,根据类别内各位点的支持变异的序列数目,确定疑似变异断点;
深度校正:根据两端疑似变异断点划分变异区段,根据变异区段的平均深度水平及支持变异的序列数目,确定样本的DMD基因拷贝数变异类型和断点位置。
2.根据权利要求1所述的方法,其特征在于:所述方法还包括步骤:
样本质控:根据初次比对的结果,设定样本质控信息的阈值,筛选质控合格的样本。
3.根据权利要求1所述的方法,其特征在于:所述方法还包括步骤:
序列质控:重比对前,去除soft-clipping序列长度小于20bp的junction reads。
4.根据权利要求1~3任一项所述的方法,其特征在于:高通量测序平台为半导体测序平台。
5.根据权利要求1~3任一项所述的方法,其特征在于:步骤”位置分析”中,判断soft-clipping序列支持的变异类型的方法具体如下:
对于3’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段重复;
对于5’端soft-clipping序列,如果重比对位置位于初次比对上的终止位置5’端,则该soft-clipping序列支持DMD片段缺失;如果重比对位置位于初次比对上的终止位置3’端,则该soft-clipping序列支持DMD片段重复。
6.根据权利要求1~3任一项所述的方法,其特征在于:步骤”疑似断点分析”具体包括:
将soft-clipping序列两端位点的基因组坐标进行取模、排序和聚类;
在类别内统计各位点的junction reads数目作为支持变异的序列数目;
支持变异的序列数目最多的位点为疑似变异断点。
7.根据权利要求1~3任一项所述的方法,其特征在于:步骤”深度校正”具体包括:
根据两端疑似变异断点划分疑似变异区段;
统计疑似变异区段的平均深度水平及支持变异的序列数目,所述平均深度水平为疑似变异区段与疑似变异区段外的平均深度的比值;所述支持变异的序列数目为疑似变异区段的juntion reads数目;
确定样本的DMD基因拷贝数变异类型和断点位置,方法具体如下:
疑似变异区段的平均深度水平≤5%,判定为基因拷贝数纯合缺失;
疑似变异区段的平均深度水平>5%且≤50%,判定为基因拷贝数杂合缺失;
疑似变异区段的平均深度水平≥140%,判定为基因拷贝数重复;
上述判定的疑似变异区段存在交集情况下,纯合缺失的优先级高于杂合缺失;
确定变异类型后,支持变异的序列数目最多的疑似变异区段两端的位点则判定为样本的DMD基因拷贝数变异断点。
8.一种精准分析DMD基因拷贝数变异断点的系统,其特征在于:包括:
接收片段序列模块:用于接收样本在高通量测序平台下测得的片段序列;
初次比对模块:用于将片段序列与人类基因组参考序列进行比对,获得soft-clipping序列;
重比对模块:用于将soft-clipping序列与DMD基因参考序列进行比对;
位置分析模块:用于根据初次比对和重比对的soft-clipping序列的位置信息,判断soft-clipping序列支持的变异类型;
疑似断点分析模块:用于将soft-clipping序列两端位点按基因组坐标分类,根据类别内各位点的支持变异的序列数目,确定疑似变异断点;
深度校正模块:用于根据两端疑似变异断点划分变异区段,根据变异区段的平均深度水平及支持变异的序列数目,确定样本的DMD基因拷贝数变异类型和断点位置。
9.根据权利要求8所述的系统,其特征在于:所述系统还包括:
样本质控模块:用于根据初次比对的结果,设定样本质控信息的阈值,筛选质控合格的样本。
10.根据权利要求8所述的系统,其特征在于:所述系统还包括:
序列质控模块:用于重比对前,去除soft-clipping序列长度小于20bp的junctionreads。
CN201710693688.XA 2017-08-14 2017-08-14 一种精准分析dmd基因结构变异断点的方法及系统 Active CN107368708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710693688.XA CN107368708B (zh) 2017-08-14 2017-08-14 一种精准分析dmd基因结构变异断点的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710693688.XA CN107368708B (zh) 2017-08-14 2017-08-14 一种精准分析dmd基因结构变异断点的方法及系统

Publications (2)

Publication Number Publication Date
CN107368708A true CN107368708A (zh) 2017-11-21
CN107368708B CN107368708B (zh) 2018-03-16

Family

ID=60309236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710693688.XA Active CN107368708B (zh) 2017-08-14 2017-08-14 一种精准分析dmd基因结构变异断点的方法及系统

Country Status (1)

Country Link
CN (1) CN107368708B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052798A (zh) * 2017-11-22 2018-05-18 辽宁科骏生物有限公司 处理高通量测序数据的方法、装置、存储介质及处理器
CN108171011A (zh) * 2017-12-08 2018-06-15 志诺维思(北京)基因科技有限公司 一种dna复杂结构变异诊断方法
CN108280325A (zh) * 2017-12-08 2018-07-13 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器
CN108460248A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108920899A (zh) * 2018-06-10 2018-11-30 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法
WO2019118622A1 (en) * 2017-12-14 2019-06-20 Ancestry.Com Dna, Llc Detection of deletions and copy number variations in dna sequences
CN111292803A (zh) * 2020-02-10 2020-06-16 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN112599193A (zh) * 2021-03-02 2021-04-02 北京橡鑫生物科技有限公司 结构变异检测模型、其构建方法和装置
CN114005490A (zh) * 2021-12-30 2022-02-01 北京优迅医疗器械有限公司 基于二代测序技术的循环肿瘤dna融合检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003016910A1 (en) * 2001-08-20 2003-02-27 Biosite, Inc. Diagnostic markers of stroke and cerebral injury and methods of use thereof
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003016910A1 (en) * 2001-08-20 2003-02-27 Biosite, Inc. Diagnostic markers of stroke and cerebral injury and methods of use thereof
CN103993069A (zh) * 2014-03-21 2014-08-20 深圳华大基因科技服务有限公司 病毒整合位点捕获测序分析方法
CN106845150A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测循环肿瘤dna样本基因融合的装置
CN106845155A (zh) * 2016-12-29 2017-06-13 安诺优达基因科技(北京)有限公司 一种用于检测内部串联重复的装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052798B (zh) * 2017-11-22 2020-08-07 辽宁科骏生物有限公司 处理高通量测序数据的方法、装置、存储介质及处理器
CN108052798A (zh) * 2017-11-22 2018-05-18 辽宁科骏生物有限公司 处理高通量测序数据的方法、装置、存储介质及处理器
CN108171011A (zh) * 2017-12-08 2018-06-15 志诺维思(北京)基因科技有限公司 一种dna复杂结构变异诊断方法
CN108280325A (zh) * 2017-12-08 2018-07-13 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器
CN108280325B (zh) * 2017-12-08 2020-11-27 北京雅康博生物科技有限公司 高通量测序数据的处理方法、处理装置、存储介质及处理器
CN108171011B (zh) * 2017-12-08 2020-09-29 志诺维思(北京)基因科技有限公司 一种dna复杂结构变异探测方法
WO2019118622A1 (en) * 2017-12-14 2019-06-20 Ancestry.Com Dna, Llc Detection of deletions and copy number variations in dna sequences
CN108460248A (zh) * 2018-03-08 2018-08-28 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108460248B (zh) * 2018-03-08 2022-02-22 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108920899A (zh) * 2018-06-10 2018-11-30 杭州迈迪科生物科技有限公司 一种基于目标区域测序的单个外显子拷贝数变异预测方法
CN111292803A (zh) * 2020-02-10 2020-06-16 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN111292803B (zh) * 2020-02-10 2024-04-26 广州金域医学检验集团股份有限公司 基因组断裂点识别方法及应用
CN112599193A (zh) * 2021-03-02 2021-04-02 北京橡鑫生物科技有限公司 结构变异检测模型、其构建方法和装置
CN114005490A (zh) * 2021-12-30 2022-02-01 北京优迅医疗器械有限公司 基于二代测序技术的循环肿瘤dna融合检测方法
CN114005490B (zh) * 2021-12-30 2022-04-22 北京优迅医疗器械有限公司 基于二代测序技术的循环肿瘤dna融合检测方法

Also Published As

Publication number Publication date
CN107368708B (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN107368708B (zh) 一种精准分析dmd基因结构变异断点的方法及系统
CN107423578B (zh) 检测体细胞突变的装置
CN106834502B (zh) 一种基于基因捕获和二代测序技术的脊髓性肌萎缩症相关基因拷贝数检测试剂盒及方法
CN104232777B (zh) 同时确定胎儿核酸含量和染色体非整倍性的方法及装置
JP2020058393A (ja) 母体血漿の無侵襲的出生前分子核型分析
CN106834507B (zh) Dmd基因捕获探针及其在dmd基因突变检测中的应用
WO2021232388A1 (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
Divis et al. Three divergent subpopulations of the malaria parasite Plasmodium knowlesi
Natri et al. Genome-wide DNA methylation and gene expression patterns reflect genetic ancestry and environmental differences across the Indonesian archipelago
Jiang et al. Detection of genome-wide polymorphisms in the AT-rich Plasmodium falciparum genome using a high-density microarray
CN105555970B (zh) 同时进行单体型分析和染色体非整倍性检测的方法和系统
CN110592208B (zh) 地中海贫血症三类亚型的捕获探针组合物及其应用方法和应用装置
CN112201306B (zh) 基于高通量测序的真假基因突变分析方法及应用
CN109584957A (zh) 用于捕获α地中海贫血相关基因拷贝数检测试剂盒
CN111534602A (zh) 一种基于高通量测序分析人类血型基因型的方法及其应用
CN110093417A (zh) 一种检测肿瘤单细胞体细胞突变的方法
CN113450871A (zh) 基于低深度测序的鉴定样本同一性的方法
CN108268752B (zh) 一种染色体异常检测装置
CN117253539B (zh) 基于胚系突变检测高通量测序中样本污染的方法和系统
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
CN117316271A (zh) 基于二代测序技术筛查血液肿瘤标本拷贝数变异的方法及检测系统
CN108570496A (zh) 一种遗传性骨病的分子诊断方法及试剂盒
CN107208152B (zh) 检测突变簇的方法和装置
Zhou et al. Worldwide tracing of mutations and the evolutionary dynamics of SARS-CoV-2
Roy et al. NGS-μsat: bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant