CN111292803B - 基因组断裂点识别方法及应用 - Google Patents
基因组断裂点识别方法及应用 Download PDFInfo
- Publication number
- CN111292803B CN111292803B CN202010084468.9A CN202010084468A CN111292803B CN 111292803 B CN111292803 B CN 111292803B CN 202010084468 A CN202010084468 A CN 202010084468A CN 111292803 B CN111292803 B CN 111292803B
- Authority
- CN
- China
- Prior art keywords
- sequencing
- data
- sample
- reads
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012163 sequencing technique Methods 0.000 claims abstract description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 230000007918 pathogenicity Effects 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 19
- 230000001717 pathogenic effect Effects 0.000 claims description 16
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 10
- 238000005192 partition Methods 0.000 abstract description 3
- 238000003766 bioinformatics method Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 28
- 208000013036 Dopa-responsive dystonia due to sepiapterin reductase deficiency Diseases 0.000 description 9
- 201000001195 sepiapterin reductase deficiency Diseases 0.000 description 9
- 108700024394 Exon Proteins 0.000 description 8
- 230000035772 mutation Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 101150083830 FGA gene Proteins 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 102100031752 Fibrinogen alpha chain Human genes 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 208000026617 Congenital fibrinogen deficiency Diseases 0.000 description 2
- 208000032843 Hemorrhage Diseases 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 101000846244 Homo sapiens Fibrinogen alpha chain Proteins 0.000 description 2
- 230000008827 biological function Effects 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 231100000676 disease causative agent Toxicity 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 102000054765 polymorphisms of proteins Human genes 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007482 whole exome sequencing Methods 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 1
- 208000037088 Chromosome Breakage Diseases 0.000 description 1
- 108010049003 Fibrinogen Proteins 0.000 description 1
- 102000008946 Fibrinogen Human genes 0.000 description 1
- 101710137044 Fibrinogen alpha chain Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 101150015424 dmd gene Proteins 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 229940012952 fibrinogen Drugs 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 238000012049 whole transcriptome sequencing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种基因组断裂点识别方法及应用,属于生物信息学分析技术领域。该分析识别方法包括以下步骤:数据比对:获取样本测序下机数据,将样本reads与参考基因组进行对比;构建边缘坐标集合:汇总所有reads比对到参考基因组上的起始坐标和终止坐标,所述read分割点在参考基因组比对坐标轴上的位置即为read边缘坐标;识别断裂点:筛选reads边缘坐标集中的位点,当该位点覆盖超过阈值,且该处产生了分割点的reads占总reads比例大于预设比例时,则判断为断裂点;判定断裂点:将断裂点在预设数据库中进行出现频次的查询,当出现频次小于预设频次时,则判断为高风险致病性结构变异。上述基因组断裂点识别方法,可以排除大量假阳性或者人群多态性的断裂点。
Description
技术领域
本发明涉及生物信息学分析技术领域,特别是涉及一种基因组断裂点识别方法及应用。
背景技术
随着基因检测技术的成熟和普及,基因检测被越来越多的利用到致病基因研究、精准治疗中。通常来说,可通过将NGS测序数据比对到参考基因组上,找出个体与参考基因组的差异,这些差异除了常规的差异诸如点突变(SNV)和微小插入缺失(indel),还有一些比较复杂的结构差异,如染色体断裂、重排、倒位、易位、大片段插入缺失等,从而通过差异进行进一步的研究或诊断。
对于结构性变异,与常规变异一样,结构性变异也分多态性和致病性,即每个人的基因组上都或多或少有一些多态性的结构变异,如根据文献报道,等位基因频率超过50%的结构变异就有1000个之多,而病人携带的致病性变异往往只有1个或2个,因此快速评估一个结构变异的致病性(排除非致病位点)为后续分析的前提。
而由于基因组的复杂性,目前的结构变异识别软件的结果假阳性率较高,且由于多态性变异的存在,大量位点无法判断其致病性。
并且,常规的结构变异识别软件主要用于全基因组测序,对于全外显子测序数据,由于测序数据在参考基因组上不连续,一般结构变异至少会有2个断裂点,如果发生断裂的位置不是都在外显子上,则通过外显子测序获得的数据是无法识别出具体变异的。但现实中的情况确是:外显子占全基因组比例较低,所有断裂点都发生在外显子的概率很低,所以通过常规方法处理外显子测序数据来识别结构变异很困难。且外显子捕获过程中产生的一些异常数据及偏向性会对目前软件的结果产生较大影响。
发明内容
基于此,有必要针对上述问题,提供一种基因组断裂点识别方法,采用该方法,可迅速识别基因组中结构变异位点,且不受是否为全基因组测序或全外显子组测序等不同类型的限制,可适用于各种测序方案,如全基因组测序、全外显子测序、转录组测序等等。
一种基因组断裂点识别方法,包括以下步骤:
数据比对:获取样本测序下机数据,将样本reads与参考基因组进行对比,当一个read无法完整比对到参考基因组时,则分别按照read左、右两端最优匹配输出,则该read被分开成为左、右两端的分界即为read分割点;
构建边缘坐标集合:汇总所有reads比对到参考基因组上的起始坐标和终止坐标,所述read分割点在参考基因组比对坐标轴上的位置即为read边缘坐标;
识别断裂点:筛选reads边缘坐标集中的位点,当该位点覆盖超过阈值,且该处产生了分割点的reads占总reads比例大于预设比例时,则判断为断裂点;
判定断裂点:将上述得到的断裂点在预设数据库中进行出现频次的查询,当出现频次小于预设频次时,则判断为高风险致病性结构变异。
上述基因组断裂点识别方法,不直接识别突变类型,而是识别断裂点,并通过汇总足够样本的断裂点结果建立数据库,从而得到某一断裂点在人群中的频率。当分析一个新样本时,将识别到的断裂点到该数据库中检索,可以排除大量假阳性或者人群多态性的断裂点。这是因为假阳性位点经常会在多个样本中出现,其表现形式与多态性位点类似,所以两者都可以通过数据库频率排除。
可以理解的,如样本中reads为正常read,其有左右各一个边缘坐标,而存在断裂点的read无法完整比对到参考基因组,将分别按照read左、右两端最优匹配分割后输出,被分割的read则会产生4个边缘坐标,即分割点会产生2个额外的边缘坐标。
在其中一个实施例中,所述数据比对步骤中,所述样本测序下机数据选自:全基因组测序数据、全外显子测序数据、转录组测序数据中的任一种。
常规技术中心,外显子上的结构性异常无法通过全外检测出,这是由于:一般结构变异至少会有2个断裂点,如果发生断裂的位置不是都在外显子上,则通过外显子测序获得的数据是无法识别出具体变异的。但常见情况确是:外显子占全基因组比例较低,所有断裂点都发生在外显子的概率很低,所以通过常规方法处理外显子测序数据来识别结构变异很困难。
在其中一个实施例中,所述数据比对步骤中,所述参考基因组选自人类基因组序列。可以理解的,上述人类基因组序列为人类基因组计划完成的人类基因组序列,可由UCSC和NCBI获取。
在其中一个实施例中,所述识别断裂点步骤中,当测序类型是全基因组测序时,所述预设比例为25%;当测序类型是全外显子测序时,所述预设比例为20%。
人类有两条染色体,理论情况下当断裂点为纯合时,产生了分割点的reads(split-reads)占比为100%,当断裂点为杂合时,split-reads占比为50%。但由于断裂点处reads捕获率往往会更低,这会导致split-reads占比下降。因此对于不需捕获的全基因组测序,split-reads占比阈值可以提高至25-30%,而对于全外显子测序,split-reads占比阈值在20%较为适宜。
在其中一个实施例中,所述识别断裂点步骤中,所述阈值为10个reads。在实践工作中,发明人发现,当碰到测序深度很低的地方,例如只有10X,则只需2个reads就占比超过20%,如此随机性太大,会造成大量假阳性。且鉴于目前全外测序的平均深度都在100X左右,10个reads占比只有10%,也就是正常情况下都能达到,上述设定阈值可用来排除低覆盖区域。即将阈值设定在为10个reads,既可以避免大量假阳性,又可排除低覆盖区域。
在其中一个实施例中,所述预设数据库通过以下方法建立:获取超过1000例样本数据,按照上述数据比对、构建边缘坐标集合、识别断裂点的步骤,得到样本中所有断裂点,并统计相同断裂点出现的频次。优选地,获取超过5000例样本建立数据库具有更优的效果。
可以理解的,上述预设数据库需满足一定的样本量,根据研究表明,致病的结构变异发生率低于千分之一,因此数据库样本量需大于1000例才能保证能计算得到低于千分之一的频率。样本量达到5000例则有较好的容错率,假阳和假阴性率都能控制在较低水平。
在其中一个实施例中,所述预设频次为样本数的0.1%。将频次设定在该阈值,既能够降低假阳性比例,又可识别出真正具有高风险的变异位点。
本发明还公开了一种基因组断裂点识别系统,包括:
存储模块:用于获取样本测序下机数据,并进行数据存储;
分析模块:按照上述的基因组断裂点识别方法,对数据进行分析;
输出模块:用于将分析得到的高风险致病性结构变异输出。
上述识别系统,可配合检测系统使用,也可仅作为后端数据分析工具使用。
在其中一个实施例中,所述输出模块还输出与该样本匹配的患者临床信息,以及所述高风险致病性结构变异所在基因的功能信息。
将上述判断为高风险致病性结构变异,与临床信息匹配对比后,可利于解释该变异的临床意义,特别是当变异是在外显子上发生的断裂,是比较好解释其临床意义的。若一个基因发生了断裂,那这个基因的功能大概率会受影响。所以发生在已知功能基因上的断裂点只需要看这个基因功能即可。例如:当FGA基因发生断裂,其中,Fibrinogen alphachain,即纤维蛋白原的alpha链,其功能缺失会导致先天性纤维蛋白原缺乏症,症状为血液不凝固,出血不止。如该FGA基因发生断裂,与病人的临床信息可匹配,基本可以确定FGA的断裂就是致病原因。
本发明还公开了上述的基因组断裂点识别方法在人类基因组多态性研究中的应用。
可以理解的,在基因组结构性变异中,缺乏临床信息支持或意义不明确的断裂点繁不胜数,这些断裂点也许并非都致病,但也可能具有某些生物学功能,是人类基因多态性的组成部分之一,具有研究价值。因此,上述基因组断裂点识别方法在人类基因组多态性研究中,具有重要的应用价值。
与现有技术相比,本发明具有以下有益效果:
本发明的一种基因组断裂点识别方法,不直接识别突变类型,而是识别断裂点,并通过汇总足够样本的断裂点结果建立数据库,从而得到某一断裂点在人群中的频率。当分析一个新样本时,将识别到的断裂点到该数据库中检索,可以排除大量假阳性或者人群多态性的断裂点。
并且,以全外显子测序结果为例,在分析得到的千余个断裂点中,通过本发明的识别方法排除后,所剩高风险致病性结构变异的位点一般不超过20个,通常为10个左右,极大的降低了后续分析的难度。
本发明的一种基因组断裂点识别系统,利用上述识别方法,可对测序数据进行分析,快速而准确的获得高风险致病性结构变异信息。
附图说明
图1为实施例1中可完整比对的全外显子测序后坐标集合的IntegrativeGenomics Viewer图;
图2为实施例1中无法完整比对的全外显子测序后坐标集合的IntegrativeGenomics Viewer图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
以下实施例中所用测序数据,均为按照常规NGS测序方案得到,测序深度为100-200X之间,中位值在120X左右。
临床样本来源和基本情况:样本共12385个,均为全外显子捕获NGS测序数据(illumina平台),捕获范围为外显子加上侧翼50bp(约覆盖60Mbp碱基)。
实施例1
一种基因组断裂点识别方法,包括以下步骤:
一、数据比对。
获取样本测序下机数据,使用比对软件(如bwa)将样本测序reads比对到参考基因组,覆盖断裂点位置的reads会被分割成两部分比对,具体为:当一个read无法完整比对到参考基因组时,则分别按照read左、右两端最优匹配输出,则该read被分开成为左、右两端的分界即为read分割点。
二、构建边缘坐标集合。
汇总所有reads比对到参考基因组上的起始坐标和终止坐标。
如样本数据来源于全基因组测序,则因为全基因组是随机打断测序,该边缘坐标大致呈均匀分布。
如果是全外显子捕获测序,该边缘坐标大致呈以捕获探针为中心对称的分布。如图1所示,图1为全外显子测序后坐标集合的Integrative Genomics Viewer图,其中,上半部分表示覆盖深度,下半部分为一个个reads,浅灰色和深灰色分别表示正向和反向比对的reads。该图中显示,reads可完整比对到参考基因组,即read无边缘断裂点出现在坐标集合中。
而当染色体上出现断裂点时,覆盖到断裂点上的reads无法完全比对到参考基因组上,只能从断裂点处分割成成左、右两部分分开比对,这会导致reads比对在参考基因组上的边缘坐标集中在断裂点处,如图2所示。
图2为全外显子测序后坐标集合的Integrative Genomics Viewer图,其中,上半部分表示覆盖深度,下半部分为一个个reads,浅灰色和深灰色分别表示正向和反向比对的reads。该图中显示,reads不可完整比对到参考基因组,即reads比对在参考基因组上的边缘坐标集中在断裂点处,即所述read分割点在参考基因组比对坐标轴上以read边缘出现。
具体到图2所体现的断裂点,由于常染色体有2个拷贝,从该图2中可以看出有一半的reads是正常的,另外一半的reads被切断后才比对上。表示该染色体有一个拷贝的这个位置是正常的,另一个拷贝在这个位置断裂了。
三、识别断裂点。
筛选reads边缘坐标集中的位点,在本实施例中,当该位点覆盖超过10reads,且该处产生了分割点的reads(split-reads)占总reads比例超过20%时,则判断为断裂点。
可以理解的,因人有两条染色体,所以理论情况下当断裂点为纯合时,split-reads占比为100%,当断裂点为杂合时,split-reads占比为50%。但由于断裂点处reads捕获率往往会更低,这会导致split-reads占比下降。因此对于不需捕获的全基因组测序,split-reads占比阈值可以提高至25-30%。
四、判定断裂点。
将上述得到的断裂点在预设数据库中进行出现频次的查询,当出现频次小于预设频次时,则判断为高风险致病性结构变异。
1、预设数据库的建立。
以全外显子测序方案为例,本发明以上述三个步骤分析了12385个样本,根据这些样本断裂点的坐标和方向为唯一标识进行汇总,并统计每个断裂点出现的频次、split-reads深度百分位、split-reads占比百分位。chr1中的部分统计数据示例如下表。
表1.数据库的统计数据
pos | side | cnt | SRD-percentile | SRR-percentile |
908199 | left | 6446 | [10,13,16,23,31,40,98] | [0.2,0.2,0.21,0.23,0.26,0.28,0.45] |
908644 | right | 1 | [64,64,64,64,64,64,64] | [0.35,0.35,0.35,0.35,0.35,0.35,0.35] |
908734 | right | 1 | [59,59,59,59,59,59,59] | [0.5,0.5,0.5,0.5,0.5,0.5,0.5] |
908857 | left | 1 | [56,56,56,56,56,56,56] | [0.52,0.52,0.52,0.52,0.52,0.52,0.52] |
908860 | left | 1 | [56,56,56,56,56,56,56] | [0.58,0.58,0.58,0.58,0.58,0.58,0.58] |
909264 | left | 3 | [12,16,23,34,39,42,45] | [0.21,0.22,0.24,0.26,0.26,0.27,0.27] |
909399 | left | 10 | [10,10,12,15,16,18,21] | [0.2,0.2,0.21,0.21,0.22,0.26,0.27] |
909418 | left | 21 | [10,11,12,16,21,23,26] | [0.2,0.21,0.23,0.25,0.29,0.33,0.4] |
911494 | left | 1 | [12,12,12,12,12,12,12] | [0.43,0.43,0.43,0.43,0.43,0.43,0.43] |
912061 | right | 1 | [84,84,84,84,84,84,84] | [0.42,0.42,0.42,0.42,0.42,0.42,0.42] |
912080 | right | 673 | [10,10,12,13,16,20,37] | [0.2,0.2,0.2,0.21,0.23,0.26,0.37] |
上表中,cnt为计数,SRD-percentile即split-reads depth百分位,SRR-percentile即split-reads ratio百分位。以第一行为例,该断裂点所在位置为1号染色体左链,908199位点,在6446个样本中有发现,6446个样本中该断裂点处SRD的分布为[10,13,16,23,31,40,98],即SRD最大和最小值为98和10,上下十分位为40和13,上下四分位为31和16,中位值为23。SRR同理。也即第一行中chr1上pos为908199,side为左的位点出现断裂点的频次为6446。
2、查询、判断。
将待分析样本中出现的断裂点,在上述数据库中进行检索比对,获得每个断裂点在数据库中的频次及SRD/SRR百分位信息。由于发生致病性突变的概率较低(通常认为低于千分之一),可以排除频次超过12的断裂点。即但出现频次≤12次时,则可判断为高风险致病性结构变异。
上述频次的计算方法为:由于本案样本数为12385,千分之一即为12。可以理解的,当样本数变化时,该频次也做相应调整,如样本数为20000,则频次相应调整为20。
例如,将某一全外显子测序样本的断裂点在数据库中进行检索比对,初步分析得到1544个断裂点,排除频次超过12的断裂点后剩余14个位点,如下表所示。
表2.数据库检索比对后得到的高风险致病性结构变异位点
表3.高风险致病性结构变异位点情况
上表中,OMIM为该基因在人类孟德尔遗传数据库所对应基因功能注释,HGVS为根据HGVS基因突变命名规则进行的命名。
从上述结果可以看出,该样本在PPP1R8等13个基因中均出现了低频的高风险致病性断裂点。
五、综合判断。
将上述高风险致病性断裂点所在基因信息和SRD/SRR百分位信息,结合与该样本匹配的患者临床信息,以及断裂点所处基因功能注释综合判断。
其中,该样本中FGA基因发生断裂,此两个断裂点在数据库中没有检索到,也就是说这是个很罕见的断裂点,其功能缺失会导致先天性纤维蛋白原缺乏症,症状为血液不凝固,出血不止。并且与病人的临床症状可匹配,可以确定FGA的断裂就是致病原因。
如分析得到的断裂点是在数据库中能检索到的断裂点,则可以根据SRD/SRR的百分位信息检查该位点是否与数据库中其他样本出现的断裂点类似,以及与数据库中其他出现该断裂点的样本的临床信息做比较,如果SRD/SRR和临床信息都与数据库中类似,则该位点致病的风险较大,否则是良性位点的可能性更大。即SRD/SRR百分位信息可辅助进行判断。
实施例2
一种基因组断裂点识别系统,包括:
存储模块:用于获取样本测序下机数据,并进行数据存储;
分析模块:按照实施例1所述的基因组断裂点识别方法,对数据进行分析;
输出模块:用于将分析得到的高风险致病性结构变异输出。
以上述基因组断裂点识别软件系统,对实施例1中的12385例全外显子测序数据进行回顾。
回顾结果发现了21例含断裂点的样本,且断裂位置所处基因与样本临床症状匹配,如下表所示。
表4.含断裂点的样本情况
其余缺乏临床信息以及断裂点所处基因意义不明确的样本多达千余例,这些断裂点也许并非都致病,但可能具有某些生物学功能,是人类基因多态性的组成部分之一,具有研究价值。
上述样本中,样本3、7、8、11、12、17同时还进行了CNV及indel检测,其结论与本发明中发现的断裂点分析结果一致。
样本13同时还进行了MLPA检测,结论为DMD基因30-43号外显子缺失,与本发明中发现的断裂点分析结果一致。
上述结果表明,本发明的基因组断裂点识别方法和系统,可迅速识别基因组中结构变异位点,且可以排除大量假阳性或者人群多态性的断裂点,所得分析结果与临床表现相一致。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基因组断裂点识别方法,其特征在于,包括以下步骤:
数据比对:获取样本测序下机数据,将样本reads与参考基因组进行对比,当一个read无法完整比对到参考基因组时,则分别按照read左、右两端最优匹配输出,则该read被分开成为左、右两端的分界即为read分割点;
构建边缘坐标集合:汇总所有样本reads比对到参考基因组上的起始坐标和终止坐标,所述read分割点在参考基因组比对坐标轴上的位置即为read边缘坐标;
识别断裂点:筛选reads边缘坐标集中的位点,当该位点覆盖超过阈值,且该位点处产生了分割点的reads占总reads比例大于预设比例时,则判断为断裂点,所述阈值为10个reads,当测序类型是全基因组测序时,所述预设比例为25%;当测序类型是全外显子测序时,所述预设比例为20%;
判定断裂点:将得到的断裂点在预设数据库中进行出现频次和SRD、SRR百分位信息的查询,当出现频次小于预设频次时,则判断为高风险致病性结构变异;所述预设数据库通过以下方法建立:获取超过1000例样本数据,按照上述数据比对、构建边缘坐标集合、识别断裂点的步骤,得到样本中所有断裂点,并统计相同断裂点出现的频次;
综合判断:将高风险致病性结构变异的断裂点所在基因信息和SRD、SRR百分位信息,结合与该样本匹配的患者临床信息,以及断裂点所处基因功能注释综合判断。
2.根据权利要求1所述的基因组断裂点识别方法,其特征在于,所述数据比对步骤中,所述样本测序下机数据选自:全基因组测序数据、全外显子测序数据、转录组测序数据中的任一种。
3.根据权利要求1所述的基因组断裂点识别方法,其特征在于,所述数据比对步骤中,所述参考基因组选自人类基因组序列。
4.根据权利要求1所述的基因组断裂点识别方法,其特征在于,所述预设频次为样本数的0.1%。
5.一种基因组断裂点识别系统,其特征在于,包括:
存储模块:用于获取样本测序下机数据,并进行数据存储;
分析模块:按照权利要求1-4任一项所述的基因组断裂点识别方法,对所述样本测序下机数据进行分析;
输出模块:用于将分析得到的高风险致病性结构变异输出。
6.根据权利要求5所述的基因组断裂点识别系统,其特征在于,所述输出模块还输出与该样本匹配的患者临床信息,以及所述高风险致病性结构变异所在基因的功能信息。
7.权利要求1-4任一项所述的基因组断裂点识别方法在人类基因组多态性研究中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010084468.9A CN111292803B (zh) | 2020-02-10 | 2020-02-10 | 基因组断裂点识别方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010084468.9A CN111292803B (zh) | 2020-02-10 | 2020-02-10 | 基因组断裂点识别方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111292803A CN111292803A (zh) | 2020-06-16 |
CN111292803B true CN111292803B (zh) | 2024-04-26 |
Family
ID=71025523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010084468.9A Active CN111292803B (zh) | 2020-02-10 | 2020-02-10 | 基因组断裂点识别方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292803B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112201306B (zh) * | 2020-09-21 | 2024-06-04 | 广州金域医学检验集团股份有限公司 | 基于高通量测序的真假基因突变分析方法及应用 |
CN113234799A (zh) * | 2021-05-11 | 2021-08-10 | 赛雷纳(中国)医疗科技有限公司 | 一种用于染色体缺失/重复断点精确定位的方法 |
CN116121343A (zh) * | 2023-02-13 | 2023-05-16 | 天津金域医学检验实验室有限公司 | 一种RNAseq融合基因引物生成方法、血液肿瘤MRD动态监测的方法及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909806A (zh) * | 2015-12-22 | 2017-06-30 | 广州华大基因医学检验所有限公司 | 定点检测变异的方法和装置 |
CN107229841A (zh) * | 2017-05-24 | 2017-10-03 | 重庆金域医学检验所有限公司 | 一种基因变异评估方法及系统 |
CN107368708A (zh) * | 2017-08-14 | 2017-11-21 | 东莞博奥木华基因科技有限公司 | 一种精准分析dmd基因结构变异断点的方法及系统 |
CN107944228A (zh) * | 2017-12-08 | 2018-04-20 | 广州漫瑞生物信息技术有限公司 | 一种基因测序变异位点的可视化方法 |
WO2018214010A1 (zh) * | 2017-05-23 | 2018-11-29 | 深圳华大基因研究院 | 一种基于测序数据的变异检测方法、装置和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016100974A1 (en) * | 2014-12-19 | 2016-06-23 | The Broad Institute Inc. | Unbiased identification of double-strand breaks and genomic rearrangement by genome-wide insert capture sequencing |
US20190080045A1 (en) * | 2017-09-13 | 2019-03-14 | The Jackson Laboratory | Detection of high-resolution structural variants using long-read genome sequence analysis |
-
2020
- 2020-02-10 CN CN202010084468.9A patent/CN111292803B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909806A (zh) * | 2015-12-22 | 2017-06-30 | 广州华大基因医学检验所有限公司 | 定点检测变异的方法和装置 |
WO2018214010A1 (zh) * | 2017-05-23 | 2018-11-29 | 深圳华大基因研究院 | 一种基于测序数据的变异检测方法、装置和存储介质 |
CN107229841A (zh) * | 2017-05-24 | 2017-10-03 | 重庆金域医学检验所有限公司 | 一种基因变异评估方法及系统 |
CN107368708A (zh) * | 2017-08-14 | 2017-11-21 | 东莞博奥木华基因科技有限公司 | 一种精准分析dmd基因结构变异断点的方法及系统 |
CN107944228A (zh) * | 2017-12-08 | 2018-04-20 | 广州漫瑞生物信息技术有限公司 | 一种基因测序变异位点的可视化方法 |
Non-Patent Citations (1)
Title |
---|
基因组高通量测序数据结构变异识别算法;王春宇 等;智能计算机与应用;20150228;第5卷(第1期);第1-4、8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111292803A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111292803B (zh) | 基因组断裂点识别方法及应用 | |
US10127351B2 (en) | Accurate and fast mapping of reads to genome | |
Ewing et al. | Base-calling of automated sequencer traces using phred. II. Error probabilities | |
CN111863125B (zh) | 基于NGS-trio的单亲二倍体检测方法及应用 | |
US20190228131A1 (en) | Novel method capable of differentiating fetal sex and fetal sex chromosome abnormality on various platforms | |
CN110689930B (zh) | 检测tmb的方法及装置 | |
CN108647495B (zh) | 身份关系鉴定方法、装置、设备及存储介质 | |
CN112201306A (zh) | 基于高通量测序的真假基因突变分析方法及应用 | |
Seixas et al. | Synteny-based genome assembly for 16 species of Heliconius butterflies, and an assessment of structural variation across the genus | |
CN108595912A (zh) | 检测染色体非整倍性的方法、装置及系统 | |
CN118248220A (zh) | 二倍体动植物基因组分型组装方法及应用 | |
CN109461473B (zh) | 胎儿游离dna浓度获取方法和装置 | |
CN117253539B (zh) | 基于胚系突变检测高通量测序中样本污染的方法和系统 | |
EP3850631A1 (en) | Method and apparatus for detecting copy number variations in a genome | |
CN107967411B (zh) | 一种脱靶位点的检测方法、装置及终端设备 | |
Hijikata et al. | Exome-wide benchmark of difficult-to-sequence regions using short-read next-generation DNA sequencing | |
CN108694304B (zh) | 一种身份关系鉴定方法、装置、设备及存储介质 | |
CN114694752B (zh) | 预测同源重组修复缺陷的方法、计算设备和介质 | |
US20230282307A1 (en) | Method for detecting uniparental disomy based upon ngs-trio, and use thereof | |
JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN114420213A (zh) | 一种生物信息分析方法及装置、电子设备及存储介质 | |
CN111798926B (zh) | 致病基因位点数据库及其建立方法 | |
CN110570902A (zh) | 一种拷贝数变异分析方法、系统及计算机可读存储介质 | |
Kim et al. | SoloDel: a probabilistic model for detecting low-frequent somatic deletions from unmatched sequencing data | |
WO2024140880A1 (zh) | 一种拷贝数变异分析的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |