CN107180166B - 一种基于三代测序的全基因组结构变异分析方法和系统 - Google Patents

一种基于三代测序的全基因组结构变异分析方法和系统 Download PDF

Info

Publication number
CN107180166B
CN107180166B CN201710266327.7A CN201710266327A CN107180166B CN 107180166 B CN107180166 B CN 107180166B CN 201710266327 A CN201710266327 A CN 201710266327A CN 107180166 B CN107180166 B CN 107180166B
Authority
CN
China
Prior art keywords
sequences
genome
structural variation
variation
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710266327.7A
Other languages
English (en)
Other versions
CN107180166A (zh
Inventor
汪德鹏
方立
王凯
张朋
胡江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grandomics Biosciences Co ltd
Original Assignee
Grandomics Biosciences Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grandomics Biosciences Co ltd filed Critical Grandomics Biosciences Co ltd
Priority to CN201710266327.7A priority Critical patent/CN107180166B/zh
Publication of CN107180166A publication Critical patent/CN107180166A/zh
Application granted granted Critical
Publication of CN107180166B publication Critical patent/CN107180166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于三代测序的全基因组结构变异分析方法和系统,所述方法包括1)序列拆分,2)序列比对;3)基因组结构变异初步检测;4)基因组结构变异初步检测结果合并筛选,5)基因组结构变异功能注释;所述系统包括序列拆分模块,序列比对模块,基因组结构变异初步检测模块,基因组结构变异初步检测结果合并筛选模块和基因组结构变异功能注释模块。所述方法和系统通过整合现有的三代基因组结构变异检测技术PBhoney和Sniffles,能有效提高低覆盖度下基因组结构变异检测的准确性和敏感性,在降低检测成本的同时保证检测结果的可靠性。

Description

一种基于三代测序的全基因组结构变异分析方法和系统
技术领域
本发明属于基因组结构变异检测领域,具体涉及一种基于三代测序的全基因组结构变异分析方法和系统。
背景技术
基因组结构变异通常是指基因组内较大片段的插入、缺失、重复、倒位、易位以及DNA拷贝数变异(CNV)等。较之于短的序列变异(SNP、Indel等),基因组结构变异影响了更多的基因组序列(~13%),因此也在多种疾病中扮演非常重要的角色。目前,基因组结构变异的检测主要包括,oligonucleotide-based array-CGH、SNP array、MLPA、QPCR等一代测序技术,基于二代测序的Breakdancer,readdepth,delly,PIndel分析技术,基于三代测序的PBhoney,Sniffles分析技术。由于一代基于存在价格高、通量低等弊端,已经越来越不适应目前的检测需求;第二代测序技术的发展,使得SNP、Indel等遗传变异得以广泛检测。然而,由于二代测序读长短(100~150bp左右)的特点,reads不能跨过整个变异的区域,尽管使用了多种算法,基因组结构变异的检测依然存在准确率低,敏感性低的不足;三代测序技术具有读长特别长(最高可达40K以上),单碱基错误率高(15%),错误随机性好(基本不受GC含量影响)等特点,目前基于第三代的基因组结构变异检测技术(PBhoney,Sniffles等)虽然大大改善了二代技术敏感性低的问题,但准确率低的缺点依然存在。
发明内容
为了解决上述问题,本发明提供了一种基于三代测序的全基因组结构变异分析方法和系统。所述方法和系统通过整合现有的三代基因组结构变异检测技术,能有效提高低覆盖度下基因组结构变异检测的准确性和敏感性,在降低检测成本的同时保证检测结果的可靠性。
本发明的技术方案为:
一种基于三代测序的全基因组结构变异分析方法,其特征在于,包括以下流程:
1)序列拆分,将基因组的测序序列拆分成若干个用于同步分析的子序列;
2)序列比对,将每个所述子序列分别通过两种比对工具与参考基因组比对,获得的比对结果分别通过合并工具合并得到两组比对序列;
3)基因组结构变异初步检测,将所述两组比对序列中每组比对序列仅通过对应的一种结构变异分析工具进行检测,两组比对序列经分别检测后得到两组基因组结构变异初步检测结果;
4)基因组结构变异初步检测结果合并筛选:
4.1)分别将两组基因组结构变异初步检测结果转换成统一格式;
4.2)合并两组基因组结构变异初步检测结果:
4.2.1)遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列;
4.2.2)分别计算4.2.1)中所述两个缺失序列的起始位点和终止位点的均值,所述均值为4.2.1)所述判定的缺失序列的起始位点和终止位点;
4.2.3)重复4.2.1)和4.2.2)中步骤,筛选出两组基因组结构变异初步检测结果中所有缺失序列的交集;筛选出两组基因组结构变异初步检测结果中所有缺失序列的并集;
4.2.4)遍历两组基因组结构变异初步检测结果中的插入序列,判断如果两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列;
4.2.5)分别计算4.2.4)中所述两个插入序列的起始位点和终止位点的均值,所述均值为4.2.4)所述判定的插入序列的起始位点和终止位点;
4.2.6)重复4.2.4)和4.2.5)中步骤,筛选出两组基因组结构变异初步检测结果中所有插入序列的交集;筛选出两组基因组结构变异初步检测结果中所有插入序列的并集;
4.3)数据结果质控:
根据交集和并集中的基因组结构变异检测结果的比例以及该区域的覆盖度,支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;
5)基因组结构变异功能注释,利用注释工具注释基因组结构变异最终检测结果。
所述步骤2)中所述两种比对工具分别为blasr和bwa;所述步骤2)中合并工具为samtools。
所述步骤3)中通过blasr比对得到的比对序列对应的结构变异分析工具为PBhoney;所述步骤3)中通过bwa比对得到的比对序列对应的结构变异分析工具为Sniffles。
所述步骤4.1)中的统一格式为bed格式。
所述步骤5)中的注释工具为annovar。
一种基于三代测序的全基因组结构变异分析系统,其特征在于,所述基于三代测序的全基因组结构变异分析系统包括以下模块:
序列拆分模块,用于将基因组的测序序列拆分成若干个用于同步分析的子序列;
序列比对模块,包括两个并列的比对单元,所述比对单元用于所述子序列与参考基因组的比对,获得两组比对序列;
基因组结构变异初步检测模块,包括两个并列的结构变异分析单元,所述两个结构变异分析单元用于同步检测两组比对序列中的基因组结构变异,获得两组基因组结构变异初步检测结果;
基因组结构变异初步检测结果合并筛选模块,包括格式转换单元、数据分析单元、交集单元、并集单元和数据结果质控单元;
所述格式转换单元用于将两组基因组结构变异初步检测结果转换成统一格式;
所述数据分析单元用于分析基因组结构变异初步检测结果,具体为遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列;分别计算所述两个缺失序列的起始位点和终止位点的均值,所述均值为所述判定的缺失序列的起始位点和终止位点;筛选出两组基因组结构变异初步检测结果中所有缺失序列的交集结果,将所述交集结果置于交集单元中;筛选出两组基因组结构变异初步检测结果中所有缺失序列的并集结果,将所述交集结果置于并集单元中;
遍历两组基因组结构变异初步检测结果中的插入序列,判断如果两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列;分别计算所述两个插入序列的起始位点和终止位点的均值,所述均值为所述判定的插入序列的起始位点和终止位点;筛选出两组基因组结构变异初步检测结果中所有插入序列的交集结果,并将交集结果置于交集单元中;筛选出两组基因组结构变异初步检测结果中所有插入序列的并集结果,并将并集结果置于并集单元中;
所述数据结果质控单元根据交集单元和并集单元中基因组结构变异检测结果的比例以及该区域的覆盖度,支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;
基因组结构变异功能注释模块,包括注释单元,所述注释单元用于注释基因组结构变异最终检测结果。
所述两个比对单元运用的分析工具分别为blasr和bwa,分析后的数据均用合并工具samtools合并。
所述两个结构变异分析单元运用的工具分别为PBhoney和Sniffles;blasr的运用与PBhoney相对应;bwa的应用与Sniffles相对应。
所述格式转换单元转换后的统一格式为bed格式。
所述基因组结构变异功能注释模块中的注释工具为annovar。
本发明的有益效果为:
基因组的一代测序和二代测序耗时长,三代测序虽然速度得到大幅提升,但是准确度低,要得到更精准的数据需要很高的覆盖深度,成本大大提高。本发明根据两种三代测序工具测序后所得结果进行并集或交集来输出最终的结构变异分析结果,来满足准确度或灵敏度要求,特别是实现了低覆盖深度下,基因组结构变异检测结果的可靠性,提升检测速度的同时降低了检测成本。
附图说明
图1为本发明实施例1和实施例2的流程图。
图2为本发明的所述系统的结构示意图。
图3为本发明所述系统中基因组结构变异初步检测结果合并筛选模块的结构示意图。
图4为图2不同软件在实施例1样品中缺失序列检测准确率/检出率比较。
图5为不同软件在实施例1样品中插入序列检出率比较。
图6为不同软件在实施例2样品中缺失序列检测准确率/检出率比较。
图7不同软件在实施例2样品中插入序列检测准确率/检出率比较。
具体实施方式
结合附图和具体实施例,对本发明作进一步描述。
结合附图1对本发明实施例所述基于三代测序的全基因组结构变异分析方法的工作流程进行说明,详细流程如下所示:
步骤1,获得原始bam文件数据;
步骤2,将bam文件中的序列拆分,将基因组的测序序列拆分成若干个用于同步分析的子序列,即将原始reads数拆分成多个fastq文件;每个fastq文件进入步骤3和步骤4;
步骤3和步骤4同步进行,将fastq文件中的数据进行基因比对,步骤3中Fastq文件用blasr比对,比对结果文件用samtools合并;步骤4中Fastq文件用bwa比对,比对结果文件用samtools合并;
步骤3合并后的数据进入步骤5用PBhoney做基因组结构变异检测;步骤4合并后的数据进入步骤6用Sniffles做基因组结构变异检测;
步骤5获得的基因组结构变异初步检测结果进入步骤7转化成bed格式;步骤6获得的基因组结构变异初步检测结果进入步骤8转化成bed格式;
步骤9遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列,进入步骤10;步骤9判定该两个缺失序列不是同一个缺失序列时,进入步骤12;
步骤10计算被判定为同一个缺失序列的两缺失序列的起始位点和终止位点的均值,所述均值为所述判定的缺失序列的起始位点和终止位点;进入步骤11;
步骤11将步骤10筛选出的所有缺失序列合并作为缺失序列的交集结果进入步骤12;
步骤12将步骤11中缺失序列的交集结果和步骤9中判定为不是同一缺失序列的缺失序列合并,作为所有缺失序列的并集结果进入步骤13;
步骤9遍历两组基因组结构变异初步检测结果中的插入序列,如果所述两组基因组结构变异初步检测结果中两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列,进入步骤10;步骤9判定该两个缺失序列不是同一个插入序列时,进入步骤12;
步骤10计算被判定为同一个插入序列的两插入序列的起始位点和终止位点的均值,所述均值为所述判定的插入序列的起始位点和终止位点;进入步骤11;
步骤11将步骤10筛选出的所有插入序列合并作为交集结果进入步骤12;
步骤12将步骤11中交集结果和步骤9中判定为不是同一插入序列的插入序列合并,作为所有插入序列并集结果,进入步骤13
步骤13将步骤11和步骤12得到的基因组结构变异中支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;进入步骤14;
步骤14利用注释工具注释出基因组结构变异最终检测结果中基因组结构变异的不同功能类型以及其他相关信息,得到最终结果。
从图2可以看出,本发明实施例所述基于三代测序的全基因组结构变异分析系统包括序列拆分模块10,序列对比模块20,基因组结构变异初步检测模块30,基因组结构变异初步检测结果合并筛选模块40,基因组结构变异功能注释模块50。
从图3可以看出,基因组结构变异初步检测结果合并筛选模块包括格式转化单元41,格式转化单元42,数据分析单元43,交集单元44,并集单元45和数据结果质控单元46。
实施例中各模块和单元中采用了适用于三代测序超长读长的多种生物信息分析软件,具体如下:
1、Blasr比对是一个非常耗费计算资源和时间的过程,所以本系统首先将原始的测序数据按照原始reads数拆分成多个fastq文件,在比对过程中采用多个任务并行的模式,大量的节省了时间。
2、基因组结构变异PBhoney检测
2.1)Fastq文件分别用blasr比对。
2.2)比对结果文件用samtools合并,用PBhoney做基因组结构变异检测。
3、基因组结构变异Sniffles检测
3.1)Fastq文件分别用bwa比对。
3.2)比对结果文件用samtools合并,用Sniffles做基因组结构变异检测。
4、原始基因组结构变异初步检测结果合并筛选
4.1)分别将PBhoney、Sniffles结果转换成统一的bed格式,方便后续的合并与筛选。
4.2)合并PBhoney、Sniffles结果。
4.2.1)遍历PBhoney、Sniffles结果中的缺失序列,判断如果两个缺失序列重叠部分的长度占两缺失序列长度的比例大于50%,则判定该两个缺失序列为同一个缺失序列。
4.2.2)分别计算PBhoney、Sniffles缺失序列起始位点和终止位点的均值作为合并后结果的起始位点和终止位点。
4.2.3)将PBhoney、Sniffles结果中的intersection部分输出到intersection结果中;将intersection和其他结果输出到union结果中。
4.2.4)遍历PBhoney、Sniffles结果中的插入序列,判断如果两插入序列的距离小于1000bp,则认为该两个插入序列为同一个插入序列,否则则认为两插入序列不同。
4.2.5)分别计算PBhoney、Sniffles缺失序列起始位点和终止位点的均值作为合并后结果的起始位点和终止位点。
4.2.6)将PBhoney、Sniffles结果中的intersection部分输出到intersection结果中;将intersection和其他结果输出到union结果中。
4.3)数据结果质控
根据支持基因组结构变异reads的比例以及该区域的覆盖度,支持数低于20%的基因组结构变异删除。
5、基因组结构变异功能注释
本系统利用annovar注释出基因组结构变异的不同功能类型以及其他相关信息,方便用户的进一步筛选。
本系统结果分为union(并集)和intersection(交集)两种模式,union模式敏感性方面非常好,而intersection模式则在准确性方面具有极大的优势。在10X覆盖度的情况下,本发明的union模式对Indel的检出率达到75%以上,Intersection模式的准确率接近90%,用户可以根据自己的需求选择适合自己的模式。
以下通过具体实施例对本发明的结果与技术参数做详细说明。
实施例1.
样品:该样品来自本公司一个自愿捐献者,该样品有很好的一代和二代测序的研究基础,所以本实施例将该样品作为一个demo case来说明本系统的准确性。
数据分析与结果统计:
原始数据统计
表1 原始数据统计
测序base数 34.28G
polymer read数 3.59M
polymer read平均长度 9,441
polymer read长度N50 16,694
subread数 12.88M
subread平均长度 2,624
subread平均N50 3,208
比对结果统计
通过blasr比对,最终有12.85M reads被比对到基因组(版本号hg19)上。
与标准数据比较
目前已知本实施例所用样品中长度大于200bp的缺失序列和插入序列共有2194和68个。标准结果中插入序列数量较少,该情况应该是因为一代以及二代测序技术对插入序列检测结果太差造成的。
表2 实施例1与其他软件对缺失序列检测结果比较
Figure BDA0001276137070000081
Figure BDA0001276137070000091
表3 实施例1与其他软件对插入序列检测结果比较
Figure BDA0001276137070000092
实施例2.
样品:该样品是本公司利用三代测序技术完成个一个全基因组测序样品。该样品的测序深度高达100X,所以该样品基因组结构变异的检测结果具有较高的可信度。本实施例将多种系统在高深度条件下检测出的基因组结构变异作为标准集,并随机挑选了10X数据做为测试数据测试本发明的准确性。
数据分析与结果统计:
本实施例测试数据统计结果如下表
表4 原始数据统计
测序base数 34.22G
polymer read数 2.39M
polymer read平均长度 14,344
polymer read长度N50 12,169
subread数 3.03M
subread平均长度 11,294
subread平均N50 9,954
比对结果统计
通过blasr比对,最终有3.03M reads被比对到基因组(版本号hg19)上。
与标准数据比较
经过检测,该样品中共发现缺失序列和插入序列分别为2978和2950个,根据比较结果intersection的准确率可以高达90%。
表5 实施例2与其他软件对缺失序列检测结果比较
Figure BDA0001276137070000101
表6 实施例2与其他软件对插入序列检测结果比较
Figure BDA0001276137070000102
通过两个标准样品的验证,本发明在测序深度约为10X的情况下,缺失/插入的准确率和检出率分别达到90%和75%以上,将三代基因组结构变异检测准确度提高了1倍。
根据实施例1和实施例2我们可以得出本发明Union部分敏感性可以达到75%以上,Intersection部分准确性可以达到90%。
以上所述仅为本发明的较佳实施例,凡在本发明的原则之内所做的任何简单修改、等同变换与改型,仍应属于本发明的保护范围之内。

Claims (10)

1.一种基于三代测序的全基因组结构变异分析方法,其特征在于,包括以下流程:
1)序列拆分,将基因组的测序序列拆分成若干个用于同步分析的子序列;
2)序列比对,将每个所述子序列分别通过两种比对工具与参考基因组比对,获得的比对结果分别通过合并工具合并得到两组比对序列;
3)基因组结构变异初步检测,将所述两组比对序列中每组比对序列仅通过对应的一种结构变异分析工具进行检测,两组比对序列经分别检测后得到两组基因组结构变异初步检测结果;
4)基因组结构变异初步检测结果合并筛选:
4.1)分别将两组基因组结构变异初步检测结果转换成统一格式;
4.2)合并两组基因组结构变异初步检测结果:
4.2.1)遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列;反之,两个缺失序列为不同的缺失序列;
4.2.2)分别计算4.2.1)中所述判定为同一个缺失序列的两个缺失序列的起始位点和终止位点的均值,所述均值为4.2.1)所述判定的同一个缺失序列的起始位点和终止位点;
4.2.3)重复4.2.1)和4.2.2)中步骤,筛选出两组基因组结构变异初步检测结果中所有同一个缺失序列,放入缺失序列的交集;筛选出两组基因组结构变异初步检测结果中所有不同的缺失序列,放入缺失序列的并集;
4.2.4)遍历两组基因组结构变异初步检测结果中的插入序列,判断如果两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列;反之,两个插入序列为不同的插入序列;
4.2.5)分别计算4.2.4)中所述判定为同一个插入序列的两个插入序列的起始位点和终止位点的均值,所述均值为4.2.4)所述判定的同一个插入序列的起始位点和终止位点;
4.2.6)重复4.2.4)和4.2.5)中步骤,筛选出两组基因组结构变异初步检测结果中所有同一个插入序列,放入插入序列的交集;筛选出两组基因组结构变异初步检测结果中所有不同的插入序列,放入插入序列的并集;
4.3)数据结果质控:
根据交集和并集中的基因组结构变异检测结果的比例以及该区域的覆盖度,所述该区域为交集和并集中的基因组结构变异,所述交集包括缺失序列的交集和插入序列的交集,所述并集包括缺失序列的并集和插入序列的并集,支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;
5)基因组结构变异功能注释,利用注释工具注释基因组结构变异最终检测结果。
2.根据权利要求1所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤2)中所述两种比对工具分别为blasr和bwa;所述步骤2)中合并工具为samtools。
3.根据权利要求2所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤3)中通过blasr比对得到的比对序列对应的结构变异分析工具为PBhoney;所述步骤3)中通过bwa比对得到的比对序列对应的结构变异分析工具为Sniffles。
4.根据权利要求3所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤4.1)中的统一格式为bed格式。
5.根据权利要求4所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤5)中的注释工具为annovar。
6.一种基于三代测序的全基因组结构变异分析系统,其特征在于,所述基于三代测序的全基因组结构变异分析系统包括以下模块:
序列拆分模块,用于将基因组的测序序列拆分成若干个用于同步分析的子序列;
序列比对模块,包括两个并列的比对单元,所述比对单元用于所述子序列与参考基因组的比对,获得两组比对序列;
基因组结构变异初步检测模块,包括两个并列的结构变异分析单元,所述两个结构变异分析单元用于同步检测两组比对序列中的基因组结构变异,获得两组基因组结构变异初步检测结果;
基因组结构变异初步检测结果合并筛选模块,包括格式转换单元、数据分析单元、交集单元、并集单元和数据结果质控单元;
所述格式转换单元用于将两组基因组结构变异初步检测结果转换成统一格式;
所述数据分析单元用于分析基因组结构变异初步检测结果,具体为遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列;反之,两个缺失序列为不同的缺失序列;分别计算所述判定为同一个缺失序列的两个缺失序列的起始位点和终止位点的均值,所述均值为所述判定的同一个缺失序列的起始位点和终止位点;筛选出两组基因组结构变异初步检测结果中所有同一个缺失序列,放入缺失序列的交集结果中,将所述交集结果置于交集单元中;筛选出两组基因组结构变异初步检测结果中所有不同的缺失序列,放入缺失序列的并集结果中,将所述并集结果置于并集单元中;
遍历两组基因组结构变异初步检测结果中的插入序列,判断如果两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列;反之,两个插入序列为不同的插入序列;分别计算所述判定为同一个插入序列的两个插入序列的起始位点和终止位点的均值,所述均值为所述判定的同一个插入序列的起始位点和终止位点;筛选出两组基因组结构变异初步检测结果中所有同一个插入序列,放入插入序列的交集结果中,并将该交集结果置于交集单元中;筛选出两组基因组结构变异初步检测结果中所有不同插入序列,放入插入序列的并集结果中,并将该并集结果置于并集单元中;
所述数据结果质控单元根据交集单元和并集单元中基因组结构变异检测结果的比例以及该区域的覆盖度,所述该区域为交集单元和并集单元中基因组结构变异,支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;
基因组结构变异功能注释模块,包括注释单元,所述注释单元用于注释基因组结构变异最终检测结果。
7.根据权利要求6所述一种基于三代测序的全基因组结构变异分析系统,其特征在于,所述两个比对单元运用的分析工具分别为blasr和bwa,分析后的数据均用合并工具samtools合并。
8.根据权利要求7所述一种基于三代测序的全基因组结构变异分析系统,其特征在于,所述两个结构变异分析单元运用的工具分别为PBhoney和Sniffles;blasr的运用与PBhoney相对应;bwa的应用与Sniffles相对应。
9.根据权利要求8所述一种基于三代测序的全基因组结构变异分析系统,其特征在于,所述格式转换单元转换后的统一格式为bed格式。
10.根据权利要求9所述一种基于三代测序的全基因组结构变异分析系统,其特征在于,所述基因组结构变异功能注释模块中的注释工具为annovar。
CN201710266327.7A 2017-04-21 2017-04-21 一种基于三代测序的全基因组结构变异分析方法和系统 Active CN107180166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710266327.7A CN107180166B (zh) 2017-04-21 2017-04-21 一种基于三代测序的全基因组结构变异分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710266327.7A CN107180166B (zh) 2017-04-21 2017-04-21 一种基于三代测序的全基因组结构变异分析方法和系统

Publications (2)

Publication Number Publication Date
CN107180166A CN107180166A (zh) 2017-09-19
CN107180166B true CN107180166B (zh) 2020-09-01

Family

ID=59830876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710266327.7A Active CN107180166B (zh) 2017-04-21 2017-04-21 一种基于三代测序的全基因组结构变异分析方法和系统

Country Status (1)

Country Link
CN (1) CN107180166B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073791B (zh) * 2017-12-12 2019-02-05 元码基因科技(苏州)有限公司 基于二代测序数据检测目标基因结构变异的方法
CN108363906B (zh) * 2018-02-12 2021-12-28 中国农业科学院作物科学研究所 水稻多样本变异整合图谱OsMS-IVMap1.0的创建
CN108460248B (zh) * 2018-03-08 2022-02-22 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108595915B (zh) * 2018-04-16 2021-06-22 北京化工大学 一种基于dna变异检测的三代数据校正方法
CN108776749B (zh) * 2018-06-05 2022-05-03 北京诺禾致源科技股份有限公司 测序数据的处理方法及装置
CN108985009B (zh) * 2018-08-29 2022-06-07 北京希望组生物科技有限公司 一种获得基因单体型序列的方法及其应用
CN111312331B (zh) * 2020-03-27 2022-05-24 武汉古奥基因科技有限公司 一种利用二代和三代转录组测序数据的基因组注释方法
CN111445955B (zh) * 2020-04-10 2021-09-10 广州微远医疗器械有限公司 新型冠状病毒变异分析方法及应用
CN111429967A (zh) * 2020-04-23 2020-07-17 北京诺禾致源科技股份有限公司 Pacbio三代测序数据的处理方法
CN111767256B (zh) * 2020-05-22 2023-10-20 北京和瑞精湛医学检验实验室有限公司 一种从fastq文件分离出样本read数据的方法
CN111767255B (zh) * 2020-05-22 2023-10-13 北京和瑞精湛医学检验实验室有限公司 从fastq文件分离出样本read数据的优化方法
CN112599192A (zh) * 2020-12-31 2021-04-02 杭州柏熠科技有限公司 基于纳米孔测序的新冠病毒全基因组分析系统
CN112669902B (zh) * 2021-03-16 2021-06-04 北京贝瑞和康生物技术有限公司 检测基因组结构变异的方法、计算设备和存储介质
CN113628685B (zh) * 2021-07-27 2022-03-15 广东省农业科学院水稻研究所 一种基于多个基因组比较和二代测序数据的全基因组关联分析方法
CN113628680B (zh) * 2021-09-06 2022-06-21 哈尔滨师范大学 一种基于基准集的基因组结构变异性能检测方法
CN115641910B (zh) * 2022-10-20 2023-05-12 哈尔滨工业大学 一种三代群体基因组结构变异联合检测方法
CN115620810B (zh) * 2022-12-19 2023-03-28 北京诺禾致源科技股份有限公司 基于第三代基因测序数据的外源插入信息的检测方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014149991A1 (en) * 2013-03-15 2014-09-25 Nabsys, Inc. Methods for electronic karyotyping
CN105243297A (zh) * 2015-10-09 2016-01-13 人和未来生物科技(长沙)有限公司 一种参考基因组上基因序列片段的快速比对定位方法
CN105483244B (zh) * 2015-12-28 2019-10-22 武汉菲沙基因信息有限公司 一种基于超长基因组的变异检测方法及检测系统
CN106566877A (zh) * 2016-10-31 2017-04-19 天津诺禾致源生物信息科技有限公司 检测基因突变的方法和装置
CN106529171A (zh) * 2016-11-09 2017-03-22 上海派森诺医学检验所有限公司 乳腺癌易感基因遗传变异位点的检测分析方法

Also Published As

Publication number Publication date
CN107180166A (zh) 2017-09-19

Similar Documents

Publication Publication Date Title
CN107180166B (zh) 一种基于三代测序的全基因组结构变异分析方法和系统
Amarasinghe et al. Opportunities and challenges in long-read sequencing data analysis
Pedersen et al. Fast and accurate alignment of long bisulfite-seq reads
CN102682224B (zh) 检测拷贝数变异的方法和装置
EP2835752B1 (en) Method and system for detecting copy number variation
CN108830044B (zh) 用于检测癌症样本基因融合的检测方法和装置
CN106715711A (zh) 确定探针序列的方法和基因组结构变异的检测方法
CN103617256A (zh) 待变异检测文件的处理方法及装置
CN111243663B (zh) 一种基于模式增长算法的基因变异检测方法
CN110993023B (zh) 复杂突变的检测方法及检测装置
CN111755072B (zh) 一种同时检测甲基化水平、基因组变异和插入片段的方法及装置
CN115064211B (zh) 一种基于全基因组甲基化测序的ctDNA预测方法及装置
CN104894271A (zh) 一种检测基因融合的方法及装置
WO2022267867A1 (zh) 基因测序分析方法、装置、存储介质和计算机设备
CN113035273A (zh) 一种快速、超高灵敏度的dna融合基因检测方法
Liang et al. WBSA: web service for bisulfite sequencing data analysis
CN111518921A (zh) 一种采用snp分子标记技术鉴别连城白鸭的方法
CN107885972B (zh) 一种基于单端测序的融合基因检测方法及其应用
CN113930492A (zh) 对被污染样品进行亲子鉴定的生物信息处理方法
CN113571131A (zh) 一种泛基因组的构建方法及其相应的结构变异挖掘方法
Shiraishi et al. Precise characterization of somatic complex structural variations from paired long-read sequencing data with nanomonsv
CN111292806B (zh) 一种利用纳米孔测序的转录组分析方法
CN109033752B (zh) 一种基于长读长测序的多基因融合检测方法
CN114530200A (zh) 基于计算snp熵值的混合样本鉴定方法
CN111429967A (zh) Pacbio三代测序数据的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant