CN110021342B - 用于加速变异位点的识别的方法及系统 - Google Patents

用于加速变异位点的识别的方法及系统 Download PDF

Info

Publication number
CN110021342B
CN110021342B CN201710717876.1A CN201710717876A CN110021342B CN 110021342 B CN110021342 B CN 110021342B CN 201710717876 A CN201710717876 A CN 201710717876A CN 110021342 B CN110021342 B CN 110021342B
Authority
CN
China
Prior art keywords
interval
site
intervals
processing
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710717876.1A
Other languages
English (en)
Other versions
CN110021342A (zh
Inventor
张中海
李旭
徐俊韬
曾平
张春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Phil Rivers Technology Ltd
Original Assignee
Phil Rivers Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Phil Rivers Technology Ltd filed Critical Phil Rivers Technology Ltd
Priority to CN201710717876.1A priority Critical patent/CN110021342B/zh
Publication of CN110021342A publication Critical patent/CN110021342A/zh
Application granted granted Critical
Publication of CN110021342B publication Critical patent/CN110021342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于加速变异位点的识别的方法,其将参考基因组的各染色体划分为一个或多个区间,基于各区间的测序片段密度来设置各区间的处理优先级,并根据各区间的处理优先级来处理各区间中的测序片段,获取各区间中与每个位点的堆叠相关的统计数据,从而判断各位点是否发生变异。该方法将参考基因组划分成多个区间,可以在多个核上同时并行处理各区间的相关数据,能有效利用现有的多核计算资源并缩短计算时间。

Description

用于加速变异位点的识别的方法及系统
技术领域
本发明涉及基因数据处理,尤其涉及对变异位点的识别进行加速的方法和系统。
背景技术
随着下一代测序技术(NGS)技术的快速发展,基因测序通量不断提升。在DNA测序中,DNA分子首先会被随机打断成很多个片段,然后将这些无序片段克隆,再经由测序仪进行测序,产生数百万很短的DNA reads(下文中也可称为测序片段)。之后将这些产生的DNAreads与参考基因组进行比对,找到这些DNA reads在参考基因组上的位置,接着识别变异位点SNP(Single Nucleotide Polymorphisms),以发现基因组上单个核苷酸的变异。
现有NGS中识别变异位点的方法通常包括遍历参考序列上的各个位点,获得覆盖各位点位置的reads堆叠(pileup),接着基于各位点位置的堆叠计算基因型概率等信息,然后基于这些信息进行统计分析来识别变异位点。
发明内容
但是,现有的识别变异位点的方法流程主要是单线程实现,要求顺序遍历基因参考序列上的每个位点,计算时间长而且对进行计算资源要求很高,不能有效地利用现有的多核计算资源。
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种用于加速变异位点的识别的方法及系统。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种用于加速变异位点的识别的方法,包括:
将参考基因组的各染色体划分为一个或多个区间;
基于各区间的测序片段密度来设置各区间的处理优先级;
由多个处理核根据各区间的处理优先级来处理各区间中的测序片段,以获取各区间中与每个位点的堆叠相关的统计数据;
基于与每个位点的堆叠相关的统计数据来判断该位点是否发生变异。
在上述方法中,所述区间可以是按照所述处理核的个数来划分的。
在上述方法中,所述区间的大小可以为所述参考基因组的各染色体中的最小长度。
在上述方法中,所述每个区间的测序片段密度可以为该区间中测序片段的个数与该区间的大小的比值。
在上述方法中,其中相邻两区间之间有重叠。
在上述方法中,所述重叠的长度至少为测序片段的长度。
在上述方法中,对于跨越两个区间的测序片段,可允许在这两个区间重复出现。
又一方面,本发明提供了一种用于加速变异位点的识别的系统,包括:
用于将参考基因组的各染色体划分为一个或多个区间的装置;
用于基于各区间的测序片段密度来设置各区间的处理优先级的装置;
用于由多个处理核根据各区间的处理优先级来处理各区间中的测序片段,以获取各区间中与每个位点的堆叠相关的统计数据的装置;
用于基于与每个位点的堆叠相关的统计数据来判断该位点是否发生变异的装置。
在上述系统中,所述每个区间的测序片段密度为该区间中测序片段的个数除以该区间的大小。
在上述系统中,相邻两区间之间有重叠。
与现有技术相比,本发明的优点在于:
将参考基因组的各个染色体划分成多个区间,基于各区间的reads密度安排各区间的处理顺序,在多个核上并行处理各区间的相关数据,能有效利用现有的多核计算资源并缩短计算时间。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1给出了位点的堆叠示例示意图;
图2为现有的识别变异位点的方法的流程示意图;
图3为根据本发明实施例的用于加速变异位点的识别的方法的流程示意图;
图4为根据本发明实施例的参考基因划分示意图;
图5为利用本发明实施例的方法的变异位点的识别流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在NGS技术中,通常采用samtools和bcftools这两个工具来进行变异位点的识别,下面也以这两个工具为例来说明变异位点的识别过程。其中主要包括两个关键的部分:samtools mpileup和bcftools call,其中samtools mpileup主要负责计算每个位点的基因型概率(genotype likelihood)等辅助信息,而bcftools call根据这些信息并基于统计模型的方法来判定该位点是否为SNP。在变异位点识别中很关键的一个概念是堆叠(pileup),变异位点的判定的依据是基于覆盖该位点的堆叠得到的统计数据。图1给出了一个位点的堆叠示例示意图。堆叠指的是多个reads的堆叠,如图1所示,标号为i、j、k、l、m、n、l的6条read都覆盖了位点s,那么这六条read构成了位点s的堆叠,该位点s的深度为覆盖该位点s的reads的总数,即该位点s的深度为6。图2给出了使用samtools mpileup和bcftoolscall进行变异位点识别的流程示意。如图2所示,首先samtools mpileup顺序遍历参考序列上的每个位点,获取该位点的堆叠,基于该堆叠计算基因型概率等信息然后以vcf文件格式写入管道中,之后bcftools call从管道中读取每个位点的信息,先通过Is ref过程判断其是否和参考序列上该位点相同,如果是则直接丢弃掉,否则再进行调用变异检测(callvcf)过程发现变异位点。从图2可以看出,该识别变异位点的过程是单线程实现,计算时间长而且对进行计算资源要求很高,因此硬件成本也较高,无法有效利用现有的多核计算资源。并且利用samtools mpileup和bcftools call在进行变异位点发现过程中,参考序列上位点大概有30亿,即使每个位点10字节数据,大概有30G(30*10^8*10/10^9=30G)的数据,管道读写数据量大,非常耗时。
针对目前samtools mpileup和bcftools识别变异位点方法中的问题,在本发明的实施例中提出了利用多核装置加速变异位点的识别的方法。图3给出了根据本发明一个实施例的用于加速变异位点的识别的方法的流程示意图。该方法主要包括下列步骤:
在步骤S1),将参考基因组的各个染色体划分成一个或多个区间,这样每个区间对应的reads数据可以在不同的核上并行处理。区间的数量和/或大小可以根据实际情况来进行设定。例如,可以根据执行变异位点识别方法的计算装置的处理核的个数来划分,例如,如果多核计算装置的处理器有4个核,则可以将每个染色体划分为4个区间。在这种情况下,由于不同染色体长度不同,因此不同染色体对应的区间的大小也不同。又例如,考虑到各个染色体长度差异较大,可以根据最小染色体的长度设置区间大小,这样所有的染色体都按照相同大小的区间划分。在划分区间之后,可以在多核装置的多个处理核上同时处理不同区间内的reads数据。
通常可以给在步骤S1)划分的各个区间设置相同的优先级,每个核随机地调度待处理的区间数据进行处理。但实际上各个read在参考基因组上的位置分布式不均匀的,这会使得有些区间对应的reads很多,其每个位点的深度过大,需要很长的处理时间,而有些区间对应的reads较少,只需要很少处理时间,这样可能会引起多核装置中各个核上处理任务的不均衡,出现长尾任务现象,从而拖延整个变异位点识别流程的处理时间。
因此,优选地,在步骤S2)可以基于各区间的reads密度来设置各区间的处理优先级。每个区间的read密度为该区间中read的个数与该区间的大小的比值,即read密度=区间内read数目/区间大小。read密度越大,处理优先级越高。也就是优先针对read密度大的区间进行处理,这样能有效地减少长尾的发生,缩短流程的处理时间。
在优选的实施例中,为了改善结果的准确性,允许通过添加重叠的方式来统计各区间的reads。如图4所示,在将参考基因组的各个染色体划分成一个或多个区间时,可能会导致某些reads横跨两个区间,为了保持结果更精确,可以对这些区间两端进行适度延长,即和相邻的区间有重叠部分,也就是各区间可以分别向前后扩展所设置的重叠(overlap)的长度。这样设置的重叠的长度至少等于或大于测序片段的长度。对于跨越两个区间的测序片段,允许在这两个区间重复出现或重复统计。
继续参考图3,在步骤S3)由多核装置的多个核按照各区间的处理优先级来调度和处理各个区间的数据,不同的区间数据可以在不同的核上同时进行处理。可以对于每个区间,依次遍历该区间参考序列上的各个位点,获得覆盖各位点位置的reads堆叠(pileup),接着计算与各位点的堆叠相关的统计数据例如,可以对于每个区间,依次遍历该区间参考序列上的各个位点,获得覆盖各位点位置的reads堆叠(pileup),接着计算与各位点的堆叠相关的统计数据,例如基因型概率等信息。
在步骤S4)基于这些统计数据识别变异位点。图5给出了利用本发明实施例的方法的变异位点的识别流程的一个示例。如图5所示,对于每个区间,依次遍历该区间参考序列上的各个位点,获得覆盖各位点位置的reads堆叠(pileup),接着计算与各位点的堆叠相关的统计数据,例如基因型概率等信息,并将这些统计数据保存在vcf文件中。多个核的并行处理的结果会得到多个vcf文件,但这些vcf是无序的,可按照参考基因组上区间的顺序对这些vcf文件排序并合并成一个文件。然后利用bcftools的变异检测(call vcf)函数处理合并后的vcf文件来识别其中的变异位点。在另外的实施例中,也可以不进行各个核产生的vcf文件的合并,而是由每个核在处理各区间时直接给出识别结果。即针对每个区间来执行步骤S3和S4,直接识别出该区间的变异位点。这样,各区间的变异位点识别是在多个核上并行处理的,大大缩短了处理时间。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims (10)

1.一种用于加速变异位点的识别的方法,该方法包括:
将参考基因组的各染色体划分为一个或多个区间;
基于各区间的测序片段密度来设置各区间的处理优先级;
由多个处理核根据各区间的处理优先级来处理各区间中的测序片段,以获取各区间中与每个位点的堆叠相关的统计数据;
基于与每个位点的堆叠相关的统计数据来判断该位点是否发生变异。
2.根据权利要求1所述的方法,其中所述区间是按照所述处理核的个数来划分的。
3.根据权利要求1所述的方法,其中所述区间的大小为所述参考基因组的各染色体中的最小长度。
4.根据权利要求1所述的方法,其中每个所述区间的测序片段密度为该区间中测序片段的个数与该区间的大小的比值。
5.根据权利要求1所述的方法,其中相邻两区间之间有重叠。
6.根据权利要求5所述的方法,其中,所述相邻两区间之间的重叠的长度至少为测序片段的长度。
7.根据权利要求1所述的方法,其中对于跨越两个区间的测序片段,允许在这两个区间重复出现。
8.一种用于加速变异位点的识别的系统,该系统包括:
用于将参考基因组的各染色体划分为一个或多个区间的装置;
用于基于各区间的测序片段密度来设置各区间的处理优先级的装置;
用于由多个处理核根据各区间的处理优先级来处理各区间中的测序片段,以获取各区间中与每个位点的堆叠相关的统计数据的装置;
用于基于与每个位点的堆叠相关的统计数据来判断该位点是否发生变异的装置。
9.根据权利要求8所述的系统,其中每个所述区间的测序片段密度为该区间中测序片段的个数与该区间的大小的比值。
10.根据权利要求8所述的系统,其中相邻两区间之间有重叠。
CN201710717876.1A 2017-08-21 2017-08-21 用于加速变异位点的识别的方法及系统 Active CN110021342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710717876.1A CN110021342B (zh) 2017-08-21 2017-08-21 用于加速变异位点的识别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710717876.1A CN110021342B (zh) 2017-08-21 2017-08-21 用于加速变异位点的识别的方法及系统

Publications (2)

Publication Number Publication Date
CN110021342A CN110021342A (zh) 2019-07-16
CN110021342B true CN110021342B (zh) 2020-12-15

Family

ID=67186103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710717876.1A Active CN110021342B (zh) 2017-08-21 2017-08-21 用于加速变异位点的识别的方法及系统

Country Status (1)

Country Link
CN (1) CN110021342B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114496077B (zh) * 2022-04-15 2022-06-21 北京贝瑞和康生物技术有限公司 用于检测单核苷酸变异和插入缺失的方法、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103145834A (zh) * 2013-01-17 2013-06-12 广州泰诺迪生物科技有限公司 一种抗体人源化改造方法
CN104603789A (zh) * 2011-11-17 2015-05-06 阿迈瑞斯公司 采用评分技术的用于工程化核酸构建体的系统和方法
CN105989246A (zh) * 2015-01-28 2016-10-05 深圳华大基因研究院 一种基于基因组组装的变异检测方法和装置
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置
CN106575321A (zh) * 2014-01-14 2017-04-19 欧米希亚公司 用于基因组分析的方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020120111A1 (en) * 2000-03-27 2002-08-29 Sunghwa Choe Dwf5 mutants

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104603789A (zh) * 2011-11-17 2015-05-06 阿迈瑞斯公司 采用评分技术的用于工程化核酸构建体的系统和方法
CN103145834A (zh) * 2013-01-17 2013-06-12 广州泰诺迪生物科技有限公司 一种抗体人源化改造方法
CN106575321A (zh) * 2014-01-14 2017-04-19 欧米希亚公司 用于基因组分析的方法和系统
CN105989246A (zh) * 2015-01-28 2016-10-05 深圳华大基因研究院 一种基于基因组组装的变异检测方法和装置
CN106529211A (zh) * 2016-11-04 2017-03-22 成都鑫云解码科技有限公司 变异位点的获取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A(H3N2)亚型流感病毒R292K和N294S突变位点TaqMan-MGB探针检测方法的建立;赵晓南等;《昆明医科大学学报》;20161031;第37卷(第10期);第27-30页 *

Also Published As

Publication number Publication date
CN110021342A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
Rochette et al. Stacks 2: Analytical methods for paired‐end sequencing improve RADseq‐based population genomics
Alamancos et al. Leveraging transcript quantification for fast computation of alternative splicing profiles
Luo et al. SOAP3-dp: fast, accurate and sensitive GPU-based short read aligner
US20160180226A1 (en) Method and system for evaluating sequences
CN110692101B (zh) 用于比对靶向的核酸测序数据的方法
CN107480470B (zh) 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
US20160188797A1 (en) Method and system for high-throughput sequencing data analysis
CN114649055A (zh) 用于检测单核苷酸变异和插入缺失的方法、设备和介质
CN108920601B (zh) 一种数据匹配方法及装置
CN110021342B (zh) 用于加速变异位点的识别的方法及系统
US20210233612A1 (en) Systems and methods for off-target sequence detection
CN113963749A (zh) 高通量测序数据自动化组装方法、系统、设备及存储介质
WO2018053761A1 (zh) 一种数据处理方法、装置及计算节点
CN113628682B (zh) 一种t790m和c797s顺反式突变类型识别及计算方法
JP5946277B2 (ja) アセンブリ誤り検出のための方法およびシステム(アセンブリ誤り検出)
Hiranuma et al. CloudControl: Leveraging many public ChIP-seq control experiments to better remove background noise
US10854316B2 (en) Methods and systems for prediction of a DNA profile mixture ratio
Wang et al. Defind: Detecting genomic deletions by integrating read depth, gc content, mapping quality and paired-end mapping signatures of next generation sequencing data
Köster et al. Massively parallel read mapping on GPUs with the q-group index and PEANUT
Zhao et al. Eliminating heterozygosity from reads through coverage normalization
CN113449533B (zh) 一种基于条形码序列的读长比对方法和装置
US20220383980A1 (en) Processing sequencing data relating to amyotrophic lateral sclerosis
KR102258897B1 (ko) 염기 서열 분석에서의 오류 처리 방법 및 염기 서열 분석장치
WO2013097149A1 (zh) 估计基因组重复序列含量的方法和装置
US20190050531A1 (en) Dna sequence processing method and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant