CN105849284A - 序列数据中分离质量等级和测序较长读段的方法和设备 - Google Patents
序列数据中分离质量等级和测序较长读段的方法和设备 Download PDFInfo
- Publication number
- CN105849284A CN105849284A CN201480072013.8A CN201480072013A CN105849284A CN 105849284 A CN105849284 A CN 105849284A CN 201480072013 A CN201480072013 A CN 201480072013A CN 105849284 A CN105849284 A CN 105849284A
- Authority
- CN
- China
- Prior art keywords
- order
- section
- checking
- read
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000012163 sequencing technique Methods 0.000 title abstract description 13
- 238000005259 measurement Methods 0.000 claims abstract description 28
- 108020004414 DNA Proteins 0.000 claims abstract description 15
- 102000053602 DNA Human genes 0.000 claims abstract description 15
- 229920002477 rna polymer Polymers 0.000 claims abstract description 8
- 108020004635 Complementary DNA Proteins 0.000 claims abstract description 7
- 238000010804 cDNA synthesis Methods 0.000 claims abstract description 7
- 239000002299 complementary DNA Substances 0.000 claims abstract description 7
- 230000000875 corresponding effect Effects 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000014759 maintenance of location Effects 0.000 claims 1
- 108091028026 C-DNA Proteins 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 27
- 239000002773 nucleotide Substances 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 17
- 125000003729 nucleotide group Chemical group 0.000 description 17
- 239000002585 base Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 241000218636 Thuja Species 0.000 description 4
- 239000002253 acid Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 235000008708 Morus alba Nutrition 0.000 description 2
- 240000000249 Morus alba Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 238000010322 bone marrow transplantation Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004043 dyeing Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
来自测量系统的测序读段可以基于与测量系统相关的质量分数被分类,并且,可以提供对应的错误特性。测序读段可以对应于脱氧核糖核酸(DNA)、互补DNA(cDNA)或核糖核酸(RNA)中的至少一种。
Description
相关申请的交叉引用
本申请要求于2013年11月1日提交的第61/898,650号美国临时申请的权益,其全部内容通过引用包含于此。
技术领域
本公开涉及核苷酸数据技术领域,尤其涉及用于核苷酸数据的数据处理,以及获取核苷酸数据所使用的仪器和装置。
背景技术
与核苷酸数据的测量相关的应用已受到通过传统的测序技术可用的相对短的读段长度和测量的准确性的限制。因此,需要具有高准确性为特点的改进方法和相关系统来实现核苷酸数据的序列的较高的准确性且在不降低准确性的情况下实现较长的读段。
附图说明
实施例通过示例的方式示出且不限于说明书附图所示。
图1是与示出的实施例相关的序列元素的示意图。
图2是与示出的实施例相关的一种错误谱的示意图。
图3是根据示例性实施例的一种处理测序读段的方法的流程图。
图4是与示出的实施例相关的另一错误谱的示意图。
图5是与示出的实施例相关的再一错误谱的示意图。
图6A和图6B是与示出的实施例相关的多个错误谱的示意图。
图7示出了根据示例性实施例的一种使用测序读段的方法的示意图。
图8是根据示例性实施例的一种设备的示意框图。
图9是一种其中有用于执行引发计算机执行任意一种描述的方法的指令的计算机处理系统的框图。
具体实施方式
1、背景
随着测序核苷酸(A、C、T、G)相关的技术的发展,下一代测序(NGS)因需要增加的通量而成为日益活跃的领域。传统的NGS技术由ILLUMINA、ION TORRENT、PACIFIC BIOSCIENCES和一些其他公司开发。在下面的讨论中,采用ILLUMINA的技术作为传统的NGS测序平台和相关NGS数据的参考点。然而,文中所示实施例可以总体地应用于具有相关功能的NGS测序平台。
图1是与示出的实施例相关的序列元素的示意图。二倍体对象的靶序列102包括二倍体核苷酸(例如,AA、CC、GG、TT、AC、AG、AT、CG、CT、GT)的序列,其中,第一元素104包括碱基值AA,如框106处所示。图1中还示出了多个测序读段108(例如,来自NGS平台的测序读段),其中,测序读段108中的第一个读段的第一元素110包括碱基值A,如框112处所示。靶序列102的长度可以为任意长度(例如,对于人类基因组来说,30~40亿个碱基值)。测序读段108的长度也可以为任意长度,但通常更短(例如,NGS技术测出的50-150个碱基值)。本领域技术人员应该清楚的是,靶序列102和测序读段108的相对比对如图1中的水平轴所示,靶序列102的每个进入位点或者一个测序读段214对应于参考序列202的相应位置。通常,与参考序列114(例如,公开的序列)相关地进行这样的比对。如图1中所示,参考序列114的第一元素116包括碱基值AA,如框118处所示。
一些NGS技术(例如,来自ILLUMINA的技术)可以被描述为基于边合成边测序(SBS)的测序平台。SBS技术以灵活和简单的流程为特点,其产生了大量的并行的测序读段。这样大规模的并行测序系统基于包括表面上的DNA的克隆扩增的“DNA簇”的使用。为了确定样本中的序列,添加了四种类型的可逆终止子碱基并将非掺入的核苷酸冲走。使用相机拍摄荧光标记的核苷酸的图像。然后,染色与终端3’阻断剂一起从DNA中被去除,下一循环开始。在通常被称为第三代和第四代测序技术的一些NGS技术中,检测并测量pH水平的改变或电信号而非光学信号。在本公开中描述的实施例可等同地应用于NGS技术而不管信号类型(例如,光学的、电学的、pH水平的)如何。
在基于SBS的测序平台之外,具有相关功能的NGS技术的可选方案还包括例如边连接边测序(SBL)平台。
与第一代测序技术相比,对于相同数量的数据,NGS技术通常的优点在于较高的通量和较低的成本。然而,通常也存在与较短的读段长度和较高的错误率相关的缺点。
与先前的技术相比,NGS读段长度通常较短(例如,NGS的27-250个核苷酸相对于第一代的基于桑格测序(Sanger-based sequencing)的~1000-2000个核苷酸)。这可能因几个原因而成为问题:(A)考虑到非常大的参考基因组(例如,30-40亿碱基长度的人类基因组),将较短的读段精确地与参考基因组进行映射/比对是相当困难的。(B)参考基因组通常包含许多重复的区域,事实上,超过一半的人类参考基因组被重复的元素所覆盖。一些最重要的重复区域达到了~200核苷酸或更长的水平。读段长度限制使得学习重要的重复变得非常的困难。(C)对于全新的基因组(de novo genome)测序,即,参考基因组尚不可用的物种的基因组的测序,通常不能应用基于匹配的分析,需要应用基于组装的方法(其目的在于从读段数据中“创建”参考基因组)。对参考基因组非常大且包含很多重复区域的物种(例如,植物物种)来说,很短的读段长度表现出了对这些方法的另外的挑战。(D)对于需要很长的核苷酸的序列的应用,较短的读段长度表现出了另外的挑战。例如,骨髓移植的为了识别适当的捐赠人的骨髓配型通常需要至少500核苷酸的测序长度。
与NGS技术相关的较高的错误率表现出了另外的挑战。例如,与第一代(或桑格)测序所报道的大约0.001-0.1%的标称错误率相比,基于操作性设定,NGS错误率可以在1%的数量级。这样的缺点使得难以准确地识别单核苷酸变异(SNV)和其他变异。相关的实施例可以用于在2013年11月1日提交的第61/898,680号相关的美国临时专利申请“METHOD ANDAPPARATUS FOR CALLING SINGLE-NUCLEOTIDE VARIATIONS”(其通过引用全部包含于此)和由重叠的发明实体在与本申请同日提交的相关的PCT申请“METHOD AND APPARATUS FOR CALLING SINGLE-NUCLEOTIDE VARIATIONS AND OTHER VARIATIONS”(其通过引用全部包含于此)中描述的具有不同的质量水平的SNV识别。
现有的NGS数据的错误谱分析通常采用以位置为中心的方式进行,即,研究者关注作为信息量最大的独立变量的位置,将许多读段(在它们全部与参考序列进行比对之后)合并在一起,并计算读段内的每个位置处发生的错误的比例。这些研究已经得出一种如图2中所显示的相似的错误谱。图2示出了示例性错误谱200,其中,水平轴是读段内的位置的指数,垂直轴是经验推导的错误谱200的错误率。(为下面的实施例示出了具有相似表示的错误谱。)如图2中所示,读段的5’端(即,左手侧)上的开始位置处,错误稍微升高然后下降并以约0.5-1%的比率基本保持在读段的中间部分中。朝向3’端(即,读段的右手侧),错误率急剧上升至远高于1%的水平。(跨所有位置的)总体错误率为约1%。需要注意的是,在这些示例中使用的读段长度(例如,36-50)仅出于举例说明的目的,也可以使用更高的读段长度(例如,~100或更长)。
2、方法实施例
示例性方法和系统涉及对核苷酸数据的数据处理。本公开的示例仅代表可能的变形。除非另外清楚地说明,否则组件和功能是可选的且可以组合或分解,操作可以顺序改变或者进行组合或分解。在下面的描述中,出于说明的目的,阐述了多个特定的细节以提供对示例性实施例的彻底理解。然而,本领域技术人员应该清楚的是,本发明实施例可以在没有这些特定细节的情况下进行实施。
图3示出了根据一个示例性实施例的一种处理测序读段的方法300。第一操作302包括访问与测量系统相关的多个测序读段,每个测序读段包括碱基值的序列,每个测序读段的一个或多个位置与表征在一个或多个位置处的测量系统的操作的质量分数相关。测量系统可以为处理与脱氧核糖核酸(DNA)对应的测序读段的基因组测量系统。然而,其他的测量系统是可能的,且测序读段可以对应于DNA、互补DNA(cDNA)或核糖核酸(RNA)中的至少一种。
如上所述,质量分数可以对应于与测量系统相关的Phred分数。然而,可以使用测量质量的可选的表征。例如,在给定位置处的质量分数可以表征与附近位置的信号强度相关的信号强度。
第二操作304包括基于质量分数的值来说明一个或多个质量条件。质量条件可以对应于将至少一个阈值应用于质量分数的值(例如,基于质量分数的不等式约束)。
第三操作306包括使用一个或多个质量条件来说明测序读段的一个或多个质量分类,每个质量分类基于满足在测序读段的位置处的至少一个对应质量条件,一个给定的具有给定质量分类的测序读段满足均匀地跨给定的测序读段中的位置对应的一个或多个质量条件。
本实施例可以被理解为分析传统数据的错误谱的“以读段为中心”方式。即,位置所属的读段可以被认为是(与位置相比)信息量更大的独立变量。例如,因为读段对应于NGS测序机的流动室上的单个簇中出现的测序反应,所以诸如模板分子缺陷、放大伪像和相邻的簇的干扰等因素可能导致呈现出很强的读段特定性特征的错误。根据以读段为中心方式的一个实施例,我们基于读段内的所有位置的最小Phred分数将读段分成两类,然后,我们分别关注每个分类的错误谱。“默认”的Phred分数边界是15,即,我们将所有位置的最小Phred分数大于等于15的所有读段分类为高质量读段,并将其他读段分类为低质量读段。注意,一些“低质量读段”可以具有Phred分数非常高的(或质量良好的)许多位置,例如,36-核苷酸读段可以在36个位置中具有35个Phred分数为30的位置,但是单个的余留位置的Phred分数为14,该读段将被分类为低质量读段。(应注意的是,Phred分数是本领域技术人员公知的作为从测序系统得到的测序质量的表征。)
第四操作308提供与每个质量分类对应的错误特性。例如,错误特性可以包括跨对应的测序读段的一部分的与测量系统对应的估计的错误。错误特性可以包括跨对应的测序读段的一部分的与测量系统对应的估计的错误。
对于上面描述的具有基于Phred分数的两个质量分类的示例性实施例,低质量读段具有如图4中所示的错误谱400,高质量读段具有如图5中示出的错误谱500。图4的错误谱400与图2中示出的“原型”错误谱200相似。然而,高质量读段的错误谱500示出了准对称图案。即,对于读段的两端中的每端处的~7个位置,错误率(与图2的原型错误谱200中的非对称形状相比)以几乎对称的方式增长。除了这样的两个狭窄的端部之外,读段中的主要位置(如中间部分)示出了达0.1%的非常低的错误率,其比图2中示出的NGS平台的标称错误率低一个数量级。此外,该比率(0.1%)与标称人体SNV率处于相同的水平。
应该注意的是,通常不会理解或领会到现有的序列数据中存在多个质量等级。对于发现某个NGS测序读段是两个子类的混合的理解使得能够进行具有较长读段而不具有较高错误的测序操作。即,可以使用测量系统来分析靶序列并提供具有增加长度值的测序读段。
图6A-图6B示出了具有高质量和低质量读段的相同的定义但是具有变化的读段长度的另外的数据组的相关的错误谱602、604。图6A示出了五个数据组的低质量读段的错误谱602,图6B示出了来自数据组的高质量读段的对应的错误谱604。即,图6A中的低质量错误谱606、608、610、612、614分别对应于图6B中的高质量错误谱616、618、620、622、624。明显的是,图6A中的错误谱602在质量上与图4中的错误谱400相似,图6B中的错误谱604在质量上与图5中的错误谱500相似。应该注意的是,(a)高质量读段的错误谱604的两端的宽度(即,错误水平上升的两个区域)始终为~7个核苷酸,(b)(在去除了两端上的7个核苷酸之后的)中间区域始终具有约为0.1%的非常低的错误率。相关实施例所教导的是,对于非常大的读段长度(例如,在一些实施例中达150),在我们从每端去除碱基值的边界(~7个核苷酸)之后,余留的是一些非常高质量的测序数据。该发现使得能够提取一定比例(约50%)的数据,该数据具备与传统的NGS测序平台被通常认为的质量相比更高的质量的、具有与第一代测序平台产生的一些数据相比足够低的错误率。
图7示出了使用(具有较长读段长度的)测序读段的相关方法700。第一操作702包括识别具有给定错误特性的给定质量分类的给定测序读段。第二操作704包括确定部分给定测序读段,其中,给定错误特性包括跨给定的测序读段的该部分与测量系统对应的估计错误上的均匀的边界。即,对于图6B所示的实施例,该部分可以称为测序读段的(例如,在每端上删除~7个核苷酸之后的)中间部分,给定的错误特性可以为大约0.1%(或某种其他的经验确定的值)的均匀边界。
传统的NGS测序平台的读段长度的限制为150或250(根据测序机模式而改变)。传统上不存在制作更长的读段的教导,这是因为当关注原型错误谱(例如,图2)时,其错误率在3’端处猛升。进一步增加读段长度将导致其数据的质量的严重降低。然而,通过以读段为中心方式,在从每侧去除一些碱基之后,某些实施例使得能够提取一定比例(可以记为所有读段的约一半)的读段数据-具有0.1-0.15%的错误率的高质量读段。这为使用传统的NGS测序平台提供了制作更长的读段的教导。
根据某些实施例,传统的NGS测序平台可以用于对比当前平台限制的长度更长的读段读取,至2000碱基或更长的水平。在其之后,进行如上所述的高质量读段的提取。然后,例如,可以放弃低质量读段或在一些情况下可能地使用低质量读段。提取高质量读段的能力实际上去除了传统的NGS测序平台的一个主要障碍,以产生具有足够低的错误率的更长的读段以进行实际使用。这些实施例使得能够使用建立的和相对便宜的测序平台进行准确的更长的读段测序。
应该注意的是,尽管上面描述的实施例采用了Phred质量分数作为碱基识别的质量测量,但是可以相似地使用序列质量的其他的表征。这些质量表征可以包括从测序实验、从测序机产生的图像和从已知的相关的核苷酸序列而总结的表征,并因此指示碱基识别的质量。例如,这些质量表征可以基于诸如循环数、序列基元、电流强度的信噪比的测量、前面的或后面的循环、以及所谓“跟踪参数”的特性的组合。(Ewing et al.,"Base-calling of automatedsequencer traces using phred.1.Accuracy assessment."Genome Research,1998,8:175-185。Ewing and Green,"Base-calling of automated sequencer traces usingphred.11.Error probabilities."Genome Research,1998,8:186-194。)如上所述,相关实施例使得能够通过读段内的碱基的总体质量评价来评价作为整体的读段的质量。
3、另外的实施例
另外的实施例对应于与执行上述方法的相关的计算机程序和系统。
图8示出了根据示例性实施例的处理测序读段的设备800的示意性表现。图8中,设备800包括至少一个计算机系统(例如,如图9中所示)以执行用于实施图3所示方法300的模块的软件和硬件操作。
根据示例性实施例,设备800包括数据访问模块802、质量阈值模块804、质量分类模块806和错误特性模块808。
数据访问模块802执行访问与测量系统相关的多个测序读段的操作,每个测序读段包括碱基值的序列,每个测序读段的一个或多个位置与表征在一个或多个位置处的测量系统的操作的质量分数相关。质量阈值模块804执行基于质量分数的值来指定一个或多个质量条件的操作。质量分类模块806执行使用一个或多个质量条件来指定测序读段的一个或多个质量分类的操作,每个质量分类基于满足在测序读段的位置处的至少一个相应的质量条件。错误特性模块808执行提供与每个质量分类对应的错误特性的操作。可以通过另外的对应模块或通过上述模块的变形来执行与方法300相关的另外的操作。
图9示出了计算机系统900的示例性形式的机器,在其中有可以执行使机器执行这里描述的任意的一个或多个方法的指令。在可选的实施例中,机器作为独立的装置进行操作,或可以连接(例如,网络连接)到其他机器。在网络化部署中,机器可以以服务器-客户端网络环境中的服务器或客户端的能力进行操作,或者作为对等(或分布式)网络环境中的对等机。该机器可以为个人计算机(PC)、平板式PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、网络家电、网络路由器、开关或网桥或具有执行(顺序的或其他方式的)指定动作的指令的其他机器。此外,虽然仅示出了单个机器,但是术语“机器”也应被认为包括独立地或合作地执行一组(或多组)指令以执行这里讨论的任意一种或多种方法的机器的任意组合。
示例性计算机系统900包括通过总线908彼此通信的处理器902(例如,中央处理单元(CPU)、图形处理单元(GPU)或两者)、主存储器904和静态存储器906。计算机系统900还可以包括视频显示单元910(例如,液晶显示器(LCD)或阴极射线管(CRT))。计算机系统900还包括字母数字输入装置912(例如,键盘)、用户界面(UI)、光标控制装置914(例如,鼠标)、磁盘驱动单元916、信号发生装置918(例如,扬声器)和网络接口装置920。
在一些上下文中,计算机可读介质可以被描述为机器可读介质。磁盘驱动单元916包括机器可读介质922,在机器可读介质922上存储有实施或使用这里描述的任意一种或多种方法或功能的一组或多组数据结构集和指令集924(例如,软件)。在静态存储器906、主存储器904和处理器902也构成机器可读介质的情况下,指令924还可以完全地或至少部分地驻留在静态存储器906内、或驻留在主存储器904内、或在由计算机系统900执行指令924期间驻留在处理器902内。
虽然以示例性实施例的方式将机器可读介质922示出为单个介质,但是术语“机器可读介质”和“计算机可读介质”均可以指存储有一组或多组数据结构集和指令集924的单个介质或多个介质(例如,集中式或分布式数据库、和/或相关的缓存和服务器)。这些术语还应被认为包括可以存储、编码、承载由机器执行的并使机器执行这里公开的任意一种或多种方法的指令的有形的或非易失性介质,或者可以存储、编码或承载由这样的指令使用或与这样的指令相关的数据结构的有形的或非易失性介质。这些术语应相应地被认为包括但不限于固态存储器、光学介质和磁介质。机器可读介质或计算机可读介质的特定示例包括:非易失性存储器,非易失性存储器以示例的方式包括半导体存储器装置,例如,可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储装置;磁盘,诸如内置硬盘和可移动磁盘;磁光盘;压缩盘只读存储器(CD-ROM)和数字多功能盘只读存储器(DVD-ROM)。
指令924还可以使用传输介质经通信网络926进行发送或接收。指令924可以使用网络接口装置920和多种公知的传输协议(例如,超文本传输协议(HTTP))中的任意一种进行发送。通信网络的示例包括局域网(LAN)、广域网(WAN)、互联网、移动电话网、普通老式电话(POTS)网和无线数据网(例如,WiFi网和WiMax网)。术语“传输介质”应被认为包括可以存储、编码或承载由机器执行的指令的无形介质,并包括数字或模拟通信信号或其他无形介质以便于诸如软件之类的通信。
这里将某些实施例描述为包括逻辑功能或多个组件、模块或机制。模块可以构成软件模块或硬件实施的模块。硬件实施的模块是可以执行特定操作的有形的单元并可以以某种方式进行配置或安排。在示例性实施例中,一个或多个计算机系统(例如,独立的电脑、客户端或服务器计算机系统)或者一个或多个处理器可以通过软件(例如,应用或应用部分)被配置为运行以执行这里描述的某些操作的硬件实施的模块。
在多种实施例中,硬件实施的模块(例如,计算机实施的模块)可以通过机械的方式或电学的方式实现。例如,硬件实施的模块可以包括被永久配置为(例如,作为专用处理器,诸如场可编程门阵列(FPGA)或专用集成电路(ASIC))执行某些操作的专用电路或逻辑。硬件实施的模块还可以包括由软件临时配置为执行某些操作的可编程逻辑或电路(例如,被包括在通用处理器或其他可编程处理器内)。应该理解的是,可以在考虑成本和时间的情况下决定在专用和永久配置电路中或在(例如由软件配置的)临时配置的电路中通过机械方式实施硬件实施的模块。
因此,术语“硬件实施的模块”(例如“计算机实施的模块”)应被理解为包括有形实体、被理解为物理构造的、永久配置的(例如,硬件化的)、或临时或易失性地配置的(例如,编程的)以特定方式操作和/或执行这里描述的特定操作的实体。对于某些临时配置的(例如,编程的)硬件实施的模块的实施例,每个硬件实施的模块不需要被适时地配置或实例化。例如,在硬件实施的模块包括由软件配置的通用处理器的情况下,通用处理器可以在不同的时间被配置为各自不同的硬件实施的模块。软件可以相应地配置处理器,例如,在一个时间点将处理器构造为特定的硬件实施的模块并在不同的时间点将处理器构造为不同的硬件实施的模块。
硬件实施的模块可以提供信息给其他的硬件实施的模块,并从其他的硬件实施的模块接收信息。因此,描述的硬件实施的模块可以被认为是通信式地结合的。在多个这样的硬件实施的模块同时存在的情况下,可以通过连接硬件实施例的模块的(例如,经适当的电路和总线的)信号传输来实现通信。在不同的时间配置或实例化多个硬件实施的模块的实施例中,可以实现硬件实施的模块之间的通信,例如,通过在多个硬件实施的模块具有访问权限的存储器结构中存储和检索信息来实现这样的硬件实施的模块之间的通信。例如,一个硬件实施的模块可以执行操作并将该操作的输出存储在其通信式结合的存储器装置中。然后,另一硬件实施的模块在晚些时候访问存储器装置以检索并处理存储的输出。硬件实施的模块还可以初始化与输入或输出装置的通信,并可以对资源(例如,信息的集合)进行操作。
这里描述的示例性方法的多种操作可以至少部分地由(通过软件)临时配置的或永久配置的以执行相关操作的一个或多个处理器执行。不管是临时配置的还是永久配置的,这样的处理器可以构成进行操作以执行一个或多个操作或功能的处理器实现的模块。这里所述的模块可以在一些示例性实施例中包括处理器实现的模块。
类似的,这里描述的方法可以至少部分地由处理器实现。例如,至少方法中的一些操作可以通过一个或多个处理器或处理器实现的模块执行。一些操作的执行可以分布在一个或多个处理器中,这些处理不仅可以驻留在单个机器内,也可以部署在多个机器。在一些示例性实施例中,单个处理器或多个处理器可以位于单个位置(例如,在家庭环境、办公室环境内或作为处理器场),而在其他实施例中,处理器可以分布在多个位置中。
一个或多个处理器还可以在“云计算”环境中操作以支持相关操作的执行或作为“软件即服务器”(SaaS)。例如,至少一些操作可由一组计算机(作为包括处理器的机器的示例)执行,这些操作可经网络(例如,互联网)并经一个或多个适当的接口(例如,应用程序接口(API))进行访问。
4、结论
虽然上面仅详细地描述了某些实施例,但是本领域技术人员将容易地理解,可以在不实质性地脱离本公开的新颖性教导的情况下进行许多修改。例如,上面公开的实施例的方面可以以其他的组合方式进行组合以形成另外的实施例。因此,所有的这样的修改均应包括在本公开的范围内。
Claims (20)
1.一种处理测序读段的方法,所述方法包括:
访问与测量系统相关的多个测序读段,每个测序读段包括碱基值的序列,每个测序读段的一个或多个位置与表征在所述一个或多个位置处的测量系统的操作的质量分数相关;
基于质量分数的值来指定一个或多个质量条件;
使用所述一个或多个质量条件来指定测序读段的一个或多个质量分类,每个质量分类基于满足在测序读段的位置处的至少一个对应的质量条件;
提供与每个质量分类对应的错误特性。
2.如权利要求1所述的方法,其中,具有给定的质量分类的给定的测序读段满足均匀地跨给定的测序读段中的位置对应的一个或多个质量条件。
3.如权利要求1所述的方法,其中,每个错误特性包括跨对应的测序读段的一部分的与测量系统对应的估计的错误。
4.如权利要求1所述的方法,其中,每个质量条件对应于将至少一个阈值应用于质量分数的值。
5.如权利要求1所述的方法,其中,质量分数对应于Phred分数。
6.如权利要求1所述的方法,其中,在给定位置处的质量分数表征与附近位置的信号强度相关的信号强度。
7.如权利要求1所述的方法,其中,测量系统为基因组测量系统。
8.如权利要求1所述的方法,其中,测序读段对应于脱氧核糖核酸(DNA)、互补DNA(cDNA),或核糖核酸(RNA)中的至少一种。
9.如权利要求1所述的方法,所述方法还包括:
识别具有给定错误特性的给定质量分类的给定测序读段;
确定部分给定测序读段,其中,部分给定测序读段的给定错误特性包括跨给定的测序读段的该部分与测量系统对应的估计的错误上的均匀边界。
10.如权利要求1所述的方法,所述方法还包括:
通过使用测量系统提供测序读段,以使用测序读段的长度的增加值来分析靶序列。
11.一种存储用于处理测序读段的计算机程序的非易失性计算机可读介质,所述计算机程序包括当由至少一个计算机执行时使所述至少一个计算机执行操作的指令,所述操作包括:
访问与测量系统相关的多个测序读段,每个测序读段包括碱基值的序列,每个测序读段的一个或多个位置与表征在所述一个或多个位置处的测量系统的操作的质量分数相关;
基于质量分数的值来指定一个或多个质量条件;
使用所述一个或多个质量条件来指定测序读段的一个或多个质量分类,每个质量分类基于满足在测序读段的位置处的至少一个对应的质量条件
提供与每个质量分类对应的错误特性。
12.如权利要求11所述的非易失性计算机可读介质,其中,具有给定的质量分类的给定的测序读段满足均匀地跨给定的测序读段中的位置对应的一个或多个质量条件。
13.如权利要求11所述的非易失性计算机可读介质,其中,每个错误特性包括跨对应的测序读段的一部分的与测量系统对应的估计的错误。
14.如权利要求11所述的非易失性计算机可读介质,其中,每个质量条件对应于将至少一个阈值应用于质量分数的值。
15.如权利要求11所述的非易失性计算机可读介质,其中,质量分数对应于Phred分数。
16.如权利要求11所述的非易失性计算机可读介质,其中,在给定位置处的质量分数表征与附近位置的信号强度相关的信号强度。
17.如权利要求11所述的非易失性计算机可读介质,其中,测序读段对应于脱氧核糖核酸(DNA)、互补DNA(cDNA),或核糖核酸(RNA)中的至少一种。
18.如权利要求11所述的非易失性计算机可读介质,其中,计算机程序还包括当由所述至少一个计算机执行时使所述至少一个计算机执行操作的指令,所述操作包括:
识别具有给定错误特性的给定质量分类的给定测序读段;
确定部分给定测序读段,其中,部分给定测序读段的给定错误特性包括跨给定的测序读段的该部分与测量系统对应的估计的错误上的均匀边界。
19.如权利要求11所述的非易失性计算机可读介质,其中,计算机程序还包括当由所述至少一个计算机执行时使所述至少一个计算机执行操作的指令,所述操作包括:
通过使用测量系统提供测序读段,以使用测序读段的长度的增加值来分析靶序列。
20.一种处理测序读段的设备,所述设备包括被配置为执行计算机实施的模块的操作的至少一个计算机,所述计算机实施的模块包括:
数据访问模块,用于访问与测量系统相关的多个测序读段,每个测序读段包括碱基值的序列,每个测序读段的一个或多个位置与表征在所述一个或多个位置处的测量系统的操作的质量分数相关;
质量阈值模块,用于基于质量分数的值来指定一个或多个质量条件;
质量分类模块,用于使用所述一个或多个质量条件来指定测序读段的一个或多个质量分类,每个质量分类基于满足在测序读段的位置处的至少一个对应的质量条件;
错误特性模块,用于提供与每个质量分类对应的错误特性。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361898650P | 2013-11-01 | 2013-11-01 | |
US61/898,650 | 2013-11-01 | ||
PCT/CN2014/072030 WO2015062183A1 (en) | 2013-11-01 | 2014-02-13 | Method and apparatus for separating quality levels in sequence data and sequencing longer reads |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105849284A true CN105849284A (zh) | 2016-08-10 |
CN105849284B CN105849284B (zh) | 2021-08-10 |
Family
ID=53003225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480072013.8A Expired - Fee Related CN105849284B (zh) | 2013-11-01 | 2014-02-13 | 序列数据中分离质量等级和测序较长读段的方法和设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160026756A1 (zh) |
CN (1) | CN105849284B (zh) |
WO (1) | WO2015062183A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842456B2 (en) * | 2015-07-01 | 2017-12-12 | Xerox Corporation | Vending machine for creating and dispensing personalized articles |
CN110299185B (zh) * | 2019-05-08 | 2023-07-04 | 西安电子科技大学 | 一种基于新一代测序数据的插入变异检测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101390101A (zh) * | 2006-02-16 | 2009-03-18 | 454生命科学公司 | 用于校正核酸序列数据中的引物延伸误差的系统和方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6274320B1 (en) * | 1999-09-16 | 2001-08-14 | Curagen Corporation | Method of sequencing a nucleic acid |
CN102206704B (zh) * | 2011-03-02 | 2013-11-20 | 深圳华大基因科技服务有限公司 | 组装基因组序列的方法和装置 |
-
2014
- 2014-02-13 US US14/358,620 patent/US20160026756A1/en not_active Abandoned
- 2014-02-13 CN CN201480072013.8A patent/CN105849284B/zh not_active Expired - Fee Related
- 2014-02-13 WO PCT/CN2014/072030 patent/WO2015062183A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101390101A (zh) * | 2006-02-16 | 2009-03-18 | 454生命科学公司 | 用于校正核酸序列数据中的引物延伸误差的系统和方法 |
Non-Patent Citations (2)
Title |
---|
EWING B1, GREEN P.,: "Base-calling of automated sequencer traces using phred. II. Error probabilities", 《GENOME RES.》 * |
EWING B1, HILLIER L, WENDL MC, GREEN P.,: "Base-calling of automated sequencer traces using phred. I. Accuracy assessment", 《GENOME RES.》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2015062183A1 (en) | 2015-05-07 |
US20160026756A1 (en) | 2016-01-28 |
CN105849284B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Turakhia et al. | Ultrafast Sample placement on Existing tRees (UShER) enables real-time phylogenetics for the SARS-CoV-2 pandemic | |
Kolmogorov et al. | Assembly of long, error-prone reads using repeat graphs | |
Ma et al. | Spatially informed cell-type deconvolution for spatial transcriptomics | |
Costello et al. | A machine learning approach to predict metabolic pathway dynamics from time-series multiomics data | |
Trachana et al. | Orthology prediction methods: a quality assessment using curated protein families | |
Singer et al. | Single-cell mutation identification via phylogenetic inference | |
Hughes et al. | Comprehensive phylogeny of ray-finned fishes (Actinopterygii) based on transcriptomic and genomic data | |
Hardwick et al. | Spliced synthetic genes as internal controls in RNA sequencing experiments | |
Rockman | Reverse engineering the genotype–phenotype map with natural genetic variation | |
Aviran et al. | Modeling and automation of sequencing-based characterization of RNA structure | |
Horwood et al. | Molecular design in synthetically accessible chemical space via deep reinforcement learning | |
Bradburd et al. | Disentangling the effects of geographic and ecological isolation on genetic differentiation | |
TWI748263B (zh) | 一種基因變異辨識方法、裝置和儲存介質 | |
Schwartz et al. | Cost-effective strategies for completing the interactome | |
Xu et al. | GASTS: Parsimony scoring under rearrangements | |
Lloyd | Journeys through discrete‐character morphospace: synthesizing phylogeny, tempo, and disparity | |
Wang et al. | Towards an accurate and efficient heuristic for species/gene tree co-estimation | |
CN105849284A (zh) | 序列数据中分离质量等级和测序较长读段的方法和设备 | |
Dall'Olio et al. | Human genome variation and the concept of genotype networks | |
Ralph et al. | Using B cell receptor lineage structures to predict affinity | |
López-Giráldez et al. | Evaluating phylogenetic informativeness as a predictor of phylogenetic signal for metazoan, fungal, and mammalian phylogenomic data sets | |
Rehfeldt et al. | ProteomicsML: an online platform for community-curated data sets and tutorials for machine learning in proteomics | |
Dingle et al. | Predicting phenotype transition probabilities via conditional algorithmic probability approximations | |
Indrischek et al. | The paralog-to-contig assignment problem: high quality gene models from fragmented assemblies | |
Zheng et al. | New multivariate tests for phylogenetic signal and trait correlations applied to ecophysiological phenotypes of nine Manglietia species |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210810 |