CN108350494B - 用于基因组分析的系统和方法 - Google Patents

用于基因组分析的系统和方法 Download PDF

Info

Publication number
CN108350494B
CN108350494B CN201680059045.3A CN201680059045A CN108350494B CN 108350494 B CN108350494 B CN 108350494B CN 201680059045 A CN201680059045 A CN 201680059045A CN 108350494 B CN108350494 B CN 108350494B
Authority
CN
China
Prior art keywords
variant
aligned
sequence
reads
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680059045.3A
Other languages
English (en)
Other versions
CN108350494A (zh
Inventor
A·奎罗兹扎拉特
R·奥利瓦雷斯-阿马亚
T·J·沃森
H·C·范阿格伦
E·克罗纳多斯洛卡
C·A·安古洛瑟美诺
F·芬布勒斯胡拉多
A·索利斯加西亚-印达
F·冯托夫赫雷拉
P·G·考斯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ARC Bio LLC
Original Assignee
ARC Bio LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ARC Bio LLC filed Critical ARC Bio LLC
Publication of CN108350494A publication Critical patent/CN108350494A/zh
Application granted granted Critical
Publication of CN108350494B publication Critical patent/CN108350494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Wood Science & Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Physiology (AREA)
  • Signal Processing (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文提供了用于比对通过测序装置生成的原始遗传序列数据的方法。本文还提供了这样的方法和系统,其用于对一个或多个读数对的可能比对是正确的概率进行定量,用于识别已知变体,以及用于检测新型结构变体。

Description

用于基因组分析的系统和方法
相关申请的交叉援引
本申请要求2015年8月6日提交的的美国临时申请62/201,923的权益,其通过引用纳入本文。
背景技术
生物测序是确定诸如DNA、RNA、蛋白质和其它聚合物的生物分子内单体(例如,核苷酸或氨基酸)精确顺序的方法。测序方法和仪器的快速发展可以显著地促进生物医学研究。例如,下一代核酸测序技术可以提供一种低成本、高通量测序方法的范例。下一代测序技术可以使测序过程平行化,从而同时产生数千个或数百万个核苷酸测序,获得大量信息。测序的精度也可以通过下一代测序技术显著地增强。这样的技术可以使得研究人员在较短的时间内收集大量高精度序列数据。全基因组DNA和RNA序列已经成为基因测试和疾病诊断和治疗的常规程序。
通常,基因组数据可以存档于储存库中,例如,单独的储存库(例如,那些与生成基因组数据的实验室相关的)或公开序列储存库,其将从不同实验室收集的数据存档于中心储存库内。储存如此大容量的数据需要存储库具有具备巨大容量储存能力的大储存盘。此外,随着研究的进展,输入的基因组数据量也会增加,因此增加维护成本以及对额外储存空间的需求。而且,因为基因组数据可以用于进一步的参照,所以可以压缩形式存档基因组数据,从而允许在不损失任何信息的情况下解压缩和获取
发明概述
本文公开了一种用于比对通过测序装置生成的原始遗传序列数据的方法,该方法包括:(a)获取通过测序装置生成的原始遗传序列数据;并且(b)将所述通过测序装置生成的原始遗传序列数据与基因组差异图谱(variation map)上的位置比对,其中基因组差异图谱包括选替路径(alternate path)。在一些实施方式中,映射通过图像比对(graphalignment)进行。在一些实施方式中,图像比对使用单一图像。在一些实施方式中,映射使用缺口比对(gapped alignment)进行。在一些实施方式中,映射使用半缺口比对进行。在一些实施方式中,还包括在映射步骤中累加选替路径(alternative path)中特定路径被映射的次数。
本文公开了一种对一个或多个读数对的可能比对是正确的概率进行定量的方法,其中计算了读数对子集的可能比对是正确的概率,将其作为正确比对个别读数的概率和用于观测读数对的比对特征的估计概率的函数,包括但不限于对齐的读数之间的距离和各对两个读数的比对方向。在一些实施方式中,基于子集中的一个或多个其它读数对(其可以是具有相同条形码的读数对)的比对特征,可以对一个或多个读数对的可能比对是正确的概率进行进一步的评分。
本文公开了一种对一个或多个读数的可能比对是正确的概率进行定量的方法,其中计算了读数子集的可能比对是正确的概率,将其作为个别读数的比对是正确的概率和观测子集中其它读数(其可以是具有相同条形码的读数)的比对特征的概率的函数。
本文公开了通过将图像参照比对与新型变体或结构变体检测结合来改善变体识别(variant calling)的系统和方法。用于检测变体的方法包括:a)获得多个序列读数,b)将其与图像参照比对,c)鉴定可以指示变异或结构变异存在的读数,并将其直接或间接的传递至变体识别器(caller)(例如,先写入文件)。在一些实施方式中,可以将新检测到的变体的子集自动添加到参照,并且然后可将更新的参照用于另一个比对。在一些实施方式中,在比对步骤进行(也就是,并非所有序列读数都已经比对了)并且被写入配置文件或传递至变体识别器时,鉴定指示变异或结构变异存在的读数的子集。以此方式,在变体识别之前不需要扫描全部对齐的读数的步骤。然后可以在图像参照比对进行时或之后进行新型变体检测步骤。
本文公开了用这样格式的图像参照表征序列读数比对的系统,所述图像参照的格式与用于和线性参照比对的读数的格式兼容,该系统包括:a)接收模块,用于接收读数的图像比对,其中图像参照序列包括通过相对于线性参照(linear reference)序列的变体路径表示的已知变体;以及b)报告模块,其通过报告其比对起始相对于参照序列的坐标和表示变体鉴定数的读数标示(read flag)(如果读数与变体路径比对)来表征读数的图像比对。在一些情况中,如果读数与变体比对,可以设置读数标示。在一些情况中,报告模块还进一步指定读数标签,其指示对齐的读数相对于变体路径坐标的起点。在一些情况中,报告模块还进一步指定读数标签,其指示对齐的读数相对于变体路径坐标的起点和终点。在一些情况中,报告模块指定读数标签,其包含相对于变体路径的比对评分集合。在一些实施方式中,可以将用图像参照的读数比对转换回线性参照的坐标。
本文公开了一种生成单个定相选替序列(single phased alternate sequence)路径的方法,该方法包括:获得参照序列;获取与参照序列为选替关系的参照序列上的关联基因座,并生成包含关联基因座的单个定相选替序列路径。在一些实施方式中,关联基因座来自两个或多个对象。在一些实施方式中,关联基因座是映射到参照序列上超过一个位置的不同序列的集合。在一些实施方式中,该不同序列的集合中的至少两个是定相的(phased)。在一些实施方式中,该方法还包括标引该不同序列的集合中至少两个的所述定向的集合。
本文公开了一种标引具有选替路径的参照序列方法,该方法包括:(a)接收参照序列;(b)接收锚着于所述参照序列的选替序列;(c)在少于或等于2小时内生成所述参照序列和选替序列的多个k-mer;并且(d)用所述k-mer标引具有选替路径的参照序列。在一些实施方式中,参照序列是人参照基因组。在一些实施方式中,参照序列是非人参照基因组。在一些实施方式中,生成使用线性参照坐标系统以直接标引k-mer。在一些实施方式中,生成并不涉及分配节点ID、边际(edge)或路径。
本文公开了一种标引具有选替路径的参照序列的方法,该方法包括:(a)接收参照序列;(b)接收锚着于参照序列的选替序列;(c)生成所述参照序列和选替序列的多个标引的k-mer,其适少于或等于80千兆字节的电脑空间内;并且(d)使用k-mer标引具有选替路径的参照序列。在一些实施方式中,计算机空间选自以下一种或多种:磁盘、RAM或地址空间。在一些实施方式中,参照序列是人参照基因组。在一些实施方式中,参照序列是非人参照基因组。在一些实施方式中,生成步骤通过直接使用线性参照坐标系统进行,并且当选替的k-mer出现在坐标系统中时直接标引选替的k-mer。在一些实施方式中,生成并不涉及分配节点ID、边际或路径。
本文公开了一种在具有选替路径的参照序列中查询k-mer标引的方法,该方法包括:(a)在包含来自具有选替路径的参照序列的选替路径的参照序列中获取包括多个k-mer和位置的标引;并且(b)以大于或等于69,000k-mer/秒/计算线程(compute thread)的速率在具有选替路径的参照序列中查询具有k-mer的所述标引。在一些实施方式中,以大于或等于345,000k-mer/秒/计算线程的速率在多个计算线程上进行查询。在一些实施方式中,计算线程的数量大于4。
在一些实施方式中,计算线程的数量大于1、大于2、大于3、大于4、大于5、大于6、大于7、大于8、大于9、大于10、大于20、大于30、大于40、大于50、大于60、大于70、大于80、大于90或大于100。在一些实施方式中,以大于或等于345,000k-mer/秒/核心的速率在多个计算核心上进行查询。
在一些实施方式中,大于95%的处理器工作(processor work)专用于查询标引。在一些实施方式中,大于85%的处理器工作专用于查询标引。在一些实施方式中,大于75%的处理器工作专用于查询标引。在一些实施方式中,大于65%的处理器工作专用于查询标引。
在一些实施方式中,处理器工作只专用于查询标引的工作。在一些实施方式中,处理器工作不包括下述一个或多个任务:核心任务、储存器交换或I/O。
在一些实施方式中,k-mer的长度是至少10、20、30、40、50、60、70、80、90或100个核苷酸(nt)。在具体实施方式中,k-mer的长度至少是32。
本文公开了一种比较序列的方法,该方法包括:(a)当测序试验正在进行时从测序仪获取读数;(b)当该测序试验正在进行时对所述读数与序列进行比较;并且(c)确定特定基因座是否在所述读数中。在一些实施方式中,该方法还包括累加所述特定基因座出现的次数。
本文还公开了一种在具有选替序列的参照基因组中定相基因座的方法,该方法包括:(a)在序列中获取出现多个选替路径次数的累积,其中各多个选替路径包括基因座;并且(b)基于多个选替路径的累积丰度计数将来自不同选替路径的基因座分组;并且(c)基于共同的分组将基因座定相。共同分组可以表示这样的读数,其连接成成对末端、伴侣对或由单链的遗传物质生成并通过距离分开的任何其它序列数据。
本文公开了比较序列的方法,该方法包括:(a)当测序试验正在进行时从测序仪获取读数;(b)当该测序试验正在进行时将所述读数加密(c)在不将所述读数解码的情况下与参照序列比较。在一些实施方式中,参照序列是基因组差异图谱。在一些实施方式中,参照序列是参照人基因组。在一些实施方式中,参照序列是非人参照基因组。
本文公开了比较序列的方法,该方法包括:(a)当测序试验正在进行时从测序仪获取读数;(b)当该测序试验正在进行时将所述读数加密;并且(c)将所述加密的读数传输到处理装置。在一些实施方式中,该方法还包括解密所述加密的读数。在一些实施方式中,该方法还包括当测序试验正在进行时比较所述读数与序列。在一些实施方式中,该方法还包括传输与加密的读数相关的解密密钥。
本文公开了比较序列的方法,该方法包括:(a)当测序试验正在进行时从测序仪获取读数;(b)当测序试验正在进行时将所述读数压缩至处理装置;(c)当测序试验正在进行时将所述读数解压至序列;并且(d)当测序试验正在进行时将所述读数与参照序列比较。
公开了用于识别已知变体的系统和方法,该系统和方法包括:(a)获取读数;(b)由所述读数生成k-mer配置文件(k-mer profile);并且(c)针对来自具有选替路径的参照序列的k-mer配置文件的标引查询该k-mer配置文件以识别(call)变体。在一些实施方式中,使用至少一个单一核心以大于或等于10变体识别/秒/核心的速率鉴定已知变体。
本文公开了一种用于压缩序列数据的系统,该系统包括:(a)用于接收测序数据的模块;(b)用于储存所述测序数据的存储器单元;以及(c)编码模块,其具有对储存器以及其上储存的测序数据的访问,并且用于编码一些或所有测序数据。在一些实施方式中,测序数据被压缩至等于或大于所接收的测序数据81.5%的水平。在一些实施方式中,测序数据包括字段(field),所述字段能包括下述中的一个或多个:序列标识符;碱基识别数据;氨基酸调用数据;用于注释的线路(line);和用于碱基识别数据的质量值。在一些实施方式中,编码模块将测序数据中的碱基识别数据与其它测序数据分离。在一些实施方式中,编码模块将测序数据中的氨基酸识别数据与其它测序数据分离。在一些实施方式中,碱基识别数据中的核苷酸碱基与对应核苷酸碱基的字符相关,所述对应核苷酸碱基的字符是:腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C),并且将不能确定的碱基与(N)相关。在一些实施方式中,氨基酸识别数据与对应氨基酸的字符相关。
在一些实施方式中,如果无法确定测序数据中的碱基,那么编码模块无法将测序数据中的碱基识别数据与其它测序数据分离以编码与该碱基相关的读数。在一些实施方式中,与未确定的碱基相关的读数被压缩成未分离的读数。
在一些实施方式中,在具有无法被确定的碱基识别的读数中,保存这样的碱基位置。在一些实施方式中,在具有无法被确定的碱基识别的所有读数中,保存这样的碱基位置。在一些实施方式中,至少90%的读数具有无法被确定的碱基识别,保存这样的碱基位置。在一些实施方式中,如果碱基长度小于256个碱基,那么将碱基位置保存在少于1字节中。在一些实施方式中,如果长度少于65536个碱基,那么将碱基位置保存在少于2字节中。在一些实施方式中,编码模块使用增量编码(delta encoding)保存信息。在一些实施方式中,编码模块在基于核苷酸的数据上进行4进制编码(base-4encoding)。在一些实施方式中,依次保存测序数据的各字段。
在一些实施方式中,本文所公开的系统具有至少两个保存在分开的文件中的字段。在一些实施方式中,在各字段上使用不同的压缩算法保存至少两个不同的文件。在一些实施方式中,使用增量编码压缩序列标识符字段中的数据。一些实施方式中,使用Burrows-Wheeler变换处理碱基识别数据。在一些实施方式中,碱基识别数据的处理进一步包括运行行程编码(run-length encoding)和使用哈夫曼编码(Huffman Encoding)进行压缩。在一些实施方式中,使用增量编码压缩用于注释的线路。在一些实施方式中,当字段是空的时候,忽略用于注释的附加线路(additional line)。一些实施方式中,使用Burrows-Wheeler变换处理质量值数据。在一些实施方式中,处理进一步包括运行行程编码和使用哈夫曼编码进行压缩。
本文公开了一种用于压缩序列比对映射(SAM)数据的系统,该系统包括:(a)其上储存了SAM数据的储存器;(b)编码模块,其能够访问其上储存了SAM数据的储存器并且用于将SAM数据压缩至等于或大于80%的水平。在一些实施方式中,编码模块使用增量编码压缩SAM数据中的查询模板名称(query template name)。在一些实施方式中,编码模块使用增量编码压缩SAM数据中的参照序列名称(reference sequence name)。IES编码模块使用增量编码压缩SAM数据中的最左映射位置(leftmost mapping position)。在一些实施方式中,编码模块使用增量编码压缩SAM数据中伴侣读数(mate read)的参照名称(referencename)。在一些实施方式中,编码模块使用增量编码压缩SAM数据中伴侣读数的位置。在一些实施方式中,编码模块使用哈夫曼编码方法压缩来自cigar串的数据。在一些实施方式中,编码模块使用基于字典的(dictionary-based)方法压缩来自cigar串的数据。在一些实施方式中,编码模块使用4进制编码压缩来自SAM数据的碱基识别数据。在一些实施方式中,编码模块压缩来自SAM数据的质量数据。在一些实施方式中,(a)可以使用增量编码压缩来自SAM数据的各数据,所述SAM数据包括查询模板名称、参照序列名称、最左映射位置、伴侣读数的参照名称和伴侣读数的位置中的一个或多个;(b)可以使用霍夫曼编码或基于字典的方法压缩来自包括cigar串的SAM数据的数据;(c)可以使用4进制编码压缩来自包括碱基识别数据的SAM数据的数据;并且(d)可以压缩来自包括质量数据的SAM数据的数据。在一些实施方式中,依次排列SAM数据。
本文公开了一种用于压缩变体识别格式(VCF)数据的系统,该系统包括:其上储存了VCF数据的储存器;编码模块,其能够访问其上储存了VCF数据的储存器并且用于将基因组数据编码至等于或大于95%VCF数据的水平。在一些实施方式中,编码模块使用增量编码压缩VCF数据中的查询模板名称。在一些实施方式中,编码模块使用增量编码压缩VCF数据中的参照序列名称。在一些实施方式中,编码模块使用增量编码压缩VCF数据中的最左映射位置。在一些实施方式中,编码模块使用增量编码压缩VCF中伴侣读数的参照名称。在一些实施方式中,编码模块使用增量编码压缩VCF中伴侣读数的位置。在一些实施方式中,编码模块使用哈夫曼编码方法压缩来自cigar串的数据。在一些实施方式中,编码模块使用基于字典的方法压缩来自cigar串的数据。在一些实施方式中,编码模块使用4进制编码压缩来自VCF数据的碱基识别数据。在一些实施方式中,编码模块压缩来自VCF数据的质量数据。
本公开的一个方面提供了一种用于比对通过测序装置生成的原始遗传序列数据的方法,该方法包括:(a)获得通过测序装置生成的原始遗传序列数据;(b)将该通过测序装置生成的原始遗传序列数据映射到差异图谱上的位置,其中差异图谱包括选替路径;并且(c)根据通过测序装置生成的原始遗传序列数据在差异图谱上的位置对通过测序装置生成的原始遗传序列数据进行比对。
在一些实施方式中,映射通过图像比对进行。在一些实施方式中,图像比对使用至少一个图像。在一些实施方式中,映射使用缺口比对进行。在一些实施方式中,映射使用半缺口比对进行。在一些实施方式中,该方法还包括在映射期间累加选替路径的特定路径被映射的次数。在一些实施方式中,原始遗传序列数据包括一个或多个读数对,并且其中计算了读数对子集的可能比对是正确的概率,将其作为(a)正确比对读数对的个别读数的概率的函数,和(b)观测到读数对比对特征的估计概率的函数,所述读数对比对特征包括该读数对中对齐的读数之间的距离和该读数对中两个读数的比对方向。在一些实施方式中,原始遗传序列数据包括一个或多个读数对,并且其中计算了读数对子集的可能比对是正确的概率,将其作为(a)正确比对读数对的个别读数的概率的函数,(b)观测到读数对比对特征的估计概率的函数,所述读数对比对特征包括该读数对中对齐的读数之间的距离和该读数对中两个读数的比对方向,(c)观测到子集中一个或多个其它读数对的可能比对特征的估计概率的函数。在一些实施方式中,计算了读数对子集的可能比对是正确的概率,将其作为(a)正确比对读数对的个别读数的概率的函数,和(b)观测到子集中一个或多个其它读数的可能比对特征的估计概率的函数。
本公开的一个方面提供了一种鉴定新型变体的方法,该方法包括:(a)获得多个序列读数;(b)针对图像参照比对多个序列读数,其中图像参照包括通过选替路径表示的已知变体;并且(c)使用针对一个或多个选替路径异常对齐的多个序列读数的子集鉴定新型变体。
在一些实施方式中,新型变体包括结构变体。在一些实施方式中,用于鉴定新型变体的多个序列读数的子集与图像参照中的所有选替路径异常对齐。在一些实施方式中,序列读数包括读数对,并且其中异常对齐包括不同于大多数对齐的读数对方向的对齐的读数对方向。在一些实施方式中,序列读数包括读数对,并且其中异常对齐包括对齐的读数对插入长度,其显著地小于或大于大多数对齐的读数对插入长度。在一些实施方式中,插入长度比对齐的读数子集的中值插入长度大或小10%以上。在一些实施方式中,插入长度比对齐的读数子集的中值插入长度大或小50%以上。在一些实施方式中,插入长度比对齐的读数子集的中值插入长度大或小100%以上。在一些实施方式中,插入长度比对齐的读数子集的中值插入长度大或小200%以上。在一些实施方式中,插入长度比对齐的读数子集的中值插入长度大或小300%以上。在一些实施方式中,插入长度大于对齐的读数子集的插入长度的第99百分位,或小于其第1位百分位。在一些实施方式中,插入长度大于对齐的读数子集的插入长度的第98百分位,或小于其第2位百分位。在一些实施方式中,插入长度大于对齐的读数子集的插入长度的第97百分位,或小于其第3位百分位。在一些实施方式中,插入长度大于对齐的读数子集的插入长度的第95百分位,或小于其第5位百分位。在一些实施方式中,插入长度大于对齐的读数子集的插入长度的第90百分位,或小于其第10位百分位。在一些实施方式中,插入长度大于或小于一些用户指定值。在一些实施方式中,序列读数包括读数对,并且其中异常对齐包括这样的读数对,其中一个读数是对齐的而另一个读数是不对齐的。在一些实施方式中,异常对齐包括这样的读数,其中该读数的部分被剪切。在一些实施方式中,读数被剪切的部分大于10%。在一些实施方式中,读数被剪切的部分大于5%。在一些实施方式中,读数被剪切的部分大于20%。在一些实施方式中,读数被剪切的部分大于30%。在一些实施方式中,鉴定的新型变体是之前没有针对目标应用记录的变体。在一些实施方式中,鉴定的新型变体是不存在于图像参照中的变体。在一些实施方式中,鉴定的新型变体的子集被自动加入图像参照以产生更新的图像参照,并且其中该更新的图像参照用于另一个比对。在一些实施方式中,该方法还包括对与图像参照中选替路径对齐的读数的数量进行计数,并且使用与图像参照中选替路径对齐的读数的数量鉴定已知变体。在一些实施方式中,鉴定的新型变体包括结构变体。在一些实施方式中,已知变体之前已经针对目标应用记录。在一些实施方式中,新型变体之前没有针对目标应用记录。在一些实施方式中,已知变体是这样的变体,其存在于图像参照中。在一些实施方式中,新型变体是这样的变体,其不存在于图像参照中。在一些实施方式中,异常对齐包括下述一种或多种:a)不同于大多数对齐的读数对方向的对齐的读数对方向;b)显著小于或大于大多数对齐的读数对插入长度的对齐的读数对插入长度;c)其中一个读数是对齐的而一个是不对齐的读数对;d)部分被剪切的读数;e)这样的读数对,其中插入长度大于对齐的读数对子集的插入长度的第99、第98、第97、第95或第90百分位或小于其的第1、第2、第3、第5或第10百分位;和f)读数与不同参照序列比对的读数对。在一些实施方式中,不同的参照序列来自不同的染色体。在一些实施方式中,该方法还包括鉴定这样的鉴定的新型变体的子集,其满足预定义的质量标准或检测确定性标准,以及将该子集添加到图像参照。在一些实施方式中,该方法还包括鉴定这样的鉴定的新型变体的子集,其在预定的大小范围内,以及将该子集添加到图像参照。在一些实施方式中,该方法还包括鉴定这样的鉴定的新型变体的子集,其位于基因组预定义区域中,以及将该子集添加到图像参照。在一些实施方式中,该方法还包括鉴定这样的鉴定的新型变体的子集,其已经在一组或多组序列读数中以大于预定义相对或绝对值的频率被检测到,以及将该子集添加到图像参照。在一些实施方式中,更新的图像参照被用于后续的比对和变体检测。在一些实施方式中,使用图像参照,并且在超过一个比对和变体检测中逐渐更新。在一些实施方式中,使用图像参照,并且在相同计算机上超过一个比对和变体检测中逐渐更新。在一些实施方式中,共享图像参照,并且在一个或多个计算机间更新。在一些实施方式中,储存图像参照,并且在中心存储库中更新然后在一个或多个计算机间共享。在一些实施方式中,已知变体或新型变体包括物种内变体。在一些实施方式中,已知变体或新型变体包括物种间变体。
本公开的一个方面提供了一种检测序列变体的方法,该方法包括:a)获得多个序列读数;b)通过包括将多个序列读数的子集针对图像参照进行比对的过程来产生一批对齐的读数,其中图像参照包括通过选替路径表示的已知变体;c)在该批次对齐的读数内鉴定一个或多个异常对齐的读数;并且d)使用一个或多个异常对齐的读数来鉴定新型结构变体。
在一些实施方式中,该方法还包括对该批次对齐的读数中与图像参照中选替路径对齐的读数的数量进行计数,并且使用该读数的数量鉴定已知变体。在一些实施方式中,该方法还包括针对至少一个另外批次中进行步骤a)到d)。在一些实施方式中,该方法还包括针对至少一个另外批次中进行步骤a)到d)。在一些实施方式中,已知变体之前已经针对目标应用记录。在一些实施方式中,新型变体之前没有针对目标应用记录。在一些实施方式中,已知变体是这样的变体,其存在于图像参照中。在一些实施方式中,新型结构变体是这样的变体,其不存在于图像参照中。在一些实施方式中,将来自该批次的异常对齐的读数的子集写入文件,随后用于鉴定新型结构变体。在一些实施方式中,将来自该批次的异常对齐的读数的子集传输到计算机程序中,以在不将该读数的子集写入文件的情况下鉴定新型结构变体。在一些实施方式中,异常对齐包括下述一种或多种:a)不同于大多数对齐的读数对方向的对齐的读数对方向;b)显著小于或大于大多数对齐的读数对插入长度的对齐的读数对插入长度;c)其中一个读数是对齐的而一个是不对齐的读数对;d)部分被剪切的读数;e)这样的读数对,其中插入长度大于对齐的读数对子集的插入长度的第99、第98、第97、第95或第90百分位或小于其的第1、第2、第3、第5或第10百分位;和f)读数与不同参照序列对齐的读数对。在一些实施方式中,不同的参照序列来自不同的染色体。在一些实施方式中,该方法还包括追踪与图像参照中选替路径对齐的读数的其它特征,并且使用该其它特征鉴定已知变体。在一些实施方式中,从文件中读取多个序列读数,少于1%的多个序列读数读取一次以上。在一些实施方式中,从文件中读取多个序列读数,少于5%的多个序列读数读取一次以上。在一些实施方式中,从文件中读取多个序列读数,少于10%的多个序列读数读取一次以上。在一些实施方式中,从文件中读取多个序列读数,少于15%的多个序列读数读取一次以上。在一些实施方式中,已知变体或新型结构变体包括物种内变体。在一些实施方式中,已知变体或新型结构变体包括物种间变体。
本公开的一个方面提供了一种以与线性参照比对所用格式兼容的格式简明地表征序列读数的图像参照比对的系统,该系统包括:a)接收模块,用于接收读数与图像参照序列的图像比对,其中图像参照序列包括通过相对于参照序列的变体路径表示的已知变体;b)报告模块,其通过报告所述读数的比对相对于所述参照序列的坐标的起点以及当所述读数与变体路径对齐时报告表示所述变体路径鉴定数的读数标签来表征读数的图像比对。
在一些实施方式中,报告模块还报告这样的读数标示,如果该读数与变体路径对齐,则设定该读数标示。在一些实施方式中,如果有b)的读数标签,那么该报告模块还输出第二读数标签,其指示对齐的读数相对于变体路径坐标的起点。在一些实施方式中,如果有b)的读数标签,那么该报告模块还输出第二读数标签,其指示对齐的读数相对于变体路径坐标的起点和终点。在一些实施方式中,如果有b)的读数标签,那么该报告模块还输出第二读数标签,其包含相对于变体路径的比对评分串。在一些实施方式中,该比对评分包括匹配、插入或缺失的数量。在一些实施方式中,如果有b)的读数标签,那么该报告模块还输出第二读数标签,其包含映射至变体路径的读数的数量。在一些实施方式中,该报告模块还输出第二读数标签,其包含映射至参照序列的读数的数量。在一些实施方式中,该报告模块还输出第二读数标签,其包含映射至参照序列的读数。在一些实施方式中,该报告模块还输出第二读数标签,其指示最初映射至变体路径的读数。在一些实施方式中,比对的起点指示在参照序列上的投影。
本公开的一方面提供了一种确定序列读数对的图像比对异常的系统,该系统包括a)接收模块,其接收与包括线性参照路径的图像参照比对的读数对,其中读数对中至少一个读数与选替路径部分或完全对齐;b)翻译模块,其将至少一个读数翻译成线性参照坐标系统并将翻译的操作信息以元数据储存;c)计算模块,其以输入接受读数对中的翻译的读数、元数据和第二读数,并且计算读数对特定的性质;并且d)决策模块,其接受该性质,并按照读数对是否与图像参照异常对齐对读数对进行分类。
在一些实施方式中,性质包括相对于线性参照路径的插入长度。在一些实施方式中,性质包括相对于线性参照路径的CIGAR评分。在一些实施方式中,性质包括相对于线性参照路径的比对位置。在一些实施方式中,比对报告物与下游分析工具兼容。在一些实施方式中,兼容性包括处于兼容的文件格式。在一些实施方式中,兼容的文件格式是SAM。在一些实施方式中,兼容的文件格式是BAM。在一些实施方式中,兼容的文件格式是VCF。
本公开的一方面提供了一种生成至少一个定相的选替序列路径的方法,该方法包括:a)获得参照序列;b)在选替参照序列上获取关联基因座;以及c)生成至少一个包括该关联基因座的定相的选替序列路径。
在一些实施方式中,关联基因座来自两个或多个不同来源。在一些实施方式中,关联基因座包括映射到参照序列上超过一个位置的不同序列的集合。在一些实施方式中,该不同序列的集合中的至少两个是定相的。在一些实施方式中,该方法还包括标引所述定相的不同序列的集合。
本公开的一方面提供了一种标引具有选替路径的参照序列的方法,该方法包括:(a)接收参照序列;(b)接收映射于该参照序列的选替序列;(c)在少于或等于2小时内生成该参照序列和选替序列的k-mer;并且(d)使用k-mer标引具有选替路径的参照序列。
在一些实施方式中,该参照序列是核酸序列。在一些实施方式中,该核酸序列是基因组序列。一些实施方式中,该核酸序列包括双链DNA、单链DNA、DNA/RNA杂交体、单链RNA、双链RNA或互补DNA(cDNA)。在一些实施方式中,该核酸序列是合成序列。在一些实施方式中,该基因组序列来自人基因组。在一些实施方式中,该基因组序列来自非人基因组。在一些实施方式中,该非人基因组选自下组:细菌基因组、病毒基因组、真菌基因组、原生动物基因组和植物基因组。在一些实施方式中,参照序列是氨基酸序列。在一些实施方式中,氨基酸序列是已知序列。在一些实施方式中,该氨基酸序列是功能序列。在一些实施方式中,该氨基酸序列是合成序列。在一些实施方式中,该氨基酸序列是人的。在一些实施方式中,该氨基酸序列是非人的。在一些实施方式中,该非人基因组选自下组:细菌序列、病毒序列、真菌序列、原生动物序列和花的(植物)序列。在一些实施方式中,选替路径包括未知氨基酸序列。在一些实施方式中,生成使用线性参照坐标系统以直接标引k-mer。在一些实施方式中,生成并不涉及分配节点ID、边际或路径。
本公开的一方面提供了一种标引具有选替路径的参照序列的方法,该方法包括:(a)接收参照序列;(b)接收映射于该参照序列的选替序列;(c)生成该参照序列和选替序列的多个标引的k-mer,其中多个标引的k-mer少于或等于80千兆字节的大小;并且(d)使用所述k-mer标引具有选替路径的参照序列。
在一些实施方式中,计算机空间选自以下一种或多种:磁盘、RAM或地址空间。在一些实施方式中,该参照序列是核酸序列。在一些实施方式中,该核酸序列是基因组序列。一些实施方式中,该核酸序列包括双链DNA、单链DNA、DNA/RNA杂交体、单链RNA、双链RNA或互补DNA(cDNA)。在一些实施方式中,该核酸序列是合成序列。在一些实施方式中,该基因组序列来自人基因组。在一些实施方式中,该基因组序列来自非人基因组。在一些实施方式中,该非人基因组选自下组:细菌基因组、病毒基因组、真菌基因组、原生基因组和植物基因组。在一些实施方式中,该参照序列是氨基酸序列。在一些实施方式中,该氨基酸序列是已知序列。在一些实施方式中,该氨基酸序列是功能序列。在一些实施方式中,该氨基酸序列是合成序列。在一些实施方式中,该氨基酸序列是人的。在一些实施方式中,该氨基酸序列是非人的。在一些实施方式中,该非人基因组选自下组:细菌序列、病毒序列、真菌序列、原生动物序列和花的(植物)序列。在一些实施方式中,生成步骤通过直接使用线性参照坐标系统进行,并且当选替序列的k-mer出现在坐标系统中时直接标引选替序列的k-mer。在一些实施方式中,生成并不涉及分配节点ID、边际或路径。
本文公开的一方面提供了一种在具有选替路径的参照序列中查询k-mer标引的方法,该方法包括:(a)获取包括来自具有选替路径的参照序列的多个k-mer的标引;并且(b)以大于或等于69,000k-mer/秒/计算线程的速率查询具有k-mer的标引。
在一些实施方式中,以大于或等于345,000k-mer/秒/计算线程的速率在多个计算线程上进行查询。在一些实施方式中,计算线程的数量大于4。在一些实施方式中,以大于或等于355,000k-mer/秒/核心的速率在多个计算核心上进行查询。在一些实施方式中,大于95%的处理器工作专用于查询标引。在一些实施方式中,处理器工作只专用于查询标引的工作。在一些实施方式中,处理器工作不包括下述一个或多个任务:核心任务、内存交换或I/O。在一些实施方式中,该k-mer是至少20的长度。在一些实施方式中,该k-mer是至少32的长度。
本公开的一个方面提供了一种比较序列的方法,该方法包括:(a)当测序仪正在进行测序试验时获取来自测序仪的读数;(b)当测序仪正在进行测序试验时将该读数与序列进行比较;并且(c)确定特定基因座是否在该读数中。
在一些实施方式中,该方法还包括累加特定基因座出现的次数。
本公开的一方面提供了一种用于在具有选替序列的参照序列中定相基因座的方法,该方法包括:(a)获取序列中多个选替路径出现的次数,其中各多个选替路径包括基因座;(b)基于多个选替路径出现的次数将来自不同选替路径的基因座分组;并且(c)基于共同的分组将基因座定相。
本公开的一个方面提供了一种比较序列的方法,该方法包括:(a)当测序仪正在进行测序试验时获取来自测序仪的读数;(b)当测序仪正在进行测序试验时将该读数加密;并且(c)在不将该读数解密的情况下,将该读数与参照序列比较。
在一些实施方式中,该参照序列是序列差异图谱。在一些实施方式中,该参照序列是参照核酸序列。在一些实施方式中,该核酸序列是基因组序列。一些实施方式中,该核酸序列包括双链DNA、单链DNA、DNA/RNA杂交体、单链RNA、双链RNA或互补DNA(cDNA)。在一些实施方式中,该核酸序列是合成序列。在一些实施方式中,该基因组序列来自人基因组。在一些实施方式中,该基因组序列来自非人基因组。在一些实施方式中,该非人基因组选自下组:细菌基因组、病毒基因组、真菌基因组、原生基因组和植物基因组。在一些实施方式中,参照序列是氨基酸序列。在一些实施方式中,该氨基酸序列是已知序列。在一些实施方式中,该氨基酸序列是功能序列。在一些实施方式中,该氨基酸序列是合成序列。在一些实施方式中,该氨基酸序列是人的。在一些实施方式中,该氨基酸序列是非人的。在一些实施方式中,该非人基因组选自下组:细菌序列、病毒序列、真菌序列、原生动物序列和花的序列。
本公开的一个方面提供了一种比较序列的方法,该方法包括:(a)当测序仪正在进行测序试验时获取来自测序仪的读数;(b)当测序仪正在进行测序试验时将该读数加密;并且(c)将该加密的读数传输到处理装置。
在一些实施方式中,该方法还包括解密该加密的读数。在一些实施方式中,该方法还包括当测序试验正在进行时对该读数与参照序列进行比较。在一些实施方式中,该方法还包括传输与加密的读数相关的解密密钥。
本公开的一个方面提供了一种比较序列的方法,该方法包括:(a)当测序仪正在进行测序试验时获取来自测序仪的读数;(b)当测序仪正在进行测序试验时将该读数在处理装置上压缩;(c)当测序仪正在进行测序试验时解压该读数;并且d)当测序仪正在进行测序试验时将该读数与参照序列比较。
本公开的一个方面提供了一种识别已知变体的方法,该方法包括:(a)获取读数;(b)由该读数生成k-mer配置文件;并且(c)针对来自具有选替路径的参照序列的k-mer配置文件的标引查询该k-mer配置文件以识别已知变体。
在一些实施方式中,使用至少一个单一核心以大于或等于10变体识别/秒/核心的速率识别该已知变体。
本公开的一个方面提供了一种用于压缩测序数据的系统,该系统包括:(a)用于接收测序数据的接收模块;(b)用于储存该测序数据的存储器单元;以及(c)编码模块,其能够访问储存器以及其上储存的测序数据,并且其用于保存一些或所有测序数据。
在一些实施方式中,测序数据被压缩至等于或大于所接收的测序数据90%的水平。在一些实施方式中,测序数据包括选自下述一个或多个的字段:序列标识符、碱基识别数据、注释线路和用于碱基识别数据的质量值。在一些实施方式中,测序数据包括氨基酸识别数据。在一些实施方式中,编码模块将测序数据中的碱基识别数据与其它测序数据分离。在一些实施方式中,编码模块将测序数据中的氨基酸识别数据与其它测序数据分离。在一些实施方式中,碱基识别数据中的核苷酸碱基与选自下组的核苷酸碱基相关:腺嘌呤、胸腺嘧啶、鸟嘌呤、胞嘧啶和未确定的碱基。在一些实施方式中,氨基酸识别数据中的氨基酸与选自下组的氨基酸相关:丙氨酸(ala,A),精氨酸(arg,R),天冬酰胺(asn,N),天冬氨酸(asp,D),半胱氨酸(cys,C),谷氨酰胺(gln,Q),谷氨酸(glu,E),甘氨酸(gly,G),组氨酸(his,H),异亮氨酸(ile,I),亮氨酸,L),赖氨酸(lys,K),甲硫氨酸(met,M),苯丙氨酸(phe,F),脯氨酸(pro,P),丝氨酸(ser,S),苏氨酸(thr,T),色氨酸(trp,W),酪氨酸(tyr,Y),缬氨酸(val,V)和未确定的氨基酸。在一些实施方式中,对于未确定的碱基,编码模块不将测序数据中的碱基识别数据与其它测序数据分离以编码与该未确定的碱基相关的读数。在一些实施方式中,与未确定的碱基相关的读数被压缩成未分离的读数。在一些实施方式中,保存具有未确定的碱基的读数的位置。在一些实施方式中,保存具有未确定的碱基的所有读数。在一些实施方式中,与未确定的碱基相关的读数小于256个碱基长度,并且将未确定的碱基的位置保存在少于1字节中。在一些实施方式中,与未确定的碱基相关的读数少于65536个碱基长度,并且将未确定的碱基的位置保存在少于2字节中。在一些实施方式中,编码模块使用增量编码保存信息。在一些实施方式中,编码模块在基于核苷酸的数据上进行4进制编码。在一些实施方式中,编码模块使用压缩字母(compressed alphabet)在基于氨基酸的数据上进行编码,所述压缩字母通过化学性质关联氨基酸。在一些实施方式中,顺序地保存测序数据的各字段。在一些实施方式中,将至少两个字段保存在单独的文件中。在一些实施方式中,在各字段上使用不同的压缩算法保存至少两个不同的文件。在一些实施方式中,使用增量编码压缩序列标识符字段中的数据。一些实施方式中,使用Burrows-Wheeler变换处理碱基识别数据。在一些实施方式中,处理碱基识别数据还包括运行行程编码并使用哈夫曼编码进行压缩。在一些实施方式中,使用增量编码压缩用于注释的线路。在一些实施方式中,当字段是空的时候,忽略用于注释的附加线路。一些实施方式中,使用Burrows-Wheeler变换处理质量值数据。在一些实施方式中,处理还包括运行行程编码并使用哈夫曼编码进行压缩。
一种用于压缩序列比对映射(SAM)数据的系统,该系统包括:(a)其上储存了SAM数据的储存器;(b)编码模块,其能够访问储存器以及其上储存的SAM数据,并且用于将SAM数据压缩至等于或大于80%的水平。
在一些实施方式中,编码模块使用增量编码压缩SAM数据中的查询模板名称。在一些实施方式中,编码模块使用增量编码压缩SAM数据中的参照序列名称。在一些实施方式中,该编码模块使用增量编码压缩SAM数据中的最左映射位置。在一些实施方式中,编码模块使用增量编码压缩SAM中伴侣读数的参照名称。在一些实施方式中,编码模块使用增量编码压缩SAM数据中伴侣读数的位置。在一些实施方式中,编码模块使用哈夫曼编码方法压缩来自CIGAR串的数据。在一些实施方式中,编码模块使用基于字典的方法压缩来自CIGAR串的数据。在一些实施方式中,编码模块使用4进制编码压缩来自SAM数据的碱基识别数据。在一些实施方式中,编码模块压缩来自SAM数据的质量数据。在一些实施方式中,(a)编码模块,用于使用增量编码压缩来自SAM数据的数据,所述SAM数据包括查询模板名称、参照序列名称、最左映射位置、伴侣读数的参照名称和伴侣读数的位置中的一个或多个;(b)编码模板,用于使用霍夫曼编码或基于字典的方法压缩来自SAM数据的数据,所述SAM数据包括CIGAR串;(c)编码模块,用于使用4进制编码压缩来自SAM数据的数据,所述SAM数据包括碱基识别数据;以及(d)编码模块,用于压缩来自SAM数据的数据,所述SAM数据包括质量数据。在一些实施方式中,SAM数据是顺序排列的。
本公开的一个方面提供了一种用于压缩VCF数据的系统,该系统包括:其上储存了VCF数据的储存器;和编码模块,其能够访问储存器以及其上储存的VCF数据,并且用于将基因组数据编码至等于或大于95%VCF数据的水平。
在一些实施方式中,编码模块使用增量编码压缩VCF数据中的查询模板名称。在一些实施方式中,编码模块使用增量编码压缩VCF数据中的参照序列名称。在一些实施方式中,该编码模块使用增量编码压缩VCF数据中的最左映射位置。在一些实施方式中,编码模块使用增量编码压缩VCF中伴侣读数的参照名称。在一些实施方式中,编码模块使用增量编码压缩VCF中伴侣读数的位置。在一些实施方式中,编码模块使用哈夫曼编码方法压缩来自cigar串的数据。在一些实施方式中,编码模块使用基于字典的方法压缩来自cigar串的数据。在一些实施方式中,编码模块使用4进制编码压缩来自VCF数据的碱基识别数据。在一些实施方式中,编码模块压缩来自VCF数据的质量数据。在一些实施方式中,对于具有未确定的碱基识别的读数,保存未确定的碱基识别的位置。在一些实施方式中,对于具有未确定的碱基识别的所有读数,保存未确定的碱基识别的位置。
本公开的一个方面提供了一种比对原始蛋白质组序列数据的方法,该方法包括:(a)获取原始蛋白质组序列数据;(b)将所述原始蛋白质组序列数据映射到差异图谱上的位置,其中差异图谱包括选替路径;并且(c)根据原始蛋白质组序列数据在差异图谱上的位置对原始蛋白质组序列数据进行比对。
在一些实施方式中,映射通过图像比对进行。在一些实施方式中,图像比对使用至少一个图像。在一些实施方式中,映射使用缺口比对进行。在一些实施方式中,映射使用半缺口比对进行。在一些实施方式中,该方法还包括在映射步骤中累加选替路径中特定路径被映射的次数。
本公开的一方面提供了一种生成至少一个选替序列路径的方法,该方法包括:a)获得参照序列;b)获取与参照序列为选替关系的参照序列的关联基因座,并且c)生成包含该关联基因座的至少一个选替序列路径。
在一些实施方式中,关联基因座来自两个或多个不同来源。在一些实施方式中,关联基因座是映射到参照序列上超过一个位置的不同序列的集合。
本公开的一个方面提供一种比较氨基酸序列的方法,该方法包括:(a)获取氨基酸序列;(b)由该氨基酸序列生成k-mer配置文件;并且(c)针对来自数据库内多个序列的k-mer配置文件的标引查询该k-mer配置文件。
本公开的一个方面提供了一种用于识别对于氨基酸序列已知变体的系统,该系统包括:(a)获取氨基酸序列;(b)由该氨基酸序列生成k-mer配置文件;并且(c)针对来自这样的数据库内k-mer配置文件的标引查询该k-mer配置文件以识别变体,所述数据库是已知具有选替路径的氨基酸和聚合物序列。
在一些实施方式中,使用至少一个单一核心以大于或等于10变体识别/秒/核心的速率鉴定已知变体。
本公开的一个方面提供了一种用于压缩氨基酸序列数据的系统,该系统包括:(a)用于接收氨基酸序列数据的模块;(b)用于储存该氨基酸序列数据的存储器单元;以及(c)编码模块,其能够访问储存器以及其上储存的氨基酸序列数据,并且用于编码一些或所有氨基酸序列数据。
本公开的一方面提供了用于鉴定样品中物种和/或菌株的方法,该方法包括:a)获取读数;b)由该读数生成k-mer配置文件;并且(c)针对具有选替路径的参照序列的k-mer配置文件的标引查询该k-mer配置文件以识别变体;并且d)根据该识别的变体确定存在于样品中的物种或菌株。
在一些实施方式中,k-mer配置文件包括具有缺口的k-mer。在一些实施方式中,k-mer配置文件以多达1,000,000个碱基1个的频率压缩不同的序列。在一些实施方式中,选替路径的标引包括定相的信息。在一些实施方式中,只使用与菌株之间差异直接相关的k-mer。在一些实施方式中,相较于来自参照序列的k-mer配置文件的标引,该k-mer标引的大小减少至少99%。在一些实施方式中,相较于来自参照序列的k-mer配置文件的标引,该k-mer标引的大小减少至少99.9%。在一些实施方式中,只将与菌株之间差异直接相关的k-mer测定用于变体测定。在一些实施方式中,相较于来自参照序列的k-mer配置文件的标引,该k-mer标引的大小减少至少99%。在一些实施方式中,其中,相较于来自参照序列的k-mer配置文件的标引,该k-mer标引的大小减少至少99.9%。
附图简要说明
图1显示了基因组分析的示例性顺序式模型。
图2显示了基因组分析的示例性流模型。
图3显示了基因组分析的示例性自更新流模型。
图4显示了序列的两个k-mer配置文件的示例。
图6A、图6B、图6C、图6D、图6E和图6F显示了示例性候选物比对位置(CAL)生成和读取图像比对流程。
图7A、图7B、图7C、图7D和图7E显示了k-mer兼容性和不兼容性的示例性定义。
图8A和图8B显示了阐述偏移标准化(offset normalization)以减少CAL数量的示例性示意图。
图9显示了确定种子(seed)以用于开始动态编程或对序列图像比对的示例性过程。
具体实施方式
定义
除了本领域技术人员对这些术语的理解之外,以下对下述术语进行讨论以阐述该术语在本说明书中使用的含义。在本说明书和权利要求书中,所用的单数形式“一个”、“一种”和“该”包括多个指示物,除非上下文中有明显的表示。例如,术语“一个细胞”可以包括多个细胞,并包括其混合物。
本文所用,术语“比对”可以是将由测序仪产生的每个序列串与参照串匹配的任何计算过程。例如,比对可以是Smith Waterman局部比对、缺口比对或半缺口比对。
基因组中的变异性可以表示为“选替路径”。例如,一级基因组可以是DNA碱基(由字母A,C,T和G表示)的线性序列。二级基因组可能具有DNA碱基的不同序列,其表示一级和二级对象之间的生物多样性。
“图像参照”表示一个或多个序列的精简集(condensed representation),其中将所有序列共享的序列间隔折叠为一个序列路径,而将不同的序列间隔作为选替路径保留。
“线性参照”可以表示这样的序列,其中对于各元件的特性指定不超过一个选项。在一些说明书中,序列是核酸,在其它一些中,其是蛋白质。
“关联基因座”可以表示来自两个基因组的序列,或通常表示相同基因组区域的对象基因组和参照基因组的序列。其也可以表示来自一个基因组但是两个或多个不同区域的序列。通常,关联基因座将在同一物种中。其通常也将在同一对象中。可以经由连锁不平衡、单倍体上的保守区域、诸如1000个基因组的先验数据等关联关联基因座。
基因座信息可以是“定相的”。定相的序列捕获独特的染色体内容,包括在染色体拷贝上可能不同的突变。在一些情况中,定相的测序可以区分母本或父本遗传的等位基因。
术语“k-mer”可以指包含在序列中所有长度为k的可能子序列。
可以构建“基因组差异图谱”,其中进入该图谱构建的个体对象基因组将会在其匹配一级序列的点被合并到参照基因组中,而变异沿着基因组以其它选替路径出现。由此产生的图谱将包括基因组变体的多个形式。基因组差异图谱可以图表表示。
术语“组装”可以是任何这样的计算过程,其中由测序仪产生的序列串以重建原始序列串为目彼此之间合并,由此得到所有序列串的集合。
术语“远程比对(remote alignment)”可以是任何这样的计算过程,藉由该计算过程比对被分为某些预定数量的独立子任务,并且这些子任务可以通过独立的计算机设备进行,所述独立的计算机设备能够接收序列串,能够对序列串进行比对,并且能够将序列串传输到适当的计算设置以提供所有子任务的最终完整和完全比对。
术语“标引”可以用于优化数据访问的任何数据库。该数据库可由密钥组成。这些密钥可以是对原始数据库的搜索将要依据的属性。序列图像或基因组差异图谱的标引可以包含短序列(k-mer)的数据库,其包含在序列图像以及它们在序列图像中的偏移(offset)和它们在序列图像中所属的选替路径。基因组差异图谱的标引或序列图像还可以是包括位于序列图像上的Burrows-Wheeler变换(BWT)的数据库,其可以使用位置标志物对变换的序列中选替路径的位置进行标注。后一个标引可以使用本领域技术人员已知的小波树(wavelet tree)来储存。在其他情况中,该标引不包括具有使用小波树进行编码的位置标志物的BWT。
术语“哈希表(hash table)”可以描述这样一种方法或结构,其可以允许标引内的加速搜索。
术语“参照序列”可以表示由定义当前分子所需的信息组成的序列串。例如,符合人类基因组的定义的话,整个人类基因组将是由大约30亿个碱基组成的核苷酸序列串。参照基因组(任选地,参照组装物)可以是参照序列。参照基因组可以是数字核酸序列数据库,作为相关核酸集合的代表性示例组装。例如,参照基因组可以是特定物种的基因组的示例。在一些情况中,参照基因组可以包括选替路径。
术语“元数据”描述以可以是一致的有序方式添加的不同类型结构的组合物。
“原始遗传序列数据”是获得自测序反应的数据。原始遗传序列数据可以是基于文本的,例如,其可以具有FASTA格式。FASTA格式是基于文本的格式,其用于表示核苷酸序列或肽序列,其中核苷酸或氨基酸序列使用单字母代码表示。原始遗传序列数据可以是基于文本的格式,其用于储存生物序列(例如,碱基识别数据或氨基酸识别数据)和其相应的质量评分和任何其它相关的数据或元数据。例如,其可以具有FASTQ格式。FASTQ格式是基于文本的格式,用于储存生物序列和其相应的质量评分。在一些情况中,为了简洁,用单个ASCII字符各自编码序列字母和质量评分。在一些情况中,原始遗传序列数据使用格式转换器可以由一种格式转换成另一种格式。在一些情况中,原始遗传序列数据被称作“读数”。
“测序装置”是进行测序反应的装置。测序装置可以用于生成原始遗传序列数据。在一些情况中,可以在测序装置正在进行测序反应时进行本文所述方法。例如,因为序列数据是由测序装置生成的,所以这些数据可以被加密并且在加密的情况下比对。在一些情况中,测序装置可以输出SAM数据。
“读数对”可以表示源自连接的核酸序列的测序的读数对,所述连接的核酸序列中至少两个区域被测序。在一些情况中,位于测序的读数之间的核苷酸串的序列是未知的。在一些读数对生成技术中,总核苷酸串的长度并不变化太多。在一些情况中,当测序的读数与相似于样品的参照序列比对时,可以估计整个核苷酸串长度的分布(即,插入长度)。该信息可用于结构变体识别:读数对与在该分布中具有非常低概率的插入长度比对,这表明该样品中可能存在结构变体。此外,对于一些读数对生成技术,该读数对的两个测序的读数最有可能与具有特定方向的参照序列比对,例如,最左读数照原来的样子与参照序列比对(“正”向),而最右读数与参照序列的补体比对(“反”向)。对齐的读数对中最有可能方向的偏离可以是结构变异的指示。
取决于利用的特定测序技术,读数对中插入长度的长度可以不同。NGS平台可以提供读数对,其中插入长度可以在几百个碱基对到几千个或几万个碱基对中变化。在一些说明书中,插入长度分布遵循特定模型。
在一些说明书中,“目标应用”可以指图像参照代表变异的人群。在其他情况中,“目标应用”可以指一个或多个感兴趣的种群,如物种、特定疾病群、地理群体、植物群、真菌、细菌或病毒毒株或菌株的集合或其组合。目标应用还可以包括一个或多个个体或物种的二倍体或多倍体特征。
SAM格式(或“SAM”数据)是一种用于以一系列制表符定界的ASCII列储存序列数据的文本格式。SAM数据可以其姐妹BAM格式(“BAM数据”)的人可读版本生成,该格式以压缩的、标引的、二进制形式储存相同的数据。SAM格式数据可由读取FASTQ文件的比对仪输出,并且将序列分配到相对于已知参照基因组的位置。SAM还可以用于将由测序设备直接生成的不对齐的序列数据存档。在一些情况中,SAM数据包括CIGAR串。CIGAR串是碱基长度的序列以及相关的操纵。它们用于指示性质,例如,哪些碱基与参照比对(匹配/不匹配),被从参照中删除,或者是不存在于参照中的插入。
变体识别格式(VCF)特指这样的文本文件的格式,其被用于在生物信息学的跨学科领域中储存序列变异。“VCF数据”是以VCF格式储存的数据。变体识别格式仅储存需要与参照序列一起储存的变异。
通用特征格式(GFF)储存所有的遗传数据,其中大部分是冗余的,因为它将在基因组中共有。“GFF数据”是以GFF格式储存的数据。
“图像比对”可以包括使用图像或图像表示的基因组数据分析。例如,可以使用基因组差异图谱图像通过图像比对分析原始序列数据。
本文所用术语“对象”通常指包含表达的遗传物质的生物实体。生物实体可以是植物、动物或微生物,包括例如细菌、病毒、真菌和原生动物。对象可以是组织、细胞以及获自体内或体外培养的生物实体的后代。对象可以是哺乳动物。哺乳动物可以是人。
“样品”或“核酸样品”可以指包含或假定包含核酸的任何物质。样品可以是获自对象的生物样品。核酸可以是RNA,DNA,例如,基因组DNA、线粒体DNA、病毒DNA、合成DNA,或由RNA逆转录的cDNA。核酸样品中的核酸通常作为扩增杂交引物的模板。在一些实施方式中,生物样品是液体样品。液体样品可以是全血,血浆,痰,关节液,血清,腹水,脑脊液,汗液,尿液,眼泪,唾液,口腔样本,龋齿洗液或器官洗液。液体样品可以是基本上无细胞的液体样品(例如,血浆,血清,汗液,尿液,眼泪)。在其他实施方式中,生物样品是固体生物样品,例如,粪便或组织活检,例如,肿瘤活检。样品还可包括体外细胞培养成分(包括但不限于,来源于在细胞培养基中细胞生长的条件培养基,重组细胞和细胞组分)。
“核苷酸”可以是能够形成核酸的生物分子。核苷酸可以具有这样的部分,其不仅包含已知的嘌呤和吡啶碱基,而且还包含其它已经被修饰的杂环碱基。这样的修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶、烷基化的核糖、或其它杂环。此外,术语“核苷酸”包括那些包含半抗原、生物素或荧光标记的部分,并且不仅可以包含常规核糖和脱氧核糖糖,而且还可以包含其他糖。修饰的核苷或核苷酸还包括对糖部分的修饰,例如,其中一个或多个羟基被卤素原子或脂族基团取代,被官能化为醚或胺等。
“核苷酸”可以还包括锁核酸(LNA)或桥接核酸(BNA)。BNA和LNA通常指修饰的核糖核苷酸,其中核糖部分被连接2'氧和4'碳的桥修饰。通常,该桥将核糖“锁定”为3'-内(北)构象,其通常处于A型双链体中。术语“锁核酸(LNA)”通常指一类BNA,其中核糖环被连接2′-O原子与4′-C原子的亚甲基桥“锁定”。包含出现在DNA和RNA中6个常用核碱基(T,C,G,A,U和mC)的LNA核苷能根据标准沃森-克里克碱基配对规律与其互补核苷形成碱基对。相应地,每当需要时,BNA和LNA核苷酸可与寡核苷酸中的DNA或RNA碱基混合。锁定的核糖构象增强碱基堆积和骨架预组织。碱基堆叠和骨架预组织可以导致增加的热稳定性(例如,增加的Tm)以及双链体的辨别能力。LNA可以在其他核酸不可能的情况下区分单碱基错配。
术语“多核苷酸”、“核酸”、“核苷酸”、“序列”和“寡核苷酸”可互换使用。它们可以指任何长度的核苷酸聚合形式,不论是脱氧核糖核苷酸或核糖核苷酸或其类似物。多核苷酸可以具有任何三维结构,并且可以进行已知或未知的任何功能。以下是多核苷酸的非限制性例子:基因或基因片段的编码或非编码区域、由连锁分析定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任意序列的分离DNA、任意序列的分离RNA、核酸探针和引物。多核苷酸可包括修饰的核苷酸,如甲基化的核苷酸和核苷酸类似物。如果存在,对核苷酸结构的修饰可在聚合物的组装之前或之后赋予。核苷酸的序列可能由非核苷酸组分间断。多核苷酸聚合后可以被进一步修饰,如通过与标记组分结合。
“变体”可以是核酸序列或氨基酸序列(例如,基因或基因产物)的正常序列中的改变。在一些情况中,基因型和相应的基因型与变体相关联。在另一些情况中,变体没有已知功能。变体还可以表示相对于参照序列的序列差异。变体可以是SNP。变体可以是SNV。变体可以是多个核苷酸的插入。变体可以是多个核苷酸的缺失。变体可以是突变。变体可以是拷贝数变异。变体可以是结构变体。变体可以是翻译成同义突变的核苷酸插入或缺失。变体可以是翻译成非同义突变的核苷酸插入或缺失。
“单核苷酸多态性(SNP)”可以表示一个(1个)碱基长的变体。
“插入缺失(indel)”可以表示两个或多个碱基长的小变体。插入缺失可以是插入或缺失。在一些情况汇总,插入缺失可以是小结构变体。
“已知变体”可以表示之前已经报道过的变体。已知变体可以是包括于图像参照的变体。在一些说明书中,已经在外部媒体中报道了已知变体,如数据库、期刊、医疗记录。在一些说明书中,报道被认为是内部的。
“新型变体”可以是样品中这样的变体,其不包括于图像参照。在一些说明书中,新型变体可以是之前报道的但是没有包括的变体。在其他说明书中,新型变体可以是迄今未知的变体。
“结构变体”可以表示较长的变体,其通常被认为是50或更多个碱基。
“读数循环”可以是扫描大部分读数集合的过程。读数的小部分可能会在读数循环中丢失,或被包括超过一次。在其他读数循环中,可以对读数采取不同的操作。例如,其可以包括但不限于读数质量重新校准,重新比对,过滤,其它统计学操作。
“变体识别”可以被定义为确定变体是否存在于序列中的过程。变体可以包括但不限于SNP、插入缺失、结构变体、同义或非同义诱导突变。
本文所用术语“靶多核苷酸”通常指正在研究的感兴趣的多核苷酸。在某些实施方式中,靶多核苷酸包含感兴趣且正在研究的一个或多个序列。例如,靶多核苷酸可以包括基因组序列。靶多核苷酸可以包括这样的靶序列,人们希望确定该序列的存在、量和/或核苷酸序列,或其中的变化。在一些情况中,靶多核苷酸与选替路径比对。
本文所述“基因组序列”可以指出现在基因组中的序列。因为RNA转录自基因组,所以该术语包括生物体核基因组中存在的序列,以及转录自这样基因组的RNA(例如,mRNA)的cDNA拷贝中存在的序列。“基因组序列”还可以是在胞质中或在线粒体中存在的序列。
术语“确定”、“测量”、“评价”、“评估”、“测试”和“分析”在本文中互换使用以指任何形式的测量,并包括确定某要素存在与否。这些术语可以包括定量和/或定性测定。评估可以是相对的或绝对的。“评估…的存在”可以包括确定事物存在的量,以及确定其存在与否。
本文所用术语“基因组片段”可以指基因组的区域,例如,动物或植物基因组,诸如人、猴、大鼠、鱼或昆虫或植物的基因组。基因组片段可以是或者可以不是衔接子连接的。基因组片段可以是衔接子连接的(在这样的情况下,其具有这样的衔接子,所述衔接子连接片段的一个或两个末端,至少连接分子的5'末端)或无衔接子连接的。
本文所用术语“测序”可以指这样的方法,藉由该方法获得对多核苷酸至少10连续的核苷酸的种类(例如,至少20个、至少50个、至少100个、至少200个、或至少500个或更多连续的核苷酸的种类)。
本文所用术语“条形码序列”通常指可以编码关于试验新型的独特核苷酸序列。条形码序列可以编码这样的信息,该信息涉及询问的等位基因种类,靶多核苷酸或基因组基因座的种类,样品的种类、对象或其任何组合。条形码序列可以是引物、报告子探针或两者的一部分。条形码序列可以在寡核苷酸的5'末端或3'末端,或者可以位于寡核苷酸的任何区域。
本文所用术语“突变”通常指基因组或功能基因核苷酸序列的改变。突变可以涉及DNA的大区段(例如,拷贝数量变异)。突变可以涉及全染色体(例如,非整倍性)。突变可以涉及DNA的小区段。涉及DNA小区段的突变的示例包括,例如,点突变或单核苷酸多态性,多核苷酸多态性,插入(例如,在基因座插入一个或多个核苷酸),多核苷酸变化,缺失(例如,在基因座缺失一个或多个核苷酸)和倒置(例如,逆转一个或多个核苷酸的序列)。
本文所用术语“基因座”可以指染色体上基因、核苷酸或核苷酸序列的位置。本文所用基因座的“等位基因”可以指在该基因座的核苷酸或序列的另一形式。“野生型等位基因”通常指在对象群体中具有最高频率的等位基因。“野生型”等位基因通常与疾病无关。“突变等位基因”通常指具有比“野生型等位基因”较低频率的等位基因,并且其可能与疾病相关。“突变等位基因”不一定与疾病相关。术语“询问的等位基因”通常指试验旨在对其进行检测的等位基因。
本文所用术语“单核苷酸多态性”或“SNP”指由序列内单核苷酸取代所导致的一类基因组序列变异。“SNP等位基因”或“SNP的等位基因”通常指特定基因座处SNP的另一形式。术语“询问的SNP等位基因”通常指试验旨在对其进行检测的SNP等位基因。
序列比对
许多下一代测序技术生成短读数序列,然后可以将这些短读数序列比对并且组装成更长的序列信息。当存在多个好的候选比对位置时,短读数序列将难以准确比对。当样品中存在变异时,短读数序列将难以准确比对。本文提供了解决这些问题的方法。在这些方法中,对于读数对最好的比对可以通过考虑该读数对中个别读数的比对质量和该读数对比对的特征得到,如该读数对中对齐的读数之间的距离以及该读数对中对齐的读数的相对方向。在一些实施方式中,读数对中观测到这些比对特征的概率可以基于测序技术的知识以及样品的性质来估计,并且用于对该读数对比对进行评分。
例如,当使用典型的配对末端测序文库和与样品序列相似的参照序列时,大部分读数对将以构成该读数对的读数相同的相对方向比对,这可以被称作“标准方向”。该标准方向的偏离可以是由于试验误差或者样品中存在的变异。读数对以不同于标准方向的任何类型的方向比对的概率可以基于样品中预期的变异速(包括与不同读数对方向相关联不同类型变异)和预期的试验误差率估计。对于读数对中读数的各相对方向,也可以估计插入长度分布。读数对方向概率和插入长度概率的乘积可以用于表明可能的读数对比对是正确的可能性。除了读数对中个别读数的比对质量以外,这个因素可以用于对读数对可能的比对的质量进行评分。
读数或读数对的比对质量也可以取决于其它读数或读数对的比对特征,例如,具有相同条形码的其它读数或读数对。以此方式,关于具有相同条形码的读数或读数对来源的现有知识可以用于鉴定最有可能是正确的比对。
读数子集中读数的比对质量可以基于个别读数的比对质量以及观测到该子集中其它读数的比对特征的估计概率。例如,子集中的读数可以用相同条形码的读数。
相对于相似参照序列的序列(例如,核酸序列)中的变体(例如,基因组变体)不同。结构变体(SV)是这样的变体,其相对大于通常的短读数序列长度(例如,对于核酸序列结构变体,通常认为结构变体是大于50bp的变体),并且可以因此难以用短读数技术检测。本文公开的图像参照比对方法可以做到在比对时包括如现有知识的变体,从而使得可以更好的灵敏度、特异性和速度检测这些变体。结构变体也可以包括在图像参照中,并且通过将读数与其比对检测。
图像参照中包括的变体数量在实践中可能受限于储存器约束或效率考虑。因此,存在于样品中的变体可能不包括在图像参照中,并且需要将其检测为“新型”变体。因为新型结构变体相对于典型短读数长度的大尺寸,特别难以对其进行检测。本文公开了在图像参照范例中检测新型变体的方法。该方法包括(a)获得多个序列,(b)针对图像参照比对多个序列,和(c)使用异常对齐的多个序列以鉴定新型变体。
为了检测新型结构变体,可以1)获得序列读数;2)对其进行比对并且将其写入文件;3)针对指示结构变异的读数扫描该对齐的读数文件;并且4)基于这些读数检测结构变体。例如,该过程在图1中描述。在该示例中,序列是这样的读数数据,其包含于获得自测序100的FASTQ文件101中。这些读数的比对110相对于参照序列111发生。第一读数循环112涉及经由比对处理读数。产物是具有对齐的读数的SAM或BAM文件113。该文件可以包含与第一读数循环中分析的读数相同数量或不同数量的读数。异常对齐的读数检测120在第二读数循环121中进行,该第二读数循环121涉及对具有对齐的读数的SAM或BAM文件进行扫描以检测异常对齐的读数。可以将异常对齐的读数保存于单独的SAM或BAM文件122中。然后可以基于这些异常对齐的读数检测130变体和/或结构变体。
指示结构变体存在的读数的部分可以小于5%,或甚至小于1%。对所有对齐的读数进行扫描以收集这部分读数可能是低效的,这一步骤常常可以是建构变异检测中最耗时的步骤。本文公开了在图像参照范例中高效检测新型变体的方法。该方法可以包括:a)获得多个序列读数;b)通过将多个序列读数的子集针对图像参照进行比对的过程来产生一批次对齐的读数,其中图像参照包括通过选替路径表示的已知变体;并且c)在该批次对齐的读数内鉴定一个或多个异常对齐的读数,并使用该一个或多个异常对齐的读数来鉴定未知的结构变体。在一些实施方式中,对n批次读数进行该方法。
图2描述了在图像比对范例中高效检测新型变体的步骤的示例。测序200产生序列读数数据(例如,在FASTQ文件中)201。使用图像参照211在一个或多个读数212 213的批次中比对210该读数。批次中读数的数量相较于样品中测序读数的总数可以是少的。当该批次中的读数比对时,鉴定并分离那些异常对齐的读数。可以将其写入SAM或BAM文件214。以此方式,比对和变体检测可以在不需要扫描所有对齐的读数以鉴定异常对齐的读数的情况下进行。读数可以在比对时间被标记为异常对齐,所以对于大数量的读数只有一个读数循环215,而不需要第二读数循环。异常对齐的读数可以用于识别变体(包括结构变体)220。
在一些情况中,使用来自不同批次的异常对齐的读数来鉴定新型结构变体。在一些情况中,使用来自相同批次的异常对齐的读数来鉴定新型结构变体。在一些情况中,使用来自一个或多个批次的异常对齐的读数的子集来鉴定新型结构变体,例如,再将该子集写入文件后。在一些情况中,将来自一个或多个批次的异常对齐的读数的子集传输到计算机程序中,以在不首先将该读数写入文件的情况下鉴定新型结构变体。
在一些情况中,已知变体是之前记录的变体。在一些情况中,新型变体是之前没有针对目标应用记录的变体。在一些情况中,已知变体是包括在图像参照中的变体。在一些情况中,新型变体是不包括在图像参照中的变体。
在一些情况中,在对齐的读数的批次中,对与图像参照中选替路径对齐的读数的数量进行计数,并且用于鉴定已知变体。
在一些情况中,通过图像参照中的选替路径表示的变体可以是结构变体。在一些情况中,鉴定的新型变体是结构变体。
在一些情况中,比对使用缺口比对进行。在一些情况中,比对使用半缺口比对进行。
在一些情况中,用于鉴定新型结构变体的多个序列读数的子集包括这样的读数,其与图像参照中的所有选替路径异常对齐。
异常对齐可以包括具有与大多数对齐的读数对不同的读数对方向的比对(也就是,读数对中两个对齐的读数的方向)。异常对齐可以包括具有这样插入长度的读数对,所述插入长度显著小于或大于对齐的读数对的平均或中值插入长度。异常插入长度可以大于第99、第90、第95、第97、第98、第97、第96、第95、第94、第93、第92、第91或第90百分位。异常插入长度可以小于对齐的读数的子集的插入长度的第1、第2、第3、第4、第5、第6、第7、第8、第9或第10百分位。可以将异常插入长度设置为大于或小于一些用户指定值。在一些情况中,异常对齐包括一个读数是对齐的而另一个不对齐的。在一些情况中,异常对齐包括被剪切的序列的部分。剪切的部分表示该部分序列并不对齐。在一些实施方式中,读数被剪切的部分是读数的至少5%、10%、15%、20%、25%、30%、35%、40%、45%或50%。
例如,如图3中所描述,在一些情况中,可以将得到的变体的子集自动添加到图像,从而使图像自我更新。在该示例中,序列是获自测序300的的读数数据301(例如,包含在FASTQ文件中)。使用图像参照311在一个或多个读数312,313的批次中比对310该序列读数。该批次可以包含相对于FASTO文件中读数总量的少量读数。当该批次中的读数比对时,可以鉴定并分离那些异常对齐的读数。可以将其写入SAM或BAM文件314。以此方式,异常对齐的读数的比对和鉴定仅进行一个读数循环。然后可以基于这些异常对齐的读数检测320新型变体和/或结构变体。然后可以将得到的变体的子集以自我更新的方式330添加到图像。通过该方法,图像比对和变体检测方法在后续分析中变得能够自我更新。
在一些实施方式中,为了能够被添加到图像,变体需要满足某些条件,如样品集合中的频率、长度、类型或质量条件。藉由施加这些条件可以保证图像参照对于应用保持简洁且相关。
在一些情况中,使用图像参照,并且在超过一个比对和变体检测中逐渐更新。这可以在相同计算机或多个计算机上使用和更新。在一些情况中,储存图像参照,并且在中心存储库中更新,然后在一个或多个计算机间共享。
使用图像参照比对的读数可以写入与SAM格式兼容的SAM格式以针对线性参照比对读数。可以包括一个或多个不同的比特标示或读数标签以输送其它信息。例如,输出使用图像参照比对的读数的格式可以包括任选的固定的比特标示(如果读数比对与变体重叠),表征比对相对于参照和/或变体路径位置的读数标签,以及指示读数与之比对变体的读数标签。在一些情况中,与选替路径比对重叠的读数的比对被转化回线性参照坐标。可以使用其它读数标签,其显示对齐的序列相对于变体路径坐标的起点。可以使用其它读数标签,其指示了对齐的读数相对于变体路径坐标的起点和终点。可以使用其它读数标签,其包含比对评分,所述比对评分包括但不限于相对于变体路径的匹配、错配、插入、缺失和起始位置的数量。取决于映射,这样的读数标签还可以包括相对于参照路径的比对评分。在一些情况中,比对的起点指示线性参照路径上的投影。其它读数标签可以用于详述读数是否可以已经通过选替路径,而不是被映射到参照路径。其它读数标签可以用于详述该读数通过了多少选替路径。其它读数标签可以用于详述该读数没有通过多少选替路径,而是被映射到参照路径。其它读数标签可以用于详述读数是否开始映射到变体路径。
下一代测序平台
比对、组装或使用本公开技术以其它方式处理的测序信息可以来自于下一代测序(NGS)平台。本公开的技术可以用于不同来源的平台、不同文件格式、不同读数长度、不同准确度、不同质量评分、不同误差率以及不同主要类型或来源的误差的测序信息。
NGS平台可以是市售可得的平台。市售可得的平台可以包括但不限于用于下述的平台:合成测序、离子半导体测序、焦磷酸测序、可逆染料终止测序、连接测序、单分子测序、杂交测序和纳米孔测序。例如,用于合成测序的平台可以来自亿明达公司(Illumina)、454生命科学公司(454Life Sciences)、螺旋生物科学公司(Helicos Biosciences)和凯杰公司(Qiagen)。例如,亿明达公司的平台可以包括亿明达公司的Solexa平台、亿明达公司的基因组分析仪。示例性的亿明达公司的平台述于Gudmundsson等(Nat.Genet.2009 41:1122-6)、Out等(Hum.Mutat.2009 30:1703-12)和Turner(Nat.Methods 2009 6:315-6)、美国专利申请公开号US20080160580和US20080286795以及美国专利号6,306,597、7,115,400和7,232,656中。例如,454生命科学公司的平台可以包括GS Flex和GS Junior。示例性的454生命科学公司的平台述于美国专利号7,323,305中。来自螺旋生物科学公司的平台包括True单分子测序平台。用于离子半导体测序的平台包括离子个人基因组机(PGM),并且述于例如美国专利号7,948,015中。用于焦磷酸测序的平台包括GS Flex 454系统,并且述于例如美国专利号7,211,390、7,244,559和7,264,929中。用于连接测序的平台和方法包括SOLiD测序平台,并且述于例如美国专利号5,750,341中。用于单分子测序的平台包括来自太平洋生物科学公司(Pacific Biosciences)的SMRT系统以及Helicos True单分子测序平台。
虽然自动化Sanger方法可以被认为是“第一代”技术,包括自动化Sanger测序的Sanger测序也可用于本公开的方法中。考虑到测序的相对简单性和准确性,该技术包括多达(但不限于)约1000个碱基对的DNA短区段。本公开的方法也包括在其中使用发展中的核酸成像技术的其它测序方法,所述成像技术包括但不限于原子力显微技术(AFM)或透射电子显微技术(TEM)。示例性的测序技术在下文进一步描述。
下一代测序技术可以利用Ion Torrent测序平台,其将半导体技术与测序化学配对以直接将化学编码信息(A、C、G、T)翻译成半导体芯片上的数字信息(0,1)。不希望受到理论限制,当通过聚合酶将核苷酸纳入DNA链时,释放氢离子作为副产物。Ion Torrent平台由pH变化检测氢原子的释放。检测到的pH变化可以用于指示核苷酸纳入。Ion Torrent平台包括微机器孔的高密度阵列以大规模平行方式进行这种生物化学过程。各孔装有不同的文库成员,可以对其进行克隆扩增。孔下面是离子灵敏层,而其下面是离子传感器。平台使核苷酸一个接一个地顺序流入阵列。当核苷酸(例如C)添加至DNA模板并且随后纳入DNA链时,则氢离子将被释放。来自该离子的变化将改变溶液的pH,其可通过Ion Torrent的离子传感器鉴定。如果核苷酸没有被纳入,那么将不会记录电压变化并且没有碱基将会被识别。如果在DNA链上有两个相同的碱基,那么电压将会加倍,并且芯片会记录识别的两个相同碱基。直接鉴定使得能在数秒内记录核苷酸纳入。Ion Torrent平台的文库制备通常涉及连接位于DNA片段两个末端的两个独特的衔接子。这些文库可能包括单独的乳液PCR以在任何测序之前扩增该序列,而这可能会使该过程复杂化并减慢该过程。此外,相较于其它下一代测序平台,这种两步过程可能产生较高的误差率(例如,0.5-2.5%;每100个碱基对1.5个的插入缺失误差率),特别是对于均聚物。此外,由富含AT和富含GC的区段组成的复杂区域可能产生低覆盖率。例如,具有Ion 318TMv2芯片的Ion Torrent PGM测序仪的制备和测序时间可以分别多达8小时和4-7小时。基于之前的设置,该系统各运行可以输出从600兆字节到2千兆字节中任意的数据,由200或400个碱基对单核苷酸序列组成。各读数的phred质量评分(Q)可以在10-30的范围内,这分别转化成90%-99.9%的测序准确度。
下一代测序技术可以利用亿明达测序平台,该平台通常采用将文库成员聚类扩增到流动槽以及合成测序方法。聚类扩增的文库成员进行聚合酶引导的单碱基延伸的重复循环。单碱基延伸可以包括逆转录终止子dNTP的纳入,各dNTP用不同的可去除的荧光团标记。逆转录终止子dNTP通常经3'修饰以防止聚合酶的进一步延伸。纳入后,纳入的核苷酸可以通过荧光成像鉴定。荧光成像后,可以去除荧光团并且可以去除3'修饰,获得3'羟基,从而允许单碱基延伸的另一循环。亿明达平台的文库制备通常涉及连接位于DNA片段两个末端的两个独特的衔接子。取决于所需的输出读数大小(通常称为短读数),这些连接的DNA片段具有多达300个碱基对(但不限于)的不同的长度。最近的诸如TruSeq长读数技术的文库制备可以允许合成多达10千碱基的读数;然而,这可能仅限于HiSeq平台版本。文库制备可以包括单末端或配对末端读数。配对末端制备的一些示例是2x 300碱基对、2x 250碱基对或2x 150碱地对核苷酸序列。平均制备时间约8小时。一些常用的且市售可得的系统包括MiSeq、NextSeq 500和HiSeq 2500,并且具有各种数据输出大小和测序时间。MiSeq测序运行可能需要多达60小时并且各运行可以输出约13-16千兆字节,而NextSeq 500和HiSeq2500可能分别需要30小时和60小时并且各运行可以分别输出100-120千兆字节和250-300千兆字节。应当注意的是,所有系统的测序误差率可以是约0.1%,精度高达99.9%(phred质量评分(Q)为30)。
下一代测序技术可以是Helicos True单分子测序(tSMS),其可以采用合成测序技术。在tSMS技术中,聚A衔接子可以连接DNA片段的3'末端。衔接的片段可以与固定在tSMS流动槽的聚-T寡核苷酸杂交。文库成员可以约1亿模板/cm2的密度固定在流动槽。然后可以将流动槽载入仪器,例如,HeliScopeTM测序仪,并且可以激光照明流动槽的表面以显示各模板的位置。CCD照相机可绘制流动室表面的模板位置。文库成员可以进行聚合酶引导的单碱基延伸的重复循环。测序反应可以通过引入DNA聚合酶和经荧光标记的核苷酸开始。聚合酶可以模板定向的方式将经标记的核苷酸纳入引物。可以去除聚合酶和未纳入的核苷酸。通过对所述流动槽表面成像可以辨别已定向纳入经荧光标记的核苷酸的模板。成像后,切割步骤可以去除荧光标记物,并可以用其它经荧光标记的核苷酸重复该过程直至达到所需读数长度。可以各核酸添加步骤收集序列信息。
下一代测序技术可以利用454(罗氏公司(Roche))测序平台,例如,如Margulies,M.等Nature 437:376-380[2005]中所示。454测序通常包括2个步骤。在第一步骤中,可以将DNA剪切成片段。片段可以是钝端的。寡核苷酸衔接子可以连接片段的末端。衔接子通常用作片段扩增和测序的引物。至少一个衔接子可以包括捕获试剂,例如,生物素。片段可以连接DNA捕获珠,例如,链霉亲和素包覆的珠。连接珠的片段可以在油-水乳液的液滴中PCR扩增,从在各珠上生成克隆扩增的DNA片段的多个拷贝。在第二步骤中,可以在孔中捕获珠,其可以是皮升(pico-liter)级大小。可以在各DNA片段上平行进行焦磷酸测序。焦磷酸测序通常检测核苷酸纳入后焦磷酸盐(PPi)的释放。PPi在腺嘌呤5′磷酰硫酸存在下可以通过ATP硫酸化酶转化成ATP。荧光素酶可以使用ATP将荧光素转变成氧化荧光素,从而产生被检测到的光。检测到的光信号可以用于鉴定纳入的核苷酸。与Ion Torrent相似,454系统可能需要在任何测序之前通过单独的乳液PCR扩增的文库,而这可能会使测序过程复杂并减慢测序速度。该系统也可以产生类似高的误差率(例如,0.5-1%;每100个碱基对0.4个的插入缺失误差率)。例如,具有GS Junior Plus配置的罗氏454GS测序仪的制备和测序时间可以分别多达8小时和18小时。预期该设置各运行可以输出从50-70千兆字节中任意的数据,由700个碱基对单核苷酸序列组成。使用钛XL+配置的相似设置可以具有相同的制备时间,但是多达30小时的更高的测序运行。预期该设置各运行可以输出从100-120千兆字节中任意的数据,由700个碱基对单核苷酸读数组成。总之,这些系统中读数的phred质量评分(Q)的范围在20-30内,这分别转化成99%-99.9%的测序准确度。
下一代测序技术可以利用SOLiDTM技术(应用生物系统公司(AppliedBiosystems))。SOLiD平台通常利用连接测序方法。用于SOLiD平台文库制备通常包括将衔接子连接到片段的5'和3'末端以生成片段库。或者,可以引入内部衔接子,所述引入是通过连接衔接子到片段的5'和3'末端,环化片段、消化环化的片段以生成内部衔接子,并且连接衔接子到所得片段的5’和3’末端以生成伴侣配对库。接着,可以在包含珠、引物、模板和PCR组分的微型反应器中制备克隆珠的群。PCR后,可以是模板变性。可以针对具有延伸模板的珠对珠进行富集。选定珠的模板可以进行允许其结合载玻片的3'修饰。可通过依次使部分随机寡核苷酸与中央确定碱基(或碱基对)杂交和连接来测定序列,所述中央确定碱基(或碱基对)通过特异性荧光团来鉴定。在记录颜色之后,可以去除连接的寡核苷酸,然后可以重复该过程。
下一代测序技术可以利用单分子实时(SMRTTM)测序平台(太平洋生物科学公司)。在SMRT测序中,可以在DNA合成期间对连续纳入染料标记的核苷酸进行成像。单DNA聚合酶分子可以连接单个零级波长鉴定器(ZMW鉴定器)的底表面,其在将磷酸连接的核苷酸纳入生长的引物链的同时获得序列信息。ZMW通常指这样的限制结构,其能够通过DNA聚合酶针对荧光核苷酸背景观察单核苷酸纳入,所述荧光核苷酸以微秒级在ZMW输出中快速扩散。相反,核苷酸的纳入通常发生在毫秒时间尺度。在此期间,荧光标记物可以被激发以产生检测到的荧光信号。荧光信号的检测可以用于生成序列信息。然后可以去除荧光团,并且重复该步骤。SMRT平台的文库制备通常涉及发卡衔接子与DNA片段末端的连接。取决于所需的输出读数大小(通常称为长读数),这些连接的DNA片段具有多达40,000个碱基对(但不限于)的不同的长度。平均制备时间可以是约8小时,并且并不需要为了DNA聚合酶合成或在DNA聚合酶合成期间改变DNA序列,因此其能够解决重复的基因组区域和潜在的DNA修饰(例如,DNA甲基化)。虽然这是一项强大的技术,但在下一代测序技术中它可以产生最高的误差率之一,即14%。例如,使用具有RS II配置的SMRTTM平台,它可以运行多达4小时并且各运行可以产生0.5-1千兆字节,由上述长读数组成。总之,该系统中读数的phred质量评分(Q)是将近30,这转化成99.9%的测序准确度。
下一代测序技术可以利用纳米孔测序(例如,Soni GV和Meller A.Clin Chem 53:1996-2001[2007]中所述)。由多家公司工业开发了纳米孔测序DNA分析技术,包括但不限于,牛津纳米孔技术公司(Oxford Nanopore Technologies)(英国牛津)。纳米孔测序是单分子测序技术,由此当单DNA分子通过或接近纳米孔时被直接测序。纳米孔可以是直径在1纳米级别的小洞。将纳米孔浸入传导液并穿过该液体施加电势(电压)可以导致轻微电流,这归因于通过所述纳米孔的离子传导。流过的电流量对纳米孔的大小和形状以及通过例如DNA分子的遮蔽敏感。当DNA分子穿过纳米孔时,DNA分子上的各核苷酸不同程度地阻塞所述纳米孔,使通过纳米孔的电流的幅度发生不同程度的改变。因此,在DNA分子通过纳米孔时发生的这种电流变化表示DNA序列的读取。也可使用其它基于纳米孔的检测形式。对于当下任何测序技术,纳米孔测序可以表现出最高的误差率,其高达(但不限于)25-30%。尽管如此,当前的开发集中于降低该误差率,例如,通过多维度测序。最初在1-D中测序,牛津纳米孔技术公司已经将其扩展到可以产生较低误差率并提高准确度的2-D测序。测序运行时间可以取决于用户,因为该技术可以不断读取DNA分子直到用户停止、流通槽磨损或需要更多试剂或样品。
下一代测序技术可以利用化学灵敏的场效应晶体管(chemFET)阵列(例如,如美国专利申请号20090026082中所述)。在该技术的一个示例中,DNA分子可以置于反应室,然后模板分子可以与结合在聚合酶上的测序引物杂交。能通过chemFET由电流改变可辨别整合到测序引物3'末端的新核酸链的一个或多个三磷酸。阵列可具有多个chemFET传感器。在另一示例中,单核酸可连接到珠上,并且该核酸可以在珠上扩增,而单个珠能被转移到ChemFET阵列的单个反应室,各室有ChemFET传感器,并且能对核酸测序。
下一代测序技术可以利用透射电子显微镜(TEM)。这种称为单分子放置快速纳米转移(Individual Molecule Placement Rapid Nano Transfer)(IMPRNT)的方法通过包括单原子分辨透射电子显微镜对用重原子标记物选择性标记的高分子量(约150kb或更大)DNA成像,并且在有相同碱基-碱基间隔的超致密(3nm链-链)平行阵列上的超薄膜上排列这些分子。该电子显微镜用于在膜上对分子成像以确定重原子标记物的位置并提取DNA的碱基序列信息。该方法还描述于PCT专利公开WO 2009/046445。该方法使得能够在不到十分钟内对全人基因组进行测序。
该方法可以利用杂交测序(SBH)。SBH通常包括使多种多核苷酸序列与多种多核苷酸探针接触,其中所述多种多核苷酸探针各自可选地连接到底物。该底物可以是包括已知核苷酸序列阵列的平面。可使用与阵列杂交的模式确定样品中存在的多核苷酸序列。在其他实施方式中,各探针连接到珠(如磁珠等)上。与该珠的杂交可以被鉴定并用于鉴定样品中的多种多核苷酸序列。
取决于利用的特定测序技术,序列读数的长度可以不同。NGS平台可以提供大小从数十到数百或数千碱基对,甚至数万或数十万碱基对的序列读数。在本文所述方法的一些实施方式中,序列读数的长度是约20个碱基、约25个碱基、约30个碱基、约35个碱基、约40个碱基、约45个碱基、约50个碱基、约55个碱基、约60个碱基、约65个碱基、约70个碱基、约75个碱基、约80个碱基、约85个碱基、约90个碱基、约95个碱基、约100个碱基、约110个碱基、约120个碱基、约130个碱基、约140个碱基、约150个碱基、约200个碱基、约250个碱基、约300个碱基、约350个碱基、约400个碱基、约450个碱基、约500个碱基、约600个碱基、约700个碱基、约800个碱基、约900个碱基、约1000个碱基或超过1000个碱基。
可以对样品中DNA片段进行部分测序。
加密
本文所公开的方法和系统还可以采用加密。可以使用用于加密的一次一密密码(one-time pad cipher)进行加密。此外,加密方法的非限制性示例可以包括:密码安全伪随机数字发生器(cryptographically secure pseudorandom number generator)、信息理论上安全的算法、整数矩阵分解算法、素性测试、高级访问内容系统、对称密钥算法、破解密码算法、密码分析算法和密码哈希功能。而且,加密方法可以利用密钥对概念,其利用公钥、私钥和/或密码短语(与安全电子邮件传输中使用的类似)。例如,加密分析装置可以具有预期接收装置的公钥。相似的,预期接收装置可以具有加密分析装置的公钥。密钥的哈希信息认证码(keyed-hash message authentication Code)(HMAC)也可以用于使用与秘密密钥结合的密码哈希函数来生成信息认证码。该信息认证码可以用于验证数据完整性以及验证正在传输的序列或数据。当使用加密密钥发送和接收序列数据时,密钥可以是例如随机生成并且可以包含足够的熵。熵可以源自不可预知的计算机操作。例如,磁盘驱动器磁头的移动。
诸如序列信息的加密信息可以在不解密的情况下进行比较。
其它加密方法可以单独使用或组合使用。例如,使用密钥对的私钥可以生成数字签名。该数字签名可以确认发送的生物序列是由发件人签署的。
在测序仪进行测序试验时可以进行加密。本公开的技术可以提供快速计算,其能够在测序试验的时间尺度上进行分析、加密和其他处理,包括实时分析。
计算机系统
计算机系统可以使用包含在非临时性计算机可读介质中的指令来执行本文公开的方法。一些情况中,非临时性计算机可读介质可以包括除瞬时的传播信号之外的所有计算机可读介质。
在一些实施方式中,处理器与一个或多个控制器、计算单元和/或计算机系统的其他单元相关联或者被植入固件中。在一些实施方式中,该方法的一个或多个步骤在硬件中实现。在一些实施方式中,该方法的一个或多个步骤在软件中实现。软件程序可以存储在任何计算机可读存储单元中,如闪存、RAM、ROM、磁盘、激光盘或本文所述或本领域已知的其他存储介质。软件可以通过任何已知的通信方法与计算装置通信,包括例如通过通信信道诸,如电话线、因特网、无线连接,或通过传输介质,如计算机可读磁盘、闪存驱动器等。本文所述方法的一个或多个步骤可以各种操作、工具、区块、模块和技术实现,反过来其可以在固件,硬件,软件或固件、硬件和软件的任何组合中实现。当在硬件中实现时,可以在例如专用集成电路(ASIC)、定制集成电路(IC)、现场可编程逻辑阵列(FPGA)或可编程逻辑阵列(PLA)中实现一些或全部模块、操作、技术等。
系统可以包括经编程以实现本文所述的示例性方法的中央计算机服务器。该服务器可以包括中央处理单元(CPU,也称为“处理器”),其可以是单核处理器、多核处理器或用于并行处理的多个处理器。在一些情况中,该系统包括少于10、9、8、7、6、5、4、3或少于2个处理器。
一个计算线程是处理器上最小可行的指令单元。多个线程可以存在于相同的进程中,并发执行(在另一个完成之前启动)并共享诸如内存的资源。然而,有些时候,计算线程也用于定义处理器本身。例如,如果一个处理器是物理核心,但其可能具有4个线程或逻辑核心。因此,本文所用“计算线程”可以是处理器或线程。
在一些情况中,本文所述的系统可以使用多线程。在一些情况中,该系统包括多任务操作系统。多线程是一种普遍的编程和执行模型,其允许在单个进程中存在多个线程。这些线程共享进程的资源,但是能够独立地执行。多线程还可以用于单个进程,以实现在多进程系统上的并行执行。
服务器还可以包括存储器(例如,随机存取存储器、只读存储器、闪存);电子存储单元(例如,硬盘);通信接口(例如,网络适配器),用于与一个或多个其他系统进行通信;以及外围装置,其可能包括高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器、存储单元、接口和外围装置可以通过诸如主版的通信总线与处理器通信。储存单元可以是用于储存数据的数据存储单元。借助于通信接口,服务器可以可操作地连接计算机网络(“网络”)。该网络可以是互联网,内联网和/或外联网,与互联网、远程通信或数据网络通信的内联网和/或外联网。在一些情况中,借助于服务器,网络可以实现对等网络,这使得连接到服务器的装置可以充当客户端或服务器。
存储单元可以存储诸如主题报告之类的文件,和/或与护理人员的通信,测序数据,关于个体的数据,或者与本公开相关的数据的任何方面。
服务器可以通过网络与一个或多个远程计算机系统通信。一个或多个远程计算机系统可以是例如个人计算机、笔记本、平板电脑、电话、智能电话或个人数字助理。
在一些情况中,系统包含单个服务器。在其他情况中,系统包括通过内联网、外联网和/或互联网彼此通信的多个服务器。
服务器可以适合存储测序信息,客户或患者信息,如原始测序数据,压缩序列数据,包含序列数据图形,参照基因组,包含选替路径的参照基因组,多态性,突变,患者病史和人口统计数据和/或其他可能相关的信息。这些信息可以存储在存储单元或服务器上,并且这些数据可以通过网络传输。
本文所述的方法可以通过存储在服务器的电子存储位置上的机器(或计算机处理器)可执行代码(或软件)来实现,例如,存储器或电子存储单元上。在使用过程中,代码可以由处理器执行。在某些情况下,可从存储单元获取代码并将其存储在存储器供处理器快速访问。在一些情况中,可以排除电子存储单元,并将机器可执行指令存储在内存中。在一些情况中,代码可以在第二台计算机系统上执行。
本文所提供的系统和方法的方面可以在编程中实现。该技术的各个方面可以被认为是“产品”或“制造品”,特别是以在一种计算机可读介质中进行或实施的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可以存储在电子存储单元上,如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘。“存储”类型的介质可以包括计算机、处理器等或其相关模块的任何或所有有形存储器,如各种半导体存储器,磁带驱动器,磁盘驱动器等,其可以随时提供用于软件编程的非瞬时存储。软件的所有或部分可以有时通过互联网或各种其它远程通信网络通信。例如,这样的通信可以将软件从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,可以承载软件元件的其它类型的介质包括光波、电波和电磁波,诸如在本地装置之间的物理接口使用的,通过有线和光学固定电话网络以及跨越各种空中链路的。诸如有线或无线连接、光链路等承载这些波的物理元件也可以被认为是承载软件的介质。
非易失性储存介质介质包括,例如,光盘或磁盘,如任何计算机或诸如可以用于实施该系统的那些中的任何储存装置。有形传输介质可以包括同轴电缆、铜线、和光纤(包括计算机系统中包含总线的电线)。载波传输介质可以采取电信号或电磁信号的形式,或者诸如在射频(RF)和红外(IR)数据通信期间产生的声波或光波的形式。因此,计算机可读介质的常见形式包括例如软盘(floppy disk)、软磁盘(flexible disk)、硬盘、磁带、任何其它磁介质、CD-ROM、DVD、任何其它光学介质、打孔卡、纸带、具有孔图案的任何其它物理介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其它存储器芯片或盒、传送数据或指令的载波、电缆、或传输诸如载波的链接、或者计算机可从其中读取编程代码和/或数据的任何其它介质。这样形式的计算机可读介质中的许多可能包括将一个或多个指令的一个或多个序列运送到处理器以进行执行。
计算机系统可以用于一个或多个步骤,包括例如样品收集、样品处理、测序、与参照基因组的序列比较、序列比对、输出到图形界面、生成报告和向接收器报告结果。
客户端-服务器和/或关系数据库体系结构可以用于本公开的技术中。通常,客户端-服务器体系结构是网络中的每台计算机或进程是客户端或服务器的网络体系结构。服务器计算机可以是专用于管理磁盘驱动器(文件服务器)、打印机(打印服务器)或网络流量(网络服务器)的强大计算机。客户端计算机可以包括PC(个人计算机)或用户在其上运行应用的工作站,以及如本文所公开的输出装置的示例。客户端计算机可以依靠服务器计算机获取资源,如文件、装置、甚至是处理能力。服务器计算机处理所有数据库功能。客户端计算机可以具有处理前端数据管理的软件并接收用户输入数据。
在执行计算之后,处理器可以将输出(诸如来自计算的)提供回例如输入装置或存储单元,提供给相同或不同计算机系统的其它存储单元,或提供给输出装置。来自处理器的输出可以通过这样的数据显示进行显示,例如,显示屏幕(例如,数字装置的监视器或屏幕)、打印输出、数据信号(例如,数据包)、图形显示用户界面(例如,网页)、警报(例如,闪光灯或声音)或上述任意组合。在一实施方式中,输出通过网络(例如,无线网络)传输到输出装置。用户可以使用输出装置接收来自数据处理计算机系统的输出。在用户接收输出之后,用户可以确定行动步骤,或者可以执行行动步骤,如当用户是医务人员时进行医学治疗。在一些实施方式中,输出装置是与输入装置一样的装置。输出装置包括但不限于电话、无线电话、移动电话、PDA、闪存驱动器、光源、声音生成器、传真机、计算机、计算机监视器、打印机、iPod和网页。用户站可与打印机或显示监视器通信以输出由服务器处理的信息。这样的显示装置、输出装置和用户站可以用于向对象或其护理者提供警报。
关于本公开的数据可以通过网络或连接传输以供接收器接收和/或检查。接收器可以是但不限于报告所属的对象;或其护理者,例如,健康护理提供者、管理者、其他医疗专业人员或其他看护人;执行和/或下令进行基因分型分析的个人或实体;遗传咨询师。接收器也可以是用于存储这样报告的本地或远程系统(例如,“云计算”体系结构的服务器或其他系统)。在一个实施方式中,计算机可读介质包括适合转化生物样品的分析结果的介质。
以对人基因组显式的方式储存的序列图像可能需要40GB的存储空间。具有N和M序列长度选替路径的显式序列图像储存的最小数据结构能够保存人参照基因组以及来自1000基因组III相识别组的变体,就像:
其中参照上的各核苷酸具有最小尺寸的关联节点ID和边际,并且各选替路径具有对应参照节点ID和边际的指针。在本公开的技术中,序列图像的储存可以是:
其中参照上的各核苷酸被最小化地储存在单个字节中,而选替路径上的各核苷酸被储存在单个字节中。此外,各选替路径可以包含起始位置和结束位置。在该数据结构中,人线性参照和1000基因组III相调用组可能需要3.5GB的储存空间,这是比当前工业标准低的量级。
本公开的技术可以适用于其它序列,如细菌。例如,在结核分枝杆菌(Mycobacterium tuberculosis)的情况中,使用H37Rv作为参照,而卡氏结核分枝杆菌(Mycobacterium canettii)用作选替路径,当前的工业实践将会产生至少55兆字节的图像,而本公开的发明可以产生大小约为4.5兆字节的图像。
在上述工业标准图像上构建的k-mer标引(最小大小为40GB)最终被认为过大(>500GB)以至于无法继续使用,并且业界研究了采用与压缩技术组合的Burrows-Wheeler变换的各种替代方法。这些技术代表了通过变换提取相同信息的替代方式,但是本公开的技术可以由于例如高效的序列图像储存而避免这个大的标引。藉由本发明的序列图像以及所述图像的k-mer标引(或者掩码的k-mer),具有1000基因组III相调用组的全人参照基因组的k-mer标引可以适合72GB以下的计算机储存空间(例如,使用33的k-mer掩码(mask)尺寸)。
藉由以4进制储存各k-mer,连同偏移和对指向数据结构的各选替路径独特的指针,所述数据结构包含选替路径的序列、起始偏移和终止偏移,标引这样生长:
其中N是参照序列的长度,而k是用于生成k-mer的掩码长度。该掩码可以是一串“1”,并且表示与参照序列图像完美匹配,或者掩码可以包含“0”,其将其掩码的底数从k-mer排除。对于作为选替路径的具有1000基因组的人参照染色体1序列,并且假设各选替是单个SNP,那么掩码的k-mer标引可以是3.98GB的大小。因此,在一个示例中,本公开的技术可以生成这样掩码的k-mer标引,其以16字节/参照中的底数和528字节/变体的速率生长。
然后,这样的标引可以用于查找序列的候选比对位置以返回比对序列图像。可以生成待比对序列的k-mer(例如,以40,642序列/秒/计算线程的速率)并在标引汇总搜索。一些k-mer可以指向参照序列;一些可以指向选替路径。
BFAST可以将每个k-mer当作候选比对位置(CAL),而这产生几个等效的CAL和伪CAL。为了避免这样的情况,可以对k-mer位置进行标准化,从而使等效CAL合并或同步到单个CAL中,进而导致较少的CAL需要在比对模块中测试。k-mer可以各自具有对于参照序列的相对偏移;可以将其减去参照序列中的偏移以获得标准化的偏移。。
图6示出了示例性的候选比对位置生成和读数图像比对工作流程图。图6A示出序列接收模块600,其获得待比对的序列601。图6B示出k-mer化(k-mer-izing)模块610,其应用掩码以获得序列611的k-mer分解物。图6C示出了图像标引查询模块620,其在参照图像622中寻找k-mer 621。图6D示出了k-mer图像同步模块630,其将兼容的k-mer同步成单个候选比对位置631。图6E示出了图像播种(seeding)模块640,其通过由序列取得最常覆盖部分生成种子(seed)641。图6F示出图像比对模块650,其通过使用动态编程算法将种子延伸到图像651进行图像比对。
例如,如图7中所示,一些k-mer是直接兼容的而一些k-mer是间接兼容的。具有相同标准化的偏移(虚线箭头)的两个k-mer,如果两者属于参照序列或两者属于相同的选替路径,那么两者是直接兼容的;当一个属于参照序列而另一个属于选替路径,那么两者是不兼容的。图7A示出一个直接兼容的示例,其中两个k-mer具有相同标准化的偏离并且属于参照序列。图7B示出一个直接兼容的示例,其中两个k-mer具有相同标准化的偏离并且属于相同选替路径。图7C示出一个直接不兼容的示例,其中两个k-mer都属于参照序列,但是具有不同标准化的偏离。图7D示出一个间接兼容的示例,其中一个k-mer属于参照序列,另一个k-mer属于选替路径,但是两者都具有相同标准化的偏离。图7E示出一个间接不兼容的示例,其中两个k-mer具有相同标准化的偏离,但是属于不同的选替路径。直接兼容的k-mer属于相同的参照路径或选替路径,并且具有相同标准化的偏移(参见,例如,图7A)。间接兼容的k-mer是来自待比对序列的k-mer,其中一些k-mer指向参照序列而一些k-mer指向选替路径,但是k-mer的集合具有相同标准化的偏移(参见,例如,图7C)。标准化的偏移是由兼容k-mer支持的读数的候选比对位置(参见,例如,图6D)。图8示出阐述偏移标准化以减少候选比对位置(CAL)数量的示例性示意图。在图8A中,将待比对的序列801分裂成较小的k-mer802,各自具有相对于该序列的相对偏移。在图8B中,第二组k-mer 803形成单个候选比对位置。
图9显示了确定种子以用于开始动态编程或对序列图像比对900的示例性过程。由于可从序列中生成大量的候选比对位置,人们可能不希望或不可能将其所有通过图像比对模块运行。为此,通过使用总覆盖率将这些种子排序,可以启发式地选择最佳种子。例如,种子1(901)具有50%覆盖率、种子2(902)具有80%覆盖率、种子3(903)具有20%覆盖率,那么可以将种子2选作最佳。
在公开的储存方案和数据结构以表示序列图像中,标引中的k-mer可以这样的速率查询,所述速率大于或等于1,000、2,000、3,000、4,000、5000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、25,000、30,000、35,000、40,000、45,000、50,000、55,000、60,000、65,000、66,000、67,000,68,000、69,000、70,000、75,000、80,000、85,000、90,000、95,000、100,000、105,000、110,000、115,000、120,000、125,000、130,000、135,000、140,000、145,000、150,000、155,000、160,000、165,000、170,000、175,000、180,000、185,000、190,000、195,000、200,000、205,000、210,000、215,000、220,000、225,000、230,000、235,000、240,000、245,000、250,000、255,000、260,000、265,000、270,000、275,000、280,000、285,000、290,000、295,000、300,000、305,000、310,000、315,000、320,000、325,000、330,000、335,000、340,000、345,000、350,000或355,000k-mer/秒/计算线程。在一些实施方式中,使用这些数据结构,可以在序列图像标引中以大于或等于355,000k-mer/秒/计算线程的速率查询来自待比对序列的k-mer。建立于工业标准显式图像标引的其它k-mer标引可以70-1000k-mer/秒/计算线程的速率查询。
在已经将k-mer置于参照序列图像中,已经针对各k-mer计算标准化的偏移,并且序列具有候选比对位置后,可以使用沿参照序列图表碱基的最长覆盖率将序列接种到图像,其中碱基的最常覆盖率是通过如k-mer覆盖的碱基的总和确定的(参见,例如,图6E)。在一示例中,通过使用这些数据结构,可以将序列以8704序列/秒/计算线程的速率接种,包括k-mer同步的时间。序列可以这样的速率接种,所述速率大于或等于约100、200、300、400、500、600、700、800、900、1000,1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900、4000、4100、4200、4300、4400、4500、4600、4700、4800、4900、5000、5100、5200、5300、5400、5500、5600、5700、5800、5900、6000、6100、6200、6300、6400、6500、6600、6700、6800、6900、7000、7100、7200、7300、7400、7500、7600、7700、7800、7900、8000、8100、8200、8300、8400、8500、8600、8700、8800、8900、9000、9100、9200、9300、9400、9500、9600、9700、9800、9900或10000序列/秒/计算线程,包括k-mer同步的时间。
可以对候选比对位置进行排序,从而使得具有最高覆盖率的位置将会被传递给图像比对模块(参见,例如,图9)。在一示例中,通过比对每个序列的单个种子,序列以13,754读数/秒/计算线程的速率比对。在一示例中,通过比对每个序列最多5个种子,序列以4,607读数/秒/计算线程的速率比对。在一示例中,通过比对每个序列最多32个种子,序列以978读数/秒/计算线程的速率比对。
表1示出当前本文所公开的基于图像的方法与现有技术的线性对准器相比的灵敏度和正确发现率(即,1-错误发现率)。这些结果使用VarSim在30X覆盖率下由染色体1的模拟生成。这些结果显示,正确发现率提高了0.9%,以及对BWA敏感度0.4%的不同。
表1.敏感度和正确发现率
方法 敏感度(%) 正确发现率(%)
BWA 98.3 96.1
基于图像的方法 97.9 97.0
k-mer配置文件可以表示分解成其k-元件或k-mer的序列。在一些情况中,表示k-mer集合的配置文件可以表示每隔一个元件序列将序列分解成k-mer。在一些情况中,k-mer配置文件可以包括将k-mer分裂成其可能具有的最小数量的元件。例如,图4示出具有序列的k-mer配置文件的两种示例性方法。在左侧,序列400被分解401成6个k-mer 402 403 404405 406 407,各自的大小为5并且顺序添加。在右侧,相同的序列410被分解成两个非重叠的k-mer 411 412。
本公开的技术可以用于获取读数,由这个读数生成k-mer配置文件,并且针对来自具有选替路径的参照序列的k-mer配置文件的标引查询该配置文件以识别变体。在一些情况中,查询可以用于检查序列的特定片段。在一些情况中,其可以用于查询变体的存在。
图5示出参照501和选替路径502以及其ID 503的示例。在一些情况中,选替路径被称为泡沫。能够使用多种其它读数标签504。可以使用“VL”标签,其涉及读数交叉的选替路径。也可以使用“VN”标签以详述读数穿过了多少变体。可以使用“NL”标签以详述与泡沫比对的参照路径(例如,其没有穿过选替路径)。可以使用“VV”读数标签以详述在变体开始映射的读数。“GD”标签可以包含比对评分,其包括但不限于相对于变体路径的匹配、错配、插入、缺失和起始位置的数量。“GR”标签可以指示对齐的读数相对于变体路径坐标的起点和终点。
作为穿过具有选替路径的参照序列标引的k-mer配置文件,该系统可以查询k-mer是否存在于选替路径中。在一些情况中,这是足够识别变体的证据。在其他情况中,只有具有高质量评分的k-mer可以被归于变体。在其他情况中,可以使用统计学模型来选择变体。
在一些情况中,k-mer配置文件形成可以包括缺口的k-mer,以及路径标引的形成。
在一些情况中,k-mer标引可以多达每1,000个碱基1个的速率压缩序列;在其它一些中,其可以1,000,000个碱基1个压缩。在其他一些中,其可以10,000,000个或更多个碱基1个压缩。
k-mer标引可以包括定相的信息以产生明确的选替路径。
在一些情况中,使用与选替路径和其相应参照(即,泡沫)有关的标引的k-mer,而将该标引的其它部分抛弃。在一些情况中,这将使k-mer标引的大小减少超过99%。在一些情况中,其是超过99.9%。将k-mer空间缩小到这样的大小可以突出变体、亚种和不同序列之间的差异。在一些情况中,这可以使查询过程加快超过1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍、200倍、300倍、400倍、500倍、600倍、700倍、800倍、900倍或1000倍k-mer/秒。
在一些情况中,使用这样的标引进行变体识别,所述标引只使用选替路径和其相应参照(即,泡沫),而该标引的其它部分可以被抛弃。这可以使变体识别过程加快超过1.1倍、1.2倍、1.3倍、1.4倍、1.5倍、1.6倍、1.7倍、1.8倍、1.9倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍、200倍、300倍、400倍、500倍、600倍、700倍、800倍、900倍或1000倍k-mer/秒。
k-mer的大小可以是2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、100或更高。
已通过一个或多个优选的实施方式描述了本发明,但应理解除了明确描述的那些方案之外,许多等同方案、替代方案、变化方案和修改方案是可能实现的并在本发明范围内。
序列表
<110> 阿柯生物有限公司
T·J·沃森
A·奎罗兹 扎拉特
H·C·范 阿格伦
R·奥利瓦雷斯-阿马亚
E·克罗纳多 斯洛卡
C·A·安古洛 瑟美诺
F·芬布勒斯 胡拉多
A·索利斯 加西亚-印达
F·冯托夫 赫雷拉
<120> 用于基因组分析的系统和方法
<130> 155949.00016
<150> 62/201,923
<151> 2015-08-06
<160> 12
<170> PatentIn version 3.5
<210> 1
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 1
acttaactgg 10
<210> 2
<211> 45
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 2
agcatgttag ataagatagc tgtgctagta ggcagtcagc gccat 45
<210> 3
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 3
ttagataaag gatactg 17
<210> 4
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 4
aaaagataag gata 14
<210> 5
<211> 11
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 5
gcctaagcta a 11
<210> 6
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 6
ttagataaag gatactg 17
<210> 7
<211> 14
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 7
aaaagataag gata 14
<210> 8
<211> 11
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 8
gcctaagcta a 11
<210> 9
<211> 11
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 9
atagcttcag c 11
<210> 10
<211> 11
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 10
gctgcttagg c 11
<210> 11
<211> 11
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 11
aatgaacaat g 11
<210> 12
<211> 21
<212> DNA
<213> 人工序列
<220>
<223> 合成的
<400> 12
ggggcaggta atgaacgacg g 21

Claims (70)

1.一种用于比对通过测序装置生成的原始遗传序列数据的方法,所述方法包括:
(a) 获得通过测序装置生成的原始遗传序列数据;
(b) 使用包含一个或多个“0”的掩码从原始遗传序列数据的读数产生k-mer配置文件,从读数产生每一个k-mer,从而对应于一个或多个“0”的掩码的底数从k-mer中排除;
(c)用k-mer配置文件和用包括选替路径的参照序列的掩码产生的k-mer配置文件标引将所述通过测序装置生成的原始遗传序列数据映射至差异图谱上的位置,其中所述差异图谱包括选替路径,每个选替路径与存储在存储器中的数据结构相关联,数据结构包括选替路径的序列、选替路径的起始偏移和选替路径的终止偏移,所述k-mer配置文件中的k-mer与各选替路径独特的指针一起储存,所述指针指向与选替路径相关的数据结构;并且
(d) 根据所述通过测序装置生成的原始遗传序列数据在所述差异图谱上的位置比对所述通过测序装置生成的原始遗传序列数据。
2.如权利要求1所述的方法,其中,所述映射通过图像比对进行。
3.如权利要求2所述的方法,其中,所述图像比对使用至少一个图像。
4.如权利要求1所述的方法,其中,所述映射使用缺口比对进行。
5.如权利要求1所述的方法,其中,所述映射使用半缺口比对进行。
6.如权利要求1所述的方法,其还包括在映射期间累加选替路径中特定路径被映射的次数。
7. 如权利要求1所述的方法,其中,所述原始遗传序列数据包括一个或多个读数对,并且其中计算了读数对子集的可能比对是正确的概率,将其作为 (a) 正确比对所述读数对个别读数的概率的函数,和(b) 观测到所述读数对比对特征的估计概率的函数,所述读数对比对特征包括所述读数对中对齐的读数之间的距离和所述读数对中两个读数的比对方向。
8. 如权利要求1所述的方法,其中,所述原始遗传序列数据包括一个或多个读数对,并且其中计算了读数对子集的可能比对是正确的概率,将其作为 (a) 正确比对读数对个别读数的概率的函数, (b) 观测到所述读数对比对特征的估计概率的函数,所述读数对比对特征包括所述读数对中对齐的读数之间的距离和所述读数对中两个读数的比对方向,和(c) 观测到所述子集中一个或多个其它读数对的可能比对特征的估计概率的函数。
9. 如权利要求1所述的方法,其中,计算了读数子集的可能比对是正确的概率,将其作为 (a) 正确比对所述读数对个别读数的概率的函数,和 (b) 观测到所述子集中一个或多个其它读数的可能比对特征的估计概率的函数。
10.一种非诊断性的鉴定新型变体的方法,所述方法包括:
(a) 获得多个序列读数;
(b) 针对图像参照比对所述多个序列读数,其中所述图像参照包括多个选替路径,每个选替路径表示一个已知变体,且多个选替路径的每一个与存储在存储器中的数据结构相关联,所述数据结构包括选替路径的序列、选替路径的起始偏移和选替路径的终止偏移;并且
(c) 使用针对多个选替路径中的一个或多个异常对齐的所述多个序列读数的子集鉴定新型变体。
11.如权利要求10所述的方法,其中,所述新型变体包括结构变体。
12.如权利要求10所述的方法,其中,用于鉴定新型变体的所述多个序列读数的子集与所述图像参照中的所有选替路径异常对齐。
13.如权利要求10所述的方法,其中,所述序列读数包括读数对,并且其中异常对齐包括不同于大多数对齐的读数对方向的对齐的读数对方向。
14.如权利要求10所述的方法,其中,所述序列读数包括读数对,并且其中异常对齐包括对齐的读数对插入长度,所述对齐的读数对插入长度显著地小于或大于大多数对齐的读数对插入长度。
15.如权利要求14所述的方法,其中,所述插入长度比所述对齐的读数子集的中值插入长度大或小10%以上。
16.如权利要求14所述的方法,其中,所述插入长度大于所述对齐的读数子集的插入长度的第99百分位,或小于其第1位百分位。
17.如权利要求14所述的方法,其中,所述插入长度大于或小于一些用户指定值。
18.如权利要求10所述的方法,其中,所述序列读数包括读数对,并且其中异常对齐包括读数对,所述读数对中一个读数是对齐的而另一个读数是不对齐的。
19.如权利要求10所述的方法,其中,异常对齐包括读数,所述读数的部分被剪切。
20.如权利要求19所述的方法,其中,所述读数被剪切的所述部分大于10%。
21.如权利要求10所述的方法,其中,所述鉴定的新型变体是之前没有针对目标应用记录的变体。
22.如权利要求10所述的方法,其中,所述鉴定的新型变体是不存在于所述图像参照中的变体。
23.如权利要求10所述的方法,其中还包括,所述鉴定的新型变体的子集被自动加入所述图像参照以产生更新的图像参照,并且其中所述更新的图像参照用于另一个比对。
24.如权利要求23所述的方法,其还包括对与所述图像参照中一个或多个选替路径对齐的读数的数量进行计数,并且使用与所述图像参照中一个或多个选替路径对齐的读数的数量鉴定所述已知变体。
25.如权利要求23所述的方法,其中,所述鉴定的新型变体包括结构变体。
26.如权利要求23所述的方法,其中,所述已知变体是之前有针对目标应用记录的变体。
27.如权利要求23所述的方法,其中,所述新型变体是之前没有针对目标应用记录的变体。
28.如权利要求23所述的方法,其中,所述已知变体是存在于所述图像参照中的变体。
29.如权利要求23所述的方法,其中,所述新型变体是不存在于所述图像参照中的变体。
30.如权利要求23所述的方法,其中,异常对齐包括如下的一种或多种:
a) 不同于大多数对齐的读数对方向的对齐的读数对方向;
b) 显著小于或大于大多数对齐的读数对插入长度的对齐的读数对插入长度;
c) 其中一个读数是对齐的而一个不对齐的读数对;
d) 部分被剪切的读数;
e) 其中插入长度大于对齐的读数子集的插入长度的第99百分位或小于其第1位百分位的读数对;和
f) 读数与不同参照序列比对的读数对。
31.如权利要求23所述的方法,其还包括鉴定所述鉴定的新型变体的子集,所述子集满足预定义的质量标准或检测确定性标准,以及将所述子集添加到所述图像参照。
32.如权利要求23所述的方法,其还包括鉴定所述鉴定的新型变体预定大小范围内的子集,以及将所述子集添加到所述图像参照。
33.如权利要求23所述的方法,其还包括鉴定所述鉴定的新型变体位于基因组预定义区域中的子集,以及将所述子集添加到所述图像参照。
34.如权利要求23所述的方法,其还包括鉴定所述鉴定的新型变体的子集,所述子集已经在一组或多组序列读数中以大于预定义相对值或绝对值的频率被检测到,以及将所述子集添加到所述图像参照。
35.如权利要求23所述的方法,其中,所述更新的图像参照被用于后续的比对和变体检测。
36.如权利要求23所述的方法,其中,在超过一个比对和变体检测中使用所述图像参照,基于超过一个比对和变体检测逐渐更新所述图像参照。
37.如权利要求23所述的方法,其中,使用所述图像参照,并且在相同计算机上超过一个比对和变体检测中逐渐更新。
38.如权利要求23所述的方法,其中,共享所述图像参照,并且在一个或多个计算机之间更新。
39.如权利要求23所述的方法,其中,储存所述图像参照,并且在中心存储库中更新,并且在一个或多个计算机间共享。
40.如权利要求10所述的方法,其中,所述已知变体或所述新型变体包括物种内变体。
41.如权利要求10所述的方法,其中,所述已知变体或所述新型变体包括物种间变体。
42.一种非诊断性的检测新型变体的方法,所述方法包括:
a) 获得多个序列读数;
b) 通过包括将所述多个序列读数的子集针对图像参照进行比对的过程来产生一批对齐的读数,其中所述图像参照包括多个选替路径,每个选替路径表示一个已知变体,且多个选替路径的每一个与存储在存储器中的数据结构相关联,所述数据结构包括选替路径的序列、选替路径的起始偏移和选替路径的终止偏移;
c) 在批次对齐的读数内鉴定一个或多个异常对齐的读数;并且
d) 使用所述一个或多个异常对齐的读数来鉴定新型结构变体。
43.如权利要求42所述的方法,其还包括对所述批次对齐的读数中与所述图像参照中选替路径对齐的读数的数量进行计数,并且使用所述读数的数量鉴定已知变体。
44.如权利要求42所述的方法,其还包括对至少一个另外批次进行步骤a)到d)。
45.如权利要求43所述的方法,其还包括对至少一个另外批次进行步骤a)到d)。
46.如权利要求42所述的方法,其中,所述已知变体是之前有针对目标应用记录的变体。
47.如权利要求42所述的方法,其中,所述新型结构变体是之前没有针对目标应用记录的变体。
48.如权利要求42所述的方法,其中,所述已知变体是存在于所述图像参照中的变体。
49.如权利要求42所述的方法,其中,所述新型结构变体是不存在于所述图像参照中的变体。
50.如权利要求42所述的方法,其中,来自所述批次的所述异常对齐的读数的子集被写入文件,并且随后用于鉴定所述新型结构变体。
51.如权利要求42所述的方法,其中,来自所述批次的所述异常对齐的读数的子集被传输到计算机程序中,以在不将所述读数的子集写入文件的情况下鉴定所述新型结构变体。
52.如权利要求42所述的方法,其中,异常对齐包括如下的一种或多种:
a) 不同于大多数对齐的读数对方向的对齐的读数对方向;
b) 显著小于或大于大多数对齐的读数对插入长度的对齐的读数对插入长度;
c) 其中一个读数是对齐的而一个是不对齐的读数对;
d) 部分被剪切的读数;
e) 其中插入长度大于对齐的读数子集的插入长度的第99百分位或小于其第1位百分位的读数对;和
f) 读数与不同参照序列对齐的读数对。
53.如权利要求43所述的方法,其还包括追踪与所述图像参照中选替路径对齐的读数的其它特征,使用所述其它特征鉴定已知变体。
54.如权利要求42所述的方法,从文件中读取多个序列读数,所述多个序列读数中少于10%读取一次以上。
55.如权利要求42所述的方法,其中,所述已知变体或所述新型结构变体包括物种内变体。
56. 一种以与线性参照对齐的读数所用格式兼容的格式表征序列读数的图像参照比对的系统,所述系统包括:
a) 接收模块,用于接收读数与图像参照序列的图像比对,其中所述图像参照序列包括通过相对于参照序列的变体路径表示的已知变体,每个变体路径包括与存储在存储器中的数据结构相关联,所述数据结构包括选替路径的序列、选替路径的起始偏移和选替路径的结束偏移;和
b) 报告模块,其通过报告所述读数的比对相对于所述参照序列的坐标的起点以及当所述读数与变体路径对齐时报告表示所述变体路径鉴定数的读数标签来表征读数的图像比对。
57.如权利要求56所述的系统,其中,所述报告模块还报告读数标示,如果所述读数与变体路径对齐,则设定所述读数标示。
58.如权利要求56所述的系统,其中,如果有b)的所述读数标签,那么所述报告模块还输出第二读数标签,其指示所述对齐的读数相对于所述变体路径坐标的起点。
59.如权利要求56所述的系统,其中,如果有b)的所述读数标签,那么所述报告模块还输出第二读数标签,其指示所述对齐的读数相对于所述变体路径坐标的起点和终点。
60.如权利要求56所述的系统,其中,如果有b)的所述读数标签,那么所述报告模块还输出第二读数标签,其包含相对于所述变体路径的比对评分串。
61.如权利要求56所述的系统,其中,如果有b)的所述读数标签,那么所述报告模块还输出第二读数标签,其包含映射至所述变体路径的读数数量。
62.如权利要求56所述的系统,其中,所述报告模块还输出第二读数标签,其包含映射至所述参照序列的读数数量。
63.如权利要求56所述的系统,其中,所述报告模块还输出第二读数标签,其包含映射至所述参照序列的读数。
64.如权利要求56所述的系统,其中,所述报告模块还输出第二读数标签,其指示最初映射至变体路径的读数。
65.如权利要求56所述的系统,其中,所述比对的起点指示在所述参照序列上的投影。
66.一种确定序列读数对的图像比对异常的系统,所述系统包括:
a) 接收模块,其接收与包括线性参照路径和多条选替路径的图像参照比对的读数对,其中所述读数对中至少一个读数与选替路径部分或全部对齐,每条选替路径与存储在存储器中的数据结构相关联,所述数据结构包括选替路径的序列和选替路径的起始偏移和选替路径的终止偏移;
b)翻译模块,其翻译所述至少一个读数至所述线性参照坐标系统并以元数据储存翻译的操作信息;
c)计算模块,其以输入接受所述读数对中的所述翻译的读数、所述元数据和第二读数,并且计算所述读数对特定的性质;和
d) 决策模块,其接受所述性质,并按照所述读数对是否与所述图像参照异常对齐对所述读数对进行分类。
67.如权利要求66所述的系统,其中,所述性质包括相对于所述线性参照路径的插入长度。
68.如权利要求66所述的系统,其中,所述性质包括相对于所述线性参照路径的CIGAR评分。
69.如权利要求66所述的系统,其中,所述性质包括相对于所述线性参照路径的比对位置。
70.如权利要求66所述的系统,其中,比对报告物与下游分析工具兼容。
CN201680059045.3A 2015-08-06 2016-08-04 用于基因组分析的系统和方法 Active CN108350494B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562201923P 2015-08-06 2015-08-06
US62/201,923 2015-08-06
PCT/US2016/045564 WO2017024138A1 (en) 2015-08-06 2016-08-04 Systems and methods for genomic analysis

Publications (2)

Publication Number Publication Date
CN108350494A CN108350494A (zh) 2018-07-31
CN108350494B true CN108350494B (zh) 2024-02-27

Family

ID=57943995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680059045.3A Active CN108350494B (zh) 2015-08-06 2016-08-04 用于基因组分析的系统和方法

Country Status (7)

Country Link
US (1) US11929149B2 (zh)
EP (1) EP3332034A4 (zh)
JP (1) JP6946292B2 (zh)
CN (1) CN108350494B (zh)
AU (2) AU2016301354B2 (zh)
CA (1) CA2994406A1 (zh)
WO (1) WO2017024138A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013055995A2 (en) 2011-10-14 2013-04-18 President And Fellows Of Harvard College Sequencing by structure assembly
US11021737B2 (en) 2011-12-22 2021-06-01 President And Fellows Of Harvard College Compositions and methods for analyte detection
WO2013184754A2 (en) 2012-06-05 2013-12-12 President And Fellows Of Harvard College Spatial sequencing of nucleic acids using dna origami probes
EP3578666A1 (en) 2013-03-12 2019-12-11 President and Fellows of Harvard College Method of generating a three-dimensional nucleic acid containing matrix
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
WO2017079406A1 (en) 2015-11-03 2017-05-11 President And Fellows Of Harvard College Method and apparatus for volumetric imaging of a three-dimensional nucleic acid containing matrix
CA3210120C (en) 2016-04-25 2024-04-09 President And Fellows Of Harvard College Hybridization chain reaction methods for in situ molecular detection
WO2017189677A1 (en) * 2016-04-27 2017-11-02 Arc Bio, Llc Machine learning techniques for analysis of structural variants
WO2018045186A1 (en) 2016-08-31 2018-03-08 President And Fellows Of Harvard College Methods of combining the detection of biomolecules into a single assay using fluorescent in situ sequencing
CN107480471B (zh) * 2017-07-19 2020-09-01 福建师范大学 基于小波变换为特征的序列相似性分析的方法
CA3044782A1 (en) 2017-12-29 2019-06-29 Clear Labs, Inc. Automated priming and library loading device
US20210158902A1 (en) 2018-05-31 2021-05-27 Koninklijke Philips N.V. System and method for allele interpretation using a graph-based reference genome
WO2020072990A1 (en) * 2018-10-04 2020-04-09 Arc Bio, Llc Normalization controls for managing low sample inputs in next generation sequencing
WO2020092309A1 (en) * 2018-10-31 2020-05-07 Illumina, Inc. Systems and methods for grouping and collapsing sequencing reads
CN109753939B (zh) * 2019-01-11 2021-04-20 银丰基因科技有限公司 一种hla测序峰图识别方法
CN109979537B (zh) * 2019-03-15 2020-12-18 南京邮电大学 一种面向多条序列的基因序列数据压缩方法
CN110349635B (zh) * 2019-06-11 2021-06-11 华南理工大学 一种基因测序数据质量分数的并行压缩方法
CN111261225B (zh) * 2020-02-06 2022-08-16 西安交通大学 一种基于二代测序数据的反转相关复杂变异检测方法
CN112164419A (zh) * 2020-09-04 2021-01-01 云舟生物科技(广州)有限公司 在orf中插入蛋白标签的方法以及计算机存储介质
WO2022054178A1 (ja) * 2020-09-09 2022-03-17 株式会社日立ハイテク 個体ゲノムの構造変異検出方法及び装置
WO2023225326A1 (en) * 2022-05-20 2023-11-23 Twinstrand Biosciences, Inc. Genomics alignment probability score rescaler
WO2023244782A1 (en) * 2022-06-16 2023-12-21 The Jackson Laboratory Systems and methods for identifying cross-species gene and gene variant relationships
WO2024000268A1 (zh) * 2022-06-29 2024-01-04 深圳华大生命科学研究院 一种图像处理方法、装置、设备及介质
CN115458051B (zh) * 2022-09-28 2023-03-21 北京泛生子基因科技有限公司 一种可保留分子标签信息的在测序数据中模拟小变异的方法、装置及计算机可读存储介质
CN115602244B (zh) * 2022-10-24 2023-04-28 哈尔滨工业大学 一种基于序列比对骨架的基因组变异检测方法
KR102646434B1 (ko) * 2022-12-07 2024-03-12 주식회사 엔비아이티 도트 플롯 뷰어를 포함하는 blast 기반의 사용자 인터페이스를 제공하는 전자 장치

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
AU6846698A (en) 1997-04-01 1998-10-22 Glaxo Group Limited Method of nucleic acid amplification
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US8396950B1 (en) 2000-03-02 2013-03-12 Rockstar Consortium Us Lp Method and apparatus for the fast detection of connectivity loss between devices in a network
WO2004069849A2 (en) 2003-01-29 2004-08-19 454 Corporation Bead emulsion nucleic acid amplification
ES2923759T3 (es) 2006-12-14 2022-09-30 Life Technologies Corp Aparato para medir analitos utilizando matrices de FET
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
WO2008111048A2 (en) * 2007-03-09 2008-09-18 Ghost, Inc. System and method for browser within a web site and proxy server
JP2010539991A (ja) 2007-10-04 2010-12-24 ハルシオン モレキュラー 電子顕微鏡を用いた核酸ポリマーの配列決定
US8862979B2 (en) 2008-01-15 2014-10-14 Microsoft Corporation Multi-client collaboration to access and update structured data elements
CA2823061A1 (en) * 2010-12-29 2012-07-05 Dow Agrosciences Llc Data analysis of dna sequences
JP5403563B2 (ja) * 2011-05-19 2014-01-29 独立行政法人放射線医学総合研究所 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
EP2544113A1 (en) * 2011-07-05 2013-01-09 Koninklijke Philips Electronics N.V. Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US20140025593A1 (en) 2012-07-23 2014-01-23 DLC Enterprises, Inc. Compliance Analysis System
AU2015204819B2 (en) 2014-01-10 2021-05-06 Seven Bridges Genomics Inc. Systems and methods for use of known alleles in read mapping

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mapping short DNA sequencing reads and calling variants using mapping quality scores;Heng Li等;《Genome Research》;20081231;第18卷;第1851-1858页 *
Shengting Li等.SOAPindel: Efficient identification of indels from short paired reads.《Genome Research》.2013,第23卷摘要、第195页左栏第2段-右栏第3段、图1. *

Also Published As

Publication number Publication date
CN108350494A (zh) 2018-07-31
US11929149B2 (en) 2024-03-12
JP2018533143A (ja) 2018-11-08
WO2017024138A1 (en) 2017-02-09
AU2016301354B2 (en) 2022-06-30
AU2022241472A1 (en) 2022-10-20
EP3332034A4 (en) 2019-01-02
AU2016301354A1 (en) 2018-02-15
CA2994406A1 (en) 2017-02-09
JP6946292B2 (ja) 2021-10-06
EP3332034A1 (en) 2018-06-13
US20200090786A1 (en) 2020-03-19

Similar Documents

Publication Publication Date Title
CN108350494B (zh) 用于基因组分析的系统和方法
US11149308B2 (en) Sequence assembly
Magi et al. Nanopore sequencing data analysis: state of the art, applications and challenges
AU2018254595B2 (en) Using cell-free DNA fragment size to detect tumor-associated variant
US11789906B2 (en) Systems and methods for genomic manipulations and analysis
Larson et al. A clinician’s guide to bioinformatics for next-generation sequencing
US20190139628A1 (en) Machine learning techniques for analysis of structural variants
US20230235394A1 (en) Chimeric amplicon array sequencing
KR20190126930A (ko) 다중-염기서열 파일을 위한 서명-해시 (signature-hash for multi-sequence files)
Ahn et al. An efficient and tunable parameter to improve variant calling for whole genome and exome sequencing data
Fatima Whole-Genome Sequencing of two Swedish Individuals on PromethION

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant