CN112771619A - 用于评估基因组比对基础的方法 - Google Patents
用于评估基因组比对基础的方法 Download PDFInfo
- Publication number
- CN112771619A CN112771619A CN201980064199.5A CN201980064199A CN112771619A CN 112771619 A CN112771619 A CN 112771619A CN 201980064199 A CN201980064199 A CN 201980064199A CN 112771619 A CN112771619 A CN 112771619A
- Authority
- CN
- China
- Prior art keywords
- genome
- allelic variation
- heterozygous
- alignment
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 108700028369 Alleles Proteins 0.000 claims abstract description 109
- 238000012163 sequencing technique Methods 0.000 claims abstract description 80
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000003559 RNA-seq method Methods 0.000 claims description 14
- 238000001712 DNA sequencing Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000011331 genomic analysis Methods 0.000 description 60
- 238000004422 calculation algorithm Methods 0.000 description 28
- 230000015654 memory Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000011002 quantification Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 210000000349 chromosome Anatomy 0.000 description 7
- 239000000463 material Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000002864 sequence alignment Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000007787 long-term memory Effects 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 150000007523 nucleic acids Chemical class 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009395 genetic defect Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
一种用于分析目标基因组的方法(100),包括:(i)将来自所述目标基因组的测序数据与参考基因组进行比对(120);(ii)识别(130)杂合位置,包括等位基因变异和每个等位基因的频率的识别,所述等位基因变异包括参考等位基因变异和非参考等位基因变异两者;(iii)生成(140)备选参考基因组,其中,针对所识别的杂合位置的所识别的非参考等位基因变异替换所述参考基因组中的参考等位基因变异;(iv)将测序数据与所述备选参考基因组比对(150);(v)识别(160)所述杂合位置中的每个处的等位基因变异的频率;(vi)评估(170)所识别的杂合位置处的比对偏差,包括将来自参考基因组比对的等位基因变异的频率与来自备选基因组比对的等位基因变异的频率进行比较;并且(vii)生成(190)报告,包括比对偏差的评估。
Description
技术领域
本公开总体上涉及用于评估下一代测序分析中的比对偏差(bias)的方法和系统。
背景技术
许多下一代测序方法将DNA分段并且生成然后与参考基因组比对的测序读取。这识别相对于参考基因组的分析基因组中的变化的部位。人类基因组例如包括近似一百万个多态位置,其中,存在跨不同种群的两个或更多个等位基因的证明。
比对的所有下游分析依比对的准确度和测序基因组内的变化的正确识别而定。然而,由于参考基因组是一个个体的基因组或来自多个个体的共有序列,因而其不能包括种群内的所有变异。因此,当序列读取与参考基因组比对时,匹配参考基因组等位基因的读取倾向于与比包括不匹配参考基因组的等位基因变异的读取更高的频率处的参考基因组比对,而不管等位基因变异读取的相对频率。因此,存在具有存在于参考基因组中的等位基因的读取的偏差。因此,在任何给定位置处,存在针对参考等位基因的等位基因频率(表示等位基因的读取的分数)超过非参考或备选等位基因的等位基因频率的机会。换句话说,能够存在具有非参考等位基因的测序读取的频率的估计不足。
一些研究已经示出,比对偏差贯穿人类基因组发生,包括在临床相关位置处。因此,比对偏差可以具有针对研究员和临床医师两者的显著暗示。
解决比对偏差的一个方法是将读取与包括种群内的变异中的一些的多个参考基因组比对。然而,该方法不仅是缓慢并且计算昂贵的,而且其不能考虑种群内的许多多态位置中间的所有变异,并且不利用测序的基因组的已知变异。
发明内容
存在针对减少起因于下一代测序的比对偏差的方法和系统的持续需要。
本公开涉及用于分析基因组的发明方法和系统。本文中的各种实施例和实施方式涉及一种将测序读取与参考基因组比对并且使用所述比对来识别杂合位置、每个杂合位置处的变异和每个杂合位置处的变异的比率的系统和方法。所述系统生成包括用于所识别的杂合位置中的每个的所识别的非参考等位基因的备选参考基因组,并且将测序读取的相同集合与所述备选参考基因组比对。然后,识别所识别的杂合位置中的每一个处的变异的比率。所述系统然后评估和/或量化所识别的杂合位置中的一个或多个处的比对偏差。根据实施例,所述系统通过将来自参考基因组比对的变异的比率与来自备选基因组比对的变异的比率比较来评估比对偏差。
通常,在一个方面中,是一种用于使用基因组分析系统分析目标基因组的方法。所述方法包括:(i)将来自所述目标基因组的测序数据与参考基因组进行比对;(ii)根据所述比对来识别所述目标基因组内的一个或多个杂合位置,并且其中,所述识别还包括对每个杂合位置处的等位基因变异和每个等位基因变异的频率的识别,所述等位基因变异包括还在所述参考基因组中找到的参考等位基因变异和未在所述参考基因组中找到的非参考等位基因变异两者;(iii)根据所述识别并且根据所述参考基因组来生成备选参考基因组,其中,针对所识别的杂合位置中的一个或多个杂合位置的所识别的非参考等位基因变异替换所述参考基因组中的所述参考等位基因变异;(iv)将来自所述目标基因组的测序数据与所述备选参考基因组进行比对;(v)根据所述比对来识别所识别的一个或多个杂合位置中的每个杂合位置处的所述等位基因变异的频率;(vi)评估所识别的杂合位置中的一个或多个杂合位置处的比对偏差,包括将来自所识别的杂合位置处的参考基因组比对的等位基因变异的频率与来自该相同位置处的备选基因组比对的等位基因变异的频率进行比较的步骤;并且(vii)生成针对用户的报告,所述报告包括对比对偏差的所述评估。
根据实施例,比较包括将来自所述参考基因组比对的等位基因变异的频率与来自所述备选基因组比对的等位基因变异的频率进行平均以生成针对每个等位基因变异的平均频率。根据实施例,所述报告包括:(i)所识别的杂合位置中的每个杂合位置;(ii)来自所识别的杂合位置处的所述参考基因组比对的等位基因变异的频率;(iii)来自该相同位置处的所述备选基因组比对的等位基因变异的频率;以及(iv)针对每个等位基因变异的所述平均频率。
根据实施例,来自与所述参考基因组比对的所述目标基因组的所述测序数据是DNA测序数据。根据实施例,来自与所述备选参考基因组比对的所述目标基因组的所述测序数据是与所述参考基因组比对的相同DNA测序数据。
根据实施例,来自与所述备选参考基因组比对的所述目标基因组的所述测序数据是RNA测序数据。
根据实施例,生成备选参考基因组的步骤包括生成FASTA文件。
根据实施例,在位置处的杂合性满足或超过预定阈值的情况下该位置被识别为杂合的。根据实施例,针对变异等位基因位置的所述预定阈值至少部分地基于该位置处的所确定的读取深度。
根据另一方面,是一种被配置为分析目标基因组的系统。所述系统包括:参考基因组;来自目标基因组的一组DNA测序数据;处理器,其被配置为:(i)将来自所述目标基因组的测序数据与参考基因组进行比对;(ii)根据所述比对来识别所述目标基因组内的一个或多个杂合位置,其中,所述识别还包括对每个杂合位置处的等位基因变异和每个等位基因变异的频率的识别,所述等位基因变异包括还在所述参考基因组中找到的参考等位基因变异和未在所述参考基因组中找到的非参考等位基因变异两者;(iii)根据所述识别并且根据所述参考基因组来生成备选参考基因组,其中,针对所识别的杂合位置中的一个或多个杂合位置的所识别的非参考等位基因变异替换所述参考基因组中的所述参考等位基因变异;(iv)将来自所述目标基因组的测序数据与所述备选参考基因组进行比对;(v)根据所述比对来识别所识别的一个或多个杂合位置中的每个杂合位置处的所述等位基因变异的频率;并且(vi)评估所识别的杂合位置中的一个或多个杂合位置处的比对偏差,包括将来自所识别的杂合位置处的参考基因组比对的等位基因变异的频率与来自该相同位置处的备选基因组比对的等位基因变异的频率进行比较的步骤;以及数据结构,其被配置为存储对比对偏差的所述评估。
根据实施例,所述系统还包括来自所述目标基因组的一组RNA测序数据,并且所述处理器被配置将所述RNA测序数据与所述备选参考基因组进行比对。
根据实施例,所述处理器被配置通过将来自所述参考基因组比对的等位基因变异的频率与来自所述备选基因组比对的等位基因变异的频率进行平均以生成针对每个等位基因变异的平均频率来评估比对偏差。
根据实施例,所述系统还包括用户接口,所述用户接口被配置为提供针对用户的报告,所述报告包括对比对偏差的所述评估。根据实施例,所述报告包括:(i)所识别的杂合位置中的每个杂合位置;(ii)来自所识别的杂合位置处的所述参考基因组比对的等位基因变异的频率;(iii)来自该相同位置处的所述备选基因组比对的等位基因变异的频率;以及(iv)针对每个等位基因变异的平均频率。
在各种实施方式中,处理器或者控制器可以与一个或多个存储介质(通常地在本文中被称为“存储器”,例如易失性和非易失性计算机存储器(诸如RAM、PROM、EPROM和EEPROM、软盘、压缩光盘、光盘、磁带等))相关联。在一些实施方式中,存储介质可以编码有一个或多个程序,其当在一个或多个处理器和/或控制器上运行时,执行本文所讨论的功能中的至少一些。各种存储介质可以被固定在处理器或者控制器内或者可以是可移动的,使得被存储在其上的一个或多个程序可以被加载到处理器或者控制器中以便实施本文所讨论的各方面。术语“程序”或者“计算机程序”在一般的意义上在文本中被用于指代可以被用于将一个或多个处理器或者控制器编程的任何类型的计算机代码(例如,软件或者微代码)。
应该意识到,以下更详细讨论的前述概念和额外的概念的所有组合(假定这样的概念不相互不一致)被预期为本文公开的发明主题的部分。具体而言,出现在本公开的结束处的请求保护的主题的所有组合被预期为本文公开的发明主题的部分。还应该意识到,本文明确采用的也可以出现在通过引用并入的任何公开中的术语应该被赋予与本文公开的特定概念最一致的含义。
各种实施例的这些和其他方面将根据在下文中所描述的(一个或多个)实施例而显而易见并且参考在下文中所描述的(一个或多个)实施例得到阐述。
附图说明
在附图中,相同附图标记通常贯穿不同的视图指代相同部分。而且,附图未按比例绘制,相反重点通常置于说明各种实施例的原理。
图1是根据实施例的用于分析基因组的方法的流程图。
图2是根据实施例的用于分析基因组的系统的示意性表示。
具体实施方式
本公开描述了用于使用根据分析基因组中所识别的杂合等位基因生成的备选参考基因组分析基因组测序的系统和方法的各种实施例。更一般地,申请人已经认识并且意识到,提供降低测序读取比对期间的比对偏差的方法将是有益的。可以任选地包括测序平台的系统生成或者接收测序数据,包括来自目标基因组的测序读取。读取与参考基因组比对以识别杂合位置、每个杂合位置处的变异等位基因和每个杂合位置处的变异等位基因的比率。备选参考基因组使用针对所识别的杂合位置中的每个的所识别的非参考等位基因变异生成。系统然后将读取的相同集合与所生成的备选参考基因组比对并且识别所识别的杂合位置处的变异等位基因的比率。比对偏差可以通过将来自参考基因组比对的变异的比率与来自针对所识别的杂合位置中的一个或多个的备选基因组比对的变异的比率进行比较来评估或者量化。
参考图1,在一个实施例中,是用于使用基因组分析系统降低比对偏差的方法100的流程图。基因组分析系统可以是本文所描述或以其他方式预想的系统中的任一个,并且可以包括本文所描述或以其他方式预想的部件中的任一个。
在方法的步骤110处,基因组分析系统生成和/或接收针对目标基因组的测序数据。目标基因组可以是来自任何生物体的任何基因组,包括致病和非致病生物体。应认识到,不存在对目标基因组的源的限制。
根据实施例,基因组分析系统包括被配置为获得来自目标基因组的测序数据的测序平台。测序平台可以是任何测序平台,包括但不限于本文所描述或以其他方式预想的任何系统。样本和/或其中的核酸可以准备用于使用用于准备的任何方法测序,其可以至少部分地取决于测序平台。根据实施例,在许多其他准备或者处置中间,可以提取、净化和/或放大核酸。针对一些平台,核酸可以使用用于核酸片段化的任何方法分段,诸如剪切、声处理、酶片段化、和/或化学片段化以及其他方法,并且可以连接到测序适配器或任何其他分子连接配偶体。根据实施例,基因组分析系统接收用于目标基因组的测序数据。例如,基因组分析系统可以通信或以其他方式接收来自包括一个或多个目标基因组的数据库的数据。
生成和/或接收的测序数据可以存储在本地或远程数据库中以用于由基因组分析系统使用。例如,基因组分析系统可以包括存储用于目标基因组的测序数据的数据库,和/或可以与存储测序数据的数据库通信。这些数据库可以与基因组分析系统一起或在其内定位或者可以远离基因组分析系统定位,诸如在云存储和/或其他远程存储设备中。
生成和/或接收的测序数据可以包括完整或几乎完整的基因组,或者可以是部分基因组。例如,生成和/或接收的测序数据可以是组件、全基因组结构、不完整基因组、部分基因组、外显子组、和/或任何其他测序数据。
在方法的步骤120处,测序数据与参考基因组比对。用于比对的参考基因组可以是任何参考基因组,诸如标准参考基因组或选自多个可能参考基因组的参考基因组。参考基因组可以从参考基因组的公共或私有数据库或存储库获得,并且可以采取可由基因组分析系统使用的任何格式。根据实施例,参考基因组是FASTA文件,但是许多其他文件类型是可能的。除了其他可能性,参考基因组可以是基于图形的基因组。
测序数据(包括多个测序读取)然后使用任何比对方法与参考基因组比对,包括但不限于当前和未来比对算法或方法。存在可用于序列比对的各种不同工具,包括专有和开源软件两者,并且这些工具中的任一个可以被用于将多个测序读取与参考基因组比对。
在方法的步骤130处,基因组分析系统分析序列比对以识别杂合位置。杂合位置可以是沿着参考基因组的任何位置,其中,比对指示目标基因组包括该位置处的复等位基因或变异等位基因。杂合位置可以使用任何变异调用算法识别,包括但不限于Samtools、和等许多其他算法。针对每个杂合位置,变异调用算法可以识别例如等位基因变异的位置、该位置处的变异等位基因和/或该位置处的变异等位基因的频率。变异等位基因将通常包括对应于参考基因组的一个等位基因(“参考等位基因”)和第二不同等位基因(“非参考等位基因”)。
根据实施例,位置处的杂合性的确定可以部分地基于预定或可变阈值来确定。因此,只要存在在该位置处所识别的高置信度变异,则位置可以被确定为是杂合的。变异调用算法可以例如要求变异以位置处比对的读取的最小百分比识别,其中,最小百分比可以是或者可以基于预定或可变阈值。阈值可以被编程到基因组分析系统中或者可以由基因组分析系统的用户或由与基因组分析系统一起工作的另一系统确定或者修改。
根据实施例,针对一些应用,基因组分析系统和/或变异调用算法可以被编程或以其他方式构建或设计为要求变异在位置处的读取的至少25%中识别,使得读取的小于25%中识别的变异被认为是噪声并且将不被识别为变异等位基因或杂合位置。根据另一应用,诸如要求更严格的变异调用协议的应用,基因组分析系统和/或变异调用算法可以被编程或以其他方式构建或设计为要求变异在位置处的读取的至少40%中识别。
根据实施例,阈值可以任选地全部或部分地取决于分析位置处的读取深度。例如,如果存在跨分析位置比对的50个读取,则最小百分比可以是40%,而如果存在跨分析位置比对的100个读取,则最小百分比可以是25%。因此,系统可以被编程或以其他方式构建或设计为,如果存在小于预定数目的读取,则要求至少第一百分比,并且如果存在超过预定数目的读取,则第二较低百分比。这些和许多其他阈值和变异可以由系统和/或由用户编程、选择或以其他方式确定。
参考表1是由基因组分析系统识别的五个变异的范例列表。每个变异与参考基因组内的位置以及在从目标基因组获得的读取内找到的该位置处的变异相关联。例如,在染色体1上的位置20650507处,基因组分析系统识别了两个等位基因,近似53%处的“A”(其在该范例中是在所选择的参考基因组内找到的等位基因)和以近似47%处的“C”。变异或杂合位置可以任选地与任何其他额外信息相关联。
由于比对偏差的可能性,从该初始比对不清楚的是,百分比是否表示染色体1上的位置20650507处的变异等位基因的真实频率,其将建议目标基因组内的AC的基因型,或者例如“A”的参考基因组值是否可能是噪声并且基因型更可能是目标基因组内的CC。
表1、由基因组分析系统识别的变异
根据实施例,基因组分析系统根据由变异调用算法或方法造成的分析生成输出。输出可以是例如由变异调用算法或方法生成的信息中的任何。例如,输出可以包括一个或多个变异位置和每个位置处的变异等位基因的值。输出可以包括额外信息,包括但不限于每个位置处的变异等位基因的频率,以及其他类型的信息。该输出可以用在如本文所描述或以其他方式预想的基因组分析系统的下游功能中。
在方法的步骤140处,基因组分析系统根据所识别的变异等位基因生成备选参考基因组。根据实施例,基因组分析系统根据高置信度变异等位基因生成备选参考基因组,这意指已经满足针对变异等位基因的最小阈值的杂合位置。
根据实施例,基因组分析系统使用所识别的杂合位置中的每个处的非参考等位基因生成备选参考基因组。例如,如果参考基因组包括染色体1上的位置20650507处的等位基因“A”并且基因组分析系统识别了该位置处的“C”的变异等位基因,则基因组分析系统利用染色体1上的位置20650507处的C生成备选参考基因组。根据实施例,基因组分析系统包括利用变异位置和每个位置处的变异等位基因的值以及用于参考基因组的FASTA文件的算法(诸如脚本),以生成备选参考基因组。例如,脚本可以通过利用每个识别的杂合位置处(诸如在每个识别的高置信度杂合位置处)的变异等位基因代替或替换参考等位基因来修改基于文本的FASTA文件。根据实施例,基因组分析系统仅使用被发现高于读取的某个百分比的非参考等位基因生成备选参考基因组。该最小阈值可以由基因组参考系统、由用户、或由其他机构定义。
根据实施例,脚本或其他算法生成备选参考基因组并且提供基因组作为存储在临时和/或长期存储器中用于基因组分析系统的下游功能的输出。例如,脚本或其他算法的输出是FASTA文件,但是许多其他文件类型是可能的。因此,脚本的输出可以是与参考基因组FASTA文件不同的FASTA文件,其中,其包括所识别的杂合位置中的一个或多个处的变异等位基因。
在方法的步骤150处,基因组分析系统将测序数据与备选参考基因组比对。基因组分析系统可以使用任何比对方法将测序数据与备选参考基因组比对,包括但不限于当前和未来比对算法或方法。存在可用于序列比对的各种不同工具,包括专有和开源软件两者,并且这些工具中任一个可以被用于将多个测序数据与参考基因组比对。
与备选参考基因组比对的测序数据可以是与原始参考基因组比对的相同DNA测序数据。备选地,测序数据可以是不同的DNA测序数据。作为又一选项,测序数据可以是从用于获得可以与备选参考基因组比对的测序数据的各种各样的方法获得的RNA测序数据。
因此,在可以连同方法的步骤110一起或与方法的步骤110分离执行的方法的任选步骤142处,基因组分析系统接收或生成针对目标基因组的RNA测序数据。根据实施例,基因组分析系统包括被配置为获得来自目标基因组的测序数据的RNA测序平台。RNA测序平台可以是任何RNA测序平台,包括但不限于本文所描述或以其他方式预想的任何系统。生成和/或接收的RNA测序数据可以存储在本地或远程数据库中以用于由基因组分析系统使用。例如,基因组分析系统可以包括存储用于目标基因组的RNA测序数据的数据库,和/或可以与存储RNA测序数据的数据库通信。这些数据库可以与基因组分析系统一起或在其内定位或者可以远离基因组分析系统定位,诸如在云存储和/或其他远程存储设备中。
在方法的步骤160处,基因组分析系统分析序列比对以识别用于生成备选参考等位基因的所识别的杂合位置中的一个或多个处的等位基因频率。等位基因频率可以使用任何变异调用算法识别,包括但不限于Samtools、和以及许多其他算法。针对每个杂合位置,变异调用算法可以识别例如等位基因变异的位置、该位置处的变异等位基因和/或该位置处的变异等位基因的频率。
与第一比对一样,如果次要频率超过最小阈值,则变异调用算法可以被编程或以其他方式修改或设定为仅识别和/或报告杂合位置处的变异等位基因频率。变异调用算法可以例如要求变异在位置处比对的读取的最小百分比中识别,其中,最小百分比可以是或者可以基于预定或可变阈值。阈值可以被编程到基因组分析系统中或者可以由基因组分析系统的用户或由与基因组分析系统一起工作的另一系统确定或者修改。
参考表2是由备选参考基因组中的基因组分析系统识别的变异的范例列表,其还在原始参考基因组的比对中识别。变异与备选参考基因组内的位置以及在从目标基因组获得的读取内找到的该位置处的变异等位基因相关联。因此,在染色体1的位置20650507处,基因组分析系统识别了两个等位基因,近似75%处的“C”等位基因(其在该范例中是在备选参考基因组内找到的等位基因)和近似47%处的“A”。变异或杂合位置可以可选地与任何其他额外信息相关联。
表2、由基因组分析系统识别的变异
根据实施例,基因组分析系统根据由变异调用算法或方法造成的分析生成输出。输出可以是例如由变异调用算法或方法生成的任何信息。例如,输出可以包括所识别的杂合位置中的一个或多个处的变异等位基因值和频率。该输出可以用在如本文所描述或以其他方式预想的基因组分析系统的下游功能中。
在方法的步骤170处,基因组分析系统评估和/或量化一个或多个识别的杂合位置处的比对偏差。根据实施例,基因组分析系统通过比较以下各项来评估和/或量化比对偏差:(1)在来自目标基因组的测序数据与原始参考基因组的比对期间获得的变异等位基因频率,以及(2)在来自目标基因组的测序数据与备选参考基因组的比对期间获得的变异等位基因频率。参考表3,在一个实施例中,是从两个比对获得的等位基因变异频率的比较。
表3、等位基因频率的比较
根据实施例,杂合位置处的比对偏差的评估和/或量化包括对来自两个比对的等位基因变异频率进行平均。例如,参考表4,在一个实施例中,是来自第一和第二比对的等位基因变异频率的平均的范例。针对染色体1上的位置20650507处的参考“A”等位基因变异的平均频率是39%,而针对染色体1上的位置20650507处的“C”等位基因变异的平均频率是61%。该信息可以由基因组分析系统、由用户和/或由任何其他方法或系统使用。
表4、等位基因频率的分析
根据实施例,基因组分析系统可以识别基于比对偏差的评估和/或量化未示出比对偏差的指示的等位基因和/或位置。换句话说,系统可以识别一个或多个等位基因和/或位置,诸如所有等位基因和/或位置,其中,针对与参考基因组的比对的频率和针对与备选基因组的比对的频率是相同、几乎相同或具有小于最大阈值的相似性。例如,系统可以识别其中两个频率之间的差是零、几乎零或低于诸如5%、10%、25%、或另一可能阈值的阈值的等位基因和/或位置。阈值可以例如由基因组分析系统、由用户和/或由另一系统确定。
根据实施例,基因组分析系统根据杂合位置中的一个或多个位置处的比对偏差的评估和/或量化生成输出。例如,系统可以生成输出,包括针对每个杂合位置处的参考基因组的等位基因频率、针对每个杂合位置处的备选基因组的等位基因频率和/或每个杂合位置处的平均等位基因频率。更多或更少信息可以取决于基因组分析系统的编程、设置或其他设计被提供在输出中。根据另一范例,系统可以生成输出,包括基于比对偏差的评估和/或量化示出如本文所描述或以其他方式预想的比对偏差的没有或很少指示的等位基因和/或位置的识别。
在方法的步骤180处,基因组分析系统可以根据比对偏差的评估和/或量化生成通过本文所描述或以其他方式预想的方法获得的等位基因频率的报告。例如,报告可以包括基于文本的文件或包括信息的其他格式,诸如针对每个杂合位置处的参考基因组的等位基因频率、针对每个杂合位置处的备选基因组的等位基因频率和/或每个杂合位置处的平均等位基因频率,但是由或从基因组分析系统获得的任何其他信息、测序数据、目标或参考基因组和/或其他源可以包括在报告中。
例如,基因组分析系统可以视觉显示关于屏幕或其他显示方法上的杂合位置中的一个或多个的信息。临床医师或研究员可能仅对一个或若干杂合位置感兴趣,并且因此基因组分析系统可以被指导或以其他方式设计或编程为仅显示针对一个或若干杂合位置获得的信息。
根据实施例,报告或信息可以存储在临时和/或长期存储器或其他存储设备中。额外地和/或备选地,报告或信息可以传递或以其他方式传送到另一系统、接收者、过程、设备和/或其他本地或远程位置。
根据实施例,一旦报告或信息生成,则其可以提供给研究员、临床医师或其他用户以基于所提供的信息来查看并且实施动作或响应。例如,研究员或临床医师可以利用信息来开采目标基因组中的变异等位基因,诸如患者或研究对象的基因组。用户可以手动查看报告以识别所有变异等位基因,或者识别特定变异等位基因,或者可以使用软件或其他方法来识别一个或多个变异等位基因。识别变异等位基因是疾病研究、疾病诊断和疾病处置的重要方面。因此,临床医师可以例如基于报告的输出诊断遗传缺陷或假设特定遗传缺陷的存在。临床医师可以额外地或备选地基于报告的输出来选择特定处置。
作为另一范例,用户可以查看报告或信息以确定目标基因组内的特定位置是否包括变异等位基因。例如,研究员、临床医师或其他用户能够对特定变异等位基因感兴趣以用于研究、处置、或其他目的并且可以查看报告和/或生成涉及感兴趣等位基因位置的报告。如由报告所指示的等位基因变异的存在或缺失为用户提供必要的研究或处置信息。许多其他下游使用是可能的。
参考图2,在一个实施例中,是被配置为分析比对偏差的基因组分析系统200的示意性表示。系统200可以是本文所描述或以其他方式预想的系统中的任一个,并且可以包括本文所描述或以其他方式预想的部件中的任一个。
根据实施例,系统200包括经由一个或多个系统总线212互连的处理器220、存储器230、用户接口240、通信接口250和存储设备260中的一个或多个。在一些实施例中,诸如其中系统包括或者直接地实施测序仪或测序平台的那些,硬件可以包括额外的测序硬件215。在一些方面中,将理解,图2构成抽象并且系统200的部件的实际组织可以是不同的并且比所图示的更复杂的。
根据实施例,系统200包括能够运行存储在存储器230或存储设备260中的指令或以其他方式处理数据以例如执行方法的一个或多个步骤的处理器220。处理器220可以由一个或多个模块形成。处理器220可以采取任何适当的形式,包括但不限于微处理器、微控制器、多个微控制器、电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单个处理器、或多个处理器。
存储器230可以采取任何适当的形式,包括非易失性存储器和/或RAM。存储器230可以包括各种存储器,诸如例如L1、L2或L3高速缓存或系统存储器。这样一来,存储器230可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或者其他类似存储器设备。除了其他事物,存储器可以存储操作系统。RAM由处理器用于数据的暂时存储。根据实施例,操作系统可以获得在由处理器运行时控制系统200的一个或多个部件的操作的代码。将显而易见的是,在处理器以硬件实施本文所描述的功能中的一个或多个的实施例中,可以省略描述为对应于其他实施例中的这样的功能的软件。
用户接口240可以包括用于使能与用户通信的一个或多个设备。用户接口可以是允许信息传达和/或接收的任何设备或系统,并且可以包括显示器、鼠标、和/或用于接收用户命令的键盘。在一些实施例中,用户接口240可以包括可以经由通信接口250呈现给远程终端的命令行接口或者图形用户接口。用户接口可以与系统的一个或多个其他部件一起定位,或者远离系统定位并且经由有线和/或无线通信网络进行通信。
通信接口250可以包括用于使能与其他硬件设备通信的一个或多个设备。例如,通信接口250可以包括被配置为根据以太网协议通信的网络接口卡(NIC)。此外,通信接口250可以实施用于根据TCP/IP协议通信的TCP/IP栈。针对通信接口250的各种备选或者额外的硬件或者配置将是显而易见的。
存储设备260可以包括一个或多个机器可读存储介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光学存储介质、闪存设备或者类似存储介质。在各种实施例中,存储设备360可以存储用于由处理器220运行的指令或者处理器220可以操作的数据。例如,存储设备260可以存储用于控制系统200的各种操作的操作系统261。在系统200实施测序器并且包括测序硬件215的情况下,存储设备260可以包括用于操作测序硬件215的测序指令262,以及由测序硬件215获得的测序数据263,但是测序数据263可以从除相关联的测序平台之外的源获得。
存储设备260还可以存储一个或多个参考基因组264,和/或系统200可以与参考基因组数据库通信。参考基因组数据库可以是公共数据库或私有数据库并且可以远程存储并且经由通信接口访问。参考基因组数据库可以包括一个或多个参考基因组。
将显而易见的是,被描述为被存储在存储设备260中的各种信息可以额外地或者备选地被存储在存储器230中。在该方面中,存储器230还可以被认为是构成存储设备并且存储设备260可以被认为是存储器。各种其他布置将是显而易见的。此外,存储器230和存储设备260两者可以被认为是非瞬态机器可读介质。如本文所使用的,术语非瞬态将被理解为排除瞬态信号但是包括所有形式的存储设备,包括易失性和非易失性存储器两者。
尽管注释系统200被示出为包括每个所描述的部件之一,但是在各种实施例中,可以复制各种部件。例如,处理器220可以包括多个微处理器,所述多个微处理器被配置为独立地执行本文所描述的方法或者被配置为执行本文所描述的方法的步骤或子例程,使得多个处理器协作来实现本文所描述的功能。此外,在系统200的一个或多个部件被实施在云计算系统中的情况下,各种硬件部件可以属于单独的物理系统。例如,处理器220可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。许多其他变型和配置是可能的。
根据实施例,基因组分析系统200的存储设备260可以存储一个或多个算法和/或指令以执行本文所描述或以其他方式预想的方法的一个或多个功能或者步骤。例如,处理器220可以包括比对指令或软件265、变异等位基因调用指令或软件266、备选参考基因组指令或软件267、等位基因频率指令或软件268和/或报告生成指令或软件269以及许多其他算法和/或指令以执行本文所描述和/或以其他方式预想的方法的一个或多个功能或步骤。
根据实施例,比对指令或软件265引导系统将序列数据与参考基因组比对。序列数据可以是来自目标基因组的任何序列数据,并且可以由系统生成或以其他方式获得。例如,基因组分析系统够可以包括被配置为获得来自目标基因组的测序数据的测序平台,或者可以与由另一系统从目标基因组生成的测序数据通信或者以其他方式接收其。生成和/或接收的测序数据可以存储在本地或远程数据库中以用于由基因组分析系统使用。生成和/或接收的测序数据可以包括完整或几乎完整的基因组,或者可以是部分基因组。例如,生成和/或接收的测序数据可以是组件、全基因组结构、不完整基因组、部分基因组、外显子组和/或任何其他测序数据。
由系统用于比对的参考基因组可以是任何参考基因组,诸如标准参考基因组或选自多个可能参考基因组的参考基因组。参考基因组可以由系统存储或者可以由系统获得、检索或以其他方式接收。根据实施例,参考基因组是FASTA文件,但是许多其他文件类型是可能的。
一旦系统具有测序数据和参考基因组,比对指令或软件265就引导系统将测序数据与参考基因组比对。测序数据使用任何比对方法与参考基因组比对,包括但不限于当前和未来比对算法或方法。存在可用于序列比对的各种不同工具,包括专有和开源软件两者,并且这些工具中的任一个可以被用于将多个测序读取与参考基因组比对。因此,系统200可以包括被配置为将测序数据与参考基因组比对的专有和/或开源软件或算法。比对指令或软件265因此指导系统200生成由系统的其他功能利用的基因组比对。
如本文所描述的,比对指令或软件265还可以引导系统将相同或其他测序数据与备选基因组比对。因此,比对指令可以引导系统200将DNA测序数据与由系统生成的备选基因组比对,或者可以引导系统将RNA测序数据与备选基因组比对,和/或可以引导系统将任何其他测序数据与备选基因组比对。
根据实施例,变异等位基因调用指令或软件266引导系统识别基因组比对中的变异。变异可以使用任何变异调用方法识别,包括但不限于Varscan、Samtools和GATK以及许多其他算法。变异等位基因调用指令或软件266可以因此包括专用和/或开源软件或算法。指令可以引导系统识别例如等位基因变异的位置、该位置处的变异等位基因和/或该位置处的变异等位基因的频率。变异等位基因将通常包括对应于参考基因组的一个等位基因和第二不同等位基因。
根据实施例,变异等位基因调用指令或软件266引导系统仅识别满足某个阈值的变异,因此是高置信度变异。变异调用算法能够例如要求变异以诸如25%、50%、75%、或任何其他百分比的最低频率识别。这可以取决于如本文所描述的变异位置的读取深度。阈值可以由系统和/或由用户编程、选择或以其他方式确定。例如,除了其他输入方法,用户可以经由用户接口240选择频率阈值。
根据实施例,备选参考基因组指令或软件267引导系统根据所识别的变异等位基因生成备选参考基因组。根据实施例,基因组分析系统根据高置信度变异等位基因生成备选参考基因组,这意指已经满足针对等位基因变异的最小频率阈值的杂合位置。备选参考基因组指令或软件267可以是例如利用变异位置和每个位置处的变异等位基因的值以及用于参考基因组的文件的算法(诸如脚本),以生成备选参考基因组。例如,脚本可以通过利用每个所识别的杂合位置处(诸如在每个所识别的高置信度杂合位置处)的变异等位基因代替或替换参考等位基因来修改基于文本的FASTA文件。
根据实施例,备选参考基因组指令或软件267引导系统生成备选参考基因组并且提供基因组作为存储在临时和/或长期存储器中以用于基因组分析系统的其他功能的输出。例如,指令的输出可以是FASTA文件,但是许多其他文件类型是可能的。
根据实施例,等位基因频率指令或软件268引导系统评估和/或量化一个或多个识别的杂合位置处的比对偏差。根据仅一个实施例,基因组分析系统通过比较以下各项评估和/或量化比对偏差:(1)在来自目标基因组的测序数据与原始参考基因组的比对期间获得的变异等位基因频率,与(2)在来自目标基因组的测序数据与备选参考基因组的比对期间获得的变异等位基因频率。许多其他类型的评估和量化是可能的。根据实施例,等位基因频率指令或软件268可以引导系统对来自两个比对的等位基因变异频率进行平均。
作为另一范例,等位基因频率指令或软件268可以引导系统识别基于比对偏差的评估和/或量化未示出比对偏差的指示的等位基因和/或位置。例如,系统可以识别其中两个频率之间的差是零、几乎零或小于诸如5%、10%、25%或另一可能阈值的阈值的等位基因和/或位置。阈值可以例如由基因组分析系统、由用户和/或由另一系统确定。
等位基因频率软件或指令268可以引导系统根据比对偏差的评估和/或量化生成输出。例如,系统可以生成输出,包括针对每个杂合位置处的参考基因组的等位基因频率、针对每个杂合位置处的备选基因组的等位基因频率和/或每个杂合位置处的平均等位基因频率。根据另一范例,系统可以生成输出,包括基于比对偏差的评估和/或量化示出如本文所描述或以其他方式预想的比对偏差的没有或很少指示的等位基因和/或位置的识别。
根据实施例,报告生成指令或软件269引导系统生成用户报告,包括关于由系统执行的分析的信息。例如,报告可以包括关于比对偏差的评估和/或量化的信息,诸如一个或多个等位基因频率的报告。
报告可以针对任何格式或输出方法生成,诸如文件格式、视觉显示、或任何其他格式。报告可以包括基于文本的文件或其他格式,包括信息,诸如针对每个杂合位置处的参考基因组的等位基因频率、针对每个杂合位置处的备选基因组的等位基因频率和/或每个杂合位置处的平均等位基因频率,但是由或从基因组分析系统获得的任何其他信息、测序数据、目标或参考基因组和/或其他源可以包括在报告中。
报告生成指令或软件269可以引导系统将所生成的报告或信息存储在临时和/或长期存储器或其他存储装置中。这可以是系统200内或与系统200相关联的本地存储设备,或者可以是从或经由系统200接收报告或信息的远程存储设备。额外地和/或备选地,报告或信息可以传递或以其他方式传送到另一系统、接收者、过程、设备和/或其他本地或远程位置。
报告生成指令或软件269可以引导系统将所生成的报告提供给用户或其他系统。例如,基因组分析系统可以视觉显示关于用户接口上的杂合位置中的一个或多个的信息,其可以是屏幕或其他显示器。临床医师或研究员可能仅对一个或若干杂合位置感兴趣,并且因此基因组分析系统可以被指导或以其他方式设计或编程为仅显示针对一个或若干杂合位置获得的信息。
本文所描述或以其他方式预想的基因组分析系统和方法提供优于现有系统和方法的许多优点。例如,当前系统和方法未能解决贯穿人类基因组发生的比对偏差,包括在临床相关位置处。该比对偏差可以具有针对研究员和临床医师两者的显著暗示,因为其可能模糊目标基因组的实际基因型。本文所描述或以其他方式预想的方法和系统通过使用备选基因组比对减少比对偏差。
根据实施例,本文所描述或以其他方式预想的基因组分析系统和方法使得研究员、临床医师或其他用户能够更准确地确定目标基因组的基因型,并且因此在研究、诊断、处置和/或其他决策中实施该信息。这显著地改进研究员、临床医师、或其他用户的研究、诊断、和/或处理决策。
如本文所定义和使用的所有定义应被理解为控制在字典定义、通过引用并入的文献中的定义和/或所定义的术语的普通含义上。
如本文中在说明书和权利要求书中所使用的词语“a(一)”和“an(一个)”应被理解为意指“至少一个”,除非明确相反指示。
如在本说明书和权利要求书中所使用的短语“和/或”应该被理解为是指如此联合的元素中的“任一个或两者”,即在一些情况下联合存在并且在其它情况下分离存在的元素。利用“和/或”列出的多个元素应该以相同的方式解释,即如此联合的元素中的“一个或多个”。除了由“和/或”子句特别识别的元素,其他元素可以任选地存在,不管与具体识别的那些元素相关还是不相关。
如在本说明书和权利要求书中所使用的,“或”应当被理解为具有与上面所定义的“和/或”相同的含义。例如,当在列表中分离项目时,“或”或“和/或”应被解释为包含性的,即包括多个元素或元素列表中的至少一个元素,但也包括多于一个元素,以及任选的其他未列出项目。仅清楚地指示为相反的术语,诸如“仅一个”或“确切地一个”,或者,当在权利要求中使用时,“由...组成”,将指包括多个元素或元素列表中的确切地一个元素。通常,如本文使用的术语“或”仅当前面有排他性术语(例如“任一个”,“...中的一个”,“...中的仅一个”,或者“...中的确切地一个”)时才应解释为指示排他性备选(即,“一个或另一个但是并非两者”)。
如本文中在说明书和权利要求书中所使用的,涉及一个或多个元素的列表的短语“至少一个”应该被理解为是指选自元素列表中的元素中的任何一个或多个的至少一个元素,但是不必包括元素列表内具体列出的每一个元素和每个元素中的至少一个,并且不排除元素列表中的元素的任何组合。该定义还允许除了在短语“至少一个”涉及的元素列表内具体识别的元素之外元素可以任选地存在,而不管与具体识别的那些元素相关还是不相关。
还应该理解,除非明确地相反指示,在本文所要求保护的包括多于一个步骤或动作的任何方法中,方法的步骤或动作的顺序不必限于叙述该方法的步骤或动作的顺序。
在权利要求书以及上面的说明书中,所有的过渡性短语,诸如“包括”、“包含”、“携带”、“具有”、“含有”、“涉及”、“保持”、“带有”等等应被理解为是开放式的,即意味着包括但不限于。只有过渡性短语“由...组成”和“实质上由...组成”应分别是封闭式或半封闭式过渡短语。
尽管在本文中已经描述并且图示了若干发明实施例,但是本领域的普通技术人员将容易预想到用于执行功能和/或获得结果和/或本文所描述的优点中的一个或多个的各种其他模块和/或结构,并且这样的变型和修改中的每个被认为是在本文所描述的发明实施例的范围内。更一般地,本领域的技术人员将容易意识到,在本文中所描述的所有参数、尺寸、材料和配置旨在是示范性的,并且实际参数、尺寸、材料和/或配置将取决于使用发明教导的一个或多个特定应用。本领域的技术人员将认识到或者能够使用不超过常规试验确定本文所描述的特定发明实施例的许多等价方案。因此,应理解,前述实施例仅通过范例呈现,并且在权利要求书和其等价方案的范围内,可以实践除特别地所描述和要求保护外的发明实施例。本公开的发明实施例涉及本文所描述的每个个体特征、系统、制品、材料、工具和/或方法。另外,如果这样的特征、系统、制品、材料、工具和/或方法不互相矛盾,则两个或更多个这样的特征、系统、制品、材料、工具和/或方法的任何组合被包括在本公开的发明范围内。
Claims (15)
1.一种用于使用基因组分析系统(200)分析目标基因组的方法(100),包括:
将来自所述目标基因组的测序数据与参考基因组进行比对(120);
根据所述比对来识别(130)所述目标基因组内的一个或多个杂合位置,并且其中,所述识别还包括对每个杂合位置处的等位基因变异和每个等位基因变异的频率的识别,所述等位基因变异包括还在所述参考基因组中找到的参考等位基因变异和未在所述参考基因组中找到的非参考等位基因变异两者;
根据所述识别并且根据所述参考基因组来生成(140)备选参考基因组,其中,针对所识别的杂合位置中的一个或多个杂合位置的所识别的非参考等位基因变异替换所述参考基因组中的所述参考等位基因变异;
将来自所述目标基因组的测序数据与所述备选参考基因组进行比对(150);
根据所述比对来识别(160)所识别的一个或多个杂合位置中的每个杂合位置处的所述等位基因变异的频率;
评估(170)所识别的杂合位置中的一个或多个杂合位置处的比对偏差,包括将来自所识别的杂合位置处的参考基因组比对的等位基因变异的所述频率与来自该相同位置处的备选基因组比对的等位基因变异的所述频率进行比较的步骤;并且
生成(190)针对用户的报告,所述报告包括对比对偏差的所述评估。
2.根据权利要求1所述的方法,其中,比较包括将来自所述参考基因组比对的等位基因变异的所述频率与来自所述备选基因组比对的等位基因变异的所述频率进行平均以生成针对每个等位基因变异的平均频率。
3.根据权利要求2所述的方法,其中,所述报告包括:(i)所识别的杂合位置中的每个杂合位置;(ii)来自所识别的杂合位置处的所述参考基因组比对的等位基因变异的所述频率;(iii)来自该相同位置处的所述备选基因组比对的等位基因变异的所述频率;以及(iv)针对每个等位基因变异的所述平均频率。
4.根据权利要求1所述的方法,其中,来自与所述参考基因组比对的所述目标基因组的所述测序数据是DNA测序数据。
5.根据权利要求4所述的方法,其中,来自与所述备选参考基因组比对的所述目标基因组的所述测序数据是与所述参考基因组比对的相同DNA测序数据。
6.根据权利要求1所述的方法,其中,来自与所述备选参考基因组比对的所述目标基因组的所述测序数据是RNA测序数据。
7.根据权利要求1所述的方法,其中,生成备选参考基因组的步骤包括生成FASTA文件。
8.根据权利要求1所述的方法,其中,在一位置处的杂合性满足或超过预定阈值的情况下该位置被识别为杂合的。
9.根据权利要求8所述的方法,其中,针对变异等位基因位置的所述预定阈值至少部分地基于该位置处的所确定的读取深度。
10.一种被配置为分析目标基因组的系统(200),包括:
参考基因组;
来自目标基因组的一组DNA测序数据;
处理器(220),其被配置为:(i)将来自所述目标基因组的测序数据与参考基因组进行比对;(ii)根据所述比对来识别所述目标基因组内的一个或多个杂合位置,其中,所述识别还包括对每个杂合位置处的等位基因变异和每个等位基因变异的频率的识别,所述等位基因变异包括还在所述参考基因组中找到的参考等位基因变异和未在所述参考基因组中找到的非参考等位基因变异两者;(iii)根据所述识别并且根据所述参考基因组来生成备选参考基因组,其中,针对所识别的杂合位置中的一个或多个杂合位置的所识别的非参考等位基因变异替换所述参考基因组中的所述参考等位基因变异;(iv)将来自所述目标基因组的测序数据与所述备选参考基因组进行比对;(v)根据所述比对来识别所识别的一个或多个杂合位置中的每个杂合位置处的所述等位基因变异的频率;并且(vi)评估所识别的杂合位置中的一个或多个杂合位置处的比对偏差,包括将来自所识别的杂合位置处的参考基因组比对的等位基因变异的所述频率与来自该相同位置处的备选基因组比对的等位基因变异的所述频率进行比较的步骤;以及
数据结构(260),其被配置为存储对比对偏差的所述评估。
11.根据权利要求10所述的系统,还包括来自所述目标基因组的一组RNA测序数据,其中,所述处理器被配置将所述RNA测序数据与所述备选参考基因组进行比对。
12.根据权利要求10所述的系统,其中,所述处理器被配置通过将来自所述参考基因组比对的等位基因变异的所述频率与来自所述备选基因组比对的等位基因变异的所述频率进行平均以生成针对每个等位基因变异的平均频率来评估比对偏差。
13.根据权利要求10所述的系统,其中,所述处理器被配置为在位置处的杂合性满足或超过预定阈值的情况下将该位置识别为杂合的。
14.根据权利要求10所述的系统,还包括用户接口(240),所述用户接口被配置为提供针对用户的报告,所述报告包括对比对偏差的所述评估。
15.根据权利要求14所述的系统,其中,所述报告包括:(i)所识别的杂合位置中的每个杂合位置;(ii)来自所识别的杂合位置处的所述参考基因组比对的等位基因变异的所述频率;(iii)来自该相同位置处的所述备选基因组比对的等位基因变异的所述频率;以及(iv)针对每个等位基因变异的平均频率。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862723676P | 2018-08-28 | 2018-08-28 | |
US62/723,676 | 2018-08-28 | ||
PCT/EP2019/072327 WO2020043560A1 (en) | 2018-08-28 | 2019-08-21 | Method for assessing genome alignment basis |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112771619A true CN112771619A (zh) | 2021-05-07 |
Family
ID=67742399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980064199.5A Pending CN112771619A (zh) | 2018-08-28 | 2019-08-21 | 用于评估基因组比对基础的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210319849A1 (zh) |
EP (1) | EP3844758A1 (zh) |
CN (1) | CN112771619A (zh) |
WO (1) | WO2020043560A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114300044A (zh) * | 2021-12-31 | 2022-04-08 | 深圳华大医学检验实验室 | 基因评估方法、装置、存储介质及计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1612941A (zh) * | 2001-12-10 | 2005-05-04 | 诺瓦提斯公司 | 基于cntf基因的多态性治疗精神病和精神分裂症的方法 |
CN102766605A (zh) * | 1999-12-10 | 2012-11-07 | 由卫生与公众服务部代表的美利坚合众国政府 | 重组副流感病毒(piv)作为载体提供保护对抗piv及其他人类病原体引起的感染和疾病的用途 |
CN104160391A (zh) * | 2011-09-16 | 2014-11-19 | 考利达基因组股份有限公司 | 确定异质样本的基因组中的变异 |
WO2018093780A1 (en) * | 2016-11-16 | 2018-05-24 | Illumina, Inc. | Validation methods and systems for sequence variant calls |
-
2019
- 2019-08-21 US US17/272,517 patent/US20210319849A1/en active Pending
- 2019-08-21 WO PCT/EP2019/072327 patent/WO2020043560A1/en unknown
- 2019-08-21 EP EP19758679.5A patent/EP3844758A1/en not_active Withdrawn
- 2019-08-21 CN CN201980064199.5A patent/CN112771619A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102766605A (zh) * | 1999-12-10 | 2012-11-07 | 由卫生与公众服务部代表的美利坚合众国政府 | 重组副流感病毒(piv)作为载体提供保护对抗piv及其他人类病原体引起的感染和疾病的用途 |
CN1612941A (zh) * | 2001-12-10 | 2005-05-04 | 诺瓦提斯公司 | 基于cntf基因的多态性治疗精神病和精神分裂症的方法 |
CN104160391A (zh) * | 2011-09-16 | 2014-11-19 | 考利达基因组股份有限公司 | 确定异质样本的基因组中的变异 |
WO2018093780A1 (en) * | 2016-11-16 | 2018-05-24 | Illumina, Inc. | Validation methods and systems for sequence variant calls |
Non-Patent Citations (2)
Title |
---|
SHUAI YUAN等: "Read-mapping using personalized diploid reference genome for RNA sequencing data reduced bias for detecting allele-specific expression", 《IEEE》, pages 718 - 724 * |
姜泓;王平忠;张野;徐哲;王九平;彭梅娟;黄长形;白雪帆;: "TLR4基因RNA干扰载体的构建及其抑制效率比较", 解放军医学杂志, no. 03 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114300044A (zh) * | 2021-12-31 | 2022-04-08 | 深圳华大医学检验实验室 | 基因评估方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3844758A1 (en) | 2021-07-07 |
US20210319849A1 (en) | 2021-10-14 |
WO2020043560A1 (en) | 2020-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sedlazeck et al. | Accurate detection of complex structural variations using single-molecule sequencing | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
US20230154563A1 (en) | Detection of Human Leukocyte Antigen Loss of Heterozygosity | |
Han et al. | Novel algorithms for efficient subsequence searching and mapping in nanopore raw signals towards targeted sequencing | |
Höllbacher et al. | Seq-ing answers: Current data integration approaches to uncover mechanisms of transcriptional regulation | |
Fu et al. | Vulcan: Improved long-read mapping and structural variant calling via dual-mode alignment | |
CN112771619A (zh) | 用于评估基因组比对基础的方法 | |
CN112863603A (zh) | 细菌全基因组测序数据的自动化分析方法及系统 | |
Glick et al. | Panoramic: A package for constructing eukaryotic pan‐genomes | |
US20190108311A1 (en) | Site-specific noise model for targeted sequencing | |
US20180293348A1 (en) | Signature-hash for multi-sequence files | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
CN116994647A (zh) | 用于分析变异检测结果的模型的构建方法 | |
US20210214774A1 (en) | Method for the identification of organisms from sequencing data from microbial genome comparisons | |
AU2021454223A1 (en) | Detection of human leukocyte antigen loss of heterozygosity | |
JP7437310B2 (ja) | Rnaシーケンシングデータの転写発現レベルを解釈するために局所的なユニークな特徴を使用するシステム及び方法 | |
CN112863602A (zh) | 染色体异常的检测方法、装置、计算机设备和存储介质 | |
US20230011085A1 (en) | Method and system for determining a cnv profile for a tumor using sparse whole genome sequencing | |
US20220399079A1 (en) | Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status | |
WO2023181370A1 (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN115662519B (zh) | 一种基于机器学习预测癌症的cfDNA片段特征组合及系统 | |
US20230064530A1 (en) | Detection of Genetic Variants in Human Leukocyte Antigen Genes | |
Gafurov et al. | Probabilistic Models of k-mer Frequencies | |
Molotkov et al. | SNPred outperforms other ensemble-based SNV pathogenicity predictors and elucidates the challenges of using ClinVar for evaluation of variant classification quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |