BR102012031096B1 - método e uso para verificação de erros de montagem em genomas - Google Patents
método e uso para verificação de erros de montagem em genomas Download PDFInfo
- Publication number
- BR102012031096B1 BR102012031096B1 BR102012031096A BR102012031096A BR102012031096B1 BR 102012031096 B1 BR102012031096 B1 BR 102012031096B1 BR 102012031096 A BR102012031096 A BR 102012031096A BR 102012031096 A BR102012031096 A BR 102012031096A BR 102012031096 B1 BR102012031096 B1 BR 102012031096B1
- Authority
- BR
- Brazil
- Prior art keywords
- genome
- genomes
- frequency
- assembly
- words
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
método e uso para verificação de erros de montagem em genomas a presente invenção trata-se de um método para verificação de erros de montagem em genomas de organismos sequenciados ou produzidos de maneira sintética que utiliza relações de frequência entre fragmentos de sequências de nucleotídeos de um genoma. o método possui aplicações na verificação de erros em um genoma montado a partir de fragmentos oriundos dos diferentes tipos de tecnologias de sequenciamento e auxiliar na construção de genomas sintéticos, como por exemplo. pode ser empregado para compressão de material genético, pois as relações de frequência determinadas pelo método permitem reduzir a complexidade de sequências de nucleotídeos, de forma a representar seu conteúdo de maneira comprimida, reduzindo assim o espaço necessário para seu armazenamento.
Description
A presente invenção trata-se de um método para verificação de erros de montagem em genomas de organismos sequenciados ou produzidos de maneira sintética que utiliza relações de frequência entre fragmentos de sequências de nucleotídeos de um genoma.
O método possui aplicações na verificação de erros em um genoma montado a partir de fragmentos oriundos dos diferentes tipos de tecnologias de sequenciamento (lllumina, 454, Solid, PacBio, entre outros) e pode auxiliar na construção de genomas sintéticos, como por exemplo como por exemplo em organismos geneticamente híbridos ou transgênico. Além disso, o método proposto também pode ser empregado para compressão de material genético, pois as relações de frequência determinadas pelo método permitem reduzir a complexidade de sequências de nucleotídeos, de forma a representar seu conteúdo de maneira comprimida, reduzindo assim o espaço necessário para seu armazenamento.
Fundamentos da Invenção
Nos últimos anos, p barateamento e o aperfeiçoamento das tecnologias de sequenciamento em larga escala de material genético tornou possível conhecer o DNA e o RNA de todos os seres vivos. Entretanto, todas as tecnologias de sequenciamento existentes, desde as mais antigas até as mais recentes, usam técnicas de fragmentação da molécula original. Tais
2/15 fragmentos são então analisados por ferramentas computacionais que, utilizando métodos baseados em sobreposição de fragmentos, tentam reconstruir a molécula original. A alta frequência de sequências repetitivas, erros oriundos dos equipamentos de sequenciamento bem como falhas e falta de precisão dos processos de laboratório para purificação das amostras que serão sequenciadas também podem introduzir erros que se refletem na montagem final dos fragmentos sequenciados. Em função dos problemas mencionados, existem algumas ferramentas computacionais que permitem filtrar os fragmentos sequenciados que apresentam baixa qualidade ou que são oriundos de artefatos introduzidos antes ou durante o processo de sequenciamento. Apesar de sua utilidade, tais ferramentas limitam-se a apenas remover os fragmentos, ou partes dele, que poderão gerar inconsistências na montagem do genoma. Após a etapa final de montagem do genoma, os únicos métodos existentes que permitem verificar sua qualidade com maior rigor são aqueles baseados em similaridade, em que é necessário o uso de um genoma de referência de algum organismo da mesma espécie, ou que seja geneticamente próximo daquele que foi sequenciado (Meader et a!., 2010). O problema disso é que muitas espécies ainda não possuem organismos sequenciados e até mesmo aqueles que já foram sequenciados podem apresentar erros de montagem, transferindo seus erros para outros organismos que fizerem uso de sua montagem danificada. Já outros baseiam-se no uso de informações da qualidade dos fragmentos sequenciados para tentar melhorar a qualidade de uma montagem (Haiminen etal., 2011).
3/15
As limitações tecnológicas existentes para extração de sequências completas de nucleotídeos (moléculas de DNA ou RNA) requer que as mesmas sejam fragmentadas em pedaços curtos (reads), impondo o uso de ferramentas computacionais para sua reconstrução. Tais ferramentas baseiam-se em métodos que utilizam os reads e buscam por regiões de sobreposição em suas extremidades, de forma a expandi-los e, ao final, reconstruir a molécula original. Apesar da comprovada qualidade de tais metodologias de montagem em gerar sequências equivalentes a genomas inteiros, ainda não há formas eficientes de tratar diversos tipos de situações, sejam de contexto biológico ou computacional. Problemas como heterozigozidade, quantidade de ploidias e qualidade biológica da amostra que pode estar em fase de degradação podem introduzem erros e problemas no processo de montagem, sendo o principal deles a alta frequência de sequências repetitivas em um genoma. No contexto tecnológico e computacionai há dois grandes problemas: o primeiro é a incapacidade atual dos equipamentos de sequenciamento em extrair material genético que corresponda a sequências inteiras de nucleotídeos, o que torna necessário introduzir uma etapa de fragmentação em diferentes regiões da molécula. O segundo é a incapacidade das ferramentas computacionais de tratar de forma precisa a alta frequência de sequências repetitivas presentes nos genomas, os quais costumam ser muito maiores do que o tamanho médio dos reads gerados pelo processo de sequenciamento. Além disso, as etapas de montagem computacional de genomas também requerem uma correta e minuciosa configuração dos softwares que serão utilizados, pois os parâmetros
4/15 variam de acordo com o tipo de organismo, equipamento de sequenciamento utilizado e recursos computacionais disponíveis. Outros fatores, como preparo e/ou contaminação do material genético e falta de um controle rígido no processo de purificação das amostras que serão sequenciadas, também influenciam na montagem final de um genoma. Apesar da maioria das ferramentas computacionais tentarem tratá-los, elas utilizam uma abordagem conservadora, reduzindo assim a quantidade de erros na montagem e, também, o nível de reconstrução da molécula original.
Os problemas de montagem motivaram o desenvolvimento de metodologias que procuram minimizar ou até mesmo corrigir possíveis erros de montagem nos genomas. Estratégias experimentais são muito mais custosas e complexas, e por isso há preferência por metodologias estritamente computacionais. Algumas se baseiam no uso de informações de genomas de organismos próximos como referência na identificação de problemas de montagem. Outras metodologias utilizam informações de regiões conservadas entre grupos de organismos para localizar eventuais erros em regiões específicas do genoma montado. Há ainda outras metodologias que utilizam informações da frequência de nucleotídeos do genoma, sendo a mais conhecida delas o método baseado nas Regras de Chargaff. Nele, é contabilizada a frequência dos nucleotídeos A (adenina), C (citosina), G (guanina) e T (timina), e são verificadas se as duas relações de frequência a seguir são válidas: A~=T e C~=G.
5/15
Pelo fato de não haver, ainda, um método eficiente e que seja capaz de substituir todos os demais, a melhor estratégia tem sido combinar diferentes abordagens para conferir maior garantia na qualidade de um genoma, seja ele montado ou produzido de forma sintética.
Apesar da necessidade de métodos que permitam verificar a qualidade de montagens de genomas, ainda não há métodos similares ao proposto por esta patente. Nele, é apresentado um método que, pela primeira vez, é capaz de utilizar informações de relações de frequência entre fragmentos de nucleotídeos de um genoma para que seja possível verificar a qualidade da montagem de um genoma.
Breve Descrição da Invenção
A presente invenção trata-se de um método para verificação de erros de montagem em genomas de organismos sequenciados ou produzidos de maneira sintética que utiliza relações de frequência entre fragmentos de sequências de nucleotídeos de um genoma.
A partir das relações de frequência descritas pelo método, é possível utilizá-las para verificar se há erros de montagem em um genoma que foi reconstruído a partir de fragmentos de sequências de nucleotídeos, ou que foi construído de forma sintética. Sua utilização traz vantagens relacionadas a possibilidade de obtenção de sequências que sejam mais próximas da sequência original quando extraída de um organismo qualquer da natureza. Para o caso de moléculas sintéticas, como genomas sintéticos, o método pode ser empregado para verificar se a contrução da mesma foi realizada de forma a
6/15 se aproximar mais de um genoma natural, sugerindo assim reorganizá-la para que seja biologicamente mais eficiente. Outra vantagem deste método é o fato de permitir que sequências de nucleotídeos possam ser comprimidas, tornando sua transferência mais rápida e reduzindo o espaço necessário para seu armazenamento.
Breve Descrição das Figuras
A Figura 1 apresenta uma aplicação do método, da presente invenção, baseado em relações de frequência das palavras F(wk) e F(R(wk)) para identificar erros de montagem em genomas, para tamanhos de palavra variando entre 2 e 8. Trinta e dois genomas foram considerados e, conforme considerado pelo método, o desvio inesperado de pelo menos 0.01 na soma da frequência das palavras no genoma da bactéria Xylella fastidiosa 9a5c demonstra a existência de erros de montagem.
A Figura 2 apresenta uma aplicação do método, da presente invenção, considerando as relações de frequência para fragmentos de tamanho variando entre 1 e 8. Nota-se claramente que, independentemente do valor de k, as relações de frequência tornam-se inválidas para o genoma da bactéria Xylella fastidiosa 9a5c, montada por Simpson et al. (2000).
A Figura 3 apresenta uma comparação das montagens do genoma das espécies de X. fastidiosa ssp. com o uso do software Gmap do NCBI.
A Figura 4 apresenta um alinhamento múltiplo das montagens do genoma das espécies de X. fastidiosa ssp. Blocos do genoma da X. fastidiosa 9a5c (Xf_9a5c_DNA.fas) que se encontram na parte inferior representam
7/15 regiões que sofreram inversões ou translocações com relação aos demais genomas que são praticamente iguais estruturalmente.
Descrição Detalhada da Invenção
A presente invenção trata-se de um método para verificação de erros de montagem em genomas de organismos sequenciados ou produzidos de maneira sintética que utiliza relações de frequência entre fragmentos de sequências de nucleotídeos de um genoma.
O invento descreve um conjunto de regras de paridade de frequência de oligonucleotideos que são observadas em vários genomas e podem ser aplicadas para: verificar a ocorrência de erros de montagem em genomas f
reconstruídos a partir de fragmentos de sequências; avaliar a qualidade de P ·*' > genomas sintéticos da mesma forma que é feita em um genoma montado; comprimir sequências de nucleotídeos para reduzir o espaço físico ocupado por elas em um sistema computacional. As seções seguintes contextualizam e descrevem brevemente detalhes do método proposto na presente invenção.
É apresentado um novo método que é estritamente computational e pode ser aplicado para verificar a existência de erros de montagem em um genoma, o qual foi testado em diversos organismos. Outras aplicações são citadas em outras seções, Este método representa uma extensão das regras propostas por Chargaff.
O método considera a existência de duas relações de frequência (Equações 1 e 2) de palavras que são invariantes entre si. Tais relações levam em consideração uma sequência w de tamanho k, e os seguintes operadores
8/15 sobre wk: R(wk) - sequência reversa de wk; C(wk) - sequência complementar de wk em que complementar de A é T, e de C é G; e R(C(wk)) - sequência reversa e complementar de wk.
= Qr5 (1)
4- £ F = 0,5 (2)
O método para verificação de erros de montagem em genomas compreende as seguintes etapas:
i) fragmentar o genoma em palavras de tamanho k; onde K representa o tamanho de uma subpalavra do genoma, podendo variar entre 3 e 8;
ii) calcular, para cada palavra wk, a frequência das palavras θ r(c(/?(wp)); iii) calcular, a partir das frequências das palavras, o somatório das frequências de palavras para cada tipo de operador, de forma a obter ^F(C(w)) > , θ ;
iv) aplicar as relações de frequência das Equações 1 e 2;
v) detecção de erro de montagem se a variação for superior a 0.01.
Exemplos
Considerando um caso fictício em que k=3 (fragmentos de sequências de tamanho 3 obtidas de um genoma montado ou sintético), serão 64 palavras ao todo, e com apenas 20 delas, aplicando os operadores descritos, é possível
9/15 representar o conjunto inteiro de palavras possíveis em um MathTable, como pode ser visto na Tabela 1. As 20 palavras fazem parte do que é definido de Generating Set (GS), e cada uma delas juntamente com as palavras derivadas com o uso dos operadores C, R e C(R) formam uma Classe de Equivalência 5 (CE).
Por exemplo, dado uma palavra w3=ATC (classe de equivalência 6 da tabela 1), cujo tamanho k=3, aplicando-se os operadores descritos tem-se que R(ATC3)=CTA, C(ATC3)=TAG e R(C(ATC3))=GAT. Analisando-se a frequência destas palavras no genoma de 32 organismos, considerando animais, plantas, 10 micro-organismos e organismos modelos em geral, tem-se a confirmação das frequências descritas pelas equações 1 e 2. Mesmo que a seleção do GS seja feita de forma aleatória, as relações de frequência continuam válidas para as 20 CE, para k variando entre 3 e 10.
Esta forma de representar um conjunto de palavras do genoma com apenas o GS torna também viável o uso das relações de frequência para compressão de sequências de nucleotídeos.
Tabela 1 - MathTable com palavras de tamanho k=3. São 20 Classes de Equivalência geradas a partir da aplicação dos operadores C, R e C(R) sobre o Generating Set.
10/15
MathTable | ||||
GS | w | C(w) | R(w) | R(C(w)) |
1 | AAA | TTT | - | |
2 | AAT | TTA | TAA | ATT |
3 | TTG | AAC | GTT | CAA |
4 | CTT | GAA | TTC | AAG |
5 | ATA | TAT | ·» | - |
6 | ATC | TAG | CTA | GAT |
7 | ATG | TAC | GTA | CAT |
δ | ACA | TGT | - | |
9 | TGA | ACT | AGT | TCA |
10 | CCA | GGT | ACC | TGG |
11 | GCA | CGT | ACG | TGC |
12 | TCT | AGA | - | - |
13 | GCT | CGA | TCG | AGC |
14 | AGG | TCC | GGA | CCT |
15 | CAC | GTG | • | |
16 | CAG | GTC | GAC | CTG |
17 | CTC | GAG | - | |
16 | oco | GGG | - | - |
19 | GCC | CGG | CCG | GGC |
20 | GCG | CGC | - |
O método descrito já foi aplicado para analisar o genoma de 32 organismos, considerando animais, plantas, micro-organismos e organismos modelos que possuem um genoma com alta qualidade em sua montagem 5 (Arabidopsis thaliana, Drosophila melanogaster, Oryza sativa, Danio rerio, Escherichia coli, Homo sapiens, entre outros). Para todos os organismos analisados, com exceção de dois casos, obteve-se a confirmação das relações frequências descritas pelo método, para palavras cujo tamanho k variou entre 3 e 8 (Figura 1). A Tabela 2 traz de forma ilustrativa o MathTable calculado para 10 o genoma (versão hg19) do organismo Homo sapiens. Na parte inferior da tabela é apresentado o valor numérico proporcional obtido com o cálculo da frequência das palavras que são consideradas pelas relações de frequência descritas pelas Equações 1 e 2 desta patente. Para todos os outros organismos com genomas cuja montagem apresenta alta qualidade, as
11/15 frequências finais para os 3 operadores (C(w), R(w) e C(R(w))), considerados sobre uma palavra w de tamanho k, também são bastante aproximados, nunca variando mais do que 0.01, seja para mais ou para menos.
Tabela 2 - MathTable com os Generating Sets (GS) para o organismo primata
Homo sapiens, quando k=3.
MathTable do primata Homo sapiens | ||||||||
GS | w | C(W) | R(w) | R(C(w)) | ||||
AAA | 109749140 | TTT | 110166459 | |||||
2 | AAC | 41627244 | TTG | 54311635 | CAA | 54094783 | GTT | 41794674 |
3 | AAG | 57034179 | TTC | 56449412 | GAA | 56378039 | CTT | 57146588 |
4 | AAT | 71276139 | TTA | 59555531 | TAA | 59464724 | ATT | 71375364 |
5 | ACA | 57602370 | TGT | 57813554 | ||||
6 | ACC | 33255490 | TGG | 52825740 | CCA | 52721754 | GGT | 33294580 |
7 | ACG | 7181698 | TGC | 41224955 | GCA | 41189144 | CGT | 7199396 |
δ | ACT | 45999155 | TGA | 58051516 | TGA | 56034342 | AGT | 46059366 |
9 | AGA | 63234914 | TCT | 63331299 | ||||
10 | AGC | 39995034 | TCG | 6321268 | CGA | 6309329 | GGT | 40009048 |
11 | AGG | 50786559 | TCC | 44155W7 | GGA | 44181008 | CCT | 50842082 |
12 | ATA | 58958922 | TAT | 59017407 | ||||
13 | ATC | 38179270 | TAG | 36920158 | GTA | 36870884 | GAT | 38221759 |
14 | ATG | 52548021 | TAC | 32449297 | GTA | 32468243 | CAT | 52546267 |
15 | CAC | 42952967 | GTG | 43059447 | ||||
16 | CAG | 57953591 | GTC | 27046527 | GAC | 27009201 | CTG | 57996664 |
17 | ccc | 37601949 | GGG | 37636541 | ||||
18 | CCG | 7900528 | GGC | 34037239 | GCC | 34053268 | CGG | 7900539 |
19 | OGC | 6807741 | GCG | 6813510 | ||||
20 | CTC | 48167470 | GAG | 48167946 | ||||
Frequência | 928812381 | 927355048 | 500772719 | 504386307 | ||||
Proporção | 0.3246 | 0.3241 | 0.1750 | 0.1763 |
A Figura 1 representa a aplicação do método baseado em relações de frequência das palavras F(wk) e F(R(wk)) para identificar erros de montagem em genomas, para tamanhos de palavra variando entre 2 e 8. Trinta e dois 10 genomas foram considerados e, conforme considerado pelo método, o desvio inesperado de pelo menos 0.01 na soma da frequência das palavras no genoma da bactéria Xylella fastidiosa (9a5c) demonstra a existência de erros de montagem.
12/15
As exceções ocorreram com o genoma do vírus de RNA HIV e a bactéria Xylella fastidiosa 9a5c. Nelas, as relações de frequência do método apresentaram variação maior do que 0.01, e com grande desvio se comparado aos demais organismos (Figura 1). Para o caso do vírus, foi o único organismo que consideramos em nossa análise cujo genoma é formado por RNA, ao contrário dos demais que possuem DNA como molécula que forma o genoma. Consequentemente, o MathTable apresentou grande variação com relação ao que seria esperado para um genoma com boa qualidade de montagem. Podese observar claramente que o MathTable calculado para a bactéria X. fastidiosa (Tabela 3) não segue as relações de frequência propostas por este trabalho.
Para facilitação a visualização dos erros de montagem, utiizados outros métodos de comparação de sequências. Em um deles, foi realizado um alinhamento par-a-par dos genomas da Xylella (Figura 3) para observar diversas inversões no genoma da Xylella fastidiosa 9a5c com relação às demais. A posição das inversões pode ser claramente observando quando é feito um alinhamento múltiplo dos genomas da bactéria, conforme Figura 4, em que diversos blocos desordenados com relação as outras subespécies da bactéria representam as regiões com erro.
Tabela 3 - MathTable com os Generating Sets (GS) para o organismo primata Homo sapiens, quando k=3.
13/15
MathTable cia bactéria Xylelta fastidiosa fsp. 9ASc | ||||||||
GS | w | C(w) | w | RíCíwi) | ||||
1 | AAA | 38964 | TTT | 49374 | ||||
2 | AAC | 35965 | TTG | 65079 | CAA | 49575 | GTT | 49539 |
3 | AAG | 36339 | TTC | 39850 | GAA | 38416 | CTT | 38041 |
4 | AAT | 39909 | TTA | 26057 | TAA | 24222 | ATT | 43405 |
5 | ACA | 35417 | TGT | 47693 | ||||
6 | ACC | 38513 | TGG | 62996 | CCA | 50381 | GGT | 51864 |
7 | ACG | 40005 | TGC | 65349 | GCA | 57815 | CGT | 45418 |
8 | ACT | 27941 | TGA | 53667 | TCA | 46238 | AGT | 32755 |
9 | AGA | 29254 | TCT | 30401 | ||||
10 | AGC | 43807 | TCG | 40207 | CGA | 39461 | GCT | 47727 |
11 | AGG | 36156 | TCC | 34658 | GGA | 38452 | CCT | 30773 |
12 | ATA | 26182 | TAT | 26983 | ||||
13 | ATC | 47917 | TAG | 20939 | CTA | 19375 | GAT | 54867 |
14 | ATG | 51519 | TAC | 28043 | GTA | 30573 | CAT | 45264 |
IS | CAC | 44301 | GTG | 61279 | ||||
IS | CAG | 50711 | GTC | 36339 | GAC | 33567 | CTG | 51828 |
17 | ccc | 29523 | GGG | 38355 | ||||
18 | CCG | 43980 | GGC | 55670 | GCC | 51763 | CGG | 46834 |
19 | CGC | 55253 | GCG | 62774 | ||||
20 | CTC | 27598 | GAG | 33963 | ||||
Frequência | 779254 | 881896 | 479838 | 538315 | ||||
Proporção | 0.2908 | 0.3292 | 0.1791 | 0.2009 |
O sequenciamento e posterior montagem de genomas a partir do uso de tecnologias de sequenciamento tem se tornado cada vez mais frequente. Tais tecnologias baseiam-se na fragmentação das moléculas que, com o uso de 5 ferramentas computacionais baseadas em sobreposição de sequências, são recontruídas. Entretanto, diversos fatores que vão desde a alta frequência de sequências repetitivas nos genomas e também a geração de artefatos (contaminação ou má qualidade dos dados) torna o processo de montagem bastante complexo. Apesar da importância de utilização de métodos para 10 permitir verificar a qualidade final de um genoma, seja ele montado ou até mesmo aqueles construídos de forma sintética, não há ainda métodos que sejam baseados em relações de frequência de fragmentos de um genoma. O presente trabalho descreve um novo método que pode ser utilizado para a
14/15 etapa de validação de um genoma. No método, um genoma é fragmentado em sequências de tamanho fixo. Para cada fragmento, é verificada sua frequência e a frequência dos fragmentos equivalents ao seu rever, complementar e reverso complementar. Utilizando um conjunto de relações de frequências, nós demonstramos que é possível validar um genoma, seja ele montado ou sintético, além de descrevermos brevemente como o método apresentado pode também ser utilizado como uma alternativa para compressão de sequências de nucleotídeos.
Referências
Haiminen N, Kuhn DN, Parida L, Rigoutsos I. Evaluation of methods for de novo genome assembly from high-throughput sequencing reads reveals dependencies that affect the quality of the results. PLoS One. 2011;6(9):e24182.
s Krishnan NM, Pattnaik S, Jain P. Gaur P. Choudhary R. Vaidyanathan S, Deepak S, Hariharan AK, Krishna PB, Nair J, Varghese L, Valivarthi NK, Dhas K, Ramaswamy K, Panda B. A Draft of the Genome and Four Transcriptomes of a Medicinal and Pesticidal Angiosperm Azadirachta indica. BMC Genomics. 2012 Sep 9; 13(1 ):464.
J Meader S, Hillier LW, Locke D, Ponting CP, Lunter G. Genome assembly quality: assessment and improvement using the neutral indel model. Genome Res. 2010 May;20(5):675-84.
J Simpson AJ, Reinach FC, Arruda P, Abreu FA, Acencio M et al. The genome sequence of the plant pathogen Xylella fastidiosa. The Xylella
15/15 fastidiosa Consortium of the Organization for Nucleotide Sequencing and Analysis. Nature. 2000 Jul 13;406(6792):151-9.
J Yamagishi MEB, Hirai RH: Chargaff’s “Grammar of Biology”: New Fractal-like Rules. arXiv; 2011.
Claims (2)
1. Método para verificação de erros de montagem em genomas caracterizado por compreender as seguintes etapas:
i) fragmentar o genoma em palavras de tamanho k; onde k representa o
5 tamanho de uma subpalavra do genoma, podendo variar entre 3 e 8;
ii) calcular, para cada palavra wk, a frequência das palavras F(wk), F(R(wk», F{C(wk')') e iii) calcular, a partir das frequências das palavras, o somatório das frequências de palavras para cada tipo de operador, de forma a obter
10 Σ F((wfc)),Z F(F(wfc)),Z F(C(wfc))eZ F(C(F(wfc)));
iv) aplicar as relações de frequência das Equações 1 e 2, e
v) detecção de erro de montagem se a variação for superior a 0.01.
2. Uso do método descrito na reivindicaçãol caracterizado por ser aplicável na verificação de erros de montagem de genoma.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BR102012031096A BR102012031096B1 (pt) | 2012-12-05 | 2012-12-05 | método e uso para verificação de erros de montagem em genomas |
PCT/BR2013/000543 WO2014085891A1 (pt) | 2012-12-05 | 2013-12-03 | Método e uso para verificação de erros de montagem em genomas |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BR102012031096A BR102012031096B1 (pt) | 2012-12-05 | 2012-12-05 | método e uso para verificação de erros de montagem em genomas |
Publications (2)
Publication Number | Publication Date |
---|---|
BR102012031096A2 BR102012031096A2 (pt) | 2014-09-16 |
BR102012031096B1 true BR102012031096B1 (pt) | 2019-10-22 |
Family
ID=50882688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR102012031096A BR102012031096B1 (pt) | 2012-12-05 | 2012-12-05 | método e uso para verificação de erros de montagem em genomas |
Country Status (2)
Country | Link |
---|---|
BR (1) | BR102012031096B1 (pt) |
WO (1) | WO2014085891A1 (pt) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001063543A2 (en) * | 2000-02-22 | 2001-08-30 | Pe Corporation (Ny) | Method and system for the assembly of a whole genome using a shot-gun data set |
JP2010517539A (ja) * | 2007-02-05 | 2010-05-27 | アプライド バイオシステムズ, エルエルシー | ショートリード配列決定を用いたインデル識別のためのシステムおよび方法 |
-
2012
- 2012-12-05 BR BR102012031096A patent/BR102012031096B1/pt active IP Right Grant
-
2013
- 2013-12-03 WO PCT/BR2013/000543 patent/WO2014085891A1/pt active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2014085891A1 (pt) | 2014-06-12 |
BR102012031096A2 (pt) | 2014-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jin et al. | GetOrganelle: a fast and versatile toolkit for accurate de novo assembly of organelle genomes | |
Irisarri et al. | Phylotranscriptomic consolidation of the jawed vertebrate timetree | |
Jian et al. | GetOrganelle: a simple and fast pipeline for de novo assembly of a complete circular chloroplast genome using genome skimming data | |
Song et al. | Capturing the phylogeny of Holometabola with mitochondrial genome data and Bayesian site-heterogeneous mixture models | |
Tyagi et al. | Rearrangement and evolution of mitochondrial genomes in Thysanoptera (Insecta) | |
Soorni et al. | Organelle_PBA, a pipeline for assembling chloroplast and mitochondrial genomes from PacBio DNA sequencing data | |
Kelly et al. | Analysis of the giant genomes of F ritillaria (L iliaceae) indicates that a lack of DNA removal characterizes extreme expansions in genome size | |
Straub et al. | Navigating the tip of the genomic iceberg: Next‐generation sequencing for plant systematics | |
Madsen et al. | Parallel adaptive radiations in two major clades of placental mammals | |
Faircloth et al. | Not all sequence tags are created equal: designing and validating sequence identification tags robust to indels | |
Folk et al. | A protocol for targeted enrichment of intron‐containing sequence markers for recent radiations: A phylogenomic example from Heuchera (Saxifragaceae) | |
Hirsch et al. | Genomic limitations to RNA sequencing expression profiling | |
Hearn et al. | Likelihood‐based inference of population history from low‐coverage de novo genome assemblies | |
James et al. | Universal and taxon-specific trends in protein sequences as a function of age | |
Luo et al. | Phylogenetic analysis of genome rearrangements among five mammalian orders | |
Lounsberry et al. | Next‐generation sequencing workflow for assembly of nonmodel mitogenomes exemplified with North Pacific albatrosses (Phoebastria spp.) | |
Sutton et al. | Optimizing experimental design for genome sequencing and assembly with Oxford Nanopore Technologies | |
Staunton et al. | Somatic mutations inferred from RNA-seq data highlight the contribution of replication timing to mutation rate variation in a model plant | |
Basantani et al. | An update on bioinformatics resources for plant genomics research | |
Ruan et al. | TreeExp1. 0: R Package for Analyzing Expression Evolution Based on RNA‐Seq Data | |
Bzikadze et al. | UniAligner: a parameter-free framework for fast sequence alignment | |
BR102012031096B1 (pt) | método e uso para verificação de erros de montagem em genomas | |
Ross et al. | The genome of tropically adapted Brahman cattle (Bos taurus indicus) reveals novel genome variation in production animals | |
Esteve et al. | Nucleotide variability of the porcine SERPINA6 gene and the origin of a putative causal mutation associated with meat quality | |
Rosenfeld et al. | Investigating repetitively matching short sequencing reads: the enigmatic nature of H3K9me3 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B03A | Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette] | ||
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06A | Patent application procedure suspended [chapter 6.1 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 05/12/2012, OBSERVADAS AS CONDICOES LEGAIS. |