BR112021006095A2

BR112021006095A2 - métodos e meios para preparação de uma biblioteca para sequenciamento

Info

Publication number: BR112021006095A2
Application number: BR112021006095-2A
Authority: BR
Inventors: Frank J. Steemers; Dmitry K. Pokholok; Lena Christiansen
Original assignee: Illumina, Inc.
Priority date: 2018-12-17
Filing date: 2019-12-13
Publication date: 2021-07-20
Also published as: KR20210104650A; IL281552A; EP3899028A1; JP2022515002A; CA3115155A1; CN112867800A; WO2020131626A1; SG11202102424QA; AU2019402067A1; MX2021003769A; US20220195507A1

Abstract

MÉTODOS E MEIOS PARA PREPARAÇÃO DE UMA BIBLIOTECA PARA SEQUENCIAMENTO. As modalidades dos sistemas, métodos e composições aqui fornecidas se referem a ensaios para controlar seletivamente as reações enzimáticas. Algumas modalidades se referem a métodos para inibir, reduzir ou eliminar leituras de sequenciamento de DNA secundárias (como o DNA mitocondrial) a partir de sequenciamento cromático aberto, sequenciamento de genoma inteiro ou sequenciamento direcionado.

Description

Relatório descritivo da patente de invenção para "MÉTODOS E MEIOS PARA PREPARAÇÃO DE UMA BIBLIOTECA PARA SEQUENCIAMENTO"

CAMPO

[0001] Os sistemas, métodos e composições aqui fornecidos se referem a ensaios para controlar seletivamente as reações enzimáticas. Especificamente, os aspectos aqui revelados se referem a métodos para inibição, redução ou eliminação de leituras secundárias de sequenciamento de DNA de sequenciamento cromático aberto, sequenciamento de genoma inteiro ou sequenciamento direcionado.

ANTECEDENTES

[0002] As enzimas são ferramentas úteis na biologia molecular e genômica, uma vez que elas podem executar um número diversificado de etapas em um amplo espaço de aplicação que vai desde a edição do genoma, a ensaios genômicos, sequenciamento, aplicações farmacêuticas e diagnóstico. Enzimas naturais e manipuladas experimentaram uma explosão de aplicações e desenvolvimento ao longo da última década. Um forte foco tem sido a especificidade e a eficiência com o foco principal na otimização do sistema de enzimas. Entretanto, os sistemas enzimáticos exibem efeitos inespecíficos, causando dificuldade na análise dos resultados.

SUMÁRIO

[0003] A presente revelação se refere a sistemas, métodos e composições para controlar seletivamente as reações enzimáticas pela marcação de substratos confundidores, o que impede uma capacidade enzimática de interagir com o substrato e, dessa forma, reduz ou elimina ruídos ou erros que estariam tipicamente presentes na reação enzimática.

[0004] Algumas modalidades aqui fornecidas se referem a bibliotecas de ácidos nucleicos que compreendem leituras de sequenciamento primárias obtidas a partir do sequenciamento, como leituras de sequenciamento obtidas a partir de um ensaio para cromatina acessível por transposase seguido de sequenciamento (ATAC-seq) para DNA nuclear. Em algumas modalidades, as bibliotecas de ácido nucleico incluem leituras de sequenciamento de um ensaio para sequenciamento de genoma inteiro ou

DNA cromossômico. Em algumas modalidades, as bibliotecas de ácidos nucleicos não incluem ou têm representação reduzida de leituras de sequenciamento secundárias, como de DNA mitocondrial (mtDNA). Em algumas modalidades, as bibliotecas de ácido nucleico se referem a DNA bacteriano, plasmídeos ou DNA extracromossômico.

[0005] Algumas modalidades aqui fornecidas se referem a métodos de sequenciamento de um ácido nucleico sem o sequenciamento ou com o sequenciamento reduzido de ácidos nucleicos secundários. Em algumas modalidades, os métodos incluem fornecer uma amostra que compreende um ácido nucleico, colocar a amostra em contato com uma molécula de ligação ao DNA, colocar a amostra em contato com um complexo de enzimas de inserção para produzir fragmentos de ácido nucleico etiquetados, e sequenciar os fragmentos de ácido nucleico etiquetados para produzir leituras de sequência.

[0006] Algumas modalidades aqui fornecidas se referem a métodos para inibir, eliminar ou reduzir uma leitura secundária de sequenciamento de DNA, como leituras de sequenciamento de DNA mitocondrial (mtDNA). Em algumas modalidades, os métodos incluem fornecer uma amostra que compreende ácidos nucleicos secundários e ácidos nucleicos primários, colocar a amostra em contato com uma molécula de ligação ao DNA que, de preferência, liga os ácidos nucleicos secundários, como o mtDNA, e executar a transposição de DNA em cromatina aberta, sendo que os ácidos nucleicos secundários não são transpostos ou são transpostos com eficiência reduzida.

BREVE DESCRIÇÃO DOS DESENHOS

[0007] A Figura 1 é um esquema que ilustra a modificação de um alvo para controlar a especificidade de uma enzima. Os substratos (1, 2 ou 3) são todos substratos para a enzima (5). O substrato 3 modificado por 4 não é um substrato para enzima (5), devido à modificação (4). A modificação (4) pode ser um corante para DNA, uma etiqueta de afinidade, uma molécula, um ligante, uma enzima, um peptídeo ou outra modificação.

[0008] As Figuras 2A a 2C representam gráficos de barras mostrando que quantidades crescentes de corante Hoechst reduzem as leituras de mtDNA em experimentos de transposição, eliminando ou reduzindo assim as leituras indesejáveis de mtDNA. Da esquerda para a direita, a concentração de corante Hoechst é 8 µM (Figura 2A), 80 µM (Figura 2B) e 800 µM (Figura 2C).

[0009] As Figuras 3A a 3C mostram géis de DNA mostrando a eficiência da transposição de vários corantes para coloração de DNA. A Figura 3A representa a coloração por Hoechst e SYBR Gold, a Figura 3B representa a coloração por Laranja Sytox e Picogreen, e a Figura 3C representa a coloração por Qubit ou nenhuma coloração. Os produtos de DNA de alto peso molecular são indicativos de transposição ineficiente. A inibição é observada tanto com SYBR Gold quanto com Laranja Sytox em concentrações maiores que 100 µM.

[0010] A Figura 4 representa os resultados de vários corantes testados, incluindo Hoechst (100 µM), SYBR Gold (a 100 µM e 10 µM), Laranja Sytox (a 100 µM), Picogreen (a 100 µM), Qubit (a 100 µM ou 10 µM), e sem corante. Os resultados indicam que apenas corantes selecionados são adequados para reduzir ou eliminar leituras de sequenciamento de DNA secundárias.

[0011] A Figura 5 representa os resultados da coloração por Hoechst a 8 µM, 80 µM e 800 µM em dois intervalos de tempo (2 minutos ou 20 minutos).

DESCRIÇÃO DETALHADA

[0012] Na descrição detalhada a seguir, é feita referência aos desenhos em anexo, que fazem parte da mesma. Nos desenhos, símbolos similares tipicamente identificam componentes similares, a menos que o contexto determine de outro modo. As modalidades ilustrativas descritas na descrição detalhada, nos desenhos e nas reivindicações não se destinam a ser limitadoras. Outras modalidades podem ser utilizadas, e outras alterações podem ser feitas, sem que se afaste do espírito ou escopo do assunto aqui apresentado. Será prontamente compreendido que os aspectos da presente revelação, conforme genericamente aqui descritos, e ilustrados nas Figuras, podem ser dispostos, substituídos, combinados, separados e projetados em uma ampla variedade de configurações diferentes, todas as quais são explicitamente aqui contempladas.

[0013] As modalidades dos sistemas, métodos e composições aqui fornecidas se referem ao controle de reações enzimáticas evitando que uma enzima se ligue a substratos confundidores, como um substrato que a enzima normalmente ligaria, mas que evita a análise adequada de um substrato de interesse.

[0014] As reações enzimáticas tradicionais não possuem a especificidade necessária para analisar as diferenças entre substratos intimamente relacionados. Por exemplo, as enzimas contra ácidos nucleicos discriminam insatisfatoriamente entre os vários tipos de ácidos nucleicos, como DNA mitocondrial (mtDNA) em comparação com DNA nuclear. O resultado consiste em reações enzimáticas tradicionais que fornecem resultados tanto para o analito alvo como para analitos inespecíficos, confundindo assim os resultados, e gerando tempo, custo e complexidade na análise. Entretanto, em muitas aplicações, é desejável controlar a seletividade das reações enzimáticas.

[0015] Uma modalidade é um sistema e um método para reduzir, inibir ou eliminar alvos indesejados, visando assim especificamente apenas o analito de interesse. A Figura 1 mostra esquematicamente o conceito de ligação da enzima ao substrato. Na Figura 1, uma enzima 5 é capaz de reconhecer e ligar diferentes substratos 1, 2 e 3, os quais são então catalisados enzimaticamente pela enzima. Entretanto, o substrato 3 é modificado pela modificação 4, de modo que a enzima 5 não reconhece e se liga ao substrato 3. A Figura 1 mostra os métodos e sistemas em um esquema genérico. Nas modalidades aqui fornecidas, o conceito é descrito em termos de uma transposase e de ácidos nucleicos, especificamente em termos de uma leitura primária de sequenciamento de DNA (que é uma leitura de sequenciamento de um DNA de interesse), incluindo, por exemplo, DNA nuclear) e uma leitura secundária de sequenciamento de DNA (que é uma leitura de sequenciamento de um DNA indesejável, incluindo, por exemplo, DNA mitocondrial (mtDNA) ou DNA extracromossômico). Entretanto, deve-se compreender que os métodos e sistemas gerais são aplicáveis a outros sistemas enzima/substrato. As modalidades dos sistemas, métodos e composições melhoram a especificidade das reações enzimáticas, melhorando assim a análise enzimática através da redução dos efeitos inespecíficos.

[0016] Por exemplo, essa abordagem pode ser aplicada de modo que corantes específicos, ou moléculas de ligação ao DNA em geral, possam ser levados a certos alvos com o uso de etiquetas de afinidade bem conhecidas. Essas etiquetas de afinidade podem incluir conjugados de anticorpos e sondas de hibridização de DNA para bloquear a atividade enzimática indesejada. Ao bloquear especificamente certos tipos de DNA, mas não outros, pode-se diminuir os efeitos inespecíficos indesejáveis encontrados com certas enzimas. Alternativamente, etiquetas de afinidade específicas ("bloqueadores") podem ser utilizadas para conduzir as enzimas para alvos específicos. Tais aplicações podem incluir o bloqueio da atividade inespecífica de proteínas amplamente utilizadas, como as enzimas CRISPR.

[0017] Como usado aqui, a molécula de ligação de DNA se refere a uma molécula que pode se ligar a todo o DNA, mas que tem acesso preferencial a certo DNA, devido à acessibilidade determinada por uma variedade de fatores, incluindo, por exemplo, tamanho, carga ou hidrofobicidade da molécula de ligação ao DNA. O resultado é que certos tipos de DNA são, de preferência, bloqueados, enquanto outros são acessíveis aos sistemas de enzimas que podem gerar as bibliotecas de sequenciamento. Dessa forma, em algumas modalidades, o acesso diferencial ao DNA é permitido em certos tipos de DNA pela ligação com a molécula de ligação ao DNA, de modo que o DNA se torne menos ativo em relação às reações enzimáticas. Por exemplo, um corante para DNA não entra no núcleo, mas pode entrar em mtDNA, bloqueando, assim, de preferência, o mtDNA.

[0018] Algumas modalidades aqui fornecidas se referem a uma biblioteca de ácidos nucleicos. Em algumas modalidades, a biblioteca de ácidos nucleicos inclui leituras de sequenciamento obtidas a partir do ensaio para sequenciamento de cromatina acessível por transposase (ATAC-seq) para um DNA primário (como o DNA nuclear), mas não inclui, ou inclui quantidades reduzidas de leituras de sequenciamento de ácidos nucleicos inespecíficos (um DNA secundário), como o mtDNA. Em algumas modalidades, as leituras de sequenciamento do DNA secundário são eliminadas, reduzidas ou inibidas devido às moléculas de ligação ao DNA que, de preferência, se ligam ao DNA secundário. Em algumas modalidades, a molécula de ligação ao DNA compreende um corante para DNA, uma etiqueta de afinidade, um ligante, uma enzima, peptídeo ou uma biomolécula. Em algumas modalidades, o corante para DNA compreende o corante Hoechst, SYBR Gold, Laranja Sytox, Picogreen ou Qubit. Em algumas modalidades, a biblioteca de ácidos nucleicos é gerada a partir de uma população de células, uma única célula, uma população de núcleos celulares ou um único núcleo celular.

[0019] Como usado aqui, "biblioteca de ácidos nucleicos" é uma coleção intencionalmente criada de ácidos nucleicos que podem ser preparados sintética ou biossinteticamente em uma variedade de formatos diferentes (por exemplo, bibliotecas de moléculas solúveis; e bibliotecas de oligonucleotídeos ancorados a microesferas de resina, chips de sílica, ou outros suportes sólidos). Adicionalmente, o termo "matriz" destina-se a incluir aquelas bibliotecas de ácidos nucleicos que podem ser preparadas por inoculação pontual (spotting) de ácidos nucleicos de essencialmente qualquer comprimento (por exemplo, de 1 a cerca de 1000 monômeros de nucleotídeo de comprimento) sobre um substrato.

[0020] Uma matriz pode se referir a uma população de microcaracterísticas diferentes, como microcaracterísticas que compreendem polinucleotídeos, os quais são associados ou fixados a uma superfície de modo que as microcaracterísticas diferentes possam ser diferenciadas umas das outras de acordo com a localização relativa. Uma característica individual de uma matriz pode incluir uma única cópia de uma microcaracterística ou múltiplas cópias da microcaracterística podem estar presentes como uma população de microcaracterísticas em uma característica individual da matriz. A população de microcaracterísticas em cada característica é tipicamente homogênea, tendo uma única espécie de microcaracterística. Dessa forma, cópias múltiplas de uma única sequência de ácidos nucleicos podem estar presentes em uma característica, por exemplo, em múltiplas moléculas de ácido nucleico tendo a mesma sequência.

[0021] Em algumas modalidades, uma população heterogênea de microcaracterísticas pode estar presente em uma característica. Em algumas modalidades, uma característica pode incluir apenas uma única espécie de microcaracterística. Em algumas modalidades, uma característica pode incluir uma pluralidade de diferentes espécies de microcaracterísticas, como uma mistura de ácidos nucleicos tendo diferentes sequências. As características vizinhas de uma matriz podem ser distintas umas das outras. As características podem estar em posição adjacente entre si ou separadas por um vão. Em modalidades em que as características são espaçadas, os sítios vizinhos podem ser separados, por exemplo, por uma distância menor que 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm, 100 nm, 50 nm, 10 nm, 5 nm, 1 nm, 0,5 nm ou qualquer distância dentro de uma faixa de quaisquer duas das distâncias anteriores. O layout de caraterísticas em uma matriz pode também ser compreendido em termos de distâncias de centro a centro entre características vizinhas. Uma matriz útil na invenção pode ter características vizinhas com espaçamento de centro a centro menor que cerca de 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm, 100 nm, 50 nm, 10 nm, 5 nm, 1 nm, 0,5 nm ou qualquer distância dentro de uma faixa de quaisquer duas das distâncias anteriormente mencionadas. Em algumas modalidades, os valores de distância aqui descritos podem representar uma distância média entre características vizinhas de uma matriz. Dessa forma, nem todos os recursos vizinhos precisam estar situados na faixa especificada, exceto quando especificamente indicado em contrário, por exemplo, por uma indicação específica de que a distância constitui uma distância limite entre todas as características vizinhas de uma matriz. As modalidades podem incluir matrizes que têm características em uma variedade de densidades. Exemplos de faixas de densidades para certas modalidades incluem de cerca de 10.000.000 características/cm2 a cerca de 2.000.000.000 características/cm2; de cerca de 100.000.000 características/cm2 a cerca de

1.000.000.000 características/cm2; de cerca de 100.000 características/cm2 a cerca de

10.000.000 características/cm2; de cerca de 1.000.000 características/cm2 a cerca de

5.000.000 características/cm2; de cerca de 10.000 características/cm2 a cerca de

100.000 características/cm2; de cerca de 20.000 características/cm2 a cerca de 50.000 características/cm2; de cerca de 1.000 características/cm2 a cerca de 5.000 características/cm2, ou qualquer densidade dentro de uma faixa de quaisquer duas das densidades anteriormente mencionadas.

[0022] Como usado aqui, o termo "superfície" pode se referir a uma parte de um substrato ou estrutura de suporte que é acessível para entrar em contato com reagentes, microesferas ou analitos. A superfície pode ser substancialmente horizontal ou plana. Alternativamente, a superfície pode ser arredondada ou contornada. Contornos exemplificadores que podem ser incluídos sobre uma superfície são cavidades, depressões, pilares, cristas, canais ou similares. Materiais exemplificadores que podem ser utilizados como um substrato ou estrutura de suporte incluem vidro como vidro modificado ou funcionalizado; plástico como acrílico, poliestireno ou um copolímero de estireno e um outro material, polipropileno, polietileno, polibutileno, poliuretano ou TEFLON; polissacarídeos ou polissacarídeos reticulados, como agarose ou sefarose, náilon, nitrocelulose, resina, sílica ou materiais à base de sílica, incluindo silício e silício modificado, fibra de carbono, metal, vidro inorgânico, feixe de fibras ópticas, ou uma variedade de outros polímeros. Um único material ou a mistura de vários materiais diferentes pode formar uma superfície útil na invenção. Em algumas modalidades, uma superfície compreende cavidades.

[0023] Como usado aqui, "microesfera" pode se referir a um corpo pequeno feito de um material rígido ou semirrígido. O corpo pode ter um formato caracterizado, por exemplo, como esférico, oval, microesférico ou outro formato de partícula reconhecido, quer tenha dimensões regulares ou irregulares. Materiais exemplificadores que podem ser úteis para microesferas incluem vidro como vidro modificado ou funcionalizado; plástico como acrílico, poliestireno ou um copolímero de estireno e um outro material, polipropileno, polietileno, polibutileno, poliuretano ou TEFLON; polissacarídeos ou polissacarídeos reticulados, como agarose ou sefarose, náilon, nitrocelulose, resina, sílica ou materiais à base de sílica, incluindo silício e silício modificado, fibra de carbono, metal, vidro inorgânico, feixe de fibras ópticas, ou uma variedade de outros polímeros. Microesferas exemplificadoras incluem microesferas de vidro de poro controlado, microesferas paramagnéticas, sol de óxido de tória, microesferas de sefarose, nanocristais e outros conhecidos na técnica. As cápsulas podem ser produzidas a partir de materiais biológicos ou não- biológicos. As microesferas magnéticas são particularmente úteis devido à facilidade de manipulação das microesferas magnéticas com o uso de magnetos. As microesferas utilizadas em certas modalidades podem ter um diâmetro, uma largura ou um comprimento de 0,1 µm a 100 µm. O tamanho de microesfera pode ser selecionado para ter um tamanho reduzido e, portanto, ter densidade aumentada, mantendo, ao mesmo tempo, sinal suficiente para analisar as características.

[0024] Como usado aqui, "hibridização", "hibridizar" ou equivalente gramatical do mesmo, pode se referir a uma reação na qual um ou mais polinucleotídeos reagem para formar um complexo que é formado, ao menos em parte, através de ligação ao hidrogênio entre as bases dos resíduos nucleotídicos. A ligação ao hidrogênio pode ocorrer através do pareamento de bases de Watson-Crick, da ligação de Hoogstein, ou de qualquer outra maneira específica para sequência. O complexo pode ter dois filamentos formando uma estrutura dúplex, três ou mais filamentos formando um complexo multifilamentos, um único filamento auto-hibridizante ou qualquer combinação dos mesmos. Os filamentos podem também ser reticulados ou, de outro modo, unidos por forças em adição à ligação ao hidrogênio.

[0025] Como usado aqui, "estender", "extensão" ou quaisquer equivalentes gramáticos dos mesmos podem se referir à adição de dNTPs a um iniciador, polinucleotídeo ou outra molécula de ácido nucleico por uma enzima de extensão como uma polimerase. Por exemplo, em algumas modalidades aqui reveladas, o iniciador estendido resultante inclui as informações de sequência de um ácido nucleico. Embora algumas modalidades sejam discutidas como realizando a extensão com o uso de uma polimerase como uma DNA polimerase, ou uma transcriptase reversa, a extensão pode ser realizada de qualquer outra maneira bem conhecida na técnica. Por exemplo, a extensão pode ser realizada pela ligação de oligonucleotídeos uns aos outros, como oligonucleotídeos que hibridizaram a um filamento de interesse.

[0026] Como usado aqui, "ligação" ou "ligar" ou outros equivalentes gramáticos dos mesmos podem se referir à união de dois filamentos de nucleotídeos por uma ligação fosfodiéster. A ligação pode incluir ligação química. Tal reação pode ser catalisada por uma ligase. Uma ligase se refere a uma classe de enzimas que catalisa esta reação com a hidrólise de ATP ou um trifosfato similar.

[0027] Como usado aqui, os termos "polinucleotídeo" e "ácido nucleico" podem ser utilizados de forma intercambiável, e podem se referir a uma forma polimérica de nucleotídeos de qualquer comprimento, seja ribonucleotídeos ou desoxirribonucleotídeos. Dessa forma, esses termos incluem DNA ou RNA de filamento simples, duplo ou múltiplo. Exemplos de polinucleotídeos incluem um gene ou fragmento de gene, DNA genômico inteiro, DNA genômico, epigenômico, fragmento de DNA genômico, DNA mitocondrial (mtDNA), DNA nuclear, DNA ribossômico, éxon, íntron, RNA mensageiro (mRNA), RNA regulador, RNA de transferência, RNA ribossômico, RNA não codificante (ncRNA) como o RNA de interação com PIWI (piRNA), pequeno RNA de interferência (siRNA) e RNA longo não codificante (lncRNA), pequeno RNA em forma de grampo (hairpin) (shRNA), pequeno RNA nuclear (snRNA), micro RNA (miRNA), pequeno RNA nucleolar (snoRNA) e RNA viral, ribozima, cDNA, polinucleotídeo recombinante, polinucleotídeo ramificado, plasmídeo, vetor, DNA isolado de qualquer sequência, RNA isolado de qualquer sequência, sonda de ácido nucleico, iniciador ou cópia amplificada de qualquer um dos anteriormente mencionados. Um polinucleotídeo pode incluir nucleotídeos modificados, como nucleotídeos metilados e análogos nucleotídicos incluindo nucleotídeos com bases não naturais, nucleotídeos com bases naturais modificadas como aza- ou deaza-purinas. Um polinucleotídeo pode ser composto de uma sequência específica de quatro bases nucleotídicas: adenina (A); citosina (C); guanina (G) e timina (T). Uracila (U) pode também estar presente,

por exemplo, como uma substituição natural da timina quando o polinucleotídeo é o RNA. A uracila pode também ser utilizada no DNA. O termo "sequência de ácidos nucleicos" pode se referir à representação alfabética de um polinucleotídeo ou qualquer molécula de ácido nucleico, incluindo bases naturais e não naturais. Adicionalmente, o DNA pode conter um ou mais pares de bases não naturais (UBP). O UBP é uma subunidade (ou nucleobase) projetada de DNA que é criada em um laboratório e não ocorre na natureza.

[0028] Como usado aqui, um ácido nucleico primário é um ácido nucleico de interesse. Em algumas modalidades, o ácido nucleico primário é o DNA nuclear. O ácido nucleico primário pode ser qualquer ácido nucleico que se deseja analisar em uma amostra. Como usado aqui, um ácido nucleico secundário é um ácido nucleico que é encontrado em uma amostra, mas que não é o ácido nucleico de interesse, e dessa forma é uma interferência no contexto da análise de um ácido nucleico de interesse. Em algumas modalidades, o ácido nucleico secundário é o DNA mitocondrial (mtDNA) ou o DNA extracromossômico. O ácido nucleico secundário pode ser qualquer ácido nucleico que é encontrado em uma amostra, mas que não é o objeto da análise, e que é desejável inibir, reduzir ou eliminar da análise a fim de analisar de modo mais eficiente e preciso o ácido nucleico de interesse. O DNA extracromossômico é qualquer DNA que é encontrado fora do núcleo de uma célula. Ele também é chamado de DNA extranuclear ou DNA citoplasmático.

[0029] Um ácido nucleico pode conter ligações fosfodiéster e pode incluir outros tipos de cadeias principais, compreendendo, por exemplo, cadeias principais de fosforamida, fosforotioato, fosforoditioato, O-metilfosforoamidita e de ácido nucleico peptídico. Um ácido nucleico pode conter qualquer combinação de desóxi- e ribonucleotídeos, e qualquer combinação de bases, incluindo uracila, adenina, timina, citosina, guanina, inosina, xantanina, hipoxantanina, isocitosina, isoguanina, e análogos de base como nitropirrol (incluindo 3-nitropirrol) e nitroindol (incluindo 5- nitroindol). Em algumas modalidades, um ácido nucleico pode incluir ao menos uma base promíscua. Uma base promíscua pode parear com mais de um tipo diferente de base e pode ser útil, por exemplo, quando incluída em iniciadores oligonucleotídicos ou insertos que são utilizados para a hibridização aleatória em amostras complexas de ácido nucleico, como amostras de DNA genômico. Um exemplo de uma base promíscua inclui a inosina que pode parear com adenina, timina ou citosina. Outros exemplos incluem hipoxantina, 5-nitroindol, 5-nitroindol acíclico, 4-nitropirazol, 4- nitroimidazol e 3-nitropirrol. Podem ser utilizadas bases promíscuas que podem parear com ao menos dois, três, quatro ou mais tipos de bases.

[0030] Um ensaio para transposase acessível cromática usando sequenciamento (ATAC-seq) se refere a um método rápido e sensível de análise epigenômica integrativa. O ATAC-seq captura sítios de cromatina abertos e revela a interação entre locais genômicos de cromatina aberta, proteínas de ligação ao DNA, nucleossomas individuais e compactação de ordem mais alta em regiões reguladoras com resolução de nucleotídeo. Foram descobertas classes de fator de ligação ao DNA que evitam estritamente, podem tolerar ou tendem a se sobrepor aos nucleossomas. Usando ATAC-seq, os epigenomas diários seriais de células T humanas em repouso foram medidos e avaliados a partir de uma banda pro através de retiradas de sangue padrão, demonstrando a viabilidade de leitura de epigenomas pessoais em escalas de tempo clínicas para monitoramento da saúde e da doença. Mais especificamente, ATAC-seq pode ser realizado pelo tratamento da cromatina a partir de uma única célula com um complexo de inserção de enzima para produzir fragmentos marcados de DNA genômico. Nesta etapa, a cromatina é marcada (por exemplo, fragmentada e marcada na mesma reação) usando uma enzima de inserção como Tn5 ou MuA que cliva o DNA genômico em regiões abertas na cromatina e adiciona adaptadores a ambas as extremidades dos fragmentos. Em algumas modalidades, a aplicação é o sequenciamento de genoma inteiro ou o perfil epigenômico.

[0031] O sequenciamento de genoma inteiro (WGS, em inglês whole genome sequencing) se refere a um método de leitura do genoma por muitos múltiplos como nos formatos 10×, 20× e 40× para o sequenciamento de genoma inteiro por sequenciamento de nova geração. O sequenciamento direcionado se refere a métodos ou ensaios que determinam as sequências de loci de DNA ou genes escolhidos em uma amostra, por exemplo, o sequenciamento de um grupo escolhido de genes relacionados ao câncer.

[0032] Em alguns casos, as condições podem ser ajustadas para se obter um nível desejável de inserção na cromatina (por exemplo, uma inserção que ocorre, em média, a cada 50 a 200 pares de base em regiões abertas). A cromatina utilizada no método pode ser feita por meio de qualquer método adequado. Em algumas modalidades, os núcleos podem ser isolados, lisados e a cromatina pode ser adicionalmente purificada, por exemplo, a partir do envelope nuclear. Em outras modalidades, a cromatina pode ser isolada pelo contato de núcleos isolados com o tampão de reação. Nessas modalidades, os núcleos isolados podem lisar quando entram em contato com o tampão de reação (que compreende complexos de enzimas de inserção e outros reagentes necessários), o que possibilita que os complexos de enzimas de inserção acessem a cromatina. Nessas modalidades, o método pode compreender isolar os núcleos de uma população de células; e combinar os núcleos isolados com a transposase e os adaptadores, sendo que a combinação resulta tanto na lise dos núcleos para liberar a dita cromatina quanto na produção dos fragmentos marcados com o adaptador de DNA genômico. A cromatina não exige a reticulação como em outros métodos (por exemplo, métodos de ChIP-SEQ). Em algumas modalidades, as reações enzimáticas ocorrem diretamente a partir das células.

[0033] Após a cromatina ter sido fragmentada e marcada para produzir fragmentos marcados de DNA genômico, ao menos alguns dos fragmentos marcados por adaptador são sequenciados para produzir uma pluralidade de leituras de sequência. Os fragmentos podem ser sequenciados com o uso de qualquer método adequado. Por exemplo, os fragmentos podem ser sequenciados com o uso do método terminador reversível da Illumina, do método de pirossequenciamento da Roche (454), do sequenciamento da Life Technologies por ligação (a plataforma SOLiD) ou da plataforma Ion Torrent da Life Technologies. Exemplos de tais métodos são descritos nas seguintes referências:

Margulies et al. (Nature 2005 437: 376-80); Ronaghi et al. (Analytical Biochemistry 1996 242: 84-9); Shendure et al. (Science 2005 309: 1728-32); Imelfort et al. (Brief Bioinform. 2009 10:609-18); Fox et al. (Methods Mol Biol. 2009;553:79-108); Appleby et al. (Methods Mol Biol. 2009; 513:19-39) e Morozova et al. (Genomics. 2008 92:255-64), que estão aqui incorporados a título de referência para as descrições gerais dos métodos e das etapas particulares dos métodos, incluindo todos os produtos de partida, métodos para preparação da biblioteca, reagentes e produtos finais para cada uma das etapas. Conforme ficará evidente, os sítios de iniciador de sequenciamento direto e reverso que são compatíveis com uma plataforma de sequenciamento de nova geração selecionada podem ser adicionados às extremidades dos fragmentos durante a etapa de amplificação. Em certas modalidades, os fragmentos podem ser amplificados com o uso de iniciadores de PCR que hibridizam com as etiquetas que foram adicionadas aos fragmentos, onde o iniciador utilizado para a PCR tem caudas 5’ que são compatíveis com uma plataforma de sequenciamento específica. Métodos de execução de ATAC-seq são apresentados no pedido PCT n° PCT/US2014/038825, que está aqui incorporado a título de referência em sua totalidade.

[0034] O termo "cromatina", como usado aqui, se refere a um complexo de moléculas incluindo proteínas e polinucleotídeos (por exemplo, DNA, RNA), conforme encontrado em um núcleo de uma célula eucariótica. A cromatina é composta, em parte, de proteínas histona que formam nucleossomas, DNA genômico e outras proteínas de ligação ao DNA (por exemplo, fatores de transcrição) que são de modo geral ligadas ao DNA genômico.

[0035] Em algumas modalidades, os métodos aqui descritos incluem, ainda, analisar adicionalmente o ácido nucleico alvo de interesse. A análise pode incluir, por exemplo, análise de DNA, análise de RNA, análise de proteína, marcação, amplificação de ácidos nucleicos, sequenciamento de ácidos nucleicos, preparação de biblioteca de ácidos nucleicos, transposição de preservação de contiguidade (CPT-seq), sequenciamento combinatório indexado de célula única (SCI-seq), ou amplificação de genoma de célula única, sequenciamento de genoma inteiro de células únicas ou de uma população de células, epigenômica ou qualquer combinação dos mesmos.

[0036] A análise de DNA se refere a qualquer técnica utilizada para amplificar, sequenciar ou, de outro modo, analisar o DNA. A amplificação de DNA pode ser realizada usando técnicas de PCR. A análise de DNA pode compreender também técnicas de sequenciamento de DNA não direcionadas, não baseadas em PCR (por exemplo, metagenômica). Como um exemplo não limitador, a análise de DNA pode incluir sequenciamento da região hipervariável do rDNA 16S (DNA ribossômico) e uso do sequenciamento para a identificação de espécies através de DNA. Em algumas modalidades, o DNA pode incluir DNA purificado.

[0037] A análise de RNA se refere a qualquer técnica utilizada para amplificar, sequenciar ou, de outro modo, analisar o RNA. As mesmas técnicas utilizadas para analisar o DNA podem ser utilizadas para amplificar e sequenciar o RNA. O RNA, que é menos estável que o DNA, é a tradução de DNA em resposta a um estímulo. Portanto, a análise de RNA pode fornecer uma imagem mais precisa dos membros metabolicamente ativos da comunidade e pode ser utilizada para fornecer informações sobre a função da comunidade de organismos em uma amostra. O sequenciamento de ácido nucleico se refere ao uso de sequenciamento para determinar a ordem de nucleotídeos em uma sequência de uma molécula de ácido nucleico, como DNA ou RNA. Em algumas modalidades, a análise de DNA pode incluir também métodos que não exigem ou usem amplificação.

[0038] O termo "sequenciamento", como usado aqui, se refere a um método pelo qual a identidade de ao menos 10 nucleotídeos consecutivos (por exemplo, a identidade de ao menos 20, ao menos 50, ao menos 100 ou ao menos 200 ou mais nucleotídeos consecutivos) de um polinucleotídeo é obtida.

[0039] Os termos "sequenciamento de nova geração" ou "sequenciamento de alta produtividade" ou "NGS" se referem, de modo geral, a tecnologias de sequenciamento de alta produtividade, incluindo, mas não se limitando a, sequenciamento de assinatura massivamente paralela, sequenciamento de alta produtividade, sequenciamento por ligação (por exemplo, sequenciamento SOLiD), sequenciamento de semicondutor de íons prótons, sequenciamento de nanoesfera de DNA, sequenciamento de molécula única e sequenciamento de nanoporos e podem se referir ao sequenciamento por síntese paralelizado ou plataformas de sequenciamento por ligação atualmente empregadas por Illumina, Life Technologies, ou Roche etc. Os métodos de sequenciamento de nova geração podem incluir também métodos de sequenciamento de nanoporos ou métodos baseados em detecção eletrônica, como a tecnologia Ion Torrent comercializada pela Life Technologies ou método baseado em fluorescência de molécula única comercializado pela Pacific Biosciences e/ou BGI Microfluidics.

[0040] Técnicas de sequenciamento exemplificadoras incluem sequenciamento direcionado, sequenciamento em tempo real de molécula única, sequenciamento baseado em microscopia eletrônica, sequenciamento mediado por transístor, sequenciamento direto, sequenciamento de shotgun aleatório, sequenciamento de terminação didesóxi de Sanger, sequenciamento direcionado, sequenciamento de éxon, sequenciamento de genoma inteiro, sequenciamento por hibridização (por exemplo, em uma matriz como uma micromatriz), pirosequenciamento, eletroforese capilar, eletroforese em gel, sequenciamento duplex, sequenciamento de ciclo, sequenciamento de extensão de base única, sequenciamento de fase sólida, sequenciamento de alta produtividade, sequenciamento de shotgun massivamente paralelo, PCR de emulsão, coamplificação na temperatura de desnaturação mais baixa (COLD-PCR), PCR multiplex, sequenciamento por terminador de corante reversível, sequenciamento de extremidade pareada, sequenciamento de curto prazo, sequenciamento de exonuclease, sequenciamento por ligação, sequenciamento de leitura curta, sequenciamento de molécula única, sequenciamento por síntese, sequenciamento em tempo real, sequenciamento de terminador reverso, sequenciamento de semicondutor de íons, sequenciamento de nanoesfera, sequenciamento de nanoporos, sequenciamento 454, sequenciamento de Solexa Genome Analyzer, miSeq (Illumina), HiSeq 2000 (Illumina), HiSeq 2500 (Illumina), Analisador de Genoma Illumina (Illumina), PGM™ de Ion Torrent (Life

Technologies), MinION™ (Oxford Nanopore Technologies), tecnologia SMRT™ em tempo real (Pacific Biosciences), a Ligação âncora-sonda (cPAL™) (Complete Genomics/BGI), sequenciamento SOLiD®, sequenciamento MS-PET, espectrometria de massa e uma combinação dos mesmos. Em algumas modalidades, o sequenciamento compreende detectar o produto de sequenciamento com o uso de um instrumento, por exemplo, mas não se limitando a um sequenciador de DNA ABI PRISM® 377, um ABI PRISM® 310, 3100, 3100- Avant, 3730, ou um Analisador Genético 373OxI, um Analisador de DNA ABI PRISM ® 3700, ou um Sistema SOLiDTM Applied Biosystems (todos disponíveis junto à Applied Biosystems), um Sistema de Sequenciamento de Genoma 20 (Roche Applied Science), ou um espectrômetro de massa. Em certas modalidades, o sequenciamento compreende PCR em emulsão. Em certas modalidades, o sequenciamento compreende uma técnica de sequenciamento de alta capacidade de processamento. Em certas modalidades, o sequenciamento compreende o sequenciamento de genoma inteiro. Em certas modalidades, o sequenciamento compreende o sequenciamento massivamente paralelo (por exemplo, sequenciamento shotgun massivamente paralelo). Em modalidades alternativas, o sequenciamento compreende o sequenciamento direcionado.

[0041] A análise de proteína se refere ao estudo de proteínas, e pode incluir análise proteômica, determinação de modificação pós-traducional de proteínas de interesse, determinação de níveis de expressão de proteína, ou determinação de interações de proteína com outras moléculas, incluindo com outras proteínas ou com ácidos nucleicos.

[0042] Como usado aqui, o termo "marcação" se refere à modificação de DNA por um complexo de transpossomo que compreende a enzima transposase complexada com adaptadores que compreendem a sequência terminal de transpóson. A marcação resulta na fragmentação simultânea do DNA e na ligação dos adaptadores às extremidades 5′ de ambos os filamentos de fragmentos do dúplex. Após uma etapa de purificação para remover a enzima transposase, sequências adicionais podem ser adicionadas às extremidades dos fragmentos adaptados, por exemplo, por PCR, ligação, ou qualquer outra metodologia adequada conhecida pelos versados na técnica.

[0043] O sequenciamento de transposição que preserva a similaridade (CPT-seq) se refere a um método de sequenciamento enquanto preserva a informação de contiguidade pelo uso da transposase para manter a associação de fragmentos molde de ácidos nucleicos em posição adjacente no ácido nucleico alvo. Por exemplo, o CPT pode ser executado em um ácido nucleico, como em DNA. O ácido nucleico de CPT pode ser capturado por hibridização de oligonucleotídeos complementares tendo índices exclusivos ou códigos de barras e imobilizados em um suporte sólido. Em algumas modalidades, o oligonucleotídeo imobilizado no suporte sólido pode compreender adicionalmente sítios de ligação de iniciador, índices moleculares exclusivos, além de códigos de barras. Vantajosamente, o uso de transpossomos para manter a proximidade física de ácidos nucleicos fragmentados aumenta a probabilidade de que ácidos nucleicos fragmentados da mesma molécula original, por exemplo, cromossomo, receberão as mesmas informações exclusivas de código de barras e índice dos oligonucleotídeos imobilizados em um suporte sólido. Isso resultará em uma biblioteca de sequenciamento ligada contiguamente com códigos de barras exclusivos. A biblioteca de sequenciamento ligada contiguamente pode ser sequenciada para derivar informações de sequência contíguas.

[0044] Como usado aqui, o termo "informação de contiguidade" se refere a uma relação espacial entre dois ou mais fragmentos de DNA com base em informação compartilhada. O aspecto compartilhado das informações pode ser em relação às relações espaciais adjacentes, compartimentais e de distância. Informações referentes a essas relações por sua vez facilitam a montagem hierárquica ou o mapeamento de leituras de sequência derivadas dos fragmentos de DNA. Essas informações de contiguidade melhoram a eficiência e a precisão de tal montagem ou mapeamento porque os métodos tradicionais de montagem ou mapeamento utilizados em associação com o sequenciamento shotgun convencional não levam em conta as origens genômicas relativas ou coordenadas das leituras de sequência individuais conforme elas se relacionam com a relação espacial entre os dois ou mais fragmentos de DNA dos quais as leituras de sequência individuais foram derivadas.

[0045] Portanto, de acordo com as modalidades aqui descritas, os métodos de captura de informações de contiguidade podem ser realizados por métodos de contiguidade de curto alcance para determinar relações espaciais adjacentes, métodos de contiguidade de médio alcance para determinar relações espaciais compartimentais, ou métodos de contiguidade de longo alcance para determinar relações espaciais de distância. Esses métodos facilitam a exatidão e a qualidade da montagem ou do mapeamento da sequência de DNA, e podem ser utilizados com qualquer método de sequenciamento, como aqueles aqui descritos.

[0046] As informações de contiguidade incluem as origens genômicas relativas ou coordenadas das leituras de sequência individuais ao se referirem à relação espacial entre os dois ou mais fragmentos de DNA dos quais as leituras de sequência individuais foram derivadas. Em algumas modalidades, as informações de contiguidade incluem as informações de sequência de leituras de sequência não sobrepostas.

[0047] Em algumas modalidades, a informação de contiguidade de uma sequência de ácidos nucleicos alvo é indicativa de informação de haplótipo. Em algumas modalidades, a informação de contiguidade de uma sequência de ácidos nucleicos alvo é indicativa de variantes genômicas.

[0048] O sequenciamento de célula única indexado combinatório (SCI-seq) é uma técnica de sequenciamento para gerar simultaneamente milhares de bibliotecas de célula única para uma variedade de análises, incluindo, por exemplo, genoma inteiro, metilação, RNA, DNA e RNA simultâneos, ou Hi-C, ou outras análises de bibliotecas ou qualquer combinação dos mesmos.

[0049] Uma reação de transposição é uma reação em que um ou mais transpósons são inseridos em ácidos nucleicos alvo em sítios aleatórios ou sítios quase aleatórios. Os componentes em uma reação de transposição incluem uma transposase (ou outra enzima capaz de fragmentar e marcar um ácido nucleico conforme descrito aqui, como uma integrase) e um elemento transpóson que inclui uma sequência de extremidade de transpóson de fita dupla que se liga à transposase (ou outra enzima conforme descrito aqui), e uma sequência adaptadora fixada a uma das duas sequências de extremidade de transpóson. Uma fita da sequência de extremidade de transpóson de fita dupla é transferida para uma fita do ácido nucleico alvo e a fita da extremidade de transpóson complementar não é (uma sequência de transpóson não transferida). A sequência adaptadora pode incluir uma ou mais sequências ou componentes funcionais (por exemplo, sequências iniciadoras, sequências de âncora, sequências universais, regiões espaçadoras ou sequências de etiqueta de índice) conforme necessário ou desejado.

[0050] A tecnologia à base de transpóson pode ser utilizada para fragmentar o DNA, por exemplo, conforme exemplificado no fluxo de trabalho para kits de preparação de amostra NEXTERA™ XT e FLEX DNA (Illumina, Inc.), sendo que os ácidos nucleicos alvo, como o DNA genômico, são tratadas com complexos transpossomos que simultaneamente fragmentam e marcam (marcação) o alvo, criando assim uma população de moléculas de ácido nucleico fragmentadas marcadas com sequências adaptadoras únicas nas extremidades dos fragmentos.

[0051] Um complexo de enzimas de inserção, como usado aqui, se refere a um complexo que compreende uma enzima de inserção e duas moléculas adaptadoras (as "etiquetas de transpóson") que são combinadas com polinucleotídeos para fragmentar e adicionar adaptadores aos polinucleotídeos. Dessa forma, um complexo de enzimas de inserção pode ser um "complexo de transpossomo" que compreende ao menos uma transposase (ou outra enzima conforme descrito aqui) e uma sequência de reconhecimento de transpóson. Em alguns desses sistemas, a transposase se liga a uma sequência de reconhecimento de transpóson para formar um complexo funcional que é capaz de catalisar uma reação de transposição. Em alguns aspectos, a sequência de reconhecimento de transpóson é uma sequência terminal de transpóson de fita dupla. A transposase se liga a um sítio de reconhecimento de transposase em um ácido nucleico alvo e insere a sequência de reconhecimento de transpóson em um ácido nucleico alvo. Em alguns desses eventos de inserção, um filamento da sequência de reconhecimento de transpóson (ou sequência terminal) é transferido para o ácido nucleico alvo, resultando em um evento de clivagem. Os procedimentos e sistemas de transposição exemplificadores que podem ser prontamente adaptados para uso com as transposases da presente revelação são descritos, por exemplo, na publicação PCT n° WO10/048605, na publicação de patente US n° 2012/0301925, na publicação de patente US n° 2012/13470087, ou na publicação de patente US n° 2013/0143774, cada uma das quais está aqui incorporada a título de referência em sua totalidade.

[0052] As transposases exemplificadoras que podem ser utilizadas com certas modalidades aqui fornecidas incluem (ou são codificadas por): transposase Tn5 (consulte Reznikoff et al., Biochem. Biophys. Res. Commun. 1999, 266, 729-734), transposase da Bela Adormecida (SB, em inglês Sleeping Beauty), Vibrio harveyi (transposase caracterizada pela Agilent e utilizada no produto SureSelect QXT), transposase de MuA e um sítio de reconhecimento de transposase Mu que compreende as sequências terminais R1 e R2 (Mizuchi, K., Cell, 35: 785, 1983; Savilahti, H, et al., EMBO J., 14:4893, 1995), Staphylococcus aureus Tn552 (Colegio, O. et al., J. Bacteriol., 183:2384-8, 2001; Kirby, C. et al., Mol. Microbiol., 43:173-86, 2002), Ty1 (Devine & Boeke, Nucleic Acids Res., 22:3765-72, 1994 e publicação PCT n° WO95/23875), transpóson Tn7 (Craig, N.L., Science, 271:1512, 1996; Craig, N.L., Curr. Top. Microbiol. Immunol., 204:27-48, 1996), Tn/O e IS10 (Kleckner N. et al., Curr. Top. Microbiol. Immunol., 204:49-82, 1996), transposase mariner (Lampe, D.J. et al., EMBO J., 15:5470-9, 1996), Tc1 (Plasterk, R.H., Curr. Top. Microbiol. Immunol., 204:125-43, 1996), elemento P (Gloor, G.B., Methods Mol. Biol., 260:97-114, 2004), Tn3 (Ichikawa & Ohtsubo, J. Biol. Chem., 265:18829-32, 1990), sequências de inserção bacteriana (Ohtsubo & Sekine, Curr. Top. Microbiol. Immunol. 204:1-26, 1996), retrovírus (Brown et al., Proc. Natl. Acad. Sci. USA, 86:2525-9, 1989), e retrotranspóson de levedura (Boeke & Corces, Ann. Rev. Microbiol. 43:403-34, 1989). Mais exemplos incluem IS5, Tn10, Tn903, IS911 e versões manipuladas de enzimas da família transposase (Zhang et al., (2009) PLoS Genet. 5:e1000689. Epub Out. 16; Wilson C. et al. (2007) J. Microbiol. Methods 71:332-5), cada uma das referências aqui citadas em relação à transposase está aqui incorporada a título de referência, em sua totalidade. Os métodos aqui descritos poderiam também incluir combinações de transposases, e não apenas uma única transposase.

[0053] Em algumas modalidades, a transposase é uma transposase Tn5, MuA, ou Vibrio harveyi, ou um mutante ativo da mesma. Em outras modalidades, a transposase é uma transposase Tn5 ou um mutante ativo da mesma. Em algumas modalidades, a transposase Tn5 é uma transposase Tn5 hiperativa (consulte, por exemplo, Reznikoff et al., publicação PCT n° WO2001/009363, patentes US n°s

5.925.545, 5.965.443, 7.083.980, e 7.608.434, e Goryshin e Reznikoff, J. Biol. Chem. 273:7367, 1998), ou um mutante ativo da mesma. Em alguns aspectos, a transposase Tn5 é uma transposase Tn5, conforme descrito na publicação PCT n° WO2015/160895, que está aqui incorporada a título de referência. Em algumas modalidades, a transposase Tn5 é uma proteína de fusão. Em algumas modalidades, a proteína de fusão de transposase Tn5 compreende um marcador de fator de alongamento fundido Ts (Tsf). Em algumas modalidades, a transposase Tn5 é uma transposase Tn5 hiperativa que compreende mutações nos aminoácidos 54, 56 e 372 em relação à sequência do tipo selvagem. Em algumas modalidades, a transposase Tn5 hiperativa é uma proteína de fusão, sendo que, opcionalmente, a proteína fundida é o fator de alongamento Ts (Tsf). Em algumas modalidades, o sítio de reconhecimento é um sítio de reconhecimento de transposase do tipo Tn5 (Gorishin e Reznikoff, J. Biol. Chem., 273:7367, 1998). Em uma modalidade, um sítio de reconhecimento de transposase que forma um complexo com uma transposase Tn5 hiperativa é utilizado (por exemplo, EZ-Tn5™ Transposase, Epicentre Biotechnologies, Madison, Wis., EUA). Em algumas modalidades, a transposase Tn5 é uma transposase Tn5 de tipo selvagem.

[0054] Em qualquer uma das modalidades dos métodos, composições ou sistemas aqui descritos, o transpóson inclui uma sequência terminal de transpóson. Em algumas modalidades, a sequência de extremidade de transpóson é uma sequência de extremidade em mosaico (ME). Em algumas modalidades, o DNA é marcado com o uso de marcação, sendo que o DNA é marcado com uma etiqueta, e é incluída com a etiqueta uma sequência específica de transpóson, como uma sequência ME. Dessa forma, o DNA é diferenciado do RNA na amostra com base na sequência específica de transpóson.

[0055] Em qualquer uma das modalidades dos métodos, composições ou sistemas aqui descritos, o transpóson inclui uma sequência adaptadora. As sequências adaptadoras podem compreender uma ou mais sequências funcionais ou componentes selecionados do grupo que consiste em sequências iniciadoras, sequências de ancoragem, sequências universais, regiões espaçadoras, sequências de índice, sequências de captura, sequências de código de barras, sequências de clivagem, sequências relacionadas ao sequenciamento e combinações das mesmas. Em algumas modalidades, uma sequência adaptadora compreende uma sequência iniciadora. Em outras modalidades, uma sequência adaptadora compreende uma sequência iniciadora e uma sequência de índice ou código de barras. Uma sequência iniciadora pode também ser uma sequência universal. Esta revelação não se limita ao tipo de sequências adaptadoras que poderiam ser utilizadas e o versado na técnica reconhecerá sequências adicionais que podem ser utilizadas para a preparação de biblioteca e o sequenciamento de nova geração. Uma sequência universal é uma região da sequência de nucleotídeos que é comum a dois ou mais fragmentos de ácido nucleico. Opcionalmente, os dois ou mais fragmentos de ácido nucleico também têm regiões de diferenças de sequência. Uma sequência universal que pode estar presente em diferentes membros de uma pluralidade de fragmentos de ácido nucleico pode possibilitar a replicação ou amplificação de múltiplas sequências diferentes com o uso de um único iniciador universal que é complementar à sequência universal.

[0056] Os adaptadores incluem ácidos nucleicos, como os ácidos nucleicos de fita simples. Os adaptadores podem incluir ácidos nucleicos curtos tendo um comprimento menor que, maior que ou igual a cerca de 5 nucleotídeos, 10 nucleotídeos, 20 nucleotídeos, 30 nucleotídeos, 40 nucleotídeos, 50 nucleotídeos,

60 nucleotídeos, 70 nucleotídeos, 80 nucleotídeos, 90 nucleotídeos, 100 nucleotídeos ou uma faixa entre quaisquer dois dos tamanhos anteriores.

[0057] Em qualquer uma das modalidades, a sequência adaptadora ou as sequências de extremidade do transpóson, incluindo A14-ME, ME, B15-ME, ME’, A14, B15 e ME são fornecidas abaixo: A14-ME: 5′-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3′ (SEQ ID NO: 1) B15-ME: 5′-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3′ (SEQ ID NO: 2) ME’: 5′-fos-CTGTCTCTTATACACATCT-3’ (SEQ ID NO: 3) A14: 5′-TCGTCGGCAGCGTC-3′ (SEQ ID NO: 4) B15: 5′-GTCTCGTGGGCTCGG-3’ (SEQ ID NO: 5) ME: AGATGTGTATAAGAGACAG (SEQ ID NO.: 6)

[0058] Em algumas modalidades, as sequências iniciadoras incluem preparar as bibliotecas para sequenciamento. Em algumas modalidades, a sequência iniciadora é uma sequência iniciadora P5 ou uma sequência iniciadora P7. Os iniciadores P5 e P7 são utilizados sobre a superfície de células de fluxo comerciais vendidas pela Illumina, Inc., para o sequenciamento em várias plataformas Illumina. As sequências iniciadoras são descritas na publicação de patente US n° 2011/0059865 A1, que está aqui integralmente incorporada, a título de referência. Exemplos de iniciadores P5 e P7, que podem ser terminados com alquino na extremidade 5', incluem os seguintes: P5: AATGATACGGCGACCACCGAGAUCTACAC (SEQ ID NO. 7) P7: CAAGCAGAAGACGGCATACGAG*AT (SEQ ID NO. 8) e derivados ou análogos dos mesmos. Em alguns exemplos, a sequência de P7 inclui uma guanina modificada na posição G*, por exemplo, uma 8-oxo-guanina. Em outros exemplos, o * indica que a ligação entre o G* e o 3'A adjacente é uma ligação fosforotioato. Em alguns exemplos, os iniciadores P5 e/ou P7 incluem ligantes não naturais. Opcionalmente, um ou ambos os iniciadores P5 e P7 podem incluir uma cauda poli T. A cauda poli T está, de modo geral, situada na extremidade 5’ da sequência mostrada acima, por exemplo, entre a base 5' e uma unidade alquino terminal, mas em alguns casos pode estar situada na extremidade

3'. A sequência poli T pode incluir qualquer número de nucleotídeos T, por exemplo, de 2 a 20. Embora os iniciadores P5 e P7 sejam fornecidos como exemplos, deve- se compreender que quaisquer iniciadores adequados podem ser utilizados nos exemplos aqui apresentados. As sequências de índice que têm as sequências iniciadoras, incluindo as sequências iniciadoras P5 e P7 servem para adicionar P5 e P7 para a ativação da biblioteca para sequenciamento.

[0059] Uma molécula de ligação ao ácido nucleico é uma molécula que se liga, de preferência, a um ácido nucleico, como a um DNA ou RNA. A molécula de ligação a ácidos nucleicos, como uma molécula de ligação ao DNA, pode ser específica para um determinado tipo de ácido nucleico, sem ligação a outros tipos de ácidos nucleicos. Por exemplo, uma molécula de ligação ao DNA pode se ligar, de preferência, a mtDNA, mas não se ligar, ou se ligar, em menor escala, a outros ácidos nucleicos, como o DNA nuclear. Exemplos de moléculas de ligação a ácidos nucleicos incluem um corante ou coloração, uma proteína, uma enzima, uma biomolécula, uma etiqueta de afinidade, uma partícula, um marcador fluorescente, um peptídeo, um ligante ou outra molécula capaz de se ligar especificamente a um ácido nucleico. Dessa forma, em alguns exemplos, a molécula de ligação a ácidos nucleicos é um corante Hoechst, um corante de cianina (incluindo, por exemplo, corantes SYBR, como verde SYBR, GOLD SYBR, amarelo oxazol, laranja tiazol, Picogreen, verde seguro), 4′,6-diamidino- 2-fenilindol (DAPI) ou corantes Sytox (incluindo, por exemplo, verde Sytox ou laranja Sytox). Outras moléculas de ligação a ácidos nucleicos podem incluir, por exemplo, 7-AAD (7-amino-actinomicina D), laranja de acridina, vermelho de acridina, Alexa Fluor 594, Alexa Fluor 610 R-ficoeritrina estreptavidina pH 7,2, Alexa Fluor 647 R- ficoeritrina estreptavidina pH 7,2, Alexa Fluor 633, Alexa Fluor 647, Alexa Fluor 660, Alexa Fluor 680, Alexa Fluor 700, Alexa Fluor 750, aloficocianina (APC), BOBO-3- DNA, BOBO-3, Bodipy 650/665-X, Cy5.5, Cy5, DDAO, Draq5, brometo de etídio, etilenomonoazida, homodímero de etídio, homodímero de etídio-1 (EthD-1), homodímero de etídio-1-DNA, homodímero de etídio-2, LDS 751, LDS 751 (DNA), LOLO-1, MitoTracker Vermelho, azul de Nilo-EtOH, OliGreen, reagente de quantificação de dsDNA, POPO-1-DNA, PO-PRO-1-DNA, iodeto de propidio (PI), iodo-DNA de propidiodo-DNA, Ribogreen, SYPRO Ruby, SYTO 60, SYTO 61, SYTO 62, SYTO 63, SYTO 64, corante fluorescente Texas Red, TO-PRO-1-DNA, TO-PRO- 3, TO-PRO-5, TOTO-1-DNA, TOTO-3, YO-PRO-1-DNA, YO-PRO-3, YOYO-1-DNA e YOYO-3. Essas moléculas de ligação a ácidos nucleicos são moléculas exemplificadoras que podem ser utilizadas, e um versado na técnica reconhecerá que qualquer molécula de ligação a ácidos nucleicos que discrimine entre um ácido nucleico alvo de interesse e ácidos nucleicos inespecíficos podem ser utilizados.

[0060] Algumas modalidades aqui fornecidas se referem a um método de sequenciamento de um ácido nucleico. Em algumas modalidades, o método inclui fornecer uma amostra que compreende um ácido nucleico, colocar a amostra em contato com uma molécula de ligação ao DNA, colocar a amostra em contato com um complexo de enzimas de inserção para produzir fragmentos de ácido nucleico etiquetados, e sequenciar os fragmentos de ácido nucleico etiquetados para produzir leituras de sequência. Em algumas modalidades, a amostra é uma população de células, uma única célula, uma população de núcleos celulares ou um único núcleo celular. Em algumas modalidades, a amostra compreende mtDNA e DNA nuclear, e em que a molécula de ligação ao DNA se liga ao mtDNA, mas não ao DNA nuclear. Em algumas modalidades, a molécula de ligação ao DNA compreende um corante para DNA, uma etiqueta de afinidade, um ligante, uma enzima, peptídeo ou uma biomolécula. Em algumas modalidades, o corante para DNA compreende o corante Hoechst, SYBR Gold, Laranja Sytox, Picogreen ou Qubit. Em algumas modalidades, o complexo de enzimas de inserção é um transpossomo que compreende uma transposase. Em algumas modalidades, o sequenciamento é realizado por ATAC- seq. Em algumas modalidades, o ATAC-seq compreende o ATAC-seq em massa ou o ATAC-seq de célula única. Em algumas modalidades, o método inibe, reduz ou elimina as leituras de sequenciamento de mtDNA. Em algumas modalidades, a molécula de ligação a ácidos nucleicos se liga, de preferência, a uma sequência ou a sequências de DNA específicas.

[0061] Algumas modalidades aqui fornecidas se referem a um método de inibição, redução ou eliminação de leituras de sequenciamento de mtDNA. Em algumas modalidades, o método inclui fornecer uma amostra que compreende mtDNA e um ácido nucleico de interesse, colocar a amostra em contato com uma molécula de ligação a DNA que se liga, de preferência, a um DNA secundário, como o mtDNA, e realizar a transposição de DNA em cromatina aberta, sendo que o DNA secundário, como o mtDNA, não é transposto. Em algumas modalidades, a amostra é uma população de células, uma única célula, uma população de núcleos celulares ou um único núcleo celular. Em algumas modalidades, a molécula de ligação ao DNA compreende um corante para DNA, uma etiqueta de afinidade, um ligante, uma enzima, peptídeo ou uma biomolécula. Em algumas modalidades, o corante para DNA compreende o corante Hoechst, SYBR Gold, Laranja Sytox, Picogreen ou Qubit. Em algumas modalidades, a transposição de DNA é realizada usando o ATAC-seq. Em algumas modalidades, o ATAC-seq compreende o ATAC-seq em massa ou o ATAC- seq de célula única. Em algumas modalidades, colocar a amostra em contato com a molécula de ligação ao DNA bloqueia a transposição em mtDNA. Em algumas modalidades, o ácido nucleico de interesse compreende o DNA nuclear. Em algumas modalidades, o método inclui adicionalmente o sequenciamento do DNA nuclear.

[0062] Como usado aqui, uma amostra inclui qualquer amostra que tem um analito de interesse. A amostra pode ser uma amostra biológica, como uma amostra biológica tendo um analito de interesse, incluindo, por exemplo, sangue total, soro, fluido intersticial, linfa, líquido cefalorraquidiano, escarro, urina, fezes, leite, suor, lágrimas, cordão umbilical, sangue periférico, medula óssea, células ou tecido sólido. Em algumas modalidades, a amostra é uma população de células, uma célula, uma população de núcleos celulares ou um núcleo celular. A amostra pode ser obtida a partir de um indivíduo, sendo que é desejável analisar um ou mais analitos de interesse do indivíduo. Como usado aqui, um "indivíduo" se refere a um animal que é o objeto de tratamento, observação ou experimento. "Animal" inclui vertebrados e invertebrados de sangue frio e quente, como peixe, mariscos, répteis e, em particular, mamíferos. "Mamífero" inclui, mas não se limita a, camundongos, ratos, coelhos, porquinhos-da-índia, cães, gatos, ovelhas, cabras, vacas, cavalos, primatas, como macacos, chimpanzés e símios, e, em particular, seres humanos.

[0063] A amostra pode ser um fluido ou espécime obtido a partir de uma fonte ambiental. Por exemplo, o fluido ou espécime obtido a partir da fonte ambiental pode ser obtido ou derivado de produtos alimentícios, produção de produtos alimentícios, aves, carne, peixe, bebidas, produtos lácteos, água (incluindo águas residuais), açudes, rios, reservatórios, piscinas, solos, unidades de processamento e/ou embalagem de alimentos, lugares agrícolas, hidroculturas (incluindo fazendas hidropônicas de alimentos), instalações de fabricação farmacêutica, instalações de colônia animal, ou qualquer combinação dos mesmos. Em algumas modalidades, a amostra é um fluido ou espécime coletado ou derivado de uma cultura celular ou de uma colônia de micróbios.

[0064] Como usado aqui, "analito", "analito alvo", "analito de interesse" são utilizados de forma intercambiável e se referem ao analito sendo medido nos métodos e sistemas aqui revelados. Em algumas modalidades, o analito pode ser uma biomolécula. Exemplos não limitadores de biomoléculas incluem macromoléculas como polinucleotídeos (por exemplo, DNA ou RNA), proteínas, lipídios e carboidratos. Em certas instâncias, os analitos podem ser hormônios, anticorpos, fatores de crescimento, citoquinas, enzimas, receptores (por exemplo, receptores neurais, hormonais, nutrientes e de superfície celular) ou seus ligantes, marcadores de câncer (por exemplo, PSA, TNF-alfa), marcadores de infarto do miocárdio (por exemplo troponina, creatina quinase e similares), toxinas, drogas (por exemplo, drogas da toxicodependência), agentes metabólicos (por exemplo, incluindo vitaminas) e similares. Modalidades não limitadoras de analitos proteicos incluem peptídeos, polipeptídeos, fragmentos de proteína, complexos de proteínas, proteínas de fusão, proteínas recombinantes, fosfoproteínas, glicoproteínas, lipoproteínas, proteínas marcadas com oligonucleotídeos ou similares. O analito alvo pode ser um ácido nucleico, como um DNA nuclear.

[0065] Inversamente, um analito inespecífico é um analito que normalmente seria analisado com o uso de uma reação enzimática, mas que não é o analito-alvo de interesse, de modo que tanto o analito de interesse quanto o analito inespecífico são analisados, diminuindo assim a precisão e a confiabilidade dos resultados. Um analito inespecífico é um analito que seria preferencial não analisar. Portanto, as modalidades aqui fornecidas se referem a métodos e composições que eliminam, reduzem ou inibem a análise de analitos inespecíficos.

[0066] Os ácidos nucleicos alvo podem incluir uma amostra na qual o tamanho médio de um ácido nucleico na amostra é menor que, maior que, ou igual a cerca de 2 kb, 1 kb, 500 bp, 400 bp, 200 bp, 100 bp, 50 bp, ou uma faixa entre quaisquer dois dos tamanhos anteriormente mencionados. Em algumas modalidades, o tamanho médio de um ácido nucleico na amostra é menor que, maior que, ou igual a cerca de 2000 nucleotídeos, 1000 nucleotídeos, 500 nucleotídeos, 400 nucleotídeos, 200 nucleotídeos, 100 nucleotídeos, 50 nucleotídeos, ou uma faixa entre quaisquer dois dos tamanhos anteriormente mencionados.

[0067] Como usado aqui, o termo "reagente" descreve um agente ou uma mistura de dois ou mais agentes úteis para reagir com, interagir com, diluir ou adicionar a uma amostra, e pode incluir agentes utilizados nos ensaios aqui descritos, incluindo agentes para lise, análise de ácidos nucleicos, reações de amplificação de ácidos nucleicos, análise de proteínas, reações de marcação, reações de ATAC-seq, CPT-seq, ou reações SCI-seq, ou outros ensaios. Dessa forma, os reagentes podem incluir, por exemplo, tampões, produtos químicos, enzimas, polimerase, iniciadores que têm um tamanho menor que 50 pares de base, ácidos nucleicos molde, nucleotídeos, marcadores, corantes ou nucleases. Em algumas modalidades, o reagente inclui lisozima, proteinase K, hexâmeros aleatórios, polimerase (por exemplo, DNA polimerase Φ29, Taq polimerase, Bsu polimerase), transposase (por exemplo, Tn5), iniciadores (por exemplo, sequências adaptadoras P5 e P7), ligase, enzima catalisadora, trifosfatos de desoxinucleotídeo, tampões ou cátions divalentes.

[0068] Como usado aqui, os termos "isolado", "para isolar", "isolamento", "purificado", "para purificar", "purificação" e equivalentes gramáticos dos mesmos, como usado aqui, exceto onde especificado em contrário, se referem à redução na quantidade de ao menos um contaminante (como sequência de proteína e/ou de ácido nucleico) a partir de uma amostra ou de uma fonte (por exemplo, uma célula) da qual o material é isolado. Dessa forma, a purificação resulta em um "enriquecimento", por exemplo, um aumento na quantidade de uma sequência desejável de proteína e/ou ácido nucleico na amostra.

[0069] As vantagens dos métodos e composições aqui descritos podem incluir, por exemplo, o direcionamento específico do DNA de interesse através do sequenciamento aberto da cromatina (ATAC-seq), a redução, a inibição, ou a eliminação de leituras de sequenciamento mitocondrial indesejadas da análise, reduzir ou eliminar a necessidade de separar alvos indesejados que fornecem menos carga nos métodos de separação e reduzir os custos, uma vez que informações indesejadas não são coletadas e analisadas.

[0070] Os métodos podem também ser combinados pelo controle da reatividade e seletividade da enzima. As composições e os métodos aqui descritos controlam a atividade e a especificidade de enzimas bloqueando alvos específicos. Como o versado na técnica entenderá, princípios similares podem também ser aplicados a ensaios relacionados ao DNA, proteínas, RNA ou qualquer analito de interesse, ou uma combinação de analitos.

[0071] As modalidades dos sistemas e métodos aqui fornecidos podem ser utilizadas em conjunto com um sistema de particionamento de gotículas para uso no isolamento de uma amostra dentro de uma gotícula. Como usado aqui, o termo "particionamento" ou "particionado" se refere à separação de uma amostra em uma pluralidade de porções, ou "partições". As partições podem ser sólidas ou fluidas. Em algumas modalidades, uma partição é uma partição sólida, por exemplo, um microcanal. Em algumas modalidades, uma partição é uma partição fluida, por exemplo, uma gotícula. Em algumas modalidades, uma partição fluida (por exemplo,

uma gotícula) é uma mistura de fluidos imiscíveis (por exemplo, água e óleo), ou uma emulsão. Em algumas modalidades, uma partição fluida (por exemplo, uma gotícula) é uma gotícula aquosa que é circundada por um fluido veículo imiscível (por exemplo, óleo). Em outras modalidades, uma partição fluida é uma gotícula aquosa que é física ou quimicamente separada das gotículas aquosas adjacentes de modo que o conteúdo de uma gotícula não se difunda em gotículas adjacentes. Por exemplo, o particionamento pode ser realizado com o uso de um gerador de gotículas (por exemplo, sistemas BioRad, sistemas Dolomita Microfluidics, Sistemas Micronit Microfluidics, dispositivos microfluídicos de água em óleo, sistemas 10X Genomics, ou qualquer outro sistema de particionamento de gotículas adequado), para particionar separadamente, isolar e/ou analisar um ácido nucleico de interesse.

[0072] As modalidades dos sistemas e métodos aqui fornecidos incluem kits, contendo reagentes de transposição e uma primeira sonda complementar a uma primeira etiqueta e uma segunda sonda complementar a uma segunda etiqueta, sendo que a primeira e a segunda sonda são imobilizadas em um suporte sólido. Em algumas modalidades, a primeira sonda e a segunda sonda compreendem um código de barras. Em algumas modalidades, a primeira sonda e a segunda sonda são uma sonda poliT. Em algumas modalidades, o suporte sólido é uma superfície gravada, uma cavidade, uma matriz, um dispositivo de célula de fluxo, um canal microfluídico, uma microesfera, uma microesfera magnética, uma coluna, uma gotícula ou uma micropartícula. Exemplos Exemplo 1 — Redução de Leituras de DNA mitocondrial

[0073] O exemplo a seguir demonstra uma modalidade de redução de leituras de mtDNA usando o ATAC-seq.

[0074] Uma amostra tendo tanto DNA nuclear quanto mtDNA foi obtida. A amostra foi separada em várias alíquotas e cada alíquota foi colocada em contato com o corante Hoechst 33258 em várias concentrações, incluindo 8 µM, 80 µM e 800 µM. Cada alíquota foi, então, submetida à transposição e ao ATAC-seq, e as leituras de DNA foram analisadas.

[0075] Conforme mostrado nas Figuras 2A a 2C, o corante Hoechst corou seletivamente o mtDNA, evitando a transposição no mtDNA, mas permitindo a transposição do DNA nuclear. A Tabela 1 resume as leituras resultantes mostradas nas Figuras 2A a 2C. Concentrações crescentes de corante Hoechst resultaram na diminuição das leituras de mtDNA usando ATAC-seq. Os métodos e as composições podem ser utilizados para ATAC-seq em massa ou ATAC-seq de célula única para inibir, reduzir ou eliminar as leituras de sequenciamento de mtDNA indesejadas.

Tabela 1 Concentração de Hoechst (µM) 8 80 800 % mapeada para gDNA (nuclear) 68% 89% 100% % mapeada para mtDNA 32% 11% 0%

[0076] Além de realizar a transposição e o ATAC-seq, as amostras também foram coradas. As amostras foram coradas com DAPI, e a coloração do mtDNA ocorreu, mas não das regiões ativamente transcritas (ATAC) de DNA nuclear. O DNA foi corado com DAPI, mas não em certos locais. O RNA é transcrito em locais onde o DAPI não cora. A coloração diferencial de mtDNA e das regiões não ativamente transcritas do DNA nuclear inibiram eficazmente a transposição em mtDNA e, assim, melhorou a eficiência do ATAC de DNA nuclear sem a transposição inespecífica indesejável. Exemplo 2 — Eficiência de várias moléculas de ligação ao DNA

[0077] O exemplo a seguir demonstra uma modalidade de redução de leituras de mtDNA usando ATAC-seq com o uso de várias moléculas de ligação ao DNA.

[0078] Uma amostra tendo DNA nuclear e mtDNA foi obtida. A amostra foi separada em várias alíquotas e cada alíquota foi colocada em contato com um corante diferente em várias concentrações. Cinco corantes diferentes foram utilizados, incluindo Hoechst (em concentrações de 50 µM, 25 µM, 12 µM, 6 µM, 3 µM e 0,6 µM), SYBR Gold (em concentrações de 500 µM, 50 µM, 5 µM, 0,5 µM e 0,1 µM), Laranja Sytox (em concentrações de 500 µM, 50 µM, 5 µM, 0,5 µM e 0,1 µM), Picogreen (em concentrações de 100 µM, 10 µM, 1 µM, 0,1 µM e 0,02 µM) e Qubit (em concentrações de 100 µM, 10 µM, 1 µM, 0,1 µM e 0,02 µM), conforme mostrado nas Figuras 3A a 3C. Uma outra alíquota que não foi exposta a qualquer corante foi preparada. Cada alíquota foi, então, submetida à transposição com Nextera e os produtos foram visualizados em um gel. A Figura 3A mostra o gel para Hoechst e SYBR Gold. A Figura 3B mostra o gel para Laranja Sytox e Picogreen, e a Figura 3C mostra o gel para Qubit e sem corante. Os produtos de DNA de alto peso molecular são indicativos de transposição ineficiente. A inibição é observada para o SYBR Gold e o Laranja Sytox em concentrações maiores que 100 µM.

[0079] Cada alíquota foi submetida à transposição e as leituras de DNA foram analisadas, conforme mostrado nas Figuras 4 e 5. Conforme mostrado na Figura 4, o Hoechst 33258 não altera os perfis de ATAC-seq (posicionamento de nucleossomo) e reduz as leituras de DNA mitocondrial (conforme mostrado também nas Figuras 2A a 2C). Hoechst possibilita o perfilamento de ATAC-seq relativamente imparcial enquanto não altera o posicionamento do nucleossoma. Alguns corantes, como SYBR Gold, se ligam ao DNA, mas afetaram o posicionamento do nucleossomo (ATAC-seq) em comparação com o controle sem corante.

[0080] Conforme mostrado na Figura 5, o bloqueio específico de mtDNA aumentou a especificidade do sequenciamento do DNA nuclear. Esses resultados demonstram que as moléculas de ligação ao DNA intercalantes podem ser utilizadas para controlar a atividade de transposição enzimática de DNA.

[0081] Essa abordagem pode ser aplicada de modo mais genérico em que colorações específicas, ou moléculas de ligação em geral, podem ser levadas a certos alvos com o uso de etiquetas de afinidade bem conhecidas incluindo conjugados de anticorpos e sondas de hibridização de DNA para bloquear a atividade enzimática indesejada. Alternativamente, etiquetas de afinidade específicas ("bloqueadores") podem ser utilizadas para conduzir as enzimas para alvos específicos. Tais aplicações podem incluir o bloqueio da atividade inespecífica das enzimas CRISPR.

[0082] O termo "compreendendo", para uso na presente invenção, é sinônimo de "incluindo", "contendo" ou "caracterizado por", e é inclusivo ou não limitados e não exclui elementos ou etapas de método adicionais não mencionadas.

[0083] A descrição acima revela vários métodos e materiais da presente invenção. Esta invenção é suscetível a modificações nos métodos e materiais, bem como alterações nos métodos e equipamentos de fabricação. Tais modificações se tornarão evidentes aos versados na técnica a partir de uma consideração desta revelação ou da prática da invenção aqui revelada. Consequentemente, não se pretende que esta invenção seja limitada às modalidades específicas aqui reveladas, mas que abranja todas as modificações e alternativas que estão no verdadeiro escopo e espírito da invenção.

[0084] todas as referências citadas na presente invenção, incluindo, mas não se limitando a, pedidos, patentes e referências de literatura publicados e não publicados, estão aqui incorporadas a título de referência em sua totalidade e são feitas por meio deste relatório descritivo. na medida em que as publicações e patentes ou os pedidos de patente incorporados a título de referência contradizem a revelação contida no relatório descritivo, o relatório descritivo tem por objetivo substituir e/ou prevalecer em relação a qualquer material contraditório deste tipo.

Claims

REIVINDICAÇÕES

1. Método de sequenciamento de um ácido nucleico, caracterizado por compreender: fornecer uma amostra que compreende um ácido nucleico; colocar a amostra em contato com uma molécula de ligação ao DNA; colocar a amostra em contato com um complexo de enzimas de inserção para produzir fragmentos de ácido nucleico etiquetados, sendo que o complexo de enzimas de inserção é inibido pela molécula de ligação ao DNA; e sequenciar os fragmentos de ácido nucleico etiquetados para produzir as leituras de sequência.

2. Método, de acordo com a reivindicação 1, caracterizado por a amostra ser uma população de células, uma única célula, uma população de núcleos celulares ou um único núcleo celular.

3. Método, de acordo com qualquer uma das reivindicações 1 e 2, caracterizado por a amostra compreender ácidos nucleicos primários e ácidos nucleicos secundários, e sendo que a molécula de ligação ao DNA liga, de preferência, ácidos nucleicos secundários em relação aos ácidos nucleicos primários.

4. Método, de acordo com a reivindicação 3, caracterizado por os ácidos nucleicos primários compreenderem o DNA nuclear.

5. Método, de acordo com a reivindicação 3, caracterizado por os ácidos nucleicos secundários compreendem o DNA mitocondrial (mtDNA) ou o DNA extracromossômico.

6. Método, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por a molécula de ligação ao DNA compreender um corante para DNA, uma etiqueta de afinidade, um ligante, uma enzima, peptídeo, ou uma biomolécula.

7. Método, de acordo com a reivindicação 6, caracterizado por o corante para DNA compreender corante Hoechst, SYBR Gold, Laranja Sytox, Picogreen ou Qubit.

8. Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por o complexo de enzimas de inserção ser um transpossomo que compreende uma transposase.

9. Método, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o sequenciamento ser realizado por ensaio para sequenciamento de cromatina acessível por transposase (ATAC-seq) ou por sequenciamento de genoma inteiro.

10. Método, de acordo com a reivindicação 9, caracterizado por o ATAC- seq compreender o ATAC-seq em massa ou o ATAC-seq de célula única.

11. Método, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por inibir, reduzir ou eliminar leituras de sequenciamento secundárias.

12. Método para inibir, reduzir ou eliminar leituras de sequenciamento secundárias, sendo o método caracterizado por compreender: fornecer uma amostra que compreende ácidos nucleicos primários e ácidos nucleicos secundários; colocar a amostra em contato com uma molécula de ligação ao DNA que liga, de preferência, os ácidos nucleicos secundários; e realizar a transposição de DNA em cromatina aberta, sendo que os ácidos nucleicos secundários não são transpostos ou são transpostos com eficiência mais baixa que os ácidos nucleicos primários.

13. Método, de acordo com a reivindicação 12, caracterizado por a amostra ser uma população de células, uma única célula, uma população de núcleos celulares ou um único núcleo celular.

14. Método, de acordo com qualquer das reivindicações 12 e 13, caracterizado por a molécula de ligação ao DNA compreender um corante para DNA, uma etiqueta de afinidade, um ligante, uma enzima, peptídeo, ou uma biomolécula.

15. Método, de acordo com a reivindicação 14, caracterizado por o corante para DNA compreender corante Hoechst, SYBR Gold, Laranja Sytox, Picogreen ou Qubit.

16. Método, de acordo com qualquer uma das reivindicações 12 a 15, caracterizado por a transposição de DNA ser realizada com o uso de ensaio para sequenciamento de cromatina acessível por transposase (ATAC-seq) ou sequenciamento de genoma inteiro a partir de gDNA ou de células únicas.

17. Método, de acordo com a reivindicação 16, caracterizado por o ATAC-seq compreender o ATAC-seq em massa ou o ATAC-seq de célula única.

18. Método, de acordo com qualquer uma das reivindicações 12 a 17, caracterizado por o contato da amostra com a molécula de ligação ao DNA bloquear ou reduzir a transposição nos ácidos nucleicos secundários.

19. Método, de acordo com qualquer uma das reivindicações 12 a 18, caracterizado por os ácidos nucleicos primários compreenderem o DNA nuclear.

20. Método, de acordo com a reivindicação 19, caracterizado por compreender adicionalmente o sequenciamento do DNA nuclear.

21. Método, de acordo com qualquer uma das reivindicações 12 a 20, caracterizado por os ácidos nucleicos secundários compreenderem o DNA mitocondrial (mtDNA) ou o DNA extracromossômico.

22. Biblioteca de ácido nucleico, caracterizada por compreender leituras de sequenciamento primárias obtidas a partir de sequenciamento de DNA, sendo que a biblioteca de ácidos nucleicos não inclui, ou têm uma representação reduzida de, leituras de sequenciamento secundárias.

23. Biblioteca de ácidos nucleicos, de acordo com a reivindicação 22, caracterizada por o sequenciamento de DNA ser um ensaio para sequenciamento cromático acessível por transposase (ATAC-seq) ou um ensaio para sequenciamento de genoma inteiro para gDNA.

24. Biblioteca de ácidos nucleicos, de acordo com qualquer uma das reivindicações 22 e 23, caracterizada por as leituras de sequenciamento primárias serem leituras de sequenciamento de DNA nuclear.

25. Biblioteca de ácidos nucleicos, de acordo com qualquer uma das reivindicações 22 a 25, caracterizada por as leituras de sequenciamento secundárias serem leituras de sequenciamento de DNA mitocondrial (mtDNA) ou leituras de sequenciamento de DNA extracromossômico.

26. Biblioteca de ácidos nucleicos, de acordo com qualquer uma das reivindicações 22 a 26, caracterizada por as leituras de sequenciamento secundárias serem reduzidas, inibidas ou eliminadas devido às moléculas de ligação ao DNA que, de preferência, se ligam ao DNA secundário.

27. Biblioteca de ácidos nucleicos, de acordo com a reivindicação 26, caracterizada por a molécula de ligação ao DNA ser capaz de se ligar a uma sequência de ácidos nucleicos específica para eliminar, reduzir ou inibir leituras de sequenciamento ou bibliotecas para regiões de ácidos nucleicos alvo.

28. Biblioteca de ácidos nucleicos, de acordo com a reivindicação 26, caracterizado por a molécula de ligação ao DNA compreender um corante para DNA, uma etiqueta de afinidade, um ligante, uma enzima, peptídeo, ou uma biomolécula.

29. Biblioteca de ácidos nucleicos, de acordo com a reivindicação 28, caracterizado por o corante para DNA compreender corante Hoechst, SYBR Gold, Laranja Sytox, Picogreen ou Qubit.

30. Biblioteca de ácidos nucleicos, de acordo com qualquer uma das reivindicações 22 a 29, caracterizada por a biblioteca de ácidos nucleicos ser gerada a partir de uma população de células, uma única célula, uma população de núcleos celulares ou um único núcleo celular.