BR112021000409A2 - Métodos e reagentes para caracterizar edição genômica, expansão clonal e aplicações associadas - Google Patents

Métodos e reagentes para caracterizar edição genômica, expansão clonal e aplicações associadas Download PDF

Info

Publication number
BR112021000409A2
BR112021000409A2 BR112021000409-2A BR112021000409A BR112021000409A2 BR 112021000409 A2 BR112021000409 A2 BR 112021000409A2 BR 112021000409 A BR112021000409 A BR 112021000409A BR 112021000409 A2 BR112021000409 A2 BR 112021000409A2
Authority
BR
Brazil
Prior art keywords
sequence
genomic
dna
cells
cell population
Prior art date
Application number
BR112021000409-2A
Other languages
English (en)
Inventor
Jesse J. SALK
Charles Clinton Valentine Iii
Original Assignee
Twinstrand Biosciences, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Twinstrand Biosciences, Inc. filed Critical Twinstrand Biosciences, Inc.
Publication of BR112021000409A2 publication Critical patent/BR112021000409A2/pt

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/109Characterised by chemical treatment chemical ligation between nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Abstract

métodos e reagentes para caracterizar edição genômica, expansão clonal e aplicações associadas.métodos para caracterizar edição de genoma, expansão clonal e reagentes associados para uso em tais métodos são divulgados neste documento. algumas modalidades da tecnologia são dirigidas para caracterizar uma população de células em seguida a um evento de edição genômica modificado geneticamente que inclui, em algumas modalidades, a caracterização de alterações genômicas que ocorrem em loci genômicos pretendidos e não pretendidos dentro do genoma das populações de células. outras modalidades são dirigidas à utilização de sequenciamento duplex para avaliar uma seleção clonal em populações de células mistas e/ou populações de células após um evento de edição genômica. exemplos adicionais da presente tecnologia são dirigidas a métodos para detectar e avaliar expansão clonal de células em seguida a um evento de edição genômica.

Description

MÉTODOS E REAGENTES PARA CARACTERIZAR EDIÇÃO GENÔMICA, EXPANSÃO CLONAL E APLICAÇÕES ASSOCIADAS
REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS Este pedido reivindica a prioridade e o benefício do Pedido de Patente Provisório US 62/697.397, depositado em 12 de julho de 2018, cuja divulgação está incorporada neste documento por referência em sua totalidade.
FUNDAMENTOS Existe uma necessidade de avaliar o potencial para expansão clonal e seleção clonal neoplásica em estágio inicial, por exemplo, de células portadoras de mutações condutoras de câncer, em populações de células mistas para uma variedade de aplicações. No entanto, os ensaios usados atualmente não fornecem a sensibilidade para detectar essa seleção em estágio inicial. Além disso, há uma necessidade no campo da edição do genoma direcionado para ferramentas para avaliar a aplicação bem-sucedida da edição do genoma sem outras alterações de ácido nucleico não direcionadas.
SUMÁRIO A presente tecnologia se refere geralmente a métodos para detectar e avaliar a seleção e/ou expansão clonal e reagentes associados para uso em tais métodos. Em particular, algumas modalidades da tecnologia são direcionadas à utilização de Sequenciamento Duplex para avaliar a seleção clonal em populações de células mistas e/ou populações de células após um evento (por exemplo, edição do genoma, mutagênese, etc.).
Em uma modalidade, a presente tecnologia compreende um método de caracterizar uma população de células após um evento de edição genômica modificado geneticamente direcionado a um locus genômico pretendido, o método compreendendo: (a) fornecer uma amostra compreendendo moléculas de DNA de fita dupla originárias da população de células após o evento de edição genômica modificada geneticamente; (b) gerar uma leitura de sequência corrigida de erro lida para cada uma de uma pluralidade das moléculas de DNA de fita dupla, compreendendo: ligar moléculas adaptadoras à pluralidade das moléculas de DNA de fita dupla para gerar uma pluralidade de moléculas adaptadoras de DNA; gerar um conjunto de cópias de uma primeira fita original da molécula adaptadora de DNA e um conjunto de cópias de uma segunda fita original da molécula adaptadora de DNA; sequenciar uma ou mais cópias da primeira e segunda fitas originais para fornecer uma primeira sequência fita e uma segunda sequência de fita; comparar a primeira sequência da fita e a segunda sequência da fita para identificar uma ou mais correspondências entre a primeira e segunda sequências fita; e (c) comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência no locus genômico pretendido com uma sequência de DNA editada do genoma antecipada; ou (d) comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência em um locus genômico não pretendido com uma sequência de DNA do genoma de referência.
Em outra modalidade, a presente tecnologia compreende um método para caracterizar uma eficiência de um evento de edição genômica modificada geneticamente em uma população de células, em que o evento de edição genômica modificada geneticamente é direcionado a um locus genômico pretendido, o método compreendendo: (a) preparar um sequenciamento biblioteca de uma amostra compreendendo uma pluralidade de moléculas de DNA de fita dupla originadas da população de células após o evento de edição genômica, em que a preparação da biblioteca de sequências compreende ligar moléculas adaptadoras assimétricas à pluralidade de moléculas de DNA de fita dupla para gerar uma pluralidade de moléculas adaptadoras de DNA; (b) sequenciar a primeira e a segunda fitas das moléculas adaptadoras de DNA para fornecer uma leitura de sequência da primeira fita e uma leitura da segunda sequência de fita para pelo menos uma porção das moléculas adaptadoras de DNA; (c) para cada molécula adaptadora de DNA sequenciada, comparar a leitura da primeira sequência da fita e a leitura da segunda sequência da fita para identificar uma ou mais correspondências entre as leituras das primeira e segunda sequências de fita; e (d) determinar uma frequência de uma sequência genômica antecipada no locus genômico pretendido entre a pluralidade de moléculas de DNA de fita dupla que compreende o locus genômico pretendido por meio de: análise de uma ou mais correspondências entre as leituras da primeira e segunda sequências de fita; e comparar as correspondências com a sequência genômica antecipada.
Em outra modalidade, a presente tecnologia compreende um método para gerar leituras de sequenciamento de alta precisão de uma população de moléculas de ácido nucleico de fita dupla alvo extraídas de uma população de células editadas do genoma, o método compreendendo: (a) sequenciamento duplex de uma ou mais alvo moléculas de ácido nucleico de fita dupla alvo extraídas da população de células; e (b) gerar sequências de consenso de alta precisão para as moléculas de DNA de fita dupla direcionadas, em que as moléculas de ácido nucleico de fita dupla alvo compreendem uma região de DNA editada do genoma pretendido e uma ou mais regiões genômicas não pretendidas de DNA.
Em outra modalidade, a presente tecnologia compreende um método para determinar se o DNA foi editado com sucesso no genoma em um locus genético pretendido usando um evento de edição genômica direcionado por modificação genética, o método compreendendo: (a) fornecer leituras de sequenciamento corrigido de erro duplex para uma pluralidade de moléculas de DNA de fita dupla extraídas de uma amostra após o evento de edição genômica direcionada por modificação genética; e (b) para cada locus genético em um conjunto de um ou mais loci genéticos em um genoma de referência, quantificar as moléculas de DNA de fita dupla para as quais as leituras de sequenciamento corrigido de erro duplex têm sequências substancialmente iguais a uma sequência esperada.
Em outra modalidade, a presente tecnologia compreende um método de avaliação do potencial neoplásico de uma população de células após um evento de edição genômica modificada geneticamente, compreendendo: (a) preparar uma biblioteca de sequenciamento a partir de uma amostra compreendendo moléculas de DNA de fita dupla originárias da população de células após o evento de edição genômica modificada geneticamente, em que a preparação da biblioteca de sequências compreende marcar uma pluralidade de moléculas de DNA de fita dupla para gerar uma pluralidade de moléculas de DNA marcadas com primeira e segunda fitas marcadas; (b) enriquecer seletivamente a primeira e segunda fitas marcadas para um subconjunto de moléculas de DNA marcadas que mapeiam para um ou mais fatores genéticos de câncer para fornecer moléculas de DNA marcadas enriquecidas; (c) gerar uma sequência corrigida de erro lida para cada uma de uma pluralidade de moléculas de DNA marcadas enriquecidas, em que a geração das leituras de sequência corrigida de erro compreende: sequenciar uma ou mais primeira e segunda fitas marcadas derivadas das moléculas de DNA marcadas enriquecidas para fornecer uma primeira sequência de fita e uma segunda sequência de fita; comparar a primeira sequência de fita e a segunda sequência de fita para identificar uma ou mais correspondências entre as sequências da primeira e segunda fita; e (d) determinar se há uma variante presente em um ou mais fatores genéticos de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas, comparando uma ou mais correspondências com uma sequência de genoma de referência.
Em outra modalidade, a presente tecnologia compreende um método para detectar e/ou quantificar a expansão clonal de uma célula em uma população de células após um evento de edição genômica modificada geneticamente, compreendendo: (a) sequenciamento duplex de uma ou mais moléculas de DNA de fita dupla alvo originadas de uma população de células após o evento de edição genômica modificada geneticamente; (b) identificar uma ou mais variantes entre as moléculas de DNA de fita dupla alvo; (c) determinar uma frequência variante de uma ou mais variantes entre as moléculas de DNA de fita dupla alvo originárias da população de células; e (d) comparar a frequência variante para cada uma das uma ou mais variantes com uma frequência variante esperada.
Outras modalidades, aspectos e vantagens da presente tecnologia estão descritas mais adiante na descrição detalhada a seguir.
BREVE DESCRIÇÃO DOS DESENHOS Muitos aspectos da presente divulgação podem ser mais bem compreendidos com referência às seguintes figuras, que juntas constituem os Desenhos. Essas figuras são meramente ilustrativas e não limitativas. Os componentes nas figuras não estão necessariamente em escala. Em vez disso, é enfatizada a ilustração clara dos princípios da presente divulgação.
A FIG. 1A fornece uma molécula adaptadora de ácido nucleico exemplificativa para uso com algumas modalidades da presente tecnologia e um complexo adaptador-ácido nucleico de fita dupla exemplificativo resultante da ligação da molécula adaptadora a um fragmento de ácido nucleico de fita dupla de acordo com algumas modalidade da presente tecnologia.
As FIGS. 1B e 1C são ilustrações conceituais de várias etapas do método de
Sequenciamento Duplex de acordo com algumas modalidades da presente tecnologia.
A FIG. 2 é um diagrama esquemático de um sistema de computador em rede para uso com métodos e/ou kits divulgados neste documento que são úteis para identificar e/ou quantificar alterações genômicas (por exemplo, alterações genômicas direcionadas, variantes, mutações, etc.) e identificar seleção clonal e/ou expansão clonal após um evento de edição de genoma (por exemplo, um evento de edição de genoma modificado geneticamente) de acordo com algumas modalidades da presente tecnologia.
A FIG. 3 é um diagrama de fluxo que ilustra uma rotina exemplificativa para produzir dados de sequência de consenso de Sequenciamento Duplex de acordo com algumas modalidades da presente tecnologia.
A FIG. 4 é um diagrama de fluxo que ilustra uma rotina para detectar e identificar sequências editadas em loci genômicos pretendidos, resultantes de um evento de edição genômica em uma população de células de acordo com algumas modalidades da presente tecnologia.
A FIG. 5 é um diagrama de fluxo que ilustra uma rotina para detectar e identificar sequências editadas em loci genômicos não pretendidos resultantes de um evento de edição genômica em uma população de células de acordo com algumas modalidades da presente tecnologia.
A FIG. 6 é um diagrama de fluxo que ilustra uma rotina para detectar e identificar a expansão clonal de uma célula dentro de uma população de células após um evento de edição genômica de acordo com algumas modalidades da presente tecnologia.
A FIG. 7 é um gráfico que ilustra a seleção clonal neoplástica em estágio inicial de frações de alelos variantes (VAF), conforme detectado por sequenciamento duplex de acordo com algumas modalidades da presente tecnologia.
A FIG. 8A é um gráfico que ilustra variantes de nucleotídeo único que se alinham com o éxon 3 de um transgene HRAS humano em uma cepa de camundongo geneticamente predisposta ao câncer e de acordo com certas modalidades da presente tecnologia.
A FIG. 8B é um gráfico que ilustra variantes de nucleotídeo único (SNV) representadas em intervalos genômicos para éxons capturados de certos genes da família Ras, incluindo um loci transgênico HRAS humano, no modelo de camundongo Tg.RasH2.
DESCRIÇÃO DETALHADA A presente tecnologia se refere, pelo menos em parte, a métodos para detectar, avaliar e/ou quantificar variantes (isto é, variantes genéticas) entre populações de células que foram submetidas a um evento de edição genômica. Por exemplo, em algumas modalidades, a presente divulgação fornece métodos para detectar e/ou quantificar variações raras e/ou não pretendidas durante um evento de edição genômica (por exemplo, em um locus pretendido para edição genômica ou em um locus não pretendido fora do alvo) e reagentes associados para uso em tais métodos. Em algumas modalidades, a presente divulgação fornece métodos para detectar e/ou quantificar a expansão clonal e reagentes associados para uso em tais métodos.
A presente divulgação abrange o reconhecimento de que técnicas de sequenciamento de alta fidelidade, como Sequenciamento Duplex, podem ser usadas para detectar e/ou quantificar variantes genéticas de baixa frequência. Em algumas modalidades, a presente divulgação descreve o uso de Sequenciamento Duplex para avaliar uma seleção clonal em populações de células mistas (seja in vitro ou in vivo) e/ou populações de células após um evento de edição genômica (por exemplo, um evento de edição de genoma modificado geneticamente ou um evento de edição genômica natural). Por exemplo, várias modalidades da presente tecnologia incluem a realização de métodos de Sequenciamento Duplex para identificar uma ou mais variantes genéticas entre as moléculas de ácido nucleico de fita dupla alvo e determinar uma frequência de variante de uma ou mais variantes. Outros exemplos da presente tecnologia se referem a métodos para detectar e avaliar a expansão clonal de células após um evento. Por exemplo, algumas modalidades incluem a realização de métodos de Sequenciamento Duplex para avaliar a expansão clonal de células que abrigam mutações em genes que são fatores genéticos do câncer e/ou que estão sob pressão seletiva. Outras modalidades incluem a realização de métodos de Sequenciamento Duplex para avaliar a expansão clonal de células com base no uso de marcadores genéticos de linhagem celular que não estão sob pressão seletiva. Em ainda outras modalidades, a presente tecnologia fornece métodos de geração de leituras de sequenciamento de alta precisão de uma população de moléculas de ácido nucleico de fita dupla extraídas de uma população de células editadas no genoma. Em vários arranjos, os métodos incluem etapas para determinar o sucesso do evento de edição do genoma e/ou consequências adversas indesejáveis do mesmo. Vários aspectos da presente tecnologia têm muitas aplicações em terapias tanto pré-clínicas quanto clínicas, além de outras implicações na indústria.
Os detalhes específicos de várias modalidades da tecnologia estão descritos a seguir com referência ao Desenho (por exemplo, FIGS. 1A-8B). Embora muitas das modalidades estejam descritas neste documento em relação ao Sequenciamento Duplex, outras modalidades de sequenciamento capazes de gerar leituras de sequenciamento corrigidas de erros, além das descritas neste documento, estão dentro do escopo da presente tecnologia. Além disso, outras modalidades da presente tecnologia podem ter configurações, componentes ou procedimentos diferentes dos descritos neste documento. Portanto, um versado na técnica entenderá que a tecnologia pode ter outras modalidades com elementos adicionais e que a tecnologia pode ter outras modalidades sem várias das características mostradas e descritas a seguir com referência às FIGS. 1A-8B.
Certas Definições Para que a presente divulgação seja mais facilmente compreendida, certos termos são definidos primeiro a seguir. Definições adicionais para os seguintes termos e outros termos são estabelecidas em todo o relatório descritivo.
Neste pedido, a menos que seja claro do contexto, o termo "um" pode ser entendido como "pelo menos um". Conforme usado neste pedido, o termo "ou" pode ser entendido como "e/ou". Neste pedido, os termos "compreendendo" e "incluindo" podem ser entendidos como abrangendo componentes ou etapas discriminadas, sejam elas apresentadas por elas mesmas ou em conjunto com um ou mais componentes ou etapas adicionais. Onde as faixas são fornecidas aqui, os pontos de extremidade estão incluídos. Conforme usado neste pedido, o termo "compreender" e variações do termo, como "compreendendo" e "compreende", não se destinam a excluir outros aditivos, componentes, números inteiros ou etapas.
Cerca de: O termo "cerca de", quando usado neste documento em referência a um valor, refere-se a um valor semelhante, no contexto do valor referenciado. Em geral, os versados na técnica e familiarizados com o contexto, compreenderão grau de variação relevante englobado por "cerca de" nesse contexto. Por exemplo, em algumas modalidades, o termo "cerca de" pode abranger uma faixa de valores dentro de 25%, 20%, 19%, 18%, 17%, 16%, 15%, 14%, 13%, 12%, 11%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1% ou menos do valor referido. Para variações de valores inteiros de um dígito em que um único valor numérico na direção positiva ou negativa excederia 25% do valor, "cerca de" é geralmente aceito pelos versados na técnica para incluir, pelo menos 1, 2, 3 , 4 ou 5 valores inteiros na direção positiva ou negativa, que podem ou não cruzar zero, dependendo das circunstâncias. Um exemplo não limitante disso é a suposição de que 3 centavos podem ser considerados cerca de 5 centavos em algumas situações que seriam evidentes para um versado na técnica.
Alelo: Conforme usado neste documento, o termo "alelo" se refere a uma de duas ou mais variantes genéticas existentes de um locus genômico específico.
Análogo: Conforme usado neste documento, o termo "análogo" refere-se a uma substância que compartilha uma ou mais características, elementos, componentes estruturais ou frações estruturais particulares com uma substância de referência. Normalmente, um “análogo” mostra uma semelhança estrutural significativa com a substância de referência (por exemplo, compartilhando uma estrutura principal ou de consenso), mas também difere de certas maneiras distintas. Em algumas modalidades, um análogo é uma substância que pode ser gerada a partir da substância de referência, por exemplo, por manipulação química da substância de referência. Em algumas modalidades, um análogo é uma substância que pode ser gerada através da realização de um processo sintético substancialmente semelhante a (por exemplo, compartilhar uma pluralidade de etapas com) um que gera a substância de referência. Em algumas modalidades, um análogo é ou pode ser gerado através do desempenho de um processo sintético diferente do usado para gerar a substância de referência.
Animal: Conforme usado neste documento, refere-se a qualquer membro do reino animal. Em algumas modalidades, "animal"; refere-se a humanos, de qualquer sexo e em qualquer estágio de desenvolvimento. Em algumas modalidades, "animal" se refere a animais não humanos, em qualquer estágio de desenvolvimento. Em certas modalidades, o animal não humano é um mamífero (por exemplo, um roedor, um camundongo, um rato, um coelho, um macaco, um cachorro, um gato, uma ovelha, gado, um primata e/ou um porco, etc.). Em algumas modalidades, os animais incluem, mas não estão limitados a, mamíferos, pássaros, répteis, anfíbios, peixes, insetos e/ou vermes. Em algumas modalidades, um animal pode ser um animal transgênico, animal geneticamente modificado e/ou um clone.
Amostra biológica: Como usado neste documento, o termo "amostra biológica" ou "amostra" geralmente se refere a uma amostra obtida ou derivada de uma fonte biológica (por exemplo, um tecido ou organismo ou células ou cultura de células) de interesse, conforme descrito neste documento. Conforme usado neste documento, uma "amostra biológica" é passível de um evento de edição genômica. Assim, as amostras biológicas da presente divulgação incluem material genômico. Em algumas modalidades, uma fonte biológica de interesse compreende um organismo, como um animal (por exemplo, um mamífero, por exemplo, um humano). Em algumas modalidades, uma fonte de interesse é um organismo à base de planta (por exemplo, uma planta, parte da planta, semente, etc.). Em outras modalidades, uma fonte de interesse compreende um micro-organismo, como uma bactéria, vírus, protozoário ou fungo. Em outras modalidades, uma fonte de interesse pode ser um tecido sintético, organismo, cultura de células, ácido nucleico ou outro material. Em outras modalidades, uma amostra pode ser uma amostra de múltiplos organismos (por exemplo, uma amostra de organismo misto). Em algumas modalidades, uma amostra biológica é ou compreende tecido ou fluido biológico. Em algumas modalidades, uma amostra biológica pode ser ou compreender medula óssea; sangue; células sanguíneas; ascites; amostras de tecido, amostras de biópsia ou amostras de aspiração por agulha fina; fluidos corporais contendo células; ácidos nucleicos flutuantes livres, ácidos nucleicos ligados a proteínas, ácidos nucleicos ligados a riboproteínas, escarro, plasma, soro, saliva, urina, líquido cefalorraquidiano, líquido peritoneal; líquido pleural; fezes; linfa; fluidos ginecológicos; cotonetes de pele; esfregaços vaginais; exame de Papanicolaou, esfregaços orais; esfregaços nasais; lavagens, tais como lavagens dutais ou lavagens broncoalveolares; fluido vaginal, aspirados; raspados; amostras de medula óssea; amostras de biópsia de tecido; tecido ou fluidos fetais; amostras cirúrgicas; fezes, outros fluidos corporais, secreções e/ou excreções; e/ou células das mesmas, etc. Em algumas modalidades, uma amostra biológica é ou compreende células obtidas de um indivíduo. Em algumas modalidades, as células obtidas são ou incluem células de um indivíduo do qual a amostra é obtida. Em algumas modalidades, uma amostra biológica pode compreender derivados de células, como organelas ou vesículas ou exossomos. Em uma modalidade particular, uma amostra biológica é uma biópsia líquida obtida de um sujeito. Em algumas modalidades, uma amostra é uma "amostra primária" obtida diretamente de uma fonte de interesse por qualquer meio apropriado. Por exemplo, em algumas modalidades, uma amostra biológica primária é obtida por métodos selecionados do grupo que consiste em biópsia (por exemplo, aspiração por agulha fina ou biópsia de tecido), cirurgia, coleta de fluido corporal (por exemplo, sangue, linfa, fezes etc.), etc. Em algumas modalidades, conforme ficará evidente no contexto, o termo "amostra" refere-se a uma preparação que é obtida pelo processamento (por exemplo, removendo um ou mais componentes de e/ou adicionando um ou mais agentes a) uma amostra primária. Por exemplo, filtrção usando uma membrana semipermeável. Tal "amostra processada" pode compreender, por exemplo, ácidos nucleicos ou moléculas de DNA extraídas de uma amostra ou obtidas submetendo uma amostra primária a técnicas como amplificação ou transcrição reversa de mRNA, isolamento e/ou purificação de certos componentes, etc.
Câncer: Os termos "câncer", "malignidade", "neoplasia", "tumor" e "carcinoma" são usados neste documento para se referir a células que apresentam crescimento relativamente anormal, descontrolado e/ou autônomo, de modo que exibam um fenótipo de crescimento aberrante caracterizado por uma perda significativa de controle da proliferação celular. O câncer é conhecido pelos experientes na técnica como sendo geralmente caracterizado pelo crescimento desregulado de células anormais, que podem metastatizar. Os cânceres incluem, a título de exemplos não limitativos, câncer de próstata (por exemplo, adenocarcinoma, células pequenas), câncer de ovário (por exemplo, adenocarcinoma de ovário, carcinoma seroso ou carcinoma embrionário, tumor de saco vitelino, teratoma), câncer de fígado (por exemplo, HCC ou hepatoma), angiossarcoma), tumores de células plasmáticas (por exemplo, mieloma múltiplo, leucemia plasmocítica, plasmocitoma, amiloidose, macroglobulinemia de Waldenstrom), câncer colorretal (por exemplo, adenocarcinoma do cólon, adenocarcinoma mucinoso do cólon, carcinoide, linfoma e adenocarcinoma de carcinoma retal (retal), por exemplo, leucemia mieloide aguda, leucemia linfocítica aguda, leucemia mieloide crônica, leucemia linfocítica crônica, leucemia mieloblástica aguda, leucemia promielocítica aguda, leucemia mielomonocítica aguda,
leucemia monocítica aguda, eritroleucemia aguda e leucemia crônica sistêmica, leucemia de células T, mastocitose, leucemia de células pilosas, crise blástica de leucemia mieloide crônica), síndrome mielodisplásica, linfoma (por exemplo, linfoma de células B grandes difusas, linfoma de células T cutâneo, linfoma de células T periférico, linfoma de Hodgkin, linfoma não-Hodgkin, linfoma folicular, linfoma de células do manto, linfoma MALT, linfoma de células marginais, transformação de Richter, linfoma de duplo golpe, transplante associado linfoma, linfoma do CNS, linfoma extranodal, linfoma associado ao HIV, linfoma endêmico, linfoma de Burkitt, neoplasias linfoproliferativas associadas ao transplante e linfoma linfocítico etc.), câncer cervical (por exemplo, carcinoma cervical escamoso, carcinoma de células claras, carcinoma associado ao HPV, sarcoma cervical etc.), câncer de esôfago (por exemplo, carcinoma de células escamosas de esôfago, adenocarcinoma, certos graus de esôfago de Barretts, adenocarcinoma esofágico), melanoma (por exemplo, melanoma dérmico, melanoma uveal, melanoma acral, melanoma amelanótico, etc.), tumores do CNS (por exemplo) , oligodendroglioma, astrocitoma, glioblastoma multiforme, meningioma, schwannoma, craniofaringioma etc.), câncer pancreático (por exemplo, adenocarcinoma, carcinoma adenoescamoso, carcinoma de células em anel de sinete, carcinoma hepatoide, carcinoma coloide, carcinoma de células de ilhotas, carcinoma neuroendócrino pancreático, etc.), tumor estromal gastrointestinal, sarcoma (por exemplo, fibrossarcoma, mixossarcoma, lipossarcoma, condrossarcoma, sarcoma-endócrino, sarcoma endossarcoma, endiosarcoma, endiosarcoma, endiosarcoma, endiosarcoma, endiosarcoma, endiosarcoma, endiosarcoma condriosarcoma, endiosarcoma, sarcoangioma, condriosarcoma, sarcoangioma, condrosarcoma endócrino, sarcoma de linfangioendotelioma, leiomiossarcoma, sarcoma de Ewing e rabdomiossarcoma, tumor de células fusiformes, etc.), câncer de mama (por exemplo, carcinoma inflamatório, carcinoma lobar, carcinoma ductal etc.), câncer ER-positivo, câncer HER-2 positivo, câncer de bexiga (câncer de bexiga escamosa, câncer de bexiga de células pequenas, câncer urotelial, etc.), câncer de cabeça e pescoço (por exemplo, carcinoma de células escamosas da cabeça e pescoço, carcinoma de células escamosas associado ao HPV, carcinoma nasofaríngeo etc.), câncer de pulmão (por exemplo, carcinoma de células não-pequenas do pulmão, carcinoma de células grandes, carcinoma broncogênico, câncer de células escamosas, câncer de células pequenas do pulmão, etc.), câncer metastático, câncer de cavidade oral, útero câncer uterino (leiomiossarcoma, leiomioma etc.), câncer testicular (por exemplo, seminoma, não seminoma e carcinoma embrionário, tumor de saco de gema, etc.), câncer de pele (por exemplo, carcinoma de células escamosas e carcinoma basocelular, carcinoma de células de Merkel, melanoma , linfoma cutâneo de células t etc.), câncer de tireoide (por exemplo, carcinoma papilar, carcinoma medular, câncer de tireoide anaplásico, etc.), câncer de estômago, câncer intraepitelial, câncer ósseo, câncer do trato biliar, câncer de olho, câncer de laringe, rim câncer (por exemplo, carcinoma de células renais, tumor de Wilms etc.), câncer gástrico, blastoma (por exemplo, nefroblastoma, meduloblastoma, hemangioblastoma, neuroblastoma, retinoblastoma etc.), neoplasias mieloproliferativas (policitemia vera, trombocitose essencial, mielofibordois, etc.), , sinovioma, mesotelioma, adenocarcinoma, carcinoma das glândulas sudoríparas, carcinoma das glândulas sebáceas, cistadenocarcinoma, carcinoma do ducto biliar, coriocarcinoma, carcinoma epitelial, ependimoma, pinealoma, neuroma acústico, schwannoma, meningioma , adenoma hipofisário, tumor da bainha nervosa, câncer do intestino delgado, feocromocitoma, câncer de pulmão de células pequenas, mesotelioma peritoneal, adenoma hiperparatireoide, câncer adrenal, câncer de origem desconhecida, câncer do sistema endócrino, câncer do pênis, câncer da uretra , melanoma cutâneo ou intraocular, um tumor ginecológico, tumores sólidos da infância ou neoplasias do sistema nervoso central, tumor de células germinativas mediastinais primárias, hematopoiese clonal de potencial indeterminado, mieloma latente, gamaglobulinopatia monoclonal de linfocitose monoclonal de células B de significância desconhecida, cânceres de baixo grau, defeitos de campo clonais, neoplasias pré-neoplásicas, câncer ureteral, cânceres autoimunes associados (ou seja, colite ulcerativa, colangite esclerosante primária, doença celíaca), cânceres associados a uma predisposição hereditária (ou seja, aqueles portadores de defeitos genéticos como BRCA1, BRCA2, TP53, PTEN, ATM, etc.) e os que ocorrem quando expostos a produtos químicos no útero (ou seja, câncer de células claras na prole feminina de mulheres expostas ao dietilestilbestrol [DES]), entre muitos outros. Em algumas modalidades, as variantes detectadas, analisadas e/ou quantificadas no contexto da presente divulgação estão associadas ao câncer (por exemplo, variantes neoplásicas).
Condutor de câncer ou Gene do condutor de câncer: Como utilizado neste documento, "condutor de câncer" ou "gene do ator genético de câncer" refere-se a uma lesão genética que tem o potencial de permitir que uma célula, no contexto certo, sofra ou comece a sofrer transformação maligna. Esses genes incluem supressores de tumores (por exemplo, TP53, BRCA1) que normalmente suprimem a transformação de malignidade e, quando mutados de certas maneiras, não o fazem mais. Outros genes acionadores podem ser oncogenes (por exemplo, KRAS, EGFR) que, quando mutados de certas maneiras, tornam-se constitutivamente ativos ou ganham novas propriedades que facilitam a célula a se tornar maligna. Outras mutações encontradas em regiões não codificantes do genoma podem ser acionadoras de câncer. Por exemplo, uma mutação da região promotora do gene da telomerase (TERT) pode resultar na superexpressão do gene e, assim, tornar-se um condutor de câncer. Outras mutações em regiões não codificantes podem facilitar o splicing aberrante ou modular a ligação do fator de transcrição ou outras alterações regulatórias que podem, em certos casos, levar ao crescimento neoplásico. Certos rearranjos (por exemplo, fusão BCR-ABL) podem justapor uma região genética à de outra para acionar a tumorigênese através de mecanismos relacionados à superexpressão, perda de repressão ou genes de fusão quiméricos. Em termos gerais, mutações genéticas (ou epimutações) que conferem um fenótipo a uma célula que facilita sua proliferação, sobrevida ou vantagem competitiva sobre outras células ou que tornam sua capacidade de evoluir mais robusta, podem ser consideradas uma mutação condutora. Isso deve ser contrastado com mutações que não têm tais características, mesmo que possam estar no mesmo gene (isto é, uma mutação sinônima). Quando essas mutações são identificadas nos tumores, elas são comumente referidas como mutações passageiras, porque “pegam carona” junto com a expansão clonal sem contribuir significativamente para a expansão. Conforme compreendido por um versado na técnica, a distinção entre condutor e passageiro não é absoluta e não deve ser interpretada como tal. Algumas condutoras funcionam apenas em determinadas situações (por exemplo, certos tecidos) e outras podem não funcionar na ausência de outras mutações ou epimutações ou outros fatores.
Expansão clonal: Conforme usado neste documento, "expansão clonal" refere-se ao crescimento clonal de uma população de células derivadas de uma célula fundadora comum. A população derivada de células (isto é, células-filhas) pode ser referida simplesmente como um clone. As expansões clonais podem ocorrer por meios artificiais (ou seja, uma única célula isolada em cultura pode crescer e se dividir iterativamente em uma população de células). Como resultado de processos biológicos saudáveis normais (ou seja, um ovo fertilizado é a célula fundadora de um ser humano, todos cujas células compreendem um clone). As expansões clonais também podem ocorrer como resultado de processos patogênicos, como quando uma célula do corpo ganha a capacidade de crescer e se dividir progressivamente, quando não deveria, e forma um tumor que compreende suas células-filhas. Os clones, por sua própria natureza, contêm subclones, isto é, populações menores de células que são clonalmente derivadas de uma célula filha do fundador clonal original. Esses subclones são, eles próprios, simplesmente clones quando vistos em referência à sua célula fundadora específica, mas são referidos como subclones quando vistos em relação a uma célula fundadora ainda anterior.
O termo "clone" ou "expansão clonal" não indica, por si só, necessariamente qual dos itens anteriores ou outros processos podem ter levado ao crescimento clonal. Uma expansão clonal pode ocorrer dentro de uma população de células relacionadas (ou seja, uma célula em um ser humano que forma um tumor em tecido saudável) ou células não relacionadas (ou seja, uma população de células em cultura que foi estabelecida a partir de células de muitas pessoas diferentes). Em geral, para reconhecer uma célula que está passando por expansão clonal dentro de uma população de células maior, geralmente é necessário haver pelo menos um marcador de linhagem exclusivo de alguma forma para diferenciar essa célula e suas células filhas de outras células na população. Esse marcador de linhagem pode ser uma variante genética que é substancialmente específica para a célula fundadora e é propagada para as células-filhas. Essa variante genética pode ser uma mutação no genoma nuclear, o genoma mitocondrial, epimutações, outras alterações hereditárias ou alterações em outras moléculas na célula (ou seja, proteínas) que resultam do exposto anteriormente e podem ser detectadas. O marcador de linhagem específica de uma expansão clonal/clone pode ser responsável ou contribuir para a expansão (ou seja, um "condutor") ou pode simplesmente marcar o clone e não servir a nenhuma função específica (ou seja, um "passageiro" ou "carona".
A expansão clonal de uma célula em uma população de células heterogêneas pode surgir por uma variedade de razões, incluindo expansão clonal estocástica, aumento da taxa de crescimento, redução da senescência, redução da inibição de contato. Nestes últimos casos, as expansões clonais ocorrem como resultado de um viés de crescimento positivo (por exemplo, uma vantagem relativa de crescimento) em comparação com outras células em uma população de células. Esta reprodução aumentada ou preferencial de uma única célula produz um maior número de células filhas / derivadas do que outras células em uma população de células heterogêneas, de modo que células filhas ou derivadas dessa célula se expandam desproporcionalmente na população de células para formar um clone. Por exemplo, em algumas modalidades, uma célula que sofre expansão clonal é neoplásica. Em algumas modalidades, uma célula que sofre expansão clonal é mais saudável do que outras células em uma população de células heterogêneas (por exemplo, outras células na população têm um viés de crescimento negativo).
Seleção clonal: Como usado neste documento, "seleção clonal" refere-se a uma seleção ou viés positivo para uma determinada célula em uma população. Geralmente, a seleção clonal é um evento e/ou sinal que resulta em uma reprodução aumentada ou preferencial de uma única célula para produzir um maior número de células filhas / derivadas do que outras células em uma população de células heterogêneas, de modo que células filhas ou derivadas das células estejam desproporcionalmente expandindo ou sobrevivendo na população de células.
Determinar: Muitas metodologias descritas neste documento incluem uma etapa de "determinação". Os versados na técnica, lendo o presente relatório descritivo, compreenderão que essa "determinação" pode utilizar ou ser realizada através do uso de qualquer uma das várias técnicas disponíveis para os versados na técnica, incluindo, por exemplo, técnicas específicas explicitamente referidas neste documento. Em algumas modalidades, a determinação envolve a manipulação de uma amostra física. Em algumas modalidades, a determinação envolve consideração e/ou manipulação de dados ou informações (por exemplo, utilizando um computador ou outra unidade de processamento adaptada para executar uma análise relevante). Em algumas modalidades, a determinação envolve o recebimento de informações e/ou materiais relevantes de uma fonte. Em algumas modalidades, a determinação envolve comparar uma ou mais características de uma amostra ou entidade com uma referência comparável.
Sequenciamento Duplex (DS): Conforme usado neste documento, "Sequenciamento Duplex (DS)" é, em seu sentido mais amplo, refere-se a um método de correção de erros que atinge precisão excepcional comparando a sequência de ambas as fitas de moléculas de DNA individuais.
Modificado geneticamente: Os versados na técnica, lendo a presente divulgação, compreenderão que o termo "modificado geneticamente", conforme usado neste documento, se refere a um aspecto de ter sido manipulado e alterado pela mão do homem. Em particular, o termo "célula modificada geneticamente" refere-se a uma célula que foi submetida a uma manipulação, de modo que sua identidade genética, epigenética e/ou fenotípica seja alterada em relação a uma célula de referência apropriada, tal como uma célula idêntica que não foi tão manipulado. Em algumas modalidades, a manipulação é ou compreende uma manipulação genética, como edição de gene, edição de base e terapia de gene. Em algumas modalidades, uma célula modificada geneticamente é a que foi manipulada de modo que contenha e/ou expresse um agente particular de interesse (por exemplo, uma proteína, um ácido nucleico e/ou uma forma particular do mesmo) em uma quantidade alterada e/ou de acordo com o tempo alterado em relação a tal célula de referência apropriada.
Expressão: Como usado neste documento, "expressão" de uma sequência de ácido nucleico refere-se a um ou mais dos seguintes eventos: (1) produção de um modelo de RNA a partir de uma sequência de DNA (por exemplo, por transcrição); (2) processamento de um transcrito de RNA (por exemplo, junção, edição, formação de capa 5' e/ou formação de extremidade 3'); (3) tradução de um RNA em um polipeptídeo ou proteína; e/ou (4) modificação pós-traducional de um polipeptídeo ou proteína.
Gene: Conforme usado neste documento, o termo "gene" refere-se a uma sequência de DNA em um cromossomo que codifica um produto (por exemplo, um produto de RNA e/ou um produto polipeptídico). Em algumas modalidades, um gene inclui a sequência de codificação (ou seja, a sequência que codifica um produto específico); em algumas modalidades, um gene inclui sequência não codificante. Em algumas modalidades particulares, um gene pode incluir sequências codificantes (por exemplo, exônicas) e não codificantes (por exemplo, intrônicas). Em algumas modalidades, um gene pode incluir um ou mais elementos reguladores que, por exemplo, podem controlar ou impactar um ou mais aspectos da expressão do gene (por exemplo, expressão específica do tipo de célula, expressão induzível, etc.).
Edição de genoma: Conforme usado neste documento, "edição de genoma", "edição genômica" ou "modificação genética de genoma" refere-se a processos para alterar ou modificar alterações de ácido nucleico (por exemplo, DNA genômico, DNA mitocondrial ou outro DNA) em um organismo vivo (por exemplo, uma célula ou várias células). A edição do genoma pode incluir o fornecimento de sistemas para inserir, excluir, modificar, substituir, corrigir, interromper, danificar, tornar não funcionais ou mutantes sequências de ácidos nucleicos no genoma do organismo vivo. A edição do genoma direcionado compreende métodos nos quais sequências específicas podem ser alteradas (por exemplo, "editadas"), por exemplo, em um locus genômico pretendido. Ferramentas genéticas, como, por exemplo, nucleases específicas do sítio programáveis, podem ser usadas para direcionar as alterações desejadas em um genoma in vivo. A edição do genoma pode ser alcançada por manipulação genética de uma sequência de DNA in vitro ou em outro organismo vivo, seguida pela inserção dessa sequência em um genoma de interesse.
gRNA: Conforme usado neste documento, "gRNA" ou "RNA guia" refere-se a moléculas curtas de RNA que incluem uma sequência de andaime adequada para uma endonuclease direcionada (por exemplo, uma enzima Cas, como Cas9 ou Cpf1 ou outra ribonucleoproteína com propriedades semelhantes, etc.) que liga a uma sequência substancialmente específica ao alvo que facilita o corte de uma região específica de DNA ou RNA.
Homologia: Conforme usado neste documento, o termo "homologia" refere-se à relação geral entre moléculas poliméricas, por exemplo, entre moléculas de ácido nucleico (por exemplo, moléculas de DNA e/ou moléculas de RNA). Em algumas modalidades, as moléculas poliméricas são consideradas "homólogas" umas às outras se suas sequências forem pelo menos 80%, 85%, 90%, 95% ou 99% idênticas. Em outras modalidades, o grau de semelhança pode ser inferior a 30%, pelo menos 30% 40%, 50%, 60%, 70% ou mais do que 70%. Como será entendido pelos versados na técnica, uma variedade de algoritmos está disponível que permitem a comparação de sequências para determinar seu grau de homologia, incluindo permitindo lacunas de comprimento designado em uma sequência em relação a outra ao considerar quais resíduos "correspondem” um ao outro em sequências diferentes. O cálculo da homologia percentual entre duas sequências de ácido nucleico, por exemplo, pode ser realizado alinhando as duas sequências para fins de comparação ideais (por exemplo, lacunas podem ser introduzidas em uma ou ambas de uma primeira e uma segunda sequência de ácido nucleico para alinhamento ideal e sequências não correspondentes podem ser desconsideradas para fins de comparação). Em certas modalidades, o comprimento de uma sequência alinhada para fins de comparação é de pelo menos 30%, pelo menos 40%, pelo menos 50%, pelo menos 60%, pelo menos 70%, pelo menos 80%, pelo menos 90%, em pelo menos 95% ou substancialmente 100% do comprimento da sequência de referência. Os nucleotídeos nas posições de nucleotídeos correspondentes são então comparados. Quando uma posição na primeira sequência é ocupada pelo mesmo nucleotídeo que a posição correspondente na segunda sequência, então as moléculas são idênticas nessa posição; quando uma posição na primeira sequência é ocupada por um nucleotídeo semelhante à posição correspondente na segunda sequência, então as moléculas são semelhantes nessa posição. A homologia percentual entre as duas sequências é uma função do número de posições idênticas e semelhantes compartilhadas pelas sequências, levando em consideração o número de lacunas e o comprimento de cada lacuna, que precisa ser introduzida para o alinhamento ideal das duas sequências. Os algoritmos e programas de computador úteis na determinação da homologia percentual entre duas sequências de nucleotídeos são bem conhecidos na técnica.
Mutação: Como usado neste documento, o termo "mutação" refere-se a alterações na sequência ou estrutura de ácidos nucleicos em relação à sequência de referência. Mutações em uma sequência polinucleotídica podem incluir mutações pontuais (por exemplo, mutações de base única), mutações multinucleotídicas, deleções nucleotídicas, rearranjos de sequências, inserções nucleotídicas e duplicações da sequência de DNA na amostra, entre alterações multinucelotídicas complexas. As mutações podem ocorrer em ambas as fitas de uma molécula de DNA duplex como alterações complementares de base (isto é, mutações verdadeiras) ou como uma mutação em uma fita, mas não na outra, ou seja, heteroduplex, que tem o potencial de ser reparada, destruída ou ser mal reparada / convertida em uma mutação verdadeira de fita dupla. As sequências de referência podem estar presentes em bancos de dados (ou seja, genoma de referência humano HG38) ou na sequência de outra amostra com a qual uma sequência está sendo comparada. As mutações também são conhecidas como variantes genéticas.
Frequência mutante: Como usado neste documento, o termo "frequência mutante", também algumas vezes referido como "frequência mutacional", refere-se ao número de mutações específicas detectadas pelo número total de pares de bases sequenciados. Em algumas modalidades, as mutações específicas são definidas como mutações verificadas por Sequenciamento Duplex e o número total de pares de bases sequenciados é definido como os verificados por Sequenciamento Duplex. Em algumas modalidades, a frequência mutante é a frequência de mutações dentro de apenas um gene específico, um conjunto de genes ou um conjunto de alvos genômicos. Em algumas modalidades, a frequência mutante pode se referir apenas a certos tipos de mutações (por exemplo, a frequência de mutações A>T, que é calculada como o número de mutações A>T pelo número total de bases A). A frequência com que as mutações surgem em uma população de células ou moléculas pode variar por idade de um sujeito, ao longo do tempo, por tecido ou tipo de organização, por região de um genoma, por tipo de mutação, por contexto de trinucleotídeo, fundo genético hereditário, por exposição a produtos químicos mutagênicos, por exposição à radiação e por exposição a um ambiente que inclua qualquer um dos itens anteriores, entre outras coisas.
Assinatura de mutação: Como usado neste documento, o termo "assinatura de mutação", "espectro de mutação" ou espectros de mutação" refere-se a combinações características de tipos de mutação decorrentes de processos de mutagênese, como edição genômica (por exemplo, edição genômica natural ou edição genômica modificada geneticamente), infidelidade de replicação de DNA, exposições a genotoxinas exógenas e endógenas, vias de reparo de DNA defeituoso e edição enzimática de DNA. Os espectros mutacionais podem compreender espectros de mutação de trinucleotídeos que envolvem o padrão de abundância relativa de possíveis tipos de mutações entre contextos de sequência de nucleotídeos de três pares de bases. Tais espectros podem ser normalizados pela abundância relativa de um contexto de sequência em um genoma de referência. Os espectros mutacionais podem implicar mutações de qualquer tipo em qualquer contexto de sequência. Em uma modalidade, o espectro de mutação pode ser comparado ao espectro de mutação de outras amostras ou conjuntos de dados por correspondência de padrão computacional (por exemplo, agrupamento de espectro de mutação hierárquico não supervisionado, fatoração de matriz não negativa, etc.).
Ácido nucleico: Como usado neste documento, no seu sentido mais amplo, refere-se a qualquer composto e/ou substância que é ou pode ser incorporada a uma cadeia oligonucleotídica. Em algumas modalidades, um ácido nucleico é um composto e/ou substância que é ou pode ser incorporada a uma cadeia oligonucleotídica por meio de uma ligação fosfodiéster. Como ficará claro no contexto, em algumas modalidades, "ácido nucleico" refere-se a um resíduo de ácido nucleico individual (por exemplo, um nucleotídeo e/ou nucleosídeo); em algumas modalidades,"ácido nucleico" refere-se a uma cadeia oligonucleotídica compreendendo resíduos individuais de ácido nucleico.
Em algumas modalidades, um "ácido nucleico"; é ou compreende RNA; em algumas modalidades, um "ácido nucleico"; é ou compreende DNA.
Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais resíduos naturais de ácido nucleico.
Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais análogos de ácido nucleico.
Em algumas modalidades, um análogo de ácido nucleico difere de um ácido nucleico pelo fato de não utilizar uma cadeia principal de fosfodiéster.
Por exemplo, em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais "ácidos nucleicos peptídicos", que são conhecidos na técnica e têm ligações peptídicas em vez de ligações fosfodiéster na cadeia principal, e que são considerados dentro do escopo da tecnologia atual.
Alternativamente, ou adicionalmente, em algumas modalidades, um ácido nucleico tem uma ou mais ligações fosforotioato e/ou ligações 5'-N-fosforamidita em vez de ligações fosfodiéster.
Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais nucleosídeos naturais (por exemplo, adenosina, timidina, guanosina, citidina, uridina, desoxiadenosina, desoxitimidina, desoxiacitana e desoxicitidina). Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais análogos de nucleosídeo (por exemplo, 2-aminoadenosina, 2-tiotimidina, inosina, pirrolo-pirimidina, 3-metil adenosina, 5-metilcitidina, C-5 propinil-citidina, C-5 propinil-uridina, 2-aminoadenosina, C5-bromouridina, C5- fluorouridina, C5-iodouridina, C5-propinil-uridina, C5-propinil-citidina, C5-metilcitidina, 2- aminoadenosina, 7-deaza-adenosina, 7-deazaguanosina, 8-oxoadenosina, 8-oxoguanosina, 0(6)- metilguanina, 2-tiocitidina, bases metiladas, bases intercaladas e combinações das mesmas). Em algumas modalidades, um ácido nucleico compreende um ou mais açúcares modificados (por exemplo, 2'-fluororibose, ribose, 2'-desoxirribose, arabinose e hexose) em comparação com os ácidos nucleicos naturais.
Em algumas modalidades, um ácido nucleico tem uma sequência de nucleotídeos que codifica um produto genético funcional, como um RNA ou proteína.
Em algumas modalidades, um ácido nucleico inclui um ou mais íntrons.
Em algumas modalidades, os ácidos nucleicos são preparados por um ou mais isolamentos de uma fonte natural, síntese enzimática por polimerização com base em um modelo complementar (in vivo ou in vitro), reprodução em uma célula ou sistema recombinante e síntese química.
Em algumas modalidades, um ácido nucleico tem pelo menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 1 10, 120, 130, 140, 150, 160, 170, 180, 190, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500, 3000, 3500, 4000, 4500, 5000 ou mais resíduos de comprimento. Em algumas modalidades, um ácido nucleico é parcial ou totalmente de fita simples; em algumas modalidades, um ácido nucleico é parcial ou totalmente de fita dupla. Em algumas modalidades, um ácido nucleico pode ser ramificado de ter estruturas secundárias. Em algumas modalidades, um ácido nucleico tem uma sequência de nucleotídeos compreendendo pelo menos um elemento que codifica, ou é o complemento de uma sequência que codifica, um polipeptídeo. Em algumas modalidades, um ácido nucleico tem atividade enzimática. Em algumas modalidades, o ácido nucleico desempenha uma função mecânica, por exemplo, em um complexo de ribonucleoproteínas ou em um RNA de transferência.
Mutação Passageira: Conforme usado neste documento, o termo "mutação passageira" se refere a mutações identificadas em um clone, mas não se acredita que tenham contribuído para a própria expansão clonal. Isso contrasta com uma “mutação condutora:” que se acredita ter contribuído funcionalmente para a própria expansão clonal.
Dano ao polinucleotídeo: Como usado neste documento, o termo "dano ao polinucleotídeo" ou "dano ao ácido nucleico" refere-se a dano à sequência de ácido desoxirribonucleico (DNA) de um sujeito ("dano ao DNA") ou sequência de ácido ribonucleico (RNA) ("dano ao RNA") que é direta ou indiretamente (por exemplo, um metabólito ou indução de um processo que é prejudicial ou mutagênico) causado por ou precipitado por fatores ex vivo ou in vivo (por exemplo, exposição a uma genotoxina, envelhecimento, processos metabólicos, etc.). O ácido nucleico danificado pode levar ao início de uma doença ou distúrbio, por exemplo, uma doença ou distúrbio associado à exposição à genotoxina em um sujeito, envelhecimento ou outros processos mutagênicos. Em algumas modalidades, a detecção de ácido nucleico danificado em um sujeito pode ser uma indicação de uma exposição à genotoxina. O dano ao polinucleotídico pode ainda compreender modificação química e/ou física do DNA em uma célula. Em algumas modalidades, o dano é ou compreende, por meio de exemplos não limitantes, pelo menos um de oxidação, alquilação, desaminação, metilação, hidrólise, hidroxilação, corte, reticulações intra- fitas reticulações entre fitas, quebra de fita de extremidade cega, quebra de fita dupla de extremidade escalonada, fosforilação, desfosforilação, somalilação, glicosilação, desglicosilação, putrescinilação, carboxilação, halogenação, formilação, folgas de fita simples, dano por calor, dano por dessecação, dano por exposição a UV, dano por radiação gama por radiação X, dano por radiação ionizante, dano por radiação não ionizante, dano por radiação de partículas pesadas, dano por decaimento nuclear, dano por radiação beta, dano por radiação alfa, dano por radiação de nêutrons, dano por radiação de prótons, dano por radiação cósmica, dano por pH alto, dano por pH baixo, dano por espécies oxidativas reativas, dano por radicais livres, dano por peróxido, dano por hipoclorito, dano por fixação do tecido como formalina ou formaldeído, danos causados pelo ferro reativo, danos causados por condições iônicas baixas, danos causados por condições iônicas elevadas, danos causados por condições sem tampão e danos por nucleases, danos por exposição ambiental, danos por incêndio, danos por estresse mecânico, danos por degradação enzimática, danos por micro-organismos, danos por cisalhamento mecânico preparativo, danos por fragmentação enzimática preparativa, danos ocorridos naturalmente in vivo, dano ocorrido durante a extração de ácido nucleico, dano ocorrido durante a preparação da biblioteca de sequenciamento, dano introduzido por uma polimerase, dano introduzido durante o reparo de ácido nucleico, dano ocorrido durante a finalização do ácido nucleico, dano ocorrido durante a ligação do ácido nucleico, danos ocorridos durante o sequenciamento, danos causados pelo manuseio mecânico do DNA, dano ocorrido durante a passagem através de um nanoporo, dano ocorrido como parte do envelhecimento em um organismo, dano causado como resultado caso ocorra a exposição química de um indivíduo, dano causado por um mutagênico, dano ocorrido por um cancerígeno, dano causado por um clastogênio, dano causado por dano à inflamação in vivo devido à exposição ao oxigênio, dano devido a uma ou mais quebras de fita e qualquer combinação dos mesmos.
Referência: Conforme usado neste documento, "referência" descreve um padrão ou controle em relação ao qual uma comparação é realizada. Por exemplo, em algumas modalidades, um agente, animal, indivíduo, população, amostra, sequência ou valor de interesse é comparado com um agente de referência ou controle, animal, indivíduo, população, amostra, sequência ou valor ou representação do mesmo em uma representação física ou banco de dados de computador que pode estar presente em um local ou acessado remotamente por meios eletrônicos. Em algumas modalidades, uma referência ou controle é testado e/ou determinado substancialmente de forma simultânea com o teste ou determinação de interesse. Em algumas modalidades, uma referência ou controle é uma referência ou controle histórico, opcionalmente corporificado em um meio tangível. Tipicamente, como seria entendido pelos versados na técnica, uma referência ou controle é determinado ou caracterizado em condições ou circunstâncias comparáveis àquelas sob avaliação. Os versados na técnica compreenderão quando houver semelhanças suficientes para justificar a confiança e/ou comparação com uma referência ou controle possível particular.
Amostra de referência: Como usado neste documento, uma "amostra de referência" se refere a uma amostra que é igual a uma amostra com a qual é comparada, exceto que a amostra de referência não passou por um evento de edição genômica. Por exemplo, uma amostra de referência pode ser isolada da mesma forma que uma amostra com a qual é comparada (por exemplo, uma amostra de teste), exceto que a amostra de referência não foi induzida a sofrer um evento de edição genômica (por exemplo, um evento de edição genômica modificada geneticamente).
Frequência de variante de limite seguro: Como usado neste documento, o termo "frequência de variante de limite seguro", também às vezes referido como "frequência de mutante de limite seguro" refere-se a uma taxa aceitável de mutação ou geração de variante e/ou abundância total causada por um evento de edição genômica ou processo ou outro processo mutagênico, abaixo do qual existe um risco aceitável de potencial neoplásico ou outra perturbação genética em uma célula. A tolerância de risco aceitável de taxa de mutação resultante da geração de variantes pode diferir dependendo do tipo de célula, aplicação do evento de edição genômica, sujeito, idade, sexo, tipo de tecido, condição de saúde de um paciente, etc.
Polimorfismo de Nucleotídeo Único (SNP): Como usado neste documento, o termo "polimorfismo de nucleotídeo único" ou "SNP" refere-se a uma posição de base particular no genoma onde bases alternativas são conhecidas por distinguir um alelo de outro. SNPs referem-se a variações que são de um único nucleotídeo na natureza, em oposição a MNVs que se referem a variantes multinucleotídicas. Um "polimorfismo do número de cópia" ou "variante do número de cópia" (referido como CNPs ou CNVs) se refere a uma variação no número de cópias de uma sequência dentro do DNA. Em algumas modalidades, um ou alguns SNPs e/ou CNPs são suficientes para distinguir variantes genéticas complexas umas das outras, de modo que, para fins analíticos, um ou um conjunto de SNPs e/ou CNPs podem ser considerados característicos de uma variante particular, característica, tipo de célula, indivíduo, espécie, etc., ou conjunto dos mesmos. Em algumas modalidades, um ou um conjunto de SNPs e/ou CNPs pode ser considerado para definir uma determinada variante, característica, tipo de célula, indivíduo, espécie, etc., ou conjunto dos mesmos. No uso mais comum, SNP geralmente implica que a variante em questão é herdada da linha germinativa. O termo mais amplo Variante de Nucleotídeo Único (SNV) pode implicar um SNP hereditário ou uma mutação adquirida somaticamente.
Identificador de Molécula Única (SMI): Como usado neste documento, o termo "identificador de molécula única" ou "SMI" (que pode ser chamado de "marca", "código de barras", "código de barras molecular", um "Identificador Molecular Único", ou "UMI", entre outros nomes) refere-se a qualquer material (por exemplo, uma sequência de nucleotídeos, uma característica o de molécula de ácido nucleico) que é capaz de distinguir substancialmente uma molécula individual entre uma população heterogênea maior de moléculas, seja sozinha ou em combinação com uma outra característica molecular. Em algumas modalidades, um SMI pode ser ou compreender um SMI aplicado exogenamente. Em algumas modalidades, um SMI aplicado exogenamente pode ser ou compreender uma sequência degenerada ou semidegenerada. Em algumas modalidades, SMIs substancialmente degenerados podem ser conhecidos como Identificadores Moleculares Aleatórios Exclusivos (R-UMIs). Em algumas modalidades, um SMI pode compreender um código (por exemplo, uma sequência de ácidos nucleicos) de dentro de um conjunto de códigos conhecidos. Em algumas modalidades, os códigos SMI predefinidos são conhecidos como Identificadores Moleculares Exclusivos Definidos (D-UMIs). Em algumas modalidades, um SMI pode ser ou compreender um SMI endógeno. Em algumas modalidades, um SMI endógeno pode ser ou compreender informações relacionadas a pontos de cisalhamento específicos de uma sequência alvo, características relacionados às extremidades terminais de moléculas individuais que compreendem uma sequência alvo ou uma sequência específica a ou adjacente a ou dentro de uma distância conhecida do fim de moléculas individuais. Em algumas modalidades, um SMI pode se relacionar com uma variação de sequência em uma molécula de ácido nucleico causada por dano aleatório ou semialeatório, modificação química, modificação enzimática ou outra modificação na molécula de ácido nucleico. Em algumas modalidades, a modificação pode ser desaminação da metilcitosina. Em algumas modalidades, a modificação pode implicar sítios de cortes de ácidos nucleicos. Em algumas modalidades, um SMI pode compreender elementos tanto exógenos quanto endógenos. Em algumas modalidades, um SMI pode compreender elementos SMI fisicamente adjacentes. Em algumas modalidades, os elementos SMI podem ser espacialmente distintos em uma molécula. Em algumas modalidades, um SMI pode ser um ácido não nucleico. Em algumas modalidades, um SMI pode compreender dois ou mais tipos diferentes de informações SMI. Várias modalidades de SMIs são divulgadas ainda na Publicação Internacional de Patente WO2017/100441, que está incorporada por referência neste documento na sua totalidade.
Elemento de definição de fita (SDE): Conforme utilizado neste documento, o termo "Elemento de definição de fita" ou "SDE" refere-se a qualquer material que permita a identificação de uma fita específica de um material de ácido nucleico de fita dupla e, assim, a diferenciação da outra / fita complementar (por exemplo, qualquer material que processe os produtos de amplificação de cada um dos dois ácidos nucleicos de fita simples resultantes de um ácido nucleico de fita dupla alvo substancialmente distinguível um do outro após sequenciamento ou outra interrogação de ácido nucleico). Em algumas modalidades, um SDE pode ser ou compreender um ou mais segmentos de sequência substancialmente não complementar dentro de uma sequência adaptadora. Em modalidades particulares, um segmento de sequência substancialmente não complementar dentro de uma sequência adaptadora pode ser fornecido por uma molécula adaptadora compreendendo uma forma em Y ou uma forma de "alça". Em outras modalidades, um segmento de sequência substancialmente não complementar dentro de uma sequência adaptadora pode formar uma "bolha" não pareada no meio de sequências complementares adjacentes dentro de uma sequência adaptadora. Em outras modalidades, um SDE pode abranger uma modificação de ácido nucleico. Em algumas modalidades, um SDE pode compreender separação física de fitas pareadas em compartimentos de reação fisicamente separados. Em algumas modalidades, um SDE pode compreender uma modificação química. Em algumas modalidades, um SDE pode compreender um ácido nucleico modificado. Em algumas modalidades, um SDE pode se relacionar com uma variação de sequência em uma molécula de ácido nucleico causada por dano aleatório ou semialeatório, modificação química, modificação enzimática ou outra modificação na molécula de ácido nucleico. Em algumas modalidades, a modificação pode ser desaminação da metilcitosina. Em algumas modalidades, a modificação pode implicar sítios de cortes de ácidos nucleicos. Várias modalidades de SDEs são divulgadas ainda na Publicação Internacional de Patente WO2017 / 100441, que está incorporada por referência neste documento na sua totalidade.
Sujeito: Conforme usado neste documento, o termo "sujeito" refere-se a um organismo, tipicamente um mamífero, como um humano (em algumas modalidades, incluindo formas humanas pré-natais), um animal não humano (por exemplo, mamíferos e não mamíferos, incluindo, mas não limitado a, primatas não humanos, cavalos, ovelhas, cães, vacas, porcos, galinhas, anfíbios, répteis, vida marinha (geralmente excluindo macacos marinhos), outros organismos modelo, como vermes, moscas, peixe-zebra etc.) e animais transgênicos (por exemplo, roedores transgênicos) etc. Em algumas modalidades, um sujeito deve ser tratado ou exposto a células que foram submetidas a um evento de edição do genoma. Em algumas modalidades, um sujeito está sofrendo de uma doença, distúrbio ou condição relevante. Em algumas modalidades, um sujeito é suscetível a uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito exibe um ou mais sintomas ou características de uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito não exibe nenhum sintoma ou característica de uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito tem um ou mais aspectos característicos de suscetibilidade ou risco de uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito é um indivíduo a quem o diagnóstico e/ou terapia é e/ou foi administrado. Em outras modalidades, uma amostra biológica é isolada, extraída ou de outra forma obtida de um sujeito. Em algumas modalidades, um sujeito refere-se a quaisquer fontes biológicas vivas ou outro material de ácido nucleico, que pode ser editado no genoma e pode incluir, por exemplo, organismos, células e/ou tecidos, como para estudos in vivo, por exemplo: fungos, plantas, protozoários, bactérias, arqueobactérias, vírus, células isoladas em cultura, células que foram intencional (por exemplo, transplante de células-tronco, transplante de órgãos) ou involuntariamente (por exemplo, microcimerismo fetal ou materno) editadas ou ácidos nucleicos ou organelas isoladas (isto é, mitocôndrias, cloroplastos, genomas virais livres, plasmídeos livres, aptâmeros, ribozimas ou derivados ou precursores de ácidos nucleicos (isto é, oligonucleotídeos, trifosfatos de dinucleotídeos, etc.).
Substancialmente: Conforme usado neste documento, o termo "substancialmente" refere-
se à condição qualitativa de exibir extensão ou grau total ou quase total de uma característica ou propriedade de interesse. Alguém versado na técnica das ciências biológicas entenderá que os fenômenos biológicos e químicos raramente, se é que alguma vez, chegam à conclusão e/ou prosseguem à conclusão ou alcançam ou evitam um resultado absoluto. O termo "substancialmente" é, portanto, usado neste documento para capturar a potencial falta de completude inerente a muitos fenômenos biológicos e químicos.
Quantidade terapeuticamente eficaz: Como usado neste documento, o termo "quantidade terapeuticamente eficaz" significa uma quantidade que é suficiente, quando administrada a uma população que sofre ou é suscetível a uma doença, distúrbio e/ou condição de acordo com um regime de dosagem terapêutica, para tratar a doença, distúrbio e/ou condição. Em algumas modalidades, uma quantidade terapeuticamente eficaz é a que reduz a incidência e/ou gravidade, estabiliza uma ou mais características e/ou retarda o início de um ou mais sintomas da doença, distúrbio e/ou condição. Os versados na técnica compreenderão que o termo "quantidade terapeuticamente eficaz" não requer, de fato, que um tratamento bem-sucedido seja alcançado em um indivíduo em particular. Em vez disso, uma quantidade terapeuticamente eficaz pode ser a quantidade que fornece uma determinada resposta farmacológica desejada em um número significativo de sujeitos quando administrada a pacientes em necessidade de tal tratamento.
Contexto de trinucleotídeo ou trinucleotídeo: Como usado neste documento, os termos "trinucleotídeo" ou "contexto de trinucleotídeo" se referem a um nucleotídeo no contexto de bases nucleotídicas imediatamente antes e imediatamente após em sequência (por exemplo, um mononucleotídeo dentro de uma combinação de três mononucleotídeos).
Espectro ou assinatura de trinucleotídeo: Neste documento, o termo "assinatura de trinucleotídeo" é usado de forma intercambiável com "espectro de trinucleotídeo", "assinatura de tripleto" e "espectro de tripleto" referem-se a uma assinatura de mutação, em um contexto de trinucleotídeo. Em certas modalidades, um evento de edição de genoma pode ter um espectro / assinatura de tripleto específica, semi-única e/ou identificável de outra forma. Em alguns casos, uma assinatura mutante, também conhecida como assinatura mutacional, compreende uma assinatura de trinucleotídeo.
Tratamento: Conforme usado neste documento, o termo "tratamento" refere-se à aplicação ou administração de um agente terapêutico a um sujeito, ou aplicação ou administração de um agente terapêutico a um tecido ou linhagem celular isolado de um sujeito que tenha um distúrbio, por exemplo, uma doença ou condição, um sintoma de doença ou uma predisposição para uma doença, com o objetivo de curar, sarar, aliviar, abrandar, alterar, remediar, melhorar, aprimorar ou afetar a doença, os sintomas da doença ou a predisposição para a doença. O tratamento também pode se referir à aplicação de uma exposição ou processo a um sujeito ou células com a finalidade de induzir uma mudança que não se destina a curar, sarar, aliviar, amenizar, alterar, remediar, melhorar, aprimorar ou afetar a doença, os sintomas da doença. Por exemplo, um animal de laboratório pode ser tratado com um produto químico nocivo, com o objetivo de avaliar seu efeito adverso no sujeito roedor, como para prever seu efeito em humanos.
Variante: Conforme usado neste documento, o termo "variante" se refere a uma entidade que mostra identidade estrutural significativa com uma entidade de referência, mas difere estruturalmente da entidade de referência na presença ou nível de uma ou mais frações químicas em comparação com a entidade de referência. No contexto dos ácidos nucleicos, um ácido nucleico variante pode ter um elemento de sequência característico composto por uma pluralidade de resíduos de nucleotídeos tendo posições designadas em relação a outro ácido nucleico no espaço linear ou tridimensional. As sequências com homologia diferem em uma ou mais variantes. Por exemplo, um polinucleotídeo variante (por exemplo, DNA) pode diferir de um polinucleotídeo de referência como resultado de uma ou mais diferenças na sequência de ácidos nucleicos. Em algumas modalidades, uma sequência de polinucleotídeo variante inclui uma inserção, deleção, substituição ou mutação em relação a outra sequência (por exemplo, uma sequência de referência ou outras sequências de polinucleotídeo (por exemplo, DNA) em uma amostra). Exemplos de variantes incluem SNPs, SNVs, CNVs, CNPs, MNVs, MNPs., mutações, mutações de câncer, mutações condutoras, mutações passageiras, polimorfismos hereditários.
Frequência de variante: Conforme usado neste documento, o termo "frequência de variante" se refere à frequência relativa de uma variante genética em um locus particular em uma população, expressa como uma fração ou porcentagem da população. A população pode ser uma população de células, uma população de organismos, uma população de indivíduos ou uma população de moléculas ou uma população de moléculas de DNA, entre outras.
Frequência de alelo variante: Conforme usado neste documento, o termo "frequência de alelo variante" refere-se à frequência relativa de um alelo (variante de um gene) em um locus particular em uma população (por exemplo, uma fração de todos os cromossomos na população que carrega um alelo particular entre uma população de células, uma população de organismos, uma população de indivíduos ou uma população de moléculas ou uma população de moléculas de DNA, entre outros.
Modalidades Selecionadas de Métodos de Sequenciamento Duplex e Adaptadores e Reagentes Associados O Sequenciamento Duplex é um método para a produção de sequências de DNA corrigidas de erros a partir de moléculas de ácido nucleico de fita dupla e que foi originalmente descrito na Publicação Internacional de Patente WO 2013/142389 e na Patente US 9.752.188, e WO 2017/100441, em Schmitt et. al., PNAS, 2012 [1]; em Kennedy et. al., PLOS Genetics, 2013 [2]; em Kennedy et. al., Nature Protocols, 2014 [3]; e em Schmitt et. al., Nature Methods, 2015 [4]. Cada uma das patentes, pedidos de patente e publicações mencionadas anteriormente estão incorporadas neste documento por referência em sua totalidade. Como ilustrado nas FIGS. 1A-1C, e em certos aspectos da tecnologia, o Sequenciamento Duplex pode ser usado para sequenciar independentemente ambas as fitas de moléculas de DNA individuais, de modo que as leituras da sequência derivada possam ser reconhecidas como originárias da mesma molécula parental de ácido nucleico de fita dupla durante o sequenciamento massivamente paralelo (MPS), também conhecido como sequenciamento de próxima geração (NGS), mas também diferenciado entre si como entidades distinguíveis após o sequenciamento. As leituras de sequência resultantes de cada fita são então comparadas com o objetivo de obter uma sequência corrigida de erro da molécula original de ácido nucleico de fita dupla conhecida como Sequência de Consenso Duplex (DCS). O processo de Sequenciamento Duplex permite confirmar explicitamente que ambas as fitas de uma molécula original de ácido nucleico de fita dupla estão representadas nos dados de sequenciamentos gerados usados para formar um DCS.
Em certas modalidades, os métodos que incorporam o DS podem incluir a ligação de um ou mais adaptadores de sequenciamento a uma molécula de ácido nucleico de fita dupla alvo,
compreendendo uma sequência de ácido nucleico alvo de primeira fita e uma sequência nucleica alvo de segunda fita, para produzir um complexo de ácido nucleico alvo de fita dupla (por exemplo, FIG. 1A).
Em várias modalidades, um complexo de ácido nucleico alvo resultante pode incluir pelo menos uma sequência SMI, que pode implicar uma sequência degenerada ou semidegenerada aplicada exogenamente (por exemplo, etiqueta duplex aleatória mostrada na FIG. 1A, sequências identificadas como α e β na FIG. 1A), informações endógenas relacionadas aos pontos de cisalhamento específicos da molécula alvo de ácido nucleico de fita dupla ou uma combinação das mesmas. O SMI pode tornar a molécula de ácido nucleico alvo substancialmente distinguível da pluralidade de outras moléculas em uma população que é sequenciada sozinha ou em combinação com elementos distintivos dos fragmentos de ácido nucleico aos quais foram ligados. A característica substancialmente distinguível do elemento SMI pode ser transportado independentemente por cada uma das fitas únicas que formam a molécula de ácido nucleico de fita dupla, de modo que os produtos de amplificação derivativos de cada fita possam ser reconhecidos como provenientes da mesma molécula original de ácido nucleico de fita dupla substancialmente única após o sequenciamento. Em outras modalidades, o SMI pode incluir informações adicionais e/ou pode ser usado em outros métodos para os quais essa funcionalidade de diferenciação de molécula é útil, como os descritos nas publicações mencionadas anteriormente. Em uma outra modalidade, o elemento SMI pode ser incorporado após a ligação do adaptador. Em algumas modalidades, o SMI é de natureza de fita dupla. Em outras modalidades, ele é de natureza de fita simples (por exemplo, o SMI pode estar na(s) porção(ões) de fita simples dos adaptadores). Em outras modalidades, ele é uma combinação de natureza de fita simples e de fita dupla.
Em algumas modalidades, cada complexo de sequência de ácido nucleico alvo de fita dupla pode incluir ainda um elemento (por exemplo, um SDE) que torna os produtos de amplificação dos dois ácidos nucleicos de fita simples que formam a molécula de ácido nucleico de fita dupla alvo substancialmente distinguíveis um do outro após a sequência. Em uma modalidade, um SDE pode compreender sítios primários assimétricos compreendidos nos adaptadores de sequenciamento ou, em outros arranjos, assimetrias de sequência podem ser introduzidas nas moléculas adaptadoras que não estão nas sequências iniciadoras, de modo que pelo menos uma posição nas sequências de nucleotídeos do complexo de sequência de ácido nucleico alvo da primeira fita e da segunda fita do complexo de sequência de ácido nucleico alvo são diferentes um do outro após amplificação e sequenciamento. Em outras modalidades, o SMI pode compreender outra assimetria bioquímica entre as duas fitas que diferem das sequências de nucleotídeos canônicas A, T, C, G ou U, mas é convertida em pelo menos uma diferença de sequência de nucleotídeos canônica nas duas moléculas amplificadas e sequenciadas. Em ainda outra modalidade, o SDE pode ser um meio de separar fisicamente as duas fitas antes da amplificação, de modo que os produtos de amplificação derivados da sequência de ácido nucleico alvo da primeira fita e a sequência de ácido nucleico alvo da segunda fita sejam mantidos em isolamento físico substancial um do outro com o objetivo de manter uma distinção entre os dois. Outros tais arranjos ou metodologias para fornecer uma função SDE que permita distinguir a primeira e a segunda fitas podem ser utilizados, como os descritos nas publicações mencionadas anteriormente, ou outros métodos que atendem ao objetivo funcional descrito.
Depois de gerar o complexo de ácido nucleico alvo de fita dupla que compreende pelo menos um SMI e pelo menos um SDE, ou onde um ou ambos esses elementos serão subsequentemente introduzidos, o complexo pode ser submetido à amplificação de DNA, como com PCR, ou qualquer outro método bioquímico de amplificação de DNA (por exemplo, amplificação de círculo rolante, amplificação de deslocamento múltiplo, amplificação isotérmica, amplificação de ponte ou amplificação ligada à superfície, de modo que uma ou mais cópias da sequência de ácido nucleico alvo da primeira fita e uma ou mais cópias da sequência de ácido nucleico alvo da segunda fita sejam produzidas (por exemplo, FIG. 1B)). Uma ou mais cópias de amplificação da molécula de ácido nucleico alvo da primeira fita e uma ou mais cópias de amplificação da segunda molécula de ácido nucleico alvo podem ser submetidas ao sequenciamento de DNA, de preferência usando uma plataforma de sequenciamento de DNA massivamente paralela de "Próxima Geração" (por exemplo, FIG. 1B).
As leituras de sequência produzidas a partir tanto da molécula de ácido nucleico alvo da primeira fita quanto da molécula de ácido nucleico alvo da segunda fita derivadas da molécula original de ácido nucleico alvo de fita dupla podem ser identificadas com base no compartilhamento de um SMI exclusivo substancialmente relacionado e distinto da molécula de ácido nucleico alvo de fita oposta em virtude de um SDE.
Em algumas modalidades, o SMI pode ser uma sequência baseada matematicamente em um código de correção de erros (por exemplo, um código de Hamming), pelo qual certos erros de amplificação, erros de sequenciamento ou erros de síntese SMI podem ser tolerados com o propósito de relacionar as sequências das sequências de SMI em fitas complementares de um Duplex original (por exemplo, uma molécula de ácido nucleico de fita dupla). Por exemplo, com um SMI exógeno de fita dupla, em que o SMI compreende 15 pares de bases de sequência totalmente degenerada de bases de DNA canônicas, existirão aproximadamente 4^15 = 1.073.741.824 variantes SMI estimadas existirão em uma população de SMIs totalmente degenerada.
Se dois SMIs forem recuperados de leituras de dados de sequenciamento que diferem em apenas um nucleotídeo dentro da sequência SMI de uma população de 10.000 SMIs amostrados, pode-se calcular matematicamente a probabilidade de isso ocorrer por acaso e pode-se tomar uma decisão se é mais provável que a diferença de um par de bases reflita um dos tipos de erros mencionados anteriormente e as sequências de SMI poderiam ser determinadas ter de fato derivadas da mesma molécula duplex original.
Em algumas modalidades onde o SMI é, pelo menos em parte, uma sequência aplicada exogenamente onde as variantes de sequência não são totalmente degeneradas entre si e são, pelo menos em parte, sequências conhecidas, a identidade das sequências conhecidas pode em algumas modalidades ser projetada de tal forma que um ou mais erros dos tipos mencionados anteriormente não converterão a identidade de uma sequência de SMI conhecida na de outra sequência de SMI, de modo que a probabilidade de um SMI ser mal interpretado como a de outro SMI é reduzida.
Em algumas modalidades esta estratégia de projeto de SMI compreende uma abordagem do Código de Hamming ou derivado do mesmo.
Uma vez identificada, uma ou mais leituras de sequência produzidas a partir da molécula de ácido nucleico alvo da primeira fita são comparadas com uma ou mais leituras de sequência produzidas a partir da molécula de ácido nucleico alvo da segunda fita para produzir uma sequência da molécula de ácido nucleico alvo corrigida de erro (por exemplo, FIG. 1C). Por exemplo, as posições nucleotídicas onde as bases das sequências de ácido nucleico alvo tanto da primeira quanto da segunda fita concordam são consideradas sequências verdadeiras, enquanto as posições nucleotídicas que discordam entre as duas fitas são reconhecidas como sítios potenciais de erros técnicos que podem ser descontados, eliminados, corrigidos ou identificados.
Uma sequência corrigida de erros da molécula de ácido nucleico alvo de fita dupla original pode assim ser produzida (mostrada na FIG. 1C). Em algumas modalidades, e após o agrupamento separado de cada uma das leituras de sequenciamento produzidas a partir da molécula de ácido nucleico alvo da primeira fita e da molécula de ácido nucleico alvo da segunda fita, uma sequência de consenso de fita simples pode ser gerada para cada uma das primeira e da segunda fitas. As sequências de consenso de fita simples da molécula de ácido nucleico alvo da primeira fita e a molécula de ácido nucleico alvo da segunda fita podem então ser comparadas para produzir uma sequência da molécula de ácido nucleico alvo corrigida de erro (por exemplo, FIG. 1C).
Alternativamente, em algumas modalidades, os sítios de desacordo da sequência entre as duas fitas podem ser reconhecidos como sítios potenciais de incompatibilidades derivadas biologicamente na molécula de ácido nucleico alvo de fita dupla original. Alternativamente, em algumas modalidades, os sítios de desacordo da sequência entre as duas fitas podem ser reconhecidos como sítios potenciais de incompatibilidades derivadas de síntese de DNA na molécula original de ácido nucleico alvo de fita dupla. Alternativamente, em algumas modalidades, os sítios de desacordo de sequência entre as duas fitas podem ser reconhecidos como sítios potenciais em que uma base nucleotídica danificada ou modificada estava presente em uma ou em ambas as fitas e foi convertida em uma incompatibilidade por um processo enzimático (por exemplo, uma DNA polimerase, uma DNA glicosilase ou outra enzima modificadora de ácido nucleico ou processo químico). Em algumas modalidades, esta última descoberta pode ser usada para inferir a presença de dano por ácido nucleico ou modificação de nucleotídeo antes do processo enzimático ou tratamento químico.
Em algumas modalidades, e de acordo com aspectos da presente tecnologia, as leituras de sequenciamento geradas a partir das etapas de Sequenciamento Duplex discutidas neste documento podem ser filtradas ainda mais para eliminar leituras de sequenciamento de moléculas danificadas por DNA (por exemplo, danificadas durante o armazenamento, transporte, durante ou após a extração de tecido ou sangue durante ou após a preparação da biblioteca, etc.). Por exemplo, enzimas de reparo de DNA, como Uracil-DNA Glicosilase (UDG), Formamidopirimidina DNA glicosilase (FPG) e 8-oxoguanina DNA glicosilase (OGG1), podem ser utilizadas para eliminar ou corrigir danos ao DNA (por exemplo, danos ao DNA in vitro ou danos in vivo). Essas enzimas de reparo do DNA, por exemplo, são glicosilases que removem bases danificadas do DNA. Por exemplo, o UDG remove o uracil resultante da desaminação da citosina (causada pela hidrólise espontânea da citosina) e o FPG remove a 8-oxo-guanina (por exemplo, uma lesão de DNA comum resultante de espécies reativas de oxigênio). O FPG também possui atividade de liase que pode gerar uma folga de 1 base em sítios abásicos.
Tais sítios abásicos geralmente falham subsequencialmente em amplificar por PCR, por exemplo, porque a polimerase falha em copiar o modelo.
Consequentemente, o uso de tais enzimas de reparo/eliminação de dano ao DNA pode remover eficazmente o DNA danificado que não possui uma mutação verdadeira, mas que pode ser de outra forma detectado como um erro após sequenciamento e análise de sequência duplex.
Embora um erro devido a uma base danificada possa frequentemente ser corrigido pelo Sequenciamento Duplex em casos raros um erro complementar poderia teoricamente ocorrer na mesma posição em ambas as fitas, assim reduzindo o dano que aumenta o erro pode reduzir a probabilidade de artefatos.
Além disso, durante a preparação da biblioteca, certos fragmentos de DNA a serem sequenciados podem ser de fita simples a partir de sua fonte ou das etapas de processamento (por exemplo, cisalhamento mecânico de DNA). Essas regiões são tipicamente convertidas em DNA de fita dupla durante uma etapa de "reparo final" conhecida na técnica, por meio da qual uma DNA polimerase e substratos de nucleosídeo são adicionados a uma amostra de DNA para estender as extremidades rebaixadas em 5'. Um sítio mutagênico de dano de DNA na porção de fita simples do DNA que está sendo copiado (isto é, saliência de fita simples de 5' em uma ou ambas as extremidades do duplex de DNA ou cortes ou lacunas internas de fita simples) pode causar um erro durante a reação de preenchimento que poderia tornar uma mutação de fita simples, erro de síntese ou sítio de dano do ácido nucleico em uma forma de fita dupla que poderia ser mal interpretada na sequência de consenso duplex final como uma verdadeira mutação, pela qual a verdadeira mutação estava presente na molécula de ácido nucleico de fita dupla original, quando de fato não estava.
Esse cenário, denominado “pseudoduplex”, pode ser reduzido ou evitado pelo uso de tais enzimas destruidoras / reparadoras de danos.
Em outras modalidades, essa ocorrência pode ser reduzida ou eliminada através do uso de estratégias para destruir ou impedir a formação de porções de fita simples da molécula duplex original (por exemplo, o uso de certas enzimas sendo usadas para fragmentar o material original de ácido nucleico de fita dupla, em vez de cisalhamento mecânico ou certas outras enzimas que podem deixar cortes ou lacunas). Em outras modalidades, o uso de processos para eliminar porções de fita simples de ácidos nucleicos originais de fita dupla (por exemplo, nucleases específicas de fita simples, como nuclease S1 ou nuclease de feijão mungo), pode ser utilizado para uma finalidade semelhante.
Em outras modalidades, as leituras de sequenciamento geradas das etapas de Sequenciamento Duplex discutidas neste documento podem ser filtradas ainda mais para eliminar falsas mutações aparando as extremidades das leituras mais propensas a artefatos de pseudoduplex. Por exemplo, a fragmentação de DNA pode gerar porções de fita simples nas extremidades terminais da molécula de fita dupla. Essas porções de fita simples podem ser preenchidas (por exemplo, pela Klenow ou T4 polimerase) durante o reparo final. Em alguns casos, as polimerases cometem erros de cópia nessas regiões reparadas finais, levando à geração de "moléculas pseudoduplex". Esses artefatos de preparação da biblioteca podem incorretamente parecer verdadeiras mutações depois de sequenciados. Esses erros, como resultado de mecanismos de reparo final, podem ser eliminados ou reduzidos da análise pós-sequenciamento aparando as extremidades das leituras de sequenciamento para excluir quaisquer mutações que possam ter ocorrido em regiões de maior risco, reduzindo assim o número de falsas mutações. Em uma modalidade, tais aparas de leituras de sequenciamento podem ser realizadas automaticamente (por exemplo, uma etapa de processo normal). Em uma outra modalidade, uma frequência mutante pode ser avaliada com relação a regiões de extremidade do fragmento, e se um nível limiar de mutações for observado nas regiões de extremidade do fragmento, apara de leitura de sequenciamento pode ser realizada antes de gerar uma leitura de sequência de consenso de fita dupla dos fragmentos de DNA.
A título de exemplo específico, em algumas modalidades, são fornecidos neste documento métodos para gerar uma leitura de sequência corrigida de erro de um material de ácido nucleico alvo de fita dupla, incluindo a etapa de ligar um material de ácido nucleico alvo de fita dupla a pelo menos uma sequência adaptadora, para formar um complexo de material de ácido nucleico alvo-adaptador, em que pelo menos uma sequência adaptadora compreende (a) uma sequência de identificador de molécula única (SMI) degenerada ou semidegenerada que marca exclusivamente cada molécula do material de ácido nucleico alvo de fita dupla, e (b) uma primeira sequência adaptadora de nucleotídeo que marca uma primeira fita do complexo de material de ácido nucleico alvo-adaptador e uma segunda sequência adaptadora de nucleotídeo que é pelo menos parcialmente não complementar à primeira sequência de nucleotídeo que marca uma segunda fita do complexo de material de ácido nucleico alvo-adaptador, de modo que cada fita do complexo de material de ácido nucleico alvo-adaptador tenha uma sequência de nucleotídeo distintamente identificável em relação à sua fita complementar. O método pode em seguida incluir as etapas de amplificar cada fita do complexo de material de ácido nucleico alvo-adaptador, para produzir uma pluralidade de amplicons do complexo de ácido nucleico alvo-adaptador da primeira fita e uma pluralidade de amplicons do complexo de ácido nucleico alvo-adaptador da segunda fita. O método pode ainda incluir as etapas de amplificar tanto a primeira quanto a segunda fitas para fornecer um primeiro produto de ácido nucleico e um segundo produto de ácido nucleico. O método também pode incluir as etapas de sequenciar cada um do primeiro produto de ácido nucleico e do segundo produto de ácido nucleico, para produzir uma pluralidade de leituras de sequência da primeira fita e pluralidade de leituras de sequência da segunda fita e confirmar a presença de pelo menos uma leitura da sequência da primeira fita e pelo menos uma leitura da sequência da segunda fita. O método pode ainda incluir comparar pelo menos uma leitura de sequência de primeira fita com pelo menos uma leitura de sequência de segunda fita, e gerar uma leitura de sequência corrigida de erro do material de ácido nucleico alvo de fita dupla, descontando posições de nucleotídeos que não concordam, ou removendo alternativamente as leituras de sequência da primeira e da segunda fitas comparadas com uma ou mais posições de nucleotídeos em que as leituras de sequência da primeira e da segunda fitas comparadas são não complementares.
A título de um exemplo específico adicional, em algumas modalidades, são fornecidos neste documento métodos para identificar uma variante de DNA de uma amostra incluindo as etapas de ligar ambas as fitas de um material de ácido nucleico (por exemplo, uma molécula de DNA alvo de fita dupla) a pelo menos uma molécula adaptadora assimétrica para formar um complexo de material de ácido nucleico alvo-adaptador tendo uma primeira sequência de nucleotídeos associada a uma primeira fita de uma molécula de DNA alvo de fita dupla (por exemplo, uma fita superior) e uma segunda sequência de nucleotídeos que é pelo menos parcialmente não complementar à primeira sequência de nucleotídeos associada a uma segunda fita da molécula de DNA alvo de fita dupla (por exemplo, uma fita inferior) e amplificar cada fita do material de ácido nucleico alvo-adaptador, resultando em cada fita gerando um conjunto distinto, porém relacionado, de produtos de ácido nucleico alvo-adaptador amplificado. O método pode ainda incluir as etapas de sequenciar cada uma de uma pluralidade de produtos de ácido nucleico alvo-adaptador da primeira fita e uma pluralidade de produtos de ácido nucleico alvo- adaptador da segunda fita, confirmando a presença de pelo menos uma leitura de sequência amplificada de cada fita do complexo de material de ácido nucleico alvo-adaptador e comparando pelo menos uma leitura de sequência amplificada obtida da primeira fita com pelo menos uma leitura de sequência amplificada obtida da segunda fita para formar uma leitura de sequência de consenso do material de ácido nucleico (por exemplo, uma molécula de DNA alvo de fita dupla) tendo apenas bases de nucleotídeos nas quais a sequência de ambas as fitas do material de ácido nucleico (por exemplo, uma molécula de DNA alvo de fita dupla) está de acordo, de modo que uma variante que ocorre em uma posição específica na leitura de sequência de consenso (por exemplo, comparada com uma sequência de referência) seja identificada como uma verdadeira variante de DNA.
Em algumas modalidades, são aqui fornecidos métodos para gerar uma sequência de consenso de alta precisão a partir de um material de ácido nucleico de fita dupla, incluindo as etapas de marcação de moléculas de DNA duplex individuais com uma molécula adaptadora para formar material de DNA marcado, em que cada molécula adaptadora compreende (a) um identificador de molécula única degenerada ou semidegenerada (SMI) que marca exclusivamente a molécula de DNA duplex; e (b) a primeira e a segunda sequências adaptadoras de nucleotídeos não complementares que distinguem uma fita superior original de uma fita inferior original de cada molécula de DNA individual dentro do material de DNA marcado, para cada molécula de DNA marcada, e gerando um conjunto de duplicatas da fita superior original da molécula de DNA marcada e um conjunto de duplicatas da fita inferior original da molécula de DNA marcada para formar material de DNA amplificado. O método pode ainda incluir as etapas de criar uma primeira sequência de consenso de fita simples (SSCS) a partir das duplicatas da fita superior original e uma segunda sequência de consenso de fita simples (SSCS) a partir das duplicatas da fita inferior original, comparando a primeira SSCS da fita superior original com a segunda SSCS da fita inferior original e gerar uma sequência de consenso de alta precisão com apenas bases de nucleotídeo nas quais a sequência da primeira SSCS da fita superior original e da segunda SSCS da fita inferior original são complementares.
Em modalidades adicionais, são fornecidos neste documento métodos para detectar e/ou quantificar mutações de DNA e /ou variantes de uma amostra compreendendo moléculas de DNA alvo de fita dupla, incluindo as etapas de ligar ambas as fitas de cada molécula de DNA alvo de fita dupla a pelo menos uma molécula adaptadora assimétrica para formar uma pluralidade de complexos de DNA alvo-adaptador, em que cada complexo de DNA alvo-adaptador tem uma primeira sequência de nucleotídeos associada a uma primeira fita de uma molécula de DNA de fita dupla e uma segunda sequência de nucleotídeos que é pelo menos parcialmente não complementar à primeira sequência de nucleotídeos associada a uma segunda fita da molécula de DNA alvo de fita dupla, e para cada complexo de DNA alvo-adaptador: amplificar cada fita do complexo de DNA alvo-adaptador, resultando em cada fita gerando um conjunto distinto, porém relacionado, de amplicons de DNA alvo-adaptador amplificados. O método pode ainda incluir as etapas de sequenciar cada uma de uma pluralidade de amplicons de DNA alvo-adaptador da primeira fita e uma pluralidade de amplicons de DNA alvo-adaptador da segunda fita, confirmando a presença de pelo menos uma leitura de sequência de cada fita do complexo de DNA alvo-adaptador, e comparar pelo menos uma leitura de sequência obtida da primeira fita com pelo menos uma leitura de sequência obtida da segunda fita para detectar e/ou quantificar bases de nucleotídeo nas quais a leitura de sequência de uma fita da molécula de DNA de fita dupla está em desacordo (por exemplo, não complementar) com a leitura de sequência da outra fita da molécula de DNA de fita dupla, de modo que o(s) sítio(s) de dano ao DNA possa(m) ser detectado(s) e/ou quantificado(s). Em algumas modalidades, o método pode incluir ainda as etapas de criar uma primeira sequência de consenso de fita simples (SSCS) a partir dos amplicons de DNA alvo-adaptador da primeira fita e uma segunda sequência de consenso de fita simples (SSCS) a partir dos amplicons de DNA alvo-adaptador da segunda fita, comparar o primeiro SSCS da primeira fita original com o segundo SSCS da segunda fita original e identificar as bases nucleotídicas nas quais a sequência do primeiro SSCS e do segundo SSCS não é complementar para detectar e/ou quantificar danos ao DNA associados às moléculas de DNA alvo de fita dupla na amostra.
Sequências de identificador de molécula única (SMIs)
De acordo com várias modalidades, os métodos e composições fornecidos incluem uma ou mais sequências SMI em cada fita de um material de ácido nucleico. O SMI pode ser transportado independentemente por cada uma das fitas únicas que resultam de uma molécula de ácido nucleico de fita dupla, de modo que os produtos de amplificação derivativos de cada fita possam ser reconhecidos como provenientes da mesma molécula original de ácido nucleico de fita dupla substancialmente única após o sequenciamento. Em algumas modalidades, o SMI pode incluir informações adicionais e/ou pode ser usado em outros métodos para os quais essa funcionalidade de diferenciação de molécula é útil, como será reconhecido por um versado na técnica. Em algumas modalidades, um elemento SMI pode ser incorporado antes, substancialmente simultaneamente, ou após a ligação da sequência adaptadora um material de ácido nucleico.
Em algumas modalidades, uma sequência SMI pode incluir pelo menos um ácido nucleico degenerado ou semidegenerado. Em outras modalidades, uma sequência SMI pode ser não degenerada. Em algumas modalidades, o SMI pode ser a sequência associada a ou próximo a uma extremidade do fragmento da molécula de ácido nucleico (por exemplo, extremidades cortadas aleatoriamente ou semialeatoriamente do material de ácido nucleico ligado). Em algumas modalidades, uma sequência exógena pode ser considerada em conjunto com a sequência correspondente às extremidades cortadas aleatoriamente ou semialeatoriamente do material de ácido nucleico ligado (por exemplo, DNA) para obter uma sequência SMI capaz de distinguir, por exemplo, moléculas de DNA únicas uma da outra. Em algumas modalidades, uma sequência SMI é uma porção de uma sequência adaptadora que está ligada a uma molécula de ácido nucleico de fita dupla. Em certas modalidades, a sequência adaptadora compreendendo uma sequência SMI é de fita dupla, de modo que cada fita da molécula de ácido nucleico de fita dupla inclui um SMI após a ligação à sequência adaptadora. Em outra modalidade, a sequência SMI é de fita simples antes ou após a ligação a uma molécula de ácido nucleico de fita dupla e uma sequência SMI complementar pode ser gerada estendendo a fita oposta com uma DNA polimerase para produzir uma sequência SMI de fita dupla complementar. Em outras modalidades, uma sequência SMI está em uma porção de fita simples do adaptador (por exemplo, um braço de um adaptador tendo uma forma em Y). Em tais modalidades, o SMI pode facilitar o agrupamento de famílias de leituras de sequência derivadas de uma fita original de uma molécula de ácido nucleico de fita dupla e, em alguns casos, pode conferir relacionamento entre a primeira e a segunda fitas originais de uma molécula de ácido nucleico de fita dupla (por exemplo, a totalidade ou parte dos SMIs pode ser relacionável por meio da tabela de consulta). Nas modalidades, onde a primeira e a segunda fitas são marcadas com SMIs diferentes, a leitura das sequências das duas fitas originais pode ser relacionada usando um ou mais SMI endógenos (por exemplo, uma característica específica de fragmento, como a sequência associada a ou próxima a uma extremidade do fragmento da molécula de ácido nucleico) ou com o uso de uma etiqueta molecular adicional compartilhada pelas duas fitas originais (por exemplo, um código de barras em uma porção de fita dupla do adaptador) ou uma combinação dos mesmos. Em algumas modalidades, cada sequência SMI pode incluir entre cerca de 1 a cerca de 30 ácidos nucleicos (por exemplo, 1, 2, 3, 4, 5, 8, 10, 12, 14, 16, 18, 20 ou mais ácidos nucleicos degenerados ou semidegenerados).
Em algumas modalidades, um SMI é capaz de ser ligado a um ou ambos de um material de ácido nucleico e uma sequência adaptadora. Em algumas modalidades, um SMI pode ser ligado a pelo menos um dentre um excesso de T, um excesso de A, um excesso de CG, uma base desidroxilada e uma extremidade cega de um material de ácido nucleico.
Em algumas modalidades, uma sequência de um SMI pode ser considerada em conjunto com (ou projetada de acordo com) a sequência correspondente a, por exemplo, extremidades cortadas aleatoriamente ou semialeatoriamente de um material de ácido nucleico (por exemplo, um material de ácido nucleico ligado), para obter uma sequência SMI capaz de distinguir moléculas de ácido nucleico únicas uma da outra.
Em algumas modalidades, pelo menos um SMI pode ser um SMI endógeno (por exemplo, um SMI relacionado a um ponto de cisalhamento (por exemplo, uma extremidade de fragmento), por exemplo, usando o próprio ponto de cisalhamento ou usando um número definido de nucleotídeos no ácido nucleico material imediatamente adjacente ao ponto de cisalhamento [por exemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 nucleotídeos do ponto de cisalhamento]). Em algumas modalidades, pelo menos um SMI pode ser um SMI exógeno (por exemplo, um SMI compreendendo uma sequência que não é encontrada em um material de ácido nucleico alvo).
Em algumas modalidades, um SMI pode ser ou compreender uma fração de imageamento (por exemplo, uma fração fluorescente ou de outra forma detectável opticamente). Em algumas modalidades, tais SMIs permitem a detecção e/ou quantificação sem a necessidade de uma etapa de amplificação.
Em algumas modalidades, um elemento SMI pode compreender dois ou mais elementos SMI distintos que estão localizados em sítios diferentes no complexo de ácido nucleico adaptador- alvo.
Várias modalidades de SMIs são divulgadas ainda na Publicação Internacional de Patente Nº WO2017 / 100441, que está incorporada por referência neste documento na sua totalidade.
Elemento de definição de fita (SDE) Em algumas modalidades, cada fita de um material de ácido nucleico de fita dupla pode ainda incluir um elemento que processa os produtos de amplificação dos dois ácidos nucleicos de fita simples que formam o material de ácido nucleico de fita dupla alvo substancialmente distinguível um do outro após o sequenciamento. Em algumas modalidades, um SDE pode ser ou compreender sítios primários assimétricos compreendidos em um adaptador de sequenciamento ou, em outros arranjos, assimetrias de sequência podem ser introduzidas nas sequências adaptadoras e não nas sequências iniciadoras, de modo que pelo menos uma posição nas sequências de nucleotídeos de um complexo de sequência de ácido nucleico alvo da primeira fita e de uma segunda fita do complexo de sequência de ácido nucleico alvo são diferentes um do outro após amplificação e sequenciamento. Em outras modalidades, o SDE pode compreender outra assimetria bioquímica entre as duas fitas que diferem das sequências de nucleotídeos canônicas A, T, C, G ou U, mas é convertida em pelo menos uma diferença de sequência de nucleotídeos canônica nas duas moléculas amplificadas e sequenciadas. Em ainda outra modalidade, o SDE pode ser ou compreender um meio de separar fisicamente as duas fitas antes da amplificação, de modo que produtos de amplificação derivados da sequência de ácido nucleico alvo da primeira fita e a sequência de ácido nucleico alvo da segunda fita sejam mantidos em isolamento físico substancial um do outro com o objetivo de manter uma distinção entre os dois produtos de amplificação derivados. Podem ser utilizados outros arranjos ou metodologias para fornecer uma função SDE que permita distinguir a primeira e a segunda fitas.
Em algumas modalidades, uma SDE pode ser capaz de formar um laço (por exemplo, uma alça em hairpin). Em algumas modalidades, uma alça pode compreender pelo menos um sítio de reconhecimento de endonucleases. Em algumas modalidades, o complexo de ácido nucleico alvo pode conter um sítio de reconhecimento de endonucleases que facilita um evento de clivagem dentro da alça. Em algumas modalidades, uma alça pode compreender uma sequência de nucleotídeos não canônica. Em algumas modalidades, o nucleotídeo não canônico contido pode ser reconhecível por uma ou mais enzimas que facilitam a clivagem da fita. Em algumas modalidades, o nucleotídeo não canônico contido pode ser direcionado por um ou mais processos químicos que facilitam a clivagem da fita na alça. Em algumas modalidades, a alça pode conter um ligante de ácido nucleico modificado que pode ser direcionado por um ou mais processos enzimáticos, químicos ou físicos que facilitam a clivagem da fita na alça. Em algumas modalidades, este ligante modificado é um ligante fotoclivável.
Uma variedade de outras ferramentas moleculares poderia servir como SMIs e SDEs. Além de pontos de cisalhamento e marcadores baseados em DNA, os métodos de compartimentação de molécula única que mantêm as fitas pareadas na proximidade física ou outros métodos de marcação de ácido não nucleico podem servir à função de relacionamento das fitas. Da mesma forma, a marcação química assimétrica das fitas do adaptador de forma que eles possam ser separados fisicamente pode desempenhar um papel de SDE. Uma variação recentemente descrita do Sequenciamento Duplex utiliza a conversão de bissulfito para transformar as assimetrias de fita de ocorrência natural na forma de metilação de citosina em diferenças de sequência que distinguem as duas fitas. Embora essa implementação limite os tipos de mutações que podem ser detectadas, o conceito de capitalização na assimetria nativa é digno de nota no contexto de tecnologias emergentes de sequenciamento que podem detectar diretamente nucleotídeos modificados. Várias modalidades de SDEs são divulgadas ainda na Publicação Internacional de Patente WO2017 / 100441, que é incorporada por referência na sua totalidade.
Adaptadores e sequências adaptadoras Em várias disposições, moléculas adaptadoras que compreendem SMIs (por exemplo, códigos de barras moleculares), SDEs, sítios de iniciação, sequências de células de fluxo e/ou outros recursos são contempladas para uso em muitas das modalidades aqui divulgadas. Em algumas modalidades, os adaptadores fornecidos podem ser ou compreender uma ou mais sequências complementares ou pelo menos parcialmente complementares aos iniciadores de PCR (por exemplo, sítios de iniciação) que possuem pelo menos uma das seguintes propriedades: 1) alta especificidade de alvo; 2) capaz de ser multiplexado; e 3) exibem amplificação robusta e minimamente tendenciosa.
Em algumas modalidades, as moléculas adaptadoras podem ter a forma de “Y”, a forma de “U”, a forma de “hairpin”, ter uma bolha (por exemplo, uma porção da sequência que não é complementar) ou outros recursos. Em outras modalidades, as moléculas adaptadoras podem compreender um formato de "Y", uma formato de "U", um formato de "grampo" ou uma bolha. Certos adaptadores podem compreender nucleotídeos modificados ou não padronizados, sítios de restrição ou outros recursos para manipulação da estrutura ou função in vitro. As moléculas adaptadoras podem ligar a uma variedade de material de ácido nucleico tendo uma extremidade terminal. Por exemplo, as moléculas adaptadoras podem ser adequadas para ligar a uma saliência T, uma saliência A, uma saliência CG, uma saliência de múltiplos nucleotídeos, uma base desidroxilada, uma extremidade cega de um material de ácido nucleico e a extremidade de uma molécula onde o 5' do alvo é desfosforilado ou de outra forma bloqueado a partir da ligação tradicional. Em outras modalidades, a molécula adaptadora pode conter uma modificação desfosforilada ou de outra forma de prevenção de ligação na fita 5' no sítio da ligação. Nas duas últimas modalidades, tais estratégias podem ser úteis para prevenir a dimerização de fragmentos da biblioteca ou moléculas adaptadoras.
Uma sequência adaptadora pode significar uma sequência de fita simples, uma sequência de fita dupla, uma sequência complementar, uma sequência não complementar, uma sequência complementar parcial, uma sequência assimétrica, uma sequência de ligação ao iniciador, uma sequência de células de fluxo, uma sequência de ligação, ou outra sequência fornecida por uma molécula adaptadora. Em modalidades particulares, uma sequência adaptadora pode significar uma sequência usada para amplificação por meio de complemento a um oligonucleotídeo.
Em algumas modalidades, os métodos e composições fornecidos incluem pelo menos uma sequência adaptadora (por exemplo, duas sequências adaptadoras, uma em cada uma das extremidades 5' e 3' de um material de ácido nucleico). Em algumas modalidades, os métodos e composições fornecidos podem compreender 2 ou mais sequências adaptadoras (por exemplo, 3, 4, 5, 6, 7, 8, 9, 10 ou mais). Em algumas modalidades, pelo menos duas das sequências adaptadoras diferem uma da outra (por exemplo, por sequência). Em algumas modalidades, cada sequência adaptadora difere uma da outra sequência adaptadora (por exemplo, por sequência). Em algumas modalidades, pelo menos uma sequência adaptadora é pelo menos parcialmente não complementar a pelo menos uma porção de pelo menos uma outra sequência adaptadora (por exemplo, não é complementar por pelo menos um nucleotídeo).
Em algumas modalidades, uma sequência adaptadora compreende pelo menos um nucleotídeo não padrão. Em algumas modalidades, um nucleotídeo não padrão é selecionado de um sítio abásico, um uracil, tetra-hidrofurano, 8-oxo-7,8-di-hidro-2'deoxiadenosina (8-oxo-A), 8- oxo-7,8- di-hidro-2'-desoxiguananosina (8-oxo-G), desoxinossina, 5'nitroindol, 5-hidroximetil-2'- desoxicitidina, iso-citosina, 5'-metil-isocitosina ou isoguanosina, um nucleotídeo metilado, um RNA nucleotídeo, um nucleotídeo ribose, um 8-oxo-guanina, um ligante fotoclivável, um nucleotídeo biotinilado, um nucleotídeo de destiobiotina, um nucleotídeo modificado por tiol, um nucleotídeo modificado por acridito um iso-dC, um iso dG, um nucleotídeo 2'-O-metil , um Ácido Nucleico Bloqueado de nucleotídeo de inosina, um ácido nucleico de peptídeo, um 5 metil dC, um 5-bromo desoxiuridina, um nucleotídeo de 2,6-Diaminopurina, 2-Aminopurina, um nucleotídeo abásico, um nucleotídeo de 5-Nitroindol, um nucleotídeo adenilado, um nucleotídeo de azida, um nucleotídeo de digoxigenina, um ligante I, um nucleotídeo modificado em 5' Hexinil, um 5-Octadi- inil dU, espaçador foto-clivável, um espaçador não fotoclivável, um nucleotídeo modificado compatível com química de cliques e qualquer combinação dos mesmos.
Em algumas modalidades, uma sequência adaptadora compreende uma fração com uma propriedade magnética (isto é, uma fração magnética). Em algumas modalidades, essa propriedade magnética é paramagnética. Em algumas modalidades em que uma sequência adaptadora compreende uma fração magnética (por exemplo, um material de ácido nucleico ligado a uma sequência adaptadora compreendendo uma fração magnética), quando um campo magnético é aplicado, uma sequência adaptadora compreendendo uma fração magnética é substancialmente separada das sequências adaptadoras que não compreendem uma fração magnética (por exemplo, um material de ácido nucleico ligado a uma sequência adaptadora que não compreende uma fração magnética).
Em algumas modalidades, pelo menos uma sequência adaptadora está localizada 5' para um SMI. Em algumas modalidades, pelo menos uma sequência adaptadora está localizada 3' para um SMI.
Em algumas modalidades, uma sequência adaptadora pode ser ligada a pelo menos um dentre um SMI e um material de ácido nucleico por meio de um ou mais domínios ligantes. Em algumas modalidades, um domínio ligante pode ser constituído por nucleotídeos. Em algumas modalidades, um domínio ligante pode incluir pelo menos uma molécula de nucleotídeo ou não nucleotídica modificada (por exemplo, como descrito em outra parte desta divulgação). Em algumas modalidades, um domínio ligante pode ser ou compreender uma alça.
Em algumas modalidades, uma sequência adaptadora em uma ou em ambas as extremidades de cada fita de um material de ácido nucleico de fita dupla pode incluir ainda um ou mais elementos que fornecem um SDE. Em algumas modalidades, uma SDE pode ser ou compreender sítios primários assimétricos compreendidos nas sequências adaptadoras.
Em algumas modalidades, uma sequência adaptadora pode ser ou compreender pelo menos um SDE e pelo menos um domínio de ligação (isto é, um domínio alterável à atividade de pelo menos uma ligase, por exemplo, um domínio adequado para a ligação a um material de ácido nucleico através da atividade de uma ligase). Em algumas modalidades, de 5' a 3', uma sequência adaptadora pode ser ou compreender um sítio de ligação ao iniciador, um SDE e um domínio de ligação.
Vários métodos para sintetizar adaptadores de Sequenciamento Duplex foram descritos anteriormente em, por exemplo, Patente US 9.752.188, Publicação Internacional de Patente WO2017 / 100441 e Pedido de Patente Internacional PCT / US18 / 59908 (depositado em 8 de novembro de 2018), todos os quais são incorporados por referência aqui em suas totalidades.
Iniciadores Em algumas modalidades, um ou mais iniciadores de PCR que possuem pelo menos uma das seguintes propriedades: 1) alta especificidade de alvo; 2) capacidade de ser multiplexados;
e 3) exibição de amplificação robusta e minimamente tendenciosa são contemplados para uso em várias modalidades, de acordo com aspectos da presente tecnologia. Inúmeros estudos anteriores e produtos comerciais projetaram misturas de iniciadores que atendem um certo número dos critérios para a PCR-CE convencional. No entanto, observou-se que essas misturas de iniciadores nem sempre são ideais para uso com MPS. De fato, o desenvolvimento de misturas de iniciadores altamente multiplexados pode ser um processo desafiador e demorado. Convenientemente, a Illumina e a Promega desenvolveram recentemente misturas de iniciadores compatíveis com multiplex para a plataforma Illumina, que mostram amplificação robusta e eficiente de uma variedade de loci STR e SNP padrão e não padrão. Uma vez que estes kits utilizam PCR para amplificar as suas regiões alvo antes do sequenciamento, a extremidade 5' de cada leitura nos dados de sequenciamento na extremidade pareada corresponde à extremidade 5' dos iniciadores de PCR utilizados para amplificar o DNA. Em algumas modalidades, os métodos e composições fornecidos incluem iniciadores projetados para garantir amplificação uniforme, o que pode implicar concentrações variáveis de reação, temperaturas de fusão e minimização da estrutura secundária e interações intra / interiniciador. Muitas técnicas foram descritas para otimização de iniciadores altamente multiplexados para aplicações MPS. Em particular, essas técnicas são frequentemente conhecidas como métodos de amplificação, bem como descritas na técnica.
Amplificação Os métodos e composições fornecidos, em várias modalidades, fazem uso de, ou são úteis em, pelo menos uma etapa de amplificação, em que um material de ácido nucleico (ou uma porção do mesmo, por exemplo, uma região ou locis alvo específico) é amplificado para formar um material de ácido nucleico amplificado (por exemplo, algum número de produtos de amplicons).
Em algumas modalidades, a amplificação de um material de ácido nucleico inclui uma etapa de amplificação do material de ácido nucleico derivado de cada um de uma primeira e uma segunda fita de ácido nucleico de um material original de ácido nucleico de fita dupla usando pelo menos um oligonucleotídeo de fita simples pelo menos parcialmente complementar a uma sequência presente em uma primeira sequência adaptadora, de modo que uma sequência SMI seja pelo menos parcialmente mantida. Uma etapa de amplificação inclui ainda empregar um segundo oligonucleotídeo de fita simples para amplificar cada fita de interesse, e esse segundo oligonucleotídeo de fita simples pode ser (a) pelo menos parcialmente complementar a uma sequência de interesse alvo, ou (b) pelo menos parcialmente complementar a uma sequência presente em uma segunda sequência adaptadora de modo que o pelo menos um oligonucleotídeo de fita simples e um segundo oligonucleotídeo de fita simples sejam orientados de maneira a amplificar efetivamente o material de ácido nucleico.
Em algumas modalidades, a amplificação do material de ácido nucleico em uma amostra pode incluir amplificar o material de ácido nucleico em "tubos" (por exemplo, tubos de PCR), em gotículas de emulsão, microcâmaras e outros exemplos descritos acima ou em outros recipientes conhecidos.
Em algumas modalidades, pelo menos uma etapa de amplificação inclui pelo menos um iniciador que é ou compreende pelo menos um nucleotídeo não padrão. Em algumas modalidades, um nucleotídeo não padrão é selecionado de um uracil, um nucleotídeo metilado, um nucleotídeo de RNA, um nucleotídeo ribose, uma 8-oxo-guanina, um nucleotídeo biotinilado, um ácido nucleico bloqueado, um ácido nucleico peptídico, uma variante de ácido nucleico de alta Tm, uma variante de ácido nucleico discriminador de alelo, qualquer outra variante nucleotídica ou de ligante descrita em outra parte deste documento e qualquer combinação dos mesmos.
Embora qualquer reação de amplificação apropriada para aplicação seja contemplada como compatível com algumas modalidades, a título de exemplo específico, em algumas modalidades, uma etapa de amplificação pode ser ou compreender uma reação em cadeia da polimerase (PCR), amplificação de círculo rolante (RCA), amplificação de deslocamento múltiplo (MDA), amplificação isotérmica, amplificação de polônio dentro de uma emulsão, amplificação de ponte em uma superfície, a superfície de uma esfera ou dentro de um hidrogel e qualquer combinação das mesmas.
Em algumas modalidades, a amplificação de um material de ácido nucleico inclui utilizar oligonucleotídeos de fita simples, pelo menos parcialmente complementares às regiões das sequências adaptadoras nas extremidades 5' e 3' de cada fita do material de ácido nucleico. Em algumas modalidades, a amplificação de um material de ácido nucleico inclui utilizar pelo menos um oligonucleotídeo de fita simples, pelo menos parcialmente complementar a uma região alvo ou uma sequência alvo de interesse (por exemplo, uma sequência genômica, uma sequência mitocondrial, uma sequência plasmídica, um ácido nucleico alvo produzido sinteticamente, etc.) e um oligonucleotídeo de fita simples, pelo menos parcialmente complementar a uma região da sequência adaptadora (por exemplo, um sítio iniciador).
Em geral, a amplificação robusta (por exemplo, a amplificação por PCR) pode ser altamente dependente das condições da reação. A PCR multiplex, por exemplo, pode ser sensível à composição do tampão, concentração de cátion monovalente ou divalente, concentração de detergente, concentração de agente de aglomeração (por exemplo, PEG, glicerol, etc.), concentração de iniciador, Tms do iniciador, projeto do iniciador, teor de GC do iniciador, propriedades nucleotídicas modificadas por iniciador e condições de ciclagem (isto é , temperatura e tempos de extensão e taxa de alterações de temperatura). A otimização das condições de tampão pode ser um processo difícil e demorado. Em algumas modalidades, uma reação de amplificação pode usar pelo menos um de um tampão, concentração do conjunto de iniciadores e condições de PCR de acordo com um protocolo de amplificação conhecido anteriormente. Em algumas modalidades, um novo protocolo de amplificação pode ser criado e/ou uma otimização da reação de amplificação pode ser usada. A título de exemplo específico, em algumas modalidades, um kit de otimização de PCR pode ser usado, como um Kit de Otimização de PCR da Promega®, que contém vários tampões pré-formulados que são parcialmente otimizados para uma variedade de aplicações de PCR, como amplificações multiplex, em tempo real, ricas em GC e resistentes a inibidores. Esses tampões pré-formulados podem ser rapidamente suplementados com diferentes concentrações de Mg2+e iniciador, bem como razões de grupo iniciador. Além disso, em algumas modalidades, uma variedade de condições de ciclagem (por exemplo, ciclagem térmica) pode ser avaliada e/ou usada. Ao avaliar se uma modalidade particular é apropriada ou não para uma aplicação desejada, podem ser avaliadas um ou mais especificidades, razão de cobertura de alelos para loci heterozigotos, equilíbrio entre focos e profundidade, entre outros aspectos. As medições do sucesso da amplificação podem incluir sequenciamento de DNA dos produtos, avaliação de produtos por eletroforese em gel ou capilar ou HPLC ou outros métodos de separação de tamanho, seguidos por visualização de fragmentos, análise da curva de fusão usando corantes de ligação de ácido nucleico de fita dupla ou sondas fluorescentes, espectrometria de massa ou outros métodos conhecidos na técnica.
De acordo com várias modalidades, qualquer um de uma variedade de fatores pode influenciar o comprimento de uma etapa de amplificação específica (por exemplo, o número de ciclos em uma reação de PCR, etc.). Por exemplo, em algumas modalidades, um material de ácido nucleico fornecido pode ser comprometido ou de outro modo subideal (por exemplo, degradado e/ou contaminado). Nesse caso, uma etapa de amplificação mais longa pode ser útil para garantir que um produto desejado seja amplificado em um grau aceitável. Em algumas modalidades, uma etapa de amplificação pode fornecer uma média de 3 a 10 cópias de PCR sequenciadas de cada molécula de DNA inicial, embora em outras modalidades, apenas uma cópia de cada uma da primeira fita e da segunda fita seja necessária. Sem desejar se apegar a uma teoria específica, é possível que muitas ou poucas cópias de PCR possam resultar em eficiência de ensaio reduzida e, finalmente, profundidade reduzida. Geralmente, o número de fragmentos de ácido nucleico (por exemplo, DNA) usados em uma reação de amplificação (por exemplo, PCR) é uma variável ajustável primária que pode ditar o número de leituras que compartilham a mesma sequência SMI / código de barras.
Material de ácido nucleico Tipos De acordo com várias modalidades, qualquer um de uma variedade de material de ácido nucleico pode ser usado. Em algumas modalidades, o material de ácido nucleico pode compreender pelo menos uma modificação em um polinucleotídeo dentro da espinha dorsal canônica de açúcar-fosfato. Em algumas modalidades, o material de ácido nucleico pode compreender pelo menos uma modificação dentro de qualquer base no material de ácido nucleico. Por exemplo, a título de exemplo não limitativo, em algumas modalidades, o material de ácido nucleico é ou compreende pelo menos um de DNA de fita dupla, DNA de fita simples, RNA de fita dupla, RNA de fita dupla, RNA de fita simples, ácidos nucleicos de peptídeo (PNAs), ácidos nucleicos bloqueados (LNAs).
Modificações De acordo com várias modalidades, o material de ácido nucleico pode receber uma ou mais modificações antes, substancialmente simultaneamente ou subsequentemente a qualquer etapa específica, dependendo da aplicação para a qual um método ou composição fornecida específica é usada.
Em algumas modalidades, uma modificação pode ser ou compreender reparo de pelo menos uma porção do material de ácido nucleico. Embora qualquer maneira apropriada de aplicação de reparo de ácido nucleico seja contemplada como compatível com algumas modalidades, certos métodos e composições exemplificativos são, portanto, descritos abaixo e nos Exemplos.
A título de exemplo não limitativo, em algumas modalidades, enzimas de reparo de DNA, como Uracil-DNA Glicosilase (UDG), Formamidopirimidina DNA glicosilase (FPG) e 8- oxoguanina DNA glicosilase (OGG1), podem ser utilizadas para corrigir danos ao DNA (por exemplo, danos ao DNA in vitro). Como discutido acima, essas enzimas de reparo do DNA, por exemplo, são glicosilases que removem bases danificadas do DNA. Por exemplo, o UDG remove o uracil resultante da desaminação da citosina (causada pela hidrólise espontânea da citosina) e o FPG remove 8-oxo-guanina (por exemplo, a lesão de DNA mais comum que resulta de espécies reativas de oxigênio). O FPG também tem atividade de liase que pode gerar folga de 1 base em sítios abásicos. Tais sítios abásico falharão subsequentemente em amplificar por PCR, por exemplo, porque a polimerase falha em copiar o modelo. Consequentemente, o uso de tais enzimas de reparo de danos ao DNA pode remover efetivamente o DNA danificado que não possui uma mutação verdadeira, mas que pode de outra forma ser não detectado como um erro após a sequência e a análise de sequência duplex.
Como discutido acima, em outras modalidades, as leituras de sequenciamento geradas a partir das etapas de processamento discutidas neste documento podem ser filtradas ainda mais para eliminar falsas mutações aparando as extremidades das leituras mais propensas a artefatos. Por exemplo, a fragmentação de DNA pode gerar porções de fita simples nas extremidades terminais das moléculas de fita dupla. Essas porções de fita simples podem ser preenchidas (por exemplo, por Klenow) durante o reparo final. Em alguns casos, as polimerases cometem erros de cópia nessas regiões reparadas finais, levando à geração de "moléculas pseudoduplex". Esses artefatos podem parecer verdadeiras mutações uma vez sequenciadas. Esses erros, como resultado de mecanismos de reparo final, podem ser eliminados da análise pós- sequenciamento aparando as extremidades das leituras de sequenciamento para excluir quaisquer mutações que possam ter ocorrido, reduzindo assim o número de falsas mutações. Em algumas modalidades, esse corte de leituras de sequenciamento pode ser realizado automaticamente (por exemplo, uma etapa normal do processo). Em algumas modalidades, uma frequência mutante pode ser avaliada para regiões terminais do fragmento e se um nível limiar de mutações for observado nas regiões terminais do fragmento, o corte de leitura de sequenciamento pode ser realizado antes de gerar uma leitura de sequência de consenso de fita dupla dos fragmentos de DNA.
O alto grau de correção de erros fornecido pela tecnologia de comparação de fitas de Sequenciamento Duplex reduz os erros de sequenciamento de moléculas de ácido nucleico de fita dupla em várias ordens de magnitude em comparação com os métodos padrão de sequenciamento de próxima geração. Esta redução nos erros melhora a precisão do sequenciamento em quase todos os tipos de sequências, mas pode ser particularmente adequada para sequências bioquimicamente desafiadoras que são bem conhecidas na técnica por serem particularmente propensas a erros. Um exemplo não limitativo desse tipo de sequência são os homopolímeros ou outros microssatélites / repetições em tandem curto. Outro exemplo não limitativo de sequências propensas a erros que se beneficiam da correção de erros de Sequenciamento Duplex são moléculas danificadas, por exemplo, por aquecimento, radiação, estresse mecânico ou uma variedade de exposições químicas que criam adutos químicos propensos a erros durante a cópia por uma ou mais polimerases nucleotídicas e também aquelas que criam DNA de fita simples nas extremidades das moléculas ou como cortes e folgas. Em modalidades adicionais, o Sequenciamento Duplex também pode ser usado para a detecção precisa de variantes de sequência minoritária entre uma população de moléculas de ácido nucleico de fita dupla. Um exemplo não limitativo desta aplicação é a detecção de um pequeno número de moléculas de DNA variantes (por exemplo, com variantes que foram induzidas, adquiridas e/ou selecionadas durante um evento de edição do genoma), entre um número maior de moléculas de DNA. Uma outra aplicação não limitativa para a detecção de variante rara por Sequenciamento Dduplex é a detecção precoce de danos ao DNA resultantes de um evento de edição genômica. Uma aplicação não limitativa adicional do Sequenciamento Duplex é para detecção e quantificação da expansão clonal de células (por exemplo, células com uma tendência de crescimento positivo, por exemplo, células contendo mutações sob pressão seletiva, por exemplo, mutações neoplásicas). Uma outra aplicação não limitativa do Sequenciamento Duplex é para avaliar o sucesso das atividades de edição do genoma alvo ou detecção de eventos aberrantes de edição do genoma.
Modalidades Selecionadas para Avaliação da Edição Genômica A edição de genoma, também conhecida como edição de genes e edição de genoma modificado geneticamente, entre outros nomes, é amplamente utilizada em aplicações como silenciamento de genes ou repressão transcricional, ativação transiente de genes endógenos, modificação genética de células tronco embrionárias, produção de terapias celulares para tratar doenças, geração de organismos transgênicos, engenharia genética de plantas para melhoramento de safras, entre outras aplicações agrícolas, e triagem por knockout de gene in vivo, destruição de loci genético negativo dominante, entre outros usos. Dependendo das aplicações pretendidas, as técnicas de edição do genoma podem ser eficazes para inserir, deletar, modificar, substituir, corrigir ou mutar sequência(s) de ácido nucleico no genoma do organismo vivo. Em aplicações particulares, modificações precisas em uma sequência genômica (tanto pretendida quanto não pretendida, desejada ou não desejada) podem ser verificadas usando a edição do genoma.
A caracterização do genoma após um processo de edição de genoma pode ser importante para determinar se uma mudança desejada em uma região ou locus alvo (por exemplo, um sítio genômico pretendido) do DNA foi alcançada, para determinar a eficiência do processo (por exemplo, para determinar a proporção de células que foram alteradas com precisão no sítio genômico pretendido) e para avaliar se quaisquer alterações foram feitas no genoma de células em um ou mais loci não pretendidos ou "fora do alvo" do genoma. Os métodos de sequenciamento do genoma (por exemplo, NGS) fornecem uma ferramenta para determinar a sequência de nucleotídeos em um ou mais sítios do genoma; no entanto, o nível de sensibilidade de precisão do sequenciamento de DNA necessário para identificar e quantificar eventos de edição de genes em uma população de células em uma base molécula por molécula não é alcançável com métodos
NGS convencionais. O Sequenciamento Duplex, conforme descrito neste documento fornece o nível de sensibilidade e correção de erro de sequenciamento necessários para caracterizar e determinar efetivamente o sucesso (e adequação e segurança) de um evento de edição de genoma, método ou reagente para uma aplicação pretendida.
Além de determinar as alterações genômicas que ocorrem em células em uma população de células após um evento de edição genômica, tais alterações genômicas podem criar pressão seletiva em uma ou mais células na população de células que podem fazer com que as células tenham uma tanto uma tendência de crescimento positivo quanto tendência de crescimento negativo em relação a outras células na população de células. Tal tendência de crescimento pode resultar na expansão clonal de células compreendendo tais vantagens de crescimento (em comparação com outras células na população de células). Aspectos da presente divulgação são direcionados à avaliação da expansão clonal e, em particular, avaliação do potencial neoplásico de tais células.
Exemplos Selecionados de Métodos de Sequenciamento Duplex para Caracterização de Edição de Genoma A presente divulgação fornece métodos úteis para caracterizar eventos de edição genômica e/ou populações de células após um evento de edição de genoma. A presente divulgação abrange o reconhecimento de que métodos de sequenciamento de altamente precisos, como métodos de Sequenciamento Duplex descritos acima, podem permitir a caracterização de alta resolução de células que foram submetidas à edição do genoma. A presente divulgação fornece métodos para a caracterização da precisão do evento de edição genômica, bem como métodos de avaliação de características de uma população de células com o tempo (por exemplo, durante um período de cultura das células e/ou durante um período de tratamento com as células), como determinar se há expansão clonal de células específicas em uma população de células.
A presente divulgação fornece métodos de caracterização de células após um evento de edição de genoma, por exemplo, um evento de edição de genoma modificado geneticamente. É importante ser capaz de detectar com precisão eventos de edição de genoma incorretos e/ou variações fora do alvo resultantes da edição do genoma. Por exemplo, a especificidade imperfeita da ligação específica do sítio modificado geneticamente pode levar à inserção, modificação ou deleção não pretendida de loci genômicos durante um evento de edição genômica. As consequências de tais alterações genômicas fora do alvo ou aberrantes podem ter consequências clínicas. É similarmente importante ser capaz de caracterizar a distribuição de tipos de eventos de edição genômica que ocorrem em um ou mais loci pretendidos em uma população de moléculas, por exemplo, após a clivagem por uma ribonucleoproteína direcionada, como Cas9, não homóloga propensa a erros a junção final pode levar a uma variedade de deleção de comprimento, inserção ou outros eventos mutacionais diferentes.
Em algumas modalidades, os métodos fornecidos são úteis para avaliar se um evento de edição genômica (por exemplo, um evento de edição genômica modificado direcionado a um locus genômico pretendido) procedeu corretamente. Em algumas modalidades, os métodos fornecidos são úteis para avaliar se uma ou mais mutações indesejadas são introduzidas durante um evento de edição genômica. Em algumas modalidades, os métodos fornecidos podem ser usados para determinar se as mutações (por exemplo, acontecendo em um pequeno número de células entre uma população de células) são introduzidas ou se um evento de edição de genoma incorreto ocorreu em uma ou mais células de uma população. Em algumas modalidades métodos fornecidos podem ser usados para caracterizar a distribuição de tipos de eventos de edição genômica que ocorrem em um ou mais loci pretendidos em uma população de moléculas.
Em algumas modalidades são fornecidos métodos de caracterização de uma população de células após um evento de edição genômica (por exemplo, um evento de edição genômica modificado direcionado a um locus genômico pretendido), tais métodos geralmente incluem uma etapa de fornecer uma amostra que inclui uma população de duplo moléculas de DNA em cadeia. Essas moléculas de DNA de fita dupla podem ser extraídas ou originadas de uma população de células a serem analisadas (por exemplo, uma população de células que passaram por um evento de edição do genoma, por exemplo, um evento de edição do genoma modificado geneticamente). Em algumas modalidades as moléculas de DNA de fita dupla podem ser isoladas de DNA não celular, como DNA sem células de DNA de exossomos ou outras vesículas extracelulares de uma população de células a ser analisada. Em algumas modalidades, os métodos fornecidos incluem o uso de Sequência Duplex para gerar leituras de sequência corrigidas de erro das moléculas de DNA de fita dupla originais comparando pelo menos uma leitura de sequência de primeira fita e pelo menos uma leitura de sequência de segunda fita para identificar uma ou mais correspondências entre as leituras de sequência de primeira e segunda fitas. Em um exemplo particular, as posições de nucleotídeos que estão em concordância entre as leituras de sequência da primeira e segunda fita podem ser identificadas como a chamada base de nucleotídeo precisa.
Em algumas modalidades são fornecidos métodos de geração de leituras de sequenciamento de alta precisão de uma população de moléculas de ácido nucleico de fita dupla alvo extraídas de uma população de células editadas pelo genoma. Tais métodos incluem Sequenciamento Duplex de uma ou mais moléculas de ácido nucleico de fita dupla alvo extraídas de uma população de células e geração de sequências de consenso de alta precisão para as moléculas de DNA de fita dupla alvo. Em algumas modalidades, as moléculas de ácido nucleico de fita dupla alvo compreendem uma região editada do genoma pretendida de DNA e uma ou mais regiões genômicas não pretendidas de DNA.
Em algumas modalidades, os métodos fornecidos incluem ainda comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência em um locus genômico pretendido com uma sequência de DNA editada do genoma antecipada; e/ou comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência em um locus genômico não pretendido com uma sequência de DNA do genoma de referência.
Em algumas modalidades, a geração de uma leitura de sequência corrigida de erro para cada uma de uma pluralidade das moléculas de DNA de fita dupla compreende ainda o enriquecimento seletivo de uma ou mais regiões genômicas direcionadas antes do sequenciamento para fornecer uma pluralidade de moléculas de DNA adaptador enriquecidas. Em algumas modalidades, os métodos fornecidos são úteis para identificar uma ou mais variantes entre as moléculas de DNA de fita dupla de uma população de células (por exemplo, moléculas de DNA de fita dupla que originaram e/ou foram extraídas de uma população de células que passou por um evento de edição do genoma). Em algumas modalidades, os métodos fornecidos incluem uma etapa de identificar uma ou mais variantes entre as moléculas de DNA de fita dupla de uma população de células.
Em algumas modalidades, uma ou mais regiões genômicas direcionadas para ser analisadas por métodos de Sequenciamento Duplex são ou incluem um locus genômico pretendido (isto é, um locus pretendido para edição genômica) no genoma. Em algumas modalidades, os métodos fornecidos incluem uma etapa de determinar se uma ou mais leituras de sequência corrigida de erro compreendem a sequência de DNA editada antecipada no locus genômico pretendido. Assim, os métodos fornecidos podem ser úteis para avaliar o sucesso do evento de edição genômica.
Em algumas modalidades, são fornecidos neste documento métodos para avaliar o sucesso e/ou uma eficiência de obtenção de um resultado desejado de um evento de edição de genoma modificado. Em algumas modalidades, os métodos fornecidos compreendem uma etapa de determinar uma frequência da sequência de DNA editada do genoma antecipada entre as leituras de sequência corrigidas por erro que compreendem a sequência no locus genômico pretendido.
Em algumas modalidades, são fornecidos neste documento métodos para avaliar a precisão de um evento de edição de genoma modificado que inclui a introdução de uma sequência de DNA (por exemplo, uma porção de um gene de sequência codificante, uma porção de uma sequência não codificante de um gene, um gene, etc.) nos genomas das células da população. Em algumas modalidades, são fornecidos neste documento métodos para avaliar a precisão de um evento de edição de genoma modificado que inclui a deleção de uma sequência de DNA (por exemplo, uma porção de um gene de sequência codificante, uma porção de uma sequência não codificante de um gene, um gene, etc.) dos genomas das células da população. Em algumas modalidades, um gene introduzido e/ou deletado codifica um RNA ou polipeptídeo funcional.
Em algumas modalidades, são fornecidos neste documento métodos para caracterizar uma eficiência de um evento de edição genômica modificado geneticamente em uma população de células, em que o evento de edição genômica modificado geneticamente é direcionado a um locus genômico pretendido. Em algumas modalidades, tais métodos incluem Sequenciamento Duplex. Por exemplo, em algumas modalidades, os métodos fornecidos incluem a preparar uma biblioteca de sequenciamento de uma amostra compreendendo uma pluralidade de moléculas de DNA de fita dupla originadas da população de células após um evento de edição genômica, onde a preparação da biblioteca de sequências compreende a ligação de moléculas adaptadoras assimétricas à pluralidade de moléculas de DNA de fita dupla para gerar uma pluralidade de moléculas adaptadoras de DNA; sequenciar a primeira e a segunda fitas das moléculas adaptadoras de DNA para fornecer uma leitura de sequência da primeira fita e uma leitura de sequência da segunda fita para pelo menos uma porção das moléculas adaptadoras de DNA; e para cada molécula adaptadora de DNA sequenciada, comparar a leitura de sequência da primeira fita e a leitura da segunda sequência de fita para identificar uma ou mais correspondências entre as leituras de sequências da primeira e segunda fita. Em algumas modalidades, os métodos fornecidos incluem determinar uma frequência de uma sequência genômica antecipada no locus genômico pretendido entre a pluralidade de moléculas de DNA de fita dupla compreendendo o locus genômico pretendido. Em algumas modalidades, uma frequência de uma sequência genômica antecipada no locus genômico pretendido é determinada analisando uma ou mais correspondências entre as leituras de sequência de primeira e segunda fita e comparando as correspondências com a sequência genômica antecipada.
Em algumas modalidades, os métodos fornecidos para caracterizar uma eficiência de um evento de edição genômica modificado incluem enriquecer seletivamente uma ou mais regiões genômicas direcionadas antes do sequenciamento para fornecer uma pluralidade de moléculas de DNA adaptador enriquecidas. Em algumas modalidades, os métodos fornecidos incluem caracterizar uma ou mais regiões genômicas direcionadas. Em algumas modalidades, uma ou mais regiões genômicas direcionadas incluem um locus genômico pretendido no genoma; pelo menos um locus genômico não pretendido no genoma; ou um locus genômico tanto pretendido quanto não pretendido.
Em algumas modalidades, são fornecidos neste documento métodos para determinar se o DNA foi editado com sucesso pelo genoma em um locus genético pretendido usando um evento de edição genômica direcionado modificado geneticamente. Tais métodos podem incluir etapas de: fornecer leituras de sequenciamento de erro corrigido duplex para uma pluralidade de moléculas de DNA de fita dupla extraídas de uma amostra após o evento de edição genômica direcionado modificado geneticamente; e para cada locus genético em um conjunto de um ou mais loci genéticos em um genoma de referência, quantificar as moléculas de DNA de fita dupla para as quais as leituras de sequenciamento duplex corrigido de erro têm sequências substancialmente iguais a uma sequência esperada.
Em algumas modalidades, os métodos fornecidos incluem analisar uma ou mais correspondências entre leituras de sequência de primeira e segunda fita derivadas de moléculas de DNA de fita dupla compreendendo sequências de um ou mais loci genômicos indesejados; e comparar as correspondências a uma sequência de genoma de referência; e determinar a frequência de uma ou mais variantes entre a pluralidade de moléculas de DNA de fita dupla compreendendo um ou mais loci genômicos não pretendidos. Em geral, uma sequência esperada (por exemplo, sequências de referência) pode ser usada para identificar um evento de edição incorreto ou mutação, ou em outras modalidades um evento de edição "fora do alvo" que pode ter ocorrido em outro lugar no genoma (por exemplo, um locus genômico não pretendido). Em algumas modalidades, os métodos fornecidos podem ser usados para identificar uma sequência inalterada (por exemplo, um genoma que não foi editado com sucesso).
Em algumas modalidades, são fornecidos neste documento métodos para detectar e/ou quantificar incidências onde um evento de edição genômica foi mal sucedido (por exemplo, em que um locus genômico pretendido compreende uma sequência inalterada, em que um locus genômico pretendido compreende uma sequência alterada indesejada ou não pretendido, em que um locus genômico não pretendido compreende uma sequência alterada como resultado do evento de edição genômica). Em algumas modalidades, são fornecidos neste documento métodos para avaliar uma proporção de células não editadas em uma população. Por exemplo, uma porção de células na população de células que passaram por um evento de edição do genoma pode permanecer inalterada no locus genômico pretendido. A determinação de uma eficiência do evento de edição genômica pode incluir determinar uma proporção de moléculas de DNA de fita dupla originais que compreendem a sequência no locus genômico pretendido que permanecem inalteradas. Da mesma forma, os métodos podem incluir quantificar o número ou proporção de moléculas de DNA de fita dupla originais compreendendo a sequência alterada desejada no locus genômico pretendido.
Em algumas modalidades, são fornecidos neste documento métodos para detectar e/ou quantificar incidências em que um evento de edição de genoma modificado geneticamente estava incorreto. Em algumas modalidades, os métodos fornecidos incluem detectar e/ou quantificar a presença de uma ou mais variantes na sequência de um locus genômico pretendido.
Em algumas modalidades, uma ou mais variantes incluem uma mutação incorreta na sequência do locus genômico pretendido. Por exemplo, em algumas modalidades, uma mutação incorreta na sequência do locus genômico pretendido para edição genômica é devido a um evento de junção de extremidade não homóloga (NHEJ). Em algumas modalidades a mutação causada por NHEJ é desejada e é uma mutação pretendida. Em algumas modalidades, os métodos fornecidos incluem determinar uma frequência de uma sequência de DNA indesejada entre as leituras de sequência corrigidas por erro que compreendem a sequência no locus genômico pretendido.
Em algumas modalidades, um evento de edição genômica projetado geneticamente é direcionado a uma pluralidade de loci genômicos pretendidos (por exemplo, genoma multiplex modificado geneticamente). Em algumas modalidades, são fornecidos neste documento métodos para caracterizar uma pluralidade de loci genômicos que são direcionados pela edição do genoma. Em algumas modalidades, são fornecidos neste documento métodos para avaliar o sucesso da edição do genoma modificado geneticamente em dois ou mais loci pretendidos (por exemplo, 2, 3, 4, 5, 6, 7 ou mais). Em algumas modalidades, são fornecidos aqui métodos para detectar e/ou quantificar incidências em que pelo menos um de uma pluralidade de eventos de edição do genoma foi mal sucedido ou incorreto.
Em algumas modalidades, os métodos fornecidos também podem incluir uma etapa de determinar se uma ou mais leituras de sequência corrigida de erro compreendendo a sequência no locus genômico não pretendido compreende uma variante.
Em algumas modalidades, uma ou mais regiões genômicas direcionadas a serem analisadas por métodos de sequenciamento duplex são ou incluem pelo menos um locus genômico não pretendido no genoma. Em algumas modalidades, uma ou mais variantes são identificadas em uma ou mais leituras de sequência corrigidas por erro compreendendo uma sequência em um locus genômico não pretendido. Essas variantes podem compreender uma mutação funcionalmente disruptiva (por exemplo, uma que interrompe a função da proteína e tem o potencial de causar câncer).
Em algumas modalidades, os métodos fornecidos incluem uma etapa de determinar uma frequência de uma ou mais variantes em um locus genômico não pretendido, entre a pluralidade de moléculas de DNA de fita dupla. Em algumas modalidades, os métodos fornecidos incluem uma etapa de determinar uma frequência de uma ou mais variantes em uma pluralidade de (por exemplo, dois ou mais) diferentes locais genômicos não pretendidos. Em algumas modalidades, tal comparação de leituras de sequência corrigida de erro pode incluir comparar as sequências em uma pluralidade de loci genômicos não pretendidos com uma sequência de DNA do genoma de referência.
Em algumas modalidades, os loci genômicos não pretendidos compreendem um ou mais de um local propenso a mutação, um locus microssatélites, uma sequência com homologia de sequência ao locus genômico pretendido e/ou um condutor de câncer.
Em algumas modalidades, um locus não pretendido é ou compreende uma sequência que é um sítio propenso a mutação dentro do genoma.
Em algumas modalidades, um locus não pretendido é ou compreende uma sequência que é um locus microssatélite. Geralmente, microssatélites são sequências de DNA repetitivas curtas, que estão propensas a erros ou mutações. Em células neoplásicas, uma mutação de microssatélites pode levar ao encurtamento ou alongamento de sequências de microssatélites, causando instabilidade de microssatélites (instabilidade de microssatélites, MSI).
Em algumas modalidades, um locus não pretendido é ou compreende uma sequência que é pelo menos parcialmente semelhante à sequência no locus genômico pretendido. Em algumas modalidades, um locus não pretendido é ou compreende uma sequência com homologia a um genômico pretendido para edição. Em algumas modalidades, um locus não pretendido compreende uma sequência com pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98% ou pelo menos 99% de similaridade com pelo menos uma porção de um locus genômico pretendido para edição. Em algumas modalidades, um locus não pretendido compreende uma sequência com pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99% ou 100% de identidade com pelo menos uma porção de um locus genômico pretendido para edição. Em algumas modalidades, pelo menos uma porção de um locus genômico pretendido tem pelo menos 10 bases, pelo menos 15 bases, pelo menos 20 bases, pelo menos 25 bases, pelo menos 30 bases, pelo menos
40 bases, pelo menos 50 bases ou mais. Em algumas modalidades, um locus não pretendido compreende uma sequência com pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%. pelo menos 98%, ou pelo menos 99% de similaridade com uma sequência de um polinucleotídeo guia (por exemplo, uma molécula de RNA guia sintética (gRNA)) usada em um processo de edição do genoma. Em algumas modalidades, um locus não pretendido compreende uma sequência com pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%. pelo menos 98%, ou pelo menos 99% de identidade com uma sequência de um polinucleotídeo guia (por exemplo, uma molécula de RNA guia sintética (gRNA)) usada em um processo de edição do genoma.
Em algumas modalidades, um locus não pretendido é ou compreende um gene supressor de tumor, um oncogene, um proto-oncogene e/ou um condutor de câncer. Em algumas modalidades, um condutor de câncer é um condutor de câncer conhecido do Censo de Genes do Câncer (CGC) ou do banco de dados COSMIC (genes causalmente implicados no câncer). Em algumas modalidades, um gene condutor de câncer é ou inclui: ABL, ACC, BCR, BLCA, BRCA, CESC, CHOL, COAD, DLBC, DNMT3A, EGFR, ESCA, GBM, HNSC, KICH, KIRC, KIRP, LAML, LGG, LIHC, LUAD, LUSC, MESO, OV, PAAD, PCPG, PI3K, PIK3CA, PRAD, PTEN, READ, SARC, SKCM, STAD, TGCT, THCA, THYM, UCEC, UCS, e/ou UVM. Em algumas modalidades, um gene condutor de câncer é ou inclui TP53. Em algumas modalidades, um gene condutor de câncer é ou inclui HRAS, NRAS, ou KRAS.
Em algumas modalidades, se uma variante for detectada em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas na população de moléculas, então o método pode incluir ainda uma etapa de determinar uma frequência variante da variante entre a pluralidade de moléculas de DNA marcadas enriquecidas.
Exemplos Selecionados de Métodos de Sequenciamento Duplex para Avaliação da Seleção Clonal e Expansão Clonal A capacidade de detectar e quantificar a expansão clonal de células contendo mutações sob pressão seletiva pode ser importante para avaliar o risco de câncer, identificar carcinógenos e prever o impacto da exposição em humanos, determinar o sucesso de terapias clínicas, determinar o sucesso da edição do genoma direcionado, etc. No entanto, as ferramentas atuais são lentas, pesadas e/ou limitadas nas informações fornecidas. Muitas ferramentas não têm sensibilidade para detectar a expansão neoplásica em estágio inicial de um clone selecionado sob pressão.
Muitos eventos podem resultar em alterações no genoma celular, como inserções, deleções, quebras e/ou rearranjos, que podem levar ao câncer se o dano não levar imediatamente à morte celular. Em certas populações de células, as células que abrigam mutações nos genes condutores do câncer (por exemplo, genes supressores de tumor ou proto-oncogenes) podem ser mascaradas pelo contexto da população de células e do crescimento clonal de células vizinhas. No entanto, um evento que pode interromper o crescimento clonal de algumas células (por exemplo, dano deletério ao DNA que causa parada do ciclo celular, morte celular, etc.), oferece oportunidade para o crescimento seletivo de células com vantagens de crescimento e tais clones podem se povoar desproporcionalmente através da expansão celular após o evento. Os eventos que causam pressão seletiva podem ser qualquer evento, mudança, tratamento, processo ou outra exposição (química, biológica, física) que fornecem pressão evolutiva nas células que podem se adaptar e/ou superar os vizinhos. Essa pressão seletiva pode estar presente em configurações in vivo ou in vitro. Por exemplo, um xenoenxerto em um sujeito humano ou animal pode demonstrar expansão seletiva de algumas células sobre outras. Em um outro exemplo, após a edição genômica direcionada, algumas células que abrigam vantagens evolutivas podem competir com outras células vizinhas em cultura de células. Em tais casos, a frequência do alelo variante dos clones celulares à medida que se expandem pode representar as respectivas taxas de crescimento e fornecer uma visão sobre a vantagem ou desvantagem seletiva das diferentes variantes representadas. Consequentemente, a frequência de alelo variante de moléculas representativas conforme detectado por Sequenciamento Duplex pode ser usada para descobrir clones de células que transportam mutações que superam outras células sob pressões seletivas. Certas dessas mutações seriam problemáticas em ambientes clínicos e terapias em que as células seriam introduzidas em um paciente.
Em algumas modalidades, os métodos fornecidos são realizados em múltiplos pontos de tempo para avaliar mudanças na frequência e/ou abundância de uma ou mais variantes. Em algumas modalidades, os métodos fornecidos são realizados em um primeiro ponto de tempo e em um segundo ponto de tempo posterior. Em algumas modalidades, um segundo ponto de tempo é pelo menos 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 60, 90 ou 180 dias após um primeiro ponto de tempo. Em algumas modalidades, tanto o primeiro quanto o segundo pontos de tempo ocorrem em cerca de 30 dias, em cerca de 45 dias, em cerca de 60 dias, em cerca de 75 dias ou em cerca de 90 dias após o evento de edição genômica modificado geneticamente. Análise em múltiplos pontos de tempo pode ser útil para avaliar o potencial neoplásico ou um aumento no potencial neoplásico. Por exemplo, uma população de células é determinada como tendo potencial neoplásico se a frequência variante do segundo ponto de tempo for maior do que a frequência variante do primeiro ponto de tempo.
Em algumas modalidades, os métodos fornecidos são realizados em múltiplos pontos de tempo para avaliar mudanças na frequência e/ou abundância de uma ou mais variantes. Em algumas modalidades, os métodos fornecidos incluem a detecção e/ou quantificação de variantes em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas. Em algumas modalidades, os métodos fornecidos incluem uma etapa de determinar uma frequência variante da variante entre a pluralidade de moléculas de DNA marcadas enriquecidas em um primeiro ponto de tempo e também em um segundo ponto de tempo posterior.
Em algumas modalidades, um primeiro ponto de tempo é antes de uma etapa de edição genômica e um segundo ponto de tempo é após uma etapa de edição genômica. Em algumas modalidades, os métodos fornecidos incluem a detecção e/ou quantificação de variantes em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas e a determinação de uma frequência variante da variante entre a pluralidade de moléculas de DNA marcadas enriquecidas.
Edição de Genoma Embora os métodos fornecidos se refiram a "edição do genoma", deve ser entendido que a "edição do genoma", conforme divulgado neste documento, inclui edição in vivo (por exemplo, reparo incorreto, inserção ou outra alteração do sítio alvo) de qualquer molécula de DNA direcionada dentro a célula hospedeira ou um pedaço de DNA de fita dupla ligado à membrana, por exemplo, um cromossomo nativo, um cromossomo sintético, uma molécula epissomal sintética ou de ocorrência natural, um construto viral, etc. Em algumas modalidades, uma atividade de edição do genoma é modificada geneticamente ou natural. Por exemplo, o sistema CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) / Cas (associado a CRISPR) evoluiu em bactérias e archaes como um sistema imunológico adaptativo para se defender contra o ataque viral. A edição genômica natural pode ser mediada por vírus ou elementos virais, elementos genéticos móveis ou transponíveis, etc. Os elementos genéticos móveis são agentes genéticos de interação que replicam por processos tanto de cortar e colar (transposons de DNA; elementos de classe II) quanto copiar e colar (retroposons; elementos de classe I). Elementos genéticos móveis são geralmente flanqueados por sequências repetidas.
Em algumas modalidades, uma atividade de edição do genoma é modificada geneticamente. Em algumas modalidades, um evento de edição de genoma modificado usa uma endonuclease direcionada. Endonucleases direcionadas exemplares e métodos de usar as mesmas são fornecidos abaixo. Em algumas modalidades, um evento de edição genômica modificado geneticamente é um evento de recombinação homóloga mediado por substrato de polinucleotídeo. Em algumas modalidades, um evento de edição genômica modificado geneticamente introduz quebras de DNA, adutos de DNA, dano oxidante de DNA, outras formas de dano de DNA, cortes de DNA, desaminação de DNA. Em modalidades de cúpula, as mudanças genéticas são introduzidas por uma combinação de clivagem com uma endonuclease direcionada e recombinação homóloga com um molde de recombinação fornecido com uma variante a ser introduzida por meio de recombinação homóloga. Em algumas modalidades, um evento de edição genômica direcionado é realizado por um retrovírus ou um outro vírus.
Sem limitação, a edição do genoma pode interromper um ou mais genes ou loci não gênicos pela inserção de um fragmento doador que "elimina" o gene ou que interrompe uma sequência não codificante que resulta em expressão reduzida do gene ou tradução reduzida em uma proteína funcional. Alternativamente, ou além disso, a edição do genoma pode introduzir elementos de expressão genética, como promotores, intensificadores, etc., que podem aumentar a expressão de um gene ou repressores ou outros elementos que reduzem a expressão de um gene ou outro transcrito (como um microRNA ou um pseudogene regulador. A edição do genoma, conforme divulgada neste documento, pode ainda ser usada para introduzir genes tais como genes exógenos, em um locus. Usando os métodos de edição de genoma descritos neste documento, múltiplos genes podem ser introduzidos em um sítio alvo do genoma em um fragmento doador. Um fragmento doador pode incluir opcionalmente um gene marcador detectável, por exemplo, um gene de proteína fluorescente, que pode ser usado para avaliar a penetrância do gene ou genes introduzidos que estão fisicamente ligados ao gene marcador detectável, usando os métodos fornecidos neste documento.
Endonucleases Direcionadas Uma faixa de ferramentas moleculares foi desenvolvida recentemente para permitir a engenharia genética específica, particularmente de genomas eucarióticos. Inicialmente foram desenvolvidas as nucleases de dedo de zinco (ZFNs), seguidas por Nucleases efetoras do tipo a ativador de transcrição (TALENs). Com o desenvolvimento do sistema CRISPR / Cas9, a edição do genoma direcionada foi alcançada em todas as espécies eucarióticas. Um sistema CRISPR / Cas9 geralmente compreende uma endonuclease Cas9 (por exemplo, de Streptococcus pyogenes) e uma molécula de RNA guia sintético (gRNA) que combina as funções de RNA CRISPR (cRNA) e cRNA de transativação (tracrRNA). Um gRNA direciona uma endonuclease Cas9 para uma sequência alvo complementar a 20 nucleotídeos precedendo uma sequência NGG de motivo associado ao protoespaçador (PAM) necessária para a atividade Cas9. Em algumas modalidades, cRNA e tracrRNA podem ser combinados em um único RNA que pode conter modificações de nucleotídeos.
No contexto da presente divulgação, qualquer número de endonucleases direcionadas (por exemplo, um complexo de ribonucleoproteína associada a CRISPR, como Cas9 ou Cpf1, uma nuclease teleguiadas, uma nuclease de dedo de zinco, uma TALEN, uma nuclease megaTAL, uma nuclease de argonauta, e/ou seus derivados) podem ser usados para induzir a mutagênese pretendida (por exemplo, edição do genoma) em vários organismos. Em algumas modalidades, a endonuclease direcionada é uma nuclease específica de sítio capaz de gerar quebras de fita dupla (DSBs) em posições selecionadas ao longo de uma fita de DNA. Em algumas modalidades, a endonuclease direcionada é uma nuclease específica de sítio capaz de gerar cortes de fita simples em posições selecionadas ao longo de uma fita de DNA.
Em algumas modalidades, uma endonuclease direcionada pode ser modificada, tal como tendo uma substituição de aminoácido fornecida, por exemplo, termoestabilidade aumentada, tolerância ao sal e/ou tolerância ao pH. Em outras modalidades, uma endonuclease direcionada pode ser biotinilada, fundida com estreptavidina e/ou incorporada a outra tecnologia baseada em afinidade (por exemplo, isca / presa). Em certas modalidades, uma endonuclease direcionada pode ter uma especificidade de sítio de reconhecimento alterada (por exemplo, variante de SpCas9 com especificidade de sítio PAM alterada).
Em algumas modalidades, um evento de edição genômica modificado geneticamente é um evento mediado por CAS ou CPF-1 modificado. Em algumas modalidades, um evento de edição genômica modificado geneticamente é um evento de edição mediado por Cas9. Em algumas modalidades, um evento de edição genômica modificado geneticamente é um evento de edição mediado por CPF1. Em algumas modalidades, um evento de edição genômica modificado geneticamente é realizado por uma TALEN, megaTAL, nuclease de dedos de zinco, uma endonuclease teleguiada, uma endonuclease de restrição.
Endonucleases direcionadas baseadas em CRISPR são discutidas adicionalmente neste documento para fornecer um exemplo não limitativo detalhado adicional de uso de uma endonuclease direcionada. Notamos que a nomenclatura em torno de tais nucleases direcionadas permanece em fluxo. Para propósitos neste documento, usamos o termo "baseado em CRISPER" para geralmente significar endonucleases que compreendem uma sequência de ácido nucleico, cuja sequência pode ser modificada para redefinir uma sequência de ácido nucleico a ser clivada. Cas9 e CPF1 são exemplos de tais endonucleases direcionadas atualmente em uso, mas muitos mais parecem existir em diferentes lugares no mundo natural e a disponibilidade de diferentes variedades de tais nucleases direcionadas e facilmente ajustáveis deverá crescer rapidamente nos próximos anos. Da mesma forma, múltiplas variantes modificadas geneticamente dessas enzimas para melhorar ou modificar suas propriedades estão se tornando disponíveis. Neste documanto, contemplamos explicitamente o uso de endonucleases direcionadas substancialmente funcionalmente semelhantes, não explicitamente descritas neste documento ou ainda não descobertas, para atingir um propósito semelhante às divulgações descritas aqui.
Células e Vetores para Edição de Genoma Os sistemas e/ou métodos de edição genômica podem incluir um vetor viral, por exemplo, adenovírus ou vírus adenoassociado (AAV). Normalmente, um DNA de vetor de expressão pode ser entregue a uma célula por transformação, eletroporação ou vírus (AAV). Além disso, o RNA pode ser entregue em uma célula por injeção ou eletroporação. As proteínas podem ser entregues às células por eletroporação, marcadores de peptídeo (HIV).
A presente divulgação fornece células cujos genomas devem ser editados e/ou foram editados. Os métodos fornecidos podem ser realizados com quaisquer células que podem ser cultivadas, incluindo células procarióticas (bactérias e archeas) e células eucarióticas, incluindo, sem limitação, células vegetais, células animais e protozoários, fungos e algas. Em algumas modalidades, as populações de células a ser editadas e/ou analisadas no contexto da presente divulgação são células tronco pluripotentes, células-tronco embrionárias, células imunes ou células vegetais.
Em algumas modalidades, as populações de células a ser editadas e/ou analisadas no contexto da presente divulgação são ou incluem células animais (por exemplo, células de mamíferos, por exemplo, células humanas). Em algumas modalidades, as populações de células são ou incluem células-tronco de mamíferos. Em algumas modalidades, as populações de células a ser editadas no contexto da presente divulgação são ou incluem células vegetais.
Kits com Reagentes Os aspectos da presente tecnologia abrangem ainda kits para a condução de vários aspectos dos métodos de Sequenciamento Duplex (também aqui referidos como um "kit DS"). Em algumas modalidades, um kit pode compreender vários reagentes, junto com instruções para conduzir um ou mais dos métodos ou etapas do método divulgados neste documento para extração de ácido nucleico, preparação, amplificação e sequenciamento da biblioteca de ácidos nucleicos (por exemplo, por meio de PCR). Em uma modalidade, um kit pode incluir ainda um produto de programa de computador (por exemplo, algoritmo codificado para ser corrido em um computador, um código de acesso para um servidor baseado em nuvem para executar um ou mais algoritmos, etc.) para analisar dados de sequenciamento (por exemplo, dados de sequenciamento brutos,
leituras de sequenciamento, etc.) para determinar, por exemplo, um evento de edição de genoma bem sucedido, um evento de edição de genoma incorreto, um evento de edição de genoma não pretendido (por exemplo, fora do alvo), uma seleção clonal, uma expansão clonal, etc., associado a uma amostra e de acordo com aspectos da tecnologia atual. Os kits podem incluir padrões de DNA e outras formas de controles positivos e negativos.
Em algumas modalidades, um kit DS pode compreender reagentes ou combinações de reagentes adequados para realizar vários aspectos da preparação da amostra (por exemplo, manipulação de tecido, extração de DNA, fragmentação de DNA), preparação, amplificação e sequenciamento da biblioteca de ácido nucleico. Por exemplo, um kit DS pode opcionalmente compreender um ou mais reagentes de extração de DNA (por exemplo, tampões, colunas, etc.) e/ou reagentes de extração de tecido. Opcionalmente, um kit DS pode ainda compreender um ou mais reagentes ou ferramentas para fragmentar o DNA de fita dupla, como por meios físicos (por exemplo, tubos para facilitar o corte ou sonicação acústica, unidade de nebulização etc.) ou meios enzimáticos (por exemplo, enzimas para cisalhamento genômico aleatório ou semi-aleatório e enzimas de reação apropriadas). Por exemplo, um kit pode incluir reagentes de fragmentação de DNA para fragmentar enzimaticamente o DNA de fita dupla que inclui uma ou mais enzimas para digestão direcionada (por exemplo, endonucleases de restrição, endonucleases CRISPR / Cas e guias de RNA e/ou outras endonucleases), coquetéis Fragmentase de fita dupla, enzimas DNase de fita simples (por exemplo, nuclease de feijão mungo, nuclease S1) para renderizar fragmentos de DNA predominantemente de fita dupla e/ou destruir DNA de fita simples e tampões e soluções apropriadas para facilitar essas reações enzimáticas.
Em uma modalidade, um kit DS compreende iniciadores e adaptadores para preparar uma biblioteca de sequências de ácidos nucleicos a partir de uma amostra que é adequada para executar etapas do processo de Sequenciamento Duplex para gerar sequências corrigidas por erros (por exemplo, alta precisão) de moléculas de ácidos nucleicos de fita dupla na amostra. Por exemplo, o kit pode compreender pelo menos um conjunto de moléculas adaptadoras compreendendo sequências de identificador de molécula única (SMI) ou as ferramentas (por exemplo, oligonucleotídeos de fita simples) para o usuário criá-lo. Em algumas modalidades, o grupo de moléculas adaptadoras compreenderá um número adequado de sequências SMI substancialmente únicas, de modo que uma pluralidade de moléculas de ácido nucleico em uma amostra possa ser substancialmente marcada exclusivamente após a ligação das moléculas adaptadoras, isoladamente ou em combinação com características únicas dos fragmentos aos quais estão ligados. Alguém experiente na técnica da marcação molecular reconhecerá que o que implica um número "adequado" de sequências SMI variará por várias ordens de magnitude, dependendo de vários fatores específicos (DNA de entrada, tipo de fragmentação de DNA, tamanho médio de fragmentos, complexidade versus repetitividade sequências sendo sequenciadas dentro de um genoma etc.) Opcionalmente, as moléculas adaptadoras incluem ainda um ou mais sítios de ligação ao iniciador de PCR, um ou mais sítios de ligação ao iniciador de sequenciamento, ou ambos. Em uma outra modalidade, um kit DS não inclui moléculas adaptadoras que compreendem sequências ou códigos de barras SMI, mas em vez disso inclui moléculas adaptadoras convencionais (por exemplo, adaptadores de sequenciamento em formato de Y, etc.) e várias etapas do método podem utilizar SMIs endógenas para relacionar as leituras da sequência de moléculas. Em algumas modalidades, as moléculas adaptadoras são adaptadoras de indexação e/ou compreendem uma sequência de indexação. Em outras modalidades, os índices são adicionados a amostras específicas por através de "cauda" por PCR usando iniciadores fornecidos em um kit Em uma modalidade, um kit DS compreende um conjunto de moléculas adaptadoras, cada uma tendo uma região não complementar e/ou algum outro elemento de definição de fita (SDE), ou as ferramentas para o usuário criá-lo (por exemplo, oligonucleotídeos de fita simples). Em outra modalidade, o kit compreende pelo menos um conjunto de moléculas adaptadoras em que pelo menos um subconjunto das moléculas adaptadoras cada uma compreende pelo menos um SMI e pelo menos um SDE, ou as ferramentas para criá-los. Recursos adicionais para iniciadores e adaptadores para a preparação de uma biblioteca de sequenciamento de ácido nucleico a partir de uma amostra que é adequada para executar as etapas do processo de Sequenciamento Duplex estão descritos acima, bem como divulgados na Patente U.S. 9.752.188, Publicação Internacional de Patente WO2017 / 100441 e Pedido de Patente Internacional PCT / US18 / 59908 (depositado em 8 de novembro de 2018), todos os quais são incorporados por referência neste documento em suas totalidades.
Adicionalmente, um kit pode incluir ainda materiais de quantificação de DNA,
como, por exemplo, corante de ligação de DNA, como verde SYBR™ ou ouro SYBR ™ (disponível na Thermo Fisher Scientific, Waltham, MA) ou similar para uso com um fluorômetro Qubit (por exemplo, disponível na Thermo Fisher Scientific, Waltham, MA) ou o corante PicoGreen™ (por exemplo, disponível na Thermo Fisher Scientific, Waltham, MA) para uso em um espectrômetro de fluorescência adequado ou máquina de PCR em tempo real ou máquina de PCR em gotas digital. Outros reagentes adequados para quantificação de DNA em outras plataformas também são contemplados. Outras modalidades incluem kits que compreendem um ou mais reagentes de seleção de tamanho de ácido nucleico (por exemplo, esferas magnéticas, géis, colunas de Imobilização Reversível em Fase Sólida (SPRI)), colunas para captura de DNA alvo usando hibridação isca / oração, reagentes qPCR (por exemplo, para determinação de número de cópias) e/ou reagentes de PCR para gotículas digitais. Em algumas modalidades, um kit pode opcionalmente incluir uma ou mais enzimas de preparação de bibliotecas (ligase, polimerase(s), endonuclease(s), transcriptase reversa para, por exemplo, interrogações de RNA), dNTPs, tampões, reagentes de captura (por exemplo, esferas, superfícies, tubos revestidos, colunas, etc.), iniciadores de indexação, iniciadores de amplificação (iniciadores de PCR) e iniciadores de sequenciamento. Em algumas modalidades, um kit pode incluir reagentes para avaliar tipos de danos ao DNA, como uma DNA polimerase propensa a erros e/ou uma DNA polimerase de alta fidelidade. Aditivos e reagentes adicionais são contemplados para reações de PCR ou ligação em condições específicas (por exemplo, genoma / alvo alto em GC).
Em uma modalidade, os kits compreendem ainda reagentes, como enzimas de correção de erros de DNA que reparam erros na sequência de DNA que interferem nos processos de reação em cadeia da polimerase (PCR) (versus reparação de mutações que levam à doença). A título de exemplo não limitativo, as enzimas compreendem um ou mais dos seguintes: glicosilase uracil-DNA monofuncional (hSMUG1), Uracil-DNA Glicosilase (UDG), N-glicosilase / proteína AP-liase NEIL 1 (hNEIL1), Formamidopirimidina DNA glicosilase (FPG), 8-oxoguanina DNA glicosilase (OGG1), endonuclease apirimidínica / apirimidínica humana (APE 1), endonuclease III (Endo III), endonuclease IV (Endo IV), endonuclease V (Endo V), endonuclease VIII (Endo VIII), T7 endonuclease I (T7 Endo I), glicosilase de dímero pirimidina T4 (T4 PDG), glicosilase de DNA de alquiladenina de fita simples seletiva humana (hAAG), etc., entre outras glicosilases,
liases, endonucleases e exonucleases etc.; e pode ser utilizado para corrigir dano ao DNA (por exemplo, dano ao DNA in vitro ou in vivo). Algumas dessas enzimas de reparo do DNA, por exemplo, são glicosilases que removem bases danificadas do DNA. Por exemplo, o UDG remove o uracil resultante da desaminação da citosina (causada pela hidrólise espontânea da citosina) e o FPG remove 8-oxo-guanina (por exemplo, a lesão de DNA mais comum que resulta de espécies reativas de oxigênio). O FPG também tem atividade de liase que pode gerar folga de 1 base em sítios abásicos. Tais sítios abásico falharão subsequentemente em amplificar por PCR, por exemplo, porque a polimerase falha em copiar o modelo. Consequentemente, o uso de tais enzimas de reparo de dano ao DNA, e/ou outras listadas neste documento e como conhecido na técnica, pode remover efetivamente o DNA danificado que não possui uma mutação verdadeira, mas pode ser de outra forma não detectado como um erro.
Os kits podem compreender ainda controles apropriados, tais como controles de amplificação de DNA, controles de quantificação de ácido nucleico (molde), controles de sequenciamento, moléculas de ácido nucleico derivadas de uma fonte biológica que passou por um evento de edição do genoma ou expansão clonal após um evento de edição do genoma. Em algumas modalidades, um kit pode incluir uma população de células de controle. Em algumas modalidades, um kit pode incluir um ou mais componentes para edição do genoma modificado geneticamente, por exemplo, vetores, gRNA, edição de enzimas e/ou reagentes. Consequentemente, um kit pode incluir reagentes adequados (compostos de teste, ácido nucleico, biblioteca de sequenciamento de controle, etc.) para fornecer controles que produziriam os resultados de Sequenciamento Duplex esperados que determinariam a autenticidade do protocolo para um evento de edição. Em algumas modalidades, um kit pode incluir uma informação de sequência de referência para caracterizar um evento de edição de genoma ou expansão clonal após um evento de edição de genoma. Em algumas modalidades, um kit pode incluir informações de sequência úteis para identificar uma ou mais variantes de DNA em uma população de células editadas. Tal informação de sequência pode ser útil na determinação do potencial neoplásico das células editadas e/ou avaliação da eficácia do próprio processo de edição do genoma. Em uma modalidade, o kit compreende recipientes para envio de amostras, material de armazenamento para estabilizar amostras, material para congelar amostras, tais como amostras de células, para análise para detectar variantes de DNA em uma amostra de sujeito ou em uma população celular modificada geneticamente. Em outra modalidade, um kit pode incluir padrões de controle de contaminação por ácidos nucleicos (por exemplo, sondas de captura de hibridação com afinidade com regiões genômicas em um organismo que é diferente do organismo de teste ou sujeito).
O kit pode ainda compreender um ou mais outros recipientes que compreendem materiais desejáveis do ponto de vista comercial e do usuário, incluindo tampões de PCR e sequenciamento, diluentes, ferramentas de extração de amostras de sujeitos (por exemplo, seringas, cotonetes, etc.) e bulas com instruções de uso. Além disso, um rótulo pode ser fornecido no recipiente com instruções de uso, como as descritas acima; e/ou as instruções e/ou outras informações também podem ser incluídas em uma bula que acompanha o kit; e/ou através de um endereço de site fornecido nele. O kit também pode compreender ferramentas de laboratório, como, por exemplo, tubos de amostra, vedadores de placas, abridores de tubos de microcentrífuga, rótulos, separador magnético de partículas, inserções de espuma, compressas de gelo, compressas de gelo seco, isolamento, etc.
Os kits podem ainda compreender um produto de programa de computador instalável em um dispositivo de computação eletrônica (por exemplo, laptop / desktop, tablet etc.) ou acessível via rede (por exemplo, servidor remoto), em que o dispositivo de computação ou servidor remoto compreende um ou mais processadores configurados para executar instruções para executar operações que compreendem as etapas de análise de Sequenciamento Duplex. Por exemplo, os processadores podem ser configurados para executar instruções para o processamento de leituras de sequenciamento brutas ou não analisadas para gerar dados de Sequenciamento Duplex. Em modalidades adicionais, o produto de programa de computador pode incluir um banco de dados compreendendo registros de sujeito ou amostra (por exemplo, informações sobre um determinado sujeito ou amostra ou grupos de amostras) e informações derivadas empiricamente sobre o região direcionada para editar genoma editar alvo de DNA ou regiões genômicas não direcionadas. O produto do programa de computador é incorporado em um meio legível por computador não transitório que, quando executado em um computador, realiza etapas dos métodos divulgados neste documento (por exemplo, ver FIGS 3 a 6).
Os kits podem ainda incluir instruções e/ou códigos / senhas de acesso e semelhantes para acessar servidor(es) remoto(s) (incluindo servidores baseados em nuvem) para carregar e baixar dados (por exemplo, dados de sequenciamento, relatórios, outros dados) ou software para ser instalado em um dispositivo local. Todo o trabalho computacional pode residir no servidor remoto e ser acessado por um usuário / usuário do kit por meio de conexão à Internet, etc.
Exemplos Selecionados de Aplicações Conforme descrito neste documento, os métodos fornecidos podem ser usados para qualquer uma de uma variedade de propósitos e/ou em qualquer uma de uma variedade de cenários. A seguir estão descritos exemplos de aplicações e/ou cenários não limitantes apenas para os propósitos de ilustração específica.
Avaliação da Qualidade das Células Editadas do Genoma A presente divulgação abrange o reconhecimento de que a edição do genoma pode induzir e/ou selecionar mutações neoplásicas. Consequentemente, a presente divulgação fornece métodos de avaliação do potencial neoplásico de uma população de células após um evento de edição genômica modificado geneticamente. Tais métodos são úteis em análises de controle de qualidade para edição genômica e/ou garantir a segurança de terapias baseadas em células que passaram por edição genômica.
A presente divulgação inclui o reconhecimento de que eventos de edição genômica podem impor uma tendência seletiva para células que aumentaram ou desregularam mutações do ciclo celular (por exemplo, mutações neoplásicas). Consequentemente, é importante que as células editadas do genoma sejam avaliadas e/ou monitoradas quanto ao seu potencial neoplásico.
Em algumas modalidades, a presente divulgação fornece métodos de avaliação do potencial neoplástico de uma população de células após um evento de edição genômica modificado geneticamente, que inclui o Sequenciamento Duplex e a determinação se há uma variante presente em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA direcionadas enriquecidas comparando uma ou mais correspondências a uma sequência de genoma de referência. Em algumas modalidades, tais métodos incluem preparar uma biblioteca de sequenciamento de uma amostra compreendendo moléculas de DNA de fita dupla originadas da população de células após o evento de edição genômica modificado geneticamente, em que a preparação da biblioteca de sequências compreende marcar uma pluralidade de moléculas de DNA de fita dupla para gerar um pluralidade de moléculas de DNA marcadas tendo primeira e segunda fitas marcadas; enriquecer seletivamente a primeira e segunda fitas marcadas para um subconjunto de moléculas de DNA marcadas que mapeiam um ou mais condutores de câncer para fornecer moléculas de DNA marcadas enriquecidas; gerar uma leitura de sequência corrigida de erro para cada uma de uma pluralidade de moléculas de DNA marcadas enriquecidas, onde a geração das leituras de sequência corrigida de erro compreende: sequenciar uma ou mais primeira e segunda fitas marcadas derivadas das moléculas de DNA marcadas enriquecidas para fornecer uma primeira fita sequência e uma segunda sequência de fita; comparar a sequência da primeira fita e a sequência da segunda fita para identificar uma ou mais correspondências entre as sequências da primeira e segunda fita; e determinar se existe uma variante presente em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas, comparando uma ou mais correspondências a uma sequência de genoma de referência.
De particular interesse é a detecção de uma ou mais variantes que incluem uma mutação funcionalmente disruptiva. Em algumas modalidades, os métodos fornecidos são úteis para a detecção de uma ou mais variantes em um ou mais genes condutores de câncer. Em algumas modalidades, um condutor de câncer é um condutor de câncer conhecido do Censo de Genes do Câncer (CGC) ou do banco de dados COSMIC (genes causalmente implicados no câncer). Em algumas modalidades, um gene condutor de câncer é ou inclui: ABL, ACC, BCR, BLCA, BRCA, CESC, CHOL, COAD, DLBC, DNMT3A, EGFR, ESCA, GBM, HNSC, KICH, KIRC, KIRP, LAML, LGG, LIHC, LUAD, LUSC, MESO, OV, PAAD, PCPG, PI3K, PIK3CA, PRAD, PTEN, READ, SARC, SKCM, STAD, TGCT, THCA, THYM, UCEC, UCS, e/ou UVM. Em algumas modalidades, um gene condutor de câncer é ou inclui TP53. Em algumas modalidades, um gene condutor de câncer é ou inclui HRAS, NRAS, ou KRAS.
Em algumas modalidades, se uma variante for detectada em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas na população de moléculas, então o método pode incluir ainda uma etapa de determinar uma frequência variante da variante entre a pluralidade de moléculas de DNA marcadas enriquecidas.
Em algumas modalidades, os métodos fornecidos são realizados em múltiplos pontos de tempo para avaliar mudanças na frequência e/ou abundância de uma ou mais variantes. Em algumas modalidades, os métodos fornecidos são realizados em um primeiro ponto de tempo e em um segundo ponto de tempo posterior. Em algumas modalidades, um segundo ponto de tempo é pelo menos 2, 3, 4, 5, 6, 7, 10, 15, 20, 30, 60, 90 ou 180 dias após um primeiro ponto de tempo. Em algumas modalidades, tanto o primeiro quanto o segundo pontos de tempo ocorrem em cerca de 30 dias, em cerca de 45 dias, em cerca de 60 dias, em cerca de 75 dias ou em cerca de 90 dias após o evento de edição genômica modificado geneticamente. Análise em múltiplos pontos de tempo pode ser útil para avaliar o potencial neoplásico ou um aumento no potencial neoplásico. Por exemplo, uma população de células é determinada como tendo potencial neoplásico se a frequência variante do segundo ponto de tempo for maior do que a frequência variante do primeiro ponto de tempo. Em algumas modalidades, um método fornecido é realizado em uma população de células que passou por um evento de edição genômica e uma porção de células idênticas que não passaram por um evento de edição genômica. Em algumas modalidades, os métodos fornecidos incluem avaliar e comparar a frequência variante entre uma população de células editadas e uma população de células comparáveis que não passou por evento de edição genômica modificado geneticamente.
Monitoramento de Terapias Celulares As células editadas do genoma podem ser usadas em inúmeras aplicações. Por exemplo, em algumas modalidades, um distúrbio médico é tratado pela administração de uma célula efetora imune editada pelo genoma (por exemplo, uma célula T) que induz uma resposta imune específica. Em algumas modalidades, as células para uso em uma aplicação terapêutica podem ser propagadas por dias, semanas ou meses ex vivo como uma população em massa em cerca de 1, 2, 3, 4, 5 dias ou mais após um evento de edição do genoma. Em algumas modalidades, as células editadas do genoma podem ser obtidas de um sujeito após a administração e analisadas. Por exemplo, no caso de uma célula imunológica modificada geneticamente, tais células editadas podem ser obtidas do sangue de um sujeito tratado e caracterizadas usando métodos da presente divulgação. Em algumas modalidades, a abundância de uma ou mais variantes em uma população de células é monitorada com o tempo. Em algumas modalidades, a expansão clonal de uma ou mais variantes em uma população de células é monitorada com o tempo.
Modalidades de Sistemas e Ambientes de Computação para Caracterização de Ácidos Nucleicos Após a Edição Genômica Ambientes de Computação Adequados A discussão a seguir fornece uma descrição geral de um ambiente de computação adequado no qual aspectos da divulgação podem ser implementados. Embora não seja necessário, aspectos e modalidades da divulgação serão descritos no contexto geral de instruções executáveis por computador, como rotinas executadas por um computador de uso geral, por exemplo, um servidor ou computador pessoal. Os versados na técnica relevante perceberão que a divulgação pode ser praticada com outras configurações de sistema de computador, incluindo dispositivos de Internet, dispositivos portáteis, computadores portáteis, telefones celulares ou móveis, sistemas multiprocessadores, eletrônicos de consumidor programáveis ou baseados em microprocessadores, decodificadores, PCs de rede, minicomputadores, computadores mainframe e semelhantes. A divulgação pode ser incorporada em um computador para propósitos especiais ou processador de dados que é especificamente programado, configurado ou construído para executar uma ou mais das instruções executáveis por computador explicadas em detalhes abaixo. De fato, o termo "computador", como geralmente utilizado neste documento, refere-se a qualquer um dos dispositivos acima, bem como a qualquer processador de dados.
A divulgação também pode ser praticada em ambientes de computação distribuídos, onde tarefas ou módulos são executados por dispositivos de processamento remoto, que são ligados através de uma rede de comunicações, como Rede de Área Local ("LAN"), Rede de Área Ampla ("WAN") ou a Internet. Em um ambiente de computação distribuída, os módulos do programa ou sub-rotinas podem estar localizados em dispositivos de armazenamento de memória locais e remotos. Aspectos da divulgação descrita abaixo podem ser armazenados ou distribuídos em mídia legível por computador, incluindo discos magnéticos e opticamente legíveis e removíveis, armazenados como firmware em chips (por exemplo, chips EEPROM), bem como distribuídos eletronicamente pela Internet ou por outras redes (incluindo redes sem fio). Os versados na técnica relevante perceberão que porções da divulgação podem residir em um computador de servidor, enquanto as porções correspondentes residem em um computador de cliente. As estruturas de dados e a transmissão de dados particulares para aspectos da divulgação também estão incluídas no escopo da divulgação.
Modalidades de computadores, como um computador pessoal ou estação de trabalho, podem compreender um ou mais processadores acoplados a um ou mais dispositivos de entrada do usuário e dispositivos de armazenamento de dados. Um computador também pode ser acoplado a pelo menos um dispositivo de saída, como um dispositivo de exibição e um ou mais dispositivos de saída adicionais opcionais (por exemplo, impressora, plotadora, alto-falantes, dispositivos de saída táteis ou olfativos, etc.). O computador pode ser acoplado a computadores externos, como uma conexão de rede opcional, um transceptor sem fio ou ambos.
Vários dispositivos de entrada podem incluir um teclado e/ou um dispositivo apontador, como um mouse. Outros dispositivos de entrada são possíveis, como microfone, controle de vídeo game, caneta, tela sensível ao toque, scanner, câmera digital, câmera de vídeo e semelhantes. Outros dispositivos de entrada podem incluir máquinas de sequenciamento (por exemplo, sequenciador massivamente paralelo), fluoroscópios e outros equipamentos de laboratório, etc. Os dispositivos de armazenamento de dados adequados podem incluir qualquer tipo de meio legível por computador que pode armazenar dados acessíveis pelo computador, como unidades magnéticas de disco rígido e de disquete, unidades de disco óptico, cassetes magnéticas, unidades de fita, cartões de memória flash, discos de vídeo digital (DVDs), Cartuchos Bernoulli, RAMs, ROMs, cartões inteligentes etc. De fato, qualquer meio para armazenar ou transmitir instruções e dados legíveis por computador pode ser empregado, incluindo uma porta de conexão ou ponto em uma rede como uma rede de área local (LAN), rede de área ampla (WAN) ou a Internet.
Aspectos da divulgação podem ser praticados em uma variedade de outros ambientes de computação. Por exemplo, um ambiente de computação distribuído com uma interface de rede pode incluir um ou mais computadores de usuário em um sistema em que eles podem incluir um módulo de programa de navegador que permite ao computador acessar e trocar dados com a Internet, incluindo sites na porção World Wide Web da Internet. Os computadores dos usuários podem incluir outros módulos de programas, como um sistema operacional, um ou mais programas aplicativos (por exemplo, aplicativos de processamento de texto ou planilha) e semelhantes. Os computadores podem ser dispositivos de uso geral que podem ser programados para executar vários tipos de aplicativos ou podem ser dispositivos de uso único otimizados ou limitados a uma função ou classe de funções específica. Mais importante, enquanto mostrado nos navegadores de rede, qualquer programa de aplicação para fornecer uma interface gráfica do usuário aos usuários pode ser empregado, conforme descrito em detalhes abaixo; o uso de um navegador da web e uma interface da web são usados apenas como um exemplo familiar neste documento.
Pelo menos um computador do servidor, acoplado à Internet ou à World Wide Web (“Web”), pode realizar muitas ou todas as funções para receber, rotear e armazenar mensagens eletrônicas, como páginas da Web, fluxos de dados, sinais de áudio e imagens eletrônicas descritas neste documento. Enquanto a Internet é mostrada, uma rede privada, como uma intranet, pode de fato ser preferida em algumas aplicações. A rede pode ter uma arquitetura cliente-servidor, na qual um computador é dedicado a servir outros computadores clientes, ou pode ter outras arquiteturas, como ponto a ponto, nas quais um ou mais computadores servem simultaneamente como servidores e clientes. Um banco de dados ou bancos de dados, acoplados ao(s) computador(es) de servidor(es), podem armazenar grande parte das páginas da web e do conteúdo trocado entre os computadores dos usuários. O(s) computador(es) do servidor, incluindo o(s) banco(s) de dados, pode(m) empregar medidas de segurança para inibir ataques maliciosos no sistema e preservar a integridade das mensagens e dados armazenados nele (por exemplo, sistemas de firewall, SSL (Secure Socket Layer), esquemas de proteção por senha, criptografia e semelhantes).
Um computador do servidor adequado pode incluir um mecanismo de servidor, um componente de gerenciamento de páginas da web, um componente de gerenciamento de conteúdo e um componente de gerenciamento de banco de dados, entre outras características. O mecanismo do servidor executa tarefas básicas de processamento e nível de sistema operacional. O componente de gerenciamento de páginas da web lida com a criação e exibição ou roteamento de páginas da web. Os usuários podem acessar o computador do servidor por meio de um URL associado a ele. O componente de gerenciamento de conteúdo lida com a maioria das funções nas modalidades descritas neste documento. O componente de gerenciamento de banco de dados inclui tarefas de armazenamento e recuperação com relação ao banco de dados, consultas ao banco de dados, funções de leitura e gravação no banco de dados e armazenamento de dados como sinais de vídeo, gráficos e áudio.
Muitas das unidades funcionais descritas neste documento foram marcadas como módulos, a fim de enfatizar mais particularmente sua independência de implementação. Por exemplo, os módulos podem ser implementados em software para execução por vários tipos de processadores. Um módulo identificado de código executável pode, por exemplo, compreender um ou mais blocos físicos ou lógicos de instruções de computador que podem, por exemplo, ser organizadas como um objeto, procedimento ou função. Os blocos identificados de instruções do computador não precisam ser localizados fisicamente juntos, mas podem compreender instruções desiguais armazenadas em diferentes locais que, quando unidos logicamente entre si, compreendem o módulo e alcançam o propósito declarado para o módulo.
Um módulo também pode ser implementado como um circuito de hardware que compreende circuitos VLSI personalizados ou matrizes de portas, semicondutores prontos para uso, como chips lógicos, transistores ou outros componentes distintos. Um módulo também pode ser implementado em dispositivos de hardware programáveis, como matrizes de portas programáveis em campo, lógica de matriz programável, dispositivos de lógica programável ou semelhantes.
Um módulo de código executável pode ser uma única instrução, ou muitas instruções, e pode até ser distribuído por diversos segmentos de código diferentes, entre diferentes programas e através de diversos dispositivos de memória. Da mesma forma, os dados operacionais podem ser identificados e ilustrados neste documento dentro de módulos e podem ser incorporados em qualquer forma adequada e organizados dentro de qualquer tipo adequado de estrutura de dados. Os dados operacionais podem ser coletados como um único conjunto de dados, ou podem ser distribuídos em diferentes locais, incluindo diferentes dispositivos de armazenamento, e podem existir, pelo menos parcialmente, meramente como sinais eletrônicos em um sistema ou rede.
Sistema para Caracterizar Edição de Genoma e Expansão Clonal
A presente tecnologia compreende ainda um sistema (por exemplo, um sistema de computador em rede, um sistema automatizado de alto rendimento, etc.) para processar uma amostra biológica que compreende uma mistura de ácido nucleico e transmitir os dados de sequenciamento por meio de uma rede com fio ou sem fio para um servidor para determinar leituras de sequência corrigidas de erro da amostra (por exemplo, leituras de sequência duplex, sequência de consenso duplex, etc.), leituras de sequência nos loci genômicos pretendidos, leituras de sequência em loci genéticos não pretendidos, leituras de sequência em loci condutor de câncer, sequências esperadas, sequências genômicas editadas antecipadas, sequências de referência, identificação de variante, frequência de variante, quantificação de genótipos individuais / atribuíveis e semelhantes.
Conforme descrito em detalhes adicionais abaixo, e em relação à modalidade ilustrada na FIG. 2, um sistema computadorizado para caracterização de ácidos nucléicos após a edição genômica de uma população de células compreende: (1) um servidor (por exemplo, um servidor remoto, ou servidor armazenado localmente); (2) uma pluralidade de dispositivos de computação eletrônicos de usuário capazes de gerar e/ou transmitir dados de sequenciamento; (3) opcionalmente, um banco de dados com sequências de referência (por exemplo, sequências genômicas esperadas, sequências genômicas editadas antecipadas, etc.) e informações associadas (opcional); e (4) uma rede com ou sem fio para transmitir comunicações eletrônicas entre os dispositivos eletrônicos de computação, banco de dados e servidor. O servidor compreende ainda: (a) um banco de dados que armazena resultados de registros de edição de genoma e registros de perfis de variante (por exemplo, perfis de mutação, resultados de frequência de variante etc.); (b) um ou mais processadores acoplados comunicativamente a uma memória; e um ou mais dispositivos ou meio de armazenamento legíveis por computador não transitórios compreendendo instruções para o(s) processador(es), em que os ditos processadores são configurados para executar as ditas instruções para realizar operações compreendendo uma ou mais das etapas descritas nas FIGS. 3 a 6.
Em uma modalidade, a presente tecnologia compreende ainda uma mídia de armazenamento legível por computador não transitória que compreende instruções que, quando executadas por um ou mais processadores, realiza métodos para determinar a presença de uma sequência genômica editada antecipada em um ou mais loci genômicos pretendidos, a presença de uma sequência editada genômica indesejada em um ou mais loci genômico pretendido, a presença de uma sequência editada genômica indesejada em um ou mais loci genômico não pretendido, a presença de uma ou mais variantes em um condutor de câncer ou loci condutor não cancerígeno uma frequência de alteração genômica no alvo em um locus genômico pretendido entre uma população, uma frequência de alterações genômicas fora do alvo em um ou mais loci genômicos não pretendidos, uma frequência variante de uma ou mais variantes presentes na mistura de ácido nucleico, a quantificação de cada variante na mistura com o tempo após um evento de edição genômica e semelhantes. Em modalidades particulares, os métodos podem incluir uma ou mais das etapas descritas nas FIGS. 3 a 6.
Aspectos adicionais da presente tecnologia são direcionados a métodos computadorizados para determinar a presença de uma sequência genômica editada antecipada em um ou mais loci genômicos pretendidos, a presença de uma sequência editada genômica indesejada em um ou mais loci genômicos pretendidos, a presença de uma sequência indesejada sequência editada genômica em um ou mais loci genômicos não pretendidos, a presença de uma ou mais variantes em um condutor de câncer ou loci condutor de não câncer, uma frequência de alteração genômica no alvo em um locus genômico pretendido entre uma população, uma frequência de alterações genômicas fora do alvo em um ou mais loci genômicos abandonados, uma frequência variante de uma ou mais variantes presentes na mistura de ácido nucleico, a quantificação de cada variante na mistura ao com o tempo após um evento de edição genômica e semelhantes. Em modalidades particulares, os métodos podem incluir uma ou mais das etapas descritas nas FIGS. 3 a 6.
A FIG. 2 é um diagrama de blocos de um sistema de computador 400 com um produto de programa de computador 250 instalado nele e para uso com os métodos divulgados neste documento para caracterizar ácidos nucleicos após edição genômica de uma população de células. Embora a FIG. 2 ilustre vários componentes do sistema de computação, é contemplado que outros ou diferentes componentes conhecidos pelos versados na técnica, como os discutidos acima, podem fornecer um ambiente de computação adequado no qual aspectos da divulgação podem ser implementados. A FIG. 3 é um diagrama de fluxo que ilustra uma rotina para fornecer dados de sequência de consenso de Sequenciamento Duplex de acordo com uma modalidade da presente tecnologia. As FIGS. 4 a 6 são diagramas de fluxo que ilustram várias rotinas para identificar e/ou quantificar alterações genômicas (por exemplo, alterações genômicas direcionadas, variantes, mutações, etc.) e expansão clonal de células em uma população de células após um evento de edição genômica de ácidos nucleicos originados da população de células editadas pelo genoma. De acordo com aspectos da presente tecnologia, métodos descritos em relação às FIGS. 4 a 6 podem fornecer dados de amostra incluindo, por exemplo, perfis genéticos de populações de células após a edição genômica, incluindo sequências editadas de genoma precisas / desejadas presentes em uma amostra, sequências editadas de genoma imprecisas / indesejadas presentes em uma amostra, sequências editadas de genoma indesejadas em sequências não pretendidos regiões do genoma presentes em uma amostra, variantes em condutores de câncer que confeririam uma vantagem de crescimento ou tendência presente em uma amostra, uma frequência de variante inesperada e/ou indesejada presente na amostra, quantificação de variantes e/ou edições genômicas representadas dentro das amostra e informações derivadas da comparação de dados de amostra com conjuntos de dados de sequências de referência (incluindo bancos de dados compreendendo sequências genômicas editadas antecipadas, sequências esperadas, níveis de fundo de frequência variante, etc.).
Conforme ilustrado na FIG. 2, o sistema de computador 200 pode compreender uma pluralidade de dispositivos de computação de usuário 202, 204; uma rede com fio ou sem fio 210 e um servidor (servidor "DupSeq™") 240 compreendendo processadores para analisar sequências editadas do genoma e caracterizar ácidos nucleicos originados de populações de células após um evento de edição genômica. Nas modalidades, os dispositivos de computação do usuário 202, 204 podem ser usados para gerar e/ou transmitir dados de sequenciamento. Em uma modalidade, os usuários de dispositivos de computação 202, 204 podem ser aqueles que executam outros aspectos da presente tecnologia, como etapas do método de Sequenciamento Duplex de amostras biológicas para caracterizar ácidos nucleicos após a edição genômica de uma população de células. Em um exemplo, os usuários dos dispositivos de computação 202, 204 realizam certas etapas do método de Sequenciamento Duplex com um kit (1,2) compreendendo reagentes e/ou adaptadores, de acordo com uma modalidade da presente tecnologia, para interrogar amostras biológicas.
Como ilustrado, cada dispositivo de computação de usuário 202, 204, inclui pelo menos uma unidade de processamento central 206, uma memória 207 e uma interface de usuário e rede 208. Em uma modalidade, os dispositivos de usuário 202, 204compreendem um desktop, laptop ou tablet.
Embora dois dispositivos de computação do usuário 202, 204 sejam representados, é contemplado que qualquer número de dispositivos de computação do usuário pode ser incluído ou conectado a outros componentes do sistema 200. Adicionalmente, os dispositivos de computação 202, 204 também podem ser representativos de uma pluralidade de dispositivos e software usados pelo Usuário (1) e Usuário (2) para amplificar e sequenciar as amostras. Por exemplo, um dispositivo de computação pode uma máquina de sequenciamento (por exemplo, Illumina HiSeg™, Ion Torrent PGM, sequenciador ABI SOLiD™, PacBio RS, Helicos Heliscope™, etc.), uma máquina de PCR em tempo real (por exemplo, ABI 7900, Fluidigm BioMark™, etc.), um instrumento de microarranjo, etc.
Além dos componentes descritos acima, o sistema 200 pode compreender ainda um banco de dados 230 para armazenar perfis de edição de genoma 232, incluindo sequências de referência e informação associada. Por exemplo, o banco de dados 230, que pode ser acessível pelo servidor 240, pode compreender registros ou coleções de sequências genômicas esperadas, sequências genômicas editadas antecipadas, mutações condutoras de câncer conhecidas, pontos quentes mutagênicos genômicos ou sítios propensos a mutação, loci microssatélites conhecidos, regiões conhecidas de sequências homólogas, níveis de frequência de variante de fundo, perfis de genótipo conhecidos de material de partida (por exemplo, misturas de células) e semelhantes. Em um exemplo particular, o banco de dados 230 pode ser um banco de dados de terceiros compreendendo perfis de edição de genoma 232, incluindo sequências de referência e informação associada. Por exemplo, vários bancos de dados compreendendo sequências de referência de genoma, sequências de genoma de fontes biológicas saudáveis (por exemplo, não doentes ou mutadas), sequências de condutores de câncer, catálogos de mutações de condutores de câncer e regiões de homologia de sequência podem ser consultados para aplicações particulares. Em uma outra modalidade, o banco de dados pode ser um banco de dados independente 230 (privado ou não privado) alojado separadamente do servidor 240, ou um banco de dados pode ser alojado no servidor 240, como o banco de dados 270, que compreende perfis de edição de genoma derivados empiricamente 272, incluindo sequências de genoma esperadas e perfis de variante. Em algumas modalidades, como o sistema 200 é usado para gerar novos perfis de edição de genoma de uma ou mais populações de células, os dados gerados a partir do uso do sistema 200 e métodos associados (por exemplo, métodos descritos neste documento e, por exemplo, nas FIGS. 3 a 6), podem ser carregados para o banco de dados 230 e/ou 270 para que perfis adicionais de edição de genoma 232, 272 possam ser criados para futuras atividades de comparação.
O servidor 240 pode ser configurado para receber, computar e analisar dados de sequenciamento (por exemplo, arquivos de sequenciamento brutos) e informações relacionadas dos dispositivos de computação do usuário 202, 204 por meio da rede 210. Os dados de sequenciamento brutos específicos da amostra podem ser computados localmente usando um produto / módulo de programa de computador (Módulo de Sequência 205) instalado nos dispositivos 202, 204, ou acessível a partir do servidor 240 por meio da rede 210, ou usando outro software de sequenciamento bem conhecido na técnica. Os dados brutos da sequência podem então ser transmitidos por meio da rede 210 para o servidor 240 e os resultados do usuário 274 podem ser armazenados no banco de dados 270. O servidor 240 também compreende o produto / módulo de programa "Módulo DS"; 212 configurado para receber os dados brutos de sequenciamento do banco de dados 270 e configurado para gerar computacionalmente leituras de sequência de fita dupla corrigidas por erros usando, por exemplo, técnicas de Sequenciamento Duplex divulgadas neste documento. Enquanto o Módulo DS 212 é mostrado no servidor 240, um versado na técnica reconheceria que o Módulo DS 212 pode alternativamente ser alojado em operado nos dispositivos 202, 204 ou em um outro servidor (não mostrado).
O servidor 240 pode compreender pelo menos uma unidade de processamento central (CPU) 260, um usuário e uma interface de rede 262(ou dispositivo de computação dedicado ao servidor com interface conectada ao servidor), um banco de dados 270, tal como descrito acima, com uma pluralidade de arquivos / registros de computador para armazenar perfis de edição de genoma 272e arquivos / registros para armazenar resultados (por exemplo, dados brutos de sequenciamento, dados de sequenciamento duplex, análise de loci genômica pretendida, análise de loci genômica não pretendida, análise de variante, análise de frequência de variante, etc.) para amostras testadas 274. O servidor 240 compreende ainda uma memória de computador 211 tendo nela armazenado o Produto de Programa de Computador de Edição de Genoma (Módulo de Edição de Genoma) 250, de acordo com aspectos da presente tecnologia.
O produto / módulo de programa de computador 250 é incorporado em um meio legível por computador não transitório que, quando executado em um computador (por exemplo, servidor 240), realiza etapas dos métodos divulgados neste documento para caracterização de ácidos nucleicos após a edição genômica de uma população de células (por exemplo, detectar e identificar alterações genômicas, detectar e identificar variantes de fundo, detectar e identificar a expansão clonal após um evento de edição genômica e/ou quantificar o mesmo. Um outro aspecto da presente divulgação compreende o produto / módulo de programa de computador 250 que compreende um meio utilizável por computador não transitório com códigos ou instruções de programa legíveis por computador incorporados no mesmo para permitir que um processador realize análise de edição de genoma (por exemplo, caracterizar alterações genômicas nos loci genômicos pretendidos não pretendidos, quantificar alterações desejadas e indesejadas no genoma após um evento de edição genômica, identificar variantes, quantificar variantes identificadas, determinar frequência de variante dentro de uma população de células, relatórios de comparação de edição de genoma, etc.). Essas instruções de programa de computador podem ser carregadas em um computador ou outro aparelho programável para produzir uma máquina de modo que as instruções executadas no computador ou em outro aparelho programável criem meios para implementar as funções ou etapas descritas neste documento. Estas instruções do programa de computador também podem ser armazenadas em uma memória ou meio legível por computador que pode direcionar um computador ou outro aparelho programável para funcionar de uma maneira particular, de modo que as instruções armazenadas na memória ou meio legível por computador produzem um artigo de fabricação incluindo meios de instruções que implementam a análise. As instruções do programa de computador também podem ser carregadas em um computador ou outro aparelho programável para fazer uma série de etapas operacionais serem realizadas no computador ou outro aparelho programável para produzir um processo implementado pelo computador de modo que as instruções que executam no computador ou outro aparelho programável fornecem etapas para implementar as funções ou etapas descritas acima.
Além disso, o produto / módulo de programa de computador 250 pode ser implementado em qualquer linguagem e/ou navegadores adequados. Por exemplo, ele pode ser implementado com Python, linguagem C e preferivelmente usando linguagens de programação de alto nível orientadas por objeto, como Visual Basic, SmallTalk, C++ e semelhantes. A aplicação pode ser escrita para adequar ambientes como o ambiente Microsoft Windows™, incluindo Windows™ 98, Windows™ 2000, Windows™ NT e semelhantes. Além disso, a aplicação também pode ser escrita para o ambiente MacIntosh™, SUN™, UNIX ou LINUX. Além disso, as etapas funcionais também podem ser implementadas usando uma linguagem de programação universal ou independente de plataforma. Exemplos de tais linguagens de programação de plataforma múltipla incluem, mas não são limitados a, linguagem de marcação de hipertexto (HTML), JAVA™, JavaScript™, linguagem de programação Flash, interface de gateway comum / linguagem de consulta estruturada (CGI / SQL), linguagem prática de relatório de extração (PERL), AppleScript™ e outras linguagens de script do sistema, linguagem de programação / linguagem de consulta estruturada (PL / SQL) e semelhantes. Podem ser usados navegadores habilitados para Java™ ou JavaScript™, tal como HotJava™, Microsoft™ Explorer™, ou Netscape™. Quando páginas da web de conteúdo ativo são usadas, elas podem incluir miniaplicativos Java™ ou controles ActiveX™ ou outras tecnologias de conteúdo ativo.
O sistema invoca inúmeras rotinas. Enquanto algumas das rotinas são aqui descritas, um versado na técnica é capaz de identificar outras rotinas que o sistema poderia executar. Além disso, as rotinas descritas neste documento podem ser alteradas de várias maneiras. Como exemplos, a ordem da lógica ilustrada pode ser rearranjada, as subetapas podem ser realizadas em paralelo, a lógica ilustrada pode ser omitida, outra lógica pode ser incluída, etc.
A FIG. 3 é um diagrama de fluxo que ilustra a rotina 300 para fornecer Dados de Sequenciamento Duplex para moléculas de ácido nucleico de fita dupla em uma amostra (por exemplo, uma amostra de uma mistura biológica). A rotina 300 pode ser invocada por um dispositivo de computação, como um computador de cliente ou um computador de servidor, acoplado a uma rede de computadores. Em uma modalidade, o dispositivo de computação inclui gerador de dados de sequência e/ou um módulo de sequência. Como um exemplo, o dispositivo de computação pode invocar a rotina 300 após um operador envolver uma interface de usuário em comunicação com o dispositivo de computação.
A rotina 300 começa no bloco 302 e o módulo de sequência recebe dados brutos de sequência de um dispositivo de computação do usuário (bloco 304) e cria um conjunto de dados específicos de amostra compreendendo uma pluralidade de leituras de sequência bruta derivadas de uma pluralidade de moléculas de ácido nucleico na amostra (bloco 306). Em algumas modalidades, o servidor pode armazenar o conjunto de dados específico da amostra em um banco de dados para processamento posterior. Em seguida, o módulo DS recebe uma solicitação para gerar dados do Sequenciamento de Consenso Duplex a partir dos dados brutos da sequência no conjunto de dados específicos da amostra (bloco 308). O módulo DS agrupa leituras de sequência de famílias que representam uma molécula de ácido nucleico de fita dupla original (por exemplo, com base em sequências SMI) e compara sequências representativas de fitas individuais entre si (bloco 310). Em uma modalidade, as sequências representativas podem ser uma ou mais de uma leitura de sequência de cada molécula de ácido nucleico original. Em outra modalidade, as sequências representativas podem ser sequências de consenso de fita simples (SSCSs) geradas a partir do alinhamento e correção de erros dentro de fitas representativas. Em tais modalidades, um SSCS de uma primeira fita pode ser comparado a um SSCS de uma segunda fita.
No bloco 312, o módulo DS identifica posições de nucleotídeo de complementaridade entre as fitas representativas comparadas. Por exemplo, o módulo DS identifica as posições de nucleotídeo ao longo das leituras de sequência comparadas (por exemplo, alinhada) onde as chamadas da base de nucleotídeo estão de acordo. Adicionalmente, o módulo DS identifica posições de não complementaridade entre as fitas representativas comparadas (bloco 314). Consequentemente, o módulo DS pode identificar posições de nucleotídeo ao longo das leituras de sequência comparadas (por exemplo, alinhadas) onde as chamadas da base de nucleotídeos estão em desacordo.
Em seguida, o módulo DS pode fornecer Dados de Sequenciamento Duplex para moléculas de ácido nucleico de fita dupla em uma amostra (bloco 316). Tais dados podem ser na forma de sequências de consenso duplex para cada uma das leituras de sequência processadas. As sequências de consenso duplex podem incluir, em uma modalidade, apenas posições de nucleotídeos em que as sequências representativas de cada fita de uma molécula de ácido nucleico original estão de acordo. Consequentemente, em uma modalidade, as posições de desacordo podem ser eliminadas ou de outro modo descontadas, de modo que a sequência de consenso duplex seja uma leitura de sequência de alta precisão que foi corrigida de erro. Em uma outra modalidade, Dados de Sequenciamento Duplex podem incluir informações de relatórios sobre posições de nucleotídeos de desacordo, a fim de que essas posições possam ser analisadas posteriormente (por exemplo, nos casos em que os danos ao DNA podem ser avaliados). A rotina 300 pode então continuar no bloco 318, onde termina.
A FIG. 4 é um diagrama de fluxo que ilustra uma rotina 400 para detectar e identificar sequências editadas em loci genômicos pretendidos, resultando de um evento de edição genômica em uma população de células. A rotina 400 pode ser invocada pelo dispositivo de computação da FIG. 2. A rotina 400 começa no bloco 402 e o módulo de edição do genoma compara os Dados de Sequenciação Duplex da FIG. 3 (por exemplo, seguindo o bloco 316) para fazer referência à informação da sequência (bloco 404) e identifica a correspondência e/ou variação da sequência (por exemplo, onde a sequência objeto corresponde a uma sequência de referência, onde a sequência objeto corresponde a uma sequência editada genômica antecipada, onde a sequência objeto varia da sequência de referência, etc.) nos loci genômicos pretendidos (bloco 406). Por exemplo, a sequência de referência pode ser uma sequência genômica antecipada (por exemplo, compreendendo a sequência editada do genoma modificado geneticamente desejado) e a etapa de comparação pode identificar se a sequência objeto compreende a sequência genômica antecipada. Em um outro exemplo, a sequência de referência pode compreender uma sequência genômica não editada e a etapa de comparação pode identificar se a sequência objeto compreende uma variação da sequência genômica não editada.
Em seguida, o módulo de edição do genoma determina uma frequência de sequências editadas do genoma antecipadas entre a população de sequências objeto (bloco 408) e gera um espectro editado do genoma (bloco 410) para a amostra. Como tal, uma análise de população de células editada de genoma pode ser fornecida com informações sobre o tipo de edição(ões) genômica(s) (por exemplo, desejada, indesejada ou nenhuma edição do genoma), localização (dentro dos respectivos loci genômicos pretendidos) e frequência de cada evento de edição nas moléculas de ácido nucleico analisadas a partir da amostra. Opcionalmente, o módulo de edição de genoma pode calcular uma taxa de sucesso do evento de edição genômica (bloco 412) e, além disso, opcionalmente, fornecer informações para aumentar a taxa de sucesso de um evento de edição genômica futuro (não mostrado).
Em seguida, o módulo de edição do genoma pode fornecer dados de edição do genoma (bloco 414) que podem ser armazenados no conjunto de dados específicos da amostra no banco de dados. Em algumas modalidades, não mostradas, os dados de edição do genoma podem ser usados para gerar um perfil de edição do genoma a ser armazenado no banco de dados para futuras atividades de comparação. A rotina 400 pode, então, continuar no bloco 416, onde termina.
A FIG. 5 é um diagrama de fluxo que ilustra uma rotina 500 para detectar e identificar sequências editadas em loci genômicos não pretendidos, resultando de um evento de edição genômica em uma população de células. A rotina 500 pode ser invocada pelo dispositivo de computação da FIG. 2. A rotina 500 começa no bloco 502 e o módulo de edição do genoma compara os Dados de Sequenciação Duplex da FIG. 3 (por exemplo, seguindo o bloco 316) para fazer referência à informação da sequência (bloco 504) e identifica a correspondência e/ou variação da sequência (por exemplo, onde a sequência objeto corresponde a uma sequência de referência, onde a sequência objeto varia da sequência de referência, etc.) nos loci genômicos não pretendidos (bloco 506). Por exemplo, um loci não pretendido pode compreender um ou mais de um sítio propenso a mutação, um locus microssatélites, uma sequência com homologia de sequência a um locus genômico pretendido e/ou um condutor de câncer e a etapa de comparação pode identificar se a sequência em questão compreende uma alteração ou variante da sequência de referência (por exemplo, uma sequência genômica não editada).
No bloco de decisão 508, a rotina 500 determina se a sequência objeto compreende uma variante em um locus não pretendido após o evento de edição genômica. Se o locus genômico não pretendido compreender uma variante, o módulo de edição do genoma determina uma frequência de variante (bloco 510). Se o locus genômico não pretendido não compreender uma variante, o módulo de edição de genoma pode avaliar loci genômicos não pretendidos adicionais (o bloco de decisão 508 se repete até que todos os loci genômicos não pretendidos sejam avaliados). Se quaisquer variantes forem identificadas em quaisquer loci genômicos não pretendidos, o módulo de edição do genoma determina a respectiva frequência de variante (bloco 510) e determina inúmeras variantes independentes na amostra (bloco 512). Após o bloco 512 e o bloco de decisão 508 nos casos em que as sequências objetos em loci genômicos não pretendidos não variam da sequência de referência, a rotina 500 pode continuar quando o módulo de edição do genoma gera um espectro editado do genoma (bloco 514) para a amostra. Como tal, uma análise de população de células editada de genoma pode ser fornecida com informações sobre o tipo de edição(ões) genômica(s) (por exemplo, edição do genoma não desejada ou nenhuma) em loci não pretendidos, localização (por exemplo, em loci genômicos não pretendidos suspeitos ou suscetíveis) e frequência de cada evento de edição nas moléculas de ácido nucleico analisada a partir da amostra. Opcionalmente, o módulo de edição de genoma pode calcular uma taxa de sucesso do evento de edição genômica (bloco 516) e, além disso, opcionalmente, fornecer informações para aumentar a taxa de sucesso de um evento de edição genômica futuro (não mostrado).
Em seguida, o módulo de edição do genoma pode fornecer dados de edição do genoma (bloco 518) que podem ser armazenados no conjunto de dados específicos da amostra no banco de dados. Em algumas modalidades, não mostradas, os dados de edição do genoma podem ser usados para gerar um perfil de edição do genoma a ser armazenado no banco de dados para futuras atividades de comparação. A rotina 500 pode então continuar no bloco 520, onde termina.
A FIG. 6 é um diagrama de fluxo que ilustra uma rotina 600 para detectar e identificar a expansão clonal de uma célula em uma população de células após um evento de edição genômica. A rotina 600 pode ser invocada pelo dispositivo de computação da FIG. 2. A rotina 600 começa no bloco 602 e o módulo de edição do genoma recebe Dados de Sequenciamento Duplex (bloco 604) da FIG. 3 (por exemplo, seguindo bloco 316) e, opcionalmente, dados de edição do genoma (bloco 606) das FIGS. 4 e 5 (por exemplo, seguindo os blocos 414 e 518, respectivamente) e confirma que a população de células foi editada no genoma (bloco 608). Em seguida, o módulo de edição de genoma identifica variantes na sequência de uma região genômica alvo (por exemplo, gene ou outra região genômica) (bloco 610). Por exemplo, o módulo de edição de genoma pode analisar Dados de Sequenciamento Duplex e, opcionalmente, dados de edição de genoma em loci genéticos específicos (por exemplo, genes condutores de câncer, oncogenes, proto-oncogenes,
gene supressor de tumor, outros loci genômicos condutores de câncer, etc.). Em seguida, o módulo de edição do genoma calcula uma frequência de alelo variante (VAF) (bloco 612).
No bloco de decisão 614, a rotina 600 determina se a VAF é maior em um grupo de teste do que em um grupo de controle. Um grupo de controle pode ser, em algumas modalidades, dados de Sequenciamento Duplex derivados de uma população de células (por exemplo, uma população de células comparável) que não passou por um evento de edição genômica. Em uma outra modalidade, um grupo de controle pode ser uma VAF de fundo esperada de uma população de referência. Em uma outra modalidade, o grupo de controle pode ser uma VAF calculada de uma variante particular presente em uma população de células em um primeiro ponto de tempo, e o grupo de teste pode ser a VAF calculada da variante particular presente na mesma população de células posteriormente, segundo ponto de tempo. Em um exemplo, o primeiro ponto de tempo pode ser antes de um tempo anterior ao evento de edição genômica e o segundo ponto de tempo pode ser um tempo após o evento de edição genômica (por exemplo, dias, semana, meses após o evento de edição genômica, entre 1 e cerca de 30 dias após o evento de edição genômica, mais de 30 dias após o evento de edição genômica, etc.). Em um outro exemplo, o primeiro e o segundo tempo podem ser um tempo após o evento de edição genômica. Se a VAF do grupo de teste não for maior do que um grupo de controle, o módulo de edição de genes rotula a população de células editada como tendo uma suspeita diminuída de passar por expansão clonal (bloco 616). A rotina 600 pode, então, continuar no bloco 618, onde termina. Se a VAF for maior no grupo de teste do que no grupo de controle, a rotina 600 continuará no bloco de decisão 620, onde a rotina 600 determina se uma mutação é não singleto.
Se a variante for um singleto, então o módulo de edição de gene caracteriza a população de células editada com um nível médio de suspeita de passar por uma expansão clonal (bloco 622). Se a mutação for determinada como um não singleto (ou seja, um multipleto), a rotina 600 caracteriza a população de células editada com uma alta suspeita de passar por uma expansão clonal (bloco 624). Opcionalmente, o módulo de edição do genoma determina se a variante detectada na região genômica alvo é consistente com uma mutação de condutor (por exemplo, uma mutação conhecida para conduzir o crescimento / transformação do câncer) ou é consistente com uma possível mutação passageira (bloco 626).
Opcionalmente, para populações de células (por exemplo, populações de células a ser usadas como uma terapia celular, populações de células obtidas de um paciente, etc.) que foram caracterizadas tanto com um nível médio de suspeita (no bloco 622) quanto um alto nível de suspeita (no bloco 624), o módulo de edição do genoma pode avaliar um limiar de segurança para a população de células e/ou determinar um risco associado com desenvolvimento de uma condição neoplásica ou doença cancerígena (bloco 628). A rotina 600 pode, então, continuar no bloco 618, onde termina.
Outras etapas e rotinas também são contempladas pela presente tecnologia. Por exemplo, o sistema (por exemplo, o módulo de edição do genoma ou outro módulo) pode ser configurado para analisar os dados de edição do genoma para determinar se uma população de células foi editada pelo genoma, se um processo de edição do genoma for eficiente e/ou bem sucedido, para determinar sob quais as características de um evento de edição genômica é mutagênico ou cancerígeno e semelhantes. Outras etapas podem incluir determinar se um sujeito deve ser tratado profilaticamente ou terapeuticamente usando uma terapia celular derivada de uma população de células após um evento de edição genômica e com base nos dados de edição do genoma derivados de uma amostra de uma população de célula particular. Etapas adicionais podem incluir determinar se um sujeito deve ser terapeuticamente tratado para câncer com base nos dados de edição do genoma derivados de uma amostra biológica de um sujeito particular. Por exemplo, uma vez que uma expansão clonal ou potencial neoplásico da população de células editadas do genoma é identificado usando o sistema, o servidor pode então determinar se o sujeito foi exposto a mais do que um nível de limiar seguro de potencial neoplásico de uma população de células editadas do genoma. Nesse caso, então podem ser iniciados tratamentos de doenças profiláticas ou inibidoras.
Exemplos Experimentais A seção a seguir fornece alguns exemplos limitantes de métodos para detectar e avaliar a expansão clonal de células após um evento usando sequenciamento duplex e reagentes associados.
Exemplo 1
Em um exemplo, uma população de células inicial é submetida à edição do genoma direcionado usando o sistema de endonuclease CRISPR / Cas9. Cas9 causa quebras de fita dupla no DNA genômico, o que foi mostrado em algumas aplicações para induzir a parada do ciclo celular através da via TP53 (ou seja, PMID 29892062, PMID 29892067). Foi teorizado que a edição do genoma tem baixa eficiência em alguns casos, como em células tronco embriônicas devido à parada do ciclo celular induzida pela resposta de quebra de fita dupla, que é mediada por TP53. As células que não param após o processo de edição do genoma podem abrigar mutações inativadoras ou deleções ou perda de TP53 (ou outros genes condutores de câncer) que interrompem a respectiva função e causam crescimento celular menos restrito.
A expansão clonal de células que abrigam essa mutação superaria as células vizinhas.
Neste exemplo, o Sequenciamento Duplex será usado para gerar leituras de sequência de consenso corrigidas por erro de moléculas de DNA de fita dupla direcionadas e determinar uma frequência variante (por exemplo, uma frequência de alelo de mutação) para amostras retiradas de uma população de células após a edição de genoma mediada por Cas9. As moléculas de DNA de fita dupla direcionadas podem incluir regiões de TP53 ou outros genes condutores de câncer ou porções dos mesmos.
A pressão seletiva para a expansão clonal será avaliada determinando se as frequências de alelos mutantes para mutações condutoras de câncer excedem um nível de limiar (por exemplo, um nível predeterminado, um nível de fundo, uma frequência de alelo variante relativa maior do que uma porção de referência não selecionável do genoma etc.). Em algumas modalidades, as moléculas de DNA de fita dupla direcionadas também podem incluir loci condutores não cancerígenos.
Uma ou mais variantes presentes em tais loci condutores não cancerígenos são detectáveis e quantificáveis usando o Sequenciamento Duplex.
Um aumento em uma frequência variante (por exemplo, uma mutação passageira) após um evento de edição do genoma (por exemplo, um aumento em um primeiro ponto de tempo e um segundo ponto de tempo posterior, um aumento na frequência acima de um nível de fundo, etc.), pode indicar que uma mutação em um condutor de câncer pode estar presente, fornecendo por meio disso seleção clonal para células que abrigam tais variantes.
As mutações passageiras podem ser selecionadas entre qualquer ou todo o genoma, mas em alguns casos são, de preferência, sítios de mutações de alta frequência,
como regiões homopoliméricas. Diferentes formas de marcadores de linhagem genética que podem ser usadas para identificação de clones podem ser encontradas em: Salk et al 2010PMID 20951806 Exemplo 2 Este exemplo descreve o uso de Sequenciamento Duplex para determinar se as mutações iniciais em genes condutores de câncer refletem o potencial tumorigênico de carcinógenos em teste. Usando um agente indutor de mutação modelo, o presente exemplo mostra que o Sequenciamento Duplex é capaz de resolver mutações em moléculas de DNA individuais entre uma população. O presente exemplo demonstra que os métodos da presente divulgação fornecem a sensibilidade necessária para detectar essa seleção clonal neoplásica de estágio inicial de células entre uma população de células, bem como a expansão clonal subsequente de tais células.
Neste exemplo, o impacto de um uretano é examinado em diferentes tipos de tecido de camundongo (pulmão, baço, sangue) em um modelo de camundongo predisposto ao câncer aprovado pela FDA: Tg.rasH2 (Saitoh et al. Oncogene 1990. PMID 2202951). Este camundongo contém ~ 3 cópias em tandem deHRAS humano com uma mutação intensificadora de ativação para intensificar a expressão em um alelo hemizigoto. Estes camundongos estão predispostos a angiossarcomas esplênicos e adenocarcinomas de pulmão e são rotineiramente usados em estudos de carcinogenicidade de 6 meses para substituir estudos em animal tipo selvagem de 2 anos. Os tumores encontrados nos camundongos geralmente adquirem mutações ativadoras em uma cópia do proto-oncogene HRAS humano. Assim, o transgene HRAS humano serve um gene condutor de câncer alvo modelo nesses animais. A análise de sequência e detecção de mutação foi realizada para 4 genes de camundongo nativos (Rho, Hp, Ctnnb1, Polr1c), juntamente com o camundongo nativo Hras, Kras, Nras e o transgene HRAS humano.
Neste exemplo, os camundongos Tg.rasH2 (n = 5 / grupo) foram dosados com veículo ou um agente indutor de mutação modelo de uretano (por exemplo, uma dose carcinogênica de uretano) (dia 1,3,5) e sacrificados no dia 29 para detecção de mutação pelo
Sequenciamento Duplex nos tecidos alvos (pulmão, baço) e sangue total. Os genes endógenos alvos (Rho, Hp, Ctnnb1, Polr1c) e os Hras de camundongo nativo e (trans)genes de HRAS humanos também foram sequenciados.
Os tumores (hemangiossarcomas esplênicos; adenocarcinoma de pulmão) foram coletados na semana 11 de animais (n = 5 / grupo) dosados com uretano e submetidos a sequenciamento total do exoma (WES) para identificar mutações características do condutor de câncer (CDM) nesses tumores.
A FIG. 7 é um gráfico que ilustra a seleção clonal neoplásica em estágio inicial de frações de alelos variantes (VAF) conforme detectado por Sequenciamento Duplex. A grande maioria das mutações identificadas ocorreu em moléculas únicas e em frações de alelo variantes muito baixas (VAFs), por exemplo, da ordem de 1 / 10.000. Algumas variantes foram encontradas em múltiplas moléculas em uma amostra e foram identificadas como tendo VAFs consideravelmente mais altas.
A FIG. 8A é um gráfico que ilustra variantes de nucleotídeo único (SNVs) alinhando ao éxon 3 do transgene HRAS humano. Um resíduo central é salientado no códon número 61 no éxon 3 do HRAS humano, o que é consistente com este sítio sendo um ponto quente comum de HRAS que conduz câncer. Quatro das cinco amostras de pulmão tratadas com uretano abrigavam essa mutação em frequências de alelo variantes de 0,1% -1,8%. Todos os quatro SNVs são transversões TA no contexto CTG. Além disso, duas amostras de baço tratadas tiveram mutações nesse códon: uma nesta mesma posição e outra em um par de bases adjacentes. O fato de que 4/5 das amostras de pulmão tratadas tiveram mutações patogênicas expandidas clonalmente apenas por apenas 29 dias, ao passo que muito poucas mutações vistas em outro lugar no painel foram vistas como clones de membro > 1 ou foram vistas repetidas em múltiplas amostras demonstra forte evidência de seleção positiva substancial logo após exposição. Além disso, os métodos de Sequenciamento Duplex, de acordo com modalidades da presente tecnologia, fornecem a sensibilidade necessária para detectar essa seleção clonal neoplásica em estágio inicial.
Tabela 1 Contagem Número de de mutações famílias 1 829 2 8 4 1 17 1 Mutações AA 61 T>A 58 1 oncogênicas em gene HRAS Humano em 181 1 tecido de pulmão 300 1 tratado com uretano Referindo-se à Tabela 1, 97,5% das mutações foram identificadas apenas em uma única molécula, 1% foi observado em duas moléculas e cerca de 0,5% foi observado em moléculas > 2. Todos os quatro clones de nível mais alto ocorreram com mutação oncogênica em AA 61, o ponto quente do tumor recorrente no HRAS humano. O fato de os clones de nível mais alto também aparecerem nos pontos quentes do câncer enfatizou ainda mais a magnitude da forte pressão seletiva.
Uma quantidade muito maior de DNA foi extraída por amostra do que foi convertida em Moléculas Duplex sequenciadas. A porção de amostras de tecido extraída produziu aproximadamente 5μg de DNA genômico. Converter isso em equivalentes de genoma e multiplicar por três produz o número de cópias de tg.HRAS na extração. Apenas ~1/3% disso foi sequenciado, e aproximadamente 300 vezes mais mutantes estavam presentes na porção original do tecido amostrado do que o detectado.
Tabela 2 Amostra ng DNA Genomas Cópias Profundidade % cópias Mutantes Células tg.HRAS a AA61 sequenciadas mutantes em amostra original 9957-Pulmão 1 5.640 1.692.000 5.076.000 16.425 0,324% 300 92.712 9958-Pulmão 1 4.400 1.320.000 3.960.000 16.319 0,412% 181 43.922 9959-Pulmão 1 4.480 1.344.000 4.032.000 13.692 0,310% 58 17.080 9961-Pulmão 1 4.700 1.410.000 4.230.000 14.706 0,348% 17 4.890 Neste exemplo, os clones selecionados abrangeram mais de 90.000 células no clone da fração de alelo mais alto. Como resultado, por cálculo, dentro dos 29 dias do estudo, por exemplo, a partir do momento da exposição à mutação e presumindo que não há morte celular, o tempo de duplicação dessas células era aproximadamente a cada 1,8 dias 2^(29/1,8) ~ 90.000. Sem estar limitado pela teoria, essa taxa calculada de duplicação de células sugere a capacidade provável de detectar essas mutações selecionadas em um curto espaço de tempo (por exemplo, tão pouco quanto duas semanas).
Os resultados da análise experimental deste exemplo demonstram que o Sequenciamento Duplex quantifica a indução de mutações extremamente robusta e com intervalos de confidência replicados rigorosos. Além disso, a Sequência Duplex foi capaz de resolver variações específicas do tecido na extensão da indução da mutação, com o pulmão sendo observado ser mais propenso a mutações do que o baço e o sangue. O espectro mutacional simples da exposição ao uretano é limpo e o agrupamento sem tendência pode discriminar entre os grupos. O espectro de mutação tripla de uretano mostra uma forte propensão para mutações TA e TC dentro do contexto de "NTG" e o espectro de mutação é distinguível do controle do veículo.
Adicionalmente, a indução de mutação no sangue periférico espelhado de perto que vê no baço e sugere que a amostragem in vivo de sangue periférico poderia, para alguns mutagênicos, substituir a necrópsia (ou biópsia). Além disso, este exemplo forneceu evidências claras de seleção para mutações oncogênicas no transgene HRAS humano usando Sequenciamento Duplex, mesmo em pontos de tempo anteriores (por exemplo, dia 29) do que os estudos convencionais seriam capazes de detectar (por exemplo, desenvolvimento de tumor de roedor). Assim, o presente exemplo demonstra que a análise do espectro de mutação em genes condutores de câncer alvo (ou outros loci condutores de câncer) pode refletir com precisão os efeitos de um mutagênio modelo conhecido. Consequentemente, o Sequenciamento Duplex pode fornecer dados precoces e precisos no que diz respeito à avaliação de mutações condutoras precoces de câncer como biomarcador de risco de câncer futuro. A contaminação das espécies cruzadas persistiu em níveis extremamente baixos, mas a remoção da contaminação por espécies estranhas foi realizada de forma automática e confiantemente.
A FIG. 8B mostra variantes de nucleotídeo único (SNV) traçadas ao longo dos intervalos genômicos para os éxons capturados da família Ras de genes, incluindo os loci transgênicos humanos, no modelo de camundongo Tg.RasH2 (mostrado na FIG. 8A). Singletes são mutações encontradas em uma única molécula. Multipletos são uma mutação idêntica identificada em múltiplas moléculas no mesmo amostrador e pode representar um evento de expansão clonal. A altura de cada ponto corresponde à frequência do alelo variante (VAF) de cada SNV, com o tamanho do ponto corresponde somente às observações de multipletos. A localização e a frequência relativa dos pontos quentes mutacionais do câncer humano da família Ras no COSMIC são indicados abaixo de cada gene. Agrupamento de transversões T>A foi observado em 4/5 amostras de pulmão tratadas com uretano e 1/5 amostras esplênicas tratadas com uretano no ponto quente de 61 códons de HRAS oncogênico humano. A observação de uma mutação idêntica em amostras independentes como multipletos de VAF altos em um condutor de câncer bem estabelecido é uma forte indicação de seleção positiva. Notavelmente, esses clones são da transversão T> A no contexto NTG, que é característico da mutagênese de uretano.
O presente exemplo descreve métodos para detectar e avaliar rapidamente a expansão clonal de células que abrigam uma mutação potencial que está sob pressão seletiva, enquanto fornece informações detalhadas sobre a frequência do alelo variante, espectro de tipo(s) de mutação e dados de contexto genômico. Por exemplo, em algumas modalidades, a presente tecnologia inclui etapas de método incluindo a extração de DNA de uma população de células após um evento de edição genômica. O DNA pode ser extraído em vários pontos de tempo após o evento de edição genômica. Por exemplo, o DNA pode ser extraído alguns dias ou algumas semanas ou alguns meses após o evento. Em algumas modalidades, o DNA pode ser extraído de uma população de células em 30 dias ou menos após um evento. Após a extração de DNA, uma biblioteca de DNA pode ser preparada. Em uma modalidade, o DNA genômico extraído pode ser fragmentado em uma pluralidade de fragmentos de DNA de fita dupla, e cada fragmento de DNA de fita dupla pode ser ligado a uma ou mais moléculas adaptadoras desejadas (por exemplo, molécula adaptadora mostrada na FIG. 1A).
Após a preparação da biblioteca de DNA, os complexos de DNA-adaptador de fita dupla podem ser amplificados e sequenciados com as etapas do método de Sequenciamento Duplex para resultar em leituras de sequenciamento de DNA de alta precisão que fornecem localização e frequência de mutação detalhada (por exemplo, resolvendo mutações mediadoras de seleção abaixo de um em um milhão). Assim, a análise de Sequenciamento Duplex pode fornecer detecção sensível de variantes genômicas em qualquer locus genético em qualquer tecido de qualquer organismo.
Exemplos Adicionais
1. Um método para caracterizar uma população de células após um evento de edição genômica modificado geneticamente direcionado a um locus genômico pretendido, o método compreendendo: (a) fornecer uma amostra compreendendo moléculas de DNA de fita dupla originárias da população de células após o evento de edição genômica modificado geneticamente; (b) gerar uma leitura de sequência corrigida de erro para cada uma de uma pluralidade de moléculas de DNA de fita dupla na amostra, compreendendo: ligar moléculas adaptadoras à pluralidade de moléculas de DNA de fita dupla alvo para gerar uma pluralidade de moléculas de DNA-adaptador; gerar um conjunto de cópias de uma primeira fita original da molécula de DNA- adaptador e um conjunto de cópias de uma segunda fita original da molécula adaptadora de DNA; sequenciar uma ou mais cópias da primeira e da segunda fitas originais para fornecer uma sequência da primeira fita e uma sequência da segunda fita;
comparar a sequência da primeira fita e a sequência da segunda fita para identificar uma ou mais correspondências entre a sequência da primeira e da segunda fita; e (c) comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência no locus genômico pretendido com uma sequência de DNA editada do genoma antecipada; ou (d) comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência em um locus genômico não pretendido com uma sequência de DNA do genoma de referência.
2. O método do exemplo 1, em que o método compreende tanto a etapa (c) quanto a etapa (d).
3. O método do exemplo 1 ou exemplo 2, em que a geração de uma leitura de sequência corrigida de erro para cada uma de uma pluralidade das moléculas de DNA de fita dupla compreende ainda seletivamente o enriquecimento de uma ou mais regiões genômicas direcionadas antes do sequenciamento para fornecer uma pluralidade de moléculas adaptadoras de DNA.
4. O método do exemplo 4, em que uma ou mais regiões genômicas direcionadas compreendem o locus genômico pretendido no genoma.
5. O método do exemplo 4, em que uma ou mais regiões genômicas direcionadas compreendem pelo menos um locus genômico não pretendido no genoma.
6. O método de qualquer um dos exemplos 1 a 5, compreendendo ainda a identificação de uma ou mais variantes entre as moléculas de DNA de fita dupla.
7. O método do exemplo 6, em que uma ou mais variantes compreendem uma mutação incorreta na sequência do locus genômico pretendido.
8. O método do exemplo 7, em que a mutação incorreta na sequência do locus genômico pretendido para edição genômica é devido a um evento de junção de extremidade não homóloga (NHEJ).
9. O método do exemplo 6, em que uma ou mais variantes são identificadas em uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência em um locus genômico não pretendido.
10. O método de qualquer um dos exemplos 6 a 9, em que uma ou mais variantes compreendem uma mutação funcionalmente disruptiva.
11. O método do exemplo 6 ou exemplo 9, compreendendo ainda (e) determinar uma frequência de uma ou mais variantes entre a pluralidade de moléculas de DNA de fita dupla.
12. O método de qualquer um dos exemplos 1 a 11, compreendendo ainda determinar se uma ou mais leituras de sequência corrigida de erro compreendendo a sequência no locus genômico pretendido compreendem a sequência de DNA editada do genoma antecipada.
13. O método do exemplo 12, compreendendo ainda determinar uma frequência da sequência de DNA editada do genoma antecipada entre as leituras de sequência corrigida de erro que compreendem a sequência no locus genômico pretendido.
14. O método do exemplo 12, compreendendo ainda a determinação de uma frequência de uma sequência de DNA indesejada entre as leituras de sequência corrigida de erro que compreendem a sequência no locus genômico pretendido.
15. O método de qualquer um dos exemplos 1 a 14, compreendendo ainda determinar se uma ou mais leituras de sequência corrigida de erro compreendendo a sequência no locus genômico não pretendido compreende uma variante.
16. Método, de qualquer um dos exemplos 1 a 15, em que o evento de edição genômica modificado geneticamente é direcionado a uma pluralidade de loci genômicos pretendidos.
17. O método de qualquer um dos exemplos 1 a 16, em que a etapa (d) compreende a comparação de leituras de sequência corrigida de erro compreendendo sequências em uma pluralidade de loci genômicos não pretendidos a uma sequência de DNA do genoma de referência.
18. O método do exemplo 17, em que os loci genômicos não pretendido compreendem um ou mais de um sítio propenso a mutação, um locus microssatélites, uma sequência com homologia de sequência ao locus genômico pretendido e/ou um condutor de câncer.
19. O método de qualquer um dos exemplos 1 a 18, em que o locus genômico não pretendido tem uma sequência de ácido nucleico que é pelo menos parcialmente semelhante à sequência no locus genômico pretendido.
20. O método de qualquer um dos exemplos 1 a 19, em que o locus genômico não pretendido compreende uma sequência de um gene supressor de tumor, um oncogene, um proto- oncogene e/ou um condutor de câncer.
21. Um método para caracterizar a eficiência de um evento de edição genômica modificado geneticamente em uma população de células, em que o evento de edição genômica modificado geneticamente é direcionado a um locus genômico pretendido, o método compreendendo: (a) preparar uma biblioteca de sequenciamento de uma amostra compreendendo uma pluralidade de moléculas de DNA de fita dupla originadas da população de células após o evento de edição genômica, em que a preparação da biblioteca de sequências compreende a ligação de moléculas adaptadoras assimétricas à pluralidade de moléculas de DNA de fita dupla para gerar uma pluralidade de moléculas adaptadoras de DNA; (b) sequenciar a primeira e a segunda fitas das moléculas adaptadoras de DNA para fornecer uma leitura de sequência da primeira e uma segunda leitura de sequência da segunda fita para pelo menos uma porção das moléculas adaptadoras de DNA; (c) para cada molécula adaptadora de DNA sequenciada, comparar a leitura de sequência da primeira fita com a leitura de sequência da segunda fita para identificar uma ou mais correspondências entre as a leituras de sequências da primeira e da segunda fitas; e (d) determinar uma frequência de uma sequência genômica antecipada no locus genômico pretendido entre a pluralidade de moléculas de DNA de fita dupla compreendendo o locus genômico pretendido por: análise de uma ou mais correspondências entre a primeira e a segunda leitura de sequência de fita; e comparação das correspondências com a sequência genômica antecipada.
22. O método do exemplo 21, compreendendo ainda o enriquecer seletivamente uma ou mais regiões genômicas direcionadas antes do sequenciamento para fornecer uma pluralidade de moléculas adaptadoras de DNA enriquecidas.
23. O método do exemplo 22, em que uma ou mais regiões genômicas direcionadas compreendem o locus genômico pretendido no genoma.
24. O método do exemplo 22, em que uma ou mais regiões genômicas direcionadas compreendem pelo menos um locus genômico não pretendido no genoma.
25. O método de qualquer um dos exemplos 21 a 24, compreendendo ainda: identificar uma ou mais variantes em loci genômicos não pretendidos por: análise de uma ou mais correspondências entre leituras de sequência de primeira e segunda fita derivadas de moléculas de DNA de fita dupla compreendendo sequências de um ou mais loci genômicos não pretendidos; e comparação das correspondências com uma sequência de genoma de referência; e determinação de uma frequência variante de uma ou mais variantes entre a pluralidade de moléculas de DNA de fita dupla compreendendo um ou mais loci genômicos não pretendidos.
26. O método de qualquer um dos exemplos 21 a 25, em que comparar as correspondências com a sequência genômica antecipada compreende a identificar uma mutação incorreta na sequência dos loci pretendidos para edição genômica.
27. O método de qualquer um dos exemplos 21 a 25, em que comparar as correspondências com a sequência genômica antecipada compreende identificar uma sequência inalterada.
28. Um método para gerar leituras de sequenciamento de alta precisão de uma população de moléculas de ácido nucleico de fita dupla alvo extraídas de uma população de células editadas por genoma, o método compreendendo: (a) sequenciar em duplex de uma ou mais moléculas de ácido nucleico de fita dupla alvo extraídas da população de células; e (b) gerar sequências de consenso de alta precisão para as moléculas de DNA de fita dupla direcionadas, em que as moléculas de ácido nucleico de fita dupla alvo compreendem uma região editada do genoma pretendida de DNA e uma ou mais regiões genômicas não pretendidas de DNA.
29. O método do exemplo 28, em que a região genômica não pretendida de DNA tem uma sequência de ácido nucleico que é pelo menos parcialmente semelhante à região de DNA editada do genoma pretendida.
30. O método do exemplo 28 ou exemplo 29, compreendendo ainda comparar o mapeamento de sequências de consenso de alta precisão com a região de DNA editada do genoma pretendida para uma sequência de DNA editada do genoma antecipada, e em que um processo de edição do genoma direcionado é considerado bem sucedido se um ou mais sequências de consenso de alta precisão de mapeamento para a região editada do genoma pretendida for substancialmente a mesma que a sequência de DNA editada do genoma antecipada.
31. O método do exemplo 30, em que o processo de edição do genoma direcionado é considerado bem sucedido se a maioria das sequências de consenso de alta precisão de mapeamento para a região editada do genoma pretendido for substancialmente igual à sequência de DNA editada do genoma antecipada.
32. O método de qualquer um dos exemplos 28 a 31, compreendendo ainda comparar o mapeamento de sequências de consenso de alta precisão nas regiões genômicas não pretendidas a uma sequência genômica de referência derivada de células que não foram submetidas ao evento de edição genômica, em que um processo de edição de genoma direcionado é considerado bem sucedido se o mapeamento de sequências de consenso de alta precisão para as regiões genômicas não pretendidas for substancialmente o mesmo que a sequência genômica de referência.
33. Um método para determinar se o DNA foi editado com sucesso pelo genoma em um locus genético pretendido usando um evento de edição genômica direcionado modificado geneticamente, o método compreendendo: a) fornecer leituras de sequenciamento com correção de erro duplex para uma pluralidade de moléculas de DNA de fita dupla extraídas de uma amostra após o evento de edição genômica direcionado modificado geneticamente; e b) quantificar para cada locus genético em um conjunto de um ou mais loci genéticos em um genoma de referência, as moléculas de DNA de fita dupla para as quais as leituras de sequenciamento corrigido de erro duplex têm sequências substancialmente iguais a uma sequência esperada.
34. O método do exemplo 33, em que o conjunto de um ou mais loci genéticos no genoma de referência compreende o locus genético pretendido, e em que a sequência esperada compreende uma sequência de DNA genômica editada antecipada.
35. O método do exemplo 33 ou exemplo 34, em que o conjunto de um ou mais loci genéticos no genoma de referência compreende um locus genético não pretendido e em que a sequência esperada compreende uma sequência genômica derivada de células que não passaram por evento de edição genômica.
36. O método do exemplo 35, em que o locus genético não pretendido compreende um sítio propenso a mutação, um locus microssatélites, uma sequência com homologia de sequência ao locus genético pretendido e/ou um condutor de câncer.
37. Método de avaliação do potencial neoplásico de uma população de células após um evento de edição genômica modificado geneticamente, compreendendo: (a) preparar uma biblioteca de sequenciamento de uma amostra compreendendo moléculas de DNA de fita dupla originadas da população de células após o evento de edição genômica modificado geneticamente, em que a preparação da biblioteca de sequências compreende marcar uma pluralidade de moléculas de DNA de fita dupla para gerar uma pluralidade de moléculas de DNA marcadas com primeira e segunda fitas marcadas; (b) enriquecer seletivamente a primeira e segunda fitas marcadas para um subconjunto de moléculas de DNA marcadas que mapeiam para um ou mais condutores de câncer para fornecer moléculas de DNA marcadas enriquecidas; (c) gerar uma leitura de sequência corrigida de erro para cada uma de uma pluralidade de moléculas de DNA marcadas enriquecidas, em que a geração das leituras de sequência corrigida de erro compreende: sequenciar uma ou mais primeira e segunda fitas marcadas derivadas das moléculas de DNA marcadas enriquecidas para fornecer uma sequência de primeira fita e uma sequência segunda de fita; comparar a sequência da primeira fita e a sequência da segunda fita para identificar uma ou mais correspondências entre a sequência da primeira e da segunda fita; e (d) determinar se há uma variante presente em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas, comparando uma ou mais correspondências a uma sequência de genoma de referência.
38. O método do exemplo 37, em que uma ou mais variantes compreendem uma mutação funcionalmente disruptiva.
39. O método do exemplo 37 ou exemplo 38, em que um ou mais condutores de câncer são ou compreendem ABL, ACC, BCR, BLCA, BRCA, CESC, CHOL, COAD, DLBC, DNMT3A, EGFR, ESCA, GBM, HNSC, KICH, KIRC, KIRP, LAML, LGG, LIHC, LUAD, LUSC, MESO, OV, PAAD, PCPG, PI3K, PIK3CA, PRAD, PTEN, READ, SARC, SKCM, STAD, TGCT, THCA, THYM, UCEC, UCS, e/ou UVM.
40. O método do exemplo 37 ou exemplo 38, em que o condutor de câncer é ou compreende TP53.
41. O método do exemplo 37 ou exemplo 38, em que o condutor de câncer é ou compreende HRAS, NRAS ou KRAS.
42. O método de qualquer um dos exemplos 37 a 41, em que se houver uma variante presente em um ou mais condutores de câncer entre a pluralidade de moléculas de DNA marcadas enriquecidas, então o método compreende ainda (e) determinar uma frequência variante da variante entre a pluralidade de moléculas de DNA marcadas enriquecidas.
43. O método do exemplo 42, em que as etapas do método (a) a (e) são realizadas em um primeiro ponto de tempo após o evento e em um segundo ponto de tempo após o evento, em que o segundo ponto de tempo é após o primeiro ponto de tempo, e em que a frequência variante do primeiro ponto de tempo é comparada com a frequência variante do segundo ponto de tempo.
44. O método do exemplo 43, em que o segundo ponto de tempo é de 2 a 90 dias após o primeiro ponto de tempo.
45. O método do exemplo 43, em que tanto o primeiro quanto o segundo pontos são em cerca de 30 dias, em cerca de 45 dias, em cerca de 60 dias, em cerca de 75 dias ou em cerca de 90 dias após o evento de edição genômica modificado geneticamente.
46. O método de qualquer um dos exemplos 43 a 45, em que a população de células é determinada como tendo potencial neoplásico se a frequência variante do segundo ponto de tempo for maior do que a frequência variante do primeiro ponto de tempo.
47. O método do exemplo 42, em que as etapas do método (a) a (e) são realizadas em cerca de 30 dias após o evento de edição genômica modificado geneticamente, e em que a frequência variante é comparada a uma frequência variante pré-evento determinada a partir de uma população de células que não passou pelo evento de edição genômica modificado geneticamente.
48. Um método para detectar e/ou quantificar a expansão clonal de uma célula em uma população de células após um evento de edição genômica modificado geneticamente compreendendo: (a) sequenciar em duplex uma ou mais moléculas de DNA de fita dupla alvo originadas de uma população de células após o evento de edição genômica modificado geneticamente; (b) identificar uma ou mais variantes entre as moléculas de DNA de fita dupla alvo; (c) determinar uma frequência variante de uma ou mais variantes entre as moléculas de DNA de fita dupla alvo originadas da população de células; e (d) comparar a frequência variante para cada uma das uma ou mais variantes com uma frequência variante esperada.
49. O método do exemplo 48, em que a etapa de sequenciamento duplex compreende: (i) preparar uma biblioteca de sequenciamento de moléculas de DNA de fita dupla originadas da população de células após o evento de edição genômica modificado geneticamente, em que a preparação da biblioteca de sequências compreende ligar moléculas adaptadoras à pluralidade de fragmentos de DNA de fita dupla para gerar uma pluralidade moléculas adaptadoras de DNA; (ii) sequenciar a primeira e a segunda fitas das moléculas adaptadoras de DNA para fornecer uma leitura de sequência da primeira e uma leitura de sequência da segunda fita para cada molécula adaptadora de DNA; e (iii) para cada molécula adaptadora de DNA, comparar a leitura de sequência da primeira fita com a leitura de sequência da segunda fita para identificar uma ou mais correspondências entre as a leituras de sequências da primeira e da segunda fitas.
50. O método do exemplo 48 ou exemplo 49, em que a frequência variante de uma ou mais variantes é determinada calculando inúmeras moléculas de DNA de fita dupla alvo sequenciadas em duplex tendo um mapeamento de variante especificado para um locus genômico de interesse por número total de mapeamento de moléculas de DNA de fita dupla alvo sequenciadas em duplex para o locus genômico de interesse.
51. O método de qualquer um dos exemplos 48 a 50, em que a frequência variante de uma ou mais variantes está acima de uma frequência variante limiar.
52. O método de qualquer um dos exemplos 48 a 51, em que uma ou mais variantes são identificadas em relação a uma sequência de uma população de células de referência.
53. O método de qualquer um dos exemplos 48 a 52, em que as etapas do método (a) a (c) são realizadas em um primeiro ponto de tempo após o evento e em um segundo ponto de tempo após o evento, em que o segundo ponto de tempo é após o primeiro ponto de tempo, e em que a frequência variante do primeiro ponto de tempo é a frequência variante esperada.
54. O método do exemplo 53, em que o segundo ponto de tempo é de 2 a 90 dias após o primeiro ponto de tempo.
55. O método do exemplo 53, em que tanto o primeiro quanto o segundo pontos são em cerca de 30 dias, em cerca de 45 dias, em cerca de 60 dias, em cerca de 75 dias ou em cerca de 90 dias após o evento de edição genômica modificado geneticamente.
56. O método de qualquer um dos exemplos 53 a 55, em que a expansão clonal de uma célula na população de células é determinada como tendo ocorrido se a frequência variante do segundo ponto de tempo for maior do que a frequência variante do primeiro ponto de tempo.
57. O método de qualquer um dos exemplos 48 a 56, em que a expansão clonal de uma célula na população de células é determinada como tendo ocorrido se a frequência variante for maior do que a frequência variante esperada.
58. O método do exemplo 56 ou exemplo 57, em que a expansão clonal da célula indica um estado proliferativo celular anormal, um estado semelhante ao câncer, um estado pré- cancerígeno ou um efeito de campo.
59. O método do exemplo 48, em que a frequência variante esperada é determinada a partir de uma população de células comparáveis que não passou por evento de edição genômica modificado geneticamente.
60. O método de qualquer um dos exemplos 48 a 59, em que uma ou mais variantes estão em um ou mais locais fora de um locus pretendido para edição genômica.
61. O método de qualquer um dos exemplos 48 a 60, em que uma ou mais variantes estão em uma sequência de um gene supressor de tumor, um oncogene, um proto-oncogene e/ou um condutor de câncer.
62. O método de qualquer um dos exemplos 48 a 61, em que uma ou mais variantes compreendem uma mutação funcionalmente disruptiva.
63. O método de qualquer um dos exemplos 48 a 62, em que pelo menos uma variante está em TP53.
64. O método de qualquer um dos exemplos 47 a 63, em que pelo menos uma variante está em HRAS, NRAS ou KRAS.
65. O método de qualquer um dos exemplos 48 a 64, em que pelo menos uma variante é uma mutação passageira.
66. Método, de qualquer um dos exemplos 48 a 65, em que pelo menos uma variante é uma variante de condutor não cancerígeno.
67. O método de qualquer um dos exemplos 1 a 66, em que a população de células ou população celular é ou compreende células-tronco pluripotentes, células-tronco embrionárias, células imunes ou células vegetais.
68. O método de qualquer um dos exemplos 1 a 67, em que a população de células ou população celular é derivada de um paciente humano.
69. O método do exemplo 68, em que as moléculas de DNA de fita dupla obtidas do paciente humano são obtidas a partir de tecido, de células circulantes, de DNA livre de células no plasma, de DNA livre de células em outros fluidos corporais, de DNA exossômico, de células eliminadas por um tecido e/ou de uma biópsia.
70. O método de qualquer um dos exemplos 1 a 68, em que a população de células ou população celular é cultivada em uma cultura celular.
71. O método de qualquer um dos exemplos 1 a 68 e 70, em que a população de células ou população celular é derivada de um sujeito humano ou animal.
72. O método de qualquer um dos exemplos 1 a 71, em que a população de células ou população celular é derivada de um xenoenxerto.
73. O método de qualquer um dos exemplos 1 a 72, em que o evento de edição genômica modificado geneticamente é um evento de edição mediado por endonuclease alvo.
74. O método de qualquer um dos exemplos 1 a 73, em que o evento de edição genômica modificado geneticamente é um evento de edição mediado por Cas9.
75. O método de qualquer um dos exemplos 1 a 73, em que o evento de edição genômica modificado geneticamente é um evento de edição mediado por CPF1.
76. O método de qualquer um dos exemplos 1 a 73, em que o evento de edição genômica modificado geneticamente é um evento mediado por CAS ou CPF-1 modificado.
77. Método, de qualquer um dos exemplos 1 a 73, em que o evento de edição genômica modificado geneticamente é realizado por um TALON, MEGATAL, nuclease de dedos de zinco, uma endonuclease teleguiada ou uma endonuclease de restrição.
78. O método de qualquer um dos exemplos 1 a 73, em que o evento de edição genômica modificado geneticamente é um evento de recombinação homóloga mediado por substrato de polinucleotídeo.
79. O método de qualquer um dos exemplos 1 a 73, em que o evento de edição genômica modificado geneticamente é realizado por um retrovírus ou outro vírus.
80. O método de qualquer um dos exemplos 1 a 73, em que o evento de edição genômica modificado geneticamente introduz um ou mais dentre uma quebra de DNA, um aduto de DNA, um sítio de dano oxidativo de DNA, um corte de DNA ou um sítio de desaminação de DNA.
81. O método, de acordo com qualquer um dos exemplos 1 a 72, em que a população de células ou a população celular foi editada usando um sistema CRISPR / Cas9.
82. O método de qualquer um dos exemplos 11, 25, 42 e 48, em que a frequência variante de uma ou mais variantes é maior do que uma frequência variante de fundo de uma população de referência de moléculas de DNA de fita dupla extraídas de uma população de células de referência que não passaram por um evento de edição genômica modificado geneticamente.
83. O método de qualquer um dos exemplos 1 a 82, em que o evento de edição genômica modificado geneticamente resulta na morte ou dano de um subconjunto de células na população de células ou população celular.
84. Método, de qualquer um dos exemplos 1 a 82, em que um subconjunto de células na população de células ou população celular tem uma ou mais mutações genéticas pré-existentes e em que após o evento de edição genômica modificado geneticamente, o subconjunto de células seletivamente prolifera em uma taxa maior do que outras células na população de células ou população celular.
85. O método de qualquer um dos exemplos 1 a 82, em que um subconjunto de células na população de células ou população celular tem um estado epigenético pré-existente único para as ditas células e em que após o evento de edição genômica modificado geneticamente, o subconjunto das células prolifera seletivamente a uma taxa maior do que outras células na população de células ou população celular.
86. O método de qualquer um dos exemplos 1 a 85, em que o evento de edição genômica modificado geneticamente causa mutações no DNA.
87. O método de qualquer um dos exemplos 1 a 86, em que o evento de edição genômica modificado geneticamente repara uma mutação no DNA genômico.
88. Um método para monitorar o potencial neoplásico de uma população celular após um evento de edição genômica modificado geneticamente, compreendendo: (a) sequenciar em duplex uma ou mais moléculas de DNA de fita dupla alvo originadas de uma população de células após o evento de edição genômica modificado geneticamente no primeiro ponto de tempo; (b) identificar uma ou mais variantes entre as moléculas de DNA de fita dupla alvo; (c) determinar uma frequência variante de uma ou mais variantes entre as moléculas de DNA de fita dupla alvo originadas da população celular no primeiro ponto de tempo; (d) sequenciar em duplex uma ou mais moléculas de DNA de fita dupla alvo originadas de uma população de células após o evento de edição genômica modificado geneticamente no segundo ponto de tempo; (e) determinar uma frequência variante de uma ou mais variantes entre as moléculas de DNA de fita dupla alvo originadas da população de células no segundo ponto de tempo; e (f) comparar a frequência variante para cada uma das uma ou mais variantes do primeiro ponto de tempo com a frequência variante para cada uma das uma ou mais variantes do segundo ponto de tempo.
89. O método do exemplo 88, em que cada uma das etapas de sequenciamento duplex compreende: (i) preparar uma biblioteca de sequenciamento de moléculas de DNA de fita dupla originadas da população de células, em que a preparação da biblioteca de sequências compreende ligar moléculas adaptadoras à pluralidade de fragmentos de DNA de fita dupla para gerar uma pluralidade moléculas adaptadoras de DNA;
(ii) sequenciar a primeira e a segunda fitas das moléculas adaptadoras de DNA para fornecer uma leitura de sequência da primeira e uma leitura de sequência da segunda fita para cada molécula adaptadora de DNA; e (iii) para cada molécula adaptadora de DNA, comparar a leitura de sequência da primeira fita com a leitura de sequência da segunda fita para identificar uma ou mais correspondências entre as a leituras de sequências da primeira e da segunda fitas.
90. O método do exemplo 88 ou exemplo 89, em que a população de células editadas do genoma é ou compreende células imunes editadas do genoma.
91. O método de qualquer um dos exemplos 88 a 90, em que a população de células editadas do genoma é administrada a um sujeito entre o primeiro e o segundo ponto de tempo.
92. O método do exemplo 91, em que a expansão clonal de uma célula na população de células é determinada como tendo ocorrido se a frequência variante do segundo ponto de tempo for maior do que a frequência variante do primeiro ponto de tempo.
93. O método do exemplo 92, em que uma ou mais variantes estão em uma sequência de um gene supressor de tumor, um oncogene, um proto-oncogene e/ou um condutor de câncer.
94. O método do exemplo 92, em que uma ou mais variantes compreendem uma mutação funcionalmente disruptiva.
95. O método de qualquer um dos exemplos 92 a 94, em que pelo menos uma variante está em TP53.
96. O método de qualquer um dos exemplos 92 a 95, em que pelo menos uma variante está em HRAS, NRAS ou KRAS.
97. O método de qualquer um dos exemplos 92 a 96, em que pelo menos uma variante é uma mutação passageira.
98. Método, de qualquer um dos exemplos 92 a 97, em que pelo menos uma variante é uma variante de condutor não cancerígeno.
99. Um Kit capaz de ser usado no sequenciamento duplex corrigido por erros de polinucleotídeos de fita dupla para caracterizar uma população de células após um evento de edição genômica modificado geneticamente, o kit compreendendo: pelo menos um conjunto de iniciadores de reação em cadeia de polimerase (PCR) e pelo menos um conjunto de moléculas adaptadoras, em que os iniciadores e moléculas adaptadoras podem ser utilizados em experimentos de sequenciamento duplex corrigido por erro; e instruções sobre métodos de uso do kit na condução de sequenciamento duplex corrigido por erro de DNA extraído de uma amostra derivada da população de células para identificar um ou mais dos seguintes: uma sequência genômica antecipada em um locus genômico pretendido; uma variante em um locus genômico não pretendido; uma mutação em um condutor de câncer; e uma frequência variante de uma ou mais variantes.
100. O kit do exemplo 99, em que o reagente compreende uma enzima de reparo do DNA.
101. O kit do exemplo 99, em que cada uma das moléculas adaptadoras no conjunto de moléculas adaptadoras compreende pelo menos uma sequência de identificador de molécula única (SMI) e pelo menos um elemento de definição de fita.
102. O kit do exemplo 99 compreende ainda um produto de programa de computador incorporado em um meio legível por computador não transitório que, quando executado em um computador, executa as etapas de determinar uma leitura de sequenciamento duplex corrigida de erro para um ou mais moléculas de DNA de fita dupla em uma amostra e determinar uma sequência no locus genômico pretendido, uma sequência em um ou mais loci genômicos não pretendidos, uma variante, uma frequência variante e/ou um espectro editado do genoma após o evento de edição genômica usando a leitura de sequenciamento duplex corrigida de erro.
103. Um sistema para caracterizar uma população de células após um evento de edição genômica modificado geneticamente e/ou detectar a expansão clonal de uma célula dentro da população de células compreendendo: uma rede de computadores para transmissão de informações relacionadas a dados de sequenciamento e dados de edição de genoma, em que a informação inclui um ou mais dados brutos de sequenciamento, dados de sequenciamento duplex, informações de amostra e informações de edição de genoma; um computador do cliente associado a um ou mais dispositivos de computação do usuário e em comunicação com a rede de computadores; um banco de dados conectado à rede de computadores para armazenar uma pluralidade de perfis de edição de genoma e registros de resultados do usuário; um módulo de sequenciamento duplex em comunicação com a rede de computadores e configurado para receber dados brutos de sequenciamento e solicitações do computador do cliente para gerar dados de sequenciamento duplex, leituras de sequências de grupo de famílias que representam uma molécula de ácido nucleico de fita dupla original e comparar sequências representativas de fitas individuais uma com a outra para gerar dados de sequenciamento duplex; e um módulo de edição de genoma em comunicação com a rede de computadores e configurado para comparar dados de sequenciamento duplex com informações de sequência de referência para identificar variantes e gerar dados de edição de genoma compreendendo pelo menos uma de uma alteração genômica em um locus genômico pretendido e/ou não pretendido.
104. O sistema do exemplo 103, em que os perfis de edição do genoma compreendem informações de sequência de um ou mais loci genômicos pretendidos.
105. O sistema do exemplo 103, em que os perfis de edição do genoma compreendem informações de sequência de um ou mais loci genômicos não pretendidos.
106. O sistema do exemplo 103, em que os perfis de edição do genoma compreendem uma frequência variante para uma ou mais variantes no genoma das populações de células.
107. Um meio de armazenamento legível por computador não transitório, compreendendo instruções que, quando executadas por um ou mais processadores, realiza um método de qualquer um dos exemplos 1 a 98 para caracterizar uma população de células após um evento de edição genômica modificado geneticamente e/ou detecção expansão clonal de uma célula dentro da população de células.
108. Sistema de computador para realizar um método de qualquer um dos exemplos 1 a 98 para caracterizar uma população de células após um evento de edição genômica modificado geneticamente e/ou detectar a expansão clonal de uma célula dentro da população de células, o sistema compreendendo: pelo menos um computador com um processador, memória, banco de dados e um meio de armazenamento legível por computador não transitório compreendendo instruções para o(s) processador(es), em que o(s) dito(s) processador(es) são configurados para executar as ditas instruções para executar operações que compreendem os métodos de qualquer um de exemplos 1 a 98.
109. O sistema do exemplo 108, compreendendo ainda um sistema de computador em rede compreendendo: a. uma rede com ou sem fio; b. uma pluralidade de dispositivos de computação eletrônica do usuário capaz de receber dados derivados do uso de um kit compreendendo reagentes para extrair, amplificar e produzir uma sequência de polinucleotídeo da amostra e transmitir a sequência polinucleotídeo por meio de rede para um servidor remoto; e c. um servidor remoto compreendendo o processador, memória, banco de dados e meio de armazenamento legível por computador não transitório compreendendo instruções para o(s) processador(es), em que o(s) dito(s) processador(es) está(ão) configurado(s) para executar as ditas instruções para executar operações compreendendo os métodos de qualquer um dos exemplos 1 a 98; e d. em que o dito servidor remoto é capaz de detectar e identificar variantes e/ou eventos de expansão clonal resultantes do evento de edição genômica.
110. O sistema do exemplo 109, em que o banco de dados e/ou um banco de dados de terceiros acessível através da rede, compreende ainda uma pluralidade de registros compreendendo um ou mais de um perfil de edição de genoma de uma população de células, uma sequência de referência, uma sequência editada do genoma antecipada e uma frequência variante em um ou mais pontos de tempo.
111. Um meio legível por computador não transitório, cujo conteúdo faz com que pelo menos um computador execute um método para fornecer dados de sequenciamento duplex para moléculas de ácido nucleico de fita dupla em uma amostra da população de célula editada do genoma, o método compreendendo: receber dados de sequência bruta de um dispositivo de computação do usuário; e criar um conjunto de dados específicos de amostra compreendendo uma pluralidade de leituras de sequência bruta derivadas de uma pluralidade de moléculas de ácido nucleico na amostra; agrupar as leituras de sequência das famílias que representam uma molécula de ácido nucleico de fita dupla original, em que o agrupamento é baseado em uma sequência de identificador de molécula única compartilhada; comparar uma sequência da primeira fita e a sequência da segunda fita a partir de uma molécula original de ácido nucleico de fita dupla para identificar uma ou mais correspondências entre as leituras de sequência da primeira e da segunda fitas; e fornecer dados de sequenciamento duplex para as moléculas de ácido nucleico de fita dupla na amostra.
112. O meio legível por computador, do exemplo 111, compreendendo ainda identificar posições de nucleotídeo de não complementaridade entre a primeira e segunda leituras de sequência comparadas, em que o método compreende ainda, em posições de não complementaridade, identificar e eliminar ou descontar erros de processo.
113. Um meio legível por computador não transitório cujo conteúdo faz com que pelo menos um computador execute um método de detecção e identificação de sequências editadas em loci genômicos pretendidos, resultante de um evento de edição genômica em uma população de células, o método compreendendo: comparar dados de sequência duplex compreendendo uma pluralidade de sequências objeto com informações de sequência de referência; identificar correspondências de sequência e/ou variações nos dados de sequência duplex, em que uma variação é identificada como uma região de não concordância com a informação de referência nos loci genômicos pretendidos; determinar uma frequência de sequências editadas de genoma antecipadas entre a pluralidade de sequências objeto nos dados de sequência duplex; gerar um espectro editado de genoma a partir dos dados de sequência duplex; e fornecer dados de edição de genoma.
114. Um meio legível por computador não transitório cujos conteúdos faz com que pelo menos um computador execute um método de detecção e identificação de sequências editadas em loci genômicos pretendidos, resultante de um evento de edição genômica em uma população de célula, o método compreendendo: comparar dados de sequência duplex compreendendo uma pluralidade de sequências objeto com informações de sequência de referência; identificar correspondências de sequência e/ou variações nos dados de sequência duplex, em que uma variação é identificada como uma região de não concordância com a informação de referência nos loci genômicos não pretendidos; determinar se uma sequência objeto compreende uma variante em um locus genômico não pretendido;
se uma variante estiver presente, determinar uma frequência de variante da variante nos dados de sequência duplex; gerar um espectro editado de genoma a partir dos dados de sequência duplex; e fornecer dados de edição de genoma.
115. Um meio legível por computador não transitório, cujos conteúdos fazem com que pelo menos um computador realize um método para detectar e identificar a expansão clonal de uma célula em uma população de células após um evento de edição genômica, o método compreendendo: identificar variantes de sequência em uma região genômica alvo usando dados de sequenciamento duplex gerados a partir de uma amostra originada da população de células editadas do genoma; calcular uma frequência de alelo variante (VAF) de uma amostra de teste e uma amostra de controle; determinar se uma VAF é maior em um grupo de teste do que em um grupo de controle; em amostras com uma VAF mais alta, determinar se uma variante de sequência é um não singuleto; determinar em amostras com uma VAF mais alta, se a variante de sequência é uma mutação ativadora; e caracterizar amostras com uma mutação não singleto e/ou condutor como sendo suspeitas de passar por expansão clonal.
116. Um meio legível por computador não transitório do exemplo 115, compreendendo ainda avaliar um limiar de segurança para a população de células editadas do genoma e/ou determinar um risco associado como o tratamento de um sujeito com a população de células editadas do genoma.
Conclusão As descrições detalhadas acima de modalidades da tecnologia não pretendem ser exaustivas ou limitar a tecnologia à forma precisa divulgada acima. Embora modalidades específicas e exemplos para a tecnologia sejam descritos acima para fins ilustrativos, várias modificações equivalentes são possíveis dentro do escopo da tecnologia, como reconhecerão os versados na técnica. Por exemplo, enquanto as etapas são apresentadas em uma determinada ordem, modalidades alternativas podem executar etapas em uma ordem diferente. As várias modalidades descritas neste documento também podem ser combinadas para fornecer outras modalidades. Todas as referências aqui citadas são incorporadas por referência como se aqui fossem totalmente estabelecidas.
Pelo exposto, será apreciado que modalidades específicas da tecnologia foram descritas aqui para fins de ilustração, mas estruturas e funções conhecidas não foram mostradas ou descritas em detalhes para evitar obscurecer desnecessariamente a descrição das modalidades da tecnologia. Onde o contexto permitir, os termos no singular ou no plural também podem incluir o termo no plural ou no singular, respectivamente.
Além disso, a menos que a palavra “ou” seja expressamente limitada a significar apenas um único item exclusivo dos outros itens em referência a uma lista de dois ou mais itens, o uso de “ou” nessa lista deve ser interpretado como incluindo (a) qualquer item único da lista, (b) todos os itens da lista ou (c) qualquer combinação dos itens da lista. Além disso, o termo "compreendendo" é usado para significar a inclusão de pelo menos o(s) recurso(s) recitado(s), de modo que qualquer número maior do mesmo recurso e/ou tipos adicionais de outros recursos não sejam excluídos. Também será apreciado que modalidades específicas foram descritas aqui para fins de ilustração, mas que várias modificações podem ser feitas sem se desviar da tecnologia. Além disso, embora as vantagens associadas a certas modalidades da tecnologia tenham sido descritas no contexto dessas modalidades, outras modalidades também podem exibir essas vantagens, e nem todas as modalidades precisam necessariamente exibir essas vantagens para se enquadrarem no escopo da tecnologia. Por conseguinte, a divulgação e a tecnologia associada podem abranger outras modalidades não expressamente mostradas ou descritas aqui.

Claims (55)

REIVINDICAÇÕES
1. Método para caracterizar uma população de células após um evento de edição genômica modificado geneticamente direcionado a um locus genômico pretendido, caracterizado pelo fato de que o método compreende: (a) fornecer uma amostra compreendendo moléculas de DNA de fita dupla originárias da população de células após o evento de edição genômica modificado geneticamente; (b) gerar uma leitura de sequência corrigida de erro para cada uma de uma pluralidade de moléculas de DNA de fita dupla na amostra, compreendendo: ligar moléculas adaptadoras à pluralidade de moléculas de DNA de fita dupla alvo para gerar uma pluralidade de moléculas de DNA-adaptador; gerar um conjunto de cópias de uma primeira fita original da molécula de DNA- adaptador e um conjunto de cópias de uma segunda fita original da molécula adaptadora de DNA; sequenciar uma ou mais cópias da primeira e da segunda fitas originais para fornecer uma sequência da primeira fita e uma sequência da segunda fita; comparar a sequência da primeira fita e a sequência da segunda fita para identificar uma ou mais correspondências entre a sequência da primeira e da segunda fita; e (c) comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência no locus genômico pretendido com uma sequência de DNA editada do genoma antecipada; ou (d) comparar uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência em um locus genômico não pretendido com uma sequência de DNA do genoma de referência.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que o método compreende tanto a etapa (c) quanto a etapa (d).
3. Método de acordo com a reivindicação 1 ou reivindicação 2, caracterizado pelo fato de que a geração de uma leitura de sequência corrigida de erro para cada uma de uma pluralidade das moléculas de DNA de fita dupla compreende ainda seletivamente o enriquecimento de uma ou mais regiões genômicas direcionadas antes do sequenciamento para fornecer uma pluralidade de moléculas adaptadoras de DNA.
4. Método de acordo com a reivindicação 4, caracterizado pelo fato de que uma ou mais regiões genômicas direcionadas compreendem o locus genômico pretendido no genoma.
5. Método de acordo com a reivindicação 4, caracterizado pelo fato de que uma ou mais regiões genômicas direcionadas compreendem pelo menos um locus genômico não pretendido no genoma.
6. Método de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que compreende ainda a identificação de uma ou mais variantes entre as moléculas de DNA de fita dupla.
7. Método de acordo com a reivindicação 6, caracterizado pelo fato de que uma ou mais variantes compreendem uma mutação incorreta na sequência do locus genômico pretendido.
8. Método de acordo com a reivindicação 7, caracterizado pelo fato de que a mutação incorreta na sequência do locus genômico pretendido para edição genômica é devido a um evento de junção de extremidade não homóloga (NHEJ).
9. Método de acordo com a reivindicação 6, caracterizado pelo fato de que uma ou mais variantes são identificadas em uma ou mais leituras de sequência corrigida de erro compreendendo uma sequência em um locus genômico não pretendido.
10. Método de acordo com qualquer uma das reivindicações 6 a 9, caracterizado pelo fato de que uma ou mais variantes compreendem uma mutação funcionalmente disruptiva.
11. Método de acordo com a reivindicação 6 ou reivindicação 9, caracterizado pelo fato de que compreende ainda (e) determinar uma frequência de uma ou mais variantes entre a pluralidade de moléculas de DNA de fita dupla.
12. Método de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que compreende ainda determinar se uma ou mais leituras de sequência corrigida de erro compreendendo a sequência no locus genômico pretendido compreendem a sequência de DNA editada do genoma antecipada.
13. Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende ainda determinar uma frequência da sequência de DNA editada do genoma antecipada entre as leituras de sequência corrigida de erro que compreendem a sequência no locus genômico pretendido.
14. Método de acordo com a reivindicação 12, caracterizado pelo fato de que compreende ainda a determinação de uma frequência de uma sequência de DNA indesejada entre as leituras de sequência corrigida de erro que compreendem a sequência no locus genômico pretendido.
15. Método de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que compreende ainda determinar se uma ou mais leituras de sequência corrigida de erro compreende a sequência no locus genômico não pretendido compreende uma variante.
16. Método de acordo com qualquer uma das reivindicações 1 a 15, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é direcionado a uma pluralidade de loci genômicos pretendidos.
17. Método de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fato de que a etapa (d) compreende a comparação de leituras de sequência corrigida de erro compreendendo sequências em uma pluralidade de loci genômicos não pretendidos a uma sequência de DNA do genoma de referência.
18. Método de acordo com a reivindicação 17, caracterizado pelo fato de que os loci genômicos não pretendidos compreendem um ou mais de um sítio propenso a mutação, um locus microssatélites, uma sequência com homologia de sequência ao locus genômico pretendido e/ou um condutor de câncer.
19. Método de acordo com qualquer uma das reivindicações 1 a 18, caracterizado pelo fato de que o locus genômico não pretendido tem uma sequência de ácido nucleico que é pelo menos parcialmente semelhante à sequência no locus genômico pretendido.
20. Método de acordo com qualquer uma das reivindicações 1 a 19, caracterizado pelo fato de que o locus genômico não pretendido compreende uma sequência de um gene supressor de tumor, um oncogene, um proto-oncogene e/ou um condutor de câncer.
21. Método para detectar e/ou quantificar a expansão clonal de uma célula em uma população de células após um evento de edição genômica modificado geneticamente, caracterizado pelo fato de que compreende: (a) sequenciar em duplex uma ou mais moléculas de DNA de fita dupla alvo originadas de uma população de células após o evento de edição genômica modificado geneticamente; (b) identificar uma ou mais variantes entre as moléculas de DNA de fita dupla alvo; (c) determinar uma frequência variante de uma ou mais variantes entre as moléculas de DNA de fita dupla alvo originadas da população de células; e (d) comparar a frequência variante para cada uma das uma ou mais variantes com uma frequência variante esperada.
22. Método de acordo com a reivindicação 21, caracterizado pelo fato de que a frequência variante de uma ou mais variantes é determinada calculando inúmeras moléculas de DNA de fita dupla alvo sequenciadas em duplex tendo um mapeamento de variante especificado para um locus genômico de interesse por número total de mapeamento de moléculas de DNA de fita dupla alvo sequenciadas em duplex para o locus genômico de interesse.
23. Método de acordo com a reivindicação 21 ou reivindicação 22, caracterizado pelo fato de que a frequência variante de uma ou mais variantes está acima de uma frequência variante limiar.
24. Método de acordo com qualquer uma das reivindicações 21 a 23, caracterizado pelo fato de que uma ou mais variantes são identificadas em relação a uma sequência de uma população de células de referência.
25. Método de acordo com qualquer uma das reivindicações 21 a 24, caracterizado pelo fato de que as etapas do método (a) a (c) são realizadas em um primeiro ponto de tempo após o evento e em um segundo ponto de tempo após o evento, em que o segundo ponto de tempo é após o primeiro ponto de tempo, e em que a frequência variante do primeiro ponto de tempo é a frequência variante esperada.
26. Método de acordo com a reivindicação 25, caracterizado pelo fato de que tanto o primeiro quanto o segundo pontos são em cerca de 30 dias, em cerca de 45 dias, em cerca de 60 dias, em cerca de 75 dias ou em cerca de 90 dias após o evento de edição genômica modificado geneticamente.
27. Método de acordo com a reivindicação 25 ou reivindicação 26, caracterizado pelo fato de que a expansão clonal de uma célula na população de célula é determinada como tendo ocorrido se a frequência variante do segundo ponto de tempo for maior do que a frequência variante do primeiro ponto de tempo.
28. Método de acordo com qualquer uma das reivindicações 21 a 27, caracterizado pelo fato de que a expansão clonal de uma célula na população de célula é determinada como tendo ocorrido se a frequência variante for maior do que a frequência variante esperada.
29. Método de acordo com a reivindicação 27 ou reivindicação 28, caracterizado pelo fato de que a expansão clonal da célula indica um estado proliferativo celular anormal, um estado semelhante ao câncer, um estado pré-cancerígeno ou um efeito de campo.
30. Método de acordo com a reivindicação 21, caracterizado pelo fato de que a frequência variante esperada é determinada a partir de uma população de célula comparáveis que não passou por evento de edição genômica modificado geneticamente.
31. Método de acordo com qualquer uma das reivindicações 21 a 30, caracterizado pelo fato de que uma ou mais variantes estão em um ou mais locais fora de um locus pretendido para edição genômica.
32. Método de acordo com qualquer uma das reivindicações 21 a 31, caracterizado pelo fato de que uma ou mais variantes estão em uma sequência de um gene supressor de tumor, um oncogene, um proto-oncogene e/ou um condutor de câncer.
33. Método de acordo com qualquer uma das reivindicações 21 a 32, caracterizado pelo fato de que uma ou mais variantes compreendem uma mutação funcionalmente disruptiva.
34. Método de acordo com qualquer uma das reivindicações 21 a 33, caracterizado pelo fato de que pelo menos uma variante está em TP53.
35. Método de acordo com qualquer uma das reivindicações 21 a 34, caracterizado pelo fato de que pelo menos uma variante está em HRAS, NRAS ou KRAS.
36. Método de acordo com qualquer uma das reivindicações 21 a 35, caracterizado pelo fato de que pelo menos uma variante é uma mutação passageira.
37. Método de acordo com qualquer uma das reivindicações 21 a 36, caracterizado pelo fato de que pelo menos uma variante é uma variante condutora não cancerígena.
38. Método de acordo com qualquer uma das reivindicações 1 a 37, caracterizado pelo fato de que a população de células ou população celular é ou compreende células-tronco pluripotentes, células-tronco embrionárias, células imunes ou células vegetais.
39. Método de acordo com qualquer uma das reivindicações 1 a 38, caracterizado pelo fato de que a população de células ou população celular é derivada de um paciente humano.
40. Método de acordo com a reivindicação 39, caracterizado pelo fato de que as moléculas de DNA de fita dupla obtidas do paciente humano são obtidas a partir de tecido, de células circulantes, de DNA livre de células no plasma, de DNA livre de células em outros fluidos corporais, de DNA exossômico, de células eliminadas por um tecido e/ou de uma biópsia.
41. Método de acordo com qualquer uma das reivindicações 1 a 39, caracterizado pelo fato de que a população de células ou população celular é cultivada em uma cultura celular.
42. Método de acordo com qualquer uma das reivindicações 1 a 39 e 41, caracterizado pelo fato de que a população de células ou população celular é derivada de um sujeito humano ou animal.
43. Método de acordo com qualquer uma das reivindicações 1 a 42, caracterizado pelo fato de que a população de células ou população celular é derivada de um xenoenxerto.
44. Método de acordo com qualquer uma das reivindicações 1 a 43, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é um evento de edição mediado por endonuclease alvo.
45. Método de acordo com qualquer uma das reivindicações 1 a 44, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é um evento de edição mediado por Cas9.
46. Método de acordo com qualquer uma das reivindicações 1 a 44, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é um evento de edição mediado por CPF1.
47. Método de acordo com qualquer uma das reivindicações 1 a 44, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é um evento mediado por CAS ou CPF-1 modificado.
48. Método de acordo com qualquer uma das reivindicações 1 a 44, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é realizado por um TALON, MEGATAL, nuclease de dedos de zinco, uma endonuclease teleguiada ou uma endonuclease de restrição.
49. Método de acordo com qualquer uma das reivindicações 1 a 73, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é um evento de recombinação homóloga mediado por substrato de polinucleotídeo.
50. Método de acordo com qualquer uma das reivindicações 1 a 73, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente é realizado por um retrovírus ou outro vírus.
51. Método, de acordo com qualquer uma das reivindicações 1 a 72, caracterizado pelo fato de que a população de células ou a população celular foi editada usando um sistema CRISPR / Cas9.
52. Método de acordo com a reivindicação 21, caracterizado pelo fato de que a frequência variante de uma ou mais variantes é maior do que uma frequência variante de fundo de uma população de referência de moléculas de DNA de fita dupla extraídas de uma população de células de referência que não passaram por um evento de edição genômica modificado geneticamente.
53. Método de acordo com qualquer uma das reivindicações 1 a 52, caracterizado pelo fato de que o evento de edição genômica modificado geneticamente resulta na morte ou dano de um subconjunto de células na população de células ou população celular.
54. Método de acordo com qualquer uma das reivindicações 1 a 52, caracterizado pelo fato de que um subconjunto de células na população de células ou população celular tem uma ou mais mutações genéticas pré-existentes e em que após o evento de edição genômica modificado geneticamente, o subconjunto de células seletivamente prolifera em uma taxa maior do que outras células na população de células ou população celular.
55. Método de acordo com qualquer uma das reivindicações 1 a 52, caracterizado pelo fato de que um subconjunto de células na população de células ou população celular tem um estado epigenético pré-existente único para as ditas células e em que após o evento de edição genômica modificado geneticamente, o subconjunto das células prolifera seletivamente a uma taxa maior do que outras células na população de células ou população celular.
BR112021000409-2A 2018-07-12 2019-07-12 Métodos e reagentes para caracterizar edição genômica, expansão clonal e aplicações associadas BR112021000409A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862697397P 2018-07-12 2018-07-12
US62/697,397 2018-07-12
PCT/US2019/041735 WO2020014693A1 (en) 2018-07-12 2019-07-12 Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications

Publications (1)

Publication Number Publication Date
BR112021000409A2 true BR112021000409A2 (pt) 2021-04-06

Family

ID=69142886

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021000409-2A BR112021000409A2 (pt) 2018-07-12 2019-07-12 Métodos e reagentes para caracterizar edição genômica, expansão clonal e aplicações associadas

Country Status (11)

Country Link
US (2) US20210269873A1 (pt)
EP (1) EP3821004A4 (pt)
JP (1) JP2021530219A (pt)
KR (1) KR20210059694A (pt)
CN (1) CN112673099A (pt)
AU (1) AU2019300172A1 (pt)
BR (1) BR112021000409A2 (pt)
CA (1) CA3105659A1 (pt)
IL (1) IL280019A (pt)
SG (1) SG11202100141SA (pt)
WO (1) WO2020014693A1 (pt)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2717641C2 (ru) 2014-04-21 2020-03-24 Натера, Инк. Обнаружение мутаций и плоидности в хромосомных сегментах
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
PT3387152T (pt) 2015-12-08 2022-04-19 Twinstrand Biosciences Inc Adaptadores, métodos e composições melhorados para sequenciamento duplex
AU2018210188B2 (en) 2017-01-18 2023-11-09 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
AU2018261332A1 (en) 2017-05-01 2019-11-07 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
WO2018208699A1 (en) 2017-05-08 2018-11-15 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
US11739367B2 (en) 2017-11-08 2023-08-29 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
CA3091022A1 (en) * 2018-02-13 2019-08-22 Twinstrand Biosciences, Inc. Methods and reagents for detecting and assessing genotoxicity
JP2021524736A (ja) * 2018-05-16 2021-09-16 ツインストランド・バイオサイエンシズ・インコーポレイテッドTwinstrand Biosciences, Inc. 核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途
AU2019300172A1 (en) 2018-07-12 2021-01-28 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
CA3200763A1 (en) * 2020-12-04 2022-06-09 Morten Frodin Crispr/cas screening system materials and methods

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US5308751A (en) 1992-03-23 1994-05-03 General Atomics Method for sequencing double-stranded DNA
WO1994001584A1 (en) 1992-07-06 1994-01-20 President And Fellows Of Harvard College Methods and diagnostic kits for determining toxicity utilizing bacterial stress promoters fused to reporter genes
DE69837913T2 (de) 1997-04-01 2008-02-07 Solexa Ltd., Saffron Walden Verfahren zur vervielfältigung von nukleinsäure
US6087099A (en) 1997-09-08 2000-07-11 Myriad Genetics, Inc. Method for sequencing both strands of a double stranded DNA in a single sequencing reaction
EP1124990B1 (en) 1998-10-27 2006-01-18 Affymetrix, Inc. Complexity management and analysis of genomic dna
US6958225B2 (en) 1999-10-27 2005-10-25 Affymetrix, Inc. Complexity management of genomic DNA
JP2003532380A (ja) 1999-12-02 2003-11-05 モレキュラー ステージング,インコーポレイテッド 線状自己アニーリングセグメントからの一本鎖環状dnaの産出
US7300751B2 (en) 2000-06-30 2007-11-27 Syngenta Participations Ag Method for identification of genetic markers
US6632611B2 (en) 2001-07-20 2003-10-14 Affymetrix, Inc. Method of target enrichment and amplification
US7297778B2 (en) 2001-07-25 2007-11-20 Affymetrix, Inc. Complexity management of genomic DNA
KR20040068122A (ko) 2001-10-15 2004-07-30 바이오어레이 솔루션스 리미티드 공동 검색과 효소-매개된 탐지에 의한 다형성 좌위의 다중분석
US7406385B2 (en) 2001-10-25 2008-07-29 Applera Corporation System and method for consensus-calling with per-base quality values for sample assemblies
US7459273B2 (en) 2002-10-04 2008-12-02 Affymetrix, Inc. Methods for genotyping selected polymorphism
US7452699B2 (en) 2003-01-15 2008-11-18 Dana-Farber Cancer Institute, Inc. Amplification of DNA in a hairpin structure, and applications
US20040209299A1 (en) 2003-03-07 2004-10-21 Rubicon Genomics, Inc. In vitro DNA immortalization and whole genome amplification using libraries generated from randomly fragmented DNA
JP2007524410A (ja) 2004-01-23 2007-08-30 リングヴィテ エーエス ポリヌクレオチドライゲーション反応の改良
JP2008513782A (ja) 2004-09-17 2008-05-01 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 分子解析のための装置及び方法
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
WO2006113422A2 (en) 2005-04-13 2006-10-26 The Government Of The Usa As Represented By The Secretary Of The Dept. Of Health And Human Services Human sweet and umami taste receptor variants
DK2292788T3 (da) 2005-06-23 2012-07-23 Keygene Nv Strategier til identifikation og detektion af polymorfismer med højt gennemløb
US20070020640A1 (en) 2005-07-21 2007-01-25 Mccloskey Megan L Molecular encoding of nucleic acid templates for PCR and other forms of sequence analysis
EP1929039B2 (en) 2005-09-29 2013-11-20 Keygene N.V. High throughput screening of mutagenized populations
GB0522310D0 (en) 2005-11-01 2005-12-07 Solexa Ltd Methods of preparing libraries of template polynucleotides
US7537897B2 (en) 2006-01-23 2009-05-26 Population Genetics Technologies, Ltd. Molecular counting
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
WO2007114693A2 (en) 2006-04-04 2007-10-11 Keygene N.V. High throughput detection of molecular markers based on aflp and high throughput sequencing
EP2121983A2 (en) 2007-02-02 2009-11-25 Illumina Cambridge Limited Methods for indexing samples and sequencing multiple nucleotide templates
EP2201143B2 (en) 2007-09-21 2016-08-24 Katholieke Universiteit Leuven Tools and methods for genetic tests using next generation sequencing
JP2011515102A (ja) 2008-03-28 2011-05-19 パシフィック バイオサイエンシーズ オブ カリフォルニア, インコーポレイテッド 核酸シーケンシング用組成物及び方法
WO2009133466A2 (en) 2008-04-30 2009-11-05 Population Genetics Technologies Ltd. Asymmetric adapter library construction
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
WO2010056728A1 (en) 2008-11-11 2010-05-20 Helicos Biosciences Corporation Nucleic acid encoding for multiplex analysis
CA2750879C (en) 2009-01-30 2018-05-22 Oxford Nanopore Technologies Limited Adaptors for nucleic acid constructs in transmembrane sequencing
US20100331204A1 (en) 2009-02-13 2010-12-30 Jeff Jeddeloh Methods and systems for enrichment of target genomic sequences
GB0905410D0 (en) 2009-03-28 2009-05-13 Gentronix Ltd Genotoxicity testing
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US20120165202A1 (en) 2009-04-30 2012-06-28 Good Start Genetics, Inc. Methods and compositions for evaluating genetic markers
EP2248914A1 (en) 2009-05-05 2010-11-10 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. The use of class IIB restriction endonucleases in 2nd generation sequencing applications
WO2010148115A1 (en) 2009-06-18 2010-12-23 The Penn State Research Foundation Methods, systems and kits for detecting protein-nucleic acid interactions
WO2011021102A2 (en) 2009-08-20 2011-02-24 Population Genetics Technologies Ltd Compositions and methods for intramolecular nucleic acid rearrangement
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
DK3425062T3 (da) 2010-06-09 2023-09-04 Keygene Nv Stregkoder med kombinatorisk sekvens til høj gennemløbsscreening
US20120244525A1 (en) 2010-07-19 2012-09-27 New England Biolabs, Inc. Oligonucleotide Adapters: Compositions and Methods of Use
WO2012012037A1 (en) 2010-07-19 2012-01-26 New England Biolabs, Inc. Oligonucleotide adaptors: compositions and methods of use
DK2623613T3 (en) 2010-09-21 2016-10-03 Population Genetics Tech Ltd Increasing the reliability of the allele-indications by molecular counting
WO2012042374A2 (en) 2010-10-01 2012-04-05 Anssi Jussi Nikolai Taipale Method of determining number or concentration of molecules
US9074251B2 (en) 2011-02-10 2015-07-07 Illumina, Inc. Linking sequence reads using paired code tags
WO2012061832A1 (en) 2010-11-05 2012-05-10 Illumina, Inc. Linking sequence reads using paired code tags
DK2652155T3 (en) 2010-12-16 2017-02-13 Gigagen Inc Methods for Massive Parallel Analysis of Nucleic Acids in Single Cells
EP2675819B1 (en) 2011-02-18 2020-04-08 Bio-Rad Laboratories, Inc. Compositions and methods for molecular labeling
EP2689028B1 (en) 2011-03-23 2017-08-30 Pacific Biosciences Of California, Inc. Isolation of polymerase-nucleic acid complexes and loading onto substrates
US9260753B2 (en) 2011-03-24 2016-02-16 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
US9476095B2 (en) 2011-04-15 2016-10-25 The Johns Hopkins University Safe sequencing system
WO2013009175A1 (en) 2011-07-08 2013-01-17 Keygene N.V. Sequence based genotyping based on oligonucleotide ligation assays
EP4219740A3 (en) 2011-09-06 2023-08-16 Gen-Probe Incorporated Closed nucleic acid structures
CA2848304A1 (en) 2011-09-09 2013-03-14 The Board Of Trustees Of The Leland Stanford Junior University Methods for sequencing a polynucleotide
US20160153039A1 (en) 2012-01-26 2016-06-02 Nugen Technologies, Inc. Compositions and methods for targeted nucleic acid sequence enrichment and high efficiency library generation
CN104093890B (zh) 2012-01-26 2016-04-20 纽亘技术公司 用于靶向核酸序列富集和高效文库产生的组合物和方法
PL3363901T3 (pl) 2012-02-17 2021-07-05 Fred Hutchinson Cancer Research Center Kompozycje i sposoby dokładnej identyfikacji mutacji
US11177020B2 (en) 2012-02-27 2021-11-16 The University Of North Carolina At Chapel Hill Methods and uses for molecular tags
ES2741099T3 (es) 2012-02-28 2020-02-10 Agilent Technologies Inc Método de fijación de una secuencia de recuento para una muestra de ácido nucleico
US9862995B2 (en) 2012-03-13 2018-01-09 Abhijit Ajit Patel Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing
WO2013142389A1 (en) 2012-03-20 2013-09-26 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
CN108018343B (zh) 2012-05-10 2023-01-03 通用医疗公司 用于测定核苷酸序列的方法
WO2013181170A1 (en) 2012-05-31 2013-12-05 Board Of Regents, The University Of Texas System Method for accurate sequencing of dna
IL269097B2 (en) 2012-09-04 2024-01-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
CN102877136B (zh) 2012-09-24 2014-03-12 上海交通大学 基于基因组简化与二代测序dna文库构建方法及试剂盒
WO2014071070A1 (en) 2012-11-01 2014-05-08 Pacific Biosciences Of California, Inc. Compositions and methods for selection of nucleic acids
CN104903467B (zh) 2012-11-05 2020-09-08 Gmdx私人有限公司 确定体细胞突变原因的方法
CA3094792A1 (en) 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing
US10087481B2 (en) 2013-03-19 2018-10-02 New England Biolabs, Inc. Enrichment of target sequences
US9873907B2 (en) 2013-05-29 2018-01-23 Agilent Technologies, Inc. Method for fragmenting genomic DNA using CAS9
WO2015075056A1 (en) 2013-11-19 2015-05-28 Thermo Fisher Scientific Baltics Uab Programmable enzymes for isolation of specific dna fragments
CA2934822A1 (en) * 2013-12-28 2015-07-02 Guardant Health, Inc. Methods and systems for detecting genetic variants
HUE058149T2 (hu) 2014-01-31 2022-07-28 Swift Biosciences Inc Javított eljárások DNS-szubsztrátok feldolgozására
US11085084B2 (en) 2014-09-12 2021-08-10 The Board Of Trustees Of The Leland Stanford Junior University Identification and use of circulating nucleic acids
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
US10465241B2 (en) 2015-06-15 2019-11-05 The Board Of Trustees Of The Leleand Stanford Junior University High resolution STR analysis using next generation sequencing
GB201515557D0 (en) 2015-09-02 2015-10-14 14M Genomics Ltd Method of sequencing
WO2017079428A1 (en) * 2015-11-04 2017-05-11 President And Fellows Of Harvard College Site specific germline modification
EP3377656A4 (en) 2015-11-18 2019-03-27 Pacific Biosciences of California, Inc. LOADING NUCLEIC ACIDS ON SUBSTRATES
US20170145486A1 (en) * 2015-11-25 2017-05-25 Integrated Dna Technologies, Inc. Methods for variant detection
PT3387152T (pt) 2015-12-08 2022-04-19 Twinstrand Biosciences Inc Adaptadores, métodos e composições melhorados para sequenciamento duplex
WO2018013598A1 (en) 2016-07-12 2018-01-18 Qiagen Sciences, Llc Single end duplex dna sequencing
WO2018031588A1 (en) 2016-08-09 2018-02-15 Takara Bio Usa, Inc. Nucleic acid adaptors with molecular identification sequences and use thereof
CN106367485B (zh) 2016-08-29 2019-04-26 厦门艾德生物医药科技股份有限公司 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用
CA3057867A1 (en) 2017-03-23 2018-09-27 University Of Washington Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
EP3601610A1 (en) * 2017-03-30 2020-02-05 Pioneer Hi-Bred International, Inc. Methods of identifying and characterizing gene editing variations in nucleic acids
WO2018183942A1 (en) 2017-03-31 2018-10-04 Grail, Inc. Improved library preparation and use thereof for sequencing-based error correction and/or variant identification
US11739367B2 (en) 2017-11-08 2023-08-29 Twinstrand Biosciences, Inc. Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
CA3091022A1 (en) 2018-02-13 2019-08-22 Twinstrand Biosciences, Inc. Methods and reagents for detecting and assessing genotoxicity
US20210010065A1 (en) 2018-03-15 2021-01-14 Twinstrand Biosciences, Inc. Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations
EP3768853A4 (en) 2018-03-23 2021-04-28 Board Of Regents The University Of Texas System EFFICIENT SEQUENCING OF DSDNA WITH EXTREMELY LOW ERROR RATE
CA3090426A1 (en) * 2018-04-14 2019-10-17 Natera, Inc. Methods for cancer detection and monitoring by means of personalized detection of circulating tumor dna
JP2021524736A (ja) 2018-05-16 2021-09-16 ツインストランド・バイオサイエンシズ・インコーポレイテッドTwinstrand Biosciences, Inc. 核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途
AU2019300172A1 (en) 2018-07-12 2021-01-28 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
EP4114978A2 (en) 2020-03-06 2023-01-11 Singular Genomics Systems, Inc. Linked paired strand sequencing

Also Published As

Publication number Publication date
CN112673099A (zh) 2021-04-16
KR20210059694A (ko) 2021-05-25
US11845985B2 (en) 2023-12-19
JP2021530219A (ja) 2021-11-11
SG11202100141SA (en) 2021-02-25
AU2019300172A1 (en) 2021-01-28
EP3821004A4 (en) 2022-04-20
CA3105659A1 (en) 2020-01-16
US20230002820A1 (en) 2023-01-05
US20210269873A1 (en) 2021-09-02
IL280019A (en) 2021-03-01
WO2020014693A1 (en) 2020-01-16
EP3821004A1 (en) 2021-05-19

Similar Documents

Publication Publication Date Title
US11845985B2 (en) Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
US20230295686A1 (en) Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
JP7091397B2 (ja) 合成核酸スパイクイン
US20210340619A1 (en) Compositions and methods for accurately identifying mutations
JP7420388B2 (ja) 遺伝毒性を検出し、評価するための方法および試薬
ES2925014T3 (es) Identificación y uso de ácidos nucleicos circulantes
CN108220392A (zh) 富集和确定靶核苷酸序列的方法
KR20170026383A (ko) 핵산 서열의 분석
CN108885648A (zh) 用于分析核酸的系统和方法
BR112015004847A2 (pt) métodos para detectar variação de número de cópias, para detectar uma mutação rara em uma amostra e para caracterizar a heterogeneidade de uma afecção anormal em um indivíduo
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
KR20210013061A (ko) 핵산 혼합물 및 혼합된 세포 집단을 해상하기 위한 방법 및 시약 및 관련 응용
US11608518B2 (en) Methods for analyzing nucleic acids
CN109477101A (zh) 从保存的样品中回收长范围连锁信息
CN111357054A (zh) 用于区分体细胞变异和种系变异的方法和系统
CN114072527A (zh) 确定循环核酸的线性和环状形式
CN110622250A (zh) 用于检测插入和缺失的方法和系统
Shoura et al. Beyond the linear genome: Comprehensive determination of the endogenous circular elements in C. elegans and human genomes via an unbiased genomic-biophysical method
Streva High-throughput detection of potentially active L1 elements in human genomes
Arthur Efficient discovery of rare alleles and de novo mutations from pre-existing genomic data
Schendel Alternative end-joining of DNA breaks