BR112020023296A2 - métodos e reagentes para resolver misturas de ácido nucleico e populações de células mistas e aplicações associadas - Google Patents

métodos e reagentes para resolver misturas de ácido nucleico e populações de células mistas e aplicações associadas Download PDF

Info

Publication number
BR112020023296A2
BR112020023296A2 BR112020023296-3A BR112020023296A BR112020023296A2 BR 112020023296 A2 BR112020023296 A2 BR 112020023296A2 BR 112020023296 A BR112020023296 A BR 112020023296A BR 112020023296 A2 BR112020023296 A2 BR 112020023296A2
Authority
BR
Brazil
Prior art keywords
nucleic acid
sequence
mixture
genotypes
sample
Prior art date
Application number
BR112020023296-3A
Other languages
English (en)
Inventor
Jesse J. SALK
Charles Clinton Valentine Iii
Patrick DANAHER
Fang Yin Lo
Original Assignee
Twinstrand Biosciences, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Twinstrand Biosciences, Inc. filed Critical Twinstrand Biosciences, Inc.
Publication of BR112020023296A2 publication Critical patent/BR112020023296A2/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/143Multiplexing, i.e. use of multiple primers or probes in a single reaction, usually for simultaneously analyse of multiple analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

MÉTODOS E REAGENTES PARA RESOLVER MISTURAS DE ÁCIDO NUCLEICO E POPULAÇÕES DE CÉLULAS MISTAS E APLICAÇÕES ASSOCIADAS REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS. Métodos e reagentes associados para avaliar e resolver misturas de ácido nucleico e/ou populações de células mistas são aqui divulgados. Algumas modalidades da tecnologia são dirigidas à utilização de Sequenciamento Duplex para avaliar e resolver misturas de ácidos nucleicos (por exemplo, misturas multiquiméricas, misturas de ácidos nucleicos de mais de uma fonte, etc.) em uma amostra e aplicações associadas. Outras modalidades são dirigidas à detecção e quantificação de uma fonte doadora de ácido nucleico de uma mistura.

Description

MÉTODOS E REAGENTES PARA RESOLVER MISTURAS DE ÁCIDO NUCLEICO E POPULAÇÕES DE CÉLULAS MISTAS E APLICAÇÕES ASSOCIADAS REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
[0001] Este pedido reivindica a prioridade e o benefício do Pedido de Patente Provisório U.S. 62/672.573, depositado em 16 de maio de 2018, e do Pedido de Patente Provisório U.S. 62/811.517, depositado em 27 de fevereiro de 2019, cujas divulgações são aqui incorporadas por referência na sua totalidade.
FUNDAMENTO
[0002] Resolver populações de células mistas derivadas de diferentes clones ou indivíduos, ou rastrear fontes originais em misturas de ácidos nucleicos, geralmente requer rastrear marcadores genéticos específicos que diferem entre os clones ou indivíduos que contribuíram para as misturas. Embora às vezes seja possível distinguir células de diferentes clones ou indivíduos por meios não genéticos (ou seja, diferenças nas proteínas expressas na superfície da célula, etc.), isso nem sempre é possível ou pode ser experimentalmente impraticável para uso de alto rendimento. O polimorfismo genético pode ser usado como um marcador de linhagem conveniente, previsível e estatisticamente generalizável para definir a origem de uma célula ou molécula de DNA. Em humanos, por exemplo, aproximadamente 0,1% do genoma humano é polimórfico (por exemplo, uma em cada 1000 bases de nucleotídeos varia em sequência dentro da população humana). As formas comuns de variação podem incluir polimorfismos de nucleotídeo único / variantes de nucleotídeo único (SNPs / SNVs), variações multinucleotídicas (MNVs), inserções e deleções curtas (indels), variações no comprimento de repetições curtas em tandem (STRs), bem como outras variações estruturais e maior escala, como rearranjos inter ou intracromossômicos, duplicações, deleções, duplicações em tandem e inversões, entre outros.
[0003] Em geral, quando os indivíduos são genotipados, as respectivas identidades de cada indivíduo podem ser distinguidas resolvendo essas diferenças polimórficas nos genótipos. Ao usar plataformas de sequenciamento de DNA de última geração (NGS) de leitura curta para genotipagem, os SNPs estão entre as formas mais abundantes e convenientes de polimorfismos para distinguir diferentes indivíduos. O grau de variação da população global em um determinado sítio polimórfico é comumente descrito pela frequência do alelo menor (MAF), que é a frequência da 2a variante mais comum na população (ou seja, conforme determinado a partir de um banco de dados de variação registrada, como dbSNP). Por exemplo, um MAF de 0,5 geralmente significa que há uma abundância de 50% de cada um dos alelos em uma população, e um MAF de 0,05 geralmente significa que há uma abundância de 5% de um alelo e uma abundância de 95% do outro alelo, embora um alelo de frequência mais baixa também possa existir (ou seja, uma variante em 5%, outra em 92% e 3% em um terceiro) Geralmente, quanto mais sítios polimórficos são consultados, mais provável é que dois ou mais indivíduos possam ser distinguidos um do outro (FIG. 1). Como porções adjacentes do genoma são comumente co-herdadas (ou seja, em desequilíbrio de ligação), avaliar múltiplos sítios polimórficos em diferentes regiões do genoma (ou seja, em cromossomos diferentes), é normalmente vantajoso para maximizar a chance de ser capaz de distinguir de forma eficaz dois ou mais contribuintes individuais para uma população mista de células de diferentes indivíduos.
[0004] Uma maneira que as misturas de células derivadas de diferentes indivíduos foram resolvidas e quantificadas é com uma abordagem de análise de célula única (FIG. 2), onde as células individuais são genotipadas (DNA ou RNA de cada célula independente é sequenciado e cada genótipo único é contado). Isso pode ser alcançado através do processamento de cada célula como uma entidade distinta em um tubo de ensaio individual, poço de placa, gota, etc., de modo que a sequência derivada lida de cada célula possa ser ligada de volta à mesma célula (muitas vezes usando alguma forma de técnica de codificação de células, ou seja, PMID 28091601, PMID 2954551, PMID 30087104.) Esta abordagem é vantajosa na medida em que os genótipos de muitos marcadores polimórficos de uma única célula ou molécula de DNA grande podem ser informaticamente ligados entre si, no entanto, essas abordagens são frequentemente complexas, caras e frequentemente requerem células intactas ou outra preparação especial de material.
[0005] Outra abordagem é a análise de uma única molécula, na qual as células misturadas e cultivadas juntas têm ácidos nucleicos extraídos em massa e genotipados e a abundância relativa de sítios polimórficos individuais é contada. Os resultados podem ser deconvolvidos computacionalmente e comparados com genótipos conhecidos de cada fonte individual (FIG. 3). As misturas de moléculas de DNA que não estão contidas nas células podem ser genotipadas e deconvolvidas de maneira semelhante. Essa abordagem é mais simples do que a genotipagem de uma única célula, mas pode exigir o sequenciamento em maior profundidade e a avaliação de mais sítios polimórficos para resolver tecnicamente a mistura. Esta abordagem também pode exigir uma precisão de sequenciamento muito maior, o que pode ser limitativo com os métodos NGS convencionais, especialmente à medida que as misturas aumentam em complexidade.
SUMÁRIO
[0006] A presente tecnologia refere-se geralmente a métodos e reagentes associados para avaliar e resolver misturas de ácido nucleico e / ou populações de células mistas. Em particular, algumas modalidades da tecnologia são direcionadas à utilização de Sequenciamento Duplex para avaliar e resolver misturas de ácidos nucleicos (por exemplo, misturas multiquiméricas, misturas de ácidos nucleicos de mais de uma fonte, etc.) em uma amostra e aplicações associadas. Por exemplo, várias modalidades da presente tecnologia incluem a execução de métodos de Sequenciamento Duplex que permitem a identificação direta e quantificação de alelos pessoais, bem como combinação única de alelos para deconvolver uma mistura em proporções das fontes originais dessa mistura. Vários aspectos da presente tecnologia têm muitas aplicações em avaliação pré-clínica e clínica de câncer (tumor), análise forense (identificação, etc.), avaliação de mistura para terapias celulares (por exemplo, terapia com sangue do cordão umbilical), avaliação de mistura de amostras derivadas de humanos , detecção de microquimerismo, controle de qualidade com fabricação de células, identificação de mistura no fornecimento de alimentos (por exemplo, misturas de cepas de culturas básicas, peixes, etc.), avaliação de contaminação em processos industriais biológicos (por exemplo, fabricação baseada em células), deconvolução de mistura de produtos intimamente relacionados cepas, espécies, raças ou quasispécies, identificação de animais traficados ilegalmente ou produtos de origem animal, contaminação ou uso indevido de cepas proprietárias de plantas ou animais, deconvolução multigravidez de DNA fetal, deconvolução de DNA derivado de transplante de órgãos, entre outros.
[0007] Em algumas modalidades, a presente divulgação fornece métodos para detectar e / ou quantificar uma fonte doadora de ácido nucleico de uma mistura que compreende as etapas de fornecimento da mistura compreendendo moléculas de DNA de fita dupla alvo de uma ou mais fontes doadoras, em que as moléculas de DNA de fita dupla alvo contêm um ou mais polimorfismos genéticos e geram uma leitura de sequência com erros corrigidos para cada uma de uma pluralidade de moléculas de DNA de fita dupla alvo na mistura. Em certas modalidades, a geração de uma leitura de sequência com erros corrigidos compreende as etapas de ligação de moléculas adaptadoras à pluralidade de fragmentos de DNA de fita dupla alvo para gerar uma pluralidade de moléculas de adaptador-DNA, gerando um conjunto de cópias de uma primeira fita original da molécula de adaptador-DNA e um conjunto de cópias de uma segunda fita original da molécula de adaptador-DNA, sequenciando uma ou mais cópias da primeira e segunda fitas originais para fornecer uma sequência da primeira fita e uma sequência da segunda fita, e comparando a sequência da primeira fita e a sequência da segunda fita para identificar uma ou mais correspondências entre as sequências da primeira e segunda fita. O método compreende ainda identificar uma fonte doadora de ácido nucleico presente na mistura de ácido nucleico por deconvolução das leituras de sequência com erros corrigidos em genótipos individuais.
[0008] Em algumas modalidades, a presente divulgação também fornece métodos para detectar e / ou quantificar uma fonte doadora de ácido nucleico de uma mistura, incluindo as etapas de geração de dados de Sequenciamento Duplex a partir de dados de sequenciamento brutos, em que os dados de sequenciamento brutos são gerados a partir de uma mistura que compreende moléculas de DNA de fita dupla alvo de uma ou mais fontes doadoras, e em que as moléculas de DNA de fita dupla alvo contêm um ou mais polimorfismos genéticos, e a identificação de uma fonte doadora de ácido nucleico presente na mistura de ácido nucleico por deconvolução das leituras de sequência com erros corrigidos em genótipos individuais.
[0009] Em algumas modalidades, a mistura inclui um ou mais genótipos individuais desconhecidos e em que a deconvolução das leituras de sequência com erros corrigidos em genótipos individuais inclui as etapas de identificação de combinações de alelos de micro- haplótipos presentes em moléculas de DNA de fita dupla alvo individuais que mapeiam para um ou mais genes genéticos loci em uma sequência de referência, avaliando todas as proporções de mistura possíveis contra todos os genótipos possíveis presentes em cada locus genético dentro de um ou mais loci genéticos e determinando uma lista de todos os genótipos individuais possíveis que se ajustam adequadamente às combinações de alelos de micro-haplótipos identificados e todas as proporções de mistura possíveis avaliadas.
[0010] Em outras modalidades, a mistura compreende um ou mais genótipos individuais conhecidos, e em que a deconvolução das leituras de sequência com erros corrigidos em genótipos individuais inclui as etapas de identificação de combinações de alelos de micro-haplótipos presentes nas moléculas de DNA de fita dupla alvo individuais na mistura, somando as contagens totais de cada alelo doado de cada genótipo individual conhecido e determinação de uma proporção de mistura de cada genótipo conhecido presente na mistura.
[0011] Em algumas modalidades, a mistura compreende mais de uma fonte doadora e em que o método compreende ainda determinar a proporção de cada fonte doadora a partir de mais de uma fonte doadora presente na mistura, calculando o proporção de cada polimorfismo genético ou a proporção de uma combinação substancialmente única de polimorfismos genéticos presentes nas leituras de sequência com erros corrigidos. Em algumas modalidades, as moléculas de DNA de fita dupla alvo foram extraídas de uma ou mais amostras de sangue do cordão umbilical. Em outras modalidades, as moléculas de DNA de fita dupla alvo foram extraídas de uma amostra forense. Em outras modalidades, as moléculas de DNA de fita dupla alvo foram extraídas de um paciente com uma célula-tronco ou transplante de órgão. Em ainda outras modalidades, as moléculas de DNA de fita dupla alvo foram extraídas de um paciente e em que a identificação de uma ou mais fontes doadoras presentes na mistura inclui a medição de um nível de microquimerismo no paciente. Em ainda outras modalidades, as moléculas de DNA de fita dupla alvo foram extraídas de uma amostra de tumor.
[0012] Em algumas modalidades, o método pode compreender ainda quantificar uma abundância relativa de cada genótipo individual presente na mistura. Em outras modalidades, um ou mais polimorfismos genéticos compreendem um micro-haplótipo. Em modalidades que incluem etapas de geração de uma leitura de sequência com erros corrigidos para cada uma de uma pluralidade de moléculas de DNA de fita dupla alvo na mistura, o método pode compreender ainda enriquecer seletivamente uma ou mais regiões genômicas direcionadas antes para o sequenciamento. Em modalidades que incluem etapas de geração de dados de Sequenciamento Duplex, as moléculas de DNA de fita dupla alvo na mistura podem ser enriquecidas seletivamente para uma ou mais regiões genômicas direcionadas antes de gerar dados de sequenciamento brutos. Em algumas modalidades, uma ou mais regiões genômicas direcionadas compreendem um sítio de micro-haplótipo no genoma.
[0013] Em algumas modalidades, o método fornece a detecção e / ou quantificação de uma fonte doadora de ácido nucleico a partir de uma mistura, em que uma ou mais das fontes doadoras têm genótipos conhecidos. Em outras modalidades, o método fornece a detecção e / ou quantificação de uma fonte doadora de ácido nucleico de uma mistura, em que uma ou mais das fontes doadoras têm genótipos desconhecidos. Em várias modalidades, o método pode incluir comparar um ou mais genótipos individuais a uma base de dados que compreende uma pluralidade de genótipos conhecidos para identificar uma ou mais fontes doadoras.
[0014] Em algumas modalidades, a presente divulgação fornece sistemas, como, por exemplo, sistemas para detectar e / ou quantificar uma fonte doadora de ácido nucleico a partir de uma mistura. Várias modalidades de sistemas de acordo com aspectos da presente tecnologia incluem uma rede de computador para transmitir informações relacionadas a dados de sequenciamento e dados de genótipo, em que as informações incluem um ou mais dados de sequenciamento brutos, dados de Sequenciamento Duplex, informações de amostra e informações de genótipo; um computador cliente associado a um ou mais dispositivos de computação de usuário e em comunicação com a rede de computadores; um banco de dados conectado à rede de computadores para armazenar uma pluralidade de perfis de genótipo e registros de resultados do usuário; um módulo de Sequenciamento Duplex em comunicação com a rede de computadores e configurado para receber dados de sequenciamento bruto e solicitações do computador cliente para gerar dados de Sequenciamento Duplex, leituras de sequência de grupo de famílias que representam uma molécula de ácido nucleico de fita dupla original e comparar sequências representativas de fitas individuais entre si para gerar dados de Sequenciamento Duplex; e um módulo de genótipo em comunicação com a rede de computador e configurado para identificar alelos de micro-haplótipo e calcular a abundância relativa da fonte doadora para gerar dados de genótipo. Em algumas modalidades, os perfis de genótipo compreendem informações de micro- haplótipo e / ou polimorfismo de nucleotídeo único (SNP) de uma pluralidade de fontes doadoras conhecidas.
[0015] Em algumas modalidades, a presente divulgação fornece um sistema de computador para realizar um método de acordo com aspectos da presente tecnologia e, por exemplo, como aqui descrito para detectar e / ou quantificar uma fonte doadora de ácido nucleico a partir de uma mistura. O sistema pode incluir pelo menos um computador com um processador, memória, banco de dados e um meio de armazenamento legível por computador não transitório compreendendo instruções para o(s) processador(es), em que o(s) referido(s) processador(es) está(ão) configurado(s) para executar as referidas instruções para executar operações compreendendo os métodos .
[0016] Em algumas modalidades, a presente divulgação fornece um meio de armazenamento legível por computador não transitório que compreende instruções que, quando executadas por um ou mais processadores, executam um método de acordo com aspectos da presente tecnologia e, por exemplo, conforme descrito neste documento. Em certas modalidades, o meio de armazenamento legível por computador não transitório inclui instruções para calcular uma proporção de mistura de cada fonte doadora identificada.
[0017] Em ainda outras modalidades, a presente divulgação fornece um meio legível por computador não transitório cujo conteúdo faz com que pelo menos um computador execute um método para fornecer dados de Sequenciamento Duplex para moléculas de ácido nucleico de fita dupla em uma amostra compreendendo uma mistura de material de fonte doadora. Por exemplo, alguns métodos incluem etapas de recebimento de dados de sequência bruta de um dispositivo de computação do usuário; criar um conjunto de dados específico de amostra compreendendo uma pluralidade de leituras de sequência bruta derivadas de uma pluralidade de moléculas de ácido nucleico na amostra; agrupar leituras de sequência de famílias que representam uma molécula de ácido nucleico de fita dupla original, em que o agrupamento é baseado em uma sequência identificadora de molécula única compartilhada; comparar uma leitura de sequência da primeira fita e uma leitura de sequência da segunda fita de uma molécula de ácido nucleico de fita dupla original para identificar uma ou mais correspondências entre as leituras de sequências de primeira e segunda fita; fornecer dados de Sequenciamento Duplex para as moléculas de ácido nucleico de fita dupla na amostra; e identificar combinações de alelos de micro-haplótipos presentes em moléculas de ácido nucleico de fita dupla individuais na amostra para identificar uma ou mais fontes de doadores na mistura; e, opcionalmente, calcular uma proporção de mistura de cada fonte doadora identificada. Em algumas modalidades, tais métodos também podem incluir as etapas de identificar posições de nucleotídeos de não complementaridade entre a primeira e segunda leituras de sequência comparadas e, em posições de não complementaridade, identificar e eliminar ou descontar erros do processo.
[0018] Em outras modalidades, a presente divulgação fornece um meio legível por computador não transitório cujo conteúdo faz com que pelo menos um computador execute um método para detectar, identificar e quantificar micro-haplótipos presentes em misturas de ácido nucleico para determinar genótipos de origem conhecidos de uma amostra, onde o método inclui etapas de identificação de combinações de alelos de micro-haplótipos presentes em moléculas de DNA individuais em uma mistura; somar as contagens totais de cada alelo doado de cada genótipo de origem conhecido; e determinar uma proporção de mistura de cada genótipo presente na mistura. Em algumas modalidades, o método também pode incluir uma etapa de cálculo de uma proporção de mistura que inclui utilizar um modelo baseado em regressão. Em outras modalidades, o método também pode incluir uma etapa de comparação da proporção de mistura determinada de cada genótipo com uma proporção de mistura original.
[0019] Em ainda outras modalidades, a presente divulgação fornece um meio legível por computador não transitório cujo conteúdo faz com que pelo menos um computador execute um método para deconvolver misturas de ácido nucleico de genótipos desconhecidos em uma amostra, em que o método inclui as etapas de identificar combinações de alelos de micro-haplótipo presentes em moléculas de DNA individuais em uma mistura; avaliar todas as proporções de mistura possíveis contra todos os genótipos possíveis presentes em cada locus genético; e determinar uma lista de todos os genótipos possíveis que se ajustam adequadamente às combinações de alelos de micro-haplótipos identificados e todas as proporções de mistura possíveis avaliadas. Em algumas modalidades, o método também pode incluir a etapa de comparação dos possíveis genótipos dos genótipos desconhecidos na amostra com um banco de dados que compreende perfis de genótipos de fontes conhecidas para identificar uma fonte doadora.
[0020] Outras modalidades e aspectos da presente tecnologia são descritas mais adiante na descrição detalhada a seguir.
BREVE DESCRIÇÃO DO DESENHO
[0021] Muitos aspectos da presente divulgação podem ser mais bem compreendidos com referência às seguintes figuras, que juntas constituem o Desenho. Essas figuras são meramente ilustrativas e não limitativas. Os componentes nas figuras não estão necessariamente em escala. Em vez disso, é enfatizada a ilustração clara dos princípios da presente divulgação.
[0022] FIG. 1, FIG. 2, e FIG. 3 cada um ilustra aspectos do sequenciamento SNP da técnica anterior.
[0023] A FIG. 4A ilustra uma molécula adaptadora de ácido nucleico para uso com algumas modalidades da presente tecnologia e um complexo adaptador-ácido nucleico de fita dupla resultante da ligação da molécula adaptadora a um fragmento de ácido nucleico de fita dupla de acordo com uma modalidade da presente tecnologia.
[0024] A FIG. 4B e FIG. 4C são ilustrações conceituais de desenhos de várias etapas do método de Sequenciamento Duplex de acordo com uma modalidade da presente tecnologia.
[0025] A FIG. 5 é um diagrama esquemático de um sistema de computador em rede para uso com os métodos e / ou reagentes divulgados neste documento para a deconvolução de ácidos nucleicos em uma mistura de acordo com uma modalidade da presente tecnologia.
[0026] A FIG. 6 é um diagrama de fluxo que ilustra uma rotina para fornecer dados de sequência de consenso de Sequenciamento Duplex de acordo com uma modalidade da presente tecnologia, de acordo com uma modalidade da presente tecnologia.
[0027] A FIG. 7 é um diagrama de fluxo que ilustra uma rotina para detectar, identificar e quantificar micro-haplótipos presentes em misturas de ácido nucleico para determinar genótipos de fonte conhecidos de uma amostra de acordo com uma modalidade da presente tecnologia.
[0028] A FIG. 8 é um fluxograma que ilustra uma rotina para deconvolver misturas de ácido nucleico de genótipos desconhecidos em uma amostra de acordo com uma modalidade da presente tecnologia.
[0029] A FIG. 9 ilustra um exemplo de dados de genótipo que podem ser determinados usando a rotina da FIG. 7, e de acordo com um aspecto da tecnologia atual.
[0030] A FIG. 10 ilustra um exemplo de dados de genótipo que podem ser determinados usando a rotina da FIG. 8, e de acordo com um aspecto da tecnologia atual.
[0031] A FIG. 11 ilustra um esquema para um método para analisar a expansão do sangue do cordão seguido pela deconvolução de misturas de ácido nucleico de acordo com um aspecto da presente tecnologia.
[0032] A FIG. 12 fornece uma distribuição global exemplificativa do painel SNP usado no método descrito na FIG. 11, e de acordo com um aspecto da tecnologia atual.
[0033] A FIG. 13 é um gráfico de barras que mostra a profundidade de Sequenciamento Duplex no alvo exemplificativo para cada amostra e de acordo com o aspecto da presente tecnologia.
[0034] A FIG. 14 mostra um painel que identifica 11 alelos SNP específicos usados para diferenciar os genótipos de doadores de acordo com um aspecto da presente tecnologia.
[0035] As FIGS. 15A-B e FIGS. 15C-D cada um são gráficos de barras que mostram a abundância relativa de cada amostra de cordão nas misturas, conforme quantificado por sequenciamento Nanodrop (barra cinza escuro à esquerda para cada amostra) e de acordo com um aspecto da tecnologia presente (barra cinza claro à direita para cada amostra).
[0036] A FIG. 15E é um gráfico de barras que mostra a quantificação de DNA dentro de cada amostra por Nanodrop (barra cinza escura à esquerda para cada amostra) e por medição com fluorômetro Qubit (barra cinza claro à direita para cada amostra) de acordo com um aspecto da tecnologia presente.
[0037] A FIG. 16 ilustra a diferença de vezes na quantificação para cada amostra de sangue do cordão umbilical dentro de cada mistura de acordo com um aspecto da presente tecnologia.
[0038] A FIG. 17 é um gráfico de barras que representa a fração de células CD34+ determinada por citometria de fluxo antes da expansão e a fração de células CD34+ (conforme determinado por Sequenciamento Duplex) após a expansão para cada amostra de cordão sanguíneo individual de acordo com um aspecto da presente tecnologia.
[0039] A FIG. 18A é um gráfico de barras que mostra a frequência de regiões de micro- haplótipos como uma função do comprimento da sequência de nucleotídeos de acordo com um aspecto da presente tecnologia.
[0040] A FIG. 18B é um exemplo de frequência de alelo para um micro-haplótipo em populações variadas de acordo com um aspecto da presente tecnologia.
[0041] A FIG. 19 é um gráfico de linha que mostra os resultados de uma deconvolução simulada de dados de Sequenciamento Duplex para mostrar estimativas de proporções de mistura de acordo com um aspecto da presente tecnologia.
[0042] A FIG. 20 ilustra um exemplo de um modelo de regressão linear para determinar as fontes doadoras dentro de uma mistura de acordo com um aspecto da presente tecnologia.
[0043] Na FIG. 21, os painéis A-D são, cada um, gráficos de barras que representam as verdadeiras proporções de mistura das fontes 1-5 de acordo com um aspecto da presente tecnologia.
[0044] Na FIG. 22, os painéis A-D mostram proporções de mistura verdadeiras representadas contra as proporções de mistura estimadas para cada fonte individual em cada uma das misturas quando os genótipos para cada uma das cinco fontes potenciais eram conhecidos com antecedência e de acordo com um aspecto da tecnologia presente.
[0045] A FIG. 23A, FIG. 23B, FIG. 23C, e FIG. 23D são cada gráfico de mapa de calor que demonstra a probabilidade e abundância de cada fonte de genótipo desconhecida determinada na amostra usando Sequenciamento Duplex e de acordo com um aspecto da presente tecnologia.
[0046] Na FIG. 24, os painéis A-D mostram resultados de alelos de micro-haplótipos que podem ser determinados para fontes múltiplas, mesmo quando os genótipos das fontes não eram conhecidos anteriormente e de acordo com um aspecto da tecnologia atual.
[0047] A FIG. 25 é um gráfico de dispersão comparando proporções reais de mistura de amostras com as estimativas de abundância das amostras em uma mistura de acordo com um aspecto da tecnologia presente.
[0048] A FIG. 26 é um gráfico de linha que representa as proporções dos genótipos presentes em uma mistura que são detectados (linha sólida) e a proporção das leituras com pelo menos um falso positivo (linha tracejada) de acordo com um aspecto da tecnologia atual.
[0049] Na FIG. 27, os painéis A-C são gráficos lineares que mostram proporções de mistura estimadas versus reais em 3 diferentes misturas simuladas de 50 genótipos e de acordo com um aspecto da tecnologia atual.
DESCRIÇÃO DETALHADA
[0050] Detalhes específicos de várias modalidades da tecnologia são descritos abaixo com referência às FIGS. 1-27. As modalidades podem incluir, por exemplo, métodos para deconvolver misturas e identificação da fonte e reagentes associados, kits e software para uso em tais métodos. Algumas modalidades da tecnologia são direcionadas à utilização de Sequenciamento Duplex para avaliar e resolver uma mistura (por exemplo, mistura de células, mistura de tecidos, organismo ou tecido multiquimérico, DNA fetal, tecido de transplante, culturas de células multiquiméricas, uma amostra forense, misturas de ácido nucleico, etc.). Outras modalidades da tecnologia são direcionadas à utilização de Sequenciamento Duplex para determinar uma assinatura de genótipo (por exemplo, combinação de polimorfismos únicos) associada a um indivíduo ou grupo de indivíduos. Modalidades adicionais da tecnologia são direcionadas para identificar mais de uma fonte de material genético que contribui para uma mistura e proporções relativas de cada fonte com base em, por exemplo, assinaturas de genótipo de indivíduos.
[0051] Embora muitas das modalidades sejam aqui descritas em relação ao Sequenciamento Duplex, outras modalidades de sequenciamento capazes de gerar leituras de sequenciamento com erros corrigidos, além daquelas aqui descritas, estão dentro do escopo da presente tecnologia. Além disso, outras modalidades da presente tecnologia podem ter configurações, componentes ou procedimentos diferentes daqueles descritos aqui. Portanto, uma pessoa versada na técnica entenderá que a tecnologia pode ter outras modalidades com elementos adicionais e que a tecnologia pode ter outras modalidades sem várias das características mostradas e descritas abaixo com referência às FIGS. 1-27. I. Certas Definições
[0052] Para que a presente divulgação seja mais facilmente compreendida, certos termos são definidos primeiro a seguir. Definições adicionais para os seguintes termos e outros termos são estabelecidas em todo o relatório descritivo.
[0053] Neste pedido, a menos que seja claro do contexto, o termo "um" pode ser entendido como "pelo menos um". Conforme usado neste pedido, o termo "ou" pode ser entendido como "e / ou". Neste pedido, os termos "compreendendo" e "incluindo" podem ser entendidos como abrangendo componentes ou etapas discriminadas, sejam elas apresentadas por elas mesmas ou em conjunto com um ou mais componentes ou etapas adicionais. Onde as faixas são fornecidas aqui, os pontos de extremidade estão incluídos. Conforme usado neste pedido, o termo "compreender" e variações do termo, como "compreendendo" e "compreende", não se destinam a excluir outros aditivos, componentes, números inteiros ou etapas.
[0054] Cerca de: O termo "cerca de", quando usado aqui em referência a um valor, refere- se a um valor semelhante, no contexto do valor referenciado. Em geral, aqueles versados na técnica, familiarizados com o contexto, apreciarão o grau de variação relevante englobado por "cerca de" nesse contexto. Por exemplo, em algumas modalidades, o termo "cerca de" pode abranger uma faixa de valores que dentro de 25%, 20%, 19%, 18%, 17%, 16%, 15%, 14%, 13%, 12%, 11%, 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1% ou menos do valor referido. Para variações de valores inteiros de um dígito em que um único valor numérico na direção positiva ou negativa excederia 25% do valor, "cerca de" é geralmente aceito pelos versados na técnica para incluir, pelo menos 1, 2, 3 , 4 ou 5 valores inteiros na direção positiva ou negativa, que podem ou não cruzar zero, dependendo das circunstâncias. Um exemplo não limitativo disso é a suposição de que 3 centavos podem ser considerados cerca de 5 centavos em algumas situações que seriam evidentes para um versado na técnica.
[0055] Análogo: Como utilizado neste documento, o termo "análogo" refere-se a uma substância que compartilha uma ou mais características estruturais, elementos, componentes ou frações estruturais particulares com uma substância de referência. Normalmente, um “análogo” mostra uma similaridade estrutural significativa com a substância de referência, por exemplo, compartilhando uma estrutura principal ou de consenso, mas também difere de certas maneiras distintas. Em algumas modalidades, um análogo é uma substância que pode ser gerada a partir da substância de referência, por exemplo, por manipulação química da substância de referência. Em algumas modalidades, um análogo é uma substância que pode ser gerada através da realização de um processo sintético substancialmente semelhante a (por exemplo, compartilhar uma pluralidade de etapas com) um que gera a substância de referência. Em algumas modalidades, um análogo é ou pode ser gerado através do desempenho de um processo sintético diferente daquele usado para gerar a substância de referência.
[0056] Amostra biológica: Como utilizado neste documento, o termo "amostra biológica" ou "amostra" geralmente se refere a uma amostra obtida ou derivada de uma ou mais fontes biológicas (por exemplo, um tecido ou organismo ou cultura de células) de interesse, conforme descrito aqui. Em algumas modalidades, uma fonte de interesse compreende um organismo, como um animal ou humano. Em outras modalidades, uma fonte de interesse compreende um micro- organismo, como uma bactéria, vírus, protozoário ou fungo. Em outras modalidades, uma fonte de interesse pode ser um tecido sintético, organismo, cultura de células, ácido nucleico ou outro material. Em ainda outras modalidades, uma fonte de interesse pode ser um organismo à base de plantas. Em ainda outra modalidade, uma amostra pode ser uma amostra ambiental, como, por exemplo, uma amostra de água, amostra de solo, amostra arqueológica ou outra amostra coletada de uma fonte não viva. Em outras modalidades, uma amostra pode ser uma amostra de múltiplos organismos (por exemplo, uma amostra de organismo misto). Em ainda outras modalidades, uma amostra pode compreender uma mistura de células ou uma mistura de tecidos. Em outras modalidades, uma amostra pode ser derivada de um organismo ou tecido multiquimérico, tecido de transplante ou culturas de células multiquiméricas. Em outras modalidades, a amostra pode incluir DNA fetal. Em ainda outras modalidades, uma amostra pode ser coletada de uma cena de crime ou outro inquérito de investigação de aplicação da lei (por exemplo, em casos forenses, como para identificar perpetradores, vítimas ou pessoas desaparecidas, etc.). Em outras modalidades, uma amostra pode ser coletada de um inquérito de investigação de guerra ou terrorismo ou estudo histórico (por exemplo, para identificar vítimas ou pessoas desaparecidas), etc.
Em outras modalidades, uma amostra pode ser coletada de um estudo arqueológico.
Em algumas modalidades, uma amostra biológica é ou compreende tecido ou fluido biológico.
Em algumas modalidades, uma amostra biológica pode ser DNA isolado ou outros ácidos nucleicos ou pode compreender medula óssea; sangue; células sanguíneas; células-tronco, ascites; amostras de tecido, amostras de biópsia ou amostras de aspiração por agulha fina; fluidos corporais contendo células; ácidos nucleicos flutuantes livres; ácidos nucleicos ligados a proteínas, ácidos nucleicos ligados a riboproteínas; escarro; saliva; urina; líquido cefalorraquidiano, líquido peritoneal; líquido pleural; fezes; linfa; fluidos ginecológicos; cotonetes de pele; cotonetes vaginais; exame de Papanicolaou, cotonetes orais; cotonetes nasais; lavagens, tais como lavagens ductais ou lavagens bronco-alveolares; fluido vaginal, aspirados; raspados; amostras de medula óssea; amostras de biópsia de tecido; tecido ou fluidos fetais; espécimes cirúrgicos; fezes, outros fluidos corporais, secreções e/ou excreções; e/ou células das mesmas, etc.
Em algumas modalidades, uma amostra biológica é ou compreende células obtidas de um indivíduo.
Em algumas modalidades, as células obtidas são ou incluem células de um indivíduo do qual a amostra é obtida.
Em algumas modalidades, derivados de células, como organelas ou vesículas ou exossomos.
Numa modalidade particular, uma amostra biológica é uma biópsia líquida obtida de um sujeito.
Em algumas modalidades, uma amostra é uma "amostra primária" obtida diretamente de uma fonte de interesse por qualquer meio apropriado.
Por exemplo, em algumas modalidades, uma amostra biológica primária é obtida por métodos selecionados do grupo que consiste em biópsia (por exemplo, aspiração por agulha fina ou biópsia de tecido), cirurgia, coleta de fluido corporal (por exemplo, sangue (ou plasma ou soro separado do mesmo), linfa, fezes etc.), etc.
Em algumas modalidades, como ficará claro no contexto, o termo "amostra" refere-se a uma preparação que é obtida pelo processamento (por exemplo, removendo um ou mais componentes de e / ou adicionando um ou mais agentes a) uma amostra primária.
Por exemplo, filtragem usando uma membrana semipermeável.
Tal "amostra processada" pode compreender, por exemplo, ácidos nucleicos ou proteínas extraídas de uma amostra ou obtidas submetendo uma amostra primária a técnicas como amplificação ou transcrição reversa de mRNA, isolamento e / ou purificação de certos componentes, etc.
[0057] Doença de câncer: Em uma modalidade, uma doença ou distúrbio é uma "doença de câncer" que é familiar às pessoas experientes na técnica como sendo geralmente caracterizada pelo crescimento desregulado de células anormais, que podem sofrer metástases. As doenças de câncer detectáveis usando um ou mais aspectos da presente tecnologia compreendem, a título de exemplos não limitativos, câncer de próstata (ou seja, adenocarcinoma, células pequenas), câncer de ovário (por exemplo, adenocarcinoma de ovário, carcinoma seroso ou carcinoma embrionário, tumor de saco vitelino, teratoma), câncer de fígado (por exemplo, HCC ou hepatoma, angiossarcoma), tumores de células plasmáticas (por exemplo, mieloma múltiplo, leucemia plasmocítica, plasmocitoma, amiloidose, macroglobulinemia de Waldenstrom), câncer colorretal (por exemplo, adenocarcinoma do cólon, adenocarcinoma mucinoso do cólon, carcinoide, linfoma e adenocarcinoma retal, carcinoma escamoso retal), leucemia (por exemplo, leucemia mieloide aguda, leucemia linfocítica aguda, leucemia mieloide crônica, leucemia linfocítica crônica, leucemia mieloblástica aguda, leucemia promielocítica aguda, leucemia mielomonocítica aguda, leucemia monocítica aguda, eritroleucemia aguda e leucemia crônica, leucemia de células T, síndrome de Sézary, mastocitose sistêmica, leucemia de células pilosas, leucemia mieloide crônica, crise de blastoma mieloide (síndrome mielodisplásica), por exemplo, linfoma difuso de grandes células B, linfoma cutâneo de células T, linfoma periférico de células T, linfoma de Hodgkin, linfoma não Hodgkin, linfoma folicular, linfoma de células do manto, linfoma MALT, linfoma de células marginais, transformação de Richter, linfoma de duplo hit, linfoma associado a transplante, linfoma do CNS, linfoma extranodal, linfoma associado ao HIV, leucemia capilar variante, linfoma endêmico, linfoma de Burkitt, neoplasias linfoproliferativas associadas a transplante e linfoma linfocítico, etc.), câncer cervical (carcinoma cervical escamoso, carcinoma de células claras, carcinoma associado a HPV, sarcoma cervical etc.) câncer de esôfago (carcinoma de células escamosas do esôfago, adenocarcinoma, certos graus de esôfago de Barretts, adenocarcinoma de esôfago), melanoma (melanoma dérmico, melanoma uveal, melanoma acral, melanoma amelanótico etc.), tumores do CNS (por exemplo, oligodendroglioma, astrocitoma multiforme, esquitoma, glioblocitoma, esquitoma, glioblasma craniofaringioma etc.), câncer pancreático (por exemplo, adenocarcinoma, carcinoma adenoescamoso, carcinoma de células em anel de sinete, carcinoma hepatoide, carcinoma coloide, carcinoma de células de ilhotas, carcinoma neuroendócrino pancreático, etc.), tumor estromal gastrointestinal, sarcoma (por exemplo, fibrossarcoma, mixossarcoma, lipossarcoma, condrossarcoma, sarcoma osteogênico, angiossarcoma, sarcoma de endotelioma, linfangiossarcoma, linfangioendotelioma sarcoma, leiomiossarcoma, sarcoma de tumor de Ewing e espindiosarcoma de células de rabdomiossarcoma, etc.), câncer de mama (por exemplo, carcinoma inflamatório, carcinoma lobar, carcinoma ductal etc.), câncer ER-positivo, câncer HER-2 positivo, câncer de bexiga (câncer de bexiga escamosa, câncer de bexiga de células pequenas, câncer urotelial etc.), câncer de cabeça e pescoço (por exemplo, carcinoma de células escamosas da cabeça e pescoço, carcinoma de células escamosas associado ao HPV, carcinoma nasofaríngeo etc.), câncer de pulmão (por exemplo, carcinoma de células não pequenas do pulmão, carcinoma de células grandes, carcinoma broncogênico, câncer de células escamosas, câncer de pulmão de células pequenas, etc.), câncer metastático, câncer de cavidade oral, câncer uterino (leiomiossarcoma, leiomioma etc.), câncer testicular (por exemplo, seminoma, não seminoma e carcinoma embrionário tumor de saco vitelino, etc.), câncer de pele (por exemplo, células escamosas carcinoma e carcinoma de células basais, carcinoma de células merkel, melanoma, linfoma cutâneo de células T, etc.), câncer de tireoide (por exemplo, carcinoma papilar, carcinoma medular, câncer anaplásico de tireoide, etc.), câncer de estômago, câncer intraepitelial, câncer ósseo, câncer do trato biliar, câncer de olho, câncer de laringe, câncer renal (por exemplo, carcinoma de células renais, tumor de Wilms etc.), câncer gástrico, blastoma (por exemplo, nefroblastoma, meduloblastoma, hemangioblastoma, neuroblastoma, retinoblastoma, etc.), neoplasias mieloproliferativas (policitemia vera, trombocitose essencial, mielofibrose, etc.), cordoma, sinovioma, mesotelioma, adenocarcinoma, carcinoma das glândulas sudoríparas, carcinoma das glândulas sebáceas, cistadenocarcinoma, carcinoma do ducto biliar, coriocarcinoma, carcinoma epitelial, ependimoma, pinealoma, neuroma acústico, schwannoma, meningioma, adenoma hipofisário, tumor da bainha nervosa, câncer do intestino delgado, feocromocitoma, câncer pulmonar de células pequenas, mesotelioma peritoneal, adenoma hiperparatireoide, câncer adrenal, câncer de origem desconhecida, câncer do sistema endócrino, câncer do pênis, câncer da uretra, melanoma cutâneo ou intraocular, um tumor ginecológico, tumores sólidos da infância ou neoplasias do sistema nervoso central, tumor de células germinativas do mediastino primário, hematopoiese clonal de potencial indeterminado, mieloma latente, gamaglobulinopatia monoclonal de linfocitose monoclonal de células B significativa desconhecida, cânceres de baixo grau, defeitos de campo clonal, neoplasias pré-neoplásicas, câncer ureteral, cânceres autoimunes associados (ou seja, colite ulcerativa, colangite esclerosante primária, doença celíaca), cânceres associados a uma predisposição hereditária (ou seja, aqueles que carregam defeitos genéticos, tais como BRCA1, BRCA2, TP53, PTEN, ATM, etc.) e várias síndromes genéticas, como MEN1, MEN2 trissomia 21, etc.) e aqueles que ocorrem quando expostos a produtos químicos in utero (ou seja, câncer de células claras na prole feminina de mulheres expostas ao dietilestilbestrol [DES]), entre muitos outros.
[0058] Determinar: Muitas metodologias descritas aqui incluem uma etapa de "determinação". Os versados na técnica, lendo o presente relatório descritivo, apreciarão que essa "determinação" pode utilizar ou ser realizada através do uso de qualquer uma das várias técnicas disponíveis para os versados na técnica, incluindo, por exemplo, técnicas específicas explicitamente referidas a aqui. Em algumas modalidades, a determinação envolve a manipulação de uma amostra física. Em algumas modalidades, a determinação envolve consideração e / ou manipulação de dados ou informações, por exemplo, utilizando um computador ou outra unidade de processamento adaptada para executar uma análise relevante. Em algumas modalidades, a determinação envolve o recebimento de informações e / ou materiais relevantes de uma fonte. Em algumas modalidades, a determinação envolve comparar um ou mais recursos de uma amostra ou entidade com uma referência comparável.
[0059] Sequenciamento Duplex (DS): Como utilizado neste documento, "Sequenciamento Duplex (DS)" é, em seu sentido mais amplo, refere-se a um método de correção de erros baseado em etiqueta que atinge precisão excepcional comparando a sequência de ambas as fitas de moléculas de DNA individuais.
[0060] Expressão: Como utilizado neste documento, "expressão" de uma sequência de ácido nucleico refere-se a um ou mais dos seguintes eventos: (1) produção de um modelo de RNA a partir de uma sequência de DNA (por exemplo, por transcrição); (2) processamento de um transcrito de RNA (por exemplo, junção, edição, formação de tampa 5' e/ou formação de extremidade 3'); (3) tradução de um RNA em um polipeptídeo ou proteína; e / ou (4) modificação pós-tradução de um polipeptídeo ou proteína.
[0061] Mutação: Como utilizado neste documento, o termo "mutação" refere-se a alterações na sequência ou estrutura de ácidos nucleicos. Mutações em uma sequência polinucleotídica podem incluir mutações pontuais (por exemplo, mutações de base única), mutações multinucleotídicas, deleções nucleotídicas, rearranjos de sequências, inserções nucleotídicas e duplicações da sequência de DNA na amostra, entre alterações multinucelotídicas complexas. As mutações podem ocorrer em ambas as fitas de uma molécula de DNA duplex como alterações complementares de base (isto é, verdadeiras mutações) ou como uma mutação em uma fita, mas não na outra, ou seja, heteroduplex, que tem o potencial de ser reparada, destruída ou ser mal reparada / convertida em uma verdadeira mutação de fita dupla. As mutações podem representar alterações em relação a uma amostra de controle da mesma ou de uma fonte e / ou indivíduo relacionado. As mutações podem representar alterações em relação a uma sequência de referência.
[0062] Doença não cancerígena: Em outra modalidade, uma doença ou distúrbio é uma doença não cancerígena que é causada por, ou contribuída por, uma mutação ou dano genômico. A título de exemplos não limitativos, esses tipos de doenças ou distúrbios não cancerígenos que são detectáveis usando um ou mais aspectos da presente tecnologia compreendem diabetes; doenças ou distúrbios autoimunes, infertilidade, neurodegeneração, progeria, doença cardiovascular, qualquer doença associada ao tratamento de outra doença mediada geneticamente (por exemplo, neuropatia mediada por quimioterapia e insuficiência renal associada a quimioterapia como cisplatina), Alzheimer/demência, obesidade, doença cardíaca, pressão alta, artrite, doença mental, outros distúrbios neurológicos (neurofibromatose) e um distúrbio de herança multifatorial (por exemplo, uma predisposição desencadeada por fatores ambientais).
[0063] Ácido nucleico: Como utilizado neste documento, no seu sentido mais amplo, refere-se a qualquer composto e / ou substância que é ou pode ser incorporada a uma cadeia oligonucleotídica. Em algumas modalidades, um ácido nucleico é um composto e / ou substância que é ou pode ser incorporada a uma cadeia oligonucleotídica por meio de uma ligação fosfodiéster. Como ficará claro no contexto, em algumas modalidades, "ácido nucleico" refere-se a um resíduo de ácido nucleico individual (por exemplo, um nucleotídeo e / ou nucleosídeo); em algumas modalidades,"ácido nucleico" refere-se a uma cadeia oligonucleotídica compreendendo resíduos individuais de ácido nucleico. Em algumas modalidades, um "ácido nucleico"; é ou compreende RNA; em algumas modalidades, um "ácido nucleico"; é ou compreende DNA.
Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais resíduos naturais de ácido nucleico.
Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais análogos de ácido nucleico.
Em algumas modalidades, um análogo de ácido nucleico difere de um ácido nucleico pelo fato de não utilizar uma espinha dorsal de fosfodiéster.
Por exemplo, em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais "ácidos nucleicos peptídicos", que são conhecidos na técnica e têm ligações peptídicas em vez de ligações fosfodiéster na espinha dorsal, são considerados dentro do escopo da tecnologia atual.
Alternativamente, ou adicionalmente, em algumas modalidades, um ácido nucleico tem uma ou mais ligações fosforotioato e / ou ligações 5'-N-fosforamidita em vez de ligações fosfodiéster.
Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais nucleosídeos naturais (por exemplo, adenosina, timidina, guanosina, citidina, uridina, desoxiadenosina, desoxitimidina, desoxiacitana e desoxicitidina). Em algumas modalidades, um ácido nucleico é, compreende ou consiste em um ou mais análogos de nucleosídeo (por exemplo, 2-aminoadenosina, 2-tiotimidina, inosina, pirrolo-pirimidina, 3-metil adenosina, 5-metilcitidina, C-5 propinil-citidina, C-5 propinil-uridina, 2-aminoadenosina, C5-bromouridina, C5- fluorouridina, C5-iodouridina, C5-propinil-uridina, C5-propinil-citidina, C5-metilcitidina, 2- aminoadenosina, 7-deaza-adenosina, 7-deazaguanosina, 8-oxoadenosina, 8-oxoguanosina, 0(6)- metilguanina, 2-tiocitidina, bases metiladas, bases intercaladas e combinações das mesmas). Em algumas modalidades, um ácido nucleico compreende um ou mais açúcares modificados (por exemplo, 2'-fluororibose, ribose, 2'-desoxirribose, arabinose e hexose) em comparação com os ácidos nucleicos naturais.
Em algumas modalidades, um ácido nucleico tem uma sequência nucleotídica que codifica um produto genético funcional, como um RNA ou proteína.
Em algumas modalidades, um ácido nucleico inclui um ou mais íntrons.
Em algumas modalidades, os ácidos nucleicos são preparados por um ou mais isolamentos de uma fonte natural, síntese enzimática por polimerização com base em um modelo complementar (in vivo ou in vitro), reprodução em uma célula ou sistema recombinante e síntese química.
Em algumas modalidades, um ácido nucleico tem pelo menos 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 1 10, 120, 130, 140, 150, 160, 170, 180, 190, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500, 600, 700, 800, 900, 1.000, 1.500, 2.000, 2.500, 3.000, 3.500, 4.000, 4.500,
5.000 ou mais resíduos de comprimento. Em algumas modalidades, um ácido nucleico é parcial ou totalmente de fita única; em algumas modalidades, um ácido nucleico é parcial ou totalmente de fita dupla. Em algumas modalidades, um ácido nucleico pode ser ramificado de ter estruturas secundárias. Em algumas modalidades, um ácido nucleico tem uma sequência nucleotídica compreendendo pelo menos um elemento que codifica, ou é o complemento de uma sequência que codifica, um polipeptídeo. Em algumas modalidades, um ácido nucleico tem atividade enzimática. Em algumas modalidades, o ácido nucleico desempenha uma função mecânica, por exemplo, em um complexo de ribonucleoproteínas ou em um RNA de transferência.
[0064] Dano polinucleotídico: Conforme utilizado neste documento, o termo "dano polinucleotídico" ou "dano ao ácido nucleico" refere-se a dano na sequência de ácido desoxirribonucleico (DNA) de um sujeito ("dano ao DNA") ou na sequência de ácido ribonucleico (RNA) ("dano ao RNA") que é direta ou indiretamente (por exemplo, um metabólito ou indução de um processo que é prejudicial ou mutagênico) causado por um agente ou processo. O ácido nucleico danificado pode levar ao aparecimento de uma doença ou distúrbio em um sujeito. O dano polinucleotídico pode ainda compreender modificação química e / ou física do DNA em uma célula. Em algumas modalidades, o dano é ou compreende, por meio de exemplos não limitativos, pelo menos um de oxidação, alquilação, desaminação, metilação, hidrólise, hidroxilação, corte, reticulações intra-fitas, reticulações entre fitas, quebra de fita de extremidade cega, quebra de fita dupla de extremidade ecalonada, fosforilação, desfosforilação, somalilação, glicosilação, desglicosilação, putrescinilação, carboxilação, halogenação, formilação, folgas de fita única, dano por calor, dano por dessecação, dano por exposição a UV, dano por radiação gama por radiação X, dano por radiação ionizante, dano por radiação não ionizante, dano por radiação de partículas pesadas, dano por decaimento nuclear, dano da radiação beta, dano da radiação alfa, dano da radiação de nêutrons, dano da radiação de prótons, dano da antimatéria, dano da radiação cósmica, dano do pH alto, dano do pH baixo, dano das espécies oxidativas reativas, dano dos radicais livres, dano do peróxido, dano do hipoclorito, dano da fixação do tecido como formalina ou formaldeído, danos causados pelo ferro reativo, danos causados por condições iônicas baixas, danos causados por condições iônicas elevadas, danos causados por condições sem tampão e danos por nucleases, danos por exposição ambiental, danos por incêndio, danos por tensão mecânica, danos por degradação enzimática, danos por micro-organismos, danos por cisalhamento mecânico preparativo, danos por fragmentação enzimática preparativa, danos ocorridos naturalmente in vivo, dano ocorrido durante a extração de ácido nucleico, dano ocorrido durante a preparação da biblioteca de sequenciamento, dano introduzido por uma polimerase, dano introduzido durante o reparo de ácido nucleico, dano ocorrido durante a finalização do ácido nucleico, dano ocorrido durante a ligação do ácido nucleico, danos ocorridos durante o sequenciamento, danos causados pelo manuseio mecânico do DNA, dano ocorrido durante a passagem através de um nanoporo, dano ocorrido como parte do envelhecimento em um organismo, dano causado como resultado caso ocorra a exposição química de um indivíduo, dano causado por um mutagênico, dano ocorrido por um cancerígeno, dano causado por um clastogênio, dano causado por dano à inflamação in vivo devido à exposição ao oxigênio, dano devido a uma ou mais quebras de fita e qualquer combinação dos mesmos.
[0065] Referência: Conforme utilizado neste documento, o termo referência descreve um padrão ou controle em relação ao qual uma comparação é realizada. Por exemplo, em algumas modalidades, um agente, animal, indivíduo, população, amostra, sequência ou valor de interesse é comparado com um agente de referência ou controle, animal, indivíduo, população, amostra, sequência ou valor ou representação do mesmo em uma representação física ou banco de dados de computador que pode estar presente em um local ou acessado remotamente por meios eletrônicos. Em uma modalidade, a referência é um genoma de referência ou um conjunto de genoma de referência. Em algumas modalidades, uma referência ou controle é testado e / ou determinado substancialmente simultaneamente com o teste ou determinação de interesse. Em algumas modalidades, uma referência ou controle é uma referência ou controle histórico, opcionalmente corporificado em um meio tangível. Tipicamente, como seria entendido pelos versados na técnica, uma referência ou controle é determinado ou caracterizado em condições ou circunstâncias comparáveis àquelas sob avaliação. Os versados na técnica apreciarão quando houver semelhanças suficientes para justificar a confiança e / ou comparação com uma referência ou controle possível particular. Uma "amostra de referência" refere-se a uma amostra de um sujeito que é distinto do sujeito de teste e isolado da mesma forma que a amostra com a qual é comparada. O sujeito da amostra de referência pode ser geneticamente idêntico ao sujeito de teste ou pode ser diferente.
[0066] Identificador de molécula única (SMI): Como utilizado neste documento, o termo "identificador de molécula única" ou "SMI" (que pode ser chamado de "etiqueta", "código de barras", "código de barras molecular", um "Identificador Molecular Único", ou "UMI", entre outros nomes) refere-se a qualquer material (por exemplo, uma sequência de nucleotídeos, um recurso de molécula de ácido nucleico) que é capaz de distinguir substancialmente uma molécula individual entre uma população heterogênea maior de moléculas. Em algumas modalidades, um SMI pode ser ou compreender um SMI aplicado exogenamente. Em algumas modalidades, um SMI aplicado exogenamente pode ser ou compreender uma sequência degenerada ou semidegenerada. Em algumas modalidades SMIs substancialmente degeneradas podem ser conhecidas como Identificadores Moleculares Aleatórios Exclusivos (R-UMIs). Em algumas modalidades, um SMI pode compreender um código (por exemplo, uma sequência de ácido nucleico) de dentro de um conjunto de códigos conhecidos. Em algumas modalidades, os códigos SMI predefinidos são conhecidos como Identificadores Moleculares Exclusivos Definidos (D- UMIs). Em algumas modalidades, um SMI pode ser ou compreender um SMI endógeno. Em algumas modalidades, um SMI endógeno pode ser ou compreender informações relacionadas a pontos de cisalhamento específicos de uma sequência alvo, recursos relacionados às extremidades terminais de moléculas individuais que compreendem uma sequência alvo ou uma sequência específica a ou adjacente a ou dentro de uma distância conhecida do fim de moléculas individuais. Em algumas modalidades, um SMI pode se relacionar com uma variação de sequência em uma molécula de ácido nucleico causada por dano aleatório ou semialeatório, modificação química, modificação enzimática ou outra modificação na molécula de ácido nucleico. Em algumas modalidades, a modificação pode ser desaminação da metilcitosina. Em algumas modalidades, a modificação pode implicar sítios de cortes de ácidos nucleicos. Em algumas modalidades, um SMI pode compreender elementos exógenos e endógenos. Em algumas modalidades, um SMI pode compreender elementos SMI fisicamente adjacentes. Em algumas modalidades, os elementos SMI podem ser espacialmente distintos em uma molécula. Em algumas modalidades, um SMI pode ser um ácido não nucleico. Em algumas modalidades, um SMI pode compreender dois ou mais tipos diferentes de informações SMI. Várias modalidades de SMIs são divulgadas ainda na Publicação Internacional de Patente WO2017 / 100441, que é incorporada por referência aqui na sua totalidade.
[0067] Elemento de definição de fita (SDE): Conforme utilizado neste documento, o termo "Elemento de definição de fita" ou "SDE" refere-se a qualquer material que permita a identificação de uma fita específica de um material de ácido nucleico de fita dupla e, assim, a diferenciação da outra / fita complementar (por exemplo, qualquer material que processe os produtos de amplificação de cada um dos dois ácidos nucleicos de fita simples resultantes de um ácido nucleico de fita dupla alvo substancialmente distinguível um do outro após sequenciamento ou outra interrogação de ácido nucleico). Em algumas modalidades, um SDE pode ser ou compreender um ou mais segmentos de sequência substancialmente não complementar dentro de uma sequência adaptadora. Em modalidades particulares, um segmento de sequência substancialmente não complementar dentro de uma sequência adaptadora pode ser fornecido por uma molécula adaptadora compreendendo uma forma em Y ou uma forma de "alça". Em outras modalidades, um segmento de sequência substancialmente não complementar dentro de uma sequência adaptadora pode formar uma "bolha" não emparelhada no meio de sequências complementares adjacentes dentro de uma sequência adaptadora. Em outras modalidades, um SDE pode abranger uma modificação de ácido nucleico. Em algumas modalidades, um SDE pode compreender separação física de fitas pareadas em compartimentos de reação fisicamente separados. Em algumas modalidades, um SDE pode compreender uma modificação química. Em algumas modalidades, um SDE pode compreender um ácido nucleico modificado. Em algumas modalidades, um SDE pode se relacionar com uma variação de sequência em uma molécula de ácido nucleico causada por dano aleatório ou semialeatório, modificação química, modificação enzimática ou outra modificação na molécula de ácido nucleico. Em algumas modalidades, a modificação pode ser desaminação da metilcitosina. Em algumas modalidades, a modificação pode implicar sítios de cortes de ácidos nucleicos. Várias modalidades de SDEs são divulgadas ainda na Publicação Internacional de Patente WO2017 / 100441, que é incorporada por referência aqui na sua totalidade.
[0068] Sujeito: Como utilizado neste documento, o termo "sujeito" refere-se a um organismo, tipicamente um mamífero, como um humano (em algumas modalidades, incluindo formas humanas pré-natais), um animal não humano (por exemplo, mamíferos e não mamíferos, incluindo, mas não limitado a primatas não humanos, camundongos, ratos, hamsters, lontras, gnus, cavalos, ovelhas, cães, vacas, porcos, galinhas, anfíbios, répteis, vida marinha, outros organismos modelo como vermes, moscas, peixe-zebra etc.) e animais transgênicos (por exemplo, roedores transgênicos), etc. Em algumas modalidades, um sujeito está sofrendo de uma doença, distúrbio ou condição relevante. Em algumas modalidades, um sujeito é suscetível a uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito exibe um ou mais sintomas ou características de uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito não exibe nenhum sintoma ou característica de uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito tem um ou mais aspectos característicos de suscetibilidade ou risco de uma doença, distúrbio ou condição. Em algumas modalidades, um sujeito é um indivíduo a quem o diagnóstico e / ou terapia é e / ou foi administrado. Em ainda outras modalidades, um sujeito refere-se a quaisquer fontes biológicas vivas ou outro material de ácido nucleico, por exemplo, organismos, células e / ou tecidos, como para estudos in vivo , por exemplo: fungos, protozoários, bactérias, arqueobactérias, vírus, células isoladas em cultura, células que foram intencionalmente (por exemplo, transplante de células-tronco, transplante de órgãos) ou involuntariamente (por exemplo, microcimerismo fetal ou materno) ou ácidos nucleicos ou organelas isoladas (isto é, mitocôndrias, cloroplastos, genomas virais livres, plasmídeos livres, aptâmeros, ribozimas ou derivados ou precursores de ácidos nucleicos (isto é, oligonucleotídeos, trifosfatos de dinucleotídeos, etc.). Em outras modalidades, um sujeito se refere a qualquer fonte biológica viva, ou ao mesmo tempo viva, ou outros materiais de ácido nucleico obtidos em uma investigação ou aplicação forense.
[0069] Substancialmente: Conforme utilizado neste documento, o termo "substancialmente" refere-se à condição qualitativa de exibir extensão ou grau total ou quase total de uma característica ou propriedade de interesse. Alguém versado na técnica das ciências biológicas entenderá que os fenômenos biológicos e químicos raramente, se é que alguma vez, chegam à conclusão e / ou prosseguem à conclusão ou alcançam ou evitam um resultado absoluto. O termo "substancialmente" é, portanto, usado aqui para capturar a potencial falta de completude inerente a muitos fenômenos biológicos e químicos. II. Modalidades Selecionadas de Métodos de Sequenciamento Duplex e Adaptadores e Reagentes Associados
[0070] O Sequenciamento Duplex é um método para a produção de sequências de DNA com erros corrigidos a partir de moléculas de ácido nucleico de fita dupla e que foi originalmente descrito na Publicação Internacional de Patente WO 2013/142389 e na Patente U.S. 9.752.188, ambos incorporados por referência na sua totalidade. Conforme ilustrado nas FIGS. 4A-4C, e em certos aspectos da tecnologia, o Sequenciamento Duplex pode ser usado para sequenciar independentemente ambas as fitas de moléculas de DNA individuais de tal forma que as leituras de sequência derivadas possam ser reconhecidas como originárias da mesma molécula parental de ácido nucleico de fita dupla durante o sequenciamento massivamente paralelo, mas também diferenciadas umas das outras como entidades distinguíveis após o sequenciamento. As leituras de sequência resultante de cada fita são então comparadas com o propósito de obter uma sequência com erros corrigidos da molécula de ácido nucleico de fita dupla original.
[0071] Em certas modalidades, os métodos que incorporam o Sequenciamento Duplex podem incluir a ligação de um ou mais adaptadores de sequenciamento a uma molécula de ácido nucleico de fita dupla alvo, compreendendo uma sequência de ácido nucleico alvo de primeira fita e uma sequência nucleica alvo de segunda fita, para produzir um complexo de ácido nucleico alvo de fita dupla (por exemplo, FIG. 4A).
[0072] Em várias modalidades, um complexo de ácido nucleico alvo resultante pode incluir pelo menos uma sequência SMI, que pode implicar uma sequência degenerada ou semidegenerada aplicada exogenamente (por exemplo, etiqueta duplex aleatória mostrada na FIG. 4A, sequências identificadas como α e β na FIG. 4A), informações endógenas relacionadas aos pontos de cisalhamento específicos da molécula alvo de ácido nucleico de fita dupla ou uma combinação das mesmas. O SMI pode tornar a molécula de ácido nucleico alvo substancialmente distinguível da pluralidade de outras moléculas em uma população que é sequenciada sozinha ou em combinação com elementos distintivos dos fragmentos de ácido nucleico aos quais foram ligados. O recurso substancialmente distinguível do elemento SMI pode ser transportado independentemente por cada uma das fitas únicas que formam a molécula de ácido nucleico de fita dupla, de modo que os produtos de amplificação derivativos de cada fita possam ser reconhecidos como provenientes da mesma molécula original de ácido nucleico de fita dupla substancialmente única após o sequenciamento. Em outras modalidades, o SMI pode incluir informações adicionais e / ou pode ser usado em outros métodos para os quais essa funcionalidade de diferenciação de molécula é útil, como os descritos nas publicações acima mencionadas. Numa outra modalidade, o elemento SMI pode ser incorporado após a ligação do adaptador. Em algumas modalidades, o SMI é de fita dupla, enquanto em outras modalidades o SMI é de fita simples (por exemplo, o SMI pode estar na(s) porção(ões) de fita simples dos adaptadores). Em outras modalidades, o SMI é uma combinação de sequências SMI de fita simples e de fita dupla.
[0073] Em algumas modalidades, cada complexo de sequência de ácido nucleico alvo de fita dupla pode incluir ainda um elemento (por exemplo, um SDE) que processa os produtos de amplificação dos dois ácidos nucleicos de fita simples que formam a molécula de ácido nucleico de fita dupla alvo substancialmente distinguível uma da outra após a sequência. Em uma modalidade, o SDE pode compreender sítios primários assimétricos compreendidos nos adaptadores de sequenciamento ou, em outros arranjos, assimetrias de sequência podem ser introduzidas nas moléculas adaptadoras que não estão nas sequências iniciadoras, de modo que pelo menos uma posição nas sequências nucleotídicas do complexo de sequência de ácido nucleico alvo da primeira fita e da segunda fita do complexo de sequência de ácido nucleico alvo são diferentes um do outro após amplificação e sequenciamento. Em outras modalidades, o SMI pode compreender outra assimetria bioquímica entre as duas fitas que diferem das sequências nucleotídicas canônicas A, T, C, G ou U, mas é convertida em pelo menos uma diferença de sequência nucleotídica canônica nas duas moléculas amplificadas e sequenciadas. Em ainda outra modalidade, o SDE pode ser um meio de separar fisicamente as duas fitas antes da amplificação, de modo que os produtos de amplificação derivados da sequência de ácido nucleico alvo da primeira fita e a sequência de ácido nucleico alvo da segunda fita sejam mantidos em isolamento físico substancial um do outro com o objetivo de manter uma distinção entre os dois. Outros arranjos ou metodologias para fornecer uma função SDE que permita distinguir a primeira e a segunda fitas podem ser utilizados, como os descritos nas publicações mencionadas acima, ou outros métodos que atendem ao objetivo funcional descrito.
[0074] Depois de gerar o complexo de ácido nucleico alvo de fita dupla que compreende pelo menos um SMI e pelo menos um SDE, ou onde um ou ambos esses elementos serão subsequentemente introduzidos, o complexo pode ser submetido à amplificação de DNA, como com PCR, ou qualquer outro método bioquímico de amplificação de DNA, de modo que uma ou mais cópias da primeira fita direcionem a sequência de ácido nucleico e uma ou mais cópias da sequência de ácido nucleico alvo da segunda fita sejam produzidas (por exemplo, FIG. 4B). As uma ou mais cópias de amplificação da molécula de ácido nucleico alvo da primeira fita e as uma ou mais cópias de amplificação da segunda molécula de ácido nucleico alvo podem ser submetidas ao sequenciamento de DNA, de preferência usando uma plataforma de sequenciamento de DNA massivamente paralela de "próxima geração" (por exemplo, FIG. 4B).
[0075] As leituras de sequência produzidas a partir da molécula de ácido nucleico alvo da primeira fita e da molécula de ácido nucleico alvo da segunda fita derivadas da molécula original de ácido nucleico alvo de fita dupla podem ser identificadas com base no compartilhamento de um SMI substancialmente único relacionado e distinto da molécula de ácido nucleico alvo de fita oposta em virtude de um SDE.
Em algumas modalidades, o SMI pode ser uma sequência baseada em um em um código de correção de erros matematicamente baseado (por exemplo, um código de Hamming), pelo qual certos erros de amplificação, erros de sequenciamento ou erros de síntese SMI podem ser tolerados com a finalidade de relacionar as sequências SMI em fitas complementares de um Duplex original (por exemplo, uma molécula de ácido nucleico de fita dupla). Por exemplo, com um SMI exógeno de fita dupla, em que o SMI compreende 15 pares de bases de sequência totalmente degenerada de bases de DNA canônicas, existirão aproximadamente 4^15 = 1.073.741.824 variantes SMI estimadas em uma população de SMIs totalmente degeneradas.
Se dois SMIs são recuperados de leituras de dados de sequenciamento que diferem em apenas um nucleotídeo dentro da sequência SMI de uma população de 10.000 SMIs amostrados, pode-se calcular matematicamente a probabilidade de isso ocorrer por acaso e tomar uma decisão se é mais provável que a diferença de um par de bases reflita um dos tipos de erros mencionados acima e que as sequências SMI possam ser determinadas como sendo de fato derivadas da mesma molécula duplex original.
Em algumas modalidades em que o SMI é, pelo menos em parte, uma sequência aplicada exogenamente em que as variantes de sequência não são totalmente degeneradas entre si e são, pelo menos em parte, sequências conhecidas, a identidade das sequências conhecidas pode em algumas modalidades ser projetada de tal forma que um ou mais erros dos tipos mencionados acima não convertam a identidade de uma sequência SMI conhecida na de outra sequência SMI, de modo que a probabilidade de um SMI ser mal interpretado como a de outro SMI é reduzida.
Em algumas modalidades, esta estratégia de projeto de SMI compreende uma abordagem do Código de Hamming ou derivado do mesmo.
Uma vez identificada, uma ou mais leituras de sequência produzidas a partir da molécula de ácido nucleico alvo da primeira fita são comparadas com uma ou mais leituras de sequência produzidas a partir da molécula de ácido nucleico alvo da segunda fita para produzir uma sequência da molécula de ácido nucleico alvo com erros corrigidos (por exemplo, FIG. 4C). Por exemplo, as posições nucleotídicas nas quais as bases das sequências de ácido nucleico alvo da primeira e da segunda fita concordam são consideradas sequências verdadeiras, enquanto as posições nucleotídicas que discordam entre as duas fitas são reconhecidas como sítios potenciais de erros técnicos que podem ser descontados, eliminados, corrigidos ou identificados. Uma sequência com erros corrigidos da molécula de ácido nucleico alvo de fita dupla original pode assim ser produzida (mostrada na FIG. 4C). Em algumas modalidades e após o agrupamento separado de cada uma das leituras de sequenciamento produzidas a partir da molécula de ácido nucleico alvo da primeira fita e da molécula de ácido nucleico alvo da segunda fita, uma sequência de consenso de fita única pode ser gerada para cada uma da primeira e da segunda fitas. As sequências de consenso de fita simples da molécula de ácido nucleico alvo da primeira fita e a molécula de ácido nucleico alvo da segunda fita podem então ser comparadas para produzir uma sequência da molécula de ácido nucleico alvo com erros corrigidos (por exemplo, FIG. 4C).
[0076] Alternativamente, em algumas modalidades, os sítios de desacordo da sequência entre as duas fitas podem ser reconhecidos como sítios potenciais de incompatibilidades derivadas biologicamente na molécula original de ácido nucleico alvo de fita dupla. Alternativamente, em algumas modalidades, os sítios de desacordo da sequência entre as duas fitas podem ser reconhecidos como sítios potenciais de incompatibilidades derivadas de síntese de DNA na molécula original de ácido nucleico alvo de fita dupla. Alternativamente, em algumas modalidades, os sítios de desacordo de sequência entre as duas fitas podem ser reconhecidos como sítios potenciais em que uma base nucleotídica danificada ou modificada estava presente em uma ou em ambas as fitas e foi convertida em uma incompatibilidade por um processo enzimático (por exemplo, uma DNA polimerase, uma DNA glicosilase ou outra enzima modificadora de ácido nucleico ou processo químico). Em algumas modalidades, esta última descoberta pode ser usada para inferir a presença de dano por ácido nucleico ou modificação de nucleotídeo antes do processo enzimático ou tratamento químico.
[0077] Em algumas modalidades, e de acordo com aspectos da presente tecnologia, as leituras de sequenciamento geradas a partir das etapas de Sequenciamento Duplex discutidas aqui podem ser filtradas ainda mais para eliminar leituras de sequenciamento de moléculas danificadas por DNA (por exemplo, danificadas durante o armazenamento, transporte, durante ou após a extração de tecido ou sangue durante ou após a preparação da biblioteca, etc.). Por exemplo, enzimas de reparo de DNA ou modificação, como Uracil-DNA Glicosilase (UDG),
Formamidopirimidina DNA glicosilase (FPG) e 8-oxoguanina DNA glicosilase (OGG1), podem ser utilizadas para eliminar ou corrigir danos ao DNA (por exemplo, danos ao DNA in vitro ou danos in vivo). Essas enzimas de reparo do DNA, por exemplo, são glicosilases que removem bases danificadas do DNA.
Por exemplo, o UDG remove o uracil resultante da desaminação da citosina (causada pela hidrólise espontânea da citosina) e o FPG remove a 8-oxo-guanina (por exemplo, uma lesão de DNA comum resultante de espécies reativas de oxigênio). O FPG também possui atividade de liase que pode gerar uma folga de 1 base em sítios abásicos.
Tais sítios abásicos geralmente falham subsequencialmente em amplificar por PCR, por exemplo, porque a polimerase falha em copiar o modelo.
Consequentemente, o uso de tais enzimas de reparo/eliminação de danos ao DNA pode remover efetivamente o DNA danificado que não possui uma mutação verdadeira, mas que pode ser detectado como um erro após a sequência e a análise de sequência duplex.
Embora um erro devido a uma base danificada possa frequentemente ser corrigido pelo Sequenciamento Duplex em casos raros, teoricamente, um erro complementar pode ocorrer na mesma posição em ambas as fitas, assim, reduzir o dano que aumenta o erro pode reduzir a probabilidade de artefatos.
Além disso, durante a preparação da biblioteca, certos fragmentos de DNA a serem sequenciados podem ser de fita simples a partir de sua fonte ou das etapas de processamento (por exemplo, cisalhamento mecânico de DNA). Essas regiões são tipicamente convertidas em DNA de fita dupla durante uma etapa de "reparo final" conhecida na técnica, na qual uma DNA polimerase e substratos de nucleosídeo são adicionados a uma amostra de DNA para estender as extremidades recuadas em 5'. Um sítio mutagênico de dano ao DNA na porção de fita simples do DNA que está sendo copiado (isto é, saliência de fita simples de 5' em uma ou ambas as extremidades do duplex de DNA ou cortes ou folgas internas de fita simples) pode causar um erro durante a reação de preenchimento que poderia processar uma mutação de fita única, erro de síntese ou sítio de dano do ácido nucleico em uma forma de fita dupla que poderia ser mal interpretada na sequência de consenso duplex final como uma verdadeira mutação, pela qual a verdadeira mutação estava presente na molécula de ácido nucleico de fita dupla original, quando na verdade não estava.
Esse cenário, denominado “pseudoduplex”, pode ser reduzido ou evitado pelo uso de tais enzimas destruidoras / reparadoras de danos.
Em outras modalidades, essa ocorrência pode ser reduzida ou eliminada através do uso de estratégias para destruir ou impedir a formação de porções de fita simples da molécula duplex original (por exemplo, o uso de certas enzimas sendo usadas para fragmentar o material original de ácido nucleico de fita dupla, em vez de cisalhamento mecânico ou certas outras enzimas que podem deixar cortes ou folgas). Em outras modalidades, o uso de processos para eliminar porções de fita simples de ácidos nucleicos originais de fita dupla (por exemplo, nucleases específicas de fita única, como nuclease S1 ou nuclease de feijão mungo), pode ser utilizado para uma finalidade semelhante.
[0078] Em outras modalidades, as leituras de sequenciamento geradas a partir das etapas de Sequenciamento Duplex discutidas aqui podem ser filtradas ainda mais para eliminar falsas mutações aparando as extremidades das leituras mais propensas a artefatos de pseudoduplex. Por exemplo, a fragmentação do DNA pode gerar porções de fita única nas extremidades terminais da molécula de fita dupla. Essas porções de fita única podem ser preenchidas (por exemplo, pela Klenow ou T4 polimerase) durante o reparo final. Em alguns casos, as polimerases cometem erros de cópia nessas regiões reparadas finais, levando à geração de "moléculas pseudoduplex". Esses artefatos de preparação da biblioteca podem incorretamente parecer verdadeiras mutações depois de sequenciados. Esses erros, como resultado de mecanismos de reparo final, podem ser eliminados ou reduzidos da análise pós-sequenciamento aparando as extremidades das leituras de sequenciamento para excluir quaisquer mutações que possam ter ocorrido em regiões de maior risco, reduzindo assim o número de falsas mutações. Numa modalidade, esse corte de leituras de sequenciamento pode ser realizado automaticamente (por exemplo, uma etapa normal do processo). Em outra modalidade, uma frequência mutante pode ser avaliada para regiões terminais do fragmento e se um nível limiar de mutações for observado nas regiões terminais do fragmento, o corte de leitura de sequenciamento pode ser realizado antes de gerar uma leitura de sequência de consenso de fita dupla dos fragmentos de DNA.
[0079] A título de exemplo específico, em algumas modalidades, são fornecidos aqui métodos para gerar uma sequência de leitura com erros corrigidos de um material de ácido nucleico alvo de fita dupla, incluindo a etapa de ligar um material de ácido nucleico alvo de fita dupla a pelo menos uma sequência adaptadora, para formar um complexo de material de ácido nucleico alvo-adaptador, em que a pelo menos uma sequência adaptadora compreende (a) uma sequência de identificador de molécula única (SMI) degenerada ou semidegenerada que marca exclusivamente cada molécula do material de ácido nucleico alvo de fita dupla, e (b) uma primeira sequência adaptadora de nucleotídeo que marca uma primeira fita do complexo de material de ácido nucleico alvo-adaptador e uma segunda sequência adaptadora de nucleotídeo que é pelo menos parcialmente não complementar à primeira sequência nucleotídica que marca uma segunda fita do complexo de material de ácido nucleico alvo-adaptador, de modo que cada fita do complexo de material de ácido nucleico alvo-adaptador tenha uma sequência nucleotídica distintamente identificável em relação à sua fita complementar. O método pode, em seguida, incluir as etapas de amplificação de cada fita do complexo de material de ácido nucleico alvo-adaptador para produzir uma pluralidade de amplicons do complexo de ácido nucleico alvo-adaptador da primeira fita e uma pluralidade de amplicons do complexo de ácido nucleico alvo-adaptador da segunda fita. O método pode ainda incluir as etapas de amplificação do primeiro e das fitas para fornecer um primeiro produto de ácido nucleico e um segundo produto de ácido nucleico. O método também pode incluir as etapas de sequenciar cada um do primeiro produto de ácido nucleico e do segundo produto de ácido nucleico para produzir uma pluralidade de leituras de sequência da primeira fita e pluralidade de leituras de sequência da segunda fita e confirmar a presença de pelo menos uma leitura da sequência da primeira fita e pelo menos uma leitura da sequência da segunda fita. O método pode ainda incluir comparar pelo menos uma leitura de sequência de primeira fita com a pelo menos uma leitura de sequência de segunda fita, e gerar uma leitura de sequência com erros corrigidos do material de ácido nucleico alvo de fita dupla, descontando posições de nucleotídeos que não concordam, ou removendo, alternativamente, as leituras de sequência da primeira e da segunda fitas comparadas com uma ou mais posições nucleotídicas em que as leituras de sequência da primeira e da segunda fitas comparadas não são complementares.
[0080] Por meio de um exemplo específico adicional, em algumas modalidades, são aqui fornecidos métodos para identificar uma variante de DNA de uma amostra incluindo as etapas de ligação de ambas as fitas de um material de ácido nucleico (por exemplo, uma molécula de DNA alvo de fita dupla) a pelo menos uma molécula adaptadora assimétrica para formar um complexo de material de ácido nucleico alvo-adaptador tendo uma primeira sequência nucleotídica associada a uma primeira fita de uma molécula de DNA alvo de fita dupla (por exemplo, uma fita superior) e uma segunda sequência nucleotídica que é pelo menos parcialmente não complementar à primeira sequência nucleotídica associada a uma segunda fita da molécula de DNA alvo de fita dupla (por exemplo, uma fita inferior) e amplificar cada fita do material de ácido nucleico alvo- adaptador, resultando em cada fita gerando um distinto, porém relacionado conjunto de produtos de ácido nucleico alvo-adaptador amplificado. O método pode ainda incluir as etapas de sequenciar cada uma de uma pluralidade de produtos de ácido nucleico alvo-adaptador da primeira fita e uma pluralidade de produtos de ácido nucleico alvo-adaptador da segunda fita, confirmando a presença de pelo menos uma leitura de sequência amplificada de cada fita do complexo de material de ácido nucleico alvo-adaptador e comparando pelo menos uma leitura de sequência amplificada obtida da primeira fita com a pelo menos uma leitura de sequência amplificada obtida da segunda fita para formar uma leitura de sequência de consenso do material de ácido nucleico (por exemplo, um molécula de DNA alvo de fita dupla) tendo apenas bases nucleotídicas nas quais a sequência de ambas as fitas do material de ácido nucleico (por exemplo, uma molécula de DNA alvo de fita dupla) está de acordo, de modo que uma variante que ocorre em uma posição específica na leitura de sequência de consenso (por exemplo, em comparação com uma sequência de referência) é identificada como uma verdadeira variante de DNA.
[0081] Em algumas modalidades, são aqui fornecidos métodos para gerar uma sequência de consenso de alta precisão a partir de um material de ácido nucleico de fita dupla, incluindo as etapas de marcação de moléculas de DNA duplex individuais com uma molécula adaptadora para formar material de DNA marcado, em que cada molécula adaptadora compreende (a) um identificador de molécula única degenerada ou semidegenerada (SMI) que marca exclusivamente a molécula de DNA duplex; e (b) a primeira e a segunda sequências adaptadoras de nucleotídeos não complementares que distinguem uma fita superior original de uma fita inferior original de cada molécula de DNA individual dentro do material de DNA marcado, para cada molécula de DNA marcada, e gerando um conjunto de duplicatas da fita superior original da molécula de DNA marcada e um conjunto de duplicatas da fita inferior original da molécula de DNA marcada para formar material de DNA amplificado. O método pode ainda incluir as etapas de criar uma primeira sequência de consenso de fita única (SSCS) a partir das duplicatas da fita superior original e uma segunda sequência de consenso de fita única (SSCS) a partir das duplicatas da fita inferior original, comparando o primeiro SSCS da fita superior original com o segundo SSCS da fita inferior original e gerar uma sequência de consenso de alta precisão com apenas bases nucleotídicas nas quais a sequência do primeiro SSCS da fita superior original e do segundo SSCS da fita inferior original é complementar.
[0082] Em outras modalidades, são fornecidos aqui métodos de detecção e / ou quantificação de uma fonte doadora de ácido nucleico de uma mistura, incluindo as etapas de ligação de ambas as fitas de cada molécula de DNA de fita dupla alvo em uma mistura a pelo menos uma molécula adaptadora assimétrica para formar uma pluralidade de complexos adaptador-alvo de DNA, em que cada complexo de DNA alvo-adaptador tem uma primeira sequência de nucleotídeos associada a uma primeira fita de uma molécula de DNA de fita dupla e uma segunda sequência de nucleotídeos que é pelo menos parcialmente não complementar à primeira sequência nucleotídica associada a uma segunda fita da molécula de DNA alvo de fita dupla e para cada complexo de DNA alvo-adaptador: amplificar cada fita do complexo de DNA alvo-adaptador, resultando em cada fita gerando um conjunto distinto, mas relacionado, de amplicons de DNA alvo-adaptador amplificados. O método pode ainda incluir as etapas de sequenciar cada uma de uma pluralidade de amplicons de DNA alvo-adaptador da primeira fita e uma pluralidade de amplicons de DNA alvo-adaptador da segunda fita, confirmando a presença de pelo menos uma leitura de sequência de cada fita do complexo de DNA alvo-adaptador e comparar pelo menos uma leitura de sequência obtida da primeira fita com a pelo menos uma leitura de sequência obtida da segunda fita para detectar e / ou quantificar bases nucleotídicas nas quais a leitura de sequência de uma fita da molécula de DNA de fita dupla está em desacordo (por exemplo, não complementar) com a leitura de sequência da outra fita da molécula de DNA de fita dupla, de modo que os sítios de dano ao DNA possam ser detectados e / ou quantificados. Em algumas modalidades, o método pode incluir ainda as etapas de criar uma primeira sequência de consenso de fita única (SSCS) a partir dos amplicons de DNA alvo-adaptador da primeira fita e uma segunda sequência de consenso de fita única (SSCS) a partir dos amplicons de DNA alvo- adaptador da segunda fita, comparar o primeiro SSCS da primeira fita original com o segundo SSCS da segunda fita original e identificar as bases nucleotídicas nas quais a sequência do primeiro SSCS e do segundo SSCS não é complementar para detectar e / ou quantificar uma fonte doadora de ácido nucleico da mistura. Sequências de identificador de molécula única (SMIs)
[0083] De acordo com várias modalidades, os métodos e composições fornecidos incluem uma ou mais sequências SMI em cada fita de um material de ácido nucleico. O SMI pode ser transportado independentemente por cada uma das fitas únicas que resultam de uma molécula de ácido nucleico de fita dupla, de modo que os produtos de amplificação derivativos de cada fita possam ser reconhecidos como provenientes da mesma molécula original de ácido nucleico de fita dupla substancialmente única após o sequenciamento. Em algumas modalidades, o SMI pode incluir informações adicionais e / ou pode ser usado em outros métodos para os quais essa funcionalidade de diferenciação de molécula é útil, como será reconhecido por um versado na técnica. Em algumas modalidades, um elemento SMI pode ser incorporado antes, substancialmente simultaneamente, ou após a ligação da sequência adaptadora um material de ácido nucleico.
[0084] Em algumas modalidades, uma sequência SMI pode incluir pelo menos um ácido nucleico degenerado ou semidegenerado. Em outras modalidades, uma sequência SMI pode ser não degenerada. Em algumas modalidades, o SMI pode ser a sequência associada a ou próximo a uma extremidade do fragmento da molécula de ácido nucleico (por exemplo, extremidades cortadas aleatoriamente ou semialeatoriamente do material de ácido nucleico ligado). Em algumas modalidades, uma sequência exógena pode ser considerada em conjunto com a sequência correspondente às extremidades cortadas aleatoriamente ou semialeatoriamente do material de ácido nucleico ligado (por exemplo, DNA) para obter uma sequência SMI capaz de distinguir, por exemplo, moléculas de DNA únicas uma da outra. Em algumas modalidades, uma sequência SMI é uma porção de uma sequência adaptadora que está ligada a uma molécula de ácido nucleico de fita dupla. Em certas modalidades, a sequência adaptadora compreendendo uma sequência SMI é de fita dupla, de modo que cada fita da molécula de ácido nucleico de fita dupla inclui um SMI após a ligação à sequência adaptadora. Em outra modalidade, a sequência SMI é de fita única antes ou após a ligação a uma molécula de ácido nucleico de fita dupla e uma sequência SMI complementar pode ser gerada estendendo a fita oposta com uma DNA polimerase para produzir uma sequência SMI de fita dupla complementar. Em outras modalidades, uma sequência SMI está em uma porção de fita única do adaptador (por exemplo, um braço de um adaptador tendo uma forma em Y). Em tais modalidades, o SMI pode facilitar o agrupamento de famílias de leituras de sequência derivadas de uma fita original de uma molécula de ácido nucleico de fita dupla e, em alguns casos, pode conferir relação entre a primeira e a segunda fita originais de uma molécula de ácido nucleico de fita dupla (por exemplo, a totalidade ou parte dos SMIs pode ser relacionada através da tabela de consulta). Nas modalidades, onde a primeira e a segunda fitas são marcadas com SMIs diferentes, a leitura das sequências das duas fitas originais pode ser relacionada usando um ou mais SMI endógenos (por exemplo, um recurso específico de fragmento, como a sequência associada a ou próximo a uma extremidade do fragmento da molécula de ácido nucleico) ou com o uso de uma etiqueta molecular adicional compartilhada pelas duas fitas originais (por exemplo, um código de barras em uma porção de fita dupla do adaptador, ou uma combinação dos mesmos. Em algumas modalidades, cada sequência SMI pode incluir entre cerca de 1 a cerca de 30 ácidos nucleicos (por exemplo, 1, 2, 3, 4, 5, 8, 10, 12, 14, 16, 18, 20 ou mais ácidos nucleicos degenerados ou semidegenerados).
[0085] Em algumas modalidades, um SMI é capaz de ser ligado a um ou ambos de um material de ácido nucleico e uma sequência adaptadora. Em algumas modalidades, um SMI pode ser ligado a pelo menos um dentre um excesso de T, um excesso de A, um excesso de CG, uma base desidroxilada e uma extremidade cega de um material de ácido nucleico.
[0086] Em algumas modalidades, uma sequência de um SMI pode ser considerada em conjunto com (ou projetada de acordo com) a sequência correspondente a, por exemplo, extremidades cortadas aleatoriamente ou semialeatoriamente de um material de ácido nucleico (por exemplo, um material de ácido nucleico ligado), para obter uma sequência SMI capaz de distinguir moléculas de ácido nucleico únicas uma da outra.
[0087] Em algumas modalidades, pelo menos um SMI pode ser um SMI endógeno (por exemplo, um SMI relacionado a um ponto de cisalhamento (por exemplo, uma extremidade de fragmento), por exemplo, usando o próprio ponto de cisalhamento ou usando um número definido de nucleotídeos no ácido nucleico material imediatamente adjacente ao ponto de cisalhamento [por exemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10 nucleotídeos do ponto de cisalhamento]). Em algumas modalidades, pelo menos um SMI pode ser um SMI exógeno (por exemplo, um SMI compreendendo uma sequência que não é encontrada em um material de ácido nucleico alvo).
[0088] Em algumas modalidades, um SMI pode ser ou compreender uma fração de imageamento (por exemplo, uma fração fluorescente ou de outra forma detectável opticamente). Em algumas modalidades, tais SMIs permitem a detecção e / ou quantificação sem a necessidade de uma etapa de amplificação.
[0089] Em algumas modalidades, um elemento SMI pode compreender dois ou mais elementos SMI distintos que estão localizados em sítios diferentes no complexo de ácido nucleico adaptador-alvo.
[0090] Várias modalidades de SMIs são divulgadas ainda na Publicação Internacional de Patente WO2017 / 100441, que é incorporada por referência aqui na sua totalidade. Elemento de definição de fita (SDE)
[0091] Em algumas modalidades, cada fita de um material de ácido nucleico de fita dupla pode ainda incluir um elemento que processa os produtos de amplificação dos dois ácidos nucleicos de fita única que formam o material de ácido nucleico de fita dupla alvo substancialmente distinguível um do outro após o sequenciamento. Em algumas modalidades, um SDE pode ser ou compreender sítios primários assimétricos compreendidos em um adaptador de sequenciamento ou, em outros arranjos, assimetrias de sequência podem ser introduzidas nas sequências adaptadoras e não nas sequências iniciadoras, de modo que pelo menos uma posição nas sequências nucleotídicas de um complexo de sequência de ácido nucleico alvo da primeira fita e de uma segunda fita do complexo de sequência de ácido nucleico alvo são diferentes um do outro após amplificação e sequenciamento. Em outras modalidades, o SDE pode compreender outra assimetria bioquímica entre as duas fitas que diferem das sequências nucleotídicas canônicas A, T, C, G ou U, mas é convertida em pelo menos uma diferença de sequência nucleotídica canônica nas duas moléculas amplificadas e sequenciadas. Em ainda outra modalidade, o SDE pode ser ou compreender um meio de separar fisicamente as duas fitas antes da amplificação, de modo que produtos de amplificação derivados da sequência de ácido nucleico alvo da primeira fita e a sequência de ácido nucleico alvo da segunda fita sejam mantidos em isolamento físico substancial um do outro com o objetivo de manter uma distinção entre os dois produtos de amplificação derivados. Podem ser utilizados outros arranjos ou metodologias para fornecer uma função SDE que permita distinguir a primeira e a segunda fitas.
[0092] Em algumas modalidades, uma SDE pode ser capaz de formar um laço (por exemplo, uma alça em hairpin). Em algumas modalidades, uma alça pode compreender pelo menos um sítio de reconhecimento de endonucleases. Em algumas modalidades, o complexo de ácido nucleico alvo pode conter um sítio de reconhecimento de endonucleases que facilita um evento de clivagem dentro da alça. Em algumas modalidades, uma alça pode compreender uma sequência nucleotídica não canônica. Em algumas modalidades, o nucleotídeo não canônico contido pode ser reconhecível por uma ou mais enzimas que facilitam a clivagem da fita. Em algumas modalidades, o nucleotídeo não canônico contido pode ser direcionado por um ou mais processos químicos que facilitam a clivagem da fita na alça. Em algumas modalidades, a alça pode conter um ligante de ácido nucleico modificado que pode ser direcionado por um ou mais processos enzimáticos, químicos ou físicos que facilitam a clivagem de fios na alça. Em algumas modalidades, este ligante modificado é um ligante fotoclivável.
[0093] Uma variedade de outras ferramentas moleculares poderia servir como SMIs e SDEs. Além de pontos de cisalhamento e marcadores baseados em DNA, os métodos de compartimentação de molécula única que mantêm as fitas pareadas na proximidade física ou outros métodos de marcação de ácido não nucleico podem servir à função de relacionamento das fitas. Da mesma forma, a marcação química assimétrica das fitas do adaptador de forma que eles possam ser separados fisicamente pode desempenhar um papel de SDE. Uma variação recentemente descrita do Sequenciamento Duplex utiliza a conversão de bissulfito para transformar as assimetrias de fita de ocorrência natural na forma de metilação de citosina em diferenças de sequência que distinguem as duas fitas. Embora essa implementação limite os tipos de mutações que podem ser detectadas, o conceito de capitalização na assimetria nativa é digno de nota no contexto de tecnologias emergentes de sequenciamento que podem detectar diretamente nucleotídeos modificados. Várias modalidades de SDEs são divulgadas ainda na Publicação Internacional de Patente WO2017 / 100441, que é incorporada por referência na sua totalidade. Adaptadores e sequências adaptadoras
[0094] Em várias disposições, moléculas adaptadoras que compreendem SMIs (por exemplo, códigos de barras moleculares), SDEs, sítios de iniciação, sequências de células de fluxo e / ou outros recursos são contempladas para uso em muitas das modalidades aqui divulgadas. Em algumas modalidades, os adaptadores fornecidos podem ser ou compreender uma ou mais sequências complementares ou pelo menos parcialmente complementares aos iniciadores de PCR (por exemplo, sítios de iniciação) que possuem pelo menos uma das seguintes propriedades: 1) alta especificidade de alvo; 2) capaz de ser multiplexado; e 3) exibem amplificação robusta e minimamente tendenciosa.
[0095] Em algumas modalidades, as moléculas adaptadoras podem ter a forma de “Y”, a forma de “U”, a forma de “hairpin”, ter uma bolha (por exemplo, uma porção da sequência que não é complementar) ou outros recursos. Em outras modalidades, as moléculas adaptadoras podem compreender uma forma de "Y", uma forma de "U", uma forma de "hairpin" ou uma bolha. Certos adaptadores podem compreender nucleotídeos modificados ou não padronizados, sítios de restrição ou outros recursos para manipulação da estrutura ou função in vitro. As moléculas adaptadoras podem se ligar a uma variedade de material de ácido nucleico com uma extremidade terminal. Por exemplo, as moléculas adaptadoras podem ser adaptadas para se ligarem a um excesso de T, um excesso de A, um excesso de CG, um excesso de múltiplos nucleotídeos, uma base desidroxilada, uma extremidade cega de um material de ácido nucleico e a extremidade de uma molécula onde o 5' do alvo é desfosforilado ou de outro modo bloqueado da ligação tradicional. Em outras modalidades, a molécula adaptadora pode conter uma modificação desfosforilada ou de outra forma impedidora de ligação na fita 5' no sítio da ligação. Nas duas últimas modalidades, tais estratégias podem ser úteis para prevenir a dimerização de fragmentos da biblioteca ou moléculas adaptadoras.
[0096] Uma sequência adaptadora pode significar uma sequência de fita única, uma sequência de fita dupla, uma sequência complementar, uma sequência não complementar, uma sequência parcial complementar, uma sequência assimétrica, uma sequência de ligação ao iniciador, uma sequência de células de fluxo, uma sequência de ligação ou outra sequência fornecida por uma molécula adaptadora. Em modalidades particulares, uma sequência adaptadora pode significar uma sequência usada para amplificação por meio de complemento a um oligonucleotídeo.
[0097] Em algumas modalidades, os métodos e composições fornecidos incluem pelo menos uma sequência adaptadora (por exemplo, duas sequências adaptadoras, uma em cada uma das extremidades 5' e 3' de um material de ácido nucleico). Em algumas modalidades, os métodos e composições fornecidos podem compreender 2 ou mais sequências adaptadoras (por exemplo, 3, 4, 5, 6, 7, 8, 9, 10 ou mais). Em algumas modalidades, pelo menos duas das sequências adaptadoras diferem uma da outra (por exemplo, por sequência). Em algumas modalidades, cada sequência adaptadora difere uma da outra sequência adaptadora (por exemplo, por sequência). Em algumas modalidades, pelo menos uma sequência adaptadora é pelo menos parcialmente não complementar a pelo menos uma porção de pelo menos uma outra sequência adaptadora (por exemplo, não é complementar por pelo menos um nucleotídeo).
[0098] Em algumas modalidades, uma sequência adaptadora compreende pelo menos um nucleotídeo não padrão. Em algumas modalidades, um nucleotídeo não padrão é selecionado de um sítio abásico, um uracil, tetra-hidrofurano, 8-oxo-7,8-di-hidro-2'deoxiadenosina (8-oxo-A), 8- oxo-7,8- di-hidro-2'-desoxiguananosina (8-oxo-G), desoxinossina, 5'nitroindol, 5-hidroximetil-2'- desoxicitidina, iso-citosina, 5'-metil-isocitosina ou isoguanosina, um nucleotídeo metilado, um RNA nucleotídeo, um nucleotídeo ribose, um 8-oxo-guanina, um ligante fotoclivável, um nucleotídeo biotinilado, um nucleotídeo de destiobiotina, um nucleotídeo modificado por tiol, um nucleotídeo modificado por acridito um iso-dC, um iso dG, um nucleotídeo 2'-O-metil , um Ácido Nucleico Bloqueado de nucleotídeo de inosina, um ácido nucleico de peptídeo, um 5 metil dC, um 5-bromo desoxiuridina, um nucleotídeo de 2,6-Diaminopurina, 2-Aminopurina, um nucleotídeo abásico, um nucleotídeo de 5-Nitroindol, um nucleotídeo adenilado, um nucleotídeo de azida, um nucleotídeo de digoxigenina, um ligante I, um nucleotídeo modificado em 5' Hexinil, um 5-Octadi- inil dU, espaçador foto-clivável, um espaçador não fotoclivável, um nucleotídeo modificado compatível com química de cliques e qualquer combinação dos mesmos.
[0099] Em algumas modalidades, uma sequência adaptadora compreende uma fração com uma propriedade magnética (isto é, uma fração magnética). Em algumas modalidades, essa propriedade magnética é paramagnética. Em algumas modalidades em que uma sequência adaptadora compreende uma fração magnética (por exemplo, um material de ácido nucleico ligado a uma sequência adaptadora compreendendo uma fração magnética), quando um campo magnético é aplicado, uma sequência adaptadora compreendendo uma fração magnética é substancialmente separada das sequências adaptadoras que não compreendem uma fração magnética (por exemplo, um material de ácido nucleico ligado a uma sequência adaptadora que não compreende uma fração magnética).
[00100] Em algumas modalidades, pelo menos uma sequência adaptadora está localizada 5' para um SMI. Em algumas modalidades, pelo menos uma sequência adaptadora está localizada 3' para um SMI.
[00101] Em algumas modalidades, uma sequência adaptadora pode ser ligada a pelo menos um dentre um SMI e um material de ácido nucleico por meio de um ou mais domínios ligantes. Em algumas modalidades, um domínio ligante pode ser constituído por nucleotídeos. Em algumas modalidades, um domínio ligante pode incluir pelo menos uma molécula nucleotídica ou não nucleotídica modificada (por exemplo, como descrito em outra parte desta divulgação). Em algumas modalidades, um domínio ligante pode ser ou compreender uma alça.
[00102] Em algumas modalidades, uma sequência adaptadora em uma ou em ambas as extremidades de cada fita de um material de ácido nucleico de fita dupla pode incluir ainda um ou mais elementos que fornecem um SDE. Em algumas modalidades, uma SDE pode ser ou compreender sítios primários assimétricos compreendidos nas sequências adaptadoras.
[00103] Em algumas modalidades, uma sequência adaptadora pode ser ou compreender pelo menos um SDE e pelo menos um domínio de ligação (isto é, um domínio alterável à atividade de pelo menos uma ligase, por exemplo, um domínio adequado para a ligação a um material de ácido nucleico através da atividade de uma ligase). Em algumas modalidades, de 5' a 3', uma sequência adaptadora pode ser ou compreender um sítio de ligação ao iniciador, um SDE e um domínio de ligação.
[00104] Vários métodos para sintetizar adaptadores de Sequenciamento Duplex foram descritos anteriormente em, por exemplo, Patente U.S. 9.752.188, Publicação Internacional de Patente WO2017 / 100441 e Pedido de Patente Internacional PCT / US18 / 59908 (depositado em 8 de novembro de 2018), todos incorporados por referência aqui na íntegra. Iniciadores
[00105] Em algumas modalidades, um ou mais iniciadores de PCR que possuem pelo menos uma das seguintes propriedades: 1) alta especificidade de alvo; 2) capaz de ser multiplexado; e 3) exibir amplificação robusta e minimamente tendenciosa são contemplados para uso em várias modalidades, de acordo com aspectos da presente tecnologia. Vários estudos anteriores e produtos comerciais projetaram misturas de iniciadores que atendem a alguns desses critérios para a PCR-CE convencional. No entanto, observou-se que essas misturas de iniciadores nem sempre são ideais para uso com MPS. De fato, o desenvolvimento de misturas de iniciadores altamente multiplexados pode ser um processo desafiador e demorado. Convenientemente, a Illumina e a Promega desenvolveram recentemente misturas de iniciadores compatíveis com multiplex para a plataforma Illumina, que mostram amplificação robusta e eficiente de uma variedade de loci STR e SNP padrão e não padrão. Uma vez que estes kits utilizam PCR para amplificar as suas regiões alvo antes do sequenciamento, a extremidade 5' de cada leitura nos dados de sequenciamento na extremidade pareada corresponde à extremidade 5' dos iniciadores de PCR utilizados para amplificar o DNA. Em algumas modalidades, os métodos e composições fornecidos incluem iniciadores projetados para garantir amplificação uniforme, o que pode implicar concentrações variáveis de reação, temperaturas de fusão e minimização da estrutura secundária e interações intra / inter-iniciador. Muitas técnicas foram descritas para otimização de iniciador altamente multiplexado para aplicações MPS, tais como, por exemplo, técnicas são frequentemente conhecidas como métodos ampliseq, que são descritos na técnica. Amplificação
[00106] Os métodos e composições fornecidos, em várias modalidades, fazem uso de, ou são úteis em, pelo menos uma etapa de amplificação, em que um material de ácido nucleico (ou uma porção do mesmo, por exemplo, uma região ou locis alvo específico) é amplificado para formar um material de ácido nucleico amplificado (por exemplo, algum número de produtos de amplicons).
[00107] Em algumas modalidades, a amplificação de um material de ácido nucleico inclui uma etapa de amplificação do material de ácido nucleico derivado de cada um de uma primeira e uma segunda fita de ácido nucleico de um material original de ácido nucleico de fita dupla usando pelo menos um oligonucleotídeo de fita única pelo menos parcialmente complementar a uma sequência presente em uma primeira sequência adaptadora, de modo que uma sequência SMI seja pelo menos parcialmente mantida. Uma etapa de amplificação inclui ainda empregar um segundo oligonucleotídeo de fita única para amplificar cada fita de interesse, e esse segundo oligonucleotídeo de fita única pode ser (a) pelo menos parcialmente complementar a uma sequência de interesse alvo, ou (b) pelo menos parcialmente complementar a uma sequência presente em uma segunda sequência adaptadora de modo que o pelo menos um oligonucleotídeo de fita única e um segundo oligonucleotídeo de fita única sejam orientados de maneira a amplificar efetivamente o material de ácido nucleico.
[00108] Em algumas modalidades, a amplificação do material de ácido nucleico em uma amostra pode incluir amplificar o material de ácido nucleico em "tubos" (por exemplo, tubos de PCR), em gotículas de emulsão, microcâmaras e outros exemplos descritos acima ou em outros recipientes conhecidos.
[00109] Em algumas modalidades, pelo menos uma etapa de amplificação inclui pelo menos um iniciador que é ou compreende pelo menos um nucleotídeo não padrão. Em algumas modalidades, um nucleotídeo não padrão é selecionado de um uracil, um nucleotídeo metilado, um nucleotídeo de RNA, um nucleotídeo ribose, uma 8-oxo-guanina, um nucleotídeo biotinilado, um ácido nucleico bloqueado, um ácido nucleico peptídico, uma variante de ácido nucleico de alta Tm, uma variante de ácido nucleico discriminador de alelo, qualquer outra variante nucleotídica ou de ligante descrita em outra parte deste documento e qualquer combinação dos mesmos.
[00110] Embora qualquer reação de amplificação apropriada para aplicação seja contemplada como compatível com algumas modalidades, a título de exemplo específico, em algumas modalidades, uma etapa de amplificação pode ser ou compreender uma reação em cadeia da polimerase (PCR), amplificação de círculo rolante (RCA), amplificação de deslocamento múltiplo (MDA), amplificação isotérmica, amplificação de polônio dentro de uma emulsão, amplificação de ponte em uma superfície, a superfície de uma esfera ou dentro de um hidrogel e qualquer combinação das mesmas.
[00111] Em algumas modalidades, a amplificação de um material de ácido nucleico inclui utilizar oligonucleotídeos de fita simples, pelo menos parcialmente complementares às regiões das sequências adaptadoras nas extremidades 5' e 3' de cada fita do material de ácido nucleico. Em algumas modalidades, a amplificação de um material de ácido nucleico inclui utilizar pelo menos um oligonucleotídeo de fita simples, pelo menos parcialmente complementar a uma região alvo ou uma sequência alvo de interesse (por exemplo, uma sequência genômica, uma sequência mitocondrial, uma sequência plasmídica, um ácido nucleico alvo produzido sinteticamente, etc.) e um oligonucleotídeo de fita única, pelo menos parcialmente complementar a uma região da sequência adaptadora (por exemplo, um sítio de iniciação).
[00112] Em geral, a amplificação robusta, por exemplo, a amplificação por PCR, pode ser altamente dependente das condições da reação. A PCR multiplex, por exemplo, pode ser sensível à composição do tampão, concentração de cátion monovalente ou divalente, concentração de detergente, concentração de agente de aglomeração (por exemplo, PEG, glicerol, etc.), concentração de iniciador, Tms do iniciador, design do iniciador, teor de GC do iniciador, propriedades nucleotídicas modificadas por iniciador e condições de ciclagem (isto é, tempos de temperatura e extensão e taxa de alterações de temperatura). A otimização das condições de tampão pode ser um processo difícil e demorado. Em algumas modalidades, uma reação de amplificação pode usar pelo menos um de um tampão, concentração do conjunto de iniciadores e condições de PCR de acordo com um protocolo de amplificação conhecido anteriormente. Em algumas modalidades, um novo protocolo de amplificação pode ser criado e / ou uma otimização da reação de amplificação pode ser usada. A título de exemplo específico, em algumas modalidades, um kit de otimização de PCR pode ser usado, como um Kit de Otimização de PCR da Promega®, que contém vários tampões pré-formulados que são parcialmente otimizados para uma variedade de aplicações de PCR, como amplificações multiplex, em tempo real, ricas em GC e resistentes a inibidores. Esses tampões pré-formulados podem ser rapidamente suplementados com diferentes concentrações de Mg2+ e iniciadores, bem como razões de grupo de iniciadores. Além disso, em algumas modalidades, uma variedade de condições de ciclagem (por exemplo, ciclagem térmica) pode ser avaliada e / ou usada. Ao avaliar se uma modalidade específica é apropriada ou não para uma aplicação desejada específica, podem ser avaliadas uma ou mais especificidades, a razão de cobertura de alelos para loci heterozigotos, equilíbrio entre focos e profundidade, entre outros aspectos. As medições do sucesso da amplificação podem incluir sequenciamento de DNA dos produtos, avaliação de produtos por eletroforese em gel ou capilar ou HPLC ou outros métodos de separação por tamanho, seguidos de visualização de fragmentos, análise da curva de fusão usando corantes de ligação de ácido nucleico de fita dupla ou sondas fluorescentes, espectrometria de massa ou outros métodos conhecidos na técnica.
[00113] De acordo com várias modalidades, qualquer um de uma variedade de fatores pode influenciar o comprimento de uma etapa de amplificação específica (por exemplo, o número de ciclos em uma reação de PCR, etc.). Por exemplo, em algumas modalidades, um material de ácido nucleico fornecido pode ser comprometido ou de outro modo subideal (por exemplo, degradado e / ou contaminado). Nesse caso, uma etapa de amplificação mais longa pode ser útil para garantir que um produto desejado seja amplificado em um grau aceitável. Em algumas modalidades, uma etapa de amplificação pode fornecer uma média de 3 a 10 cópias de PCR sequenciadas de cada molécula de DNA inicial, embora em outras modalidades, apenas uma cópia de cada uma da primeiras fita e da segunda fita seja necessária. Sem desejar se apegar a uma teoria específica, é possível que muitas ou poucas cópias de PCR possam resultar em eficiência de ensaio reduzida e, finalmente, profundidade reduzida. Geralmente, o número de fragmentos de ácido nucleico (por exemplo, DNA) usados em uma reação de amplificação (por exemplo, PCR) é uma variável ajustável primária que pode ditar o número de leituras que compartilham a mesma sequência SMI / código de barras. Material de ácido nucleico Tipos
[00114] De acordo com várias modalidades, qualquer um de uma variedade de material de ácido nucleico pode ser usado. Em algumas modalidades, o material de ácido nucleico pode compreender pelo menos uma modificação em um polinucleotídeo dentro da espinha dorsal canônica de açúcar-fosfato. Em algumas modalidades, o material de ácido nucleico pode compreender pelo menos uma modificação dentro de qualquer base no material de ácido nucleico. Por exemplo, a título de exemplo não limitativo, em algumas modalidades, o material de ácido nucleico é ou compreende pelo menos um de DNA de fita dupla, DNA de fita única, RNA de fita dupla, RNA de fita dupla, RNA de fita simples, ácidos nucleicos de peptídeo (PNAs), ácidos nucleicos bloqueados (LNAs). Modificações
[00115] De acordo com várias modalidades, o material de ácido nucleico pode receber uma ou mais modificações antes, substancialmente simultaneamente ou subsequentemente a qualquer etapa específica, dependendo da aplicação para a qual um método ou composição fornecida específica é usada.
[00116] Em algumas modalidades, uma modificação pode ser ou compreender reparo de pelo menos uma porção do material de ácido nucleico. Embora qualquer maneira apropriada de aplicação de reparo de ácido nucleico seja contemplada como compatível com algumas modalidades, certos métodos e composições exemplificativas são, portanto, descritos abaixo e nos Exemplos.
[00117] A título de exemplo não limitativo, em algumas modalidades, enzimas de reparo de DNA, como Uracil-DNA Glicosilase (UDG), Formamidopirimidina DNA glicosilase (FPG) e 8-oxoguanina DNA glicosilase (OGG1), podem ser utilizadas para corrigir danos ao DNA (por exemplo, danos ao DNA in vitro). Como discutido acima, essas enzimas de reparo do DNA, por exemplo, são glicosilases que removem bases danificadas do DNA. Por exemplo, o UDG remove o uracil resultante da desaminação da citosina (causada pela hidrólise espontânea da citosina) e o FPG remove a 8-oxo-guanina (por exemplo, a lesão de DNA mais comum resultante de espécies reativas de oxigênio). O FPG também possui atividade de liase que pode gerar folga de 1 base em sítios abásicos. Tais sítios abásico falham subsequentemente em amplificar por PCR, por exemplo, porque a polimerase falha em copiar o modelo. Consequentemente, o uso de tais enzimas de reparo de danos ao DNA pode remover efetivamente o DNA danificado que não possui uma mutação verdadeira, mas que pode ser detectado como um erro após a sequência e a análise de sequência duplex.
[00118] Como discutido acima, em outras modalidades, as leituras de sequenciamento geradas a partir das etapas de processamento discutidas aqui podem ser filtradas ainda mais para eliminar falsas mutações aparando as extremidades das leituras mais propensas a artefatos. Por exemplo, a fragmentação do DNA pode gerar porções de fita única nas extremidades terminais da molécula de fita dupla. Essas porções de fita única podem ser preenchidas (por exemplo, por Klenow) durante o reparo final. Em alguns casos, as polimerases cometem erros de cópia nessas regiões reparadas finais, levando à geração de "moléculas pseudoduplex". Esses artefatos podem parecer verdadeiras mutações uma vez sequenciadas. Esses erros, como resultado de mecanismos de reparo final, podem ser eliminados da análise pós-sequenciamento aparando as extremidades das leituras de sequenciamento para excluir quaisquer mutações que possam ter ocorrido, reduzindo assim o número de falsas mutações. Em algumas modalidades, esse corte de leituras de sequenciamento pode ser realizado automaticamente (por exemplo, uma etapa normal do processo). Em algumas modalidades, uma frequência mutante pode ser avaliada para regiões terminais do fragmento e se um nível limiar de mutações for observado nas regiões terminais do fragmento, o corte de leitura de sequenciamento pode ser realizado antes de gerar uma leitura de sequência de consenso de fita dupla dos fragmentos de DNA.
[00119] O alto grau de correção de erros fornecido pela tecnologia de comparação de fitas de Sequenciamento Duplex reduz os erros de sequenciamento de moléculas de ácido nucleico de fita dupla em várias ordens de magnitude em comparação com os métodos padrão de sequenciamento de próxima geração. Esta redução nos erros melhora a precisão do sequenciamento em quase todos os tipos de sequências, mas pode ser particularmente adequada para sequências bioquimicamente desafiadoras que são bem conhecidas na técnica por serem particularmente propensas a erros. Um exemplo não limitativo desse tipo de sequência são os homopolímeros ou outros microssatélites / repetições em tandem curto. Outro exemplo não limitativo de sequências propensas a erros que se beneficiam da correção de erros de Sequenciamento Duplex são moléculas danificadas, por exemplo, por aquecimento, radiação, tensão mecânica ou uma variedade de exposições químicas que criam adutos químicos propensos a erros durante a cópia por uma ou mais polimerases de nucleotídeos. Em outras modalidades, o Sequenciamento Duplex também pode ser usado para a detecção precisa de variantes de sequência minoritária entre uma população de moléculas de ácido nucleico de fita dupla. Um exemplo não limitativo desta aplicação é a detecção de um pequeno número de moléculas de DNA derivadas de um câncer, dentre um número maior de moléculas não mutadas de tecidos não cancerígenos dentro de um sujeito. Outra aplicação não limitativa para a detecção de variantes raras por Sequenciamento Duplex é a detecção forense do DNA de um indivíduo misturado em baixa abundância com o DNA de outro indivíduo de um genótipo diferente. III. Modalidades selecionadas de métodos para resolver misturas de ácido nucleico e populações de células mistas
[00120] O problema de identificar e medir genótipos em uma amostra mista ocorre em diversos campos, incluindo forense e terapias baseadas em células (por exemplo, transplantes de células-tronco). De acordo com aspectos da presente tecnologia, o Sequenciamento Duplex pode ser usado para deconvolver e identificar genótipos específicos da fonte presentes em misturas nucleicas. Em modalidades particulares, o Sequenciamento Duplex é usado para identificar micro- haplótipos presentes em moléculas de ácido nucleico individuais presentes em misturas de amostras biológicas. Em algumas modalidades, os micro-haplótipos são usados para deconvolver misturas complexas de múltiplos genótipos.
[00121] Micro-haplótipos são pequenos loci genômicos compreendendo dois ou mais SNPs de DNA genômico não redundantes dentro de uma distância relativamente curta um do outro (por exemplo, < 200 nucleotídeos, < 250 nucleotídeos, < 300 nucleotídeos, < 350 nucleotídeos ou mais) que são geralmente definidos como grupos de loci polimórficos que pode ser compreendido no mesmo par de leitura ou leitura ou uma leitura de sequenciamento. A genotipagem pode ser alcançada usando sequenciamento de DNA de próxima geração (NGS), sequenciamento de sanger, sequenciamento massivamente paralelo, sequenciamento de nanopore,
sequenciamento de molécula única, sequenciamento por hibridação ou outros métodos relacionados. O comprimento de uma região não é puramente definido por um comprimento de nucleotídeos, mas, em vez disso, uma sequência que pode ser genotipada como uma unidade "em fases" em qualquer plataforma de genotipagem usada. Com muitas plataformas NGS contemporâneas, como, por exemplo, fabricado pela Illumina, Inc. (San Diego, CA, EUA) ou Thermo Fisher Scientific, Inc. (Waltham, MA, EUA), comprimentos de leitura / comprimentos de leitura pareados são da ordem de dezenas a centenas de nucleotídeos. Esses comprimentos são tamanhos práticos para micro-haplótipos com essas plataformas. Para tecnologias de leitura de sequência mais longa, como sequenciadores fabricados por, por exemplo, Pacific Biosciences of California, Inc. (Menlo Park, CA, EUA) e Oxford Nanopore Technologies, Ltd. (Oxford, Reino Unido), o comprimento praticamente utilizável dos micro-haplótipos é consideravelmente maior. Para os exemplos abaixo, micro-haplótipos da ordem de dezenas a várias centenas de nucleotídeos de comprimento são mostrados por uma questão de clareza e praticidade, mas isso não deve ser interpretado como uma limitação geral. Os micro-haplótipos podem ter de 3 a 14 ou mais alelos distintos ou combinações alélicas. Esses loci multialélicos podem ser especialmente informativos no contexto de misturas de muitos componentes. O Sequenciamento Duplex pode resolver variantes raras que são ocultadas pelas taxas de erro de sequenciamento de próxima geração (NGS) padrão e métodos de sequenciamento de consenso de fita simples de uma maneira que permite a detecção de micro-haplótipos, mesmo quando genótipos específicos estão presentes em níveis muito baixos dentro uma mistura biológica. Um dado micro-haplótipo pode ter apenas zero polimorfismos individuais "informativos" para uma determinada mistura (ou seja, não há diferenças entre os micro-haplótipos entre as moléculas de DNA na mistura de diferentes indivíduos), ou vários polimorfismos individuais (por exemplo, pelo menos cerca de 2 , 3, 4, 5, 6, 7, 8, 9, 10, 11. 12, 15, 20, 24 ou mais). O número de genótipos de micro-haplótipos compósitos pode ser vários (por exemplo, maior que 10, maior que 20, maior que 30, etc.), mas, da mesma forma, pode ou não ser informativo para uma determinada mistura se os sujeitos constituintes da mistura não forem suficientemente geneticamente diferentes.
[00122] Em algumas modalidades, aspectos da presente tecnologia são usados para detectar e quantificar genótipos presentes em uma amostra biológica a um nível de cerca de 1 /
100.000 partes em uma mistura. Outros aspectos da presente tecnologia podem quantificar com precisão as proporções de mistura de vários genótipos conhecidos (por exemplo, cerca de 5, cerca de 10, cerca de 12, cerca de 15, cerca de 20, cerca de 25, cerca de 30, cerca de 35, cerca de 40, cerca de 45, cerca de 50, etc.). Em outras modalidades, os aspectos da presente tecnologia podem ser usados para deconvolver misturas de pelo menos cerca de 5 (por exemplo, cerca de 2, cerca de 3, cerca de 4, cerca de 5, cerca de 6, etc.) genótipos desconhecidos (por exemplo, sem conhecimento empírico ou a priori dos números ou das fontes genéticas presentes em uma amostra biológica. Ainda outros aspectos da presente tecnologia podem ser usados para recuperar parcialmente genótipos de fontes de abundância extremamente baixa em uma mistura. Por exemplo, tais modalidades são úteis em aplicações forenses, análise de microquimerismo (por exemplo, microquimerismo fetal), medição de células enxertadas em um hospedeiro (por exemplo, após transplante de células-tronco) e outros. As modalidades adicionais são direcionadas à identificação de sujeitos de um banco de dados em misturas complexas (por exemplo, até pelo menos cerca de 8 genótipos individuais). IV. Modalidades de Sistemas e Ambientes de Computação para Deconvolução de Misturas Complexas de Genótipos Ambientes de computação adequados
[00123] A discussão a seguir fornece uma descrição geral de um ambiente de computação adequado no qual aspectos da divulgação podem ser implementados. Embora não sejam necessários, aspectos e modalidades da divulgação serão descritos no contexto geral de instruções executáveis por computador, como rotinas executadas por um computador de uso geral, por exemplo, um servidor ou computador pessoal. Os versados na técnica relevante apreciarão que a divulgação pode ser praticada com outras configurações de sistema de computador, incluindo dispositivos de Internet, dispositivos portáteis, computadores portáteis, telefones celulares ou móveis, sistemas multiprocessadores, eletrônicos de consumo programáveis ou baseados em microprocessadores, decodificadores, PCs de rede, mini-computadores, computadores mainframe e semelhantes. A divulgação pode ser incorporada em um computador para fins especiais ou processador de dados que é especificamente programado, configurado ou construído para executar uma ou mais das instruções executáveis por computador explicadas em detalhes abaixo. De fato, o termo "computador", como geralmente utilizado neste documento, refere-se a qualquer um dos dispositivos acima, bem como a qualquer processador de dados.
[00124] A divulgação também pode ser praticada em ambientes de computação distribuídos, onde tarefas ou módulos são executados por dispositivos de processamento remoto, que são ligados por meio de uma rede de comunicações, como Rede de Área Local ("LAN"), Rede de Área Ampla ("WAN") ou a Internet. Em um ambiente de computação distribuída, os módulos do programa ou sub-rotinas podem estar localizados em dispositivos de armazenamento de memória locais e remotos. Aspectos da divulgação descrita abaixo podem ser armazenados ou distribuídos em meio legível por computador, incluindo discos magnéticos e opticamente legíveis e removíveis, armazenados como firmware em chips (por exemplo, chips EEPROM), bem como distribuídos eletronicamente pela Internet ou por outras redes (incluindo redes sem fio). Os versados na técnica relevante reconhecerão que porções da divulgação podem residir em um computador servidor, enquanto as porções correspondentes residem em um computador cliente. As estruturas de dados e a transmissão de dados específicos para aspectos da divulgação também estão incluídas no escopo da divulgação.
[00125] Modalidades de computadores, como um computador pessoal ou estação de trabalho, podem compreender um ou mais processadores acoplados a um ou mais dispositivos de entrada do usuário e dispositivos de armazenamento de dados. Um computador também pode ser acoplado a pelo menos um dispositivo de saída, como um dispositivo de exibição e um ou mais dispositivos de saída adicionais opcionais (por exemplo, impressora, plotadora, alto-falantes, dispositivos de saída táteis ou olfativos, etc.). O computador pode ser acoplado a computadores externos, como uma conexão de rede opcional, um transceptor sem fio ou ambos.
[00126] Vários dispositivos de entrada podem incluir um teclado e / ou um dispositivo apontador, como um mouse. Outros dispositivos de entrada são possíveis, como microfone, joystick, caneta, tela sensível ao toque, scanner, câmera digital, câmera de vídeo e semelhantes. Outros dispositivos de entrada podem incluir máquinas de sequenciamento (por exemplo, sequenciador massivamente paralelo), fluoroscópios e outros equipamentos de laboratório, etc. Os dispositivos de armazenamento de dados adequados podem incluir qualquer tipo de meio legível por computador que pode armazenar dados acessíveis pelo computador, como unidades magnéticas de disco rígido e de disquete, unidades de disco óptico, cassetes magnéticas, unidades de fita, cartões de memória flash, discos de vídeo digital (DVDs), Cartuchos Bernoulli, RAMs, ROMs, cartões inteligentes etc. De fato, qualquer meio para armazenar ou transmitir instruções e dados legíveis por computador pode ser empregado, incluindo uma porta de conexão ou nó em uma rede como uma rede de área local (LAN), rede de área ampla (WAN) ou a Internet.
[00127] Aspectos da divulgação podem ser praticados em uma variedade de outros ambientes de computação. Por exemplo, um ambiente de computação distribuído com uma interface de rede pode incluir um ou mais computadores de usuário em um sistema em que eles podem incluir um módulo de programa de navegador que permite ao computador acessar e trocar dados com a Internet, incluindo sites na porção World Wide Web da Internet. Os computadores dos usuários podem incluir outros módulos de programas, como um sistema operacional, um ou mais programas aplicativos (por exemplo, aplicativos de processamento de texto ou planilha) e semelhantes. Os computadores podem ser dispositivos de uso geral que podem ser programados para executar vários tipos de aplicativos ou podem ser dispositivos de uso único otimizados ou limitados a uma função ou classe de funções específica. Mais importante, enquanto mostrado nos navegadores de rede, qualquer programa aplicativo para fornecer uma interface gráfica do usuário aos usuários pode ser empregado, conforme descrito em detalhes abaixo; o uso de um navegador da web e uma interface da web são usados apenas como um exemplo familiar neste documento.
[00128] Pelo menos um computador servidor, acoplado à Internet ou à World Wide Web (“Web”), pode executar muitas ou todas as funções para receber, rotear e armazenar mensagens eletrônicas, como páginas da Web, fluxos de dados, sinais de áudio e imagens eletrônicas aqui descritas. Enquanto a Internet é mostrada, uma rede privada, como uma intranet, pode ser preferida em alguns aplicativos. A rede pode ter uma arquitetura cliente-servidor, na qual um computador é dedicado a servir outros computadores clientes, ou pode ter outras arquiteturas, como ponto a ponto, nas quais um ou mais computadores servem simultaneamente como servidores e clientes. Um banco de dados ou bancos de dados, acoplados ao(s) computador(es) servidor(es), podem armazenar grande parte das páginas da web e do conteúdo trocado entre os computadores dos usuários. O(s) computador(es) do servidor, incluindo o(s) banco(s) de dados, pode(m) empregar medidas de segurança para inibir ataques maliciosos no sistema e preservar a integridade das mensagens e dados armazenados nele (por exemplo, sistemas de firewall, SSL (Secure Socket Layer), esquemas de proteção por senha, criptografia e semelhantes).
[00129] Um computador servidor adequado pode incluir um mecanismo de servidor, um componente de gerenciamento de páginas da web, um componente de gerenciamento de conteúdo e um componente de gerenciamento de banco de dados, entre outros recursos. O mecanismo do servidor executa tarefas básicas de processamento e nível de sistema operacional. O componente de gerenciamento de páginas da web lida com a criação e exibição ou roteamento de páginas da web. Os usuários podem acessar o computador servidor por meio de um URL associado a ele. O componente de gerenciamento de conteúdo lida com a maioria das funções nas modalidades descritas neste documento. O componente de gerenciamento de banco de dados inclui tarefas de armazenamento e recuperação com relação ao banco de dados, consultas ao banco de dados, funções de leitura e gravação no banco de dados e armazenamento de dados como sinais de vídeo, gráficos e áudio.
[00130] Muitas das unidades funcionais descritas aqui foram rotuladas como módulos, a fim de enfatizar mais particularmente sua independência de implementação. Por exemplo, os módulos podem ser implementados em software para execução por vários tipos de processadores. Um módulo identificado de código executável pode, por exemplo, compreender um ou mais blocos físicos ou lógicos de instruções de computador que podem, por exemplo, ser organizadas como um objeto, procedimento ou função. Os blocos identificados de instruções do computador não precisam ser localizados fisicamente juntos, mas podem compreender instruções díspares armazenadas em diferentes locais que, quando unidos logicamente, compreendem o módulo e atingem o objetivo declarado para o módulo.
[00131] Um módulo também pode ser implementado como um circuito de hardware que compreende circuitos VLSI personalizados ou matrizes de portas, semicondutores prontos para uso, como chips lógicos, transistores ou outros componentes distintos. Um módulo também pode ser implementado em dispositivos de hardware programáveis, como matrizes de portas programáveis em campo, lógica de matriz programável, dispositivos de lógica programável ou semelhantes.
[00132] Um módulo de código executável pode ser uma única instrução, ou muitas instruções, e pode até ser distribuído por vários segmentos de código diferentes, entre diferentes programas e por vários dispositivos de memória. Da mesma forma, os dados operacionais podem ser identificados e ilustrados aqui dentro de módulos e podem ser incorporados em qualquer forma adequada e organizados dentro de qualquer tipo adequado de estrutura de dados. Os dados operacionais podem ser coletados como um único conjunto de dados, ou podem ser distribuídos em diferentes locais, incluindo diferentes dispositivos de armazenamento, e podem existir, pelo menos parcialmente, apenas como sinais eletrônicos em um sistema ou rede. Sistema para deconvolução de misturas de ácido nucleico
[00133] A presente invenção compreende ainda um sistema (por exemplo, um sistema de computador em rede, um sistema automatizado de alto rendimento, etc.) para processar uma amostra biológica compreendendo uma mistura de ácido nucleico e transmitir os dados de sequenciamento através de uma rede com fio ou sem fio para um servidor para determinar as leituras de sequência com erros corrigidos da amostra (por exemplo, leituras de sequência duplex, sequência de consenso duplex, etc.), identificação de genótipo, quantificação de genótipos individuais / atribuíveis, etc.
[00134] Conforme descrito em detalhes adicionais abaixo, e em relação à modalidade ilustrada na FIG. 5, um sistema computadorizado para deconvolução de ácidos nucleicos em uma mistura compreende: (1) um servidor (por exemplo, um servidor remoto, ou servidor armazenado localmente); (2) uma pluralidade de dispositivos de computação eletrônicos de usuário capazes de gerar e / ou transmitir dados de sequenciamento; (3) opcionalmente, um banco de dados com genótipos conhecidos e informações associadas (opcional); e (4) uma rede com ou sem fio para transmitir comunicações eletrônicas entre os dispositivos de computação eletrônicos, banco de dados e o servidor. O servidor compreende ainda: (a) um banco de dados que armazena resultados de registros de deconvolução e registros de perfis de genótipo (por exemplo, perfis de micro-haplótipo, etc.); (b) um ou mais processadores acoplados comunicativamente a uma memória; e um ou mais dispositivos ou meios de armazenamento legíveis por computador não transitórios compreendendo instruções para o(s) processador(es), em que os referidos processadores estão configurados para executar as referidas instruções para executar operações compreendendo uma ou mais das etapas descritas nas FIGS. 6-8.
[00135] Em uma modalidade, a presente tecnologia compreende ainda, uma meio de armazenamento legível por computador não transitório compreendendo instruções que, quando executadas por um ou mais processadores, realiza métodos para determinar a presença de um ou mais genótipos em uma mistura, a quantificação de cada genótipo identificado na mistura, a identidade de um sujeito / indivíduo de um banco de dados cujo material genético está presente na mistura, quantificar uma proporção de mistura de vários genótipos conhecidos, deconvolver misturas de vários genótipos desconhecidos e semelhantes. Em modalidades particulares, os métodos podem incluir uma ou mais das etapas descritas nas FIGS. 6-8.
[00136] Aspectos adicionais da presente tecnologia são direcionados a métodos computadorizados para determinar a presença de um ou mais genótipos em uma mistura, a quantificação de cada genótipo identificado na mistura, a identidade de um sujeito / indivíduo de um banco de dados cujo material genético está presente na mistura, quantificar uma proporção de mistura de múltiplos genótipos conhecidos, deconvolver misturas de múltiplos genótipos desconhecidos e semelhantes. Em modalidades particulares, os métodos podem incluir uma ou mais das etapas descritas nas FIGS. 6-8.
[00137] A FIG. 5 é um diagrama de blocos de um sistema de computador 500 com um produto de programa de computador 550 instalado no mesmo e para uso com os métodos divulgados neste documento para deconvolver misturas de ácido nucleico de amostras biológicas. Embora a FIG. 5 ilustre vários componentes do sistema de computação, é contemplado que outros ou diferentes componentes conhecidos dos versados na técnica, como os discutidos acima, podem fornecer um ambiente de computação adequado no qual aspectos da divulgação podem ser implementados. A FIG. 6 é um diagrama de fluxo que ilustra uma rotina para fornecer dados de sequência de consenso de Sequenciamento Duplex de acordo com uma modalidade da presente tecnologia. As FIGS. 7-8 são diagramas de fluxo que ilustram várias rotinas para identificar e / ou quantificar genótipos de misturas de ácido nucleico. De acordo com aspectos da presente tecnologia, métodos descritos em relação às FIGS. 7-8 pode fornecer dados de amostra incluindo, por exemplo, genótipos presentes em uma amostra, incluindo o número de fontes biológicas independentes representadas na amostra e quantificação de cada fonte biológica presente em uma mistura biológica e informações derivadas de comparação de dados de amostra para conjuntos de dados de genótipos conhecidos (incluindo bancos de dados compreendendo genótipos de sujeitos individuais).
[00138] Conforme ilustrado na FIG. 5, o sistema de computador 500 pode compreender uma pluralidade de dispositivos de computação de usuário 502, 504; uma rede com fio ou sem fio 510 e um servidor (servidor “DupSeq™”) 540 compreendendo processadores para analisar micro-haplótipos e deconvolver misturas de ácido nucleico em genótipos individuais. Nas modalidades, os dispositivos de computação do usuário 502, 504 podem ser usados para gerar e /
ou transmitir dados de sequenciamento. Em uma modalidade, os usuários dos dispositivos de computação 502, 504 podem ser aqueles que executam outros aspectos da presente tecnologia, como etapas do método de Sequenciamento Duplex de amostras biológicas para a deconvolução de misturas de ácido nucleico compreendendo mais de uma fonte biológica de material genético. Em um exemplo, os usuários dos dispositivos de computação 502, 504, executam certas etapas do método de Sequenciamento Duplex com um kit (1,2) compreendendo reagentes e / ou adaptadores, de acordo com uma modalidade da presente tecnologia, para interrogar amostras biológicas.
[00139] Como ilustrado, cada dispositivo de computação de usuário 502, 504, inclui pelo menos uma unidade de processamento central 506, uma memória 507 e uma interface de usuário e rede 508. Em uma modalidade, os dispositivos de usuário 502, 504 compreendem um desktop, laptop ou tablet.
[00140] Embora dois dispositivos de computação do usuário 502, 504 estejam representados, é contemplado que qualquer número de dispositivos de computação do usuário possa ser incluído ou conectado a outros componentes do sistema 500. Além disso, os dispositivos de computação 502, 504 também podem ser representativos de uma pluralidade de dispositivos e software usados pelo Usuário (1) e Usuário (2) para amplificar e sequenciar as amostras. Por exemplo, um dispositivo de computação pode uma máquina de sequenciamento (por exemplo, Illumina HiSeq™, Ion Torrent PGM, sequenciador ABI SOLiD™, PacBio RS, Helicos Heliscope™, etc.), uma máquina de PCR em tempo real (por exemplo, ABI 7900, Fluidigm BioMark™, etc.), um instrumento de microarranjo, etc.
[00141] Além dos componentes descritos acima, o sistema 500 pode ainda compreender um banco de dados 530 para armazenar perfis de genótipos e informações associadas. Por exemplo, o banco de dados 530, que pode ser acessível pelo servidor 540, pode compreender registros ou coleções de micro-haplótipos, genótipos de sujeitos conhecidos e proporções de mistura de material de partida (por exemplo, misturas de células). Em um exemplo particular, o banco de dados 530 pode ser um banco de dados de terceiros compreendendo perfis de genótipo
532. Por exemplo, vários bancos de dados forenses compreendendo genótipos de indivíduos conhecidos podem ser consultados para aplicações específicas. Em outra modalidade, o banco de dados pode ser um banco de dados independente 530 (privado ou não privado) hospedado separadamente do servidor 540, ou um banco de dados pode ser hospedado no servidor 540, como o banco de dados 570, que compreende perfis de genótipo derivados empiricamente de 572. Em algumas modalidades, como o sistema 500 é usado para gerar novos perfis de genótipo, os dados gerados a partir do uso do sistema 500 e métodos associados (por exemplo, métodos aqui descritos e, por exemplo, nas FIGS. 6-8), podem ser carregados para o banco de dados 530 e / ou 570 para que perfis de genótipos adicionados 532, 572 possam ser criados para atividades de comparação futuras.
[00142] O servidor 540 pode ser configurado para receber, computar e analisar dados de sequenciamento (por exemplo, arquivos de sequenciamento brutos) e informações relacionadas dos dispositivos de computação do usuário 502, 504 através da rede 510. Os dados brutos de sequenciamento específicos da amostra podem ser calculados localmente usando um produto / módulo de programa de computador (Módulo de Sequência 505) instalado nos dispositivos 502, 504, ou acessível a partir do servidor 540 via rede 510, ou usando outro software de sequenciamento conhecido na técnica. Os dados brutos da sequência podem então ser transmitidos via rede 510 para o servidor 540 e os resultados do usuário 574 podem ser armazenados no banco de dados 570. O servidor 540 também compreende o produto / módulo de programa "Módulo DS"; 512 configurado para receber os dados de sequenciamento brutos do banco de dados 570 e configurado para gerar computacionalmente leituras de sequência de fita dupla com erros corrigidos usando, por exemplo, técnicas de Sequenciamento Duplex aqui divulgadas. Enquanto o DS Module 512 é mostrado no servidor 540, um versado na técnica reconheceria que o DS Module 512 pode alternativamente, ser hospedado em operado nos dispositivos 502, 504 ou em outro servidor (não mostrado).
[00143] O servidor 540 pode compreender pelo menos uma unidade de processamento central (CPU) 560, um usuário e uma interface de rede 562(ou dispositivo de computação dedicado ao servidor com interface conectada ao servidor), um banco de dados 570, tal como descrito acima, com uma pluralidade de arquivos / registros de computador para armazenar perfis de genótipos de fontes biológicas conhecidas e desconhecidas 572, e arquivos / registros para armazenar resultados (por exemplo, dados de sequenciamento bruto, dados de Sequenciamento Duplex, análise de micro-haplótipos, análise de genótipos, etc.) para amostras testadas 574. O servidor 540 compreende ainda uma memória de computador 511 tendo armazenado nela o Produto de Programa de Computador de Genótipo (Módulo de Genótipo) 550, de acordo com aspectos da presente tecnologia.
[00144] O produto / módulo de programa de computador 550 é incorporado em um meio legível por computador não transitório que, quando executado em um computador (por exemplo, servidor 540), executa etapas dos métodos divulgados aqui para detectar e identificar micro-haplótipos, resolver misturas em genótipos individuais e / ou quantificar os mesmos. Outro aspecto da presente divulgação compreende o produto / módulo de programa de computador 550 compreendendo um meio utilizável por computador não transitório tendo códigos de programa legíveis por computador ou instruções incorporadas no mesmo para permitir que um processador realize análise de genótipo (por exemplo, calcular micro-haplótipos, quantificar micro-haplótipos identificados, resolver misturas em fontes biológicas contribuintes, genotipar relatórios de comparação, etc.). Essas instruções de programa de computador podem ser carregadas em um computador ou outro aparelho programável para produzir uma máquina, de modo que as instruções executadas no computador ou em outro aparelho programável criem meios para implementar as funções ou etapas descritas aqui. Estas instruções do programa de computador também podem ser armazenadas em uma memória ou meio legível por computador que pode direcionar um computador ou outro aparelho programável para funcionar de uma maneira particular, de modo que as instruções armazenadas na memória ou meio legível por computador produzem um artigo de fabricação incluindo meios de instruções que implementam a análise. As instruções do programa de computador também podem ser carregadas em um computador ou outro aparelho programável para fazer uma série de etapas operacionais serem realizadas no computador ou outro aparelho programável para produzir um processo implementado pelo computador de modo que as instruções que executam no computador ou outro aparelho programável fornecem etapas para implementar as funções ou etapas descritas acima.
[00145] Além disso, o produto / módulo de programa de computador 550 pode ser implementado em qualquer idioma e / ou navegadores adequados. Por exemplo, ele pode ser implementado com Python, Java, Scala, linguagem C e, de preferência, usando linguagens de programação de alto nível orientadas a objetos, como Visual Basic, SmallTalk, C++ e semelhantes. O aplicativo pode ser gravado para se adequar a ambientes como o ambiente Microsoft Windows™, incluindo Windows™ 98, Windows™ 2000, Windows™ NT e semelhantes. Além disso, o aplicativo também pode ser escrito para o ambiente Macintosh™, SUN™, UNIX ou LINUX. Além disso, as etapas funcionais também podem ser implementadas usando uma linguagem de programação universal ou independente de plataforma. Exemplos dessas linguagens de programação de plataforma múltipla incluem, entre outras, linguagem de marcação de hipertexto (HTML), JAVA™, JavaScript™, linguagem de programação Flash, interface de gateway comum / linguagem de consulta estruturada (CGI / SQL), linguagem prática de relatório de extração (PERL), AppleScript™ e outras linguagens de script do sistema, linguagem de programação / linguagem de consulta estruturada (PL / SQL) e semelhantes. Podem ser usados navegadores habilitados para Java™ ou JavaScript™, tal como, HotJava™, Microsoft™ Explorer™, ou Firefox™. Quando páginas da web de conteúdo ativo são usadas, elas podem incluir miniaplicativos Java™ ou controles ActiveX™ ou outras tecnologias de conteúdo ativo.
[00146] O sistema chama várias rotinas. Enquanto algumas das rotinas são aqui descritas, um versado na técnica é capaz de identificar outras rotinas que o sistema poderia executar. Além disso, as rotinas descritas neste documento podem ser alteradas de várias maneiras. Como exemplos, a ordem da lógica ilustrada pode ser reorganizada, as subetapas podem ser executadas em paralelo, a lógica ilustrada pode ser omitida, outra lógica pode ser incluída, etc.
[00147] A FIG. 6 é um diagrama de fluxo que ilustra a rotina 600 para fornecer Dados de Sequenciamento Duplex para moléculas de ácido nucleico de fita dupla em uma amostra (por exemplo, uma amostra de uma mistura biológica). A rotina 600 pode ser invocada por um dispositivo de computação, como um computador cliente ou um servidor, acoplado a uma rede de computadores. Numa modalidade, o dispositivo de computação inclui gerador de dados de sequência e / ou um módulo de sequência. Como um exemplo, o dispositivo de computação pode invocar a rotina 600 após um operador envolver uma interface de usuário em comunicação com o dispositivo de computação.
[00148] A rotina 600 começa no bloco 602 o módulo de sequência recebe dados de sequência bruta de um dispositivo de computação do usuário (bloco 604) e cria um conjunto de dados específicos de amostra compreendendo uma pluralidade de leituras de sequência bruta derivadas de uma pluralidade de moléculas de ácido nucleico na amostra (bloco 606). Em algumas modalidades, o servidor pode armazenar o conjunto de dados específico da amostra em um banco de dados para processamento posterior. Em seguida, o módulo DS recebe uma solicitação para gerar dados do Sequenciamento de Consenso Duplex a partir dos dados brutos da sequência no conjunto de dados específico da amostra (bloco 608). O módulo DS agrupa a leitura de sequências de famílias que representam uma molécula original de ácido nucleico de fita dupla (por exemplo, com base em sequências SMI) e compara sequências representativas de fitas individuais entre si (bloco 610). Numa modalidade, as sequências representativas podem ser uma ou mais de uma leitura de sequência de cada molécula de ácido nucleico original. Em outra modalidade, as sequências representativas podem ser sequências de consenso de fita única (SSCSs) geradas a partir do alinhamento e correção de erros dentro de fitas representativas. Em tais modalidades, um SSCS de uma primeira fita pode ser comparado a um SSCS de uma segunda fita.
[00149] No bloco 612, o módulo DS identifica posições nucleotídicas de complementaridade entre as fitas representativas comparadas. Por exemplo, o módulo DS identifica as posições nucleotídicas ao longo da leitura comparada (por exemplo, alinhada) da sequência em que as chamadas da base nucleotídica estão de acordo. Além disso, o módulo DS identifica posições de não complementaridade entre as fitas representativas comparadas (bloco 614). Consequentemente, o módulo DS pode identificar posições de nucleotídeos ao longo das leituras de sequência comparadas (por exemplo, alinhadas) onde as chamadas da base de nucleotídeos estão em desacordo.
[00150] Em seguida, o módulo DS pode fornecer Dados de Sequenciamento Duplex para moléculas de ácido nucleico de fita dupla em uma amostra (bloco 616). Esses dados podem estar na forma de sequências de consenso duplex para cada uma das leituras de sequência processadas. As sequências de consenso duplex podem incluir, em uma modalidade, apenas posições de nucleotídeos em que as sequências representativas de cada fita de uma molécula de ácido nucleico original estão de acordo. Por conseguinte, em uma modalidade, as posições de desacordo podem ser eliminadas ou de outro modo descontadas, de modo que a sequência de consenso duplex seja uma leitura de sequência de alta que foi corrigida por erro. Em outra modalidade, os Dados de Sequenciamento Duplex podem incluir informações de relatórios sobre posições de nucleotídeos de desacordo, a fim de que essas posições possam ser analisadas posteriormente (por exemplo, nos casos em que os danos ao DNA podem ser avaliados). A rotina 600 pode então continuar no bloco 618 , onde termina.
[00151] A FIG. 7 é um diagrama de fluxo que ilustra uma rotina 700 para detectar, identificar e quantificar micro-haplótipos presentes em misturas de ácido nucleico para determinar genótipos de fonte conhecidos de uma amostra. A rotina pode ser invocada pelo dispositivo de computação da FIG. 5. A rotina 700 começa no bloco 702 e o módulo de genótipo analisa os Dados de Sequenciamento Duplex da FIG. 6 (por exemplo, seguindo o bloco 616) para identificar combinações de alelos de micro-haplótipos presentes em moléculas de DNA individuais (bloco 704) e soma as contagens totais de cada alelo doado de cada genótipo de origem conhecido (bloco 706). Em seguida, o módulo de genótipo calcula a proporção de mistura de cada genótipo presente na mistura usando, por exemplo, um modelo baseado em regressão (bloco 708). Como tal, uma análise de micro-haplótipo pode fornecer informações sobre a fonte biológica original e a proporção relativa de cada fonte que contribui para a mistura de ácido nucleico.
[00152] O módulo de genótipo também pode, opcionalmente, comparar uma proporção de mistura de cada genótipo com uma proporção de mistura original (bloco 710) (por exemplo, em casos de células de diferentes fontes biológicas cultivadas juntas) para avaliar as pressões seletivas em uma mistura de fonte biológica (por exemplo, mistura de células em cultura). Em seguida, o módulo de genótipo pode fornecer dados de genótipo (bloco 712) que podem ser armazenados no conjunto de dados específicos de amostra no banco de dados. A rotina 700 pode então continuar no bloco 714 , onde termina. A FIG. 9 ilustra um exemplo de dados de genótipo (por exemplo, contagens de todos os micro-haplótipos, genótipos de origem conhecidos, proporções de mistura) que podem ser determinados usando a rotina 2100 e que podem ser armazenados no banco de dados.
[00153] A FIG. 8 é um diagrama de fluxo que ilustra uma rotina 800 para deconvolver misturas de ácido nucleico de genótipos desconhecidos em uma amostra. A rotina pode ser invocada pelo dispositivo de computação da FIG. 5. A rotina 800 começa no bloco 802 e o módulo de genótipo analisa os Dados de Sequenciamento Duplex da FIG. 6 (por exemplo, seguindo o bloco 616) para identificar combinações de alelos de micro-haplótipos presentes em moléculas de DNA individuais (bloco 804). Em algumas modalidades, combinações de alelos SNP podem ser identificadas quando, por exemplo, tecnologias de sequenciamento de leitura longa são utilizadas. Em seguida, o módulo de genótipo avalia todas as proporções de mistura possíveis contra todos os genótipos possíveis presentes em cada locus genético (bloco 806). O módulo de genótipo então calcula, para cada locus genético, uma lista de todos os genótipos possíveis que se ajustam adequadamente aos dados de sequência (por exemplo, dados de SNP, dados de micro- haplótipo) e todas as proporções de mistura possíveis avaliadas (bloco 808). Como tal, uma análise de micro-haplótipo / SNP pode fornecer informações genéticas sobre as fontes biológicas originais, informações sobre o número de fontes biológicas originais presentes e a proporção relativa de cada fonte que contribui para a mistura de ácido nucleico.
[00154] O módulo de genótipo também pode, opcionalmente, comparar perfis de genótipo de fontes desconhecidas a um banco de dados que compreende perfis de genótipo de fontes conhecidas para identificar uma fonte biológica específica que contribui para a mistura de ácido nucleico complexa (bloco 810) (por exemplo, em casos forenses, como para identificar perpetradores, vítimas ou pessoas desaparecidas). Em algumas modalidades, o módulo de genótipo também pode determinar opcionalmente a presença de genótipos de um banco de dados dentro de uma amostra mista, avaliando se os dados da mistura podem ser adequados se um ou mais genótipos conhecidos estiverem incluídos na mistura.
[00155] Em seguida, o módulo de genótipo pode fornecer dados de genótipo (bloco 812) que podem ser armazenados no conjunto de dados específicos de amostra no banco de dados. A rotina 800 pode então continuar no bloco 814 , onde termina. A FIG. 10 ilustra um exemplo de dados de genótipo (por exemplo, contagens de micro-haplótipos, possíveis perfis de genótipo, grades de possíveis proporções de mistura) que podem ser determinados usando a rotina 2100 e que podem ser armazenados no banco de dados. V. Exemplos Experimentais
[00156] A seção a seguir fornece alguns exemplos ilustrativos de métodos para resolver misturas de ácido nucleico usando Sequenciamento Duplex e reagentes associados. Exemplo 1
[00157] Expansão do sangue do cordão: expansão das células-tronco CD34+ do sangue do cordão para uso em transplantes alogênicos. Amostras de sangue do cordão umbilical de vários doadores (por exemplo, 8 doadores) foram reunidas e expandidas por ligando de entalhe em cultura. Neste exemplo, o Sequenciamento Duplex foi usado para avaliar se as proporções relativas de células-tronco CD34+ introduzidas de cada doador foram mantidas durante o processo de expansão.
[00158] Neste exemplo, o sangue do cordão umbilical de 8 doadores individuais foi enriquecido com CD34+ e quantificado por fluxo. Conforme ilustrado na FIG. 11, uma alíquota de cada amostra de sangue do cordão umbilical foi extraída de DNA e sequenciada individualmente. Quatro misturas de teste às cegas foram preparadas (lado esquerdo da FIG. 11), sequenciadas usando protocolos de Sequenciamento Duplex como descrito anteriormente neste documento e na Patente U.S. 9.752.188. Após o sequenciamento, as misturas foram analisadas e deconvolvidas.
[00159] Em um segundo aspecto deste exemplo mostrado no lado direito da FIG. 11, as células viáveis das amostras originais de sangue do cordão umbilical foram reunidas (contagem de CD34+ variável cada) e o ligando de entalhe expandido. Após a expansão, o DNA foi extraído das células reunidas e sequenciado.
[00160] Os resultados de sequenciamento foram subsequentemente analisados para determinar se as misturas sequenciadas recapitulam as misturas esperadas das quatro misturas de teste cego (lado esquerdo da FIG. 11) e para determinar se a porcentagem relativa (com base na quantidade de DNA representativa de cada genótipo único) de cada amostra de cabo após a expansão espelha as contagens CD34+ de entrada original.
[00161] O Sequenciamento Duplex foi realizado usando um painel de sondas para genotipar 45 sítios de alto MAF SNP e 16 sítios de baixo MAF SNP espalhados por todo o genoma humano. Conforme ilustrado na FIG. 12, ilustra a distribuição global do painel SNP usado neste exemplo.
[00162] Dentro das misturas que foram geradas neste exemplo, sabia-se que o SNP de frequência do alelo variante mais baixo (VAF) era de 0,6%. Como tal, o sequenciamento foi realizado a uma profundidade aproximada de 3.000x, de modo que a 0,6% VAF, havia uma probabilidade de determinar aproximadamente 18 eventos SNP de um indivíduo homozigoto ou aproximadamente 9 eventos SNP de um indivíduo heterozigoto. O sequenciamento foi realizado em 250 ng de DNA de cada uma das 4 misturas de sangue do cordão umbilical, a mistura de expansão do sangue do cordão e amostras de sangue do cordão de cada um dos 8 doadores individuais, até a profundidade molecular única aproximada de 3000x usando métodos de Sequenciamento Duplex. Todas as determinações de sequenciamento e genótipo foram realizadas às cegas. A FIG. 13 é um gráfico de barras que mostra a profundidade de Sequenciamento Duplex no alvo para cada amostra.
[00163] A análise incluiu o exame de 59 sítios SNP para indicação de contaminação cruzada em um padrão de DNA que foi preparado simultaneamente com amostras experimentais. Nenhuma molécula de contaminação foi encontrada (entre 222.025 pares de bases de sítios polimórficos sequenciados). Os 59 sítios SNP foram examinados nas 8 amostras de sangue do cordão e não foi encontrada nenhuma evidência de contaminação cruzada de DNA humano nas amostras de sangue do cordão.
[00164] A FIG. 14 mostra um painel que identifica 11 alelos SNP específicos usados para diferenciar os genótipos doadores. Dez desses SNPs estavam dentro do subconjunto de MAF baixo mostrado na FIG. 12 A análise das amostras de doadores individuais, mostrada na FIG. 14, mostra que 9 variantes de SNP eram exclusivas para uma amostra individual, e dois sítios SNP adicionais estavam presentes em apenas duas das amostras de doadores. Cinco das amostras de sangue do cordão originais dos doadores podem ser identificadas de forma única por um ou mais alelos específicos e as 3 amostras de sangue do cordão restantes podem ser identificadas por inferência de SNPs de maior frequência compartilhados.
[00165] Com referência às FIGS. 15A-15D, os métodos de Sequenciamento Duplex produziram sensibilidade e especificidade completas para detectar cada fonte de sangue do cordão umbilical em cada uma das misturas. Por exemplo, em referência à FIG. 15D, uma das misturas de sangue do cordão umbilical (isto é, Mistura de sangue do cordão #6) continha duas amostras individuais de sangue do cordão (#2, #7) representando 1% cada da mistura total. Essas amostras de sangue do cordão umbilical foram detectadas e quantificadas com precisão em 1% da representação total usando a metodologia de Sequenciamento Duplex.
[00166] Com referência às FIGS. 15A-15D, observou-se que havia uma variação significativa das porcentagens esperadas (por exemplo, o espectrofotômetro Nanodrop mediu as quantificações da quantidade de cada amostra que foi usada para produzir as misturas). Sem estar limitado pela teoria, acredita-se que as discrepâncias mostradas na quantificação de DNA mostrada nas FIGS. 15A-15B entre a abordagem de Sequenciamento Duplex e a abordagem de quantificação Nanodrop são devido a fatores de confusão atribuíveis à abordagem Nanodrop (por exemplo, a presença de RNA não destruído, etc.). Isso foi substanciado ao observar a quantificação de todas as amostras (por exemplo, amostras de sangue do cordão umbilical, DNA extraído de células expandidas e de misturas de teste) com Nanodrop e por medição de fluorômetro Qubit (ver FIG. 15E). Como mostrado, as medições Nanodrop (barra cinza escuro) pareceram superrepresentar a medição de quantificação da amostra em comparação com Qubit (barra cinza claro). Como evidência adicional da discrepância de medição de quantificação entre a abordagem de quantificação de Sequenciamento Duplex e a abordagem de quantificação Nanodrop, a FIG. 16 ilustra a diferença de vezes na quantificação para cada amostra individual de sangue do cordão dentro de cada mistura. Como mostrado, a diferença de dobra para cada uma dessas amostras foi semelhante, sugerindo ainda que os erros de quantificação antes de gerar as misturas explicam os resultados discrepantes nas FIGS. 15A-15D. Independentemente disso, as fontes individuais das amostras de sangue do cordão umbilical usadas para gerar as misturas foram identificadas com precisão, bem como suas contribuições representativas para a mistura (FIGS. 15A-15D).
[00167] A FIG. 17 é um gráfico de barras que representa a fração de células CD34+ determinada por citometria de fluxo antes da expansão e a fração de células CD34+ (conforme determinado por Sequenciamento Duplex) após a expansão para cada amostra de cordão sanguíneo individual. Como mostrado, há uma forte correlação entre a contagem de células CD34+ pré- expansão e a contagem de células pós-expansão. Esses resultados sugerem que as células de cada amostra de sangue do cordão presentes nesta expansão proliferaram proporcionalmente. Além disso, esses dados mostram que as células em proliferação são células CD34 + e não outras células diferenciadas que também sofrem expansão Notch.
[00168] Neste exemplo, foi demonstrado que a metodologia de Sequenciamento Duplex pode ser usada para deconvolver uma mistura biológica (por exemplo, uma mistura de amostras de sangue do cordão umbilical de 8 indivíduos) usando marcadores polimórficos. Usando profundidade de sequenciamento razoavelmente moderada (por exemplo, 3000x), a metodologia de Sequenciamento Duplex foi capaz de detectar com segurança cada cabo com total sensibilidade e especificidade em cada mistura sintética testada. Sem estar limitado pela teoria, acredita-se que as discrepâncias na abundância relativa de cada amostra de cordão nas misturas sintéticas testadas são o resultado de erros na quantificação do DNA ao fazer as misturas e não uma deficiência do processo de Sequenciamento Duplex.
[00169] Foi ainda demonstrado neste exemplo, que a metodologia de Sequenciamento Duplex usada para analisar a mistura de sangue do cordão pós-expansão produziu resultados muito semelhantes às porcentagens relativas de células CD34+ de cada amostra de sangue do cordão antes da expansão Notch, sugerindo que, pelo menos na presente experiência, as células CD34+ de cada amostra de sangue do cordão proliferaram relativamente proporcionalmente umas às outras e as frações relativas de cada uma são representadas na mesma fração do total que a mistura original.
[00170] Neste exemplo, o Sequenciamento Duplex demonstra ser um método bem- sucedido para deconvolver misturas de material de ácido nucleico e identificar a presença, bem como a abundância das fontes de DNA originais. Consequentemente, a metodologia de Sequenciamento Duplex fornece uma maneira rápida, quantitativa e automatizada de avaliar de maneira econômica a abundância de culturas multi-individuais de células humanas terapêuticas.
[00171] Com base nos padrões de genótipos SNP determinados para cada cordão, esta abordagem é capaz de se restringir a uma gama de haplótipos HLA esperados dos haplótipos SNP. Por exemplo, a previsão da probabilidade de ancestralidade (por exemplo, ancestralidade Maori vs Inuit versus ancestral europeia) pode ser avaliada.
[00172] Em geral, este exemplo demonstra a resolução de 8 fontes, no entanto, um painel pode ser projetado para permitir qualquer especificação necessária. Espera-se que o Sequenciamento Duplex possa chegar a várias dúzias de constituintes com um painel de baixo custo se houver genótipos conhecidos com antecedência. Em outras modalidades, a deconvolução de fontes múltiplas sem conhecimento a priori também é possível com a abordagem de Sequenciamento Duplex, conforme descrito neste documento.
[00173] A profundidade alvo de 3000x a profundidade molecular única, neste exemplo, foi escolhida porque não houve eventos particularmente raros. Em exemplos onde eventos raros são conhecidos ou suspeitos, a profundidade de sequenciamento pode aumentar (por exemplo, cerca de 10.000x, 15.000x, 20.000x, 25.000x, 30.000x, 35.000x, 40.000x, 45.000x,
50.000x, 75.000x, 100.000x, 200.000x, 500.000x, 1.000.000x ou mais). As variantes podem ser detectadas como uma razão (SNP variante por SNP BP total sequenciado); com profundidade suficiente, desde que atinja mais do que o mínimo almejado para obter confidências estatísticas específicas.
[00174] A capacidade de classificar em diferentes compartimentos celulares e quantificar quimerismos nas misturas de sangue do cordão umbilical pode fornecer informações sobre se um cordão versus outro se diferencia de forma diferente em uma linhagem versus outra. A capacidade de avaliar quimerismos relativos de DNA livre de células no plasma permite que o método de Sequenciamento Duplex rastreie a morte relativa de um cordão em relação a outro em uma escala de tempo curta (a meia-vida do cfDNA é de ~ 2,5 horas no plasma). Da mesma forma, tais métodos aplicados ao DNA livre de células podem avaliar a proporção relativa de DNA de um genoma transplantado, como no caso de transplante de órgão sólido, como rim, coração ou pulmão, como pode ocorrer com a rejeição do transplante. Exemplo 2
[00175] Sequenciamento Duplex de sítios genômicos de micro-haplótipos para deconvolução de misturas. Micro-haplótipos são loci de dois ou mais SNPs de DNA genômico dentro de uma distância relativamente curta um do outro (por exemplo, < 200 nucleotídeos, 250 nucleotídeos, 300 nucleotídeos, 350 nucleotídeos ou mais) com três ou mais combinações alélicas (por exemplo, cerca de 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 ou mais alelos distintos). Um dado micro-haplótipo pode ter apenas zero polimorfismos individuais "informativos" para uma determinada mistura (ou seja, não há diferenças entre os micro-haplótipos entre as moléculas de DNA na mistura de diferentes indivíduos), ou vários polimorfismos individuais (por exemplo, pelo menos cerca de 2 , 3, 4, 5, 6, 7, 8, 9, 10, 11. 12, 15, 20, 24 ou mais). Como mostrado na FIG. 18A, a maioria dos micro-haplótipos em um painel particular de micro-haplótipos úteis identificados têm menos de 200 nucleotídeos de comprimento. A FIG. 18B é um exemplo de frequência de alelo para um micro-haplótipo em populações variadas em todo o mundo.
[00176] Neste exemplo, as misturas de DNA foram sondadas e sequenciadas sobre regiões de micro-haplótipos para deconvolver as misturas em uma ou mais fontes de DNA originais para fins de, por exemplo, identificação e para determinar a abundância de cada fonte. Ao usar um painel de sonda para avaliar marcadores de micro-haplótipos, mais alelos por leitura de sonda / sequenciamento podem ser avaliados, o que produz mais poder nos dados de sequenciamento para identificação da fonte. Em um exemplo específico, um painel de sonda olhando para ~ 100 regiões genômicas contendo micro-haplótipos pode utilizar combinação única de ~ 300 alelos para identificar a(s) fonte(s). Um painel de sonda pode ser usado para realizar o sequenciamento final emparelhado ou sequenciamento final único usando o Sequenciamento Duplex.
[00177] Em um exemplo de onde os genótipos do doador são conhecidos, alelos privados podem ser usados para identificar um determinado doador. Por exemplo, se um alelo é único para um determinado doador, a proporção do doador é igual à proporção de leituras de sequenciamento naquele locus contendo o alelo menor. Esta metodologia pode ser usada para avaliar amostras de baixa abundância porque apenas uma leitura do alelo privado seria necessária para identificar o doador.
[00178] Em outro exemplo, o Sequenciamento Duplex e a deconvolução subsequente dos dados de sequenciamento podem ser usados para identificar doadores de genótipo (por exemplo, fonte). Por exemplo, dados alelos suficientes sondados, uma combinação dos alelos pode ser usada para gerar uma impressão digital de genótipo único (por exemplo, assinatura genética) para identificar e quantificar o(s) doador(es).
[00179] Em um exemplo simulado, 9 genótipos estão em uma mistura com alguns genótipos raros misturados com alguns genótipos abundantes. Um painel de sonda para sequenciamento de 100 micro-haplótipos representando 266 alelos distintos será usado para sequenciar a mistura de DNA em uma profundidade de aproximadamente 3.000 vezes. Neste exemplo hipotético, usando estimativa de mistura, alelos privados decorrentes de micro-haplótipos simulados detectaram cada doador. Na simulação, após remover o uso de alelos privados, os dados ainda poderiam ser usados para detectar conclusivamente todos, exceto os 3 doadores de menor abundância (0,03%, 0,3% e 1,3% da mistura simulada). Os resultados da deconvolução simulada de dados de Sequenciamento Duplex são mostrados na FIG. 19. Exemplo 3
[00180] Este exemplo descreve uma modalidade de Sequenciamento Duplex de sítios genômicos de micro-haplótipos para deconvolução de mistura. Neste exemplo, uma amostra de paciente com alelos menores em 4 loci observada em 5%, 10%, 20% e 40%. Neste exemplo, essas frequências de alelos não podem ser explicadas apenas pelo DNA do paciente. Pelo menos 3 genomas estão presentes. Um bom ajuste para este cenário seria doador 1 a 10%, doador 2 a 40% e paciente 3 a 50%. Na deconvolução, essa estratégia busca encontrar proporções de mistura que melhor expliquem as frequências alélicas observadas, dados os genótipos do doador que levam ao melhor ajuste. Em alguns exemplos, os métodos de aprendizado de máquina podem facilitar essa análise.
[00181] Um exemplo de um modelo de deconvolução para resolver dados de Sequenciamento Duplex pode usar regressão linear, modelos lineares generalizados ou extensão dos mesmos. A FIG. 20 ilustra um exemplo de um modelo de regressão linear para determinar fontes de doadores dentro de uma mistura usando 7 SNPs, cada um com um genótipo conhecido nos doadores. A proporção de mistura para cada doador (β) é determinada. Exemplo 4
[00182] Este exemplo descreve outra modalidade de Sequenciamento Duplex de sítios genômicos de micro-haplótipos para deconvolução de mistura. Neste exemplo, os Dados de Sequenciamento Duplex derivados de uma amostra com uma mistura de moléculas de ácido nucleico de fontes biológicas conhecidas são usados para estimar uma proporção de mistura das fontes misturadas. Aspectos da análise podem ser realizados usando várias modalidades do sistema de computação, conforme descrito neste documento (por exemplo, com referência à FIG. 5).
[00183] Em uma primeira etapa, uma rotina pode ser invocada por um dispositivo de computação, tal dispositivo de computação que possui um módulo de genótipo, e tal rotina pode chamar o vetor de contagens de cada alelo de cada locus testado (Y). Um exemplo do vetor Y é mostrado na Tabela 1. Neste exemplo particular, cada locus tem dois alelos e um no-call, ou valor “N”, entretanto, esta rotina pode acomodar qualquer número de alelos em qualquer locus dado. Por conseguinte, neste exemplo, quando dados de micro-haplótipo são usados, cada locus terá pelo menos 3 alelos, além de vários alelos no-call, onde um ou mais SNPs no micro-haplótipo não recebem uma chamada pelo módulo de genótipo (por exemplo, a rotina).
Tabela 1 Alelo Profundidade Locus- Locus- Contagens Allele Total Alelo total nodepth locus Alelo (“Y) Locus Allele Allele counts ("Y") at locus 1 a 1a 1500 1850 1 b 1b 200 1850 1 N 1N 150 1850 2 a 2a 200 1300 2 b 2b 1000 1300 2 N 2N 100 1300 3 a 3a 1230 1420 3 b 3b 140 1420 3 N 3N 50 1420 4 a 4a 800 1800 4 b 4b 850 1800 4 N 4N 150 1800 Exemplo de dados de contagem de alelos. O vetor Y é destacado (coluna cinza); os dados e IDs que acompanham estão em outras colunas.
[00184] Em uma segunda etapa, a rotina define a matriz diagonal λ com linhas e colunas correspondentes aos elementos de Y. Os elementos diagonais de λ são iguais à contagem total de alelos no locus a que correspondem. Por exemplo, o valor de λ no elemento [1,1] deve ser igual às contagens totais no lugar geométrico na primeira posição de Y. Um exemplo da matriz λ é mostrado na Tabela 2.
Tabela 2 Exemplo da matriz λ. A matriz é destacada em cinza; nomes de linhas e colunas são mostrados para alinhamento com outros vetores de dados e matrizes.
[00185] Em uma terceira etapa, a rotina escreve os genótipos de origem como uma matriz G0 com linhas alinhadas aos elementos de Y e colunas correspondentes a fontes individuais. A rotina define G0 de forma que o elemento [i, j] de G0 corresponderá ao genótipo do io alelo em Y na ja fonte, populando-o com 0, 0,5 ou 1 dependendo se a fonte j tem 0, 1 ou 2 cópias do alelo. Um exemplo da matriz G0 é mostrado na Tabela 3.
Tabela 3 Frequência Frequência Frequência Frequência Locus Alelo Locus + Alelo do genótipo do genótipo do genótipo do genótipo da fonte 1 da fonte 2 da fonte 3 da fonte 4 1 a 1a 1 0,5 1 0 1 b 1b 0 0,5 0 1 2 a 2a 0,5 1 1 1 2 b 2b 0,5 0 0 0 3 a 3a 1 1 0,5 1 3 b 3b 0 0 0,5 0 4 a 4a 1 1 0 1 4 b 4b 0 0 1 0 Exemplo de G0, a matriz dos genótipos de origem. G0 é destacado em cinza; outras colunas mostram IDs para alinhamento com outros vetores de dados e matrizes.
[00186] Em uma quarta etapa, a rotina considera nenhuma chamada, ou leituras de “N” nos dados. As leituras de “N” em um locus ocorrem por várias causas, e a probabilidade de um N pode variar tanto com o locus quanto com o alelo. Experimentos de calibração em amostras com genótipos conhecidos podem estimar as probabilidades específicas de locus e alelos de um N sendo registrado.
[00187] Com efeito, o fenômeno no-call leva a uma distorção dos dados do genótipo do paciente. Se um paciente for homozigoto para o alelo A em um locus, não se espera realmente que esse paciente contribua com contagens de 100% do alelo A: ele também contribuirá com algumas contagens com o valor “N”.
[00188] Para contabilizar leituras no-call ou "N", a rotina cria uma matriz de genótipo modificada que considera as probabilidades específicas de alelos de alelos serem lidos como no-call, ou "N", pelo sequenciador e / ou módulo de genótipo (por exemplo, a rotina). A Tabela 4 mostra como essa matriz G pode ser calculada a partir de G0 e das taxas específicas de locus e alelos de leituras no-call / N.
Tabela 4 Taxa de Frequência Frequência Frequência Frequência Locus- Locus Alelo mudança do genótipo do genótipo do genótipo do genótipo Alelo para Ns da fonte 1 da fonte 2 da fonte 3 da fonte 4 1 a 1a 0,2 0,8 0,4 0,8 0 1 b 1b 0,1 0 0,45 0 0,9 1 N 1N 0,2 0,15 0,2 0,1 2 a 2a 0,1 0,45 0,9 0,9 0,9 2 b 2b 0,1 0,45 0 0 0 2 N 2N 0,1 0,1 0,1 0,1 3 a 3a 0,15 0,85 0,85 0,425 0,85 3 b 3b 0,05 0 0 0,475 0 3 N 3N 0,15 0,15 0,1 0,15 4 a 4a 0,05 0,95 0,95 0 0,95 4 b 4b 0,12 0 0 0,88 0 4 N 4N 0,05 0,05 0,12 0,05 Exemplo de G, a matriz de genótipos de origem após contabilizar no-call, ou leituras “N”. G é destacado em cinza; outras colunas mostram IDs para alinhamento com outros vetores de dados e matrizes. G pode ser calculado de G0 e da coluna “Taxa de mudança para Ns”.
[00189] Em outra modalidade, a rotina pode ser configurada para descartar todos os alelos não chamados, ou “N”, do vetor de dados Y, usar este Y parcial para cálculo de λ e usar G0 no lugar de G nas etapas a seguir.
[00190] Uma vez que as matrizes de dados são determinadas, a rotina pode estimar as proporções de mistura da fonte.
[00191] Neste exemplo, a rotina chama β o vetor de proporções de mistura das fontes na amostra mista. Um exemplo de β é mostrado na Tabela 5. A rotina pode primeiro estimar os elementos de β e, em segundo lugar, colocar intervalos de confiança em torno dessas estimativas.
Tabela 5 Proporção de mistura Fonte 1 β1 Fonte 2 β2 Fonte 3 β3 Fonte 4 β4 Exemplo de β, o vetor de proporções de mistura desconhecidas. O próprio β é destacado em cinza; outros valores mostram IDs para alinhamento com outros vetores e matrizes.
[00192] Em seguida, a rotina pode modelar os dados da seguinte maneira:
[00193] E(Y) = λGβ,
[00194] Onde Y, λ, G e β são como definidos acima, e a justaposição de dois vetores ou matrizes denota o operador de produto de ponto como é padrão na notação de álgebra linear. Esta fórmula tem uma interpretação simples para um determinado alelo de um determinado locus, o número esperado de leituras é igual à profundidade de sequenciamento naquele locus vezes a proporção de mistura desse alelo na amostra. (A proporção de mistura de um alelo na amostra, ou mais precisamente, a proporção esperada de leituras do alelo nesse locus, é igual ao seu elemento no vetor Gβ.)
[00195] Este modelo compreende uma abordagem de regressão linear generalizada (GLM) para estimar β e para calcular intervalos de confiança para seus elementos. Definir:
[00196] X = λGβ,
[00197] e uma configuração de GLM surge naturalmente. O modelo médio do GLM é dado por E(Y) = Xβ (ou seja, o GLM tem um elo de identidade). A família do GLM pode ser uma entre várias opções.
[00198] 1. Uma família de Poisson (ou seja, o uso da regressão de Poisson de Y em X).
[00199] 2. Uma família binomial negativa (ou seja, o uso de regressão binomial negativa de Y em X) pode, em algumas modalidades, ser mais flexível para dados ruidosos do que uma família de Poisson.
[00200] 3. Uma família gaussiana (ou seja, o uso de regressão linear ordinária de Y em X) também pode ser usada em algumas aplicações.
[00201] Em todas as configurações acima, a abordagem GLM retorna estimativas e intervalos de confiança para os elementos de β.
[00202] O Exemplo 4 aqui descrito compreende uma abordagem para resolver misturas de ácido nucleico de genótipos conhecidos. Um versado na técnica reconhecerá que outras abordagens também podem ser usadas. Exemplos não limitativos de outras abordagens podem incluir regressão multinomial ou binomial. Em outra modalidade, uma regressão de GLM pode ser usada para prever a frequência de cada alelo (calculada pelas contagens do alelo divididas pelas contagens totais no locus) a partir da matriz de genótipos. Em ainda outra modalidade, as restrições podem ser colocadas nos elementos de beta (β). Por exemplo, qualquer combinação das seguintes restrições pode ser aplicada ao lado de qualquer modalidade da regressão ou abordagem GLM.
[00203] 1. Beta (β) pode ser restrito a ser não negativo
[00204] 2. Beta (β) pode ser restrito de forma que seus elementos sejam todos menores ou iguais a 1.
[00205] 3. Beta (β) pode ser restrito de forma que seus elementos somem exatamente
1.
[00206] Como os métodos de regressão como Poisson, regressão binomial e multinomial, todos derivam erros padrão aproximados com base na teoria assintótica (por exemplo, usando wald, pontuação ou erros padrão baseados na razão de verossimilhança), esses métodos podem ocasionalmente falhar em declarar abundância maior que zero com significância estatística para fontes de abundância muito baixa em uma mistura. Para corrigir esse erro, quando uma fonte tem um alelo “privado” não compartilhado por nenhuma outra fonte, e esse alelo privado é observado na amostra mista, então a fonte pode ser declarada presente em abundância diferente de zero com alta confiança estatística. Um intervalo de confiança para a abundância da fonte pode ser calculado usando qualquer um dos diversos métodos para calcular intervalos de confiança em proporções binomiais. Por exemplo, intervalos de confiança do método de Wilson podem ser usados.
Exemplo 5
[00207] Este exemplo descreve outra modalidade de Sequenciamento Duplex de sítios genômicos de micro-haplótipos para deconvolução de mistura. Neste exemplo, os Dados de Sequenciamento Duplex derivados de uma amostra com uma mistura de moléculas de ácido nucleico de fontes biológicas desconhecidas são usados pata identificar genótipos de fonte e para estimar uma proporção de mistura das fontes misturadas. Aspectos da análise podem ser realizados usando várias modalidades do sistema de computação, conforme descrito neste documento (por exemplo, com referência à FIG. 5).
[00208] Os dados para este exemplo podem ser formatados como no Exemplo 4 acima, com Y, λ, G0, G e β definidos como acima e conforme mostrado na Tabela 1 - Tabela 5. No presente exemplo, no entanto, os únicos dados que observamos são Y e λ, que é calculado diretamente de Y. Assim, o problema dos genótipos desconhecidos difere do problema dos genótipos conhecidos porque devemos estimar G0 ao lado de β para avaliar o quão bem qualquer escolha de β se ajusta aos dados.
[00209] No problema dos genótipos conhecidos (Exemplo 4), a rotina estimou β e colocou intervalos de confiança em torno dessa estimativa, delineando efetivamente o subespaço de todos os vetores β possíveis que poderiam se ajustar adequadamente aos dados. No presente exemplo que trata do problema de genótipos desconhecidos, a rotina é configurada para descrever as características dos vetores β que poderiam explicar os dados de forma plausível. Por exemplo, a rotina determina se os dados observados podem ter surgido de uma amostra com apenas um elemento diferente de zero de β (ou seja, uma única fonte), ou se apenas uma mistura de fontes pode resultar nos dados observados. Em outra modalidade, a rotina determina se os dados observados podem ter surgido de uma mistura relativamente uniforme de fontes ou se os dados só podem ser explicados se uma fonte é dominante ou uma ou mais fontes têm abundância muito baixa.
[00210] Assim, este método avalia todos os vetores β em consideração, com o objetivo de retornar um resumo dos tipos de vetores β que poderiam explicar adequadamente os dados.
[00211] Neste exemplo, uma abordagem é descrita:
[00212] 1. Configure os dados da seguinte forma:
[00213] 1a. Escolha K, o número máximo de fontes que você considerará que possivelmente ocorrem em uma mistura. K fornece o comprimento de β. Os vetores β correspondentes a fontes menores que K terão 0s em algumas posições.
[00214] 1b. Defina uma grade de β a considerar, que assume a forma de uma lista de vetores β de comprimento K. Em uma modalidade, a rotina é configurada para definir um conjunto de valores de elemento β como {0, 0,001, 0,01, 0,02, 0,05, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9, 0,95, 0,99, 0,999, 1}. A rotina pode então criar uma lista β pegando todas as amostras de comprimento K possíveis dessa lista com valores decrescentes, por exemplo, se K = 3, a rotina assume {1,1,1}, {1,1 ,.999}, {1,1 ,.99)… (porque os genótipos de origem são desconhecidos, duas escolhas de β com os mesmos valores em uma ordem diferente explicam os dados igualmente bem). Para obter uma lista de β's legais (ou seja, β's que somam 1), a rotina é configurada para redimensionar cada β na lista para somar 1. A lista resultante alcança uma grade detalhada no espaço de possíveis β's.
[00215] 1c. Para cada locus, defina uma lista de genótipos possíveis, formatada como na matriz G0 descrita no Exemplo 4. Os possíveis genótipos são todas as matrizes que atendem aos seguintes critérios:
[00216] i. Colunas K e linhas J, onde J é o número de alelos únicos observados para o locus.
[00217] ii. Cada elemento é 0, 0,5 ou 1.
[00218] iii. Cada coluna da matriz soma 1 (o que implica que cada fonte é diploide no locus).
[00219] iv. Se desejado, a rotina é configurada para modificar cada matriz G0 na lista a fim de contabilizar os valores de no-call/"N", usando a mesma abordagem descrita no Exemplo 4. Doravante, as matrizes nesta lista de matrizes são referidas como matrizes “G”, de acordo com a notação anterior.
[00220] 2. Avalie o ajuste dos β aos dados Y. A rotina é configurada para associar cada β na lista a um log de verossimilhança usando o seguinte algoritmo.
[00221] 2a. Para cada β e para cada loco, pesquise a lista de matrizes de genótipos para a matriz G que leva à maior log-verossimilhança para os valores de Y daquele locus. A probabilidade de log pode ser calculada usando qualquer um dos seguintes modelos: 1. com Y sendo um vetor aleatório de Poisson com vetor médio λGβ, 2. com Y sendo um vetor aleatório Binomial negativo com vetor médio λGβ e parâmetro de tamanho igual a um valor pré- especificado de um valor ajustado aos dados, ou 3. com Y sendo um vetor aleatório Log-normal com log do vetor médio (λGβ) e parâmetro de variância igual a um valor pré-especificado de um valor ajustado aos dados. Em outras modalidades, outras distribuições paramétricas podem ser usadas.
[00222] Para cada β na lista, a saída da etapa 2a é uma escolha de G de melhor ajuste em cada locus e um conjunto de log-verossimilhanças alcançado por β com esses G de melhor ajuste.
[00223] 2b. Calcule o log de verossimilhança de cada β como a soma de seu log de verossimilhança nos loci.
[00224] 2c. Escolha um limiar para verossimilhanças de log aceitavelmente altas. Em uma modalidade, a escolha do limiar é uma chamada de julgamento, dependendo do critério do usuário. Todas as abordagens a seguir oferecem maneiras razoáveis de pontuar β em uma escala onde os limiares têm interpretações naturais; todos eles são calculados a partir do log de verossimilhança: 1. O Bayesian Information Criterion (BIC) pode ser usado. 2. O Akaike Information Criterion (AIC) pode ser usado. 3. A estatística qui-quadrada igual a -2 vezes o log da razão de verossimilhança entre dois ajustes concorrentes pode ser usada.
[00225] 3. Relate todos os β da lista com verossimilhanças de log excedendo o limiar escolhido.
[00226] Recuperando genótipos de origem de misturas de genótipos desconhecidos.
[00227] Além de estimar as proporções de mistura em uma amostra de genótipos desconhecidos, a rotina pode ser configurada para recuperar os genótipos das fontes na mistura. O seguinte algoritmo (por exemplo, que pode ser invocado por um ou mais sistemas de computação aqui descritos) descreve um método para fazer isso:
[00228] 1. Derive um conjunto de β's válidos usando o algoritmo / rotina acima.
[00229] 2. Para cada locus:
[00230] 2a. Calcule todas as matrizes genotípicas possíveis como na etapa 1c do algoritmo / rotina acima.
[00231] 2b. Avalie cada matriz de genótipo possível contra todos os βs válidos, registrando a probabilidade logarítmica mais alta do genótipo alcançada em todos os βs válidos.
[00232] 2c. Escolha um limiar de verossimilhança de log e relate todas as matrizes genotípicas que excedem esse limiar quando avaliadas junto com pelo menos um β válido.
[00233] 2d. Em alguns casos, o conjunto de matrizes genotípicas possíveis está em acordo quase unânime sobre o(s) alelo(s) de uma fonte específica (por exemplo, todas as matrizes genotípicas possíveis incluem um alelo A homozigoto para a fonte mais abundante). Nesse caso, o genótipo da fonte pode ser chamado naquele alelo.
[00234] Em outros casos, as matrizes de genótipos possíveis podem ser definidas sobre metade do genótipo de uma fonte em um locus. Por exemplo, todas as matrizes genotípicas possíveis mostram a origem 1 como tendo uma cópia do alelo A, mas as matrizes discordam na outra metade do genótipo diploide de origem naquele locus. Nesse caso, a rotina pode ser configurada para chamar a fonte como tendo pelo menos uma cópia do alelo A.
[00235] Em uma modalidade, e para melhorar a eficiência computacional, β's com verossimilhanças de log muito pobres em um único locus podem ser descartados de considerações adicionais, omitindo assim a necessidade de avaliá-los em outros loci.
[00236] Se uma ou mais fontes com genótipos conhecidos ocorrem em uma mistura de genótipos desconhecidos, este método também pode ser adaptado da seguinte forma: 1. Se houver fontes M com genótipos conhecidos, associe-as aos primeiros elementos M de cada β e às primeiras colunas M de cada G. 2. Gere a lista de candidatos βs da mesma maneira como descrito acima, mas requer apenas que as últimas colunas K-M tenham valores decrescentes. 3. Ao encontrar a melhor matriz G para maximizar a probabilidade de log de um determinado β em um determinado locus, preencha as primeiras colunas M com os genótipos M conhecidos. 4. Execute o resto do algoritmo inalterado.
[00237] Em algumas modalidades, este método pode ser executado em dados SNP isolados. Em outras modalidades, este método pode ser executado em dados de micro-haplótipos, que são regiões curtas do genoma contendo múltiplos (2 ou mais) SNPs e, assim, apresentando 3 ou mais combinações alélicas. Em ainda outras modalidades, várias rotinas podem ser executadas usando dados de uma tecnologia de sequenciamento de leitura longa que retorna leituras abrangendo > 1 SNP.
[00238] Para melhorar a eficiência computacional, e em uma modalidade, o método pode primeiro ser executado em dados de nível SNP para eliminar rapidamente um grande subconjunto de candidatos β . O algoritmo pode então ser executado novamente em dados de nível de micro-haplótipo usando apenas os β que passam nesta primeira etapa.
[00239] Em alguns casos em que há um grande número de genótipos de origem e um grande número de alelos, a matriz de genótipos possíveis pode ser tão grande a ponto de ser computacionalmente intratável, ineficiente ou desnecessária para a aplicação particular. Em tais casos, para cada vetor de proporção de mistura possível β em consideração, uma matriz de genótipos G de melhor ajuste pode ser buscada por meio de algoritmos de otimização. Exemplo 6
[00240] Avaliação de desempenho em misturas sintéticas de moléculas de ácido nucleico derivadas de mais de uma fonte: DNA purificado de diferentes fontes biológicas foram pré-misturados em proporções de mistura especificadas em quatro amostras independentes (por exemplo, cada amostra tendo uma proporção de mistura diferente de cada material de origem) e tais proporções de mistura foram então tornadas cegas. Na FIG. 21, os painéis A-D são gráficos de barras que representam as verdadeiras proporções de mistura das fontes 1-5.
[00241] Os resultados de sequenciamento foram subsequentemente analisados para determinar se as misturas sequenciadas recapitulam as misturas esperadas das quatro misturas de teste cegas (mostrado FIG. 21, painéis A-D), e para determinar se a detecção de baixa frequência / alelos raros presentes nas amostras misturadas. O Sequenciamento Duplex foi realizado usando um painel de sondas para genotipar 17 sítios de micro-haplótipos espalhados por todo o genoma humano.
[00242] Com referência à FIG. 22, painéis A-D (correspondendo à FIG. 21, painéis A-D, respectivamente), os métodos de Sequenciamento Duplex produziram sensibilidade e especificidade completas para detectar cada fonte individual em cada uma das misturas quando os genótipos para cada uma das cinco fontes potenciais eram conhecidos com antecedência. Por exemplo, em referência à FIG. 21, painel D e a FIG. 22, painel D, uma das misturas ocultas (isto é, compreendendo uma mistura de todas as 5 fontes) continha uma fonte representando 0,5% (fonte 1) e uma fonte representando 0,05% (fonte 4) da mistura total. Essas fontes foram detectadas e quantificadas com precisão usando a metodologia de Sequenciamento Duplex (FIG. 22, painel D).
[00243] Com referência às FIGS 23A-23D (correspondendo à FIG. 21, painéis A- D, respectivamente), os métodos de Sequenciamento Duplex demonstraram a capacidade de estimar proporções mistas quando os genótipos e o número potencial de fontes para cada amostra eram previamente desconhecidos. Por exemplo, as FIGS. 23A-23D são gráficos de mapa de calor que demonstram a probabilidade e abundância de cada fonte determinada na amostra usando Sequenciamento Duplex. Conforme demonstrado na FIG. 24, painéis A-D (correspondentes às FIGS. 23A-23D, respectivamente), alelos de micro-haplótipo podem ser determinados para fontes múltiplas, mesmo quando os genótipos das fontes não eram conhecidos anteriormente (ver, por exemplo, FIG. 24, painel B que demonstra uma previsão confiável de genótipos de três fontes da mistura da FIG. 21, painel B).
[00244] Neste exemplo, foi demonstrado que a metodologia de Sequenciamento Duplex pode ser usada para deconvolver uma mistura biológica (por exemplo, uma mistura de amostras de ácido nucleico de 5 indivíduos / fontes) usando micro-haplótipos. Foi demonstrado que os métodos de Sequenciamento Duplex fornecem sensibilidade até alelos de frequência muito baixa e podem detectar variantes raras em misturas complexas.
[00245] Neste exemplo, o Sequenciamento Duplex demonstra ser um método bem- sucedido para deconvolver misturas de material de ácido nucleico e identificar a presença, bem como a abundância das fontes de DNA originais. Consequentemente, a metodologia de Sequenciamento Duplex fornece uma maneira rápida, quantitativa e automatizada de identificar e avaliar de maneira econômica a abundância de amostras multi-individuais. Exemplo 7
[00246] Avaliação de desempenho para determinar a sensibilidade para detectar genótipos presentes em abundância de 1 / 100.000. Neste exemplo, uma mistura de 8 amostras foi sequenciada usando métodos de Sequenciamento Duplex para estimar as proporções de mistura e usando um pequeno painel SNV. A FIG. 25 é um gráfico de dispersão que compara as proporções de mistura reais das amostras com as estimativas de abundância das amostras na mistura. Os pontos mostram as proporções de mistura estimadas vs. esperadas de cada amostra para todas as 8 amostras, e as linhas mostram intervalos de confiança de 95%. A linha pontilhada mostra a identidade. Conforme mostrado, o Sequenciamento Duplex demonstra sensibilidade e precisão até uma abundância de 1 / 100.000.
Exemplo 8
[00247] Avaliação de desempenho para determinar a capacidade de detectar genótipos presentes em um banco de dados. Neste exemplo, as misturas de amostras foram sequenciadas usando métodos de Sequenciamento Duplex para estimar as proporções de mistura e genótipos de fontes originais. A FIG. 26 é um gráfico de linha que representa as proporções dos genótipos presentes na mistura que são detectados (linha sólida) e a proporção das misturas simuladas que geram pelo menos um falso positivo (linha tracejada). Neste exemplo, dados de micro-haplótipos de 1000 misturas simuladas de 2 a 10 fontes foram consultados em um banco de dados de genótipos de 1000 fontes e 100 micro-haplótipos com 4 alelos cada. Cada uma das 2-10 fontes diferentes eram do banco de dados consultado. Os resultados deste exemplo produziram a identificação da maioria dos sujeitos em misturas de até 8 fontes com uma taxa de falsos positivos de 1-5%. Exemplo 9
[00248] Avaliação de desempenho para determinar a quantificação precisa em misturas compreendendo múltiplos genótipos. Neste exemplo, as misturas de amostras compreendendo 50 genótipos diferentes foram sequenciadas usando métodos de Sequenciamento Duplex para estimar as proporções de mistura dos diferentes genótipos. A FIG. 27, os painéis A- C são gráficos de linha que mostram proporções de mistura estimadas versus reais em 3 diferentes misturas simuladas de 50 genótipos. Os pontos pretos são proporções verdadeiras; caixas cinzas / bigodes e pontos são quartis internos e pontos fora de curva extremos de estimativas em 1000 simulações. A FIG. 27, os painéis A-C demonstram que pelo menos 50 genótipos diferentes em uma mistura complexa podem ser distinguidos e quantificados com precisão usando o Sequenciamento Duplex. VI. Conclusão
[00249] As descrições detalhadas acima de modalidades da tecnologia não pretendem ser exaustivas ou limitar a tecnologia à forma precisa divulgada acima. Embora modalidades específicas e exemplos para a tecnologia sejam descritos acima para fins ilustrativos, várias modificações equivalentes são possíveis dentro do escopo da tecnologia, como reconhecerão os versados na técnica. Por exemplo, enquanto as etapas são apresentadas em uma determinada ordem, modalidades alternativas podem executar etapas em uma ordem diferente. As várias modalidades descritas neste documento também podem ser combinadas para fornecer outras modalidades. Todas as referências aqui citadas são incorporadas por referência como se aqui fossem totalmente estabelecidas.
[00250] Pelo exposto, será apreciado que modalidades específicas da tecnologia foram descritas aqui para fins de ilustração, mas estruturas e funções conhecidas não foram mostradas ou descritas em detalhes para evitar obscurecer desnecessariamente a descrição das modalidades da tecnologia. Onde o contexto permitir, os termos no singular ou no plural também podem incluir o termo no plural ou no singular, respectivamente.
[00251] Além disso, a menos que a palavra “ou” seja expressamente limitada a significar apenas um único item exclusivo dos outros itens em referência a uma lista de dois ou mais itens, o uso de “ou” nessa lista deve ser interpretado como incluindo (a) qualquer item único da lista, (b) todos os itens da lista ou (c) qualquer combinação dos itens da lista. Além disso, o termo "compreendendo" é usado para significar a inclusão de pelo menos o(s) recurso(s) recitado(s), de modo que qualquer número maior do mesmo recurso e / ou tipos adicionais de outros recursos não sejam excluídos. Também será apreciado que modalidades específicas foram descritas aqui para fins de ilustração, mas que várias modificações podem ser feitas sem se desviar da tecnologia. Além disso, embora as vantagens associadas a certas modalidades da tecnologia tenham sido descritas no contexto dessas modalidades, outras modalidades também podem exibir essas vantagens, e nem todas as modalidades precisam necessariamente exibir essas vantagens para se enquadrarem no escopo da tecnologia. Por conseguinte, a divulgação e a tecnologia associada podem abranger outras modalidades não expressamente mostradas ou descritas aqui.

Claims (32)

REIVINDICAÇÕES
1. Método para detectar e/ou quantificar uma fonte doadora de ácido nucleico a partir de uma mistura, caracterizado pelo fato de que compreende: fornecer a mistura compreendendo moléculas de DNA de fita dupla alvo de uma ou mais fontes doadoras, em que as moléculas de DNA de fita dupla alvo contêm um ou mais polimorfismos genéticos; gerar uma leitura de sequência corrigida por erro para cada uma de uma pluralidade de moléculas de DNA de fita dupla alvo na mistura, compreendendo: ligar moléculas adaptadoras à pluralidade de fragmentos de DNA de fita dupla alvo para gerar uma pluralidade de moléculas de adaptador-DNA; gerar um conjunto de cópias de uma primeira fita original da molécula de adaptador-DNA e um conjunto de cópias de uma segunda fita original da molécula de adaptador-DNA; sequenciar uma ou mais cópias da primeira e da segunda fitas originais para fornecer uma sequência da primeira fita e uma sequência da segunda fita; e comparar a sequência da primeira fita e a sequência da segunda fita para identificar uma ou mais correspondências entre a sequência da primeira e da segunda fita; e identificar uma fonte doadora de ácido nucleico presente na mistura de ácido nucleico por deconvolução das leituras de sequência com erros corrigidos em genótipos individuais.
2. Método para detectar e/ou quantificar uma fonte doadora de ácido nucleico a partir de uma mistura, caracterizado pelo fato de que compreende: gerar dados de sequenciamento duplex a partir de dados de sequenciamento brutos, em que os dados de sequenciamento brutos são gerados a partir de uma mistura compreendendo moléculas de DNA de fita dupla alvo de uma ou mais fontes doadoras, e em que as moléculas de DNA de fita dupla alvo contêm um ou mais polimorfismos genéticos; e identificar uma fonte doadora de ácido nucleico presente na mistura de ácido nucleico por deconvolução das leituras de sequência com erros corrigidos em genótipos individuais.
3. Método, de acordo com a reivindicação 1 ou reivindicação 2, caracterizado pelo fato de que uma ou mais das fontes de doadores têm genótipos conhecidos.
4. Método, de acordo com a reivindicação 1 ou reivindicação 2, caracterizado pelo fato de que uma ou mais das fontes doadoras têm genótipos desconhecidos.
5. Método, de acordo com a reivindicação 1 ou reivindicação 2, caracterizado pelo fato de que a mistura compreende um ou mais genótipos individuais desconhecidos e em que a deconvolução das leituras de sequência com erros corrigidos em genótipos individuais compreende: identificar combinações de alelos de micro-haplótipos presentes em moléculas de DNA de fita dupla alvo individuais que mapeiam para um ou mais loci genéticos em uma sequência de referência; avaliar todas as proporções de mistura possíveis contra todos os genótipos possíveis presentes em cada locus genético dentro de um ou mais loci genéticos; e determinar uma lista de todos os genótipos individuais possíveis que se ajustam adequadamente às combinações de alelos de micro-haplótipos identificados e todas as proporções de mistura possíveis avaliadas.
6. Método, de acordo com a reivindicação 1 ou reivindicação 2, caracterizado pelo fato de que a mistura compreende um ou mais genótipos individuais conhecidos e em que a deconvolução das leituras de sequência com erros corrigidos em genótipos individuais compreende: identificar combinações de alelos de micro-haplótipos presentes em moléculas de DNA de fita dupla alvo individuais na mistura; somar as contagens totais de cada alelo doado de cada genótipo individual conhecido; e determinar uma proporção de mistura de cada genótipo conhecido presente na mistura.
7. Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que compreende ainda comparar um ou mais genótipos individuais a uma base de dados que compreende uma pluralidade de genótipos conhecidos para identificar uma ou mais fontes de doadores.
8. Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que a mistura compreende mais de uma fonte doadora e em que o método compreende ainda determinar a proporção de cada fonte doadora a partir de mais de uma fonte doadora presente na mistura, calculando o proporção de cada polimorfismo genético ou a proporção de uma combinação substancialmente única de polimorfismos genéticos presentes nas leituras de sequência com erros corrigidos.
9. Método, de acordo com qualquer uma das reivindicações 1 a 3 e 6 a 8, caracterizado pelo fato de que as moléculas de DNA de fita dupla alvo foram extraídas de uma ou mais amostras de sangue do cordão umbilical.
10. Método, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que as moléculas de DNA de fita dupla alvo foram extraídas de uma amostra forense.
11. Método, de acordo com qualquer uma das reivindicações 1 a 3 e 6 a 8, caracterizado pelo fato de que as moléculas de DNA de fita dupla alvo foram extraídas de um paciente com uma célula-tronco ou transplante de órgão.
12. Método, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que as moléculas de DNA de fita dupla alvo foram extraídas de um paciente e em que a identificação de uma ou mais fontes doadoras presentes na mistura inclui a medição de um nível de microquimerismo no paciente.
13. Método, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado pelo fato de que as moléculas de DNA de fita dupla alvo foram extraídas de uma amostra de tumor.
14. Método, de acordo com qualquer uma das reivindicações 1 a 13, caracterizado pelo fato de que compreende ainda quantificar uma abundância relativa de cada genótipo individual presente na mistura.
15. Método, de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que um ou mais polimorfismos genéticos compreendem um micro-haplótipo.
16. Método, de acordo com qualquer uma das reivindicações 1 e 3 a 15, caracterizado pelo fato de que gerar uma leitura de sequência com erros corrigidos para cada uma de uma pluralidade de moléculas de DNA de fita dupla alvo na mistura compreende ainda enriquecer seletivamente uma ou mais regiões genômicas direcionadas antes para o sequenciamento.
17. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que uma ou mais regiões genômicas direcionadas compreendem um sítio de micro-haplótipo no genoma.
18. Método, de acordo com qualquer uma das reivindicações 2-15, caracterizado pelo fato de que as moléculas de DNA de fita dupla alvo na mistura são enriquecidas seletivamente para uma ou mais regiões genômicas direcionadas antes de gerar dados de sequenciamento brutos.
19. Método, de acordo com a reivindicação 18, caracterizado pelo fato de que uma ou mais regiões genômicas direcionadas compreendem um sítio de micro-haplótipo no genoma.
20. Sistema para detectar e/ou quantificar uma fonte doadora de ácido nucleico a partir de uma mistura, caracterizado pelo fato de que compreende: uma rede de computadores para transmissão de informações relacionadas a dados de sequenciamento e dados de genótipo em que as informações incluem um ou mais dados brutos de sequenciamento, dados de sequenciamento duplex, informações de amostra e informações de genótipo; um computador cliente associado a um ou mais dispositivos de computação do usuário e em comunicação com a rede de computadores; um banco de dados conectado à rede de computadores para armazenar uma pluralidade de perfis de genótipo e registros de resultados do usuário; um módulo de sequenciamento duplex em comunicação com a rede de computadores e configurado para receber dados brutos de sequenciamento e solicitações do computador cliente para gerar dados de sequenciamento duplex, leituras de sequências de grupos de famílias que representam uma molécula original de ácido nucleico de fita dupla e comparar sequências representativas de fitas individuais uma com a outra para gerar dados de sequenciamento duplex; e um módulo de genótipo em comunicação com a rede de computador e configurado para identificar alelos de micro-haplótipo e calcular a abundância relativa da fonte doadora para gerar dados de genótipo.
21. Sistema, de acordo com a reivindicação 20, caracterizado pelo fato de que os perfis de genótipo compreendem informações de micro-haplótipo e/ou polimorfismo de nucleotídeo único (SNP) de uma pluralidade de fontes doadoras conhecidas.
22. Meio de armazenamento legível por computador não transitório, caracterizado pelo fato de que compreende instruções que, quando executadas por um ou mais processadores, executa um método como definido em qualquer uma das reivindicações 2 a 15 e 18 a 19.
23. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 22, caracterizado pelo fato de que compreende ainda instruções para calcular uma proporção de mistura de cada fonte doadora identificada.
24. Sistema de computador para realizar um método como definido em qualquer uma das reivindicações 2 a 15 e 18 a 19 para detectar e/ou quantificar uma fonte doadora de ácido nucleico a partir de uma mistura, o sistema, caracterizado pelo fato de que compreende: pelo menos um computador com um processador, memória, banco de dados e um meio de armazenamento legível por computador não transitório compreendendo instruções para o(s) processador(es), em que o(s) referido(s) processador(es) são configurados para executar as referidas instruções para realizar operações compreendendo os métodos como definidos em qualquer uma das reivindicações 2 a 15 e 18 a 19.
25. Meio legível por computador não transitório, cujo conteúdo faz com que pelo menos um computador execute um método para fornecer dados de sequenciamento duplex para moléculas de ácido nucleico de fita dupla em uma amostra compreendendo uma mistura de material de fonte doadora, o método, caracterizado pelo fato de que compreende: receber dados de sequência bruta de um dispositivo de computação do usuário; criar um conjunto de dados específicos de amostra compreendendo uma pluralidade de leituras de sequência bruta derivadas de uma pluralidade de moléculas de ácido nucleico na amostra; as leituras de sequência de agrupamento de famílias que representam uma molécula original de ácido nucleico de fita dupla, em que o agrupamento é baseado em uma sequência de identificador de molécula única compartilhada; comparar uma sequência da primeira fita e a sequência da segunda fita a partir de uma molécula original de ácido nucleico de fita dupla para identificar uma ou mais correspondências entre as leituras de sequência da primeira e da segunda fitas; fornecer dados de sequenciamento duplex para as moléculas de ácido nucleico de fita dupla na amostra; e identificar combinações de alelos de micro-haplótipos presentes em moléculas de ácido nucleico de fita dupla individuais na amostra para identificar uma ou mais fontes de doadores na mistura.
26. Meio legível por computador, de acordo com a reivindicação 25, caracterizado pelo fato de que compreende ainda calcular uma proporção de mistura de cada fonte doadora identificada.
27. Meio legível por computador, de acordo com a reivindicação 25 ou reivindicação 26, caracterizado pelo fato de que compreende ainda identificar posições de nucleotídeos de não complementaridade entre a primeira e segunda leituras de sequência comparadas, em que o método compreende ainda, em posições de não complementaridade, identificar e eliminar ou descontar erros de processo.
28. Meio legível por computador não transitório, cujo conteúdo faz com que pelo menos um computador execute um método para detectar, identificar e quantificar micro-haplótipos presentes em misturas de ácido nucleico para determinar genótipos de origem conhecidos de uma amostra, o método caracterizado pelo fato de que compreende: identificar combinações de alelos de micro-haplótipos presentes em moléculas de DNA individuais em uma mistura; somar as contagens totais de cada alelo doado de cada fonte de genótipo conhecido; e determinar uma proporção de mistura de cada genótipo presente na mistura.
29. Meio legível por computador, de acordo com a reivindicação 28, caracterizado pelo fato de que calcular uma proporção de mistura inclui utilizar um modelo baseado em regressão.
30. Meio legível por computador, de acordo com a reivindicação 28 ou reivindicação 29, caracterizado pelo fato de que compreende ainda comparar a proporção de mistura determinada de cada genótipo com uma proporção de mistura original.
31. Meio legível por computador não transitório, cujo conteúdo faz com que pelo menos um computador execute um método para deconvoluir misturas de ácido nucleico de genótipos desconhecidos em uma amostra, o método caracterizado pelo fato de que compreende: identificar combinações de alelos de micro-haplótipos presentes em moléculas de DNA individuais em uma mistura; avaliar todas as proporções de mistura possíveis contra todos os genótipos possíveis presentes em cada locus genético; e determinar uma lista de todos os genótipos possíveis que se ajustam adequadamente às combinações de alelos de micro-haplótipos identificados e todas as proporções de mistura possíveis avaliadas.
32. Meio legível por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que compreende ainda comparar os possíveis genótipos dos genótipos desconhecidos na amostra com um banco de dados que compreende perfis de genótipo de fontes conhecidas para identificar uma fonte doadora.
BR112020023296-3A 2018-05-16 2019-05-16 métodos e reagentes para resolver misturas de ácido nucleico e populações de células mistas e aplicações associadas BR112020023296A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862672573P 2018-05-16 2018-05-16
US62/672,573 2018-05-16
US201962811517P 2019-02-27 2019-02-27
US62/811,517 2019-02-27
PCT/US2019/032755 WO2019222560A1 (en) 2018-05-16 2019-05-16 Methods and reagents for resolving nucleic acid mixtures and mixed cell populations and associated applications

Publications (1)

Publication Number Publication Date
BR112020023296A2 true BR112020023296A2 (pt) 2021-05-04

Family

ID=68540783

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020023296-3A BR112020023296A2 (pt) 2018-05-16 2019-05-16 métodos e reagentes para resolver misturas de ácido nucleico e populações de células mistas e aplicações associadas

Country Status (10)

Country Link
US (1) US20210292836A1 (pt)
EP (1) EP3794120A4 (pt)
JP (1) JP7497879B2 (pt)
KR (1) KR20210013061A (pt)
CN (1) CN112218956A (pt)
AU (1) AU2019269635A1 (pt)
BR (1) BR112020023296A2 (pt)
CA (1) CA3099819A1 (pt)
SG (1) SG11202011050TA (pt)
WO (1) WO2019222560A1 (pt)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
US11332784B2 (en) 2015-12-08 2022-05-17 Twinstrand Biosciences, Inc. Adapters, methods, and compositions for duplex sequencing
CN116497103A (zh) 2017-01-18 2023-07-28 伊鲁米那股份有限公司 制备测序衔接子的方法和对核酸分子进行测序的方法
CA3060369A1 (en) 2017-05-01 2018-11-08 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
AU2018266377B2 (en) 2017-05-08 2024-06-20 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
SG11202003885UA (en) 2017-11-08 2020-05-28 Twinstrand Biosciences Inc Reagents and adapters for nucleic acid sequencing and methods for making such reagents and adapters
WO2020014693A1 (en) 2018-07-12 2020-01-16 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120034603A1 (en) * 2010-08-06 2012-02-09 Tandem Diagnostics, Inc. Ligation-based detection of genetic variants
US20130040375A1 (en) * 2011-08-08 2013-02-14 Tandem Diagnotics, Inc. Assay systems for genetic analysis
EP4234713A3 (en) * 2012-03-20 2024-02-14 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
TWI732771B (zh) * 2015-07-20 2021-07-11 香港中文大學 Dna混合物中組織之單倍型甲基化模式分析
US11332784B2 (en) * 2015-12-08 2022-05-17 Twinstrand Biosciences, Inc. Adapters, methods, and compositions for duplex sequencing
CN108885648A (zh) * 2016-02-09 2018-11-23 托马生物科学公司 用于分析核酸的系统和方法
WO2018175997A1 (en) * 2017-03-23 2018-09-27 University Of Washington Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
WO2019178577A1 (en) * 2018-03-15 2019-09-19 Twinstrand Biosciences, Inc. Methods and reagents for enrichment of nucleic acid material for sequencing applications and other nucleic acid material interrogations
WO2020014693A1 (en) * 2018-07-12 2020-01-16 Twinstrand Biosciences, Inc. Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications

Also Published As

Publication number Publication date
SG11202011050TA (en) 2020-12-30
JP7497879B2 (ja) 2024-06-11
EP3794120A4 (en) 2022-03-23
AU2019269635A1 (en) 2020-11-26
EP3794120A1 (en) 2021-03-24
JP2021524736A (ja) 2021-09-16
CN112218956A (zh) 2021-01-12
KR20210013061A (ko) 2021-02-03
US20210292836A1 (en) 2021-09-23
WO2019222560A1 (en) 2019-11-21
CA3099819A1 (en) 2019-11-21

Similar Documents

Publication Publication Date Title
BR112020023296A2 (pt) métodos e reagentes para resolver misturas de ácido nucleico e populações de células mistas e aplicações associadas
Kumar et al. Next-generation sequencing and emerging technologies
JP6946292B2 (ja) ゲノム分析のためのシステムおよび方法
US11845985B2 (en) Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
US20220119876A1 (en) Methods and reagents for efficient genotyping of large numbers of samples via pooling
US9670530B2 (en) Haplotype resolved genome sequencing
JP7009518B2 (ja) 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム
JP7009516B2 (ja) 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法
CN111357054A (zh) 用于区分体细胞变异和种系变异的方法和系统
US20200075124A1 (en) Methods and systems for detecting allelic imbalance in cell-free nucleic acid samples
US20200071754A1 (en) Methods and systems for detecting contamination between samples
NZ759848B2 (en) Liquid sample loading
NZ759848A (en) Method and apparatuses for screening
Bellos Statistical methods for elucidating copy number variation in high-throughput sequencing studies