BR112013016708B1 - Otimização de análise multigene de amostras de tumor - Google Patents

Otimização de análise multigene de amostras de tumor Download PDF

Info

Publication number
BR112013016708B1
BR112013016708B1 BR112013016708-4A BR112013016708A BR112013016708B1 BR 112013016708 B1 BR112013016708 B1 BR 112013016708B1 BR 112013016708 A BR112013016708 A BR 112013016708A BR 112013016708 B1 BR112013016708 B1 BR 112013016708B1
Authority
BR
Brazil
Prior art keywords
bait
tumor
subgenomic
gene
sample
Prior art date
Application number
BR112013016708-4A
Other languages
English (en)
Other versions
BR112013016708A2 (pt
Inventor
Sean R. Downing
Mirna Jarosz
Doron Lipson
Geoffrey Alan Otto
Alexander N. Parker
Mikhail G. Shapiro
Philip James Stephens
Roman Yelensky
Original Assignee
Foundation Medicine, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=46383525&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BR112013016708(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Foundation Medicine, Inc filed Critical Foundation Medicine, Inc
Publication of BR112013016708A2 publication Critical patent/BR112013016708A2/pt
Publication of BR112013016708B1 publication Critical patent/BR112013016708B1/pt

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/10Methods of screening libraries by measuring physical properties, e.g. mass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/143Multiplexing, i.e. use of multiple primers or probes in a single reaction, usually for simultaneously analyse of multiple analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/149Sequential reactions

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

otimização de análise multigene de amostras de tumor; aqui revelada fornece integração de um ou mais elementos otimizados incluindo seleção baseada em isca, alinhamento, e chamada de mutação, conforme aplicado, por exemplo, para conjuntos otimizados de intervalos subgenômicos, por exemplo, conjuntos de segmentos relacionados a câncer do genoma descrito aqui. métodos descritos aqui fornecem análise de tumores baseada em sequenciamento de geração seguinte (ngs) que podem ser otimizados em uma base câncer por câncer, gene por gene e/ou sítio por sítio.

Description

Pedidos relacionados
Este pedido reivindica o benefício do Pedido Provisório US 61/428.568, depositado em 30 de dezembro de 2010; Pedido Provisório US 61/428.602, depositado em 30 de dezembro de 2010; Pedido Provisório US 61/428.626, depositado em 30 de dezembro de 2010; Pedido Provisório US 61/428.638, depositado em 30 de dezembro de 2010; Pedido Provisório US 61/467.798, depositado 25 de março de 2011; Pedido Provisório US 61/467.748, depositado 25 de março de 2011; Pedido Provisório US 61/486.006, depositado 13 de maio de 2011; Pedido Provisório US 61/486.012, depositado 13 de maio de 2011; Pedido Provisório US 61/486.026, depositado 13 de maio de 2011; Pedido Provisório US 61/486.033, depositado 13 de maio de 2011; e Pedido Provisório US 61/552.884, depositado 28 de outubro de 2011. Os conteúdos desses pedidos anteriores são incorporados aqui como referência em suas totalidades.
Fundamentos da invenção
A invenção refere-se aos métodos otimizados para analisar ácidos nucleicos de amostras de tumores, por exemplo, métodos contendo seleção de ácido nucleico otimizada integrada, alinhamento de leitura, e chamada de mutação.
Sumário da invenção
Métodos revelados aqui fornecem integração de um ou mais elementos otimizados incluindo seleção baseada em isca, alinhamento, e chamada de mutação, conforme aplicado, por exemplo, para conjuntos otimizados de intervalos subgenômicos, por exemplo, conjuntos de segmentos relacionados a câncer do genoma descrito aqui. Métodos descritos aqui fornecem análise de tumores baseada em sequenciamento de geração seguinte (NGS) que podem ser otimizados em uma base câncer por câncer, gene por gene e/ou sítio por sítio.
Assim, em um aspecto, a invenção caracteriza um método para analisar uma amostra de tumor. O método compreende:(a) adquirir uma biblioteca compreendendo uma pluralidade de membros alvo, por exemplo, membros de tumor, a partir de uma amostra, por exemplo, uma amostra de tumor;(b) opcionalmente, contatar a biblioteca com um conjunto de isca (ou pluralidade de conjuntos de isca) para fornecer elementos selecionados (por vezes referido aqui como “captura de biblioteca”);(c) adquirir uma leitura para um intervalo subgenômico de um elemento de tumor da dita biblioteca ou captura de biblioteca, por exemplo, por sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura; e(e) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação, por exemplo, com um método Bayeisiano) da dita leitura para uma posição de nucleotídeo pré-selecionada, por exemplo, para uma posição de nucleotídeo pré-selecionada em cada um de uma pluralidade de intervalos subgenômicos, por exemplo, cada um de uma pluralidade de genes,assim, analisando dita amostra, em que:(i) cada uma das X posições de nucleotídeos é analisada sob um conjunto único de condições para um ou uma combinação de conjuntos (b), (c), (d), ou (e) (em que único significa diferente de outros conjuntos de condições X-1 e em que X é pelo menos 2, 5, 10, 20, 30, 40, 50, 100, 200, 300 ou 500). Por exemplo, um primeiro conjunto de condições, por exemplo, um conjunto de condições descrito aqui, é usado para uma primeira posição de nucleotídeo, por exemplo, em um primeiro intervalo subgenômico ou gene, e um segundo conjunto de condições, por exemplo, um segundo conjunto de condições descrito aqui, é usado para uma segunda posição de nucleotídeo, por exemplo, em um segundo intervalo subgenômico ou gene;(ii) para cada uma das X posições de nucleotídeos, responsiva a uma característica, por exemplo, uma característica descrita aqui, de uma alteração pré-selecionada, por exemplo, mutação, que pode ocorrer na posição de nucleotídeo, a posição de nucleotídeo é analisada sob um conjunto único de condições (em que único significa diferente de outros conjuntos de condições X-1 e em que X é pelo menos 2, 5, 10, 20, 30, 40, 50, 100, 200, 300 ou 500). Por exemplo, responsiva a uma característica, por exemplo, uma característica descrita aqui, de uma alteração pré-selecionada, por exemplo, mutação, que pode ocorrer em uma posição de nucleotídeo em um primeiro intervalo subgenômico, a posição de nucleotídeo é analisada sob um primeiro conjunto de condições, e responsiva a uma característica, por exemplo, uma característica descrita aqui, de uma alteração pré-selecionada, por exemplo, mutação, que pode ocorrer em uma posição de nucleotídeo em um segundo intervalo subgenômico, a posição de nucleotídeo é analisada sob um segundo conjunto de condições; (iii) em que dito método é realizado em uma amostra, por exemplo, uma amostra de tumor preservada, sob condições que permitem 95, 98, ou 99% de sensibilidade ou especificidade para posições de nucleotídeo em pelo menos 2, 5, 10, 20, 50 ou 100 intervalos subgenômicos, por exemplo, genes; ou(iv) em que o método compreende um ou mais ou todos de:a) sequenciar um primeiro intervalo subgenômico para fornecer por cerca de 500X ou maior profundidade de sequenciamento, por exemplo, para sequenciar uma mutação presente em não mais do que 5 % das células da amostra;b) sequenciar um segundo intervalo subgenômico para fornecer por cerca de 200X ou maior, por exemplo, cerca de 200X a cerca de 500X profundidade de sequenciamento, por exemplo, para sequenciar uma mutação presente em não mais do que 10 % das células da amostra;c) sequenciar um terceiro intervalo subgenômico para fornecer por cerca de 10100X profundidade de sequenciamento, por exemplo, para sequenciar um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de: a) um polimorfismo de nucleotídeo único (SNP) farmacogenômico (PGx) que pode explicar a capacidade do paciente metabolizar diferentes drogas, ou b) um SNPs genômico que pode ser usado para unicamente identificar (por exemplo, fingerprint) um paciente; d) sequenciar um quarto intervalo subgenômico para fornecer por cerca de 5-50 X de profundidade de sequenciamento, por exemplo, para detectar um ponto de quebra estrutural, como uma translocação genômica ou uma indel. Por exemplo, a detecção de um ponto de quebra intrônico necessita de profundidade abrangendo par de sequência 550X para garantir alta confiabilidade de detecção. Estes conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos a translocação/indel; oue) sequenciar um quinto intervalo subgenômico para fornecer por cerca de 0,1300X de profundidade de sequenciamento, por exemplo, para detectar mudanças de número de cópia. Em uma modalidade, a profundidade de sequenciamento varia de cerca de 0,1-10X de profundidade de sequenciamento para detectar mudanças de número de cópia. Em outras modalidades, a profundidade de sequenciamento varia de cerca de 100300X para detectar SNPs genômico/loci que é usado para avaliar ganhos/perdas de número de cópia de DNA genômico ou perda de heterogosidade (LOH).
Primeiros e segundos conjuntos de condições exemplares incluem aqueles em que:um primeiro conjunto de isca é usado para o primeiro intervalo subgenômico e um segundo conjunto de isca é usado para o segundo intervalo subgenômico;um primeiro método de alinhamento é aplicado a uma leitura para o primeiro intervalo subgenômico e um segundo método de alinhamento é aplicado a uma leitura para o segundo intervalo subgenômico;um primeiro método de chamada de mutação é aplicado a uma posição de nucleotídeo do primeiro intervalo subgenômico e um dito segundo método de chamada de mutação é aplicado a uma posição de nucleotídeo do segundo intervalo subgenômico.
Em uma modalidade:uma primeira posição de nucleotídeo é analisada com uma primeira condição de conjunto de isca, um primeiro método de alinhamento, e um primeiro método de chamada de mutação;uma segunda posição de nucleotídeo é analisada com dita primeira condição de conjunto de isca, um segundo método de alinhamento, e dito primeiro método de chamada de mutação;uma terceira posição de nucleotídeo é analisada com dita primeira condição de conjunto de isca, dito primeiro método de alinhamento, e um dito segundo método de chamada de mutação,para fornecer três posições de nucleotídeo cada uma analisada sob condições únicas, comparado às outras duas condições.
Em uma modalidade, as condições compreendem aquelas em que:um primeiro conjunto de isca é usado para o primeiro intervalo subgenômico e um segundo conjunto de isca é usado para o segundo intervalo subgenômico;um primeiro método de alinhamento é aplicado a uma leitura para o primeiro intervalo subgenômico e um segundo método de alinhamento é aplicado a uma leitura para o segundo intervalo subgenômico; ou um primeiro método de chamada de mutação é aplicado a uma posição de nucleotídeo do primeiro intervalo subgenômico e um dito segundo método de chamada de mutação é aplicado a uma posição de nucleotídeo do segundo intervalo subgenômico.
Características exemplares incluem:(i) o gene, ou tipo de gene, em que a alteração está localizada, por exemplo, um oncogene ou supressão de tumor, um gene ou tipo de gene caracterizado por uma variante pré-selecionada ou tipo de variante, por exemplo, uma mutação, ou por uma mutação de uma frequência pré-selecionada, ou outro gene ou tipo de gene descrito aqui;(ii) o tipo de alteração, por exemplo, uma substituição, inserção, deleção, ou translocação;(iii) o tipo de amostra, por exemplo, uma amostra FFPE, sendo analisado para uma alteração;(iv) sequência na ou próximo à dita uma posição de nucleotídeo de uma alteração sendo avaliada, por exemplo, sequência que pode afetar a propensão esperada para desalinhamento para o intervalo subgenômico, por exemplo, a presença de sequências repetidas em ou próximo à posição do nucleotídeo;(v) uma expectativa anterior (por exemplo, literatura) de observar uma leitura mostrando a alteração, por exemplo, mutação, por exemplo, em um tumor de tipo pré-selecionado;(vi) a probabilidade de observar uma leitura que mostra a alteração devido a um erro isolado de chamada de base; ou(vii) uma profundidade pré-selecionada de sequenciamento desejado para detectar a alteração.
Em uma modalidade, as características são diferentes da identidade do nucleotídeo sendo sequenciado, ou seja, a característica não é se a sequência é a ou t.
Em uma modalidade, a etapa (b) está presente. Em uma modalidade, a etapa (b) está ausente.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes, por exemplo, pelo menos X genes das Tabelas 1 e 1A, por exemplo, genes tendo a anotação de prioridade 1 na Tabela 1 e 1A, são analisados sob condições diferentes, e X é igual a 2, 3, 4, 5, 10, 15, 20, ou 30.
Em uma modalidade, o método compreende um ou mais do seguinte:(i) o método, por exemplo, (b) do método acima, compreende o uso de um conjunto de isca descrito aqui, por exemplo, um conjunto de isca conforme descrito sob o título Isca, ou no Módulo de ISCA;(ii) o método, por exemplo, (c) do método acima, compreende adquirir leituras para um conjunto ou grupo de intervalos subgenômicos ou de um conjunto ou grupo de genes descrito aqui;(iii) o método, por exemplo, (d) do método acima, compreende o uso de uma pluralidade de métodos de alinhamento descritos aqui, por exemplo, métodos descritos sob o título Alinhamento, ou no Módulo Alinhamento;(iv) o método, por exemplo, (e) do método acima, compreende o uso de uma pluralidade de métodos para atribuir um dito valor de nucleotídeo para uma posição de nucleotídeo pré-selecionada, descrita aqui, por exemplo, métodos descritos sob o título Chamada de Mutação, ou no Módulo Chamada de Mutação ou na seção intitulada “A Bayesian Approach for Sensitive Detection of Somatic Genomic Alterations from Nextgeneration Sequencing of Clinical Cancer Specimens;” ou (v) o método compreende atribuir um dito valor de nucleotídeo para um conjunto de intervalos subgenômicos descritos aqui, por exemplo, nas seções intituladas “Seleção de Gene ou Módulo de Seleção de Gene.”
Em uma modalidade, o método inclui: (i) e um, dois, três, ou todos de (ii)-(v).
Em uma modalidade, o método inclui: (ii) e um, dois, três, ou todos de (i) e (iii)-(v).
Em uma modalidade, o método inclui: (iii) e um, dois, três, ou todos de (i), (ii), (iv) e (v).
Em uma modalidade, o método inclui: (iv) e um, dois, três, ou todos de (i)-(iii) e (v).
Em uma modalidade, o método inclui: (v) e um, dois, três, ou todos de (i)-(iv).
Alinhamento
Métodos aqui revelados podem integrar o uso de vários métodos de alinhamento ou algoritmos ajustados individualmente, para otimizar o desempenho em métodos de sequenciamento, particularmente em métodos que se baseiam no sequenciamento paralelo em massa de um grande número de diversos eventos genéticos em um grande número de diversos genes, por exemplo, métodos para analisar amostras de tumores. Em modalidades, vários métodos de alinhamento que são personalizados ou ajustados individualmente para cada um de uma série de variantes em genes diferentes são usados para analisar as leituras. Em modalidades, o ajuste pode ser uma função de (um ou mais) gene (ou outro intervalo subgenômico) sendo sequenciado, o tipo de tumor na amostra, uma variante sendo sequenciada, ou uma característica da amostra ou o sujeito. A seleção ou uso das condições de alinhamento que são ajustadas individualmente a uma série de intervalos subgenômicos a serem sequenciados permite a otimização da velocidade, sensibilidade e especificidade. O método é particularmente eficiente quando os alinhamentos das leituras para um número relativamente grande de diversos intervalos subgenômicos são otimizados.
Assim, em um aspecto, a invenção caracteriza um método para analisar uma amostra, por exemplo, uma amostra de tumor. O método compreende:(a) adquirir uma biblioteca compreendendo uma pluralidade de elementos de uma amostra, por exemplo, uma pluralidade de elementos de tumor de uma amostra de tumor;(b) opcionalmente, enriquecer a biblioteca para sequências pré-selecionadas, por exemplo, contatando a biblioteca com um conjunto de isca (ou pluralidade de conjuntos de isca) para fornecer elementos selecionados (por vezes referido aqui como captura de biblioteca);(c) adquirir uma leitura para um intervalo subgenômico de um membro, por exemplo, um membro tumor da dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação, por exemplo, com um método Bayesiano) de dita leitura para posição de nucleotídeo pré-selecionada,assim analisar dita amostra de tumor,em que uma leitura de cada um dos X intervalos subgenômicos únicos é alinhada com um método de alinhamento único, em que intervalo subgenômico único significa diferente de outros intervalos subgenômicos X-1, e em que método de alinhamento único significa diferente de outros métodos de alinhamento X-1, e X é pelo menos 2.
Em uma modalidade, a etapa (b) está presente. Em uma modalidade a etapa (b) está ausente.
Em uma modalidade, X é pelo menos 3, 4, 5, 10, 15, 20, 30, 50, 100, 500, ou 1.000.
Em uma modalidade intervalos subgenômicos de pelo menos X genes, por exemplo, pelo menos X genes das Tabelas 1 e 1A, por exemplo, genes contendo a anotação de prioridade 1 na Tabela 1 e 1A, são alinhados com métodos de alinhamento únicos, e X é igual a 2, 3, 4, 5, 10, 15, 20, ou 30.
Em uma modalidade, um método (por exemplo, elemento (d) do método recitado acima) compreende selecionar ou usar um método de alinhamento para analisar, por exemplo, alinhar, uma leitura, em que dito método de alinhamento é uma função de, é selecionado responsivo à, ou é otimizado para, um ou mais ou todos de:(i) tipo de tumor, por exemplo, o tipo de tumor na dita amostra;(ii) o gene, ou tipo de gene, em que dito intervalo subgenômico sendo sequenciado está localizado, por exemplo, um gene ou tipo de gene caracterizado por uma variante pré-selecionada ou tipo de variante, por exemplo, uma mutação, ou por uma mutação de uma frequência pré-selecionada;(iii) o sítio (por exemplo, posição de nucleotídeo) sendo analisado;(iv) o tipo de variante, por exemplo, uma substituição, com o intervalo subgenômico sendo avaliado;(v) o tipo de amostra, por exemplo, uma amostra FFPE; e(vi) sequência em ou próximo ao dito intervalo subgenômico sendo avaliado, por exemplo, a propensão esperada para desalinhamento para dito intervalo subgenômico, por exemplo, a presença de sequências repetidas em ou próximo ao dito intervalo subgenômico.
Conforme referido em outro lugar aqui, um método é particularmente eficiente quando o alinhamento de leituras para um número relativamente grande de intervalos subgenômicos é otimizado. Assim, em uma modalidade, pelo menos X métodos de alinhamento único são utilizados para analisar leituras para pelo menos X intervalos subgenômicos únicos, em que único significa diferente do outro X-1, e X é igual a 2, 3, 4, 5, 10, 15, 20, 30, 50, 100, 500, ou 1.000.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes das Tabelas 1 e 1A, por exemplo, contendo a anotação de prioridade 1 na Tabela 1 e 1A, são analisados, e X é igual a 2, 3, 4, 5, 10, 15, 20, ou 30.
Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100 genes diferentes.
Em uma modalidade, à posição de nucleotídeo em pelo menos 20, 40, 60, 80, 100, 120, 140, 160 ou 180 genes, por exemplo, genes das Tabelas 1 e 1A, é atribuído um valor de nucleotídeo. Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40, ou 50% dos ditos genes analisados.
Métodos revelados aqui permitem o alinhamento rápido e eficiente de leituras problemáticas, por exemplo, uma leitura contendo rearranjo. Assim, em uma modalidade onde uma leitura para um intervalo subgenômico compreende uma posição de nucleotídeo com um rearranjo, por exemplo, uma indel, o método pode compreender o uso de um método de alinhamento que é apropriadamente ajustado e que inclui:selecionar uma sequência de referência de rearranjo para alinhamento com uma leitura, em que dita sequência de referência de rearranjo é pré-selecionada para alinhar com um rearranjo pré-selecionado (em modalidades a sequência de referência não é idêntica ao rearranjo genômico);comparar, por exemplo, alinhar, uma leitura com dita sequência de referência de rearranjo pré- selecionada.
Em modalidades, outros métodos são utilizados para alinhar leituras problemáticas. Estes métodos são particularmente eficientes quando o alinhamento de leituras para um número relativamente grande de diversos intervalos subgenômicos é otimizado. A título de exemplo, um método para analisar uma amostra de tumor pode compreender:realizar uma comparação, por exemplo, uma comparação de alinhamento, de uma leitura sob um primeiro conjunto de parâmetros (por exemplo, um primeiro algoritmo de mapeamento ou com uma primeira sequência de referência), e determinando se dita leitura atende a um primeiro critério de alinhamento pré- deteminado (por exemplo, a leitura pode ser alinhada com dita primeira sequência de referência, por exemplo, com menos de um número pré-selecionado de desemparelhamentos);se a dita leitura falhar em atender ao primeiro critério de alinhamento pré-determinado, realizar uma segunda comparação de alinhamento sob um segundo conjunto de parâmetros, (por exemplo, um segundo algoritmo de mapeamento ou com uma segunda sequência de referência); e,opcionalmente, determinar se dita leitura atende dito segundo critério pré-determinado (por exemplo, a leitura pode ser alinhada com dita segunda sequência de referência com menos de um número pré- selecionado de desemparelhamentos),em que dito segundo conjunto de parâmetros compreende uso de um conjunto de parâmetros, por exemplo, dita segunda sequência de referência, que, comparada com dito primeiro conjunto de parâmetros, é mais provável que resulte em um alinhamento com uma leitura para uma variante pré-selecionada, por exemplo, um rearranjo, por exemplo, uma inserção, deleção, ou translocação.
Este e outros métodos de alinhamento são discutidos em mais detalhe em outro lugar aqui, por exemplo, na seção intitulada “Módulo de Alinhamento.” Elementos deste módulo podem ser incluídos em métodos para analisar um tumor. Em modalidades, métodos de alinhamento do “Módulo de Alinhamento” são combinados com métodos de chamada de mutação do “Módulo Chamada de Mutação” e/ou um conjunto de isca do “Módulo de Isca.” O método pode ser aplicado para um conjunto de intervalos subgenômicos do “Módulo de Seleção de Gene.”
Chamada de Mutação
Métodos revelados aqui podem integrar o uso de parâmetros de chamada de mutação customizados ou ajustados para otimizar o desempenho em métodos de sequenciamento, particularmente em métodos que se baseiam no sequenciamento paralelo em massa de um grande número de eventos genéticos diversos em um grande número de genes diversos, por exemplo, de amostras de tumores. Em modalidades do método de chamada de mutação para cada um de um número de intervalos subgenômicos pré-selecionados é, individualmente, customizado ou finamente ajustado. A customização ou ajuste pode ser baseado em um ou mais dos fatores descritos aqui, por exemplo, o tipo de câncer em uma amostra, o gene em que o intervalo subgenômico a ser sequenciado está localizado, ou uma variante a ser sequenciada. Esta seleção ou uso das condições de alinhamento finamente ajustadas para uma série de intervalos subgenômicos a serem sequenciados permite otimização da velocidade, sensibilidade e especificidade. O método é particularmente eficiente quando o alinhamento de leituras para um número relativamente grande de diversos intervalos subgenômicos é otimizado.
Assim, em um aspecto, a invenção caracteriza um método para analisar uma amostra, por exemplo, uma amostra de tumor. O método compreende:(a) adquirir uma biblioteca compreendendo uma pluralidade de elementos de uma amostra, por exemplo, uma pluralidade de elementos de tumor da amostra, por exemplo, a amostra de tumor;(b) opcionalmente, enriquecer a biblioteca para sequências pré-selecionadas, por exemplo, ao contatar a biblioteca com um conjunto de isca (ou pluralidade de conjuntos de isca) para fornecer elementos selecionados, por exemplo, uma captura de biblioteca;(c) adquirir uma leitura para um intervalo subgenômico de um membro, por exemplo, um membro tumor da dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação, por exemplo, com um método Bayesiano ou um método de chamada descrito aqui) de dita leitura para posição de nucleotídeo pré- selecionada,assim analisar dita amostra de tumor.em que um valor de nucleotídeo é atribuído para uma posição de nucleotídeo em cada um de X intervalos subgenômicos únicos é atribuído por um método de chamada único, em que intervalo subgenômico único significa diferente de outros intervalos subgenômicos X-1, e em que o método de chamada único significa diferente de outros métodos de chamada X-1, e X é pelo menos 2. Os métodos de chamada podem diferir, e, assim, serem únicos, por exemplo, baseando-se em valores anteriores Bayesianos diferentes.
Em uma modalidade, a etapa (b) está presente. Em uma modalidade, a etapa (b) está ausente.
Em uma modalidade, atribuir dito valor de nucleotídeo é uma função de um valor que é ou representa a expectativa anterior (por exemplo, literatura) de observar uma leitura mostrando uma variante pré-selecionada, por exemplo, uma mutação, em dita posição de nucleotídeo pré-selecionada em um tumor de tipo.
Em uma modalidade, o método compreende atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) para pelo menos 10, 20, 40, 50, 60, 70, 80, 90, ou 100 posições de nucleotídeo pré- selecionadas, em que cada atribuição é uma função de um único valor (ao contrário do valor para as outras atribuições) que é ou representa a expectativa anterior (por exemplo, literatura) de observar uma leitura mostrando uma variante pré-selecionada, por exemplo, uma mutação, em dita posição de nucleotídeo pré- selecionada em um tumor de tipo.
Em uma modalidade, atribuir dito valor de nucleotídeo é uma função de um conjunto de valores que representa as probabilidades de observar uma leitura que mostra dita variante pré-selecionada em dita posição de nucleotídeo pré-selecionada se uma variante está presente na amostra em uma frequência (por exemplo, 1%, 5%, 10%, etc.) e/ou se uma variante está ausente (por exemplo, observado nas leituras devido a um erro isolado de chamada de base).
Em uma modalidade, um método (por exemplo, elemento (e) do método recitado acima) compreende um método de chamada de mutação. Os métodos de chamada de mutação descritos aqui podem incluir os seguintes:adquirir, para uma posição de nucleotídeo pré-selecionado em cada um dos ditos X intervalos subgenômicos:(i) um primeiro valor que é ou representa a expectativa anterior (por exemplo, literatura) de observar uma leitura mostrando uma variante pré-selecionada, por exemplo, uma mutação, em dita posição de nucleotídeo pré-selecionada em um tumor de tipo X; e(ii) um segundo conjunto de valores que representa as probabilidades de observar uma leitura que mostra dita variante pré-selecionada em dita posição de nucleotídeo pré-selecionada se uma variante está presente na amostra em uma frequência (por exemplo, 1%, 5%, 10%, etc.) e/ou se uma variante está ausente (por exemplo, observado nas leituras devido a um erro isolado de chamada de base);responsividade aos ditos valores, atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) das ditas leituras pra cada uma das ditas posições pré-selecionadas de nucleotídeo por pesagem, por exemplo, por um método Bayesiano descrito aqui, comparação entre os valores no segundo conjunto usando o primeiro valor (por exemplo, computando a probabilidade posterior da presença de uma mutação), assim, analisando dita amostra.
Em uma modalidade, o método compreende um ou mais ou todos de:(i) atribuir um dito valor de nucleotídeo (por exemplo, chamar uma mutação) para pelo menos 10, 20, 40, 50, 60, 70, 80, 90, ou 100 posições de nucleotídeo pré-selecionadas, em que cada atribuição é baseada em primeiros e/ou segundos valores únicos (ao contrário de outras atribuições);(ii) a atribuição do método de (i), em que pelo menos 10, 20, 30 ou 40 das atribuições são feitas com primeiros valores que são uma função de uma probabilidade de uma variante pré-selecionada estando presente em menos do que 5, 10, ou 20%, por exemplo, das células em um tipo de tumor pré-selecionado;(iii) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) para pelo menos X posições de nucleotídeo pré-selecionadas, cada uma das quais sendo associada com uma variante pré- selecionada contendo uma única (ao contrário das outras atribuições X-1) probabilidade de estar presente em um tumor de tipo pré-selecionado, por exemplo, o tipo de tumor da dita amostra, em que, opcionalmente, cada uma das ditas atribuições X é baseada em primeiros e/ou segundos valores únicos (ao contrário de outras atribuições X-1) (em que X= 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100); (iv) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) em uma primeira e segunda posição de nucleotídeo, em que a probabilidade de uma primeira variante pré-selecionada na dita primeira posição de nucleotídeo estando presente em um tumor de tipo pré-selecionado (por exemplo, o tipo de tumor da dita amostra) é pelo menos 2, 5, 10, 20, 30, ou 40 vezes maior do que a probabilidade de uma segunda variante pré-selecionada na dita segunda posição de nucleotídeo estando presente, em que, opcionalmente, cada atribuição é baseada em primeiros e/ou segundos valores únicos (ao contrário de outras atribuições);(v) atribuir um dito valor de nucleotídeo para uma pluralidade de posições pré-selecionadas de nucleotídeo (por exemplo, chamadas de mutação), em que dita pluralidade compreende uma atribuição para variantes caindo em uma ou mais, por exemplo, pelo menos 3, 4, 5, 6, 7, ou todas, dos seguintes intervalos de probabilidade:menos do que 0,01; 0,01-0,02;mais do que 0,02 e menos do que ou igual a 0,03;mais do que 0,03 e menos do que ou igual a 0,04;mais do que 0,04 e menos do que ou igual a 0,05;mais do que 0,05 e menos do que ou igual a 0,1;mais do que 0,1 e menos do que ou igual a 0,2;mais do que 0,2 e menos do que ou igual a 0,5;mais do que 0,5 e menos do que ou igual a 1,0;mais do que 1,0 e menos do que ou igual a 2,0;mais do que 2,0 e menos do que ou igual a 5,0;mais do que 5,0 e menos do que ou igual a 10,0;mais do que 10,0 e menos do que ou igual a 20,0;mais do que 20,0 e menos do que ou igual a 50,0; emais do que 50 e menos do que ou igual a 100,0 %;em que, uma probabilidade varia no intervalo de probabilidades que uma variante pré-selecionada em uma posição de nucleotídeo pré-selecionada estará presente em um tumor de tipo pré-selecionado (por exemplo, o tipo de tumor da dita amostra) ou a probabilidade que uma variante pré-selecionada em uma posição de nucleotídeo pré-selecionada estará presente na % das células recitada em uma amostra de tumor, uma biblioteca de uma amostra de tumor, ou captura de biblioteca dessa biblioteca, para um tipo pré- selecionado (por exemplo, o tipo de tumor da dita amostra), eem que, opcionalmente, cada atribuição é baseada em primeiros e/ou segundos valores únicos (por exemplo, único ao contrário de outras atribuições em um intervalo de probabilidade recitado ou único ao contrário dos primeiros e/ou segundos valores para uma ou mais ou todas do outro intervalo de probabilidades listado).(vi) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) para pelo menos 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100 posições pré-selecionadas de nucleotídeo cada, independentemente, contendo uma variante pré-selecionada presente em menos do que 50, 40, 25, 20, 15, 10, 5, 4, 3, 2, 1, 0,5, 0,4, 0,3, 0,2, ou 0,1 % do DNA na dita amostra, em que, opcionalmente, cada atribuição é baseada em primeiros e/ou segundos valores únicos (ao contrário de outras atribuições);(vii) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) em uma primeira e segunda posição de nucleotídeo, em que a probabilidade de uma variante pré-selecionada na primeira posição no DNA da dita amostra é pelo menos 2, 5, 10, 20, 30, ou 40 vezes maior do que a probabilidade de uma variante pré-selecionada na dita segunda posição de nucleotídeo no DNA da dita amostra, em que, opcionalmente, cada atribuição é baseada em primeiros e/ou segundos valores únicos (ao contrário de outras atribuições);(viii) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) em um ou mais ou todos dos seguintes:(1) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em menos do que 1,0 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca;(2) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em 1,0 a 2,0 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca ;(3) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 2,0% e menos do que ou igual a 3% das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca(4) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 3,0 % e menos do que ou igual a 4 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca;(5) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 4,0 % e menos do que ou igual a 5 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca;(6) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 5,0 % e menos do que ou igual a 10 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca;(7) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 10,0 % e menos do que ou igual a 20 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca;(8) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 20,0 % e menos do que ou igual a 40 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca;(9) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 40,0 % e menos do que ou igual a 50 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca; ou(10) pelo menos 1, 2, 3, 4 ou 5 posições pré-selecionadas de nucleotídeo contendo uma variante pré- selecionada presente em mais do que 50,0 % e menos do que ou igual a 100 % das células na dita amostra, do ácido nucleico em uma biblioteca da dita amostra, ou o ácido nucleico em uma captura de biblioteca dessa biblioteca;em que, opcionalmente, cada atribuição é baseada em primeiros e/ou segundos valores únicos (por exemplo, único ao contrário de outras atribuições no intervalo recitado (por exemplo, o intervalo em (i) de menos do que 1%) ou único ao contrário de primeiros e/ou segundos valores para uma determinação em um ou mais ou todos os outros intervalos listados); ou(ix) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação) em cada uma das posições de nucleotídeo X, cada posição de nucleotídeo, independentemente, contendo uma probabilidade (de uma variante pré-selecionada estando presente no DNA da dita amostra) de ser único quando comparado com uma probabilidade para uma variante pré-selecionada nas outras posições de nucleotídeo X-1, em que X é igual a ou mais do que 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100, e em que cada atribuição é baseada em primeiros e/ou segundos valores únicos (ao contrário de outras atribuições).
Em modalidades do método, um “valor de limiar” é utilizado para avaliar leituras, e selecionar a partir das leituras um valor para uma posição de nucleotídeo, por exemplo, chamada de mutação em uma posição específica em um gene. Em modalidades do método, um valor de limiar para cada um de um número de intervalos subgenômicos pré-selecionados é customizado ou finamente ajustado. A customização ou ajuste pode ser baseado em um ou mais dos fatores descritos aqui, por exemplo, o tipo de câncer em uma amostra, o gene em que o intervalo subgenômico a ser sequenciado está localizado, ou uma variante a ser sequenciada. Isto fornece uma chamada que é finamente ajustada para cada um de uma série de intervalos subgenômicos a serem sequenciados. O método é particularmente eficiente quando um número relativamente grande de diversos intervalos subgenômicos é analisado.
Assim, em outra modalidade o método para analisar um tumor compreende o seguinte método de chamada de mutação:adquirir, para cada um dos ditos X intervalos subgenômicos , um valor de limiar, em que cada um dos ditos valores de limiar X adquiridos é único quando comparado com os outros valores de limiar X-1, assim fornecendo valores de limiar X únicos;para cada um dos ditos X intervalos subgenômicos , comparando um valor observado que é uma função do número de leituras contendo um valor de nucleotídeo pré-selecionado em uma posição de nucleotídeo pré-selecionada com seu valor de limiar único, assim aplicando para cada um dos ditos X intervalos subgenômicos , seu valor de limiar único: e opcionalmente, responsivo ao resultado da dita comparação, atribuir um dito valor de nucleotídeo para uma posição de nucleotídeo pré-selecionada,em que X é igual a ou mais do que 2.
Em uma modalidade, o método inclui atribuir um dito valor de nucleotídeo em pelo menos 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100 posições de nucleotídeo pré-selecionadas, cada uma contendo, independentemente, um primeiro valor que é uma função de uma probabilidade que é menos do que 0,5, 0,4, 0,25, 0,15, 0,10, 0,05, 0,04, 0,03, 0,02, ou 0,01.
Em uma modalidade, o método inclui atribuir um valor de nucleotídeo em cada um de pelo menos posições de nucleotídeo X, cada um independentemente contendo um primeiro valor que é único quando comparado com os outros primeiros valores X-1, e em que cada um dos ditos primeiros valores X é uma função de uma probabilidade que é menos do que 0,5, 0,4, 0,25, 0,15, 0,10, 0,05, 0,04, 0,03, 0,02, ou 0,01, em que X é igual a ou mais do que 1, 2 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100.
Em uma modalidade, à posição de nucleotídeo em pelo menos 20, 40, 60, 80, 100, 120, 140, 160 ou 180 genes, por exemplo, genes da Tabela 1, é atribuído um valor de nucleotídeo. Em uma modalidade, primeiros e/ou segundos valores únicos são aplicados para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40, ou 50% dos ditos genes analisados.
Modalidades do método podem ser aplicadas onde valores limiares para um número relativamente grande de intervalos subgenômicos são otimizados, como pode ser visto, por exemplo, a partir das seguintes modalidades.
Em uma modalidade, o valor de limiar único é aplicado para intervalos subgenômicos em cada um de pelo menos 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100 genes diferentes.
Em uma modalidade, à posição de nucleotídeo em pelo menos 20, 40, 60, 80, 100, 120, 140, 160 ou 180 genes, por exemplo, genes da Tabela 1, é atribuído um valor de nucleotídeo. Em uma modalidade o valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 10, 20, 30, 40, ou 50% dos ditos genes analisados.
Em uma modalidade, à posição de nucleotídeo em pelo menos 5, 10, 20, 30, ou 40 genes da Tabela 1 contendo a anotação de prioridade 1 é atribuído um valor de nucleotídeo. Em uma modalidade o valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 10, 20, 30, 40, ou 50% dos ditos genes analisados.
Esses e outros métodos de chamada de mutação são discutidos em mais detalhe em outro lugar aqui, por exemplo, na seção intitulada “Módulo Chamada de Mutação.” Elementos deste módulo podem ser incluídos em métodos para analisar um tumor. Em modalidades, métodos de alinhamento do “Módulo Chamada de Mutação” são combinados com métodos de alinhamento do “Módulo de Alinhamento” e/ou um conjunto de isca do “Módulo de Isca.” O método pode ser aplicado para um conjunto de intervalos subgenômicos do “Módulo de Seleção de Gene.”
Isca
Métodos descritos aqui fornecem sequenciamento otimizado de um grande número de genes e produtos de gene de amostras, por exemplo, amostras de tumor, de um ou mais sujeitos pela seleção apropriada de iscas, por exemplo, iscas para utilização em hibridização de solução, para a seleção de ácidos nucleicos alvo a serem sequenciados. A eficiência de seleção para diversos intervalos subgenômicos, ou classes dos mesmos, é combinada de acordo com conjuntos de isca contendo eficiência de seleção pré- selecionada. Conforme utilizado nesta seção, “eficiência de seleção” refere-se ao nível ou profundidade de cobertura de sequência como é ajustada de acordo com um intervalo subgenômico alvo.
Assim, um método (por exemplo, elemento (b) do método recitado acima) compreende contatar a biblioteca com uma pluralidade de iscas para fornecer elementos selecionados (por exemplo, uma captura de biblioteca).
Assim, em um aspecto, a invenção caracteriza um método para analisar uma amostra, por exemplo, uma amostra de tumor. O método compreende:(a) adquirir uma biblioteca compreendendo uma pluralidade de membros (por exemplo, membros alvo) a partir de uma amostra, por exemplo, uma pluralidade de elementos de tumor de uma amostra de tumor;(b) contatar a biblioteca com um conjunto de isca para fornecer elementos selecionados (por exemplo, uma captura de biblioteca);(c) adquirir uma leitura para um intervalo subgenômico de um membro, por exemplo, um membro tumor da dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação, por exemplo, com um método Bayesiano ou um método descrito aqui) da dita leitura para posição de nucleotídeo pré-selecionada, assim analisar dita amostra de tumor,em que o método compreende contatar a biblioteca com uma pluralidade, por exemplo, pelo menos dois, três, quatro ou cinco, de iscas ou conjuntos de isca, em que cada isca ou conjunto de isca de dita pluralidade tem a única (ao contrário de outros conjuntos de isca na pluralidade), eficiência pré-selecionada para seleção. Por exemplo, cada isca única ou conjunto de isca fornece uma única profundidade de sequenciamento. O termo “conjunto de isca”, conforme usado aqui, refere-se coletivamente a uma isca ou uma pluralidade de moléculas de isca.
Em uma modalidade, a eficiência de seleção de um primeiro conjunto de isca na pluralidade difere da eficiência de um segundo conjunto de isca na pluralidade em pelo menos 2 vezes. Em uma modalidade, os primeiro e segundo conjuntos de isca fornecem uma profundidade de sequenciamento que difere em pelo menos 2 vezes.
Em uma modalidade, o método compreende contatar um, ou uma pluralidade dos seguintes conjuntos de isca com a biblioteca:a) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 500X ou maior profundidade de sequenciamento, por exemplo, para sequenciar uma mutação presente em não mais do que 5% das células da amostra;b) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 200X ou maior, por exemplo, cerca de 200X a cerca de 500X profundidade de sequenciamento, por exemplo, para sequenciar uma mutação presente em não mais do que 10% das células da amostra;c) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 10-100X profundidade de sequenciamento, por exemplo, para sequenciar um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de: a) um polimorfismo de nucleotídeo único (SNP) farmacogenômico (PGx) que pode explicar a capacidade do paciente metabolizar diferentes drogas, ou b) um SNPs genômico que pode ser usado para unicamente identificar (por exemplo, fingerprint) um paciente;d) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 5-50 X de profundidade de sequenciamento, por exemplo, para detectar um ponto de quebra estrutural, como uma translocação genômica ou uma indel. Por exemplo, a detecção de um ponto de quebra intrônico necessita profundidade abrangendo par de sequência 5-50X para garantir alta confiabilidade de detecção. Estes conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos a translocação/indel; oue) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 0,1-300X de profundidade de sequenciamento, por exemplo, para detectar mudanças de número de cópia. Em uma modalidade, a profundidade de sequenciamento varia de cerca de 0,1-10X de profundidade de sequenciamento para detectar mudanças de número de cópia. Em outras modalidades, a profundidade de sequenciamento varia de cerca de 100-300X para detectar um SNPs genômico/loci que é usado para avaliar ganhos/perdas de número de cópia de
DNA genômico ou perda de heterogosidade (LOH). Estes conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos à amplificação/deleção.
O nível de profundidade de sequenciamento conforme usado aqui (por exemplo, X vezes nível de profundidade de sequenciamento) refere-se ao nível de cobertura de leituras (por exemplo, leituras únicas), após detecção e remoção de leituras duplicadas, por exemplo, leituras duplicadas de PCR.
Em uma modalidade, o conjunto de isca seleciona um intervalo subgenômico contendo um ou mais rearranjos, por exemplo, um íntron contendo um rearranjo genômico. Nessas modalidades, o conjunto de isca é projetado de forma que sequências repetitivas são mascaradas para aumentar a eficiência de seleção. Nessas modalidades onde o rearranjo tem uma sequência de junção conhecida, conjuntos de isca complementares podem ser projetados para a sequência de junção para aumentar a eficiência de seleção.
Em modalidades, o método compreende o uso de iscas projetadas para capturar duas ou mais categorias alvo diferentes, cada categoria contendo diferentes estratégias de projeção de isca. Em modalidades, os métodos de captura de híbridos e composições reveladas aqui capturam um subconjunto definido de sequências alvo (por exemplo, membros alvo) e fornecem cobertura homogênea da sequência alvo, enquanto minimiza a cobertura fora desse subconjunto. Em uma modalidade, as sequências alvo incluem o exoma inteiro fora do DNA genômico, ou um subconjunto selecionado dos mesmos. Os métodos e composições revelados aqui fornecem diferentes conjuntos de isca para atingir diferentes profundidades e padrões de cobertura para sequências de ácido nucleico alvo complexas (por exemplo, bibliotecas de ácido nucleico).
Em uma modalidade, o método compreende fornecer elementos selecionados de uma biblioteca de ácido nucleico (por exemplo, uma captura de biblioteca). O método inclui:fornecer uma biblioteca (por exemplo, uma biblioteca de ácido nucleico) compreendendo uma pluralidade de membros, por exemplo, membros de ácido nucleico alvo (por exemplo, incluindo uma pluralidade de membros de tumor, membros de referência, e/ou membros de PGx);contatar a biblioteca, por exemplo, em uma reação baseada em solução, com uma pluralidade de iscas (por exemplo, iscas de oligonucleotídeo) para formar uma mistura de hibridização compreendendo uma pluralidade de isca/membros híbridos;separar a pluralidade de isca/membros híbridos da dita mistura de hibridização, por exemplo, contatando dita mistura de hibridização com uma entidade de ligação que permite a separação de dita pluralidade de isca/membro híbrido,assim fornecendo uma captura de biblioteca (por exemplo, um subgrupo selecionado ou enriquecido de moléculas de ácido nucleico da biblioteca),em que a pluralidade de iscas inclui dois ou mais do seguinte:a) um primeiro conjunto de isca que seleciona um alvo de nível alto (por exemplo, um ou mais elementos de tumor que incluem um intervalo subgenômico, como um gene, um éxon, ou uma base) para o qual a cobertura mais profunda é necessária para permitir um alto nível de sensibilidade para uma alteração (por exemplo, uma ou mais mutações) que aparece em uma baixa frequência, por exemplo, cerca de 5% ou menos (ou seja, 5% das células da amostra contendo a alteração em seu genoma). Em uma modalidade; o primeiro conjunto de isca seleciona (por exemplo, é complementar a) um membro tumor que inclui uma alteração (por exemplo, uma mutação pontual) que necessita cerca de 500X ou maior profundidade de sequenciamento;b) um segundo conjunto de isca que seleciona um alvo de nível médio (por exemplo, um ou mais elementos de tumor que incluem um intervalo subgenômico, como um gene, um éxon, ou uma base) para o qual alta cobertura é necessária para permitir alto nível de sensibilidade para uma alteração (por exemplo, uma ou mais mutações) que aparece em uma frequência maior do que o alvo de alto nível em uma), por exemplo, uma frequência de cerca de 10% (ou seja, 10% das células da amostra contendo a alteração em seu genoma). Em uma modalidade; o segundo conjunto de isca seleciona (por exemplo, é complementar a) um membro tumor que inclui uma alteração (por exemplo, uma mutação pontual) que necessita cerca de 200X ou maior profundidade de sequenciamento;c) um terceiro conjunto de isca que seleciona um alvo de nível baixo (por exemplo, um ou mais elementos PGx que inclui um intervalo subgenômico, como um gene, um éxon, ou uma base) para o qual cobertura baixo-média é necessária para permitir alto nível de sensibilidade, por exemplo, para detectar alelos heterozigotos. Por exemplo, a detecção de alelos heterozigotos necessita 10-100X profundidade de sequenciamento para garantir alta confiabilidade de detecção. Em uma modalidade, o terceiro conjunto de isca seleciona um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de: a) um polimorfismo de nucleotídeo único (SNP) farmacogenômico (PGx) que pode explicar a capacidade do paciente metabolizar diferentes drogas, ou b) SNPs genômicos que podem ser usados para unicamente identificar (por exemplo, fingerprint) um paciente;d) um quarto conjunto de isca que seleciona um primeiro íntron alvo (por exemplo, um membro que inclui uma sequência de íntron) para o qual a cobertura baixo-média é necessária, por exemplo, para detectar um ponto de quebra estrutural, como uma translocação genômica ou uma indel. Por exemplo, a detecção de um ponto de quebra intrônico necessita profundidade abrangendo par de sequência 5-50X para garantir alta confiabilidade de detecção. Ditos quartos conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos a translocação/indel; oue) um quinto conjunto de isca que seleciona um segundo íntron alvo (por exemplo, um membro íntron) para o qual cobertura esparsa é necessária para melhorar a capacidade para detectar mudanças de número de cópia. Por exemplo, a detecção de uma deleção de uma cópia de vários éxons terminais necessita 0,1-300X cobertura para garantir alta confiabilidade de detecção. Em uma modalidade, a profundidade de cobertura varia de cerca de 0,1-10X para detectar mudanças de número de cópia. Em outras modalidades, a profundidade de cobertura varia de cerca de 100-300X para detectar SNPs genômico/loci que são usados para avaliar ganhos/perdas de número de cópia de DNA genômico ou perda de heterogosidade (LOH). Ditos quintos conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos à amplificação/deleção.
Qualquer combinação de dois, três, quatro ou mais dos referidos conjuntos de isca pode ser usada, por exemplo, uma combinação do primeiro e segundo conjuntos de isca; primeiro e terceiro conjuntos de isca; primeiro e quarto conjuntos de isca; primeiro e quinto conjuntos de isca; segundo e terceiro conjuntos de isca; segundo e quarto conjuntos de isca; segundo e quinto conjuntos de isca; terceiro e quarto conjuntos de isca; terceiro e quinto conjuntos de isca; quarto e quinto conjuntos de isca; primeiro, segundo e terceiro conjuntos de isca; primeiro, segundo e quarto conjuntos de isca; primeiro, segundo e quinto conjuntos de isca; primeiro, segundo, terceiro, quarto conjuntos de isca; primeiro, segundo, terceiro, quarto e quinto conjuntos de isca, e assim por diante.
Em uma modalidade, cada um do primeiro, segundo, terceiro, quarto, ou quinto conjunto de isca tem a eficiência pré-selecionada para seleção (por exemplo, captura). Em uma modalidade, o valor para eficiência de seleção é o mesmo para pelo menos dois, três, quatro de todas as cinco iscas de acordo com a)-e). Em outras modalidades, o valor para eficiência de seleção é diferente para pelo menos dois, três, quatro de todas as cinco iscas de acordo com a)-e).
Em algumas modalidades, pelo menos dois, três, quatro, ou todos os cinco conjuntos de isca tem um valor de eficiência pré-selecionado diferente. Por exemplo, um valor para eficiência de seleção escolhido de um de mais de:(i) a primeira eficiência pré-selecionada tem um valor para primeira eficiência de seleção que é pelo menos cerca de 500X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a segunda, terceira, quarta ou quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 2-3 vezes mais do que o valor para a segunda eficiência de seleção; cerca de 5-6 vezes mais do que o valor para a terceira eficiência de seleção; cerca de 10 vezes mais do que o valor para a quarta eficiência de seleção; cerca de 50 a 5000 vezes mais do que o valor para a quinta eficiência de seleção);(ii) a segunda eficiência pré-selecionada tem um valor para segunda eficiência de seleção que é pelo menos cerca de 200X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a terceira, quarta ou quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 2 vezes mais do que o valor para a terceira eficiência de seleção; cerca de 4 vezes mais do que o valor para a quarta eficiência de seleção; cerca de 20 a 2000 vezes mais do que o valor para a quinta eficiência de seleção);(iii) a terceira eficiência pré-selecionada tem um valor para terceira eficiência de seleção que é pelo menos cerca de 100X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a quarta ou quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 2 vezes mais do que o valor para a quarta eficiência de seleção; cerca de 10 a 1000 vezes mais do que o valor para a quinta eficiência de seleção);(iv) a quarta eficiência pré-selecionada tem um valor para quarta eficiência de seleção que é pelo menos cerca de 50X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 50 a 500 vezes mais do que o valor para a quinta eficiência de seleção); ou(v) a quinta eficiência pré-selecionada tem um valor para quinta eficiência de seleção que é pelo menos cerca de 10X a 0,1X profundidade de sequenciamento.
Em determinadas modalidades, o valor para eficiência de seleção é modificado por uma ou mais de: representação diferencial de diferentes conjuntos de isca, sobreposição diferencial de subconjuntos de isca, parâmetros de isca diferenciais, mistura de diferentes conjuntos de isca, e/ou uso de tipos diferentes de conjuntos de isca. Por exemplo, uma variação na eficiência de seleção (por exemplo, cobertura de sequência relativa de cada conjunto de isca/categoria de alvo) pode ser ajustada alterando um ou mais de:(i) Representação diferencial de diferentes conjuntos de isca - A projeção do conjunto de isca para capturar um determinado alvo (por exemplo, um membro alvo) pode ser incluída em mais/menos números de cópia para aumentar/diminuir profundidades de cobertura alvo relativas;(ii) Sobreposição diferencial de subconjuntos de isca - A projeção do conjunto de isca para capturar um determinado alvo (por exemplo, um membro alvo) pode incluir uma sobreposição maior ou menor entre iscas vizinhas para aumentar/diminuir profundidades de cobertura alvo relativas;(iii) Parâmetros de isca diferenciais - A projeção do conjunto de isca para capturar um determinado alvo (por exemplo, um membro alvo) pode incluir modificações de sequência/menor comprimento para reduzir eficiência de captura e diminuir a profundidade de cobertura alvo relativa; (iv) Mistura de diferentes conjuntos de isca - Conjuntos de isca que são projetados para capturar diferentes conjuntos alvo podem ser misturados em diferentes relações molares para aumentar/diminuir profundidades de cobertura alvo relativas;(v) Uso de tipos diferentes de conjuntos de isca de oligonucleotídeo -Em determinadas modalidades, o conjunto de isca pode incluir:(a) uma ou mais iscas quimicamente (por exemplo, não enzimaticamente) sintetizadas (por exemplo, individualmente sintetizada),(b) uma ou mais iscas sintetizadas em um arranjo,(c) uma ou mais iscas preparadas enzimaticamente, por exemplo, transcritas in vitro;(d) qualquer combinação de (a), (b) e/ou (c),(e) um ou mais oligonucleotídeos de DNA (por exemplo, um oligonucleotídeo de DNA de ocorrência natural ou não natural),(f) um ou mais oligonucleotídeos de RNA (por exemplo, um oligonucleotídeo de RNA de ocorrência natural ou não natural),(g) uma combinação de (e) e (f), ou(h) uma combinação de qualquer um dos acima.
As diferentes combinações de nucleotídeo podem ser misturadas em diferentes razões, por exemplo, uma razão escolhida de 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000, ou semelhante. Em uma modalidade, a razão de isca quimicamente sintetizada à isca gerada por arranjo é escolhida de 1:5, 1:10, ou 1:20. O oligonucleotídeo de DNA ou RNAs pode ser de ocorrência natural ou não natural. Em determinadas modalidades, as iscas incluem um ou mais nucleotídeos de ocorrência não natural para, por exemplo, aumentar a temperatura de fusão. Oligonucleotídeos de ocorrência não natural exemplares incluem nucleotídeos de DNA ou RNA modificados. Nucleotídeos modificados (por exemplo, nucleotídeos de RNA ou DNA modificados) exemplares incluem, entre outros, um ácido nucleico trancado (LNA), em que a fração ribose de um nucleotídeo LNA é modificada com uma ponte extra conectando o oxigênio 2’ e carbono 4’; ácido nucleico peptídeo (PNA), por exemplo, um PNA composto de unidades de repetição de N-(2-aminoetil)-glicina ligado por ligações peptídicas; um oligonucleotídeo de DNA ou RNA modificado para capturar regiões GC baixas; um ácido nucleico bicíclico (BNA); um oligonucleotídeo de ligação cruzada; um 5-metil deoxicitidina modificado; e 2,6-diaminopurina. Outros nucleotídeos de DNA e RNA modificados são conhecidos na técnica.
Em determinadas modalidades, uma cobertura substancialmente homogênea ou uniforme de uma sequência alvo (por exemplo, um membro alvo) é obtida. Por exemplo, dentro de cada conjunto de isca/categoria de alvo, a uniformidade de cobertura pode ser otimizada modificando parâmetros de isca, por exemplo, por um ou mais de:(i) Aumentar/reduzir a representação ou sobreposição de isca pode ser usado para aumentar/diminuir cobertura de alvos (por exemplo, membros alvo), que são sub/sobre cobertos em relação a outros alvos na mesma categoria;(j) ) Para baixa cobertura, sequências alvo difíceis para capturar (por exemplo, sequências de alto teor de GC), expandir a região alvo com os conjuntos de isca para cobrir, por exemplo, sequências adjacentes (por exemplo, sequências adjacentes menos ricas em GC);(k) i) Modificar uma sequência de isca pode ser feito para reduzir a estrutura secundária da isca e melhorar sua eficiência de seleção;(l) ) Modificar um comprimento da isca pode ser usado para equalizar a fusão de cinética de hibridização de diferentes iscas dentro da mesma categoria. O comprimento da isca pode ser modificado diretamente (produzindo iscas com comprimentos variados) ou indiretamente (produzindo iscas de comprimento consistente, e substituindo as extremidades da isca com sequência arbitrária);(v) Modificar iscas de diferentes orientações para a mesma região alvo (ou seja, fita direta e reversa) pode ter diferentes eficiências de ligação. O conjunto de isca com ambas as orientações fornecendo cobertura ideal para cada alvo pode ser selecionado;(w) ) Modificar a quantidade de uma entidade de ligação, por exemplo, um tag de captura (por exemplo, biotina), presente em cada isca pode afetar sua eficiência de ligação. Aumentar/reduzir o nível de tag de iscas direcionando um alvo específico pode ser usado para aumentar/reduzir a cobertura alvo relativa;(x) i) Modificar o tipo de nucleotídeo usado para diferentes iscas pode ser alterado para afetar a afinidade de ligação ao alvo, e aumentar/reduzir a cobertura alvo relativa; ou (y) ii) Usar iscas de oligonucleotídeo modificadas, por exemplo, contendo mais pareamento de base estável, pode ser usado para equalizar fusão de cinética de hibridização entre áreas de teor de GC alto ou normal em relação ao teor de GC.
Por exemplo, tipos diferentes de conjuntos de isca de oligonucleotídeo podem ser usados.
Em uma modalidade, o valor para eficiência de seleção é modificado para usar tipos diferentes de iscas de oligonucleotídeo para incluir regiões alvo pré-selecionadas. Por exemplo, um primeiro conjunto de isca (por exemplo, um conjunto de isca baseado em arranjo compreendendo 10.000-50.000 iscas de RNA ou DNA) pode ser usado para cobrir a área alvo grande (por exemplo, 1-2MB área alvo total). O primeiro conjunto de isca pode ser inoculado com um segundo conjunto de isca (por exemplo, conjunto de isca de DNA ou RNA sintetizado individualmente compreendendo menos do que 5.000 iscas) para cobrir a região alvo pré-selecionada (por exemplo, intervalos subgenômicos selecionados de interesse abrangendo, por exemplo, 250kb ou menos, de uma área alvo) e/ou regiões de estrutura secundária superior, por exemplo, teor de GC superior. Intervalos subgenômicos selecionados de interesse podem corresponder a um ou mais dos genes ou produtos de gene descritos aqui, ou um fragmento do mesmo. O segundo conjunto de isca pode incluir cerca de 1-5.000, 2-5.000, 3-5.000, 10-5.000, 100-5.000, 500-5.000, 1005.000, 1000-5.000, 2,000-5.000 iscas dependendo da sobreposição de isca desejada. Em outras modalidades, o segundo conjunto de isca pode incluir iscas oligo selecionadas (por exemplo, menos do que 400, 200, 100, 50, 40, 30, 20, 10, 5, 4, 3, 2 ou 1 iscas) inoculadas no primeiro conjunto de isca. O segundo conjunto de isca pode ser misturado em qualquer razão de iscas oligo individuais. Por exemplo, o segundo conjunto de isca pode incluir iscas individuais presentes em uma razão equimolar 1:1. Alternativamente, o segundo conjunto de isca pode incluir iscas individuais presentes em diferentes razões (por exemplo, 1:5, 1:10, 1:20), por exemplo, para otimizar captura de determinados alvos (por exemplo, determinados alvos podem ter um 5-10X da segunda isca comparada a outros alvos).
Em outras modalidades, a eficiência de seleção é ajustada nivelando a eficiência das iscas individuais dentro de um grupo (por exemplo, uma primeira, segunda ou terceira pluralidade de iscas) ajustando a abundância relativa das iscas, ou a densidade da entidade de ligação (por exemplo, o hapteno ou densidade do tag de afinidade) em relação à eficiência de captura da sequência diferencial observada ao usar uma mistura de iscas equimolar, e então introduzindo um excesso diferencial do grupo 1 internamente nivelado para a mistura de isca geral em relação ao grupo 2 internamente nivelado.
Em uma modalidade, o método compreende o uso de uma pluralidade de conjuntos de isca que inclui um conjunto de isca que seleciona um membro tumor, por exemplo, uma molécula de ácido nucleico compreendendo um intervalo subgenômico de uma célula de tumor (também referido aqui como “um conjunto de isca de tumor”). O elemento tumor pode ser qualquer uma sequência de nucleotídeos presente em uma célula de tumor, por exemplo, uma sequência de nucleotídeos mutada, de tipo selvagem, PGx, de referência ou íntron, conforme descrito aqui, que está presente em uma célula de tumor ou cancerígena. Em uma modalidade, o elemento tumor inclui uma alteração (por exemplo, uma ou mais mutações) que aparecem em uma baixa frequência, por exemplo, cerca de 5% ou menos das células de uma amostra de tumor abrigam a alteração em seus genomas. Em outras modalidades, o elemento tumor inclui uma alteração (por exemplo, uma ou mais mutações) que aparece em uma frequência de cerca de 10% das células de uma amostra de tumor. Em outras modalidades, o elemento tumor inclui um intervalo subgenômico de um gene PGx ou produto de gene, uma sequência de íntron, por exemplo, uma sequência de íntron conforme descrito aqui, uma sequência de referência que está presente em uma célula de tumor.
Em outro aspecto, a invenção caracteriza um conjunto de isca descrito aqui, combinações de conjuntos de iscas individuais descritos aqui, por exemplo, combinações descritas aqui. Os conjuntos de isca(s) podem ser parte de um kit que pode opcionalmente compreender instruções, normas, tampões ou enzimas ou outros reagentes.
Seleção de Gene
Intervalos subgenômicos pré-selecionados para análise, por exemplo, um grupo ou conjunto de intervalos subgenômicos para conjuntos ou grupos de genes e outras regiões, são descritos aqui.
Assim, em modalidades, um método compreende sequenciamento, por exemplo, por um método de sequenciamento de geração seguinte, um intervalo subgenômico de pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais genes ou produtos de gene da amostra de ácido nucleico adquirida, em que os genes ou produtos de gene são escolhidos de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53, assim analisando a amostra de tumor.
Assim, em um aspecto, a invenção caracteriza um método para analisar uma amostra, por exemplo, uma amostra de tumor. O método compreende:(a) adquirir uma biblioteca compreendendo uma pluralidade de elementos de uma amostra, por exemplo, uma pluralidade de elementos de tumor de uma amostra de tumor; (b) opcionalmente, enriquecer a biblioteca para sequências pré-selecionadas, por exemplo, ao contatar a biblioteca com um conjunto de isca (ou pluralidade de conjuntos de isca) para fornecer elementos selecionados (por exemplo, uma captura de biblioteca);(c) adquirir uma leitura para um intervalo subgenômico de um membro, por exemplo, um membro tumor da dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação, por exemplo, com um método Bayesiano ou um método descrito aqui) da dita leitura para posição de nucleotídeo pré-selecionada, assim analisar dita amostra de tumor,em que o método compreende sequenciamento, por exemplo, por um método de sequenciamento de geração seguinte, um intervalo subgenômico de pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais genes ou produtos de gene da amostra, em que os genes ou produtos de gene são escolhidos de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53.
Em uma modalidade, a etapa (b) está presente. Em uma modalidade, a etapa (b) está ausente.
Em outra modalidade, os intervalos subgenômicos de um dos seguintes conjuntos ou grupos são analisados. Por exemplo, intervalos subgenômicos associados com um gene de câncer ou tumor ou produto de gene, um gene de referência (por exemplo, um tipo selvagem) ou produto de gene, e um gene PGx ou produto de gene, pode fornecer um grupo ou conjunto de intervalos subgenômicos de uma amostra de tumor.
Em uma modalidade, o método adquire uma leitura, por exemplo, sequências, um conjunto de intervalos subgenômicos de uma amostra de tumor, em que os intervalos subgenômicos são escolhidos de pelo menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 ou todos dos seguintes:A) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais intervalos subgenômicos de um gene mutado ou tipo selvagem ou produto de gene escolhidos de pelo menos cinco ou mais de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53;B) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, trinta e cinco, quarenta, quarenta e cinco, cinquenta, cinquenta e cinco, sessenta, sessenta e cinco, setenta, setenta e cinco, oitenta, oitenta e cinco, noventa, noventa e cinco, cem, cento e cinco, cento e dez, cento e quinze, cento e vinte ou mais de intervalos subgenômicos de um gene mutado ou tipo selvagem ou produto de gene escolhido de pelo menos cinco ou mais de: ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL, ou WT1;C) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, ou mais intervalos subgenômicos de um gene ou produto de gene de acordo com a Tabela 1, 1A, 2, 3 ou 4;D) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, ou mais intervalos subgenômicos de um gene ou produto de gene que é associado com um tumor ou câncer (por exemplo, é um preditor de resposta ao tratamento positivo ou negativo, é um fator de prognóstico positivo ou negativo para, ou permite o diagnóstico diferencial de um tumor ou câncer, por exemplo, um gene ou produto de gene escolhido de um ou mais de: ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1, e TP53;E) pelo menos cinco, seis, sete, oito, nove, dez, ou mais intervalos subgenômicos incluindo um códon mutado ou de tipo selvagem escolhido de um ou mais de: códon 315 do gene ABL1; códon 1114, 1338, 1450 ou 1556 de APC; códon 600 de BRAF; códon 32, 33, 34, 37, 41 ou 45 de CTNNB1; códon 719, 746-750, 768, 790, 858 ou 861 de EGFR; códon 835 de FLT3; códon 12, 13, ou 61 de HRAS; códon 617 de JAK2; códon 816 de KIT; códon 12, 13, ou 61 de KRAS; códon 88, 542, 545, 546, 1047, ou 1049 de PIK3CA; códon 130, 173, 233, ou 267 de PTEN; códon 918 de RET; códon 175, 245, 248, 273, ou 306 de TP53 (por exemplo, pelo menos cinco, dez, quinze, vinte ou mais intervalos subgenômicos que incluem um ou mais dos códons mostrados na Tabela 1).F) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, ou mais de intervalos subgenômicos de um gene mutado ou tipo selvagem ou produto de gene (por exemplo, polimorfismo de nucleotídeo único (SNP)) de um intervalo subgenômico que está presente em um gene ou produto de gene associado com um ou mais de metabolismo de droga, capacidade de resposta para a droga, ou toxicidade (também referido aqui como genes “PGx”) escolhido de: ABCB1, BCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1, ou UMPS;G) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, ou mais de intervalos subgenômicos de um gene PGx mutado ou tipo selvagem ou produto de gene (por exemplo, polimorfismo de nucleotídeo único (SNP)) de um intervalo subgenômico que está presente em um gene ou produto de gene associado com um ou mais de: (i) melhor sobrevida de um paciente com câncer tratado com uma droga (por exemplo, melhor sobrevida de um paciente com câncer de mama tratado com paclitaxel (por exemplo, um gene ABCB1)); (ii) metabolismo de paclitaxel (por exemplo, genes CYP2C8 em loci diferentes e mutações mostradas na Tabela 2; gene CYP3A4); (iii) toxicidade a uma droga (por exemplo, toxicidade 6MP conforme visto com gene ABCC4 (Tabela 2); toxicidade com 5-FU conforme visto com gene DPYD, gene TYMS, ou gene UMPS (Tabela 2); toxicidade com purina conforme visto com um gene TMPT (Tabela 2); toxicidade com daunorrubicina conforme visto com gene NRP2; gene Clorf144, gene CYP1B1 (Tabela 2); ou (iv) um efeito colateral a uma droga (por exemplo, genes ABCG2, TYMS, UGT1A1, ESR1 e ESR2 (Tabela 2));H) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3;J) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3 em uma amostra de tumor sólido dos tipos de câncer especificados aqui;K) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene de acordo com a Tabela 4;L) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene de acordo com a Tabela 4 em uma amostra de tumor heme dos tipos de câncer especificados aqui;M) pelo menos cinco genes ou produtos de gene selecionados da Tabela 1-4, em que uma variação alélica, por exemplo, na posição pré-selecionada, é associada com um tipo pré-selecionado de tumor e em que dita variação alélica está presente em menos do que 5% das células no dito tipo de tumor;N) pelo menos cinco genes ou produtos de gene selecionados da Tabela 1, 1A-4, que são incluídos em uma região rica em GC; ouO) pelo menos cinco genes ou produtos de gene indicativos de um fator (por exemplo, um risco de linha germinativa) genético para desenvolver câncer (por exemplo, o gene ou produto de gene é escolhido de um ou mais de BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL ou WT1).
Ainda em outra modalidade, o método adquire uma leitura, por exemplo, sequências, um conjunto de intervalos subgenômicos de uma amostra de tumor, em que os intervalos subgenômicos são escolhidos de um, dois, três, quatro, cinco, dez, quinze ou todas das alterações descritas na Tabela 1B. Em uma modalidade, o intervalo subgenômico inclui uma alteração classificada em uma ou mais de Categoria A, B, C, D ou E. Em outras modalidades, o intervalo subgenômico inclui uma alteração em KRAS G13D em uma amostra de tumor, por exemplo, uma amostra de tumor de mama, pulmão ou cólon. Em outras modalidades, o intervalo subgenômico inclui uma alteração em NRAS Q61K em uma amostra de tumor, por exemplo, uma amostra de tumor de cólon ou melanoma. Ainda em outras modalidades, o intervalo subgenômico inclui uma alteração em BRAF V600E em uma amostra de tumor, por exemplo, uma amostra de tumor de pulmão, cólon ou melanoma. Em outras modalidades, o intervalo subgenômico inclui uma alteração em BRAF D594G em uma amostra de tumor, por exemplo, uma amostra de tumor de pulmão. Em outras modalidades, o intervalo subgenômico inclui uma alteração em PIK3CA H1047R em uma amostra de tumor, por exemplo, uma amostra de tumor de cólon ou mama. Ainda em outras modalidades, o intervalo subgenômico inclui uma alteração em EGFR L858R ou T790M em uma amostra de tumor, por exemplo, uma amostra de tumor de pulmão. Em outras modalidades, o intervalo subgenômico inclui uma alteração em ERBB2 em uma amostra de tumor, por exemplo, uma amplificação de ERBB2 em uma amostra de tumor de mama. Em outras modalidades, o intervalo subgenômico inclui uma alteração em BRCA1 em uma amostra de tumor, por exemplo, uma inativação bialélica de BRCA1 em uma amostra de tumor de mama. Em outras modalidades, o intervalo subgenômico inclui uma alteração em BRCA2 em uma amostra de tumor, por exemplo, uma inativação bialélica de BRCA2 em uma amostra de tumor pancreático. Em outras modalidades, o intervalo subgenômico inclui uma alteração de ATM em uma amostra de tumor, por exemplo, uma inativação bialélica em ATM em uma amostra de tumor de mama. Em outras modalidades, o intervalo subgenômico inclui uma alteração em TSC em uma amostra de tumor, por exemplo, uma inativação bialélica de TSC em uma amostra de tumor de cólon. Em outras modalidades, o intervalo subgenômico inclui uma alteração de PTEN em uma amostra de tumor, por exemplo, uma inativação bialélica de PTEN em uma amostra de tumor de cólon ou mama. Ainda em outras modalidades, o intervalo subgenômico inclui uma alteração em VHL em uma amostra de tumor, por exemplo, uma inativação bialélica de VHL em uma amostra de tumor de rim. Em outras modalidades, o intervalo subgenômico inclui uma alteração de ATR em uma amostra de tumor, por exemplo, uma inativação bialélica de ATR em uma amostra de tumor de mama. Em outras modalidades, o intervalo subgenômico inclui uma alteração de MYC em uma amostra de tumor, por exemplo, a inativação bialélica de MYC em uma amostra de tumor de mama.
Esses e outros conjuntos e grupos de intervalos subgenômicos são discutidos em mais detalhes em outro lugar aqui, por exemplo, na seção intitulada “Módulo de Seleção de Gene.”
Qualquer um dos métodos descritos aqui pode ser combinado com uma ou mais das modalidades abaixo.
Em outras modalidades, a amostra é uma amostra de tumor, por exemplo, inclui uma ou mais células pré-malignas ou malignas. Em determinadas modalidades, a amostra, por exemplo, a amostra de tumor, é adquirida de um tumor sólido, um tumor de tecido mole ou uma lesão metastática. Em outras modalidades, a amostra, por exemplo, a amostra de tumor, inclui tecido ou células de uma margem cirúrgica. A amostra pode ser tecido histologicamente normal. Em outra modalidade, a amostra, por exemplo, amostra de tumor, inclui uma ou mais células de tumores circulantes (CTC) (por exemplo, um CTC adquirido de uma amostra de sangue).
Em uma modalidade, o método ainda inclui adquirir uma amostra, por exemplo, uma amostra de tumor conforme descrito aqui. A amostra pode ser adquirida diretamente ou indiretamente.
Em outras modalidades, o método inclui avaliar uma amostra, por exemplo, uma amostra histologicamente normal, por exemplo, de uma margem cirúrgica, utilizando os métodos descritos aqui. Os depositantes descobriram que amostras obtidas de tecidos histologicamente normais (por exemplo, margens de tecido histologicamente normal de outra forma) ainda podem possuir uma alteração conforme descrito aqui. Os métodos ainda podem incluir a reclassificação de uma amostra de tecido baseada na presença da alteração detectada.
Em outra modalidade, pelo menos 10, 20, 30, 40, 50, 60, 70, 80, ou 90 % das leituras adquiridas ou analisadas são para intervalos subgenômicos de genes descritos aqui, por exemplo, genes da Tabela 1-1A, ou genes prioridade 1 da Tabela 1.
Em uma modalidade, pelo menos 10, 20, 30, 40, 50, 60, 70, 80, ou 90 % das chamadas de mutação feitas no método são para intervalos subgenômicos de genes descritos aqui, por exemplo, genes da Tabela 1- 1A, ou genes prioridade 1 da Tabela 1.
Em uma modalidade, pelo menos 10, 20, 30, 40, 50, 60, 70, 80, ou 90 % dos valores limiares únicos que usaram o método são para intervalos subgenômicos de genes descritos aqui, por exemplo, genes da Tabela 1-1A, ou genes prioridade 1 da Tabela 1.
Em uma modalidade, pelo menos 10, 20, 30, 40, 50, 60, 70, 80, ou 90 % das chamadas de mutação anotadas, ou relatadas a um terceiro, são para intervalos subgenômicos de genes descritos aqui, por exemplo, genes da Tabela 1-1A, ou genes prioridade 1 da Tabela 1.
Em uma modalidade, o método compreende adquirir uma leitura de sequência de nucleotídeos obtida de uma amostra de ácido nucleico controle e/ou tumor (por exemplo, uma amostra de ácido nucleico derivada de FFPE).
Em uma modalidade, as leituras são fornecidas por um método de sequenciamento NGS.
Em uma modalidade, o método inclui fornecer uma biblioteca de membros de ácido nucleico e sequenciamento de intervalos subgenômicos pré-selecionados de uma pluralidade de membros da dita biblioteca. Em modalidades, o método pode incluir uma etapa de selecionar um subconjunto da dita biblioteca para sequenciamento, por exemplo, uma seleção baseada em solução ou uma seleção baseada em suporte sólido (por exemplo, arranjo).
Em uma modalidade, o método inclui uma etapa de contatar a biblioteca com uma pluralidade de iscas para fornecer um subgrupo selecionado de ácidos nucleicos, por exemplo, uma captura de biblioteca. Em uma modalidade, a etapa de contato é realizada em hibridização de solução. Em outra modalidade, a etapa de contato é realizada em um suporte sólido, por exemplo, um arranjo. Em determinadas modalidades, o método inclui repetir a etapa de hibridização por uma ou mais rodadas adicionais de hibridização. Em algumas modalidades, os métodos ainda incluem submeter a captura de biblioteca para uma ou mais rodadas adicionais de hibridização com a mesma ou diferentes coleções de iscas.
Ainda em outras modalidades, os métodos ainda incluem analisar a captura de biblioteca. Em uma modalidade, a captura de biblioteca é analisada por um método de sequenciamento, por exemplo, um método de sequenciamento de geração seguinte conforme descrito aqui. Os métodos incluem isolar uma captura de biblioteca por, por exemplo, hibridização de solução, e submeter à captura de biblioteca por sequenciamento de ácido nucleico. Em determinadas modalidades, a captura de biblioteca pode ser ressequenciada. Métodos de sequenciamento de geração seguintes são conhecidos na técnica, e são descritos, por exemplo, em Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46.
Em uma modalidade, o valor atribuído para a posição de nucleotídeo é transmitido a um terceiro, opcionalmente, com anotação explicativa.
Em uma modalidade, o valor atribuído para a posição de nucleotídeo não é transmitido a um terceiro.
Em uma modalidade, o valor atribuído para uma pluralidade de posições de nucleotídeo é transmitido a um terceiro, opcionalmente, com anotação explicativas, e o valor atribuído para uma segunda pluralidade de posição de nucleotídeo não é transmitido a um terceiro.
Em uma modalidade, pelo menos 0,01, 0,02, 0,03, 0,05, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9, 1,0, 15, ou 30 bases megabases, por exemplo, bases genômicas, são sequenciadas.
Em uma modalidade, o método compreende avaliar uma pluralidade de leituras que inclui pelo menos uma SNP.
Em uma modalidade, o método compreende determinar uma razão de alelo SNP na amostra e/ou leitura de controle.
Em uma modalidade, o método compreende atribuir uma ou mais leituras a um sujeito, por exemplo, por deconvolução de código de barras.
Em uma modalidade, o método compreende atribuir uma ou mais leituras como uma leitura de tumor ou uma leitura de controle, por exemplo, por deconvolução de código de barras.
Em uma modalidade, o método compreende mapear, por exemplo, por alinhamento com uma sequência de referência, cada uma da dita uma ou mais leituras.
Em uma modalidade, o método compreende memorizar uma chamada de mutação.
Em uma modalidade, o método compreende anotar uma chamada de mutação, por exemplo, anotar uma chamada de mutação com uma indicação de estrutura de mutação, por exemplo, uma mutação de sentido incorreto, ou função, por exemplo, um fenótipo de doença.
Em uma modalidade, o método compreende adquirir leitura de sequência de nucleotídeos para ácido nucleico de controle e de tumor.
Em uma modalidade, o método compreende chamada de um valor de nucleotídeo, por exemplo, uma variante, por exemplo, uma mutação, para cada um dos X intervalos subgenômicos, por exemplo, com um método Bayesiano de chamada ou um método não Bayesian de chamada.
Em uma modalidade, amostras múltiplas, por exemplo, de sujeitos diferentes, são processadas simultaneamente.
Os métodos revelados aqui podem ser usados para detectar alterações presentes no genoma ou transcriptoma de um sujeito, e pode ser aplicado para o sequenciamento de DNA e RNA, por exemplo, sequenciamento de RNA e/ou DNA alvo. Assim, outro aspecto apresentado na invenção inclui métodos para sequenciamento de RNA alvo, por exemplo, sequenciamento de um cDNA derivado de um RNA adquirido de uma amostra, por exemplo, uma amostra de FFPE, para detectar uma alteração descrita aqui. A alteração pode ser rearranjo, por exemplo, um rearranjo que codifica um gene de fusão. Em outras modalidades, o método inclui detecção de uma mudança (por exemplo, um aumento ou diminuição) no nível de um gene ou produto de gene, por exemplo, uma mudança na expressão de um gene ou produto de gene descrito aqui. Os métodos podem, opcionalmente, incluir uma etapa de enriquecer uma amostra para um RNA alvo. Em outras modalidades, os métodos incluem a etapa de depletar a amostra de certos RNAs de alta abundância, por exemplo, RNAs ribossomal ou de globina. Os métodos de sequenciamento de RNA podem ser usados, sozinhos ou em combinação com os métodos de sequenciamento de DNA descritos aqui. Em uma modalidade, o método inclui realizar uma etapa de sequenciamento de DNA e uma etapa de sequenciamento de RNA. Os métodos podem ser realizados em qualquer ordem. Por exemplo, o método pode incluir confirmação por sequenciamento de RNA da expressão de uma alteração descrita aqui, por exemplo, confirmar a expressão de mutação ou uma fusão detectada pelos métodos de sequenciamento de DNA da invenção. Em outras modalidades, o método inclui realizar uma etapa de sequenciamento de RNA, seguido por uma etapa de sequenciamento de DNA.
Em outro aspecto, a invenção caracteriza um método compreendendo construir um banco de dados de artefatos de sequenciamento/alinhamento para as regiões subgenômicas alvo. Em modalidade, o banco de dados pode ser usado para filtrar chamadas de mutação espúrias e melhorar especificidade. Em uma modalidade o banco de dados é construído por sequenciamento de amostras diferentes de tumor não relacionadas (por exemplo, FFPE) ou linhagens de célula e gravar eventos alelos não referências que aparecem mais frequentemente do que o esperado devido a erros aleatórios de sequenciamento sozinhos em 1 ou mais dessas amostras normais. Essa abordagem pode classificar variações de linhagem germinativa como artefatos, mas que são aceitáveis em métodos preocupados com mutações somáticas. Essa classificação errada de variações de linhagem germinativa como artefatos pode ser melhorada, se desejado, através da filtração desse banco de dados para variações de linhagem germinativa conhecidas (remover variantes comuns) e para artefatos que aparecem em apenas 1 indivíduo (removendo variações raras).
Métodos revelados aqui permitem integração de um número de elementos otimizados incluindo seleção otimizada baseada em isca, alinhamento otimizado, e chamada de mutação otimizada, conforme aplicado, por exemplo, a segmentos do genoma relacionados ao câncer. Métodos descritos aqui fornecem análises de tumor baseadas em NGS que podem ser otimizados em uma base câncer por câncer, gene por gene e sítio por sítio. Isso pode ser aplicado, por exemplo, aos genes/sítios e tipos de tumor descritos aqui. Os métodos otimizam os níveis de sensibilidade e especificidade para detecção de mutação com um determinada tecnologia de sequenciamento. A otimização câncer por câncer, gene por gene, e sítio por sítio fornecem níveis muito altos de sensibilidade/especificidade (por exemplo, >99% para ambos) que são essenciais para um produto clínico.
Os métodos descritos aqui fornecem análise compreensiva de grau clínico e regulatório e interpretação de aberrações genômicas para um conjunto compreensível de genes acionáveis plausíveis (que pode tipicamente variar de 50 a 500 genes) usando tecnologias de sequenciamento de geração seguinte de amostras de rotina, naturais para informar decisões de tratamento ideais e manejo da doença.
Métodos descritos aqui fornecem uma totalidade de serviços para oncologistas/patologistas para mandar uma amostra de tumor e receber uma análise e descrição compreensiva do genoma e outras mudanças moleculares para esse tumor, para informar o tratamento ideal e decisões de manejo de doença.
Métodos descritos aqui fornecem uma ferramenta diagnóstica oncológica clínica, natural, robusta que toma amostras de tumor disponíveis padrão e em um teste fornece uma análise compreensiva genômica e outras de aberração molecular para fornecer ao oncologista uma descrição compreensiva de quais aberrações podem estar direcionando o tumor e podem ser úteis para informar as decisões de tratamento dos oncologistas.
Métodos descritos aqui fornecem uma análise compreensiva de um genoma de paciente com câncer, com qualidade de grau clínico. Os métodos incluem os genes mais relevantes e alterações potenciais e incluem um ou mais de análises de mutações, número de cópias, rearranjos, por exemplo, translocações, expressão, e marcadores epigenéticos. A saída da análise genética pode ser contextualizada com relatórios descritivos de resultados acionáveis. Os métodos conectam o uso com conjuntos atualizados de conhecimentos médicos e científicos relevantes.
Métodos descritos aqui fornecem o aumento da qualidade e eficiência dos cuidados. Isso inclui aplicações em que o tumor é de um tipo raro ou pouco estudado de forma que não existe padrão de cuidado ou o paciente é refratário para linhas de terapia estabelecidas e uma base de seleção racional para outra terapia ou para participação em estudos clínico poderia ser útil. Por exemplo, os métodos permitem, em qualquer etapa da terapia, seleção de onde o oncologista poderia se beneficiar contendo a “imagem molecular” e/ou “sub-diagnóstico molecular” completo disponível para informar a tomada de decisão.
Métodos descritos aqui podem compreender fornecer um relatório, por exemplo, em forma eletrônica, baseada na internet, ou em papel, ao paciente ou para outra pessoa ou entidade, por exemplo, um cuidador, por exemplo, um médico, por exemplo, um oncologista, um hospital, clínica, terceiro pagador, empresa de seguro ou escritório do governo. O relatório pode compreender a saída do método, por exemplo, a identificação de valores de nucleotídeos, a indicação da presença ou ausência de uma alteração, mutação, ou sequência tipo selvagem, por exemplo, para intervalos subgenômicos associados com um tumor do tipo da amostra. O relatório também pode compreender informações sobre o papel de uma sequência, por exemplo, uma alteração, mutação, ou sequência de tipo selvagem, em doença. Essa informação pode incluir informação sobre prognóstico, resistência, ou potencial ou sugerir opções terapêuticas. O relatório pode compreender informações sobre a probabilidade de eficiência de uma opção terapêutica, a aceitabilidade de uma opção terapêutica, ou a conveniência de aplicar a opção terapêutica a um paciente, por exemplo, um paciente contendo uma sequência, alteração ou mutação identificada no teste, e em modalidades, identificadas no relatório. Por exemplo, o relatório pode incluir informação, ou uma recomendação para, a administração de uma droga, por exemplo, a administração em uma dosagem pré-selecionada ou em um regime de tratamento pré-selecionado, por exemplo, em combinação com outras drogas, ao paciente. Em uma modalidade, nem todas as mutações identificadas no método são identificadas no relatório. Por exemplo, o relatório pode ser limitado a mutações em genes contendo um nível pré-selecionado de correlação com a ocorrência, prognóstico, fase, ou susceptibilidade do câncer ao tratamento, por exemplo, com uma opção terapêutica pré- selecionada. Os métodos apresentados aqui permitem liberação do relatório, por exemplo, para uma entidade descrita aqui, dentro de 7, 14, ou 21 dias da receita da amostra pela entidade praticando o método.
Assim, os métodos apresentados na invenção permitem uma volta rápida em torno do tempo, por exemplo, dentro de 7, 14 ou 21 dias do recebimento da amostra.
Métodos descritos aqui também podem ser usados para avaliar a amostra histologicamente normal, por exemplo, amostras de margens cirúrgicas. Se uma ou mais alterações conforme descrito aqui é detectada, o tecido pode ser reclassificado, por exemplo, como maligno ou pré-maligno, e/ou o curso do tratamento pode ser modificado.
Em certos aspectos, os métodos de sequenciamento descritos aqui são úteis em aplicações não câncer, por exemplo, em aplicações forenses (por exemplo, identificação como alternativa para, ou além do, uso do histórico dental), teste de paternidade, e diagnóstico e prognóstico de doenças, por exemplo, para fibrose cística, doença de Huntington, doença de Alzheimer, entre outras. Por exemplo, a identificação de alterações genéticas pelos métodos descritos aqui podem indicar a presença ou risco de um indivíduo desenvolver um distúrbio particular.
Salvo definição contrária, todos os termos científicos e técnicos usados aqui possuem o mesmo significado do comumente entendido por um especialista na técnica a qual essa invenção pertence. Apesar de métodos e materiais semelhantes ou equivalentes aos descritos aqui poderem ser usados na prática ou teste da presente invenção, métodos e materiais apropriados são descritos abaixo. Todas as publicações, pedidos de patente, patentes, e outras referências mencionadas aqui são incorporadas como referência em suas totalidades. Além disso, os materiais, métodos, e exemplos são apenas ilustrativos e não se destinam a ser limitantes.
Ouras características e vantagens da invenção serão aparentes a partir da descrição detalhada, desenhos, e das reivindicações.
Descrição das figuras
Os desenhos são descritos primeiro.A FIG. 1A-F é uma representação de fluxograma de uma modalidade de um método para análise multigene de uma amostra de tumor.A FIG. 2 mostra o impacto da expectativa prévia e profundidade de leitura na detecção de mutação.A FIG. 3 mostra as frequências de mutação em mais de 100 amostras clínicas de câncer.A FIG. 4 é uma representação linear de um histograma de cobertura. O número de alvos (eixo y) é mostrado como uma função de cobertura (eixo x). A Linha #1 representa a cobertura usando um conjunto de isca que inclui iscas de oligonucleotídeo de RNA biotinilados, derivadas de arranjo inoculadas com iscas de oligonucleotídeo de DNA biotiniladas, individualmente sintetizadas (referido aqui como “conjunto de Isca #1”). A Linha #2 representa a cobertura obtida usando um conjunto de isca que inclui apenas iscas de oligonucleotídeo de RNA biotiniladas, derivadas de arranjo (referido aqui como “conjunto de Isca #2”). A cobertura média geral usando o conjunto de Isca #2 foi 924, enquanto a cobertura nas áreas de alto teor de GC (cerca de 68%) usando conjunto de Isca #2 foi 73. Em contraste, quando o conjunto de Isca #1 foi usado, a cobertura geral foi cerca de 918, mas a cobertura foi melhorada para 183 em áreas de alto teor de GC.A FIG. 5 é um histograma de cobertura comparando a uniformidade de cobertura detectada com um conjunto de isca consistindo apenas de iscas de oligonucleotídeo de DNA biotiniladas, individualmente sintetizadas (conjunto de Isca #1) e um conjunto de isca que inclui iscas de oligonucleotídeo de RNA biotiniladas, derivadas de arranjo inoculadas com iscas de oligonucleotídeo de DNA biotiniladas, individualmente sintetizadas (“conjunto de Isca #2”), comparadas a um conjunto de isca que inclui apenas iscas de oligonucleotídeo de RNA biotiniladas, derivadas (“conjunto de Isca #3”). Os conjuntos de isca são mostrados como #1, 2, e 3 na FIG. 5. Algumas lacunas de cobertura foram detectadas usando conjunto de Isca #3, mas não foram detectas usando conjuntos de Isca #1-2, como mostrado na FIG. 5.
Descrição detalhada
Métodos e ensaios otimizados para sequenciamento de grande número de genes e produtos de gene de amostras, por exemplo, amostras de tumor, de um ou mais sujeitos avaliando um grupo selecionado de genes e produtos de gene são revelados. Em uma modalidade, os métodos e ensaios apresentados na invenção são usados em um formato de ensaio multiplex, por exemplo, ensaios incorporando sinais múltiplos de um grande número de eventos genéticos diversos em um grande número de genes. Revelado aqui são métodos e ensaios que são baseados, pelo menos em parte, em um grupo de genes ou produtos de gene selecionados que são associados (por exemplo, positivamente ou negativamente) com um fenótipo cancerígeno (por exemplo, um ou mais de risco de câncer, progressão de câncer, tratamento de câncer ou resistência ao tratamento). Esses genes ou produtos de gene pré-selecionados permitem a aplicação de métodos de sequenciamento, particularmente métodos que se baseiam no sequenciamento paralelo em massa de um grande número de genes diversos, por exemplo, de amostras de controle ou tumor.
Determinados termos são definidos primeiro. Termos adicionais são definidos ao longo da especificação.
Conforme usado aqui, os artigos “um” e “uma” se referem a um ou mais de um (por exemplo, para pelos menos um) do objeto gramatical do artigo. “Cerca de” e “aproximadamente” devem geralmente significar um grau aceitável de erro para a quantidade medida dada a natureza ou precisão das medições. Graus exemplares de erro são dentro de 20 por cento (%), tipicamente, dentro de 10%, e mais tipicamente, dentro de 5% de um dado valor ou faixa de valores.“Adquirir” ou “adquirindo” como termos usados aqui, referem-se a obter posse de uma entidade física, ou um valor, por exemplo, um valor numérico, por “adquirir diretamente” ou “adquirir indiretamente” uma entidade física ou valor. “Adquirir diretamente” significa realizar um processo (por exemplo, realizar um método sintético ou analítico) para obter a entidade física ou valor. “Adquirir indiretamente” refere-se a receber a entidade física ou valor de outro grupo ou fonte (por exemplo, um laboratório terceiro que adquire diretamente a entidade física ou valor). Adquirir diretamente a entidade física inclui realizar um processos que inclui uma mudança física em uma substância física, por exemplo, uma matéria-prima. Mudanças exemplares incluem preparar uma entidade física a partir de duas ou mais matérias-primas, cisalhar ou fragmentar uma substância, separar ou purificar uma substância, combinar duas ou mais entidades separadas em uma mistura, realizar uma reação química que inclui quebrar ou formar uma ligação covalente ou não covalente. Adquirir diretamente um valor inclui realizar um processo que inclui uma mudança física em uma amostra ou outra substância, por exemplo, realizar um processo analítico que inclui uma mudança física em uma substância, por exemplo, uma amostra, analito, ou reagente (por vezes referido aqui como “análise física”), realizar um método analítico, por exemplo, um método que inclui um ou mais do seguinte: separar ou purificar uma substância, por exemplo, um analito, ou um fragmento ou outro derivado dos mesmos, de outra substância; combinar um analito, ou fragmento ou outro derivado dos mesmos, com outra substância, por exemplo, um tampão, solvente, ou reagente; ou mudar a estrutura de um analito, ou um fragmento ou outro derivado dos mesmos, por exemplo, quebrando ou formando uma ligação covalente ou não covalente, entre um primeiro e um segundo átomo do analito; ou mudando a estrutura de um reagente, ou um fragmento ou outro derivado dos mesmos, por exemplo, quebrando ou formando uma ligação covalente ou não covalente, entre um primeiro e um segundo átomo do reagente.“Adquirir uma sequência” ou “adquirir uma leitura” como o termo é usado aqui, refere-se a obter posse de uma sequência de nucleotídeos ou sequência de aminoácido, por “adquirir diretamente” ou “adquirir indiretamente” a sequência ou leitura. “Adquirir diretamente” a sequência ou leitura significa realizar um processo (por exemplo, realizar um método analítico ou sintético) para obter a sequência, como realizar um método de sequenciamento (por exemplo, um método de Sequenciamento de Geração Seguinte (NGS)). “Adquirir indiretamente” uma sequência ou leitura refere-se a receber informação ou conhecimento de, ou receber, a sequência de outro grupo ou fonte (por exemplo, um laboratório terceiro que adquire diretamente a sequência). A sequência ou leitura adquirida não necessita ser uma sequência completa, por exemplo, o sequenciamento de pelo menos um nucleotídeo, ou obter informação ou conhecimento, que identifique uma ou mais de uma alteração revelada aqui como estando presente em um sujeito, constitui adquirir uma sequência.Adquirir diretamente a sequência ou leitura inclui realizar um processo que inclui uma mudança física em uma substância física, por exemplo, uma matéria-prima, como uma amostra de tecido ou célula, por exemplo, uma biópsia, ou uma amostra de ácido nucleico isolado (por exemplo, DNA ou RNA). Mudanças exemplares incluem preparar uma entidade física a partir de duas ou mais matérias-primas, cisalhar ou fragmentar uma substância, como um fragmento de DNA genômico; separar ou purificar uma substância (por exemplo, isolar a amostra de ácido nucleico de um tecido); combinar duas ou mais entidades separadas em uma mistura, realizar uma reação química que inclui quebrar ou formar uma ligação covalente ou não covalente. Adquirir diretamente um valor inclui realizar um processo que inclui a mudança física em uma amostra ou outra substância conforme descrito acima.“Adquirir uma amostra” como o termo é usado aqui, refere-se a obter posse de uma amostra, por exemplo, uma amostra de tecido ou amostra de ácido nucleico, por “adquirir diretamente” ou “adquirir indiretamente” a amostra. “Adquirir diretamente uma amostra” significa realizar um processo (por exemplo, realizar um método físico como uma cirurgia ou extração) para obter uma amostra. “Adquirir indiretamente uma amostra” refere-se a receber uma amostra de outro grupo ou fonte (por exemplo, um laboratório terceiro que adquire diretamente a amostra). Adquirir diretamente uma amostra inclui realizar um processo que inclui uma mudança física em uma substância física, por exemplo, uma matéria-prima, como um tecido, por exemplo, um tecido em um paciente humano ou um tecido que foi previamente isolado de um paciente. Mudanças exemplares incluem preparar uma entidade física de uma matéria-prima, dissecar ou raspar um tecido; separar ou purificar uma substância (por exemplo, uma amostra de tecido ou uma amostra de ácido nucleico); combinar duas ou mais entidades separadas em uma mistura; realizar uma reação química que inclui quebrar ou formar uma ligação covalente ou não covalente. Adquirir diretamente uma amostra inclui realizar um processo que inclui uma mudança física em uma amostra ou outra substância, por exemplo, conforme descrito acima.“Seletor de alinhamento,” conforme usado aqui, refere-se a um parâmetro que permite ou direciona a seleção de um método de alinhamento, por exemplo, um algoritmo ou parâmetro de alinhamento, que pode otimizar o sequenciamento de um intervalo subgenômico pré-selecionado. Um seletor de alinhamento pode ser específico para, ou selecionado como uma função, por exemplo, de um ou mais dos seguintes:1. O contexto de sequência, por exemplo, contexto de sequência de um intervalo subgenômico (por exemplo, a posição de nucleotídeo pré-selecionada a ser avaliada) que é associado com uma propensão para desalinhamentos de leitura para dito intervalo subgenômico. Por exemplo, a existência de um elemento de sequência em ou próximo ao intervalo subgenômico a ser avaliado que é repetido em outro lugar no genoma pode causar desalinhamento e assim reduzir o desempenho. O desempenho pode ser melhorado pela seleção de um algoritmo ou um parâmetro de algoritmo que minimiza o desalinhamento. Nesse caso o valor para o seletor de alinhamento pode ser uma função do contexto de sequência, por exemplo, a presença ou ausência de uma sequência de comprimento pré-selecionada que é repetida pelo menos um número pré-selecionado de vezes no genoma (ou na parte do genoma sendo analisado).2. O tipo de tumor sendo analisado. Por exemplo, um tipo de tumor específico pode ser caracterizado pela taxa aumentada de deleções. Assim, o desempenho pode ser melhorado selecionando um algoritmo ou parâmetro de algoritmo que é mais sensível a indels. Nesse caso o valor para o seletor de alinhamento pode ser uma função do tipo de tumor, por exemplo, um identificador para o tipo de tumor. Em uma modalidade o valor é a identidade do tipo de tumor, por exemplo, câncer de mama.3. O gene, ou tipo de gene, sendo analisado, por exemplo, um gene, ou tipo de gene, pode ser analisado. Oncogenes, a título de exemplo, são tipicamente caracterizados por substituições ou indels em fase. Assim, o desempenho pode ser melhorado selecionando um algoritmo ou parâmetro de algoritmo que é particularmente sensível a essas variantes e especifico contra outras. Supressores de tumor são tipicamente caracterizados por indels de mudança de quadro. Assim, o desempenho pode ser melhorado selecionando um algoritmo ou parâmetro de algoritmo que é particularmente sensível a essas variantes. Assim, o desempenho pode ser melhorado selecionando um algoritmo ou parâmetro de algoritmo compatível com o intervalo subgenômico. Nesse caso o valor para o seletor de alinhamento pode ser uma função do gene ou tipo de gene, por exemplo, um identificador para gene ou tipo de gene. Em uma modalidade o valor é a identidade do gene.4. O sítio (por exemplo, posição de nucleotídeo) sendo analisado. Nesse caso o valor para o seletor de alinhamento pode ser uma função do sítio ou o tipo de sítio, por exemplo, um identificador para o sítio ou tipo de sítio. Em uma modalidade o valor é uma identidade do sítio. (Por exemplo, se o gene contendo o sítio é altamente homólogo com outro gene, algoritmos de alinhamento de leitura curta normal/rápido (por exemplo, BWA) podem ter dificuldade em distinguir entre os dois genes, potencialmente precisando métodos de alinhamento mais intensos (Smith-Waterman) ou até montagem (ARACHNE). Da mesma forma, se a sequência do gene contém regiões de baixa complexidade (por exemplo, AAAAAA), métodos de alinhamento mais intensivos podem ser necessários.5. A variante, ou tipo de variante associada com o intervalo subgenômico sendo avaliado. Por exemplo, uma substituição, inserção, deleção, translocação ou outro rearranjo. Assim, o desempenho pode ser melhorado selecionando um algoritmo ou parâmetro de algoritmo que é mais sensível ao tipo da variante específico. Nesse caso, o valor para o seletor de alinhamento pode ser uma função do tipo de variante, por exemplo, um identificador para o tipo de variante. Em uma modalidade o valor é a identidade do tipo de variante, por exemplo, uma substituição.6. O tipo de amostra, um FFPE ou outra amostra fixa. O tipo/qualidade da amostra pode afetar a taxa de erro (observação espúria de sequência de não referência). Assim, o desempenho pode ser melhorado selecionando um algoritmo ou parâmetro de algoritmo que modela de forma precisa a taxa de erro verdadeira em uma amostra. Nesse caso, o valor para o seletor de alinhamento pode ser uma função do tipo de amostra, por exemplo, um identificador para um tipo de amostra. Em uma modalidade, o valor é uma identidade do tipo de amostra, por exemplo, uma amostra fixa.“Alteração” ou “estrutura alterada” conforme usado aqui, de um gene ou produto de gene (por exemplo, um gene marcador ou produto de gene) refere-se à presença de uma mutação ou mutações dentro do gene ou produto de gene, por exemplo, uma mutação, que afeta quantidade ou atividade do gene ou produto de gene, quando comparado ao gene normal ou tipo selvagem. A alteração pode ser em quantidade, estrutura, e/ou atividade em um tecido de câncer ou célula cancerígena, quando comparado a sua quantidade, estrutura, e/ou atividade, em uma célula ou tecido normal ou saudável (por exemplo, um controle), e é associada com um estado de doença, como câncer. Por exemplo, uma alteração que é associada com câncer, ou preditiva de responsividade de terapêuticos anticâncer, pode ter uma alteração na sequência de nucleotídeos (por exemplo, uma mutação), sequência de aminoácido, translocação cromossômica, inversão intracromossômica, número de cópia, nível de expressão, nível de proteína, atividade de proteína, ou estado de metilação, em um tecido de câncer ou célula cancerígena, quando comparado a um tecido ou célula normal, saudável. Mutações exemplares incluem, entre outras, mutações pontuais (por exemplo, silenciosa, sentido incorreto, ou sem sentido), deleções, inserções, inversões, mutações de ligação, duplicações, translocações, rearranjos inter e intra-cromossomais. As mutações podem estar presentes na região do gene codificadora ou não codificadora. Em determinadas modalidades, as alterações são detectadas como um arranjo, por exemplo, um rearranjo genômico compreendendo um ou mais íntrons ou fragmentos dos mesmos (por exemplo, um ou mais rearranjos no 5’- e/ou 3’-UTR). Em determinadas modalidades, as alterações são associadas (ou não associadas) com um fenótipo, por exemplo, um fenótipo de câncer (por exemplo, um ou mais de risco de câncer, progressão de câncer, tratamento de câncer ou resistência ao tratamento de câncer). Em uma modalidade, a alteração é associada com um ou mais de: um fator de risco para câncer, um preditor de resposta positiva ao tratamento, um preditor de resposta negativa ao tratamento, um fator prognóstico positivo, um fator prognóstico negativo, ou um fator diagnóstico.“Isca”, conforme usado aqui, é um tipo de reagente de captura híbrido. A isca pode ser uma molécula de ácido nucleico, por exemplo, uma molécula de DNA ou RNA, que pode se hibridizar (por exemplo, ser complementar a), e assim permitir a captura de um ácido nucleico alvo. Em uma modalidade, a isca é uma molécula de RNA (por exemplo, uma molécula de RNA de ocorrência natural ou modificada); uma molécula de DNA (por exemplo, uma molécula de DNA de ocorrência natural ou modificada), ou uma combinação das mesmas. Em outras modalidades, a isca inclui uma entidade de ligação, por exemplo, um tag de afinidade, que permite captura e separação, por exemplo, pela ligação para uma entidade de ligação, de um híbrido formado por uma isca e um ácido nucleico hibridizado à isca. Em uma modalidade, a isca é apropriada para hibridização de fase de solução.“Conjunto de isca,” conforme usado aqui, refere-se a um ou uma pluralidade de moléculas de isca.“Entidade de ligação” significa qualquer molécula a qual tags moleculares podem ser diretamente ou indiretamente ligados que é capaz de se ligar especificamente a um analito. A entidade de ligação pode ser um tag de afinidade em cada sequência de isca. Em determinadas modalidades, a entidade de ligação permite a separação dos híbridos isca/membros da mistura de hibridização pela ligação a um parceiro, como uma molécula de avidina, ou um anticorpo que se liga ao hapteno ou um fragmento de ligação ao antígeno dos mesmos. Entidades de ligação exemplares incluem, entre outras, uma molécula de biotina, um hapteno, um anticorpo, um fragmento de ligação ao anticorpo, um peptídeo, e uma proteína.“Complementar” refere-se à complementaridade de sequência entre regiões de duas fitas de ácido nucleico ou entre duas regiões da mesma fita de ácido nucleico. Sabe-se que um resíduo de adenina de uma primeira região de ácido nucleico é capaz de formar ligações de hidrogênio específicas (“pareamento de base”) com um resíduo de uma segunda região de ácido nucleico que é antiparalela à primeira região se o resíduo é timina ou uracila. Da mesma forma, sabe-se que um resíduo de citosina de uma primeira fita de ácido nucleico é capaz de pareamento de base com um resíduo de uma segunda fita de ácido nucleico que é antiparalela à primeira fita se o resíduo é guanina. A primeira região de um ácido nucleico é complementar à segunda região do mesmo ou diferente ácido nucleico se, quando as duas regiões são arranjadas de uma forma antiparalela, pelo menos um resíduo de nucleotídeo da primeira região é capaz de pareamento de base com um resíduo da segunda região. Em determinadas modalidades, a primeira região compreende uma primeira parte e a segunda região compreende uma segunda parte, pelo que, quando a primeira e segunda parte são arranjadas de uma forma antiparalela, pelo menos cerca de 50%, pelo menos cerca de 75%, pelo menos cerca de 90%, ou pelo menos cerca de 95% dos resíduos de nucleotídeos da primeira parte são capazes de pareamento de base com resíduos de nucleotídeo na segunda parte. Em outras modalidades, todos os resíduos de nucleotídeo da primeira parte são capazes de pareamento de base com resíduos de nucleotídeo na segunda parte.
O termo “câncer” ou “tumor” é usado de modo intercambiável aqui. Esses termos se referem à presença de células que possuem características típicas de células causadoras de câncer, como proliferação não controlada, imortalidade, potencial metastático, rápido crescimento e taxa de proliferação, e certas características morfológicas. As células cancerígenas são tipicamente na forma de um tumor, mas essas células podem existir isoladamente dentro de um animal, ou podem ser uma célula cancerígena não tumorigênica, como uma célula de leucemia. Esses termos incluem um tumor sólido, um tumor de tecido mole, ou uma lesão metastática. Conforme usado aqui, o termo “câncer” inclui cânceres pré-malignos, bem como malignos.“Propenso a” ou “probabilidade aumentada,” conforme usado aqui, referem-se a uma probabilidade aumentada de que um item, objeto, coisa ou pessoa ocorra. Assim, em um exemplo, um sujeito que é propenso a responder ao tratamento tem uma probabilidade aumentada de responder ao tratamento em relação a um sujeito ou grupo de sujeitos de referência.“Não propenso a” refere-se a uma probabilidade diminuída que um evento, item, objeto, coisa ou pessoa ocorra em relação a uma referência. Assim, um sujeito que é não propenso a responder ao tratamento tem uma probabilidade diminuída de responder ao tratamento em relação a um sujeito de referência ou grupo de sujeitos.“Membro de controle” refere-se a um membro contendo sequência de uma célula não tumor.“Seletor de sequência de alinhamento indel,” conforme usado aqui, refere-se a um parâmetro que permite ou direciona a seleção de uma sequência a qual a leitura deve ser alinhada com no caso de uma indel pré-selecionada. O uso de uma sequência pode otimizar o sequenciamento de um intervalo subgenômico pré- selecionado compreendendo uma indel. O valor para um seletor de sequência de alinhamento indel é uma função de uma indel pré-selecionada, por exemplo, um identificador para a indel. Em uma modalidade, o valor é uma identidade da indel.
Conforme usado aqui, o termo “biblioteca” refere-se a uma coleção de membros. Em uma modalidade, a biblioteca inclui uma coleção de membros de ácido nucleico, por exemplo, uma coleção de genoma completo, fragmentos subgenômicos, cDNA, fragmentos de cDNA, RNA, fragmentos de RNA, ou uma combinação dos mesmos. Em uma modalidade, uma parte ou o todo dos membros da biblioteca compreende uma sequência de adaptação. A sequência de adaptação pode ser localizada em uma ou ambas as extremidades. A sequência de adaptação pode ser útil, por exemplo, para um método de sequenciamento (por exemplo, um método NGS), para amplificação, para transcrição reversa, ou para clonagem em um vetor.
A biblioteca pode compreender uma coleção de membros, por exemplo, um membro alvo (por exemplo, um membro tumor, um membro de referência, um membro PGx, ou uma combinação dos mesmos). Os membros da biblioteca podem ser de um único indivíduo. Em modalidades, a biblioteca pode compreender membros de mais de um sujeito (por exemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 ou mais sujeitos), por exemplo, duas ou mais bibliotecas de sujeitos diferentes podem ser combinadas para formar uma biblioteca contendo membros de mais de um sujeito. Em uma modalidade, o sujeito é humano contendo, ou sob risco de conter, um câncer ou tumor. “Captura de biblioteca” refere-se a um subconjunto de uma biblioteca, por exemplo, um subconjunto enriquecido para intervalos subgenômicos pré-selecionados, por exemplo, produto capturado por hibridização com iscas pré-selecionadas.“Membro” ou “membro de biblioteca” ou outro termo semelhante, conforme usado aqui, refere-se a uma molécula de ácido nucleico, por exemplo, um DNA, RNA, ou uma combinação dos mesmos, que é o membro de uma biblioteca. Tipicamente, um membro é uma molécula de DNA, por exemplo, DNA genômico ou cDNA. Um membro pode ser fragmentado, por exemplo, cisalhado ou preparado enzimaticamente, DNA genômico. Os membros compreendem sequência de um sujeito e também pode compreender sequência não derivada do sujeito, por exemplo, sequência de adaptadores, uma sequência de iniciador, ou outras sequências que permitem identificação, por exemplo, sequências de “código de barra”.“Sequenciamento de geração seguinte ou NGS ou sequenciamento NG” conforme usado aqui, refere- se a quaisquer métodos de sequenciamento que determinam uma sequência de nucleotídeos de moléculas individuais de ácido nucleico (por exemplo, no sequenciamento de molécula única) ou representantes expandidos por clonagem para moléculas de ácido nucleico individuais em uma forma de alta taxa de transferência (por exemplo, mais do que 103, 104, 105 ou mais moléculas são sequenciadas simultaneamente). Em uma modalidade, a abundância relativa de espécies de ácido nucleico em uma biblioteca pode ser estimada pela contagem do número relativo de ocorrências das suas sequências cognatas nos dados gerados pelo experimento de sequenciamento. Métodos de sequenciamento de geração seguinte são conhecidos na técnica, e são descritos, por exemplo, em Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46, incorporado aqui como referência. O sequenciamento de geração seguinte pode detectar uma variante presente em menos do que 5% dos ácidos nucleicos em uma amostra.“Valor de nucleotídeo” conforme referido aqui, representa a identidade do nucleotídeo que ocupa ou é atribuído para uma posição de nucleotídeo pré-selecionada. Valores de nucleotídeos típicos incluem: ausente (por exemplo, deletado); adicional (por exemplo, uma inserção de um ou mais nucleotídeos, a identidade do qual pode ou não ser incluída); ou presente (ocupado); A; T; C; ou G. Outros valores podem ser, por exemplo, não Y, em que Y é A, T, G, ou C; A ou X, em que X é um ou dois de T, G, ou C; T ou X, em que X é um ou dois de A, G, ou C; G ou X, em que X é um ou dois de T, A, ou C; C ou X, em que X é um ou dois de T, G, ou A; um nucleotídeo pirimidina; ou um nucleotídeo purina. Um valor de nucleotídeo pode ser uma frequência para 1 ou mais, por exemplo, 2, 3, ou 4, bases (ou outros valores descritos aqui, por exemplo, ausente ou adicional) em uma posição de nucleotídeo. Por exemplo, um valor de nucleotídeo pode compreender uma frequência para A, e uma frequência para G, em uma posição de nucleotídeo.“Ou” é usado aqui para significar, e é usado de modo intercambiável com, o termo “e/ou”, salvo indicação claramente contrária pelo contexto. O uso do termo “e/ou” em alguns lugares aqui não significa que o uso do termo “ou” não é intercambiável com o termo “e/ou” salvo indicação claramente contrária pelo contexto.“Controle primário” refere-se a um tecido não tumor diferente do tecido NAT em uma amostra de tumor. O sangue é um típico controle primário.“Seletor de sequência de alinhamento de rearranjo,” conforme usado aqui, refere-se a um parâmetro que permite ou direciona a seleção de uma sequência para a qual a leitura deve ser alinhada como no caso de um rearranjo pré-selecionado. O uso dessa sequência pode otimizar o sequenciamento de um intervalo subgenômico pré-selecionado compreendendo um rearranjo. O valor para um seletor de sequência de alinhamento de rearranjo é uma função de um rearranjo pré-selecionado, por exemplo, um identificador para o rearranjo. Em uma modalidade o valor é a identidade do rearranjo. Um “seletor de sequência de alinhamento indel” (também definido em outro lugar aqui) é um exemplo de um seletor de sequência de alinhamento de rearranjo.“Amostra,” “amostra de tecido,” “amostra de paciente,” “amostra de tecido ou célula de paciente” ou “espécime” cada um refere-se a uma coleção de células semelhantes obtidas de um tecido, ou células circulantes, de um sujeito ou paciente. A fonte da amostra de tecido pode ser tecido sólido de um órgão fresco, congelado e/ou preservado, amostra de tecido, biópsia, ou aspirado; sangue ou qualquer constituinte do sangue; fluidos corporais como cerebral líquor, líquido amniótico, fluido peritoneal ou líquido intersticial; ou células de qualquer tempo de gestação ou desenvolvimento do sujeito. A amostra de tecido pode conter compostos que não são naturalmente misturados com o tecido natural como conservantes, anticoagulantes, tampões, fixadores, nutrientes, antibióticos ou semelhantes. Em uma modalidade, a amostra é conservada como amostra congelada ou como preparação de tecido incorporado com parafina fixado com formaldeído ou paraformaldeído (FFPE). Por exemplo, a amostra pode ser incorporada em uma matriz, por exemplo, um bloco FFPE ou uma amostra congelada.
Em uma modalidade, a amostra é uma amostra de tumor, por exemplo, inclui uma ou mais células pré-malignas ou malignas. Em determinadas modalidades, a amostra, por exemplo, a amostra de tumor, é adquirida de um tumor sólido, um tumor de tecido mole ou uma lesão metastática. Em outras modalidades, a amostra, por exemplo, a amostra de tumor, inclui tecido ou células de uma margem cirúrgica. Em outra modalidade, a amostra, por exemplo, amostra de tumor, inclui uma ou mais células de tumores circulantes (CTC) (por exemplo, um CTC adquirido de uma amostra de sangue).“Sensibilidade,” conforme usado aqui, é uma medida da capacidade de um método para detectar uma variante de sequência pré-selecionada em uma população heterogênea de sequências. Um método tem uma sensibilidade de S% para variantes de F% se, dada uma amostra em que a variante de sequência pré- selecionada está presente como pelo menos F% da sequências na amostra, o método pode detectar a sequência pré-selecionada em uma confiança pré-selecionada de C%, S% das vezes. A título de exemplo, um método tem uma sensibilidade de 90% para variantes de 5% se, dada uma amostra em que a variante de sequência pré-selecionada está presente como pelo menos 5% das sequências em uma amostra, o método pode detectar a sequência pré-selecionada em uma confiança pré-selecionada de 99%, 9 de 10 vezes (F=5%; C=99%; S=90%). Sensibilidades exemplares incluem aquelas de S=90%, 95%, 99% para variantes de sequência em F=1%, 5%, 10%, 20%, 50%, 100% em níveis de confiança de C= 90%, 95%, 99%, e 99,9%.“Especificidade,” conforme usado aqui, é uma medida da capacidade de um método em distinguir uma variante de sequência pré-selecionada da ocorrência verdadeira de artefatos de sequenciamento ou outras sequências intimamente relacionadas. É a capacidade de evitar detecções falso positivo. Detecções falso positivo podem surgir de erros introduzidos na sequência de interesse durante a preparação da amostra, erro de sequenciamento, ou sequenciamento negligente de sequências intimamente relacionadas como pseudogenes ou membros de uma família de gene. Um método tem uma especificidade de X % se, quando aplicado para um conjunto de amostra de sequências NTotal, em que sequências XVerdadeiro são verdadeiramente variantes e XNão verdadeiro são verdadeiramente não variantes, o método seleciona pelo menos X % do não verdadeiramente variante como não variante. Por exemplo, um método tem uma especificidade de 90 % se, quando aplicado para um conjunto de amostra de 1.000 sequências, em que 500 sequências são verdadeiramente variantes e 500 são verdadeiramente não variantes, o método seleciona 90 % das 500 sequências não verdadeiramente variantes como não variantes. Especificidades exemplares incluem 90, 95, 98, e 99 %.
Uma “amostra de ácido nucleico de tumor” conforme usado aqui, refere-se às moléculas de ácido nucleico de uma amostra de tumor ou câncer. Tipicamente, é de DNA, por exemplo, DNA genômico, ou cDNA derivado de RNA, de uma amostra de câncer ou tumor. Em determinadas modalidades, a amostra de ácido nucleico de tumor é purificada ou isolada (por exemplo, é removida do seu estado natural).
Uma “amostra de ácido nucleico” de “controle” ou “referência” conforme usado aqui, refere-se às moléculas de ácido nucleico de uma amostra de referência ou de controle. Tipicamente, é DNA, por exemplo, DNA genômico, ou cDNA derivado de RNA, não contendo a alteração ou variação no gene ou produto de gene. Em determinadas modalidades, a amostra de ácido nucleico de referência ou de controle é uma sequência de tipo selvagem ou uma não mutada. Em determinadas modalidades, a amostra de ácido nucleico de referência é purificada ou isolada (por exemplo, é removida do seu estado natural). Em outras modalidades, a amostra de ácido nucleico de referência é de uma amostra de não tumor, por exemplo, um controle de sangue, um tumor adjacente normal (NAT), ou qualquer outra amostra não cancerígena do mesmo ou de diferentes sujeitos.
O “sequenciamento” de uma molécula de ácido nucleico necessita da determinação da identidade de pelo menos 1 nucleotídeo na molécula. Em modalidades, a identidade de menos do que todos os nucleotídeos em uma molécula é determinada. Em outras modalidades, a identidade de uma maioria ou todos os nucleotídeos na molécula é determinada.“Intervalo subgenômico” como referido aqui, refere-se a uma parte da sequência genômica. Em uma modalidade um intervalo subgenômico pode ser uma posição de nucleotídeo única, por exemplo, uma variante de posição de nucleotídeo que é associada (positivamente ou negativamente) com um fenótipo de tumor. Em uma modalidade um intervalo subgenômico compreende mais de uma posição de nucleotídeo. Essas modalidades incluem sequências de pelo menos 2, 5, 10, 50, 100, 150, ou 250 posições de nucleotídeo em comprimento. Intervalos subgenômicos podem compreender um gene inteiro, ou uma parte pré- selecionada dos mesmos, por exemplo, uma região codificadora (ou partes da mesma), um íntron pré- selecionado (ou parte do mesmo) ou éxon (ou parte do mesmo). Um intervalo subgenômico pode compreender o todo ou uma parte de um fragmento de ocorrência natural, por exemplo, genômico, ácido nucleico. Por exemplo, um intervalo subgenômico pode corresponder a um fragmento de DNA genômico que é submetido a uma reação de sequenciamento. Em modalidades, um intervalo subgenômico é sequência contínua de uma fonte genômica. Em modalidades um intervalo subgenômico inclui sequências que não são contíguas no genoma, por exemplo, pode incluir junções formadas encontradas em junções éxon-éxon no cDNA.
Em uma modalidade, um intervalo subgenômico compreende ou consiste em: uma posição de nucleotídeo única; uma região intragênica ou uma região intergênica; um éxon ou um íntron, ou um fragmento dos mesmos, tipicamente uma sequência de éxon ou um fragmento do mesmo; uma região codificadora ou uma região não codificadora, por exemplo, um promotor, um melhorador, uma região 5’ não traduzida (5’ UTR), ou uma região 3’ não traduzida (3’ UTR), ou um fragmento dos mesmos; um cDNA ou um fragmento do mesmo; um SNP; uma mutação somática, uma mutação de linhagem germinativa ou ambas; uma alteração, por exemplo, uma mutação pontual ou simples; uma mutação de deleção (por exemplo, uma deleção em fase, uma deleção intragênica, uma deleção de gene completo); uma mutação de inserção (por exemplo, inserção intragênica); uma mutação de inversão (por exemplo, uma inversão intracromossômica); uma mutação de ligação; uma mutação de inserção ligada; uma mutação de duplicação invertida; uma duplicação tandem (por exemplo, uma duplicação tandem intracromossômica); uma translocação (por exemplo, uma translocação cromossômica, uma translocação não recíproca); um rearranjo (por exemplo, um rearranjo genômico (por exemplo, um rearranjo de um ou mais íntrons, ou um fragmento do mesmo; um íntron rearranjado pode incluir um 5’- e/ou 3’- UTR); uma mudança número de cópia do gene; uma mudança na expressão do gene; uma mudança nos níveis de RNA, ou uma combinação dos mesmos. O “número de cópia de um gene” refere-se ao número de sequências de DNA em uma célula que codifica um produto de gene particular. Geralmente, para um dado gene, um mamífero tem duas cópias de cada gene. O número de cópia pode ser aumentado, por exemplo, por amplificação ou duplicação de gene, ou reduzido por deleção.“Valor de limiar,” conforme usado aqui, é um valor que é uma função do número de leituras necessárias para estar presente para atribuir um valor de nucleotídeo a um intervalo subgenômico. Por exemplo, é uma função do número de leituras contendo um valor específico de nucleotídeo, por exemplo, A, em uma posição de nucleotídeo, necessário para atribuir esse valor de nucleotídeo a essa posição de nucleotídeo no intervalo subgenômico. O valor de limiar pode, por exemplo, ser expresso como (ou como uma função de) um número de leituras, por exemplo, um inteiro, ou como uma proporção de leituras contendo o valor pré-selecionado. A título de exemplo, se o valor de limiar é X, e X+1 leituras contendo o valor de nucleotídeo de “A” estão presentes, então, o valor de “A” é atribuído para a posição pré-selecionada no intervalo subgenômico. O valor de limiar também pode ser expresso como uma função de uma expectativa de mutação ou variante, frequência de mutação, ou de Bayesiano prévio. Em uma modalidade, uma frequência de mutação pré-selecionada iria necessitar um número pré-selecionado ou proporção de leituras contendo um valor de nucleotídeo, por exemplo, A ou G, em uma posição pré-selecionada, para chamada do valor de nucleotídeo. Em modalidades, o valor de limiar pode ser uma função de expectativa de mutação, por exemplo, frequência de mutação, e tipo de tumor. Por exemplo, uma variante pré-selecionada em uma posição de nucleotídeo pré-selecionada poderia ter um primeiro valor de limiar se o paciente tiver um primeiro tipo de tumor e um segundo valor de limiar se o paciente tiver um segundo tipo de tumor.
Conforme usado aqui, “membro alvo” refere-se a uma molécula de ácido nucleico que se deseja isolar da biblioteca de ácido nucleico. Em uma modalidade, os membros alvo podem ser um membro tumor, um membro de referência, um membro de controle, ou um membro PGx conforme descrito aqui.“Membro de tumor,” ou outro termo semelhante (por exemplo, um “membro associado ao tumor ou câncer”), conforme usado aqui se refere a um membro contendo sequência de uma célula de tumor. Em uma modalidade, o elemento tumor inclui um intervalo subgenômico contendo uma sequência (por exemplo, uma sequência de nucleotídeo) que possui uma alteração (por exemplo, uma mutação) associada com um fenótipo cancerígeno. Em outras modalidades, o elemento tumor inclui um intervalo subgenômico contendo uma sequência de tipo selvagem (por exemplo, uma sequência de tipo selvagem de nucleotídeo). Por exemplo, um intervalo subgenômico de um alelo tipo selvagem homozigoto ou heterozigoto presente em uma célula cancerígena. Um membro tumor pode incluir um membro de referência ou um membro PGx.“Membro de referência”, ou outro termo semelhante (por exemplo, um “membro de controle”), conforme usado aqui, refere-se a um membro que compreende um intervalo subgenômico contendo uma sequência (por exemplo, uma sequência de nucleotídeo) que não é associada com o fenótipo cancerígeno. Em uma modalidade, o membro de referência inclui uma sequência de nucleotídeos do tipo selvagem ou não mutada de um gene ou produto de gene que quando mutada é associada com o fenótipo cancerígeno. O membro de referência pode estar presente na célula cancerígena ou célula não cancerígena.“Membro PGx” ou outro termo semelhante, conforme usado aqui, refere-se a um membro que compreende um intervalo subgenômico que é associado com o perfil farmacogenético ou farmacogenômico de um gene. Em uma modalidade, o membro PGx inclui um SNP (por exemplo, um SNP conforme descrito aqui). Em outras modalidades, o membro PGx inclui um intervalo subgenômico de acordo com a Tabela 1 ou Tabela 2.“Variante,” conforme usado aqui, refere-se a uma estrutura que pode estar presente em um intervalo subgenômico que pode ter mais do que um estrutura, por exemplo, um alelo em um lócus polimórfico.
Títulos, por exemplo, (a), (b), (i) etc, são apresentados apenas para facilitar a leitura das especificações e reivindicações. O uso de títulos na especificação ou reivindicações não necessita que as etapas e elementos sejam realizados em ordem alfabética ou numérica ou na ordem em que são apresentados.
Seleção de Gene ou Produtos de Gene
Os genes ou produtos de gene selecionados (também referidos aqui como os “genes ou produtos de gene alvo”) podem incluir intervalos subgenômicos compreendendo regiões intragênicas ou regiões intergênicas. Por exemplo, o intervalo subgenômico pode incluir um éxon ou um íntron, ou um fragmento dos mesmos, tipicamente uma sequência de éxon ou um fragmento do mesmo. O intervalo subgenômico pode incluir uma região codificadora ou uma região não codificadora, por exemplo, um promotor, um melhorador, uma região 5’ não traduzida (5’ UTR), ou uma região 3’ não traduzida (3’ UTR), ou um fragmento do mesmo. Em outras modalidades, o intervalo subgenômico inclui um cDNA ou um fragmento do mesmo. Em outras modalidades, o intervalo subgenômico inclui um SNP, por exemplo, conforme descrito aqui.
Em outras modalidades, os intervalos subgenômicos incluem substancialmente todos os éxons em um genoma, por exemplo, um ou mais dos intervalos subgenômicos como descrito aqui (por exemplo, éxons de genes ou produtos de gene selecionados de interesse (por exemplo, genes ou produtos de gene associados com um fenótipo cancerígeno conforme descrito aqui)). Em uma modalidade, o intervalo subgenômico inclui uma mutação somática, uma mutação de linhagem germinativa ou ambas. Em uma modalidade, o intervalo subgenômico inclui uma alteração, por exemplo, uma mutação pontual ou simples, uma mutação de deleção (por exemplo, uma deleção em fase, uma deleção intragênica, uma deleção de gene completo), uma mutação de inserção (por exemplo, inserção intragênica), uma mutação de inversão (por exemplo, uma inversão intracromossômica), uma mutação de ligação, uma mutação de inserção ligada, uma mutação de duplicação invertida, uma duplicação tandem (por exemplo, uma duplicação tandem intracromossômica), uma translocação (por exemplo, uma translocação cromossômica, uma translocação não recíproca), um rearranjo, uma mudança no número de cópias do gene, ou uma combinação dos mesmos. Em determinadas modalidades, o intervalo subgenômico constitui menos do que 5, 1, 0,5, 0,1%, 0,01%, 0,001% da região codificadora do genoma das células de tumor em uma amostra. Em outras modalidades, os intervalos subgenômicos não estão envolvidos em uma doença, por exemplo, não estão associados com um fenótipo de câncer conforme descrito aqui.
Em uma modalidade, o gene ou produto de gene alvo é um biomarcador. Conforme usado aqui, um “biomarcador” ou “marcador” é um gene, mRNA, ou proteína que pode ser alterado, em que dita alteração é associada com câncer. A alteração pode ser em quantidade, estrutura, e/ou atividade em um tecido de câncer ou célula cancerígena, quando comparado com sua quantidade, estrutura, e/ou atividade, em um tecido ou célula saudável ou normal (por exemplo, um controle), e é associada com um estado de doença, como câncer. Por exemplo, um marcador associado com câncer, ou preditivo de responsividade de terapêuticos anticâncer, pode ter uma alterada sequência de nucleotídeo, sequência de aminoácido, translocação cromossômica, inversão intracromossômica, número de cópia, nível de expressão, nível de proteína, atividade de proteína, ou estado de metilação, em um tecido de câncer ou célula cancerígena quando comparado com um tecido ou célula normal, saudável. Além disso, um “marcador” inclui uma molécula cuja estrutura é alterada, por exemplo, mutada (contém uma mutação), por exemplo, difere da sequência do tipo selvagem no nível de nucleotídeo ou aminoácido, por exemplo, por substituição, deleção, ou inserção, quando presente em um tecido ou célula associado com um estado de doença, como câncer.
Em uma modalidade, o gene ou produto de gene alvo inclui a polimorfismo de nucleotídeo único (SNP). Em outra modalidade, o gene ou produto de gene tem uma pequena deleção, por exemplo, uma deleção intragênica pequena (por exemplo, uma deleção em fase ou mudança de quadro). Ainda em outra modalidade, a sequência alvo resulta da deleção de um gene inteiro. Ainda em outra modalidade, a sequência alvo tem uma pequena inserção, por exemplo, uma inserção intragênica pequena. Em uma modalidade, a sequência alvo resulta de uma inversão, por exemplo, uma inversão intracromossômica. Em outra modalidade, a sequência alvo resulta de uma translocação intercromossômica. Ainda em outra modalidade, a sequência alvo tem uma duplicação tandem. Em uma modalidade, a sequência alvo tem uma característica indesejada (por exemplo, alto teor de GC ou elemento repetido). Em outra modalidade, a sequência alvo tem uma parte de sequência de nucleotídeos que não pode igualmente ser direcionada com sucesso, por exemplo, devido a sua natureza repetitiva. Em uma modalidade, a sequência alvo resulta de junção alternativo. Em outra modalidade, a sequência alvo é escolhida de um gene ou produto de gene, ou um fragmento do mesmo de acordo com a Tabela 1, 1A, 2, 3, ou 4.
Cânceres incluem, entre outros, câncer de células B, por exemplo, mieloma múltiplo, melanoma, câncer da mama, câncer do pulmão (como carcinoma do pulmão de células não pequenas, ou NSCLC), câncer dos brônquios, câncer colorretal, câncer da próstata, câncer do pâncreas, câncer de estômago, câncer de ovário, câncer de bexiga, câncer de cérebro ou do sistema nervoso central, câncer do sistema nervoso periférico, câncer de esôfago, câncer de colo do útero, câncer de útero ou do endométrio, câncer da cavidade oral ou faringe, câncer de fígado, câncer de rim, câncer testicular, câncer do trato biliar, câncer do intestino delgado ou do apêndice, câncer das glândulas salivares, câncer da glândula tireoide, câncer da glândula adrenal, osteossarcoma, condrossarcoma, câncer dos tecidos hematológicos, adenocarcinomas, tumores miofibroblásticos inflamatórios, tumor estromal gastrointestinal (GIST), câncer do cólon, mieloma múltiplo (MM), síndrome mielodisplásica (MDS), distúrbio mieloproliferativo (MPD), leucemia linfocítica aguda (ALL), leucemia mieloide aguda (AML), leucemia mieloide crônica (CML), leucemia linfocítica crônica (CLL), policitemia Vera, linfoma de Hodgkin, linfoma não Hodgkin (NHL), sarcoma de tecido mole, fibrossarcoma, mixossarcoma, lipossarcoma, osteossarcoma, cordoma, angiosarcoma, endoteliossarcoma, linfangiossarcoma, linfangioendoteliossarcoma, sinovioma, mesotelioma, tumor de Ewing, leiomiossarcoma, rabdomiossarcoma, carcinoma de células escamosas, carcinoma basocelular, adenocarcinoma, carcinoma da glândula sudorípara, carcinoma da glândula sebácea, carcinoma papilar, adenocarcinomas papilares, carcinoma medular, carcinoma broncogênico, carcinoma de células renais, hepatoma, carcinoma do ducto biliar, coriocarcinoma, seminoma, carcinoma embrionário, tumor de Wilms, carcinoma da bexiga, carcinoma epitelial, glioma, astrocitoma, meduloblastoma, craniofaringioma, ependimoma, pinealoma, hemangioblastoma, neuroma acústico, oligodendroglioma, meningioma, neuroblastoma, retinoblastoma,linfoma folicular, linfoma difuso de grandes células B, linfoma de células do manto, carcinoma hepatocelular, câncer de tireoide, câncer gástrico, câncer de cabeça e pescoço, câncer de células pequenas, trombocitemia essencial, metaplasia mieloide idiopática, síndrome hipereosinofílica, mastocitose sistêmica, hipereosinofilia familiar, leucemia eosinofílica crônica, câncer neuroendócrino, tumor carcinoide, e semelhantes.
Em uma modalidade, o gene ou produto de gene alvo é escolhido completo, ou um fragmento do mesmo, selecionado do grupo consistindo em ABCB1, ABCC2, ABCC4, ABCG2, ABL1, ABL2, AKT1, AKT2, AKT3, ALK, APC, AR, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRAF, BRCA1, BRCA2, C1orf144, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2A, CDKN2B, CDKN2C, CEBPA, CHEK1, CHEK2, CRKL, CRLF2, CTNNB1, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DNMT3A, DOT1L, DPYD, EGFR, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB2, ERBB3, ERBB4, ERCC2, ERG, ESR1, ESR2, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FCGR3A, FGFR1, FGFR2, FGFR3, FGFR4, FLT1, FLT3, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GSTP1, GUCY1A2, HOXA3, HRAS, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, ITPA, JAK1, JAK2, JAK3, JUN, KDR, KIT, KRAS, LRP1B, LRP2, LTK, MAN1B1, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MET, MITF, MLH1, MLL, MPL, MRE11A, MSH2, MSH6, MTHFR, MTOR, MUTYH, MYC, MYCL1, MYCN, NF1, NF2, NKX2-1, NOTCH1, NPM1, NQO1, NRAS, NRP2, NTRK1, NTRK3, PAK3, PAX5, PDGFRA, PDGFRB, PIK3CA, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTEN, PTPN11, PTPRD, RAF1, RARA, RB1, RET, RICTOR, RPTOR, RUNX1, SLC19A1, SLC22A2, SLCO1B3, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOD2, SOX10, SOX2, SRC, STK11, SULT1A1, TBX22, TET2, TGFBR2, TMPRSS2, TOP1, TP53, TPMT, TSC1, TSC2, TYMS, UGT1A1, UMPS, USP9X, VHL, e WT1.
Em uma modalidade, o gene ou produto de gene alvo, ou um fragmento do mesmo, tem um ou mais SNPs que são relevantes para farmacogenética e farmacogenômica (PGx), por exemplo, metabolismo de droga e toxicidade. Genes ou produtos de gene exemplares incluem, entre outros, ABCB1, ABCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1, e UMPS.
Em outra modalidade, o gene ou produto de gene alvo, ou um fragmento do mesmo, tem um ou mais códons que são associados com câncer. Genes ou produtos de gene exemplares incluem, entre outros, ABL1 (por exemplo, códon 315), AKT1, ALK, APC (por exemplo, códon 1114, 1338, 1450, e 1556), AR, BRAF (por exemplo, códon 600), CDKN2A, CEBPA, CTNNB1 (por exemplo, códon 32, 33, 34, 37, 41, e 45), EGFR (por exemplo, 719, 746-750, 768, 790, 858, e 861), ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3 (por exemplo, códon 835), HRAS (por exemplo, códon 12, 13, e 61), JAK2 (por exemplo, códon 617), KIT (por exemplo, códon 816), KRAS (por exemplo, códon 12, 13, e 61), MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, PDGFRA, PIK3CA (por exemplo, códon 88, 542, 545, 546, 1047, e 1049), PTEN (por exemplo, códon 130, 173, 233, e 267), RB1, RET (por exemplo, códon 918), TP53 (por exemplo,175, 245, 248, 273, e 306).
Ainda em outra modalidade, o gene ou produto de gene alvo, ou um fragmento do mesmo, são associados com câncer. Genes ou produtos de gene exemplares incluem, entre outros, ABL2, AKT2, AKT3, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDR, LRP1B, LTK, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK3, PAK3, PAX5, PDGFRB, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOX10, SOX2, SRC, STK11, TBX22, TET2, TGFBR2, TMPRSS2, TOP1, TSC1, TSC2, USP9X, VHL, e WT1.
Aplicações dos métodos acima mencionados incluem usar uma biblioteca de oligonucleotídeos contendo todas as variantes de sequência conhecidas (ou um subconjunto das mesmas) de um gene ou genes para sequenciamento particular em espécimes médicas.
Módulo de Seleção de Gene
Este módulo revela conjuntos de intervalos subgenômicos para utilização em métodos apresentado na invenção, por exemplo, intervalos subgenômicos para conjuntos ou grupos de genes e outras regiões descritas aqui.
Métodos e ensaios otimizados para sequenciamento de grandes números de genes e produtos de gene de amostras, por exemplo, amostras de tumor, de um ou mais sujeitos são revelados. Em uma modalidade, os métodos e ensaios apresentados na invenção são usados em um formato de ensaio multi-gene, multiplex, por exemplo, ensaios que incorpora sinais múltiplos de um grande número de eventos genéticos diversos em um grande número de genes. Revelados aqui são métodos e ensaios que são baseados, pelo menos em parte, em um conjunto pré-selecionado de genes ou produtos de gene que são associados (por exemplo, positivamente ou negativamente) com um fenótipo cancerígeno (por exemplo, um ou mais de risco de câncer, progressão de câncer, resposta de tratamento de câncer ou resistência ao tratamento de câncer). Esses genes ou produtos de gene pré-selecionados permitem a aplicação de métodos de sequenciamento, particularmente métodos que se baseiam no sequenciamento paralelo em massa de um grande número de genes diversos, por exemplo, de amostras de controle ou tumor.
Assim, a invenção caracteriza um método para analisar uma amostra, por exemplo, uma amostra de tumor. O método compreende:(a) adquirir uma biblioteca compreendendo uma pluralidade de elementos de uma amostra, por exemplo, uma pluralidade de elementos de tumor de uma amostra de tumor;(b) opcionalmente, enriquecer a biblioteca para sequências pré-selecionadas, por exemplo, ao contatar a biblioteca com um conjunto de isca (ou pluralidade de conjuntos de isca) para fornecer elementos selecionados (por vezes referido aqui como captura de biblioteca);(c) adquirir uma leitura para um intervalo subgenômico de um membro, por exemplo, um membro tumor da dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação, por exemplo, com um método Bayesiano ou um método descrito aqui) de dita leitura para posição de nucleotídeo pré-selecionada, assim analisar dita amostra de tumor,em que o método compreende sequenciamento, por exemplo, por um método de sequenciamento de geração seguinte, um intervalo subgenômico de pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais genes ou produtos de gene da amostra, em que os genes ou produtos de gene são escolhidos de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53.
Em uma modalidade, a etapa (b) está presente. Em uma modalidade, a etapa (b) está ausente.
Assim, em modalidades um método compreende sequenciamento, por exemplo, por um método de sequenciamento de geração seguinte, um intervalo subgenômico de pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais genes ou produtos de gene da amostra de ácido nucleico adquirida, em que os genes ou produtos de gene são escolhidos de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53, assim analisar a amostra de tumor.
Em determinadas modalidades, o método, ou o ensaio, ainda inclui o sequenciamento de um intervalo subgenômico de um gene ou produto de gene escolhido de um, dois, três, quatro, cinco, dez, quinze, vinte, vinte e cinco, trinta, trinta e cinco, quarenta, quarenta e cinco, cinquenta, cinquenta e cinco, sessenta, sessenta e cinco, setenta, setenta e cinco, oitenta, oitenta e cinco, noventa, noventa e cinco, cem, cento e cinco, cento e dez, cento e quinze, cento e vinte ou mais de: ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL, ou WT1.
Em outras modalidades, o método, ou o ensaio, ainda inclui o sequenciamento de um intervalo subgenômico que está presente em um gene ou produto de gene associado com um ou mais de metabolismo de droga, capacidade de resposta para a droga, ou toxicidade (também referido aqui como genes “PGx”). Em determinadas modalidades, o intervalo subgenômico sequenciado inclui uma alteração (por exemplo, polimorfismo de nucleotídeo único (SNP)). Em uma modalidade, o intervalo subgenômico sequenciado é de um gene ou produto de gene escolhido de um, dois, três, quatro, cinco, dez, quinze, vinte, vinte e cinco, trinta ou mais de: ABCB1, BCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1, ou UMPS.
Em outras modalidades, o método, ou o ensaio, ainda inclui o sequenciamento de um intervalo subgenômico que está presente em um gene ou produto de gene escolhido de um, dois, três, quatro, cinco, dez, quinze, vinte ou mais de ARFRP1, BCL2A1, CARD11, CDH20, CDH5, DDR2, EPHA3, EPHA5, EPHA7, EPHB1, FOXP4, GPR124, GUCY1A2, INSR, LRP1B, LTK, PAK3, PHLPP2, PLCG1, PTPRD, STAT3, TBX22 ou USP9X.
Em determinadas modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma sequência de nucleotídeos de pelo menos 50, 75, 100, 150, 200 ou mais genes ou produtos de gene da Tabela 1 ou 1A. Em outras modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma sequência de nucleotídeos de pelo menos 50, 75, 100, 150, 200 ou mais genes ou produtos de gene da Tabela 1 ou 1A adquirida de uma amostra de tumor dos tipos de câncer especificados aqui. Ainda em outras modalidades, o intervalo subgenômico sequenciado inclui uma combinação dos genes de Prioridade 1 e os genes PGx de acordo com a Tabela 1 ou 1A (por exemplo, pelo menos 5, 10, 20 ou 30 genes de Prioridade 1; e pelo menos 5, 10, 20 ou 30 PGX genes de acordo com a Tabela 1 ou 1A). Em outras modalidades, o intervalo subgenômico sequenciado inclui uma combinação dos genes de Prioridade 1, genes de Câncer e genes PGx de acordo com a Tabela 1 ou 1A (por exemplo, pelo menos 5, 10, 20 ou 30 genes de Prioridade 1; pelo menos 5, 10, 20 ou 30 genes de Câncer; e pelo menos 5, 10, 20 ou 30 genes PGX de acordo com a Tabela 1 ou 1A).
Em determinadas modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui um códon escolhido de um ou mais de: códon 315 do gene ABL1; códon 1114, 1338, 1450 ou 1556 de APC; códon 600 de BRAF; códon 32, 33, 34, 37, 41 ou 45 de CTNNB1; códon 719, 746-750, 768, 790, 858 ou 861 de EGFR; códon 835 de FLT3; códon 12, 13, ou 61 de HRAS; códon 617 de JAK2; códon 816 de KIT; códon 12, 13, ou 61 de KRAS; códon 88, 542, 545, 546, 1047, ou 1049 de PIK3CA; códon 130, 173, 233, ou 267 de PTEN; códon 918 de RET; códon 175, 245, 248, 273, ou 306 de TP53. Em determinadas modalidades, dois, três, quatro, cinco, dez, quinze, vinte ou mais dos códons supracitados são sequenciados. Em outras modalidades, o intervalo subgenômico sequenciado inclui um ou mais dos códons mostrados na Tabela 1 ou 1A.
Em outras modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma sequência de nucleotídeos de pelo menos um, cinco, dez, quinze, vinte, vinte e cinco ou mais genes PGx ou produtos de gene da Tabela 1. Em outras modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma sequência de nucleotídeos de pelo menos 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, ou mais genes PGx ou produtos de gene da Tabela 2. Ainda em outras modalidades, o intervalo subgenômico sequenciado inclui uma sequência de nucleotídeos de pelo menos um gene PGx (e/ou pelo menos um mutação no gene PGx) de acordo com a Tabela 2 que é associado com uma ou mais de: metabolismo de droga, capacidade de resposta para a droga, toxicidade da droga ou efeitos colaterais. Por exemplo, o intervalo subgenômico sequenciado pode incluir uma sequência de nucleotídeos de pelo menos um gene PGx associado com melhor sobrevida de um paciente com câncer tratado com uma droga (por exemplo, melhor sobrevida de um paciente com câncer de mama tratado com paclitaxel (por exemplo, um gene ABCB1)). Em outras modalidades, o intervalo subgenômico sequenciado é associado com metabolismo de paclitaxel (por exemplo, genes CYP2C8 em loci diferentes e mutações mostradas na Tabela 2; um gene CYP3A4). Ainda em outras modalidades, o intervalo subgenômico sequenciado é associado com toxicidade a uma droga (por exemplo, toxicidade 6-MP conforme visto com gene ABCC4 (Tabela 2); toxicidade com 5- FU conforme visto com gene DPYD, gene TYMS, e gene UMPS (Tabela 2); toxicidade com purina conforme visto com gene TMPT (Tabela 2); toxicidade com daunorrubicina conforme visto com gene NRP2; gene Clorf144, gene CYP1B1 (Tabela 2)). Em outras modalidades, o intervalo subgenômico sequenciado é associado com um efeito colateral a uma droga (por exemplo, genes ABCG2, TYMS, UGT1A1, ESR1 e ESR2 (Tabela 2)).
Em outra modalidade, intervalos subgenômicos de um dos seguintes conjuntos ou grupos são analisados. Por exemplo, intervalos subgenômicos associados com um gene de câncer ou tumor ou produto de gene, um gene de referência (por exemplo, um tipo selvagem) ou produto de gene, ou um gene PGx ou produto de gene, obtendo-se assim um subconjunto selecionado de intervalos subgenômicos de uma amostra de tumor.
Em uma modalidade, o método sequencia um subconjunto de intervalos subgenômicos de uma amostra de tumor, em que os intervalos subgenômicos são escolhidos de pelo menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 ou todos dos seguintes:A) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais intervalos subgenômicos de um gene mutado ou tipo selvagem ou produto de gene escolhidos de pelo menos cinco ou mais de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53;B) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, trinta e cinco, quarenta, quarenta e cinco, cinquenta, cinquenta e cinco, sessenta, sessenta e cinco, setenta, setenta e cinco, oitenta, oitenta e cinco, noventa, noventa e cinco, cem, cento e cinco, cento e dez, cento e quinze, cento e vinte ou mais de intervalos subgenômicos de um gene mutado ou tipo selvagem ou produto de gene escolhidos de pelo menos cinco ou mais de: ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL, ou WT1; C) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, ou mais intervalos subgenômicos de um gene ou produto de gene de acordo com a Tabela 1, 1A, 2, 3 ou 4;D) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, ou mais intervalos subgenômicos de um gene ou produto de gene que é associado com um tumor ou câncer (por exemplo, é um preditor de resposta ao tratamento positivo ou negativo, é um fator de prognóstico positivo ou negativo para, ou permite o diagnóstico diferencial de um tumor ou câncer, por exemplo, um gene ou produto de gene escolhido de um ou mais de: ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1, e TP53;E) pelo menos cinco, seis, sete, oito, nove, dez, ou mais intervalos subgenômicos incluindo um códon mutado ou tipo selvagem escolhido de um ou mais de: códon 315 do gene ABL1; códon 1114, 1338, 1450 ou 1556 de APC; códon 600 de BRAF; códon 32, 33, 34, 37, 41 ou 45 de CTNNB1; códon 719, 746750, 768, 790, 858 ou 861 de EGFR; códon 835 de FLT3; códon 12, 13, ou 61 de HRAS; códon 617 de JAK2; códon 816 de KIT; códon 12, 13, ou 61 de KRAS; códon 88, 542, 545, 546, 1047, ou 1049 de PIK3CA; códon 130, 173, 233, ou 267 de PTEN; códon 918 de RET; códon 175, 245, 248, 273, ou 306 de TP53 (por exemplo, pelo menos cinco, dez, quinze, vinte ou mais intervalos subgenômicos que inclui um ou mais dos códons mostrados na Tabela 1 ou 1A).F) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, ou mais de intervalos subgenômicos de um gene mutado ou tipo selvagem ou produto de gene (por exemplo, polimorfismo de nucleotídeo único (SNP)) de um intervalo subgenômico que está presente em um gene ou produto de gene associado com um ou mais de metabolismo de droga, capacidade de resposta para a droga, ou toxicidade (também referido aqui como genes “PGx”) escolhido de: ABCB1, BCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1, ou UMPS;G) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, ou mais de intervalos subgenômicos de um gene PGx mutado ou tipo selvagem ou produto de gene (por exemplo, polimorfismo de nucleotídeo único (SNP)) de um intervalo subgenômico que está presente em um gene ou produto de gene associado com um ou mais de: (i) melhor sobrevida de um paciente com câncer tratado com uma droga (por exemplo, melhor sobrevida de um paciente com câncer de mama tratado com paclitaxel (por exemplo, um gene ABCB1)); (ii) metabolismo de paclitaxel (por exemplo, genes CYP2C8 em loci diferentes e mutações mostradas na Tabela 2; gene CYP3A4); (iii) toxicidade a uma droga (por exemplo, toxicidade 6MP conforme visto com gene ABCC4 (Tabela 2); toxicidade com 5-FU conforme visto com gene DPYD, gene TYMS, ou gene UMPS (Tabela 2); toxicidade com purina conforme visto com um gene TMPT (Tabela 2); toxicidade com daunorrubicina conforme visto com gene NRP2; gene Clorf144, gene CYP1B1 (Tabela 2); ou (iv) um efeito colateral a uma droga (por exemplo, genes ABCG2, TYMS, UGT1A1, ESR1 e ESR2 (Tabela 2));H) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3; J) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3 em uma amostra de tumor sólido dos tipos de câncer especificados aqui;K) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene de acordo com a Tabela 4;L) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene de acordo com a Tabela 4 em uma amostra de tumor heme dos tipos de câncer especificados aqui;M) pelo menos cinco genes ou produtos de gene selecionados da Tabela 1, 1A-4, em que uma variação alélica, por exemplo, na posição pré-selecionada, é associada com um tipo pré-selecionado de tumor e em que dita variação alélica está presente em menos do que 5% das células em dito tipo de tumor;N) pelo menos cinco genes ou produtos de gene selecionados da Tabela 1, 1A-4, que são incluídos em uma região rica em GC; ouO) pelo menos cinco genes ou produtos de gene indicativos de um fator genético (por exemplo, um risco de linha germinativa) para desenvolver câncer (por exemplo, o gene ou produto de gene é escolhido de um ou mais de BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL ou WT1).
Em determinadas modalidades, a etapa de adquirir do método ou ensaio inclui adquirir uma biblioteca que inclui uma pluralidade de membros associados com tumor ou câncer, membros de referência e/ou membros de PGx como descrito aqui da dita amostra de tumor. Em determinadas modalidades, a etapa de selecionar inclui hibridização baseada em solução (por exemplo, para selecionar ou enriquecer o membro associado ao tumor ou câncer, o membro de referência (por exemplo, o membro de tipo selvagem), ou o membro PGx, cada um compreendendo um intervalo subgenômico de um gene ou produto de gene conforme descrito aqui.
Modalidades ou características adicionais da presente invenção são como as seguintes:
Em uma modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma região intragênica ou uma região intergênica. Em uma modalidade, o intervalo subgenômico inclui um gene ou fragmento do mesmo, um éxon ou um fragmento do mesmo, ou uma posição de nucleotídeo pré-selecionada. Em outra modalidade, o intervalo subgenômico inclui um éxon ou um íntron, ou um fragmento do mesmo, tipicamente um éxon ou um fragmento do mesmo. Em uma modalidade, o intervalo subgenômico inclui uma região codificadora ou uma região não codificadora, por exemplo, um promotor, um melhorador, uma região 5’ não traduzida (5’ UTR), ou uma região 3’ não traduzida (3’ UTR), ou um fragmento dos mesmos.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico inclui uma alteração (por exemplo, uma ou mais mutações) associada, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno (por exemplo, um ou mais de risco de câncer, progressão de câncer, tratamento de câncer ou resistência ao tratamento). Ainda em outra modalidade, o intervalo subgenômico inclui uma alteração, por exemplo, uma mutação pontual ou simples, uma mutação de deleção (por exemplo, uma deleção em fase, uma deleção intragênica, uma deleção de gene completo), uma mutação de inserção (por exemplo, inserção intragênica), uma mutação de inversão (por exemplo, uma inversão intracromossômica), uma mutação de ligação, uma mutação de inserção ligada, uma mutação de duplicação invertida, uma duplicação tandem (por exemplo, uma duplicação tandem intracromossômica), uma translocação (por exemplo, uma translocação cromossômica, uma translocação não recíproca), um rearranjo, uma mudança do número de cópia do gene, ou uma combinação dos mesmos.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico inclui uma molécula de ácido nucleico (no mesmo ou em um diferente intervalo genômico) não associada com o fenótipo de câncer para o tumor do tipo da amostra. Em uma modalidade, o intervalo subgenômico sequenciado inclui uma sequência de nucleotídeos tipo selvagem ou não mutada de um gene ou produto de gene (por exemplo, uma sequência de éxon ou um fragmento da mesma) que quando mutada é associada com um fenótipo cancerígeno (por exemplo, uma sequência de tipo selvagem ou não mutada de um gene ou produto de gene conforme descrito aqui). Por exemplo, o intervalo subgenômico sequenciado é de uma amostra de referência normal (por exemplo, não cancerígena) (por exemplo, do mesmo sujeito do qual a amostra de tumor foi obtida); um tecido adjacente normal (NAT) ou uma amostra de sangue do mesmo sujeito contendo ou em risco de conter o tumor. Em outras modalidades, o intervalo subgenômico sequenciado é de um sujeito diferente como o membro associado ao tumor ou câncer (por exemplo, é de uma ou mais da mesma ou diferente amostra de tumor de um sujeito diferente; uma amostra de referência normal (por exemplo, não cancerígena); um tecido adjacente normal (NAT); ou uma amostra de sangue), de um ou mais sujeitos diferentes (por exemplo, sujeitos saudáveis ou outros sujeitos contendo ou em risco de conter o tumor).
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico inclui uma ou mais alterações de translocação como mostradas na Tabela 3, Tabela 4, ou uma combinação dos mesmas. Em determinadas modalidades, o intervalo subgenômico sequenciado inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3. Em outras modalidades, o intervalo subgenômico sequenciado inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3 em uma amostra de tumor dos tipos de câncer especificados aqui. Em outras modalidades, o intervalo subgenômico sequenciado inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene de acordo com a Tabela 4. Em outras modalidades, o intervalo subgenômico sequenciado inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene da Tabela 4 em uma amostra de tumor dos tipos de câncer especificados aqui.
Em uma modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma sequência de éxon que inclui uma alteração de nucleotídeo única associada com um fenótipo cancerígeno. Por exemplo, o intervalo subgenômico inclui nucleotídeos 25.398.215-25.398.334 do cromossomo 12. Em outras modalidades, o intervalo subgenômico inclui uma substituição C-T na posição 25.398.286, que representa uma mutação G12S no gene KRAS.
Em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma deleção em fase de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou mais códons de uma sequência de nucleotídeos de referência (por exemplo, cromossomo). Em uma modalidade, o intervalo subgenômico inclui uma deleção em fase de códons 746-750 do gene EGFR (por exemplo, o intervalo subgenômico inclui nucleotídeos 55.242.400 a 55.242.535 do cromossomo 7, mas é desprovido dos nucleotídeos 55.242.464 a 55.242.479).
Ainda em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui a deleção da sequência de dinucleotídeo “CA” do códon 64 do gene PTEN (por exemplo, o intervalo subgenômico inclui nucleotídeos 9.675.214 a 89.675.274 do cromossomo 10, seguido pelas bases 89.675.277 a 89.675.337 do cromossomo 10.
Ainda em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma inserção de resíduos de aminoácidos “Gly-Met” seguindo o códon 136 de PTEN (por exemplo, o intervalo subgenômico inclui nucleotídeos 89.692.864 a 89.692.924 do cromossomo 10, seguido por uma sequência de nucleotídeos “GGNATG”, seguido por nucleotídeos 89.692.925 a 89.692.980 do cromossomo 10).
Ainda em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui a deleção do gene CDKN2A (por exemplo, o intervalo subgenômico inclui nucleotídeos 21.961.007 a 21.961.067 do cromossomo 9 adjacente às bases 22.001.175 a 22.001.235 do cromossomo 9).
Em outra modalidade, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma inversão produzindo uma fusão EML4:ALK (por exemplo, o intervalo subgenômico inclui nucleotídeos 42.522.893 a 42.522.953 do cromossomo 2, justapostos com nucleotídeos 29.449.993 a 29.449.933 do cromossomo 2).
Em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma translocação intercromossômica resultando em uma fusão BCR-ABL (por exemplo, o intervalo subgenômico inclui nucleotídeos 23.632.552 a 23.632.612 do cromossomo 22, justapostos com nucleotídeos 133.681.793 a 133.681.853 do cromossomo 9).
Em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma mutação de duplicação tandem interna (ITD) no gene FLT3 (por exemplo, o intervalo subgenômico inclui nucleotídeos 28.608.259 a 28.608.285 do cromossomo 13 repetidos duas vezes na mesma orientação.
Em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma sequência de marcador microssatélite (por exemplo, o intervalo subgenômico inclui uma sequência de marcador microssatélite de D2S123, por exemplo, nucleotídeos 51.288.380 a 51.288.500 e nucleotídeos 51.288.560 a 51.288,680 do cromossomo 2.
Em outra modalidade, o intervalo subgenômico da amostra de ácido nucleico inclui uma sequência de nucleotídeos correspondendo a uma sequência de fusão (por exemplo, um transcrito de fusão ou uma forma alternativa que passou por junção associada ao câncer de um transcrito de não fusão).
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico inclui uma sequência de nucleotídeo, em que a presença ou ausência de uma variante alélica pré-selecionada é indicativa de um fenótipo relacionado ao câncer (por exemplo, um ou mais de risco de câncer, progressão de câncer, resposta de tratamento de câncer ou resistência ao tratamento, estadiamento do tumor, probabilidade metastática, etc.). Em determinadas modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma sequência de nucleotídeo, em que a presença ou ausência de uma variante alélica pré-selecionada é preditiva de um resultado clínico positivo, e/ou capacidade de resposta à terapia. Em outras modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma sequência de nucleotídeo, em que a presença ou ausência de uma variante alélica pré-selecionada é preditiva de um resultado clínico negativo, e/ou capacidade de resposta à terapia. Em determinadas modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico inclui uma sequência de nucleotídeo, em que a presença ou ausência de uma variante alélica pré-selecionada é indicativa de um fator genético (por exemplo, um risco de linha germinativa) para desenvolver câncer (por exemplo, o gene ou produto de gene é escolhido de uma ou mais de BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL ou WT1).
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um ou mais genes ou produtos de gene mostrados na Tabela 1, 1A, 3 ou 4, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais dos tipos de câncer descritos na Tabelas 1, 1A, 3 ou 4.
Em uma modalidade, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene ABL-1, que é associado com um fenótipo cancerígeno, por exemplo, uma malignidade de tecido mole escolhida de um ou mais de CML, ALL ou T-ALL. Em outras modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico é de um gene ou produto de gene AKT1 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de mama, colorretal, ovariano, ou carcinoma de pulmão de células não pequenas (NSCLC).
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene ALK que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de ALCL, NSCLC ou neuroblastoma.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene APC que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de colorretal, pancreático, desmoide, hepatoblastoma, glioma, ou outros cânceres ou tumores do CNS.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene BRAF que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de melanoma, câncer colorretal, câncer de pulmão, outras malignidades epiteliais, ou malignidades hematológicas incluindo AML ou ALL.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene CDKN2A, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de melanoma, pancreático, ou outros tipos de tumor.
Em outras modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico é de um gene ou produto de gene CEBPA, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de AML ou MDS.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene CTNNB1, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de colorretal, ovariano, hepatoblastoma, ou adenoma salivar pleomórfico.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene EGFR, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de glioma, câncer de pulmão, ou NSCLC.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene ERBB2, que é associado, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de mama, ovariano, NSCLC, gástrico ou outros tumores sólidos.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene ESR1 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de tumores de mama, ovariano ou endometrial.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene FGFR1 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de MPD ou NHL.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene FGFR2, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de tumores gástricos, NSCLC ou endometriais. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de tumores gástricos, NSCLC ou endometriais.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene FGFR3, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de câncer de bexiga, mieloma múltiplo ou linfoma de células T.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene FLT3, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de AML, melanoma, colorretal, papilar de tireoide, ovariano, câncer de pulmão de células não pequenas (NSCLC), colangiocarcinoma, ou astrocitoma pilocítico.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene HRAS que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de rabdomiossarcoma, ganglioneuroblastoma, bexiga, sarcomas, ou outros tipos de câncer.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene JAK2 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de ALL, AML, MPD ou CML.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene KIT, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de tumores estromais gastrointestinais (GIST), AML, TGCT, mastocitose, melanoma mucosal, ou epitelioma.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene KRAS que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de pancreático, cólon, colorretal, pulmão, tireoide, ou AML.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene MET que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de renal ou carcinoma de células escamosas de cabeça e pescoço.
Em outras modalidades, o intervalo subgenômico sequenciado da amostra de ácido nucleico é de um gene ou produto de gene MLL, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de AML ou ALL.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene NF1 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de neurofibroma ou glioma.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene NOTCH1 que é associado com um fenótipo cancerígeno, por exemplo, um câncer T-ALL.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene NPM1 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de NHL, APL ou AML.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene NRAS que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de melanoma, câncer colorretal, mieloma múltiplo, AML, ou câncer de tireoide.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene PDGFRA que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de GIST ou síndrome idiopática hipereosinofílica.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene PIK3CA que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de câncer colorretal, gástrico gliobastoma, ou de mama.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene PTEN que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de câncer colorretal, glioma, próstata, ou endometrial.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene RB1 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de retinoblastoma, sarcoma, mama, ou carcinoma de pulmão de células pequenas.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene RET, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de medular de tireoide, papilar de tireoide, ou feocromocitoma.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é de um gene ou produto de gene TP53 que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de mama, colorretal, pulmão, sarcoma, adrenocortical, glioma, ou outros tipos de tumor.
Em uma modalidade, o intervalo subgenômico da amostra de ácido nucleico é um preditor positivo de resposta terapêutica. Exemplos de um preditor positivo de uma resposta terapêutica incluem, entre outros, uma mutação de ativação no gene EGFR que prediz a capacidade de resposta para EGFR TKIs de pequena molécula (por exemplo, Iressa/gefitinib) em pacientes NSCLC; presença de um gene de fusão EML4/ALK que prediz a capacidade de resposta a inibidores ALK (por exemplo, PF-02341066) em pacientes NSCLC; presença de uma mutação BRAF V600E que prediz a capacidade de resposta para inibição BRAF (por exemplo, PLX-4032) em pacientes com melanoma.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é um preditor negativo de resposta terapêutica. Exemplos de um preditor negativo de uma resposta terapêutica incluem, entre outros, uma mutação de ativação no gene KRAS que prediz a falta de resposta para anticorpos monoclonais anti-EGFR (cetuximab, panitumumab) em pacientes CRC; e a presença de uma mutação M351T no gene de fusão BCR/Abl que prediz a resistência para Gleevec/imatinib em pacientes CML.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é um fator prognóstico. Exemplos de fatores prognósticos incluem, entre outros, a presença de uma mutação de inserção no gene FLT3, que é um prognóstico negativo para recidiva em pacientes AML; a presença de mutações no gene RET específicas, por exemplo, M918T, que são fatores prognósticos negativos para sobrevivência em pacientes de carcinoma medular de tireoide.
Em outras modalidades, o intervalo subgenômico da amostra de ácido nucleico é um fator diagnóstico. Exemplos de fatores prognósticos incluem, entre outros, a presença de um gene de fusão BCR/Abl, que é diagnóstico para CML; e a presença de a SMARCB1 mutação, que é diagnóstico de tumor Rhabdoid do rim.
Em outras modalidades, a amostra de ácido nucleico inclui um intervalo subgenômico de um gene ou produto de gene que está presente em uma minoria (por exemplo, menos do que 5%) das células em uma amostra de tumor. Em uma modalidade, a amostra de ácido nucleico inclui um intervalo subgenômico de um gene ou produto de gene que é associado, por exemplo, positivamente ou negativamente, com um fenótipo relacionado ao câncer, mas que está presente em uma minoria (por exemplo, menos do que 5%) das células em uma amostra de tumor. Em outras modalidades, a amostra de ácido nucleico inclui um intervalo subgenômico de um gene ou produto de gene que está presente em menos do que 50, 40, 30, 10, 5, ou 1% das células em uma amostra de tumor. Ainda em outras modalidades, a amostra de ácido nucleico inclui um intervalo subgenômico de um gene ou produto de gene que está presente em mais do que 50, 60, 70, 80%, ou mais das células em uma amostra de tumor.
Ainda em outras modalidades, a amostra de ácido nucleico inclui um intervalo subgenômico de um gene ou produto de gene que está presente em menos do que 5, 1, 0,5, 0,1%, 0,01%, 0,001% da região codificadora do genoma das células de tumor em uma amostra de tumor.
Em uma modalidade, a amostra de ácido nucleico inclui um intervalo subgenômico de um gene ou produto de gene que é associado com um tumor ou câncer (por exemplo, é um preditor de resposta ao tratamento positivo ou negativo, é um fator de prognóstico positivo ou negativo para, ou permite o diagnóstico diferencial de um tumor ou câncer, por exemplo, um gene ou produto de gene escolhido de um ou mais de: ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1, e TP53.
Em uma modalidade, o fenótipo de câncer associado com o gene ou produto de gene é do mesmo tipo de tumor da amostra de tumor. Em outras modalidades, o fenótipo de câncer associado com o gene ou produto de gene é de um tipo de tumor diferente da amostra de tumor.
Em determinadas modalidades, o método ou ensaio inclui o sequenciamento de amostras de ácidos nucleicos de amostras de tumores de pelo menos X sujeitos, (em que X = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, ou mais sujeitos). Em uma modalidade, o sujeito é humano contendo, ou em risco de conter, um câncer ou tumor. O método inclui o sequenciamento de pelo menos 5, 10, 15, 20, 30, 40, 50, 75 ou mais genes ou produtos de gene descritos aqui (por exemplo, genes ou produtos de gene da Tabela 1, 1A, 2, 3, ou 4) de pelo menos X sujeitos. Em determinadas modalidades, o gene ou produto de gene inclui uma alteração que é associada com um fenótipo cancerígeno, por exemplo, um ou mais de risco de câncer, progressão de câncer, resposta de tratamento de câncer ou resistência ao tratamento.
Em outras modalidades ou em adição às modalidades supracitadas, o método ou ensaio inclui o sequenciamento de um intervalo subgenômico de referência ou de controle de um gene ou produto de gene do mesmo sujeito como uma amostra de tumor, por exemplo, uma sequência de nucleotídeos de tipo selvagem ou não mutada de um gene ou produto de gene descritos aqui (por exemplo, genes ou produtos de gene da Tabela 1, 1A, 2, 3, ou 4). Em uma modalidade, o gene de controle ou produto de gene é do mesmo sujeito ou de sujeito diferente da amostra de tumor (por exemplo, é de uma ou mais da mesma ou diferente amostra de tumor; uma amostra normal (por exemplo, não cancerígena); um tecido adjacente normal (NAT); ou uma amostra de sangue), do mesmo sujeito contendo ou em risco de conter o tumor, ou de um sujeito diferente.
Em outras modalidades ou em adição às modalidades supracitadas, o método ou ensaio inclui o sequenciamento de um intervalo subgenômico que está presente em um gene associado com metabolismo de droga, capacidade de resposta para a droga, ou toxicidade (os genes PGx conforme descrito aqui). Em determinadas modalidades, o intervalo subgenômico sequenciado inclui uma alteração (por exemplo, polimorfismo de nucleotídeo único (SNP)).
Em determinadas modalidades, o método, ou ensaio, inclui o sequenciamento (e/ou relatório do resultado de sequenciamento) de um primeiro conjunto de genes ou produtos de gene da Tabela 1, 1A, 2, 3, ou 4 de um primeiro sujeito. Em outras modalidades, o método, ou ensaio, inclui o sequenciamento (e/ou relatório do resultado de sequenciamento) de um segundo conjunto, um terceiro conjunto ou mais (por exemplo, uma sobreposição, mas diferente) conjuntos de gene ou produtos de gene da Tabela 1, 1A, 2, 3, ou 4 de um primeiro ou um segundo sujeito. Em determinadas modalidades, a amostra de tumor de um primeiro sujeito inclui um tumor de um primeiro tipo e a amostra de tumor de um segundo sujeito inclui um tumor de um segundo tipo. Em outras modalidades, a amostra de tumor do primeiro sujeito e do segundo sujeito é do mesmo tipo de tumor.
Em determinadas modalidades, o método ou ensaio ainda inclui um ou mais de:(i) fingerprinting da amostra de ácido nucleico;(ii) quantificar a abundância de um gene ou produto de gene (por exemplo, um gene ou produtode gene conforme descrito aqui) em uma amostra de ácido nucleico;(iii) quantificar a abundância relativa de um transcrito na amostra;(iv) identificar a amostra de ácido nucleico conforme pertence a um sujeito particular (por exemplo, um controle normal ou um paciente de câncer);(v) identificar um traço genético em uma amostra de ácido nucleico (por exemplo, uma ou maisde uma característica genética do sujeito (por exemplo, etnia, raça, traços familiares));(vi) determinar a ploidia em uma amostra de ácido nucleico; determinar uma perda de heterogozidade em uma amostra de ácido nucleico;(vii) determinar a presença ou ausência de um evento de duplicação de gene em uma amostra de ácido nucleico;(viii) determinar a presença ou ausência de um evento de amplificação de gene em uma amostrade ácido nucleico; ou(ix) determinar o nível de mistura de célula de tumor/normal em uma amostra de ácido nucleico.
Em outras modalidades, a amostra de ácido nucleico inclui uma biblioteca, ou uma saída de biblioteca selecionada, que inclui uma pluralidade de membros de ácido nucleico de tumor, membros de ácido nucleico de referência ou de controle (por exemplo, tipo selvagem), e/ou membros de ácido nucleico associados à PGx (por exemplo, um ácido nucleico que inclui um intervalo subgenômico conforme descrito aqui) de uma amostra de tumor. Em uma modalidade, a biblioteca (por exemplo, a biblioteca de ácido nucleico) inclui uma pluralidade de membros, por exemplo, membros de ácido nucleico alvo de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 ou mais sujeitos. Em uma modalidade, o sujeito é humano contendo, ou em risco de conter, um câncer ou tumor. Em determinadas modalidades, a biblioteca ainda compreende membros de ácido nucleico associados com câncer ou tumor e fragmentos de ácido nucleico de controle de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 ou mais sujeitos.
Em determinadas modalidades, os subconjuntos de intervalos subgenômicos selecionados são separados ou enriquecidos de uma amostra de ácido nucleico por hibridização baseada em solução ou suporte sólido. Em uma modalidade, o método, ou ensaio, fornece elementos selecionados de uma biblioteca de ácido nucleico (por exemplo, uma captura de biblioteca). O método inclui:fornecer uma biblioteca (por exemplo, uma biblioteca de ácido nucleico) compreendendo uma pluralidade de membros, por exemplo, membros alvo (por exemplo, incluindo uma pluralidade de membros associados com tumor ou câncer, membros de referência, e/ou membros de PGx); contatar a biblioteca, por exemplo, em uma reação baseada em solução ou suporte sólido, com uma pluralidade de iscas (por exemplo, iscas de oligonucleotídeo) para formar uma mistura de hibridização compreendendo uma pluralidade de isca/membros híbridos; separar a pluralidade de isca/membros híbridos da dita mistura de hibridização, por exemplo, contatando dita mistura de hibridização com uma entidade de ligação que permite a separação de dita pluralidade de isca/membro híbrido, assim fornecendo uma captura de biblioteca (por exemplo, um subgrupo selecionado ou enriquecido de moléculas de ácido nucleico da biblioteca), em que a pluralidade de iscas inclui pelo menos um, ou dois dos seguintes:a) um primeiro conjunto de isca que seleciona um membro de referência (por exemplo, tipo selvagem) ou associado ao câncer ou tumor compreendendo um intervalo subgenômico de um tumor ou um gene de referência ou produto de gene conforme descrito aqui, por exemplo, um tumor ou um gene de referência ou produto de gene conforme descrito na Tabela 1, 1A, 3 ou 4;b) um segundo conjunto de isca que seleciona um membro PGx compreendendo um intervalo subgenômico (no mesmo ou em um diferente intervalo genômico como em um) de um gene ou produto de gene conforme descrito na Tabela 1 ou 2.
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de sequenciamento dos ditos membros. Em determinadas modalidades, elementos de tumor de pelo menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 ou mais sujeitos são sequenciados (por exemplo, pelo menos 50, 75, 100 ou 150 intervalos subgenômicos dos genes ou produtos de gene da Tabela 1 ou 1A são sequenciados de cada sujeito).
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de detectar, em uma amostra de ácido nucleico, uma alteração pré-selecionada (por exemplo, uma variação alélica) em pelo menos 10 (por exemplo, 20, 30, 40) genes Prioridade, Câncer, ou PGx ou produtos de gene da Tabela 1. Em determinadas modalidades, a alteração (por exemplo, a variação alélica) inclui uma anomalia citogenética, uma translocação não recíproca, um rearranjo, uma inversão intracromossômica, uma mutação, umas mutações pontuais, uma deleção, uma mudança no número de cópias do gene, um SNP, entre outras.
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de comparar a presença ou ausência detectada de uma alteração (por exemplo, uma variação alélica) a um valor de referência (por exemplo, um relatório na literatura ou uma sequência de uma amostra de controle, por exemplo, controles de sangue compatíveis ou NAT (tumor adjacente normal), do mesmo sujeito da amostra de tumor, ou um sujeito diferente).
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de memorizar a presença ou ausência de uma alteração (por exemplo, a variação alélica pré-selecionada), e, por exemplo, fornecer um relatório compreendendo a memorização.
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de anotar a alteração, e, por exemplo, anotar a variação alélica pré-selecionada com uma indicação de uma estrutura de mutação, por exemplo, uma mutação de sentido incorreto, ou função, por exemplo, uma associação com um fenótipo de doença.
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de fornecer um conjunto de dados, em que cada elemento do conjunto de dados compreende a associação de um tipo de tumor, um gene e uma alteração pré-selecionada (por exemplo, variação alélica) (um “TGA”).
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de memorizar a presença ou ausência de um TGA, e opcionalmente uma anotação associada, de um sujeito para formar um relatório.
Em determinadas modalidades, o método, ou ensaio, ainda inclui a etapa de transmitir o relatório para um grupo destinatário.
Ensaios, por exemplo, ensaios multiplex, que inclui os supracitados métodos de seleção e reagentes também são fornecidos.
Amostras de Ácidos Nucleicos
Uma variedade de amostras de tecido pode ser a fonte das amostras de ácidos nucleicos usadas nos métodos presentes. Ácido nucleico genômico ou subgenômico (por exemplo, DNA ou RNA) pode ser isolado da amostra de um sujeito (por exemplo, uma amostra de tumor, um tecido adjacente normal (NAT), uma amostra de sangue, uma amostra contendo células de tumores circulantes (CTC) ou qualquer controle normal)). Em determinadas modalidades, a amostra de tecido é preservada como uma amostra congelada ou como preparação de tecido fixada com formaldeído ou paraformaldeído incorporada com parafina (FFPE). Por exemplo, a amostra pode ser incorporada em uma matriz, por exemplo, um bloco FFPE ou uma amostra congelada. A etapa de isolamento pode incluir a separação por fluxo de cromossomos individuais; e/ou micro-dissecação de uma amostra do sujeito (por exemplo, uma amostra de tumor, um NAT, uma amostra de sangue).
Uma molécula de ácido nucleico “isolada” é uma que é separada de outras moléculas de ácido nucleico que estão presentes na fonte natural da molécula de ácido nucleico. Em determinadas modalidades, uma molécula de ácido nucleico “isolada” é livre de sequências (como sequências que codificam proteína) que naturalmente flanqueiam o ácido nucleico (ou seja, as sequências localizadas nas extremidades 5’ e 3’ do ácido nucleico) no DNA genômico do organismo do qual o ácido nucleico é derivado. Por exemplo, em diversas modalidades, a molécula de ácido nucleico isolada pode conter menos do que cerca de 5 kB, menos do que cerca de 4 kB, menos do que cerca de 3 kB, menos do que cerca de 2 kB, menos do que cerca de 1 kB, menos do que cerca de 0,5 kB ou menos do que cerca de 0,1 kB de sequência de nucleotídeos que naturalmente flanqueiam a molécula de ácido nucleico no DNA genômico da célula da qual o ácido nucleico é derivado. Além disso, uma molécula de ácido nucleico “isolada”, como uma molécula de cDNA, pode ser substancialmente livre de outro material celular ou meio de cultura quando produzido por técnicas recombinantes, ou substancialmente livre de precursores químicos ou outros produtos químicos quando sintetizado quimicamente.
A linguagem “substancialmente livre de outro material celular ou meio de cultura” inclui preparações de molécula de ácido nucleico em que a molécula é separada de componentes celulares das células da qual é isolada ou produzida por recombinação. Assim, molécula de ácido nucleico que é substancialmente livre de material celular inclui preparações de molécula de ácido nucleico contendo menos do que cerca de 30%, menos do que cerca de 20%, menos do que cerca de 10%, ou menos do que cerca de 5% (por peso seco) de outro material celular ou meio de cultura.
Em determinadas modalidades, o ácido nucleico é isolado de uma amostra envelhecida, por exemplo, uma amostra FFPE envelhecida. A amostra envelhecida, pode ter, por exemplo, anos, por exemplo, 1 ano, 2 anos, 3 anos, 4 anos, 5 anos, 10 anos, 15 anos, 20 anos, 25 anos, 50 anos, 75 anos, ou 100 anos ou mais velha.
A amostra de ácido nucleico pode ser obtida de amostras de tecido (por exemplo, uma amostra biópsia ou FFPE) de diversos tamanhos. Por exemplo, o ácido nucleico pode ser isolado de uma amostra de tecido de 5 a 200 μm, ou maior. Por exemplo, a amostra de tecido pode medir 5 μm, 10 μm, 20 μm, 30 μm, 40 μm, 50 μm, 70 μm, 100 μm, 110 μm, 120 μm, 150 μm ou 200 μm ou maior.
Protocolos para isolamento de DNA de uma amostra de tecido são fornecidos no Exemplo 1. Métodos para isolar ácidos nucleicos adicionais (por exemplo, DNA) de tecidos fixados com formaldeído ou paraformaldeído incorporados com parafina (FFPE) são revelados, por exemplo, em Cronin M. et al., (2004) Am J Pathol. 164(1):35-42; Masuda N. et al., (1999) Nucleic Acids Res. 27(22):4436-4443; Specht K. et al., (2001) Am J Pathol. 158(2):419-429, Ambion RecoverAll™ Total Nucleic Acid Isolation Protocol (Ambion, Cat. No. AM1975, September 2008), Maxwell® 16 FFPE Plus LEV DNA Purification Kit Technical Manual (Promega Literature #TM349, February 2011), E.Z.N.A.® FFPE DNA Kit Handbook (OMEGA bio-tek, Norcross, GA, número dos produtos D3399-00, D3399-01, e D3399-02; June 2009), e QIAamp® FFPE DNA Tissue Handbook (Qiagen, Cat. N.° 37625, October 2007). RecoverAll™ Total Nucleic Acid Isolation Kit utiliza xileno em temperaturas elevadas para solubilizar amostras incorporadas com parafina e um filtro de fibra de vidro para capturar ácidos nucleicos. Maxwell® 16 FFPE Plus LEV DNA Purification Kit é utilizado com o Maxwell® 16 Instrument para purificação de DNA genômico de seções de 1 a 10 μm de tecido FFPE. O DNA é purificado utilizando partículas de sílica paramagnéticas (PMPs), e eluído em baixo volume de eluição. O E.Z.N.A.® FFPE DNA Kit utiliza uma coluna de giro e sistema de tampão para isolamento do DNA genômico. QIAamp® FFPE DNA Tissue Kit utiliza tecnologia QIAamp® DNA Micro para purificação de DNA genômico e mitocondrial. Protocolos para isolamento de DNA do sangue são revelados, por exemplo, em Maxwell® 16 LEV Blood DNA Kit e Maxwell 16 Buccal Swab LEV DNA Purification Kit Technical Manual (Promega Literature #TM333, January 1, 2011).
Protocolos para isolamento de RNA são revelados, por exemplo, em Maxwell® 16 Total RNA Purification Kit Technical Bulletin (Promega Literature #TB351, August 2009).
As amostras de ácidos nucleicos isoladas (por exemplo, amostras de DNA genômico) podem ser fragmentadas ou cisalhadas por técnicas de rotina. Por exemplo, o DNA genômico pode ser fragmentado por métodos físicos de cisalhamento, métodos de clivagem enzimática, métodos de clivagem química, e outros métodos bem conhecidos pelos especialistas na técnica. A biblioteca de ácido nucleico pode conter todos ou substancialmente todos da complexidade do genoma. O termo “substancialmente todos” neste contexto refere-se à possibilidade de que, na prática, pode haver alguma perda indesejada da complexidade do genoma durante as etapas iniciais do procedimento. Os métodos descritos aqui também são úteis nos casos em que a biblioteca de ácido nucleico é uma parte do genoma, ou seja, onde a complexidade do genoma é reduzida por projeção. Em algumas modalidades, qualquer parte selecionada do genoma pode ser usada com os métodos descritos aqui. Em determinadas modalidades, o exoma inteiro ou um subconjunto do mesmo é isolado.
Métodos apresentados na invenção podem ainda incluir isolar uma amostra de ácido nucleico para fornecer uma biblioteca (por exemplo, uma biblioteca de ácido nucleico conforme descrita aqui). Em determinadas modalidades, a amostra de ácido nucleico inclui genoma inteiro, fragmentos subgenômicos, ou ambos. As amostras de ácidos nucleicos isoladas podem ser usadas para preparar bibliotecas de ácido nucleico. Assim, em uma modalidade, os métodos apresentados na invenção ainda incluem isolar uma amostra de ácido nucleico para fornecer uma biblioteca (por exemplo, uma biblioteca de ácido nucleico conforme descrito aqui). Protocolos para isolar e preparar bibliotecas do genoma inteiro ou fragmentos subgenômicos são conhecidos na técnica (por exemplo, kit de preparação de amostra de DNA genômico de Illumina). Em determinadas modalidades, o fragmento de DNA genômico ou subgenômico é isolado da amostra de um sujeito (por exemplo, uma amostra de tumor, um tecido adjacente normal (NAT), uma amostra de sangue ou qualquer controle normal)). Em uma modalidade, a amostra (por exemplo, a amostra de tumor ou NAT) é uma espécime preservada. Por exemplo, a amostra é incorporada em uma matriz, por exemplo, um bloco FFPE ou uma amostra congelada. Em determinadas modalidades, a etapa de isolamento inclui separação por fluxo de cromossomos individuais; e/ou microdissecação da amostra do sujeito (por exemplo, uma amostra de tumor, um NAT, uma amostra de sangue). Em determinadas modalidades, a amostra de ácido nucleico usada para gerar a biblioteca de ácido nucleico tem menos do que 5 microgramas, menos do que 1 micrograma, ou menos do que 500ng, menos do que 200ng, menos do que 100ng, menos do que 50ng, menos do que 10ng, menos do que 5 ng, ou menos do que 1 ng.
Ainda em outras modalidades, a amostra de ácido nucleico usada para gerar a biblioteca inclui RNA ou cDNA derivado de RNA. Em algumas modalidades, o RNA inclui RNA total celular. Em outras modalidades, determinadas sequências de RNA abundantes (por exemplo, RNAs ribossomais) foram esgotadas. Em algumas modalidades, a fração de mRNA com cauda poli(A) na preparação de RNA total foi enriquecida. Em algumas modalidades, o cDNA é produzido por métodos de síntese de cDNA com iniciadores aleatórios. Em outras modalidades, a síntese de cDNA é iniciada na cauda poli(A) de mRNAs maduros iniciando com oligonucleotídeos contendo oligo(dT). Métodos para esgotamento, enriquecimento poli(A), e síntese de cDNA são bem conhecidos pelos especialistas na técnica.
O método pode ainda incluir amplificar a amostra de ácido nucleico por métodos de amplificação de ácido nucleico específicos ou não específicos que são bem conhecidos pelos especialistas na técnica. Em algumas modalidades, determinadas modalidades, a amostra de ácido nucleico é amplificada, por exemplo, por métodos de amplificação de genoma inteiro como amplificação por deslocamento da fita iniciada aleatoriamente.
Em outras modalidades, a amostra de ácido nucleico é fragmentada ou cisalhada por métodos físicos ou enzimáticos e ligada a adaptadores sintéticos, selecionados por tamanho (por exemplo, por eletroforese em gel preparativa) e amplificada (por exemplo, por PCR). Em outras modalidades, o grupo de ácidos nucleicos fragmentados e ligados por adaptador é usado sem seleção de tamanho explícita ou amplificação antes da seleção de híbrido.
Em outras modalidades, o DNA isolado (por exemplo, o DNA genômico) é fragmentado ou cisalhado. Em algumas modalidades, a biblioteca inclui menos do que 50% de DNA genômico, como uma subfração de DNA genômico que é uma representação reduzida ou uma parte definida do genoma, por exemplo, que foi subfracionada de outras formas. Em outras modalidades, a biblioteca inclui todos ou substancialmente todos DNAs genômicos.
Em algumas modalidades, a biblioteca inclui menos do que 50% de DNA genômico, como uma subfração de DNA genômico que é uma representação reduzida ou uma parte definida do genoma, por exemplo, que foi subfracionada de outras formas. Em outras modalidades, a biblioteca inclui todos ou substancialmente todos DNAs genômicos. Protocolos para isolar e preparar bibliotecas de genoma inteiro ou fragmentos subgenômicos são conhecidos na técnica (por exemplo, kit de preparação de amostra de DNA genômico de Illumina), e são descritos aqui como Exemplos 2A, 2B e 3. Métodos alternativos para cisalhamento do DNA são descritos aqui como Exemplo 2B. Por exemplo, métodos se cisalhamento do DNA alternativos podem ser mais automatizados e/ou mais eficientes (por exemplo, com amostras FFPE degradadas). Alternativas para métodos de cisalhamento do DNA podem também ser usadas para evitar uma etapa de ligação durante a preparação da biblioteca.
Os métodos descritos aqui podem ser realizados usando uma pequena quantidade de ácido nucleico, por exemplo, quando a quantidade de DNA da fonte é limitante (por exemplo, até mesmo após amplificação do genoma inteiro). Em uma modalidade, o ácido nucleico compreende menos do que cerca de 5 μg, 4 μg, 3 μg, 2 μg, 1 μg, 0,8 μg, 0,7 μg, 0,6 μg, 0,5 μg, ou 400 ng, 300 ng, 200 ng, 100 ng, 50 ng, 10 ng, 5 ng, 1 ng, ou menos da amostra de ácido nucleico. Por exemplo, pode-se tipicamente iniciar com 50-100 ng de DNA genômico. Pode-se começar com menos, no entanto, se o DNA genômico for amplificado (por exemplo, usando PCR) antes da etapa de hibridização, por exemplo, hibridização de solução. Assim, é possível, mas não essencial, amplificar o DNA genômico antes da hibridização, por exemplo, hibridização de solução.
A amostra de ácido nucleico usada para gerar a biblioteca também pode incluir RNA ou cDNA derivado de RNA. Em algumas modalidades, o RNA inclui RNA total celular. Em outras modalidades, determinadas sequências de RNA abundantes (por exemplo, RNAs ribossomais) foram esgotados. Em outras modalidades, a fração de mRNA com cauda poli(A) na preparação de RNA total foi enriquecida. Em algumas modalidades, o cDNA é produzido por métodos de síntese de cDNA com iniciadores aleatórios. Em outras modalidades, a síntese de cDNA é iniciada na cauda poli(A) de mRNAs maduros iniciando com oligonucleotídeos contendo oligo(dT). Métodos para esgotamento, enriquecimento poli(A), e síntese de cDNA são bem conhecidos pelos especialistas na técnica.
O método pode ainda incluir amplificar a amostra de ácido nucleico por métodos de amplificação de ácido nucleico específicos ou não específicos que são conhecidos pelos especialistas na técnica. A amostra de ácido nucleico pode ser amplificada, por exemplo, por métodos de amplificação de genoma inteiro como amplificação por deslocamento da fita iniciada aleatoriamente.
A amostra de ácido nucleico pode ser fragmentada ou cisalhada por métodos físicos ou enzimáticos conforme descrito aqui, e ligada a adaptadores sintéticos, selecionados por tamanho (por exemplo, por eletroforese em gel preparativa) e amplificada (por exemplo, por PCR). O grupo de ácidos nucleicos fragmentados e ligados por adaptador é usado sem seleção de tamanho explícita ou amplificação antes da seleção de híbrido.
Membros de Biblioteca
“Membro” ou “membro de biblioteca” ou outro termo semelhante, conforme usado aqui, refere-se a uma molécula de ácido nucleico, por exemplo, DNA ou RNA, que é o membro de uma biblioteca (ou “captura de biblioteca”). O membro de biblioteca pode ser um ou mais de um membro tumor, um membro de referência, ou um membro PGx conforme descrito aqui. Tipicamente, um membro é uma molécula de DNA, por exemplo, um DNA genômico ou molécula de cDNA. Um membro pode ser fragmentado, por exemplo, enzimaticamente ou por cisalhamento do DNA genômico. Membros podem compreender uma sequência de nucleotídeos de um sujeito e também pode compreender uma sequência de nucleotídeos não derivada do sujeito, por exemplo, iniciadores ou adaptadores (por exemplo, para amplificação por PCR ou para sequenciamento), ou sequências que permitem identificação de uma amostra, por exemplo, sequências “código de barra”.
Conforme usado aqui, “membro alvo” refere-se a uma molécula de ácido nucleico que se deseja isolar de uma biblioteca de ácido nucleico. Em uma modalidade, o membros alvo podem ser um membro tumor, um membro de referência, ou um membro PGx conforme descrito aqui. Os membros que são selecionados da biblioteca de ácido nucleico são referidos aqui como uma “captura de biblioteca.” Em uma modalidade, os selecionados da biblioteca incluem uma seleção ou enriquecimento de membros da biblioteca, por exemplo, a saída enriquecida ou selecionada da biblioteca após uma ou mais rodadas de captura de híbrido conforme descrito aqui.
Os membros alvo podem ser um subgrupo de uma biblioteca, ou seja, nem todos os membros de biblioteca são selecionados por nenhum uso particular dos processos descritos aqui. Em outras modalidades, os membros alvo estão dentro de uma região alvo desejada. Por exemplo, os membros alvo podem em algumas modalidades ser um percentual dos membros de biblioteca que é tão baixa quanto 10% ou tão alta quanto 95%-98% ou maior. Em uma modalidade, a captura de biblioteca inclui pelo menos cerca de 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99,9% ou mais dos membros alvo. Em outra modalidade, a biblioteca contém 100% dos membros alvo. Em uma modalidade, a pureza de uma captura de biblioteca (percentagem de leituras que se alinham aos alvos) é pelo menos cerca de 20%, 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 95%, 98%, 99%, 99,9% ou mais.
Os membros alvo (ou uma captura de biblioteca) obtida do DNA genômico pode incluir uma pequena fração do DNA genômico total, de forma que inclua menos do que cerca de 0,0001%, pelo menos cerca de 0,0001%, pelo menos cerca de 0,001%, pelo menos cerca de 0,01%, ou pelo menos cerca de 0,1% de DNA genômico, ou uma fração mais significante do DNA genômico total, de forma que inclua pelo menos cerca de 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, ou 10% de DNA genômico, ou mais do que 10% de DNA genômico.
Em uma modalidade, os membros alvo (ou a captura de biblioteca) são selecionados de uma complexa mistura do genoma. Por exemplo, a seleção do DNA de um tipo de célula (por exemplo, células cancerígenas) a partir de uma amostra contendo o DNA de outros tipos de célula (por exemplo, células normais). Nessas aplicações, o membro alvo pode incluir menos do que 0,0001%, pelo menos 0,0001%, pelo menos cerca de 0,001%, pelo menos cerca de 0,01%, ou pelo menos cerca de 0,1% da complexidade total das sequências de ácido nucleico presentes na amostra complexa, ou uma fração mais significativa de forma que inclua pelo menos cerca de 1%, 2%, 5%, 10% ou mais do que 10% da complexidade total das sequências de ácido nucleico presentes na amostra complexa.
Em uma modalidade, o membro alvo (ou a captura de biblioteca) selecionada pelos métodos descritos aqui (por exemplo, métodos de seleção de hibridização de solução) incluem todos ou uma parte de éxons em um genoma, como mais do que cerca de 0,1%, 1%, 2%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, ou 95% dos éxons genômicos. Em outra modalidade, o membro alvo (ou a captura de biblioteca) pode ser um grupo específico de éxons, por exemplo, pelo menos cerca de 100, 200, 300, 400, 500, 600, 700, 800, 900, ou 1000 éxons particulares, por exemplo, éxons associados com doenças particulares como câncer. Ainda em outra modalidade, o membro alvo (ou a captura de biblioteca) contém éxons ou outras partes de genes de interesse selecionados. O uso de sequências de isca específicas permite que o praticante selecione sequências alvo (conjunto de sequências ideais selecionado) e subgrupos de ácidos nucleicos (conjunto de sequências atuais selecionado) contendo a mesma quantidade de éxons (ou outras sequências) de um grupo de ácidos nucleicos para uma seleção particular.
Em uma modalidade, o membro alvo (ou a captura de biblioteca) inclui um conjunto de cDNAs. A captura de cDNAs pode ser usada, por exemplo, para encontrar variantes de splice, e para identificar transcritos de fusão (por exemplo, de translocações de DNA genômico). Em outra modalidade, o membro alvo (e a captura de biblioteca) é utilizado para encontrar mudanças únicas de base e outras mudanças de sequência expressas na fração de RNA de uma célula, tecido, ou órgão, por exemplo, em um tumor.
O membro alvo (ou a captura de biblioteca) (por exemplo, éxons, cDNAs e outras sequências) pode ser relacionado ou não relacionado conforme desejado. Por exemplo, membros alvo selecionados (e a captura de biblioteca) podem ser obtidos de um grupo de ácidos nucleicos que são genes envolvidos em uma doença, como um grupo de genes implicados em uma ou mais doenças como cânceres, um grupo de ácidos nucleicos contendo SNPs específicos.
Projeção e Construção de Iscas
A isca pode ser uma molécula de ácido nucleico, por exemplo, uma molécula de DNA ou RNA, que pode hibridizar para (por exemplo, ser complementar a), e assim permitir a captura de um ácido nucleico alvo. Em uma modalidade, a isca é uma molécula de RNA. Em outras modalidades, a isca inclui uma entidade de ligação, por exemplo, um tag de afinidade, que permite captura e separação, por exemplo, pela ligação para uma entidade de ligação, de um híbrido formado pela isca e um ácido nucleico hibridizado à isca. Em uma modalidade, a isca é apropriada para hibridização de fase de solução.
Tipicamente, moléculas de RNAs são usadas como sequência de iscas. Um duplex RNA-DNA é mais estável do que um duplex DNA-DNA e, portanto, fornece captura de ácidos nucleicos potencialmente melhor.
Iscas de RNA podem ser feitas como descrito em outro lugar aqui, usando métodos conhecidos na técnica incluindo, entre outros, síntese química de novo e transcrição de moléculas de DNA usando uma polimerase RNA dependente de DNA. Em uma modalidade, a sequência de isca é produzida usando métodos de amplificação de ácido nucleico conhecidos, como PCR, por exemplo, usando amostras de DNA humano ou DNA humano combinado como modelo. Os oligonucleotídeos podem então ser convertidos para iscas de RNA. Em uma modalidade, a transcrição in vitro é usada, por exemplo, baseada na adição de uma sequência promotora de RNA polimerase a uma extremidade do oligonucleotídeo. Em uma modalidade, a sequência promotora de RNA polimerase é adicionada na extremidade da isca por amplificação ou reamplificação da sequência de isca, por exemplo, usando PCR ou outros métodos de amplificação de ácido nucleico, por exemplo, criando uma cauda em um iniciador de cada par de iniciador específico para o alvo com uma sequência de promotor de RNA. Em uma modalidade, a RNA polimerase é a T7 polimerase, a SP6 polimerase, ou a T3 polimerase. Em uma modalidade, a isca de RNA é marcada com um tag, por exemplo, um tag de afinidade. Em uma modalidade, a isca de RNA é preparada por transcrição in vitro, por exemplo, usando UTP biotinilado. Em outra modalidade, a isca de RNA é produzida sem biotina e então a biotina é ligada de forma cruzada para a molécula de RNA usando métodos bem conhecidos na técnica, como ligação cruzada com psoraleno. Em uma modalidade, a isca de RNA é uma molécula de RNA resistente à RNase, que pode ser feita, por exemplo, usando nucleotídeos modificados durante a transcrição para produzir molécula de RNA que resista à degradação por RNase. Em uma modalidade, a isca de RNA corresponde a apenas uma fita do DNA alvo de fita dupla. Tipicamente, essas iscas de RNA não são autocomplementares e são mais efetivas como condutoras de hibridização.
Os conjuntos de isca podem ser projetados a partir das sequências de referência, de forma que as iscas sejam ideias para selecionar alvos das sequências de referência. Em algumas modalidades, as sequências de isca são projetadas usando uma base mista (por exemplo, degeneração). Por exemplo, as bases mistas podem ser incluídas em uma sequência de isca na posição de um SNP comum ou mutação, para otimizar a sequências de isca para pegar ambos alelos (por exemplo, SNP e não SNP; mutante e não mutante). Em algumas modalidades, todas as variações de sequência conhecidas (ou um subconjunto das mesmas) podem ser alvos com iscas de oligonucleotídeo múltiplas, em vez de usar oligonucleotídeos degenerados mistos.
Em determinadas modalidades, o conjunto de isca inclui um oligonucleotídeo (ou uma pluralidade de oligonucleotídeos) entre cerca de 100 nucleotídeos e 300 nucleotídeos em comprimento. Tipicamente, o conjunto de isca inclui um oligonucleotídeo (ou uma pluralidade de oligonucleotídeos) entre cerca de 130 nucleotídeos e 230 nucleotídeos, ou cerca de 150 e 200 nucleotídeos, em comprimento. Em outras modalidades, o conjunto de isca inclui um oligonucleotídeo (ou uma pluralidade de oligonucleotídeos) entre cerca de 300 nucleotídeos e 1000 nucleotídeos em comprimento.
Em algumas modalidades, as sequências específicas para membro alvo no oligonucleotídeo têm entre cerca de 40 e 1000 nucleotídeos, cerca de 70 e 300 nucleotídeos, cerca de 100 e 200 nucleotídeos em comprimento, tipicamente entre cerca de 120 e 170 nucleotídeos em comprimento.
Em algumas modalidades, o conjunto de isca inclui uma entidade de ligação. A entidade de ligação pode ser um tag de afinidade em cada sequência de isca. Em algumas modalidades, o tag de afinidade é uma molécula de biotina ou um hapteno. Em determinadas modalidades, a entidade de ligação permite a separação da isca/membros híbridos da mistura de hibridização pela ligação a um parceiro, como uma molécula de avidina, ou um anticorpo que se liga ao hapteno ou a um fragmento de ligação ao antígeno do mesmo.
Em outras modalidades, os oligonucleotídeos no conjunto de isca contêm sequências complementares diretas e reversas para a mesma sequência do membro alvo pelo qual os oligonucleotídeos com sequências específicas para membros complementadas com reverso também carregam caudas universais complementadas com reverso. Isso pode levar para transcritos de RNA que são da mesma fita, ou seja, não complementares uns aos outros.
Em outras modalidades, o conjunto de isca inclui oligonucleotídeos que contém bases degeneradas ou mistas em uma ou mais posições. Ainda em outras modalidades, o conjunto de isca inclui múltiplas ou substancialmente todas as variantes de sequência conhecidas presentes em uma população de uma única espécie ou comunidade de organismos. Em uma modalidade, o conjunto de isca inclui múltiplas ou substancialmente todas as variantes de sequência conhecidas presentes em uma população de humano.
Em outras modalidades, o conjunto de isca inclui sequências de cDNA ou é derivado de sequências de cDNAs. Em outras modalidades, o conjunto de isca inclui produtos de amplificação (por exemplo, produtos de PCR) que são amplificados do DNA genômico, cDNA ou DNA clonado.
Em outras modalidades, o conjunto de isca inclui moléculas de RNA. Em algumas modalidades, o conjunto inclui moléculas de RNA modificadas quimicamente, enzimaticamente ou por cisalhamento, ou transcritas in vitro, incluindo, entre outras, as que são mais estáveis e resistentes à RNase.
Ainda em outras modalidades, as iscas são produzidas por métodos descritos em US 2010/0029498 e Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189, incorporado aqui como referência. Por exemplo, iscas de RNA biotiniladas podem ser produzidas obtendo um grupo de oligonucleotídeos grandes sintéticos, originalmente sintetizados em um microarranjo, e amplificando os oligonucleotídeos para produzir sequências de isca. Em algumas modalidades, as iscas são produzidas pela adição de sequência promotora de RNA polimerase em uma extremidade das sequências de isca, e sintetizando sequências de RNA usando RNA polimerase. Em uma modalidade, bibliotecas de oligodeoxinucleotídeos sintéticos podem ser obtidas de fornecedores comerciais, como Agilent Technologies, Inc., e amplificadas usando métodos de amplificação de ácido nucleico conhecidos.
Assim, um método de preparar o supracitado conjunto de isca é fornecido. O método inclui selecionar uma ou mais sequências de oligonucleotídeos de isca específicos para alvos (por exemplo, uma ou mais sequências de oligonucleotídeos de captura de mutação, de referência ou de controle conforme descrito aqui); obter um grupo de sequências de oligonucleotídeos de isca específicos para alvos (por exemplo, sintetizar o combinado de sequências de oligonucleotídeos de isca específicos para alvos, por exemplo, por síntese de microarranjo); e opcionalmente, amplificar os oligonucleotídeos para produzir o conjunto de isca.
Em outras modalidades, os métodos ainda incluem amplificar (por exemplo, por PCR) os oligonucleotídeos usando um ou mais iniciadores biotinilados. Em algumas modalidades, os oligonucleotídeos incluem uma sequência universal na extremidade de cada oligonucleotídeo ligado ao microarranjo. Os métodos podem ainda incluir remover as sequências universais dos oligonucleotídeos. Esses métodos podem também incluir remover a fita complementar dos oligonucleotídeos, anelar os oligonucleotídeos, e estender os oligonucleotídeos. Em algumas dessas modalidades, os métodos para amplificar (por exemplo, por PCR) os oligonucleotídeos usam um ou mais iniciadores biotinilados. Em algumas modalidades, o método ainda inclui selecionar o tamanho dos oligonucleotídeos amplificados.
Em uma modalidade, um conjunto de isca de RNA é preparado. Os métodos incluem produzir um conjunto de sequências de isca de acordo com os métodos descritos aqui, adicionando uma sequência promotora de RNA polimerase em uma extremidade das sequências de isca, e sintetizar sequências de RNA usando RNA polimerase. A RNA polimerase pode ser escolhida de uma T7 RNA polimerase, uma SP6 RNA polimerase ou uma T3 RNA polimerase. Em outras modalidades, a sequência promotora de RNA polimerase é adicionada nas extremidades das sequências de isca amplificando (por exemplo, por PCR) as sequências de isca. Em modalidades onde as sequências de isca são amplificadas por PCR com pares de iniciadores específicos de cDNA ou genômico, a adição de uma sequência promotora de RNA para a extremidade 5' de um dos dois iniciadores específicos em cada par conduzirá um produto de PCR que pode ser transcrito em uma isca de RNA usando métodos padrão.
Em outras modalidades, os conjuntos de isca podem ser produzidos usando DNA humano ou amostras de DNA humano combinadas como modelo. Nessas modalidades, os oligonucleotídeos são amplificados por reação em cadeia da polimerase (PCR). Em outras modalidades, os oligonucleotídeos amplificados são reamplificados por amplificação por círculo rolante ou amplificação por círculo rolante hiper-ramificada. Os mesmos métodos também podem ser usados para produzir sequências de isca usando DNA humano ou amostras de DNA humano combinadas como modelo. Os mesmos métodos também podem ser usados para produzir sequências de isca usando subfrações do genoma obtidas por outros métodos, incluindo, entre outros, digestão de restrição, eletroforese em gel de campo pulsado, seleção por fluxo, centrifugação por gradiente de densidade CsCl, reassociação cinética seletiva, microdissecação de preparações de cromossomo e outros métodos de fracionamento conhecidos pelos especialistas na técnica.
Em determinadas modalidades, o número de iscas no conjunto de isca é menos do que 1.000. Em outras modalidades, o número de iscas no conjunto de isca é mais do que 1.000, mais do que 5.000, mais do que 10.000, mais do que 20.000, mais do que 50.000, mais do que 100.000, ou mais do que 500.000.
Em uma modalidade, a sequência de isca seleciona uma base complementar a um SNP, por exemplo, para aumentar sua capacidade de ligação (por exemplo, afinidade e/ou especificidade) em um gene ou produto de gene alvo, ou um fragmento do mesmo, que codifica o SNP. Genes ou produtos de gene exemplares incluem, entre outros, ABCB1, ABCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1, e UMPS.
Em outra modalidade, o conjunto de isca seleciona um códon em um gene ou produto de gene alvo, ou um fragmento do mesmo, que é associado com câncer. Genes ou produtos de gene exemplares incluem, entre outros, ABL1 (por exemplo, códon 315), AKT1, ALK, APC (por exemplo, códon 1114, 1338, 1450, e 1556), AR, BRAF (por exemplo, códon 600), CDKN2A, CEBPA, CTNNB1 (por exemplo, códon 32, 33, 34, 37, 41, e 45), EGFR (por exemplo, 719, 746-750, 768, 790, 858, e 861), ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3 (por exemplo, códon 835), HRAS (por exemplo, códon 12, 13, e 61), JAK2 (por exemplo, códon 617), KIT (por exemplo, códon 816), KRAS (por exemplo, códon 12, 13, e 61), MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, PDGFRA, PIK3CA (por exemplo, códon 88, 542, 545, 546, 1047, e 1049), PTEN (por exemplo, códon 130, 173, 233, e 267), RB1, RET (por exemplo, códon 918), TP53 (por exemplo,175, 245, 248, 273, e 306)
Ainda em outra modalidade, o conjunto de isca seleciona um gene ou produto de gene alvo, ou um fragmento do mesmo, que é associado com câncer. Genes ou produtos de gene exemplares incluem, entre outros, ABL2, AKT2, AKT3, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CARD11, CBL, CCND1, CCND2, CCND3, CCNE1, CDH1, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDR, LRP1B, LTK, MAP2K1, MAP2K2, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK3, PAK3, PAX5, PDGFRB, PIK3R1, PKHD1, PLCG1, PRKDC, PTCH1, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOX10, SOX2, SRC, STK11, TBX22, TET2, TGFBR2, TMPRSS2, TOP1, TSC1, TSC2, USP9X, VHL, e WT1.
O comprimento da sequência de isca pode ser entre cerca de 70 nucleotídeos e 1000 nucleotídeos. Em uma modalidade, o comprimento da isca é entre cerca de 100 e 300 nucleotídeos, 110 e 200 nucleotídeos, ou 120 e 170 nucleotídeos, em comprimento. Além dos mencionados acima, comprimentos de oligonucleotídeos intermediários de cerca de 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800, e 900 nucleotídeos em comprimento pode ser usado nos métodos descrito aqui. Em algumas modalidades, oligonucleotídeos de cerca de 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, ou 230 bases podem ser usados.
Cada sequência de isca pode incluir a sequência de isca específica para o alvo (por exemplo, uma específica para o membro) e caudas universais em uma ou ambas as extremidades. Conforme usado aqui, o termo “sequência de isca” pode se referir à sequência de isca específica para o alvo ou o oligonucleotídeo inteiro incluindo a “sequência de isca” específica para o alvo e outros nucleotídeos do oligonucleotídeo. As sequências específicas para o alvo nas iscas têm entre cerca de 40 nucleotídeos e 1000 nucleotídeos em comprimento. Em uma modalidade, a sequência específica para o alvo tem entre cerca de 70 nucleotídeos e 300 nucleotídeos em comprimento. Em outra modalidade, a sequência específica para o alvo tem entre cerca de 100 nucleotídeos e 200 nucleotídeos em comprimento. Ainda em outra modalidade, a sequência específica para o alvo tem entre cerca de 120 nucleotídeos e 170 nucleotídeos em comprimento, tipicamente 120 nucleotídeos em comprimento. Comprimentos intermediários além dos mencionados acima também podem ser usados nos métodos descritos aqui, como sequências específicas para o alvo de cerca de 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400, 500, 600, 700, 800, e 900 nucleotídeos em comprimento, bem como sequências específicas para o alvo de comprimentos entre os comprimentos acima mencionados.
Em uma modalidade, a isca é um oligômero (por exemplo, composto de oligômeros de RNA, oligômeros de DNA, ou uma combinação dos mesmos) cerca de 50 a 200 nucleotídeos em comprimento (por exemplo, cerca de 50, 60, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 190, ou 200 nucleotídeos em comprimento). Em uma modalidade, cada oligômero de isca inclui cerca de 120 a 170, ou tipicamente, cerca de 120 nucleotídeos, que é uma sequência de isca específica para o alvo. A isca pode compreender sequências de nucleotídeo não específicas para o alvo adicionais em uma ou ambas as extremidades. As sequências de nucleotídeo adicionais podem ser usadas, por exemplo, para amplificação por PCT ou como identificador de isca. Em determinadas modalidades, a isca adicionalmente compreende uma entidade de ligação como descrita aqui (por exemplo, um tag de captura como uma molécula de biotina). A entidade de ligação, por exemplo, molécula de biotina, pode ser ligada à isca, por exemplo, na extremidade 5’, 3’, ou internamente (por exemplo, incorporando um nucleotídeo biotinilado), da isca. Em uma modalidade, a molécula de biotina é ligada na extremidade 5’ da isca.
Em uma modalidade exemplar, a isca é um oligonucleotídeo de cerca de 150 nucleotídeos em comprimento, dos quais 120 nucleotídeos são “sequências de isca” específicas para o alvo. Os outros 30 nucleotídeos (por exemplo, 15 nucleotídeos de cada extremidade) são caudas universais arbitrárias usadas para amplificação por PCR. As caudas podem ser qualquer uma sequência selecionada pelo usuário. Por exemplo, o combinado de oligonucleotídeos sintéticos pode incluir oligonucleotídeos da sequência de 5’- ATCGCACCAGCGTGTN120CACTGCGGCTCCTCA-3’ (SEQ ID NO:1) com N120 indicando as sequências de isca específicas para o alvo.
As sequências de isca descritas aqui podem ser usadas para seleção de éxons e sequências alvo pequenas. Em uma modalidade, a isca tem entre cerca de 100 nucleotídeos e 300 nucleotídeos em comprimento. Em outra modalidade, a isca tem entre cerca de 130 nucleotídeos e 230 nucleotídeos em comprimento. Ainda em outra modalidade, a isca tem entre cerca de 150 nucleotídeos e 200 nucleotídeos em comprimento. As sequências específicas para o alvo nas iscas, por exemplo, para seleção de éxons e sequências alvo pequenas, têm entre cerca de 40 nucleotídeos e 1000 nucleotídeos em comprimento. Em uma modalidade, a sequência específica para o alvo tem entre cerca de 70 nucleotídeos e 300 nucleotídeos em comprimento. Em outra modalidade, a sequência específica para o alvo tem entre cerca de 100 nucleotídeos e 200 nucleotídeos em comprimento. Ainda em outra modalidade, a sequência específica para o alvo tem entre cerca de 120 nucleotídeos e 170 nucleotídeos em comprimento.
Em algumas modalidades, oligonucleotídeos grandes podem minimizar o número de oligonucleotídeos necessários para capturar as sequências alvo. Por exemplo, um oligonucleotídeo pode ser usado por éxon. É conhecido na técnica que os comprimentos médio e mediano dos éxons que codificam proteína no genoma humano têm cerca de 164 e 120 pares de base, respectivamente. Iscas maiores podem ser mais específicas e capturar melhor do que as menores. Como resultado, a taxa de sucesso por sequência de isca oligonucleotídeo é maior do que com oligonucleotídeos pequenos. Em uma modalidade, a sequência com isca mínima é do tamanho de uma isca (por exemplo, 120-170 bases), por exemplo, para capturar alvos do tamanho de éxons. Ao determinar o comprimento da sequência de iscas, pode-se considerar que iscas desnecessariamente grandes capturam mais DNA não desejado diretamente adjacente ao alvo. Iscas de oligonucleotídeo maiores também podem ser mais tolerantes para polimorfismos na região alvo em amostras de DNA do que as menores. Tipicamente, as sequências de isca são derivadas de uma sequência de genoma de referência. Se uma sequência alvo na presente amostra de DNA se desvia da sequência de referência, por exemplo, se essa contém um polimorfismo de nucleotídeo único (SNP), essa pode se hibridizar de forma menos eficiente à isca e pode, portanto ser sub-representada ou completamente ausente nas sequências hibridizadas com a sequência de iscas. Abandonos alélicos devido a SNPs podem ser menos prováveis com as moléculas de isca sintéticas maiores pela razão de apenas um desemparelhamento em, por exemplo, 120 a 170 bases poder ter menor efeito na estabilidade do híbrido do que um único desemparelhamento em, 20 ou 70 bases, que é o comprimento normal da isca ou iniciador em amplificação multiplex e captura de microarranjo, respectivamente.
Para a seleção de alvos que são grandes comparados ao comprimento das iscas de captura, como regiões genômicas, os comprimentos da sequência de isca são tipicamente no mesmo intervalo de tamanho das iscas para os alvos pequenos mencionados acima, exceto pelo fato de não haver necessidade de limitar o tamanho máximo de sequências de isca com o único propósito de minimizar o direcionamento das sequências adjacentes. Alternativamente, oligonucleotídeos podem ser titulados através de uma janela muito maior (tipicamente 600 bases). Esse método pode ser usado para capturar fragmentos de DNA que são muito maiores (por exemplo, cerca de 500 bases) do que um éxon típico. Como resultado, muito mais sequências não alvo flanqueadoras não desejadas são selecionadas.
Síntese de Isca
As iscas podem ser de qualquer um tipo de oligonucleotídeo, por exemplo, DNA ou RNA. As iscas de DNA ou RNA (“iscas oligo”) podem ser sintetizadas individualmente, ou podem ser sintetizadas em um arranjo, como um conjunto de isca de DNA ou RNA (“iscas de arranjo”). Uma isca oligo, fornecida em um formato de arranjo, ou como um oligo isolado, é tipicamente de fita simples. A isca pode adicionalmente compreender uma entidade de ligação como descrito aqui (por exemplo, um tag de captura como uma molécula de biotina). A entidade de ligação, por exemplo, molécula de biotina, pode ser ligada à isca, por exemplo, na extremidade 5’ ou 3’ da isca, tipicamente, na extremidade 5’ da isca.
Em algumas modalidades, iscas oligo individuais podem ser adicionadas a um conjunto de isca de arranjo. Nesses casos, as iscas oligo podem ser projetadas para se direcionar às mesmas áreas direcionadas pelas de arranjo, e iscas oligo adicionais podem ser projetadas e adicionadas para as iscas de arranjo padrão para alcançar cobertura melhorada, ou mais completa, em determinadas áreas do genoma. Por exemplo, iscas oligo adicionais podem ser projetadas para se direcionarem para áreas de baixa cobertura de sequenciamento seguido de uma rodada de sequenciamento inicial com um conjunto de isca de arranjo padrão. Em algumas modalidades, as iscas oligo são projetadas para terem um efeito ladrilhado sobre a área de cobertura para o conjunto de isca de arranjo, ou um efeito ladrilhado sobre a área de cobertura para outras iscas oligo.
Em uma modalidade, as iscas oligo individuais são oligos de DNA que são usados para suplementar um conjunto de isca de arranjo de oligo de DNA ou RNA, ou uma combinação dos mesmos (por exemplo, um conjunto de isca de arranjo comercialmente disponível). Em outras modalidades, as iscas oligo individuais são oligos de DNA que são usados para suplementar um conjunto de isca de oligo de DNA ou RNA, ou uma combinação dos mesmos, que é uma coleção de oligos individualmente projetados e sintetizados. Em uma modalidade, as iscas oligo individuais são oligos de RNA que são usados para suplementar um conjunto de isca de arranjo de oligo de DNA ou RNA, ou uma combinação dos mesmos (por exemplo, um conjunto de isca de arranjo comercialmente disponível). Em outras modalidades, as iscas oligo individuais são oligos de RNA que são usados para suplementar um conjunto de isca de oligo de DNA ou RNA, ou uma combinação dos mesmos, que é uma coleção de oligos individualmente projetados e sintetizados.
Ainda em outra modalidade, as iscas oligo individuais são oligos de DNA que são usados para suplementar um conjunto de isca de arranjo de oligo de DNA (por exemplo, um conjunto de isca de arranjo comercialmente disponível), e em outras modalidades as iscas oligo individuais são oligos de DNA que são usados para suplementar um conjunto de isca de oligo de DNA que é uma coleção de oligos individualmente projetados e sintetizados.
Ainda em outra modalidade, as iscas oligo individuais são oligos de DNA que são usados para suplementar um conjunto de isca de arranjo de oligo de RNA (por exemplo, um conjunto de isca de arranjo comercialmente disponível), e em outras modalidades as iscas oligo individuais são oligos de DNA que são usados para suplementar um conjunto de isca de oligo de RNA que é uma coleção de oligos individualmente projetados e sintetizados.
Ainda em outra modalidade, as iscas oligo individuais são oligos de RNA que são usados para suplementar um conjunto de isca de arranjo de oligo de RNA (por exemplo, um conjunto de isca de arranjo comercialmente disponível), e em outras modalidades as iscas oligo individuais são oligos de RNA que são usados para suplementar um conjunto de isca de oligo de RNA que é uma coleção de oligos individualmente projetados e sintetizados.
Ainda em outra modalidade, as iscas oligo individuais são oligos de RNA que são usados para suplementar um conjunto de isca de arranjo de oligo de DNA (por exemplo, um conjunto de isca de arranjo comercialmente disponível), e em outras modalidades de iscas oligo individuais são oligos de RNA que são usados para suplementar um conjunto de isca de oligo de DNA que é uma coleção de oligos individualmente projetados e sintetizados.
Em uma modalidade, iscas oligo são projetadas para sequências alvo em genes de interesse particular, como para alcançar cobertura de sequenciamento aumentada de conjuntos de gene expandidos.
Em outra modalidade, iscas oligo são projetadas para sequências alvo representando um subconjunto do genoma, e são misturadas e usadas como um combinado em vez de, ou em adição às, iscas de arranjo.
Em uma modalidade, um primeiro conjunto de iscas oligo é projetado para se direcionar para áreas de baixa cobertura de sequenciamento, e um segundo conjunto de iscas oligo é projetado para se direcionar aos genes de interesse particular. Então ambos os conjuntos de iscas oligo são combinados e, opcionalmente, misturados com um conjunto de isca de arranjo padrão para serem usados para sequenciamento.
Em uma modalidade, uma mistura de isca oligo é usada, por exemplo, para sequenciar painéis de genes alvo simultaneamente e para triar um painel de polimorfismo de nucleotídeo únicos (SNPs) criado, como para o objetivo de pesquisar rearranjos genômicos e alterações no número de cópia (equivalente de CGH (Hibridização Genômica Comparativa) submetido ao arranjo). Por exemplo, um painel de SNPs pode primeiro ser criado pelo método de arranjo como iscas de arranjo, e então iscas de oligonucleotídeo de DNA adicionais podem ser projetadas para se direcionarem para áreas de baixa cobertura de sequenciamento para um conjunto de genes alvo. O sequenciamento da coleção de SNPs pode então ser repetido com o conjunto de isca de arranjo original mais as iscas oligo adicionais para alcançar a cobertura de sequenciamento total desejada.
Em algumas modalidades, iscas oligo são adicionadas para um conjunto de isca de arranjo padrão para alcançar cobertura de sequenciamento mais completa. Em uma modalidade, iscas oligo são projetadas para se direcionarem para áreas de baixa cobertura de sequenciamento seguindo uma rodada de sequenciamento inicial com um conjunto de isca de arranjo padrão.
Em outra modalidade, iscas oligo são projetadas para sequências alvo em genes de interesse particular. Essas iscas oligo podem ser adicionadas a um conjunto de isca de arranjo padrão ou para conjuntos de isca híbridos oligo/arranjo existentes para alcançar, por exemplo, cobertura de sequenciamento aumentada de conjuntos de gene expandidos sem passar por um ciclo de reprojeção de combinados de isca de arranjo.
Iscas oligo podem ser obtidas de uma fonte comercial, como NimbleGen (Roche) ou Integrated DNA Technologies (IDT) para oligos de DNA. Oligos podem também ser obtidos de Agilent Technologies. Protocolos para enriquecimento estão publicamente disponíveis, por exemplo, SureSelect Target Enrichment System.
Iscas podem ser produzidas por métodos descritos em US 2010/0029498 e Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189, incorporados aqui como referência. Por exemplo, iscas de RNA biotiniladas podem ser produzidas obtendo um grupo de oligonucleotídeos sintéticos grandes, originalmente sintetizados em um microarranjo, e amplificando os oligonucleotídeos para produzir uma sequência de iscas. Em algumas modalidades, as iscas são produzidas adicionando uma sequência promotora de RNA polimerase em uma extremidade da sequência de isca, e sintetizando sequências de RNA usando RNA polimerase. Em uma modalidade, bibliotecas de oligodeoxinucleotídeos sintéticos podem ser obtidas de fornecedores comerciais, como Agilent Technologies, Inc., e amplificadas usando métodos de amplificação de ácido nucleico conhecidos.
Por exemplo, uma grande coleção de iscas pode ser gerada de um combinado personalizado de oligonucleotídeos sintéticos originalmente sintetizados em um arranjo de oligonucleotídeo, por exemplo, um microarranjo de DNA Agilent programável. Assim, pelo menos cerca de 2.500, 5.000, 10.000, 20.000, 30.000, 40.000, 50.000, ou 60.000 oligonucleotídeos únicos podem ser sintetizados simultaneamente.
Em uma modalidade, um conjunto mínimo de oligonucleotídeos únicos é escolhido e cópias adicionais (por exemplo, alternando entre complementos reversos e as fitas diretas) são adicionadas até a capacidade máxima do arranjo de oligonucleotídeo sintético ser atingida, por exemplo, para iscas projetadas para capturar um conjunto pré-selecionado de alvos (por exemplo, conjunto pré-selecionado de éxons). Em outra modalidade, o alvo é representado pelo menos duas vezes, por exemplo, pela síntese dos oligonucleotídeos complementados de forma direta e reversa. A síntese de oligonucleotídeos complementados de forma direta e reversa para um determinado alvo pode fornecer melhor redundância nas etapas de síntese do que a síntese da mesma sequência duas vezes. Ainda em outra modalidade, o produto ou isca de PCR é o mesmo para oligonucleotídeos complementados de forma direta e reversa.
Os oligonucleotídeos dos chips são sintetizados uma vez, e então podem ser amplificados para criar um conjunto de oligonucleotídeos que pode ser usado muitas vezes. Essa abordagem gera um reagente universal que pode ser usado como isca para um grande número de experimentos de seleção, assim amortizando o custo do chip para ser uma pequena fração do custo do sequenciamento. Alternativamente, as sequências de isca podem ser produzidas usando métodos de amplificação de ácido nucleico conhecidos, como PCR, usando DNA humano ou amostras de DNA humano combinadas como modelo.
Após a síntese, os oligonucleotídeos podem ser liberados (por exemplo, despojados) do arranjo por clivagem química seguida por remoção dos grupos de proteção e amplificada por PCR em DNA de fita dupla usando iniciadores universais. Uma segunda rodada de PCR pode ser usada para incorporar um sítio de promotor (por exemplo, promotor T7, SP6, ou T3) no amplicon, que é utilizado para transcrever o DNA em RNA de fita simples.
Em uma modalidade, as iscas são tituladas juntamente com as sequências (por exemplo, éxons) sem lacunas ou sobreposições. Por exemplo, as iscas podem começar na base codificadora mais à “esquerda” na fita da sequência de genoma de referência mostrada no navegador de genoma UCSC (por exemplo, 5’ para 3’ ou 3’ para 5’ juntamente com a sequência codificadora, dependendo das orientações do gene) e iscas adicionais são adicionadas até que todas as bases codificadoras sejam cobertas. Em outra modalidade, pelo menos dois, três, quatro ou cinco iscas para cada alvo são projetadas, com sobreposição de pelo menos cerca de 15, 30, 45, ou 60 bases. Após síntese e amplificação de oligonucleotídeo por PCR usando iniciadores universais, uma das caudas do DNA de fita dupla pode ser enzimaticamente seguida da degradação de uma das fitas. Os produtos de fita simples podem ser hibridizados, completamente transformados em fita dupla através de preenchimento, e amplificados por PCR. Dessa forma, é possível produzir iscas que contenham pelo menos cerca de 300, 400, 500, ou 600 bases específicas para o alvo contíguas que é mais do que pode ser sintetizado quimicamente. Essas iscas grandes podem ser úteis para aplicações que requerem alta especificidade e sensibilidade, ou para aplicações que não se beneficiam necessariamente da limitação do comprimento das iscas (por exemplo, captura de regiões genômicas contíguas grandes).
Em uma modalidade, a cobertura de cada alvo pode ser avaliada e alvos que produzem coberturas semelhantes podem ser agrupados. Conjuntos de sequências de isca distintos podem ser criados para cada grupo de alvos, melhorando ainda mais a representação. Em outra modalidade, os oligonucleotídeos dos chips de microarranjo são testados para eficácia de hibridização, e uma rodada de produção de chips de microarranjo ordenada em que os oligonucleotídeos são agrupados pelas suas eficácias de captura, de modo a compensar a variação de eficácia das iscas. Ainda em outra modalidade, combinados de oligonucleotídeo podem ser agregados para formar um número relativamente pequeno de combinados compostos, de forma a haver pouca variação na eficácia de captura entre esses.
As iscas descritas aqui podem ser marcadas com um tag, por exemplo, um tag de afinidade. Tags de afinidade exemplares incluem, entre outros, moléculas de biotina, partículas magnéticas, haptenos, ou outras moléculas de tag que permitem o isolamento de iscas marcadas com a molécula de tag. Essas moléculas e métodos de ligá-las aos ácidos nucleicos (por exemplo, as iscas usadas nos métodos revelados aqui) são bem conhecidos na técnica. Métodos exemplares para preparar iscas biotiniladas são descritos, por exemplo, em Gnirke A. et al., Nat. Biotechnol. 2009; 27(2):182-9, que é incorporado aqui como referência na totalidade.
Também conhecido na técnica são moléculas, partículas ou dispositivos que se ligam a ou são capazes de separar o conjunto de iscas marcadas da mistura de hibridização. Em uma modalidade, a molécula, partícula, ou dispositivo se liga ao tag (por exemplo, o tag de afinidade). Em uma modalidade, a molécula, partícula, ou dispositivo é uma molécula de avidina, uma magnética, ou um anticorpo ou fragmento de ligação ao antígeno do mesmo. Em uma modalidade, as iscas marcadas são separadas usando um grânulo magnético revestido com moléculas de estreptavidina.
Métodos exemplares para preparar bibliotecas de oligonucleotídeo são descritos, por exemplo, em Gnirke A. et al., Nat. Biotechnol. 2009; 27(2):182-9, e Blumenstiel B. et al., Curr. Protoc. Hum. Genet. 2010; Capítulo 18: Unidade 18.4, que são incorporados aqui como referência na totalidade.
Condições de Hibridização
Os métodos apresentados na invenção incluem a etapa de contatar a biblioteca (por exemplo, a biblioteca de ácido nucleico) com uma pluralidade de iscas para fornecer uma captura de biblioteca selecionada. A etapa de contato pode ser efetuada em hibridização de solução. Em determinadas modalidades, o método inclui repetir a etapa de hibridização por uma ou mais rodadas adicionais de hibridização de solução. Em algumas modalidades, os métodos ainda incluem submeter a captura de biblioteca para uma ou mais rodadas adicionais de hibridização de solução com a mesma ou diferentes coleções de iscas.
Em outras modalidades, os métodos apresentados na invenção ainda incluem amplificar a captura de biblioteca (por exemplo, por PCR). Em outras modalidades, a captura de biblioteca não é amplificada.
Ainda em outras modalidades, os métodos ainda incluem a etapa de submeter a captura de biblioteca à genotipagem, identificando assim o genótipo dos ácidos nucleicos selecionados.
Mais especificamente, uma mistura de vários milhares de sequências de isca pode hibridizar de forma efetiva ácidos nucleicos complementares em um grupo de ácidos nucleicos e esses ácidos nucleicos hibridizados (o subgrupo de ácidos nucleicos) podem ser eficientemente separados e recuperados. Em uma modalidade, os métodos descritos aqui usam um conjunto de sequências de isca contendo mais do que cerca de 1.000 sequência de iscas, mais do que cerca de 2.000 sequência de iscas, mais do que cerca de 3.000 sequência de iscas, mais do que cerca de 4.000 sequência de iscas, mais do que cerca de 5.000 sequência de iscas, mais do que cerca de 6.000 sequência de iscas, mais do que cerca de 7.000 sequência de iscas, mais do que cerca de 8.000 sequência de iscas, mais do que cerca de 9.000 sequência de iscas, mais do que cerca de 10.000 sequência de iscas, mais do que cerca de 15.000 sequência de iscas, mais do que cerca de 20.000 sequência de iscas, mais do que cerca de 30.000 sequência de iscas, mais do que cerca de 40.000 sequência de iscas, ou mais do que cerca de 50.000 sequência de iscas.
Em algumas modalidades, o processo de seleção é repetido nos subgrupos de ácidos nucleicos selecionados, por exemplo, para aumentar o enriquecimento de ácidos nucleicos selecionados. Por exemplo, após uma rodada de hibridização, um enriquecimento de vários milhares de vezes de ácidos nucleicos pode ser observado. Após uma segunda rodada, o enriquecimento pode aumentar, por exemplo, para cerca de 15.000 vezes de média de enriquecimento, que pode fornecer cobertura de centenas de vezes do alvo em uma única corrida de sequenciamento. Assim, para experimentos que necessitam fatores de enriquecimento não alcançáveis em uma única rodada de seleção de híbrido, os métodos tipicamente incluem submeter o subgrupo de ácidos nucleicos isolados (ou seja, uma parte ou todas as sequências alvo) para uma ou mais rodadas adicionais de hibridização de solução com o conjunto das sequências de isca.
A seleção de híbrido sequencial com duas sequências de isca diferentes (isca 1, isca 2) pode ser usada para isolar e sequenciar a “intersecção”, ou seja, o subgrupo de sequências de DNA que se liga à isca 1 e à isca 2, por exemplo, usado para aplicações que inclui, entre outras, enriquecimento para intercromossômica. Por exemplo, a seleção de DNA de uma amostra de tumor com uma isca específica para sequências no cromossomo 1 seguido por seleção do produto da primeira seleção de sequências que hibridiza com uma isca específica para o cromossomo 2 pode enriquecer sequências em junções de translocação cromossomais que contêm sequências de ambos os cromossomos.
A molaridade do subgrupo selecionado de ácidos nucleicos pode ser controlada de forma que a molaridade de qualquer ácido nucleico particular está dentro de uma pequena variação da molaridade média de todos os ácidos nucleicos selecionados no subgrupo de ácidos nucleicos. Métodos para controlar e otimizar a uniformidade da representação alvo incluem, entre outros, projeção racional de sequências de isca baseadas em regras físico-químicas e empíricas de projeção de sonda bem conhecidos na técnica, e combinações de iscas onde sequências conhecidas por ou suspeitas de ter um desempenho baixo são sobrerrepresentadas para compensar a sua fraqueza intrínseca. Em algumas modalidades, pelo menos cerca de 50%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, ou 95% do subgrupo de ácidos nucleicos isolado é dentro de cerca de 20 vezes, 15 vezes, 10 vezes, 5 vezes, 3 vezes, ou 2 vezes da molaridade média. Em uma modalidade, pelo menos cerca de 50% dos subgrupos de ácidos nucleicos isolados é dentro de cerca de 3 vezes da molaridade média. Em outra modalidade, pelo menos cerca de 90% do subgrupo de ácidos nucleicos isolados é dentro de cerca de 10 vezes da molaridade média.
Variações na eficiência de seleção podem ser ainda ajustadas alterando a concentração das iscas. Em uma modalidade, a eficiência de seleção é ajustada nivelando a eficiência das iscas individuais dentro de um grupo (por exemplo, uma primeira, segunda ou terceira pluralidade de iscas) ajustando a abundância relativa das iscas, ou a densidade da entidade de ligação (por exemplo, o hapteno ou densidade do tag de afinidade) em relação à eficiência de captura da sequência diferencial observada ao usar uma mistura de iscas equimolar, e então introduzindo um excesso diferencial tanto quanto o grupo 1 internamente nivelado para a mistura de isca geral em relação ao grupo 2 internamente nivelado.
Em determinadas modalidades, os métodos descritos aqui podem alcançar uma cobertura uniforme da sequência alvo. Em uma modalidade, ao percentual de bases alvo contendo pelo menos cerca de 50% da cobertura esperada é pelo menos cerca de 60%, 70%, 80%, ou 90%, por exemplo, para alvos pequenos como éxons que codificam proteína. Em outra modalidade, ao percentual de bases alvo contendo pelo menos cerca de 50% da cobertura esperada é pelo menos cerca de 80%, 90%, ou 95%, por exemplo, para alvos que são grandes comparados ao comprimento das iscas de iscas, como regiões genômicas.
Antes da hibridização, iscas podem ser desnaturadas de acordo com métodos bem conhecidos na técnica. Em geral, as etapas de hibridização compreendem adicionar um excesso de DNA bloqueador para a composição de isca marcada, contatando a composição de isca bloqueada sob condições de hibridização com as sequências alvo a serem detectadas, lavando as iscas não hibridizadas, e detectando a ligação da composição de isca ao alvo.
Iscas são hibridizadas ou aneladas às sequências alvo sob condições de hibridização. “Condições de hibridização” são condições que facilitam o anelamento entre uma isca e ácido nucleico alvo. Uma vez que o anelamento de diferentes iscas irá variar dependendo do comprimento da sonda, concentração da base e semelhantes, o anelamento é facilitado pela variação da concentração da isca, temperatura de hibridização, concentração de sal e outros fatores bem conhecidos na técnica.
Condições de hibridização são facilitadas variando as concentrações, composições da base, complexidades, e comprimentos das iscas, bem como as concentrações de sal, temperaturas, e duração da incubação. Por exemplo, as hibridizações podem ser realizadas em tampão de hibridização contendo 5x SSPE, 5x Denhardt’s, 5 mM EDTA e 0,1% SDS e DNA bloqueador para suprimir hibridização não específica. Inibidores de RNase podem ser usados se a isca é RNA. Em geral, as condições de hibridização, conforme descrito acima, incluem temperaturas de cerca de 25 °C a cerca de 65 °C, tipicamente cerca de 65 °C, e duração de incubação de cerca de 0,5 hora a cerca de 96 horas, tipicamente cerca de 66 horas. Condições de hibridização adicionais exemplares estão nos Exemplos 12A-12C e Tabela 14 aqui.
Os métodos descritos aqui são adaptáveis para métodos e dispositivos de manuseio de líquidos padrão. Em algumas modalidades, o método é realizado usando tecnologia de manuseio de líquido automatizada como conhecido na técnica, como dispositivos que lidam com placas multipoços (ver, por exemplo, Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189). Isso pode incluir, entre outros, construções de bibliotecas automatizadas, e etapas de hibridização de solução incluindo lavagens de hibridização de instalação e pós-solução. Por exemplo, um aparelho pode ser usado para realizar esses métodos automatizados para as etapas de lavagem e captura dos grânulos após a reação de hibridização de solução. Aparelhos exemplares podem incluir, entre outros, as seguintes posições: uma posição para uma placa multi- poços contendo grânulos magnéticos revestidos com estreptavidina, uma posição para a placa multi-poço contendo as reações de seleção de híbrido de solução, blocos de aquecimento controlados por I/O para pré- aquecer reagentes e para realizar as etapas de lavagem em uma temperatura definida pelo usuário, uma posição para uma prateleira para pontas de pipeta, uma posição com imãs estabelecidos em determinadas configurações que facilitam a separação de sobrenadantes de grânulos imobilizados com ímãs, uma estação de lavagem para lavar as tampas de pipeta e descarga de efluentes, e posições para outras soluções e reagentes como tampões de lavagem de alto e baixo rigor ou a solução para eluição alcalina da captura final. Em uma modalidade, o aparelho é projetado para processar até 96 seleções de híbrido da etapa de captura do grânulo através de uma etapa de neutralização de captura em paralelo. Em outra modalidade, uma ou mais posições possuem uma função dupla. Ainda em outra modalidade, o usuário é solicitado pelo protocolo para trocar uma placa pela outra.
Os ácidos nucleicos selecionados diretamente podem ser concatenados e cisalhados, o que é feito para superar as limitações de leituras de sequenciamento curtas. Em uma modalidade, cada alvo sequenciado do tamanho do éxon é capturado com uma única molécula de isca que tem cerca do mesmo tamanho do alvo e tem pontos de extremidade perto dos pontos de extremidade do alvo. Apenas híbridos que formam moléculas de fita dupla contendo aproximadamente 100 ou mais pares de bases contíguos sobrevivem às lavagens pós hibridização rigorosas. Como resultado, os subgrupos de ácidos nucleicos selecionados (ou seja, a “captura”) são enriquecidos para fragmentos de DNA genômicos cisalhados aleatoriamente cujas terminações estão próximas das terminações das moléculas de isca. O simples sequenciamento das terminações da “captura” com sequenciamento de leitura muito pequeno pode gerar maior cobertura perto da extremidade (ou até mesmo fora) do alvo e baixa cobertura perto do meio.
A concatenação de moléculas de “captura” por ligação seguida por cisalhamento aleatório e sequenciamento shotgun é um método para obter cobertura de sequência pelo comprimento inteiro da sequência alvo. Esse método produz percentagens mais altas de bases sequenciadas que são alvo (ao contrário de alvos próximos) do que o sequenciamento de extremidade com leituras muito pequenas. Métodos para concatenar moléculas por coligação são conhecidos na técnica. A concatenação pode ser realizada pela simples ligação de extremidade rombas. Extremidades “coesivas” para ligações eficientes podem ser produzidas por uma variedade de métodos incluindo amplificação por PCR da “captura” com iniciadores de PCR que possuem sítios de restrição próximos das suas extremidades 5’ seguido por digestão com as enzimas de restrição correspondentes (por exemplo, NotI) ou por estratégias semelhantes às comumente usadas para ligação-clonagem independente de produtos de PCR como “chew-back” parcial pela T4 DNA polimerase (Aslanidis e de Jong, Nucleic Acids Res. 18:6069-6074, 1990) ou tratamento de produtos de PCR contendo uracila com glicosilase UDG e liase endo VIII (por exemplo, New England Biolabs cat. E5500S).
Em outra modalidade, um conjunto escalonado de moléculas de isca é utilizado para uma região alvo, obtendo extremidades de isca frequentes através da região alvo. Em algumas modalidades, uma “captura” simplesmente sequenciada (ou seja, sem concatenação ou cisalhamento) fornece uma cobertura de sequência relativamente uniforme ao longo de toda região que é coberta pela isca incluindo o alvo de sequenciamento recente (por exemplo, um éxon). Ao escalonar, as moléculas de isca ampliam o segmento coberto pela isca, as bases sequenciadas são distribuídas sobre uma área mais ampla. Como resultado, a razão de sequência no alvo sobre o próximo ao alvo é menor do que para seleções com iscas sem sobreposição que tipicamente necessitam apenas uma única isca por alvo.
Em outra modalidade, o sequenciamento de extremidade com leituras levemente maiores (por exemplo, 76 bases) é o método comum para sequenciar alvos selecionados pequenos (por exemplo, éxons). Diferentemente do sequenciamento de extremidade com leituras muito pequenas, esse método leva a um perfil de cobertura unimodal sem um mergulho na cobertura no meio. Esse método é mais fácil de ser realizado do que o método de concatenação e cisalhamento descrito acima, resulta em coberturas relativamente uniformes ao longo dos alvos, e gera uma altao percentual de bases sequenciadas caindo na isca e no alvo apropriado.
Em uma modalidade, os subgrupos de ácidos nucleicos selecionados são amplificados (por exemplo, por PCR) antes de serem analisados por sequenciamento ou genotipagem. Em outra modalidade, o subgrupo é analisado sem uma etapa de amplificação, por exemplo, quando o subgrupo selecionado é analisado por métodos analíticos sensíveis que podem ler moléculas únicas.
Módulo de Isca
Métodos descritos aqui fornecem sequenciamento otimizado de um grande número de genes e produtos de gene de amostras, por exemplo, amostras de tumor, de um ou mais sujeitos pela seleção apropriada de iscas, por exemplo, iscas para utilização em hibridização de solução, para a seleção de ácidos nucleicos alvo a serem sequenciados. A eficiência de seleção para diversos intervalos subgenômicos, ou classes dos mesmos, é combinada de acordo com conjuntos de isca contendo eficiência de seleção pré- selecionada.
Assim, um método (por exemplo, elemento (b) do método recitado acima) compreende contatar a biblioteca com uma pluralidade de iscas para fornecer elementos selecionados (por vezes referido aqui como captura de biblioteca).
Assim, um método para analisar uma amostra, por exemplo, uma amostra de tumor é fornecida. O método compreende:(a) adquirir uma biblioteca compreendendo uma pluralidade de elementos de uma amostra, por exemplo, uma pluralidade de elementos de tumor de uma amostra de tumor;(b) contatar a biblioteca com um conjunto de isca para fornecer elementos selecionados (por exemplo, uma captura de biblioteca);(c) adquirir uma leitura para um intervalo subgenômico de um membro, por exemplo, um membro tumor da dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuir um dito valor de nucleotídeo (por exemplo, chamada de mutação, por exemplo, com um método Bayesiano ou um método descrito aqui) de dita leitura para posição de nucleotídeo pré-selecionada, assim analisar dita amostra de tumor,em que o método compreende contatar a biblioteca com uma pluralidade, por exemplo, pelo menos dois, três, quatro ou cinco, de conjuntos de isca, em que cada conjunto de isca de dita pluralidade tem uma única (ao contrário de outros conjuntos de isca na pluralidade), eficiência pré-selecionada para seleção. Por exemplo, cada único conjunto de isca fornece uma única profundidade de sequenciamento.
Em uma modalidade, a eficiência de seleção de um primeiro conjunto de isca na pluralidade difere da eficiência de um segundo conjunto de isca na pluralidade em pelo menos 2 vezes. Em uma modalidade, os primeiro e segundo conjuntos de isca fornecem uma profundidade de sequenciamento que difere em pelo menos 2 vezes.
Em uma modalidade, o método compreende contatar um, ou uma pluralidade dos seguintes conjuntos de isca com a biblioteca:a) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 500X ou maior profundidade de sequenciamento, por exemplo, para sequenciar uma mutação presente em não mais do que 5 % das células da amostra;b) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 200X ou maior, por exemplo, cerca de 200X a cerca de 500X, profundidade de sequenciamento, por exemplo, para sequenciar uma mutação presente em não mais do que 10 % das células da amostra; c) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 10-100X profundidade de sequenciamento, por exemplo, para sequenciar um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de: a) um polimorfismo de nucleotídeo único (SNP) farmacogenômico (PGx) que pode explicar a capacidade do paciente metabolizar diferentes drogas, b) um SNPs genômico que pode ser usado para unicamente identificar (por exemplo, fingerprint) um paciente, c) um SNPs genômico/loci que pode ser usado para avaliar ganhos/perdas de número de cópia de DNA genômico e perda de heterogosidade (LOH);d) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 5-50 X de profundidade de sequenciamento, por exemplo, para detectar um ponto de quebra estrutural, como uma translocação genômica ou uma indel. Por exemplo, a detecção de um ponto de quebra intrônico necessita profundidade abrangendo par de sequência 5-50X para garantir alta confiabilidade de detecção. Estes conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos a translocação/indel; oue) um conjunto de isca que seleciona membros suficientes compreendendo um intervalo subgenômico para fornecer por cerca de 0,1-300X de profundidade de sequenciamento, por exemplo, para detectar mudanças de número de cópia. Em uma modalidade, a profundidade de sequenciamento varia de cerca de 0,1-10X de profundidade de sequenciamento para detectar mudanças de número de cópia. Em outras modalidades, a profundidade de sequenciamento varia de cerca de 100-300X para detectar um SNPs genômico/loci que é usado para avaliar ganhos/perdas de número de cópia de DNA genômico ou perda de heterogosidade (LOH). Estes conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos à amplificação/deleção.
Em modalidades, o método compreende o uso de iscas projetadas para capturar duas ou mais categorias de alvo diferentes, cada categoria contendo diferentes estratégias de projeção de isca. Em modalidades, os métodos de captura de híbridos e composições reveladas aqui captura um subconjunto definido de sequências alvo (por exemplo, membros alvo) e fornecem cobertura homogênea da sequência alvo, enquanto minimiza a cobertura fora desse subconjunto. Em uma modalidade, as sequências alvo incluem o exoma inteiro fora do DNA genômico, ou um subconjunto selecionado do mesmo. Os métodos e composições revelados aqui fornecem diferentes conjuntos de isca para atingir diferentes profundidades e padrões de cobertura para sequências de ácido nucleico alvo complexas (por exemplo, bibliotecas de ácido nucleico).
Em uma modalidade o método compreende fornecer elementos selecionados de uma biblioteca de ácido nucleico (por exemplo, uma captura de biblioteca). O método inclui: fornecer uma biblioteca (por exemplo, uma biblioteca de ácido nucleico) compreendendo uma pluralidade de membros, por exemplo, membros de ácido nucleico alvo (por exemplo, incluindo uma pluralidade de membros de tumor, membros de referência, e/ou membros de PGx);contatar a biblioteca, por exemplo, em uma reação baseada em arranjo ou solução, com uma pluralidade de iscas (por exemplo, iscas de oligonucleotídeo) para formar uma mistura de hibridização compreendendo uma pluralidade de isca/membros híbridos;separar a pluralidade de isca/membros híbridos da dita mistura de hibridização, por exemplo, contatando dita mistura de hibridização com uma entidade de ligação que permite a separação de dita pluralidade de isca/membro híbrido,assim fornecendo uma captura de biblioteca (por exemplo, um subgrupo selecionado ou enriquecido de moléculas de ácido nucleico da biblioteca),em que a pluralidade de iscas inclui dois ou mais do seguinte:a) um primeiro conjunto de isca que seleciona um alvo de nível alto (por exemplo, um ou mais elementos de tumor que inclui um intervalo subgenômico, como um gene, um éxon, ou uma base) para o qual a cobertura mais profunda é necessária para permitir um alto nível de sensibilidade para uma alteração (por exemplo, uma ou mais mutações) que aparecem em uma baixa frequência, por exemplo, cerca de 5% ou menos (ou seja, 5% das células da amostra contendo a alteração em seu genoma). Em uma modalidade; o primeiro conjunto de isca seleciona (por exemplo, é complementar a) um membro tumor que inclui uma alteração (por exemplo, uma mutação pontual) que necessita cerca de 500X ou maior profundidade de sequenciamento;b) um segundo conjunto de isca que seleciona um alvo de nível médio (por exemplo, um ou mais elementos de tumor que inclui um intervalo subgenômico, como um gene, um éxon, ou uma base) para o qual ampla cobertura é necessária para permitir alto nível de sensibilidade para uma alteração (por exemplo, uma ou mais mutações) que aparece em uma frequência maior do que o alvo de alto nível em uma), por exemplo, uma frequência de cerca de 10% (ou seja, 10% das células da amostra contendo a alteração em seu genoma). Em uma modalidade; o segundo conjunto de isca seleciona (por exemplo, é complementar a) um membro tumor que inclui uma alteração (por exemplo, uma mutação pontual) que necessita cerca de 200X ou maior profundidade de sequenciamento; c) um terceiro conjunto de isca que seleciona um alvo de nível baixo (por exemplo, um ou mais elementos PGx que inclui um intervalo subgenômico, como um gene, um éxon, ou uma base) para o qual cobertura baixo-média é necessária para permitir alto nível de sensibilidade, por exemplo, para detectar alelos heterozigotos. Por exemplo, a detecção de alelos heterozigotos necessita 10-100X profundidade de sequenciamento para garantir alta confiabilidade de detecção. Em uma modalidade, o terceiro conjunto de isca seleciona um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de: a) um polimorfismo de nucleotídeo único (SNP) farmacogenômico (PGx) que pode explicar a capacidade do paciente metabolizar diferentes drogas, b) um SNPs genômico que pode ser usado para unicamente identificar (por exemplo, fingerprint) um paciente, c) um SNPs genômico/loci que pode ser usado para avaliar ganhos/perdas de número de cópia de DNA genômico e perda de heterogosidade (LOH);d) um quarto conjunto de isca que seleciona um primeiro íntron alvo (por exemplo, um membro que inclui uma sequência de íntron) para o qual cobertura baixo-média é necessária, por exemplo, para detectar um ponto de quebra estrutural, como uma translocação genômica ou uma indel. Por exemplo, a detecção de um ponto de quebra intrônico necessita profundidade abrangendo par de sequência 5-50X para garantir alta confiabilidade de detecção. Ditos quartos conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos a translocação/indel; oue) um quinto conjunto de isca que seleciona um segundo íntron alvo (por exemplo, um membro íntron) para o qual a cobertura esparsa é necessária para melhorar a capacidade para detectar mudanças de número de cópia. Por exemplo, a detecção de uma deleção de uma cópia de vários éxons terminais necessita 0,1-10X cobertura para garantir alta confiabilidade de detecção. Ditos quintos conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos à amplificação/deleção.
Qualquer combinação de dois, três, quatro ou mais dos referidos conjuntos de isca podem ser usados em métodos e composições apresentados aqui, como, por exemplo, uma combinação do primeiro e segundo conjuntos de isca; primeiro e terceiro conjuntos de isca; primeiro e quarto conjuntos de isca; primeiro e quinto conjuntos de isca; segundo e terceiro conjuntos de isca; segundo e quarto conjuntos de isca; segundo e quinto conjuntos de isca; terceiro e quarto conjuntos de isca; terceiro e quinto conjuntos de isca; quarto e quinto conjuntos de isca; primeiro, segundo e terceiro conjuntos de isca; primeiro, segundo e quarto conjuntos de isca; primeiro, segundo e quinto conjuntos de isca; primeiro, segundo, terceiro, quarto conjuntos de isca; primeiro, segundo, terceiro, quarto e quinto conjuntos de isca, e assim por diante.
Em uma modalidade, cada um do primeiro, segundo, terceiro, quarto, ou quinto conjunto de isca tem a eficiência pré-selecionada para seleção (por exemplo, captura). Em uma modalidade, o valor para eficiência de seleção é o mesmo para pelo menos dois, três, quatro de todas as cinco iscas de acordo com a)-e). Em outras modalidades, o valor para eficiência de seleção é diferente para pelo menos dois, três, quatro de todas as cinco iscas de acordo com a)-e).
Em algumas modalidades, pelo menos dois, três, quatro, ou todas cinco conjuntos de isca tem um valor de eficiência pré-selecionado diferente. Por exemplo, um valor para eficiência de seleção escolhido de um de mais de:(i) a primeira eficiência pré-selecionada tem um valor para primeira eficiência de seleção que é pelo menos cerca de 500X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a segunda, terceira, quarta ou quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 2-3 vezes mais do que o valor para a segunda eficiência de seleção; cerca de 5-6 vezes mais do que o valor para a terceira eficiência de seleção; cerca de 10 vezes mais do que o valor para a quarta eficiência de seleção; cerca de 50 a 5000 vezes mais do que o valor para a quinta eficiência de seleção);(ii) a segunda eficiência pré-selecionada tem um valor para segunda eficiência de seleção que é pelo menos cerca de 200X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a terceira, quarta ou quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 2 vezes mais do que o valor para a terceira eficiência de seleção; cerca de 4 vezes mais do que o valor para a quarta eficiência de seleção; cerca de 20 a 2000 vezes mais do que o valor para a quinta eficiência de seleção);(iii) a terceira eficiência pré-selecionada tem um valor para terceira eficiência de seleção que é pelo menos cerca de 100X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a quarta ou quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 2 vezes mais do que o valor para a quarta eficiência de seleção; cerca de 10 a 1000 vezes mais do que o valor para a quinta eficiência de seleção);(iv) a quarta eficiência pré-selecionada tem um valor para quarta eficiência de seleção que é pelo menos cerca de 50X ou maior profundidade de sequenciamento (por exemplo, tem um valor para eficiência de seleção que é mais do que a quinta eficiência pré-selecionada de seleção (por exemplo, cerca de 50 a 500 vezes mais do que o valor para a quinta eficiência de seleção); ou(v) a quinta eficiência pré-selecionada tem um valor para quinta eficiência de seleção que é pelo menos cerca de 10X a 0,1X profundidade de sequenciamento.
Em determinadas modalidades, o valor para eficiência de seleção é modificado por uma ou mais de: representação diferencial de diferentes conjuntos de isca, sobreposição diferencial de subconjuntos de isca, parâmetros de isca diferenciais, ou mistura de diferentes conjuntos de isca. Por exemplo, uma variação na eficiência de seleção (por exemplo, cobertura de sequência relativa de cada conjunto de isca/categoria de alvo) pode ser ajustada alterando uma ou mais de:(i) Representação diferencial de diferentes conjuntos de isca - A projeção do conjunto de isca para capturar um determinado alvo (por exemplo, um membro alvo) pode incluir mais/menos números de cópia para aumentar/diminuir profundidades de cobertura alvo relativas;(ii) Sobreposição diferencial de subconjuntos de isca - A projeção do conjunto de isca para capturar um determinado alvo (por exemplo, um membro alvo) pode incluir uma sobreposição maior ou menor entre iscas vizinhas para aumentar/diminuir profundidades de cobertura alvo relativas;(iii) Parâmetros de isca diferenciais - A projeção do conjunto de isca para capturar um determinado alvo (por exemplo, um membro alvo) pode incluir modificações de sequência/menor comprimento para reduzir eficiência de captura e diminuir a profundidades de cobertura alvo relativas;(iv) Mistura de diferentes conjuntos de isca - Conjuntos de isca que são projetados para capturar diferentes conjuntos de alvo podem ser misturados em diferentes relações molares para aumentar/diminuir profundidades de cobertura alvo relativas;(v) Uso de tipos diferentes de conjuntos de isca de oligonucleotídeo -Em determinadas modalidades, o conjunto de isca pode incluir:(a) uma ou mais iscas quimicamente (por exemplo, não enzimaticamente) sintetizadas (por exemplo, individualmente sintetizada),(b) uma ou mais iscas sintetizadas em um arranjo,(c) uma ou mais iscas preparadas enzimaticamente, por exemplo, transcritas in vitro;(d) qualquer combinação de (a), (b) e/ou (c),(e) um ou mais oligonucleotídeos de DNA (por exemplo, um oligonucleotídeo de DNA de ocorrência natural ou não natural),(f) um ou mais oligonucleotídeos de RNA (por exemplo, um oligonucleotídeo de RNA de ocorrência natural ou não natural),(g) uma combinação de (e) e (f), ou(h) uma combinação de qualquer um dos acima.
As diferentes combinações de nucleotídeo podem ser misturadas em diferentes razões, por exemplo, uma razão escolhida de 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000, ou semelhante. Em uma modalidade, a razão de isca quimicamente sintetizada para isca gerada por arranjo é escolhida de 1:5, 1:10, ou 1:20. Os oligonucleotídeos de DNA ou RNA podem ser de ocorrência natural ou não natural. Em determinadas modalidades, as iscas incluem um ou mais nucleotídeo de ocorrência não natural para, por exemplo, aumentar temperatura de fusão. Oligonucleotídeos de ocorrência não natural exemplares incluem nucleotídeos modificados de DNA ou RNA. Nucleotídeos modificados exemplares (por exemplo, nucleotídeos de RNA ou DNA modificados) incluem, entre outros, um ácido nucleico trancado (LNA), em que a fração ribose de um nucleotídeo LNA é modificada com uma ponte extra conectando o oxigênio 2’ e carbono 4’; ácido nucleico peptídeo (PNA), por exemplo, um PNA composto de unidades de repetição de N-(2-aminoetil)-glicina ligado por ligações peptídicas; um oligonucleotídeo de DNA ou RNA modificado para capturar regiões GC baixas; um ácido nucleico bicíclico (BNA) ou um oligonucleotídeo de ligação cruzada; um 5-metil deoxicitidina modificado; e 2,6-diaminopurina. Outros nucleotídeos de DNA e RNA modificados são conhecidos na técnica.
Em determinadas modalidades, a cobertura substancialmente homogênea ou uniforme de uma sequência alvo (por exemplo, um membro alvo) é obtida. Por exemplo, dentro de cada conjunto de isca/categoria de alvo, a uniformidade de cobertura pode ser otimizada modificando parâmetros de isca, por exemplo, por um ou mais de:(i) Aumentar/reduzir a representação ou sobreposição de isca pode ser usado para aumentar/diminuir cobertura de alvos (por exemplo, membros alvo), que são sub/sobre cobertos em relação a outros alvos na mesma categoria;(j) ) Para baixa cobertura, sequências alvo difíceis para capturar (por exemplo, sequências de alto teor GC), expandir a região sendo alvo com os conjuntos de isca para cobrir, por exemplo, sequências adjacentes (por exemplo, sequências adjacentes menos ricas em GC);(k) i) Modificar uma sequência de isca pode ser feito para reduzir a estrutura secundária da isca e melhorar sua eficiência de seleção;(l) ) Modificar um comprimento da isca pode ser usado para equalizar a fusão de cinética de hibridização de diferentes iscas dentro da mesma categoria. O comprimento da isca pode ser modificado diretamente (produzindo iscas com comprimentos variados) ou indiretamente (produzindo iscas de comprimento consistente, e substituindo as extremidades da isca com sequência arbitrária);(v) Modificar iscas de diferentes orientações para a mesma região alvo (ou seja fita direta e reversa) pode ter diferentes eficiências de ligação. O conjunto de isca com ambas as orientações fornecendo cobertura ideal para cada alvo pode ser selecionado;(w) ) Modificar a quantidade de uma entidade de ligação, por exemplo, um tag de captura (por exemplo, biotina), presente em cada isca pode afetar sua eficiência de ligação. Aumentar/reduzir o nível de tag de iscas direcionando um alvo específico pode ser usado para aumentar/reduzir a cobertura alvo relativa;(x) i) Modificar o tipo de nucleotídeo usado para diferentes iscas pode ser alterado para afetar a afinidade de ligação ao alvo, e aumentar/reduzir a cobertura alvo relativa; ou(y) ii) Usar iscas de oligonucleotídeo modificadas, por exemplo, contendo mais pareamento de base estável, pode ser usado para equalizar a fusão de cinética de hibridização entre áreas de teor de GC alto ou normal em relação ao teor de GC.
Em outras modalidades, a eficiência de seleção é ajustada nivelando a eficiência das iscas individuais dentro de um grupo (por exemplo, uma primeira, segunda ou terceira pluralidade de iscas) ajustando a abundância relativa das iscas, ou a densidade da entidade de ligação (por exemplo, o hapteno ou densidade do tag de afinidade) em relação à eficiência de captura da sequência diferencial observada ao usar uma mistura de iscas equimolar, e então introduzindo um excesso diferencial do grupo 1 internamente nivelado para a mistura de isca geral em relação ao grupo 2 internamente nivelado.
Em uma modalidade, uma captura de biblioteca é fornecida pelo uso de uma pluralidade de conjuntos de isca incluindo um conjunto de isca que seleciona um membro tumor, por exemplo, uma molécula de ácido nucleico compreendendo um intervalo subgenômico de uma célula de tumor (também referido aqui como “um conjunto de isca de tumor”). O elemento tumor pode ser qualquer uma sequência de nucleotídeos presente em uma célula de tumor, por exemplo, uma mutada, uma tipo selvagem, uma PGx, uma de referência ou uma sequência de nucleotídeos de íntron (por exemplo, um membro), conforme descrito aqui, que está presente em um célula de tumor ou cancerígena. Em uma modalidade, o elemento tumor inclui uma alteração (por exemplo, uma ou mais mutações) que aparece em uma baixa frequência, por exemplo, cerca de 5% ou menos das células da amostra de tumor abrigam a alteração em seus genomas. Em outras modalidades, o elemento tumor inclui uma alteração (por exemplo, uma ou mais mutações) que aparecem em uma frequência de cerca de 10% das células de uma amostra de tumor. Em outras modalidades, o elemento tumor inclui um intervalo subgenômico de um gene PGx ou produto de gene, uma sequência de íntron, por exemplo, uma sequência de íntron conforme descrito aqui, uma sequência de referência, que está presente em um célula de tumor.
Em outras modalidades, o método ainda inclui detectar um membro não tumor, por exemplo, uma molécula de ácido nucleico (como um intervalo subgenômico) que está presente em uma célula não tumor. Em uma modalidade, a pluralidade de conjuntos de isca inclui um conjunto de isca que seleciona o membro não tumor (também referido aqui como “um conjunto de isca não tumor”). Por exemplo, o membro não tumor pode ser de uma amostra normal (por exemplo, não cancerígena) de referência (por exemplo, do mesmo sujeito do qual a amostra de tumor foi obtida); um tecido adjacente normal (NAT) ou uma amostra de sangue do mesmo sujeito contendo ou em risco de conter o tumor. Em outras modalidades, o membro não tumor é de um sujeito diferente do elemento tumor (por exemplo, é de uma amostra normal (por exemplo, não cancerígena) de referência; um tecido adjacente normal (NAT); ou uma amostra de sangue), de um ou mais sujeitos diferentes (por exemplo, sujeitos saudáveis ou outros sujeitos contendo ou em risco de conter o tumor). Em uma modalidade, o membro não tumor inclui um intervalo subgenômico de um gene PGx ou produto de gene, uma sequência de íntron, uma sequência de referência, que está presente em uma célula não tumor.
Em uma modalidade, o conjunto de isca de tumor é escolhido de um, dois, três, quatro, cinco, seis, sete, oito, nove, dez, onze, doze, ou todos A-M do seguinte:A. Um conjunto de isca que seleciona uma sequência de éxon que inclui uma alteração de nucleotídeo única associada com um fenótipo cancerígeno;B. Um conjunto de isca que seleciona uma deleção em fase de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou mais códons de uma sequência de nucleotídeos de referência (por exemplo, cromossomo);C. Um conjunto de isca que seleciona uma deleção intragênica;D. Um conjunto de isca que seleciona uma inserção intragênica;E. Um conjunto de isca que seleciona uma deleção de um gene completo;F. Um conjunto de isca que seleciona uma inversão, por exemplo, uma inversão intracromossômica;G. Um conjunto de isca que seleciona uma translocação intercromossômica;H. Um conjunto de isca que seleciona uma duplicação tandem, por exemplo, uma duplicação tandem intracromossômica;I. Um conjunto de isca que seleciona uma sequência de nucleotídeos de interesse flanqueada por sequências não repetitivas adjacentes;J. Um conjunto de isca que seleciona um ou mais intervalos subgenômicos correspondendo a uma sequência de fusão, por exemplo, um par pré-selecionado de intervalos subgenômicos (por exemplo, um par pré-selecionado de éxons) correspondendo a uma sequência de fusão (por exemplo, um transcrito de fusão ou uma forma que passou por junção alternativa associada ao câncer de transcrito de não fusão);K. Um conjunto de isca que seleciona um intervalo subgenômico adjacente a uma sequência de nucleotídeos que inclui uma característica indesejada, por exemplo, uma sequência de nucleotídeos de alto teor de GC, uma sequência de nucleotídeos incluindo um ou mais elementos repetidos e/ou repetidos invertidos; L. Um conjunto de isca que seleciona um rearranjo, por exemplo, um rearranjo genômico (por exemplo, um rearranjo que inclui uma sequência de íntron, por exemplo, um 5’ ou 3’-UTR); ouM. Um conjunto de isca que seleciona um intervalo subgenômico que inclui um éxon adjacente a um gene de fusão associado ao câncer.
Modalidades adicionais dos conjuntos de isca e métodos de uso dos mesmos são como os seguintes:
Em uma modalidade, o conjunto de isca seleciona um membro por hibridização (por exemplo, a isca ou pluralidade de iscas no conjunto de isca é complementar para um ou mais membros, por exemplo, membros alvo, como primeiro-quinto membros, membros tumor ou não tumor, conforme descrito aqui).
Em uma modalidade, a biblioteca (por exemplo, a biblioteca de ácido nucleico) inclui uma pluralidade de membros, por exemplo, membros de ácido nucleico alvo de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 ou mais sujeitos. Em uma modalidade, o sujeito é humano contendo, ou em risco de conter, um câncer ou tumor.
Em determinadas modalidades, o método inclui sequenciar elementos de tumor de amostras de tumor de pelo menos X sujeitos, (em que X = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, ou mais sujeitos). Em uma modalidade, o sujeito é humano contendo, ou em risco de conter, um câncer ou tumor. O método inclui o sequenciamento de pelo menos 5, 10, 15, 20, 30, 40, 50, 75 ou mais genes ou produtos de gene descritos aqui (por exemplo, genes ou produtos de gene da Tabela 1, 1A, 2, 3, ou 4) de pelo menos X sujeitos.
Em outras modalidades ou em adição às modalidades supracitadas, o método inclui sequenciar um intervalo subgenômico de referência de um gene ou produto de gene do mesmo sujeito como uma amostra de tumor, por exemplo, uma sequência de nucleotídeos tipo selvagem ou não mutada de um gene ou produto de gene descrito aqui (por exemplo, genes ou produtos de gene da Tabela 1, 1A, 2, 3, ou 4). Em uma modalidade, o gene ou produto de gene de referência é do mesmo sujeito ou um sujeito diferente da amostra de tumor (por exemplo, é de uma ou mais da mesma ou diferente amostra de tumor; uma amostra normal (por exemplo, não cancerígena); um tecido adjacente normal (NAT); ou uma amostra de sangue), do mesmo sujeito contendo ou em risco de conter o tumor, ou de um sujeito diferente.
Em uma modalidade, o membro (por exemplo, qualquer um dos membros descritos aqui) compreende um intervalo subgenômico. Em uma modalidade, o intervalo subgenômico inclui uma região intragênica ou uma região intergênica. Em uma modalidade, o intervalo subgenômico inclui um gene ou fragmento do mesmo, um éxon ou um fragmento do mesmo, ou uma posição de nucleotídeo pré-selecionada (por exemplo, uma base). Em outra modalidade, o intervalo subgenômico inclui um éxon ou um íntron, ou um fragmento do mesmo, tipicamente um éxon ou um fragmento do mesmo. Em uma modalidade, o intervalo subgenômico inclui uma região codificadora ou uma região não codificadora , por exemplo, um promotor, um melhorador, uma região 5’ não traduzida (5’ UTR), ou uma região 3’ não traduzida (3’ UTR), ou um fragmento do mesmo.
Em outra modalidade, o intervalo subgenômico do membro (por exemplo, qualquer um dos membros descritos aqui) inclui uma alteração (por exemplo, uma ou mais mutações) associada, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno (por exemplo, um ou mais de risco de câncer, progressão de câncer, tratamento de câncer ou resistência ao tratamento de câncer). Ainda em outra
modalidade, o intervalo subgenômico inclui uma alteração, por exemplo, uma mutação pontual ou simples, uma mutação de deleção (por exemplo, uma deleção em fase, uma deleção intragênica, uma deleção de gene completo), uma mutação de inserção (por exemplo, inserção intragênica), uma mutação de inversão (por exemplo, uma inversão intracromossômica), uma mutação de ligação, uma mutação de inserção ligada, uma mutação de duplicação invertida, uma duplicação tandem (por exemplo, uma duplicação tandem intracromossômica), uma translocação (por exemplo, uma translocação cromossômica, uma translocação não recíproca), um rearranjo (por exemplo, um rearranjo genômico (por exemplo, um rearranjo de um ou mais íntrons, ou um fragmento do mesmo; um íntron rearranjado pode incluir UTR 5’ e/ou 3’); uma mudança no número de cópias do gene; uma mudança na expressão do gene; uma mudança nos níveis de RNA, ou uma combinação dos mesmos. Em uma modalidade, o intervalo subgenômico do primeiro ou segundo membro inclui uma alteração de um gene ou produto de gene de acordo com a Tabela 1, 1A, 3, ou 4.
Em uma modalidade, o elemento tumor inclui uma ou mais alterações (por exemplo, um ou mais intervalos subgenômicos alterados ou mutados do gene ou produtos de gene de uma amostra de tumor). Em algumas modalidades, o conjunto de isca (por exemplo, qualquer um dos conjuntos de isca descritos aqui) seleciona (por exemplo, é complementar a) um membro tumor, por exemplo, uma molécula de ácido nucleico (por exemplo, um intervalo subgenômico, como um gene, um éxon, ou um fragmento do mesmo), que inclui uma alteração (por exemplo, uma ou mais mutações) associada, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno.
Em uma modalidade, o membro é associado com um fenótipo cancerígeno, por exemplo, um ou mais de risco de câncer, progressão de câncer, tratamento de câncer, ou resistência ao tratamento de câncer. A associação com o fenótipo de câncer pode incluir um ou mais de: um fator de risco para câncer, um preditor de resposta positiva ao tratamento, um preditor de resposta negativa ao tratamento, um fator prognóstico positivo, um fator prognóstico negativo, ou um fator diagnóstico. Em uma modalidade, o fenótipo de câncer associado com o elemento tumor é do mesmo tipo de tumor do detectado por análise histológica da amostra. Em outras modalidades, o fenótipo de câncer associado com o elemento tumor é de um tipo de tumor diferente do detectado por análise histológica da amostra.
Em determinadas modalidades, o intervalo subgenômico inclui uma sequência de nucleotídeo, em que a presença ou ausência de uma variante alélica pré-selecionada é preditiva de um resultado clínico positivo, e/ou capacidade de resposta à terapia. Em outras modalidades, o intervalo subgenômico inclui uma sequência de nucleotídeo, em que a presença ou ausência de uma variante alélica pré-selecionada é preditiva de um resultado clínico negativo, e/ou capacidade de resposta à terapia. Em determinadas modalidades, o intervalo subgenômico da amostra de ácido nucleico inclui uma sequência de nucleotídeo, em que a presença ou ausência de uma variante alélica pré-selecionada é indicativa de um fator genético (por exemplo, um risco de linha germinativa) para desenvolver câncer (por exemplo, o gene ou produto de gene é escolhido de uma ou mais de BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL ou WT1).
Em outras modalidades, o membro não é associado com o fenótipo cancerígeno. Em determinadas modalidades, o intervalo subgenômico do membro (por exemplo, qualquer um dos membros descritos aqui) inclui uma molécula de ácido nucleico (no mesmo ou em um diferentes intervalos genômicos) não associados com o fenótipo de câncer para o tumor do tipo da amostra.
Em uma modalidade, o intervalo subgenômico do membro (por exemplo, qualquer um dos membros descritos aqui) inclui uma sequência de nucleotídeos de tipo selvagem ou não mutada de um gene ou produto de gene (por exemplo, uma sequência de éxon ou um fragmento do mesmo). Em uma modalidade, o intervalo subgenômico do primeiro ou segundo membro inclui uma sequência de nucleotídeos de tipo selvagem ou não mutada de um gene ou produto de gene que quando mutada é associada com um fenótipo cancerígeno (por exemplo, uma sequência de tipo selvagem ou não mutada de um gene ou produto de gene conforme descrito aqui, por exemplo, um gene ou produto de gene descrito aqui na Tabela 1, 1A, 3 ou 4). Membros contendo a sequência de gene ou produto de gene de tipo selvagem ou não mutada são também referidos aqui como “membros de referência.” Por exemplo, o intervalo subgenômico é de um ou mais de: um alelo de tipo selvagem de uma mutação heterozigota; uma amostra normal (por exemplo, não cancerígena) de referência (por exemplo, do mesmo sujeito do qual a amostra de tumor foi obtida); um tecido adjacente normal (NAT) ou uma amostra de sangue do mesmo sujeito contendo ou em risco de conter o tumor. Em outras modalidades, o intervalo subgenômico é de um sujeito diferente do elemento tumor (por exemplo, é de um ou mais da mesma ou diferente amostra de tumor de um sujeito diferente; uma amostra normal (por exemplo, não cancerígena) de referência; um tecido adjacente normal (NAT); ou uma amostra de sangue), de um ou mais sujeitos diferentes (por exemplo, sujeitos saudáveis ou outros sujeitos contendo ou em risco de conter o tumor).
Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona (por exemplo, é complementar a) um intervalo subgenômico que inclui uma mutação pontual que aparece em uma frequência de cerca de 5% ou menos (ou seja, 5% das células da qual a amostra foi preparada abriga essa mutação em seus genomas), por exemplo, necessita cerca de 500X ou maior profundidade de sequenciamento para garantir alta confiabilidade de detecção.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona (por exemplo, é complementar a) um tumor ou membro de referência escolhido de um, dois, três, quatro, cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais de: gene ou produto de gene de ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona (por exemplo, é complementar a) um, dois, três, quatro, cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, trinta e cinco códons escolhido de um ou mais de: códon 315 do gene ABL1; códon 1114, 1338, 1450 ou 1556 de APC; códon 600 de BRAF; códon 32, 33, 34, 37, 41 ou 45 de CTNNB1; códon 719, 746-750, 768, 790, 858 ou 861 de EGFR; códon 835 de FLT3; códon 12, 13, ou 61 de HRAS; códon 617 de JAK2; códon 816 de KIT; códon 12, 13, ou 61 de KRAS; códon 88, 542, 545, 546, 1047, ou 1049 de PIK3CA; códon 130, 173, 233, ou 267 de PTEN; códon 918 de RET; códon 175, 245, 248, 273, ou 306 de TP53.
Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um ou mais intervalos subgenômicos que são frequentemente mutados em determinados tipos de câncer, por exemplo, pelo menos 5, 10, 20, 30 ou mais intervalos subgenômicos de um gene ou produto de gene Câncer Prioridade 1 de acordo com a Tabela 1 ou 1A.
Em outras modalidades, o segundo conjunto de isca seleciona (por exemplo, é complementar a) um membro tumor que inclui uma alteração (por exemplo, uma mutação pontual) que aparece em uma frequência de 10%, por exemplo, necessita cerca de 200X ou maior profundidade de sequenciamento para garantir alta confiabilidade de detecção.
Em outras modalidades, o segundo conjunto de isca seleciona (por exemplo, é complementar a) um membro tumor escolhido de um, dois, três, quatro, cinco, dez, quinze, vinte, vinte e cinco, trinta, trinta e cinco, quarenta, quarenta e cinco, cinquenta, cinquenta e cinco, sessenta, sessenta e cinco, setenta, setenta e cinco, oitenta, oitenta e cinco, noventa, noventa e cinco, cem, cento e cinco, cento e dez, cento e quinze, cento e vinte ou mais de: gene ou produto de gene de ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2, FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL, ou WT1.
Em uma modalidade, o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de pelo menos 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 ou mais de genes ou produtos de gene de Câncer de acordo com a Tabela 1 ou 1A.
Em determinadas modalidades, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona uma sequência de nucleotídeos de tipo selvagem e/ou não mutada, por exemplo, um membro de referência que tem uma sequência de nucleotídeos tipo selvagem ou não mutada, por exemplo, uma sequência de nucleotídeos de tipo selvagem e/ou não mutada de um intervalo subgenômico de um gene ou produto de gene conforme descrito aqui, por exemplo, conforme descrito na Tabela 1, 1A, 3 ou 4.
Em uma modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de tumor, seleciona um membro, por exemplo, um membro de referência, que tem uma sequência de nucleotídeos de tipo selvagem ou não mutada de um gene ou produto de gene (por exemplo, uma sequência de éxon ou um fragmento do mesmo) que quando mutada é associada, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno.
Em uma modalidade, o membro de referência é do mesmo sujeito do elemento tumor (por exemplo, é de uma ou mais da mesma ou diferente amostra de tumor; um alelo heterozigoto de tipo selvagem do membro mutado; uma amostra normal (por exemplo, não cancerígena) de referência; um tecido adjacente normal (NAT); ou uma amostra de sangue), do mesmo sujeito contendo ou em risco de conter o tumor. Em outras modalidades, o membro de referência é de um sujeito diferente do elemento tumor (por exemplo, é de uma ou mais da mesma ou diferente amostra de tumor de um sujeito diferente; uma amostra normal (por exemplo, não cancerígena) de referência; um tecido adjacente normal (NAT); ou uma amostra de sangue), de um ou mais sujeitos diferentes contendo ou em risco de conter o tumor.
Em uma modalidade, o primeiro ou segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona uma sequência de éxon que inclui uma alteração de nucleotídeo única associada com um fenótipo cancerígeno. Por exemplo, o primeiro conjunto de isca, ou o conjunto de isca de tumor, pode incluir uma sequência de nucleotídeos complementar aos nucleotídeos 25.398.215-25.398.334 do cromossomo 12, e contém uma base complementar a uma substituição C-T na posição 25.398.286, que representa a mutação G12S no gene KRAS.
Em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma deleção em fase de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou mais códons de uma sequência de nucleotídeos de referência (por exemplo, cromossomo). Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui (ou consiste em) duas sequências de nucleotídeos descontínuas de uma sequência de cromossomo de referência, em suas orientações de referência 5’ para 3’, separada na sequência de cromossomo de referência por uma lacuna de qualquer um de 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60 ou mais nucleotídeos. Por exemplo, o primeiro conjunto de isca, ou o conjunto de isca de tumor, pode incluir uma sequência de nucleotídeos que é complementar aos nucleotídeos 55.242.400 a 55.242.535 do cromossomo 7, mas é desprovido dos nucleotídeos 55.242.464 a 55.242.479, que representa uma deleção em fase dos códons 746-750 do gene EGFR.
Ainda em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma deleção intragênica. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui (ou consiste em) dois segmentos descontínuos de uma sequência de nucleotídeos de referência (por exemplo, cromossomo), na sua orientação de referência 5’ para 3’, separada por 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60 nucleotídeos da sequência de cromossomo de referência. Por exemplo, o primeiro conjunto de isca, ou o conjunto de isca de tumor, pode incluir uma sequência de nucleotídeos que é complementar aos nucleotídeos 9.675.214 a 89.675.274 do cromossomo 10, seguido por bases 89.675.277 a 89.675.337 do cromossomo 10, que representa a deleção da sequência de dinucleotídeo “CA” do códon 64 do gene PTEN.
Ainda em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma inserção intragênica. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui (ou consiste em) dois segmentos contínuos de uma sequência de nucleotídeos de referência (por exemplo, cromossomo), separada por uma sequência não referência de 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60 nucleotídeos. Por exemplo, o primeiro conjunto de isca, ou o conjunto de isca de tumor, pode incluir uma sequência de nucleotídeos que é complementar aos nucleotídeos 89.692.864 a 89.692.924 do cromossomo 10, seguido por uma sequência de nucleotídeos “GGNATG”, seguido por nucleotídeos 89.692.925 a 89.692.980 do cromossomo 10, que representa a inserção de resíduos de aminoácidos “Gly-Met” seguindo o códon 136 do gene PTEN.
Em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma deleção de um gene completo. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui (ou consiste em) dois segmentos descontínuos de uma sequência de nucleotídeos de referência (por exemplo, cromossomo), na sua orientação de referência 5’ para 3’, separada por 500, 1000, 1500, 2000, 2500, 3000, 4000, 5000 ou mais nucleotídeos da sequência de cromossomo de referência. Por exemplo, o primeiro conjunto de isca, ou o conjunto de isca de tumor, pode incluir uma sequência de nucleotídeos complementar às bases 21.961.007 a 21.961.067 do cromossomo 9 adjacente uma bases 22.001.175 a 22.001.235 do cromossomo 9, que representa a deleção do gene CDKN2A.
Em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma inversão, por exemplo, uma inversão intracromossômica. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui uma sequência de nucleotídeos complementar a dois segmentos descontínuos de uma sequência de nucleotídeos de referência (por exemplo, cromossomo), um dos quais é invertido da sua orientação de referência, por exemplo, para capturar um membro que resulta de uma inversão. Por exemplo, o primeiro conjunto de isca, ou o conjunto de isca de tumor, pode incluir nucleotídeos 42.522.893 a 42.522.953 do cromossomo 2, justapostos com nucleotídeos 29.449.993 a 29.449.933 do cromossomo 2, que representa uma inversão produzindo uma fusão EML4:ALK.
Em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma translocação intercromossômica. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui uma sequência de nucleotídeos complementar a dois segmentos descontínuos de uma sequência de nucleotídeos de referência (por exemplo, genômico), originada de diferentes sequências de cromossomo de referência, por exemplo, para capturar um membro que resulta de uma intertranslocação cromossômica. Por exemplo, o primeiro conjunto de isca, ou o conjunto de isca de tumor, pode incluir nucleotídeos 23.632.552 a 23.632.612 do cromossomo 22, justapostos com nucleotídeos 133.681.793 a 133.681.853 do cromossomo 9, que representa a presença de uma translocação cromossômica resultando em uma fusão BCR-ABL.
Ainda em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma duplicação tandem, por exemplo, uma duplicação tandem intracromossômica. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui uma sequência de nucleotídeos complementar a um segmento de uma sequência de nucleotídeos de referência (por exemplo, cromossomo), de pelo menos 3, 6, 9, 12, 15, 18, 21, 24, 27, ou 30 nucleotídeos de comprimento, repetidas pelo menos uma vez, por exemplo, duas vezes, três vezes, quatro vezes, ou cinco vezes, em sua orientação de referência, por exemplo, para capturar um membro com uma duplicação tandem. Por exemplo, a isca pode incluir bases 28.608.259 a 28.608.285 do cromossomo 13 repetidas duas vezes na mesma orientação, que representa uma mutação de duplicação tandem interna (ITD) no gene FLT3.
Ainda em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um membro tumor caracterizado por uma sequência de nucleotídeos de interesse flanqueada por sequências não repetitivas adjacentes. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, inclui pelo menos duas sequências de nucleotídeo não contíguas. Uma primeira sequência de nucleotídeos complementar à região de flanqueamento 5’ da sequência de interesse, e uma segunda sequência de nucleotídeos complementar à região de flanqueamento 3’ da sequência de interesse. Por exemplo, um primeiro e segundo par de iscas pode incluir uma primeira sequência de nucleotídeos complementar aos nucleotídeos 51.288.380 a 51.288.500 (isca 1) e uma segunda sequência de nucleotídeos complementar aos nucleotídeos 51.288.560 a 51.288.680 (isca 2) do cromossomo 2, que pode capturar membros contendo a sequência de marcador microssatélite D2S123.
Em outra modalidade, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona (por exemplo, é complementar a) um par pré-selecionado de intervalos subgenômicos (por exemplo, um par pré-selecionado de éxons) correspondendo a uma sequência de fusão (por exemplo, um transcrito de fusão ou uma forma que passou por junção alternativa associada ao câncer de transcrito de não fusão).
Em outras modalidades, o primeiro ou o segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona um intervalo subgenômico adjacente a uma sequência de nucleotídeos que inclui uma característica indesejada, por exemplo, uma sequência de nucleotídeos de alto teor de GC, uma sequência de nucleotídeos incluindo um ou mais elementos repetidos e/ou repetidos invertidos. Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um intervalo subgenômico que inclui um elemento repetido, mas não se hibridiza ao elemento repetido (por exemplo, não se hibridiza aos elementos repetidos em um gene BRCA2).
Em outras modalidades, o primeiro, o segundo, ou conjunto de isca de tumor, seleciona um intervalo subgenômico que inclui um éxon adjacente a um gene de fusão associado a um câncer, para assim facilitar a captura de sequências de ácido nucleico (por exemplo, cDNA fragmentos) adjacentes ao gene de fusão.
Em outras modalidades, o primeiro, o segundo, ou conjunto de isca de tumor seleciona um intervalo subgenômico que é de um ou mais genes ou produtos de gene mostrados na Tabela 1, 1A, 3 ou 4, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais dos tipos de câncer descritos nas Tabelas 1, 1A, 3 ou 4.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ABL-1 ou produto de gene, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, uma malignidade de tecido mole escolhida de uma ou mais de CML, ALL ou T-ALL. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de CML, ALL ou T-ALL.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene AKT1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de mama, colorretal, ovariano, ou carcinoma de pulmão de células não pequenas (NSCLC). Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de mama, colorretal, ovariano, ou carcinoma de pulmão de células não pequenas (NSCLC).
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene ALK, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de ALCL, NSCLC ou neuroblastoma. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de ALCL, NSCLC ou neuroblastoma.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene APC, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de colorretal, pancreático, desmoide, hepatoblastoma, glioma, ou outros cânceres ou tumores do CNS. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de colorretal, pancreático, desmoide, hepatoblastoma, glioma, ou outros cânceres ou tumores do CNS.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene BRAF, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de melanoma, câncer colorretal, câncer de pulmão, outras malignidades epiteliais, ou malignidades hematológicas incluindo AML ou ALL. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de melanoma, câncer colorretal, câncer de pulmão, outras malignidades epiteliais, ou malignidades hematológicas incluindo AML ou ALL.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene CDKN2A, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de melanoma, pancreático, ou outros tipos de tumor. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de melanoma, pancreático, ou outros tipos de tumor.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene CEBPA, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de AML ou MDS. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de AML ou MDS.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene CTNNB1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de colorretal, ovariano, hepatoblastoma, ou adenoma salivar pleomórfico. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de colorretal, ovariano, hepatoblastoma, ou adenoma salivar pleomórfico.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene EGFR, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de glioma, câncer de pulmão, ou NSCLC. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de glioma, câncer de pulmão, ou NSCLC.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene ERBB2, ou um intervalo subgenômico dos mesmos, que é associado, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de mama, ovariano, NSCLC, gástrico ou outros tumores sólidos. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de mama, ovariano, NSCLC, gástrico ou outros tipos de tumores sólidos.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene ESR1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de tumores de mama, ovariano ou endometrial. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais tumores de mama, ovariano ou endometrial.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene FGFR1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de MPD ou NHL. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de MPD ou NHL.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene FGFR2, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de tumores gástricos, NSCLC ou endometriais. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de tumores gástricos, NSCLC ou endometriais.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene FGFR3, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de câncer de bexiga, mieloma múltiplo ou linfoma de células T. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de câncer de bexiga, mieloma múltiplo ou linfoma de células T.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene FLT3, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de melanoma, colorretal, papilar de tireoide, ovariano, câncer de pulmão de células não pequenas (NSCLC), colangiocarcinoma, ou astrocitoma pilocítico. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de melanoma, colorretal, papilar de tireoide, ovariano, câncer de pulmão de células não pequenas (NSCLC), colangiocarcinoma, ou astrocitoma pilocítico.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene HRAS, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de rabdomiosarcoma, ganglioneuroblastoma, bexiga, sarcomas, ou outros tipos de câncer. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de rabdomiosarcoma, ganglioneuroblastoma, bexiga, sarcomas, ou outros tipos de câncer.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene JAK2, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de ALL, AML, MPD ou CML. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de ALL, AML, MPD ou CML.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene KIT, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de tumores estromais gastrointestinais (GIST), AML, TGCT, mastocitose, melanoma mucosal, ou epitelioma. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de tumores estromais gastrointestinais (GIST), AML, TGCT, mastocitose, melanoma mucosal, ou epitelioma.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene KRAS, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de pancreático, cólon, colorretal, pulmão, tireoide, ou AML. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de pancreático, cólon, colorretal, pulmão, tireoide, ou AML.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene MET, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de renal ou carcinoma de células escamosas de cabeça e pescoço. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de renal ou carcinoma de células escamosas de cabeça e pescoço.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene MLL, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de AML ou ALL. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de AML ou ALL.
Em outras modalidades, o primeiro conjunto de isca seleciona (por exemplo, é complementar a) um gene ou produto de gene NF1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de neurofibroma ou glioma. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de neurofibroma ou glioma.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene NOTCH1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer T-ALL. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um câncer T-ALL.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene NPM1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de NHL, APL ou AML. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de NHL, APL ou AML.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene NRAS, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de melanoma, câncer colorretal, mieloma múltiplo, AML, ou câncer de tireoide. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de melanoma, câncer colorretal, mieloma múltiplo, AML, ou câncer de tireoide.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene PDGFRA , ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de GIST ou síndrome idiopática hipereosinofílica. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, uma ou mais de GIST ou síndrome idiopática hipereosinofílica.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene PIK3CA, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de colorretal, gástrico gliobastoma, ou câncer de mama. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de colorretal, gástrico gliobastoma, ou câncer de mama.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene PTEN, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de câncer colorretal, glioma, próstata, ou endometrial. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de câncer colorretal, glioma, próstata, ou endometrial.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene RB1, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de retinoblastoma, sarcoma, mama, ou carcinoma de pulmão de células pequenas. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de retinoblastoma, sarcoma, mama, ou carcinoma de pulmão de células pequenas.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene RET, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de medular de tireoide, papilar de tireoide, ou feocromocitoma. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de medular de tireoide, papilar de tireoide, ou feocromocitoma.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene TP53, ou um intervalo subgenômico dos mesmos, que é associado com um fenótipo cancerígeno, por exemplo, um câncer escolhido de um ou mais de mama, colorretal, pulmão, sarcoma, adrenocortical, glioma, ou outros tipos de tumor. Em uma modalidade, a biblioteca, por exemplo, a biblioteca de ácido nucleico, é obtida a partir de uma amostra de um sujeito contendo, ou em risco de conter, um ou mais de mama, colorretal, pulmão, sarcoma, adrenocortical, glioma, ou outros tipos de tumor.
Em uma modalidade, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene, ou um intervalo subgenômico dos mesmos, que é um preditor positivo de resposta terapêutica. Exemplos de um preditor positivo de uma resposta terapêutica incluem, entre outros, uma mutação de ativação no gene EGFR que prediz a capacidade de resposta para EGFR TKIs de pequena molécula (por exemplo, Iressa/gefitinib) em pacientes NSCLC; presença de um gene de fusão EML4/ALK que prediz a capacidade de resposta a inibidores ALK (por exemplo, PF-02341066) em pacientes NSCLC; presença de uma mutação BRAF V600E prediz a capacidade de resposta para inibição BRAF (por exemplo, PLX-4032) em pacientes com melanoma.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene, ou um intervalo subgenômico dos mesmos, que é um preditor negativo de resposta terapêutica. Exemplos de um preditor negativo de uma resposta terapêutica incluem, entre outros, uma mutação de ativação no gene KRAS que prediz a falta de resposta para anticorpos monoclonais anti-EGFR (cetuximab, panitumumab) em pacientes CRC; e a presença de uma mutação M351T no gene de fusão BCR/Abl prediz a resistência para Gleevec/imatinib em pacientes CML.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene, ou um intervalo subgenômico dos mesmos, que é um fator prognóstico. Exemplos de fatores prognósticos incluem, entre outros, a presença de uma mutação de inserção no gene FLT3, que é um prognóstico negativo para recidiva em pacientes AML; a presença de mutações no gene RET específicas, por exemplo, M918T, que são fatores prognósticos negativos para sobrevivência em pacientes de carcinoma medular de tireoide.
Em outras modalidades, o primeiro conjunto de isca, ou o conjunto de isca de tumor, seleciona um gene ou produto de gene, ou um intervalo subgenômico dos mesmos, que é um fator diagnóstico. Exemplos de fatores prognósticos incluem, entre outros, a presença de um gene de fusão BCR/Abl, que é diagnóstico para CML; e a presença de uma mutação SMARCB1, que é diagnóstico de tumor Rhabdoid do rim.
Ainda em outras modalidades, o primeiro ou segundo conjunto de isca, ou o conjunto de isca de tumor, seleciona uma molécula de ácido nucleico (por exemplo, um intervalo subgenômico) que inclui uma alteração que é associada com regressão e/ou resistência a tumor, e tem um início tardio na progressão de câncer (por exemplo, uma mutação associada à metástase, uma mutação associada à resistência de droga).
Ainda em outras modalidades, o elemento tumor inclui um intervalo subgenômico de um gene ou produto de gene que está presente em menos do que 5, 1, 0,5, 0,1%, 0,01%, 0,001% da região codificadora do genoma das células de tumor em uma amostra de tumor.
Em uma modalidade, o elemento tumor inclui um intervalo subgenômico de um gene ou produto de gene que é associado com um tumor ou câncer (por exemplo, é um preditor de resposta ao tratamento positivo ou negativo, é um fator de prognóstico positivo ou negativo para, ou permite o diagnóstico diferencial de um tumor ou câncer, por exemplo, um gene ou produto de gene escolhido de um ou mais de: ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1, e TP53.
Em uma modalidade, o elemento tumor inclui um intervalo subgenômico selecionado de um gene ou produto de gene de tipo selvagem ou mutado de acordo com as Tabelas 1, 1A-4.
Em uma modalidade, o elemento tumor inclui um intervalo subgenômico selecionado de um gene ou produto de gene de tipo selvagem ou mutado de acordo com Tabelas 1, 1A-4, que são incluídos em uma região rica em GC.
Em outra modalidade, o elemento tumor inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3. Em outras modalidades, o elemento tumor inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene de acordo com a Tabela 3 em uma amostra de tumor sólido dos tipos de câncer especificados aqui.
Em uma modalidade, o elemento tumor inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene de acordo com a Tabela 4. Em outra modalidade, o elemento tumor inclui uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene de acordo com a Tabela 4 em uma amostra de tumor heme dos tipos de câncer especificados aqui.
Em outras modalidades, a pluralidade de iscas ainda inclui um conjunto de isca que seleciona (por exemplo, é complementar a) um membro de controle, por exemplo, um ácido nucleico usado para um ou mais de: fingerprinting o ácido nucleico alvo membro em uma biblioteca; quantificar a abundância de um ácido nucleico alvo membro em uma biblioteca; identificar um membro de ácido nucleico alvo de um paciente em uma biblioteca, determinar a ploidia em uma amostra da qual a biblioteca é derivada; determinar a perda de heterogozidade em uma amostra da qual a biblioteca é derivada; determinar a duplicação de gene em uma amostra da qual a biblioteca é derivada; determinar amplificação de gene em uma amostra da qual a biblioteca é derivada; ou determinar mistura celular de tumor/normal em uma amostra da qual a biblioteca é derivada. Essas iscas são referidas aqui como “iscas de controle.” Em uma modalidade, o conjunto de isca de controle é um terceiro conjunto de isca ou um conjunto de isca PGx. Em outras modalidades, o conjunto de isca de controle seleciona (por exemplo, é complementar a) um membro PGx conforme descrito aqui. Em outras modalidades, a isca de controle seleciona uma molécula de ácido nucleico que inclui um SNP (por exemplo, um SNP conforme descrito aqui).
Em determinadas modalidades, o terceiro conjunto de isca, o conjunto de isca de tumor ou não tumor, ou o conjunto de isca PGx (referido coletivamente aqui como “o conjunto de isca de controle”) seleciona uma molécula de ácido nucleico (no mesmo de um intervalo subgenômico diferente do tumor ou membro de referência) que é um alvo de baixo nível, por exemplo, a detecção de alelos heterozigotos necessita 10-100X profundidade de sequenciamento para garantir alta confiabilidade de detecção. Em uma modalidade, o terceiro conjunto de isca, ou o conjunto de isca de tumor ou PGx, seleciona um intervalo subgenômico que é usado para um ou mais de: fingerprinting o ácido nucleico alvo membro em uma biblioteca; quantificar a abundância de um ácido nucleico alvo membro em uma biblioteca; identificar um ácido nucleico alvo membro de um paciente em uma biblioteca, determinar a ploidia em uma amostra da qual a biblioteca é derivada; determinar a perda de heterogozidade em uma amostra da qual a biblioteca é derivada; determinar a duplicação de gene em uma amostra da qual a biblioteca é derivada; determinar amplificação de gene em uma amostra da qual a biblioteca é derivada; ou determinar mistura celular de tumor/normal em uma amostra da qual a biblioteca é derivada.
Em uma modalidade, o conjunto de isca de controle (por exemplo, o terceiro conjunto de isca, o conjunto de isca de tumor ou não tumor, ou o conjunto de isca PGx) seleciona um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de: a) SNPs farmacogenômicos que podem explicar a capacidade do paciente metabolizar diferentes drogas, b) um SNPs genômico que pode ser usado para unicamente identificar (fingerprint) um paciente, c) um SNPs genômico/loci que pode ser usado para avaliar ganhos/perdas de número de cópia de DNA genômico e perda de heterogosidade (LOH).
Em uma modalidade, o conjunto de isca de controle (por exemplo, o terceiro conjunto de isca, o conjunto de isca de tumor ou não tumor, ou o conjunto de isca PGx) seleciona uma molécula de ácido nucleico compreendendo uma variante associada com metabolismo de droga ou toxicidade. Em uma modalidade, o conjunto de isca de controle (por exemplo, o terceiro conjunto de isca, o conjunto de isca de tumor ou não tumor, ou o conjunto de isca PGx) seleciona (por exemplo, é complementar a) uma molécula de ácido nucleico associada com uma composição genética do sujeito (por exemplo, etnia, raça, traços familiares).
Em outras modalidades, o conjunto de isca de controle (por exemplo, o terceiro conjunto de isca, o conjunto de isca de tumor ou não tumor, ou o conjunto de isca PGx) seleciona um polimorfismo de nucleotídeo único (SNP). Em uma modalidade, o terceiro conjunto de isca, o conjunto de isca tumor ou não tumor (por exemplo, um PGx), seleciona (por exemplo, é complementar a) um SNP escolhido de um, dois, três, quatro, cinco, dez, quinze, vinte, vinte e cinco, ou trinta de: ABCB1, ABCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1, e UMPS. Em uma modalidade, o conjunto de isca de controle seleciona um gene ou produto de gene de acordo com a Tabela 2.
Em outras modalidades, o conjunto de isca de controle (por exemplo, o terceiro conjunto de isca, o conjunto de isca de tumor ou não tumor, ou o conjunto de isca PGx) seleciona um intervalo subgenômico de um gene ou produto de gene PGx mutado ou de tipo selvagem (por exemplo, polimorfismo de nucleotídeo único (SNP)) de um intervalo subgenômico que está presente em um gene ou produto de gene associado com um ou mais de: (i) melhor sobrevida de um paciente com câncer tratado com uma droga (por exemplo, melhor sobrevida de um paciente com câncer de mama tratado com paclitaxel (por exemplo, um gene ABCB1)); (ii) metabolismo de paclitaxel (por exemplo, genes CYP2C8 em loci diferentes e mutações mostradas na Tabela 2; gene CYP3A4); (iii) toxicidade a uma droga (por exemplo, toxicidade 6-MP conforme visto com gene ABCC4 (Tabela 2); toxicidade com 5-FU conforme visto com gene DPYD, gene TYMS, ou gene UMPS (Tabela 2); toxicidade com purina conforme visto com um gene TMPT (Tabela 2); toxicidade com daunorrubicina conforme visto com gene NRP2; gene Clorf144, gene CYP1B1 (Tabela 2); ou (iv) um efeito colateral a uma droga (por exemplo, genes ABCG2, TYMS, UGT1A1, ESR1 e ESR2 (Tabela 2)).
Em outras modalidades, o conjunto de isca de controle (por exemplo, o terceiro conjunto de isca, o conjunto de isca de tumor ou não tumor, ou o conjunto de isca PGx) seleciona um intervalo subgenômico (por exemplo, sequências de éxon ou UTR) pré-selecionado para fornecer quantificação da abundância de um membro de ácido nucleico alvo em uma biblioteca. Em uma modalidade, o terceiro conjunto de isca, o tumor ou não tumor (por exemplo, um PGx) fornece quantificação de abundância relativa de um transcrito em uma biblioteca, por exemplo, uma biblioteca de cDNA.
Em outras modalidades, o quarto conjunto de isca seleciona um primeiro íntron alvo (por exemplo, um membro que inclui uma sequência de íntron) para o qual a cobertura baixo-média é necessária, por exemplo, para detectar um ponto de quebra estrutural, como uma translocação genômica ou uma indel. Por exemplo, a detecção de um ponto de quebra intrônico necessita profundidade abrangendo 5-50X pares de sequência para garantir alta confiabilidade de detecção. Ditos quartos conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos a translocação/indel.
Ainda em outras modalidades, o quinto conjunto de isca seleciona um segundo íntron alvo (por exemplo, um membro íntron) para o qual cobertura esparsa é necessária para melhorar a capacidade para detectar mudanças de número de cópia. Por exemplo, a detecção de uma deleção de uma cópia de vários éxons terminais necessita 0,1-10X cobertura para garantir alta confiabilidade de detecção. Ditos quintos conjuntos de isca podem ser usados para detectar, por exemplo, genes de câncer propensos à amplificação/deleção.
Ainda em outra modalidade, qualquer um dos conjuntos de isca descritos aqui (por exemplo, a primeira, segunda, terceira isca, quarta isca, quinto conjunto de isca, conjunto de isca de controle, tumor, não tumor, ou conjunto de isca PGx) é modificado para reduzir a formação da estrutura secundária (por exemplo, por substituição de um nucleotídeo com um nucleotídeo diferente que resulta na formação reduzida da estrutura secundária. Em uma modalidade, o conjunto de isca modificado é utilizado para captura de regiões de alto teor de GC. Em uma modalidade, a isca modificada (ou uma pluralidade de iscas) inclui uma substituição de um ou mais nucleotídeos com um nucleotídeo natural diferente (por exemplo, A, C, G, U, ou T). Em outra modalidade, a isca modificada (ou uma pluralidade de iscas) inclui uma substituição de um ou mais nucleotídeos com um análogo de nucleotídeo não natural (por exemplo, inosina ou deoxiinosina). Em uma modalidade, o conjunto de isca é modificado conforme mostrado em uma sequência exemplar na Tabela 8.
Em outras modalidades, dois ou mais do primeiro, segundo ou terceiro conjunto de isca estão no mesmo intervalo subgenômico (por exemplo, o mesmo gene ou produto de gene). Em uma modalidade, os primeiro e segundo conjunto de isca estão no mesmo intervalo subgenômico. Em outra modalidade, os primeiro e terceiro conjunto de isca estão no mesmo intervalo subgenômico. Em outra modalidade, os segundo e terceiro conjunto de isca estão no mesmo intervalo subgenômico. Em outras modalidades, os primeiro, segundo e terceiro conjuntos de isca estão em diferentes intervalos subgenômicos (por exemplo, genes ou produtos de gene diferentes).
Qualquer combinação dos conjuntos de isca acima mencionados pode ser usada nos métodos descritos aqui. Em uma modalidade, um subconjunto ou todas das supracitadas primeira, segunda e/ou terceira iscas, ou pluralidade de iscas são usadas em combinação.
Em uma modalidade, a combinação inclui um primeiro conjunto de isca e um segundo conjunto de isca conforme descrito aqui. Por exemplo, o primeiro conjunto de isca seleciona um membro tumor, por exemplo, um intervalo subgenômico que inclui uma alteração (por exemplo, uma ou mais mutações) como descrito aqui como Prioridade 1 na Tabela 1 ou 1A); e o segundo conjunto de isca seleciona um membro descrito aqui como gene de Câncer na Tabela 1 ou 1A.
Em outras modalidades, a combinação inclui uma primeira isca e um terceiro conjunto de isca conforme descrito aqui. Por exemplo, o primeiro conjunto de isca seleciona um membro tumor, por exemplo, um intervalo subgenômico que inclui uma alteração (por exemplo, uma ou mais mutações) como descrito aqui como Prioridade 1 na Tabela 1 ou 1A); e o terceiro conjunto de isca seleciona um membro PGx, por exemplo, uma molécula de ácido nucleico (em um mesmo de um intervalo subgenômico diferente) usada para um ou mais de fingerprinting a amostra, identificar uma amostra de paciente, determinação da ploidia, determinação da perda de heterozigosidade, determinação da duplicação de gene, determinação da amplificação de gene, ou determinação da mistura celular de tumor/normal (por exemplo, um SNP conforme descrito aqui).
Em outras modalidades, a combinação inclui um segundo conjunto de isca e terceiro conjunto de isca conforme descrito aqui. Por exemplo, o segundo conjunto de isca seleciona um membro descrito aqui como um gene de Câncer na Tabela 1 ou 1A; e o terceiro conjunto de isca seleciona um membro PGx, por exemplo, uma molécula de ácido nucleico (em um mesmo de um intervalo subgenômico diferente) usada para um ou mais de fingerprinting a amostra, identificar uma amostra de paciente, determinação da ploidia, determinação da perda de heterozigosidade, determinação da duplicação de gene, determinação da amplificação de gene, ou determinação da mistura celular de tumor/normal (por exemplo, um SNP conforme descrito aqui).
Ainda em outras modalidades, a combinação inclui um primeiro conjunto de isca, um segundo conjunto de isca, e um terceiro conjunto de isca conforme descrito aqui.
Ainda em outras modalidades, a combinação inclui um primeiro conjunto de iscas que seleciona um membro tumor mutante, por exemplo, um intervalo subgenômico que inclui uma alteração (por exemplo, uma ou mais mutações conforme descrito aqui) de um gene ou produto do gene de acordo com a Tabela 1 ou 1A. Em uma modalidade, o primeiro conjunto de iscas seleciona um, dois, três, quatro, cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, trinta e cinco códons escolhidos a partir de um ou mais de códon 315 do gene ABL1; códon 1114, 1338, 1450 ou 1556 de APC; códon 600 de BRAF; códon 32, 33, 34, 37, 41 ou 45 de CTNNB1; códon 719, 746-750, 768, 790, 858 ou 861 de EGFR; códon 835 de FLT3; códon, 12, 13 ou 61 de HRAS; códon 617 da JAK2; códon 816 do KIT; códon 12, 13 ou 61 de KRAS; códon 88, 542, 545, 546, 1047 ou 1049 de PIK3CA; códon 130, 173, 233 ou 267 de PTEN; códon 918 da RET; códon 175, 245, 248, 273 ou 306 de TP53; e um primeiro conjunto de iscas que seleciona uma sequência tipo selvagem (por exemplo, um membro referência) correspondente a um ou mais dos ditos genes ou produtos de genes.
Ainda em outras modalidades, a combinação inclui um primeiro conjunto de iscas que seleciona um membro tumor, por exemplo, um intervalo subgenômico que inclui uma alteração (por exemplo, uma ou mais mutações conforme descrito aqui), em que o tumor ou membro associado a câncer é escolhido a partir de um, dois, três, quatro, cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais de: gene ABL1, AKT1, ALK, APC, AR, BRAF, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, PDGFRA, PIK3CA, PTEN, RB1, RET ou TP53 ou produto do gene. Em uma modalidade, o primeiro conjunto de iscas seleciona um, dois, três, quatro, cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta, trinta e cinco códons escolhidos a partir de um ou mais de: códon 315 do gene ABL1; códon 1114, 1338, 1450 ou 1556 do APC; códon 600 de BRAF; códon 32, 33, 34, 37, 41 ou 45 de CTNNB1; códon 719, 746-750, 768, 790, 858 ou 861 de EGFR; códon 835 de FLT3; códon 12, 13, ou 61 de HRAS; códon 617 de JAK2; códon 816 de KIT; códon 12, 13, ou 61 de KRAS; códon 88, 542, 545, 546, 1047, ou 1049 de PIK3CA; códon 130, 173, 233, ou 267 de PTEN; códon 918 de RET; códon 175, 245, 248, 273, ou 306 de TP53; e o terceiro conjunto de iscas seleciona uma molécula de ácido nucleico (no mesmo de um intervalo subgenômico diferente) usado para um ou mais de fingerprinting da amostra, identificação de uma amostra de paciente, determinação de ploidia, determinação de perda de heterozigose, determinação de duplicação de gene, determinação de amplificação de gene, ou determinação de mistura celular normal/tumoral (por exemplo, um SNP como descrito aqui).
Ainda em outras modalidades, o primeiro conjunto de iscas seleciona uma molécula de ácido nucleico (por exemplo, um intervalo subgenômico) que inclui uma alteração que está associada a progressão tumoral e/ou resistência, e tem um início tardio na progressão do câncer (por exemplo, uma mutação associada a metástase, uma mutação de resistência associada a droga); e um segundo conjunto de iscas seleciona (por exemplo, é complementar a) uma molécula de ácido nucleico (por exemplo, um intervalo subgenômico) que inclui uma alteração que está associada a progressão tumoral e/ou resistência e tem um início precoce na progressão do câncer (por exemplo, um APC ou uma mutação TP53 em câncer do cólon).
Em outra modalidade o conjunto de iscas é composto por pelo menos dois, ou todos, os seguintes: um primeiro conjunto de iscas tendo um primeiro padrão de cobertura para um primeiro intervalo subgenômico; um segundo conjunto de iscas tendo um segundo padrão de cobertura para um segundo intervalo subgenômico; e (opcionalmente) um terceiro, quarto ou quinto conjunto de iscas tendo um terceiro padrão de cobertura para um terceiro intervalo subgenômico.
Em uma modalidade, o primeiro intervalo subgenômico é escolhido a partir de uma ou mais de uma sequência de nucleotídeos em um primeiro gene, éxon, íntron, região intergênica, ou região tendo um SNP pré-selecionado conforme descrito aqui.
Em uma modalidade, o segundo intervalo subgenômico é escolhido a partir de uma ou mais de uma sequência de nucleotídeos em um primeiro gene, éxon, íntron, região intergênica, ou região tendo um SNP pré-selecionado conforme descrito aqui.
Em uma modalidade, o terceiro intervalo subgenômico é escolhido a partir de uma ou mais de uma sequência de nucleotídeos em um primeiro gene, éxon, íntron, região intergênica, ou região tendo um SNP pré-selecionado conforme descrito aqui.
Em uma modalidade, o quarto intervalo subgenômico é escolhido a partir de uma ou mais de uma sequência de nucleotídeos em um primeiro gene, éxon, íntron, região intergênica, ou região tendo um SNP pré-selecionado conforme descrito aqui.
Em uma modalidade, o quinto intervalo subgenômico é escolhido a partir de uma ou mais de uma sequência de nucleotídeos em um primeiro gene, éxon, íntron, região intergênica, ou região tendo um SNP pré-selecionado conforme descrito aqui.
Em uma modalidade, o primeiro, segundo e terceiro intervalos subgenômicos estão presentes em diferentes genes ou produtos de genes.
Em uma modalidade, pelo menos dois do primeiro, segundo e terceiro intervalos subgenômicos estão presentes em diferentes genes ou produtos de genes.
Em uma modalidade, o primeiro, segundo e terceiro intervalos subgenômicos estão presentes em diferentes genes ou produtos de genes.
Em determinadas modalidades, o primeiro, segundo e terceiro padrões de cobertura são os mesmos.
Em outras modalidades, pelo menos um ou mais de ditos padrões de cobertura são diferentes.
Em outras modalidades, pelo menos um ou mais dos ditos padrões de cobertura são diferentes. Ainda em outras modalidades, o primeiro, segundo e terceiro padrões de cobertura são diferentes. Em outra modalidade a pluralidade de iscas compreende pelo menos dois, ou todos, os seguintes: uma primeira pluralidade de iscas tendo um primeiro nível de saliência (positivo ou negativo) em relação a um primeiro intervalo subgenômico;uma segunda pluralidade de iscas tendo um segundo nível de saliência (positivo ou negativo) em relação a um segundo intervalo subgenômico;uma terceira pluralidade de iscas tendo um terceiro nível de saliência (positivo ou negativo) em relação a um terceiro intervalo subgenômico; e(opcionalmente) uma quarta ou quinta pluralidade de iscas, tendo um segundo nível de saliência (positivo ou negativo) em relação a um terceiro intervalo subgenômico, em que pelo menos uma pluralidade dos ditos níveis é diferente.
Em uma modalidade, o primeiro, segundo, terceiro, quarto ou quinto intervalo subgenômico é escolhido a partir de uma ou mais de uma sequência de nucleotídeos em um primeiro gene, éxon, íntron, região intergênica, ou região tendo um SNP pré-selecionado conforme descrito aqui.
Em outro aspecto, a invenção apresenta um método para fornecer um conjunto de iscas modificado. O método inclui a modificação de uma sequência de iscas e/ou comprimento para reduzir uma estrutura secundária.
Em uma modalidade, a estrutura secundária é formada na extremidade 5’ da sequência de iscas. Em outra modalidade, a estrutura secundária é formada no meio da sequência de iscas. Ainda em outra modalidade, a estrutura secundária é formada na extremidade 3’ da sequência de iscas.
Em uma modalidade, o método inclui a etapa de substituição de um nucleotídeo com um nucleotídeo diferente que resulta em formação reduzida de uma estrutura secundária. Em uma modalidade, a isca modificada (ou a pluralidade de iscas) é usada para capturar regiões de alto conteúdo GC. Em uma modalidade, a isca modificada (ou a pluralidade de iscas) inclui uma substituição de um ou mais nucleotídeos com um nucleotídeo natural diferente (por exemplo, A, C, G, U ou T). Em outra modalidade, a isca modificada (ou a pluralidade de iscas) inclui uma substituição de um ou mais nucleotídeos com um análogo de nucleotídeo natural (por exemplo, isonina ou desoxinosina). Em uma modalidade, o conjunto de iscas é modificado como mostrado por uma sequência exemplar na Tabela 8.
Em outra modalidade, o método compreende um ou mais de: ajustar a relação (por exemplo, a molaridade) de qualquer uma das iscas ou pluralidade de iscas aqui descritas (por exemplo, uma primeira, segunda ou terceira isca, ou pluralidade de iscas); fornecer um tampão de hibridização otimizado.
Em outro aspecto, a invenção apresenta um conjunto de iscas (por exemplo, um conjunto de iscas definido conforme descrito aqui).
Em uma modalidade, a isca ou coleção de iscas é/inclui um, um subconjunto de, ou todos, o primeiro, segundo, terceiro, quarto, quinto, conjuntos de iscas tumorais ou de controle conforme descrito aqui. Em outras modalidades, o conjunto de iscas é/inclui um, um subconjunto de, ou todos os conjuntos de iscas de captura da mutação, referência ou controle, conforme descrito aqui.
Em algumas modalidades, o conjunto de iscas seleciona um gene ou produto gênico ou um intervalo subgenômico dos mesmos, como descrito aqui, e é associado, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno conforme descrito aqui.
Em determinadas modalidades, o conjunto de iscas seleciona uma sequência de nucleotídeos tipo selvagem ou não mutada.
Em outras modalidades, o conjunto de iscas conforme descrito aqui seleciona um ácido nucleico usado para um ou mais de: fingerprinting do membro ácido nucleico alvo na biblioteca; quantificar a abundância de um membro ácido nucleico alvo na biblioteca; identificar o membro ácido nucleico alvo do paciente na biblioteca, determinar a ploidia em uma amostra da qual a biblioteca é derivada; determinar a perda de heterozigosidade em uma amostra da qual a biblioteca é derivada; determinar a duplicação de genes em uma amostra da qual a biblioteca é derivada; determinar a amplificação do gene em uma amostra da qual a biblioteca é derivada; ou determinar a mistura celular tumoral/normal em uma amostra da qual a biblioteca é derivada. Ditas iscas são referenciadas aqui como “iscas de controle”. Em uma modalidade, a isca de controle (ou a pluralidade de iscas de controle) é complementar a uma molécula de ácido nucleico que inclui um SNP (por exemplo, um SNP conforme descrito aqui).
Ainda em outra modalidade, qualquer um dos conjuntos de iscas aqui descritos é modificado para reduzir a formação de uma estrutura secundária (por exemplo, por substituição de um nucleotídeo com um nucleotídeo diferente que resulta na formação reduzida de uma estrutura secundária). Em uma modalidade, a isca modificada (ou a pluralidade de iscas) é usada para capturar regiões de alto conteúdo GC. Em uma modalidade, a isca modificada (ou a pluralidade de iscas) inclui uma substituição de um ou mais nucleotídeos com um nucleotídeo natural diferente (por exemplo, A, C, G, U ou T). Em outra modalidade, a isca modificada (ou a pluralidade de iscas) inclui uma substituição de um ou mais nucleotídeos com um análogo de nucleotídeo não natural (por exemplo, isonina ou desoxinosina). Em uma modalidade, o conjunto de iscas é modificado como mostrado por uma sequência exemplar na Tabela 8.
Modalidades adicionais ou características da presente invenção são as seguintes:
Em outro aspecto, a invenção apresenta um método para produzir o dito conjunto de iscas. O método inclui selecionar uma ou mais sequências de olinucleotídeos de iscas específicas alvo (por exemplo, qualquer uma das sequências de iscas correspondentes aos intervalos subgenômicos do gene ou produtos do gene como descrito aqui); obter um conjunto de sequências de oligonucleotídeos de iscas específicas alvo (por exemplo, síntese de um conjunto de sequências de oligonucleotídeos de iscas específicas alvo, por exemplo, pela síntese de microarranjo); e, opcionalmente, amplificar os oligonucleotídeos para produzir os conjuntos de iscas.
Ainda em outro aspecto, a invenção apresenta um método para determinar a presença ou ausência de uma alteração associada, por exemplo, positivamente ou negativamente, com um fenótipo cancerígeno (por exemplo, pelo menos, 10, 20, 30, 50 ou mais das alterações nos genes ou produtos de genes descritos aqui) em uma amostra de ácido nucleico. O método inclui contatar os ácidos nucleicos na amostra com a seleção baseada em solução de acordo com qualquer um dos métodos e iscas descritos aqui para obter uma captura de ácido nucleico; e sequenciar (por exemplo, por sequenciamento de geração seguinte) todos ou um subconjunto da captura de ácido nucleico, determinando, assim, a presença ou ausência da alteração nos genes ou produtos de genes descritos aqui).
Em determinadas modalidades, o conjunto de iscas inclui um oligonucleotídeo (ou uma pluralidade de oligonucleotídeos) entre cerca de 100 nucleotídeos e 300 nucleotídeos em comprimento. Tipicamente, o conjunto de iscas inclui um oligonucleotídeo (ou uma pluralidade de oligonucleotídeos) entre cerca de 130 nucleotídeos e 230 nucleotídeos, ou cerca de 150 e 200 nucleotídeos de comprimento. Em outras modalidades, o conjunto de iscas inclui um oligonucleotídeo (ou uma pluralidade de oligonucleotídeos) entre cerca de 300 nucleotídeos e 1000 nucleotídeos em comprimento.
Em algumas modalidades, as sequências específicas do membro alvo no oligonucleotídeo estão entre cerca de 40 a 1000 nucleotídeos, cerca de 70 e 300 nucleotídeos, cerca de 100 e 200 nucleotídeos de comprimento, tipicamente entre cerca de 120 e 170 nucleotídeos em comprimento.
Em algumas modalidades, o conjunto de iscas inclui uma entidade de ligação. A entidade de ligação pode ser uma tag de afinidade em cada sequência de iscas. Em algumas modalidades, a tag de afinidade é uma molécula de biotina ou um hapteno. Em determinadas modalidades, a entidade de ligação permite a separação dos híbridos isca/membro da mistura de hibridização através da ligação a um parceiro, como uma molécula de avidina ou um anticorpo que se liga ao hapteno ou um dito fragmento de ligação ao antígeno.
Em outras modalidades, os oligonucleotídeos no conjunto de iscas contêm sequências complementadas diretas e reversas para a mesma sequência de membro alvo através do qual os oligonucleotídeos com sequências específicos do membro complementadas reversas também contêm caudas universais complementadas reversas. Isso pode levar a transcritos de RNA que são da mesma fita, ou seja, não complementares uns aos outros.
Em outras modalidades, o conjunto de iscas inclui oligonucleotídeos que contêm bases degeneradas ou misturadas em uma ou mais posições. Ainda em outras modalidades, o conjunto de iscas inclui múltiplos ou substancialmente todas as variantes de sequência conhecidas presentes em uma população de uma única espécie ou comunidade de organismos. Em uma modalidade, o conjunto de iscas inclui múltiplas ou substancialmente todas as variantes de sequência conhecidas presentes em uma população humana.
Em outras modalidades, o conjunto de iscas inclui sequências de cDNA ou derivados de sequências de cDNAs. Em uma modalidade, o cDNA é preparado a partir de uma sequência de RNA, por exemplo, um RNA derivado de célula tumoral ou cancerígena, por exemplo, um RNA obtido a partir de uma amostra FFPE de tumor. Em outras modalidades, o conjunto de iscas inclui produtos de amplificação (por exemplo, os produtos de PCR) que são amplificados a partir de DNA genômico, cDNA ou DNA clonado.
Em outras modalidades, o conjunto de iscas inclui moléculas de RNA. Em algumas modalidades, o conjunto inclui moléculas de RNA modificadas quimicamente, enzimaticamente, ou transcritas in vitro, incluindo, entre outras, aqueles que são mais estáveis e resistentes à RNase.
Ainda em outras modalidades, as iscas são produzidas por métodos descritos em US 2010/0029498 e Gnirke, A. et al. (2009) Nat Biotechnol. 27(2):182-189, incorporados aqui como referência. Por exemplo, iscas de RNA biotiniladas podem ser produzidas através da obtenção de um conjunto de oligonucleotídeos longos sintéticos, originalmente sintetizados em um microarranjo e amplificando os oligonucleotídeos para produzir as sequências de iscas. Em algumas modalidades, as iscas são produzidas adicionando uma sequência promotora de RNA polimerase em uma extremidade das sequências de iscas, e sintetizando sequências de RNA usando RNA polimerase. Em uma modalidade, bibliotecas de oligodesoxinucleotídeos sintéticos podem ser obtidas a partir de fornecedores comerciais, como a Agilent Technologies, Inc., e amplificadas usando métodos de amplificação do ácido nucleico conhecidos.
Assim, um método para preparar o conjunto de iscas mencionado é fornecido. O método inclui selecionar a partir de uma ou mais sequências de oligonucleotídeos de iscas específicas alvos (por exemplo, uma ou mais das sequências de oligonucleotídeos de controle ou referência como descrito aqui); obtenção de um conjunto de sequências de oligonucleotídeos de iscas específicas alvos (por exemplo, sintetizar o conjunto de sequências de oligonucleotídeos de iscas específicas alvo, por exemplo, pela síntese de microarranjo); e, opcionalmente, amplificar os oligonucleotídeos para produzir os conjuntos de iscas.
Em outras modalidades, os métodos adicionais incluem amplificar (por exemplo, por PCR) os oligonucleotídeos usando um ou mais iniciadores biotinilados. Em algumas modalidades, os oligonucleotídeos incluem uma sequência universal na extremidade de cada oligonucleotídeo ligado ao microarranjo. Os métodos podem ainda incluir remover as sequências universais dos oligonucleotídeos. Ditos métodos também podem incluir remover a fita complementar dos oligonucleotídeos, anelar os oligonucleotídeos e estender os oligonucleotídeos. Em algumas destas modalidades, os métodos para amplificar (por exemplo, por PCR) os oligonucleotídeos usam um ou mais iniciadores biotinilados. Em algumas modalidades, o método ainda inclui seleção por tamanho dos oligonucleotídeos amplificados.
Em uma modalidade, um conjunto de iscas de RNA é preparado. Os métodos incluem produzir um conjunto de sequências de iscas de acordo com os métodos descritos aqui, adicionar uma sequência promotora de RNA polimerase em uma extremidade das sequências de isca e sintetizar as sequências de RNA usando RNA polimerase. A RNA polimerase pode ser escolhida a partir de uma T7 RNA polimerase, uma SP6 RNA polimerase ou uma T3 RNA polimerase. Em outras modalidades, a sequência promotora da RNA polimerase é adicionada nas extremidades das sequências de isca através de amplificação (por exemplo, por PCR) das sequências de isca. Nas modalidades onde as sequências de isca são amplificadas por PCR com pares de iniciadores específicos de genômica ou cDNA, adicionar uma sequência promotora de RNA à extremidade 5’ de um cada um dos dois iniciadores específicos em cada par conduzirá a um produto de PCR que pode ser transcrito em uma isca de RNA usando métodos padrão.
Em outras modalidades, conjuntos de isca podem ser produzidos usando DNA humano ou amostras de DNA humanas agrupadas como o molde. Em ditas modalidades, os oligonucleotídeos são amplificados pela reação em cadeia da polimerase (PCR). Em outras modalidades, os oligonucleotídeos amplificados são novamente amplificados por amplificação de círculo rolante ou hiperamplificação de círculo rolante. Os mesmos métodos também podem ser usados para produzir sequências de isca usando DNA humano ou conjunto de amostras de DNA humanas, como o molde. Os mesmos métodos também podem ser usados para produzir sequências de isca usando subfrações de um genoma obtido por outros métodos, incluindo, entre outros, digestão por restrição, eletroforese em gel de campo pulsado, ordenação por fluxo, centrifugação em gradiente de densidade de CsCl, reassociação cinética seletiva, microdissecção de preparações de cromossomos e outros métodos de fracionamento conhecidos pelos especialistas na técnica.
Em determinadas modalidades, o número de iscas no conjunto de iscas é menor que 1.000, por exemplo, 2, 3, 4, 5, 10, 50, 100, 500 iscas. Em outras modalidades, o número de iscas no conjunto de iscas é maior do que a 1.000, maior do que a 5.000, maior do que a 10.000, maior do que a 20.000, maior do que a 50.000, maior do que a 100.000, ou maior do que a 500.000.
Em determinadas modalidades, uma biblioteca (por exemplo, uma biblioteca de ácido nucleico) inclui uma coleção de membros. Conforme descrito aqui, os membros da biblioteca podem incluir um membro alvo (por exemplo, um membro tumoral, um membro de referência e/ou um membro de controle; também referenciado aqui como um primeiro, segundo e/ou terceiro membro, respectivamente). Os membros da biblioteca podem ser de um único indivíduo. Nas modalidades uma biblioteca pode compreender membros de mais de um sujeito (por exemplo, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30 ou mais sujeitos), por exemplo, duas ou mais bibliotecas de diferentes sujeitos podem ser combinadas para formar uma biblioteca tendo membros de mais de um sujeito. Em uma modalidade, o sujeito é um humano com, ou em risco de ter, um câncer ou um tumor.“Membro” ou “membro da biblioteca” ou outro termo semelhante, como usado aqui, refere-se a uma molécula de ácido nucleico, por exemplo, DNA ou RNA, que é um membro de uma biblioteca. Tipicamente, um membro é uma molécula de DNA, por exemplo, DNA genômico ou cDNA. Um membro pode ser DNA genômico distorcido. Em outras modalidades, o membro pode ser um cDNA. Em outras modalidades, o membro pode ser um RNA. Membros compreendem sequência de um sujeito e também podem compreender uma sequência não derivada do sujeito, por exemplo, iniciadores ou sequências que permitem identificação, por exemplo, sequências “código de barras”.
Ainda em outras modalidades, os métodos apresentados na invenção ainda incluem isolar uma amostra de ácido nucleico para fornecer uma biblioteca (por exemplo, um ácido nucleico conforme descrito aqui). Em determinadas modalidades, a amostra de ácido nucleico inclui genoma completo, fragmentos subgenômicos, ou ambos. Protocolos para isolar e preparar as bibliotecas a partir de genoma completo ou fragmentos subgenômicos são conhecidos na técnica (por exemplo, kit de preparação de amostras de DNA genômico Illumina). Em determinadas modalidades, o fragmento de DNA genômico ou subgenômico é isolado da amostra de um sujeito (por exemplo, uma amostra tumoral, um tecido adjacente normal (NAT), uma amostra sanguínea ou qualquer controle normal). Em uma modalidade, a amostra (por exemplo, a amostra tumoral ou NAT) é uma conservada. Por exemplo, a amostra é incorporada em uma matriz, por exemplo, um bloco FFPE ou uma amostra congelada. Em determinadas modalidades, a etapa de isolamento inclui ordenação por fluxo dos cromossomos individuais; e/ou microdissecção da amostra de um sujeito (por exemplo, uma amostra tumoral, uma NAT, uma amostra de sangue). Em determinadas modalidades, a amostra de ácido nucleico, usada para gerar a biblioteca de ácido nucleico tem menos de 5, menos de 1 micrograma, ou menos de 500ng (por exemplo, 200 ng ou menos).
Ainda em outras modalidades, a amostra de ácido nucleico usada para gerar a biblioteca inclui RNA ou cDNA derivados de RNA. Em algumas modalidades, o RNA inclui RNA celular total. Em outras modalidades, determinadas sequências de RNA abundantes (por exemplo, RNAs ribossomais) foram depletados. Em algumas modalidades, a fração do mRNA poli(A) caudado na preparação do RNA total foi enriquecida. Em algumas modalidades, o cDNA é produzido por métodos de síntese de cDNA com iniciadores aleatórios. Em outras modalidades, a síntese de cDNA é iniciada na cauda poli(A) de mRNAs maduros por iniciação por oligonucleotídeos contendo oligo(dT). Métodos para depleção, enriquecimento de poli(A) e síntese do cDNA, são bem conhecidos pelos especialistas na técnica.
O método pode ainda incluir amplificação da amostra de ácido nucleico pelos métodos de amplificação específica ou não específica de ácidos nucleicos que são conhecidos pelos especialistas na técnica.
Em algumas modalidades, determinadas modalidades, a amostra de ácido nucleico é amplificada, por exemplo, pelos métodos de amplificação do genoma completo como amplificação de e deslocamento de fita com iniciadores aleatórios.
Em outras modalidades, a amostra de ácido nucleico é fragmentada ou distorcida por métodos físicos ou enzimáticos e ligada aos adaptadores sintéticos, selecionada por tamanho (por exemplo, por eletroforese em gel preparativo) e amplificada (por exemplo, por PCR). Em outras modalidades, o grupo fragmentado e ligado ao adaptador de ácidos nucleicos é usado sem a seleção explícita por tamanho ou amplificação antes da seleção de híbrido.
Em outras modalidades, o DNA isolado (por exemplo, o DNA genômico) é fragmentado ou distorcido. Em algumas modalidades, a biblioteca inclui menos de 50% do DNA genômico, como uma subfração de DNA genômico que é uma representação reduzida ou uma porção definida de um genoma, por exemplo, que foi subfracionado por outros meios. Em outras modalidades, a biblioteca inclui todo ou substancialmente todo DNA genômico.
Em determinadas modalidades, os membros da biblioteca incluem um intervalo subgenômico que inclui uma região intragênica ou uma região intergênica. Em outra modalidade, o intervalo subgenômico inclui um éxon ou um íntron, ou um fragmento dos mesmos, tipicamente uma sequência de éxon ou um fragmento do mesmo. Em uma modalidade, o intervalo subgenômico inclui uma região codificante ou uma região não-codificante, por exemplo, um promotor, um potencializador, uma região 5’ não traduzida (5’ UTR), ou uma região 3’ não traduzida (3’ UTR) ou um fragmento das mesmas. Em outras modalidades, o intervalo subgenômico inclui um cDNA ou um fragmento do mesmo (por exemplo, cDNA obtido a partir de um RNA tumoral (por exemplo, RNA extraído de uma amostra de tumor, por exemplo, amostra de tumor em FFPE). Em outras modalidades, o intervalo subgenômico inclui um SNP, por exemplo, conforme descrito aqui. Em outras modalidades, os membros alvo incluem substancialmente todos os éxons em um genoma. Em outras modalidades, os membros alvo incluem um intervalo subgenômico conforme descrito aqui, por exemplo, intervalos subgenômico, por exemplo, éxons de genes selecionados ou produtos de genes de interesse (por exemplo, os genes ou produtos de genes associados a um fenótipo cancerígeno, conforme descrito aqui).
Em uma modalidade, o intervalo subgenômico inclui uma mutação somática, uma mutação germinativa ou ambas. Em uma modalidade, o intervalo subgenômico inclui uma alteração, por exemplo, uma mutação pontual ou única, uma mutação por deleção (por exemplo, uma deleção em fase, uma deleção intragênica, uma deleção do gene completo), uma mutação por inserção (por exemplo, inserção intragênica), uma mutação por inversão (por exemplo, uma inversão intracromossômica), uma mutação de ligação, uma mutação de inserção ligada, uma mutação de duplicação invertida, uma duplicação em tandem (por exemplo, uma duplicação em tandem intracromossômica), uma translocação (por exemplo, uma translocação cromossômica, uma translocação não recíproca), um rearranjo (por exemplo, um rearranjo genômico), uma mudança no número de cópias do gene ou uma combinação dos mesmos. Em determinadas modalidades, o intervalo subgenômico constitui menos de 5, 1, 0,5, 0,1%, 0,01%, 0,001% da região codificante do genoma das células tumorais em uma amostra. Em outras modalidades, os intervalos subgenômicos não estão envolvidos em uma doença, por exemplo, não estão associados com um fenótipo cancerígeno, conforme descrito aqui.
Os métodos apresentados na invenção incluem a etapa de contatar a biblioteca (por exemplo, a biblioteca de ácido nucleico) com uma pluralidade de iscas para fornecer um subgrupo selecionado de ácidos nucleicos, por exemplo, captura de biblioteca. Em uma modalidade, a etapa de contato é realizada em um suporte sólido, por exemplo, uma matriz. Suportes sólidos apropriados para a hibridização são descritos em, por exemplo, Albert, T.J. et al. (2007) Nat. Methods 4 (11):903-5; Hodges, E. et al. (2007) Nat. Genet. 39 (12):1522-7; OKou, D.T. et al. (2007) Nat. Methods 4(11):907-9, os conteúdos dos quais estão incorporados aqui como referência. Em outras modalidades, a etapa de contato é realizada em hibridização de solução. Em determinadas modalidades, o método inclui repetição da etapa de hibridização por uma ou mais rodadas adicionais de hibridização. Em algumas modalidades, os métodos ainda incluem submeter a captura de biblioteca a uma ou mais rodadas adicionais de hibridização com coleções de iscas iguais ou diferentes.
Em outras modalidades, os métodos apresentados na invenção ainda incluem amplificação da captura de biblioteca (por exemplo, por PCR). Em outras modalidades, a captura de biblioteca não está amplificada.
Ainda em outras modalidades, os métodos ainda incluem análise da captura de biblioteca. Em uma modalidade, a captura de biblioteca é analisada por um método de sequenciamento, por exemplo, um método de sequenciamento da geração seguinte como descrito aqui. Os métodos incluem isolar uma captura de biblioteca por hibridização de solução e submeter a captura de biblioteca ao sequenciamento de ácidos nucleicos. Em determinadas modalidades, a captura de biblioteca pode ser sequenciada novamente. Métodos de sequenciamento da geração seguinte são conhecidos na técnica e são descritos, por exemplo, em Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46.
Ainda em outras modalidades, os métodos ainda incluem a etapa de submeter a captura de biblioteca a genotipagem, desse modo, identificando o genótipo dos ácidos nucleicos selecionados.
Em determinadas modalidades, o método ainda inclui um ou mais de:i) fingerprinting da amostra de ácido nucleico;ii) quantificar a abundância de um gene ou produto do gene (por exemplo, um gene ou produtodo gene como descrito aqui) na amostra de ácido nucleico (por exemplo, quantificar a abundância relativa de um transcrito na amostra);iii) identificar a amostra de ácido nucleico como pertencente a um sujeito particular (por exemplo, um controle normal ou um paciente com câncer);iv) identificar um traço genético na amostra de ácido nucleico (por exemplo, uma ou maiscaracterísticas genéticas do sujeito (por exemplo, etnia, raça, traços familiares));v) determinar a ploidia na amostra de ácido nucleico; determinar uma perda de heterozigosidade na amostra de ácidos nucleicos;vi) determinar a presença ou ausência de um evento de duplicação do gene na amostra de ácidonucleico;vii) determinar a presença ou ausência de um evento de amplificação do gene na amostra deácido nucleico; ouviii) determinar o nível de mistura celular tumoral/normal da amostra de ácido nucleico.
Qualquer um dos métodos descritos aqui pode ser combinado com uma ou mais das modalidades abaixo.
Em uma modalidade, o método compreende aquisição de uma leitura de sequência de nucleotídeos obtida a partir de uma amostra de ácido nucleico tumoral e/ou de controle (por exemplo, uma amostra de ácido nucleico derivada de FFPE).
Em uma modalidade, as leituras são fornecidas por um método de sequenciamento da geração seguinte.
Em uma modalidade, o método inclui fornecer uma biblioteca de membros de ácido nucleico e sequenciar um intervalo subgenômico pré-selecionado de uma pluralidade de membros da dita biblioteca. Nas modalidades, o método pode incluir uma etapa de seleção de um subconjunto de dita biblioteca para sequenciar, por exemplo, uma seleção baseada em solução.
Em determinadas modalidades, um método compreende métodos de captura híbrida, que são projetados para capturar duas ou mais categorias de alvos diferentes, cada um com uma estratégia de desenho de isca diferente. Os métodos de captura híbrida e composições destinam-se a capturar um subconjunto definido de sequências alvo (por exemplo, membros alvo) e fornecer uma cobertura homogênea da sequência alvo, minimizando a cobertura fora deste subconjunto. Em uma modalidade, as sequências alvo incluem o exome inteiro fora do DNA genômico, ou um subconjunto selecionado das mesmas. Os métodos e composições divulgados aqui fornecem conjuntos de iscas diferentes para obter diferentes profundidades e padrões de cobertura para sequências complexas de ácidos nucleicos alvo (por exemplo, bibliotecas).
Em determinada modalidade, as diferentes categorias de conjuntos de iscas e alvos são como a seguir.A. Um primeiro conjunto de iscas que seleciona um alvo de alto nível (por exemplo, um ou mais membros tumorais e/ou membros de referência, como genes, éxons ou bases) para o qual a cobertura mais profunda é necessária para permitir um alto nível de sensibilidade para mutações que aparecem em baixas frequências. Por exemplo, detecção de mutações pontuais que aparecem com uma frequência de cerca de 5% ou menos (ou seja, 5% das células das quais a amostra foi preparada abrigam esta mutação em seus genomas). O primeiro conjunto de iscas tipicamente requer cerca de 500X ou maior profundidade de sequenciamento para garantir confiabilidade elevada da detecção. Em uma modalidade, o primeiro conjunto de iscas seleciona um ou mais intervalos subgenômicos (por exemplo, éxons) que são frequentemente mutados em certos tipos de câncer, por exemplo, um gene de Câncer de Prioridade 1 ou produto do gene de acordo com a Tabela 1 ou 1A.B. Um segundo conjunto de iscas que seleciona um alvo de nível médio (por exemplo, um ou mais membros tumorais ou membros de referência, como genes, éxons ou bases) para o qual a cobertura elevada é necessária para permitir o alto nível de sensibilidade para mutações que aparecem em uma frequência maior do que o alvo de alto nível, por exemplo, uma frequência de cerca de 10%. Por exemplo, a detecção de uma alteração (por exemplo, uma mutação pontual) que aparece em uma frequência de 10% requer cerca de 200X ou maior profundidade de sequenciamento para garantir confiabilidade elevada da detecção. Em uma modalidade, o segundo conjunto de iscas seleciona um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos a partir de genes cancerígenos ou produtos de genes, de acordo com a Tabela 1 ou 1A.C. Um terceiro conjunto de iscas que seleciona um alvo de baixo nível (por exemplo, um ou mais membros PGx, como genes, éxons ou bases) para o qual cobertura baixa e média é necessária para permitir o alto nível de sensibilidade, por exemplo, para detectar alelos heterozigotos. Por exemplo, a detecção de alelos heterozigotos requer profundidade de sequenciamento de 10-100X para garantir confiabilidade elevada de detecção. Em uma modalidade, o terceiro conjunto de iscas seleciona um ou mais intervalos subgenômicos (por exemplo, éxons) que são escolhidos de: a) SNPs farmacogenômicos que podem explicar a capacidade de o paciente em metabolizar drogas diferentes, b) SNPs genômicos que podem ser usados para identificar exclusivamente (fingerprint) um paciente, c) SNPs/loci genômicos que podem ser utilizados para avaliar números de cópias de ganhos/perdas de DNA genômico e perda de heterozigosidade (LOH).D. Um quarto conjunto de iscas que seleciona um alvo íntron (por exemplo, um membro do íntron) para o qual coberturas baixa e média são necessárias para detectar pontos de interrupção estruturais como translocações genômicas ou indel. Por exemplo, a detecção de um ponto de interrupção intrônica requer profundidade abrangendo 5-50X pares de sequência para garantir confiabilidade alta da detecção. Dito quarto conjunto de iscas pode ser usado para detectar, por exemplo, genes cancerígenos propensos a translocação/indel.E. Um quinto conjunto de iscas que seleciona um alvo íntron (por exemplo, um membro do íntron) para o qual cobertura esparsa é necessária para melhorar a capacidade de detectar alterações de números de cópia. Por exemplo, a detecção de uma 1 deleção de cópia de vários éxons terminais requer cobertura de 0,1-10X para garantir a confiabilidade elevada da detecção. Dito quinto conjunto de iscas pode ser usado para detectar, por exemplo, genes cancerígenos propensos a amplificação/deleção.
Os métodos e as composições apresentados na invenção envolvem ajuste da cobertura de sequência relativa de cada categoria de conjunto de iscas/alvo. Métodos para implementar diferenças na cobertura de sequência relativa no desenho de isca incluem um ou mais de:(i) Representação diferencial de conjuntos de iscas diferentes - O desenho do conjunto de iscas para capturar um determinado alvo (por exemplo, um membro alvo) pode ser incluído em maior/menor número de cópias para aumentar/reduzir a profundidade de coberturas relativas alvo;(ii) Sobreposição diferencial dos subconjuntos de iscas - O desenho do conjunto de iscas para capturar um determinado alvo (por exemplo, um membro alvo) pode incluir uma maior ou menor sobreposição entre iscas vizinhas para aumentar/reduzir a profundidade de coberturas relativas alvo;(iii) Parâmetros diferenciais de isca - O desenho do conjunto de iscas para capturar um determinado alvo (por exemplo, um membro alvo) pode incluir modificações/menor comprimento de sequências para reduzir a eficiência de captura e diminuir as profundidades de cobertura relativas alvo;(iv) Mistura de conjuntos de iscas diferentes - Conjuntos de isca que são projetados para capturar os conjuntos alvos diferentes podem ser misturados em diferentes proporções molares para aumentar/reduzir a profundidades de coberturas relativas alvo;(v) Uso de diferentes tipos de conjunto de iscas de oligonucleotídeos - Em determinadas modalidades, o conjunto de iscas pode incluir:(a) uma ou mais iscas quimicamente (por exemplo, não enzimaticamente) sintetizadas (por exemplo, individualmente sintetizadas),(b) uma ou mais iscas sintetizadas em um arranjo,(c) uma ou mais iscas enzimaticamente preparadas, por exemplo, transcritas in vitro;(d) qualquer combinação de (a), (b) e/ou (c),(e) um ou mais oligonucleotídeos de DNA (por exemplo, um oligonucleotídeo de DNA de ocorrência natural ou não natural),(f) um ou mais oligonucleotídeos de RNA (por exemplo, um oligonucleotídeo de RNA ocorrência natural ou não natural),(g) uma combinação de (e) e (f), ou(h) uma combinação de qualquer um dos acima.
As combinações diferentes de oligonucleotídeos podem ser misturadas em diferentes relações, por exemplo, uma proporção escolhida de 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100, 1:1000 ou semelhantes. Em uma modalidade, a relação de isca quimicamente sintetizada para isca gerada em arranjo é escolhida de 1:5, 1:10, ou 1:20. Os oligonucleotídeos de DNA ou RNA podem ser de ocorrência natural ou não natural. Em determinadas modalidades, as iscas incluem um ou mais nucleotídeos que de ocorrência natural para, por exemplo, aumentar a temperatura de fusão. Oligonucleotídeos exemplares de ocorrência não natural incluem nucleotídeos de DNA ou RNA modificados. Um nucleotídeo de RNA modificado exemplar é um ácido nucleico bloqueado (LNA), em que a fração ribose de um nucleotídeo LNA é modificada com uma ponte extra que liga o 2’ oxigênio e 4’ carbono (Kaur, H; Arora, A; Wengel, J; Maiti, S; Arora, A.; Wengel, J.; Maiti, S. (2006). “Thermodynamic, Counterion, and Hydration Effects for the Incorporation of Locked Nucleic Acid Nucleotides into DNA Duplexes”. Biochemistry 45 (23): 7347-55). Outros nucleotídeos exemplares de DNA e RNA modificados incluem, entre outros, ácido nucleico peptídico (PNA) composto de unidades repetidas de N-(2-aminoetil)-glicina ligadas por ligações peptídicas (Egholm, M. et al (1993) Nature 365 (6446): 566-8); um oligonucleotídeo de DNA ou RNA modificado para capturar regiões de baixo conteúdo de GC; ácidos nucleicos bicíclicos (BNA) ou um oligonucleotídeo de ligação cruzada; uma 5-metil desoxicitidina ; e 2,6-diaminopurina. Outros nucleotídeos modificados de DNA e RNA são conhecidos na técnica.
Em determinadas modalidades, é obtida uma cobertura substancialmente uniforme ou homogênea de uma sequência alvo (por exemplo, um membro alvo). Por exemplo, dentro de cada categoria de conjunto de iscas/alvo, a uniformidade de cobertura pode ser otimizada, modificando parâmetros da isca, por exemplo, por um ou mais de:(i) Aumento/diminuição da representação da isca ou sobreposição podem ser usados para aumentar/reduzir a cobertura dos alvos (por exemplo, membros alvo) que estão sob/sobrecobertos em relação a outros alvos na mesma categoria;(j) ) Para a baixa cobertura, sequências alvo difíceis de capturar (por exemplo, sequências com alto conteúdo GC), expandir a região sendo alvo com os conjuntos de iscas para cobrir, por exemplo, sequências adjacentes (por exemplo, sequências adjacentes menos ricas em GC); (k) i) Modificar uma sequência de isca pode ser feito para reduzir a estrutura secundária da isca e aumentar sua eficiência de seleção;(l) ) Modificar um comprimento de isca pode ser usado para equalizar a cinética de hibridização de fusão de iscas diferentes dentro da mesma categoria. Comprimento de isca pode ser modificado diretamente (através da produção de iscas com diferentes comprimentos) ou indiretamente (através da produção de iscas de comprimento consistente e substituição das extremidades de isca com sequência arbitrária);(v) Modificar as iscas de orientação diferente para a mesma região do alvo (ou seja, fita direta e reversa) pode ter eficiências de ligação diferentes. O conjunto de iscas com qualquer orientação fornecendo a cobertura ideal para cada alvo pode ser selecionado;(w) ) Modificar a quantidade de uma entidade de ligação, por exemplo, uma tag de captura (por exemplo, biotina), presente em cada isca, pode afetar sua eficiência de ligação. Aumentar/diminuir o nível de tag das iscas, direcionando um alvo específico, pode ser usado para aumentar/reduzir a cobertura relativa do alvo;(x) i) Modificar o tipo do nucleotídeo usado para iscas diferentes pode ser alterado para afetar a afinidade de ligação ao alvo e aumentar/reduzir a cobertura relativa do alvo; ou(y) ii) Usar iscas de oligonucleotídeos modificados, por exemplo, tendo o pareamento de base mais estável, pode ser usado para equalizar a cinética de hibridização de fusão entre as zonas de baixo ou normal conteúdo em GC em relação ao alto conteúdo em GC.
Por exemplo, diferentes tipos de conjuntos de iscas de oligonucleotídeos podem ser usados.
Em uma modalidade, o valor para eficiência de seleção é modificado usando diferentes tipos de iscas de oligonucleotídeos para incluir regiões alvo pré-selecionadas. Por exemplo, um primeiro conjunto de iscas (por exemplo, um conjunto de iscas com base em arranjo composto por 10.000-50.000 iscas de RNA ou DNA) pode ser usado para cobrir uma área alvo grande (por exemplo, área alvo total 1-2MB). O primeiro conjunto de iscas pode ser spiked com um segundo conjunto de iscas (por exemplo, conjunto de iscas de RNA ou DNA sintetizado individualmente compreendendo menos do que 5.000 iscas) para cobrir uma região alvo pré-selecionada (por exemplo, intervalos subgenômicos selecionados de interesse, abrangendo, por exemplo, 250kb ou menos, de uma área alvo) e/ou regiões de estrutura secundária mais elevada, por exemplo, maior teor de GC. Intervalos subgenômicos de interesse selecionados podem corresponder a um ou mais dos genes ou produtos de genes descritos aqui ou um fragmento dos mesmos. O segundo conjunto de iscas pode incluir cerca de 2.000-5.000 iscas dependendo da sobreposição de iscas desejada. Ainda em outras modalidades, o segundo conjunto de iscas pode incluir iscas de oligonucleotídeos selecionadas (por exemplo, menos que 400, 200, 100, 50, 40, 30, 20, 10 iscas) espigadas no primeiro conjunto de iscas. O segundo conjunto de iscas pode ser misturado em qualquer relação de iscas de oligonucleotídeos individuais. Por exemplo, o segundo conjunto de iscas pode incluir iscas individuais presentes em uma relação equimolar de 1:1. Como alternativa, o segundo conjunto de iscas pode incluir as iscas individuais presentes em relação diferente (por exemplo, 1:5, 1:10, 1:20), por exemplo, para otimizar a captura de certos alvos (por exemplo, certos alvos podem ter um 5-10X da segunda isca em comparação com outros alvos).
Sequenciamento
A invenção também inclui métodos de sequenciamento de ácidos nucleicos. Nestes métodos, membros da biblioteca de ácido nucleico são isolados usando os métodos descritos aqui, por exemplo, usando a hibridização de solução, fornecendo uma captura de biblioteca. A captura de biblioteca ou um subgrupo da mesma podem ser sequenciados. Assim, os métodos apresentados na invenção ainda incluem análise da captura de biblioteca. Em uma modalidade, a captura de biblioteca é analisada por um método de sequenciamento, por exemplo, um método de sequenciamento da geração seguinte como descrito aqui. Os métodos incluem isolar uma captura de biblioteca por hibridização de solução e submeter a captura de biblioteca ao sequenciamento de ácidos nucleicos. Em determinadas modalidades, a captura de biblioteca pode ser sequenciada novamente.
Qualquer método de sequenciamento conhecido na técnica pode ser usado. Sequenciamento de ácidos nucleicos isolados por métodos de seleção é tipicamente efetuado utilizando o sequenciamento da geração seguinte (NGS). Sequenciamento da geração seguinte inclui qualquer método de sequenciamento que determina a sequência de nucleotídeos de moléculas de ácidos nucleicos individuais ou representantes expandidos por meio de clone para moléculas individuais de ácido nucleico de uma forma altamente paralela (por exemplo, mais de 105 moléculas são sequenciadas simultaneamente). Em uma modalidade, a abundância relativa das espécies de ácidos nucleicos na biblioteca pode ser estimada pela contagem do número relativo de ocorrências de suas sequências cognatas nos dados gerados pelo experimento de sequenciamento. Métodos de sequenciamento da geração seguinte são conhecidos na técnica e são descritos, por exemplo, em Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46, incorporado aqui como referência.
Em uma modalidade, o sequenciamento da geração seguinte permite a determinação da sequência de nucleotídeos de uma molécula de ácido nucleico individual (por exemplo, sistema HeliScope Gene Sequencing da Helicos BioSciences e sistema PacBio RS da Pacific Biosciences). Em outras modalidades, o método de sequenciamento determina a sequência de nucleotídeos de uma relação de representantes expandidos por meio de clone para moléculas de ácidos nucleicos individuais (por exemplo, sequenciador Solexa, Illumina Inc., San Diego, Calif; 454 Life Sciences (Branford, Conn.), e Ion Torrent), por exemplo, sequenciamento de leitura curta massivamente paralelo (por exemplo, o sequenciador Solexa, Illumina Inc., San Diego, Calif.), que gera mais bases de sequência por unidade de sequenciamento do que outros métodos de sequenciamento que geram menos leitura, porém maiores . Outros métodos ou máquinas para sequenciamento da geração seguinte incluem, entre outros, os sequenciadores fornecidos por 454 Life Sciences (Branford, Conn.), Applied Biosystems (Foster City, Calif.; sequenciador SOLiD), Helicos BioSciences Corporation (Cambridge, Mass.) e tecnologia de sequenciamento de nanogotículas em emulsão e microfluido (por exemplo, gotículas de GnuBio).
Plataformas para sequenciamento da geração seguinte incluem, entre outras, Genome Sequencer (GS) FLX System da Roche/454, Genome Analyzer (GA) da Illumina/Solexa, sistema Support Oligonucleotide Ligation Detection (SOLiD) da Life/APG, sistema G.007 da Polonator, sistema HeliScope Gene Sequencing da Helicos BioSciences e sistema PacBio RS da Pacific Biosciences.
Tecnologias NGS podem incluir uma ou mais das etapas, por exemplo, preparação do molde, sequenciamento e imagem e análise de dados.
Preparação do molde. Métodos para a preparação do molde podem incluir etapas como quebrar os ácidos nucleicos aleatoriamente (por exemplo, DNA ou cDNA genômico) em tamanhos menores e gerar moldes de sequenciamento (por exemplo, moldes de fragmento ou moldes de par de combinação). Os moldes espacialmente separados podem ser ligados ou imobilizados em uma superfície sólida ou suporte, permitindo que a enorme quantidade de reações de sequenciamento sejam realizadas simultaneamente. Tipos de moldes que podem ser usados para reações NGS incluem, por exemplo, moldes amplificados por meio de clone originários das moléculas de DNA simples e moldes de molécula de DNA simples.
Métodos para a preparação de moldes amplificados por meio de clone incluem, por exemplo, PCR em emulsão (emPCR) e amplificação em fase sólida.
EmPCR pode ser usado para preparar moldes para NGS. Tipicamente, uma biblioteca de fragmentos de ácidos nucleicos é gerada, e adaptadores contendo sítios primários universais são ligados às extremidades do fragmento. Os fragmentos são então desnaturados em cadeias simples e capturados pelos grânulos. Cada grânulo captura uma única molécula de ácido nucleico. Após amplificação e enriquecimento dos grânulos emPCR, uma grande quantidade de moldes pode ser ligada ou imobilizada em gel de poliacrilamida em uma lâmina de microscópio padrão (por exemplo, Polonator), quimicamente reticulado a uma superfície de vidro amino-revestida (por exemplo, Life/APG; Polonator), ou depositada em poços de PicoTiterPlate (PTP) individuais (por exemplo, Roche/454), onde a reação de NGS pode ser realizada.
Amplificação em fase sólida também pode ser usada para produzir moldes para NGS. Tipicamente, iniciadores diretos e reversos são covalentemente ligados a um suporte sólido. A densidade da superfície dos fragmentos amplificados é definida pela relação entre os iniciadores e os moldes no suporte. Amplificação em fase sólida pode produzir centenas de milhões de clusters de grupos de moldes espacialmente separados (por exemplo, Illumina/Solexa). As extremidades dos glusters de moldes podem ser hibridizadas aos iniciadores universais de sequenciamento para reações NGS.
Outros métodos para a preparação de moldes amplificados por meio de clone também incluem, por exemplo, amplificação de deslocamento múltiplo (MDA) (Lasken R. S. Curr Opin Microbiol. 2007; 10(5):510-6). MDA é uma técnica de amplificação de DNA não baseada em PCR. A reação envolve anelamento aleatório de iniciadores hexâmeros ao molde e síntese de DNA pela enzima de alta fidelidade, tipicamente Φ29 a uma temperatura constante. MDA pode gerar produtos de tamanhos grandes com menor frequência de erro.
Métodos de amplificação de molde como a PCR podem ser acoplados a plataformas NGS para direcionar ou enriquecer regiões específicas do genoma (por exemplo, éxons). Métodos de enriquecimento de molde exemplares incluem, por exemplo, tecnologia PCR microgotícula (Tewhey R. et al., Nature Biotech. 2009, 27:1025-1031), microarranjos de oligonucleotídeos customizados (por exemplo, microarranjos de oligonucleotídeos Roche/NimbleGen) e os métodos de hibridização baseados em solução (por exemplo, sondas de inversão molecular (MIPs) (Porreca G. J. et al., Nature Methods, 2007, 4:931-936; Krishnakumar S. et al., Proc. Natl. Acad. Sci. USA, 2008, 105:9296-9310; Turner E. H. et al., Nature Methods, 2009, 6:315316), e sequências de captura de RNA biotinilado (Gnirke A. et al., Nat. Biotechnol. 2009; 27(2):182-9).
Moldes de molécula simples são outro tipo de moldes que podem ser usados para reação NGS. Moldes de molécula simples separados espacialmente podem ser imobilizados sobre suportes sólidos por vários métodos. Em uma abordagem, moléculas de iniciadores individuais são covalentemente ligadas ao suporte sólido. Adaptadores são adicionados aos moldes e os moldes são então hibridizados aos iniciadores imobilizados. Em outra abordagem, moldes de molécula simples são covalentemente ligados ao suporte sólido através de anelamento dos iniciadores e extensão de fita simples, moldes de molécula simples de iniciadores imobilizados. Iniciadores universais são então hibridizados para aos moldes. Ainda em outra abordagem, moléculas únicas de polimerase são ligadas ao suporte sólido, ao quais os moldes ligados aos iniciadores estão ligados.
Sequenciamento e captura de imagem. Métodos de sequenciamento e captura de imagem exemplares para NGS incluem, entre outros, terminação reversível cíclica (CRT), sequenciamento por ligação (SBL), adição de molécula simples (pirosequenciamento) e sequenciamento em tempo real.CRT usa terminadores reversíveis em um método cíclico que minimamente inclui as etapas de incorporação de nucleotídeos, imagens de fluorescência e clivagem. Tipicamente, uma DNA polimerase incorpora um único nucleotídeo fluorescentemente modificado correspondendo ao nucleotídeo complementar da base molde ao iniciador. Síntese de DNA é finalizada após a adição de um nucleotídeo simples e os nucleotídeos não incorporados são eliminados. Captura de imagem é realizada para determinar a identidade do nucleotídeo incorporado marcado. Então, na etapa de clivagem, o grupo de terminação/inibição e o corante fluorescente são removidos. Plataformas NGS exemplares usando o método CRT incluem, entre outros, Illumina/Solexa Genome Analyzer (GA), que usa o método de molde amplificado por meio de clone combinado ao método de CRT de quatro cores detectado por fluorescência de reflexão interna total (TIRF); e Helicos BioSciences/HeliScope, que usa o método de molde de molécula simples combinado ao método de uma cor CRT detectado pelo TIRF.
SBL usa DNA ligase e sondas codificadas em uma base ou sondas codificadas em duas bases para sequenciamento. Tipicamente, uma sonda fluorescentemente marcada é hibridizada a sua sequência complementar adjacente ao molde ligado ao iniciador. DNA ligase é usada para ligar a sonda marcada com o corante ao iniciador. Imagem por fluorescência é realizada para determinar a identidade da sonda ligada depois de as sondas não ligadas serem eliminadas. O corante fluorescente pode ser removido por meio de sondas cliváveis para regenerar um grupo 5’-PO4 para ciclos subsequentes de ligação. Como alternativa, um novo iniciador pode ser hibridizado ao molde após o iniciador antigo ser removido. Plataformas SBL exemplares incluem, entre outros, Life/APG/SOLiD (detecção de ligação de oligonucleotídeo ao suporte), que utiliza sondas codificadas em duas bases.
Método de pirosequenciamento é baseado na detecção da atividade da DNA polimerase com outra enzima quimioluminescente. Tipicamente, o método permite o sequenciamento de um único filamento de DNA através da síntese da cadeia complementar ao longo desta, um par de base de cada vez, e detecção de cuja base foi realmente adicionada em cada etapa. O molde de DNA é imóvel e soluções de nucleotídeos A, C, G e T são sequencialmente adicionados e removidos da reação. Luz é produzida apenas quando a solução de nucleotídeo complementa a primeira base não pareada do molde. A sequência de soluções que produze sinais quimioluminescentes permite a determinação da sequência do molde. Plataformas de pirosequenciamento exemplares incluem, entre outras, Roche/454, que utiliza moldes de DNA preparados por emPCR com 1-2 milhões de grânulos depositados em poços PTP.
Sequenciamento em tempo real envolve capturar a imagem na incorporação contínua de nucleotídeos marcados com corante durante a síntese de DNA. Plataformas de sequenciamento em tempo real exemplares incluem, entre outras, plataforma Pacific Biosciences, que utiliza moléculas de DNA polimerase ligadas à superfície de detectores individuais de guia de onda modo zero (ZMW) para obter informações de sequência quando nucleotídeos fosfoligados estão sendo incorporados na fita crescente do iniciador; Plataforma de Life/VisiGen, que usa uma DNA polimerase engenheirada com um corante fluorescente ligado para gerar um sinal aumentado após a incorporação do nucleotídeo por transferência de energia de ressonância fluorescente (FRET); e plataforma LI-COR Biosciences, que usa nucleotídeos supressores por corante na reação de sequenciamento.
Outros métodos de sequenciamento para NGS incluem, entre outros, sequenciamento de nanoporo, sequenciamento por hibridização, sequenciamento à base de arranjo de nanotransistor, sequenciamento polony, sequenciamento baseado em microscopia de varredura de tunelamento (STM) e sequenciamento de sensor de molécula nanofio.
Sequenciamento de nanoporo envolve eletroforese de moléculas de ácidos nucleicos em solução através de um poro de nano escala que fornece um espaço altamente confinado dentro do qual os polímeros de ácido nucleico simples podem ser analisados. Métodos de sequenciamento de nanoporo exemplares são descritos, por exemplo, em Branton D. et al, Nat Biotechnol. 2008; 26(10):1146-53.
Sequenciamento por hibridização é um método não enzimático que usa um microarranjo de DNA. Tipicamente, um único grupo de DNA é fluorescentemente marcado e hibridizado para um arranjo contendo sequências conhecidas. Sinais de hibridização de um dado ponto sobre o arranjo podem identificar a sequência de DNA. A ligação de uma fita de DNA à sua fita complementar de DNA em dupla hélice é sensível ao pareamento incorreto de base única quando a região híbrida é curta ou proteínas de detecção especializadas em pareamento incorreto estão presentes. Métodos de sequenciamento por hibridização exemplares são descritos, por exemplo, em Hanna G.J. et al., J. Clin. Microbiol. 2000; 38 (7): 2715-21; e Edwards J.R. et al., Mut. Res. 2005; 573 (1-2): 3-12.
Sequenciamento polony baseia-se na amplificação polony e sequenciamento por síntese através de várias extensões de base simples (FISSEQ). Amplificação polony é um método para amplificar DNA in situ em um filme de poliacrilamida. Métodos de sequenciamento polony exemplares são descritos, por exemplo, na publicação de pedido de patente US 2007/0087362.
Dispositivos com base em arranjo de nanotransistor, como Transistor de Efeito de Campo de NanoTubo de Carbono (CNTFET), também podem ser usados para NGS. Por exemplo, moléculas de DNA são esticadas e direcionadas sobre nanotubos por eletrodos microfabricados. Moléculas de DNA sequencialmente entram em contato com a superfície de nanotubos de carbono, e a diferença no fluxo de corrente de cada base é produzida devido à transferência de carga entre a molécula de DNA e os nanotubos. DNA é sequenciado com gravação destas diferenças. Métodos de sequenciamento baseado em arranjo de Nanotransistor exemplares são descritos, por exemplo, em Publicação de Pedido de Patente US 2006/0246497.
Microscopia de varredura de tunelamento (STM) também pode ser utilizada para NGS. STM utiliza uma sonda controlada por piezoelétrico que realiza uma varredura de um espécime para formar imagens da sua superfície. STM pode ser usada para capturar imagem das propriedades físicas de moléculas simples de DNA, por exemplo, gerando imagem de tunelamento de elétrons coerente e espectroscopia por microscopia de tunelamento de varredura com uma lacuna flexível orientada por atuador. Métodos de sequenciamento exemplares usando STM são descritos, por exemplo, na Publicação de Pedido de Patente US 2007/0194225.
Um dispositivo de análise molecular, que consiste em um sensor de molécula nanofio também pode ser usado para NGS. Dito dispositivo pode detectar as interações do material de nitrogênio disposto sobre os nanofios e moléculas de ácidos nucleicos como DNA. Um guia da molécula está configurado para guiar uma molécula perto do sensor da molécula, permitindo uma interação e detecção subsequente. Métodos de sequenciamento exemplares usando sensor de molécula com nanofio são descritos, por exemplo, em Publicação de Pedido de Patente US 2006/0275779.
Métodos de sequenciamento com terminação dupla podem ser usados para NGS. Sequenciamento com terminação dupla usa iniciadores bloqueados e desbloqueados para sequenciar as fitas senso e antissenso de DNA. Tipicamente, estes métodos incluem as etapas de anelamento de um iniciador desbloqueado com uma primeira fita de ácido nucleico; anelamento de um segundo iniciador bloqueado com uma segunda fita de ácido nucleico; alongamento de ácido nucleico ao longo da primeira fita com uma polimerase; terminação do primeiro iniciador de sequenciamento; desbloqueio do segundo iniciador; e alongamento do ácido nucleico ao longo da segunda fita. Métodos de sequenciamento com terminação dupla exemplares são descritos, por exemplo, em Patente US 7.244.567.
Análise de dados. Depois das leituras de NGS serem geradas, podem ser alinhadas para uma sequência de referência conhecida ou montada de novo.
Por exemplo, a identificação das variações genéticas como polimorfismo de nucleotídeo simples e variantes estruturais em uma amostra (por exemplo, uma amostra tumoral) pode ser realizada alinhando leituras de NGS para uma sequência de referência (por exemplo, uma sequência selvagem). Métodos de alinhamento de sequências para NGS são descritos, por exemplo, em Trapnell C. e Salzberg S.L. Nature Biotech., 2009, 27:455-457.
Exemplos de montagens de novo são descritos, por exemplo, em Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; e Zerbino D.R. e Birney E., Genome Res., 2008, 18:821-829.
Alinhamento de sequências ou montagem podem ser realizados usando os dados de leitura de uma ou mais plataformas NGS, por exemplo, misturando dados de leitura de Roche/454 e Illumina/Solexa.
Alinhamento Geral
Alinhamento é o processo de combinação de uma leitura com um local, por exemplo, um local genômico. Desalinhamento (por exemplo, a colocação de pares de bases de uma leitura curta em locais incorretos no genoma), por exemplo, desalinhamento devido ao contexto de sequência (por exemplo, a presença da sequência repetitiva) de leituras em torno de uma mutação cancerígena real pode levar a redução na sensibilidade de detecção de mutação, como leituras do alelo alternativo podem ser deslocadas para fora do acumulado principal de leituras do alelo alternativo. Se o contexto de sequência problemático ocorre onde nenhuma mutação real está presente, desalinhamento pode apresentar leituras artificiais de alelos “mutados” através da colocação de leituras reais das bases do genoma de referência na localização errada. Devido ao fato de que algoritmos de chamada de mutação para análise de multigene multiplicada devem ser sensíveis às mutações mesmo em baixa abundância, estes desalinhamentos podem aumentar as taxas de descoberta de falsos positivos/reduzir especificidade.
Como discutido aqui, sensibilidade reduzida para mutações reais pode ser endereçada através de avaliação da qualidade dos alinhamentos (manualmente ou de forma automatizada) em torno de sítios de mutação esperados nos genes sendo analisados. Os sítios a serem avaliados podem ser obtidos em bancos de dados de mutações cancerígenas (por exemplo, COSMIC). Regiões que são identificadas como problemáticas podem ser reparadas com o uso de um algoritmo selecionado para conferir o melhor desempenho no contexto de sequência relevante, por exemplo, por otimização do alinhamento (ou realinhamento) usando algoritmos de alinhamento mais lentos, mas mais precisos como alinhamento do Smith-Waterman. Em casos onde os algoritmos de alinhamento geral não podem corrigir o problema, abordagens de alinhamento personalizadas podem ser criadas por, por exemplo: ajuste dos parâmetros de penalidade de pareamento incorreto de diferença máxima para genes com uma alta probabilidade de conter substituições; ajustando parâmetros de penalidade especifica de pareamentos incorretos com base nos tipos de mutações específicas que são comuns em certos tipos de tumor (por exemplo, C^T em melanoma); ou ajustando parâmetros específicos de penalidade de pareamento incorreto com base nos tipos de mutação específica que são comuns em certos tipos de amostra (por exemplo, substituições que são comuns em FFPE). Especificidade reduzida (maior taxa de falsos positivos) nas regiões do gene avaliado devido ao desalinhamento pode ser avaliada através do exame manual ou automatizado de todas as identificações de mutação em amostras sequenciadas. Essas regiões propensas a chamadas de mutações espúrias devido ao desalinhamento podem ser submetidas aos mesmos reparos de alinhamento que os acima. Em casos onde não há solução de algoritmo possível, “mutações” das regiões problemáticas podem ser classificadas ou ocultadas do painel de teste.
Inserções/Deleções (indels)
Geralmente, a detecção precisa de mutações indel é um exercício no alinhamento, como a taxa indel espúria sobre as plataformas de sequenciamento desabilitada aqui é relativamente baixa (assim, mesmo um punhado de observações de indels corretamente alinhadas pode ser forte indício de mutação). Alinhamento preciso na presença de indels pode ser difícil, no entanto (especialmente conforme comprimento da indel aumenta). Além das questões gerais associadas ao alinhamento, por exemplo, de substituições, indel em si pode causar problemas com o alinhamento. (Por exemplo, uma deleção de 2bp de uma repetição de dinucleotídeo não pode ser prontamente definitivamente colocada.) Sensibilidade e a especificidade podem ser reduzidas pela colocação incorreta de leituras contendo aparentes indels mais curtas (<15bp). Indels maiores (se aproximando em magnitude ao comprimento de leituras individuais - 36bp em nosso processo atual) podem causar falha ao alinhar a leitura, tornando a detecção da indel impossível no conjunto padrão de leituras alinhados.
Bancos de dados de mutações cancerígenas podem ser usados para resolver esses problemas e melhorar o desempenho. Para reduzir descoberta de indel falso positivo (melhorar a especificidade), regiões em torno de indels comumente esperadas podem ser examinadas para alinhamentos problemáticos devido ao contexto de sequência e abordadas da mesma forma para as substituições acima. Para melhorar a sensibilidade de detecção de indel, várias abordagens diferentes para uso das informações sobre indels esperadas em câncer podem ser usadas. Por exemplo, leituras curtas contendo indels esperadas podem ser simuladas e o alinhamento tentado. Os alinhamentos podem ser estudados e regiões indel problemáticas podem ter parâmetros de alinhamento ajustados, por exemplo, reduzindo penalidades de abertura/extensão de gap ou alinhando leituras parciais (por exemplo, a primeira ou segunda metade de uma leitura).
Alternativamente, alinhamento inicial pode ser tentado, não só com o genoma de referência normal, mas também com versões alternativas do genoma, contendo cada uma das mutações indel cancerígenas conhecidas ou prováveis. Nesta abordagem, as leituras de indels que inicialmente não conseguiram alinhar ou incorretamente alinharam são dispostas com sucesso na versão alternativa (mutada) do genoma.
Desta forma, alinhamento da indel (e, portanto, chamada) pode ser otimizado para os genes/sítios cancerígenos esperados. Por exemplo, ao avaliar uma amostra de câncer de mama, alinhamento no supressor tumoral PTEN pode ser otimizado para a presença potencial de mutações indel como exemplificado na Tabela 5. Tabela 5: Mutações Indel Exemplares em PTEN para Otimização de Alinhamento
Figure img0001
Ajuste Ajuste: Algoritmos de Alinhamento da Sequência
Como usado aqui, um algoritmo de alinhamento de sequência inclui um método computacional ou abordagem usado para identificar de onde no genoma de uma sequência de leitura (por exemplo, uma sequência de leitura curta) provavelmente originou-se através da avaliação da similaridade entre a sequência de leitura e uma sequência de referência. Uma variedade de algoritmos pode ser aplicada ao problema de alinhamento de sequência. Alguns algoritmos são relativamente lentos, mas permitem especificidade relativamente alta. Estes incluem, por exemplo, algoritmos baseados em programação dinâmica. Programação dinâmica é um método para resolução de problemas complexos através de sua quebra em simples etapas. Outras abordagens são relativamente mais eficientes, mas geralmente não são tão minuciosas. Estas incluem, por exemplo, algoritmos heurísticos e métodos probabilísticos, projetados para pesquisar base de dados de larga escala.
Tipicamente, pode haver duas etapas no processo de alinhamento: consulta do candidato e alinhamento de sequência. Sequência de candidatos reduz o espaço de pesquisa para o alinhamento da sequência do genoma inteiro para uma lista mais curta de localizações de alinhamento possíveis. Alinhamento de sequência, como o termo sugere, inclui alinhar uma sequência com uma sequência fornecida na etapa de consulta do candidato. Pode ser realizada usando alinhamento global (por exemplo, alinhamento de Needleman-Wunsch) ou alinhamento local (por exemplo, alinhamento de Smith-Waterman).
A maioria dos algoritmos de alinhamento rápido pode ser caracterizada como um dos três tipos baseados no método de indexação: algoritmos com base em tabelas de hash (por exemplo, BLAST, ELAND, SOAP), árvores de sufixo (por exemplo, Bowtie, BWA) e classificação mesclada (por exemplo, Slider).
Sequências curtas de leitura são usadas tipicamente para alinhamento. Exemplos de algoritmos de alinhamento de sequência/programas para leitura de sequências curtas, entre outros, BFAST (Homer N. et al., PLoS One. 2009;4(11):e7767), BLASTN (na internet mundial em blast.ncbi.nlm.nih.gov), BLAT (Kent WJ Genome Res. 2002;12(4):656-64), Bowtie (Langmead B. et al., Genome Biol. 2009;10(3):R25), BWA (Li H. e Durbin R. Bioinformatics, 2009, 25:1754-60), BWA-SW (Li H. e Durbin R. Bioinformatics, 2010;26(5):589-95), CloudBurst (Schatz M.C. Bioinformatics. 2009;25(11):1363-9), Corona Lite (Applied Biosystems, Carlsbad, California, USA), CASHX (Fahlgren N. et al., RNA, 2009; 15, 992-1002), CUDA-EC (Shi H. et al., J Comput Biol. 2010;17(4):603-15), ELAND (na internet mundial em bioit.dbi.udel.edu/howto/eland), GNUMAP (Clement N.L. et al., Bioinformatics. 2010;26(1):38-45), GMAP (Wu T.D. e Watanabe C.K. Bioinformatics. 2005;21(9):1859-75), GSNAP (Wu T.D. e Nacu S., Bioinformatics. 2010;26(7):873-81), Geneious Assembler (Biomatters Ltd., Auckland, Nova Zelândia), LAST, MAQ (Li H. et al., Genome Res. 2008;18(11):1851-8), Mega-BLAST (na internet mundial em ncbi.nlm.nih.gov/blast/megablast.shtml), MOM (Eaves H.L. e Gao Y. Bioinformatics. 2009;25(7):969-70), MOSAIK (na internet mundial em bioinformatics.bc.edu/marthlab/Mosaik), Novoalign (na internet mundial em novocraft.com/main/index.php), PALMapper (na internet mundial em fml.tuebingen.mpg.de/raetsch/suppl/palmapper), PASS (Campagna D. et al., Bioinformatics. 2009; 25(7):967-8), PatMaN (Prufer K. et al., Bioinformatics. 2008; 24(13):1530-1), PerM (Chen Y. et al., Bioinformatics, 2009, 25 (19): 2514-2521), ProbeMatch (Kim Y.J. et al., Bioinformatics. 2009;25(11):1424- 5), QPalma (de Bona F. et al., Bioinformatics, 2008, 24(16): i174), RazerS (Weese D. et al., Genome Research, 2009, 19:1646-1654), RMAP (Smith A.D. et al., Bioinformatics. 2009;25(21):2841-2), SeqMap (Jiang H. et al. Bioinformatics. 2008;24:2395-2396.), Shrec (Salmela L., Bioinformatics. 2010;26(10):1284- 90), SHRiMP (Rumble S.M. et al., PLoS Comput. Biol., 2009, 5(5):e1000386), SLIDER (Malhis N. et al., Bioinformatics, 2009, 25 (1): 6-13), SLIM Search (Muller T. et al., Bioinformatics. 2001;17 Suppl 1:S182-9), SOAP (Li R. et al., Bioinformatics. 2008;24(5):713-4), SOAP2 (Li R. et al., Bioinformatics. 2009;25(15):1966-7), SOCS (Ondov B.D. et al., Bioinformatics, 2008; 24(23):2776-7), SSAHA (Ning Z. et al., Genome Res. 2001;11(10):1725-9), SSAHA2 (Ning Z. et al., Genome Res. 2001;11(10):1725-9), Stampy (Lunter G. e Goodson M. Genome Res. 2010, publicação electronica antes da impressão), Taipan (na internet mundial em taipan.sourceforge.net), UGENE (na internet mundial em ugene.unipro.ru), XpressAlign (na internet mundial em bcgsc.ca/platform/bioinfo/software/XpressAlign), e ZOOM (Bioinformatics Solutions Inc., Waterloo, ON, Canadá).
Um algoritmo de alinhamento de sequência pode ser escolhido com base em uma série de fatores, incluindo, por exemplo, a tecnologia de sequenciamento, comprimento da leitura, número de leituras, recursos para computar e requisitos de sensibilidade/pontuação. Algoritmos de alinhamento de sequência diferentes podem atingir diferentes níveis de velocidade, sensibilidade de alinhamento e especificidade de alinhamento. Especificidade de alinhamento tipicamente refere-se ao percentual de resíduos de sequência do alvo alinhado, como os encontrados na apresentação, que estão alinhados corretamente, comparado com o alinhamento previsto. Sensibilidade de alinhamento tipicamente refere-se ao percentual de resíduos de sequência do alvo alinhado como os encontrados no alinhamento previsto, que também foram alinhados corretamente na apresentação.
Algoritmos de alinhamento, como o ELAND, ou SOAP podem ser usados com a finalidade de alinhar leituras curtas (por exemplo, do sequenciador Illumina/Solexa) para o genoma de referência quando a velocidade é o primeiro fator a considerar. Algoritmos de alinhamento, como BLAST, ou Mega-BLAST podem ser usados para fins de pesquisa de similaridade usando leituras curtas (por exemplo, de Roche FLX) quando a especificidade é o fator mais importante, embora estes métodos sejam relativamente mais lentos. Algoritmos de alinhamento, como MAQ, ou Novoalign levam em consideração índices de qualidade e, portanto, podem ser usados para ambos os conjuntos de dados de terminação simples e pareada quando a precisão é essencial (por exemplo, em pesquisas de SNP de alto rendimento). Algoritmos de alinhamento, como Bowtie, ou BWA, usam Burrows-Wheeler Transform (BWT) e, portanto, requerem consumo de memória relativamente pequeno. Algoritmos de alinhamento, como BFAST, PerM, SHRiMP, SOCS, ou ZOOM, mapeiam leituras do espaço de cor e, portanto, podem ser usados com a plataforma SOLiD da ABI. Em algumas aplicações, os resultados de dois ou mais algoritmos de alinhamento podem ser combinados.
Ajuste: Parâmetros de Alinhamento
Parâmetros de alinhamento são usados em algoritmos de alinhamento para ajustar o desempenho de um algoritmo, por exemplo, para produzir um alinhamento global ou local ideal entre uma sequência de leitura e uma sequência de referência. Parâmetros de alinhamento podem conferir pesos para pareamento, pareamento incorreto e indels. Por exemplo, massas inferiores permitem alinhamentos com mais pareamentos incorretos e indels.
Exemplos de parâmetros de alinhamento incluem, entre outros, recompensa de pareamento, penalidade de pareamento incorreto, penalidade de lacuna (por exemplo, penalidade de abertura de gap, penalidade de extensão de gap), limiar esperado, tamanho da palavra, filtro ou máscara.
Por exemplo, penalidades de gap são projetadas para reduzir a pontuação do alinhamento quando um alinhamento foi quebrado por uma inserção na sequência de leitura ou na sequência de referência. As penalidades de gap podem ser usadas para ajudar a decidir entre aceitar ou não uma lacuna ou inserção em um alinhamento quando é possível conseguir um bom alinhamento resíduo-a-resíduo em algum outro ponto vizinho na sequência. Em particular, uma penalidade pode ser subtraída da pontuação para cada lacuna aberta (a penalidade de “abertura de gap”) e o número total de espaços de lacuna, multiplicado por um custo (pena de “extensão de gap”). Tipicamente, o custo de estender uma lacuna é definido sendo pelo menos cerca de 2, 3, 4, 5, 6, 7, 8, 9 ou 10 vezes menor do que o custo para a abrir uma lacuna. O limiar esperado é um parâmetro que descreve o número de acertos que se pode “esperar” para ver por acaso ao pesquisar um banco de dados de um determinado tamanho.
Ajuste: Seleção Baseada no Contexto de Sequência/Ajuste de Parâmetros e Algoritmos
Contexto da sequência, por exemplo, a presença de sequências repetitivas (por exemplo, repetições em tandem, repetições intercaladas), regiões de baixa complexidade, indels, pseudogenes ou paralogs podem afetar a especificidade de alinhamento (por exemplo, causar desalinhamento). Como usado aqui, desalinhamento refere-se à colocação de pares de base da leitura curta em locais incorretos no genoma.
Algoritmos de alinhamento, como algoritmos de alinhamento mais lento, porém mais precisos (por exemplo, alinhamento de Smith-Waterman, ou o alinhador multisequência (leitura) CLUSTALW), podem ser selecionados para aumentar a especificidade do alinhamento (por exemplo, diminuir a probabilidade de desalinhamento causado pelo contexto da sequência, por exemplo, a presença de sequências repetitivas).
Parâmetros de alinhamento, como recompensa de pareamento, penalidades de pareamento incorreto, penalidades de gap (por exemplo, penalidades de abertura de gap, penalidades de extensão de gap), limiar esperado, tamanho da palavra, filtro ou máscara), podem ser ajustados (por exemplo, aumentados ou diminuidos), para aumentar a especificidade do alinhamento (por exemplo, diminuir a probabilidade de desalinhamento causado pelo contexto de sequência).
Ajuste: Seleção baseada no Tipo de Tumor/Ajuste de Parâmetros e Algoritmos
A sensibilidade de alinhamento pode ser aumentada quando um algoritmo de alinhamento é selecionado ou um parâmetro de alinhamento é ajustado com base no tipo de tumor, por exemplo, um tipo de tumor que tende a ter uma mutação ou tipo de mutação particular.
Algoritmos de alinhamento podem ser selecionados para ajustar (por exemplo, aumentar) a sensibilidade do alinhamento, quando o ácido nucleico é isolado a partir de uma amostra de determinado tipo de tumor.
Parâmetros de alinhamento, como recompensa de pareamento, penalidades de pareamento incorreto, penalidades de gap (por exemplo, penalidades de abertura de gap, penalidades de extensão de gap), limiar esperado, tamanho da palavra, filtro ou máscara), podem ser ajustados (por exemplo, aumentados ou diminuidos), para ajustar (por exemplo, aumentar) a sensibilidade do alinhamento, quando um ácido nucleico é isolado de uma amostra de um determinado tipo de tumor. Por exemplo, substituição de C^T é um tipo de mutação comum em melanoma. Assim, a sensibilidade de alinhamento pode ser ajustada (por exemplo, aumentada) quando as penalidades de pareamento incorreto para sequências de ácidos nucleicos de amostras de melanoma são diminuídas ou aumentadas.
Ajuste: Seleção baseada no Tipo de Gene/Ajuste de Parâmetros e Algoritmos
A sensibilidade de alinhamento pode ser aumentada quando um algoritmo de alinhamento é selecionado ou um parâmetro de alinhamento é ajustado com base no tipo de gene (por exemplo, oncogene, gene supressor de tumor). Mutações em diferentes tipos de genes associados a câncer podem ter impacto diferente no fenótipo do câncer. Por exemplo, alelos de oncogenes mutantes são tipicamente dominantes. Alelos de supressor de tumor mutantes são tipicamente recessivos, o que significa que, na maioria dos casos, ambos os alelos de um gene supressor de tumor devem ser afetados antes que um efeito seja manifestado.
Algoritmo de alinhamento pode ser selecionado para ajustar (por exemplo, aumentar) a sensibilidade de alinhamento, com base no tipo de gene (por exemplo, oncogene, gene supressor de tumor).
Parâmetros de alinhamento, como recompensa de pareamento, penalidades de pareamento incorreto, penalidades de gap (por exemplo, penalidades de abertura de gap, penalidades de extensão de gap), limiar esperado, tamanho da palavra, filtro ou máscara), podem ser ajustados (por exemplo, aumentados ou diminuídos), para ajustar (por exemplo, aumentar) a sensibilidade/especificidade do alinhamento baseado no tipo de gene (por exemplo, oncogene, gene supressor de tumor). Por exemplo, uma indel em fase é comumente associada com um tumor supressor. Assim, a sensibilidade e a especificidade de alinhamento podem ser ajustadas (por exemplo, aumentadas) quando a abordagem de penalidade de lacuna padrão (por exemplo, abertura de gap + extensão de gap) é modificada para preferir indels em fase para oncogenes e indels em outra fase para supressores de tumor.
Ajuste: Seleção Baseada no Tipo de Mutação/Ajuste de Parâmetros e Algoritmos
A sensibilidade de alinhamento pode ser ajustada (por exemplo, aumentada) quando um algoritmo de alinhamento é selecionado ou um parâmetro de alinhamento é ajustado com base no tipo de mutação (por exemplo, polimorfismo de nucleotídeo simples, indel (inserção ou deleção), inversão, translocação, repetição em tandem).
Algoritmos de alinhamento, como BWA (leitura curta, única, rápida), Smith-Waterman (leitura curta, única, mais lenta, mais exata) e CLUSTALW (ainda mais lento, mas considera leituras múltiplas) podem ser selecionados para ajustar (por exemplo, aumentar) a sensibilidade de alinhamento, com base no tipo de mutação (por exemplo, polimorfismo de nucleotídeo simples, indel (inserção ou deleção), inversão, translocação, repetição em tandem).
Parâmetros de alinhamento, como recompensa de pareamento, penalidades de pareamento incorreto, penalidades de gap (por exemplo, penalidades de abertura de gap, penalidades de extensão de gap), limiar esperado, tamanho da palavra, filtro ou máscara), podem ser ajustados (por exemplo, aumentados ou diminuídos), para ajustar (por exemplo, aumentar) a sensibilidade/especificidade do alinhamento baseado no tipo de mutação (por exemplo, polimorfismo de nucleotídeo simples, indel (inserção ou deleção), inversão, translocação, repetição em tandem). Por exemplo, mutações pontuais são comumente associadas com o gene KRAS. Assim, a sensibilidade de alinhamento pode ser aumentada quando as penalidades de pareamento incorreto para essa posição são diminuídas. Da mesma forma, uma deleção é comumente associada ao gene EGFR. Assim, a sensibilidade de alinhamento pode ser aumentada quando as penalidades de gap (por exemplo, penalidades de abertura de gap, penalidades de extensão de gap) para essas posições ou gene são diminuídas. A sensibilidade do alinhamento também pode ser aumentada se sequências parciais (por exemplo, a primeira ou segunda metade de uma leitura) são utilizadas para o alinhamento.
Seleção Baseada no Tipo de Sítio de Mutação/Ajuste/Ajuste de Parâmetros e Algoritmos
A sensibilidade de alinhamento pode ser ajustada (por exemplo, aumentada) quando um algoritmo de alinhamento é selecionado ou um parâmetro de alinhamento é ajustado com base em sítio de mutação (por exemplo, um hotspot de mutação). Um hotspot de mutação refere-se a um sítio no genoma onde ocorrem mutações até 100 vezes mais frequentemente do que a taxa de mutação normal.
Algoritmos de alinhamento podem ser selecionados para ajustar (por exemplo, aumentar) a sensibilidade de alinhamento, baseados em sítio de mutação (por exemplo, um hotspot de mutação).
Parâmetros de alinhamento, como recompensa de pareamento, penalidades de pareamento incorreto, penalidades de gap (por exemplo, penalidades de abertura de gap, penalidades de extensão de gap, limiar esperado, tamanho da palavra, filtro ou máscara), podem ser ajustados (por exemplo, aumentados ou diminuídos), para ajustar (por exemplo, aumentar) a sensibilidade do alinhamento, baseados em sítio de mutação (por exemplo, um hotspot de mutação). Por exemplo, mutações no códon 12 são comumente associadas com o gene KRAS. Assim, a sensibilidade de alinhamento pode ser aumentada quando as penalidades de pareamento incorreto para este sítio são diminuídas.
Ajuste: Seleção Baseada no Tipo de Amostra/Ajuste de Parâmetros e Algoritmos
A sensibilidade de alinhamento pode ser ajustada (por exemplo, aumentada) quando um algoritmo de alinhamento é selecionado ou um parâmetro de alinhamento é ajustado com base tipo de amotra (por exemplo, uma amostra de FFPE).
Algoritmos de alinhamento podem ser selecionados para ajustar (por exemplo, aumentar) a sensibilidade/especificidade do alinhamento, com base no tipo de amostra (por exemplo, uma amostra de FFPE).
Parâmetros de alinhamento, como recompensa de pareamento, penalidades de pareamento incorreto, penalidades de gap (por exemplo, penalidades de abertura de gap, penalidades de extensão de gap), limiar esperado, tamanho da palavra, filtro ou máscara), podem ser ajustados (por exemplo, aumentados ou diminuídos), para ajustar (por exemplo, aumentar) a sensibilidade/especificidade do alinhamento, com base no tipo de amostra (por exemplo, uma amostra de FFPE). Por exemplo, um artefato de mutação de transição devido aos danos do DNA é comumente associado com amostras de FFPE. Assim, a sensibilidade/especificidade de alinhamento pode ser aumentada quando as penas de pareamento incorreto para sequências obtidas a partir de amostras de FFPE são aumentadas.
Módulo de Alinhamento Métodos Gerais para Alinhamento
Métodos divulgados aqui permitem o uso de métodos ou algoritmos de alinhamento múltiplos e ajustados individualmente para otimizar o desempenho de métodos de sequenciamento, particularmente em métodos que dependem de sequenciamento massivamente paralelo de um grande número de diversos eventos genéticos em um grande número de genes diferentes, por exemplo, métodos de análise de amostras de tumor. Nas modalidades, vários métodos de alinhamento que são individualmente personalizados ou ajustados para cada um de um número de variantes em genes diferentes são usados para analisar as leituras. Nas modalidades, o ajuste pode ser uma função da (um ou mais do) gene (ou outro intervalo subgenômico) sendo sequenciado, o tipo de tumor na amostra, a variante sendo sequenciada ou uma característica da amostra ou do sujeito. A seleção ou o uso de condições de alinhamento que são ajustadas individualmente para um número de intervalos subgenômicos a ser sequenciados permite a otimização da velocidade, sensibilidade e especificidade. O método é particularmente eficaz quando o alinhamento de leituras para um número relativamente grande de intervalos subgenômicos diversos é otimizado.
Assim, em um aspecto, um método de análise de uma amostra, por exemplo, uma amostra de tumor, é fornecido. O método compreende: (a) aquisição de uma biblioteca, composta por uma pluralidade de membros de uma amostra, por exemplo, uma pluralidade de membros tumorais de uma amostra tumoral;(b) opcionalmente, enriquecer a biblioteca para sequências pré-selecionadas, por exemplo, contatando a biblioteca com um conjunto de iscas (ou pluralidade de conjuntos de iscas) para fornecer membros selecionados (por vezes referidos aqui como captura de biblioteca);(c) aquisição de uma leitura para um intervalo subgenômico de um membro, por exemplo, um tumor de dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento geração seguinte;(d) alinhamento de dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuição de um valor de nucleotídeo (por exemplo, chamar uma mutação, por exemplo, com um método de Bayeisan) de dita leitura para a posição do nucleotídeo pré-selecionado, assim, analisando dita amostra de tumor,em que:uma leitura de cada um dos X intervalos subgenômicos únicos é alinhada com um método de alinhamento único, no qual intervalo subgenômico único significa diferente dos outros intervalos subgenômicos X-1, e em que o método de alinhamento único significa diferente de outros métodos de alinhamento X-1, e X é pelo menos 2.
Em uma modalidade, a etapa (b) está presente. Em uma modalidade, etapa (b) está ausente.
Em uma modalidade, X é pelo menos 3, 4, 5, 10, 15, 20, 30, 50, 100, 500 ou 1.000.
Assim, em uma modalidade, um método descrito aqui, por exemplo, um método de análise de uma amostra de tumor compreende um método de alinhamento descrito aqui. A título de exemplo, o método (por exemplo, etapa (c)) pode compreender a seleção de um método de alinhamento para analisar, por exemplo, alinhar, dita leitura, em que o método de alinhamento é uma função de, é selecionado responsivo a, ou é otimizado para, um ou mais ou todos de:(i) tipo de tumor, por exemplo, o tipo de tumor em dita amostra;(ii) o gene, ou tipo de gene, em que dito intervalo subgenômico sendo sequenciado está localizado, por exemplo, em que o gene ou o tipo de gene está associado com uma probabilidade pré-selecionada para uma variante ou tipo de variante, por exemplo, uma mutação;(iii) o sítio (por exemplo, posição do nucleotídeo) sendo analisado;(iv) o tipo de variante, por exemplo, uma substituição, dentro do intervalo subgenômico sendo avaliada;(v) o tipo de amostra, por exemplo, uma amostra FFPE; e(vi) sequência em ou perto de dito intervalo subgenômico sendo avaliada, por exemplo, a propensão esperada para desalinhamento para dito intervalo subgenômico, por exemplo, a presença de sequências repetidas em ou perto de dito intervalo subgenômico.
Como referido em outro lugar aqui, um método é particularmente eficaz quando o alinhamento de leituras para um número relativamente grande de intervalos subgenômicos é otimizado. Assim, em uma modalidade, pelo menos X métodos de alinhamento únicos são usados para analisar leituras para pelo menos X intervalos subgenômicos únicos, em que único significa diferente dos outros X-1 e X é igual a 2, 3, 4, 5, 10, 15, 20, 30, 50, 100, 200, 500 ou 1.000.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes da Tabela 1 são analisados, e X é igual a 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes da Tabela 1, tendo a anotação de prioridade 1 são analisados, e X é igual a 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, um método de alinhamento único é aplicado para um intervalo subgenômico em cada um de pelo menos 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100 genes diferentes.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 20, 40, 60, 80, 100, 120, 140, 160 ou 180 genes, por exemplo, genes de Tabela 1 ou 1A, é atribuído um valor de nucleotídeo. Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 5, 10, 20, 30 ou 40 genes da Tabela 1 ou 1A tendo a anotação de prioridade 1 é atribuído um valor de nucleotídeo. Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo para pelo menos 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 ou 500 variantes ou códons, por exemplo, mutações, da Tabela 1, 1A, 2 ou 3, é atribuído um valor de nucleotídeo. Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, o método compreende: aplicar um método de alinhamento único para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo tumoral, por exemplo, em que a variante é um ponto de mutação e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, por exemplo, em que cada um dos ditos intervalos subgenômicos está localizado em um gene diferente.
Em uma modalidade, o método compreende: aplicar um método de alinhamento único para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo tumoral, por exemplo, em que a variante é um rearranjo, por exemplo, uma deleção, inserção ou translocação, e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, em que cada um dos ditos intervalos subgenômicos está localizado em um gene diferente.
Em uma modalidade:um primeiro método de alinhamento único é aplicado a um primeiro intervalo subgenômico compreendendo uma posição de nucleotídeo pré-selecionada, uma variante que está associada com um fenótipo tumoral, eum segundo método de alinhamento único é aplicado a um intervalo subgenômico compreendendo um nucleotídeo pré-selecionado diferente de dita primeira posição de nucleotídeo pré-selecionada, por exemplo, uma posição não tendo nenhuma variante com um fenótipo tumoral.
Em uma modalidade, o método compreende:a) aplicar um primeiro método de alinhamento único para um primeiro intervalo genômico, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual, por exemplo, uma mutação na Tabela 6;b) aplicar um segundo método de alinhamento único para um segundo intervalo genômico, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é um rearranjo, por exemplo, uma deleção, inserção ou translocação, por exemplo, uma mutação na Tabela 5; ec) aplicar um terceiro método de alinhamento único para um terceiro intervalo genômico, por exemplo, um intervalo genômico em que as variantes não são associadas com um fenótipo tumoral ou com um tumor do tipo na dita amostra.Em uma modalidade, o gene ou tipo de gene é:um oncogene, que pode ser associado com, por exemplo, ativação de mutações em domínios de tirosina quinase;um supressor de tumor que pode estar com mutações desativantes (por exemplo, sem sentido); ouum gene relacionado à droga ADME, que pode ser com variação genética germinativa de atividade alta ou atividade baixa.
Em uma modalidade, selecionar um método de alinhamento compreende selecionar um parâmetro (ou um valor do mesmo) para uso em um algoritmo de alinhamento, por exemplo, uma recompensa de pareamento, penalidade de pareamento incorreto, penalidade de lacuna (por exemplo, uma penalidade de abertura de gap, penalidade de extensão de gap), limite esperado, tamanho da palavra, filtro ou máscara. O parâmetro (ou valor para o mesmo) pode ser selecionado a partir de um painel de parâmetros pré- selecionados, por exemplo, os parâmetros definidos pelas fronteiras ou limites pré-selecionados.
Em uma modalidade, quando alinhando (ou, otimizando alinhamentos) para um gene que contém uma substituição cancerígena conhecida e uma indel germinativa conhecida, penalidades de gap podem ser reduzidas de modo que a variante germinativa seja capturada corretamente e não afete adversamente o alinhamento em torno da mutação somática de interesse.
Em uma modalidade, selecionar um método de alinhamento compreende selecionar um parâmetro de penalidade de pareamento incorreto de diferença máxima para um gene com uma alta probabilidade de conter uma substituição.
Em uma modalidade, selecionar um método de alinhamento compreende, selecionar um algoritmo de alinhamento, por exemplo, selecionar um algoritmo mais lento, mas mais preciso, por exemplo, um alinhamento de Smith-Waterman ao invés de um mais rápido, por exemplo, BWA, ou selecionar otimização do alinhamento usando um método de alinhamento múltiplo como CLUSTALW.
Em uma modalidade, dito método de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para, uma característica da amostra de ácido nucleico, por exemplo, idade da amostra, fonte de tecido da amostra (por exemplo, pancreática), presença de exposição da substância cancerígena/mutagênica (por exemplo, tabagismo, UV), qualidade da amostra de ácido nucleico (por exemplo, o nível de fragmentação de ácido nucleico) na amostra.
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50) método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (i).
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50), método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (ii).
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50), método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (iii).
Em uma modalidade, um primeiro método de alinhamento é função de, é selecionado sensível a ou é otimizado para (i), um segundo método de alinhamento é função de, é selecionado sensível a, ou é otimizado para (ii), e é função de um terceiro método de alinhamento, é selecionado sensível a ou é otimizado para (iii).
Em uma modalidade, alinhamento de pelo menos um método é uma função de, é selecionado responsivo a ou é otimizado para, (i) e um ou mais de (ii), (iii), (iv), (v) ou (vii).
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50) método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (ii) e uma ou mais das (ii), (iii), (iv), (v), ou (vii).
Em uma modalidade, o alinhamento dito método é uma função de, é selecionado responsivo a ou é otimizado para, o gene, ou tipo de gene, por exemplo, no qual o gene ou o tipo de gene está associado a uma probabilidade pré-selecionada ou tipo de variante, por exemplo, mutação.
Em uma modalidade, o dito método de alinhamento fornece:ajustar, definir ou usar parâmetros de penalidade de pareamento incorreto de diferença máxima para um gene tendo uma alta probabilidade de conter substituições;ajustar, definir ou usar parâmetros de penalidade de pareamento incorreto específicos com base nos tipos de mutação específicos que são comuns em um tipo de tumor pré-selecionado (por exemplo, C^T em melanoma); ouajustar, definir ou usar parâmetros de penalidade de pareamento incorreto específicos com base nos tipos de mutação específica que são comuns em um tipo de amostra pré-selecionado (por exemplo, substituições que são comuns em FFPE).
Em uma modalidade, o método compreende a utilização dos primeiros métodos de alinhamento otimizados para um intervalo subgenômico não associado com um rearranjo e um segundo método de alinhamento otimizado para um intervalo subgenômico associado com um rearranjo.
Em uma modalidade, o método inclui a aplicação de 1, 2, 3, 4 ou todos os seguintes (nas modalidades, um grupo de 2 ou mais dos seguinte são incluídos e os métodos de alinhamento para cada um dos grupos são únicos):(i) um primeiro método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de alto nível (por exemplo, um gene, éxon ou base) para o qual a cobertura mais profunda é necessária para permitir um alto nível de sensibilidade para as mutações que aparecem com uma frequência relativamente baixa. Por exemplo, um método de alinhamento selecionado responsivo a ou otimizado para uma variante, por exemplo, uma mutação pontual, que aparecem com uma frequência de 5% ou menos nas células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >500X ou maior profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é um éxon que frequentemente sofre mutação em um câncer pré-selecionado;(ii) um segundo método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de nível médio (por exemplo, um gene, éxon ou base) para a qual cobertura alta (embora em modalidades menos que em (i) acima) é necessário para permitir um alto nível de sensibilidade para as mutações que aparecem com uma frequência relativamente alta, por exemplo, com uma frequência mais elevada do que uma mutação em (i) acima. Por exemplo, um método de alinhamento selecionado sensível a ou otimizado para uma variante, por exemplo, uma mutação pontual, que aparecem com uma frequência maior que 5% e de até 10, 15 ou 20% nas células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >200X ou maior profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é em um gene relacionado a câncer;(iii) um terceiro método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de baixo nível (por exemplo, um gene, éxon ou base) para o qual a baixa a média cobertura (em modalidades menos que em (i) ou (ii) acima) é necessário para permitir um alto nível de sensibilidade para alelos heterozigotos. Por exemplo, um método de alinhamento que está selecionado sensível a, ou otimizado para, uma variante, por exemplo, (1) um SNP farmacogenômico pode ser associado com a capacidade do paciente em responder ou metabolizar uma droga; (2) um SNP genômico que pode ser usado para identificar com exclusividade (fingerprint) um paciente; ou (3) um SNP/loci genômico que pode ser utilizado para avaliar ganhos/perdas no números de cópias de DNA genômico e LOH;(iv) um quarto método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de nível médio (por exemplo, um ponto de interrupção estrutural, por exemplo, em um rearranjo, por exemplo, uma translocação ou uma indel). Nas modalidades a cobertura é menor do que em um de (i) (ii) ou (iii). Por exemplo, um método de alinhamento que é selecionado responsivo a, ou otimizado para, uma variante, por exemplo, um ponto de interrupção intrônica, que em modalidades requer profundidade de abrangência de 5-50X pares de sequências para garantir a confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer com propensão a translocação/indel; e(v) um quinto método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo como um alvo íntron para o qual cobertura esparsa pode melhorar a capacidade de detectar alterações de números de cópia. Em modalidades a cobertura é menor do que em um de (i), (ii), (iii) ou (iv). Por exemplo, a detecção de uma 1 deleção de cópia de vários éxons terminais requer cobertura de 0,1-10X para garantir a confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer propenso a amplificação/deleção.
Em uma modalidade, dito método de alinhamento é aplicado após um outro método de alinhamento ser usado em uma tentativa, por exemplo, uma tentativa inaceitável, para alinhar uma leitura.
Em uma modalidade, o método ainda compreende selecionar e aplicar um segundo método de alinhamento em uma segunda ou subsequente tentativa de alinhar uma leitura para um intervalo subgenômico pré-selecionado. Por exemplo, em uma modalidade um primeiro método compreende o uso de um primeiro algoritmo, relativamente rápido, e um segundo método de alinhamento compreende o uso de um segundo algoritmo, mais lento, mas mais preciso.
Em uma modalidade, dito método de alinhamento compreende o algoritmo de alinhamento SmithWaterman ou um algoritmo similar ou um algoritmo de alinhamento múltiplo como CLUSTALW.
Em uma modalidade, em intervalos subgenômicos resistentes ao alinhamento exato (por exemplo, por qualquer método), montagem de novo ou guiada por referência é realizada usando métodos como ARACHNE ou Phusion.
Em uma modalidade, o a-c ou -b-c, são realizados na sequência indicada acima.
Em uma modalidade, o método ainda compreende:d) realizar uma comparação, por exemplo, uma comparação de alinhamento, de uma leitura com dito método de alinhamento selecionado (por exemplo, um algoritmo ou parâmetro pré-selecionado); ee) opcionalmente, determinar se dita leitura atende a um critério de alinhamento predeterminado, por exemplo, um critério predeterminado pode ser um alinhamento de uma referência com menos de um número de pareamentos incorretos ou lacunas pré-selecionados.Em uma modalidade, (c) compreende a seleção do método de alinhamento por:f) aquisição de um valor para um seletor de alinhamento para um intervalo subgenômico, por exemplo, um intervalo subgenômico compreendendo uma posição do nucleotídeo associada com uma variante, por exemplo, uma substituição ou um rearranjo, por exemplo, uma indel; eg) responsivo ao dito valor adquirido para seletor de alinhamento, selecionar um método de alinhamento para analisar, por exemplo, alinhamento, uma leitura.contanto que dito seletor de alinhamento seja uma função de, seja selecionado responsivo a, ou seja otimizado para, um ou mais ou todos:(i) tipo de tumor, por exemplo, o tipo de tumor no exemplo dito;(ii) o gene, ou tipo de gene, em que o dito intervalo subgenômico sendo sequenciado está localizado, por exemplo, em que o gene ou o tipo de gene está associado a uma probabilidade pré-selecionada ou tipo de variante, por exemplo, mutação;(iii) o sítio (por exemplo, posição do nucleotídeo) sendo analisado;(iv) o tipo de variante, por exemplo, uma substituição, associada ao intervalo subgenômico sendo avaliado;(v) o tipo de amostra, por exemplo, uma amostra de FFPE; e(vi) sequência em ou perto de dito intervalo subgenômico sendo avaliada, por exemplo, a propensão esperada para desalinhamento para dito intervalo subgenômico, por exemplo, a presença de sequências repetidas em ou perto de dito intervalo subgenômico.
Em uma modalidade, o método compreende a aquisição e aplicação de um valor de limiar que não um valor de limite único, por exemplo, um valor de limiar não único, para um intervalo subgenômico, por exemplo, um de ditos intervalos subgenômicos descritos aqui.
Métodos para rearranjos de alinhamento
Métodos divulgados aqui permitem o uso de métodos ou algoritmos de alinhamento múltiplos e ajustados individualmente para otimizar o desempenho de métodos de sequenciamento, particularmente nos métodos que dependem de sequenciamento massivamente paralelo de um grande número de diversos eventos genéticos em um grande número de genes diferentes, por exemplo, métodos de análise de amostras de tumor. Nas modalidades, vários métodos de alinhamento que são individualmente personalizados ou ajustados para cada um de um número de variantes em genes diferentes são usados para analisar as leituras. Em modalidades, o ajuste pode ser uma função da (um ou mais do) gene (ou outro intervalo subgenômico) sendo sequenciado, o tipo de tumor na amostra, a variante sendo sequenciada ou uma característica da amostra ou do sujeito. Esta seleção ou o uso de condições de alinhamento ajustadas finamente para um número de intervalos subgenômicos a ser sequenciado permite a otimização da velocidade, sensibilidade e especificidade. O método é particularmente eficaz quando o alinhamento de leituras para um número relativamente grande intervalos subgenômicos diversos é otimizado. Nas modalidades, o método inclui o uso de métodos de alinhamento otimizados para rearranjos e outros otimizados para intervalos subgenômicos não associados com rearranjos.
Assim, em uma modalidade, um método descrito aqui, por exemplo, um método de análise de uma amostra de tumor compreende um método de alinhamento para rearranjos descrito aqui.
A título de exemplo, onde uma leitura para um intervalo subgenômico compreende uma posição de nucleotídeo com um rearranjo, por exemplo, uma indel, o método compreende usar um método de alinhamento que inclui:c) selecionar uma sequência de referência de rearranjo para alinhamento com uma leitura, em que dita sequência de referência de rearranjo é pré-selecionada para alinhar com um rearranjo pré-selecionado (nas modalidades, a sequência de referência não é idêntica ao rearranjo genômico) em uma modalidade, o fragmento de sequência de referência de rearranjo (ou seja, “referência alternativa”) é a mesma que o rearranjo esperado para ser observado na leitura. Também é possível que esta referência alternativa também seja um pouco diferente do rearranjo esperado (por exemplo, pode também conter uma variante germinativa próxima);e) comparar, por exemplo, alinhando, uma leitura com dita sequência de referência de rearranjo pré- selecionada; ef) opcionalmente, determinar se dita leitura atende a um critério de alinhamento predeterminado, por exemplo, um critério predeterminado pode ser um alinhamento de dita referência de rearranjo pré-selecionada com menos que um nível pré-selecionado de pareamento incorreto ou lacunas;desse modo, analisando uma leitura, contanto que, pelo menos X sequências de alinhamento de rearranjo pré-selecionadas únicas são usadas para analisar leituras para pelo menos X intervalos subgenômicos únicos, em que os únicos meios diferentes dos outros X-1, e X é igual a 2, 3, 4, 5, 10, 15, 20, 30, 50, 100, 300, 500, 1000, 2000 ou 3000.
Em uma modalidade, uma sequência de alinhamento de rearranjo pré-selecionada compreende uma sequência selecionada para permitir a identificação de dito rearranjo pré-selecionado, por exemplo, uma indel pré-selecionada.
Em uma modalidade, uma sequência de alinhamento de rearranjo pré-selecionado compreende uma sequência (por exemplo, a sequência ou seu complemento) correspondente ao dito rearranjo pré-selecionado, por exemplo, uma indel pré-selecionada.
Em uma modalidade, uma sequência de alinhamento de rearranjo pré-selecionado compreende uma sequência simulada (por exemplo, uma que é diferente da sequência da indel ou seu complemento) selecionada para alinhar-se com uma leitura da dita sequência pré-selecionada.
Em uma modalidade, uma sequência de alinhamento de rearranjo pré-selecionada compreende sequência, por exemplo, sequência simulada, flanqueando um ou ambos os lados do rearranjo.
Em uma modalidade, uma sequência de alinhamento de rearranjo pré-selecionada compreende sequência, por exemplo, sequência simulada, de uma junção de dito rearranjo.
Em uma modalidade, o alinhamento é realizado por uma sequência de alinhamento de rearranjo pré- selecionada que é pré-selecionada para um tipo de tumor.
Em uma modalidade, um alinhamento de leitura parcial é realizado, por exemplo, menos que toda a leitura está alinhada, por exemplo, menos de 90, 80, 70, 50, 50, 40, 30, 20 ou 10% da leitura está alinhada.
Em uma modalidade, o método compreende a utilização dos primeiros métodos de alinhamento otimizados para um intervalo subgenômico associado com um rearranjo e um segundo método de alinhamento otimizado para um intervalo subgenômico associado com um rearranjo.
Em uma modalidade, o método ainda inclui:(g) selecionar ou aplicar um método de alinhamento para analisar, por exemplo, alinhando, dita leitura,desse modo, analisando dita leitura,contanto que dito método de alinhamento seja uma função de, seja selecionado responsivo a, ou seja otimizado para, um ou mais ou todos de:i) tipo de tumor, por exemplo, o tipo de tumor em dita amostra;ii) o gene, ou tipo de gene, em que dito intervalo subgenômico sendo sequenciado está localizado, por exemplo, em que o gene ou o tipo de gene está associado a uma probabilidade pré-selecionada para uma variante ou tipo de variante, por exemplo, uma mutação;iii) o local (por exemplo, posição de nucleotídeo) sendo analisado;iv) o tipo de variante, por exemplo, uma substituição, associada ao intervalo subgenômico sendo avaliado;v) o tipo de amostra, por exemplo, uma amostra de FFPE; e vi) sequência em ou perto de dito intervalo subgenômico sendo avaliada, por exemplo, a propensão esperada para desalinhamento para o intervalo subgenômico dito, por exemplo, a presença de sequências repetidas em ou perto do intervalo subgenômico dito.
Como referido em outro lugar aqui, um método é particularmente eficaz quando o alinhamento de leituras para um número relativamente grande de intervalos subgenômicos é otimizado. Assim, em uma modalidade, pelo menos X métodos de alinhamento únicos são usados para analisar leituras para pelo menos X intervalos subgenômicos únicos, em que único quer dizer diferente dos outros X-1 e X é igual a 2, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes da Tabela 1 ou 1A são analisados, e X é igual a 2, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes da Tabela 1 ou 1A, tendo a anotação de prioridade 1 são analisados, e X é igual a 2, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100 genes diferentes.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 20, 40, 60, 80, 100, 120, 140, 160 ou 180 genes, por exemplo, genes de Tabela 1 ou 1A, é atribuído um valor de nucleotídeo. Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 5, 10, 20, 30 ou 40 genes da Tabela 1 ou 1A tendo a anotação de prioridade 1 é atribuído um valor de nucleotídeo. Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em um a modalidade, uma posição de nucleotídeo para pelo menos 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 ou 500 variantes ou códons, por exemplo, da Tabela 1, 2 ou 3, é atribuído um valor de nucleotídeo. Em uma modalidade, um método de alinhamento único é aplicado para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, o método compreende:aplicar um método de alinhamento único para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, por exemplo, em que cada um dos intervalos subgenômicos ditos está localizado em um gene diferente.
Em uma modalidade, o método compreende:aplicar um método de alinhamento único para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo de tumor, por exemplo, em que a variante é um rearranjo, por exemplo, uma deleção, inserção ou translocação, e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, em que cada um de ditos intervalos subgenômicos está localizado em um gene diferente.
Em uma modalidade: um primeiro método de alinhamento único é aplicado a uma primeira posição de nucleotídeo pré- selecionada, uma variante que está associada com um fenótipo tumoral, (por exemplo, uma variante prevista na Tabela 10, por exemplo, para variantes indel nos cânceres epiteliais comuns: pulmão, mama, cólon, próstata),um segundo método de alinhamento único é aplicado a um nucleotídeo pré-selecionado diferente da primeira posição de nucleotídeo pré-selecionada, por exemplo, uma posição não tendo nenhuma variante com um fenótipo tumoral (por exemplo, uma sequência não presente como uma variante na Tabela 10).
Em uma modalidade, o método compreende:vii) aplicar um primeiro método de alinhamento único para um primeiro intervalo genômico, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual, por exemplo, uma mutação na Tabela 6;viii) aplicar um segundo método de alinhamento único para um segundo intervalo genômico, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é um rearranjo, por exemplo, uma deleção, inserção ou translocação, por exemplo, uma mutação na Tabela 5; eix) adquirir e aplicar um terceiro método de alinhamento único para um terceiro intervalo genômico, por exemplo, um intervalo genômico em que variantes não são associadas com um fenótipo tumoral ou com um tumor do tipo na dita amostra.
Em uma modalidade, o gene ou tipo de gene é:um oncogene, que pode ser associado com, por exemplo, mutações de ativação em domínios de tirosina quinase;um supressor de tumor que pode estar com mutações desativantes (por exemplo, sem sentido); ouum gene relacionado a droga ADME, que pode estar com variação genética germinativa de atividade alta ou atividade baixa.
Em uma modalidade, selecionar um método de alinhamento compreende, selecionar um parâmetro (ou um valor para o mesmo) para uso em um algoritmo de alinhamento, por exemplo, uma recompensa de pareamento, penalidade de pareamento incorreto, penalidade de lacuna (por exemplo, uma penalidade de abertura de gap, penalidade de extensão de gap), limite esperado, tamanho da palavra, filtro ou máscara. O parâmetro (ou valor para o mesmo) pode ser selecionado a partir de um painel de parâmetros pré- selecionados, por exemplo, os parâmetros definidos pelas fronteiras ou limites pré-selecionados.
Em uma modalidade, quando alinhando (ou, otimizando alinhamentos) para um gene que contém uma substituição cancerígena conhecida e uma indel germinativa conhecida, penalidades de gap podem ser reduzidas para que a variante germinativa seja capturada corretamente e não afete adversamente o alinhamento em torno da mutação somática de interesse.
Em uma modalidade, selecionar um método de alinhamento compreende selecionar um parâmetro de penalidade de pareamento incorreto de diferença máxima para um gene com uma alta probabilidade de conter uma substituição.
Em uma modalidade, selecionar um método de alinhamento compreende, selecionar um algoritmo de alinhamento, por exemplo, selecionar um algoritmo mais lento, porém mais preciso, por exemplo, um alinhamento de Smith-Waterman ao invés de um algoritmo mais rápido, por exemplo, BWA, ou selecionar otimização do alinhamento usando um método de alinhamento múltiplo como CLUSTALW.
Em uma modalidade, dito método de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para, uma característica da amostra de ácido nucleico, por exemplo, idade da amostra, fonte de tecido da amostra (por exemplo, pancreática), presença de exposição da substância cancerígena/mutagênica (por exemplo, tabagismo, UV), qualidade da amostra de ácido nucleico (por exemplo, o nível de fragmentação de ácido nucleico) na amostra.
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50) método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (i).
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50), método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (ii).
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50), método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (iii).
Em uma modalidade, um primeiro método de alinhamento é função de, é selecionado responsivo a ou é otimizado para (i), um segundo método de alinhamento é função de, é selecionado sensível a, ou é otimizado para (ii), e é função de um terceiro método de alinhamento, é selecionado responsivo a ou é otimizado para (iii).
Em uma modalidade, alinhamento de pelo menos um método é uma função de, é selecionado responsivo a ou é otimizado para, (i) e um ou mais de (ii), (iii), (iv), (v) ou (vii).
Em uma modalidade, pelo menos X (onde X é 1, 2, 3, 4, 5, 10, 15, 20, 30, 40 ou 50) método(s) de alinhamento é uma função de, é selecionado responsivo a ou é otimizado para (ii) e uma ou mais de (ii), (iii), (iv), (v), ou (vii).
Em uma modalidade, o alinhamento dito método é uma função de, é selecionado responsivo a ou é otimizado para, o gene, ou tipo de gene, por exemplo, no qual o gene ou o tipo de gene está associado a uma probabilidade pré-selecionada ou tipo de variante, por exemplo, mutação.
Em uma modalidade, o dito método de alinhamento fornece:ajustar, definir ou usar parâmetros de penalidade de pareamento incorreto de diferença máxima para um gene tendo uma alta probabilidade de conter substituições;ajustar, definir ou usar parâmetros de penalidade de lacuna para um gene tendo uma alta probabilidade de conter indels (por exemplo, EGFR em NSCLC);ajustar, definir ou usar parâmetros de penalidade de pareamento incorreto específicos com base nos tipos de mutação específicos que são comuns em um tipo de tumor pré-selecionado (por exemplo, C^T em melanoma); ouajustar, definir ou usar parâmetros de penalidade de pareamento incorreto específicos com base nos tipos de mutação específicos que são comuns em certos tipos de amostra (por exemplo, substituições são comuns em FFPE).
Em uma modalidade, o método compreende a utilização de primeiros métodos de alinhamento otimizados para um intervalo subgenômico não associado com um rearranjo e um segundo método de alinhamento otimizado para um intervalo subgenômico associado com um rearranjo.
Em uma modalidade, um parâmetro de alinhamento, por exemplo, penalidade de abertura/extensão de gap, é ajustado, por exemplo, reduzido.
Em uma modalidade, o método inclui a aplicação de 1, 2, 3, 4 ou todos os seguintes (nas modalidades, um grupo de 2 ou mais dos seguintes são incluídos e os métodos de alinhamento para cada um dos grupos são únicos):(i) um primeiro método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de alto nível (por exemplo, um gene, éxon ou base) para o qual a cobertura mais profunda é necessária para permitir um alto nível de sensibilidade para as mutações que aparecem com uma frequência relativamente baixa. Por exemplo, um método de alinhamento selecionado responsivo a ou otimizado para uma variante, por exemplo, uma mutação pontual, que aparecem com uma frequência de 5% ou menos nas células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >500X ou maior profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é um éxon que frequentemente sofre mutação em um câncer pré-selecionado;(ii) um segundo método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de nível médio (por exemplo, um gene, éxon ou base) para a qual cobertura alta (embora nas modalidades menos do que em (i) acima) é necessário para permitir um alto nível de sensibilidade para as mutações que aparecem com uma frequência relativamente alta, por exemplo, com uma frequência mais elevada do que uma mutação em (i) acima. Por exemplo, um método de alinhamento selecionado responsivo a ou otimizado para uma variante, por exemplo, uma mutação pontual, que aparecem com uma frequência maior que 5% e de até 10, 15 ou 20% nas células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >200X ou maior profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é em um gene relacionado a câncer;(iii) um terceiro método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de baixo nível (por exemplo, um gene, éxon ou base) para o qual a baixa a média cobertura (nas modalidades menos que em (i) ou (ii) acima) é necessário para permitir um alto nível de sensibilidade para alelos heterozigotos. Por exemplo, um método de alinhamento que está selecionado responsivo a, ou otimizado para, uma variante, por exemplo, (1) um SNP farmacogenômico pode ser associado com a capacidade do paciente em responder ou metabolizar uma droga; (2) um SNP genômico que pode ser usado para identificar com exclusividade (fingerprint) um paciente; ou (3) um SNP/loci genômico que pode ser utilizado para avaliar ganhos/perdas em números de cópias de DNA genômico e LOH;(iv) um quarto método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo de nível médio (por exemplo, um ponto de interrupção estrutural, por exemplo, em um rearranjo, por exemplo, uma translocação ou uma indel). Nas modalidades a cobertura é menor do que em um de (i) (ii) ou (111) . Por exemplo, um método de alinhamento que é selecionado responsivo a, ou otimizado para, uma variante, por exemplo, um ponto de interrupção intrônica, que nas modalidades requer profundidade de abrangência de 5-50 X pares de sequências para garantir a confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer com propensão a translocação/indel; e(v) um quinto método de alinhamento que é selecionado responsivo a, ou é otimizado para, um alvo como um alvo íntron para o qual a cobertura esparsa pode melhorar a capacidade de detectar alterações de números de cópia. Nas modalidades a cobertura é menor do que em um de (i), (ii), (iii) ou (iv). Por exemplo, a detecção de uma 1 deleção de cópia de vários éxons terminais requer cobertura de 0,1-10X para garantir a confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer propenso a amplificação/deleção.
Em uma modalidade, dito método alinhamento é aplicado após outro método de alinhamento é usado em uma tentativa, por exemplo, uma tentativa inaceitável, para alinhar uma leitura.
Em uma modalidade, o método ainda compreende selecionar e aplicar um segundo método de alinhamento em uma segunda ou subsequente tentativa de alinhar uma leitura para um intervalo subgenômico pré-selecionado. Por exemplo, em uma modalidade um primeiro método compreende o uso de um primeiro algoritmo, relativamente rápido, e um segundo método de alinhamento compreende o uso de um segundo algoritmo, mais lento, porém mais preciso.
Em uma modalidade, dito método de alinhamento compreende o algoritmo de alinhamento SmithWaterman ou um algoritmo de alinhamento semelhante, ou um algoritmo de alinhamento múltiplo como CLUSTALW.
Em uma modalidade, nos intervalos subgenômicos resistentes ao alinhamento exato (por exemplo, por qualquer método), montagem de novo ou guiada por referência é realizada usando métodos como ARACHNE ou Phusion.
Em uma modalidade, o a-c ou -b-c, são realizadas na sequência indicada acima.
Em uma modalidade, o método ainda compreende:d) realizar uma comparação, por exemplo, uma comparação de alinhamento, de uma leitura com dito método de alinhamento selecionado (por exemplo, um algoritmo ou parâmetro pré-selecionado); ee) opcionalmente, determinar se dita leitura atende a um critério de alinhamento predeterminado, por exemplo, um critério predeterminado pode ser um alinhamento de uma referência com menos de um número de pareamento incorretos ou lacunas pré-selecionadas.
Em uma modalidade, o método compreende aquisição de uma leitura de sequência de nucleotídeos obtida a partir de uma amostra de ácido nucleico tumoral e/ou controle (por exemplo, uma amostra de ácido nucleico derivado de FFPE).
Em uma modalidade, as leituras são fornecidas por um método de sequenciamento NGS.
Em uma modalidade, o método inclui fornecer uma biblioteca de membros de ácido nucleico e sequenciar um intervalo subgenômico pré-selecionado de uma pluralidade de membros de dita biblioteca. Nas modalidades, o método pode incluir uma etapa de seleção de um subconjunto de dita biblioteca para arranjar em sequência, por exemplo, uma seleção baseada em solução.
Em uma modalidade, (c) compreende selecionar o método de alinhamento por:f) aquisição de um valor para um seletor de alinhamento para um intervalo subgenômico, por exemplo, um intervalo subgenômico compreendendo uma posição do nucleotídeo associada com uma variante, por exemplo, uma substituição ou um rearranjo, por exemplo, uma indel; eg) responsivo a dito valor adquirido para seletor de alinhamento, selecionar um método de alinhamento para analisar, por exemplo, alinhando, uma leitura.contanto que dito seletor de alinhamento seja uma função de, seja selecionado responsivo a, ou seja otimizado para, um ou mais ou todos:i) tipo de tumor, por exemplo, o tipo de tumor na dita amostra;ii) o gene, ou tipo de gene, em que o dito intervalo subgenômico sendo sequenciado está localizado, por exemplo, em que o gene ou o tipo de gene está associado a uma probabilidade pré-selecionada ou tipo de variante, por exemplo, mutação;iii) o local (por exemplo, posição do nucleotídeo) sendo analisado;iv) o tipo de variante, por exemplo, uma substituição, associada ao intervalo subgenômico sendo avaliado;v) o tipo de amostra, por exemplo, uma amostra de FFPE; evi) sequência em ou perto de dito intervalo subgenômico sendo avaliado, por exemplo, a propensão esperada para desalinhamento para dito intervalo subgenômico, por exemplo, a presença de sequências repetidas em ou perto de dito intervalo subgenômico.
Em uma modalidade, dito método de alinhamento é uma função de uma característica de uma amostra de ácido nucleico, por exemplo, idade da amostra, fonte de tecido da amostra (por exemplo, pancreática), presença de exposição à substância cancerígena/mutagênica (por exemplo, tabagismo, UV), qualidade da amostra de ácido nucleico (por exemplo, o nível de fragmentação de ácido nucleico) na amostra.
Em uma modalidade, por exemplo, após o fracasso de um (ou mais de um) método de alinhamento, o método compreende montagem (com, por exemplo, o método ARACHNE) de leituras desalinhadas, por exemplo, para recuperar um novo rearranjo complexo.
Alinhamento de leituras mais difíceis
Os métodos divulgados aqui permitem o alinhamento rápido e eficiente de leituras problemáticas. O método é particularmente eficaz quando o alinhamento de leituras para um número relativamente grande de intervalos subgenômicos diversos é otimizado. A título de exemplo, um método de analisar uma amostra tumoral pode incluir: opcionalmente, sequenciar ácidos nucleicos para adquirir uma leitura;opcionalmente, adquirir uma leitura (por exemplo, aquisição de leituras de sequência de nucleotídeos obtida a partir de uma amostra de ácido nucleico tumoral e/ou controle (por exemplo, uma amostra de ácido nucleico derivado de FFPE)).realizar uma comparação, por exemplo, uma comparação de alinhamento, de uma leitura sob um primeiro conjunto de parâmetros (por exemplo, um primeiro algoritmo de mapeamento ou com uma primeira sequência de referência) e determinar se dita leitura alcança um primeiro critério de alinhamento predeterminado (por exemplo, a leitura pode ser alinhada com dita primeira sequência de referência, por exemplo, com menos de um número pré-selecionado de pareamento incorretos);se dita leitura não satisfaz o primeiro critério de alinhamento predeterminado, realizar uma segunda comparação de alinhamento sob um segundo conjunto de parâmetros (por exemplo, um segundo algoritmo de mapeamento ou com uma segunda sequência de referência); e,opcionalmente, determinar se dita leitura alcança o segundo critério predeterminado (por exemplo, a leitura pode ser alinhada com dita segunda sequência de referência com menos de um número pré- selecionado de pareamento incorretos),em que dito segundo conjunto de parâmetros compreende o uso de um conjunto de parâmetros, por exemplo, dita segunda sequência de referência, que, comparada com dito primeiro conjunto de parâmetros, é mais provável que resulte em um alinhamento com uma leitura para uma variante pré-selecionada, por exemplo, um rearranjo, por exemplo, uma inserção, deleção ou translocação.desse modo, analisando uma leitura.
Em uma modalidade, dita segunda sequência de referência é composta por sequências flanqueando uma variante pré-selecionada, por exemplo, um rearranjo cromossômico, por exemplo, uma inserção, deleção ou translocação.
Em uma modalidade, dita segunda sequência de referência é composta por sequências designadas para alinhar com uma leitura de uma variante pré-selecionada, por exemplo, um rearranjo cromossômico, por exemplo, uma inserção, deleção ou translocação.
Em uma modalidade, dita segunda sequência de referência compreende uma sequência selecionada para permitir a identificação de dito rearranjo pré-selecionado, por exemplo, uma indel pré-selecionada.
Em uma modalidade, dita segunda sequência de referência compreende uma sequência (por exemplo, a sequência ou seu complemento) correspondente ao dito rearranjo pré-selecionado, por exemplo, uma indel pré-selecionada.
Em uma modalidade, dita segunda sequência de referência compreende uma sequência simulada (por exemplo, uma que é diferente da sequência da indel ou seu complemento) selecionada para alinhar-se com uma leitura da dita sequência pré-selecionada.
Em uma modalidade, dita segunda sequência de referência compreende sequência, por exemplo, sequência simulada, flanqueando um ou ambos os lados do rearranjo.
Em uma modalidade, dita segunda sequência de referência compreende sequência, por exemplo, sequência simulada, flanqueando um ou ambos os lados de dito rearranjo.
Chamada de Mutação
Chamada de base refere-se aos dados brutos de um dispositivo de sequenciamento. Chamada de mutação refere-se ao processo de selecionar um valor de nucleotídeo, por exemplo, A, G, T ou C, para uma posição de nucleotídeo sendo sequenciada. Tipicamente, as leituras de sequenciamento (ou chamada de base) para uma posição fornecerão mais de um valor, por exemplo, algumas leituras gerarão um T e algumas gerarão um G. Chamada de mutação é o processo de atribuição de um valor de nucleotídeo, por exemplo, um destes valores para a sequência. Embora seja referido como chamada de “mutação”, pode ser aplicada para atribuir um valor de nucleotídeo para qualquer posição de nucleotídeo, por exemplo, posições correspondentes aos alelos mutantes, alelos selvagens, alelos que não foram caracterizados como mutantes ou selvagens, ou posições não caracterizadas por variabilidade. Métodos para chamada de mutação podem incluir um ou mais dos seguintes: preparar chamadas independentes com base na informação em cada posição na sequência de referência (por exemplo, examinar as leituras de sequência; examinar as chamadas de base e índices de qualidade; Calcular a probabilidade de bases observadas e índices de qualidade dado um potencial genótipo; e atribuir genótipos (por exemplo, usar regra de Bayes)); remover falsos positivos (por exemplo, usar limiares de profundidade para rejeitar SNPs com profundidade de leitura muito menor ou maior que o esperado; realinhamento local para remover falsos positivos devido a pequenas indels); e realizar desequilíbrio de ligação (LD)/análise baseada em imputação para refinar as chamadas.
Equações para calcular a probabilidade de genótipo associado com um genótipo específico e posição são descritos, por exemplo, em Li H. e Durbin R. Bioinformatics, 2010; 26(5): 589-95. A expectativa prévia para uma mutação específica em determinado tipo de câncer pode ser usada ao avaliar amostras desse tipo de câncer. Esta probabilidade pode ser derivada de bases de dados públicas de mutações de câncer, por exemplo, Catalogue of Somatic Mutation in Cancer (COSMIC), HGMD (Human Gene Mutation Database), The SNP Consortium, Breast Cancer Mutation Data Base (BIC), e Breast Cancer Gene Database (BCGD)
Exemplos de LD/imputação com base em análise são descritos, por exemplo, em Browning B.L. e Yu Z. Am. J. Hum. Genet. 2009, 85(6):847-61. Exemplos de métodos de chamada de SNP de baixa cobertura são descritos, por exemplo, em Li Y. et al., Annu. Rev. Genômicos Hum. Genet. 2009, 10:387-406.
Chamada de Mutação: Substituições
Após alinhamento, a detecção de substituições pode ser feita usando um método de chamada, por exemplo, método de chamada de mutação Bayesiano; que é aplicado para cada base em cada um dos intervalos subgenômicos, por exemplo, éxons do gene a ser avaliado, onde observa-se a presença de alelos alternativos. Este método irá comparar a probabilidade de observar os dados lidos na presença de uma mutação com a probabilidade de observar os dados lidos na presença de erro somente na chamada de base. Mutações podem ser chamadas se essa comparação é suficiente e fortemente favorável à presença de uma mutação.
Foram desenvolvidos métodos que endereçam desvios limitados de frequências de 50% ou 100% para a análise de DNA cancerígeno, (por exemplo, SNVMix -Bioinformatics. 2010 March 15; 26(6): 730736.) Método divulgado aqui, no entanto, permite consideração da possibilidade da presença de um alelo mutante em qualquer lugar entre 1% e 100% da amostra de DNA e especialmente em níveis inferiores a 50%, esta abordagem é particularmente importante para a detecção de mutações em amostras de DNA tumoral natural (multiclonal) de amostras de FFPE de baixa pureza.
Uma vantagem de uma abordagem de detecção de mutação Bayesiana é que a comparação da probabilidade da presença de uma mutação com a probabilidade de somente erro de chamada de base pode ser ponderada por uma expectativa prévia da presença de uma mutação no local. Se algumas leituras de um alelo alternativo são observadas em um local frequentemente mutado para determinado tipo de câncer, então a presença de uma mutação pode ser confiantemente chamada mesmo se a quantidade de evidência de mutação não atender aos limites habituais. Essa flexibilidade pode ser usada para aumentar a sensibilidade de detecção para amostras de mutações ainda mais baixas/baixa pureza, ou para tornar o teste mais robusto para diminuições na cobertura de leitura. A probabilidade de um par de bases aleatório no genoma sendo transformado em câncer é ~1e-6. A probabilidade de mutações específicas em muitos locais em um painel de genoma cancerígeno multigênico típico pode ser de ordens de magnitude maior. Estas probabilidades podem ser derivadas de bases de dados públicas de mutações de câncer (por exemplo, COSMIC). Por exemplo, para um dos genes a serem analisados, KRAS, as seguintes expectativas prévias de mutações fornecidas na Tabela 6 podem ser usadas ao avaliar amostras de câncer de cólon: Tabela 6: Expectativas Prévias Exemplares para gene KRAS em Câncer de Cólon
Figure img0002
Figure img0003
Dita tabela pode ser criada e usada no algoritmo de chamada de mutação para qualquer gene no teste de multigene onde informações suficientes nos bancos de dados públicos estiver disponível.
Chamada de Mutação: Indels
Chamada de indel é um processo de encontrar bases nos dados de sequenciamento que diferem da sequência de referência por inserção ou deleção, geralmente incluindo uma índice de confiança ou métrica de evidência estatística associado.
Métodos de chamada de indel podem incluir as etapas de identificação de indel candidata, calcular probabilidade de genótipo através do realinhamento do local e realizar inferência do genótipo baseado em LD e chamada. Tipicamente, uma abordagem Bayesiana é usada para obter as potenciais indels candidatas e então estas candidatas são testadas em conjunto com a sequência de referência em um quadro Bayesiano.
Algoritmos para gerar indels candidatas são descritos, por exemplo, em McKenna A. et al., Genome Res. 2010; 20(9):1297-303; Ye K. et al., Bioinformatics, 2009; 25(21):2865-71; Lunter G. e Goodson M. Genome Res. 2010, publicação eletrônica antes da impressão; Li H. et al., Bioinformatics 2009, Bioinformatics 25(16):2078-9.
Métodos para gerar chamadas de indel e probabilidades do genótipo de nível individual incluem, por exemplo, o algoritmo de Dindel (Albers C.A. et al., Genome Res. 2010 Oct 27, [publicação eletrônica antes da impressão]). Por exemplo, o algoritmo Bayesiano EM pode ser usado para analisar as leituras, preparar chamadas de indel iniciais e gerar probabilidades de genótipo para cada indel candidata, seguido por imputação de genótipos, usando, por exemplo, QCALL (Le S.Q. e Durbin R. Genome Res. 2010 Oct 27. publicação eletrônica antes da impressão). Parâmetros, como expectativas prévias de observação da indel podem ser ajustados (por exemplo, aumentados ou diminuídos), com base no tamanho ou localização das indels.Tabela 9: Locais do Genoma Frequentemente Mutados em Quatro Cânceres Epiteliais Comuns (Ordenados por frequência)
Figure img0004
Figure img0005
Figure img0006
Figure img0007
Figure img0008
Tabela 10: Posições de Indels Comuns em Quatro Cânceres Epiteliais Comuns
Figure img0009
Figure img0010
Figure img0011
Figure img0012
Tabela 11: Genes Ordenados por Valor de Limiar de Chamada (Baixo para Alto) em Quatro Cânceres Epiteliais Comuns
Figure img0013
Figure img0014
Módulo de Chamada de Mutação
Métodos divulgados aqui preveem o uso de parâmetros de chamada de mutação personalizados ou ajustados para otimizar o desempenho de métodos de sequenciamento, particularmente em métodos que dependem de sequenciamento massivamente paralelo de um grande número de diversos eventos genéticos em um grande número de genes diferentes, por exemplo, amostras de tumor. Nas modalidades do método de chamada de mutação para cada um de um número de intervalos subgenômicos pré-selecionados, individualmente, personalizados ou bem ajustados. A personalização ou ajuste pode ser baseado em um ou mais dos fatores descritos aqui, por exemplo, o tipo de câncer em uma amostra, o gene no qual intervalo subgenômico a ser sequenciado está localizado, ou a variante a ser sequenciada.
Esta seleção ou uso de condições de alinhamento finamente ajustadas para um número de intervalos subgenômicos a serem sequenciados permite a otimização da velocidade, sensibilidade e especificidade. O método é particularmente eficaz quando o alinhamento de leituras para um número relativamente grande de intervalos subgenômicos diversos é otimizado.
Assim, em um aspecto, a invenção apresenta um método de análise de uma amostra, por exemplo, uma amostra do tumor. O método compreende:(a) aquisição de uma biblioteca, composta por uma pluralidade de membros de uma amostra, por exemplo, uma pluralidade de membros tumorais de uma amostra tumoral;(b) opcionalmente, enriquecer a biblioteca para sequências pré-selecionadas, por exemplo, contatando a biblioteca com um conjunto de iscas (ou pluralidade de conjuntos de iscas) para fornecer membros selecionados (por vezes referidos aqui como captura de biblioteca); (c) aquisição de uma leitura para um intervalo subgenômico de um membro, por exemplo, um tumor de dita biblioteca ou captura de biblioteca, por exemplo, por um método compreendendo sequenciamento, por exemplo, com um método de sequenciamento de geração seguinte;(d) alinhar dita leitura por um método de alinhamento, por exemplo, um método de alinhamento descrito aqui; e(e) atribuir um valor de nucleotídeo (por exemplo, chamar uma mutação, por exemplo, com um método Bayeisano) de dita leitura para a posição do nucleotídeo pré-selecionado,assim, analisando dita amostra do tumor,em que um valor de nucleotídeo é atribuído para uma posição de nucleotídeos em cada um dos X intervalos subgenômicos únicos é atribuído por um método de chamada único, em que intervalo subgenômico único significa diferente dos outros intervalos subgenômicos X-1, e no qual método de chamada único significa diferente de outros métodos de chamada X-1, e X é pelo menos 2. Os métodos de chamada podem diferir e, desse modo; serem únicos, por exemplo, por depender de diferentes valores prévios Bayesianos.
Em uma modalidade, a etapa (b) está presente. Em uma modalidade, etapa (b) está ausente.
Em uma modalidade, atribuir dito valor de nucleotídeo é uma função de um valor que é ou representa a expectativa prévia (por exemplo, literatura) de observar uma leitura mostrando uma variante pré- selecionada, por exemplo, uma mutação, na posição de dito nucleotídeo pré-selecionada em um tumor do tipo.
Em uma modalidade, o método compreende atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) para pelo menos 10, 20, 40, 50, 60, 70, 80, 90 ou 100 posições de nucleotídeo pré- selecionadas, em que cada atribuição é uma função de um valor único (em oposição ao valor para as outras atribuições) que é ou representa a expectativa prévia (por exemplo, literatura) de observar uma leitura mostrando uma variante pré-selecionada, por exemplo, uma mutação, em dita posição do nucleotídeo pré- selecionada em um tumor do tipo.
Em uma modalidade, atribuir dito valor de nucleotídeo é uma função de um conjunto de valores que representam as probabilidades de se observar uma leitura mostrando dita variante pré-selecionada em dita posição de nucleotídeo pré-selecionada se a variante está presente na amostra em uma frequência (por exemplo, 1%, 5%, 10%, etc.) e/ou se a variante está ausente (por exemplo, observada na leitura devido somente a um erro de chamada de base);
Assim, um método para analisar uma amostra de tumor pode incluir um método de chamada de mutação. Os métodos de chamada de mutação descritos aqui podem incluir o seguinte:(f) adquirir, para uma posição de nucleotídeo pré-selecionada em cada um dos ditos intervalos subgenômicos de X:(i) um primeiro valor que é ou representa uma expectativa prévia (por exemplo, literatura) de observar uma leitura mostrando uma variante pré-selecionada, por exemplo, uma mutação, em dita posição de nucleotídeo pré-selecionada em um tumor do tipo X; e(ii) um segundo conjunto de valores que representam as probabilidades de se observar uma leitura mostrando dita variante pré-selecionada na dita posição de nucleotídeo pré-selecionada se a variante está presente na amostra em uma frequência (por exemplo, 1%, 5%, 10%, etc.) e/ou se a variante está ausente (por exemplo, observada nas leituras devido somente a um erro de chamada de base);(g) responsivo a ditos valores, atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) de dita leitura para cada uma das ditas posições de nucleotídeos pré-selecionadas por ponderação, por exemplo, por um método Bayesianoo aqui descrito, a comparação entre os valores no segundo conjunto usando o primeiro valor (por exemplo, computar a probabilidade posterior da presença de uma mutação), desse modo, analisar dita amostra.Em uma modalidade, o método compreende um ou mais ou todos de:(i) atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) para pelo menos 10, 20, 40, 50, 60, 70, 80, 90 ou 100 posições de nucleotídeo pré-selecionadas, onde cada atribuição baseia-se em um primeiro ou segundo valor único (em oposição às outras atribuições);(ii) a atribuição de método de (i), em que pelo menos 10, 20, 30 ou 40 das atribuições são feitas com primeiros valores que são uma função de probabilidade de uma variante pré-selecionada sendo presente em menos de 5, 10 ou 20%, por exemplo, das células em um tipo de tumor pré-selecionado;(iii) atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) para pelo menos X posições de nucleotídeos pré-selecionadas, cada um dos quais estando associado com uma variante pré- selecionada tendo uma única (em oposição às outras atribuições de X-1) probabilidade de estar presente em um tumor do tipo pré-selecionado, por exemplo, o tipo de tumor de dita amostra, em que, opcionalmente, cada dita das X atribuições é baseada em um primeiro ou segundo valor único (em oposição às outras atribuições de X-1) (onde X= 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100);(iv) atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) em uma primeira e uma segunda posição de nucleotídeo, em que a probabilidade de uma primeira variante pré-selecionada na dita primeira posição de nucleotídeo estar presente em um tumor do tipo pré-selecionado (por exemplo, o tipo de tumor de dita amostra) é pelo menos 2, 5, 10, 20, 30 ou 40 vezes maior que a probabilidade de uma segunda variante pré-selecionada em dita segunda posição de nucleotídeo estando presente, em que, opcionalmente, cada atribuição é baseada em um primeiro ou segundo valor único (em oposição às outras atribuições);(v) atribuir um valor de nucleotídeo de uma pluralidade de posições de nucleotídeo pré-selecionadas (por exemplo, chamando mutações), em que dita pluralidade compreende uma atribuição para variantes estando em um ou mais, por exemplo, pelo menos, 3, 4, 5, 6, 7, ou todas, dos seguintes intervalos de probabilidade:menos do que 0,01; 0,01-0,02;maior do que a 0,02 e menor ou igual a 0,03;maior do que a 0,03 e menor ou igual a 0,04;maior do que a 0,04 e menor ou igual a 0,05;maior do que a 0,05 e menor ou igual a 0,1;maior do que a 0,1 e menor ou igual a 0,2;maior do que a 0,2 e menor ou igual a 0,5;maior do que a 0,5 e menor ou igual a 1,0; maior do que a 1,0 e menor ou igual a 2,0;maior do que a 2,0 e menor ou igual a 5,0;maior do que a 5,0 e menor ou igual a 10,0;maior do que a 10,0 e menor ou igual a 20,0;maior do que a 20,0 e menor ou igual a 50,0;emaior do que a 50 e menor ou igual a 100%;em que um intervalo de probabilidade é o intervalo de probabilidades que uma variante pré- selecionado em uma posição de nucleotídeo pré-selecionado estará presente em um tumor do tipo pré- selecionado (por exemplo, o tipo de tumor de dita amostra) ou a probabilidade que uma variante pré- selecionada em uma posição de nucleotídeo pré-selecionada estará presente no % mencionado das células em uma amostra de tumor, biblioteca de amostra de tumor, ou captura de biblioteca daquela biblioteca, para um tipo pré-selecionado (por exemplo, o tipo de tumor de dita amostra), eem que, opcionalmente, cada atribuição é baseada em um primeiro e/ou segundo valor único (por exemplo, único, como em oposição às outras atribuições em um intervalo de probabilidade mencionado ou único em oposição aos primeiros ou segundos valores para um ou mais ou todos os outros intervalos de probabilidade listados).(vi) atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) pelo menos 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100 posições de nucleotídeo pré-selecionadas cada, de forma independente, tendo uma variante pré-selecionada presente em menos de 50, 40, 25, 20, 15, 10, 5, 4, 3, 2, 1, 0,5, 0,4, 0,3, 0,2 ou 0,1% do DNA em dita amostra, em que, opcionalmente, cada atribuição é baseada em um primeiro ou segundo valor único (em oposição às outras atribuições);(vii) atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) em uma primeira e uma segunda posição de nucleotídeo, em que a probabilidade de uma variante pré-selecionada na primeira posição no DNA de dita amostra é pelo menos 2, 5, 10, 20, 30 ou 40 vezes maior do que uma probabilidade de uma variante pré-selecionada na dita segunda posição de nucleotídeo no dito DNA da amostra, em que, opcionalmente, cada atribuição é baseada em um primeiro ou segundo valor único (em oposição às outras atribuições);(viii) atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) em um ou mais ou todas as seguintes características:(1) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em menos de 1,0% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca daquela biblioteca;(2) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em de 1,0-2,0% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;(3) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 2,0% e menos ou igual a 3% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca; (4) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 3,0% e menos ou igual a 4% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;(5) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 4,0% e menos ou igual a 5% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;(6) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 5,0% e menos ou igual a 10% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;(7) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 10,0% e menos ou igual a 20% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;(8) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 20,0% e menos ou igual a 40% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;(9) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 40,0% e menos ou igual a 50% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;ou(10) pelo menos 1, 2, 3, 4 ou 5 posições de nucleotídeo pré-selecionadas, tendo uma variante pré- selecionada presente em mais de 50,0% e menos ou igual a 100% das células na dita amostra, do ácido nucleico em uma biblioteca de dita amostra, ou o ácido nucleico em uma captura de biblioteca desta biblioteca;em que, opcionalmente, cada atribuição é baseada em um primeiro ou segundo valor único (por exemplo, único em oposição às outras atribuições no intervalo mencionado (por exemplo, o intervalo em (i) de menos de 1%) ou único em oposição a um primeiro ou segundo valor para uma determinação em um ou mais ou todos os outros intervalos listados); ou(ix) atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) em cada uma das X posições de nucleotídeo, cada posição de nucleotídeo, de forma independente, tendo uma probabilidade (de uma variante pré-selecionada, estando presente no DNA de dita amostra) que é único se comparado com a probabilidade para uma variante pré-selecionada nas outras posições de nucleotídeo X-1, em que X é igual a ou maior que 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90, ou 100, e no qual cada atribuição é baseada em um primeiro ou segundo valor único (em oposição às outras atribuições).
Em uma modalidade, o método inclui atribuir um valor de nucleotídeo em pelo menos 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100 posições de nucleotídeo pré-selecionadas, cada uma tendo, independentemente, um primeiro valor que é uma função de probabilidade que é menos de 0,5, 0,4, 0,25, 0,15, 0.10, 0.05, 0,04, 0,03, 0,02 ou 0,01.
Em uma modalidade, o método inclui atribuir um valor de nucleotídeo em cada de pelo menos X posições de nucleotídeo, cada uma de forma independente, tendo um primeiro valor que é único em comparação com os outros primeiros valores de X-1, e em que cada dito primeiro valor X é uma função de uma probabilidade que é inferior a 0,5, 0,4, 0,25, 0,15, 0,10, 0,05, 0,04, 0,03, 0,02 ou 0,01,
em que X é igual a ou maior que 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100.
Em uma modalidade, dito primeiro e/ou segundo valor é ponderado por uma expectativa prévia da presença de uma variante pré-selecionada na dita posição de nucleotídeo pré-selecionada, por exemplo, em função do tipo de tumor.
Em uma modalidade, o número de leituras necessário para atribuir um valor de nucleotídeo para uma posição de nucleotídeo pré-selecionada (por exemplo, chamando uma mutação) é inversamente proporcional à magnitude do primeiro valor.
Em uma modalidade, o número de leituras necessário para atribuir um valor de nucleotídeo para uma posição de nucleotídeo pré-selecionada (por exemplo, chamando uma mutação) é positivamente proporcional à magnitude da probabilidade da variante pré-selecionada.
Como referido em outro lugar aqui, um método é particularmente eficaz quando a chamada de mutações para um número relativamente grande de intervalos subgenômicos é otimizada. Assim, em uma modalidade, pelo menos X primeiro e/ou segundo valores únicos são usados para analisar leituras para pelo menos X intervalos subgenômicos únicos, em que único quer dizer diferente dos outros X-1 e X é igual a 2, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes da Tabela 1 são analisados, e X é igual a, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, intervalos subgenômicos de pelo menos X genes da Tabela 1, tendo a anotação de prioridade 1 são analisados, e X é igual a, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, primeiro e/ou segundo valores únicos é aplicado para intervalos subgenômicos em cada um de pelo menos 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100 genes diferentes.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 20, 40, 60, 80, 100, 120, 140, 160 ou 180 genes, por exemplo, genes de Tabela 1 ou 1A, é atribuído um valor de nucleotídeo. Em uma modalidade, primeiro e/ou segundo valores únicos são aplicados para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 5, 10, 20, 30 ou 40 genes da Tabela 1 ou 1A tendo a anotação de prioridade 1 é atribuído um valor de nucleotídeo. Em uma modalidade, primeiro e/ou segundo valores únicos são aplicados para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo para pelo menos 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 ou 500 variantes ou códons, por exemplo, mutações, da Tabela 1, 1A, 2 ou 3, é atribuído um valor de nucleotídeo. Em uma modalidade, primeiro e/ou segundo valores únicos são aplicados para intervalos subgenômicos em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, o método compreende: aplicar um método de alinhamento único para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, por exemplo, em que cada um dos ditos intervalos subgenômicos está localizado em um gene diferente.
Em uma modalidade, o método compreende:aplicar um método de alinhamento único para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, por exemplo, em que cada um dos ditos intervalos subgenômicos está localizado em um gene diferente.
Em uma modalidade, o método inclui a aplicação de 1, 2, 3, 4 ou todos os seguintes (nas modalidades, um grupo de 2 ou mais dos seguintes são incluídos e os primeiro e/ou segundo valores para cada um dos grupos são únicos):(i) responsivo aos primeiros e/ou segundos valores, atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) de leituras para uma primeira posição de nucleotídeo pré-selecionada para a qual, por exemplo, cobertura mais profunda é necessária para permitir um alto nível de sensibilidade para as mutações que aparecem em uma frequência relativamente baixa. Exemplos incluem uma variante, por exemplo, uma mutação pontual, que aparece com uma frequência de 5% ou menos nas células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >500X profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é um éxon que frequentemente sofre mutação em um câncer pré-selecionado;(ii) responsivo aos primeiro e/ou segundo valores, atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) de leituras para uma segunda posição de nucleotídeo pré-selecionada para a qual, por exemplo, alta cobertura (embora nas modalidades menos que em (i) acima) é necessária para permitir um alto nível de sensibilidade para mutações que aparecem em uma frequência relativamente alta, por exemplo, em uma frequência mais elevada do que uma mutação em (i) acima. Exemplos incluem uma variante, por exemplo, uma mutação pontual, que aparece com uma frequência maior que 5% e de até 10, 15 ou 20% em células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >200X profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é em um gene relacionado a câncer;(iii) responsivo aos primeiro e/ou segundo valores, atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) de leituras para uma terceira posição de nucleotídeo pré-selecionada para a qual, por exemplo, baixa a média cobertura (nas modalidades menos que em (i) ou (ii) acima) é necessária para permitir um alto nível de sensibilidade para alelos heterozigotos. Exemplos incluem uma variante, por exemplo, (1) um SNP farmacogenômico que pode ser associado com a capacidade do paciente em responder ou metabolizar uma droga; (2) um SNP genômico que pode ser usado para identificar com exclusividade (fingerprint) um paciente; ou (3) um SNP/loci genômico que pode ser utilizado para avaliar ganhos/perdas de números de cópias de DNA genômico e LOH;(iv) responsivo aos primeiro e/ou segundo valores, atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) de leituras para uma quarta posição de nucleotídeos pré-selecionada, por exemplo, um ponto de interrupção estrutural, por exemplo, em um rearranjo, por exemplo, uma translocação ou uma indel. Nas modalidades a cobertura é menor do que em um de (i), (ii) ou (iii). Exemplos incluem um ponto de interrupção intrônica, que nas modalidades requer profundidade abrangente de 5-50X de pares de sequência para garantir confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer com propensão a translocação/indel; e(v) responsivo aos primeiro e/ou segundo valores, atribuir um valor de nucleotídeo (por exemplo, chamando uma mutação) de leituras para uma quinta posição de nucleotídeo pré-selecionada para a qual, por exemplo, cobertura esparsa pode melhorar a capacidade de detectar alterações de números de cópia. Nas modalidades a cobertura é menor do que em um de (i), (ii), (iii) ou (iv). Por exemplo, a detecção de uma 1 deleção de cópia de vários éxons terminais, por exemplo, que requer cobertura de 0,1-10X para garantir a confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer propenso a amplificação/deleção.
Métodos divulgados aqui fornecem o uso de parâmetros de chamada de mutação personalizados ou ajustados para otimizar o desempenho de métodos de sequenciamento, particularmente em métodos que dependem de sequenciamento massivamente paralelo de um grande número de diversos eventos genéticos em um grande número de genes diferentes. Nas modalidades do método, um “valor de limiar” é usado para avaliar leituras e selecionar a partir das leituras um valor para uma posição de nucleotídeo, por exemplo, chamando uma mutação em uma posição específica em um gene. Nas modalidades do método, um valor de limiar para cada um de um número de intervalos subgenômicos pré-selecionados é personalizado ou finamente ajustado. A personalização ou ajuste pode ser baseado em um ou mais dos fatores descritos aqui, por exemplo, o tipo de câncer em uma amostra, o gene no qual intervalo subgenômico a ser sequenciado está localizado, ou a variante a ser sequenciada. Isto fornece a chamada que é finamente ajustada a cada um de um número de intervalos de subgenômicos a ser sequenciado. O método é particularmente eficaz quando um número relativamente grande de intervalos subgenômicos diversos é analisado.
Assim, em outro aspecto, um método de análise de uma amostra, por exemplo, uma amostra de tumor, de um sujeito é fornecido. O método compreende:(a) adquirir uma ou uma pluralidade de leituras para cada um dos X intervalos subgenômicos de ácido nucleico de dita amostra;(b) adquirir, para cada um dos ditos X intervalos subgenômicos, um valor de limiar, em que cada um dos ditos X valores de limiar adquiridos é único em comparação com os outros valores de limiar de X-1, assim, fornecendo X valores de limiares únicos;(c) para cada um dos ditos X intervalos subgenômicos, comparar um valor observado que é uma função do número de leituras, tendo um valor de nucleotídeo pré-selecionado em uma posição de nucleotídeo pré-selecionada com seu valor de limiar único, assim, aplicar a cada um dos ditos X intervalos subgenômico, seu valor de limiar único: e(d) opcionalmente, responsivo ao resultado de dita comparação, atribuir um valor de nucleotídeo para uma posição de nucleotídeo pré-selecionada,em que X é igual a ou maior que 2,assim, analisando dita amostra.
Modalidades do método podem ser aplicadas onde valores de limiar para um número relativamente grande de intervalos subgenômico são otimizados, como é visto, por exemplo, nas seguintes modalidades.
Em uma modalidade, X é pelo menos 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100.
Em uma modalidade, um valor de limiar único é aplicado para intervalos subgenômicos em cada um de pelo menos 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100 genes diferentes.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 20, 40, 60, 80, 100, 120, 140, 160 ou 180 genes, por exemplo, genes de Tabela 1 ou 1A, é atribuído um valor de nucleotídeo. Em uma modalidade, valor de limiar único é aplicado ao intervalo subgenômico em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo em pelo menos 5, 10, 20, 30 ou 40 genes da Tabela 1 ou 1A tendo a anotação de prioridade 1 é atribuído um valor de nucleotídeo. Em uma modalidade, valor de limiar único é aplicado ao intervalo subgenômico em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo para pelo menos 10, 20, 30, 40, 50, 100, 150, 200, 300, 400 ou 500 variantes ou códons, por exemplo, mutações, da Tabela 1, 1A, 2 ou 3, é atribuído um valor de nucleotídeo. Em uma modalidade, valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, uma posição de nucleotídeo para pelo menos 10, 20, 30, 40, 50, 100, ou 200, variantes ou códons, por exemplo, mutações, da metade inferior ou terço inferior da Tabela 9 é atribuído um valor de nucleotídeo. Em uma modalidade, valor de limiar único é aplicado para intervalo subgenômico em cada um de pelo menos 10, 20, 30, 40 ou 50% dos ditos genes analisados.
Em uma modalidade, o método compreende:adquirir e aplicar valores de limiar únicos para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, por exemplo, em que cada um dos ditos intervalos subgenômicos está localizado em um gene diferente.
Em uma modalidade, o método compreende:adquirir e aplicar valores de limiar únicos para cada um dos X intervalos genômicos, cada um dos quais tendo uma variante que é associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual e X é maior que 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100, por exemplo, em que cada um dos ditos intervalos subgenômicos está localizado em um gene diferente. Modalidades do método podem permitir o ajuste de valores de limiar em relação a outros valores de limiar usados em um aplicativo, como é visto, por exemplo, nas modalidades seguintes.
Em uma modalidade:valores de limiar únicos são aplicados aos intervalos subgenômicos para atribuir um valor de nucleotídeo para posições de nucleotídeo pré-selecionadas correspondentes a pelo menos 10, 20, 30, 40, 50, 75, 100, 150 ou 200 variantes, por exemplo, mutações, na Tabela 4, eX de ditos valores de limiar únicos aplicados tem um valor de limiar que é maior, por exemplo, 50% maior, do que outro valor de limiar usado no teste, por exemplo, o valor de limiar usado mais baixo, a média ou valor de limiar mediano usado, ou o valor de limiar para mutações relevantes clinicamente comuns como aquelas listadas na Tabela 9, em que X é igual a 1, 2, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade, uma posição de nucleotídeo para pelo menos 10, 20, 30, 40, 50, 100, ou 200 variantes, por exemplo, mutações, da metade maior do que ou terço maior do que da Tabela 9 é atribuído um valor de nucleotídeo, e opcionalmente, a atribuição transmitida a uma terceira parte. Nas modalidades: valores de limiar únicos são aplicados aos intervalos subgenômicos para atribuir um valor de nucleotídeo para posições de nucleotídeo pré-selecionadas correspondentes a pelo menos 10, 20, 30, 40, 50, 75, 100, 150 ou 200 variantes, eX de ditos valores de limiar únicos aplicados tem um valor de limiar que é menor, por exemplo, 50% menor, que outro valor de limiar usado no teste, por exemplo, valor de limiar máximo usado, a média ou valor de limiar mediano usado ou o valor de limiar para posições do genoma não previamente observadas sendo mutadas em câncer, onde X é igual a ou maior que 1, 2, 3, 4, 5, 10, 15, 20 ou 30.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 2, 3, 5, 7 ou 8 dos genes listados nos genes na Tabela 11 para câncer do intestino grosso, epara X combinações de dois (ou seja, uma combinação pareada) dos valores de limiar únicos aplicados, os membros da combinação pareada têm a mesma ordem de classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer do intestino grosso, valores de limiar únicos são aplicados a intervalos subgenômicos em APC, SMAD4 e CDNK2a (na ordem de valor de limiar baixo a alto). Assim, em cada uma das três combinações pareadas de APC/SMAD4, APC/CDNK2a e SMAD4/CDNK2a, ambos os membros de cada uma das combinações pareadas têm a mesma classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11 (por exemplo, APC é inferior a SMAD4 em ambos as modalidades na Tabela 11).
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 3, 5, 7 ou 8 dos genes listados nos genes na Tabela 11 para câncer do intestino grosso, epara X combinações de três (ou seja, uma combinação 3 vias) dos valores de limiar únicos aplicados, os membros da combinação 3 vias têm a mesma ordem de classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, ou 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer do intestino grosso, valores de limiar únicos são aplicados a intervalos subgenômicos em APC, SMAD4, CDNK2a e VHL (na ordem de valor de liminar baixo a alto). Assim, por exemplo, em combinações 3 vias de APC/SMAD4/CDNK2a, todos os três membros da combinação 3 vias têm a mesma ordem de classificação em relação aos outros como seus genes têm um ao outro na Tabela 11. De modo semelhante, na combinação 3 vias de APC/SMAD4/VHL, todos os três membros da combinação 3 vias têm a mesma ordem de classificação em relação aos outros como seus genes têm um ao outro na Tabela 11.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 4, 5, 7 ou 8 dos genes listados nos genes na Tabela 11 para câncer do intestino grosso, epara X combinações de quatro (ou seja, uma combinação 4 vias) dos valores de limiar únicos aplicados, os membros da combinação 4 vias têm a mesma ordem de classificação em relação aos outros como seus genes têm um ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer do intestino grosso, valores de limiar únicos são aplicados a intervalos subgenômicos em APC, SMAD4, CDNK2a, VHL, MSH6 e MSH2 (na ordem de valor de liminar baixo a alto). Assim, por exemplo, a combinação 4 vias de APC/SMAD4/CDNK2a/MSH2, todos os quatro membros da combinação 4 vias têm a mesma classificação em relação aos outros como seus genes têm um ao outro na Tabela 11.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 2, 3, 5, ou 7 dos genes listados nos genes na Tabela 11 para câncer pulmão, epara X combinações de dois (ou seja, uma combinação emparelhada) dos valores de limiar únicos aplicados, os membros da combinação pareada têm a mesma ordem de classificação em relação aos outros como seus genes têm um ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de pulmão, valores de limiar únicos são aplicados a intervalos subgenômicos em CDNK2a, STK11, RB1, APC e SMAD4 (na ordem de valor de liminar baixo a alto). Assim, em cada uma das três combinações pareadas de CDNK2a/ STK11, STK11/APC, e RB1/SMAD4, ambos os membros de cada uma das combinações pareadas têm a mesma classificação em relação aos outros como seus genes têm um ao outro na Tabela 11 (por exemplo, STK11 é inferior a SMAD4 em ambas as modalidades na Tabela 11).
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 3, 5, ou 7 dos genes listados nos genes na Tabela 11 para câncer de pulmão, epara X combinações de três (ou seja, uma combinação 3 vias) dos valores de limiar únicos aplicados, os membros da combinação 3 vias têm a mesma ordem de classificação em relação aos outros como seus genes têm um ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, ou 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de pulmão, valores de limiar únicos são aplicados a intervalos subgenômicos em CDNK2a, STK11, RB1, APC, e SMAD4 (na ordem de valor de liminar baixo a alto). Assim, por exemplo, a combinação 3 vias de CDNK2/APC/SMAD4, todos os três membros da combinação 3 vias têm a mesma classificação em relação aos outros como seus genes têm um ao outro na Tabela 11.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 4, 5 ou 7 dos genes listados nos genes na Tabela 11 para câncer de pulmão, epara X combinações de quatro (ou seja, uma combinação 4 vias) dos valores de limiar únicos aplicados, os membros da combinação 4 vias têm a mesma ordem de classificação em relação aos outros como seus genes têm um ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de pulmão, valores de limiar únicos são aplicados a intervalos subgenômicos em CDNK2a, STK11, RB1, APC, e SMAD4 (na ordem de valor de liminar baixo a alto). Assim, por exemplo, a combinação 4 vias de CDNK2a/STK11/APC/SMAD4, todos os quatro membros da combinação 4 vias têm a mesma classificação em relação aos outros conforme seus genes têm um ao outro na Tabela 11.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 2, 3, 4, 5, 6, ou 7 dos genes listados nos genes na Tabela 11 para câncer de próstata, epara X combinações de dois (ou seja, uma combinação pareada) dos valores de limiar únicos aplicados, os membros da combinação pareada têm a mesma ordem de classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de próstata, valores de limiar únicos são aplicados a intervalos subgenômicos em CEBPA, MSH2, CDKN2A, APC, RB1, NF1 (na ordem de valor de liminar baixo a alto). Assim, em cada uma das três combinações pareadas de STK11/CEBPA, RB1/NF1 e CEBPA/CDKN2A, ambos os membros de cada uma das combinações pareadas têm a mesma classificação em relação aos outros conforme os genes têm ao outro no Tabela 11 (por exemplo, STK11 é inferior a CEBPA em ambos as modalidades na Tabela 11).
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 3, 4, 5, 6 ou 7 dos genes listados nos genes na Tabela 11 para câncer de próstata, epara X combinações de três (ou seja, uma combinação 3 vias) dos valores de limiar únicos aplicados, os membros da combinação 3 vias têm a mesma ordem de classificação em relação aos outros como seus genes têm um ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, ou 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de próstata, valores de limiar únicos são aplicados a intervalos subgenômicos em STK11, CEBPA, MSH2, CDKN2A, APC e RB1 (na ordem de valor de liminar baixo a alto). Assim, por exemplo, a combinação 3 vias de CDNK2/APC/RB1, todos os três membros da combinação 3 vias têm a mesma classificação em relação aos outros como seus genes têm um ao outro na Tabela 11.
Em uma modalidade: um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 4, 5, 6 ou 7 dos genes listados nos genes na Tabela 11 para câncer de próstata, epara X combinações de quatro (ou seja, uma combinação 4 vias) dos valores de limiar únicos aplicados, os membros da combinação 4 vias têm a mesma ordem de classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de próstata, valores de limiar únicos são aplicados a intervalos subgenômicos em STK11, CEBPA, MSH2, CDKN2A, APC, RB1 e NF1 (na ordem de valor de liminar baixo a alto). Assim, por exemplo, a combinação 4 vias de STK11/APC/RB1/NF1, todos os quatro membros da combinação 4 vias têm a mesma classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 2, 3, 5, 7 ou 8 dos genes listados nos genes na Tabela 11 para câncer de mama, epara X combinações de dois (ou seja, uma combinação pareada) dos valores de limiar únicos aplicados, os membros da combinação pareada têm a mesma ordem de classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de mama, valores de limiar únicos são aplicados a intervalos subgenômicos em CDH1, CDKN2A, APC, RB1, SMAD4, NF2, STK11, MSH2 (na ordem de valor de liminar baixo a alto). Assim, em cada uma das três combinações pareadas de APC/SMAD4, APC/NF2 e SMAD4/MSH2, ambos os membros de cada uma das combinações pareadas têm a mesma classificação relativa conforme seus genes têm ao outro no Tabela 11 (por exemplo, APC é inferior a SMAD4 em ambos as modalidades na Tabela 11).
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 3, 5, 7 ou 8 dos genes listados nos genes na Tabela 11 para câncer de mama, epara X combinações de três (ou seja, uma combinação 3 vias) dos valores de limiar únicos aplicados, os membros da combinação 3 vias têm a mesma ordem de classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, ou 5, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de mama, valores de limiar únicos são aplicados a intervalos subgenômicos em CDH1, CDKN2A, RB1, SMAD4, NF2, STK11, MSH2 (na ordem de valor de liminar baixo a alto). Assim, por exemplo, a combinação 3 vias de CDH1/RB1/STK11, todos os três membros da combinação 3 vias têm a mesma classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 4, 5, 7 ou 8 dos genes listados nos genes na Tabela 11 para câncer de mama, epara X combinações de quatro (ou seja, uma combinação 4 vias) dos valores de limiar únicos aplicados, os membros da combinação 4 vias têm a mesma ordem de classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11, em que X é igual a ou maior que 1, 2, 3, 4, 10 ou 20. A título de exemplo, em uma modalidade, na análise de um câncer de mama, valores de limiar únicos são aplicados a intervalos subgenômicos em CDH1, CDKN2A, APC, RB1, SMAD4, NF2, STK11, MSH2 (na ordem de valor de liminar baixo a alto). Assim, por exemplo, a combinação 4 vias de CDH1/SMAD4/STK11/MSH2, todos os quatro membros da combinação 4 vias têm a mesma classificação em relação aos outros conforme seus genes têm ao outro na Tabela 11.
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um de pelo menos 2 ou 3 dos genes APC, SMAD4, e ATM, epara X combinações de dois (ou seja, uma combinação pareada) dos valores de limiar únicos aplicados, os membros da combinação pareada têm a mesma ordem de classificação em relação a APC, SMAD4 e ATM, em que X é igual a ou maior que 1, 2 ou 3. A título de exemplo, em uma modalidade, na análise de um câncer do intestino grosso, valores de limiar únicos são aplicados a intervalos subgenômicos em APC, SMAD4 e ATM (na ordem de valor de liminar baixo a alto). Assim, em cada uma das combinações pareadas de APC/SMAD4 e APC/ATM, os dois membros de cada uma das combinações pareadas têm a mesma classificação em relação a APC, SMAD4 e ATM).
Em uma modalidade:um valor de limiar único é aplicado a um intervalo subgenômico em cada um dos genes APC, SMAD4, e ATM, e a ordem os valores de limiar, de baixo para alto é APC, SMAD4 e ATM.(A Tabela 11 lista uma ordenação dos genes em ordem crescente de valor de limiar para alguns ou todos pares de base codificação nestes genes, por exemplo, de pares de bases que não estejam especificados por outra lista substituta das bases especificamente conhecidas por serem mutadas em uma taxa mais elevada como a na Tabela 9).
Em uma modalidade:em que um primeiro alinhamento único, método é aplicado a uma primeira posição de nucleotídeo pré-selecionada, uma variante que está associada com um fenótipo tumoral, eum segundo valor de limiar único é aplicado a uma posição de nucleotídeo diferente de dita primeira posição de nucleotídeo pré-selecionada, por exemplo, uma posição tendo nenhuma variante associada com um fenótipo tumoral, e dito primeiro valor de limiar é maior do que o segundo.
Em uma modalidade, o método compreende:a) adquirir e aplicar um primeiro valor de limiar único para um primeiro intervalo genômico, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual, por exemplo, uma mutação na Tabela 6;b) adquirir e aplicar um segundo valor de limiar único para um segundo intervalo genômico, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é um rearranjo, por exemplo, uma deleção, inserção ou translocação, por exemplo, uma mutação na Tabela 5; e c) adquirir aplicar um terceiro valor de limiar único para um terceiro intervalo genômico, por exemplo, um intervalo genômico em que variantes não são associadas com um fenótipo tumoral ou com um tumor do tipo na dita amostra.
Em uma modalidade, o método inclui a aplicação de 1, 2, 3, 4 ou todos os seguintes (nas modalidades, um grupo de 2 ou mais dos seguintes são incluídos e os primeiro e/ou segundo valores para cada um dos grupos são únicos):(i) aplicar um primeiro valor de limiar para uma primeira posição de nucleotídeo pré-selecionada para a qual, por exemplo, cobertura mais profunda é necessária para permitir um alto nível de sensibilidade para as mutações que aparecem em uma frequência relativamente baixa. Exemplos incluem uma variante, por exemplo, uma mutação pontual, que aparece com uma frequência de 5% ou menos nas células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >500X ou maior profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é um éxon que frequentemente sofre mutação em um câncer pré- selecionado;(ii) aplicar um segundo valor de limiar às leituras para uma segunda posição de nucleotídeo pré- selecionada para a qual, por exemplo, alta cobertura (embora nas modalidades menos que em (i) acima) é necessária para permitir um alto nível de sensibilidade para mutações que aparecem em uma frequência relativamente alta, por exemplo, em uma frequência mais elevada do que uma mutação em (i) acima. Exemplos incluem uma variante, por exemplo, uma mutação pontual, que aparece com uma frequência maior que 5% e de até 10, 15 ou 20% nas células na amostra, os ácidos nucleicos de uma biblioteca ou os ácidos nucleicos de uma captura de biblioteca. Tipicamente estas variantes requerem >200X ou maior profundidade de sequenciamento para garantir confiabilidade de detecção elevada. Uma aplicação exemplar é em um gene relacionado a câncer;(iii) aplicar um terceiro valor de nucleotídeo às leituras para uma terceira posição de nucleotídeo pré-selecionada para a qual, por exemplo, baixa a média cobertura (nas modalidades menos que em (i) ou (ii) acima) é necessária para permitir um alto nível de sensibilidade para alelos heterozigotos. Exemplos incluem uma variante, por exemplo, (1) um SNP farmacogenômico que pode ser associado com a capacidade do paciente em responder ou metabolizar uma droga; (2) um SNP genômico que pode ser usado para identificar com exclusividade (fingerprint) um paciente; ou (3) um SNP/loci genômico que pode ser utilizado para avaliar ganhos/perdas de números de cópias de DNA genômico e LOH;(iv) aplicar um quarto valor de limiar às leituras para uma quarta posição de nucleotídeo pré- selecionada, por exemplo, um ponto de interrupção estrutural, por exemplo, em um rearranjo, por exemplo, uma translocação ou uma indel. Nas modalidades a cobertura é menor do que em um de (i), (ii) ou (iii). Exemplos incluem um ponto de interrupção intrônica, que nas modalidades requer profundidade abrangente de 5-50X de pares de sequência para garantir confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer com propensão a translocação/indel; e(v) aplicar um quinto valor de limiar a leituras para uma quinta posição de nucleotídeo pré- selecionada para a qual, por exemplo, cobertura esparsa pode melhorar a capacidade de detectar alterações de números de cópia. Nas modalidades a cobertura é menor do que em um de (i), (ii), (iii) ou (iv). Por exemplo, a detecção de uma 1 deleção de cópia de vários éxons terminais, por exemplo, que requer cobertura de 0,110X para garantir a confiabilidade elevada da detecção. Uma aplicação exemplar é um gene de câncer propenso a amplificação/deleção.
Em uma modalidade:(vi) primeiro valor de limiar é maior do que o segundo;(vii) segundo valor de limiar é maior do que o terceiro;o terceiro valor de limiar é maior do que o quarto; e o quarto valor de limiar é maior do que o quinto. Em uma modalidade, X valores de limiar, por exemplo, valores de limiar únicos ou não únicos, são uma função de, ou são selecionados com base em, 1, 2, 3, 4, ou mais ou todas as seguintes características:a) uma expectativa de mutação;b) um valor de probabilidade de mutação;c) um Bayesiano anterior;d) frequência de mutação;e) o tipo de variante associado a uma posição de nucleotídeo pré-selecionada, por exemplo, uma variante que é associada com um fenótipo tumoral, por exemplo, uma mutação pontual ou um rearranjo, por exemplo, uma deleção, inserção ou translocação;f) número de cópia;g) tipo de tumor de um intervalo de subgenômico; ouh) o intervalo de subgenômico;em que X é pelo menos 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100.
Em uma modalidade, X valores de limiar, por exemplo, valores de limiar únicos ou não únicos, são uma função de, ou são selecionados com base nos fatores que incluem, ou são: a e e; a e g; e e g; onde X é pelo menos 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100.
Em uma modalidade, uma ou mais ou todas as características a-f são uma função de um ou mais dos ou todos de uma posição de nucleotídeo pré-selecionada, um tipo de tumor pré-selecionado ou um gene pré- selecionado.
Em uma modalidade, X valores de limiar, por exemplo, valores de limiar únicos ou não únicos, são uma função de, ou são selecionados com base na frequência de mutação genômica de fundo, em que X é pelo menos 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100.
Em uma modalidade, X valores de limiar, por exemplo, valores de limiar únicos ou não únicos, são uma função de, ou são selecionados com base em, 1, 2, 3, 4, ou mais ou todas as seguintes características:
Idade; gênero; exposição ambiental anterior, por exemplo, a substâncias mutagênicas ou carcinogênicas; exposição anterior a uma medicação ou tratamento, por exemplo, tratamento anterior com um agente anti-tumoral, se o paciente é um fumante atual ou ex-fumante; tipo de tumor, ou variação germinativa no intervalo subgenômico, em que X é pelo menos 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100.
Em uma modalidade, X valores de limiar, por exemplo, valores de limiar únicos ou não únicos, são uma função de, ou são selecionados com base em, 1, 2, 3, 4, ou mais ou todas as seguintes características:tipo de tumor; ploidia específica para o local do tumor (por exemplo, com base na análise de SNP); zigosidade do tumor; pureza da amostra; celularidade da amostra tumoral (por exemplo, a relação de células tumorais na amostra); se tumor e genótipos SNP controle para um sujeito combinam; ou nível de dano previsto ou observado do DNA,em que X é pelo menos 1, 2, 3, 5, 10, 20, 40, 50, 60, 70, 80, 90 ou 100.
Em uma modalidade, o método compreende aplicar um valor de limiar único a uma pluralidade de intervalos subgenômicos.
Em uma modalidade, o método compreende aplicar um valor de limiar único a um conjunto de posições em um primeiro intervalo subgenômico, por exemplo, um gene. Por exemplo, em uma modalidade, dito conjunto pré-selecionado compreende, ou é limitado a:todas as posições de nucleotídeo em um primeiro gene, ou frações pré-selecionadas do mesmo;todas as posições de nucleotídeo em um íntron de um primeiro gene, ou porção pré-selecionada do mesmo;todas as posições de nucleotídeo em um éxon de um primeiro gene, ou porção pré-selecionada do mesmo;todas as posições de nucleotídeos dentro de um intervalo pré-selecionado, que inclui uma posição de nucleótideo em um primeiro gene, por exemplo, um em que uma variante está associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual ou um rearranjo, por exemplo, uma deleção, inserção ou translocação.
Em uma modalidade, o método compreende aplicar um valor de limiar único para um conjunto pré- selecionado de posições em um primeiro intervalo de subgenômico, por exemplo, um gene, e aplicar mais um único limite de valor para um conjunto pré-selecionado de posições em um subsequente, por exemplo, um segundo, terceiro, quarto, quinto ou sexto intervalo subgenômico, por exemplo, um gene. Em uma modalidade, o conjunto pré-selecionado para dito gene subsequente compreende, ou é limitado a:todas as posições de nucleotídeo em dito gene subsequente, ou frações pré-selecionadas do mesmo;todas as posições de nucleotídeo em um íntron de dito gene subsequente, ou frações pré-selecionadas do mesmo;todas as posições de nucleotídeo em um éxon de dito gene subsequente, ou porções pré-selecionadas do mesmo;todas as posições de nucleotídeos dentro de um intervalo pré-selecionado, que inclui uma posição de nucleotídeo em dito gene subsequente, uma variante da qual está associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual ou um rearranjo, por exemplo, uma deleção, inserção ou translocação.
Nas modalidades, mais do que um valor de limiar é aplicado a um gene, ou outro intervalo de subgenômico. Assim, em uma modalidade, o método compreende: aplicar um primeiro valor de limiar único, por exemplo, que é uma função de uma taxa de mutação de fundo, a uma primeira posição pré-selecionada ou conjunto de posições em um intervalo subgenômico, por exemplo, um gene; eaplicar um subsequente, por exemplo, um segundo, terceiro, quarto, quinto ou sexto, valor de limiar único, por exemplo, que é selecionado responsivo a um fator divulgado aqui, por exemplo, a frequência esperada de uma variante que é associada com um fenótipo tumoral, para uma subsequente, por exemplo, uma segunda, terceira, quarta, quinta ou sexta, posição ou conjunto de posições pré-selecionados no dito intervalo subgenômico.
Em dita modalidade, o primeiro conjunto pré-selecionado pode compreender, ou limitar-se a: uma posição de nucleotídeo além daquela posição de nucleotídeo, uma variante que está associada com um fenótipo tumoral; oua maioria das posições de nucleotídeo de um gene.
Em uma modalidade, o segundo conjunto pré-selecionado compreende, ou é limitado a: uma posição do nucleotídeo, uma variante que está associada com um fenótipo tumoral; uma posição de nucleotídeo em uma primeira porção pré-selecionada de um íntron de dito gene; uma posição de nucleotídeo em uma primeira porção pré-selecionado de um éxon de dito gene;todas as posições de nucleotídeos dentro de um intervalo pré-selecionado, que inclui uma posição de nucleotídeo, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual ou um rearranjo, por exemplo, uma deleção, inserção ou translocaçãoa minoria das posições de nucleotídeo em um gene; ounão mais de 1, 2, 3, 3, 5, 10 ou 20 posições de nucleotídeo em um gene
Em dita modalidade, o primeiro conjunto pré-selecionado pode compreender, ou ser limitado auma posição de nucleotídeo, além de dita posição de nucleotídeo, uma variante que está associada com um fenótipo tumoral;uma posição de nucleotídeo, além de dita posição de nucleotídeo em uma primeira porção pré- selecionada de um íntron de dito gene;uma posição de nucleotídeo, além de dita posição de nucleotídeo em uma primeira porção pré- selecionada de um éxon de dito gene;ditas posições de nucleotídeo dentro de um intervalo pré- selecionado, que inclui uma posição de nucleotídeo, uma variante que está associada com um fenótipo tumoral, por exemplo, em que a variante é uma mutação pontual ou um rearranjo, por exemplo, uma deleção, inserção ou translocação.
Em dita modalidade, o primeiro valor de limiar único pode ser inferior ao dito valor de limiar único subsequente.
Uma abordagem Bayesiana para Detecção Sensível de Alterações Genômicas Somáticas de Sequenciamento de Geração Seguinte de Espécimes Clínicas de Câncer
Conforme discutido em outro lugar aqui, a invenção apresenta um método para analisar uma amostra, por exemplo, uma amostra do tumor. Métodos aqui descritos podem incluir o seguinte: (aaa) aquisição de uma ou uma pluralidade de leituras para cada um dos X intervalos subgenômicos de ácido nucleico de dita amostra;(bbb) aquisição, para uma posição de nucleotídeo pré-selecionada em cada um dos ditos X intervalos subgenômicos:(i) um primeiro valor que é ou representa a expectativa anterior (por exemplo, literatura) de observação de uma leitura mostrando uma variante pré-selecionada, por exemplo, uma mutação, em uma dita posição do nucleotídeo pré-selecionada em um tumor do tipo X; e(ii) um segundo conjunto de valores que representa as probabilidades de observação de uma leitura mostrando dita variante pré-selecionada em dita posição do nucleotídeo pré-selecionada se a variante estiver presente na amostra em uma frequência (por exemplo, 1%, 5%, 10%, etc.) e/ou se a variante está ausente (por exemplo, observada nas leituras devido a um erro de chamada de base somente);(ccc) responsivo a ditos valores, atribuído um valor de nucleotídeo (por exemplo, chamando uma mutação) de ditas leituras para cada uma das ditas posições do nucleotídeo pré-selecionadas por ponderação da comparação entre os valores no segundo conjunto utilizando o primeiro valor (por exemplo, computando a probabilidade posterior da presença de uma mutação), desse modo, analisando a dita amostra.
Esse método, por exemplo, na ponderação de comparação de entre as variáveis, fornece componentes analíticos para uma abordagem baseada em NGS para avaliação de genoma tumoral que incorpora o conhecimento da frequência de mutação somática e diversidade para otimizar a detecção. Embora as mutações sejam relativamente pouco frequentes em genomas de câncer (por exemplo, substituições de base são esperadas em uma taxa de ~ 1-10 por 1Mb em todo o genoma), mutações direcionadoras específicas são conhecidas por ocorrerem muitas vezes em certos tipos de tumor. Por exemplo, a mutação KRAS c.35G>A (p.G12D) pode ser esperada em ~10% dos cânceres de cólon. Uma abordagem de detecção de mutação eficiente pode aproveitar esta informação anterior para otimizar o equilíbrio entre a sensibilidade e especificidade e maximizar o poder de detecção em amostras “difíceis”. Por exemplo, o método pode incluir análise utilizando a seguinte relação:P (Mutação presente | Dados lidos “R”) = P(Frequência da mutação “F” > 0|R) = 1 P(F = 0|R)
Figure img0015
Figure img0016
é uma aproximação discreta à equação A, que altemativamente pode ser avaliada na relação no lugar da aproximação discretizada: Equação A: j P(R | F = X)P(F = X)dxP(F = 0) = 1 - expectativa anterior “p” da mutação em um tipo de câncer. O valor em (i) acima corresponde ao p.
Figure img0017
(por exemplo, n = 100), que assume uma distribuição uniforme do anterior sobre as frequências e, portanto, especifica a expectativa anterior das frequências de mutação referenciadas em (ii). Este termo pode ser variado da distribuição uniforme para ajustar para qualquer conhecimento anterior sobre a frequência de mutação esperada, como medida de pureza ou aneuploidia na amostra específica, ou frequências de mutação esperadas, dadas o tipo específico do tumor, método de extração, etc.
Figure img0018
é avaliada de acordo com o tipo de mutação, por exemplo, utilizando as observações n de contagem de alelos, escores de qualidade calibrados e a distribuição multinomial para mutações de substituição.
As abordagens de detecção aqui fornecidas podem incluir as seguintes etapas: sequenciamento e alinhamento, recalibração do escore de qualidade, chamada de mutação Bayesiana e filtragem de chamada de mutação. Por exemplo, o sequenciamento e alinhamento podem incluir seleção híbrida para éxons de 182 genes relacionados ao câncer, sequenciamento profundo na plataforma Illumina HiSeq, alinhamento com alinhador de Burrows-Wheeler (BWA) (Li H. and Durbin R. Bioinformatics (2009), 25:1754-60) e otimização de alinhamento com The Genome Analysis Toolkit (GATK) (McKenna A.H. et al., Genome Res. 2010 20(9):1297-303). Mapas de recalibração de escores de qualidade relataram escores de qualidade para taxas de erro empírico. Chamada de mutação Bayesiana permite que a possibilidade de mutação esteja presente em qualquer frequência (não se limitando a diploides). Incorporar a probabilidade anterior específica de tecido de mutação de COSMIC para aumentar a sensibilidade. Filtragem de chamadas de mutação filtram artefatos utilizando indicadores como viés de fita, mapeamento de baixa qualidade e viés de local de leitura; e remove a maioria das variações tipo germes (dbSNP).
Esta abordagem pode ser estendida aos tipos de mutações adicionais (indels/translocações/CNV) por derivar relevante P (Dados l—dos R|Frequênc—a de mutação = f).
Leituras duplicadas
Durante o processo de sequenciamento, erros podem ser introduzidos nas leituras em diferentes fases do processo, por exemplo, pela química de sequenciamento, ou pelo software de análise de imagem. Leituras duplicadas são tipicamente sequenciadas como leituras separadas. Algoritmos de chamada de mutação precisam distinguir entre erros de sequenciamento e variações reais de sequência para corretamente chamar o último. Métodos aqui descritos podem analisar leituras duplicadas para reduzir o erro de sequenciamento e, desse modo, melhorar a sensibilidade do algoritmo de chamada de mutação.
Isto é tipicamente realizado comparando leituras independentes que cobrem a mesma posição genômica. Duplicatas de leitura são criadas durante várias etapas de preparação da biblioteca (por exemplo, amplificação por PCR) e são sequenciadas como leituras separadas. Como estas não são leituras independentes (ou seja, se originam da mesma molécula de DNA original) apenas uma de qualquer número de duplicatas é tipicamente utilizada para o processo de detecção de mutação, enquanto o resto é descartado.
O uso de leituras duplicadas para reduzir erros de sequenciamento e, assim, melhorar a sensibilidade do algoritmo de chamada de mutação, é descrito aqui. Leituras duplicadas podem ser identificadas por posse da mesma posição de início e término. Como leituras duplicadas são essencialmente leituras replicadas da mesma molécula de DNA original, qualquer diferença entre duplicatas deve ser um erro de sequenciamento e, portanto, pode ser ignorada. Por exemplo, se dados altamente duplicados estiverem disponíveis, o consenso de 3 ou mais duplicatas pode ser usado. Alternativamente, o escore de qualidade de uma base pode ser redefinido para refletir a combinação entre 2 ou mais duplicatas da leitura, e utilizado por qualquer processo a jusante. Por exemplo, um algoritmo de chamada de mutação poderia colocar menos peso em uma diferença de sequência que não é suportada por todas as duplicatas.
O método sugerido foi testado em alguns dados de sequenciamento por gerar uma sequência de consenso para duplicatas. A taxa de erro das sequências de leitura do consenso mostrou-se significativamente mais baixa do que para as leituras originais.
Esse método pode ser usado, por exemplo, quando 1) alguns modos de falha do sequenciador resultam em dados inutilizáveis da sequência com maiores taxas de erro, o que afeta negativamente a capacidade de chamar mutações nestes dados. Reduzir o erro por utilizar as duplicatas deve ser especialmente eficaz no cenário e preparar o pipeline de chamada de mutação mais robusto para a falha da máquina, 2) quando do sequenciamento de DNA de células cancerígenas, que são especialmente raras na amostra (por exemplo, células tumorais circulantes podem ser <1% das células na amostra), qualquer melhoria na taxa de erro base pode aumentar significativamente a capacidade de identificar corretamente as mutações nestas células tumorais.
Em uma modalidade exemplar, um conjunto de dados com uma taxa elevada de duplicação (69%) foi triado para duplicatas. Quando duplicatas foram removidas por uma ferramenta de software de remoção comumente usado (Picard MarkDuplicates) que seleciona arbitrariamente uma leitura das duplicatas, a taxa de erro resultante foi de 0,40%. Em paralelo, todas as leituras com pelo menos 3 duplicatas foram processadas separadamente, e uma sequência consenso para cada conjunto de duplicatas foi derivada selecionando a sequência mais comum das duplicatas. A taxa de erro das sequências consenso foi de 0,20%, demonstrando que uma menor taxa de erro pode ser alcançada para leituras duplicadas, comparando suas sequências.Exemplo de derivação de uma leitura consenso:Leitura 1: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT (SEQ ID NO: 2)Leitura 2: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT (SEQ ID NO: 3)Leitura 3:CCAACACTAAACTGCTCTTTAAATATCTTAGACACT(SEQ ID NO:4)Consenso: CCAAAACTAAACTGCTCTTTAAATATCTTAGACACT(SEQ ID N°:5)
Assim, em outro aspecto, a invenção inclui um método para analisar a sequência de um ácido nucléico, por exemplo, de uma amostra do tumor compreendendo:(a) opcionalmente, adquirir uma pluralidade de duplicatas de um intervalo subgenômico (formado, por exemplo, pela amplificação de uma cópia original de dito intervalo subgenômico); (b) aquisição de uma leitura para cada uma das ditas pluralidades de duplicatas para fornecer uma pluralidade de leituras duplicadas;(c) comparação dos valores de nucleotídeos em uma primeira posição de nucleotídeo em cada uma de ditas pluralidades de leituras duplicadas (tipicamente, a posição do nucleotídeo em uma leitura duplicada é comparada com a posição do nucleotídeo correspondente em uma segunda leitura);(d) opcionalmente, comparação dos valores de nucleotídeo na segunda posição do nucleotídeo em cada uma de ditas pluralidades de leituras duplicadas,em que, para uma das posições de nucleotídeos, cada uma das ditas pluralidades de leituras não tem o mesmo valor de nucleotídeos, e, opcionalmente, para outra das ditas posições de nucleotídeo, cada uma das ditas pluralidades de leituras tem o mesmo valor de nucleotídeos;(e) atribuição de um classificador inicial, por exemplo, um escore de qualidade ou um valor do nucleotídeo ajustado à duplicata, ao valor de nucleotídeo na posição não contendo o mesmo valor de nucleotídeo em todas de dita pluralidade de leituras,(f) opcionalmente, atribuir um classificador secundário, por exemplo, um escore de qualidade ou um valor do nucleotídeo ajustado à duplicata, ao valor de nucleotídeo na posição, contendo o mesmo valor de nucleotídeo para cada pluralidade de leituras:em que o dito classificador inicial indica um primeiro nível de qualidade ou confiança de que o valor de nucleotídeo ao qual é atribuído está correto e o dito classificador secundário indica um segundo nível de qualidade ou confiança de que o valor de nucleotídeo ao qual é atribuído está correto e o dito primeiro nível é igual ou inferior a um critério pré-selecionado.
Em uma modalidade, o dito primeiro nível é mais baixo do que o que seria atribuído se cada uma da dita pluralidade de leituras tivesse o mesmo valor de nucleotídeo.
Em outra modalidade, o dito primeiro nível é inferior ao dito segundo nível.
Em outra modalidade, a classificação é uma função da relação de valores de nucleotídeos que diferenciam daquela posição de nucleotídeo na pluralidade.
Em outra modalidade, a classificação é uma função do número de leituras duplicadas na pluralidade.
Ainda em outra modalidade, um método para chamada de mutações em uma posição de nucleotídeo é uma função de classificação para o valor de nucleotídeo naquela posição do nucleotídeo.
Em outra modalidade, as leituras duplicadas não são identificadas ou removidas. Não remover leituras duplicadas pode ser particularmente útil para a identificação de aberrações de números de cópia no DNA tumoral e na avaliação do equilíbrio de alelo, quando a fração de leituras duplicadas é significativamente diferente entre um controle e uma amostra de teste. Por exemplo, uma região genômica com alta profundidade de cobertura em uma amostra com uma taxa elevada da duplicação pode perder mais leituras do que a mesma região com uma profundidade comparável em uma amostra com baixa taxa de duplicação, enquanto as regiões de baixa cobertura são provavelmente menos propensas a este efeito. Portanto, quando a fração de leituras duplicadas difere significativamente entre um controle e uma amostra de teste, uma comparação entre os dois pode ser mais ruidosa, diminuindo assim a sensibilidade e/ou especificidade de alterações no número de cópia de chamadas.
Análise de sequência de uma amostra de teste de DNA, por exemplo, uma amostra de DNA extraída de um tumor, requer a comparação de uma amostra de teste com uma amostra de controle, por exemplo, uma amostra de DNA de um tecido não cancerígeno.
No sequenciamento de uma amostra de DNA genômico, leituras duplicadas serão geradas. Duplicatas de leitura são criadas durante várias etapas de preparação da biblioteca (por exemplo, amplificação por PCR) e são sequenciadas como leituras separadas. Como estas não são leituras independentes (ou seja, eles se originam da mesma molécula de DNA original) apenas uma de qualquer número de duplicatas é tipicamente utilizada para o processo de detecção de mutação, enquanto o resto é descartado. Tipicamente, leituras duplicadas de ambos controle e amostra de teste são removidas antes de realizar uma análise comparativa entre o teste e o controle da sequência de DNA.
Em uma modalidade, os Requerentes desobriram que em situações onde o número de leituras duplicadas é significativamente diferente entre as amostras teste e de controle, a remoção de leituras duplicadas (de uma ou ambas as amostras controle e teste) impacta negativamente a capacidade de alterações de chamada, como alterações de número de cópia, já que isso distorce os padrões de profundidade de cobertura de amostras diferentes de forma diferente. Assim, em situações onde a fração de leituras duplicadas é significativamente diferente entre as amostras de teste e controle (por exemplo, diferenciando em mais de 20%, 30%, 40%, 50%, 60% ou mais), é preferencial que leituras duplicadas não sejam removidas antes da análise comparativa, a fim de maximizar a capacidade de identificar corretamente mutações na amostra. Por exemplo, em situações onde o número de leituras duplicadas na amostra controle e a amostra de teste são 20% e 80% (ou 70% ou 60% ou 50%), respectivamente, então leituras duplicadas são preferencialmente não removidas antes da análise comparativa.
Outras Modalidades
Nas modalidades de um método aqui descrito, uma etapa ou parâmetro no método é utilizado para modificar um parâmetro ou etapa a jusante no método.
Em uma modalidade, uma característica da amostra tumoral é usada para modificar um parâmetro ou etapa em um ou mais ou todos a jusante: isolamento de ácidos nucleicos de dita amostra; construção da biblioteca; seleção ou concepção de isca; condições de hibridização; sequenciamento; mapeamento de leitura; seleção de um método de chamada de mutação, ou anotação de mutação.
Em uma modalidade, uma característica de um ácido nucleico tumoral ou controle isolado é utilizada para modificar um parâmetro ou etapa em um ou mais ou todos a jusante: isolamento de ácido nucleico de dita amostra; construção da biblioteca; seleção ou concepção de isca; condições de hibridização; sequenciamento; mapeamento de leitura; seleção de um método de chamada de mutação, ou anotação de mutação.
Em uma modalidade, uma característica de uma biblioteca é utilizada para modificar um parâmetro ou etapa em um ou mais ou todos de: novo isolamento de ácidos nucleicos de dita amostra; subsequente construção da biblioteca; seleção ou concepção de isca; condições de hibridização; sequenciamento; mapeamento de leitura; seleção de um método de chamada de mutação, ou anotação de mutação.
Em uma modalidade, uma característica de uma captura de biblioteca é utilizada para modificar um parâmetro ou etapa em um ou mais ou todos de: novo isolamento de ácidos nucleicos de dita amostra; subsequente construção da biblioteca; seleção ou concepção de isca; condições de hibridização; sequenciamento; mapeamento de leitura; seleção de um método de chamada de mutação, ou anotação de mutação.
Em uma modalidade, uma característica do método de sequenciamento é utilizada para modificar um parâmetro ou etapa em um ou mais ou todos de: novo isolamento de ácidos nucleicos de dita amostra; subsequente construção da biblioteca; seleção ou concepção de isca; subsequente determinação de condições de hibridização; subsequente sequenciamento; mapeamento de leitura; seleção de um método de chamada de mutação, ou anotação de mutação.
Em uma modalidade, característica da coleção de leituras mapeadas é utilizada para modificar um parâmetro ou etapa em um ou mais ou todos de: novo isolamento de ácidos nucleicos de dita amostra; subsequente construção da biblioteca; seleção ou concepção de isca; subsequente determinação de condições de hibridização; subsequente sequenciamento; subsequente mapeamento de leitura; seleção de um método de chamada de mutação, ou anotação de mutação.
Em uma modalidade, o método compreende a aquisição de um valor para uma característica da amostra tumoral, por exemplo, adquirindo um valor: para a relação de células tumorais em dita amostra, para a celularidade de dita amostra de tumor; ou de uma imagem de amostra de tumor.
Nas modalidades, o método inclui resposta ao dito valor adquirido para uma característica da amostra tumoral, selecionando um parâmetro para: isolamento do ácido nucleico de uma amostra do tumor, construção de biblioteca; seleção ou concepção da isca; hibridização de isca/membro da biblioteca; sequenciamento; ou chamada de mutação.
Em uma modalidade, um método ainda compreende a aquisição de um valor para a quantidade de tecido tumoral presente na dita amostra tumoral, comparando o dito valor adquirido com um critério de referência, e se o dito critério de referência for atendido, aceitando a dita amostra tumoral, por exemplo, aceitando a dita amostra tumoral se a dita amostra tumoral contiver mais que 30, 40 ou 50% de células tumorais.
Em uma modalidade, um método ainda compreende a aquisição de uma subamostra enriquecida para células tumorais, por exemplo, por macrodissecção de tecido tumoral de dita amostra tumoral, de uma amostra do tumor que não satisfaz o critério de referência.
Em uma modalidade, um método ainda compreende determinar se um controle primário, por exemplo, uma amostra de sangue, está disponível e, se estiver, isolar um ácido nucleico controle (por exemplo, DNA) do dito controle primário.
Em uma modalidade, um método ainda compreende determinar se o NAT está presente na dita amostra tumoral (por exemplo, onde nenhuma amostra de controle primário está disponível).
Em uma modalidade, um método ainda compreende aquisição de uma subamostra enriquecida para células não tumorais, por exemplo, por macrodissecção de tecido não tumoral de dito NAT em uma amostra tumoral não acompanhado por um controle primário.
Em uma modalidade, um método ainda compreende determinar que nenhum controle primário e nenhum NAT está disponível e marcar dita amostra tumoral para análise sem controle correspondente.
Em uma modalidade, um método ainda compreende o isolamento de ácidos nucleicos de dita amostra tumoral para fornecer uma amostra de ácido nucleico tumoral isolado.
Em uma modalidade, um método ainda compreende o isolamento de ácidos nucleicos de um controle para fornecer uma amostra de ácido nucleico de controle isolado.
Em uma modalidade, um método ainda compreende rejeitar uma amostra com nenhum ácido nucleico detectável.
Em uma modalidade, um método ainda compreende a aquisição de um valor para o rendimento do ácido nucleico em dita amostra do ácido nucleico isolado e comparar o valor adquirido a um critério de referência, por exemplo, em que, se dito valor adquirido é menor que o dito critério de referência, então, amplificar a dita amostra de ácido nucleico isolada antes da construção da biblioteca.
Em uma modalidade, um método ainda compreende a aquisição de um valor para o tamanho de fragmentos de ácidos nucleicos em dita amostra de ácido nucleico isolado e comparar o valor adquirido a um critério de referência, por exemplo, um tamanho, por exemplo, a média de tamanho, de pelo menos 300, 600 ou 900 bp. Um parâmetro descrito aqui pode ser ajustado ou selecionado em resposta a essa determinação.
Em uma modalidade, um método ainda compreende a aquisição de uma biblioteca em que o tamanho de ditos fragmentos de ácido nucleico são menores ou iguais a um valor de referência. A dita biblioteca é preparada sem uma etapa de fragmentação entre o isolamento de DNA e a construção da biblioteca.
Em uma modalidade, um método ainda compreende a aquisição de fragmentos de ácidos nucleicos e se o tamanho dos ditos fragmentos de ácidos nucleicos é igual ou maior que um valor de referência e são fragmentados e então transformados em uma biblioteca.
Em uma modalidade, um método ainda compreende marcar cada um de uma pluralidade de membros da biblioteca, por exemplo, pela adição de uma sequência identificável de ácidos nucleicos distintos (um código de barras), para cada um de uma pluralidade de membros.
Em uma modalidade, um método ainda compreende ligar um iniciador para cada um de uma pluralidade de membros da biblioteca.
Em uma modalidade, um método ainda compreende fornecer uma pluralidade de iscas e selecionar uma pluralidade de iscas, dita seleção sendo responsiva a: 1) uma característica do paciente, por exemplo, idade, estágio do tumor, tratamento anterior ou resistência; 2) tipo tumoral; 3) uma característica da amostra tumoral; 4) uma característica de uma amostra controle; 5) a presença ou o tipo de controle; 6) uma característica de amostra isolada de ácido nucleico do tumor (ou controle); 7) uma característica da biblioteca; 8) uma mutação conhecida por estar associada com o tipo tumoral na amostra tumoral; 9) uma mutação não conhecida por ser associada com o tipo tumoral na amostra tumoral; 10) a capacidade de sequenciar (ou hibridizar para ou recuperar) uma sequência pré-selecionada ou identificar uma mutação pré- selecionada, por exemplo, a dificuldade associada em sequenciar uma região alta de gc ou um rearranjo; ou 11) os genes sendo sequenciados.
Em uma modalidade, um método ainda compreende resposta, por exemplo, para uma determinação de baixo número células tumorais em uma dita amostra tumoral, selecionar uma isca, ou pluralidade de iscas, gerar captura relativamente altamente eficiente dos membros de um primeiro gene, em comparação com os membros de um segundo gene, por exemplo, em que uma mutação no primeiro gene é associada com o fenótipo do tumor para o tipo tumoral de amostra do tumor.
Em uma modalidade, um método ainda compreende a aquisição de um valor para a característica de captura de biblioteca, por exemplo, a concentração do ácido nucleico ou sua representação e comparar o valor adquirido com um critério de referência para a concentração de ácido nucléico, ou para representação.
Em uma modalidade, um método ainda compreende selecionar uma biblioteca com um valor para uma característica de biblioteca que não satisfaz o critério de referência para reformulação.
Em uma modalidade, um método ainda compreende selecionar uma biblioteca com um valor para uma característica de biblioteca que satisfaz o critério de referência para quantificação de biblioteca.
Em uma modalidade, um método ainda compreende fornecer uma associação de um tipo tumoral, um gene e uma alteração genética (um TGA) para um sujeito.
Em uma modalidade, um método ainda compreende fornecer uma base de dados pré-selecionados contendo uma pluralidade de elementos, em que cada elemento é composto por um TGA.
Em uma modalidade, um método ainda compreende caracterizar um TGA de um sujeito que compreende:determinar se dita TGA está presente em um banco de dados pré-selecionados, por exemplo, um banco de dados de TGAs validadas;associar informação para a TGA do banco de dados predeterminado com dita TGA (anotação) do dito sujeito; eopcionalmente, determinar se um segundo ou subsequente TGA para o dito sujeito está presente no dito banco de dados pré-selecionados e se estiver, associar informações para a segunda ou subsequente TGA do banco predeterminado com dito segundo TGA presente no dito paciente.
Em uma modalidade, um método ainda compreende memorizar a presença ou ausência de um TGA e opcionalmente uma anotação associada, de um sujeito para formar um relatório.
Em uma modalidade, um método ainda compreende transmitir o dito relatório para um terceiro destinatário.
Em uma modalidade, um método ainda compreende caracterizar um TGA de um sujeito que compreende:determinar se dita TGA está presente em um banco de dados pré-selecionado, por exemplo, um banco de dados de TGAs validadas;determinar se uma TGA ausente do dito banco de dados pré-selecionado possui um G ou A clinicamente relevante e fornecendo assim uma entrada para dita TGA no dito banco de dados pré- selecionado.
Em uma modalidade, um método ainda compreende memorizar a presença ou ausência de uma mutação encontrada no DNA da amostra tumoral de um sujeito para formar um relatório.
Em uma modalidade, um método ainda compreende memorizar a presença ou ausência de um TGA e opcionalmente uma anotação associada, de um sujeito para formar um relatório.
Em uma modalidade, um método ainda compreende transmitir o dito relatório para um terceiro destinatário.
Uma representação de fluxograma de uma modalidade de um método para análise multigene de uma amostra tumoral é fornecida na Fig 1.
EXEMPLIFICAÇÃO
Esta invenção é ainda ilustrada pelos seguintes exemplos que não devem ser interpretados como limitantes. Os conteúdos de todas as referências, figuras, listagem de sequência, patentes e pedidos de patente publicados citados ao longo deste pedido estão aqui incorporados por referência.
EXEMPLO 1: Isolamento de ácidos nucleicos de uma amostra tumoral
Seções de 3 x 20 μm cortadas de um bloco de parafina foram misturadas com 400 μL de Tampão FTL por agitação em vórtice e incubadas a 90°C por 15 minutos em um tubo de centrífuga de 1,5 mL. Um intervalo de 88-92°C foi aceitável para a incubação. Em seguida, a amostra foi incubada com 20 μL de proteinase K a 55°C por 6 horas e 10 μL de RNase (1 mg/mL) em temperatura ambiente por 5 minutos. Em seguida, 460 μL de Tampão BL e 500 μL de etanol absoluto foram adicionados à amostra. A solução de amostra resultante foi mantida em temperatura ambiente até uma futura utilização.
Para preparar a coluna para a ligação do DNA, 100 μL de tampão de equilíbrio foram adicionados a uma coluna MicroElute e a coluna foi centrifugada a 10.000 x g por 30 segundos. 700 μL da solução de amostra descrita acima foram transferidos para a coluna MicroElute e a coluna foi centrifugada a 10.000 x g por 1 minuto. Repetiu-se a etapa da centrifugação se o fluido não passou completamente através da coluna MicroElute. O restante da solução amostra foi aplicado à coluna MicroElute da mesma forma como descrito acima. Em seguida, a coluna MicroElute foi tratada com 500 μL de tampão HB e centrifugada a 10.000 x g por 1 minuto. Em seguida, 700 μL de tampão de lavagem do DNA diluído com etanol foi adicionado à coluna MicroElute e a coluna foi centrifugada a 10.000 x g por 1 minuto. A coluna MicroElute foi lavada novamente utilizando 700 μL tampão de lavagem do DNA diluído com etanol, centrifugada a 10.000x g por 1 minuto e centrifugada a > 13.000x g durante 3 minutos para secar a coluna. A coluna MicroElute foi colocada em um tubo de centrífuga padrão 1,5 mL com topo removido. 50-75 μL de tampão de eluição pré-aquecido a 70°C foram adicionados à coluna e incubada em temperatura ambiente por 3 minutos. A coluna foi centrifugada em tubo de coleta a > 13.000x g por 1 minuto. Outros 50-75 μL de tampão de eluição pré- aquecido a 70°C foram adicionados à coluna MicroElute e incubados em temperatura ambiente por 3 minutos. A coluna foi centrifugada novamente em tubo de coleta a > 13.000 x g por 1 minuto. Toda a solução foi transferida para um tubo de centrífuga de 1,5 mL novo e armazenada a -20°C.
Tampão FTL, proteinase K, tampão BL, Tampão de Equilíbrio, coluna MicroElute, Tampão HB, tampão de lavagem de DNA, e tampão de eluição foram fornecidos por E.Z.N.A.™ FFPE DNA Kit (OMEGA bio-tek, Norcross, GA; Cat. N.°s D3399-00, D339901, e D3399-02).
Métodos adicionais para isolar os ácidos nucleicos (por exemplo, DNA) de tecidos embebidos em parafina fixados em formaldeído ou paraformaldeído (FFPE) são divulgados, por exemplo, em Cronin, M. et al. (2004) Am J Pathol. 164(1):35-42; Masuda N. et al., (1999) Nucleic Acids Res. 27(22):4436-4443; Specht K. et al., (2001) Am J Pathol. 158(2):419-429, Ambion RecoverAll™ Total Nucleic Acid Isolation Protocol (Ambion, Cat. N.° AM1975, September 2008), Maxwell® 16 FFPE Plus LEV DNA Purification Kit Technical Manual (Promega Literature #TM349, February 2011), e QIAamp® FFPE DNA Tissue Handbook (Qiagen, Cat. No. 37625, October 2007). Kit de isolamento de ácido nucleico total RecoverAll™ utiliza xileno em altas temperaturas para solubilizar amostras embebidas em parafina e um filtro de fibra de vidro para capturar ácidos nucleicos. Kit de purificação de DNA Maxwell® 16 FFPE Plus LEV é utilizado com Maxwell® 16 Instrument para purificação de DNA genômico de seções de 1 a 10 μm de tecido FFPE. DNA é purificado utilizando partículas paramagnéticas sílica-folheadas (PMPs) e eluído em volume de eluição baixo. Kit QIAamp® FFPE DNA Tissue Kit utiliza tecnologia QIAamp® DNA Micro para purificação de DNA genômico e mitocondrial.
EXEMPLO 2A: Separação do DNA
Instrumento CovarisTM E210 com refrigerador de circulação foi definido para 4°C. O tanque de água do instrumento foi preenchido com água destilada/deionizada para nível “6” na linha de preenchimento. Software SonoLabTM foi iniciado e o sistema foi autorizado a executar sequência de iniciação quando solicitado. A água no tanque do instrumento foi desgaseificada pelo menos 45 minutos antes da separação das amostras.
Para preparar as amostras de DNA genômico para separação, as amostras foram primeiro quantificadas utilizando um ensaio de PicoGreen ® (Invitrogen) em um leitor de microplacas (Spectramax M2, Molecular Devices). Com base na concentração, 120 μl de DNA de entrada desejado (2 ng/μl) com baixa TE (10 mM Tris, 0,2 mM EDTA, pH 8,0) foi usado para o experimento. Os 100 μl de amostras individuais foram pipetados lentamente em Covaris MicroTUBEs (Covaris Cat. # 520045) por meio de septos da tampa do tubo. Covaris MicroTUBEs então foram colocados na prateleira de tubo de série Covaris E. Para a separação de 200bp, as configurações foram as seguintes: 10% ciclo de trabalho, intensidade 5, 200 ciclos/explosão, tempo 180 s e modo Frequency Sweeping. Após separação, Covaris MicroTUBEs foram brevemente centrifugados, utilizando um adaptador apropriado em uma mini-centrífuga, e as amostras separadas foram transferidas para tubos limpos de 1,5 ml de microcentrífuga. Cada amostra de DNA separada foi purificada utilizando uma coluna MinElute QIAGEN ®. Brevemente, tampão QIAGEN PBI 5x foi adicionado à amostra em um tubo de microcentrífuga de 1,5 ml (por exemplo, 500 μL de tampão PBI foram adicionados a 100 μL de amostra). Cada amostra foi vortexada, brevemente centrifugada e transferida para uma coluna de rotação MinElute. Coluna de rotação MinElute foi centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. 750 μL de tampão QIAGEN PE foram adicionados à coluna, centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. A coluna de rotação foi centrifugada novamente a 13.000 rpm por 1 minuto e transferida para um tubo de microcentrífuga limpo de 1,5 ml. A coluna foi secada com ar durante 2-3 minutos. Para a primeira eluição, 18 μL de tampão de eluição QIAGEN foram adicionados para cada coluna, incubados durante 2-3 minutos e então centrifugados a 13.000 rpm por 1 minuto. Para a segunda eluição, 15 μL de tampão de eluição QIAGEN foram adicionados, incubados por 1 min e depois centrifugados a 13.000 rpm por 1 minuto. O eluente foi coletado e a coluna de rotação foi descartada.
Tipicamente, 200 ng são utilizados para separação de DNA, mas a quantidade de DNA pode variar entre 20 e 200 ng ou superior.
EXEMPLO 2B: Alternativa à separação do DNA
Este exemplo descreve um método alternativo para a separação de DNA do exemplo 2A.
Um DNA genômico dupla fita é primeiro desnaturado para DNA fita única e depois misturado com iniciadores, DNA polimerase (por exemplo, Exo-DNA polimerase), dNTPs e uma pequena quantidade de ddNTPs. A sequência iniciadora pode ser um hexâmero aleatório, ou um hexâmero aleatório marcado com uma sequência adaptadora na extremidade 5'. Métodos para utilizar amplificação de hexâmero aleatório marcado para clonar e sequenciar quantidades mínimas de DNA são descritos, por exemplo, em Wong K.K. et al., Nucleic Acids Res. 1996; 24 (19):3778-83. A reação é incubada sob condições que permitam a hibridização do iniciador-molde e síntese de DNA. A síntese de DNA terminará quando um ddNTP for incorporado à recém sintetizada primeira fita. O comprimento da primeira fita de DNA sintetizada pode ser controlado pela relação de dNTPs para ddNTPs. Por exemplo, a relação molar de dNTPs para ddNTP é pelo menos cerca de 1000:1, cerca de 5000:1 ou cerca de 10000:1. Após a síntese da primeira fita, curtos fragmentos (como iniciadores e primeira fita de DNA sintetizada com comprimento curto e ddNTPs) podem ser removidos pela seleção de tamanho (por exemplo, utilizando uma coluna de rotação de seleção de tamanho). A primeira fita de DNA resultante é misturada com iniciadores (por exemplo, hexâmeros aleatórios ou hexâmetros aleatórios marcados com uma sequência adaptadora), DNA polimerase (por exemplo, Exo+ DNA polimerase) e dNTPs. Uma Exo+ DNA polimerase pode ser usada para remover o terminal 3’-ddNTP da primeira fita de DNA ou mesmo para gerar extremidades sem corte sobre o segundo sítio de iniciação. A reação é então incubada sob as condições que permitam a hibridização do iniciador-molde e síntese de DNA. Após a síntese da segunda fita, os fragmentos de DNA dupla fita resultantes podem ser purificados e utilizados diretamente na construção da biblioteca. Alternativamente, os fragmentos de DNA dupla fita podem ser amplificados por PCR utilizando iniciadores contendo sequências adaptadoras se essas sequências adaptadoras foram incluídas nos iniciadores para a síntese da primeira e segunda fita. Os iniciadores para amplificação por PCR também podem incluir as sequências inteiras e/ou sequências de código de barras.
EXEMPLO 3: Preparação da biblioteca Reação de Reparação de Extremidade
Reagentes de reparação de extremidade (NEB #E6050L) foram descongelados e uma mistura inicial de reparação de extremidade foi preparada em gelo. Para preparar 70μL de mistura inicial por amostra, 55μL de água livre de nucleases foram misturados com 10 μL de tampão de reação de reparação de extremidade 10x e 5μL de mistura de enzima de reparação de extremidade. Então 70 μL de mistura inicial foram adicionados a 30 μL de cada amostra de DNA separado em uma placa de PCR 96 poços em gelo. A reação foi incubada em um termociclador a 20 °C por 30 minutos. Cada amostra foi purificada utilizando uma coluna QIAGEN MinElute®. Brevemente, tampão QIAGEN PBI 5x foi adicionado à amostra em um tubo de microcentrífuga de 1,5 ml (por exemplo, 500 μL de tampão PBI foram adicionados a 100 μL de amostra). Cada amostra foi vortexada, brevemente centrifugada e transferida para uma coluna de rotação MinElute. Coluna de rotação MinElute foi centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. 750 μL de tampão QIAGEN PE foram adicionados à coluna, centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. A coluna de rotação foi centrifugada novamente a 13.000 rpm por 1 minuto e transferida para um tubo de microcentrífuga limpo de 1,5 ml. A coluna foi secada com ar durante 2-3 minutos. Para a primeira eluição, 22 μL de Tampão de Eluição QIAGEN (10 mM Tris, pH8.5) foram adicionados a cada coluna, incubadas durante 2-3 minutos e então centrifugadas a 13.000 rpm por 1 minuto. Para a segunda eluição, 22 μL de tampão de eluição QIAGEN foram adicionados, incubados por 1 min e depois centrifugados a 13.000 rpm por 1 minuto. O eluente foi coletado e a coluna de rotação foi descartada.
Adição de 3’ base-A
Reagentes de adição base-A (NEB #E6053L) foram descongelados em gelo e uma mistura inicial de adição base-A foi preparada em gelo. Para preparar 10 μL de mistura inicial por amostra, 2 μL de água livre de nuclease foram misturado com 5 μL de tampão de reação dA-Tailing 10x e 3 μL de fragmento de Klenow (3’->5' exo-). Então 10 μL de mistura inicial foram adicionados a 40 μL de cada amostra de DNA com reparação de extremidade em uma placa de PCR 96 poços em gelo. A reação foi incubada em um termociclador a 37°C por 30min. Cada amostra foi purificada utilizando uma coluna QIAGEN MinElute®. Brevemente, tampão QIAGEN PBI 5x foi adicionado à amostra em um tubo de microcentrífuga de 1,5 ml (por exemplo, 250 μL de tampão PBI foram adicionados a 50 μL de amostra). Cada amostra foi vortexada, brevemente centrifugada e transferida para uma coluna de rotação MinElute. Coluna de rotação MinElute foi centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. 750 μL de tampão QIAGEN PE foi adicionado à coluna, centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. A coluna de rotação foi centrifugada novamente a 13.000 rpm por 1 minuto e transferida para um tubo de microcentrífuga limpo de 1,5 ml. A coluna foi secada com ar durante 2-3 minutos. Para a primeira eluição, 13 μL de Tampão de Eluição QIAGEN (10 mM Tris, pH8.5) foram adicionados a cada coluna, incubados durante 2-3 minutos e então centrifugados a 13.000 rpm por 1 minuto. Para a segunda eluição, 13 μL de tampão de eluição QIAGEN foram adicionados, incubados por 1 min e depois centrifugados a 13.000 rpm por 1 minuto. O eluente foi coletado e a coluna de rotação foi descartada.
Ligação de Adaptadores Múltiplos
Reagentes de ligação (NEB #E6050L) foram descongelados e um mistura inicial de ligação foi preparada em gelo. Para preparar 36 μL de mistura inicial por amostra, 12 μL tampão de reação Quick Ligation 5x foram adicionados a 3,3 μL Illumina Multiplex Adaptor (15uM, incluso em Illumina Cat. #PE- 400-1001) (3,3 μg adaptador/1 μg DNA de entrada inicial foi utilizado). Por exemplo, para uma amostra de 500 ng de DNA de entrada, os adaptadores foram primeiro diluídos em água (2 μL adaptadores mais 2 μL de H2O), em seguida, 3,3 μL dessa mistura de adaptador diluído, 15,7 μL de água livre de nuclease e 5 μL Quick T4 DNA ligase foram adicionados à reação de ligação. Para >1 μg de material inicial, >3,3 μL de adaptadores foram utilizados. Assim, menos água foi adicionada para manter o volume total da mistura de adaptador diluído e água livre de nuclease em 19 μl.36 μL de mistura principal e 24 μL de cada amostra dA-tailed DNA foram adicionados aos poços de uma placa PCR 96 poços em gelo. A reação foi incubada em um termociclador a 25°C por 30min. Cada amostra foi purificada utilizando uma coluna QIAGEN MinElute®. Brevemente, tampão QIAGEN PBI 5x foi adicionado à amostra em um tubo de microcentrífuga de 1,5 ml (por exemplo, 300 μL de tampão PBI foram adicionados a 60 μL de amostra). Cada amostra foi vortexada, brevemente centrifugada e transferida para uma coluna de rotação MinElute. Coluna de rotação MinElute foi centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. 750 μL de tampão QIAGEN PE foi adicionado à coluna, centrifugada a 13.000 rpm por 1 minuto, e o escoamento foi descartado. A coluna de rotação foi centrifugada novamente a 13.000 rpm por 1 minuto e transferida para um tubo de microcentrífuga limpo de 1,5 ml. A coluna foi secada com ar durante 2-3 minutos. Para a primeira eluição, 20 μL de Tampão de Eluição QIAGEN (10 mM Tris, pH8.5) foram adicionados para cada coluna, incubados durante 2-3 minutos e então centrifugados a 13.000 rpm por 1 minuto. Para a segunda eluição, 20 μL de Tampão de Eluição QIAGEN foram adicionados, incubados por 1 min e depois centrifugados a 13.000 rpm por 1 minuto. O eluente foi coletado e a coluna de rotação foi descartada.
Enriquecimento por PCR
Reagentes de PCR foram descongelados e um mistura inicial de PCR foi preparada em gelo. Para 62 μL de mistura inicial por amostra, 50 μL de mistura inicial Phusion High Fidelity 2X com Tampão HF (Finnzyme, NEB Cat. # F-531S), 8 μL de água livre de nuclease, 2 μL de Iniciadir Illumina 1.0 (25 μM) e 2 μL de Iniciador Illumina 2.0 (0,5 μM) foram utilizados. Em seguida, 62 μL de mistura inicial foram misturados com 2 μL Illumina Index Primer (25 μM, incluído em Illumina Cat. # PE-400-1001) com código de barras adequado e 36 μL de amostra de DNA ligado em uma placa PCR de 96 poços. A reação foi incubada em um termociclador como segue:1 Ciclo 98°C 30 s18 Ciclos 98°C 10 s65°C 30 s72°C 30 s1 Ciclo 72°C 5 min4°C pausaCada reação de PCR foi selecionada por tamanho com volume de 1,8x de grânulos AMPureXP (Agencourt; Beckman Coulter Genomics Cat. # A6388). Brevemente, 1,8x grânulos AMPureXP foram adicionados à amostra (por exemplo, 180 μL de grânulos foram adicionados a 100 μL de amostra) em um tubo de 1,5 ml de microcentrífuga, vortexados e incubados por 5 minutos com mistura de rotação fim-sobre- fim. Os tubos foram colocados em um suporte magnético até que a solução tivesse clareado (2 minutos). O sobrenadante foi descartado sem alterar os grânulos capturados no ímã. 600 μL de etanol 70% recém- preparado foram adicionados para aos grânulos, incubados por 1 min, seguido por remoção do etanol. Uma segunda alíquota de 600 μL de etanol 70% recém-preparado foi adicionada aos grânulos, incubados por 1 minuto, e o etanol foi removido. Os tubos foram postos de volta ao suporte magnético por 1-2 minutos para recapturar os grânulos. Qualquer etanol restante foi removido e os grânulos foram secos a ar em temperatura ambiente durante 5-10 minutos. 30 μL de tampão de eluição QIAGEN foram adicionados aos grânulos, vortexados e incubados por 2 minutos. Os tubos foram colocados de volta em um suporte magnético até que a solução tivesse clareado (2 minutos). O sobrenadante foi transferido para um tubo 1,5 mL novo e os grânulos foram descartados. As amostras de DNA eluídas foram quantificadas utilizando um ensaio Q-PCR. Estas quantificações permitirão agrupamento equimolar para garantir igualdade de representação de cada biblioteca dentro de uma seleção de captura híbrida de agrupados.
EXEMPLO 4: Seleção de Híbrido Bibliotecas de amostra de grupo indexada
Grupos (até complexos com 12) das bibliotecas que foram indexadas, purificadas e quantificadas por Q-PCR foram preparados no gelo. Grupos equimolares foram preparados em tubos de 1,5 ml de microcentrífuga para garantir que cada amostra fosse representada no processo de seleção de híbrido igualmente. O total de DNA introduzido para cada um destes grupos pode variar de 2000 ng a 500 ng. Tipicamente, o total de DNA introduzido é 2000ng. Assim, se doze amostras são agrupadas, 166,67 ng de cada pode ser agrupado para atingir um total de 2000 ng. O volume final de biblioteca de grupo de 2000 ng deve ser 4 μl. Devido a diferentes concentrações das bibliotecas indexadas, um grupo pode ser preparado com qualquer volume maior, mas então o agrupado deve ser secado pelo speedvac (utilizando pouco calor) e reconstituído em 4 μL de água livre de nuclease.
Quanto maior o rendimento em uma construção de biblioteca, maior a complexidade da biblioteca.
Hibridar as bibliotecas de DNA agrupadas com iscas de RNA biotinilado Kit Agilent SureSelect Target Enrichment Paired End (#G3360A-J) foi usado nesse experimento. Tampão de Hibridização #3, SureSelect Block #1, SureSelect Block #2, bloqueio Paired End Primer 1.0, bloqueio Index Primer 1-12, bloqueio RNAse e isca de RNA biotinilada foram degeladas no gelo. As seguintes misturas iniciais foram preparadas.a. Mistura de Tampão de Hibridização (13 μL por reação):i. Tampão de Hibridização #1 (Agilent) - 25 μlii. Tampão de Hibridização #2 (Agilent) - 1 μliii. Tampão de Hibridização #3 (Agilent) - 10 μliv. Tampão de Hibridização #4 (Agilent) - 13 μlb. Mistura de Bloqueio (8 μL por reação):i. SureSelect Block #1 (Agilent) - 2.5 μlii. SureSelect Block #2 (Agilent) - 2.5 μliii. Bloqueio Paired End Primer 1.0 (IDT, ressuspenso para 200 uM com H2O) - 1,5 μLiv. Bloqueador Index Primer 1-12 (IDT, ressuspenso para 200 uM com H2O) - 1.5 μLc. Diluição do Bloqueio RNasei. Para iscas de RNA biotiniladas personalizadas com território <3Mb: 1 μL de Bloqueio RNase (Agilent) foi diluído em 9 μL de água.ii. Para iscas personalizadas com um território de isca >3Mb: 1 μL de bloqueio RNase foi diluído em 3 μL de água (ainda 0,5 μl do bloqueio RNase por 7 uL de reação de captura)d. Mistura de isca: (7 μL por reação)i. Iscas de RNA - 2 μL (para iscas que têm um território de isca >3Mb, 5 μL de isca foram utilizados)ii. Bloqueio RNase diluído - 5 μL (para iscas que têm um território de isca > 3 Mb, 2 μL de bloqueio RNase diluído conforme indicado acima foram utilizados)
Uma vez que Mistura de Tampão de Hibridização, Mistura de Bloqueio e Mistura(s) de Isca foram preparadas, a mistura de tampão de hibridização foi vortexada, centrifugada e aquecida a 65°C, no bloco de calor. 4 μL de cada biblioteca de amostra agrupada para ser híbrido selecionada foram misturados com 8 μL da mistura de bloqueio em uma placa de PCR 96 poços. A reação foi incubada em um termociclador a 95°C por 5 minutos e então colocada a 65°C. Quando a biblioteca de amostras agrupadas/mistura de bloqueio foram incubados a 95°C por 5 min e em seguida a 65°C por 2,5 minutos, a mistura de isca (=isca/mistura de bloqueio RNase) foi colocada no bloco de calor a 65°C por 2,5 minutos. Os tubos contendo tampão de hibridização foram rapidamente centrifugados e então imediatamente retornados ao bloco térmico a 65°C. 13 μL da mistura de tampão de hibridização aquecido foram pipetados para cada biblioteca de amostra/mistura de bloqueio, enquanto a placa de 96 poços permaneceu no termociclador a 65°C. Uma vez que a mistura de isca foi incubada por 2,5 minutos a 65°C, 7 μL da mistura de isca foram adicionados à mistura de tampão de hibridização/bloqueio/amostra de biblioteca enquanto a placa de 96 poços permaneceu no termociclador a 65°C. A reação (volume total de 32 μl) foi incubada a 65°C por 24 horas em um termociclador.
Preparação dos grânulos magnéticos
Tampão de Lavagem SureSelect #2 foi pré-aquecido a 65°C, no bloco de calor. Grânulos Dynal MyOne Streptavidin T1 (Invitrogen) foram vortexados e ressuspendidos. Os grânulos foram lavados pela adição de 200 μL de tampão de ligação SureSelect por 50 μL de grânulos Dynal (por exemplo, 1200 μL de tampão de ligação SureSelect foi usado para preparar 300 μL de grânulos Dynal). Os grânulos foram vortexados por 5 segundos e centrifugados rapidamente. Os grânulos foram colocados em um suporte magnético por cerca de 15 segundos ou até que todas os grânulos fossem capturados. O sobrenadante foi removido e descartado. Lavagem foi repetida com tampão de ligação SureSelect mais duas vezes para um total de três lavagens. Após as lavagens, os grânulos foram ressuspendidos em 200 μL de tampão de ligação SureSelect por 50 μL de grânulos Dynal (por exemplo, 1200 μL de tampão de ligação SureSelect foi usado para preparar 300 μL de grânulos Dynal). Os grânulos ressuspendidos foram vortexados e centrifugados rapidamente. 200 μL de grânulos ressuspendidos foram aliquotados para tubos individuais de microcentrífuga de 1,5 ml.
Seleção de DNA capturados híbridos
Após 24 horas de incubação, cada amostra hibridizada da placa de PCR no termociclador a 65°C foi rapidamente pipetada num tubo contendo 200 μL de grânulos preparados em temperatura ambiente. As misturas de amostra e grânulos foram vortexadas por 5 segundos e incubadas em rotação em temperatura ambiente por 30 minutos, para garantir a mistura adequada. Os tubos foram rapidamente centrifugados. Os grânulos foram capturados em um ímã (durante 2 minutos) e o sobrenadante foi removido e descartado. Os grânulos foram ressuspendidos em 500 μL de tampão de lavagem de SureSelect #1, para uma lavagem de pouco rigor. As amostras foram vortexadas por 5 segundos e incubadas durante 15 min em temperatura ambiente fora do ímã. As amostras foram vortexadas por 5 segundos a cada 3-5 minutos. Os tubos foram rapidamente centrifugados. Os grânulos foram capturados em um suporte magnético durante 2 minutos e o sobrenadante foi removido e descartado. Para uma lavagem de alto rigor para remover o material fora do alvo, os grânulos foram lavados com tampão de lavagem de SureSelect #2 pré-aquecido a 65°C. Brevemente, os grânulos foram ressuspendidos em 500 μL de tampão de lavagem SureSelect #2 pré-aquecido e misturados em um vórtice durante 5 segundos para ressuspender os grânulos. Os grânulos foram brevemente centrifugados em uma centrífuga e incubados a 65°C por 10 min em um bloco de calor com ocasional mistura por vórtice durante 5 segundos em temperatura ambiente. Então os grânulos foram brevemente centrifugados em uma centrífuga e capturados em um ímã por 2 minutos. Lavagem foi repetida mais 2 vezes com tampão de lavagem SureSelect #2 pré-aquecido a 65°C, para um total de três lavagens. Em seguida, o tampão de lavagem foi completamente removido e 50 μL de tampão de eluição SureSelect foi adicionado aos grânulos seguido de agitação em vórtice por 5 segundos para misturar os grânulos. As amostras foram incubadas durante 10 minutos em temperatura ambiente com ocasional mistura por vórtice por 5 segundos. Então os grânulos foram brevemente centrifugados em uma centrífuga e capturados em um ímã. O sobrenadante contendo o DNA capturado foi pipetado para um novo tubo de microcentrífuga de 1,5 ml. 50 μL de tampão de neutralização SureSelect foram adicionados ao DNA capturado. As amostras foram vortexadas durante 5 segundos, rapidamente centrifugadas em uma centrífuga e purificada utilizando 1,8 x volume de grânulos AMPureXP. DNA foi eluído em 40 μL de água livre de nucleasse.
Enriquecimento por PCR do DNA capturado
Reagentes de PCR foram descongelados e um mistura inicial de PCR foi preparada em gelo. Para 60 μL de mistura inicial por amostra, 50 μL de mistura principal de Alta Fidelidade Phusion 2X com tampão HF (NEB #F-531S) foram misturado com 8 μL de água livre de nuclease, 1 μL QPCR Primer1.1 (100 μM em H2O) e 1 μL QPCR Primer2.1 (100 μM em H2O). As sequências iniciadoras para Q-PCR são:QPCR Primer1.1 (HPLC-purificado de IDT):5'AATGATACGGCGACCACCGAGAT3 ' (SEQ ID NO:48)QPCR Primer2.1 (HPLC-purificado de IDT):5'CAAGCAGAAGACGGCATACGA3 ' (SEQ ID NO:49)60 μL de mistura principal foram adicionados a 40 μL de cada amostra de DNA capturado em uma placa de PCR 96 poços em gelo. A reação foi incubada em um termociclador como segue:1 Ciclo 98°C 30 s12 Ciclos 98°C 10 s65°C 30 s72°C 30 s1 Ciclo 72°C 5 min4°C PausaCada 100 μL de reação de PCR foi purificada com volume de 1,8 x de grânulos AMPureXP e eluída em 35 μL de tampão de eluição (10 mM Tris, pH 8,5). As amostras de híbrido selecionado/DNA capturado foram quantificadas utilizando um ensaio Q-PCR. O ensaio de Q-PCR detectou os adaptadores de extremidade e as leituras indicaram quanto de cada amostra deve ser carregado em uma célula de fluxo de sequenciamento para obter a densidade adequada de agrupamento.
Exemplo 5: Métodos
O seguinte exemplifica determinadas modalidades dos métodos e condições experimentais utilizadas para identificar as alterações de acordo com os Exemplos. Triagem de translocação adicional pode ser realizada utilizando, por exemplo, qualquer análise de qRT-PCR do cDNA preparado a partir de uma amostra tumoral pré-selecionada.
Sequenciamento de DNA massivamente paralelo foi preparado na captura por hibridização, bibliotecas baseadas em ligação de adaptador utilizando DNA isolado do tecido fixado em parafina arquivado. Uma combinação de ferramentas de análise foi utilizada para analisar os dados e atribuir chamadas de alteração do DNA. Rastreio de translocação adicional foi preparado utilizando análise de qRT- PCR do cDNA preparado a partir de tumores congelados ou avaliação de IHC de espécimes FFPE arquivadas. Sequenciamento de cDNA massivamente paralelo foi realizado para confirmar a expressão de ambas as novas translocações utilizando o RNA isolado do tecido FFPE. DNA genômico do sangue de referência com correspondência normal foi sequenciado para o paciente escore NSCLC para confirmar a origem somática de rearranjo.
Sequenciamento de DNA genômico
Sequenciamento de 2574 éxons de 145 genes cancerígenos foi preparado utilizando DNA de espécimes do tumor embebidas em parafinas fixadas em formalina (FFPE) arquivadas, 24 dos pacientes NSCLC. Bibliotecas de sequenciamento foram construídas pelo método de ligação do adaptador utilizando DNA genômico, seguido pela seleção de hibridização com sondas de captura de hibridização de RNA otimizadas (Agilent SureSelect kit personalizado). Sequenciamento no instrumento HiSeq2000 (Illumina) foi preparado utilizando 36 x 36 leituras pareadas para uma profundidade média de 253X. Processamento de dados e atribuições de mutação para substituições de base, indels, alterações de números de cópia e rearranjos genômicos foram feitos utilizando uma combinação de ferramentas otimizada para chamada de mutação do tecido tumoral.
Sequenciamento de cDNA
cDNA foi gerado a partir de RNA total extraído de uma única seção de tecido 5-10 um FFPE utilizando o kit de Alta Pureza Roche e transcrito reverso de cDNA com iniciadores hexâmeros aleatórios pelo SuperScript® III First-Strand Synthesis System (Invitrogen). cDNA fita dupla foi preparado com o NEBNext® mRNA Second Strand Synthesis Module (New England Biolabs) e usado como entrada para a construção da biblioteca, captura híbrida e sequenciamento como também para amostras de DNA de FFPE. Análise dos níveis de expressão foi feita com uma combinação de ferramentas de análise.
EXEMPLO 6: Exemplares de genes e variantes selecionados para análise multiplex
Este exemplo fornece quatro tabelas exemplares, resumindo uma seleção de genes, variantes e os tipos de câncer para análise multiplex.Tabela 1: Lista de genes exemplares e variantes selecionados, tipos de câncer associados e códons prioritários para análise multiplex.
Figure img0019
Figure img0020
Figure img0021
Figure img0022
Figure img0023
Figure img0024
Figure img0025
Figure img0026
Figure img0027
Figure img0028
Figure img0029
Figure img0030
Figure img0031
Figure img0032
Figure img0033
Figure img0034
“Prioridade 1” refere-se à mais alta prioridade de genes selecionados ou produtos de genes.“Gene Cancerígeno” refere-se a genes associados a cânceres ou produtos de genes de menor prioridade em relação à Prioridade 1.“Genes PGx” referem-se aos genes que são importantes para a farmacogenética e farmacogenômica 5 (PGx).Tabela 1A: Genes exemplares e variantes selecionados adicionais, tipos de câncer associados, códons prioritários, categoria de acionabilidade e terapias potenciais.
Figure img0035
Figure img0036
Figure img0037
Figure img0038
Figure img0039
Figure img0040
Figure img0041
Figure img0042
As categorias de acionabilidade são classificadas conforme descrito abaixo. Tabela 1B fornece um resumo da aplicação das diferentes categorias para alterações exemplares em tipos diferentes de câncer.Categoria A: Alterações aprovadas/padrão que predizem a sensibilidade ou resistência às terapias aprovadas/padrãoKRAS G13D no câncer de cólon metastáticoERBB2 amplificação em câncer de mamaEGFR L858R em câncer pulmonar de células não pequenasCategoria B: Alterações que são critérios de inclusão ou exclusão das terapias experimentais específicasKRAS G13D em câncer de mama, câncer de pulmão ou cancro do cólonBRAF V600E em melanoma, câncer de cólon ou câncer de pulmãoNRAS Q61K em melanomaPIK3CA H1047R no câncer de mamaFGFR1 amplificação em câncer de mamaPTEN inativação bialélica no câncer de mamaBRCA1 inativação bialélica no câncer de mama ou câncer pancreáticoCategoria C: Alterações com evidência limitada (dados clínicos iniciais, dados clínicos conflitantes, dados pré-clínicos, teóricos) que predizem a sensibilidade ou resistência às terapias padrão ou experimentaisKRAS Q61H em câncer de cólon (clínicos iniciais)PIK3CA H1047R no câncer de mama (clínico conflitante)BRAF V600E no câncer de cólon (clínico conflitante)ERBB2 mutação ou amplificação em câncer de pulmão (relatos de caso)BRAF D594G em câncer de pulmão (pré-clínico)FGFR1 amplificação no câncer de mama (pré-clínico)ATM inativação bialélica no câncer de mama (pré-clínico)TSC1 inativação bialélica no câncer de cólon (pré-clínico)ATR inativação bialélica no câncer de cólon (teórico)Mutação BRAF V600E em sarcoma (teórico)Categoria D: Alterações com o utilitário de diagnóstico ou prognóstico em um subtipo especial de câncerMSH2 inativação bialélica no câncer de cólon (forte evidência clínica)BRAF V600E no câncer de cólon (forte evidência clínica) KRAS G13D em câncer de pulmão (forte evidência clínica)BRCA1 inativação de no câncer de mama (forte evidência clínica)Categoria E: Alterações com significado biológico claro no câncer (ou seja, mutações driver), sem implicações clínicas clarasAPC inativação bialélica no câncer de cólonTP53 inativação bialélica no câncer de mamaMITF amplificação de em melanomaARID1A em câncer de ovárioCategoria F: Alterações sem significado biológico conhecido em câncerNovas alterações no conhecido gene cancerígenoAlvos de terapiaOrtólogos de conhecido gene cancerígenoTabela 1B: Classificação exemplar de alterações em diferentes tipos de cancer
Figure img0043
Tabela 2: Genes exemplares selecionados associados à farmacogenética e farmacogenômica (PGx).
Figure img0044
Figure img0045
Figure img0046
Tabela 3: Genes selecionados exemplares associados com mutações de translocação em tumores sólidos
Figure img0047
Figure img0048
Figure img0049
Figure img0050
Figure img0051
Figure img0052
Tabela 4: Genes exemplares selecionados associados com mutações de translocação em tumores sólidos
Figure img0053
Figure img0054
Figure img0055
Figure img0056
Figure img0057
Figure img0058
Figure img0059
Figure img0060
EXEMPLO 7: Sequências de iscas exemplares para Captura HíbridaA Tabela 7 fornece iscas exemplares para três alvos: SMAD3_target_10, SMAD3_target_11, SMAD3_target_12.Tabela 7: Iscas exemplars
Figure img0061
Figure img0062
Figure img0063
Figure img0064
Tabela 8 fornece iscas com sequências para dois alvos: FLT3_target_24 modificado para reduzir a estrutura secundária. FLT4_target_31 tem uma sequência arbitrária em ambas as extremidades das iscas, o que é efetivamente semelhante a uma isca mais curta. Ambos melhoram a cobertura em cerca de 4X (~ 4x melhoria da cobertura). Tabela 8: Iscas exemplars
Figure img0065
Figure img0066
Figure img0067
Figure img0068
EXEMPLO 8: Uma abordagem Bayesiana para detecção sensível de alterações genômicas somáticas de sequenciamento de geração seguinte de espécimes clínicas de câncer
A abordagem Bayesiana aqui descrita foi implementada nos exemplos a seguir.
A utilidade desta abordagem é ilustrada por cálculos de potência, descrevendo o impacto de detecção de dados direcionados anteriores à substituição na menor faixa de frequências de mutação relevante na prática clínica. Como mostrado na FIG. 2, os valores de expectativa anterior (por exemplo, 1e-6 ou 10% antes) e frequência de mutação (por exemplo, 1%, 5% ou 15% de mutação) correspondem aos valores descritos em (i) e (ii) de “Uma abordagem Bayesiana para detecção sensível de alterações genômicas somáticas de sequenciamento de próxima geração de espécimes de câncer clínico” respectivamente. FIG. 2 mostra que incorporação de expectativa anterior pode melhorar poder de detecção de mutações mais raras, por exemplo, por reduzir a profundidade de cobertura em sítios mutantes, ou aumentando a potência estimada (sensibilidade) para detectar mutações.
EXEMPLO 9: Uma abordagem Bayesiana: Aplicação para uma amostra multi-clonal de baixa pureza construída
Para ainda demonstrar esses benefícios da abordagem Bayesiana revelados aqui, uma amostra de “tumor” multi-clonal artificial de baixa pureza foi construída por igual mistura de DNA de 10 participantes no projeto 1000 Genomes, criando um grupo de DNA que contém um grande número de variantes de sequência presentes em ~ 5% ou 10% do DNA total (decorrentes de SNPs heterozigotos privados). A mistura foi submetida a seleção híbrida para éxons de 182 genes relacionados ao câncer e sequenciada na plataforma Illumina HiSeq2000, produzindo uma cobertura média de aproximadamente 350X através do painel de gene. Da mesma forma, cada amostra constituinte foi processada individualmente para determinar o genótipo de todos os sítios do SNP. Das aproximadamente 260 ~ 5% de “mutações” presentes no grupo 89% foram detectadas com alta confiança utilizando uma prévia de 1e-6, enquanto 94% e 95% eram detectável utilizando uma prévia de 1% e 10% (cobertura média de sítios perdidos ~ 125x), respectivamente, apoiando as conclusões teóricas acima. Das 102 10% de “mutações” presentes no grupo, 98% foram detectadas com alta confiança utilizando uma prévia de 1e-6, enquanto que 99% e 99% foram detectáveis utilizando uma prévia de 1% e 10% (cobertura do sítio perdido 13 x).
EXEMPLO 10: Uma abordagem Bayesiana: Aplicação para amostras de câncer de pulmão e câncer de cólon.
Expectativas prévias da frequência de mutações relevantes em vários tipos de câncer do banco de dados COSMIC (na internet, em sanger.ac.uk/genetics/CGP/cosmic) foram derivadas e analisadas mais de 80 amostras de câncer de pulmão e cólon extraídas de amostras clínicas de rotina. Foram observadas mutações conhecidas em mais de 20 diferentes genes, incluindo uma mutação 1% PIK3CA p.H1047R em um câncer de cólon que só poderia ser detectado pela incorporação dos 3% de prévia para esta mutação neste tipo de câncer. Esses resultados mostram que a incorporação judiciosa de expectativas prévias cerca de espectros de mutação específica de tipo tumoral pode ser benéfica na tradução de análise do genoma tumoral baseada em NGS para o ambiente clínico.
EXEMPLO 11: Uma abordagem Bayesiana: Aplicação para amostras de câncer de mama
Chamada de mutação de substituição em éxons de 182 genes relacionados ao câncer sequenciados para ~ 260x para uma amostra de câncer de mama FFPE foi realizada. O número de sítios com >2 cópias de um alelo alternativo é 1,793. O número de sítios com confiança posterior >99% na presença da mutação é 402. O número de sítios remanescentes após filtros é 188, que é aproximadamente o número esperado de sítios variantes. O número de sítios que não estão em dbSNP é 14, que é aproximadamente o número esperado de sítios para não estar em dbSNP já que dbSNP capta >90% de variação. O número de sítios não sinônimos é 5. O número de sítios em COSMIC é 2 (PIK3CA p.H1047R e p.F113S P53).
EXEMPLO 12: Uma abordagem Bayesiana: Detecção de Mutações Raras
Muitos espécimes clínicos de rotina contêm mutações raras relevantes. FIG. 3 mostra as frequências de mutação em mais de 100 amostras clínicas de câncer. As amostras foram biópsias FFPE, ressecções cirúrgicas ou aspirados de agulha fina predominantemente de cânceres de cólon e pulmão. O espectro de frequência de mutações conhecidas, encontrado em uma série de amostra clínica é mostrado na Tabela 12.Tabela 12: Espectro de frequência de mutações conhecidas encontradas em uma série de amostras clínicas
Figure img0069
* Provavelmente subestimado
Exemplo 13A: Seleção de Alvos de Alto Desempenho Baseada em Solução Utilizando Sondas de Captura de Oligonucleotídeos Sintetizados Individualmente
A disponibilidade de técnicas de seleção de alvo genômicos baseados em solução permitiu o desenvolvimento rápido de aplicações de sequenciamento direcionados, algumas das quais conduziram à introdução de testes clínicos de sequenciamento. Reagentes de captura de hibridização comercializados são baseados em oligonucleotídeos sintetizados em arranjo, que são convertidos em DNA biotinilado ou sondas de RNA (“iscas”). No entanto, métodos para geração desse conjunto complexo de sondas enfrentam os desafios de desempenho, por exemplo, capturar alvos que contenham muito GC.
Uma abordagem alternativa que utiliza oligonucleotídeos 5’-biotinilado, sintetizados individualmente (“oligo-iscas”) para capturar uma região alvo de ~ 130kb representando 57 genes clinicamente relevantes e acionáveis, relacionados ao câncer é descrito aqui. Bibliotecas de sequenciamento indexadas selecionadas utilizando estas oligo-iscas com um processo de hibridização de 24 horas renderam enriquecimento do alvo de 5.000 vezes. Leituras pareadas 50M 49 x 49 geraram uma cobertura média de alvo de 2100x com um desvio padrão de 568x (27%). Todos os alvos foram cobertos com êxito, com 99,95% das bases alvo cobertas a >500x. Além disso, a cobertura do alvo não tinha praticamente nenhum viés GC. Alvos com conteúdo GC >70% apresentaram em média 1.975x cobertura e alvos com conteúdo GC <35% apresentaram em média 1,996x cobertura.
Alto desempenho foi mantido utilizando tempos de hibridização ainda mais curtos: 99,3% de bases alvo foram cobertas em >500 x após uma hibridização de 2,5 horas.
Uso da SSPE (Salmon Sperm, PE)/Denhardt superou tampões hib/lavagem contendo TEACl, TMACl, e/ou sulfato de dextrano.
Oligo-iscas podem ser inoculadas em grupos de iscas derivadas de arranjo para aumentar a cobertura de diferentes regiões de difícil captura (por exemplo, alta % GC), ou rapidamente adicionar novos conteúdos de gene. Essa abordagem oferece um método altamente eficaz e escalável para o desenvolvimento para testes de sequenciamento clínico direcionados de alto desempenho.
Exemplo 13B: Método de otimização de iscas de captura
Testaram-se três conjuntos de isca. Os resultados estão resumidos na FIG. 5. Os conjuntos de isca foram como segue:
Conjunto de isca #1 consiste em iscas de oligonucleotídeo DNA sintetizado individualmente, 5’- biotinilado somente.
Conjunto de isca #2 inclui iscas de RNA derivado de arranjo, biotinilado, inoculados com iscas de oligonucleotídeo DNA sintetizado individualmente, 5’-biotinilado.
Conjunto de isca #3 consiste em iscas de RNA derivado de arranjo, biotinilado, somente.
Todos os oligonucleotídeo DNA sintetizado individualmente, 5’-biotinilado eram de 120 bases com uma 5' biotina.
FIG. 5 é um histograma de cobertura, comparando a uniformidade na cobertura detectada com conjunto de isca #1 e conjunto de isca #2, em relação ao conjunto de isca #3. Os conjuntos de isca estão demonstrados como #1, 2 e 3 na FIG. 5. Várias lacunas na cobertura estavam presentes ao utilizar conjunto de isca #3 correspondente ao alto % de GC, enquanto que regiões correspondentes foram profundamente cobertas utilizando conjuntos de isca #1 e #2, conforme ilustrado na FIG. 5. Na FIG. 5, o painel esquerdo rotulado “GC_density_target...” indica o conteúdo local GC dentro do alvo, a linha represente 65% do conteúdo GC, onde qualquer valor acima da linha representa um alto conteúdo GC. Como mostrado no histograma, a cobertura é menor para o conjunto de isca #3 em áreas de alto conteúdo GC. O painel inferior na FIG. 5 rotulado “IDT_iscas...” indica a colocação dos oligos que cobrem o alvo indicado.
Uma representação gráfica das mudanças no número de alvos e cobertura utilizando conjunto de iscas derivadas de arranjo somente ou inoculadas com iscas individualmente sintetizadas é retratada na FIG. 4. Mais especificamente, FIG. 4 é uma representação linear de um histograma de cobertura. O número de alvos (eixo y) é retratado como uma função de cobertura (eixo x). Linha #1 representa a cobertura utilizando um conjunto de isca que inclui, iscas de oligonucleotídeo RNA derivado de arrajo 5'-biotinilado inoculado com iscas de oligonucleotídeo DNA sintetizado individualmente, 5’-biotinilado (dito na FIG. 4 como “Conjunto de isca #1”). Linha #2 representa a cobertura obtida utilizando um conjunto de isca que inclui iscas de oligonucleotídeo RNA derivado de arrajo biotinilado somente (dito na FIG. 4 como “Conjunto de isca #2”). A cobertura geral média utilizando conjunto de isca #2 foi 924, enquanto que a cobertura em áreas de alto conteúdo GC (cerca de 68%) utilizando conjunto de isca #2 foi 73. Em contraste, quando conjunto de isca #1 foi utilizado, a cobertura geral foi semelhante ao conjunto da Isca #1, cerca de 918, mas a cobertura foi melhorada para 183 em áreas de alto conteúdo GC.
Exemplo 13C: Condições Experimentais Exemplares para Avaliar Conjunto de Iscas
Conjunto de isca A consiste em iscas de oligonucleotídeo DNA sintetizado individualmente, 5’- biotinilado somente. O conjunto original era 1000 oligos, cobrindo 133 kb do território alvo (dita aqui como “o grande conjunto”, “conjunto de isca A” ou “DNA oligo iscas”).
Para os experimentos de inoculação, o conjunto original 1000 oligo DNA (“o conjunto grande”) foi adicionado a um conjunto de isca que consiste em iscas de oligonucleotídeo RNA derivado de arranjo, biotinilado (referidas neste exemplo como “conjunto de isca B” ou “Iscas de RNA”). Diferentes proporções de iscas oligo DNA do conjunto de isca A foram misturadas com iscas de RNA do conjunto de isca B. Em particular, uma relação de iscas oligo DNA:iscas RNA de 1:10 foi utlizada (10 ng total de iscas oligo DNA para 100 ng total iscas RNA). Hibridização e as condições de lavagem foram equiparadas para aquelas mais ideais para as iscas de RNA (a principal diferença sendo que a temperatura de lavagem ideal para iscas de RNA é ~ 70C, enquanto que para iscas de oligo DNA é ~ 50C).
Com baixas densidades em arranjo tipo ladrilho, periodicidades fortes na cobertura foram detectadas ao usar iscas oligo DNA que correspondiam à colocação de isca. Além disso, baixas densidades em arranjo tipo ladrilho podem tornar a captura de alelos com in/dels mais difícil. Portanto, conjuntos de iscas foram projetados para MAP3K1 com as diferentes densidades em arranjo tipo ladrilho retratadas na Tabela 13. Nas misturas abaixo, Mistura 1 contendo iscas de oligo DNA sintetizado individualmente, 5’-biotinilado projetadas para capturar os éxons de seis genes relevantes para o câncer (DAXX, TRRAP, CREBBP, GRIN2A, SPOP, GNA11) foram inoculadas somente às iscas de oligonucleotídeo RNA derivado de arranjo, biotinilado (conjunto de iscas B). DAXX, TRRAP, CREBBP, GRIN2A e SPOP não estavam presentes no conjunto de isca de RNA. Misturas de 2-4 foram inoculadas ao conjunto de isca A (o grande conjunto de iscas oligo DNA) para testar diferentes densidades em arranjo tipo ladrilho (sendo a Mistura 2 a mais densa) de iscas de captura para os éxons de MAP3K1. O conjunto de isca RNA, sozinho, cobriu aproximadamente 1MB de sequência.Tabela 13. Misturas para métodos que utilizam sondas de captura
Figure img0070
Entrada para captura foi 2 μg de bibliotecas de DNA de linhagens celulares em grupo. 2 μg de biblioteca foram misturados com a mistura de bloqueio (Tabela 14), secadas e ressuspendidas em 9 μL de água. Esta mistura foi, em seguida, colocada em uma placa, transferida para um ciclador e corrida a 98°C por 5 minutos, seguidos de 68°C por 2 minutos. A placa foi então aberta e 11 μL da mistura isca de DNA/tampão hyb @ 68°C foram adicionados. A mistura isca de DNA/tampão hib a 68°C = 10 μL tampão hib + 1 μL isca (contendo 10 ng, 50ng ou 100ng de isca).
Para capturas com iscas de DNA somente (por exemplo, conjunto de isca A), hibridização foi realizada a 68°C e lavagens realizadas a 50°C. As iscas foram testadas em 5 ng, 10 ng, 100 ng, 1000n g e 2000 ng (por 2 ug biblioteca de entrada). Para hibs de 24hs, as condições de 5-10 ng eram ideais, e as condições de 100ng também eram aceitáveis. Para hibridização de 2,5 horas, 100ng funcionou melhor.
Para capturas com o conjunto de iscas grandes de DNA (100kb) inoculadas no conjunto de RNA de arranjo (B) para resgatar regiões de alto GC/baixo desempenho, hibridização foi realizada a 68°C e lavagens realizadas a 70°C. Conjuntos de iscas foram testados em 1:10 oligo DNA: iscas de RNA (ou seja, massa total de 10 ng de oligo iscas e massa total de 100 ng de iscas de RNA).
Para captura com o conjunto de iscas de DNA, focado no gene, pequeno, inoculado no conjunto isca de RNA, hibridização foi realizada a 68°C e uma gama de temperaturas de lavagem foram testadas (62°C, 64°C, 66°C, 68°C, 70°C e 72°C).
Mistura 1 (adição de 6 novos genes) foi testada nas seguintes proporções: 1:5, 1:10 e 1:20 massa total da isca de oligo DNA: massa da isca de RNA (ou seja, 20ng:100ng, 10ng:100ng e 5ng:100ng).
Mistura 5 (3 oligos representando exon 3 de STK11 para caminho de baixa cobertura) foi testada em 1:500, 1:1000 e 1:2000 oligo DNA: oligo RNA. 100 ng do total de iscas de RNA foram utilizados. STK11 foi testado já que representa um importante alvo do câncer com desempenho de detecção baixo quando capturado com as iscas de RNA somente. Inoculação de exon 3 de STK11 no oligo DNA aumenta a cobertura de uma média de 70X a 300X.Tabela 14. Tampões para métodos que utilizam sondas de captura
Figure img0071
Figure img0072
Exemplo 14. Sequenciamento ultraprofundo, rotineiro para caracterização tumoral sensível utilizando entradas baixas de DNA derivado de tecido fixado em formalina.
A ampla adoção de tecnologias de sequenciamento de DNA de alto rendimento facilitou rápidos avanços na genômica do câncer. No entanto, o padrão de cuidado no diagnóstico de câncer genômico ainda 5 envolve testes focados em genes individuais e mutações específicas. Como o número de mutações clinicamente acionáveis cresce, este paradigma de única mutação por teste torna-se inviável, particularmente quando os espécimes de tecido são limitantes como é geralmente o caso com biópsias. Para tratar da necessidade clínica de caracterização genômica abrangente das amostras tumoral, desenvolvemos um teste clínico que oferece massivamente dados da sequência paralelos para 200+ genes relacionados ao câncer. 10 Além disso, este teste mostrou ser clinicamente relevante, ao produzir dados de sequenciamento ultraprofundos de amostras de tecido embebidas em parafina e fixadas em formalina (FFPE) com entradas baixas de DNA como 50ng, e de amostras tão antigas como de onze anos.
Para avaliar o desempenho deste teste em uma grande variedade de amostras, DNA foi isolado de 96 amostras FFPE a partir de um conjunto de blocos envelhecidos, que incluía 12 pares tumoral/normal de cada 15 um dos tecidos de mama, cólon, pulmão e renal, uniformemente distribuídos para cada tecido ao longo das idades seguintes: 1, 3, 5, 7, 9 e 11 anos. 200ng e/ou 50ng de entrada de DNA foi utilizado para construir bibliotecas de sequenciamento indexadas, que foram depois enriquecidas para 200+ genes relacionados ao câncer utilizando um método de captura híbrida baseado em solução e sequenciado em uma plataforma Illumina HiSeqTM 2000.
Para as 76 amostras que renderam pelo menos 200 ng de DNA para construção de biblioteca, o sequenciamento de cobertura foi, em média, de 1.000 x após a remoção de duplicatas PCR, com >95% das amostras com um rendimento de cobertura mediana de > 350x. Para amostras em que se utilizou 50ng para construção de biblioteca, a cobertura foi na média de 450x. Desempenho de sequenciamento foi consistente em todos os tipos e idades das amostras de tecidos. Dito sequenciamento ultraprofundo permite detecção de alta confiança de mutações presentes em frequências tão baixas quanto 5-10%.
Exemplo 15. Perfilamento do genoma tumoral utilizando células tumorais circulantes
Células tumorais circulantes (CTC) fornecem uma oportunidade única de amostrar malignidades humanas de forma minimamente invasiva e serial. Uso de CTC para a caracterização molecular de genomas do câncer apresenta dois desafios principais. Primeiro, CTC devem ser eficientemente isoladas do sangue, onde eles podem ser excedidas em número 107 vezes por células não tumorais. Em segundo lugar, o número limitado de genomas tumorais presentes em uma amostra de CTC deve ser capturado de forma acessível, minimizando a perda de material e a introdução de viés.
Análises genéticas anteriores do CTC utilizaram PCR alelo-específico; esses métodos permitem detecção de número de cópias muito baixo de mutações específicas em um ruído >104 maior de sequências selvagens. Embora aborde os desafios duplos da eficiência de abundância e captura do CTC, esta abordagem é intrinsecamente limitada para estreitar as caracterizações de variantes selecionadas, pré-especificadas. Para trazer a análise molecular do CTC para era genômica, acoplamos um sistema de captura de raras células microfluidico que permite a recuperação do CTC com um ruído de apenas centenas, ao invés de dezenas de milhares, de glóbulos brancos, com uma plataforma de próxima geração que permite ressequenciamento profundo de mais de 200 genes associados ao câncer de uma única amostra CTC.
Utilizaram-se misturas complexas de até dez linhagens celulares cancerígenas, detecção de mutação sensível (~ 94% de alelos > 10% de abundância) de tão poucas quanto 100 células totais, preservando bastante as frequências alélicas (R2 ~ 0,90). Por recapturar células cultivadas inoculadas no sangue, obtiveram-se perfis de mutação multigene de amostras contendo tão poucas quanto 10 células cancerígenas. Este nível de sensibilidade coloca a maioria de amostras clínicas de CTC ao alcance da análise NGS. Em uma série de amostras de sangue de pacientes com câncer de mama, heterogeneidade CTC potencial foi investigada por comparar a frequência de células Her2Neu positivas com relativa abundância de DNA positivo de mutação somática.
Exemplo 16. Detecção de mutações associadas ao câncer, translocações e alterações na expressão gênica através da integração de DNA direcionado e sequenciamento profundo de RNA de amostras de tumor FFPE.
Ampla aplicação de terapia personalizada para câncer requer uma caracterização abrangente, sensível e oportuna das diversas aberrações presentes no genoma e transcriptoma de um tumor. O RNA e DNA da maioria das amostras clínicas de câncer, comumente armazenadas como blocos embebidos em parafina e fixados em formalina (FFPE), é de baixa qualidade e tem sido difícil de utilizar para caracterização molecular. Ensaios de sequenciamento de próxima geração de DNA funcionam bem com DNA danificado e são suficientemente sensíveis para detectar muitos tipos de aberrações genômicas. Atualmente, não há nenhum protocolo de sequenciamento de RNA para uma análise abrangente do transcriptoma das amostras tumoral FFPE.
Resultados:
Um sequenciamento de RNA direcionado compatível com FFPE e método de análise para detecção sensível de mutações, rearranjos e alterações de expressão em mais de 200 genes associados ao câncer foi desenvolvido. Protocolos foram validados no RNA da linhagem celular e utilizados para estudar mais de 50 tumores de câncer pulmonar de células não pequenas (NSCLC) FFPE. Mutações conhecidas e fusões de gene (por exemplo, BCR-ABL1) foram detectadas em linhagens celulares. Reprodutibilidade técnica na caracterização da expressão digital excedeu R2=0,99 e >0,9 para linhagens celulares e FFPE RNA, respectivamente. Como esperado em genomas cancerígenos, RNA-seq forneceu evidência de aberrações no genoma, incluindo mutações pontuais e novos rearranjos envolvendo oncogenes conhecidos. Revelou-se expressão diferencial altamente significativa de oncogenes que incluem EGFR, FGFR3, CDH5, KIT e RET, variando de 2,5 - a 70 vezes em diferentes tumores. Combinação de dados de sequenciamento de RNA e DNA em amostras FFPE idênticas corroborou consequências funcionais das alterações genômicas; exemplos incluíam expressão dos alelos mutantes de TP53 e redução da expressão de STK11 em um tumor que exibiu perda de heterozigosidade no nível do DNA. Aplicação de tecnologias de sequenciamento de próxima geração de FFPE RNA e integração com métodos de sequenciamento de DNA existentes prevê ampliar a compreensão da biologia do câncer clinicamente relevante e melhorar o atendimento ao paciente.
Métodos:
RNA é extraído de seções de tecido FFPE, tipicamente 1 ou 2 cachos de 10 μm, utilizando o Roche High Pure Paraffin Kit de acordo com as instruções do fabricante. RNA extraído é armazenado @ - 80°C. Qualidade e rendimento do RNA são avaliados por RiboGreen (Invitrogen) e um Bioanalyzer RNA Pico Chip (Agilent), respectivamente, de acordo com as instruções do fabricante. Rendimentos típicos estão entre 500 ng e 2 μg, com uma pontuação de RIN de menos de 4.
A primeira fita de DNA complementar (cDNA) é produzida entre 100 e 600 ng do FFPE RNA em uma reação de 20 μL utilizando SuperScript III (Invitrogen) de acordo com o protocolo do fabricante, com 550 pmoles de hexâmero aleatório como iniciador. Síntese da segunda fita, para gerar um cDNA dupla fita completo, é realizada imediatamente após a síntese da primeira fita pela adição de 60 μL de uma mistura NEBNext Second Strand Synthesis Module (New England Biolabs) e incubação por 150 minutos a 16°C, de acordo com o protocolo do fabricante. A qualidade e rendimento do cDNA dupla fita podem ser avaliadas utilizando PicoGreen (Invitrogen) e um Bioanalyzer High Sensitivity Chip (Agilent), respectivamente. Geralmente, o rendimento da síntese do cDNA inteiro é utilizado como entrada para o protocolo padrão de construção da biblioteca FMI.
Construção de uma biblioteca de sequenciamento compatível de extremidade pareada e seleção de híbrido subsequente e sequenciamento de cDNA gerado a partir do FFPE RNA são realizadas utilizando protocolos semelhantes ao de FFPE DNA aqui descritos, mas inicia-se diretamente na etapa de reparação final, pois a natureza altamente fragmentada do FFPE RNA elimina a necessidade de separação.
Análise de dados de sequenciamento de FFPE RNA pode ser realizada utilizando métodos conhecidos na técnica. Por exemplo, análise de dados de sequenciamento de FFPE RNA pode ser realizada através do mapeamento de todos os pares de leitura para uma sequência do genoma de referência (hg19) e/ou um transcriptoma de referência (todas as sequências de transcritos conhecidos, por exemplo, RefSeq). Leituras mapeadas são então utilizadas para identificar a fusão de genes, mutações na sequência dos genes, splicing alternativo e para quantificar a expressão dos genes, conforme descrito na literatura, por exemplo, por Berger et al. (2010) Genome Res. 20(4):413-27 (PMID 20179022) e Garber et al. (2011) Nat Methods. 8(6):469-77 (PMID 21623353). Conforme demonstrado por Levin et al. (2009) Genome Biol. 10 (10):R115 (PMID 19835606), RNA-seq direcionado pode ser empregada para melhorar a detecção de mutação e descoberta de fusão em um conjunto selecionado de genes e preserva informações quantitativas para caracterização de expressão.
Exemplo 17. Chamada de Mutação Acurada e Sensível por Sequenciamento Ultraprofundo de Amostras Clínicas Tumorais
Rápido avanço na compreensão da genômica do câncer e o número crescente de terapias direcionadas disponíveis fornecem oportunidades crescentes para o tratamento eficaz do câncer com base na caracterização abrangente do tumor. Embora progressos significativos tenha ocorrido nas abordagens experimentais e computacionais para a análise de genomas tumorais por sequenciamento de próxima geração no cenário de pesquisa, estender estas técnicas para a clínica implica importantes desafios adicionais. Determinante entre estes é a pureza limitada e heterogeneidade de amostras clínicas, juntamente com o requisito de fornecer alta sensibilidade e precisão para uma ampla gama de mutações potencialmente clinicamente acionáveis.
Para responder a este desafio, desenvolvemos um teste clínico que é capaz de gerar dados da sequência ultraprofunda (>700x) para 200+ genes relacionados ao câncer de amostras tumoral FFPE de rotina e ferramentas computacionais capazes de explorar esta profundidade para fornecer altos níveis de sensibilidade e precisão para diferentes tipos de mutações presentes em baixas frações. Nosso pipeline analítico detecta variantes curtas na contabilização de dados de sequência mapeadas de frequências de mutações conhecidas e combina a detecção do ponto de parada e montagem local para identificar maiores inserções e deleções, que muitas vezes não são detectadas por métodos alternativos. Além disso, alterações de cópia-número e rearranjos envolvendo genes cancerígenos chave são identificados.
Para validar o desempenho analítico dos nossos métodos recém-desenvolvidos, projetamos e implementamos um extenso estudo de misturas de amostras como um molde para eventos raros no DNA heterogêneo, incluindo 20 linhagens celulares normais HapMap e 28 linhagens celulares cancerígenas caracterizadas individualmente. Relatamos uma sensibilidade de 100% para substituições e >90% de sensibilidade para indels de comprimento 1-50bp presente em >10% de uma mistura, ambos com PPV>99%. Aplicação do nosso teste para um coorte de 227 amostras de melanoma, tumores de próstata, mama, cólon e pulmão revelou 427 mutações conhecidas e prováveis driver somáticas, 40% das quais estavam presentes nas frações de amostra abaixo de 20% e 18%, abaixo dos 10%, salientando a importância da chamada de mutação sensível.
Exemplo 18. Deteção de mutações cancerígenas em margens cirúrgicas
Descobriu-se que, mesmo quando o tecido nas margens de um tumor é histologicamente normal, mutações associadas ao câncer podem ser detectadas. Amostras de tecido associadas com um pólipo colônico hiperplásico foram compradas como tríades de BioServe (Beltsville, MD). As tríades incluíam o DNA genômico de leucócitos do sangue periférico, tecido normal FFPE (Embebido em parafina fixado em formalina) e o tecido tumoral FFPE.
Por exemplo, em 6 seções testadas incrementalmente de uma amostra de cólon normal isolada das margens de um pólipo colônico hiperplásico, nenhuma mutação kras foi observada na seção mais distal do pólipo (seção 1). Uma mutação KRAS p.G13D foi observada em 1% das células da segunda seção mais distal (seção 2), em 2% das células na terceira seção mais distal (seção 3), em 3% das células na quarta seção mais distal (seção 4), em 4% das células na quinta seção mais distal (seção 5) e em 5% das células na seção mais próxima ao pólipo (seção 6). A mutação foi observada em 6% de células isoladas de uma seção da borda do pólipo.
Coloração H&E das amostras de tecido das seções 1, 3 e 5 confirmaram nenhuma evidência histológica de tecido cancerígeno. Coloração H&E do tecido da seção 6 confirmou a presença do pólipo.
Heterogeneidade do tumor foi detectada nas seções de adenocarcinoma invasivo moderadamente diferenciado, de reto distal. Em particular, as seções 1-6 testadas incrementalmente incluem as seguintes mutaçõess: BRAF p.V600E, TP53 p.R213X, BRCA1 c.2105delG, APC c.5541insG e APC c.6463delA, respectivamente.
Os resultados destes experimentos indicaram que testes genéticos do tecido nas margens cirúrgicas são mais sensíveis para detecção de tecidos cancerígenos ou pré-cancerígenos. Assim, através da realização de testes genéticos dos tecidos às margens cirúrgicas, como pelos métodos de sequenciamento descritos aqui, o pessoal médico pode preparar recomendações mais informadas sobre o curso da terapia. Por exemplo, dependendo dos resultados dos testes genéticos, uma recomendação para terapia ou nenhuma terapia pode ser feita. Terapia pode incluir, por exemplo, quimioterapia ou radiação ou ambos, ou no caso de quimioterapia, um determinado medicamento ou combinação de drogas ou um regime especial de dosagem, com base em mutações identificadas pelos testes genéticos.
Incorporação por referência
Todas as publicações, patentes e pedidos de patente aqui mencionados estão aqui incorporados como referência em sua totalidade, como se cada publicação individual, patente ou pedido de patente fosse especificamente e individualmente indicado para ser incorporado por referência. Em caso de conflito, o presente pedido, incluindo quaisquer definições aqui, prevalecerá.
Também incorporadas como referência em sua totalidade são as sequências de polinucleotídeos e polipeptídeos que fazem referência a um número de acessão, correlacionando a uma entrada em um banco de dados público, como aqueles mantidos pelo The Institute for Genomic Research (TIGR) na internet em tigr.org e/ou National Center for Biotechnology Information (NCBI) na internet em ncbi.nlm.nih.gov.
Equivalentes
Especialistas na técnica reconhecerão, ou serão capazes de verificar utilizando não mais do que a experimentação de rotina, muitos equivalentes para as modalidades específicas da invenção descritas neste documento. Esses equivalentes se destinam a ser englobados pelas seguintes reivindicações.

Claims (20)

1. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR caracterizado por compreender:(a) adquirir uma biblioteca compreendendo uma pluralidade de elementos de uma amostra de tumor;(b) enriquecer a biblioteca para sequências pré-selecionadas contatando a biblioteca com uma pluralidade de conjuntos de isca para fornecer elementos selecionados, assim produzindo uma captura de biblioteca;(c) adquirir uma leitura para um intervalo subgenômico compreendendo uma mutação somática de uma molécula de ácido nucleico do tumor da referida biblioteca ou captura de biblioteca por um método de sequenciamento de próxima geração;(d) alinhar a dita leitura por um método de alinhamento; e(e) designar um valor de nucleotídeo da dita leitura para a posição de nucleotídeo préselecionada, assim, analisando a dita amostra de tumor, em que o passo (d) compreende dois ou mais dos seguintes:(i) um primeiro método de alinhamento que é selecionado responsivo para, ou é otimizado para um alvo de alto nível (por exemplo, um gene, um exon ou uma base) tendo uma variante pré- selecionada que aparece a uma frequência de 5% ou menos em células na amostra de tumor, nas moléculas de ácido nucleico da biblioteca ou nas moléculas de ácido nucleico de captura da biblioteca;(j) ) um segundo método de alinhamento que é selecionado responsivo para, ou é otimizado para um alvo de nível médio (por exemplo, um gene, um exon ou uma base) tendo uma variante pré- selecionada que aparece a uma frequência superior a 5% e até 10, 15 ou 20%, em células na amostra de tumor, nas moléculas de ácido nucleico da biblioteca ou nas moléculas de ácido nucleico de captura da biblioteca;(k) i) um terceiro método de alinhamento que é selecionado responsivo para, ou é otimizado para um alvo de nível baixo (por exemplo, um gene, exon ou base), escolhido de (1), (2) ou (3) de: (1) um SNP farmacogenômico que pode estar associado à capacidade do paciente de responder ou metabolizar uma droga;(2) um SNP genômico que pode ser usado para identificar de forma exclusiva (impressão digital) um paciente; ou(3) um SNP genômico/loci que pode ser usado para avaliar os ganhos/perdas de número de cópias de DNA genômico e LOH;(l) ) um quarto método de alinhamento que é selecionado responsivo a, ou é otimizado para um ponto de interrupção estrutural (por exemplo, em um rearranjo, uma translocação ou um indel);(v) um quinto método de alinhamento que é selecionado responsivo a, ou é otimizado para um alvo, tal como um alvo intron para o qual a cobertura esparsa pode melhorar a capacidade de detectar alterações no número de cópias.
2. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR, de acordo com a reivindicação 1, caracterizado por compreender um quarto método de alinhamento (iv) que é selecionado responsivo a, ou é otimizado para um ponto de interrupção estrutural (por exemplo, em um rearranjo, por exemplo, uma translocação ou um indel).
3. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR caracterizado por compreender:(a) adquirir uma biblioteca compreendendo uma pluralidade de elementos de uma amostra de tumor;(b) enriquecer a biblioteca para sequências pré-selecionadas contatando a biblioteca com uma pluralidade de conjuntos de isca para fornecer elementos selecionados, assim produzindo uma captura de biblioteca;(c) adquirir uma leitura para um intervalo subgenômico compreendendo uma mutação somática de uma molécula de ácido nucléico da dita biblioteca ou captura de biblioteca por um método de sequenciamento de próxima geração;(d) alinhar a dita leitura por um método de alinhamento; e(e) atribuir um valor de nucleotídeo da dita leitura para a posição de nucleotídeo pré- selecionada, assim, analisando a dita amostra de tumor, em que uma leitura de cada um dos intervalos subgenômicos X únicos, cada um compreendendo uma mutação somática, está alinhada com um método de alinhamento único e X é de pelo menos 2, 10, 15, 20, 30, 50, 100, 500, ou 1.000, em que intervalo subgenômico único significa diferente dos outros intervalos subgenômicos X-1, e em que método de alinhamento único significa diferente dos outros X-1 métodos de alinhamento; e em que o método de alinhamento único compreende o alinhamento da leitura com um rearranjo de sequência de alinhamento que é pré-selecionada para se alinhar com um rearranjo pré-selecionado.
4. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR, de acordo com a reivindicação 3, caracterizado por compreender: i) o rearranjo da sequência de alinhamento compreende uma sequência pré-selecionada (por exemplo, a sequência ou o seu complemento) correspondendo ao dito rearranjo pré-selecionado; (ii) o rearranjo da sequência de alinhamento pré-selecionado compreende uma sequência simulada (por exemplo, uma que é diferente do rearranjo da sequência pré-selecionado, ou o seu complemento) selecionada para se alinhar com uma leitura de dito rearranjo de sequência pré-selecionado; ou(111) o rearranjo da sequência de alinhamento pré-selecionado não é idêntico ao rearranjo pré-selecionado.
5. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR, de acordo com as reivindicações 3 ou 4, caracterizado pelo fato de que intervalos subgenômicos de pelo menos X genes de ABL1, AKT1, ALK, APC, AR, ASXL1, BACH1, BAP1, BARD1, BLM, BRAF, BRIP1, CDKN1B, CDKN2A, CEBPA, CREBBP, CTNNB1, DDR2, EGFR, EMSY, ERBB2, ESR1, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FGFR1, FGFR2, FGFR2, FGFR2, FLR3, FLT3, HGF, HRAS, JAK2, KIT, KRAS, MET, MLL, MYC, NF1, NFKB1, NOTCH1, NOTCH2, NPM1, NRAS, PALB2, PBRM1, PDGFRA, PDK1, PIK3CA, 1PIK3R2, PTEN, RAD50, RAD51, RBI, ROS1, RET, SF3B1, SPOP e TP53, estão alinhados com métodos de alinhamento únicos, e X é igual a 10, 15, 20 ou 30.
6. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR de acordo com qualquer das reivindicações 3-5, caracterizado por compreender:a) aplicar um primeiro método de alinhamento único a um primeiro intervalo genômico, uma variante da qual está associada a um fenótipo tumoral, em que a variante é uma mutação de ponto de selecionados do KRAS 35G>A, KRAS 35G>T, KRAS 38G>A, KRAS 34G>T, KRAS 35G>C, KRAS 34G>A, KRAS 34G>C, KRAS 37G>T, KRAS 183A>C, KRAS 37G>C, KRAS 182A>T, KRAS 183A>T, KRAS 38G>T, KRAS 38G>C, KRAS 182A>G, KRAS 37G>A, e KRAS 181C>A;b) aplicar um segundo método de alinhamento único a um segundo intervalo genômico, uma variante da qual está associada a um fenótipo tumoral, no qual a variante é um rearranjo escolhido a partir de uma exclusão, inserção ou translocação selecionada a partir de uma troca de aminoácidos de acordo com pten K237_Y240>N, PTEN 329fs *12, PTEN 338fs *1, PTEN L70fs*7, PTEN K60fs*9, PTEN K60fs*39, PTEN K197fs*2, PTEN N323fs*2, PTEN V317fs*3, PTEN T319fs*1, PTEN I135del, PTEN S385fs *1, PTEN 277fs *13, PTEN R74fs*25, PTEN V275fs *1 ou PTEN F90fs*9, ou uma troca de nucleotídeos de acordo com 710_718del9 PTEN, 987_996del10 PTEN, 1013_1023del11 PTEN, 208_251del44 PTEN, 1_121del121 PTEN, PTEN 180_181ins?, PTEN 179_17delA, PTEN 590delA , 968_969insA PTEN, 951_954delACTT PTEN, 955_958delACTT PTEN, 403_405delATA PTEN, 115_1155delCT PTEN, 831_834delCTTC PTEN, 221_221delG PTEN, PTEN 823delG ou PTEN 270delT; e c) a aplicação de um terceiro método de alinhamento único a um terceiro intervalo genômico que compreende um intervalo genômico no qual as variantes não estão associadas a um fenótipo tumoral ou a um tumor do tipo na referida amostra.
7. Método de análise de uma amostra de tumor caracterizado por compreender:a) adquirir uma biblioteca que compreende uma pluralidade de membros tumorais de uma amostra de tumor; b) enriquecer a biblioteca para sequências pré-selecionadas entrando em contato com a biblioteca com uma pluralidade de conjuntos de iscas para fornecer membros selecionados, fornecendo assim uma captura de biblioteca;c) adquirir uma leitura para um intervalo subgenômico de uma molécula de ácido nucleico tumoral da referida biblioteca ou captura de biblioteca por um método de sequenciamento de próxima geração;d) alinhar a leitura; ee) atribuir um valor nucleotídeo a partir da referida leitura para uma posição nucleotídea pré-eleita em cada uma das pluralidades de intervalos subgenômicos,f) analisar a amostra de tumor, em que o método compreende 2, 3, 4 ou 5 de:sequenciar um primeiro intervalo subgenômico para fornecer 500X ou maior profundidade de sequenciamento, detectando assim uma mutação presente em não mais de 5% das células da amostra; sequenciar um segundo intervalo subgenômico para fornecer profundidade de sequenciamento de 200X-500X, detectando assim uma mutação presente em não mais de 10% das células da amostra;sequenciar um terceiro intervalo subgenômico para fornecer profundidade de sequenciamento de 10-100X, em que o intervalo subgenômico é escolhido a partir de um ou mais de:(1) um polimorfismo de nucleotídeo único (PGx) que distingue a capacidade de um paciente metabolizar diferentes drogas, ou (ii) um SNPs genômico que identifica exclusivamente um paciente; Sequenciar um quarto intervalo subgenômico para fornecer profundidade de sequenciamento de 5-50X para detectar um ponto de ruptura estrutural; ousequenciar um quinto intervalo subgêmico para fornecer profundidade de sequenciamento de 100-300X, para detectar alterações numédias de cópia, por exemplo, para detectar um SNPs/loci genômico que é usado para avaliar ganhos/perdas de número de cópia de DNA genômico ou perda de heterozigosidade (LOH).
8. Método de análise de uma amostra de tumor, caracterizado por compreender:adquirir uma biblioteca que compondo uma pluralidade de membros tumorais a partir de uma amostra de tumor;enriquecer a biblioteca para sequências pré-selecionadas entrando em contato com a biblioteca com uma pluralidade de conjuntos de iscas para fornecer membros selecionados, fornecendo assim uma captura de biblioteca;adquirir uma leitura para um intervalo subgenômico de uma molécula de ácido nucleico tumoral da referida biblioteca ou captura de biblioteca por um método de sequenciamento de próxima geração;alinhar dito lido por um método de alinhamento; eatribuir um valor nucleotídeo da referida leitura para a posição nucleotídea pré-eleita, analisando assim essa amostra de tumor, em que o método compreende entrar em contato com a biblioteca com pelo menos dois, três, quatro ou cinco, dos seguintes conjuntos de iscas com a biblioteca:(a) Um primeiro conjunto de iscas que seleciona uma meta de alto nível escolhida entre um ou mais membros tumorais que compõem um intervalo subgenômico com uma alteração que aparece em uma frequência de 5% ou menos das células da amostra abrigam a alteração em seu genoma;(b) Um conjunto de segunda isca que seleciona uma meta de nível médio escolhida entre um ou mais membros tumorais que compõem um intervalo subgenômico com uma alteração que aparece em uma frequência mais elevada de 10% das células da amostra abrigam a alteração em seu genoma;(c) Um terceiro conjunto de iscas que seleciona uma meta de baixo nível escolhida entre um ou mais membros do PGx que compõem um intervalo subgêmico escolhido a partir deum ou mais de :(i)um polimorfismo de nucleotídeo único (PGx) que distingue a capacidade de um paciente metabolizar diferentes drogas, (ii) um SNPs genômico que identifica exclusivamente um paciente, (iii) um SNPs/loci genômico que é usado para avaliar ganhos/perdas de número de cópia de DNA genômico e perda de heterozigosidade (LOH);(d) Um quarto conjunto de iscas que seleciona um membro que inclui uma sequência intron que detecta um ponto de ruptura estrutural; ou(e) Um quinto conjunto de iscas que seleciona uma exclusão de uma cópia de vários exons terminais, em que cada conjunto de iscas da referida pluralidade tem uma eficiência única (ao contrário dos outros conjuntos de iscas na pluralidade) de eficiência pré- eleita para seleção para seu alvo.
9. MÉTODO PARA ANALISAR UMA AMOSTRA DETUMOR de acordo com a reivindicação 8, caracterizado pelo fato de que o valor para eficiência de seleção é modificado por um ou mais de: (i) representação diferencial de diferentes conjuntos de isca;(j) ) sobreposição diferencial de subconjuntos de isca;(k) i) parâmetros de isca diferenciais;(l) ) mistura de diferentes conjuntos de isca em diferentes razões molares para aumentar ou reduzir profundidades de cobertura alvo relativas;(v) usar tipos diferentes de iscas de oligonucleotídeos, em que diferentes tipos de iscas de oligonucleotídeos são escolhidos a partir de um ou mais dos seguintes:(w) um ou mais iscas (não-enzimática) quimicamente sintetizadas individualmente;(x) um ou mais iscas sintetizados em uma matriz;(y) um ou mais iscas transcritas in vitro;(z) qualquer combinação de (a), (b) e / ou (c);(aa) um ou mais oligonucleotídeos de DNA de ocorrência natural ou que não ocorrem naturalmente;(bb) um ou mais oligonucleotídeos de RNA de ocorrência natural ou que não ocorrem naturalmente;(cc) uma combinação de (e) e (f); ou(dd) uma combinação de qualquer um dos acima.
10. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR de acordo com a reivindicação 8, caracterizado pelo fato de que:(i) tipos diferentes de iscas de oligonucleotídeos são misturados em uma razão escolhida de 1:1, 1:2, 1:3, 1:4, 1:5, 1:10, 1:20, 1:50; 1:100 ou 1:1000.(ii) a razão de isca quimicamente sintetizada à isca gerada por matriz é escolhida de 1:5, 1:10, ou 1:20.(iii) os oligonucleotídeos de DNA ou RNA de ocorrência não natural são escolhidos de um ou mais de: um ácido nucléico trancado (LNA); um ácido nucléico de peptídeo (PNA); um oligonucleotídeo de DNA ou RNA modificado para capturar regiões GC baixas; um ácido nucléico bicíclico (BNA); um oligonucleotídeo reticulado; um 5-metil deoxicitidina modificado; ou 2,6- diaminopurina.
11. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR, de acordo com qualquer das reivindicações 8-10, caracterizado pelo fato de que um ou mais dos seguintes parâmetros de isca são modificados:(i) aumentar/diminuir representação de isca ou sobreposição pode ser usado para aumentar/reduzir a cobertura de elementos de tumor os quais são sub/sobre cobertos em relação aos outros alvos na mesma categoria;(ii) para cobertura baixa, difícil de capturar sequências alvo (incluindo sequências de alto teor de GC), direcionando com os conjuntos de isca cobrindo sequências adjacentes;(iii) modificar uma sequência de isca pode ser preparada para reduzir estrutura secundária da isca e aumentar sua eficiência de seleção;(iv) modificar um comprimento de isca pode ser usado para equalizar cinética de hibridização de fusão de diferentes iscas dentro da mesma categoria;(v) modificar iscas de diferente orientação para a mesma região alvo (fita direta e reversa) pode ter diferentes eficiências de ligação;(vi) modificar a quantidade de uma entidade de ligação presente em cada isca pode afetar sua eficiência de ligação; aumentar/diminuir o nível de marcador de iscas direcionando um alvo específico pode ser usado para aumentar/reduzir a cobertura de alvo relativa;(vii) modificar o tipo de nucleotídeo usado para diferentes iscas pode ser alterado para afetar afinidade de ligação ao alvo e aumentar/reduzir a cobertura de alvo relativa; ou(viii) usar iscas de oligonucleotídeos modificados tendo mais pareamento de base estável pode ser usado para equalizar cinética de hibridização de fusão entre áreas de teor de GC alto ou normal em relação ao alto teor de GC.
12. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR, de acordo com qualquer das reivindicações 8 a 11, caracterizado pelo fato de que o conjunto de isca é escolhido de um, dois, três, quatro, cinco, seis, sete, oito, nove, dez, onze, doze ou todos de A a M: A. Um conjunto de isca que seleciona uma sequência de éxon que inclui uma alteração de nucleotídeo única associada com um fenótipo cancerígeno;B. Um conjunto de isca que seleciona uma deleção in-frame de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou mais códons de uma sequência de nucleotídeo de referência;C. Um conjunto de isca que seleciona uma deleção intragênica;D. Um conjunto de isca que seleciona uma inserção intragênica;E. Um conjunto de isca que seleciona uma deleção de um gene completo;F. Um conjunto de isca que seleciona uma inversão;G. Um conjunto de isca que seleciona uma translocação intercromossômica;H. Um conjunto de isca que seleciona uma duplicação tandem; I. Um conjunto de isca que seleciona uma sequência de nucleotídeo de interesse flanqueada por sequências não repetitivas adjacentes;J. Um conjunto de isca que seleciona um ou mais intervalos subgenômicos correspondendo a uma sequência de fusão;K. Um conjunto de isca que seleciona a intervalo subgenômico adjacente a uma sequência de nucleotídeo que inclui uma característica indesejável escolhida de uma sequência de nucleotídeo de alto teor de GC, ou uma sequência de nucleotídeo incluindo um ou mais elementos repetidos e/ou repetições invertidas;L. Um conjunto de isca que seleciona um rearranjo genômico que inclui uma sequência de íntron de uma 5’ ou 3’-UTR; ouM. Um conjunto de isca que seleciona o intervalo subgenômico que inclui um éxon adjacente a um gene de fusão associado a câncer.
13. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que o intervalo subgenômico compreende ou consiste em uma ou mais de: uma posição de nucleotídeo única; uma região intragênica ou uma região intergênica; um éxon ou um íntron, ou um fragmento dos mesmos, tipicamente uma sequência de éxon ou um fragmento da mesma; uma região codificadora ou uma região não codificadora, por exemplo, um promotor, um melhorador, uma região 5’ não traduzida (5’ UTR), ou uma região 3’ não traduzida (3’ UTR), ou um fragmento das mesmas; um cDNA ou um fragmento do mesmo; um SNP; uma mutação somática, uma mutação de linhagem germinativa ou ambas; uma alteração, por exemplo, uma mutação pontual ou simples; uma mutação de deleção; uma deleção inframe, uma deleção intragênica, uma deleção de gene completo; uma mutação de inserção; uma inserção intragênica; uma mutação de inversão; uma inversão intracromossômica; uma mutação de ligação; uma mutação de inserção ligada; uma mutação de duplicação invertida; uma duplicação tandem; uma duplicação tandem intracromossômica; uma translocação; uma translocação cromossômica, uma translocação não recíproca; um rearranjo; um rearranjo genômico; um rearranjo de um ou mais íntrons, ou um fragmento dos mesmos; um íntron rearranjado incluindo uma 5’- ou uma 3’- UTR), ou uma combinação dos mesmos.
14. Método, de acordo com a reivindicação 13, caracterizado pelo fato de que a alteração:(i) compreende uma sequência de nucleotídeos alterada, uma sequência de aminoácidos alterada, uma translocação cromossômica, uma inversão intracromossômica, uma alteração no número de cópias, uma alteração no nível de expressão, uma alteração no nível de proteína, uma alteração na atividade da proteína, ou uma alteração no estado de metilação, em um tecido ou célula cancerosa, em comparação com um tecido ou célula normal e saudável; ou(ii) está associado (ou não associado) a um ou mais de risco de câncer, progressão do câncer, tratamento do câncer ou resistência ao tratamento do câncer; um fator de risco genético para câncer; um preditor de resposta positiva ao tratamento; um preditor de resposta negativa ao tratamento; um fator de prognóstico positivo; um fator de prognóstico negativo ou um fator de diagnóstico.
15. Método, de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que a amostra de tumor compreende uma ou mais células pré-malignas ou malignas; células de um tumor sólido, um tumor de tecido mole ou uma lesão metastática; tecido ou células de uma margem cirúrgica; um tecido histologicamente normal; uma ou mais células tumorais circulantes (CTC); um tecido normal adjacente (NAT); uma amostra de sangue do mesmo sujeito com ou em risco de ter o tumor; ou uma amostra FFPE.
16. Método, de acordo com qualquer uma das reivindicações 1 a 15, caracterizado pelo fato de compreender a confirmação por sequenciamento de RNA da expressão da mutação somática ou uma fusão detectada por um método de sequenciamento de DNA.
17. Método, de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fato de que a etapa de sequenciamento de próxima geração compreende a realização de uma etapa de sequenciamento de DNA e uma etapa de sequenciamento de RNA.
18. Método, de acordo com qualquer uma das reivindicações 1 a 17, caracterizado pelo fato de compreender um ou mais dentre:(i) tirar impressão digital da amostra de ácido nucleico;(ii) quantificar a abundância de um gene ou produto gênico;(iii) quantificar a abundância relativa de um transcrito na amostra;(iv) identificar a amostra de ácido nucleico como pertencente a um determinado sujeito;(v) identificar um traço genético na amostra de ácido nucleico que compreende um ou mais dentre a composição genética, etnia, raça ou traços familiares de um sujeito;(vi) determinar a ploidia na amostra de ácido nucleico;(vii) determinar uma perda de heterosigosidade na amostra de ácido nucleico;(viii) determinar a presença ou ausência de um evento de duplicação de gene na amostra de ácido nucleico;(ix) determinar a presença ou ausência de um evento de amplificação de gene na amostra de ácido nucleico; ou(x) ) determinar o nível de mistura célula de tumor/celular normal na amostra de ácido nucleico.
19. MÉTODO PARA ANALISAR UMA AMOSTRA DE TUMOR de acordo com qualquer uma das reivindicações 1-18, em que o método compreende sequenciar um intervalo subgêmico escolhido a partir de pelo menos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 ou todos os seguintes:A) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais intervalos subgêmicos de um gene ou produto genético mutado ou selvagem escolhido entre pelo menos cinco ou mais de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP533;B) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta e cinco, quarenta, quarenta, cinquenta, cinquenta e cinco, sessenta, sessenta e cinco, setenta e cinco, setenta e cinco, oitenta, oitenta e cinco, noventa, noventa e cinco, cento, cento e cinco, cento e dez, cento e quinze, cento e vinte ou mais de intervalos subgêmicos de um gene ou produto genético mutado ou selvagem escolhido entre pelo menos cinco ou mais de: ABL2, ARAF, ARFRP1, ARID1A, ATM, ATR, AURKA, AURKB, BAP1, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL2L2, BCL6, BRCA1, BRCA2, CBL, CARD11, CBL, CCND2, CCND3, CCNE1, CD79A, CD79B, CDH1, CDH2, CDH2, CDH20, CDH5, CDK6, CDK8, CDKN2B, CDKN2C, CHEK1, CHEK2, CRKL, CRLF2, DNMT3A, DOT1L, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, ERBB3, ERBB4, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, EZH2 , FANCA, FBXW7, FGFR4, FLT1, FLT4, FOXP4, GATA1, GNA11, GNAQ, GNAS, GPR124, GUCY1A2, HOXA3, HSP90AA1, IDH1, IDH2, IGF1R, IGF2R, IKBKE, IKZF1, INHBA, IRS2, JAK1, JAK3, JUN, KDM6A, KDR, LRP1B, LRP6, LTK, MAP2K4, MCL1, MDM2, MDM4, MEN1, MITF, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MTOR, MTOR, MUTYH, MYCL1, MYCN, NF2, NKX2-1, NTRK1, NTRK2, PAK3, PAX5, PDGFRB, PKHD1, PLCG1, PRKDC, PTPN11, PTPRD, RAF1, RARA, RICTOR, RPTOR, RUNX1, S2MAD, SMAD3, SMAD4, SMARCA4, SMARCB1, SOX10, SOX2, SRC, TBX22, TET2, TGFBR2, TMPRSS2, TNFAIP3, TNK, TNKS2, TOP1, TSC1, TSC2, USP9X, VHL ou WT1;C) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, ou more intervalos subgenômicos de um gene ou produto de gene selecionado de ABCB1, ABCC2, ABCC4, ABCG2, ABL1, ABL2, ACSL3, ACVR1B, AF15Q14, AF1Q, AF3p21, AF5q31, AKAP9, AKT1, AKT2, AKT3, ALK, ALPHA, ALO17, ALOX2B, APC, AR, ARAF, ARFRP1, ARHGEF12, ARHH, ARID1A, ARNT, ASPSCR1, ASXL1, ATIC, ATF1, ATM, ATR, ATRX, AURKA, AURKB, AXL, BACH1, BAP1, BARD1, BCL10, BCL11A, BCL11B, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL3, BCL5, BCL6, BCL7A, BCL9, BLM, BCOR, BCORL1, BCR, BIRC3, BRAF, BRCA1, BRCA2, BRD3, BRD4, BRIP1, BTG1, C1orf144, C12orf9, C15or21, C17orf39, CANT1, CARD11, CARS, CASP8, CBFA2T1, CGBA2T3, CBFB, CBL, CCND1, CCND2, CCND3, CCNE1, CD22, CD74, CD79A, CD89B, CDC73, CDH1, CDH11, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDK12, CDKN1B, CDKN2A, CDKN2B , CDKN2C, CDX2, CEBPA, CEP1, CHCHD7, CHEK1, CHEK2, CHIC2, CHN1, CHUK, CIC, CLTC, CLTCL1, CMKOR1, COL1A1, COX6C, CRBN, CREB1, CREB3L2, CREBBP, CRKL, CRLF2, CRTC3, CSF1R, CTCF, CTNNA1, CTNNB1, CUL4A, CUL4B, CYP17A1, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, D10S170, DAXX, DDIT3, DDK5, DDR2, DDX5, DDX6, DDX10, DEK, DIS3, DNMT3A, DOT1L, DPYD, DUX4, EGFR, EIF4A2, ELF4, ELK4, ELKS, ELL, ELN, EML4, EMSY, EP300, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, EPS15, ERBB2, ERBB3, ERBB4, ERCC2, ERG, ESR1, ESR2, ETV1, ETV4, ETV5, ETV6, EVI1, EWSR1, EZH2, FACL6, FAM46C, FANCA, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FBXW7, FCGR2B, FCGR3A, FEV, FGF1, FGF10, FGF12, FGF14, FGF19, FGF23 FGF3, FGF4, FGF6, FGF7 FGFR1, FGFR1OP FGFR2, FGFR3, FGFR4, FIP1L1, FLI1, FLT1, FLT3, FLT4, FNBP1, FOP, FOXL2, FOXO1A, FOXO3A, FOXP4 , FSTL3, FUS, FVT1, GAS7, GATA1, GATA2, GATA3, GMPS, GNA11, GNAQ, GNAS, GOLGA5, GPHN, GPR124, GRAF, GRIN2A, GSK3B, GSTP1, GUCY1A2, H4, HCMOGT-1, HEAB, HEI10, HERPUD1, HGF, HIP1, HIST1H4I, HLA-A, HLF, HLXB9, HMGA1, HMGA2, HNRNPA2B1, HOOK3, HOXA11, HOXA13, HOXA3, OXA9, HOXC11, HOXC13, HOXD11, HOXD13, HSP90AA1, HSPCA, HSPCB, IDH1, IDH2, IGF1, IGF2, IGF2R, IGH, IGK, IGL, IKBKE, IKZF1, IL2, IL21R, IL7R, INHBA, INSR, IRF4, IRS2, IRTA1, ITPA, ITK, JAK1, JAK2, JAK3, JAZF1, JUN, KDM4C, KDM5A, KDM6A, KDR, KEAP1, KIAA1549, KIT, KLHL6, KLK2, KRAS, KTN1, LAF4, LASP1, LCK, LCP1, LCX, LHFP, LHX4, LIFR, LMO1, LMO2, LPP, LRP1B, LRP2, LRP6, LRRK2, LTK, LYL1, MAF, MAFB, MAGED1, MALT1, MAML2, MAN1B1, MAP2K1, MAP2K2, MAP2K4, MAP3K1, MAP3K13, MCL1, MDM2, MDM4, MDS1, MDS2, MECT1, MEN1, MET, MHC2TA, MITF, MKL1, MLF1 , MLH, MLL, MLL2, MLLT1, MLLT10, MLLT2, MLLT3 MLLT4, MLLT6, MLLT7, MLST8, MN1, MORF, MPL, MRE11A, MSF, MSH2, MSH6, MSI2, MSN, MTCP1, MTHFR, MTOR, MUC1, MUTYH, MYB, MYC, MYCL1, MYCN, MYD88, MYH11, MYH9, MYST3, MYST4, NACA, NCOA1, NCOA2, NCOA4, NCOR1, NF1, NF2, NFE2L2, NFIB, NFKB, NFKB2, NIN, NFKBIA, NKX2-1, NONO, NOTCH1, NOTCH2, NOTCH3, NOTCH4, NPM1, NQO1, NR4A3, NRAS, NRP2, NSD1, NTRK1, NTRK2, NTRK3, NUMA1, NUP93, NUP214, NUP98, NUT, OLIG2, OMD, PAFAH1B2, PAK3, PAK7, PALB2, PAX3, PAX5, PAX7, PAX8, PBRM1, PBX1, PCM1, PCSK7, PDE4DIP, PDGFB, PDGFRA, PDGFRB, PDK1, PER1, PHLPP2, PHOX2B, PICALM, PIK3CA, PIK3C2G, PIK3C3, PIK3CG, PIK3R1, PIK3R2, PIM1, PKHD1, PLAG1, PLCG1, PML, PMX1, PNRC1, PNUTL1, POU2AF1, POU5F1, PPARG, PRCC, PRDM1, PRDM16, PRKAR1A, PRKAR1A, PRKDC, PRO1073, PRSS8, PSIP2, PTCH2, PTEN, PTK2, PTK2B, PTCH1 , PTPN11, RAD50, RAD51, RAD51L1, RAF1, RAB5EP, RANBP17, RAP1GDS1, RARA, RB1, RBM15, REL, RET, RHEB, RICTOR, ROCK1, ROS1, RPL22, RPN1, RPTOR, RUNXBP2, RUNX1, RUNXBP2, RUNXT1, SEPT6, SET, SETD2, SF3B1, SFPQ, SFRS3, SH2B3, SH3GL1, SIL, SLC19A1, SLC22A2, SLC45A3, SLCO1B3, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOD2, SOX10, SOX2, SPEN, SPOP, SRC, SRGAP3, SS18, SS18L1, SSH3BP1, SSX1, SSX2, SSX4, STAG2, STAT3, STAT4, STK11, STK12, STL, SUFU, SULT1A1, SUZ12, SYK, TAF15, TAL1, TAL2, TBX22, TBX23, TBX3, TCEA1, TCF12, TCF3, TCL1A, TCL6, TEC, TET2, TFE3, TFEB, TFG, TFPT, TFRC, TGFBR2, THRAP3, TIF1, TLX1, TLX3, TMPRSS2, TNFAIP3, TNFRSF14, TNFRSF17, TNKS, TNKS2, TP53, TPM3, TPMT, TRA, TOP1, TPM3, TPM4, TPR, TRA, TRB, TRD, TRIM27, TRIM33, TRIP11, TRRAP, TSC1, TSC2, TTL, TYK2, TYMS, UGT1A1, UMPS, USP6, USP9X, VHL , WHSC1, WHSC1L1, WT1, XBP1, XPO1, ZNF145, ZNF198, ZNF217, ZNF278, ZNF331, ZNF384, ZNF521, ZNF703, ZNF9 e ZNF1A1;D) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte ou mais intervalos subgenômicos de um gene ou produto genético escolhido a partir de um ou mais de: ABL1, AKT1, ALK, AR, BRAF, BRCA1, BRCA2, CEBPA, EGFR, ERBB2, FLT3, JAK2, KIT, KRAS, MET, NPM1, PDGFRA, PIK3CA, RARA, AKT2, AKT3, MAP2K4, NOTCH1 e TP53;E) pelo menos cinco, seis, sete, oito, nove, dez ou mais intervalos subgêmicos, incluindo um codon mutado ou tipo selvagem escolhido a partir de um ou mais de: codon 315 do gene ABL1; códon 1114, 1338, 1450 ou 1556 de APC; codon 600 de BRAF; códon 32, 33, 34, 37, 41 ou 45 de CTNNB1; codon 719, 746-750, 768, 790, 858 ou 861 de EGFR; codon 835 de FLT3; codon 12, 13, ou 61 de HRAS; codon 617 de JAK2; codon 816 de KIT; codon 12, 13, ou 61 de KRAS; codon 88, 542, 545, 546, 1047, ou 1049 de PIK3CA; códon 130, 173, 233 ou 267 de PTEN; códon 918 de RET; códonte 175, 245, 248, 273 ou 306 de TP53;F) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais de intervalos subgêmicos de um gene ou produto genético mutado ou selvagem escolhido a partir de: ABCB1, BCC2, ABCC4, ABCG2, C1orf144, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, DPYD, ERCC2, ESR2, FCGR3A, GSTP1, ITPA, LRP2, MAN1B1, MTHFR, NQO1, NRP2, SLC19A1, SLC22A2, SLCO1B3, SOD2, SULT1A1, TPMT, TYMS, UGT1A1, ou UMPS;G) pelo menos cinco, seis, sete, oito, nove, dez, quinze, vinte, vinte e cinco, trinta ou mais de intervalos subgêmicos de um gene ou produto genético do tipo mutado ou selvagem associado a um ou mais de:(i)melhor sobrevivência de um paciente com câncer tratado com uma droga; ii Metabolismo paclitaxel; (iii) toxicidade a uma droga; ou (iv) um efeito colateral a uma droga;H) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais de genes ou produtos de gene selecionados de ABL2, ACSL3, ALPHA, AKAP9, ALK, ALO17, ARNT, ASPSCR1, ATF1, ATIC, BCL5, BCL7A, BRAF, BRD3, BRD4, BTG1, C12orf9, C15orf21, CANT1, CARS, CCND1, CD74, CDH11, CDX2, CHCHD7, CHIC2, CHN1, CIC, CLTC, CMKOR1, COL1A1, COX6C, CREB1, CREB3L2, CRTC3, CTNNB1, D10S170, DDIT3, DUX4, DDX5, EFI1, ELF4, ELK4, ELKS, EML4, EP300, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, FACL6, FEV, FGFR3, FIP1L1, FLI1, FOXO1A, FSTL3, FUS, GOLGA5, GOPC, H4, HEI10, HERPUD1, HLXB9, HMGA1, HMGA2, HNRNPA2B1, HOOK3, IGH, IGK, JAK2, JAXF1, JAZF1, KIAA1549, KLK2, KTN1, LHFP, LIFR, LPP, MAML2, MDS2, MECT1, MML, MN1, MSN, MYB, MYC, NCOA1, NCOA4, NFIB , NONO, NPM1, NR4A3, NTRK1, NTRK3, NUT, OMD, PAX3, PAX5, PAX7, PAX8, PBX1, PCM1, PER1, PDGFB, PDGFRA, PDGFRB PLAG1, POU5F1, PPARG, PRCC, PRKAR1A, PRO1073, SRGAP3, RAD51L1, RAF1, RET, ROS1, RUNX1, RUNXBP2, SFPQ, SLC45A3, SRGAP3, SRGAP3, SRGAP3, SS18, SS18L1, SSX1, SSX2, SSX4, STL, SUZ12, SYK, TAF15, TCEA1, TCF3, TCF12, TEC, TFE3, TFEB, TFG, THRAP3, TMPRSS2, TPM3, TPM4, TPR, TRA, TRIM27, TRIM33, TTL, USP6, WT1, ZNF278, ZNF331, ZNF384 e ZNF9;I) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 110 ou mais genes ou produtos de gene selecionado de ABL2, ACSL3, ALPHA, AKAP9, ALK, ALO17, ARNT, ASPSCR1, ATF1, ATIC, BCL5, BCL7A, BRAF, BRD3, BRD4, BTG1, C12orf9, C15orf21, CANT1, CARS, CCND1, CD74, CDH11, CDX2, CHCHD7, CHIC2, CHN1, CIC, CLTC, CMKOR1, COL1A1, COX6C, CREB1, CREB3L2, CRTC3, CTNNB1, D10S170, DDIT3, DUX4, DDX5, EFI1, ELF4, ELK4, ELKS, EML4, EP300, ERG, ETV1, ETV4, ETV5, ETV6, EWSR1, FACL6, FEV, FGFR3, FIP1L1, FLI1, FOXO1A, FSTL3, FUS, GOLGA5, GOPC, H4, HEI10, HERPUD1, HLXB9, HMGA1, HMGA2, HNRNPA2B1, HOOK3, IGH, IGK, JAK2, JAXF1, JAZF1, KIAA1549, KLK2, KTN1, LHFP, LIFR, LPP, MAML2, MDS2, MECT1, MML, MN1, MSN, MYB, MYC, NCOA1, NCOA4, NFIB, NONO, NPM1 , NR4A3, NTRK1, NTRK3, NUT, OMD, PAX3, PAX5, PAX7, PAX8, PBX1, PCM1, PER1, PDGFB, PDGFRA, PDGFRB PLAG1, POU5F1, PPARG, PRCC, PRKAR1A, PRO1073, SRGAP3, RAD51L1, RAF1, RET, ROS1, RUNX1, RUNXBP2, SFPQ, SLC45A3, SRGAP3, SS18, SS18L1, SSX1, SSX2, SSX4, STL, SUZ12, SYK, TAF15, TCEA1, TCF3, TCF12, TEC, TFE3, TFEB, TFG, THRAP3, TMPRSS2, TPM3, TPM4, TPR, TRA, TRIM27, TRIM33, TTL, USP6, WT1, ZNF278, ZNF331, ZNF384, and ZNF9, in a amostra de tumor sólido de carcinoma adenóide cístico, sarcoma alveolar de partes moles, rabdomiossarcoma alveolar, cistos ósseos aneurismáticos, histiocitoma fibroso angiomatoide, câncer de mama, carcinoma de bexiga, colangiocarcinoma, sarcoma de células claras, câncer colorretal, cisto-fibrossarcomatismo fibrosarcomato-fibrosarcomato-colorribansarcoma, dermatofibrossarcoma colorribansarcoma tumor de células redondas, tumor do estroma endometrial, sarcoma de Ewing, condrossarcoma mixóide extraesquelético, sarcoma fibromixoide, câncer folicular da tireoide, glioblastoma, hepatoblasma , síndrome hipereosinofílica idiopática, carcinoma médio letal de jovens, lipoma, lipossarcoma, melanoma maligno de partes moles, câncer de tireoide medular, melanoma, meningioma, tumor mesenquimal, adenoma da tireoide microfollicular, mioepithelioma, neuroblastoma, câncer de pulmão não-pequenas células (NSCLC), pancrerático câncer renal papilar, câncer de tireoide papilar, feochromocitoma, astrocitoma pilocítico, adenoma salivar pleomórfico, carcinoma de células renais, câncer de próstata, adenoma salivar, câncer de mucoepidermóide da glândula salivar, sarcoma, câncer de mama secreto, sarcoma de tecido mole, sarcoma sinovial ou leiomioma uterino; J) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene selecionado de ABL1, ABL2, AF15Q1, AF1Q, AF3p21, AF5q31, ALK, ALO17, ARHGEF12, ARHH, ARNT, ATF1, ATIC, ATL, BCL10, BCL11A, BCL11B, BCL2, BCL3, BCL5, BCL6, BCL7A, BCL8, BCL9, BCR, BIRC3, BTG1, CARS, CBFA2T1, CBFA2T3, CBFB, CBL, CCND1, CCND2, CCND3, CDK6, CDX2, CEP1, CHIC2, CHN1, CLTC, CLTCL1, CREB1, CREB3L2, CREBBP, DDIT3, DDX10, DDX6, DEK, EIF4A2, ELF4, ELL, ELN, EML4, EP300, EPS15, ERG, ETV1, ETV4, ETV6, EVI1, EWSR1, FACL6, FCGR2B, FEV, FGFR1, FGFR1OP, FGFR3, FIP1L1, FLI1, FNBP1, FOXO3A, FOXP1, FSTL3, FUS, FVT1, GAS7, GMPS, GPHN, GRAF, H4, HCMOGT-1, HEAB, HERPUD1, HIP1, HIST1H41, HLF, HLXB9, HOX11, HOXA11, HOXA13, HOXA9 , HOXC11, HOXC13, HOXD11, HOXD13, HSPCA, HSPCB, IG loci, IGH, IGK, IGL, IL2, IL21R, IRF, IRF4, IRTA1, ITK, JAK2, KDM5A, LAF4, LASP1, LCK, LCP1, LCX, LHX6, LMO1, LMO2, LPP, LYL1, MAF, MAFB, MALT1, MDS1, MDS2, MHC2TA MKL1, MLF1, MLL, MLLT1, MLLT10, MLLT2, MLLT3, MLLT4, MLLT6, MLLT7, MN1, MSF, MSI2, MSN, MTCP1, MUC1, MYC, MYH1, MYH9, MYST4, NACA, NCOA2, NFKB2, NIN, NOTCH1, NPM1, NR4A3, NSD1, NTRK1, NTRK3, NUMA1, NUP214, NUP98, OLIG2, PAFAH1B2, PAX1, PAX5, PBX1, PCM1, PCSK7, PDE4DIP, PDGFRA, PDGFRB, PER1, PICALM, PIM1, PML, PMX1, PNUTL1, POU2AF1, POU5F1, PRDM16, PSIP2, RAB5EP, RANBP17, RAP1GDS1, RARA, RBM15, RET, RPL22, RPN1, RUNX1, RUNXBP2, SEPT6, SET, SFRS3, SH3GL1, SIL, SSH3BP1, STL, SYK, TAF15, TAL1, TAL2, TCF3, TCL1A, TCL6, TEC, TFE3, TFG, TFPT, TFRC, TIF1, TLX1, TLX3, TMPRSS2 , TNFRSF17, TOP1, TPM3, TPM4, TRA, TRB, TRD, TRIP11, TTL, WHSC1, WHSC1L1, WT1, ZNF145, ZF198, ZNF278, ZNF384, ZNF521 e ZNFN1A;K) uma alteração de translocação de pelo menos 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 75, 100, 150, 200 ou mais genes ou produtos de gene selecionado de ABL1, ABL2, AF15Q1, AF1Q, AF3p21, AF5q31, ALK, ALO17, ARHGEF12, ARHH, ARNT, ATF1, ATIC, ATL, BCL10, BCL11A, BCL11B, BCL2, BCL3, BCL5, BCL6, BCL7A, BCL8, BCL9, BCR, BIRC3, BTG1, CARS, CBFA2T1, CBFA2T3, CBFB, CBL, CCND1, CCND2, CCND3, CDK6, CDX2, CEP1, CHIC2, CHN1, CLTC, CLTCL1, CREB1, CREB3L2, CREBBP, DDIT3, DDX10, DDX6, DEK, EIF4A2, ELF4, ELL, ELN, EML4, EP300, EPS15, ERG, ETV1, ETV4, ETV6, EVI1, EWSR1, FACL6, FCGR2B, FEV, FGFR1, FGFR1OP, FGFR3, FIP1L1, FLI1, FNBP1, FOXO3A, FOXP1, FSTL3, FUS, FVT1, GAS7, GMPS, GPHN, GRAF, H4, HCMOGT-1, HEAB, HERPUD1, HIP1, HIST1H41, HLF, HLXB9, HOX11, HOXA11, HOXA13, HOXA9 , HOXC11, HOXC13, HOXD11, HOXD13, HSPCA, HSPCB, IG loci, IGH, IGK, IGL, IL2, IL21R, IRF, IRF4, IRTA1, ITK, JAK2, KDM5A, LAF4, LASP1, LCK, LCP1, LCX, LHX6, LMO1, LMO2, LPP, LYL1, MAF, MAFB, MALT1, MDS1, MDS2, MHC2TA MKL1, MLF1, MLL, MLLT1, MLLT10, MLLT2, MLLT3, MLLT4, MLLT6, MLLT7, MN1, MSF, MSI2, MSN, MTCP1, MUC1, MYC, MYH1, MYH9, MYST4, NACA, NCOA2, NFKB2, NIN, NOTCH1, NPM1, NR4A3, NSD1, NTRK1, NTRK3, NUMA1, NUP214, NUP98, OLIG2, PAFAH1B2, PAX1, PAX5, PBX1, PCM1, PCSK7, PDE4DIP, PDGFRA, PDGFRB, PER1, PICALM, PIM1, PML, PMX1, PNUTL1, POU2AF1, POU5F1, PRDM16, PSIP2, RAB5EP, RANBP17, RAP1GDS1, RARA, RBM15, RET, RPL22, RPN1, RUNX1, RUNXBP2, SEPT6, SET, SFRS3, SH3GL1, SIL, SSH3BP1, STL, SYK, TAF15, TAL1, TAL2, TCF3, TCL1A, TCL6, TEC, TFE3, TFG, TFPT, TFRC, TIF1, TLX1, TLX3, TMPRSS2 , TNFRSF17, TOP1, TPM3, TPM4, TRA, TRB, TRD, TRIP11, TTL, WHSC1, WHSC1L1, WT1, ZNF145, ZF198, ZNF278, ZNF384, ZNF521 e ZNFN1A1, em uma amostra de tumor heme de leucemia linfocítica aguda (LLA), leucemia mielóide aguda (LMA), leucemia megacariocítica aguda, linfoma anaplástico de células grandes (ALCL), células B agudas agudas Leucemia linfoblástica crônica (B-ALL), linfoma não-Hodgkin de células B (B-NHL), linfoma de Burkitt, leucemia linfocítica crônica (LLC), leucemia mielocítica crônica (LMC), leucemia mielomonocítica crônica (CMML), linfoma folicular, linfoma tcell intestinal, leucemia mielomonocítica juvenil (JMML), leucemia, Leucemia linfoblástica/bifásica, mieloma múltiplo (MM), síndrome mielodisplásica, distúrbio mieloproliferativo (DMP), não Linfoma-Hodgkin (NHL), linfoma periférico de células T, leucemia linfoblástica aguda pré-células B (pré-B-ALL), leucemia linfoblástica aguda de células T (T-ALL) ou linfoma de células T;L) pelo menos cinco genes ou produtos de gene selecionados de ABCB1, ABCC2, ABCC4, ABCG2, ABL1, ABL2, ACSL3, ACVR1B, AF15Q14, AF1Q, AF3p21, AF5q31, AKAP9, AKT1, AKT2, AKT3, ALK, ALPHA, ALO17, ALOX2B, APC, AR, ARAF, ARFRP1, ARHGEF12, ARHH, ARID1A, ARNT, ASPSCR1, ASXL1, ATIC, ATF1, ATM, ATR, ATRX, AURKA, AURKB, AXL, BACH1, BAP1, BARD1, BCL10, BCL11A, BCL11B, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL3, BCL5, BCL6, BCL7A, BCL9, BLM, BCOR, BCORL1, BCR, BIRC3, BRAF, BRCA1, BRCA2, BRD3, BRD4, BRIP1, BTG1, C1orf144, C12orf9, C15or21, C17orf39, CANT1, CARD11, CARS, CASP8, CBFA2T1, CGBA2T3, CBFB, CBL, CCND1, CCND2, CCND3, CCNE1, CD22, CD74, CD79A, CD89B, CDC73, CDH1, CDH11, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDK12, CDKN1B, CDKN2A, CDKN2B, CDKN2C, CDX2, CEBPA, CEP1, CHCHD7, CHEK1, CHEK2, CHIC2, CHN1, CHUK, CIC, CLTC , CLTCL1, CMKOR1, COL1A1, COX6C, CRBN, CREB1, CREB3L2, CREBBP, CRKL, CRLF2, CRTC3, CSF1R, CTCF, CTNNA1, CTNNB1, CUL4A, CUL4B, CYP17A1, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, D10S170, DAXX, DDIT3, DDK5, DDR2, DDX5, DDX6, DDX10, DEK, DIS3, DNMT3A, DOT1L, DPYD, DUX4, EGFR, EIF4A2, ELF4, ELK4, ELKS, ELL, ELN, EML4, EMSY, EP300, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, EPS15, ERBB2, ERBB3, ERBB4, ERCC2, ERG, ESR1, ESR2, ETV1, ETV4, ETV5, ETV6, EVI1, EWSR1, EZH2, FACL6, FAM46C, FANCA, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FBXW7, FCGR2B, FCGR3A, FEV, FGF1, FGF10, FGF12, FGF14, FGF19, FGF23 FGF3, FGF4, FGF6, FGF7 FGFR1, FGFR1OP FGFR2, FGFR3, FGFR4, FIP1L1, FLI1, FLT1, FLT3, FLT4, FNBP1, FOP, FOXL2, FOXO1A, FOXO3A, FOXP4, FSTL3, FUS, FVT1, GAS7, GATA1, GATA2, GATA3, GMPS, GNA11, GNAQ, GNAS, GOLGA5 , GPHN, GPR124, GRAF, GRIN2A, GSK3B, GSTP1, GUCY1A2, H4, HCMOGT-1, HEAB, HEI10, HERPUD1, HGF, HIP1, HIST1H4I, HLA-A, HLF, HLXB9, HMGA1, HMGA2, HNRNPA2B1, HOOK3, HOXA11, HOXA13, HOXA3, OXA9, HOXC11, HOXC13, HOXD11, HOXD13, HSP90AA1, HSPCA, HSPCB, IDH1, IDH2, IGF1, IGF2, IGF2R, IGH, IGK, IGL, IKBKE, IKZF1, IL2, IL21R, IL7R, INHBA, INSR, IRF4, IRS2, IRTA1, ITPA, ITK, JAK1, JAK2, JAK3, JAZF1, JUN, KDM4C, KDM5A, KDM6A, KDR, KEAP1, KIAA1549, KIT, KLHL6, KLK2, KRAS, KTN1, LAF4, LASP1, LCK, LCP1, LCX, LHFP, LHX4, LIFR, LMO1, LMO2, LPP, LRP1B, LRP2, LRP6, LRRK2, LTK, LYL1, MAF, MAFB, MAGED1, MALT1, MAML2, MAN1B1, MAP2K1, MAP2K2, MAP2K4, MAP3K1, MAP3K13, MCL1, MDM2, MDM4, MDS1, MDS2, MECT1, MEN1, MET, MHC2TA, MITF, MKL1, MLF1, MLH, MLL, MLL2, MLLT1, MLLT10, MLLT2, MLLT3 MLLT4, MLLT6, MLLT7, MLST8, MN1 , MORF, MPL, MRE11A, MSF, MSH2, MSH6, MSI2, MSN, MTCP1, MTHFR, MTOR, MUC1, MUTYH, MYB, MYC, MYCL1, MYCN, MYD88, MYH11, MYH9, MYST3, MYST4, NACA, NCOA1, NCOA2, NCOA4, NCOR1, NF1, NF2, NFE2L2, NFIB, NFKB, NFKB2, NIN, NFKBIA, NKX2-1, NONO, NOTCH1, NOTCH2, NOTCH3, NOTCH4, NPM1, NQO1, NR4A3, NRAS, NRP2, NSD1, NTRK1, NTRK2, NTRK3, NUMA1, NUP93, NUP214, NUP98, NUT, OLIG2, OMD, PAFAH1B2, PAK3, PAK7, PALB2, PAX3, PAX5, PAX7, PAX8, PBRM1, PBX1, PCM1, PCSK7, PDE4DIP, PDGFB, PDGFRA, PDGFRB, PDK1, PER1, PHLPP2, PHOX2B, PICALM, PIK3CA, PIK3C2G, PIK3C3, PIK3CG, PIK3R1, PIK3R2, PIM1, PKHD1, PLAG1, PLCG1, PML, PMX1, PNRC1, PNUTL1, POU2AF1, POU5F1, PPARG, PRCC, PRDM1, PRDM16, PRKAR1A, PRKAR1A, PRKDC, PRO1073, PRSS8, PSIP2, PTCH2, PTEN, PTK2, PTK2B, PTCH1, PTPN11, RAD50, RAD51, RAD51L1, RAF1, RAB5EP, RANBP17, RAP1GDS1, RARA, RB1, RBM15, REL , RET, RHEB, RICTOR, ROCK1, ROS1, RPL22, RPN1, RPTOR, RUNXBP2, RUNX1, RUNXBP2, RUNXT1, SEPT6, SET, SETD2, SF3B1, SFPQ, SFRS3, SH2B3, SH3GL1, SIL, SLC19A1, SLC22A2, SLC45A3, SLCO1B3, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOD2, SOX10, SOX2, SPEN, SPOP, SRC, SRGAP3, SS18, SS18L1, SSH3BP1, SSX1, SSX2, SSX4, STAG2, STAT3, STAT4, STK11, STK12, STL, SUFU, SULT1A1, SUZ12, SYK, TAF15, TAL1, TAL2, TBX22, TBX23, TBX3, TCEA1, TCF12, TCF3, TCL1A, TCL6, TEC, TET2, TFE3, TFEB, TFG, TFPT, TFRC, TGFBR2, THRAP3, TIF1, TLX1, TLX3, TMPRSS2, TNFAIP3, TNFRSF14, TNFRSF17, TNKS, TNKS2, TP53, TPM3, TPMT, TRA, TOP1, TPM3, TPM4, TPR, TRA, TRB, TRD, TRIM27, TRIM33, TRIP11, TRRAP, TSC1, TSC2, TTL, TYK2, TYMS, UGT1A1, UMPS, USP6, USP9X, VHL, WHSC1, WHSC1L1, WT1, XBP1, XPO1, ZNF145, ZNF198, ZNF217, ZNF278, ZNF331, ZNF384, ZNF521 , ZNF703, ZNF9 e ZNF1A1, em que uma variação alélica está associada a um tipo de tumor pré-selecionado e em que a variação alélica está presente em menos de 5% das células do referido tipo de tumor;M) pelo menos cinco genes ou produtos de gene selecionados de ABCB1, ABCC2, ABCC4, ABCG2, ABL1, ABL2, ACSL3, ACVR1B, AF15Q14, AF1Q, AF3p21, AF5q31, AKAP9, AKT1, AKT2, AKT3, ALK, ALPHA, ALO17, ALOX2B, APC, AR, ARAF, ARFRP1, ARHGEF12, ARHH, ARID1A, ARNT, ASPSCR1, ASXL1, ATIC, ATF1, ATM, ATR, ATRX, AURKA, AURKB, AXL, BACH1, BAP1, BARD1, BCL10, BCL11A, BCL11B, BCL2, BCL2A1, BCL2L1, BCL2L2, BCL3, BCL5, BCL6, BCL7A, BCL9, BLM, BCOR, BCORL1, BCR, BIRC3, BRAF, BRCA1, BRCA2, BRD3, BRD4, BRIP1, BTG1, C1orf144, C12orf9, C15or21, C17orf39, CANT1, CARD11, CARS, CASP8, CBFA2T1, CGBA2T3, CBFB, CBL, CCND1, CCND2, CCND3, CCNE1, CD22, CD74, CD79A, CD89B, CDC73, CDH1, CDH11, CDH2, CDH20, CDH5, CDK4, CDK6, CDK8, CDK12, CDKN1B, CDKN2A, CDKN2B, CDKN2C, CDX2, CEBPA, CEP1, CHCHD7, CHEK1, CHEK2, CHIC2, CHN1, CHUK, CIC, CLTC, CLTCL1 , CMKOR1, COL1A1, COX6C, CRBN, CREB1, CREB3L2, CREBBP, CRKL, CRLF2, CRTC3, CSF1R, CTCF, CTNNA1, CTNNB1, CUL4A, CUL4B, CYP17A1, CYP1B1, CYP2C19, CYP2C8, CYP2D6, CYP3A4, CYP3A5, D10S170, DAXX, DDIT3, DDK5, DDR2, DDX5, DDX6, DDX10, DEK, DIS3, DNMT3A, DOT1L, DPYD, DUX4, EGFR, EIF4A2, ELF4, ELK4, ELKS, ELL, ELN, EML4, EMSY, EP300, EPHA3, EPHA5, EPHA6, EPHA7, EPHB1, EPHB4, EPHB6, EPS15, ERBB2, ERBB3, ERBB4, ERCC2, ERG, ESR1, ESR2, ETV1, ETV4, ETV5, ETV6, EVI1, EWSR1, EZH2, FACL6, FAM46C, FANCA, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCL, FBXW7, FCGR2B, FCGR3A, FEV, FGF1, FGF10, FGF12, FGF14, FGF19, FGF23 FGF3, FGF4, FGF6, FGF7 FGFR1, FGFR1OP FGFR2, FGFR3, FGFR4, FIP1L1, FLI1, FLT1, FLT3, FLT4, FNBP1, FOP, FOXL2, FOXO1A, FOXO3A, FOXP4, FSTL3, FUS, FVT1, GAS7, GATA1, GATA2, GATA3, GMPS, GNA11, GNAQ, GNAS, GOLGA5, GPHN , GPR124, GRAF, GRIN2A, GSK3B, GSTP1, GUCY1A2, H4, HCMOGT-1, HEAB, HEI10, HERPUD1, HGF, HIP1, HIST1H4I, HLA-A, HLF, HLXB9, HMGA1, HMGA2, HNRNPA2B1, HOOK3, HOXA11, HOXA13, HOXA3, OXA9, HOXC11, HOXC13, HOXD11, HOXD13, HSP90AA1, HSPCA, HSPCB, IDH1, IDH2, IGF1, IGF2, IGF2R, IGH, IGK, IGL, IKBKE, IKZF1, IL2, IL21R, IL7R, INHBA, INSR, IRF4, IRS2, IRTA1, ITPA, ITK, JAK1, JAK2, JAK3, JAZF1, JUN, KDM4C, KDM5A, KDM6A, KDR, KEAP1, KIAA1549, KIT, KLHL6, KLK2, KRAS, KTN1, LAF4, LASP1, LCK, LCP1, LCX, LHFP, LHX4, LIFR, LMO1, LMO2, LPP, LRP1B, LRP2, LRP6, LRRK2, LTK, LYL1, MAF, MAFB, MAGED1, MALT1, MAML2, MAN1B1, MAP2K1, MAP2K2, MAP2K4, MAP3K1, MAP3K13, MCL1, MDM2, MDM4, MDS1, MDS2, MECT1, MEN1, MET, MHC2TA, MITF, MKL1, MLF1, MLH, MLL, MLL2, MLLT1, MLLT10, MLLT2, MLLT3 MLLT4, MLLT6, MLLT7, MLST8, MN1, MORF , MPL, MRE11A, MSF, MSH2, MSH6, MSI2, MSN, MTCP1, MTHFR, MTOR, MUC1, MUTYH, MYB, MYC, MYCL1, MYCN, MYD88, MYH11, MYH9, MYST3, MYST4, NACA, NCOA1, NCOA2, NCOA4, NCOR1, NF1, NF2, NFE2L2, NFIB, NFKB, NFKB2, NIN, NFKBIA, NKX2-1, NONO, NOTCH1, NOTCH2, NOTCH3, NOTCH4, NPM1, NQO1, NR4A3, NRAS, NRP2, NSD1, NTRK1, NTRK2, NTRK3, NUMA1, NUP93, NUP214, NUP98, NUT, OLIG2, OMD, PAFAH1B2, PAK3, PAK7, PALB2, PAX3, PAX5, PAX7, PAX8, PBRM1, PBX1, PCM1, PCSK7, PDE4DIP, PDGFB, PDGFRA, PDGFRB, PDK1, PER1, PHLPP2, PHOX2B, PICALM, PIK3CA, PIK3C2G, PIK3C3, PIK3CG, PIK3R1, PIK3R2, PIM1, PKHD1, PLAG1, PLCG1, PML, PMX1, PNRC1, PNUTL1, POU2AF1, POU5F1, PPARG, PRCC, PRDM1, PRDM16, PRKAR1A, PRKAR1A, PRKDC, PRO1073, PRSS8, PSIP2, PTCH2, PTEN, PTK2, PTK2B, PTCH1, PTPN11, RAD50, RAD51, RAD51L1, RAF1, RAB5EP, RANBP17, RAP1GDS1, RARA, RB1, RBM15, REL, RET , RHEB, RICTOR, ROCK1, ROS1, RPL22, RPN1, RPTOR, RUNXBP2, RUNX1, RUNXBP2, RUNXT1, SEPT6, SET, SETD2, SF3B1, SFPQ, SFRS3, SH2B3, SH3GL1, SIL, SLC19A1, SLC22A2, SLC45A3, SLCO1B3, SMAD2, SMAD3, SMAD4, SMARCA4, SMARCB1, SMO, SOCS1, SOD2, SOX10, SOX2, SPEN, SPOP, SRC, SRGAP3, SS18, SS18L1, SSH3BP1, SSX1, SSX2, SSX4, STAG2, STAT3, STAT4, STK11, STK12, STL, SUFU, SULT1A1, SUZ12, SYK, TAF15, TAL1, TAL2, TBX22, TBX23, TBX3, TCEA1, TCF12, TCF3, TCL1A, TCL6, TEC, TET2, TFE3, TFEB, TFG, TFPT, TFRC, TGFBR2, THRAP3, TIF1, TLX1, TLX3, TMPRSS2, TNFAIP3, TNFRSF14, TNFRSF17, TNKS, TNKS2, TP53, TPM3, TPMT, TRA, TOP1, TPM3, TPM4, TPR, TRA, TRB, TRD, TRIM27, TRIM33, TRIP11, TRRAP, TSC1, TSC2, TTL, TYK2, TYMS, UGT1A1, UMPS, USP6, USP9X, VHL, WHSC1, WHSC1L1, WT1, XBP1, XPO1, ZNF145, ZNF198, ZNF217, ZNF278, ZNF331, ZNF384, ZNF521, ZNF703 , ZNF9 e ZNF1A1, que estão incorporados em uma região rica em GC; ou N) pelo menos cinco genes ou produtos genéticos indicativos de um fator genético para o desenvolvimento do câncer escolhido a partir de um ou mais de BRCA1, BRCA2, EGFR, HRAS, KIT, MPL, ALK, PTEN, RET, APC, CDKN2A, MLH1, MSH2, MSH6, NF1, NF2, RB1, TP53, VHL ou WT1.
20. MÉTODO PARA DETERMINAR A PRESENÇA OU AUSÊNCIA DE UMA ALTERAÇÃO POSITIVAMENTE OU NEGATIVAMENTE ASSOCIADA, COM UM FENÓTIPO CANCERÍGENO caracterizado pelo fato de que compreende: (a) adquirir uma biblioteca compreendendo a uma pluralidade de elementos de tumor de uma amostra de tumor; (b) enriquecer a biblioteca para sequências pré-selecionadas contatando a biblioteca com uma pluralidade de conjuntos de isca para fornecer elementos selecionados; (c) adquirir uma leitura para um intervalo subgenômico de uma molécula de ácido nucléico de tumor da dita biblioteca por um método de sequenciamento de próxima geração; (d) alinhar a dita leitura por um método de alinhamento; e (e) designar um valor de nucleotídeo da dita leitura para a posição de nucleotídeo pré-selecionada, assim analisando a dita amostra de tumor, em que o método compreende sequenciar um intervalo subgenômico de pelo menos vinte, vinte e cinco, trinta ou mais genes ou produtos de gene da amostra, em que os genes ou produtos de gene são escolhidos de: ABL1, AKT1, AKT2, AKT3, ALK, APC, AR, BRAF, CCND1, CDK4, CDKN2A, CEBPA, CTNNB1, EGFR, ERBB2, ESR1, FGFR1, FGFR2, FGFR3, FLT3, HRAS, JAK2, KIT, KRAS, MAP2K1, MAP2K2, MET, MLL, MYC, NF1, NOTCH1, NPM1, NRAS, NTRK3, PDGFRA, PIK3CA, PIK3CG, PIK3R1, PTCH1, PTCH2, PTEN, RB1, RET, SMO, STK11, SUFU, ou TP53; em que a menor pluralidade de conjuntos de isca compreende um conjunto de isca configurado para hibridizar com uma sequência de fusão.
BR112013016708-4A 2010-12-30 2011-12-29 Otimização de análise multigene de amostras de tumor BR112013016708B1 (pt)

Applications Claiming Priority (17)

Application Number Priority Date Filing Date Title
US201061428626P 2010-12-30 2010-12-30
US201061428602P 2010-12-30 2010-12-30
US201061428638P 2010-12-30 2010-12-30
US201061428568P 2010-12-30 2010-12-30
US201161467748P 2011-03-25 2011-03-25
US201161467798P 2011-03-25 2011-03-25
US61/467,798 2011-03-25
US201161486033P 2011-05-13 2011-05-13
US201161486026P 2011-05-13 2011-05-13
US201161486006P 2011-05-13 2011-05-13
US201161486012P 2011-05-13 2011-05-13
US61/486,012 2011-05-13
US61/486,006 2011-05-13
US61/486,026 2011-05-13
US61/486,033 2011-05-13
US201161552884P 2011-10-28 2011-10-28
PCT/US2011/067725 WO2012092426A1 (en) 2010-12-30 2011-12-29 Optimization of multigene analysis of tumor samples

Publications (2)

Publication Number Publication Date
BR112013016708A2 BR112013016708A2 (pt) 2016-10-04
BR112013016708B1 true BR112013016708B1 (pt) 2021-08-17

Family

ID=46383525

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112013016708-4A BR112013016708B1 (pt) 2010-12-30 2011-12-29 Otimização de análise multigene de amostras de tumor

Country Status (10)

Country Link
US (5) US9340830B2 (pt)
EP (3) EP3225697A3 (pt)
JP (6) JP6054303B2 (pt)
KR (5) KR20210131432A (pt)
AU (16) AU2011352070A1 (pt)
BR (1) BR112013016708B1 (pt)
CA (1) CA2823621C (pt)
IL (2) IL261052B (pt)
SG (1) SG191818A1 (pt)
WO (1) WO2012092426A1 (pt)

Families Citing this family (195)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US9732131B2 (en) 2006-02-27 2017-08-15 Calviri, Inc. Identification and use of novopeptides for the treatment of cancer
GB2467691A (en) 2008-09-05 2010-08-11 Aueon Inc Methods for stratifying and annotating cancer drug treatment options
US9085798B2 (en) 2009-04-30 2015-07-21 Prognosys Biosciences, Inc. Nucleic acid constructs and methods of use
US20120276555A1 (en) 2009-10-21 2012-11-01 Peter Kuhn Method of Using Non-Rare Cells to Detect Rare Cells
SI2556171T1 (sl) 2010-04-05 2016-03-31 Prognosys Biosciences, Inc. Prostorsko kodirane biološke analize
US20190300945A1 (en) 2010-04-05 2019-10-03 Prognosys Biosciences, Inc. Spatially Encoded Biological Assays
US10787701B2 (en) 2010-04-05 2020-09-29 Prognosys Biosciences, Inc. Spatially encoded biological assays
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2572003A4 (en) 2010-05-18 2016-01-13 Natera Inc METHOD FOR NONINVASIVE PRANATAL PLOIDIE ASSIGNMENT
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
AU2011293635B2 (en) 2010-08-24 2015-11-26 Children's Medical Center Corporation Methods for predicting anti-cancer response
WO2012040387A1 (en) 2010-09-24 2012-03-29 The Board Of Trustees Of The Leland Stanford Junior University Direct capture, amplification and sequencing of target dna using immobilized primers
KR20210131432A (ko) 2010-12-30 2021-11-02 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
WO2012129363A2 (en) 2011-03-24 2012-09-27 President And Fellows Of Harvard College Single cell nucleic acid detection and analysis
GB201106254D0 (en) 2011-04-13 2011-05-25 Frisen Jonas Method and product
PL2697397T3 (pl) 2011-04-15 2017-08-31 The Johns Hopkins University System bezpiecznego sekwencjonowania
JP6117194B2 (ja) 2011-06-17 2017-04-19 ミリアド・ジェネティックス・インコーポレイテッド アレル不均衡を評価するための方法および材料
RU2639509C2 (ru) 2011-06-27 2017-12-21 Эйсай Ар Энд Ди Менеджмент Ко., Лтд. МикроРНК - БИОМАРКЕРЫ, УКАЗЫВАЮЩИЕ НА БОЛЕЗНЬ АЛЬЦГЕЙМЕРА
EP2748192B2 (en) * 2011-08-23 2022-04-20 Foundation Medicine, Inc. Kif5b-ret fusion molecules and uses thereof
WO2013059740A1 (en) 2011-10-21 2013-04-25 Foundation Medicine, Inc. Novel alk and ntrk1 fusion molecules and uses thereof
WO2013096843A1 (en) 2011-12-21 2013-06-27 Myriad Genetics, Inc. Methods and materials for assessing loss of heterozygosity
WO2013130347A1 (en) 2012-02-23 2013-09-06 The Children's Hospital Corporation Methods for predicting anti-cancer response
CA2867375A1 (en) * 2012-03-12 2013-09-19 Memorial Sloan-Kettering Cancer Center Methods and compositions for the diagnosis, prognosis and treatment of acute myeloid leukemia
EP2859118B1 (en) 2012-06-07 2017-11-22 Institut Curie Methods for detecting inactivation of the homologous recombination pathway (brca1/2) in human tumors
AU2013286635B2 (en) 2012-07-03 2018-11-08 Foundation Medicine, Inc. Tm-enhanced blocking oligonucleotides and baits for improved target enrichment and reduced off-target selection
CN104685064A (zh) * 2012-07-24 2015-06-03 纳特拉公司 高度复合pcr方法和组合物
AU2013296237B2 (en) 2012-08-03 2019-05-16 Foundation Medicine, Inc. Human papilloma virus as predictor of cancer prognosis
WO2014028862A1 (en) * 2012-08-17 2014-02-20 Cornell University Use of dna in circulating exosomes as a diagnostic marker for metastasic disease
US9725768B2 (en) 2012-08-31 2017-08-08 Biovest International, Inc. Methods for producing high-fidelity autologous idiotype vaccines
IL305303A (en) 2012-09-04 2023-10-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014058987A1 (en) * 2012-10-09 2014-04-17 Five3 Genomics, Llc Systems and methods for tumor clonality analysis
US11525163B2 (en) 2012-10-29 2022-12-13 The Johns Hopkins University Papanicolaou test for ovarian and endometrial cancers
CA2890346A1 (en) 2012-11-05 2014-05-08 Foundation Medicine, Inc. Novel fusion molecules and uses thereof
AU2013337277B2 (en) 2012-11-05 2018-03-08 Foundation Medicine, Inc. Novel NTRK1 fusion molecules and uses thereof
US20140143188A1 (en) * 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
CA2898326C (en) 2013-01-18 2022-05-17 Foundation Medicine, Inc. Methods of treating cholangiocarcinoma
CN105339507A (zh) * 2013-02-21 2016-02-17 托马生物科学公司 用于核酸分析的方法、组合物和试剂盒
US20160010068A1 (en) * 2013-02-22 2016-01-14 Boris C. Bastian Fusion polynucleotides and fusion polypeptides associated with cancer and particularly melanoma and their uses as therapeutic and diagnostic targets
US9347095B2 (en) 2013-03-15 2016-05-24 Bio-Rad Laboratories, Inc. Digital assays for mutation detection
WO2014145824A2 (en) * 2013-03-15 2014-09-18 Medicomp Systems, Inc. Electronic medical records system utilizing genetic information
US11976329B2 (en) 2013-03-15 2024-05-07 Veracyte, Inc. Methods and systems for detecting usual interstitial pneumonia
WO2014183078A1 (en) * 2013-05-10 2014-11-13 Foundation Medicine, Inc. Analysis of genetic variants
DK3013983T3 (da) 2013-06-25 2023-03-06 Prognosys Biosciences Inc Spatialt kodede biologiske assays ved brug af en mikrofluidisk anordning
RU2524433C1 (ru) * 2013-07-04 2014-07-27 Федеральное государственное бюджетное учреждение "Российский онкологический научный центр имени Н.Н. Блохина" Российской академии медицинских наук (ФГБУ "РОНЦ им. Н.Н. Блохина" РАМН) Набор последовательностей олигонуклеотидов для диагностики герминальных мутаций в гене ret, ассоциированных с наследственной предрасположенностью к раку щитовидной железы
WO2015009831A2 (en) 2013-07-17 2015-01-22 Foundation Medicine, Inc. Methods of treating urothelial carcinomas
US10323285B2 (en) 2013-09-09 2019-06-18 Nantomics, Llc Proteomics analysis and discovery through DNA and RNA sequencing, systems and methods
ES2909899T3 (es) 2013-12-09 2022-05-10 Inst Curie Métodos para detectar inactivación de la ruta de recombinación homóloga (BRCA1/2) en tumores humanos
JP2017500032A (ja) * 2013-12-15 2017-01-05 アカデミア シニカAcademia Sinica 配列不明の二本鎖線形核酸の全長増幅のための方法
US20160319367A1 (en) * 2013-12-17 2016-11-03 Stichting Het Nederlands Kanker Instituut-Antoni van Leeuwenhoek Ziekenhuis Means and methods for typing a breast cancer patient and assigning therapy based on the typing
JP6571665B2 (ja) 2013-12-28 2019-09-04 ガーダント ヘルス, インコーポレイテッド 遺伝的バリアントを検出するための方法およびシステム
US10527624B2 (en) 2014-01-27 2020-01-07 Epic Sciences, Inc. Circulating tumor cell diagnostics for prostate cancer biomarkers
EA201691682A1 (ru) 2014-02-21 2017-02-28 Эпик Сайенсиз, Инк. Способы анализирования редких циркулирующих в крови клеток
EP3125907A4 (en) 2014-04-01 2017-11-29 Cornell University Use of double-stranded dna in exosomes: a novel biomarker in cancer detection
CN106460070B (zh) 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
WO2016025958A1 (en) 2014-08-15 2016-02-18 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
CN104459130B (zh) * 2014-09-26 2016-06-29 济南大学 基于核酸适配体检测氨苄青霉素的生物传感器及其制备方法
US11397182B2 (en) 2014-10-07 2022-07-26 Cornell University Methods for prognosing and preventing metastatic liver disease
CN114606309A (zh) * 2014-11-05 2022-06-10 威拉赛特公司 使用机器学习和高维转录数据的诊断系统和方法
EP3227464B1 (en) * 2014-12-05 2022-04-20 Foundation Medicine, Inc. Multigene analysis of tumor samples
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10429342B2 (en) 2014-12-18 2019-10-01 Edico Genome Corporation Chemically-sensitive field effect transistor
EP3239875B1 (en) * 2014-12-26 2019-10-02 National University Corporation, Tohoku University Method for determining genotype of particular gene locus group or individual gene locus, determination computer system and determination program
CN107532207B (zh) 2015-04-10 2021-05-07 空间转录公司 生物样本的空间区别、多重核酸分析
KR101850437B1 (ko) * 2015-04-14 2018-04-20 이원다이애그노믹스(주) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
US10776713B2 (en) * 2015-04-24 2020-09-15 Regents Of The University Of Minnesota Classification of highly-skewed data
US11971402B2 (en) 2015-04-24 2024-04-30 Cornell University Methods and reagents for determination and treatment of organotropic metastasis
WO2016183106A1 (en) 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
EP3294324A1 (en) 2015-05-13 2018-03-21 Agenus Inc. Vaccines for treatment and prevention of cancer
CA2986685A1 (en) 2015-05-27 2016-12-01 Quest Diagnostics Investments Incorporated Compositions and methods for screening solid tumors
EP3303363A4 (en) * 2015-05-29 2019-01-23 Epic Sciences, Inc. INTRA-PATIENT GENOMIC HETEROGENEITY OF UNIQUE CIRCULATING TUMOR CELLS (CTC) ASSOCIATED WITH THE HETEROGENEITY OF PHENOTYPIC CTC IN ANDROGEN-INDEPENDENT METASTASIC PROSTATE CANCER (MCRPC)
JP6698708B2 (ja) 2015-06-09 2020-05-27 ライフ テクノロジーズ コーポレーション 分子タグ付けのための方法、システム、組成物、キット、装置、及びコンピュータ可読媒体
CN107408162B (zh) * 2015-06-24 2020-12-01 吉尼努斯公司 用于分析基因的方法及装置
WO2016208827A1 (ko) * 2015-06-24 2016-12-29 사회복지법인 삼성생명공익재단 유전자를 분석하는 방법 및 장치
EP3328440A4 (en) 2015-07-28 2019-01-16 Otonomy, Inc. TREATMENT USING TRK B TRK B TRK ANTAGONISTS
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
US10720227B2 (en) 2015-08-12 2020-07-21 Samsung Electronics Co., Ltd. Method and device for mutation prioritization for personalized therapy
US11492670B2 (en) 2015-10-27 2022-11-08 The Broad Institute Inc. Compositions and methods for targeting cancer-specific sequence variations
CN115044645A (zh) 2015-11-11 2022-09-13 分析生物科学有限公司 Dna文库的高效率构建
AU2016369519B2 (en) 2015-12-16 2023-04-20 Gritstone Bio, Inc. Neoantigen identification, manufacture, and use
CN108603228B (zh) 2015-12-17 2023-09-01 夸登特健康公司 通过分析无细胞dna确定肿瘤基因拷贝数的方法
CN108463559A (zh) * 2016-01-15 2018-08-28 文塔纳医疗系统公司 肿瘤的深度测序概况分析
CN109196121B (zh) 2016-02-29 2022-01-04 基因泰克公司 用于癌症的治疗和诊断方法
KR20220018627A (ko) * 2016-02-29 2022-02-15 파운데이션 메디신 인코포레이티드 종양 돌연변이 부담을 평가하기 위한 방법 및 시스템
WO2017151517A1 (en) 2016-02-29 2017-09-08 Foundation Medicine, Inc. Methods of treating cancer
CN116509869A (zh) 2016-04-04 2023-08-01 希诺皮亚生物科学公司 使用曲匹地尔治疗锥体外系综合征
WO2017176214A1 (en) * 2016-04-06 2017-10-12 Angsana Molecular And Diagnostics Laboratory Pte. Ltd. System and method for detecting variations in nucleic acid sequence for use in next-generation sequencing
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
WO2017217694A2 (ko) * 2016-06-16 2017-12-21 한국한의학연구원 돌연변이 발생률의 측정 방법
KR101915701B1 (ko) 2016-06-16 2018-11-07 한국한의학연구원 돌연변이 발생률의 측정 방법
US11923049B2 (en) * 2016-06-22 2024-03-05 Sophia Genetics S.A. Methods for processing next-generation sequencing genomic data
EP3500686B1 (en) * 2016-08-18 2024-01-10 Quest Diagnostics Investments LLC Methods for detecting craniopharyngioma and for selecting medicaments and patients for treatment
RU2019108294A (ru) 2016-08-25 2020-09-25 Резолюшн Байосайенс, Инк. Способы обнаружения изменений количества геномных копий в образцах днк
ES2840003T3 (es) 2016-09-30 2021-07-06 Guardant Health Inc Métodos para análisis multi-resolución de ácidos nucleicos libres de células
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
EP3523451A1 (en) 2016-10-06 2019-08-14 Genentech, Inc. Therapeutic and diagnostic methods for cancer
AU2017361069B2 (en) * 2016-11-16 2023-09-21 Illumina, Inc. Methods of sequencing data read realignment
WO2018098362A1 (en) 2016-11-23 2018-05-31 Gritstone Oncology, Inc. Viral delivery of neoantigens
KR101919995B1 (ko) * 2016-11-29 2018-11-20 충북대학교 산학협력단 콘크리트 테이블 제작용 섬유보강장치
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US11615864B2 (en) * 2017-02-17 2023-03-28 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof
US20200058375A1 (en) * 2017-02-23 2020-02-20 Jay DUNFFNER Variant-specific alignment of nucleic acid sequencing data
KR20230152172A (ko) * 2017-03-19 2023-11-02 오펙-에슈콜롯 리서치 앤드 디벨롭먼트 엘티디 K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법
PL3448859T3 (pl) 2017-03-20 2020-02-28 Forma Therapeutics, Inc. Kompozycje pirolopirolu jako aktywatory kinazy pirogronianowej (PKR)
WO2018208856A1 (en) 2017-05-08 2018-11-15 Gritstone Oncology, Inc. Alphavirus neoantigen vectors
WO2018223092A1 (en) 2017-06-02 2018-12-06 Arizona Board Of Regents On Behalf Of Arizona State University A method to create personalized cancer vaccines
US11433074B2 (en) 2017-06-22 2022-09-06 Triact Therapeutics, Inc. Methods of treating glioblastoma
PT3649260T (pt) * 2017-07-07 2022-05-30 Nipd Genetics Public Company Ltd Análise paralela multiplexada enriquecida com alvo para avaliação de biomarcadores tumorais
US10636512B2 (en) 2017-07-14 2020-04-28 Cofactor Genomics, Inc. Immuno-oncology applications using next generation sequencing
KR20200093518A (ko) 2017-07-21 2020-08-05 제넨테크, 인크. 암에 대한 치료 및 진단 방법
JP7232476B2 (ja) 2017-08-07 2023-03-08 ザ ジョンズ ホプキンス ユニバーシティ がんを評価及び治療するための方法及び物質
KR102035615B1 (ko) * 2017-08-07 2019-10-23 연세대학교 산학협력단 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
KR101867011B1 (ko) * 2017-08-10 2018-06-14 주식회사 엔젠바이오 차세대 염기서열 분석기법을 이용한 유전자 재배열 검출 방법
TWI650664B (zh) * 2017-08-21 2019-02-11 遺傳軌跡股份有限公司 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統
US11773449B2 (en) 2017-09-01 2023-10-03 The Hospital For Sick Children Profiling and treatment of hypermutant cancer
WO2019055618A1 (en) 2017-09-15 2019-03-21 Arizona Board Of Regents On Behalf Of Arizona State University METHODS OF CLASSIFYING RESPONSES TO ANTICANCER IMMUNOTHERAPY
US11628144B2 (en) 2017-09-29 2023-04-18 Triact Therapeutics, Inc. Iniparib formulations and uses thereof
AU2018348165A1 (en) 2017-10-10 2020-05-21 Gritstone Bio, Inc. Neoantigen identification using hotspots
KR20200044123A (ko) * 2017-10-10 2020-04-28 난토믹스, 엘엘씨 암 환자에서의 향상된 정밀도를 위한 포괄적 게놈 트랜스크립톰 종양-정상 유전자 패널 분석 (comprehensive genomic transcriptomic tumor-normal gene panel analysis for enhanced precision in patients with cancer)
US20200239932A1 (en) * 2017-10-16 2020-07-30 The Regents Of The University Of California Efficient screening library preparation
JP7054133B2 (ja) 2017-11-09 2022-04-13 国立研究開発法人国立がん研究センター 配列解析方法、配列解析装置、参照配列の生成方法、参照配列生成装置、プログラム、および記録媒体
US10514890B2 (en) 2017-11-15 2019-12-24 Accenture Global Solutions Limited Test case and data selection using a sampling methodology
US10241903B1 (en) 2017-11-15 2019-03-26 Accenture Global Solutions Limited Parallel testing and reporting system
US10409553B2 (en) 2017-11-15 2019-09-10 Accenture Global Solutions Limited Optimized construction of a sample imprint for selecting a sample dataset for comparison testing
JP2021503897A (ja) 2017-11-22 2021-02-15 グリットストーン オンコロジー インコーポレイテッド 新生抗原のためのジャンクションエピトープ提示の低減
KR102029393B1 (ko) * 2018-01-11 2019-10-07 주식회사 녹십자지놈 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
EP3553182A1 (en) * 2018-04-11 2019-10-16 Université de Bourgogne Detection method of somatic genetic anomalies, combination of capture probes and kit of detection
TW202012430A (zh) 2018-04-26 2020-04-01 美商艾吉納斯公司 熱休克蛋白質-結合之胜肽組成物及其使用方法
WO2019217486A1 (en) * 2018-05-08 2019-11-14 Memorial Sloan Kettering Cancer Center Methods and compositions for detecting myeloma
CA3102460A1 (en) * 2018-06-11 2019-12-19 Foundation Medicine, Inc. Compositions and methods for evaluating genomic alterations
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
CA3107983A1 (en) 2018-07-23 2020-01-30 Guardant Health, Inc. Methods and systems for adjusting tumor mutational burden by tumor fraction and coverage
JP7407193B2 (ja) * 2018-08-08 2023-12-28 イニヴァータ リミテッド 可変の複製多重pcrを使用した配列決定方法
JP2021535489A (ja) 2018-08-31 2021-12-16 ガーダント ヘルス, インコーポレイテッド 無細胞dnaにおけるマイクロサテライト不安定性の検出
US20200129485A1 (en) 2018-09-19 2020-04-30 Forma Therapeutics, Inc. Treating sickle cell disease with a pyruvate kinase r activating compound
JP7450610B2 (ja) 2018-09-19 2024-03-15 ノヴォ・ノルディスク・ヘルス・ケア・アーゲー ピルビン酸キナーゼrの活性化
CN109266729B (zh) * 2018-09-29 2020-11-27 中国科学院遗传与发育生物学研究所 一种基于基因组二代测序的大片段缺失的检测方法
US10978196B2 (en) * 2018-10-17 2021-04-13 Tempus Labs, Inc. Data-based mental disorder research and treatment systems and methods
FR3087792B1 (fr) * 2018-10-29 2023-09-29 Inovotion Modele animal pour amplifier des cellules tumorales circulantes humaines ou animales
CN109637585B (zh) * 2018-12-27 2020-11-17 北京优迅医学检验实验室有限公司 测序深度的矫正方法及装置
AU2020216438A1 (en) 2019-01-31 2021-07-29 Guardant Health, Inc. Compositions and methods for isolating cell-free DNA
US20200318174A1 (en) * 2019-04-03 2020-10-08 Agilent Technologies, Inc. Compositions and methods for identifying and characterizing gene translocations, rearrangements and inversions
WO2020243579A1 (en) 2019-05-30 2020-12-03 10X Genomics, Inc. Methods of detecting spatial heterogeneity of a biological sample
BR122024002387A2 (pt) 2019-05-30 2024-03-12 Gritstone Bio, Inc. Vetores de adenovírus, composição farmacêutica, sequência de nucleotídeo isolada, célula isolada, vetor, kit, usos de um vetor, método para fabricar o vetor, métodos para produzir um vírus e vetor viral
US20200390873A1 (en) * 2019-06-11 2020-12-17 Iogenetics, Llc Neoantigen immunotherapies
WO2020264565A1 (en) * 2019-06-25 2020-12-30 Board Of Regents, The University Of Texas System Methods for duplex sequencing of cell-free dna and applications thereof
US20220401452A1 (en) * 2019-06-26 2022-12-22 The Board Of Regents Of The University Of Texas System Use of inhibitors of enhancer of zeste homolog 2
EP4038222A4 (en) 2019-10-02 2023-10-18 Arizona Board of Regents on behalf of Arizona State University METHODS AND COMPOSITIONS FOR IDENTIFYING NEOANTIGENS FOR USE IN THE TREATMENT AND PREVENTION OF CANCER
GB2623904A (en) 2019-11-06 2024-05-01 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
KR102273152B1 (ko) * 2019-11-11 2021-07-05 사회복지법인 삼성생명공익재단 유전자 변이 검출수단의 검출능력 평가용 조성물의 제조방법
WO2021146486A1 (en) * 2020-01-14 2021-07-22 The Board Institute, Inc. Minor allele enrichment sequencing through recognition oligonucleotides
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
EP4127216A1 (en) * 2020-03-30 2023-02-08 Cedars-Sinai Medical Center Ripk2 inhibition for the treatment of cancer
CN111554387B (zh) * 2020-04-26 2023-05-23 医渡云(北京)技术有限公司 医生信息推荐的方法、装置、存储介质及电子设备
CN113759113A (zh) * 2020-06-01 2021-12-07 首都医科大学附属北京天坛医院 用于诊断髓母细胞瘤的尿液蛋白标记物及其用途
EP4025692A2 (en) 2020-06-02 2022-07-13 10X Genomics, Inc. Nucleic acid library methods
WO2021247568A1 (en) 2020-06-02 2021-12-09 10X Genomics, Inc. Spatial trancriptomics for antigen-receptors
EP4162074B1 (en) 2020-06-08 2024-04-24 10X Genomics, Inc. Methods of determining a surgical margin and methods of use thereof
CN111933218B (zh) * 2020-07-01 2022-03-29 广州基迪奥生物科技有限公司 一种优化的宏基因组binning分析微生物群落的方法
WO2022032196A2 (en) 2020-08-06 2022-02-10 Gritstone Bio, Inc. Multiepitope vaccine cassettes
CN114073704B (zh) * 2020-08-14 2023-08-11 赛诺哈勃药业(成都)有限公司 具有大环结构的含氟并杂环衍生物的应用
CN111979327A (zh) * 2020-09-01 2020-11-24 上海睿璟生物科技有限公司 用于人甲状腺免提取癌基因突变检测试剂盒及检测方法
US20240000970A1 (en) * 2020-12-01 2024-01-04 Emendobio Inc. Differential knockout of a heterozygous allele of lrrk2
EP4255474A1 (en) * 2020-12-07 2023-10-11 Iogenetics, LLC. Personalized immunotherapies
US11783912B2 (en) 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
CN113337588A (zh) * 2021-05-17 2021-09-03 上海市皮肤病医院 一种基于捕获测序的col1a1-pdgfb融合基因检测方法
CN113584162A (zh) * 2021-06-17 2021-11-02 湖南菲思特精准医疗科技有限公司 一种紫杉醇代谢标志物的检测试剂盒及其检测方法和应用
CN113493863B (zh) * 2021-06-23 2022-06-10 华中科技大学同济医学院附属同济医院 用于检测covid-19易感性的分子标记、试剂盒及应用
CN113278706B (zh) * 2021-07-23 2021-11-12 广州燃石医学检验所有限公司 一种用于区分体细胞突变和种系突变的方法
WO2023039539A1 (en) * 2021-09-10 2023-03-16 Foundation Medicine, Inc. Gene fusions in sarcoma
CA3236814A1 (en) * 2021-11-17 2023-05-25 Maximilian Diehn Systems and methods for gene expression and tissue of origin inference from cell-free dna
WO2023107869A1 (en) 2021-12-08 2023-06-15 Foundation Medicine, Inc. Methods and systems for highlighting clinical information in diagnostic reports
CN114758723B (zh) * 2022-03-31 2023-03-24 广州华银医学检验中心有限公司 一种基于MeRIP测序技术检测肿瘤治疗靶点的方法和系统
WO2023230444A2 (en) * 2022-05-23 2023-11-30 Foundation Medicine, Inc. Abl1 fusions and uses thereof
CN116089320B (zh) * 2022-08-31 2023-10-20 荣耀终端有限公司 垃圾回收方法和相关装置
KR20240041396A (ko) * 2022-09-22 2024-04-01 차의과학대학교 산학협력단 파클리탁셀에 대하여 내성을 갖는 난소암의 진단을 위한 분석방법
CN115786356B (zh) * 2022-11-17 2023-06-30 百世诺(北京)医疗科技有限公司 致心律失常右室发育不良心肌病变异基因cdh2及其应用

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6495676B1 (en) 1993-04-13 2002-12-17 Naxcor Nucleic acid sequence detection employing probes comprising non-nucleosidic coumarin derivatives as polynucleotide-crosslinking agents
US20040161741A1 (en) * 2001-06-30 2004-08-19 Elazar Rabani Novel compositions and processes for analyte detection, quantification and amplification
US20040022764A1 (en) * 2002-07-31 2004-02-05 Hanan Polansky Inhibition of microcompetition with a foreign polynucleotide as treatment of chronic disease
CA2513889A1 (en) 2003-01-29 2004-08-19 454 Corporation Double ended sequencing
US20050209787A1 (en) * 2003-12-12 2005-09-22 Waggener Thomas B Sequencing data analysis
CN1950519A (zh) 2004-02-27 2007-04-18 哈佛大学的校长及成员们 聚合酶群落荧光原位测序珠子
TWI287041B (en) 2005-04-27 2007-09-21 Jung-Tang Huang An ultra-rapid DNA sequencing method with nano-transistors array based devices
US20060275779A1 (en) 2005-06-03 2006-12-07 Zhiyong Li Method and apparatus for molecular analysis using nanowires
US20070194225A1 (en) 2005-10-07 2007-08-23 Zorn Miguel D Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications
US8383338B2 (en) 2006-04-24 2013-02-26 Roche Nimblegen, Inc. Methods and systems for uniform enrichment of genomic regions
US20080131887A1 (en) 2006-11-30 2008-06-05 Stephan Dietrich A Genetic Analysis Systems and Methods
CA2686211C (en) 2007-05-03 2018-08-21 One Lambda Inc. Methods of screening for binding interaction using sets of microparticles and unique probes
US8518640B2 (en) 2007-10-29 2013-08-27 Complete Genomics, Inc. Nucleic acid sequencing and process
WO2009099602A1 (en) 2008-02-04 2009-08-13 Massachusetts Institute Of Technology Selection of nucleic acids by solution hybridization to oligonucleotide baits
WO2010028098A2 (en) 2008-09-03 2010-03-11 The Johns Hopkins University Pathways underlying pancreatic tumorigenesis and an hereditary pancreatic cancer gene
US8748103B2 (en) 2008-11-07 2014-06-10 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US8628927B2 (en) 2008-11-07 2014-01-14 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
CN102308212A (zh) * 2008-12-04 2012-01-04 加利福尼亚大学董事会 用于确定前列腺癌诊断和预后的材料和方法
CN101619350B (zh) * 2009-01-23 2012-05-16 周宏灏 用于恶性肿瘤个体化用药相关基因突变检测的基因芯片及其应用
US20100216648A1 (en) 2009-02-20 2010-08-26 Febit Holding Gmbh Synthesis of sequence-verified nucleic acids
US20100286143A1 (en) * 2009-04-24 2010-11-11 Dora Dias-Santagata Methods and materials for genetic analysis of tumors
ES2544500T3 (es) * 2009-06-05 2015-09-01 Myriad Genetics, Inc. Métodos de detección del cáncer
SG185128A1 (en) 2010-05-06 2012-12-28 Sequenta Inc Monitoring health and disease status using clonotype profiles
KR20210131432A (ko) 2010-12-30 2021-11-02 파운데이션 메디신 인코포레이티드 종양 샘플의 다유전자 분석의 최적화
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US11261494B2 (en) 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
AU2013286635B2 (en) 2012-07-03 2018-11-08 Foundation Medicine, Inc. Tm-enhanced blocking oligonucleotides and baits for improved target enrichment and reduced off-target selection
IL305303A (en) 2012-09-04 2023-10-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
WO2014164486A1 (en) 2013-03-11 2014-10-09 Yilin Zhang ENRICHMENT AND NEXT GENERATION SEQUENCING OF TOTAL NUCLEIC ACID COMPRISING BOTH GENOMIC DNA AND cDNA
CN105518151B (zh) 2013-03-15 2021-05-25 莱兰斯坦福初级大学评议会 循环核酸肿瘤标志物的鉴别和用途
US20140363521A1 (en) 2013-04-05 2014-12-11 Myriad Genetics, Inc. Methods and materials for assessing homologous recombination deficiency
WO2014183078A1 (en) 2013-05-10 2014-11-13 Foundation Medicine, Inc. Analysis of genetic variants
US9708657B2 (en) 2013-07-01 2017-07-18 Adaptive Biotechnologies Corp. Method for generating clonotype profiles using sequence tags
KR102423377B1 (ko) 2013-08-05 2022-07-25 트위스트 바이오사이언스 코포레이션 드 노보 합성된 유전자 라이브러리
JP6571665B2 (ja) 2013-12-28 2019-09-04 ガーダント ヘルス, インコーポレイテッド 遺伝的バリアントを検出するための方法およびシステム
EP3227464B1 (en) 2014-12-05 2022-04-20 Foundation Medicine, Inc. Multigene analysis of tumor samples
KR20220018627A (ko) 2016-02-29 2022-02-15 파운데이션 메디신 인코포레이티드 종양 돌연변이 부담을 평가하기 위한 방법 및 시스템
US9850523B1 (en) 2016-09-30 2017-12-26 Guardant Health, Inc. Methods for multi-resolution analysis of cell-free nucleic acids
CA3102460A1 (en) 2018-06-11 2019-12-19 Foundation Medicine, Inc. Compositions and methods for evaluating genomic alterations

Also Published As

Publication number Publication date
WO2012092426A1 (en) 2012-07-05
EP3564395A1 (en) 2019-11-06
AU2019201446A1 (en) 2019-03-21
AU2018211304A1 (en) 2018-08-23
AU2011352070A1 (en) 2013-07-18
AU2018279012A1 (en) 2019-01-17
KR20140024270A (ko) 2014-02-28
IL261052A (en) 2018-10-31
AU2017208342A1 (en) 2017-08-17
AU2017276313A1 (en) 2018-01-18
KR20190002733A (ko) 2019-01-08
US11136619B2 (en) 2021-10-05
AU2018203684A1 (en) 2018-06-14
JP2017077244A (ja) 2017-04-27
CA2823621A1 (en) 2012-07-05
AU2020201108B2 (en) 2022-10-20
JP2020000253A (ja) 2020-01-09
JP2014507133A (ja) 2014-03-27
JP7437429B2 (ja) 2024-02-22
CA2823621C (en) 2023-04-25
AU2020201108A1 (en) 2020-03-05
IL261052B (en) 2022-03-01
EP3225697A3 (en) 2017-11-22
EP3225697A2 (en) 2017-10-04
US20120208706A1 (en) 2012-08-16
US11118213B2 (en) 2021-09-14
US9340830B2 (en) 2016-05-17
BR112013016708A2 (pt) 2016-10-04
AU2018241163A1 (en) 2018-11-01
AU2017239591A1 (en) 2017-11-02
US20190136301A1 (en) 2019-05-09
AU2017203322A1 (en) 2017-06-08
AU2019279918A1 (en) 2020-01-16
AU2019206126A1 (en) 2019-08-08
EP2659003A1 (en) 2013-11-06
EP2659003A4 (en) 2014-05-21
US20190032118A1 (en) 2019-01-31
KR20230141927A (ko) 2023-10-10
AU2019236708A1 (en) 2019-10-17
JP2018134083A (ja) 2018-08-30
SG191818A1 (en) 2013-08-30
AU2019203300A1 (en) 2019-05-30
JP2024041951A (ja) 2024-03-27
US20230148412A1 (en) 2023-05-11
JP6054303B2 (ja) 2016-12-27
US11421265B2 (en) 2022-08-23
AU2018201701A1 (en) 2018-04-05
US20190119733A1 (en) 2019-04-25
IL290139A (en) 2022-03-01
JP2022065062A (ja) 2022-04-26
KR20190100425A (ko) 2019-08-28
KR20210131432A (ko) 2021-11-02

Similar Documents

Publication Publication Date Title
US11421265B2 (en) Optimization of multigene analysis of tumor samples
AU2022204826B2 (en) Multigene analysis of tumor samples
US20230357841A1 (en) Tm-ENHANCED BLOCKING OLIGONUCLEOTIDES AND BAITS FOR IMPROVED TARGET ENRICHMENT AND REDUCED OFF-TARGET SELECTION

Legal Events

Date Code Title Description
B11A Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing
B04C Request for examination: application reinstated [chapter 4.3 patent gazette]
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B07D Technical examination (opinion) related to article 229 of industrial property law [chapter 7.4 patent gazette]
B07G Grant request does not fulfill article 229-c lpi (prior consent of anvisa) [chapter 7.7 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 29/12/2011, OBSERVADAS AS CONDICOES LEGAIS.