BR112020026259A2 - métodos e composições para detecção de variante de linhagem germinativa - Google Patents

métodos e composições para detecção de variante de linhagem germinativa Download PDF

Info

Publication number
BR112020026259A2
BR112020026259A2 BR112020026259-5A BR112020026259A BR112020026259A2 BR 112020026259 A2 BR112020026259 A2 BR 112020026259A2 BR 112020026259 A BR112020026259 A BR 112020026259A BR 112020026259 A2 BR112020026259 A2 BR 112020026259A2
Authority
BR
Brazil
Prior art keywords
variants
germline
large number
variant
tumor
Prior art date
Application number
BR112020026259-5A
Other languages
English (en)
Inventor
Jin Hyun Ju
Original Assignee
Illumina, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Illumina, Inc. filed Critical Illumina, Inc.
Publication of BR112020026259A2 publication Critical patent/BR112020026259A2/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Abstract

MÉTODOS E COMPOSIÇÕES PARA DETECÇÃO DE VARIANTE DE LINHAGEM GERMINATIVA. Algumas modalidades dos métodos e dos sistemas fornecidos aqui se referem à chamada de variantes partindo dos dados de sequências obtidos de uma única amostra. Em algumas modalidades, uma variante somática pode ser distinguida de uma variante de linhagem germinativa com base na frequência do alelo variante em uma amostra e na localização em um genoma.

Description

“MÉTODOS E COMPOSIÇÕES PARA DETECÇÃO DE VARIANTE DE LINHAGEM GERMINATIVA” RELATÓRIO DESCRITIVO CAMPO DA INVENÇÃO
[001] Algumas modalidades dos métodos e dos sistemas fornecidos aqui se referem à chamada de variantes partindo dos dados de sequências obtidos de uma única amostra. Em algumas modalidades, uma variante somática pode ser distinguida de uma variante de linhagem germinativa com base na frequência do alelo variante de uma variante em uma amostra e sua localização em um genoma.
ANTECEDENTE DA INVENÇÃO
[002] Uma mutação no DNA é uma causa de câncer e um foco de pesquisa e tratamento de câncer. Sequenciamento de nova geração (NGS) é uma tecnologia promissora para a detecção de mutações de novo devido ao enorme número de leituras que os sequenciadores modernos podem gerar. Teoricamente, todas as mutações ou variantes em uma amostra genômica, independentemente da frequência do alelo variante (VAF) ou da região genômica, podem ser observadas quando fornecida profundidade de leitura suficiente. Entretanto, a chamada de variantes com confiança não é trivial devido ao “ruído” das leituras. Várias ferramentas de bioinformática foram desenvolvidas para descobrir variantes das leituras de sequenciamento e tais procedimentos consistem tipicamente de três componentes: processamento da leitura, mapeamento e alinhamento e chamada de variantes.
[003] Para o processamento da leitura, as bases de baixa qualidade, geralmente próximas à extremidade a 3’ das leituras e sequências exógenas tais como adaptadores de sequenciamento são aparadas das ferramentas de processamento de leitura da amostra de DNA. Em segundo lugar, as leituras limpas são mapeadas utilizando ferramentas de mapeamento e alinhamento para determinar de onde as variantes vieram em um genoma de referência e então alinhadas base-à-base. Na terceira etapa, o processo de chamada de variantes é utilizado para separar variantes reais de artefatos que se originam da preparação da biblioteca, do enriquecimento da amostra, do sequenciamento e do mapeamento/ alinhamento. Há uma necessidade constante de métodos aprimorados de chamada de variantes partindo dos dados das sequências.
SUMÁRIO DA INVENÇÃO
[004] Algumas modalidades incluem um método para identificação de variantes somáticas em um grande número de variantes, que compreende: (a) a obtenção de um grande número de variantes que compreendem variantes somáticas e variantes da linhagem germinativa; (b) a aplicação de um filtro da base de dados ao grande número de variantes, que compreende: a determinação das primeiras variantes da linhagem germinativa no grande número de variantes, em que cada uma das primeiras variantes da linhagem germinativa tem uma contagem de alelos em um primeiro conjunto de referência de variantes maior ou igual a uma contagem de alelos de limite; (c) a aplicação de um filtro de proximidade ao grande número de variantes, que compreende: (i) binning de variantes do grande número de variantes em um grande número de bins, em que as variantes localizadas na mesma região de um genoma são binned no mesmo bin, (ii) a determinação das variantes na base de dados no grande número de variantes, em que uma variante na base de dados está presente em um segundo conjunto de variantes de referência e (iii) a determinação das segundas variantes da linhagem germinativa no grande número de variantes, em que cada uma das segundas variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a segunda variante de linhagem germinativa; e (d) a determinação de variantes somáticas no grande número de variantes através da remoção das primeiras e das segundas variantes da linhagem germinativa identificadas do grande número de variantes.
[005] Em algumas modalidades, (b) e (c) são realizadas consecutivamente.
[006] Em algumas modalidades, (c) é realizada antes de (b).
[007] Em algumas modalidades, a contagem de alelos de limite é 5. Em algumas modalidades, a contagem de alelos de limite é 10.
[008] Em algumas modalidades, o primeiro e o segundo grupos de variantes de referência são o mesmo grupo de referência.
[009] Em algumas modalidades, o primeiro ou o segundo grupo de referência de variantes compreende uma base de dados de variantes para um grande número de indivíduos. Em algumas modalidades, o primeiro ou o segundo grupo de referência de variantes compreende pelo menos uma base de dados selecionada de uma base de dados de agregação do genoma (gnomAD) e uma base dados genome 1000.
[0010] Em algumas modalidades, a mesma região de um genoma está dentro do mesmo cromossomo. Em algumas modalidades, a mesma região de um genoma está dentro do mesmo braço cromossômico. Em algumas modalidades, a mesma região de um genoma está dentro da mesma citobanda cromossômica. Em algumas modalidades, a mesma região de um genoma está dentro de uma região de 10 Mb.
[0011] Em algumas modalidades, a aplicação de um filtro de proximidade compreende ainda a identificação de uma segunda variante de linhagem germinativa que tem uma frequência alélica maior ou igual a
0,9.
[0012] Em algumas modalidades, a aplicação de um filtro de proximidade compreende ainda a identificação de uma segunda variante de linhagem germinativa no grande número de variantes, em que a segunda variante de linhagem germinativa é uma variante na base de dados presente no segundo conjunto de variantes de referência.
[0013] Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de 0,05 da frequência alélica de uma segunda variante de linhagem germinativa.
[0014] Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial de uma frequência alélica de uma segunda variante de linhagem germinativa e centralizada partindo da frequência alélica de uma segunda variante de linhagem germinativa.
[0015] Em algumas modalidades, as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos cinco variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa. Em algumas modalidades, as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos dez variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
[0016] Em algumas modalidades, (a) compreende: a obtenção de dados de sequências de uma amostra biológica que compreende uma célula tumoral. Algumas modalidades também incluem o alinhamento dos dados de sequências com uma sequência de referência e a identificação de variantes nos dados de sequências.
[0017] Em algumas modalidades, a amostra biológica que compreende uma célula tumoral é selecionada de uma amostra de soro,
uma amostra de fezes, uma amostra de sangue, uma amostra de tumor. Em algumas modalidades, a amostra de tumor está fixada.
[0018] Algumas modalidades incluem um método de determinação de uma carga de mutação do tumor de um tumor, que compreende: a obtenção de dados de sequências de uma amostra biológica que compreende uma célula tumoral; a determinação de um grande número de variantes dos dados de sequências; e a determinação do número de variantes somáticas em um grande número de variantes de acordo com o método de qualquer uma das modalidades anteriores, em que o número de variantes somáticas é a carga de mutação do tumor do tumor.
[0019] Algumas modalidades incluem um método de tratamento de um tumor, que compreende: a determinação de um tumor que tem uma carga de mutação do tumor maior ou igual a 10 variantes somáticas de acordo com um método de determinação de uma carga de mutação do tumor de um tumor; e o tratamento do tumor através da administração de uma quantidade eficiente de um inibidor de ponto de verificação.
[0020] Em algumas modalidades, o tumor é selecionado do grupo que consiste de um tumor colorretal, um tumor pulmonar, um tumor endometrial, um tumor uterino, um tumor gástrico, um melanoma, um tumor de mama, um tumor pancreático, um tumor renal, um tumor de bexiga e um tumor cerebral.
[0021] Em algumas modalidades, o inibidor de ponto de verificação é selecionado do grupo que consiste de um inibidor de CTLA-4, um inibidor de PD-1 e um inibidor de PD-L1. Em algumas modalidades, o inibidor de ponto de verificação é selecionado do grupo que consiste de Ipilimumab, Nivolumab, Pembrolizumab, Spartalizumab, Atezolizumab, Avelumab e Durvalumab.
[0022] Algumas modalidades incluem um sistema eletrônico para análise dos dados de variação genética, que compreende: um módulo de informática executado em um processador e adaptado para identificar um grande número de variantes dos dados de sequências de uma amostra biológica que compreende uma célula tumoral, em que o grande número de variantes compreende variantes somáticas e variantes da linhagem germinativa; um módulo de filtro da base de dados adaptado para remover as primeiras variantes da linhagem germinativa do grande número de variantes, em que cada uma das primeiras variantes da linhagem germinativa tem uma contagem de alelos em um primeiro conjunto de referência de variantes maior ou igual a uma contagem de alelos de limite; um módulo de filtro de proximidade adaptado para remover as segundas variantes da linhagem germinativa do grande número de variantes, o módulo de filtro de proximidade compreendendo: um submódulo de binning adaptado para retornar um grande número de bins, cada bin contendo variantes do grande número de variantes localizadas na mesma região de um genoma, um submódulo de identificação adaptado para retornar variantes na base de dados no grande número de variantes, em que uma variante na base de dados está presente em um segundo conjunto de variantes de referência e um submódulo de remoção adaptado para remover as segundas variantes da linhagem germinativa do grande número de variantes, em que cada uma das segundas variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a segunda variante de linhagem germinativa; e um módulo de exibição adaptado para retornar variantes não removidas do grande número de variantes.
[0023] Em algumas modalidades, módulo de informática compreende uma ferramenta de anotação de variantes.
[0024] Em algumas modalidades, a contagem de alelos de limite é 5. Em algumas modalidades, a contagem de alelos de limite é 10.
[0025] Em algumas modalidades, o primeiro e o segundo grupos de variantes de referência são o mesmo grupo de referência.
[0026] Em algumas modalidades, o primeiro ou o segundo grupo de referência de variantes compreende uma base de dados de variantes para um grande número de indivíduos. Em algumas modalidades, o primeiro ou o segundo grupo de referência de variantes compreende pelo menos uma base de dados selecionada de uma base de dados de agregação do genoma (gnomAD) e uma base dados genome 1000.
[0027] Em algumas modalidades, a mesma região de um genoma está dentro do mesmo cromossomo. Em algumas modalidades, a mesma região de um genoma está dentro do mesmo braço cromossômico. Em algumas modalidades, a mesma região de um genoma está dentro da mesma citobanda cromossômica. Em algumas modalidades, a mesma região de um genoma está dentro de uma região de 10 Mb.
[0028] Em algumas modalidades, o submódulo de remoção é adaptado para remover uma variante que tem uma frequência alélica maior ou igual a 0,9 do grande número de variantes.
[0029] Em algumas modalidades, o submódulo de remoção é adaptado para remover uma variante na base de dados presente no segundo conjunto de variantes de referência do grande número de variantes.
[0030] Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de 0,05 da frequência alélica de uma segunda variante de linhagem germinativa.
[0031] Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial de uma frequência alélica de uma segunda variante de linhagem germinativa e centralizada partindo da frequência alélica de uma segunda variante de linhagem germinativa.
[0032] Em algumas modalidades, as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos cinco variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa. Em algumas modalidades, as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos dez variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
[0033] Em algumas modalidades, a amostra biológica que compreende uma célula tumoral é selecionada de uma amostra de soro, uma amostra de fezes, uma amostra de sangue, uma amostra de tumor. Em algumas modalidades, a amostra de tumor está fixada.
[0034] Algumas modalidades incluem um método implementado por computador para a identificação de variantes somáticas em um grande número de variantes, que compreende: a realização do método de qualquer um dos métodos anteriores.
[0035] Algumas modalidades incluem um método implementado por computador para a identificação de variantes somáticas em um grande número de variantes, que compreende: (a) o recebimento de um grande número de variantes dos dados de sequências de uma amostra biológica que compreende uma célula tumoral, o grande número de variantes compreendendo variantes somáticas e variantes da linhagem germinativa; (b) a aplicação de um filtro da base de dados ao grande número de variantes, que compreende: a criação de um índice de documentos para o grande número de variantes, a pesquisa em um primeiro conjunto de referência de variantes com o índice para identificar as primeiras variantes da linhagem germinativa no índice, em que cada uma das primeiras variantes da linhagem germinativa tem uma contagem de alelos no primeiro grupo de referência de variantes maior ou igual a uma contagem de alelos de limite e a remoção das primeiras variantes da linhagem germinativa identificadas do índice para criar um índice das primeiras variantes filtradas; (c) a aplicação de um filtro de proximidade ao índice das primeiras variantes filtradas, que compreende: (i) a criação de um grande número de bins para regiões diferentes de um genoma, (ii) binning de variantes do índice das primeiras variantes filtradas, em que as variantes localizadas na mesma região de um genoma são binned no mesmo bin, (iii) a pesquisa de um segundo grupo de referência de variantes com o índice das primeiras variantes filtradas para identificar variantes na base de dados no índice das primeiras variantes filtradas, (iii) a geração de um índice de segundas variantes da linhagem germinativa do índice das primeiras variantes filtradas através da identificação de segundas variantes da linhagem germinativa, em que cada uma das segundas variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a segunda variante de linhagem germinativa e (iv) a remoção das segundas variantes da linhagem germinativa identificadas do índice das primeiras variantes filtradas para criar um índice de variantes somáticas, identificando assim as variantes somáticas no grande número de variantes.
[0036] Em algumas modalidades, a contagem de alelos de limite é 5. Em algumas modalidades, a contagem de alelos de limite é 10.
[0037] Em algumas modalidades, o primeiro e o segundo grupos de variantes de referência são o mesmo grupo de referência.
[0038] Em algumas modalidades, o primeiro ou o segundo grupo de referência de variantes compreende uma base de dados de variantes para um grande número de indivíduos. Em algumas modalidades, o primeiro ou o segundo grupo de referência de variantes compreende pelo menos uma base de dados selecionada de uma base de dados de agregação do genoma
(gnomAD) e uma base dados genome 1000.
[0039] Em algumas modalidades, a mesma região de um genoma está dentro do mesmo cromossomo. Em algumas modalidades, a mesma região de um genoma está dentro do mesmo braço cromossômico. Em algumas modalidades, a mesma região de um genoma está dentro da mesma citobanda cromossômica. Em algumas modalidades, a mesma região de um genoma está dentro de uma região de 10 Mb.
[0040] Em algumas modalidades, a geração de um índice de segundas variantes filtradas compreende ainda a identificação de uma segunda variante de linhagem germinativa que tem uma frequência alélica maior ou igual a 0,9.
[0041] Em algumas modalidades, a geração de um índice de segundas variantes filtradas compreende ainda a identificação de uma segunda variante de linhagem germinativa no grande número de variantes, em que a segunda variante de linhagem germinativa é uma variante na base de dados presente no segundo conjunto de variantes de referência.
[0042] Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de 0,5 da frequência alélica de uma segunda variante de linhagem germinativa.
[0043] Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial de uma frequência alélica de uma segunda variante de linhagem germinativa e centralizada partindo da frequência alélica de uma segunda variante de linhagem germinativa.
[0044] Em algumas modalidades, as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos cinco variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa. Em algumas modalidades, as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos dez variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
[0045] Em algumas modalidades, a amostra biológica que compreende uma célula tumoral é selecionada de uma amostra de soro, uma amostra de fezes, uma amostra de sangue, uma amostra de tumor. Em algumas modalidades, a amostra de tumor está fixada.
BREVE DESCRIÇÃO DOS DESENHOS
[0046] A FIG. 1 representa uma modalidade de exemplo de um fluxo de trabalho que inclui a obtenção de dados de sequências, tal como um arquivo VCF, a identificação e a anotação de variantes nos dados, a identificação e a filtração de variante de linhagem germinativa e o retorno de uma tabela de variantes que indica o status das variantes.
[0047] A FIG. 2A é um gráfico que mostra a frequência do alelo variante (VAF) para inúmeras variantes de acordo com a localização cromossômica de cada variante com variantes somáticas (círculos preenchidos de preto) e variantes da linhagem germinativa (círculos preenchidos de cinza).
[0048] A FIG. 2B é um gráfico que mostra a VAF para inúmeras variantes de acordo com a localização cromossômica de cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza).
[0049] A FIG. 3 um gráfico que mostra a VAF para inúmeras variantes de acordo com a localização cromossômica para os cromossomos 1—7 para cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza) e um aumento para variantes localizadas no cromossomo 7 no qual uma variante somática determinada pelo filtro particular foi selecionada e uma faixa desenhada partindo da variante selecionada.
[0050] A FIG. 4A é um gráfico que mostra a VAF para inúmeras variantes de acordo com a localização cromossômica de cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza), filtradas com apenas um filtro da base de dados.
[0051] A FIG. 4B é um gráfico que mostra a VAF para inúmeras variantes de acordo com a localização cromossômica de cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza), filtradas com apenas um filtro da base de dados e um filtro de proximidade.
[0052] A FIG. 5 representa uma visão geral de uma modalidade de exemplo de um fluxo de trabalho que inclui a obtenção de amostras incrustadas com parafina fixadas com formalina (FFPE), a obtenção de dados de sequências e a análise dos dados de sequências.
[0053] A FIG. 6 representa uma modalidade de exemplo de um fluxo de trabalho que inclui a filtração de variantes da linhagem germinativa das variantes identificadas utilizando um filtro da base de dados e um filtro de proximidade e o cálculo de uma carga de mutação do tumor.
[0054] A FIG. 7 é um gráfico de linhas que mostra uma distribuição da contagem de variantes de linhagem germinativa remanescente após a filtração apenas com a base de dados (picos do gráfico em 3 resíduos da linhagem germinativa/Mb) e a estratégia de híbrido (picos do gráfico em aproximadamente 0 resíduos da linhagem germinativa/Mb).
[0055] A FIG. 8A é um gráfico que mostra uma comparação de carga de mutação do tumor (TMB) entre ensaios com tumor apenas e tumor/normal.
[0056] A FIG. 8B é um gráfico que mostra uma comparação de carga de mutação do tumor (TMB) entre ensaios de tumor apenas e WES tumor- normal.
DESCRIÇÃO DETALHADA
[0057] Algumas modalidades dos métodos e dos sistemas fornecidos aqui se referem à chamada de variantes partindo dos dados de sequências obtidos de uma única amostra. Em algumas modalidades, uma variante somática pode ser distinguida de uma variante de linhagem germinativa com base na frequência alélica da variante em uma amostra e na localização da variante em um genoma. Como utilizada aqui, uma “variante” pode incluir um polimorfismo dentro de uma molécula de ácido nucleico. Um polimorfismo pode incluir uma inserção, uma deleção, repetições em tandem com comprimentos variáveis, mutação de um único nucleotídeo e uma variante estrutural tal como translocação, variação do número de cópias ou uma combinação das mesmas. Como utilizada aqui, uma “variante da linhagem germinativa” pode incluir uma variante presente nas células germinativas e todas as células de um indivíduo. Como utilizada aqui, uma “variante somática” pode incluir uma variante presente em uma célula tumoral e não em outras células de um indivíduo.
[0058] Tradicionalmente, a chamada de variantes entre variantes somáticas e variantes da linhagem germinativa se baseou em uma comparação entre dados obtidos de uma amostra de tumor e dados obtidos de uma amostra normal compatível. Entretanto, a chamada de variantes tradicional requer que uma amostra compatível esteja disponível e que dois conjuntos de dados sejam obtidos. Modalidades fornecidas aqui se referem à chamada de variantes partindo dos dados de sequências obtidos de uma única amostra de um indivíduo. A utilização de uma única amostra pode reduzir a necessidade de uma amostra compatível e os custos que seriam necessários para a obtenção de dados de sequências tanto para uma amostra de tumor quanto para uma amostra normal compatível.
[0059] Algumas modalidades referem-se à obtenção de dados de sequências de uma amostra, tal como uma amostra de um indivíduo que compreende uma célula tumoral, à comparação dos dados de sequências com uma referência para identificar um grande número de variantes nos dados de sequências e à aplicação de um ou mais filtros aos variantes para identificar variantes da linhagem germinativa e variantes somáticas. Em algumas modalidades, um filtro pode incluir um filtro de proximidade. Em algumas modalidades, o filtro de proximidade inclui binning o grande número de variantes em um grande número de bins de acordo com a localização das variantes em um genoma. Algumas das variantes binned podem ser identificadas como as variantes da linhagem germinativa pela presença de variantes correspondentes em um ou mais conjuntos de variantes de referência. Uma variante binned não caracterizada pode ser determinada como sendo uma variante de linhagem germinativa se a variante binned não caracterizada tiver uma frequência alélica similar à frequência alélica de uma ou mais variantes da linhagem germinativa identificadas no mesmo bin que a variante não caracterizada. Algumas modalidades também incluem a aplicação de um filtro da base de dados para identificar variantes da linhagem germinativa. O filtro da base de dados pode identificar variantes da linhagem germinativa de acordo com uma contagem de alelos de variantes correspondentes em um ou mais conjuntos de variantes de referência. Em algumas modalidades, um filtro da base de dados e um filtro de proximidade podem ser aplicados ao grande número de variantes para identificar variantes da linhagem germinativa. Em algumas modalidades, as variantes somáticas são variantes que são identificadas como variantes da linhagem germinativa. O número de variantes somáticas pode indicar a carga de mutação do tumor de um tumor.
[0060] A carga de mutação do tumor surgiu como um biomarcador importante para seleção de terapia de câncer após estudos recentes terem mostrado uma correlação entre a carga de mutação do tumor e a eficácia das imunoterapias com inibidor de ponto de verificação. No cálculo da carga de mutação do tumor, é útil identificar e extrair por filtração variantes da linhagem germinativa. As variantes da linhagem germinativa podem incluir variantes com as quais o indivíduo nasce (ou compartilhadas entre o tumor e a célula normal), mas que são detectadas como variantes em comparação com o genoma de referência. Estas variantes não contribuem para a distinção das células tumorais das células normais e assim podem levar à superestimativa da carga de mutação do tumor se não forem filtradas corretamente. As modalidades incluem a determinação de uma carga de mutação do tumor para um tumor, a seleção de um tratamento para o tumor de acordo com a carga de mutação do tumor e a administração do tratamento a um indivíduo que necessita do mesmo.
Certos métodos
[0061] Algumas modalidades dos métodos e dos sistemas fornecidos aqui se referem a um método para identificação de uma variante somática em um grande número de variantes que compreendem variantes somáticas e variantes da linhagem germinativa. Em algumas modalidades, as variantes da linhagem germinativa podem ser filtradas do grande número de variantes utilizando um ou mais filtros. Os exemplos destes filtros incluem um filtro da base de dados e um filtro de proximidade.
[0062] Em algumas modalidades, um filtro da base de dados pode ser aplicado a um grande número de variantes. O filtro da base de dados pode ser utilizado para identificar a variante como uma variante de linhagem germinativa e remover a variante do grande número de variantes. O filtro da base de dados pode ser relacionado a uma contagem de alelos de uma variante correspondente em uma base de dados, para uma variante particular do grande número de variantes.
[0063] Para cada variante no grande número, uma base de dados de referência pode ser pesquisada em relação à variante correspondente na base de dados. Uma base de dados de referência pode incluir uma base de dados de variantes para um grande número de indivíduos. Exemplos de bases de dados úteis com as modalidades fornecidas aqui incluem uma base de dados de agregação do genoma (gnomAD), incluindo as bases de dados gnomAD exome e gnomAD genome e uma base dados genome 1000 (International Genome Sample Resource). Ver, por exemplo, Lek, M., et al., (2016) Nature 536:285-292 que é incorporado aqui como referência em sua totalidade. Uma contagem total de alelos pode ser determinada para a variante correspondente em uma ou mais bases de dados de referência. Uma contagem de alelos pode representar o número total de observações dentro de uma base de dados que uma variante é observada. Por exemplo, uma contagem de alelos de 10 em uma base de dados para uma variante correspondente denotes que a variante correspondente foi observada em pelo menos 5 amostras para variantes homozigotas ou um máximo de 10 amostras para variantes heterozigotas. Em algumas modalidades, uma contagem de alelos pode ser a contagem de alelos mais alta observada e mais de uma base de dados. Uma variante que tem uma variante correspondente com uma contagem de alelos maior ou igual a certa contagem de alelos de limite pode ser identificada como uma variante de linhagem germinativa. Em algumas modalidades, a contagem de alelos de limite pode ser maior ou igual a 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20.
[0064] Em algumas modalidades, um filtro de proximidade pode ser aplicado a um grande número de variantes. O filtro da base de dados pode ser utilizado para identificar uma variante como uma variante de linhagem germinativa e remover a variante do grande número de variantes. O filtro de proximidade pode estar relacionado à frequência alélica de certa variante do grande número de variantes, à localização da variante na região de um genoma e à proximidade da frequência alélica da variante à frequência alélica de variantes da linhagem germinativa identificadas na mesma região de um genoma. Em algumas modalidades, as variantes do grande número de variantes podem ser separadas ou binned em um grande número de bins, de forma que as variantes localizadas na mesma região de um genoma sejam separadas ou binned no mesmo bin. Em algumas modalidades, a mesma região de um genoma pode estar dentro do mesmo cromossomo, dentro do mesmo braço de um cromossomo, dentro da mesma citobanda cromossômica. Em algumas modalidades, a mesma região de um genoma pode estar dentro das mesmas 100 Mb, 50 Mb, 40 Mb, 30 Mb, 20 Mb, 10 Mb, 5 Mb, 1 Mb contíguas ou dentro de qualquer faixa entre quaisquer dois dos números anteriores.
[0065] Em algumas modalidades, o filtro de proximidade também inclui a determinação de quais variantes binned podem ser facilmente identificadas como variantes da linhagem germinativa. Por exemplo, uma variante binned pode ter uma variante correspondente presente em uma ou mais bases de dados de referência e ser identificada como uma variante de linhagem germinativa.
[0066] Em algumas modalidades, o filtro de proximidade inclui a determinação de que as variantes que têm uma frequência alélica maior ou igual a uma frequência de limite na amostra são variantes da linhagem germinativa. Em algumas destas modalidades, as variantes que têm uma frequência alélica maior ou igual a 0,7, 0,8, 0,9 ou 1,0 podem ser identificadas como variantes da linhagem germinativa.
[0067] Em algumas modalidades, o filtro de proximidade inclui a determinação de uma faixa mais próxima de uma frequência alélica para uma variante que não foi identificada como uma variante de linhagem germinativa. Uma faixa mais próxima de uma frequência alélica para uma variante pode incluir uma faixa de frequências alélicas acima e abaixo da frequência alélica da variante. Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo da frequência alélica da variante de 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 ou qualquer número dentro de uma faixa entre quaisquer dois dos números anteriores. Por exemplo, para uma variante que tem uma frequência alélica de 0,2 e uma faixa mais próxima de 0,05, o mínimo e o máximo da faixa mais próxima seriam frequências alélicas de 0,15 e 0,25, respectivamente.
[0068] Em algumas modalidades, a faixa mais próxima é determinada pelo valor de dois (n) desvios padrões de uma distribuição binomial assumindo que a evidência de suporte para a dada variante é gerada por um processo binomial. Por exemplo, para uma variante que tem uma frequência alélica (x), com uma cobertura (y), a faixa mais próxima (z) pode ser: z = n * sqrt(y * x * (1-x))/y
[0069] Por exemplo, para uma variante que tem uma frequência alélica de 0,2, uma cobertura/profundidade de sequenciamento de 100, a faixa mais próxima seria 0,08 e o mínimo e o máximo da faixa mais próxima seriam frequências alélicas de 0,12 e 0,28, respectivamente. Em algumas modalidades, a faixa mais próxima é a mais alta de 0,05 ou dois (n) desvios padrões de uma distribuição binomial da frequência alélica da variante, acima e abaixo da frequência alélica da variante.
[0070] Em algumas modalidades, uma variante pode ser identificada como uma variante de linhagem germinativa se a variante tiver uma frequência alélica dentro da faixa mais próxima de uma ou mais variantes da linhagem germinativa identificadas no mesmo bin que a variante. Em algumas modalidades, a variante pode ser identificada como uma variante de linhagem germinativa se a variante tiver uma frequência alélica dentro da faixa mais próxima de mais de 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 variantes da linhagem germinativa identificadas no mesmo bin que a variante. Em algumas modalidades, a variante pode ser identificada como uma variante de linhagem germinativa se a variante tiver uma frequência alélica dentro da faixa mais próxima de mais de 5 variantes da linhagem germinativa identificadas no mesmo bin que a variante. Por exemplo, em uma modalidade em que uma variante seria identificada como uma variante de linhagem germinativa se a variante tivesse uma frequência alélica dentro da faixa mais próxima de mais de 5 variantes da linhagem germinativa identificadas no mesmo bin que a variante: uma variante que tem uma frequência alélica de 0,2, com uma faixa mais próxima de 0,05, tendo assim uma faixa mínima de 0,15 e uma faixa máxima de 0,25 e binned em um bin representando o cromossomo 7 seria identificada como uma variante de linhagem germinativa em que mais de 5 variantes da linhagem germinativa identificadas têm frequências alélicas na faixa mais próxima da variante e binned no bin representando o cromossomo 7.
[0071] Em algumas modalidades, o filtro de proximidade identifica variantes somáticas que são variantes não identificadas como variantes da linhagem germinativa. Em algumas modalidades, o número de variantes somáticas obtidas partindo dos dados de sequenciamento de um tumor é a carga de mutação do tumor do tumor.
[0072] Em algumas modalidades, o filtro da base de dados ou o filtro de proximidade pode ser aplicado ao grande número de variantes para identificar e remover variantes da linhagem germinativa do grande número de variantes. Em algumas modalidades, o filtro da base de dados e o filtro de proximidade podem ser aplicados consecutivamente. Por exemplo, o que sai do filtro da base de dados pode ser utilizado para o que é inserido no filtro de proximidade. De modo contrário, o que sai do filtro de proximidade pode ser utilizado como o que é inserido no filtro da base de dados.
Certos sistemas eletrônicos e métodos implementados por computador
[0073] Algumas modalidades dos métodos e dos sistemas fornecidos aqui incluem um sistema eletrônico para análise dos dados de variação genética. Em algumas destas modalidades, um filtro da base de dados descrito aqui e/ou um filtro de proximidade descrito aqui pode ser aplicado aos dados de variação genética para identificar variantes da linhagem germinativa.
[0074] Algumas modalidades podem incluir um módulo de informática executado em um processador e adaptado para identificar um grande número de variantes dos dados de sequências de uma amostra biológica que compreende uma célula tumoral, em que o grande número de variantes compreende variantes somáticas e variantes da linhagem germinativa.
[0075] Algumas modalidades incluem um módulo de filtro da base de dados adaptado para remover variantes da linhagem germinativa do grande número de variantes, em que cada uma das variantes da linhagem germinativa tem uma contagem de alelos em um conjunto de variantes de referência maior ou igual a uma contagem de alelos de limite. Em algumas modalidades, a contagem de alelos de limite pode ser maior ou igual a 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20.
[0076] Algumas modalidades incluem um módulo de filtro de proximidade adaptado para remover variantes da linhagem germinativa do grande número de variantes. Em algumas modalidades, o módulo de filtro de proximidade pode incluir um submódulo de binning adaptado para retornar um grande número de bins, cada bin contendo variantes do grande número de variantes localizadas na mesma região de um genoma. Em algumas modalidades, as variantes do grande número de variantes podem ser separadas ou binned em um grande número de bins, de forma que as variantes localizadas na mesma região de um genoma sejam separadas ou binned no mesmo bin. Em algumas modalidades, a mesma região de um genoma pode estar dentro do mesmo cromossomo, dentro do mesmo braço de um cromossomo, dentro da mesma citobanda cromossômica. Em algumas modalidades, a mesma região de um genoma pode estar dentro das mesmas 100 Mb, 50 Mb, 40 Mb, 30 Mb, 20 Mb, 10 Mb, 5 Mb, 1Mb contíguas ou dentro de qualquer faixa entre quaisquer dois dos números anteriores.
[0077] Em algumas modalidades, o módulo de filtro de proximidade pode incluir um submódulo de identificação adaptado para retornar variantes na base de dados no grande número de variantes, em que uma variante na base de dados está presente em um conjunto de variantes de referência.
[0078] Em algumas modalidades, o módulo de filtro de proximidade pode incluir um submódulo de remoção adaptado para remover variantes da linhagem germinativa do grande número de variantes, em que cada uma das variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a variante da linhagem germinativa. Em algumas modalidades, o filtro de proximidade inclui a determinação de uma faixa mais próxima de uma frequência alélica para uma variante que não foi identificada como uma variante de linhagem germinativa. Em algumas modalidades, a faixa aproximada é uma faixa que tem um máximo e um mínimo da frequência alélica de uma variante de 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 ou qualquer número dentro de uma faixa entre quaisquer dois dos números anteriores. Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial da frequência alélica da variante. Em algumas modalidades, a faixa mais próxima é a maior que 0,05 ou dois (n) desvios padrões de uma distribuição binomial da frequência alélica da variante, acima e abaixo da frequência alélica da variante.
[0079] Em algumas modalidades, a variante pode ser identificada como uma variante de linhagem germinativa se a variante tiver uma frequência alélica dentro da faixa mais próxima de uma ou mais variantes da linhagem germinativa identificadas no mesmo bin que a variante. Em algumas modalidades, a variante pode ser identificada como uma variante de linhagem germinativa se a variante tiver uma frequência alélica dentro da faixa mais próxima de mais de 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 variantes da linhagem germinativa identificadas no mesmo bin que a variante. Em algumas modalidades, o submódulo de remoção é adaptado para remover uma variante que tem uma frequência alélica maior ou igual a uma frequência de limite. Em algumas destas modalidades, as variantes que têm uma frequência alélica maior ou igual a 0,7, 0,8, 0,9 ou 1,0 podem ser identificadas como variantes da linhagem germinativa. Em algumas modalidades, o submódulo de remoção é adaptado para remover uma variante na base de dados presente no conjunto de variantes de referência do grande número de variantes.
[0080] Algumas modalidades fornecidas aqui incluem métodos implementados por computador para a identificação de variantes somáticas em um grande número de variantes. Algumas destas modalidades podem incluir o recebimento de um grande número de variantes dos dados de sequências de uma amostra biológica que compreende uma célula tumoral, o grande número de variantes pode incluir variantes somáticas e variantes da linhagem germinativa.
[0081] Algumas modalidades incluem a aplicação de um filtro da base de dados ao grande número de variantes. Algumas destas modalidades incluem a criação de um índice de documentos para o grande número de variantes, pesquisando um conjunto de variantes de referência com o índice para identificar variantes da linhagem germinativa no índice. Em algumas modalidades, cada uma das variantes da linhagem germinativa tem uma contagem de alelos no conjunto de variantes de referência maior ou igual a uma contagem de alelos de limite. Em algumas modalidades, a contagem de alelos de limite pode ser maior ou igual a 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 e 20. Algumas modalidades também incluem a remoção das variantes da linhagem germinativa identificadas do índice para criar um índice das primeiras variantes filtradas.
[0082] Algumas modalidades incluem a aplicação de um filtro de proximidade ao índice das primeiras variantes filtradas. Algumas destas modalidades incluem a criação de um grande número de bins para regiões diferentes de um genoma. Algumas modalidades incluem binning de variantes do índice das primeiras variantes filtradas, em que as variantes localizadas na mesma região de um genoma são binned no mesmo bin. Em algumas modalidades, a mesma região de um genoma pode estar dentro do mesmo cromossomo, dentro do mesmo braço de um cromossomo, dentro da mesma citobanda cromossômica. Em algumas modalidades, a mesma região de um genoma pode estar dentro das mesmas 100 Mb, 50 Mb, 40 Mb, 30 Mb, 20 Mb, 10 Mb, 5 Mb, 1Mb contíguas ou dentro de qualquer faixa entre quaisquer dois dos números anteriores.
[0083] Algumas modalidades incluem a pesquisa de um conjunto de variantes de referência com o índice das primeiras variantes filtradas para identificar variantes na base de dados no índice das primeiras variantes filtradas.
[0084] Algumas modalidades incluem a geração de um índice de variantes da linhagem germinativa do índice das primeiras variantes filtradas através da identificação de variantes da linhagem germinativa. Em algumas modalidades, cada uma das variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a segunda variante de linhagem germinativa. Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo da frequência alélica da variante de 0,01, 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09 ou qualquer número dentro de uma faixa entre quaisquer dois dos números anteriores. Em algumas modalidades, a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial da frequência alélica da variante. Em algumas modalidades, a faixa mais próxima é a maior que 0,05 ou dois (n) desvios padrões de uma distribuição binomial da frequência alélica da variante, acima e abaixo da frequência alélica da variante.
[0085] Em algumas modalidades, a variante pode ser identificada como uma variante de linhagem germinativa se a variante tiver uma frequência alélica dentro de uma faixa mais próxima de uma ou mais variantes da linhagem germinativa identificadas no mesmo bin que a variante. Em algumas modalidades, a variante pode ser identificada como uma variante de linhagem germinativa se a variante tiver uma frequência alélica dentro da faixa mais próxima de mais de 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 variantes da linhagem germinativa identificadas no mesmo bin que a variante. Em algumas modalidades, a variante de linhagem germinativa pode ser identificada como uma variante que tem uma frequência alélica maior ou igual a uma frequência de limite. Em algumas destas modalidades, as variantes que têm uma frequência alélica maior ou igual a
0,7, 0,8, 0,9 ou 1,0 podem ser identificadas como variantes da linhagem germinativa.
[0086] Algumas modalidades incluem a remoção das variantes da linhagem germinativa identificadas do índice das primeiras variantes filtradas para criar um índice de variantes somáticas, identificando assim as variantes somáticas no grande número de variantes. Em algumas modalidades, o número de variantes somáticas obtido dos dados de sequenciamento de um tumor é a carga de mutação do tumor do tumor.
Métodos de tratamento
[0087] Algumas modalidades dos métodos e dos sistemas incluem métodos de tratamento de um tumor. Em algumas destas modalidades, o número de variantes somáticas presente em um tumor pode ser determinado pelos métodos e os sistemas fornecidos aqui. Por exemplo, os dados de sequências podem ser obtidos partindo de um tumor, um grande número de variantes pode ser identificado partindo dos dados de sequências e variantes da linhagem germinativa podem ser identificadas e removidas de um grande número de variantes, identificando assim as variantes somáticas no grande número de variantes. Em algumas modalidades, as variantes da linhagem germinativa podem ser identificadas e removidas do grande número de variantes através da aplicação de um ou mais de um filtro da base de dados e/ou um filtro de proximidade, identificando assim as variantes somáticas que não são removidas através da aplicação de um ou mais dos filtros. Em algumas modalidades, o número de variantes somáticas obtido dos dados de sequenciamento de um tumor é a carga de mutação do tumor do tumor. Em algumas modalidades, a carga de mutação do tumor é calculada como um número médio de variantes somáticas por região genômica, tal como, por exemplo, mutações por 50kb, 100 kb, 1 Mb, 10 Mb, 100 Mb e similares. A carga de mutação do tumor pode ser amostrada através do sequenciamento de um genoma inteiro ou de uma parte do mesmo. Por exemplo, uma parte de um genoma pode ser sequenciada através do enriquecimento em relação a uma ou mais regiões genômicas de interesse, tal como um painel gênico de tumor, um exoma inteiro, um exoma parcial e similares.
[0088] Algumas modalidades de tratamento de um tumor podem incluir determinar se um tumor tem uma carga de mutação do tumor maior ou igual a um limite de carga de mutação do tumor e colocar o tumor em contato com uma quantidade eficiente de agente terapêutico. Algumas modalidades incluem o tratamento de um indivíduo que tem um tumor e podem incluir determinar se um tumor tem uma carga de mutação do tumor maior ou igual a um limite de TMB e a administração ao indivíduo de uma quantidade eficiente de agente terapêutico. Em algumas modalidades, uma limite de carga de mutação do tumor pode ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000 ou qualquer número em uma faixa entre quaisquer dois dos números anteriores. Exemplos de agentes terapêuticos incluem agentes quimioterapêuticos. Em algumas modalidades, o agente terapêutico pode incluir um inibidor de ponto de verificação. Exemplos de inibidores de ponto de verificação incluem um inibidor de CTLA-4, um inibidor de PD-1 e um inibidor de PD-L1. Em algumas modalidades, o inibidor de ponto de verificação pode incluir Ipilimumab, Nivolumab, Pembrolizumab, Spartalizumab, Atezolizumab, Avelumab e Durvalumab. Exemplos de tumores incluem um tumor colorretal, um tumor pulmonar, um tumor endometrial, um tumor uterino, um tumor gástrico, um melanoma, um tumor de mama, um tumor pancreático, um tumor renal, um tumor de bexiga e um tumor cerebral. Mais exemplos de cânceres que podem ser tratados com os métodos e os sistemas incluídos aqui são listados na U.S. 20180218789 que é expressamente incorporada aqui como referência em sua totalidade.
Amostras
[0089] Algumas modalidades incluem a obtenção de dados de sequências de uma amostra biológica. Em algumas modalidades, uma amostra biológica pode incluir uma célula tumoral. Em algumas modalidades, uma amostra biológica pode incluir uma amostra de soro, uma amostra de fezes, uma amostra de sangue e uma amostra de tumor. Em algumas modalidades, a amostra biológica é fixada.
[0090] Em algumas modalidades, um indivíduo pode fornecer uma amostra biológica. A amostra biológica pode ser qualquer substância que é produzida pelo indivíduo. Geralmente, a amostra biológica é qualquer tecido retirado do indivíduo ou qualquer substância produzida pelo. Exemplos de amostras biológicas podem incluir sangue, plasma, saliva, fluido cerebrospinal (CSF), tecido da bochecha, urina, fezes, pele, cabelo, tecido de órgãos. Em algumas modalidades, a amostra biológica é um tumor sólido ou uma biópsia de um tumor sólido. Em algumas modalidades, a amostra biológica é uma amostra de tecido incrustada em parafina fixada em formalina (FFPE). A amostra biológica pode ser qualquer amostra biológica que compreenda ácidos nucleicos. As amostras biológicas podem ser derivadas de um indivíduo. O indivíduo pode ser um mamífero, um réptil, um anfíbio, uma ave ou um peixe. Exemplos de mamíferos incluem um ser humano, mono, orangotango, macaco, chimpanzé, bovino, suíno, equino, roedor, ave, réptil, cachorro, gato, golfinho ou outro animal. Exemplos de répteis incluem um lagarto, uma cobra, um jacaré, uma tartaruga, um crocodilo, um iguana e um cágado. Exemplos de anfíbios incluem um sapo, uma rã, um tritão e uma salamandra. Exemplos de aves incluem frangos, patos, gansos, pinguins, avestruzes, papagaios-do-mar e corujas. Exemplos peixes incluem bagre, enguias, tubarões, dourado e peixe-espada. Em algumas modalidades, o indivíduo é um ser humano.
Certos sistemas e métodos
[0091] Algumas modalidades incluem sistemas com base em computadores e métodos implementados por computadores para a realização dos métodos descritos aqui. Em algumas modalidades, os sistemas podem ser utilizados para determinar e relatar a presença ou a ausência de variantes em uma amostra, tais como variantes da linhagem germinativa e/ou variantes somáticas. O sistema pode compreender um ou mais componentes do cliente. Um ou mais componentes do cliente podem compreender uma interface para o usuário. O sistema pode compreender um ou mais componentes do servidor. Os componentes do servidor podem compreender um ou mais locais de memória. Um ou mais locais de memória podem ser configurados para receber uma entrada de dados. A entrada de dados pode compreender dados de sequenciamento. Os dados de sequenciamento podem ser gerados partindo de uma amostra de ácido nucleico de um indivíduo. O sistema pode compreender ainda um ou mais processador de computador. Um ou mais processador de computador podem ser acoplados de forma operacional a um ou mais locais de memória. Um ou mais processadores de computador podem ser programados para mapear os dados de sequenciamento em relação a uma sequência de referência. Um ou mais processadores de computador podem ser também programados para determinar a presença ou a ausência de um grande número de variantes partindo dos dados de sequenciamento. Um ou mais processadores de computador podem ser também programados para aplicar pelo menos um filtro às variantes genéticas para identificar variantes da linhagem germinativa. Exemplos de filtros incluem um filtro da base de dados e um filtro de proximidade. Um ou mais processadores de computador podem ser também programados para remover variantes da linhagem germinativa identificadas de um índice das variantes identificadas. Um ou mais processadores de computador podem ser também programados para gerar um resultado para exibição em uma tela. O resultado pode compreender um ou mais relatórios que identificam as variantes da linhagem germinativa e/ou as variantes somáticas no grande número de variantes.
[0092] Algumas modalidades dos métodos e dos sistemas podem compreender um ou mais componentes do cliente. Um ou mais componentes do cliente podem compreender um ou mais componentes de software, um ou mais componentes de hardware ou uma combinação dos mesmos. Um ou mais componentes do cliente podem acessar um ou mais serviços através de um ou mais componentes do servidor. Um ou mais serviços podem ser acessados pelo um ou mais componentes do cliente através de uma rede. “Serviços” é utilizado aqui para se referir a qualquer produto, método, função ou uso do sistema. Por exemplo, um usuário pode fazer pedido de um teste genético. O pedido pode ser feito através do um ou mais componentes do cliente do sistema e a solicitação pode ser transmitida através de uma rede para um ou mais componentes do servidor do sistema. A rede pode ser a Internet, uma internet e/ou uma extranet ou uma intranet e/ou uma extranet que está em comunicação com a Internet. Em alguns casos, a rede é uma rede de telecomunicação e/ou de dados. A rede pode incluir um ou mais servidores de computador, que podem capacitar a computação distribuída, tal como computação na nuvem. A rede, em alguns casos com o auxílio do sistema de computador, pode implementar uma rede peer-to-peer, que pode capacitar os dispositivos acoplados ao sistema de computador a se comportarem como um cliente ou um servidor.
[0093] Algumas modalidades dos sistemas podem compreender um ou mais locais de memória, tais como memória de acesso aleatório, memória somente de leitura, memória flash; unidade de armazenamento eletrônico, tal como disco rígido; interface de comunicação, tal como adaptador de rede, para comunicação com um ou mais outros sistemas e dispositivos periféricos, tal como cache, outros adaptadores de memória, de armazenamento de dados e/ou de exibição eletrônica. A memória, a unidade de armazenamento, a interface e os dispositivos periféricos estão em comunicação com a CPU através de um barramento (bus) de comunicação, tal como uma placa mãe. A unidade de armazenamento pode ser uma unidade de armazenamento de dados ou um repositor de dados para armazenamento de dados. Em um exemplo, um ou mais locais de memória podem armazenar os dados de sequenciamento recebidos.
[0094] Algumas modalidades dos métodos e dos sistemas podem compreender um ou mais processadores de computador. Um ou mais processadores de computador podem ser acoplados de forma operacional a um ou mais locais de memória, por exemplo, para acessar os dados de sequenciamento armazenados. Um ou mais processadores de computador podem implementar código que pode ser executado pela máquina para a realização dos métodos descritos aqui. Por exemplo, um ou mais processadores de computador podem executar código que pode ser lido pela máquina para mapear uma entrada de dados de sequenciamento em uma sequência de referência e/ou identificar variantes da linhagem germinativa e/ou variantes somáticas.
[0095] Algumas modalidades dos métodos e dos sistemas fornecidos aqui podem incluir código que pode ser executado pela máquina e que pode ser lido pela máquina. Em algumas destas modalidades, o código que pode ser executado pela máquina ou que pode ser lido pela máquina pode ser fornecido na forma de software. Durante o uso, o código pode ser executado pelo processador. Em alguns casos, o código pode ser recuperado da unidade de armazenamento e armazenado na memória para acesso rápido pelo processador. Em algumas modalidades, a unidade de armazenamento eletrônico pode ser excluída e as instruções que podem ser executadas pela máquina são armazenadas na memória. O código pode ser pré-compilado e configurado para uso com uma máquina que tem um processador adaptado para executar o código, pode ser compilado durante o tempo de execução ou pode ser interpretado durante o tempo de execução. O código pode ser fornecido em uma linguagem de programação que pode ser selecionada para habilitar que o código seja executado de uma maneira pré-compilada, quando compilada ou interpretada.
[0096] Algumas modalidades dos sistemas e dos métodos fornecidos aqui, tal como o sistema de computador, podem ser incorporadas na programação. Vários aspectos da tecnologia podem ser considerados como “produtos” ou “artigos de manufatura” tipicamente na forma de código que pode ser executado pela máquina (ou processador) e/ou dados associados que são carregados ou incorporados em um tipo de meio que pode ser lido pela máquina. O código que pode ser executado pela máquina pode ser armazenado em uma unidade de armazenamento eletrônico, tal como memória ou um disco rígido. Mídia do tipo “armazenamento” pode incluir qualquer ou toda a memória tangível dos computadores, processadores ou similares ou seus módulos associados, tais como várias memórias semicondutoras, drives de fita, drives de disco e similares, que podem fornecer armazenamento não transitório a qualquer momento para a programação do software. Todo ou partes do software podem ser em momentos comunicadas através da Internet ou várias outras redes de telecomunicação. Tais comunicações, por exemplo, podem habilitar o carregamento do software de um computador ou processador em outro, por exemplo, de um servidor de gerenciamento ou computador anfitrião na plataforma do computador de um servidor de aplicação. Assim, outro tipo de mídia que pode carregar os elementos do software inclui ondas ópticas, elétricas e eletromagnéticas, tais como as utilizadas através de interfaces físicas entre dispositivos locais, através de redes fixas com fio e ópticas e através de vários links aéreos. Os elementos físicos que carregam estas ondas, tais como links com fio ou sem fio, links ópticos ou similares, também podem ser considerados como mídias que carregam o software. Como utilizado aqui, a não ser que sejam restritos à mídia de “armazenamento” tangível transitória, termos tal como “meio que pode ser lido” por computador ou máquina referem-se a qualquer mídia que participa do fornecimento de instruções para um processador para execução.
[0097] Algumas modalidades dos métodos e dos sistemas divulgados aqui podem incluir ou estar em comunicação com um ou mais telas eletrônicas. A tela eletrônica pode ser parte do sistema de computador ou estar acoplada ao sistema de computador diretamente ou através da rede. O sistema de computador pode incluir uma interface com o usuário do (UI) para o fornecimento de várias características e funcionalidades divulgadas aqui. Exemplos de UIs incluem, sem limitação, interfaces gráficas com o usuário (GUIs) e interfaces com o usuário baseada na web. A UI pode fornecer uma ferramenta interativa através da qual um usuário pode utilizar os métodos e os sistemas descritos aqui. Com a finalidade de exemplo, uma UI que é imaginada aqui pode ser uma ferramenta baseada na web através da qual um profissional da saúde pode solicitar um teste genético, customizar uma lista de variantes genéticas que serão testadas e receber e ver um relatório biomédico.
[0098] Algumas modalidades dos métodos e dos sistemas divulgados aqui podem compreender bases de dados biomédicas, bases de dados genômicas, relatórios biomédicos, relatórios de doenças, análise de controle de casos e análise de descoberta de variantes raras com base nos dados e/ou na informação proveniente de uma ou mais bases de dados, um ou mais ensaios, um ou mais dados ou resultados, um ou mais resultados com base ou derivados de um ou mais ensaios, um ou mais resultados com base ou derivados de um ou mais dados ou resultados ou uma combinação dos mesmos.
EXEMPLOS Exemplo 1— Identificação de variantes somáticas por comparação de amostras
[0099] Os dados de sequências foram obtidos para uma amostra de tumor e uma amostra normal de um indivíduo. As variantes foram identificadas nos dados de sequências. As variantes da linhagem germinativa na amostra de tumor foram identificadas através da comparação das variantes presentes na amostra de tumor e não na amostra normal. A FIG. 2A é um gráfico que mostra a frequência do alelo variante (VAF) para variantes diferentes de acordo com a localização cromossômica de cada variante com variantes somáticas (círculos preenchidos de preto) e variantes da linhagem germinativa (círculos preenchidos de cinza). Este método requereu duas amostras do indivíduo.
Exemplo 2—filtração das variantes da base de dados
[00100] Os dados de sequências foram obtidos para uma amostra de tumor apenas do Exemplo 1. As variantes foram identificadas nos dados de sequências. Sucintamente, as variantes camadas de um pipeline de chamada de variantes foram anotadas utilizando uma ferramenta de anotação, Nirvana (Illumina, San Diego). Nirvana forneceu anotação em grau clínico de variantes genômicas, tais como variantes de um único nucleotídeo, variantes de vários nucleotídeos, inserções, deleções, variantes do número de cópias. A entrada no Nirvana ocorreu em um formato de chamada de variante (VCF) e o resultado era uma representação de JSON estruturada de toda anotação e informação da amostra.
[00101] Para as variantes identificadas, as contagens totais de alelos foram analisadas para certa variante na base de dados de agregação do genoma (gnomAD) exome, gnomAD genome e a base de dados 1000 genome junto com as frequências alélicas e a cobertura das variantes. Estas contagens totais de alelos representaram o número total de observação dentro da base de dados ao longo de subpopulações diferentes. Para cada variante, a contagem de alelos máxima observada em todas as três bases de dados foi obtida para levar em consideração regiões que não foram cobertas na base de dados do exoma, enquanto tirava vantagens de seu tamanho de amostra maior comparado com a base de dados de genoma. A estratégia de filtração marcou variantes com uma contagem de alelos máxima maior ou igual a 10 como variantes da linhagem germinativa potenciais. Uma contagem de alelos de 10 na base de dados para certa variante significa que esta foi observada em pelo menos 5 amostras se estas fossem todas homozigotas ou um máximo de 10 amostras se estas fossem todas heterozigotas. A FIG. 2B é um gráfico que mostra a frequência do alelo variante (VAF) para inúmeras variantes de acordo com a localização cromossômica de cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza). Isto demonstrou que a filtração apenas da base de dados, chamou erroneamente as variantes.
Exemplo 3—filtração de proximidade de variantes
[00102] Os dados de sequências foram obtidos para uma amostra de tumor apenas de um indivíduo. As variantes foram identificadas nos dados de sequências. O filtro da base de dados do Exemplo 2 foi aplicado às variantes. Um filtro de proximidade foi utilizado para filtrar adicionalmente variantes que não foram encontradas na base de dados.
[00103] O filtro de proximidade utilizou informação das variantes filtradas da base de dados em grande proximidade posicional. Para certa variante que não foi encontrada na base de dados e tinha uma frequência alélica menor que 0,9, variantes no mesmo cromossomo foram recuperadas dentro de certa faixa de frequências alélicas da variante da variante não filtrada. As variantes com uma frequência alélica maior que 90% foram marcadas como linhagem germinativa sem qualquer processamento adicional. A faixa foi determinada como o máximo de 0,05 e 2 desvios padrões de uma distribuição binomial assumindo a evidência de suporte de que certa variante é gerada por um processo binomial. Por exemplo, se a variante não filtrada tivesse uma frequência alélica de 0,2 com cobertura de 100, a faixa era a máxima entre 0,05 e 2*sqrt(100 * 0,2 * (1-0,2))/100 = 0,08, que era 0,08. Isto se traduziu em uma faixa de 0,08 em ambas as direções e todas as variantes foram recuperadas do mesmo cromossomo com frequências alélicas entre 0,12 e 0,28. Subsequentemente, o número de variantes recuperadas que excediam um limite fixo foi verificado, este foi ajustado em 5. Se o número de variantes requerido fosse satisfeito, então os presentes inventores verificavam se uma fração significativa, que foi ajustada em 0,95, daquelas variantes foi filtrada pelo filtro da base de dados. Uma variante era marcada pelo filtro de proximidade se esta satisfizesse ambas as condições. Em outras palavras, se uma variante fosse rodeada por um número suficiente de variantes no espaço de frequência alélica que foi observado na base de dados, esta também era considerada uma variante de linhagem germinativa. Este filtro removeu variantes da linhagem germinativa em regiões normais com frequências alélicas da variante esperadas em torno de 50% ou 100% e em regiões variantes com número de cópias em que a distribuição da frequência alélica pudesse ser modificada.
[00104] A FIG. 3 (painel à esquerda) é um gráfico que mostra a frequência do alelo variante (VAF) para inúmeras variantes de acordo com a localização cromossômica para os cromossomos 1—7 para cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza), filtradas com apenas um filtro da base de dados. A FIG. 3 (painel à direita) é um aumento das variantes localizadas no cromossomo 7 em que uma variante somática determinada pelo filtro particular (círculo preto) foi selecionada e uma faixa desenhada partindo da variante que abrange inúmeras variantes da linhagem germinativa determinadas pelo filtro (círculo cinzento). Uma determinação do fato da variante somática determinada pelo filtro selecionada (círculo preto) deveria ser chamada de uma variante de linhagem germinativa pode ser feita com base na proximidade da frequência alélica da variante selecionada às frequências alélicas de certo número de variantes da linhagem germinativa já identificadas.
[00105] A FIG. 4A é um gráfico que mostra a frequência do alelo variante (VAF) para inúmeras variantes de acordo com a localização cromossômica de cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza), filtradas com apenas um filtro da base de dados. A FIG. 4B é um gráfico que mostra a frequência do alelo variante (VAF) para inúmeras variantes de acordo com a localização cromossômica de cada variante com variantes somáticas determinadas pelo filtro (círculos preenchidos de preto) e variantes da linhagem germinativa determinadas pelo filtro (círculos preenchidos de cinza), filtradas com apenas um filtro da base de dados e um filtro de proximidade. A FIG. 4B mostra que certos supostos falsos positivos mostrados como variantes somáticas na FIG. 4A, foram identificados como variantes da linhagem germinativa na FIG. 4B. Por exemplo, as variantes identificadas somáticas localizadas no cromossomo 7 que têm frequências alélicas de aproximadamente 0,4 e 0,3 (FIG. 4A), foram identificadas como variantes da linhagem germinativa quando o filtro de proximidade foi aplicado (FIG. 4B).
Exemplo 4—medida da carga de mutação do tumor com sequenciamento direcionado
[00106] Este exemplo refere-se a um ensaio de sequenciamento de nova geração direcionado para a medida da carga de mutação do tumor (TMB) em amostras de tumor incrustadas em parafina fixadas em formalina (FFPE). A FIG. 5 mostra um exemplo de fluxo de trabalho para o ensaio. Os dados de sequências foram obtidos de amostras de tumor para 523 genes em um tamanho de painel de 1,94 Mb com tamanho de éxon de 1,33 Mb. O sequenciamento foi realizado com identificadores moleculares únicos (UMIs) e utilizando plataformas Illumina NextSeq™ 500/550. A análise dos dados foi realizada utilizando um pipeline para a detecção de variantes em frequências alélicas da variante (VAF) de 5%. Para a remoção do ruído da técnica, foi utilizado um algoritmo de chamada de variantes que utilizava informação proveniente dos UMIs e perfis de erro específicos para a amostra para garantir um desempenho de chamada de variantes uniforme ao longo das amostras de qualidades de FFPE diferentes. Para remover de forma acurada as variantes da linhagem germinativa dos cálculos de TMB, foi utilizada uma estratégia de híbridos que integrou a informação proveniente de bases de dados públicas em grande escala com a cobertura e a frequência do alelo variante medidas de cada variante e que era substancialmente similar ao filtro da base de dados e ao filtro de proximidade dos Exemplos anteriores.
[00107] Sucintamente, os dados de sequências foram obtidos, alinhados com uma referência e as variantes foram identificadas. As variantes da linhagem germinativa foram filtradas das variantes identificadas utilizando um filtro da base de dados e um filtro de proximidade e uma TMB foi calculada em um fluxo de trabalho substancialmente similar ao pipeline mostrado na FIG. 6. Um total de 170 pares de amostras de tumor-normal foi analisado para avaliar a filtração da linhagem germinativa e o desempenho de TMB (TABELA 1). Um subconjunto de 108 pares de amostras também foi analisado com o sequenciamento do exoma inteiro (WES).
TABELA 1 Tipo Contagem da amostra Colorretal 74 Pulmão 37 Endométrio 6 Uterino 32 Gástrico 10 Melanoma 11 TOTAL: 170
[00108] Para a remoção do ruído da técnica, o número de variantes falsas positivas em um conjunto de amostras FFPE normais (N=176) foi avaliado. Uma média de 0,63 falso positivo por amostra, independente da qualidade da amostra (R2=0,001) foi observada, com 92,6% amostras contendo ≤ 2 variantes falsas positivas (VAF<20%). Em adição, foi testado um conjunto de amostras de mistura de FFPE e linhagem de células com variantes próximo a 5% e que atingiu uma sensibilidade de 98,7%.
[00109] O desempenho de filtração da linhagem germinativa foi avaliado utilizando 170 pares de amostra de tumor/normal descritos na TABELA 1. Na filtração de variante da linhagem germinativa de variante pequena (SNV, inserção/deleção), foi atingida uma taxa de filtração total acima de 99,7% que deixou menos de 1,3 variante da linhagem germinativa em média por amostra. A adição de filtração de proximidade reduziu o número de falsos positivos significativamente, enquanto tinha apenas um efeito mínimo sobre as mutações somáticas. A FIG. 7 mostra a distribuição da contagem de variantes de linhagem germinativa remanescente após a filtração apenas com a base de dados (picos do gráfico em aproximadamente 3 resíduos de linhagem germinativa/Mb) e a estratégia de híbrido (picos do gráfico em aproximadamente 0 resíduo de linhagem germinativa/Mb).
[00110] A capacidade de reprodução da TMB foi avaliada em 8 amostras diferentes incluindo 4 linhagens de células e 4 amostras de FFPE por 3 operadores. A média e o desvio padrão (SD) de cada amostra foram calculados. A TABELA 2 lista a capacidade de reprodução da TMB em 4 linhagens de células e 4 amostras de FFPE para 12 réplicas cada.
TABELA 2 Amostra Tipo de DNA Réplica Média da TMB SD da TMB T47D Linhagem de células 12 0,9 0,7 H2228 Linhagem de células 12 7,5 0,8 HD799 Linhagem de células 12 405,0 6,8
Amostra Tipo de DNA Réplica Média da TMB SD da TMB OncoSpan Linhagem de células 12 389,1 8,4 1251 FFPE 12 0,3 0,4 4116 FFPE 11 24,9 0,7 3643 FFPE 12 7,6 1,4 4118 FFPE 12 50,5 1,5
[00111] Combinadas, as medidas da TMB geradas pelo ensaio apenas com tumor se correlacionaram altamente com estimativas geradas de amostras pareadas de ensaios de tumor/normal (R2 = 0,993, N = 169, TMB < 200 amostras apenas). As estimativas da TMB do ensaio apenas com tumor também mostraram alta correlação com os valores de TMB obtidos através do sequenciamento do exoma todo (R2 = 0,931, N = 105, WES TMB < 100 amostras apenas). A FIG. 8A mostra a comparação de TMB entre ensaios com tumor apenas e tumor/normal. A FIG. 8B mostra a comparação de TMB entre ensaios de tumor apenas e WES de tumor- normal.
[00112] Finalmente, com um limite de TMB de 10, foram demostradas uma porcentagem de concordância de positivos (PPA) de 94,74% e uma porcentagem de concordância de negativos (NPA) de 96,08%. A concordância de classificação total era de 95,37% na distinção de amostras de TMB alta e de TMB baixa. A TABELA 3 lista o desempenho de classificação de TMB.
TABELA 3
WES T/N TMB alta WES T/N TMB baixa TMB alta 54 3 TMB baixa 2 49
[00113] Os resultados acima demonstraram a capacidade do ensaio apenas para tumor com filtros de base de dados e de proximidade para medir robustamente a TMB nas amostras FFPE. Além disso, as estimativas de TMB mostraram uma correlação de alto nível com medidas baseadas no WES com alta concordância de classificação.
[00114] O termo “compreendendo” como utilizado aqui é sinônimo de “incluindo”, “contendo” ou “caracterizado por” e é inclusivo ou ilimitado e não exclui elementos ou etapas do método não citadas adicionais.
[00115] A descrição acima divulga vários métodos e materiais da presente invenção. Esta invenção é suscetível às modificações nos métodos e nos materiais, bem como alterações nos métodos e no equipamento de fabricação. Estas modificações se tornarão evidentes para os peritos na técnica partindo de uma consideração desta divulgação ou prática da invenção divulgada aqui. Consequentemente, não é pretendido que esta invenção seja limitada às modalidades específicas divulgadas aqui, mas que cubra todas as modificações e as alternativas que são abrangidas dentro do âmbito e do espírito verdadeiros da invenção.
[00116] Todas as referências citadas aqui, que incluem, mas sem limitação, pedidos de patentes publicados e não publicados, patentes e referências da literatura, são incorporadas aqui como referência em sua totalidade e dessa maneira constituem uma parte deste Relatório Descritivo. Até a extensão em que as publicações e as patentes ou pedidos de patentes incorporados como referência contradizem a divulgação contida no Relatório Descritivo, é pretendido que o Relatório Descritivo substitua e/ou tenha prevalência sobre qualquer material contraditório.

Claims (65)

REIVINDICAÇÕES
1. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, compreendendo: (a) obter um grande número de variantes que compreendem variantes somáticas e variantes da linhagem germinativa; (b) aplicar um filtro da base de dados ao grande número de variantes, que compreende: determinar as primeiras variantes da linhagem germinativa no grande número de variantes, caracterizado por que cada uma das primeiras variantes da linhagem germinativa tem uma contagem de alelos em um primeiro conjunto de referência de variantes maior ou igual a uma contagem de alelos de limite; (c) aplicar um filtro de proximidade ao grande número de variantes, que compreende: (i) binning as variantes do grande número de variantes em um grande número de bins, em que as variantes localizadas na mesma região de um genoma são binned no mesmo bin, (ii) determinar as variantes na base de dados no grande número de variantes, em que uma variante na base de dados está presente em um segundo conjunto de variantes de referência e (iii) determinar as segundas variantes da linhagem germinativa no grande número de variantes, em que cada uma das segundas variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a segunda variante de linhagem germinativa e (d) determinar variantes somáticas no grande número de variantes através da remoção das primeiras e das segundas variantes da linhagem germinativa identificadas do grande número de variantes.
2. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com a Reivindicação 1, caracterizado por que (b) e (c) são realizadas consecutivamente.
3. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com a Reivindicação 1, caracterizado por que (c) é realizada antes de (b).
4. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 3, caracterizado por que a contagem de alelos de limite é 5.
5. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com a Reivindicação 4, caracterizado por que a contagem de alelos de limite é 10.
6. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 5, caracterizado por que o primeiro e o segundo grupos de variantes de referência são o mesmo grupo de referência.
7. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 6, caracterizado por que o primeiro ou o segundo grupo de referência de variantes compreende uma base de dados de variantes para um grande número de indivíduos.
8. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 7, caracterizado por que o primeiro ou o segundo grupo de referência de variantes compreende pelo menos uma base de dados selecionada de uma base de dados de agregação do genoma (gnomAD) e uma base dados genome 1000.
9. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 8, caracterizado por que a mesma região de um genoma está dentro do mesmo cromossomo.
10. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 9, caracterizado por que a mesma região de um genoma está dentro do mesmo braço cromossômico.
11. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 10, caracterizado por que a mesma região de um genoma está dentro da mesma citobanda cromossômica.
12. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 11, caracterizado por que a mesma região de um genoma está dentro de uma região de 10 Mb.
13. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 12, caracterizado por que a aplicação de um filtro de proximidade compreende ainda a identificação de uma segunda variante de linhagem germinativa que tem uma frequência alélica maior ou igual a 0,9.
14. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 13, caracterizado por que a aplicação de um filtro de proximidade compreende ainda a identificação de uma segunda variante de linhagem germinativa no grande número de variantes, em que a segunda variante de linhagem germinativa é uma variante na base de dados presente no segundo conjunto de variantes de referência.
15. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 14, caracterizado por que a faixa mais próxima é uma faixa que tem um máximo e um mínimo de 0,05 da frequência alélica de uma segunda variante de linhagem germinativa.
16. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 15, caracterizado por que a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial de uma frequência alélica de uma segunda variante de linhagem germinativa e centralizada partindo da frequência alélica de uma segunda variante de linhagem germinativa.
17. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 16, caracterizado por que as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos cinco variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
18. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 17,
caracterizado por que as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos dez variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
19. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com qualquer uma das Reivindicações de 1 a 18, caracterizado por que (a) compreende: a obtenção de dados de sequências de uma amostra biológica que compreende uma célula tumoral.
20. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com a Reivindicação 19, caracterizado por que compreende ainda: o alinhamento dos dados de sequências com uma sequência de referência e a identificação de variantes nos dados de sequências.
21. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com a Reivindicação 19 ou 20, caracterizado por que a amostra biológica que compreende uma célula tumoral é selecionada de uma amostra de soro, uma amostra de fezes, uma amostra de sangue, uma amostra de tumor.
22. Método Para Identificar Variantes Somáticas em Grande Número de Variantes, de acordo com a Reivindicação 21, caracterizado por que a amostra de tumor está fixada.
23. Método Para Determinar Carga de Mutação de Tumor em Tumor, caracterizado por que compreende: obter dados de sequências de uma amostra biológica que compreende uma célula tumoral; determinar um grande número de variantes dos dados de sequências; e determinar o número de variantes somáticas em um grande número de variantes de acordo com o método, conforme definido em qualquer uma das Reivindicações de 1 a 22, em que o número de variantes somáticas é a carga de mutação do tumor do tumor.
24. Método de Tratamento de Tumor, caracterizado por que compreende: determinar um tumor que tem uma carga de mutação do tumor maior ou igual a 10 variantes somáticas de acordo com o método, conforme definido na Reivindicação 23; tratar o tumor através da administração de uma quantidade eficiente de um inibidor de ponto de verificação.
25. Método de Tratamento de Tumor, de acordo com a Reivindicação 24, caracterizado por que o tumor é selecionado do grupo que consiste de um tumor colorretal, um tumor pulmonar, um tumor endometrial, um tumor uterino, um tumor gástrico, um melanoma, um tumor de mama, um tumor pancreático, um tumor renal, um tumor de bexiga e um tumor cerebral.
26. Método de Tratamento de Tumor, de acordo com a Reivindicação 24 ou 25, caracterizado por que o inibidor de ponto de verificação é selecionado do grupo que consiste de um inibidor de CTLA-4, um inibidor de PD-1 e um inibidor de PD-L1.
27. Método de Tratamento de Tumor, de acordo com qualquer uma das Reivindicações de 24 a 26, caracterizado por que o inibidor de ponto de verificação é selecionado do grupo que consiste de Ipilimumab, Nivolumab, Pembrolizumab, Spartalizumab, Atezolizumab, Avelumab e Durvalumab.
28. Sistema Eletrônico Para Análise de Dados de Variação Genética, compreendendo:
um módulo de informática executado em um processador e adaptado para identificar um grande número de variantes dos dados de sequências de uma amostra biológica que compreende uma célula tumoral, caracterizado por que o grande número de variantes compreende variantes somáticas e variantes da linhagem germinativa;
um módulo de filtro da base de dados adaptado para remover as primeiras variantes da linhagem germinativa do grande número de variantes, em que cada uma das primeiras variantes da linhagem germinativa tem uma contagem de alelos em um primeiro conjunto de referência de variantes maior ou igual a uma contagem de alelos de limite;
um módulo de filtro de proximidade adaptado para remover as segundas variantes da linhagem germinativa do grande número de variantes, o módulo de filtro de proximidade compreendendo:
um submódulo de binning adaptado para retornar um grande número de bins, cada bin contendo variantes do grande número de variantes localizadas na mesma região de um genoma,
um submódulo de identificação adaptado para retornar variantes na base de dados no grande número de variantes, em que uma variante na base de dados está presente em um segundo conjunto de variantes de referência e um submódulo de remoção adaptado para remover as segundas variantes da linhagem germinativa do grande número de variantes, em que cada uma das segundas variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a segunda variante de linhagem germinativa; e um módulo de exibição adaptado para retornar variantes que deixam de ser removidas do grande número de variantes.
29. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com a Reivindicação 28, caracterizado por que o módulo de informática compreende uma ferramenta de anotação de variantes.
30. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com a Reivindicação 28 ou 29, caracterizado por que a contagem de alelos de limite é 5.
31. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com a Reivindicação 30, caracterizado por que a contagem de alelos de limite é 10.
32. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 31, caracterizado por que o primeiro e o segundo grupos de variantes de referência são o mesmo grupo de referência.
33. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 32, caracterizado por que o primeiro ou o segundo grupo de referência de variantes compreende uma base de dados de variantes para um grande número de indivíduos.
34. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 33, caracterizado por que o primeiro ou o segundo grupo de referência de variantes compreende pelo menos uma base de dados selecionada de uma base de dados de agregação do genoma (gnomAD) e uma base dados genome 1000.
35. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 34, caracterizado por que a mesma região de um genoma está dentro do mesmo cromossomo.
36. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 35, caracterizado por que a mesma região de um genoma está dentro do mesmo braço cromossômico.
37. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 36, caracterizado por que a mesma região de um genoma está dentro da mesma citobanda cromossômica.
38. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 37, caracterizado por que a mesma região de um genoma está dentro de uma região de 10 Mb.
39. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 38, caracterizado por que o submódulo de remoção é adaptado para remover uma variante que tem uma frequência alélica maior ou igual a 0,9 do grande número de variantes.
40. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 39, caracterizado por que o submódulo de remoção é adaptado para remover uma variante na base de dados presente no segundo conjunto de variantes de referência do grande número de variantes.
41. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 40, caracterizado por que a faixa mais próxima é uma faixa que tem um máximo e um mínimo de 0,05 da frequência alélica de uma segunda variante de linhagem germinativa.
42. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 41, caracterizado por que a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial de uma frequência alélica de uma segunda variante de linhagem germinativa e centralizada partindo da frequência alélica de uma segunda variante de linhagem germinativa.
43. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 42, caracterizado por que as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos cinco variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
44. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 43, caracterizado por que as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos dez variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
45. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com qualquer uma das Reivindicações de 28 a 44, caracterizado por que a amostra biológica que compreende uma célula tumoral é selecionada de uma amostra de soro, uma amostra de fezes, uma amostra de sangue, uma amostra de tumor.
46. Sistema Eletrônico Para Análise de Dados de Variação Genética, de acordo com a Reivindicação 45, caracterizado por que a amostra de tumor está fixada.
47. Método Implementado por Computador, para identificar variantes somáticas em grande número de variantes, caracterizado por que compreende: a realização do método, conforme definido em qualquer uma das Reivindicações de 1 a 22.
48. Método Implementado por Computador, para identificar variantes somáticas em grande número de variantes, compreendendo: (a) o recebimento de um grande número de variantes dos dados de sequências de uma amostra biológica que compreende uma célula tumoral, o grande número de variantes compreendendo variantes somáticas e variantes da linhagem germinativa; (b) a aplicação de um filtro da base de dados ao grande número de variantes, que compreende: a criação de um índice de documentos para o grande número de variantes, a pesquisa em um primeiro conjunto de referência de variantes com o índice para identificar as primeiras variantes da linhagem germinativa no índice, caracterizado por que cada uma das primeiras variantes da linhagem germinativa tem uma contagem de alelos no primeiro grupo de referência de variantes maior ou igual a uma contagem de alelos de limite e a remoção das primeiras variantes da linhagem germinativa identificadas do índice para criar um índice das primeiras variantes filtradas; (c) a aplicação de um filtro de proximidade ao índice das primeiras variantes filtradas, que compreende: (i) a criação de um grande número de bins para regiões diferentes de um genoma, (ii) binning as variantes do índice das primeiras variantes filtradas, em que as variantes localizadas na mesma região de um genoma são binned no mesmo bin, (iii) a pesquisa de um segundo grupo de referência de variantes com o índice das primeiras variantes filtradas para identificar variantes na base de dados no índice das primeiras variantes filtradas, (iii) a geração de um índice de segundas variantes da linhagem germinativa do índice das primeiras variantes filtradas através da identificação de segundas variantes da linhagem germinativa, em que cada uma das segundas variantes da linhagem germinativa tem uma frequência alélica dentro de uma faixa mais próxima de uma frequência alélica de pelo menos uma variante na base de dados no mesmo bin que a segunda variante de linhagem germinativa e (iv) a remoção das segundas variantes da linhagem germinativa identificadas do índice das primeiras variantes filtradas para criar um índice de variantes somáticas, identificando assim as variantes somáticas no grande número de variantes.
49. Método Implementado por Computador, de acordo com a Reivindicação 48, caracterizado por que a contagem de alelos de limite é
5.
50. Método Implementado por Computador, de acordo com a Reivindicação 49, caracterizado por que a contagem de alelos de limite é
10.
51. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 50, caracterizado por que o primeiro e o segundo grupos de variantes de referência são o mesmo grupo de referência.
52. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 51, caracterizado por que o primeiro ou o segundo grupo de referência de variantes compreende uma base de dados de variantes para um grande número de indivíduos.
53. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 52, caracterizado por que o primeiro ou o segundo grupo de referência de variantes compreende pelo menos uma base de dados selecionada de uma base de dados de agregação do genoma (gnomAD) e uma base dados genome 1000.
54. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 53, caracterizado por que a mesma região de um genoma está dentro do mesmo cromossomo.
55. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 54, caracterizado por que a mesma região de um genoma está dentro do mesmo braço cromossômico.
56. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 55, caracterizado por que a mesma região de um genoma está dentro da mesma citobanda cromossômica.
57. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 56, caracterizado por que a mesma região de um genoma está dentro de uma região de 10 Mb.
58. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 57, caracterizado por que a geração de um índice de segundas variantes filtradas compreende ainda a identificação de uma segunda variante de linhagem germinativa que tem uma frequência alélica maior ou igual a 0,9.
59. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 58, caracterizado por que a geração de um índice de segundas variantes filtradas compreende ainda a identificação de uma segunda variante de linhagem germinativa no grande número de variantes, em que a segunda variante de linhagem germinativa é uma variante na base de dados presente no segundo conjunto de variantes de referência.
60. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 59, caracterizado por que a faixa mais próxima é uma faixa que tem um máximo e um mínimo de 0,05 da frequência alélica de uma segunda variante de linhagem germinativa.
61. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 60, caracterizado por que a faixa mais próxima é uma faixa que tem um máximo e um mínimo de dois desvios padrões de uma distribuição binomial de uma frequência alélica de uma segunda variante de linhagem germinativa e centralizada partindo da frequência alélica de uma segunda variante de linhagem germinativa.
62. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 61, caracterizado por que as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos cinco variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
63. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 62, caracterizado por que as segundas variantes da linhagem germinativa têm uma frequência alélica dentro de uma proximidade de limite a uma frequência alélica de pelo menos dez variantes na base de dados no mesmo bin que a segunda variante de linhagem germinativa.
64. Método Implementado por Computador, de acordo com qualquer uma das Reivindicações de 48 a 62, caracterizado por que a amostra biológica que compreende uma célula tumoral é selecionada de uma amostra de soro, uma amostra de fezes, uma amostra de sangue, uma amostra de tumor.
65. Método Implementado por Computador, de acordo com a Reivindicação 64, caracterizado por que a amostra de tumor está fixada.
BR112020026259-5A 2018-11-01 2019-10-30 métodos e composições para detecção de variante de linhagem germinativa BR112020026259A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862754094P 2018-11-01 2018-11-01
US62/754,094 2018-11-01
PCT/US2019/058895 WO2020092591A1 (en) 2018-11-01 2019-10-30 Methods and compositions for somatic variant detection

Publications (1)

Publication Number Publication Date
BR112020026259A2 true BR112020026259A2 (pt) 2021-07-27

Family

ID=68610356

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020026259-5A BR112020026259A2 (pt) 2018-11-01 2019-10-30 métodos e composições para detecção de variante de linhagem germinativa

Country Status (12)

Country Link
US (1) US20200143905A1 (pt)
EP (1) EP3874066A1 (pt)
JP (1) JP2022511208A (pt)
KR (1) KR20210083208A (pt)
CN (1) CN112424380A (pt)
AU (1) AU2019369517A1 (pt)
BR (1) BR112020026259A2 (pt)
CA (1) CA3104004A1 (pt)
IL (1) IL279435A (pt)
MX (1) MX2020014090A (pt)
SG (1) SG11202012487WA (pt)
WO (1) WO2020092591A1 (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102427600B1 (ko) * 2021-12-14 2022-08-01 주식회사 테라젠바이오 줄기세포의 배양적응성을 판단하기 위한 체세포 변이를 선별하는 방법
US20230215513A1 (en) 2021-12-31 2023-07-06 Sophia Genetics S.A. Methods and systems for detecting tumor mutational burden

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11261494B2 (en) * 2012-06-21 2022-03-01 The Chinese University Of Hong Kong Method of measuring a fractional concentration of tumor DNA
CA2947426C (en) * 2014-04-29 2020-01-07 Illumina, Inc. Multiplexed single cell gene expression analysis using template switch and tagmentation
GB2555551A (en) 2015-07-07 2018-05-02 Farsight Genome Systems Inc Methods and systems for sequencing-based variant detection
SG10201912283RA (en) * 2015-08-28 2020-02-27 Illumina Inc Nucleic acid sequence analysis from single cells
CN107491666B (zh) * 2017-09-01 2020-11-10 深圳裕策生物科技有限公司 异常组织中单样本体细胞突变位点检测方法、装置和存储介质

Also Published As

Publication number Publication date
AU2019369517A1 (en) 2021-01-21
US20200143905A1 (en) 2020-05-07
KR20210083208A (ko) 2021-07-06
EP3874066A1 (en) 2021-09-08
JP2022511208A (ja) 2022-01-31
IL279435A (en) 2021-01-31
CA3104004A1 (en) 2020-05-07
CN112424380A (zh) 2021-02-26
MX2020014090A (es) 2021-03-09
WO2020092591A1 (en) 2020-05-07
SG11202012487WA (en) 2021-01-28

Similar Documents

Publication Publication Date Title
AU2017292854B2 (en) Methods for fragmentome profiling of cell-free nucleic acids
Steele et al. Undifferentiated sarcomas develop through distinct evolutionary pathways
CN107849612B (zh) 比对和变体测序分析管线
Pedersen et al. Somalier: rapid relatedness estimation for cancer and germline studies using efficient genome sketches
JP7340021B2 (ja) 予測腫瘍遺伝子変異量に基づいた腫瘍分類
Lee et al. Deciphering the genetic blueprint behind Holstein milk proteins and production
Li et al. AML with germline DDX41 variants is a clinicopathologically distinct entity with an indolent clinical course and favorable outcome
US20190287645A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
US20190352695A1 (en) Methods for fragmentome profiling of cell-free nucleic acids
CA3023283A1 (en) Methods of determining genomic health risk
BR112020026259A2 (pt) métodos e composições para detecção de variante de linhagem germinativa
Gu et al. Inheritance patterns of the transcriptome in hybrid chickens and their parents revealed by expression analysis
Rodney et al. A domestic cat whole exome sequencing resource for trait discovery
Quiroz-Zárate et al. Expression Quantitative Trait loci (QTL) in tumor adjacent normal breast tissue and breast tumor tissue
Berger et al. A scale-corrected comparison of linkage disequilibrium levels between genic and non-genic regions
Rosolowski et al. Massive transcriptional perturbation in subgroups of diffuse large B-cell lymphomas
RU2813655C2 (ru) Способы и композиции для обнаружения соматического варианта
Khani et al. Evolution of structural rearrangements in prostate cancer intracranial metastases
Ren et al. Gene–environment interaction identification via penalized robust divergence
US20220223227A1 (en) Machine learning techniques for identifying malignant b- and t-cell populations
Alradhi et al. Molecular genetic and clinical characteristic analysis of primary signet ring cell carcinoma of urinary bladder identified by a novel OR2L5 mutation
Dahlmann et al. A bioinformatic pipeline to identify biomarkers for metastasis formation from RNA sequencing data
Carroll et al. A chromosome-scale fishing cat reference genome for the evaluation of potential germline risk variants
Liu et al. Comprehensive statistical inference of the clonal structure of cancer from multiple biopsies
Bösherz Check for updates Chapter 1 Scoring Systems for Immunohistochemistry in Urothelial Carcinoma Mark-Sebastian Bösherz, Iryna V. Samarska, and Nadine T. Gaisa