BR112015032031B1 - Métodos e processos para avaliação não invasiva das variações genéticas - Google Patents

Métodos e processos para avaliação não invasiva das variações genéticas Download PDF

Info

Publication number
BR112015032031B1
BR112015032031B1 BR112015032031-7A BR112015032031A BR112015032031B1 BR 112015032031 B1 BR112015032031 B1 BR 112015032031B1 BR 112015032031 A BR112015032031 A BR 112015032031A BR 112015032031 B1 BR112015032031 B1 BR 112015032031B1
Authority
BR
Brazil
Prior art keywords
nucleic acid
sequences
model
portions
fetal
Prior art date
Application number
BR112015032031-7A
Other languages
English (en)
Other versions
BR112015032031A8 (pt
BR112015032031A2 (pt
Inventor
Sung K. Kim
Gregory HANNUM
Jennifer GEIS
Cosmin Deciu
Original Assignee
Sequenom, Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequenom, Inc filed Critical Sequenom, Inc
Publication of BR112015032031A2 publication Critical patent/BR112015032031A2/pt
Publication of BR112015032031A8 publication Critical patent/BR112015032031A8/pt
Publication of BR112015032031B1 publication Critical patent/BR112015032031B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6872Methods for sequencing involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Pathology (AREA)
  • Bioethics (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)

Abstract

MÉTODO PARA ESTIMAR UMA FRAÇÃO DE ÁCIDO NUCLEICO EM UMA AMOSTRA DE TESTE DE UMA MULHER GRÁVIDA. São fornecidos aqui métodos, processos, sistemas, máquinas e aparelhos para a avaliação não invasiva das variações genéticas.

Description

Pedidos de patente relacionados
[001] O pedido de patente reivindica o benefício do pedido de patente provisório US n° 61/838.048 depositado em 21 de junho de 2013, intitulado MÉTODOS E PROCESSOS PARA AVALIAÇÃO NÃO INVASIVA DE VARIAÇÕES GENÉTICAS, nomeando Sung Kim K. et al., como inventores, e designado pelo procurador registro n° SEQ-6071-PV. Todo o conteúdo do pedido anterior é aqui incorporado por referência, incluindo todos os textos, tabelas e desenhos.
Campo
[002] Tecnologia fornecida aqui se refere em parte a métodos, processos, máquinas e aparelhos para avaliação não invasiva de variações genéticas.
Fundamento
[003] Informação genética de organismos vivos (por exemplo, animais, plantas e micro-organismos) e outras formas de replicar informação genética (por exemplo, vírus) é codificada no ácido desoxirribonucleico (DNA) ou ácido ribonucleico (RNA). Informação genética é uma sucessão de nucleotídeos ou nucleotídeos modificados que representam a estrutura primária de ácidos nucleicos químicos ou hipotéticos. Em humanos, o genoma completo contém cerca de 30.000 genes localizados em vinte e quatro (24) cromossomos (ver The Human Genome, T. Strachan, BIOS Scientific Publishers, 1992). Cada gene codifica uma proteína específica que, após a expressão através de transcrição e tradução, cumpre uma função bioquímica específica dentro de uma célula viva.
[004] Muitas condições médicas são causadas por uma ou mais variações genéticas. Certas variações genéticas causam condições médicas que incluem, por exemplo, hemofilia, talassemia, distrofia muscular de Duchenne (DMD), doença de Huntington (DH), doença de Alzheimer e fibrose cística (FC) (Human Genome Mutations, D.N. Cooper e M. Krawczak, BIOS Publishers, 1993). Tais doenças genéticas podem resultar de uma adição, substituição ou deleção de um único nucleotídeo no DNA de um gene particular. Certos defeitos de nascença são causados por uma anormalidade cromossômica, também referida como uma aneuploidia, tais como Trissomia 21 (Síndrome de down), Trissomia 13 (Síndrome de patau), Trissomia 18 (Síndrome de Edward), monossomia X (Síndrome de Turner) e certas aneuploidias do cromossomo sexual, tal como síndrome de klinefelter (XXY), por exemplo. Outra variação genética é o gênero fetal que pode frequentemente ser determinado com base nos cromossomos sexuais X e Y. Algumas variações genéticas podem predispor um indivíduo a, ou causar, qualquer de um número de doenças, tais como, por exemplo, diabetes, arteriosclerose, obesidade, várias doenças autoimunes e câncer (por exemplo, colorretal, mama, ovário, pulmão).
[005] Identificação de uma ou mais variações ou variâncias genéticas pode conduzir a um diagnóstico de, ou predisposição para a determinação de uma condição médica particular. Identificação de uma variação genética pode resultar na facilitação de uma decisão médica e/ou emprego de um procedimento médico útil. Em certas modalidades, a identificação de uma ou mais variações ou variâncias genéticas envolve a análise de DNA isento de célula. DNA isento de célula (CF-DNA) é composto de fragmentos de DNA que se originam da morte celular e circulam no sangue periférico. Altas concentrações de CF-DNA podem ser indicativas de certas condições clínicas, tais como câncer, traumas, queimaduras, enfarte do miocárdio, acidente vascular cerebral, septicemia, infeção e outras doenças. Além disso, DNA fetal isento de célula (CFF-DNA) pode ser detectado na corrente sanguínea materna e usado para vários diagnósticos pré-natais não invasivos.
[006] A presença de ácido nucleico fetal no plasma materno permite o diagnóstico pré-natal não invasivo por meio da análise de uma amostra de sangue materno. Por exemplo, mudanças quantitativas de DNA fetal no plasma materno podem ser associadas com um número de desordens associadas com a gravidez, incluindo pré-eclâmpsia, trabalho de parto prematuro, hemorragia pré-parto, placentação invasiva, síndrome de Down fetal, e outras aneuploidias cromossômicas fetais. Assim, a análise do ácido nucleico fetal no plasma materno pode ser um mecanismo útil para o monitoramento do bem-estar feto-maternal.
Sumário
[007] É fornecido aqui, em certos aspectos, um método para estimar uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida, que compreende (a) obter contagens de sequências (“reads” ou fragmentos) mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, (b) ponderar, usando um microprocessador, (i) as contagens de sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas da fração fetal específica da porção de acordo com os fatores de ponderação, em que cada dos fatores de ponderação foi determinado a partir de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada uma das várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
[008] Também é fornecido aqui um método para estimar uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida, compreendendo (a) obter as contagens de sequências mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, (b)(i) ajustar, usando um microprocessador, as contagens de sequências mapeadas para cada porção de acordo com um fator de ponderação atribuído independentemente para cada porção fornecendo, desse modo, contagens ajustadas para as porções, ou (b)(ii) selecionar, usando um microprocessador, um subconjunto de porções fornecendo, desse modo, um subconjunto de contagens, em que o ajuste em (b)(i) ou a seleção em (b) (ii) está de acordo com as porções para as quais um aumento da quantidade de sequências do ácido nucleico fetal é mapeado, e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas contagens ajustadas ou o subconjunto de contagens.
[009] É também fornecido aqui um método para aumentar a precisão da estimativa de uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida, compreendendo obter as contagens de sequências mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, onde, pelo menos, um subconjunto das contagens obtido é derivado de uma região do genoma que contribui com um maior número de contagens derivada de ácido nucleico fetal em relacionamento a região de contagens de ácido nucleico fetal em relacionamento as contagens total de outra região do genoma.
[010] É também fornecido aqui um sistema, máquina ou aparelho compreendendo um ou mais microprocessadores e memória, em que a memória compreende instruções executáveis por um ou mais microprocessadores e ainda instruções executáveis por um ou mais microprocessadores estão configuradas para (a) acessar sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, (b) ponderar (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica do ácido nucleico fetal da porção de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas da fração fetal específica da porção de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado a partir de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada uma das várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
[011] É também fornecida aqui uma máquina que compreende um ou mais microprocessadores e memória, cuja memória compreende instruções executáveis por um ou mais microprocessadores e que a memória compreende sequências de nucleotídeo mapeadas para porções de um genoma de referência, cuja sequências são sequências de ácido nucleico isentas de célula circulante uma amostra de teste de uma mulher grávida, e que as instruções executáveis por um ou mais microprocessadores estão configuradas para (a) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção do ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas da fração fetal específica da porção de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada de várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras e (b) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
[012] É também fornecido aqui um meio de armazenamento legível por computador não transitório com um programa executável armazenado no mesmo, onde o programa instrui um microprocessador para executar o seguinte: (a) acessar as sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, (b) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção do ácido nucleico fetal de acordo com um fator de ponderação associado com cada porção independentemente fornecendo, desse modo, estimativas da fração fetal específica da porção de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado a partir de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada uma das várias amostras, e (ii)contagens das sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
[013] Certos aspectos da tecnologia são ainda descritos na descrição, exemplos, reivindicações e desenhos a seguir.
Breve descrição dos desenhos
[014] Os desenhos ilustram modalidades da tecnologia e não são limitativos. Para clareza e facilidade de ilustração, os desenhos não são feitos em escala e, em alguns casos, vários aspectos podem ser mostrados exagerados ou ampliados para facilitar a compreensão de modalidades particulares.
[015] Figura 1 mostra uma comparação pareada de FRS (eixo vertical esquerdo, histograma superior) e o número de éxons por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 13. As porções são mostradas na parte inferior, eixo X horizontal.
[016] Figura 2 mostra uma comparação pareada de FRS (eixo vertical esquerdo, histograma superior) e o teor de GC por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 13. As porções são mostradas na parte inferior, eixo X horizontal.
[017] Figura 3 mostra uma comparação pareada do número de éxons por porção de 50 kb (eixo vertical esquerdo, histograma superior) e o teor de GC por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 13. As porções são mostradas na parte inferior, eixo X horizontal.
[018] Figura 4 mostra uma comparação pareada de FRS (eixo vertical esquerdo, histograma superior) e o número de éxons por porção de 50 kb (eixo vertical direito, histograma inferior) para cromossomo 18. As porções são mostradas na parte inferior, eixo X horizontal.
[019] Figura 5 mostra uma comparação pareada de FRS (eixo vertical esquerdo, histograma superior) e o teor de GC por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 18. As porções são mostradas na parte inferior, eixo X horizontal.
[020] Figura 6 mostra uma comparação pareada do número de éxons por porção de 50 kb (eixo vertical esquerdo, histograma superior) e o teor de GC por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 18. As porções são mostradas na parte inferior, eixo X horizontal.
[021] Figura 7 mostra uma comparação pareada de FRS (eixo vertical esquerdo, histograma superior) e o número de éxons por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 21. As porções são mostradas na parte inferior, eixo X horizontal.
[022] Figura 8 mostra uma comparação pareada de FRS (eixo vertical esquerdo, histograma superior) e o teor de GC por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 21. As porções são mostradas na parte inferior, eixo X horizontal.
[023] Figura 9 mostra uma comparação pareada do número de éxons por porção de 50 kb (eixo vertical esquerdo, histograma superior) e o teor de GC por porção de 50 kb (eixo vertical direito, histograma inferior) para o cromossomo 21. As porções são mostradas na parte inferior, eixo X horizontal.
[024] Figura 10 mostra PERUN PAD com índices LOESS (eixo X) versus PERUN PAD com índices LOESS Z com base em porções "fetais não enriquecidas" (eixo Y) para o cromossomo 21. Os quatro quadrantes representam concordância e discordância. As faixas no quadrante são desenhadas em Z = 3. Os quadrantes inferior esquerdo e superior direito são separados por uma faixa tracejada diagonal cinza. A faixa pontilhada-tracejada é uma faixa de regressão para somente amostras não-T21. A faixa pontilhada é uma faixa de regressão para amostras T21 com base em altas porções de FRS.
[025] Figura 11 mostra PERUN PAD com índices LOESS Z (eixo X) versus PERUN PAD com índices LOESS Z com base em porções "fetais enriquecidas" (isto é, porções com alto FRS) (eixo Y) para o cromossomo 21. Os quatro quadrantes representam concordância e discordância. As faixas no quadrante são desenhadas em Z = 3. Os quadrantes inferior esquerdo e superior direito são separados por uma faixa tracejada diagonal cinza. A faixa pontilhada-tracejada é uma faixa de regressão para somente amostras não-T21. A faixa pontilhada é uma faixa de regressão para amostras T21 com base em altas porções de FRS.
[026] Figura 12 mostra um método para a determinação do comprimento do fragmento de ácido nucleico que inclui as etapas de 1) hibridização de sonda (P; linha pontilhada) para fragmento (linha cheia), 2) corte da sonda, e 3) medição do comprimento da sonda. A determinação do tamanho do fragmento é apresentada para um fragmento derivado fetal (F) e um fragmento maternalmente derivado (M).
[027] Figura 13 mostra uma distribuição de comprimentos de fragmentos de três diferentes métodos de preparação de biblioteca. Eles incluem enzimático com o limpeza de grânulo automatizada, enzimático sem limpeza de grânulo automatizada, e TRUSEQ com limpeza de grânulo automatizada. As linhas verticais representam 143 bases e tamanhos de fragmento de 166 bases.
[028] Figura 14 mostra representação do cromossomo 13 sem um filtro do tamanho do fragmento.
[029] Figura 15 mostra a representação do cromossomo 13 com um filtro de tamanho do fragmento de 150 bases.
[030] Figura 16 mostra representação do cromossomo 18 sem um filtro tamanho do fragmento.
[031] Figura 17 mostra a representação do cromossomo 18 com um filtro de tamanho do fragmento de 150 bases.
[032] Figura 18 mostra representação do cromossomo 21 sem um filtro tamanho do fragmento.
[033] Figura 19 mostra a representação do cromossomo 21 com um filtro de tamanho do fragmento de 150 bases.
[034] Figura 20 mostra a representação do cromossomo 13 (PERUN PAD com LOESS) com filtros de tamanho variável do fragmento.
[035] Figura 21 mostra a representação do cromossomo 18 (PERUN PAD com LOESS) com filtros de tamanho variável do fragmento.
[036] Figura 22 mostra a representação do cromossomo 21 (PERUN PAD com LOESS) com filtros de tamanho variável do fragmento.
[037] Figura 23 mostra uma tabela que apresenta uma descrição dos dados usados para certas análises.
[038] Figura 24 mostra uma modalidade ilustrativa de um sistema em que certas modalidades da tecnologia podem ser implementadas.
[039] Figura 25A mostra uma relação entre o FRS médio de um subconjunto de porções de Chr21 (eixo X) para os índices Z de contagens normalizadas PERUN (eixo Y) para o mesmo subconjunto de porções para amostras obtidas de mulheres grávidas com feto com trissomia 21 (indicado por um asterisco) ou feto euplóide (indicado por círculos). Cada porção no subconjunto de porções selecionadas para Figura 25A tem um FRS maior que os FRS médio determinado para todas as partes do cromossomo 21 a partir do qual contagens foram obtidas. Figura 25B mostra uma relação de estimativas da fração fetal FQA (eixo X) vs. índices Z de contagens normalizadas PERUN (eixo Y) para Chr21 obtido de mulheres grávidas com um feto com trissomia 21 (indicado por um asterisco) ou feto euplóide (indicado por círculos) para todas as porções de Chr21 das quais as contagens foram obtidas.
[040] Figura 26 mostra uma relação do teor de GC por sequência “read” (eixo X) para a função de distribuição cumulativa com base no comprimento da sequência “read” (CDF, eixo Y) para sequências da faixa indicada de comprimentos de fragmento (mostrado no inserto inferior direito) para o cromossomo 21.
[041] Figura 27 mostra uma distribuição de interceptos PERUN (eixo X) dividida em quantis (alto, médio alto, médio Baixo e baixo) de acordo com FRS por porção.
[042] Figura 28 mostra uma distribuição de erros de validação PERUN Max Cross (eixo X) dividido em quantis (Alto, Médio alto, Médio Baixo e Baixo) de acordo com FRS por porção.
[043] Figura 29 mostra uma correlação (r = 0,81, RMedSE = 1,5) das percentagens de fração fetal previstas para 19.312 amostras de teste a partir de um modelo de BFF baseado em 6000 amostras de treinamento (eixo X) em comparação a percentagens de fração fetal determinadas de níveis de cromossomo Y (ChrFF, eixo Y).
[044] Figura 30 mostra o erro de predição relativa (eixo X) para porção (isto é, porções) com alto teor de fração fetal (distribuição mostrada à esquerda) e baixo teor de fração fetal (distribuição mostrada à direita) com base em FRS. Porção com alto teor fetal têm melhor desempenho e menor erro. Índices preditivos baseiam-se em um processo de regressão de rede elástica, com bootstrapping usado para obter perfis de densidade.
[045] Figura 31 mostra quatro distribuições de coeficientes do modelo (eixo X) determinadas usando um procedimento de regressão de rede elástica em subconjuntos de porções separadas de acordo com o teor de fração fetal (por exemplo, baixo, médio-baixo, médio-alto, alto). Porção com maior teor de fração fetal tendem a produzir maiores coeficientes (positivos ou negativos).
[046] Figura 32 mostra duas distribuições para estimativas de fração fetal (eixo X) determinadas usando um método de BFF para amostras de teste masculinas e femininas. As duas distribuições substancialmente se sobrepõem. Fetos masculinos e femininos não mostram diferença na distribuição da fração fetal (teste KS P = 0,49).
Descrição detalhada
[047] São fornecidos aqui métodos para a análise de polinucleotídeos em uma mistura de ácido nucleico que incluem, por exemplo, métodos para a determinação da presença ou ausência de uma variação genética. Avaliação de uma variação genética, tal como, por exemplo, uma aneuploidia fetal, a partir de uma amostra materna tipicamente envolve o sequenciamento do ácido nucleico presente na amostra, o mapeamento das sequências em certas regiões do genoma, quantificação das sequências para a amostra, e análise da quantificação. Tais métodos frequentemente analisam diretamente o ácido nucleico na amostra e obtém sequências de nucleotídeo para todo ou substancialmente todo o ácido nucleico na amostra, o que pode ser caro e pode gerar dados supérfluos e/ou irrelevantes. Certas abordagens de separação baseadas no comprimento e/ou baseadas na sequência combinadas com certa análise baseada no comprimento e/ou baseada na sequência, no entanto, podem gerar informações específicas sobre regiões genômicas específicas, tais como, por exemplo, um cromossomo específico, e em alguns casos, podem diferenciar origens de fragmento de ácido nucleico, tal como origem materna versus fetal. Certos métodos podem incluir o uso de métodos de sequenciamento, técnicas de enriquecimento e análise baseada em comprimento. Certos métodos aqui descritos, em algumas modalidades, podem ser realizados sem determinar sequências de nucleotídeo dos fragmentos de ácido nucleico. São fornecidos aqui métodos para a análise de polinucleotídeos em uma mistura de ácido nucleico (por exemplo, a determinação da presença ou ausência de uma aneuploidia fetal) usando uma combinação de abordagens de análise e separação baseada em comprimento e/ou baseada na sequência.
[048] São também fornecidos métodos, processos e máquinas úteis para a identificação de uma variação genética. Identificar uma variação genética às vezes compreende a detecção de uma variação do número de cópia e/ou, por vezes, compreende o ajuste de um nível compreendendo uma variação do número de cópia. Em algumas modalidades, um nível é ajustado fornecendo uma identificação de uma ou mais variações genéticas ou variâncias com uma probabilidade reduzida de um diagnóstico falso negativo ou falso positivo. Em algumas modalidades, a identificação de uma variação genética por um método aqui descrito pode conduzir a um diagnóstico de, ou predisposição para a determinação de uma, uma condição médica particular. Identificando uma variação genética pode resultar em facilitar uma decisão médica e/ou empregar um procedimento médico útil.
[049] Também aqui são fornecidos sistemas, máquinas e módulos que, em algumas modalidades, executam os métodos aqui descritos.
Amostras
[050] São fornecidos aqui métodos e composições para análise do ácido nucleico. Em algumas modalidades, são analisados os fragmentos de ácidos nucleico em uma mistura de fragmentos de ácido nucleico. Uma mistura de ácido nucleico pode compreender duas ou mais espécies de fragmentos de ácido nucleico tendo sequências de nucleotídeos diferentes, comprimentos de fragmento diferentes, origens diferentes (por exemplo, origens genômicas, origem fetal vs. materna, origem em célula ou tecido, origens da amostra, origens do sujeito, e semelhante), ou combinações dos mesmos.
[051] Ácido nucleico ou uma mistura de ácido nucleico usados em métodos e aparelhos aqui descritos, frequentemente, é isolado a partir de uma amostra obtida de um sujeito. Um sujeito pode ser qualquer organismo vivo ou organismo não vivo, incluindo mas não limitado a um humano, um animal não humano, uma planta, uma bactéria, um fungo ou um protista. Qualquer animal humano ou não humano pode ser selecionado, incluindo mas não se limitando a mamíferos, répteis, aves, anfíbios, peixes, ungulados, ruminantes, bovinos (por exemplo, gado), equinos (por exemplo, cavalo), caprinos e ovinos (por exemplo, ovelha, cabra), suínos (por exemplo, porco), camelídeos (por exemplo, camelo, lhama, alpaca), macacos (por exemplo, gorila, chimpanzé), ursídeos (por exemplo, urso), aves, cão, gato, camundongo, rato, peixe, golfinho, baleia e tubarão. Um sujeito pode ser um macho ou fêmea (por exemplo, mulher, uma mulher grávida). Um sujeito pode ser qualquer idade (por exemplo, um embrião, feto, infante, criança, adulto).
[052] O ácido nucleico pode ser isolado a partir de qualquer tipo de amostra ou espécie biológica adequada (por exemplo, uma amostra de teste). Uma amostra ou amostra de teste pode ser qualquer espécie que é isolada ou obtida a partir de um sujeito ou parte do mesmo (por exemplo, um sujeito humano, uma mulher grávida, um feto). Exemplos não limitativos de espécies incluem fluido ou tecido de um sujeito, incluindo, sem limitação, sangue ou um produto derivado do sangue (por exemplo, soro, plasma, ou semelhante), sangue do cordão umbilical, vilosidades coriônicas, fluido amniótico, fluido cerebrospinal, fluido espinal, fluido de lavagem (por exemplo, bronco-alveolar, gástrico, peritoneal, dutal, ouvido, artroscópico), amostra de biopsia (por exemplo, de embrião de pré-implantação), amostra de celocentesis, células (células do sangue, células da placenta, células de embriões ou fetais, células nucleadas fetais ou vestígios celulares fetais) ou suas partes (por exemplo, mitocondrial, núcleo, extratos, ou o semelhante), lavagens do trato reprodutor feminino, urina, fezes, expectoração, saliva, muco nasal, fluido da próstata, lavagem, sémen, fluido linfático, bile, lágrimas, transpiração, leite materno, fluido da mama, ou o semelhante ou combinações dos mesmos. Em algumas modalidades, uma amostra biológica é um cotonete cervical de um sujeito. Em algumas modalidades, uma amostra biológica pode ser sangue e, por vezes, plasma ou soro. O termo "sangue" como aqui usado refere-se a uma amostra de sangue ou preparação de uma mulher grávida ou uma mulher que está sendo testada para uma possível gravidez. O termo inclui sangue total, produtos sanguíneos ou qualquer fração do sangue, tais como soro, plasma, camada leucoplaquetária, ou o semelhante, tal como convencionalmente definido. Sangue ou suas frações frequentemente compreendem nucleossomos (por exemplo, nucleossomos maternos e/ou fetais). Nucleossomos compreendem ácidos nucleicos e são, por vezes, isentos de células ou intracelular. Sangue também compreende camadas leucoplaquetárias. Camadas leucoplaquetárias são, por vezes, isoladas usando um gradiente de Ficoll. Camadas leucoplaquetárias podem compreender células brancas do sangue (por exemplo, leucócitos, células-T, células-B, plaquetas e semelhante). Em certas modalidades camadas leucoplaquetárias compreendem ácido nucleico materno e/ou fetal. O plasma sanguíneo refere-se à fração do sangue total resultante da centrifugação do sangue tratado com anticoagulantes. Soro sanguíneo refere-se à porção aquosa de fluido remanescente após uma amostra de sangue coagular. As amostras de fluido ou tecido frequentemente são coletadas de acordo com protocolos padrão que hospitais ou clínicas geralmente seguem. Para o sangue, uma quantidade adequada de sangue periférico (por exemplo, entre 3 a 40 mililitros) é frequentemente coletada e pode ser armazenada de acordo com os procedimentos padrão antes ou após a preparação. Uma amostra de fluido ou tecido a partir do qual é extraído o ácido nucleico pode ser acelular (por exemplo, isento de célula). Em algumas modalidades, uma amostra de fluido ou tecido pode conter elementos celulares ou restos celulares. Em algumas modalidades células cancerosas ou células fetais podem ser incluídas na amostra.
[053] Uma amostra é frequentemente heterogênea, pelo que significa que mais do que um tipo de espécies de ácido nucleico está presente na amostra. Por exemplo, ácido nucleico heterogêneo pode incluir, mas não está limitado a, (i) ácido nucleico derivado maternal e derivado fetal, (ii) ácido nucleico de câncer e não câncer, (iii) ácido nucleico de hospedeiro e patógeno, e mais geralmente, (IV) ácido nucleico do tipo selvagem e mutado. Uma amostra pode ser heterogênea porque mais do que um tipo de célula está presente, tal como uma célula fetal e uma célula materna, uma célula de câncer e não câncer, ou uma célula hospedeira e patogênica. Em algumas modalidades, a minoria de espécies de ácido nucleico e uma maioria das espécies de ácido nucleico estão presentes.
[054] Para aplicações de pré-natal da tecnologia aqui descrita, amostra de fluido ou tecido pode ser coletada de uma mulher com uma idade gestacional adequada para o teste, ou de uma mulher que está sendo testada para uma possível gravidez. Idade gestacional adequada pode variar de acordo com o teste de pré-natal a ser executado. Em certas modalidades, uma mulher grávida está, por vezes, no primeiro trimestre de gravidez, às vezes no segundo trimestre da gravidez, ou às vezes no terceiro trimestre de gravidez. Em certas modalidades, um fluido ou tecido é coletado de uma mulher grávida entre cerca de 1 a cerca de 45 semanas de gestação fetal (por exemplo, em 1-4, 4-8, 8-12, 12-16, 1620, 20- 24, 24-28, 28-32, 32-36, 36-40 ou 40-44 semanas de gestação fetal), e, por vezes, entre cerca de 5 a cerca de 28 semanas de gestação fetal (por exemplo, aos 6, 7, 8, 9,10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26 ou 27 semanas de gestação fetal). Em certas modalidades uma amostra de fluido ou tecido é coletada de uma mulher grávida durante ou imediatamente após (por exemplo, 0 a 72 horas depois) o parto (por exemplo, nascimento vaginal ou não vaginal (por exemplo, parto cirúrgico)).
Aquisição de amostras de sangue e extração de DNA
[055] Os métodos incluem aqui frequentemente separar, enriquecer e analisar DNA fetal encontrado no sangue materno, como um meio não invasivo para detectar a presença ou ausência de uma variação genética materna e/ou fetal e/ou para monitorar a saúde de um feto e / ou uma mulher grávida durante e às vezes após a gravidez. Desse modo, as primeiras etapas de praticar certos métodos aqui incluem frequentemente a obtenção de uma amostra de sangue de uma mulher grávida e extrair o DNA de uma amostra.
Aquisição de amostras de sangue
[056] Uma amostra de sangue pode ser obtida de uma mulher grávida com uma idade gestacional adequada para testar usando um método da presente tecnologia. A idade gestacional adequada pode variar dependendo da desordem testada como discutido abaixo. Coleta de sangue de uma mulher frequentemente é executada de acordo com o protocolo padrão que hospitais ou clínicas geralmente seguem. Uma quantidade adequada de sangue periférico, por exemplo, tipicamente entre 5 a 50 mL, frequentemente, é coletada e pode ser armazenada de acordo com o procedimento padrão antes para posterior preparação. As amostras de sangue podem ser coletadas, armazenadas ou transportadas em uma maneira que minimiza a degradação ou a qualidade do ácido nucleico presente na amostra.
Preparação de amostras de sangue
[057] Uma análise de DNA fetal encontrado no sangue materno pode ser realizada usando, por exemplo, sangue total, soro ou plasma. Os métodos para a preparação de soro ou plasma a partir de sangue materno são conhecidos. Por exemplo, o sangue de uma mulher grávida pode ser colocado em um tubo contendo EDTA ou um produto comercial especializado tal como Vacutainer SST (Becton Dickinson, Franklin Lakes, NJ) para evitar a coagulação do sangue, e, em seguida, o plasma pode ser obtido a partir de sangue total por meio de centrifugação. O soro pode ser obtido com ou sem centrifugação seguindo a coagulação do sangue. Se a centrifugação é utilizada então é tipicamente, mas não exclusivamente, conduzida a uma velocidade adequada, por exemplo, 1.500-3.000 g vezes. Plasma ou soro pode ser submetido a etapas de centrifugação adicional antes de ser transferido para um novo tubo para extração de DNA.
[058] Em adição à porção acelular do sangue total, o DNA também pode ser recuperado a partir da fração celular, enriquecida na camada leucoplaquetária, que pode ser obtida seguindo a centrifugação de uma amostra de sangue total de uma mulher e a remoção do plasma.
Extração do DNA
[059] Existem vários métodos conhecidos para a extração de DNA a partir de uma amostra biológica incluindo o sangue. Os métodos gerais de preparação de DNA (por exemplo, descritos por Sambrook e Russell, Molecular Cloning: A Laboratory Manual 3ed, 2001) podem ser seguidos; vários reagentes ou kits disponíveis comercialmente, tais como kit de ácido nucleico circulante QIAamp da Qiagen, mini kit de DNA QIAamp ou mini kit de DNA do sangue QiAmp (Qiagen, Hilden, Alemanha), kit de isolamento de DNA de sangue GenomicPrep™ (Promega, Madison, Wis.), e kit de purificação de DNA do sangue genômico GFX™ (Amersham, Piscataway, NJ), também podem ser usados para obter o DNA a partir de uma amostra de sangue de uma mulher grávida. Podem também ser utilizadas combinações de mais do que um desses métodos.
[060] Em algumas modalidades, a amostra pode primeiro ser enriquecida ou relativamente enriquecida como ácido nucleico fetal por um ou mais métodos. Por exemplo, a discriminação do DNA materno e fetal pode ser realizada usando as composições e processos da presente tecnologia sozinhos ou em combinação com outros fatores de discriminação. Exemplos destes fatores incluem, mas não estão limitados a diferenças de um único nucleotídeo entre cromossomo X e Y, sequências específicas do cromossomo Y, polimorfismos localizados em outro local no genoma, diferenças de tamanho entre DNA materno e fetal e diferenças no padrão de metilação entre os tecidos materno e fetal.
[061] Outros métodos para o enriquecimento de um extrato de uma espécie particular de ácido nucleico são descritos no pedido de patente PCT número PCT/US07/69991, depositado em 30 de maio de 2007, pedido de patente PCT número PCT/US2007/071.232, depositado em 15 de junho de 2007, pedidos provisórios US de números 60/968.876 e 60/968.878 (depositado pelo requerente), (Pedido de Patente PCT número PCT/EP05/012.707, depositado em 20 de Novembro de 28 de 2005), que são todos aqui incorporados por referência. Em certas modalidades, o ácido nucleico materno é seletivamente removido (ou parcialmente, substancialmente, completamente ou quase completamente) da amostra.
[062] Os termos "ácido nucleico" e "molécula de ácido nucleico" podem ser usados indiferentemente ao longo da invenção. Os termos referem-se a ácidos nucleicos de qualquer composição, tal como o DNA (por exemplo, DNA complementar (DNAc), DNA genômico (DNAg) e semelhante), RNA (por exemplo, RNA mensageiro (RNAm), RNA inibitório curto (siRNA), RNA ribossomal (RNAr), RNAt, microRNA, RNA altamente expresso pelo feto ou placenta, e semelhante), e/ou análogos de DNA ou RNA (por exemplo, contendo análogos de base, análogos de açúcar e/ou uma estrutura não nativa e semelhante), híbridos de RNA/DNA e ácidos nucleicos de poliamida (PNAs), todos os quais podem estar na forma de fita simples ou fita dupla, e, a menos que limitado de outra forma, podem abranger os análogos conhecidos de nucleotídeos naturais que possam funcionar de um modo semelhante como os nucleotídeos que ocorrem naturalmente. Um ácido nucleico pode ser, ou pode ser de um plasmídeo, fago, sequência autonomamente replicativa (ARS), centrômero, cromossomo artificial, cromossomo, ou outro ácido nucleico capaz de se replicar ou de ser replicado in vitro ou em uma célula hospedeira, uma célula, um núcleo de célula ou citoplasma de uma célula, em certas modalidades. Um molde de ácido nucleico em algumas modalidades pode ser um único cromossomo (por exemplo, uma amostra de ácido nucleico pode ser de um cromossomo de uma amostra obtida a partir de um organismo diplóide). A menos que especificamente limitado, o termo engloba ácidos nucleicos contendo análogos conhecidos de nucleotídeos naturais que têm propriedades aglutinantes semelhantes como o ácido nucleico de referência e são metabolizados de forma semelhante aos nucleotídeos de ocorrência natural. Salvo indicação em contrário, uma sequência de ácido nucleico particular abrange também implicitamente variantes modificadas de forma conservadora da mesma (por exemplo, substituições de códons degenerados), alelos, ortólogos, polimorfismos de nucleotídeo único (SNPs), e sequências complementares, desse modo como a sequência indicada explicitamente. Especificamente, substituições de códon degenerado podem ser obtidas através da geração de sequências nas quais a terceira posição de um ou mais códons selecionados (ou todos) é substituída por resíduos desoxi- inosina e/ou de base misturada. O termo ácido nucleico é usado alternadamente com o locus, gene, DNAc, e RNAm codificado por um gene. O termo pode também incluir, como equivalentes, derivados, variantes e análogos de RNA ou DNA sintetizado a partir de análogos de nucleotídeo, polinucleotídeos de fita simples ("sentido" ou "antessentido”, de fita “+” ou fita “-”, quadro legível “adiante” ou quadro legível “reverso”) e de fita dupla. O termo "gene" significa o segmento de DNA envolvido na produção de uma cadeia de polipeptídeo; ele inclui regiões que precedem e seguem a região de codificação (líder e reboque) envolvidas na transcrição/tradução do produto genético e a regulação da transcrição/tradução, bem como sequências intervenientes (íntrons) entre segmentos de codificação individuais (éxons). Desoxirribonucleotídeos incluem desoxiadenosina, desoxicitidina, desoxiguanosina e desoxitimidina. Para RNA, a base citosina é substituída por uracila. Um molde de ácido nucleico pode ser preparado usando um ácido nucleico obtido a partir de um sujeito como um modelo.
Isolamento e Processamento do ácido nucleico
[063] O ácido nucleico pode ser derivado de uma ou mais fontes (por exemplo, células, soro, plasma, camada leucoplaquetária, fluido linfático, pele, sujeira, e semelhante) através de métodos conhecidos na técnica. Qualquer método adequado pode ser usado para isolar, extrair e/ou purificar DNA a partir de uma amostra biológica (por exemplo, a partir de sangue ou um produto derivado de sangue), exemplos não limitativos dos quais incluem os métodos de preparação de DNA (por exemplo, descrito por Sambrook e Russell, Molecular Cloning: A Laboratory Manual 3d ed, 2001), diversos reagentes ou kits disponíveis comercialmente, tais como kit de ácido nucleico circulante QIAamp da Qiagen, mini kit de DNA QIAamp ou mini kit de DNA do sangue QiAmp (Qiagen, Hilden, Alemanha), kit de isolamento de DNA do sangue GenomicPrep™ (Promega, Madison, Wis.), e kit de purificação de DNA do sangue genômico GFX™ (Amersham, Piscataway, NJ), o semelhante ou combinações dos mesmos.
[064] Procedimentos e reagentes de lise celular são conhecidos na técnica e podem, geralmente, ser realizados por métodos de lise química (por exemplo, detergente, soluções hipotônicas, procedimentos enzimáticos, e semelhante, ou combinação dos mesmos), física (por exemplo, prensa francesa, sonicação e semelhante) ou eletrolítica. Qualquer procedimento de lise adequado pode ser usado. Por exemplo, métodos químicos geralmente empregam agentes de lise para romper células e extrair os ácidos nucleicos das células seguido de tratamento com sais caotrópicos. Métodos físicos, tais como congelamento/descongelamento seguido por moagem, o uso de prensas de células e semelhante são também úteis. Procedimentos de lise de elevado teor de sal são também comumente usados. Por exemplo, pode ser usado um procedimento de lise alcalina. O último procedimento tradicionalmente incorpora o uso de soluções de fenol- clorofórmio, e um procedimento livre de fenol-clorofórmio alternativo envolvendo três soluções que podem ser utilizadas. Nos últimos processos, uma solução pode conter 15 mM de Tris, pH 8,0; 10 mM de EDTA e 100 ug/mL de RNAase A; uma segunda solução pode conter NaOH a 0,2 N e SDS a 1%; e uma terceira solução pode conter KOAc a 3M, pH 5,5. Estes procedimentos podem ser encontrados em Current Protocols in Molecular Biology, John Wiley & Sons, Nova Iorque, 6.3.16.3.6 (1989), aqui incorporado na sua totalidade.
[065] O ácido nucleico pode ser isolado em um ponto de tempo diferente em comparação com outro ácido nucleico, em que cada uma das amostras é da mesma fonte ou diferente. Um ácido nucleico pode ser de uma biblioteca de ácido nucleico, tal como uma biblioteca de DNAc ou RNA, por exemplo. Um ácido nucleico pode ser um resultado da purificação de ácido nucleico ou isolamento e/ou amplificação de moléculas de ácido nucleico da amostra. O ácido nucleico fornecido para processos aqui descritos pode conter o ácido nucleico de uma amostra ou de duas ou mais amostras (por exemplo, de 1 ou mais, 2 ou mais, 3 ou mais, 4 ou mais, 5 ou mais, 6 ou mais, 7 ou mais, 8 ou mais, 9 ou mais, 10 ou mais, 11 ou mais, 12 ou mais, 13 ou mais, 14 ou mais, 15 ou mais, 16 ou mais, 17 ou mais, 18 ou mais, 19 ou mais, ou 20 ou mais amostras).
[066] Os ácidos nucleicos podem incluir ácido nucleico extracelular em certas modalidades. O termo "ácido nucleico extracelular", como aqui usado, pode referir-se ao ácido nucleico isolado de uma fonte tendo substancialmente nenhuma célula e é também referido como ácido nucleico "isento de célula", "ácido nucleico isento de célula circulante" (por exemplo, fragmentos de CCF) e/ou "ácido nucleico isento de célula circulante". Ácido nucleico extracelular pode estar presente em e obtido de sangue (por exemplo, do sangue de uma mulher grávida). Ácido nucleico extracelular frequentemente não inclui células detectáveis e pode conter elementos celulares ou restos celulares. Exemplos não limitativos de fontes acelulares de ácido nucleico extracelular são sangue, plasma sanguíneo, soro sanguíneo e urina. Como aqui usado, o termo "obter ácido nucleico da amostra circulante isenta de célula "inclui a obtenção de uma amostra diretamente (por exemplo, coletar uma amostra, por exemplo, uma amostra de teste) ou obter uma amostra a partir de outra que tem coletado uma amostra. Sem ser limitado pela teoria, o ácido nucleico extracelular pode ser um produto de decomposição celular e apoptose celular, o que proporciona uma base para o ácido nucleico extracelular frequentemente ter uma série de comprimentos através de um espectro (por exemplo, uma "escada").
[067] Ácido nucleico extracelular pode incluir diferentes espécies de ácido nucleico, e, portanto, é aqui referido como "heterogêneos", em certas modalidades. Por exemplo, soro sanguíneo ou plasma de uma pessoa que tenha câncer pode incluir ácido nucleico de células cancerosas e ácido nucleico de células não cancerígenas. Em outro exemplo, o soro ou plasma do sangue de uma mulher grávida pode incluir ácido nucleico materno e o ácido nucleico fetal. Em alguns casos, o ácido nucleico fetal, por vezes, é de cerca de 5% a cerca de 50% do ácido nucleico total (por exemplo, cerca de 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30,31, 32, 33, 34, 35, 36, 37, 38,39,40,41,42,43, 44, 45, 46, 47, 48, ou 49% do ácido nucleico total é ácido nucleico fetal). Em algumas modalidades, a maior parte do ácido nucleico do ácido nucleico fetal é de um comprimento de cerca de 500 pares de bases ou menos (por exemplo, cerca de 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 ou 100% de ácido nucleico fetal é de um comprimento de cerca de 500 pares de bases ou menos). Em algumas modalidades, a maior parte do ácido nucleico do ácido nucleico fetal é de um comprimento de cerca de 250 pares de bases ou menos (por exemplo, cerca de 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 ou 100% de ácido nucleico fetal é de um comprimento de cerca de 250 pares de bases ou menos). Em algumas modalidades, a maior parte do ácido nucleico do ácido nucleico fetal é de um comprimento de cerca de 200 pares de bases ou menos (por exemplo, cerca de 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 ou 100% de ácido nucleico fetal é de um comprimento de cerca de 200 pares de bases ou menos). Em algumas modalidades, a maior parte do ácido nucleico do ácido nucleico fetal é de um comprimento de cerca de 150 pares de bases ou menos (por exemplo, cerca de 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 ou 100% de ácido nucleico fetal é de um comprimento de cerca de 150 pares de bases ou menos). Em algumas modalidades, a maior parte do ácido nucleico do ácido nucleico fetal é de um comprimento de cerca de 100 pares de bases ou menos (por exemplo, cerca de 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 ou 100% de ácido nucleico fetal é de um comprimento de cerca de 100 pares de bases ou menos). Em algumas modalidades, a maior parte do ácido nucleico do ácido nucleico fetal é de um comprimento de cerca de 50 pares de bases ou menos (por exemplo, cerca de 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 ou 100% de ácido nucleico fetal é de um comprimento de cerca de 50 pares de bases ou menos). Em algumas modalidades, a maior parte do ácido nucleico do ácido nucleico fetal é de um comprimento de cerca de 25 pares de bases ou menos (por exemplo, cerca de 80, 85, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 ou 100% de ácido nucleico fetal é de um comprimento de cerca de 25 pares de bases ou menos).
[068] O ácido nucleico pode ser fornecido para a realização de métodos aqui descritos sem processamento da amostra (s) contendo o ácido nucleico, em certas modalidades. Em algumas modalidades, o ácido nucleico é fornecido para a realização de métodos aqui descritos, após o processamento da amostra (s) contendo o ácido nucleico. Por exemplo, um ácido nucleico pode ser extraído, isolado, purificado, parcialmente purificado ou amplificado da amostra (s). O termo "isolado", tal como aqui usado refere-se ao ácido nucleico removido do seu ambiente original (por exemplo, o ambiente natural se for de ocorrência natural, ou uma célula hospedeira se expressa exogenamente), e, portanto, é alterada pela intervenção humana (por exemplo, "pela mão do homem") do seu ambiente original. O termo "ácido nucleico isolado", como aqui usado, pode referir-se a um ácido nucleico removido de um sujeito (por exemplo, um sujeito humano). Um ácido nucleico isolado pode ser fornecido com menos componentes de ácido não-nucleico (por exemplo, proteínas, lipídeos) do que a quantidade de componentes presentes em uma amostra a fonte. Uma composição compreendendo ácido nucleico isolado pode ser de cerca de 50% a mais de 99% isento ácido livre de componentes de ácido não-nucleico. Uma composição compreendendo ácido nucleico isolado pode ser de cerca de 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou mais que 99% isento de componentes de ácido não-nucleico. O termo "purificado" tal como aqui usado pode referir-se a um ácido nucleico, desde que contenha menos quantidade de componentes de ácido não-nucleico (por exemplo, proteína, lipídeo, carboidrato) do que a quantidade de componentes de ácido não-nucleico presentes antes de submeter o ácido nucleico a um processo de purificação. Uma composição compreendendo ácido nucleico purificado pode ser de cerca de 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou mais do que 99% isento de outros componentes de ácido não- nucleico. O termo "purificado" tal como aqui usado pode referir-se a um ácido nucleico, desde que contenha menos espécies de ácido nucleico do que na fonte da amostra a partir da qual o ácido nucleico é derivado. Uma composição compreendendo ácido nucleico purificado pode ser cerca de 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou mais do que 99% isento de outras espécies de ácido nucleico Por exemplo, ácido nucleico fetal pode ser purificado a partir de uma mistura que compreende ácido nucleico materno e fetal. Em certos exemplos, nucleossomos que compreendem pequenos fragmentos de ácido nucleico fetal podem ser purificados a partir de uma mistura de complexos de maior nucleossomo compreendendo fragmentos maiores de ácido nucleico materno.
[069] Em algumas modalidades ácidos nucleicos são fragmentados ou clivados antes, durante ou depois de um método aqui descrito. Ácido nucleico fragmentado ou clivado pode ter um comprimento nominal, médio ou baixo de cerca de 5 a cerca de 10.000 pares de bases, cerca de 100 a cerca de 1000 pares de bases, cerca de 100 a cerca de 500 pares de bases, ou cerca de 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000 ou 9000 pares de bases. Os fragmentos podem ser gerados por um método adequado conhecido na técnica, e o comprimento médio, baixo ou nominal de fragmentos de ácido nucleico pode ser controlado pela seleção de um procedimento de geração de fragmento adequado.
[070] Os fragmentos de ácido nucleico podem conter as sequências de nucleotídeos que se sobrepõem, e tais sequências que se sobrepõem podem facilitar a construção de uma sequência de nucleotídeo do ácido nucleico contrário não fragmentado, ou seu segmento. Por exemplo, um fragmento pode ter subsequências x e y e outro fragmento pode ter subsequências y e z, em que x, y e z são sequências de nucleotídeo que podem ser de 5 nucleotídeos de comprimento ou mais. Sequência de sobreposição y pode ser utilizada para facilitar a construção da sequência de nucleotídeo x-y-z no ácido nucleico de uma amostra em certas modalidades. O ácido nucleico pode ser parcialmente fragmentado (por exemplo, a partir de uma reação de clivagem específica incompleta ou terminado) ou totalmente fragmentado em certas modalidades.
[071] Em algumas modalidades, ácido nucleico é fragmentado ou clivado por um método adequado, exemplos não limitativos dos quais incluem métodos físicos (por exemplo, cisalhamento, por exemplo, sonicação, prensa francesa, calor, irradiação de UV, o semelhante), processos enzimáticos (por exemplo, agentes de clivagem enzimática (por exemplo, uma nuclease adequada, uma enzima de restrição adequada, uma enzima de restrição sensível a metilação adequada)), métodos químicos (por exemplo, alquilação, DMS, piperidina, hidrólise ácida, hidrólise básica, calor, semelhante, ou suas combinações), processos descritos na publicação de pedido de patente US n° 20050112590, o semelhante ou combinações dos mesmos.
[072] Tal como aqui usado, "fragmentação" ou "clivagem" refere-se a um procedimento ou condições em que uma molécula de ácido nucleico, tal como um modelo de gene da molécula de ácido nucleico ou seu produto amplificado, pode ser separada em duas ou mais moléculas de ácido nucleico menores. Tal fragmentação ou clivagem pode ser específica de sequência, específica da base, ou não-específica, e pode ser realizada por qualquer um de uma variedade de métodos, reagentes ou condições, incluindo, por exemplo, fragmentação química, enzimática, física.
[073] Como aqui usado, "fragmentos", "produtos de clivagem", "produtos clivados" ou suas variantes gramaticais destes, refere-se a moléculas de ácido nucleico resultantes de uma fragmentação ou clivagem de um modelo de gene da molécula de ácido nucleico ou produto amplificado da mesma. Embora tais fragmentos ou produtos clivados possam se referir a todas as moléculas de ácido nucleico resultantes de uma reação de clivagem, tipicamente tais fragmentos ou produtos clivados referem-se somente a moléculas de ácido nucleico resultantes de uma fragmentação ou a clivagem de um modelo de gene da molécula de ácido nucleico ou segmento de um produto amplificado contendo a mesma sequência de nucleotídeo correspondente de um gene da molécula modelo de ácido nucleico. O termo "amplificação", tal como aqui usado, refere-se a submeter um ácido nucleico alvo em uma amostra a um processo que linearmente ou exponencialmente gera ácidos nucleicos de amplicon tendo a mesma sequência de nucleotídeo ou substancialmente a mesma que o ácido nucleico alvo, ou seu segmento.
[074] Em certas modalidades, o termo "amplificado" refere-se a um método que compreende uma reação em cadeia de polimerase (PCR). Por exemplo, um produto amplificado pode conter um ou mais nucleotídeos a mais do que a região de nucleotídeo amplificada de uma sequência modelo de ácido nucleico (por exemplo, um iniciador pode conter nucleotídeos "extras", tal como uma sequência de iniciação da transcrição, em adição aos nucleotídeos complementares a um gene da molécula modelo de ácido nucleico, resultando em um produto amplificado contendo nucleotídeos "extras" ou nucleotídeos não correspondentes à região de nucleotídeo amplificada do gene da molécula de ácido nucleico modelo). Por conseguinte, os fragmentos podem incluir fragmentos resultantes de segmentos ou partes de moléculas de ácido nucleico amplificadas contendo, pelo menos em parte, informação da sequência de nucleotídeo a partir de ou com base na molécula de ácido nucleico modelo representativa.
[075] Como aqui usado, o termo "reações de clivagem complementares" refere-se a reações de clivagem que são realizadas no mesmo ácido nucleico usando reagentes de clivagem diferentes ou alterando a especificidade da clivagem do mesmo reagente de clivagem, tais que os padrões de clivagem alternativos do mesmo ácido nucleico ou proteína alvo ou de referência são gerados. Em certas modalidades, o ácido nucleico pode ser tratado com um ou mais agentes específicos de clivagem (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ou mais agentes de clivagem específicos) em um ou mais porções de reação (por exemplo, o ácido nucleico é tratado com cada agente de clivagem específico em um porção separado). O termo "agente de clivagem específico" como aqui usado refere-se a um agente, por vezes, um produto químico ou uma enzima que pode clivar um ácido nucleico em um ou mais sítios específicos.
[076] O ácido nucleico também pode ser exposto a um processo que modifica certos nucleotídeos no ácido nucleico antes de fornecer ácido nucleico para um método aqui descrito. Um processo que modifica seletivamente o ácido nucleico com base no estado de metilação de nucleotídeos do mesmo pode ser aplicado ao ácido nucleico, por exemplo. Além disso, as condições tais como alta temperatura, radiação ultravioleta, radiação-X, podem induzir mudanças na sequência de uma molécula de ácido nucleico. O ácido nucleico pode ser fornecido em qualquer forma adequada útil para a condução da análise da sequência adequada.
[077] O ácido nucleico pode ser de fita simples ou dupla. DNA de fita simples, por exemplo, pode ser gerado por desnaturação do DNA de fita dupla por aquecimento ou por tratamento com álcali, por exemplo. Em certas modalidades, o ácido nucleico se encontra em uma estrutura do LASSO D, formado por invasão de fita de uma molécula de DNA duplex por um oligonucleotídeo ou uma molécula do tipo DNA, tal como ácido nucleico de peptídeo (PNA). Formação do LASSO D pode ser facilitada pela adição de proteína RecA de E.coli e/ou pela alteração da concentração de sal, por exemplo, usando métodos conhecidos na técnica.
Alvos genômicos
[078] Em algumas modalidades, os ácidos nucleicos alvos, também aqui referidos como fragmentos alvos, incluem fragmentos de polinucleotídeos de uma região genômica particular ou pluralidade de regiões genômicas (por exemplo, cromossomo único, conjunto de cromossomos, e/ou certas regiões cromossômicas). Em algumas modalidades, tais regiões genômicas podem ser associadas com anormalidades genéticas fetais (por exemplo, aneuploidia), bem como outras variações genéticas, incluindo, mas não se limitando a, mutações (por exemplo, mutações pontuais), inserções, adições, deleções, translocações, desordens de repetição de trinucleotídos, e/ou polimorfismos de nucleotídeo único (SNPs). Em algumas modalidades, os ácidos nucleicos de referência, também aqui referidos como fragmentos de referência, incluem fragmentos de polinucleotídeos de uma região genômica particular ou pluralidade de regiões genômicas não associadas com anormalidades genéticas fetais. Em algumas modalidades, ácidos nucleicos alvos e/ou de referência (isto é, fragmentos alvo e/ou fragmentos de referência) incluem sequências de nucleotídeo que são substancialmente únicas para o cromossomo de interesse ou cromossomo de referência (por exemplo, sequências de nucleotídeo idênticas ou sequências de nucleotídeo substancialmente semelhantes não são encontradas em outras partes do genoma).
[079] Em algumas modalidades, os fragmentos de uma pluralidade de regiões genômicas são avaliados. Em algumas modalidades, os fragmentos alvos e fragmentos de referência de uma pluralidade de regiões genômicas são avaliados. Em algumas modalidades, os fragmentos de uma pluralidade de regiões genômicas são avaliados para determinar a presença, ausência, quantidade (por exemplo, quantidade relativa) ou o quociente de um cromossomo de interesse, por exemplo. Em algumas modalidades, um cromossomo de interesse é um cromossomo suspeito de ter aneuploidia e pode ser aqui referido como um "cromossomo de teste". Em algumas modalidades, os fragmentos de uma pluralidade de regiões genômicas são avaliados por um cromossomo euplóide presumido. Tal cromossomo pode ser aqui referido como um "cromossomo de referência". Em algumas modalidades, uma pluralidade de cromossomos de teste é avaliada. Em algumas modalidades, os cromossomos de teste são selecionados entre cromossomo 13 (Chr13), cromossomo 18 (Chr18) e cromossomo 21 (Chr21). Em algumas modalidades, os cromossomos de referência são selecionados entre os cromossomos 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, X e Y, e, por vezes, os cromossomos de referência são selecionados autossomos (ou seja, não X e Y). Em algumas modalidades, cromossomo 20 (Chr20) é selecionado como um cromossomo de referência. Em algumas modalidades, cromossomo 14 é selecionado como um cromossomo referência. Em algumas modalidades, cromossomo 9 é selecionado como um cromossomo de referência. Em algumas modalidades, um cromossomo de teste e um cromossomo referência são do mesmo indivíduo. Em algumas modalidades, um cromossomo de teste e um cromossomo de referência são de indivíduos diferentes.
[080] Em algumas modalidades, os fragmentos de pelo menos uma região genômica são avaliados para um cromossomo de teste e/ou de referência. Em algumas modalidades, os fragmentos de pelo menos 10 regiões genômicas (por exemplo, cerca de 20, 30, 40, 50, 60, 70, 80 ou 90 regiões genômicas) são avaliados para um cromossomo de teste e/ou um cromossomo referência. Em algumas modalidades, os fragmentos de pelo menos 100 regiões genômicas (por exemplo, cerca de 200, 300, 400, 500, 600, 700, 800 ou 900 regiões genômicas) são avaliados para um cromossomo de teste e/ou um cromossomo de referência. Em algumas modalidades, os fragmentos de pelo menos 1.000 regiões genômicas (por exemplo, cerca de 2.000, 3.000, 4000, 5.000, 6.000, 7.000, 8.000 ou 9000 regiões genômicas) são avaliados para um cromossomo de teste e/ou um cromossomo de referência. Em algumas modalidades, fragmentos de pelo menos 10.000 regiões genômicas (por exemplo, cerca de 20.000, 30.000, 40.000, 50.000, 60.000, 70.000, 80.000 ou 90.000 regiões genômicas) são avaliados para um cromossomo de teste e/ou um cromossomo de referência. Em algumas modalidades, os fragmentos de pelo menos 100.000 regiões genômicas (por exemplo, cerca de 200.000, 300.000, 400.000, 500.000, 600.000, 700.000, 800.000 ou 900.000 regiões genômicas) são avaliados para um cromossomo de teste e/ou cromossomo de referência.
Enriquecimento e separação de subpopulações de ácido nucleico
[081] Em algumas modalidades, o ácido nucleico (por exemplo, ácido nucleico extracelular) é enriquecido ou relativamente enriquecido por uma subpopulação ou espécies de ácido nucleico. Subpopulações de ácido nucleico podem incluir, por exemplo, ácido nucleico fetal, ácido nucleico materno, fragmentos compreendendo ácido nucleico com um comprimento particular ou faixa de comprimentos, ou o ácido nucleico de uma região específica do genoma (por exemplo, cromossomo único, um conjunto de cromossomos, e/ou certas regiões cromossômicas). Tais amostras enriquecidas podem ser usadas em conjunto com um método aqui fornecido. Desse modo, em certas modalidades, métodos da tecnologia compreendem uma etapa adicional de enriquecer uma subpopulação de ácido nucleico em uma amostra, tal como, por exemplo, ácido nucleico fetal. Em certas modalidades, um método para determinar a fração fetal aqui descrito também pode ser usado para enriquecer o ácido nucleico fetal. Em certas modalidades, o ácido nucleico materno é seletivamente removido (parcialmente, substancialmente, completamente ou quase completamente) da amostra. Em certas modalidades, enriquecer espécies de ácido nucleico com baixo número de cópias (por exemplo, ácido nucleico fetal) pode melhorar a sensibilidade quantitativa. Os métodos para enriquecimento de uma amostra para uma espécie particular de ácido nucleico são descritos, por exemplo, na patente US n° 6.927.028, publicação do pedido de patente internacional n° W02007/140417, publicação do pedido de patente internacional n° W02007/147063, publicação do pedido de patente internacional n° W02009/032779, publicação do pedido de patente internacional n° W02009/032781, publicação do pedido de patente internacional n° W02010/033639, publicação do pedido de patente internacional n° W02011/034631, publicação do pedido de patente internacional n° W02006/056480, e publicação do pedido de patente internacional n° W02011/143659, todos os quais são aqui incorporadas por referência.
[082] Em algumas modalidades, o ácido nucleico é enriquecido com certas espécies de fragmento alvo e/ou espécies de fragmento de referência. Em certas modalidades, o ácido nucleico é enriquecido comum comprimento de fragmento de ácido nucleico específico ou faixa de comprimentos de fragmento usando um ou mais métodos de separação baseados em comprimento descritos abaixo. Em certas modalidades, o ácido nucleico é enriquecido com fragmentos de uma região genômica selecionada (por exemplo, cromossomo) usando um ou mais métodos de separação à base de sequência aqui descritos e/ou conhecidos na técnica. Certos métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) em uma amostra são descritos em detalhe abaixo.
[083] Alguns métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que podem ser usados com um método descrito aqui incluem métodos que exploram as diferenças entre o ácido nucleico epigenético materno e fetal. Por exemplo, o ácido nucleico fetal pode ser diferenciado e separado de ácido nucleico materno com base nas diferenças de metilação. Métodos de enriquecimento de ácido nucleico fetal baseado na metilação são descritos na publicação do pedido de patente US n° 2010/0105049, que é aqui incorporado por referência. Tais métodos envolvem, por vezes, ligar a um ácido nucleico da amostra a um agente de ligação específico da metilação (proteína de ligação CpG-metila (MBD), anticorpos específicos de metilação, e semelhante) separar o ácido nucleico ligado do ácido nucleico não ligado com base no estado de metilação diferencial. Tais métodos podem também incluir o uso de enzimas de restrição sensíveis à metilação (tal como descrito acima, por exemplo, Hhal e Hpall), que permitem o enriquecimento de regiões de ácido nucleico fetal em uma amostra materna seletivamente digerindo o ácido nucleico da amostra materna com uma enzima que seletivamente e completamente ou substancialmente digere o ácido nucleico materno para enriquecer a amostra por pelo menos uma região de ácido nucleico fetal.
[084] Outro método para o enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que pode ser usado com um método aqui descrito é uma abordagem de sequência polimórfica melhorada com endonuclease de restrição tal como um método descrito na publicação do pedido de patente US n° 2009/0317818, que é aqui incorporado por referência. Tais métodos incluem a clivagem de ácido nucleico que compreende um alelo não alvo com uma endonuclease de restrição que reconhece o ácido nucleico que compreende o alelo não alvo, mas não o alelo alvo; e amplificar o ácido nucleico clivado, mas não o ácido nucleico clivado, em que o ácido nucleico não clivado, amplificado representa o ácido nucleico alvo enriquecido (por exemplo, ácido nucleico fetal) em relacionamento ao ácido nucleico não alvo (por exemplo, ácido nucleico materno). Em certas modalidades, o ácido nucleico pode ser selecionado tal que compreende um alelo tendo um sítio polimórfico que é suscetível à digestão seletiva por um agente de clivagem, por exemplo.
[085] Alguns métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que podem ser usados com um método aqui descrito incluem abordagens de degradação enzimática seletiva. Tais métodos envolvem a proteção de sequências alvos a partir da digestão da exonuclease facilitando desse modo a eliminação em uma amostra de sequências não desejadas (por exemplo, DNA materno). Por exemplo, em uma abordagem, o ácido nucleico da amostra é desnaturado para gerar único ácido nucleico de fita simples, ácido nucleico de fita simples é contato com pelo menos um par de iniciador específico alvo sob condições de hibridização adequadas, iniciadores emparelhados são estendidos por polimerização de nucleotídeo gerando sequências alvos de fita dupla, e digerindo ácido nucleico de fita simples único usando uma nuclease que digere ácido nucleico de fita simples (ou seja, não-alvo). Em certas modalidades, o método pode ser repetido durante pelo menos um ciclo adicional. Em certas modalidades, o mesmo par de iniciador específico alvo é usado para injetar cada um dos primeiro e segundo ciclos de extensão, e em certas modalidades, diferentes pares de iniciador específico alvos são usados para o primeiro e segundo ciclos.
[086] Em algumas modalidades, o ácido nucleico é enriquecido com fragmentos de uma região genômica selecionada (por exemplo, cromossomo) usando um ou mais métodos de separação à base de sequências aqui descritas. Em algumas modalidades, o ácido nucleico é enriquecido com um comprimento de fragmento de polinucleotídeos ou faixa de comprimentos de fragmento específico e fragmentos de uma região genômica selecionada (por exemplo, cromossomo) usando uma combinação de métodos de separação baseados em sequência com base em comprimento. Tais métodos de separação à base de sequência e à base de comprimento são descritos em maior detalhe abaixo.
[087] Alguns métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que podem ser usados com um método aqui descrito incluem sequenciamento massiva de assinatura paralela (MPSS). MPSS tipicamente é um método em fase sólida que utiliza uma ligação com adaptador (isto é, marcação), seguida por uma descodificação do adaptador, e leitura da sequência de ácido nucleico em incrementos pequenos. Os produtos de PCR marcados são tipicamente amplificados de tal forma que cada ácido nucleico gera um produto de PCR com um marcador individual. Marcadores são frequentemente usados para ligar os produtos de PCR a microgrânulos. Depois de vários ciclos de determinação da sequência à base de ligação, por exemplo, uma assinatura de sequência pode ser identificada a partir de cada grânulo. Cada sequência de assinatura (marcação com MPSS) em um conjunto de dados de MPSS é analisada, comparada com todas as outras assinaturas, e todas as assinaturas idênticas são contadas.
[088] Em certas modalidades, certos métodos de enriquecimento (por exemplo, certos métodos de enriquecimento à base de MPS e/ou MPSS) podem incluir abordagens à base de amplificação (por exemplo, PCR). Em certas modalidades, métodos de amplificação loci-específicos podem ser usados (por exemplo, iniciadores de amplificação loci-específicos). Em certas modalidades, uma abordagem por PCR de alelo de SNP multiplex pode ser usada. Em certas modalidades, uma abordagem por PCR de alelo de SNP multiplex pode ser utilizada em combinação com o sequenciamento uniplex. Por exemplo, tal uma abordagem pode envolver o uso de PCR multiplex (por exemplo, sistema MASSARRAY) e a incorporação de sequências de sonda de captura nos amplicons seguida pelo sequenciamento usando, por exemplo, o sistema MPSS Illiumina. Em certas modalidades, uma abordagem por PCR de alelo de SNP multiplex pode ser utilizada em combinação com um sistema de três iniciadores de sequenciamento indexada. Por exemplo, tal uma abordagem pode envolver o uso de PCR multiplex (por exemplo, sistema MASSARRAY) com iniciadores tendo uma primeira sonda de captura incorporada em certos iniciadores de PCR foward específicos e sequências adaptadoras incorporadas em iniciadores de PCR reverso loci- específico para, desse modo, gerar produtos de amplificação, seguido de um PCR secundário para incorporar sequências de captura reversa e códigos de barras de índice molecular para o sequenciamento usando, por exemplo, o sistema MPSS Illumina. Em certas modalidades, uma abordagem por PCR de alelo de SNP multiplex pode ser utilizada em combinação com um sistema de quatro iniciadores e sequenciamento indexado. Por exemplo, tal uma abordagem pode envolver o uso de PCR multiplex (por exemplo, sistema MASSARRAY) com iniciadores tendo sequências adaptadoras incorporadas em ambos os iniciadores de PCR adiante loci-específico e reverso loci- específico e seguido por uma PCR secundário para incorporar ambas sequências de captura adiante e reverso e códigos de barras de índice molecular para o sequenciamento usando, por exemplo, o sistema MPSS Illumina. Em certas modalidades, uma abordagem de microfluidos pode ser usada. Em certas modalidades, microfluidos baseado em matriz pode ser usado. Por exemplo, tal uma abordagem pode envolver o uso de uma matriz de microfluidos (por exemplo, Fluidigm) para a amplificação em baixo plex e incorporação de índice e sondas de captura, seguida de sequenciamento. Em certas modalidades, uma abordagem de microfluidos em emulsão pode ser utilizada, tal como, por exemplo, gota digital PCR.
[089] Em certas modalidades, métodos de amplificação universal podem ser usados (por exemplo, usando os iniciadores de amplificação universal ou não-loci- específicos). Em certas modalidades, métodos de amplificação universal podem ser usados em combinação com abordagens de pulldown. Em certas modalidades, um método pode incluir pulldown ultramer biotinilado (por exemplo, ensaios de pulldown biotinilado de Agilent ou IDT) de uma biblioteca de sequenciamento universalmente amplificada. Por exemplo, tal uma abordagem pode envolver a preparação de uma biblioteca padrão, enriquecimento das regiões selecionadas por um ensaio de pulldown, e uma etapa de amplificação universal secundária. Em certas modalidades, abordagens de pulldown podem ser utilizadas em combinação com métodos baseado em ligação. Em certas modalidades, um método pode incluir pulldown ultramer biotinilado com ligação do adaptador específico à sequência (por exemplo, HALOPLEX PCR, de Halo Genomics). Por exemplo, tal uma abordagem pode envolver o uso de sondas seletoras para capturar fragmentos digeridos por enzimas de restrição, seguida pela ligação de produtos capturados a um adaptador, e amplificação universal seguida por sequenciamento. Em certas modalidades, abordagens de pulldown podem ser utilizadas em combinação com métodos de extensão e baseados em ligação. Em certas modalidades, um método pode incluir ligação e extensão de sonda de inversão molecular (MIP). Por exemplo, tal uma abordagem pode envolver o uso de sondas de inversão molecular em combinação com adaptadores de sequência, seguida pela amplificação universal e sequenciamento. Em certas modalidades, o DNA complementar pode ser sintetizado e sequenciado sem amplificação.
[090] Em certas modalidades, as abordagens de extensão e ligação podem ser realizadas sem um componente de pulldown. Em certas modalidades, um método específico pode incluir hibridização, extensão e ligação do iniciador adiante e reverso loci-específico. Tais métodos podem ainda incluir amplificação universal ou síntese de DNA complementar sem amplificação, seguida de sequenciamento. Tais métodos podem reduzir ou excluir sequências de base durante a análise, em certas modalidades.
[091] Em certas modalidades, abordagens de pulldown podem ser utilizadas com um componente de amplificação opcional ou sem componente de amplificação. Em certas modalidades, um método pode incluir um ensaio de pulldown modificado e ligação com a incorporação total de sondas de captura sem amplificação universal. Por exemplo, tal uma abordagem pode envolver o uso de sondas seletoras modificadas para captura de fragmentos digeridos por enzimas de restrição de captura, seguida pela ligação de produtos capturados a um adaptador opcional, amplificação, e sequenciamento. Em certas modalidades, um método pode incluir um ensaio de pulldown biotinilado e com a extensão e ligação da sequência adaptadora em combinação com a ligação de fita simples circular. Por exemplo, tal uma abordagem pode envolver o uso de sondas seletoras para capturar as regiões de interesse (ou seja, as sequências alvo), extensão das sondas, ligação ao adaptador, ligação circular de fita simples, amplificação opcional, e sequenciamento. Em certas modalidades, a análise dos resultados do sequenciamento pode separar as sequências alvos da base.
[092] Em algumas modalidades, o ácido nucleico é enriquecido com fragmentos de uma região genômica selecionada (por exemplo, cromossomo) usando um ou mais métodos de separação à base de sequências aqui descritos. Separação à base de sequência geralmente baseia-se em sequências de nucleotídeo presentes nos fragmentos de interesse (por exemplo, fragmentos alvo e/ou de referência) e substancialmente não presentes em outros fragmentos da amostra ou presentes em uma quantidade não substancial de outros fragmentos (por exemplo, 5% ou menos). Em algumas modalidades, a separação à base da sequência pode gerar fragmentos alvos separados e/ou fragmentos de referência separados. Fragmentos alvos separados e/ou fragmentos de referência separados são frequentemente isolados dos fragmentos remanescentes na amostra de ácido nucleico. Em certas modalidades, os fragmentos alvo separados e os fragmentos de referência separados são também isolados um do outro (por exemplo, isolados em compartimentos separados no ensaio). Em certas modalidades, os fragmentos alvo separados e os fragmentos de referência separados são isolados em conjunto (por exemplo, isolados no mesmo compartimento de ensaio). Em algumas modalidades, os fragmentos não ligados podem ser removidos diferencialmente ou degradados ou digeridos.
[093] Em algumas modalidades, um processo de captura de ácido nucleico seletivo é usado para separar fragmentos alvo e/ou de referência da amostra de ácido nucleico. Sistemas de captura de ácido nucleico comercialmente disponíveis incluem, por exemplo, o sistema de captura de sequência de NimbleGen (Roche NimbleGen, Madison, WI); plataforma BEADARRAY da Illumina (Illumina, San Diego, CA); plataforma Affymetrix GeneChip (Affymetrix, Santa Clara, CA); sistema de enriquecimento alvo Agilent SureSelect (Agilent Technologies, Santa Clara, CA); e plataformas relacionadas. Tais métodos envolvem tipicamente a hibridização de um oligonucleotídeo de captura em um segmento ou a totalidade da sequência de nucleotídeo de um fragmento alvo ou de referência e pode incluir o uso de uma fase sólida (por exemplo, matriz de fase sólida) e/ou uma plataforma baseada em solução. Os oligonucleotídeos de captura (por vezes referidos como "isca") podem ser selecionados ou projetados de tal modo que eles hibridizam preferivelmente com fragmentos de ácido nucleico de regiões genômicas ou loci selecionados (por exemplo, um dos cromossomos 21, 18, 13, X ou Y, ou um cromossomo de referência). Em certas modalidades, um método baseado na hibridização (por exemplo, usando matrizes de oligonucleotídeos) pode ser usado para enriquecer sequências de ácido nucleico de certos cromossomos (por exemplo, um cromossomo potencialmente com aneuploidia, cromossomo de referência ou outro cromossomo de interesse) ou seus segmentos de interesse.
[094] Os oligonucleotídeos de captura compreendem tipicamente uma sequência de nucleotídeo capaz de hibridizar ou recozer um fragmento de ácido nucleico de interesse (por exemplo, fragmento alvo, fragmento de referência) ou uma porção deste. Um oligonucleotídeo de captura pode ser natural ou sintético e pode ser baseado em DNA ou RNA. Os oligonucleotídeos de captura podem permitir a separação específica de, por exemplo, um fragmento alvo e/ou de referência de outros fragmentos em uma amostra de ácido nucleico. O termo "específico" ou "especificidade", como aqui usados, refere-se à ligação ou hibridização de uma molécula a outra molécula, tal como um oligonucleotídeo para um polinucleotídeo alvo. "Específico" ou "especificidade" refere-se ao reconhecimento, contato, e formação de um complexo estável entre as duas moléculas, quando comparado com substancialmente menos reconhecimento, contato ou formação complexa de qualquer uma destas duas moléculas com outras moléculas. Como aqui usado, o termo "recozimento" refere-se à formação de um complexo estável entre as duas moléculas. Os termos "oligonucleotídeo de captura", "oligo captura", "oligo", ou "oligonucleotídeo" podem ser usados alternadamente ao longo do documento, quando se refere a capturar oligonucleotídeos. As seguintes características de oligonucleotídeos podem ser aplicadas aos iniciadores e outros oligonucleotídeos, tais como sondas aqui fornecidas.
[095] Um oligonucleotídeo de captura pode ser projetado e sintetizado usando um processo adequado, e pode ser de qualquer comprimento adequado para hibridizar com uma sequência de nucleotídeos de interesse e que executa processos de separação e/ou de análise aqui descritos. Os oligonucleotídeos podem ser projetados com baseados em uma sequência de nucleotídeo de interesse (por exemplo, sequência de fragmento alvo, sequência de fragmento de referência). Um oligonucleotídeo, em algumas modalidades, pode ser de cerca de 10 a cerca de 300 nucleotídeos, cerca de 10 a cerca de 100 nucleotídeos, cerca de 10 a cerca de 70 nucleotídeos, cerca de 10 a cerca de 50 nucleotídeos, cerca de 15 a cerca de 30 nucleotídeos, ou cerca de 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95 ou 100 nucleotídeos em comprimento. Um oligonucleotídeo pode ser composto de nucleotídeos de ocorrência natural e/ou de ocorrência não natural (por exemplo, nucleotídeos marcados), ou uma mistura de destes. Oligonucleotídeos adequados paro o uso com as modalidades aqui descritas, podem ser sintetizados e marcados usando as técnicas conhecidas. Os oligonucleotídeos podem ser sintetizados quimicamente de acordo com o método da fosforamidita triéster em fase sólida descrito pela primeira vez por Beaucage e Caruthers (1981) Tetrahedron Letts. 22: 1859-1862, usando um sintetizador automático, e/ou como descrito em Needham-VanDevanter et al. (1984) Nucleic Acids Res. 12: 6159-6168. A purificação de oligonucleotídeos pode ser realizada por eletroforese em gel de acrilamida nativo ou por cromatografia líquida de alta performance de troca aniônica (HPLC), por exemplo, tal como descrito em Pearson e Regnier (1983) J. Chrom. 255: 137-149.
[096] A totalidade ou uma porção de uma sequência de oligonucleotídeo (ocorrência natural ou sintética) pode ser substancialmente complementar a uma sequência de fragmento alvo e/ou de referência ou sua porção, em algumas modalidades. Como aqui referido, "substancialmente complementar" em relacionamento às sequências refere-se a sequências de nucleotídeo que irão hibridizar uma com a outra. O rigor das condições de hibridização pode ser alterado para tolerar quantidades variáveis de incompatibilidade de sequência.
[097] São incluídas sequências de oligonucleotídeo alvos/referências que são 55% ou mais, ou mais de 56%, 57% ou mais, 58% ou mais, 59% ou mais, 60% ou mais, 61% ou mais, 62% ou mais, 63% ou mais, 64% ou mais, 65% ou mais, 66% ou mais, 67% ou mais, 68% ou mais, 69% ou mais, 70% ou mais, 71% ou mais, 72% ou mais, 73% ou mais, 74% ou mais, 75% ou mais, 76% ou mais, 77% ou mais, 78% ou mais, 79% ou mais, 80% ou mais, 81% ou mais, 82% ou mais, 83% ou mais, 84% ou mais, 85% ou mais, 86% ou mais, 87% ou mais, 88% ou mais, 89% ou mais, 90% ou mais, 91% ou mais, 92% ou mais, 93% ou mais, 94% ou mais, 95% ou mais, 96% ou mais, 97% ou mais, 98% ou mais ou 99% ou mais complementar uma da outra.
[098] Os oligonucleotídeos que são substancialmente complementares a uma sequência de ácido nucleico de interesse (por exemplo, sequência de fragmento alvo, sequência de fragmento de referência) ou sua porção também são substancialmente semelhantes ao complemento da sequência de ácido nucleico alvo ou porção relevante da mesma (por exemplo, substancialmente semelhante à fita antessentido do ácido nucleico). Um teste para determinar se duas sequências de nucleotídeo são substancialmente semelhantes é determinar a percentagem de sequências de nucleotídeo idênticas. Como aqui referido, "substancialmente semelhante" em relação às sequências refere-se a sequências de nucleotídeo que são 55% ou mais, 56% ou mais, 57% ou mais, 58% ou mais, 59% ou mais, 60% ou mais, 61 % ou mais, 62% ou mais, 63% ou mais, 64% ou mais, 65% ou mais, 66% ou mais, 67% ou mais, 68% ou mais, 69% ou mais, 70% ou mais, 71 % ou mais, 72% ou mais, 73% ou mais, 74% ou mais, 75% ou mais, 76% ou mais, 77% ou mais, 78% ou mais, 79% ou mais, 80% ou mais, 81% ou mais, 82% ou mais, 83% ou mais, 84% ou mais, 85% ou mais, 86% ou mais, 87% ou mais, 88% ou mais, 89 % ou mais, 90% ou mais, 91% ou mais, 92% ou mais, 93% ou mais, 94% ou mais, 95% ou mais, 96% ou mais, 97% ou mais, 98% ou mais ou 99 % ou mais idênticas uma a outra.
[099] Condições de recozimento (por exemplo, condições de hibridização) podem ser determinadas e/ou ajustadas, dependendo das características dos oligonucleotídeos usados em um ensaio. Sequência e/ou comprimento de oligonucleotídeo, por vezes, pode afetar hibridização em uma sequência de ácido nucleico de interesse. Dependendo do grau de incompatibilidade entre um oligonucleotídeo e ácido nucleico de interesse, condições rigorosas baixa, média ou alta podem ser utilizadas para efetuar o recozimento. Como aqui usado, o termo "condições rigorosas" refere-se a condições de hibridização e lavagem. Os métodos para otimização da condição de temperatura e reação de hibridização são conhecidos na técnica, e podem ser encontrados em Current Protocols in Molecular Biology, John Wiley & Sons, N.Y., 6.3.1-6.3.6 (1989). Métodos aquosos e não aquosos são descritos naquela referência e qualquer um pode ser usado. Exemplos não limitativos de condições rigorosas de hibridização são hibridização em 6X de cloreto de sódio/citrato de sódio (SSC) a cerca de 45°C, seguida por uma ou mais lavagens em 0,2X SSC, 0,1% de SDS a 50°C. Outro exemplo de condições rigorosas de hibridização é hibridização em 6X de cloreto de sódio/citrato de sódio (SSC) a cerca de 45°C, seguida por uma ou mais lavagens em 0,2X SSE, 0,1% de SDS a 55°C. Um exemplo adicional de condições rigorosas de hibridização é a hibridização em 6X de citrato de sódio/cloreto de sódio (SSC) em cerca de 45°C, seguida por uma ou mais lavagens em 0,2X SSE, 0,1% de SDS a 60°c. Frequentemente, as condições rigorosas de hibridização são hibridização em 6X citrato de sódio/cloreto de sódio (SSC) em cerca de 45°C, seguida por uma ou mais lavagens em 0,2X SSE, 0,1% de SDS a 65°C. Mais frequentemente, as condições rigorosas são o fosfato de sódio a 0,5 M, SDS a 7% a 65°C, seguida por uma ou mais lavagens a 0,2X SSC, 1% de SDS a 65°C. Temperaturas de hibridização rigorosas também podem ser alteradas (isto é, diminuídas) com adição de certos solventes orgânicos, por exemplo, formamida. Solventes orgânicos, como formamida, reduzem a estabilidade térmica de polinucleotídeos de fita dupla, de modo que a hibridização pode ser realizada a temperaturas mais baixas, enquanto ainda mantem condições rigorosas e que prolongam a vida útil de ácidos nucleicos que podem ser termo lábeis.
[100] Como aqui utilizada, a frase "hibridização" ou suas variações gramaticais, refere-se ao recozimento de uma primeira molécula de ácido nucleico com uma segunda molécula de ácido nucleico sob condições rigorosas baixa, média ou alta, ou sob condições de síntese de ácido nucleico. Hibridização pode incluir casos em que uma primeira molécula de ácido nucleico hibridiza com uma segunda molécula de ácido nucleico, em que as primeira e segunda moléculas de ácido nucleico são complementares. Como aqui usado, "hibridiza especificamente" refere-se à hibridização preferencial sob condições de síntese de ácido nucleico de um oligonucleotídeo em uma molécula de ácido nucleico tendo uma sequência complementar ao oligonucleotídeo em comparação com a hibridização com uma molécula de ácido nucleico tendo uma sequência não complementar. Por exemplo, a hibridização específica inclui a hibridização de um oligonucleotídeo de captura para uma sequência de fragmento alvo que é complementar ao oligonucleotídeo.
[101] Em algumas modalidades, um ou mais oligonucleotídeos de captura estão associados com um ligante de afinidade, tal como um membro de um par de ligações (por exemplo, biotina) ou antígeno que pode se ligar a um agente de captura, tais como avidina, estreptavidina, um anticorpo, ou um receptor. Por exemplo, um oligonucleotídeo de captura pode ser biotinilado de tal forma que ele pode ser capturado em um grânulo revestido com estreptavidina.
[102] Em algumas modalidades, um ou mais oligonucleotídeos de captura e/ou agentes de captura são efetivamente ligados a um suporte ou substrato sólido. Um suporte ou substrato sólido pode ser qualquer superfície sólida à qual um oligonucleotídeo de captura pode ser diretamente ou indiretamente ligado, incluindo, mas não se limitando a, superfícies fornecidas por microarranjo e poços, e partículas, tais como grânulos (por exemplo, grânulos paramagnéticos, grânulos magnéticos, microgrânulos, nanogrânulos), micropartículas e nanopartículas. Os suportes sólidos podem também incluir, por exemplo, chips, colunas, fibras ópticas, lenços, filtros (por exemplo, filtros de superfície plana), um ou mais capilares, vidro e vidro modificado ou funcionalizado (por exemplo, vidro de poro controlado (CPG)), quartzo, mica, membranas diazotadas (papel ou náilon), poliformaldeído, celulose, acetato de celulose, papel, cerâmica, metais, metalóides, materiais semicondutores, ponto quântico, grânulos ou partículas revestidas, outros materiais cromatográficos, partículas magnéticas; plástico (incluindo acrílico, poliestireno, copolímeros de estireno ou outros materiais, polibutileno, poliuretanos, Teflon™, polietileno, polipropileno, poliamida, poliéster, difluoreto de polivinilideno (PVDF), e semelhante), polissacarídeos, náilon ou nitrocelulose, resinas, sílica ou materiais à base de silício incluindo silício, gel de sílica, e silício modificado, Sephadex®, Sepharose®, carbono, metais (por exemplo, aço, ouro, prata, alumínio, silício e cobre), vidros inorgânicos, polímeros condutores (incluindo polímeros, tais como e polipirrol e poli-indol); superfícies micro ou nano-estruturadas tais como matrizes de ácido nucleico, nanotubos, nanofios ou superfícies nanoparticuladas decoradas; ou superfícies porosas ou géis, tais como metacrilatos, acrilamidas, polímeros de açúcar, celulose, silicatos, ou outros polímeros fibrosos ou de fita. Em algumas modalidades, o suporte ou substrato sólido pode ser revestido usando revestimentos passivos ou quimicamente derivatizados com qualquer número de materiais, incluindo polímeros, tais como dextranas, acrilamidas, gelatinas ou agarose. Grânulos e/ou partículas podem ser livres ou em conexão um com outro (por exemplo, sintetizados). Em algumas modalidades, a fase sólida pode ser uma coleção de partículas. Em algumas modalidades, as partículas podem compreender sílica e a sílica pode compreender o dióxido de sílica. Em algumas modalidades da sílica pode ser porosa e, em certas modalidades, a sílica pode ser não porosa. Em algumas modalidades, as partículas compreendem ainda um agente que confere propriedade paramagnética às partículas. Em certas modalidades, o agente compreende um metal, e, em certas modalidades, o agente é um óxido de metal, (por exemplo, ferro ou óxidos de ferro, em que o óxido de ferro contém uma mistura de Fe2+ e Fe3+). Os oligonucleotídeos podem ser ligados ao suporte sólido através de ligações covalentes ou por interações não covalentes e podem ser ligados ao suporte sólido, direta ou indiretamente (por exemplo, através de um agente intermediário tal como uma molécula espaçadora ou biotina). Uma sonda pode ser ligada ao suporte sólido antes, durante ou após a captura de ácido nucleico.
[103] Em algumas modalidades, o ácido nucleico é enriquecido com um comprimento particular de fragmento de ácido nucleico, a faixa de comprimentos, ou comprimentos sob ou sobre um limite ou de corte particular usando um ou mais métodos de separação baseado no comprimento. Comprimento do fragmento de ácido nucleico refere-se tipicamente ao número de nucleotídeos no fragmento. Comprimento do fragmento de ácido nucleico também é por vezes referido como tamanho do fragmento de ácido nucleico. Em algumas modalidades, um método de separação baseado no comprimento é realizado sem medir comprimentos de fragmentos individuais. Em algumas modalidades, um método de separação baseado no comprimento é realizado em conjunto com um método para a determinação do comprimento de fragmentos individuais. Em algumas modalidades, a separação baseada no comprimento refere-se a um procedimento de fracionamento do tamanho, onde a totalidade ou parte do conjunto fracionado pode ser isolado (por exemplo, retido) e/ou analisado. Procedimentos de fracionamento do tamanho são conhecidos na técnica (por exemplo, separação em uma matriz, a separação por uma peneira molecular, separação por eletroforese em gel, a separação por cromatografia em coluna (por exemplo, colunas de exclusão de tamanho), e abordagens baseadas em microfluidos). Em certas modalidades, abordagens de separação baseada em comprimento podem incluir circularização do fragmento, tratamento químico (por exemplo, formaldeído, polietileno glicol (PEG)), espectrometria de massa e/ou amplificação de ácido nucleico de tamanho específico, por exemplo.
[104] Em algumas modalidades, os fragmentos de ácido nucleico de certo comprimento, faixa de comprimentos, ou comprimentos abaixo ou acima de um limite ou corte particular, são separados da amostra. Em algumas modalidades, fragmentos com um comprimento sob um limite ou corte particular (por exemplo, 500 pb, 400 pb, 300 pb, 200 pb, 150 pb, 100 pb) são referidos como fragmentos "curtos" e fragmentos com um comprimento ao longo de um limite ou corte particular (por exemplo, 500 pb, 400 pb, 300 pb, 200 pb, 150 pb, 100 pb) são referidos como fragmentos de "longos". Em algumas modalidades, os fragmentos de certo comprimento, faixa de comprimentos, ou comprimentos abaixo ou acima de um limite ou corte particular, são retidos para análise enquanto fragmentos de um comprimento ou faixa de comprimentos diferentes, ou comprimentos acima ou abaixo do limite ou corte não são retidos para análise. Em algumas modalidades, fragmentos que são menores do que cerca de 500 pb são retidos. Em algumas modalidades, fragmentos que são menores do que cerca de 400 pb são retidos. Em algumas modalidades, fragmentos que são menores do que cerca de 300 pb são retidos. Em algumas modalidades, fragmentos que são menores do que cerca de 200 pb são retidos. Em algumas modalidades, fragmentos que são menores do que cerca de 150 pb são retidos. Por exemplo, fragmentos que são menos do que cerca de 190 pb, 180 pb, 170 pb, 160 pb, 150 pb, 140 pb, 130 pb, 120 pb, 110 pb e 100 pb são retidos. Em algumas modalidades, fragmentos que são cerca de 100 pb a cerca de 200 pb são retidos. Por exemplo, fragmentos que são cerca de 190 pb, 180 pb, 170 pb, 160 pb, 150 pb, 140 pb, 130 pb, 120 pb ou 110 pb são retidos. Em algumas modalidades, fragmentos que estão na faixa de cerca de 100 pb a cerca de 200 pb são retidos. Por exemplo, fragmentos que estão na faixa de cerca de 110 pb a cerca de 190 pb, 130 pb a cerca de 180 pb, 140 pb a cerca de 170 pb, 140 pb a cerca de 150 pb, 150 pb a cerca de 160 bp, ou 145 pb a cerca de 155 pb são retidos. Em algumas modalidades, fragmentos que são cerca de 10 pb a cerca de 30 pb mais curtos do que outros fragmentos de certo comprimento ou faixa de comprimentos são retidos. Em algumas modalidades, fragmentos de cerca de 10 pb a cerca de 20 pb mais curtos do que outros fragmentos de certo comprimento ou faixa de comprimentos são retidos. Em algumas modalidades, fragmentos que são cerca de 10 pb a cerca de 15 pb mais curtos do que outros fragmentos de certo comprimento ou faixa de comprimentos são retidos.
[105] Em algumas modalidades, o ácido nucleico é enriquecido com um comprimento do fragmento de ácido nucleico particular, faixa de comprimentos, ou comprimentos acima ou abaixo de um limite ou corte particular usando um ou mais métodos baseados na bioinformática (por exemplo, em sílica) métodos. Por exemplo, sequências de nucleotídeo podem ser obtidas para os fragmentos de ácido nucleico usando um processo de sequenciamento de nucleotídeo adequado. Em alguns casos, tal como quando um método de sequenciamento de extremidade pareada é usado, o comprimento de um fragmento particular pode ser determinado com base nas posições das sequências mapeadas obtidas a partir de cada terminal do fragmento. Sequências utilizadas para uma análise particular (por exemplo, a determinação da presença ou ausência de uma variação genética) podem ser enriquecidas ou filtradas de acordo com um ou mais comprimentos de fragmento selecionados ou valores limites do comprimento do fragmento de fragmentos correspondentes como descrito em maior detalhe aqui.
[106] Certos métodos de separação baseados em comprimento que podem ser usados com os métodos aqui descritos, por vezes, utilizam uma abordagem de marcação de sequência seletiva, por exemplo. O termo "marcação de sequência" refere-se à incorporação de uma sequência reconhecida e distinta em um ácido nucleico ou uma população de ácidos nucleicos. O termo "marcação de sequência" como aqui usado tem um significado diferente do termo "marcador de sequência" descrito posteriormente aqui. Em tais métodos de marcação de sequência, espécies de ácidos nucleicos com tamanho de fragmento (por exemplo, fragmentos curtos) são submetidas à marcação de sequência seletiva em uma amostra que inclui ácidos nucleicos curtos e longos. Tais métodos envolvem tipicamente a realização de uma reação de amplificação de ácido nucleico usando um conjunto de iniciadores internos que incluem iniciadores internos e iniciadores externos. Em certas modalidades, um ou ambos dos internos podem ser marcados para, desse modo, introduzir uma marcação no produto de amplificação alvo. Os iniciadores externos geralmente não são recozidos com os fragmentos curtos que carregam a sequência alvo (interna). Os iniciadores internos podem recozer com os fragmentos curtos e geram um produto da amplificação que carrega uma marcação e a sequência alvo. Tipicamente, a marcação dos fragmentos longos é inibida através de uma combinação de mecanismos que incluem, por exemplo, extensão bloqueada dos iniciadores internos pelo recozimento anterior e extensão dos iniciadores externos. Enriquecimento dos fragmentos marcados pode ser obtido por qualquer de uma variedade de métodos incluindo, por exemplo, digestão de exonuclease de ácido nucleico de fita simples e amplificação dos fragmentos marcados usando os iniciadores de amplificação específicos para pelo menos uma marcação.
[107] Outro método de separação baseado no comprimento que pode ser usado com os métodos aqui descritos consiste em submeter uma amostra de ácido nucleico à precipitação por polietileno glicol (PEG). Exemplos de métodos incluem aqueles descritos nas publicações internacionais dos pedidos de patente n°s WO2007/140417 e WO2010/115016. Esse método implica, em geral, o contato de uma amostra de ácido nucleico com PEG na presença de um ou mais sais monovalentes sob condições suficientes para precipitar substancialmente ácidos nucleicos grandes sem precipitar substancialmente ácidos nucleicos pequenos (por exemplo, menos de 300 nucleotídeos).
[108] Outro método de enriquecimento baseado no tamanho que pode ser usado com os métodos descritos aqui envolve circularização por ligação, por exemplo, usando circligase. Os fragmentos de ácido nucleico curtos podem ser tipicamente circularizados com maior eficiência do que fragmentos longos. Sequências não circularizadas podem ser separadas das sequências circularizadas, e os fragmentos curtos enriquecidos podem ser usados para posterior análise.
Determinação do comprimento do fragmento
[109] Em algumas modalidades, o comprimento é determinado para um ou mais fragmentos de ácido nucleico. Em algumas modalidades, o comprimento é determinado para um ou mais fragmentos alvos, desse modo, identificando uma ou mais espécies de tamanho do fragmento alvo. Em algumas modalidades, o comprimento é determinado para um ou mais fragmentos alvos e um ou mais fragmentos de referência, desse modo, identificando uma ou mais espécies de comprimento de fragmento alvo e uma ou mais espécies de comprimento de fragmento de referência. Em algumas modalidades, o comprimento do fragmento é determinado pela medição do comprimento de uma sonda que hibridiza com o fragmento, o que é discutido com mais detalhe abaixo. Fragmento de ácido nucleico ou o comprimento da sonda pode ser determinado usando qualquer método adequado da técnica para a determinação do comprimento do fragmento de ácido nucleico, tais como, por exemplo, um processo sensível de massa (por exemplo, espectrometria de massa (por exemplo, espectrometria de massa por ionização/dessorção a laser assistida por matriz (MALDI) e espectrometria de massa por eletroaspersão (ES)), eletroforese (por exemplo, eletroforese capilar), microscopia (microscopia de tunelamento por varredura, microscopia de força atômica), medindo o comprimento usando um de nanoporo, e determinação do comprimento baseado em sequência (por exemplo, o sequenciamento de extremidade pareada). Em algumas modalidades, o comprimento da sonda ou fragmento pode ser determinado sem o uso de um método de separação com base na carga do fragmento. Em algumas modalidades, o comprimento do fragmento ou sonda pode ser determinado sem o uso de um processo de eletroforese. Em algumas modalidades, o comprimento do fragmento ou sonda pode ser determinado sem o uso de um processo de sequenciamento de nucleotídeo.
Espectrometria de massa
[110] Em algumas modalidades, a espectrometria de massa é utilizada para determinar o comprimento do fragmento de ácido nucleico. Métodos de espectrometria de massa tipicamente são usados para determinar a massa de uma molécula, tal como um fragmento de ácido nucleico. Em algumas modalidades, o comprimento do fragmento de ácido nucleico pode ser extrapolado a partir da massa do fragmento. Em algumas modalidades, uma faixa prevista do comprimento do fragmento de ácido nucleico pode ser extrapolada a partir da massa do fragmento. Em algumas modalidades, o comprimento do fragmento de ácido nucleico pode ser extrapolado a partir da massa de uma sonda que hibridiza com o fragmento, o qual é descrito em maior detalhe abaixo. Em algumas modalidades, a presença de um ácido nucleico alvo e/ou de referência com um comprimento fornecido pode ser verificada comparando a massa do sinal detectado com a massa esperada do fragmento alvo e/ou de referência. A intensidade relativa do sinal, por exemplo, pico de massa em um espectro para um comprimento do fragmento e/ou fragmento de ácido nucleico particular, por vezes, pode indicar a população relativa das espécies de fragmento entre outros ácidos nucleicos presentes na amostra (ver, por exemplo, Jurinke et al. (2004) 26, Mol. Biotechnol., 147-164).
[111] Espectrometria de massa geralmente funciona por ionização de compostos químicos para gerar moléculas ou fragmentos de moléculas carregados e medindo suas proporções de massa para carga. Um procedimento típico de espectrometria de massa envolve várias etapas, incluindo (1) a carga de uma amostra no instrumento de espectrometria de massa seguida pela vaporização, (2) ionização dos componentes da amostra por qualquer um de uma variedade de métodos (por exemplo, impactando com um feixe de elétrons), resultando em partículas carregadas (íons), (3) separação de íons de acordo com a sua proporção de massa para carga em um analisador por campos eletromagnéticos, (4) detecção de íons (por exemplo, por um método quantitativo), e (5) processamento do sinal dos íons no espectro de massa.
[112] Métodos de espectrometria de massa são bem conhecidos na técnica (ver, por exemplo, Burlingame et al. Anal. Chem. 70:647R-716R (1998)), e incluem, por exemplo, espectrometria de massa tipo quadrupolo, espectrometria de massa por captura de íons, espectrometria de massa por tempo- de-voo, espectrometria de massa com cromatografia gasosa e espectrometria de massa em tandem podem ser usados com os métodos aqui descritos. Os processos básicos associados com um método de espectrometria de massa são a geração de íons em fase gasosa derivados da amostra, e a medição de suas massas. O movimento de íons em fase gasosa pode ser controlado com precisão usando campos eletromagnéticos gerados no espectrômetro de massa. O movimento dos íons nestes campos eletromagnéticos é proporcional à m/z (proporção de massa para carga) do íon e isso forma a base da medição de m/z e, consequentemente, a massa de uma amostra. O movimento de íons nestes campos eletromagnéticos permite a contenção e foco dos íons o que explica a alta sensibilidade da espectrometria de massa. Durante o curso de medição de m/z, os íons são transmitidos com alta eficiência para detectores de partículas que registram a chegada destes íons. A quantidade de íons em cada m/z é demonstrada por picos em um gráfico em que o eixo x é m/z e o eixo y é abundância relativa. Diferentes espectrômetros de massa têm diferentes níveis de resolução, isto é, a capacidade de resolver os picos entre íons estreitamente relacionados em massa. A resolução é definida como R = m/delta m, onde m é a massa do íon e delta m é a diferença em massa entre dois picos em espectro de massa. Por exemplo, um espectrômetro de massa com uma resolução de 1000 pode resolver um íon com m/z de 100,0 de um íon com m/z de 100,1. Certos métodos de espectrometria de massa podem utilizar várias combinações de fontes iônicas e analisadores de massa o que permite flexibilidade na concepção de protocolos de detecção personalizados. Em algumas modalidades, espectrômetros de massa podem ser programados para transmitir todos os íons da fonte iônica no espectrômetro de massa, ou sequencialmente ou ao mesmo tempo. Em algumas modalidades, um espectrômetro de massa pode ser programado para selecionar os íons de uma massa particular para a transmissão no espectrômetro de massa enquanto bloqueia outros íons.
[113] Vários tipos de espectrômetros de massa estão disponíveis ou podem ser produzidos com várias configurações. Em geral, um espectrômetro de massa tem os seguintes componentes principais: uma entrada da amostra, uma fonte de íons, um analisador de massa, um detector, um sistema de vácuo, e sistema de controle de instrumento, e um sistema de dados. Diferença na entrada da amostra, fonte de íons, e analisador de massa geralmente define o tipo de instrumento e suas capacidades. Por exemplo, uma entrada pode ser uma fonte de cromatografia líquida em coluna capilar ou pode ser uma sonda direta ou estágio tal como usado na dessorção por laser assistida por matriz. As fontes de íons comuns são, por exemplo, por eletroaspersão, incluindo nanoaspersão e microaspersão ou dessorção por laser assistida por matriz. Analisadores de massa incluem, por exemplo, um filtro de massa tipo quadrupolo, analisador de massa por captura de íon e analisador de massa por tempo-de- voo.
[114] O processo de formação de íon é o ponto de partida para a análise do espectro de massa. Vários métodos de ionização estão disponíveis e a escolha do método de ionização depende da amostra utilizada para a análise. Por exemplo, para a análise de polipeptídeos um procedimento de ionização relativamente suave, tal como ionização por eletroaspersão (ESI) pode ser desejável. Para ESI, uma solução contendo a amostra é passada através de uma agulha fina com alto potencial que cria um forte campo elétrico que resulta em uma pulverização fina de gotículas altamente carregadas que é direcionada para dentro do espectrômetro de massa. Outros procedimentos de ionização incluem, por exemplo, bombardeamento com átomos rápidos (FAB), que utiliza um feixe de alta energia de átomos neutros para atacar uma amostra sólida causando dessorção e ionização. Ionização por dessorção a laser assistida por matriz (MALDI) é um método no qual um pulso de laser é usado para atacar uma amostra que foi cristalizada em uma matriz de composto que absorve UV (por exemplo, ácido 2,5-di-hidroxibenzóico, ácido alfa-ciano-4-hidroxicinâmico, ácido 3- hidroxipicolínico (3-HPA), di-amôniocitrato (DAC) e combinações dos mesmos). Outros procedimentos de ionização conhecidos na técnica incluem, por exemplo, descarga no plasma e luminescente, ionização por dessorção em plasma, ionização por ressonância, e ionização secundária.
[115] Uma variedade de analisadores de massa está disponível que podem ser pareados com fontes iônicas diferentes. Analisadores de massa diferentes têm diferentes vantagens como são conhecidos na técnica e como aqui descritos. O espectrômetro de massa e métodos escolhidos para detecção depende do ensaio particular, por exemplo, um analisador de massa mais sensível pode ser usado quando uma pequena quantidade de íons é gerada para a detecção. Vários tipos de analisadores de massa e métodos de espectrometria de massa são descritos abaixo.
[116] Espectrometria de massa de mobilidade iônica (IM) é um método de separação em fase gasosa. IM separa íons em fase gasosa com base na sua seção transversal de colisão e pode ser acoplado com espectrometria de massa por tempo- de-voo (TOF). IM-MS é discutido em mais detalhe por Verbeck et al., no Journal of Biomolecular Techniques 13 Vol., Issue 2, 56-61).
[117] Espectrometria de massa tipo quadrupolo utiliza um analisador ou filtro de massa tipo quadrupolo. Esse tipo de analisador de massa é composto por quatro hastes dispostas em dois conjuntos de duas hastes eletricamente ligadas. Uma combinação de voltagens rf e dc são aplicadas a cada par de hastes que produz campos que causam um movimento oscilante dos íons à medida que avançam desde o início do filtro de massa para o fim. O resultado destes campos é a produção de um filtro de massa passo-alto em um par de hastes e um filtro passa-baixo no outro par de hastes. A sobreposição entre os filtros passa-alto e passa-baixo conduz a um m/z definido que pode passar ambos os filtros e atravessar o comprimento do quadrupolo. Esse m/z é selecionado e permanece estável no filtro de massa tipo quadrupolo, enquanto todos os outros m/z têm trajetórias instáveis e não permanecem no filtro de massa. Um espectro de massa resulta aumentando os campos aplicados de tal modo que um aumento em m/z é selecionado para passar através do filtro de massa e atingir o detector. Além disso, quadrupolos também podem ser configurados para conter e transmitir os íons de todos m/z aplicando um campo somente de rf. Isso permite quadrupolo funcionar como uma lente ou sistema de focagem em regiões do espectrômetro de massa onde a transmissão é necessária sem filtragem de massa.
[118] Um analisador de massa tipo quadrupolo, bem como os outros analisadores de massa aqui descritos, podem ser programados para analisar um m/z ou faixa de massa definida. Uma vez que a faixa da massa desejada do fragmento de ácido nucleico é conhecida, em alguns casos, um espectrômetro de massa pode ser programado para transmitir íons da faixa de massa correta projetada enquanto exclui os íons de uma faixa de massa maior ou menor. A capacidade de selecionar uma faixa de massa pode diminuir o ruído da base no ensaio e, desse modo, aumentar a proporção do sinal para ruído. Desse modo, em alguns casos, um espectrômetro de massa pode realizar uma etapa de separação, bem como a detecção e identificação de certos fragmentos de ácido nucleico distinguíveis da massa.
[119] Espectrometria de massa por captura de íon utiliza um analisador de massa por captura de íon. Tipicamente, os campos são aplicados de modo que todos os íons de m/z são inicialmente capturados e oscilam no analisador de massa. Os íons entram na armadilha de íon a partir da fonte iônica através de um dispositivo de focagem, tal como um sistema de lentes octapolo. Captura de íon ocorre na região de captura antes de excitação e ejeção através de um eletrodo para o detector. Análise de massa pode ser realizada por aplicação sequencial de voltagens que aumentam a amplitude das oscilações de um modo que ejeta íons de m/z crescente para fora da armadilha e para o detector. Em contraste com a espectrometria de massa quadrupolo, todos os íons são retidos nos campos do analisador de massa, exceto aqueles com o m/z selecionado. O controle do número de íons pode ser realizado variando o tempo durante o qual os íons são injetados na armadilha.
[120] Espectrometria de massa por tempo-de-voo utiliza um analisador de massa por tempo-de-voo. Tipicamente, um íon é primeiro fornecido em uma quantidade fixa de energia cinética por aceleração em um campo elétrico (gerado por alta voltagem). Na sequência de aceleração, o íon entra em uma região de campo livre "de arraste", onde ele viaja a uma velocidade que é inversamente proporcional ao m/z. Portanto, os íons com baixo m/z viaja mais rapidamente do que os íons com alto m/z. O tempo necessário para os íons viajar o comprimento da região de campo livre é medido e usado para calcular m/z do íon.
[121] Cromatografia em fase gasosa acoplada a espectrometria de massa pode, frequentemente, ser um alvo em tempo real. A porção da cromatografia em fase gasosa (CG) do sistema separa a mistura química em pulsos de analito e o espectrômetro de massa (MS) identifica e quantifica o analito.
[122] Espectrometria de massa em tandem pode utilizar combinações dos analisadores de massa descritos acima. Espectrômetros de massa em tandem podem utilizar um primeiro analisador de massa para separar íon de acordo com seu m/z, a fim de isolar um íon de interesse para posterior análise. O íon isolado de interesse é então dividido em íons fragmentados (chamado dissociação colisionalmente ativada ou dissociação colisionalmente induzida) e os íons fragmentados são analisados pelo segundo analisador de massa. Estes tipos de sistemas de espectrometria de massa em tandem são chamados tandem em sistemas espaciais porque os dois analisadores de massa são separados no espaço, geralmente por uma célula de colisão. Sistemas de espectrometria de massa em tandem também incluem tandem em sistemas de tempo em que um analisador de massa é usado, no entanto, o analisador de massa é usado sequencialmente para isolar um íon, induzir a fragmentação, e, em seguida, executar a análise de massa.
[123] Espectrômetros de massa em tandem na categoria espaço tem mais do que um analisador de massa. Por exemplo, um sistema de espectrômetro de massa tipo quadrupolo em tandem pode ter um primeiro filtro de massa quadrupolo, seguido por uma célula de colisão, seguido por um segundo filtro de massa quadrupolo e, em seguida, o detector. Outro arranjo é o uso de um filtro de massa quadrupolo para o primeiro analisador de massa e um analisador de massa de tempo-de-voo para o segundo analisador de massa, com uma célula de colisão que separa os dois analisadores de massa. Outros sistemas em tandem são conhecidos na técnica, incluindo espectrometria de massa quadrupolo-setor, com setor em tandem e por tempo-de-voo contendo espelho eletrostático.
[124] Espectrômetros de massa em tandem na categoria tempo tem um analisador de massa que realiza funções diferentes em tempos diferentes. Por exemplo, um espectrômetro de massa por captura de íon pode ser utilizado para capturar íons de todos m/z. Uma série de funções de varredura de rf são aplicadas que ejeta íons de todos m/z da armadilha exceto m/z dos íons de interesse. Após o m/z de interesse ter sido isolado, um pulso de rf é aplicado para produzir as colisões com as moléculas de gás na armadilha para induzir a fragmentação dos íons. Em seguida, os valores de m/z dos íons fragmentados são medidas pelo analisador de massa. Instrumentos de ressonância ciclotrônica iônica, também conhecidos como espectrômetros de massa por transformada de Fourier, são um exemplo de sistemas de tandem-em-tempo.
[125] Vários tipos de experimentos de espectrometria de massa em tandem podem ser realizados por meio do controle dos íons que são selecionados em cada fase do experimento. Os diferentes tipos de experimentos utilizam diferentes modos de operação, às vezes chamados de "varreduras", dos analisadores de massa. Em um primeiro exemplo, chamado de varredura do espectro de massa, o primeiro analisador de massa e a célula de colisão transmitem todos os íons para análise de massa no segundo analisador de massa. Em um segundo exemplo, chamado de uma varredura do íon do produto, os íons de interesse são selecionados em massa no primeiro analisador de massa e, em seguida, fragmentados na célula de colisão. Os íons formados são então analisados pela varredura do segundo analisador de massa. Em um terceiro exemplo, chamado de varredura de íon precursor, o primeiro analisador de massa é varrido para sequencialmente transmitir os íons analisados em massa na célula de colisão para a fragmentação. O segundo analisador de massa seleciona em massa o íon do produto de interesse para a transmissão para o detector. Portanto, o sinal do detector é o resultado de todos os íons precursores que podem ser fragmentados em um íon do produto comum. Outros formatos experimentais incluem varreduras de perda neutra onde uma diferença de massa constante é contabilizada nas varreduras de massa.
[126] Para quantificação, os controles podem ser usados que podem fornecer um sinal em relação à quantidade do fragmento de ácido nucleico, por exemplo, que está presente ou é introduzido. Um controle para permitir a conversão de sinais de massa relativa em quantidades absolutas pode ser obtido pela adição de uma quantidade conhecida de um marcador de massa ou marcador de massa de cada amostra antes da detecção dos fragmentos de ácido nucleico. Ver, por exemplo, Ding and Cantor (2003) PNAS U S A. Mar 18; 100(6):3059-64. Qualquer marcação de massa que não interfere com a detecção dos fragmentos pode ser usada para normalizar o sinal da massa. Tais padrões tipicamente têm propriedades de separação que são diferentes daqueles de qualquer das marcações moleculares na amostra, e podem ter as mesmas ou diferentes assinaturas da massa.
[127] Uma etapa de separação, por vezes, pode ser usada para remover os sais, enzimas, ou outros componentes tampão da amostra de ácido nucleico. Vários métodos bem conhecidos na técnica, tais como cromatografia, eletroforese em gel ou precipitação, podem ser usados para limpar a amostra. Por exemplo, cromatografia de exclusão molecular ou cromatografia de afinidade pode ser usada para remover o sal de uma amostra. A escolha do método de separação pode depender da quantidade de uma amostra. Por exemplo, quando pequenas quantidades de amostra estão disponíveis ou um aparelho miniaturizado é usado, uma etapa de separação por cromatografia de micro-afinidade pode ser usado. Além disso, se uma etapa de separação é desejada, e a escolha do método de separação, pode depender do método de detecção usado. Sais, por vezes, podem absorver a energia do laser na dessorção/ionização a laser assistida por matriz e resultar em menor eficiência de ionização. Desse modo, a eficiência da dessorção/ionização a laser assistida por matriz e ionização por eletroaspersão, por vezes, pode ser melhorada através da remoção de sais de uma amostra.
Eletroforese
[128] Em algumas modalidades, a eletroforese é utilizada para determinar o comprimento do fragmento de ácido nucleico. Em algumas modalidades, a eletroforese não é utilizada para determinar o comprimento do fragmento de ácido nucleico. Em algumas modalidades, o comprimento de uma sonda correspondente (por exemplo, uma sonda correspondente ajustada aqui descrita) é determinada usando eletroforese. Eletroforese também pode ser usada, em algumas modalidades, como um método de separação baseada no comprimento, tal como aqui descrito. Qualquer método de eletroforese conhecido na técnica, em que os ácidos nucleicos são separados por comprimento, pode ser usado em conjunto com os métodos aqui fornecidos, os quais incluem, mas não estão limitados a, técnicas eletroforéticas padrão e técnicas eletroforéticas especializadas, tais como, por exemplo, eletroforese capilar. Exemplos de métodos para a separação do ácido nucleico e medir o comprimento do fragmento de ácido nucleico usando técnicas eletroforéticas padrão podem ser encontrados na técnica. Um exemplo não limitativo é aqui apresentado. Depois de executar uma amostra de ácido nucleico em uma agarose ou em gel de poliacrilamida, o gel pode ser marcado (por exemplo, manchado) com brometo de etídio (ver, Sambrook e Russell, Molecular Cloning: A Laboratory Manual 3d ed., 2001). A presença de uma banda do mesmo tamanho que um controle padrão é uma indicação da presença de um comprimento da sequência de ácido nucleico particular, a quantidade da qual pode então ser comparada com o controle com base na intensidade da banda, detectando e quantificando desse modo o comprimento da sequência de ácido nucleico de interesse.
[129] Em algumas modalidades, eletroforese capilar é usada para separar, identificar e algumas vezes quantificar fragmentos de ácido nucleico. A eletroforese capilar (CE) inclui uma família de técnicas de separação relacionadas que utilizam capilares de sílica fundida com furo estreito para separar uma matriz complexa de grandes e pequenas moléculas, tais como, por exemplo, ácidos nucleicos de comprimento variável. Altas resistências do campo eléctrico podem ser usadas para separar moléculas de ácido nucleico com base nas diferenças de carga, tamanho e hidrofobicidade. A introdução da amostra é realizada por imersão da extremidade do capilar em um frasco da amostra e a aplicação de pressão, vácuo ou voltagem. Dependendo dos tipos de capilar e eletrólitos usados, a tecnologia de CE pode ser segmentada em várias técnicas de separação, qualquer das quais pode ser adaptada aos métodos aqui fornecidos. Exemplos não limitativos destas incluem eletroforese capilar de zona (CZE), também conhecida como CE em solução livre (FSCE), foco isoelétrico capilar (CIEF), isotacoforese (ITP), cromatografia eletrocinética (EKC), cromatografia capilar eletrocinética miclear (MECC ou MEKC), cromatografia eletrocinética de microemulsão (MEEKC), eletroforese capilar não aquosa (NACE) e eletrocromatografia capilar (CEC).
[130] Qualquer dispositivo, máquina ou aparelho capaz de realizar eletroforese capilar pode ser usado em conjunto com os métodos aqui fornecidos. Em geral, os componentes principais de um sistema de eletroforese capilar são um frasco de amostra, frascos de origem e destino, um capilar, eletrodos, uma fonte de alimentação de alta voltagem, um detector, e um dispositivo de saída e manuseio de dados. O frasco de origem, o frasco de destino e capilar são preenchidos com eletrólito tal como uma solução tampão aquosa. Para introduzir a amostra, a entrada do capilar é colocada em um frasco que contém a amostra e, em seguida, devolvida ao frasco de origem (amostra é introduzida no capilar através da ação capilar, pressão ou sifão). A migração dos analitos (ou seja, ácidos nucleicos) é, então, iniciada por um campo elétrico que é aplicado entre os frascos de origem e de destino e é fornecido aos eletrodos pela fonte de alimentação de alta voltagem. Íons, positivos ou negativos, são puxados através do capilar na mesma direção por fluxo eletro-osmótico. Os analitos (ou seja, ácidos nucleicos) separam à medida que eles migram devido à sua mobilidade eletroforética e são detectados perto da extremidade de saída do capilar. A saída do detector é enviada para um dispositivo de saída e manuseio dos dados, tal como um computador ou integrador. Os dados são então exibidos como um eletroferograma, que pode comunicar a resposta do detector em função do tempo. Ácidos nucleicos separados podem aparecer como picos com diferentes tempos de migração em um eletroferograma.
[131] Separação por eletroforese capilar pode ser detectada por vários dispositivos de detecção. A maioria dos sistemas comerciais utilizam absorbância de UV ou UV-Vis como seu principal modo de detecção. Nestes sistemas, uma seção do próprio capilar é utilizada como a célula de detecção. O uso de detecção no tubo permite a detecção de analitos separados sem perda de resolução. Em geral, os capilares usados em eletroforese capilar podem ser revestidos com um polímero para aumentar a estabilidade. A porção do capilar usado para detecção por UV é frequentemente oticamente transparente. O comprimento do percurso da célula de detecção na eletroforese capilar (~50 micrômetros) é muito menor do que a de uma célula de UV tradicional (~1 cm). De acordo com a lei de Lambert Beer, a sensibilidade do detector é proporcional ao comprimento do percurso da célula. Para melhorar a sensibilidade, o comprimento do percurso pode ser aumentado, embora isso possa resultar em uma perda de resolução. O próprio tubo capilar pode ser expandido no ponto de detecção, criando uma "célula bolha" com um comprimento de percurso mais longo ou tubulação adicional pode ser adicionada no ponto de detecção. Ambos destes métodos, no entanto, podem reduzir a resolução da separação.
[132] A detecção por fluorescência também pode ser usada em eletroforese capilar para as amostras que fluorescem naturalmente ou são quimicamente modificadas para conter marcas fluorescentes, tais como, por exemplo, fragmentos de ácido nucleico ou sondas marcados aqui descritos. Esse modo de detecção de alta sensibilidade oferece uma alta seletividade e melhorada para estas amostras. O método requer que o feixe de luz seja focado no capilar. Fluorescência induzida por laser pode ser usada em sistemas de CE com limites de detecção tão baixo quanto 10-18 a 10-21 mol. A sensibilidade da técnica é atribuída à alta intensidade da luz incidente e a capacidade para focar com precisão a luz sobre o capilar.
[133] Várias máquinas de eletroforese capilar são conhecidas na técnica e podem ser usadas em conjunto com os métodos aqui fornecidos. Estas incluem, mas não estão limitadas a CALIPER LAB CHIP GX (Caliper Life Sciences, Mountain View, CA), P/ACE 2000 Series (Beckman Coulter, Brea, CA), HP G1600A CE (Hewlett-Packard, Palo Alto, CA), AGILENT 7100 CE (Agilent Technologies, Santa Clara, CA), e analisador genético ABI PRISM (Applied Biosystems, Carlsbad, CA).
Microscopia
[134] Em algumas modalidades, o comprimento do fragmento de ácido nucleico é determinado usando um método baseado na formação de imagem, tal como um método de microscopia. Em algumas modalidades, o comprimento de uma sonda correspondente (por exemplo, uma sonda correspondente aparada aqui descrita) é determinado usando um método baseado na formação de imagem. Em algumas modalidades, o comprimento do fragmento pode ser determinado pela visualização microscópica de fragmentos de ácido nucleico (ver, por exemplo, patente US n° 5.720.928). Em algumas modalidades, os fragmentos de ácido nucleico são fixados em uma superfície (por exemplo, a superfície de vidro modificado) em um estado alongado, manchada e visualizada microscopicamente. Imagens dos fragmentos podem ser colidas e processadas (por exemplo, medidas pelo comprimento). Em algumas modalidades, formação de imagem e as etapas de análise da imagem podem ser automatizadas. Os métodos para visualizar diretamente fragmentos de ácido nucleico usando microscopia são conhecidos na técnica (ver, por exemplo, Li et al., (1999) Nat Genet 23 (3):309-13; Aston et al., (1999) Trends Biotechnol. 17(7):297-302; Aston et al., (1999) Methods Enzymol. 303:55-73; Jing et al., (1998) Proc Natl Acad Sci USA. 95(14):8046-51; e patente US n° 5.720.928). Outros métodos de microscopia que podem ser usados com os métodos aqui descritos incluem, sem limitação, microscopia de tunelamento por varredura (STM), microscopia de força atômica (ATM), microscopia de varredura por força (SFM), microscopia de varredura por fótons (PSTM), potenciometria de varredura por tunelamento (STP), microscopia de força magnética (MFM), microscopia de varredura por sonda, microscopia de varredura por voltagem, microscopia de força atômica fotocondutiva, microscopia de varredura por tunelamento eletroquímico, microscopia eletrônica, microscopia de varredura por tunelamento em spin polarizado (SPSTM), microscopia de varredura térmica, microscopia de varredura por expansão em joule, microespectroscopia fototérmica, e semelhante.
[135] Em algumas modalidades, a microscopia de tunelamentocom varredura (STM) pode ser usada para determinar o comprimento de fragmento de ácido nucleico. Métodos de STM frequentemente podem gerar imagens em nível atômico das moléculas, tais como fragmentos de ácido nucleico. STM pode ser realizada, por exemplo, no ar, água, vácuo ultra alto, vários outros ambientes líquidos ou gasosos, e pode ser realizada em temperaturas variando desde próximo de zero Kelvin (-273,15°C) a algumas centenas de graus Celsius, por exemplo. Os componentes de um sistema de STM tipicamente incluem ponta de varredura, altura controlada piezoelétrica, agente de varredura x,y, controle da amostra-para-ponta grosseiro, sistema de isolamento de vibração, e computador. Métodos de STM baseiam-se geralmente no conceito de tunelamento quântico. Por exemplo, quando uma ponta de condução é trazida para perto da superfície de uma molécula (por exemplo, fragmento de ácido nucleico), uma polarização (isto é, diferença de voltagem) aplicada entre os dois pode permitir elétrons para túnel através do vácuo entre eles. A corrente de tunelamento resultante é uma função da posição da ponta, voltagem aplicada, e a densidade local de estados (LDOS) da amostra. A informação é adquirida através do monitoramento da corrente conforme a posição da ponta varre através da superfície, e pode ser exibida em forma de imagem. Se a ponta é movida através da amostra no plano x-y, as mudanças na altura da superfície e densidade de estados causam mudanças na corrente. Estas mudanças podem ser mapeadas em imagens. A mudança da corrente com respeito à posição, por vezes, pode ser medida em si, ou a altura, z, da ponta correspondente a uma corrente constante pode ser medida. Estes dois modos frequentemente são referidos como modo de altura constante e modo de corrente constante, respectivamente.
[136] Em algumas modalidades, microscopia de força atómica (AFM) pode ser utilizada para determinar o comprimento do fragmento de ácido nucleico. AFM geralmente é um tipo de alta resolução de microscopia em nanoescala. Informações sobre um objeto (por exemplo, fragmento de ácido nucleico) normalmente é coletada "sentindo" a superfície com uma sonda mecânica. Elementos piezoelétricos que facilitam movimentos minúsculos, mas exatos e precisos no comando eletrônico podem facilitar a varredura muito precisa. Em algumas variações, potenciais elétricos podem ser varridos usando cantilevers de condução. Os componentes de um sistema de AFM incluem, tipicamente, um braço de suporte com uma ponta afiada (isto é, a sonda) na sua extremidade que é usada para varrer a superfície de uma amostra (por exemplo, fragmento do ácido nucleico). O cantilever é tipicamente silício ou nitreto de silício com um raio da ponta de curvatura da ordem de nanômetros. Quando a ponta é colocada em proximidade de uma superfície da amostra, as forças entre a ponta e a amostra conduzem a uma deflexão do cantilever de acordo com a lei de Hooke. Dependendo da situação, as forças que são medidas em AFM incluem, por exemplo, força de contato mecânico, de van der Waals, forças de capilaridade, ligação química, forças eletrostáticas, forças magnéticas, forças de Casimir, forças de solvatação, e semelhante. Tipicamente, a deflexão é medida usando um ponto de laser refletido a partir da superfície de topo do cantilever em uma matriz de fotodiodos. Outros métodos que são usados incluem a interferometria ótica, cantilevers de sensibilidade capacitativa ou de AFM piezoresistivos.
Nanoporo
[137] Em algumas modalidades, o comprimento do fragmento de ácido nucleico é determinado usando um nanoporo. Em algumas modalidades, o comprimento de uma sonda correspondente (por exemplo, uma sonda correspondente aparada aqui descrita) é determinado usando um nanoporo. Um nanoporo é um pequeno buraco ou canal, tipicamente da ordem de 1 nanômetro de diâmetro. Certas proteínas celulares transmembranares podem atuar como nanoporos (por exemplo, alfa-hemolisina). Em algumas modalidades, nanoporos podem ser sintetizados (por exemplo, usando uma plataforma de silício). Imersão de um nanoporo em um fluido condutor e a aplicação de um potencial através dele resulta em uma ligeira corrente elétrica devido à condução de íons através da nanoporos. A quantidade de corrente que flui é sensível ao tamanho do nanoporo. Como um fragmento de ácido nucleico passa através de um nanoporo, a molécula de ácido nucleico obstrui o nanoporo a certo grau e gera uma mudança na corrente. A duração da mudança da corrente como o fragmento de ácido nucleico passa através do nanoporo pode ser medida. Em algumas modalidades, o comprimento do fragmento de ácido nucleico pode ser determinado com base nessa medição.
[138] Em algumas modalidades, o comprimento do fragmento de ácido nucleico pode ser determinado em função do tempo. Os fragmentos de ácidos nucleicos mais longos, por vezes, podem levar relativamente mais tempo para passar através de um nanoporo e fragmentos de ácido nucleico mais curtos podem levar, por vezes, relativamente menos tempo para passar através de um nanoporo. Desse modo, o comprimento relativo de um fragmento pode ser determinado com base no tempo de trânsito do nanoporo, em algumas modalidades. Em algumas modalidades, comprimento absoluto ou aproximado do fragmento pode ser determinado por comparação do tempo de trânsito do nanoporo de fragmentos alvo e/ou fragmentos de referência para os tempos de trânsito para um conjunto de padrões (isto é, com comprimentos conhecidos).
Sondas
[139] Em algumas modalidades, o comprimento do fragmento é determinado usando uma ou mais sondas. Em algumas modalidades, as sondas são projetadas de tal modo que elas hibridizam com cada ácido nucleico de interesse em uma amostra. Por exemplo, uma sonda pode compreender uma sequência de polinucleotídeos que é complementar a um ácido nucleico de interesse ou pode compreender uma série de monômeros que podem se ligar a um ácido nucleico de interesse. As sondas podem ter qualquer comprimento adequado para hibridizar (por exemplo, hibridizar completamente) com um ou mais fragmentos de ácido nucleico de interesse. Por exemplo, as sondas podem ser de qualquer comprimento, que se estende ou abrange para além do comprimento de um fragmento de ácido nucleico, ao qual se hibridiza. As sondas podem ser de cerca de 100 pb ou mais em comprimento. Por exemplo, as sondas podem ser, pelo menos, cerca de 200, 300, 400, 500, 600, 700, 800, 900 ou 1000 pb de comprimento.
[140] Em algumas modalidades, as sondas podem compreender uma sequência de polinucleotídeo que é complementar a um ácido nucleico de interesse e uma ou mais sequências de polinucleotídeo que não são complementares a um ácido nucleico de interesse (ou seja, sequências não complementares). Sequências não complementares podem residir, por exemplo, na extremidade 5' e/ou extremidade 3' da sonda. Em algumas modalidades, as sequências não complementares podem compreender sequências de nucleotídeo que não existem no organismo de interesse e/ou sequências que não são capazes de hibridizar com qualquer sequência do genoma humano. Por exemplo, sequências não complementares podem ser derivadas a partir de qualquer genoma não humano conhecido na técnica, tal como, por exemplo, genomas de animal não mamífero, genomas de planta, genomas de fungo, genomas de bactérias, ou genomas virais. Em algumas modalidades, uma sequência não complementar é do genoma PhiX 174. Em algumas modalidades, uma sequência não complementar pode compreender nucleotídeos modificados ou sintéticos que não são capazes de hibridizar com um nucleotídeo complementar.
[141] As sondas podem ser projetadas e sintetizadas de acordo com métodos conhecidos na técnica e descritos aqui para oligonucleotídeos (por exemplo, oligonucleotídeos de captura). As sondas também podem incluir qualquer uma das propriedades conhecidas na técnica e aqui descritas para oligonucleotídeos. As sondas aqui descritas podem ser projetadas de tal modo que elas compreendem nucleotídeos (por exemplo, adenina (A), timina (T), citosina (C), guanina (G) e uracila (U)), nucleotídeos modificados (por exemplo, pseudouridina, dihidrouridina, inosina (I), e 7- metilguanosina), nucleotídeos sintéticos, bases degeneradas (por exemplo, 6H, 8H-3,4-hidropirimido[4,5-c][1,2]oxazin-7- ona (P), 2-amino-6-metoxiaminopurina (K), N6-metoxiadenina (Z), e hipoxantina (I)), bases universais e/ou monômeros outros que nucleotídeos, nucleotídeos modificados ou nucleotídeos sintéticos, ou suas combinações e geralmente são projetados de tal modo que eles inicialmente têm comprimentos mais longos do que os fragmentos com que eles hibridizam.
[142] Em algumas modalidades, uma sonda compreende uma pluralidade de monômeros que são capazes de hibridizar com qualquer uma das versões que ocorrem naturalmente ou modificadas de nucleotídeos, tais como adenina (A), timina (T), citosina (C), guanina (G) e uracila (VC). Em algumas modalidades, uma sonda compreende uma pluralidade de monômeros que são capazes de hibridizar com pelo menos três de adenina, timina, citosina, e guanina. Por exemplo, uma sonda pode incluir uma espécie de monômero que é capaz de hibridizar com A, T e C; A, T e G; G, C e T; ou G, C e A. Em algumas modalidades, uma sonda compreende uma pluralidade de monômeros que são capazes de hibridizar com todos de adenina, timina, citosina e guanina. Por exemplo, uma sonda pode incluir uma espécie de monômero que é capaz de hibridizar com todos os de A, T, C e G. Em algumas modalidades, as condições de hibridização (por exemplo, rigorosa) podem ser ajustadas de acordo com os métodos aqui descritos, por exemplo, para facilitar a hibridização de certas espécies de monômeros com várias espécies de nucleotídeos. Em algumas modalidades, os monômeros incluem nucleotídeos. Em algumas modalidades, os monômeros incluem nucleotídeos que ocorrem naturalmente. Em algumas modalidades, os monômeros incluem nucleotídeos modificados.
[143] Em algumas modalidades, os monômeros de uma sonda incluem inosina. Inosina é um nucleotídeo comumente encontrados em RNAt e é capaz, em alguns casos, de hibridizar com A, T e C. Exemplo 9 aqui descreve um método que utiliza sondas de poli-inosina para a determinação do tamanho do fragmento de ácido nucleico. Em algumas modalidades, as sondas de poli-inosina são hibridizadas com os fragmentos de ácido nucleico sob condições de hibridização de baixo rigor ou não rigorosas (por exemplo, tais como baixa temperatura e/ou alto sal em comparação com as condições rigorosas de hibridização aqui descritas). Em algumas modalidades, os fragmentos de ácido nucleico são tratados com bissulfito de sódio, o que provoca a desaminação de resíduos de citosina não metilada em fragmentos para formar resíduos de uracila. Em algumas modalidades, os fragmentos de ácido nucleico tratados com bissulfito de sódio são amplificados (por exemplo, PCR amplificado) antes do tratamento com bissulfito de sódio. Em algumas modalidades, os fragmentos de ácido nucleico são ligados a uma sequência compreendendo um sítio do iniciador de amplificação universal não tendo resíduos de citosina. Uma segunda fita complementar pode então ser gerada, por exemplo, usando um iniciador de amplificação universal e uma reação de extensão. Tipicamente, os resíduos de uracila na primeira fita geram resíduos de adenina complementares na segunda fita. Desse modo, uma segunda fita não tendo resíduos de guanina pode ser gerada. Tais segundas fitas complementares livres de guanina, em alguns casos, podem hibridizar com sondas de poli-inosina sob condições de hibridização rigorosas.
[144] Em algumas modalidades, os monômeros de uma sonda incluem monômeros de base universal. Monômeros de base tipicamente universal são análogos de nucleobases ou monômeros sintéticos que podem hibridizar não seletivamente com cada uma das bases nativas (por exemplo, A, G, C, T). Desse modo, uma sonda compreendendo monômeros de base universal, por vezes, pode hibridizar com um fragmento de ácido nucleico independentemente da sequência de nucleotídeos. Bases universais podem incluir, sem limitação, 3-nitropirrol, 4-nitroindol, 5-nitroindol, 6-nitroindol, 3- metil-7-propinil isocarbostiril (PIM), 3-metil isocarbostiril (MICS), e 5-metil isocarbostiril (MICS) (ver, por exemplo, Nichols et al., (1994). Nature 369, 492-493; Bergstrom et al., (1995) J. Am. Chem. Soc. 117, 1201-1209; Loakes and Brown (1994) Nucleic Acids Res. 22, 4.039-4043; Lin and Brown (1992) Nucleic Acids Res. 20, 5149-5152; Lin and Brown (1989) Nucleic Acids Res. 17, 10383; Brown and Lin (1991) Carbohydrate Research 216, 129-139; Berger et al., (2000) Nucleic Acids Res. 28 (15):2911-2914).
[145] Em algumas modalidades, os monômeros de uma sonda incluem monômeros não nucleotídicos. Em algumas modalidades, as subunidades de monômeros incluem um polímero sintético. Em algumas modalidades, os monômeros incluem pirrolidona. Pirrolidona é um monômero de polímero sintético polipirrolidona e é capaz, em alguns casos, de hibridizar com todos de A, T, G e C.
[146] Em algumas modalidades, um método para a determinação do comprimento do fragmento inclui a etapa de contatar sob condições de recozimento de fragmentos de ácido nucleico (por exemplo, fragmentos alvo e/ou de referência), com uma pluralidade de sondas que podem recozer com os fragmentos, gerando desse modo espécies de fragmento-sonda tais como, por exemplo, espécies de sonda-alvo e espécies de sonda-referência. Condições de hibridização e/ou sonda (por exemplo, rigor) podem ser otimizadas para favorecer a ligação completa ou substancialmente completa com fragmento (por exemplo, alto rigor). Hibridizações de sonda-fragmento completas ou substancialmente completas geralmente incluem duplexes em que o fragmento não compreende porções não hibridizadas e a sonda pode compreender porções não hibridizadas, como descrito em mais detalhe abaixo.
[147] Em algumas modalidades, tais como quando o comprimento da sonda é mais longo do que o comprimento do fragmento, as espécies de sonda alvo e/ou espécies de sonda- referência podem compreender porções de sonda hibridizada (isto é, porções de sonda de fita simples; ver, por exemplo, Figura 12). Porções de sonda não hibridizada podem estar em cada extremidade da sonda (por exemplo, 3' ou 5' de uma sonda) ou em ambas as extremidades da sonda (isto é, extremidade 3' e 5' de uma sonda), e podem compreender qualquer número de monômeros. Em algumas modalidades, porções da sonda não hibridizada podem compreender cerca de 1 a cerca de 500 monômeros. Por exemplo, porções da sonda não hibridizada podem compreender cerca de 5, 10, 20, 30, 40, 50, 100, 200, 300 ou 400 monômeros.
[148] Em algumas modalidades, as porções da sonda não hibridizada podem ser removidas das espécies da sonda alvo e/ou espécies de sonda-referência, gerando desse modo sondas aparadas. A remoção de porções de sonda não hibridizada pode ser obtida por qualquer método conhecido na técnica para a clivagem e/ou digestão de um polímero, tal como, por exemplo, um método para a clivagem ou digestão de um ácido nucleico de fita simples. Porções da sonda não hibridizada podem ser removidas da extremidade 5' da sonda e/ou extremidade 3' da sonda. Tais métodos podem incluir o uso de clivagem química e/ou enzimática ou digestão. Em algumas modalidades, uma enzima capaz de clivar ligações de fosfodiéster entre subunidades de nucleotídeo de um ácido nucleico é usada para remover as porções da sonda não hibridizada. Tais enzimas podem incluir, sem limitação, nucleases (por exemplo, DNAase I, RNAse I), endonucleases (por exemplo, nuclease do feijão Mung, nuclease S1, e semelhante), nucleases de restrição, exonucleases (por exemplo, exonuclease I, exonuclease III, exonuclease T, exonuclease T7, exonuclease lambda, e semelhante), fosfodiesterases (por exemplo, fosfodiesterase II, fosfodiesterase de baço de vitela, fosfodiesterase de veneno de cobra, e semelhante), desoxirribonucleases (DNAse), ribonucleases (RNase), endonucleases flap, 5' nucleases, 3' nucleases, 3'-5' exonucleases, 5'-3' exonucleases e semelhante, ou suas combinações. Sondas aparadas geralmente são do mesmo ou substancialmente mesmo comprimento como o fragmento com o qual elas hibridizam. Desse modo, a determinação do comprimento de uma sonda aparada aqui pode fornecer uma medida do comprimento do fragmento de ácido nucleico correspondente. Comprimento da sonda aparada pode ser medido usando qualquer um dos métodos conhecidos na técnica ou aqui descritos para a determinação do comprimento do fragmento de ácido nucleico. Em algumas modalidades, as sondas podem conter uma molécula ou entidade detectável para facilitar a determinação de detecção e/ou de comprimento (por exemplo, um fluoróforo, radioisótopo, agente colorimétrico, partícula, enzimas, e semelhante). Comprimento da sonda aparada pode ser avaliado com ou sem a separação de produtos de porções não hibridizadas após elas serem removidas.
[149] Em algumas modalidades, sondas aparadas são dissociadas (isto é, separadas) dos seus fragmentos de ácido nucleico correspondentes. As sondas podem ser separadas dos seus fragmentos de ácido nucleico correspondentes usando qualquer método conhecido na técnica, incluindo, mas não limitado à desnaturação pelo calor. Sondas aparadas podem ser distinguidas dos fragmentos de ácido nucleico correspondentes por um método conhecido na técnica ou aqui descrito para marcação e/ou o isolamento de uma espécie de molécula em uma mistura. Por exemplo, uma sonda e/ou fragmento de ácido nucleico pode compreender uma propriedade detectável de tal modo que uma sonda é distinguível do ácido nucleico com o qual ela hibridiza. Exemplos não limitativos de propriedades detectáveis incluem propriedades óticas, propriedades elétricas, propriedades magnéticas, propriedades químicas, e tempo e/ou velocidade através de uma abertura de tamanho conhecido. Em algumas modalidades, as sondas e os fragmentos de ácido nucleico da amostra são fisicamente separados uns dos outros. A separação pode ser obtida, por exemplo, usando ligantes de captura, tal como biotina ou outros ligantes de afinidade, e agentes de captura, tais como avidina, estreptavidina, um anticorpo, ou um receptor. Uma sonda ou fragmento de ácido nucleico pode conter um ligante de captura tendo atividade de ligação específica a um agente de captura. Por exemplo, fragmentos de uma amostra de ácido nucleico podem ser biotinilados ou ligados a um ligante de afinidade usando métodos bem conhecidos na técnica e separados longe das sondas usando um ensaio de pulldown com grânulos revestidos com estreptavidina, por exemplo. Em algumas modalidades, um ligante de captura e um agente de captura ou de qualquer outra porção (por exemplo, marcação de massa) podem ser usados para adicionar massa aos fragmentos de ácido nucleico de tal forma que eles podem ser excluídos da faixa de massa das sondas detectadas em um espectrômetro de massa. Em algumas modalidades, a massa é adicionada às sondas por meio dos próprios monômeros e/ou adição de um marcador de massa, para mudar a faixa de massa para longe da faixa massa para os fragmentos de ácido nucleico.
Biblioteca de ácido nucleico
[150] Em algumas modalidades uma biblioteca de ácido nucleico é uma pluralidade de moléculas de polinucleotídeo (por exemplo, uma amostra de ácido nucleico) que são preparadas, reunidas e/ou modificadas por um processo específico, exemplos não limitativos dos quais incluem a imobilização em uma fase sólida (por exemplo, um suporte sólido, por exemplo, uma célula de fluxo, um grânulo), enriquecimento, amplificação, clonagem, detecção e/ou para sequenciamento de ácido nucleico. Em certas modalidades, uma biblioteca de ácido nucleico é preparada antes ou durante um processo de sequenciamento. Uma biblioteca de ácido nucleico (por exemplo, biblioteca de sequenciamento) pode ser preparada por um método adequado como é conhecido na técnica. Uma biblioteca de ácido nucleico pode ser preparada por um processo de preparação alvo ou não alvo.
[151] Em algumas modalidades uma biblioteca de ácidos nucleicos pode ser modificada para compreender uma porção química (por exemplo, um grupo funcional) configurada para a imobilização dos ácidos nucleicos em um suporte sólido. Em algumas modalidades uma biblioteca de ácidos nucleicos pode ser modificada para compreender uma biomolécula (por exemplo, um grupo funcional) e/ou um membro de um par de ligações configurado para imobilização da biblioteca em um suporte sólido, exemplos não limitativos dos quais incluem globulina de ligação a tiroxina, proteínas de ligação a esteróides, anticorpos, antígenos, haptenos, enzimas, lecitinas, ácidos nucleicos, repressores, proteína A, proteína G, avidina, estreptavidina, biotina, componente do complemento C1q, proteínas de ligação a ácido nucleico, receptores, carboidratos, oligonucleotídeos, polinucleotídeos, sequências de ácido nucleico complementar, e semelhante e suas combinações. Alguns exemplos de pares de ligação específicos incluem, sem limitação: uma porção de avidina e uma porção de biotina; um epítopo antigénico e um anticorpo ou um fragmento imunologicamente reativo do mesmo; um anticorpo e um hapteno; uma porção de digoxigen e um anticorpo anti-digoxigen; uma porção de fluoresceína e um anticorpo anti-fluoresceina; um operador e um repressor; uma nuclease e um nucleotídeo; uma lecitina e um polissacarídeo; um esteróide e uma proteína de ligação ao esteróide; um composto ativo e um receptor de composto ativo; um hormônio e um receptor hormonal; uma enzima e um substrato; uma imunoglobulina e a proteína A; um oligonucleotídeo ou polinucleotídeo e seu complemento correspondente; o semelhante ou combinações dos mesmos.
[152] Em algumas modalidades uma biblioteca de ácidos nucleicos pode ser modificada para compreender um ou mais polinucleotídeos da composição conhecida, exemplos não limitativos dos quais incluem um identificador (por exemplo, uma marca, uma marca de indexação), uma sequência de captura, uma marca, um adaptador, um sítio de restrição da enzima, um promotor, um intensificador, uma origem de replicação, uma haste em LASSO, uma sequência complementar (por exemplo, um sítio de ligação do iniciador, um sítio de recozimento), um sítio de integração adequado (por exemplo, um transposon, um sítio de integração viral), um nucleotídeo modificado, o semelhante ou suas combinações. Os polinucleotídeos de sequência conhecida podem ser adicionados em uma posição adequada, por exemplo, na extremidade 5', na extremidade 3' ou dentro de uma sequência de ácido nucleico. Os polinucleotídeos de sequência conhecida podem ser as mesmas ou diferentes sequências. Em algumas modalidades um polinucleotídeo de sequência conhecida é configurado para hibridizar com um ou mais oligonucleotídeos imobilizados sobre uma superfície (por exemplo, uma superfície em célula de fluxo). Por exemplo, uma molécula de ácido nucleico compreendendo uma sequência 5' conhecida pode hibridizar com uma primeira pluralidade de oligonucleotídeos enquanto a sequência 3' conhecida pode hibridizar com uma segunda pluralidade de oligonucleotídeos. Em algumas modalidades uma biblioteca de ácido nucleico pode compreender marcações específicas no cromossomo, sequências de captura, marcações e/ou adaptadores. Em algumas modalidades uma biblioteca de ácidos nucleicos compreende uma ou mais marcações detectáveis. Em algumas modalidades uma ou mais marcações detectáveis podem ser incorporadas em uma biblioteca de ácido nucleico em uma extremidade 5', em uma extremidade 3', e/ou em qualquer posição do nucleotídeo em um ácido nucleico na biblioteca. Em algumas modalidades uma biblioteca de ácidos nucleicos compreende oligonucleotídeos hibridizados. Em certas modalidades oligonucleotídeos hibridizados são sondas marcadas. Em algumas modalidades uma biblioteca de ácidos nucleicos compreende as sondas de oligonucleotídeo hibridizado antes da imobilização em uma fase sólida.
[153] Em algumas modalidades um polinucleotídeo de sequência conhecida compreende uma sequência universal. Uma sequência universal é uma sequência de ácido nucleotídeo específico que é integrada em duas ou mais moléculas de ácido nucleico ou dois ou mais subconjuntos de moléculas de ácido nucleico em que a sequência universal é a mesmo para todos os subconjuntos de moléculas ou moléculas em que ele é integrado. Uma sequência universal é frequentemente projetada para hibridizar e/ou amplificar uma pluralidade de sequências diferentes, usando um único iniciador universal, que é complementar a uma sequência universal. Em algumas modalidades duas (por exemplo, um par) ou mais sequências universais e/ou iniciadores universais são usados. Um iniciador universal compreende frequentemente uma sequência universal. Em algumas modalidades adaptadores (por exemplo, adaptadores universais) compreendem sequências universais. Em algumas modalidades uma ou mais sequências universais são utilizadas para capturar, identificar e/ou detectar várias espécies ou subconjuntos de ácidos nucleicos.
[154] Em certas modalidades da preparação de uma biblioteca de ácido nucleico, (por exemplo, em certo sequenciamento por procedimentos de síntese), os ácidos nucleicos são de tamanhos selecionados e/ou fragmentados em comprimentos de várias centenas de pares de bases, ou menos (por exemplo, na preparação para a produção de biblioteca). Em algumas modalidades, a preparação da biblioteca é realizada sem a fragmentação (por exemplo, quando se utiliza ccfDNA).
[155] Em certas modalidades, um método de preparação da biblioteca baseada na ligação é usado (por exemplo, ILLUMINA TRUSEQ, Illumina, San Diego CA). Métodos de preparação da biblioteca baseada na ligação frequentemente fazem uso de um projeto de adaptador (por exemplo, um adaptador metilado) que pode incorporar uma sequência de índice na etapa de ligação inicial e frequentemente pode ser usado para preparar amostras para sequenciamento de leitura única, sequenciamento da extremidade final e sequenciamento multiplexado. Por exemplo, por vezes, ácidos nucleicos (por exemplo, ácidos nucleicos fragmentados ou ccfDNA) são reparados na extremidade através de uma reação de preenchimento, uma reação de exonuclease ou uma combinação das mesmas. Em algumas modalidades o ácido nucleico reparado de extremidade cega resultante pode então ser estendido por um único nucleotídeo, que é complementar a uma única saliência do nucleotídeo na extremidade 3' de um adaptador/iniciador. Qualquer nucleotídeo pode ser usado para estender/prender nucleotídeos. Em algumas modalidades a preparação da biblioteca de ácido nucleico compreende a ligação de um oligonucleotídeo do adaptador. Oligonucleotídeos do adaptador são normalmente complementares às âncoras da célula de fluxo, e por vezes, são usados para imobilizar uma biblioteca de ácido nucleico a um suporte sólido, tal como a superfície interna de uma célula de fluxo, por exemplo. Em algumas modalidades, um oligonucleotídeo do adaptador compreende um identificador, um ou mais sítios de hibridização do iniciador de sequenciamento (por exemplo, sequências complementares para iniciadores de sequenciamento universal, iniciadores de sequenciamento de extremidade única, iniciadores de sequenciamento de extremidade emparelhado, iniciadores de sequenciamento multiplexados, e semelhante) ou suas combinações (por exemplo, adaptador/sequenciamento, adaptador/identificador, adaptador/identificador/ sequenciamento).
[156] Um identificador pode ser uma marca detectável adequada incorporada no ou ligada a um ácido nucleico (por exemplo, um polinucleotídeo) que permite a detecção e/ou identificação de ácidos nucleicos que constituem o identificador. Em algumas modalidades um identificador é incorporado em ou ligado a um ácido nucleico durante um método de sequenciamento (por exemplo, por uma polimerase). Exemplos não limitativos de identificadores incluem marcas de ácido nucleico, índices ou códigos de barras de ácido nucleico, uma marca radioativa (por exemplo, um isótopo), marca metálica, uma marca fluorescente, uma marca quimioluminescente, uma marca fosforescente, um supressor de fluoróforo, um corante, uma proteína (por exemplo, uma enzima, um anticorpo ou parte dele, um ligante, um membro de um par de ligações), o semelhante ou combinações dos mesmos. Em algumas modalidades de um identificador (por exemplo, um índice ou código de barras de ácido nucleico) é uma sequência única, conhecida e/ou identificável de análogos de nucleotídeos ou nucleotídeos. Em algumas modalidades identificadores são seis ou mais nucleotídeos contíguos. Uma grande variedade de fluoróforos está disponível com uma variedade de espectros de emissão e excitação diferentes. Qualquer tipo e/ou número de fluoróforos adequados pode ser usado como um identificador. Em algumas modalidades 1 ou mais, 2 ou mais, 3 ou mais, 4 ou mais, 5 ou mais, 6 ou mais, 7 ou mais, 8 ou mais, 9 ou mais, 10 ou mais, 20 ou mais, 30 ou mais, ou 50 ou mais identificadores diferentes são usados em um método aqui descrito (por exemplo, um método de detecção e/ou sequenciamento de ácido nucleico). Em algumas modalidades, um ou dois tipos de identificadores (por exemplo, marcas fluorescentes) são ligados a cada ácido nucleico em uma biblioteca. Detecção e/ou quantificação de um identificador pode ser realizada por um método, aparelho ou máquina adequado, exemplos não limitativos dos quais incluem a citometria de fluxo, reação de cadeia polimerase quantitativa (qPCR), eletroforese em gel, um luminômetro, um fluorímetro, um espectrofotômetro, um chip de gene adequado ou análise de microarranjo, Western blot, espectrometria de massa, cromatografia, análise de citometria de fluxo, microscopia de fluorescência, um método de formação de imagem digital ou fluorescência adequado, microscopia de varredura a laser confocal, citometria de varredura a laser, cromatografia de afinidade, separação manual em modo de batelada, suspensão do campo elétrico, um método de sequenciamento de ácido nucleico e/ou aparelho de sequenciamento de ácido nucleico adequados, o semelhante e suas combinações.
[157] Em algumas modalidades, um método de preparação da biblioteca baseada em transposon é utilizado (por exemplo, EPICENTER NEXTERA, Epicenter, Madison, WI). Métodos baseados em transposon normalmente usam transposição in vitro para fragmentar simultaneamente e marcar DNA em uma reação de tubo individual (frequentemente permitindo a incorporação de marcas específicas da plataforma e códigos de barras opcionais), e preparar bibliotecas prontas para sequenciador.
[158] Em algumas modalidades uma biblioteca de ácido nucleico ou suas partes são amplificadas (por exemplo, amplificados por um método baseado em PCR). Em algumas modalidades um método de sequenciamento compreende a amplificação de uma biblioteca de ácido nucleico. Uma biblioteca de ácido nucleico pode ser amplificada antes ou após a imobilização em um suporte sólido (por exemplo, um suporte sólido de uma célula de fluxo). Amplificação de ácido nucleico inclui o processo de amplificação ou aumento dos números de um molde de ácido nucleico e/ou de seu complemento que estão presentes (por exemplo, uma biblioteca de ácido nucleico), através da produção de uma ou mais cópias do molde e/ou o seu complemento. A amplificação pode ser realizada por um método adequado. Uma biblioteca de ácido nucleico pode ser amplificada por um método de termociclagem ou por um método de amplificação isotérmica. Em algumas modalidades um método de amplificação por círculo rolante é usado. Em algumas modalidades a amplificação ocorre em um suporte sólido (por exemplo, dentro de uma célula de fluxo), onde uma biblioteca de ácido nucleico ou parte dela está imobilizada. Em certos métodos de sequenciamento, uma biblioteca de ácido nucleico é adicionada a uma célula de fluxo e imobilizada por hibridização em âncoras sob condições adequadas. Esse tipo de amplificação de ácido nucleico é frequentemente referido como amplificação em fase sólida. Em algumas modalidades da amplificação em fase sólida, todos ou uma porção dos produtos amplificados são sintetizados por uma extensão iniciando de um iniciador imobilizado. Reações de amplificação em fase sólida são análogas às amplificações convencionais em fase de solução, exceto que pelo menos um dos oligonucleotídeos de amplificação (por exemplo, iniciadores) é imobilizado em um suporte sólido.
[159] Em algumas modalidades amplificação em fase sólida compreende uma reação de amplificação de ácido nucleico que compreende apenas uma espécie de iniciador de oligonucleotídeo imobilizado em uma superfície. Em certas modalidades amplificação em fase sólida compreende uma pluralidade de diferentes espécies de iniciadores de oligonucleotídeo imobilizados. Em algumas modalidades amplificação em fase sólida pode compreender uma reação de amplificação de ácido nucleico compreendendo uma espécie de iniciador de oligonucleotídeo imobilizado em uma superfície sólida e uma segunda espécie de iniciador de oligonucleotídeo diferente em solução. Várias espécies diferentes de iniciadores imobilizados ou iniciadores baseados em solução podem ser usados. Exemplos não-limitativos de reações de amplificação de ácido nucleico em fase sólida incluem amplificação interfacial, amplificação em ponte, PCR em emulsão, amplificação WildFire (por exemplo, publicação da patente US US20130012399), o semelhante ou combinações dos mesmos.
Sequenciamento
[160] Em algumas modalidades, os ácidos nucleicos (por exemplo, fragmentos de ácido nucleico, amostra de ácido nucleico, ácido nucleico isento de célula) podem ser sequenciados. Em algumas modalidades, uma sequência completa ou substancialmente completa é obtida e, por vezes, uma sequência parcial é obtida. Em algumas modalidades, um ácido nucleico não é sequenciado, e a sequência de um ácido nucleico não é determinada por um método de sequenciamento, quando se realiza um método aqui descrito. Em algumas modalidades, o comprimento do fragmento é determinado usando um método de sequenciamento. Em algumas modalidades, o comprimento do fragmento é determinado sem uso de um método de sequenciamento. Sequenciamento, mapeamento e métodos analíticos relacionados são aqui descritos e são conhecidos na técnica (por exemplo, publicação do pedido de patente dos Estados Unidos US2009/0029377, aqui incorporado por referência). Certos aspectos de tais processos são descritos a seguir.
[161] Em algumas modalidades, o comprimento do fragmento é determinado usando um método de sequenciamento. Em algumas modalidades, o comprimento do fragmento é determinado usando uma plataforma de sequenciamento de extremidade pareada. Tais plataformas envolvem o sequenciamento de ambas as extremidades de um fragmento de ácido nucleico. Geralmente, as sequências correspondentes a ambas extremidades do fragmento podem ser mapeadas para um genoma de referência (por exemplo, um genoma humano de referência). Em certas modalidades, ambas extremidades são sequenciadas em um comprimento legível que é suficiente para mapear, individualmente para cada extremidade do fragmento, para um genoma de referência. Exemplos de comprimentos legíveis de sequência de extremidade pareada são descritos abaixo. Em certas modalidades, a totalidade ou uma porção das sequências podem ser mapeadas para um genoma de referência sem incompatibilidade. Em algumas modalidades, cada sequência é mapeada independentemente. Em algumas modalidades, a informação de ambas sequências (isto é, de cada extremidade) é consignada no processo de mapeamento. O comprimento de um fragmento pode ser determinado, por exemplo, através do cálculo da diferença entre as coordenadas genômicas atribuídas a cada sequência de extremidade pareada.
[162] Em algumas modalidades, o comprimento do fragmento pode ser determinado usando um processo de sequenciamento por meio de que uma sequência completa ou substancialmente completa de nucleotídeos é obtida para o fragmento. Tais processos de sequenciamento incluem plataformas que geram comprimentos de sequências relativamente longos (por exemplo, Roche 454, Ion Torrent, única molécula (Pacific Biosciences), tecnologia em tempo real SMRT, e semelhante).
[163] Em algumas modalidades alguns ou todos os ácidos nucleicos de uma amostra são enriquecidos e/ou amplificados (por exemplo, não-especificamente, por exemplo, por um método baseado em PCR) antes ou durante sequenciamento. Em certas modalidades porções específicas de ácido nucleico ou subconjuntos em uma amostra são enriquecidos e/ou amplificados antes ou durante sequenciamento. Em algumas modalidades, uma porção ou um subconjunto de um conjunto pré-selecionado de ácidos nucleicos é sequenciado aleatoriamente. Em algumas modalidades, os ácidos nucleicos de uma amostra não são enriquecidos e/ou amplificados antes ou durante sequenciamento.
[164] Como aqui usado, "sequências" (isto é, "read") são sequências de nucleotídeo curtas produzidas por qualquer processo de sequenciamento aqui descrito ou conhecido na técnica. Sequências podem ser geradas a partir de uma extremidade de fragmentos de ácido nucleico ("sequências de extremidade única"), e, por vezes, são geradas a partir de ambas as extremidades de ácidos nucleicos (por exemplo, sequências de extremidade pareada, sequências de dupla extremidade).
[165] O comprimento de uma sequência é frequentemente associado com a tecnologia de sequenciamento em particular. Métodos de alto rendimento, por exemplo, fornecem sequências que podem variar em tamanho, de dezenas a centenas de pares de bases (pb). Sequenciamento de nanoporo, por exemplo, pode fornecer sequências que podem variar em tamanho, de dezenas a centenas de milhares de pares de bases. Em algumas modalidades, as sequências são de um comprimento médio, mediano, baixo ou absoluto de cerca de 15 pb a cerca de 900 pb longo. Em certas modalidades sequências são um comprimento médio, mediano, baixo ou absoluto de cerca de 1000 pb ou mais.
[166] Em algumas modalidades o comprimento nominal, baixo, médio ou absoluto de sequências de extremidade única é por vezes e cerca de 1 nucleotídeo a cerca de 500 nucleotídeos contíguos, cerca de 15 nucleotídeos contíguos a cerca de 50 nucleotídeos contíguos, cerca de 30 nucleotídeos contíguos a cerca de 40 nucleotídeos contíguos, e, por vezes, cerca de 35 nucleotídeos contíguos ou cerca de 36 nucleotídeos contíguos. Em certas modalidades, o comprimento nominal, baixo, médio ou absoluto de sequências de extremidade única é de cerca de 20 a cerca de 30 bases, ou cerca de 24 a cerca de 28 bases de comprimento. Em certas modalidades o comprimento nominal, baixo, médio ou absoluto de sequências de extremidade única é de cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14, 15, 16, 17, 18, 19, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48 ou 49 bases em comprimento.
[167] Em certas modalidades, comprimento nominal, baixo, médio ou absoluto de sequências de extremidade pareada por vezes é de cerca de 10 nucleotídeos contíguos a cerca de 25 nucleotídeos contíguos (por exemplo, cerca de 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 ou 25 nucleotídeos em comprimento), cerca de 15 nucleotídeos contíguos a cerca de 20 nucleotídeos contíguos, e, por vezes, é de cerca de 17 nucleotídeos contíguos, cerca de 18 nucleotídeos contíguos, cerca de 20 nucleotídeos contíguos, cerca de 25 nucleotídeos contíguos, cerca de 36 nucleotídeos contíguos ou cerca de 45 nucleotídeos contíguos.
[168] Sequências geralmente são representações de sequências de nucleotídeo em um ácido nucleico físico. Por exemplo, em uma sequência que contém uma representação ATGC de uma sequência, "A" representa um nucleotídeo adenina, "T" representa um nucleotídeo timina, "G" representa um nucleotídeo guanina e "C" representa um nucleotídeo citosina, em um ácido nucleico físico. Sequências obtidas a partir do sangue de uma mulher grávida podem ser lidos a partir de uma mistura de ácido nucleico fetal e materna. Uma mistura de sequências relativamente curtas pode ser transformada por processos aqui descritos para a representação de um ácido nucleico genômico presente na mulher grávida e/ou no feto. Uma mistura de sequências relativamente curtas pode ser transformada em uma representação de uma variação do número de cópia (por exemplo, uma variação do número de cópia materna e/ou fetal), a variação genética ou uma aneuploidia, por exemplo. Sequências de uma mistura de ácido nucleico materno e fetal podem ser transformadas em uma representação de um cromossomo compósito ou seu segmento compreendendo características de um ou ambos os cromossomos materno e fetal. Em certas modalidades, "obter" sequências de ácido nucleico de uma amostra de um sujeito e/ou "obter" sequências de ácido nucleico de uma amostra biológica de uma ou mais pessoas de referência pode envolver diretamente o sequenciamento de ácido nucleico para obter a informação da sequência. Em algumas modalidades, "obter" pode envolver a receber informação sobre a sequência obtida diretamente a partir de um ácido nucleico por outro.
[169] Em algumas modalidades, uma fração do genoma é sequenciada, o que por vezes é expressa na quantidade do genoma coberto pelas sequências de nucleotídeo determinadas (por exemplo, cobertura menor do que 1). Quando um genoma é sequenciado com cobertura de cerca de 1 vez, cerca de 100% da sequência de nucleotídeo do genoma é representado por sequências. Um genoma também pode ser sequenciado com redundância, em que uma região fornecida do genoma pode ser coberta por duas ou mais sequências ou sequências de sobreposição (por exemplo, cobertura maior que 1). Em algumas modalidades, o genoma é sequenciado com cobertura de cerca de 0,01 vezes a cerca de 100 vezes, cobertura de cerca de 0,2 vezes a 20 vezes, ou cobertura de cerca de 0,2 vezes a cerca de 1 vez (por exemplo, cobertura de cerca de 0,02, 0,03, 0,04, 0,05, 0,06, 0,07, 0,08, 0,09, 0,1, 0,2, 0,3, 0,4, 0,5, 0,6, 0,7, 0,8, 0,9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90 vezes).
[170] Em algumas modalidades, a cobertura do genoma ou a cobertura da sequência é proporcional às contagens da sequência total. Por exemplo, os ensaios que geram e/ou analisam maiores quantidades de contagens de sequência são tipicamente associados com os maiores níveis de cobertura da sequência. Os ensaios que geram e/ou analisam menos quantidades de contagens de sequência são tipicamente associados com níveis menores de cobertura da sequência. Em algumas modalidades, a cobertura da sequência e/ou contagem de sequência pode ser reduzida sem diminuir significativamente a precisão (por exemplo, sensibilidade e/ou especificidade) de um método aqui descrito. Uma diminuição significativa na precisão pode ser uma redução na precisão de cerca de 1% a cerca de 20% em comparação com um método que não utiliza contagem de sequência reduzida. Por exemplo, uma diminuição significativa na precisão pode ser cerca de 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 15% ou mais de redução. Em algumas modalidades, a cobertura de sequência e/ou contagem de sequência é reduzida em cerca de 50% ou mais. Por exemplo, a cobertura de sequência e/ou contagem de sequência pode ser reduzida em cerca de 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% ou mais. Em algumas modalidades, a cobertura da sequência e/ ou contagem de sequência é reduzida em cerca de 60% a cerca de 85%. Por exemplo, a cobertura de sequência e/ou contagem de sequência pode ser reduzida em cerca de 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72 %, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83% ou 84%. Em algumas modalidades, a cobertura da sequência e/ou contagem de sequência pode ser reduzida através da remoção de certas sequências. Em alguns casos, as sequências de fragmentos maiores do que um comprimento particular (por exemplo, fragmentos maiores do que cerca de 160 bases) são removidos.
[171] Em algumas modalidades, um subconjunto de sequências é selecionado para análise e, por vezes, uma certa porção de sequências é removida da análise. A seleção de um subconjunto de sequências pode, em certos casos, enriquecer uma espécie de ácido nucleico (por exemplo, ácido nucleico fetal). Enriquecimento de sequências do ácido nucleico do feto, por exemplo, frequentemente aumentam a precisão do método aqui descrito (por exemplo, detecção de aneuploidia fetal). No entanto, a seleção e remoção de sequências de uma análise frequentemente diminuem a precisão do método aqui descrito (por exemplo, devido a um aumento da variância). Desse modo, sem ser limitado pela teoria, há geralmente um equilíbrio entre o aumento da precisão associada com enriquecimento legível fetal e diminuição da precisão associada com uma quantidade reduzida de sequências em métodos que compreendem a seleção e/ou remoção de sequências (por exemplo, de fragmentos em uma faixa de tamanho particular). Em algumas modalidades, um método compreende a seleção de um subconjunto de sequências enriquecido com sequências de ácido nucleico fetal sem diminuir significativamente a precisão do método. A ponderação desta aparente troca, foi determinada, como aqui descrito, que o uso de um subconjunto de sequências de nucleotídeo (por exemplo, sequências de fragmentos relativamente curtos), pode melhorar ou manter a precisão das análises genéticas fetais. Por exemplo, em certas modalidades, cerca de 80% ou mais de sequências de nucleotídeo podem ser descartadas, mantendo os valores de sensibilidade e especificidade que são semelhantes aos valores para um método comparável que não descarta tais sequências de nucleotídeo.
[172] Em certas modalidades, um subconjunto de fragmentos de ácido nucleico é selecionado antes do sequenciamento. Em certas modalidades, as técnicas à base de hibridização (por exemplo, usando matrizes de oligonucleotídeos) podem ser usadas para primeiro selecionar as sequências de ácido nucleico de certos cromossomos (por exemplo, cromossomos sexuais e/ou um cromossomo potencialmente com aneuploidia e outro cromossomo(s) que não está envolvido na aneuploidia testado). Em algumas modalidades, o ácido nucleico pode ser fracionado pelo tamanho (por exemplo, por eletroforese em gel, cromatografia de exclusão por tamanho ou por abordagem baseada em microfluidos) e, em certos casos, o ácido nucleico fetal pode ser enriquecido por seleção de ácido nucleico com um peso molecular menor (por exemplo, menos do que 300 pares de bases, menos do que 200 pares de bases, menos do que 150 pares de bases, menos do que 100 pares de bases). Em algumas modalidades, o ácido nucleico fetal pode ser enriquecido suprimindo ácido nucleico materno de base, tal como pela adição de formaldeído. Em algumas modalidades, uma porção ou um subconjunto de um conjunto pré-selecionado de fragmentos de ácido nucleico é sequenciado aleatoriamente. Em algumas modalidades, o ácido nucleico é amplificado antes do sequenciamento. Em algumas modalidades, uma porção ou um subconjunto do ácido nucleico é amplificado antes do sequenciamento.
[173] Em algumas modalidades, uma amostra de ácido nucleico de um indivíduo é sequenciada. Em certas modalidades, os ácidos nucleicos de cada uma de duas ou mais amostras são sequenciados, em que as amostras são de um indivíduo ou de diferentes indivíduos. Em certas modalidades, as amostras de ácido nucleico de duas ou mais amostras biológicas são reunidas, onde cada amostra biológica é de um indivíduo, ou dois ou mais indivíduos e o conjunto é sequenciado. Nas últimas modalidades, uma amostra de ácido nucleico de cada amostra biológica, frequentemente, é identificada por um ou mais identificadores únicos ou marcas de identificação.
[174] Em algumas modalidades um método de sequenciamento utiliza identificadores que permitem a multiplexação de reações de sequência em um processo de sequenciamento. Quanto maior for o número de identificadores únicos, maior o número de amostras e/ou cromossomos para a detecção, por exemplo, que podem ser multiplexados em um processo de sequenciamento. Um processo de sequenciamento pode ser realizado usando qualquer número adequado de identificadores únicos (por exemplo, 4, 8, 12, 24, 48, 96, ou mais).
[175] Um processo de sequenciamento, por vezes, faz uso de uma fase sólida, e, por vezes, a fase sólida compreende uma célula de fluxo no qual o ácido nucleico de uma biblioteca pode ser ligado e reagentes podem ser vertidos e contatados com o ácido nucleico ligado. Uma célula de fluxo, por vezes, inclui faixas de célula de fluxo, e o uso de identificadores podem facilitar a análise de um número de amostras em cada faixa. Uma célula de fluxo é frequentemente um suporte sólido que pode ser configurado para reter e/ou permitir a passagem ordenada de soluções de reagente ao longo dos analitos ligados. As células de fluxo estão frequentemente na forma planar, oticamente transparentes, geralmente na escala milimétrica ou sub-milimétrica, e frequentemente, têm canais ou faixas em que a interação do analito/reagente ocorre. Em algumas modalidades o número de amostras analisadas em uma dada faixa de célula de fluxo é dependente do número de identificadores únicos usados durante a preparação da biblioteca e/ou projeto da sonda, faixa de célula de fluxo única. Multiplexagem usando 12 identificadores, por exemplo, permite a análise simultânea de 96 amostras (por exemplo, igual ao número de poços em uma placa de micropoço de 96 poços) em uma célula de fluxo de 8 faixas. Semelhantemente, multiplexação usando 48 identificadores, por exemplo, permite a análise simultânea de 384 amostras (por exemplo, igual ao número de poços em uma placa de micropoço de 384 poços) em uma célula de fluxo de 8 faixas. Exemplos não limitativos de kits de sequenciamento multiplex comercialmente disponíveis incluem kit de oligonucleotídeos para preparação de amostra de multiplexação de Illumina e iniciadores de sequenciamento de multiplexação e kit de controle PhiX (por exemplo, números de catálogo de Illumina PE-400-1001 e PE-400-1002, respectivamente).
[176] Qualquer método adequado para a sequenciamento de ácidos nucleicos pode ser utilizado, exemplos não limitativos dos quais incluem Maxim e Gilbert, métodos de terminação de cadeia, sequenciamento por síntese, sequenciamento por ligação, de sequenciamento por espectrometria de massa, técnicas baseadas em microscopia, o semelhante ou combinações dos mesmos. Em algumas modalidades, uma tecnologia de primeira geração, tais como, por exemplo, métodos de sequenciamento de Sanger incluindo métodos de sequenciamento de Sanger automatizados, incluindo sequenciamento de Sanger de microfluidos, podem ser usados em um método aqui fornecido. Em algumas modalidades tecnologias de sequenciamento que incluem o uso de tecnologias de formação de imagem de ácido nucleico (por exemplo, microscopia eletrônica de transmissão (TEM) e microscopia de força atômica (AFM)), podem ser usadas. Em algumas modalidades, um método de sequenciamento de alto rendimento é usado. Métodos de sequenciamento de alto rendimento geralmente envolvem modelos de DNA amplificado por clonagem de DNA ou moléculas individuais que são sequenciados em uma forma massivamente paralela, às vezes dentro de uma célula de fluxo. Técnicas de sequenciamento de DNA de próxima geração (por exemplo, segunda e terceira geração), capazes de sequenciamento de DNA em uma forma massivamente paralela, podem ser usadas para os métodos aqui descritos e são coletivamente referidos aqui como "sequenciamento massivamente paralelo" (MPS). Em algumas modalidades métodos de sequenciamento MPS utilizam uma abordagem orientada, onde cromossomos específicos, genes ou regiões de interesse são sequências. Em certas modalidades uma abordagem não-orientada é usada onde a maioria ou todos os ácidos nucleicos em uma amostra são sequenciados, amplificados e/ou capturados aleatoriamente.
[177] Em algumas modalidades um enriquecimento orientado, amplificação e/ou sequenciamento é usado. A abordagem orientada, frequentemente, isola, seleciona e/ou enriquece um subconjunto de ácidos nucleicos em uma amostra para processamento adicional pelo uso de oligonucleotídeos específicos da sequência. Em algumas modalidades uma biblioteca de oligonucleotídeos de sequência específica é utilizada para atingir (por exemplo, para hibridizar) um ou mais conjuntos de ácidos nucleicos em uma amostra. Os oligonucleotídeos e/ou iniciadores de sequência específica são frequentemente seletivos para sequências particulares (por exemplo, sequências de ácido nucleico único) presentes em um ou mais cromossomos, genes, éxons, íntrons, e/ou regiões reguladoras de interesse. Qualquer método ou combinação de métodos adequados pode ser usado para o enriquecimento, a amplificação e/ou o sequenciamento de um ou mais subconjuntos de ácidos nucleicos alvos. Em algumas modalidades sequências alvos são isoladas e/ou enriquecidas por captura em uma fase sólida (por exemplo, uma célula de fluxo, um grânulo) usando uma ou mais âncoras de sequência específica. Em algumas modalidades sequências alvos são enriquecidas e/ou amplificadas por um método baseado em polimerase (por exemplo, um método baseado em PCR, por qualquer extensão baseada em polimerase adequada), usando iniciadores e/ou conjuntos de iniciador de sequência específica. Âncoras de sequência específica, frequentemente, podem ser usadas como iniciadores de sequência específica.
[178] Sequenciamento MPS às vezes faz uso de sequenciamento por síntese e certo processos de formação de imagem. A tecnologia de sequenciamento de ácido nucleico que pode ser usada em um método aqui descrito é o sequenciamento por síntese e sequenciamento à base de terminador reversível (por exemplo, analisador de genoma de Illumina; analisador de genoma II; HISEQ 2000; HISEQ 2500 (Illumina, San Diego, CA)). Com essa tecnologia, milhões de fragmentos de ácido nucleico (por exemplo, DNA) podem ser sequenciados em paralelo. Em um exemplo desse tipo de tecnologia de sequenciamento, uma célula de fluxo é usada que contém um slide oticamente transparente com 8 faixas individuais nas superfícies das quais estão ligadas âncoras de oligonucleotídeo (por exemplo, iniciadores de adaptador). A célula de fluxo é frequentemente um suporte sólido que pode ser configurado para reter e/ou permitir a passagem ordenada de soluções de reagente ao longo dos analitos ligados. As células de fluxo estão frequentemente na forma planar, opticamente transparentes, geralmente na escala milimétrica ou sub-milimétrica, e frequentemente, têm canais ou faixas em que a interação de analito/reagente ocorre.
[179] O sequenciamento por síntese, em algumas modalidades, compreende iterativamente adicionar (por exemplo, por adição covalente) um nucleotídeo a um iniciador ou fita de ácido nucleico pré-existente de uma maneira direcionada ao molde. Cada adição iterativa de um nucleotídeo é detectada e o processo é repetido várias vezes até que uma sequência de uma fita ácido nucleico é obtida. O comprimento de uma sequência obtida depende, em parte, do número de etapas de adição e de detecção que são executadas. Em algumas modalidades do sequenciamento por síntese, um, dois, três ou mais nucleotídeos do mesmo tipo (por exemplo, A, G, C ou T) são adicionados e detectados em um ciclo de adição de nucleotídeo. Os nucleotídeos podem ser adicionados por qualquer método adequado (por exemplo, enzimaticamente ou quimicamente). Por exemplo, em algumas modalidades uma polimerase ou uma ligase adiciona um nucleotídeo a um iniciador ou a uma fita de ácido nucleico pré-existente em uma maneira direcionada ao molde. Em algumas modalidades de sequenciamento por síntese, são usados diferentes tipos de nucleotídeos, análogos de nucleotídeos e/ou identificadores. Em algumas modalidades terminadores reversíveis e/ou identificadores removíveis (por exemplo, cliváveis) são usados. Em algumas modalidades nucleotídeos marcados fluorescentes e/ou análogos de nucleotídeos são usados. Em certas modalidades sequenciamento por síntese compreende uma clivagem (por exemplo, a clivagem e remoção de um identificador) e/ou uma etapa de lavagem. Em algumas modalidades a adição de um ou mais nucleotídeos é detectada por um método adequado aqui descrito ou conhecido na técnica, exemplos não limitativos dos quais incluem qualquer aparelho ou máquina de formação de imagem adequado, uma câmara adequada, uma câmara digital, um aparelho de formação de imagem baseado em CCD (Dispositivo de carga acoplada) (por exemplo, uma câmera CCD), um aparelho de formação de imagem baseado em CMOS (óxido de silício metálico complementar) (por exemplo, uma câmara CMOS), um fotodiodo (por exemplo, um tubo fotomultiplicador), microscopia eletrônica, um transistor de efeito de campo (por exemplo, um transistor de efeito de campo de DNA), um sensor de íon ISFET (por exemplo, um sensor CHEMFET), o semelhante ou combinações dos mesmos. Outros métodos de sequenciamento que podem ser usados para realizar os métodos aqui incluem PCR digital e sequenciamento por hibridização.
[180] Outros métodos de sequenciamento que podem ser usados para realizar os métodos aqui incluem PCR digital e sequenciamento por hibridização. Reação de cadeia de polimerase digital (PCR digital ou dPCR) pode ser usada para identificar e quantificar diretamente ácidos nucleicos em uma amostra. PCR digital pode ser realizada em uma emulsão, em algumas modalidades. Por exemplo, ácidos nucleicos individuais são separados, por exemplo, em um dispositivo de câmara de microfluido, e cada ácido nucleico é individualmente amplificado por PCR. Os ácidos nucleicos que podem ser separados de tal modo que não há mais do que um ácido nucleico por poço. Em algumas modalidades, diferentes sondas podem ser usadas para distinguir diferentes alelos (por exemplo, alelos fetais e alelos maternos). Os alelos podem ser enumerados para determinar o número de cópia.
[181] Em certas modalidades, o sequenciamento por hibridização pode ser usado. O método envolve o contato de uma pluralidade de sequências de polinucleotídeo com uma pluralidade de sondas de polinucleotídeo, em que cada pluralidade de sondas de polinucleotídeo pode ser opcionalmente presa a um substrato. O substrato pode ser uma superfície plana com uma matriz de sequências de nucleotídeo conhecidas, em algumas modalidades. O padrão de hibridização com a matriz pode ser usado para determinar as sequências de polinucleotídeo presentes na amostra. Em algumas modalidades, cada uma das sondas está presa a um grânulo, por exemplo, um grânulo magnético ou o semelhante. A hibridização nos grânulos pode ser identificada e usada para identificar a pluralidade de sequências de polinucleotídeo na amostra.
[182] Em algumas modalidades, sequenciamento de nanoporo pode ser utilizado em um método aqui descrito. Sequenciamento de nanoporo é uma tecnologia de sequenciamento de uma única molécula através do qual uma única molécula de ácido nucleico (por exemplo, DNA) é sequenciada diretamente conforme ela passa através de um nanoporo.
[183] Um método, sistema ou plataforma de tecnologia de MPS adequado para a realização dos métodos aqui descritos pode ser usado para obter sequências sequenciadas de ácidos nucleicos. Exemplos não-limitativos de plataformas de MPS incluem Illumina/Solex/HiSeq (por exemplo, analisador de genoma da Illumina; analisador de genoma II; HISEQ 2000; HISEQ), SOLID, Roche/454, PACBIO e/ ou SMRT, Helicos True Single Molecule sequencing, Ion Torrent e sequenciamento à base de semicondutores Ion (por exemplo, como desenvolvido pela Life Technologies), tecnologias baseadas em analisador genético WildFire, 5500, 5500xI W e/ou 5500xI W (por exemplo, como desenvolvida e vendida pela Life Technologies, publicação da patente US n° US20130012399); sequenciamento Polony, pirossequenciamento, sequenciamento de assinatura massivamente paralelo (MPSS), sequenciamento RNA polimerase (RNAP), sistemas e métodos LaserGen, plataformas baseadas em nanoporo, matriz de transistor de efeito de campo sensível químico (CHEMFET), sequenciamento baseado em microscopia eletrônica (por exemplo, como desenvolvido pela ZS Genetics, Halcyon Molecular), sequenciamento de nanobola.
[184] Em algumas modalidades, o sequenciamento de cromossomo específico é realizado. Em algumas modalidades, o sequenciamento de cromossomo específico é realizado usando DANSR (análise digital de regiões selecionadas). A análise digital de regiões selecionadas permite quantificação simultânea de centenas de locais por catenação dependente de cfDNA de oligonucleotídeos de dois locais específicos via um oligonucleotídeo "de ligação" interveniente para formar um molde de PCR. Em algumas modalidades, o sequenciamento do cromossomo específico é realizado através da geração de uma biblioteca enriquecida em sequências do cromossomo específico. Em algumas modalidades, as sequências são obtidas apenas para um conjunto selecionado de cromossomos. Em algumas modalidades, as sequências são obtidas apenas para cromossomos 21, 18 e 13.
Mapeamento de sequências
[185] Sequências podem ser mapeadas e o número de sequências mapeadas para uma região específica de ácido nucleico (por exemplo, um cromossomo, porção ou seu segmento) é referido como contagens. Qualquer método de mapeamento adequado (por exemplo, processo, algoritmo, programa, software, módulo, o semelhante ou combinação dos mesmos) pode ser usado. Certos aspectos dos processos de mapeamento de processos são descritos a seguir.
[186] Sequências de nucleotídeo mapeadas (ou seja, informação sobre a sequência a partir de um fragmento cuja posição genômica física é desconhecida) podem ser realizadas em um número de maneiras, e frequentemente compreendem alinhamento das sequências obtidas com uma sequência correspondente em um genoma de referência. Em tais alinhamentos, sequências geralmente são alinhadas com uma sequência de referência e aquelas que são alinhadas como sendo "mapeadas", "uma sequência mapeada" ou " sequências mapeadas". Em certas modalidades, uma sequência mapeada é referida como um "hit", ou "contagem". Em algumas modalidades, as sequências mapeadas são agrupadas em conjunto de acordo com vários parâmetros e atribuídas a porções particulares, que são discutidas mais detalhadamente abaixo.
[187] Como aqui usados, os termos "alinhado", "alinhamento" ou "alinhando" referem-se a duas ou mais sequências de ácido nucleico que podem ser identificadas como uma compatibilidade (por exemplo, 100% de identidade) ou compatibilidade parcial. Alinhamentos podem ser feitos manualmente ou por um computador (por exemplo, um software, programa, módulo ou algoritmo), exemplos não-limitativos dos quais incluem o programa de computador Efficient Local Alignment of Nucleotide Data (ELAND) distribuído como parte do canalizador de análise genômica da Illumina. Alinhamento da sequência pode ser uma compatibilidade de sequência de 100%. Em alguns casos, um alinhamento é menos do que uma compatibilidade de 100% de sequência (ou seja, compatibilidade não-perfeita, compatibilidade parcial, alinhamento parcial). Em algumas modalidades um alinhamento é cerca de 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 79%, 78%, 77%, 76% ou 75% de compatibilidade. Em algumas modalidades, um alinhamento compreende uma incompatibilidade. Em algumas modalidades, um alinhamento compreende 1, 2, 3, 4 ou 5 incompatibilidades. Duas ou mais sequências podem ser alinhadas usando qualquer das fitas. Em certas modalidades uma sequência de ácido nucleico é alinhada com o complemento reverso de outra sequência de ácido nucleico.
[188] Vários métodos computacionais podem ser usados para mapear cada sequência para uma porção. Exemplos não- limitativos de algoritmos de computador que podem ser usados para alinhar sequências incluem, sem limitação, BLAST, BLITZ, FASTA, BOWTIE 1, BOWTIE 2, ELAND, MAQ, Probematch, SOAP ou SEQMAP, ou variações dos mesmos, ou suas combinações. Em algumas modalidades, as sequências podem ser alinhadas com sequências em um genoma de referência. Em algumas modalidades, as sequências podem ser encontradas e/ou alinhadas com sequências em bases de dados de ácido nucleico conhecidos na técnica, incluindo, por exemplo, GenBank, dbEST, dbSTS, EMBL (European Molecular Biology Laboratory) e DDBJ (DNA Databank of Japan). BLAST ou ferramentas semelhantes podem ser usados para pesquisar as sequências identificadas contra uma base de dados de sequência. Hits de pesquisa podem então ser utilizados para ordenar sequências identificadas em porções adequadas (a seguir descritas), por exemplo.
[189] Em algumas modalidades, uma sequência pode exclusivamente ou não exclusivamente mapear porções em um genoma de referência. Uma sequência é considerada como "exclusivamente mapeadas" se ela alinha com uma única sequência no genoma de referência. A sequência é considerada como "não exclusivamente mapeadas " se ela alinha com duas ou mais sequências no genoma de referência. Em algumas modalidades, sequências não exclusivamente mapeadas são eliminadas de análises posteriores (por exemplo, quantificação). Um certo grau pequeno de incompatibilidade (0-1) pode ser permitido para contabilizar polimorfismos de um nucleotídeo que podem existir entre o genoma de referência e as sequências de amostras individuais sendo mapeadas, em certas modalidades.
[190] Em algumas modalidades, nenhum grau de incompatibilidade é permitido para uma sequência mapeadas para uma sequência de referência.
[191] Tal como aqui usado, o termo "genoma de referência" pode se referir a qualquer genoma conhecido particular, sequenciado ou caracterizado, ou parcial ou completo, de qualquer organismo ou vírus que possa ser usado para fazer referência a sequências identificadas de um sujeito. Por exemplo, um genoma de referência utilizado para seres humanos desse modo como muitos outros organismos pode ser encontrado no National Center for Biotechnology Information em www.ncbi.nlm.nih.gov. Um "genoma" refere-se à informação genética de um organismo ou vírus, expressa em sequências de ácido nucleico. Tal como aqui usado, uma sequência de referência ou genoma de referência, frequentemente, é uma sequência genômica reunida ou parcialmente reunida de um indivíduo ou vários indivíduos. Em algumas modalidades, um genoma de referência é uma sequência genômica reunida ou parcialmente reunida de um ou mais indivíduos humanos. Em algumas modalidades, um genoma de referência compreende sequências atribuídas a cromossomos.
[192] Em certas modalidades, em que um ácido nucleico da amostra é de uma mulher grávida, uma sequência de referência, por vezes, não é do feto, a mãe do feto ou do pai do feto, e é aqui referida como uma "referência externa." Uma referência materna pode ser preparada e usada em algumas modalidades. Quando é preparada a partir de uma referência a mulher grávida ("sequência de referência materna") com base em uma referência externa, sequências de DNA da mulher grávida que contem substancialmente nenhum DNA fetal frequentemente são mapeadas para a sequência de referência externa e reunida. Em certas modalidades a referência externa é de DNA de um indivíduo tendo substancialmente a mesma etnia como a mulher grávida. Uma sequência de referência materna pode não cobrir completamente o DNA genômico materno (por exemplo, pode cobrir cerca de 50%, 60%, 70%, 80%, 90% ou mais do DNA genômico materno), e a referência materna não pode perfeitamente corresponder a sequência de DNA genômico materna (por exemplo, a sequência de referência materna pode incluir várias incompatibilidades).
[193] Em certas modalidades, a mapeabilidade é avaliada para uma região do genoma (por exemplo, porção, a porção genômico, porção). Mapeabilidade é a capacidade para alinhar de forma inequívoca uma sequência de nucleotídeo para uma porção de um genoma de referência, tipicamente até um número específico de incompatibilidades, incluindo, por exemplo, 0, 1, 2 ou mais incompatibilidades. Para uma dada região genômica, a mapeabilidade esperada pode ser estimada usando uma abordagem de janela deslizante de um comprimento pré-definido legível e a média dos valores da mapeabilidade do nível legível resultantes. Regiões genômicas contendo trechos de sequência de nucleotídeo único, por vezes, tem um alto valor de mapeabilidade.
Porções
[194] Em algumas modalidades, as sequências mapeadas (isto é, as etiquetas de sequências) são agrupados em conjunto de acordo com vários parâmetros e atribuído a porções particulares (por exemplo, porções de uma referência genoma). Frequentemente, sequências mapeadas individuais podem ser usadas para identificar uma porção (por exemplo, a presença, ausência ou quantidade de uma porção) presente em uma amostra. Em algumas modalidades, a quantidade de uma porção é indicativa da quantidade de uma sequência maior (por exemplo, um cromossomo) na amostra. O termo "porção" pode também ser referido aqui como uma "seção genômica", "porção" (bin), "região", "partição", "porção de um genoma de referência", "porção de um cromossomo" ou "porção genômica". Em algumas modalidades uma porção é um cromossomo inteiro, um segmento de um cromossomo, um segmento de um genoma de referência, um segmento abrangendo vários cromossomos, vários segmentos de cromossomo, e/ou suas combinações. Em algumas modalidades, uma porção é pré- definida com base em parâmetros específicos (por exemplo, indicadores). Em algumas modalidades, uma porção é arbitrariamente ou não-arbitrariamente definida com base na partição de um genoma (por exemplo, particionada por tamanho, teor de GC, regiões contíguas, regiões contíguas de um tamanho arbitrariamente definido, e semelhante). Em algumas modalidades porções são escolhidas a partir de porções genômicas discretas, porções genômicas tendo sequências contínuas de comprimento pré-determinado, porção de tamanho variável, vistas baseadas em ponto de um mapa de cobertura nivelada, e/ou uma combinação dos mesmos.
[195] Em algumas modalidades, uma porção é delineada com base em um ou mais parâmetros que incluem, por exemplo, o comprimento ou uma característica particular ou características da sequência. As porções podem ser selecionadas, filtradas e/ou removidas a partir da consideração usando quaisquer critérios adequados conhecidos na técnica ou aqui descritos. Em algumas modalidades, uma porção baseia-se em um comprimento particular da sequência genômica. Em algumas modalidades, um método pode incluir a análise de várias sequências mapeadas para uma pluralidade de porções. As porções podem ser aproximadamente o mesmo comprimento ou porções podem ser de diferentes comprimentos. Em algumas modalidades, as porções são de cerca de igual comprimento. Em algumas modalidades porções de diferentes comprimentos são ajustadas ou pesadas. Em algumas modalidades uma porção é cerca de 10 quilobases (kb) a cerca de 20 kb, cerca de 10 kb a cerca de 100 kb, de cerca de 20 kb a cerca de 80 kb, de cerca de 30 kb a cerca de 70 kb, de cerca de 40 kb a cerca de 60 kb. Em algumas modalidades uma porção é de cerca de 10 kb, 20 kb, 30 kb, 40 kb, 50 kb ou cerca de 60 kb em comprimento. Uma porção não está limitada as execuções contíguas da sequência. Desse modo, as porções podem ser constituídas por sequências contíguas e/ou não contíguas. Uma porção não está limitada a um único cromossomo. Em algumas modalidades, uma porção inclui a totalidade ou parte de um cromossomo ou a totalidade ou parte de dois ou mais cromossomos. Em algumas modalidades, as porções podem abranger um, dois, ou mais cromossomos inteiros. Além disso, porções podem abranger regiões articuladas ou desarticuladas de vários cromossomos.
[196] Em algumas modalidades, as porções podem ser segmentos particulares do cromossomo em um cromossomo de interesse, tal como, por exemplo, um cromossomo, onde uma variação genética é avaliada (por exemplo, uma aneuploidia dos cromossomos 13, 18 e/ou 21, ou um cromossomo sexual). Uma porção pode também ser um genoma patogênico (por exemplo, bactérias, fungos ou vírus) ou seu fragmento. As porções podem ser genes, fragmentos de gene, sequências reguladoras, íntrons, éxons e semelhante.
[197] Em algumas modalidades, um genoma (por exemplo, genoma humano) é dividida em porções com base no conteúdo de informação de regiões particulares. Em algumas modalidades, a partição de um genoma pode eliminar regiões semelhantes (por exemplo, regiões ou sequências idênticas ou homólogas) em todo o genoma e manter apenas as regiões únicas. Regiões removidas durante a partição pode estar dentro de um único cromossomo ou podem abranger vários cromossomos. Em algumas modalidades um genoma particionado é aparado para baixo e otimizado para o alinhamento mais rápido, frequentemente, permitindo focar em sequências exclusivamente identificáveis.
[198] Em algumas modalidades, a partição pode diminuir peso de regiões semelhantes. Um processo de diminuir o peso de uma porção é discutido em maior detalhe abaixo.
[199] Em algumas modalidades, a partição de um genoma em regiões que transcendem os cromossomos pode ser com base no ganho de informações produzidas no contexto de classificação. Por exemplo, o conteúdo de informação pode ser quantificado usando-se um perfil de p-valor medindo o significado de locais genômicos particulares para distinguir entre grupos de indivíduos normais e anormais confirmados (por exemplo, indivíduos euplóides e com trissomia, respectivamente). Em algumas modalidades, a partição de um genoma em regiões que transcendem os cromossomos pode ser baseado em qualquer outro critério, tal como, por exemplo, a velocidade/conveniência, enquanto alinhar marcas, teor de GC (por exemplo, alto ou baixo teor de GC), uniformidade do teor de GC, outras medidas do teor de sequência (por exemplo, fração de nucleotídeos individuais, fração de pirimidinas ou purinas, fração de ácidos nucleicos naturais versus não- naturais, fração de nucleotídeos metilados e teor de CpG), estado de metilação, temperatura de fusão duplex, receptividade ao sequenciamento ou PCR, valor de incerteza atribuído a porções individuais de um genoma de referência, e/ou uma pesquisa alvo para características particulares.
[200] Um "segmento" de um cromossomo é geralmente parte de um cromossomo, e tipicamente é uma parte diferente de um cromossomo do que uma porção. Um segmento de um cromossomo está, por vezes, em uma região de um cromossomo diferente daquela de uma porção, por vezes, não partilha um polinucleotídeo com uma porção, e, por vezes, inclui um polinucleotídeo que está em uma porção. Um segmento de um cromossomo frequentemente contém um maior número de nucleotídeos do que uma porção (por exemplo, um segmento, por vezes, inclui uma porção), e, por vezes, um segmento de um cromossomo contém um menor número de nucleotídeos do que uma porção de (por exemplo, um segmento está, por vezes, dentro de uma porção).
Filtragem e/ou seleção de porções
[201] Porções por vezes são processadas (por exemplo, normalizadas, filtradas, selecionadas, o semelhante ou suas combinações) de acordo com uma ou mais características, parâmetros, critérios e/ou métodos aqui descritos ou conhecidos na técnica. As porções podem ser processadas por qualquer método adequado e de acordo com qualquer parâmetro adequado. Exemplos não-limitativos de características e/ou parâmetros que podem ser usados para filtrar e/ou selecionar porções incluem contagens, cobertura, mapeabilidade, variabilidade, um nível de incerteza, teor de guanina- citosina (GC), comprimento do fragmento CCF e/ou comprimento da sequência (por exemplo, uma proporção de comprimento de fragmento (FLR), uma estatística da proporção fetal (FRS)), sensibilidade DNasel, estado de metilação, acetilação, distribuição de histona, estrutura da cromatina, o semelhante ou combinações dos mesmos. As porções podem ser filtradas e/ou selecionadas de acordo com uma característica ou parâmetro adequado que se correlaciona com uma característica ou parâmetro listado ou aqui descrito. As porções podem ser filtradas e/ou selecionadas de acordo com características ou parâmetros que são específicos a uma porção (por exemplo, tal como determinado por uma única porção de acordo com várias amostras) e/ou características ou parâmetros que são específicos para uma amostra (por exemplo, tal como determinado para várias porções dentro de uma amostra). Em algumas modalidades porções são filtradas e/ou removidas de acordo com a mapeabilidade relativamente baixa, variabilidade relativamente alta, um alto nível de incerteza, comprimentos de fragmento CCF relativamente longos (por exemplo, baixo FRS, baixo FLR), percentagem relativamente alta de sequências repetitivas, alto teor de GC, baixo teor de GC, baixas contagens, zero contagens, altas contagens, semelhante, ou suas combinações. Em algumas modalidades porções (por exemplo, um subconjunto de porções) são selecionadas de acordo com o nível adequado de mapeabilidade, variabilidade, nível de incerteza, fração de sequências repetitivas, contagens, teor de GC, semelhante, ou combinação destes. Em algumas modalidades porções (por exemplo, um subconjunto de porções) são selecionadas de acordo com comprimentos relativamente curtos de fragmentos CCF (por exemplo, alto FRS, alto FRS). Contagens e/ou sequências mapeadas para porções são por vezes tratadas (por exemplo, normalizadas) antes e/ou após a filtragem ou seleção de porções (por exemplo, um subconjunto de porções). Em algumas modalidades as contagens e/ou sequências mapeadas para porções não são processadas antes e/ou depois de filtrar ou selecionar porções (por exemplo, um subconjunto de porções).
[202] Sequências de qualquer número adequado de amostras podem ser utilizadas para identificar um subconjunto de porções que satisfazem um ou vários critérios, parâmetros e/ou características aqui descritos. Sequências de um grupo de amostras de várias mulheres grávidas, por vezes, são usadas. Um ou mais amostras de cada uma das várias mulheres grávidas pode ser direcionada (por exemplo, 1 a cerca de 20 amostras de cada mulher grávida (por exemplo, cerca de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18 ou 19 amostras)), e um número adequado de mulheres grávidas pode ser direcionado (por exemplo, cerca de 2 a cerca de 10.000 mulheres grávidas (por exemplo, cerca de 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 150, 200, 250, 300, 350, 400, 500, 600, 700 ,800 ,900 ,1000 ,2000 ,3000 ,4000 ,5000 ,6000, 7000, 8000, 9000 mulheres grávidas)). Em algumas modalidades, as sequências da mesma amostra(s) de teste da mesma mulher grávida são mapeadas para porções no genoma de referência e são usadas para gerar o subconjunto de porções.
[203] Tem sido observado que os fragmentos de ácido nucleico (fragmentos CCF) isentos de célula circulante obtidos de uma mulher grávida que compreendem, geralmente, fragmentos de ácido nucleico provenientes de células fetais (isto é, fragmentos fetais) e fragmentos de ácido nucleico provenientes de células maternas (isto é, fragmentos maternos). Sequências derivadas de fragmentos CCF provenientes de um feto são aqui referidos como " sequências fetais". Sequências derivadas de fragmentos de CCF provenientes do genoma de uma mulher grávida (por exemplo, uma matriz) que carrega um feto são aqui referidos como " sequências maternas". Fragmentos CCF dos quais sequências fetais são obtidas são aqui referidos como modelos fetais e fragmentos CCF a partir do qual sequências maternas são obtidas são aqui referidos como modelos maternos.
[204] Também tem sido observado que em fragmentos CCF, fragmentos fetais são geralmente relativamente curtos (por exemplo, cerca de 200 pares de bases de comprimento ou menos) e que os fragmentos maternos incluem tais fragmentos relativamente curtos e fragmentos relativamente mais longos. Um subconjunto de porções que são mapeadas para uma quantidade significativa de sequências de fragmentos relativamente curtos pode ser selecionado e/ou identificado. Sem ser limitado pela teoria, espera-se que as sequências mapeadas para tais porções sejam enriquecidas com sequências fetais, o que pode melhorar a precisão de uma análise genética fetal (por exemplo, detectando a presença ou ausência de uma variação genética do feto (por exemplo, aneuploidia do cromossomo fetal (por exemplo, T21, T18 e/ou T13))).
[205] Um número significativo de sequências frequentemente não é considerado, no entanto, quando uma análise genética fetal baseia-se em um subconjunto de sequências. A seleção de um subconjunto de sequências mapeadas para um subconjunto selecionado de porções, e a remoção de sequências em porções não-selecionadas, para uma análise genética fetal pode diminuir a precisão da análise genética, devido ao aumento da variância, por exemplo. Em algumas modalidades, cerca de 30% a cerca de 70% (por exemplo, cerca de 35%, 40%, 45%, 50%, 55%, 60%, ou 65%) de sequências de sequenciamento obtidas de um sujeito ou mapa de amostra são removidos da consideração sob seleção de um subconjunto de porções para uma análise genética do feto. Em certas modalidades cerca de 30% a cerca de 70% (por exemplo, cerca de 35%, 40%, 45%, 50%, 55%, 60%, ou 65%) de sequências sequenciadas obtidas de um sujeito ou mapa de amostra para um subconjunto de porções utilizadas para uma análise genética fetal.
[206] Desse modo, sem ser limitado pela teoria, existe geralmente um equilíbrio entre o aumento da precisão associado com enriquecimento da sequência fetal e diminuição da precisão associada com uma diminuição da quantidade de dados legíveis (por exemplo, remoção de porções e/ou sequências) para uma análise genética fetal. Em algumas modalidades, um método compreende a seleção de um subconjunto de porções enriquecido para sequências de ácido nucleico do feto (por exemplo, sequências fetais) que melhora, ou não diminui significativamente, a precisão de uma análise genética do feto. A ponderação dessa aparente compensação, foi determinada, como descrito aqui, que o uso de um subconjunto de porções, para as quais são mapeadas uma quantidade significativas de sequências de fragmentos relativamente curtos, pode melhorar a precisão das análises genéticas fetais.
[207] Em algumas modalidades um subconjunto de porções é selecionado de acordo com sequências de fragmentos CCF, onde as sequências mapeadas para uma porção têm um comprimento menor do que um comprimento do fragmento selecionado. Às vezes, um subconjunto de porções é selecionado filtrando porções que não atendem a estes critérios de filtragem. Em certas modalidades, um subconjunto das porções é selecionado de acordo com a quantidade de sequências derivadas de fragmentos CCF relativamente curtos (por exemplo, cerca de 200 pares de bases ou menos) que mapeiam uma porção. Qualquer método adequado pode ser usado para identificar e/ou selecionar porções em que uma quantidade significativa de sequências de fragmentos CCF com um comprimento menor do que um comprimento do fragmento selecionado (por exemplo, um comprimento do primeiro fragmento selecionado) são mapeadas. Fragmentos CCF tendo um comprimento menor do que um comprimento do fragmento selecionado frequentemente são fragmentos CCF relativamente curtos, e, por vezes, o comprimento do fragmento escolhido é de cerca de 200 pares de bases ou menos (por exemplo, fragmentos CCF que são cerca de 190, 180, 170, 160, 150, 140, 130, 120, 110, 100, 90, ou 80 bases de comprimento). O comprimento de um fragmento CCF pode ser determinado (por exemplo, deduzido ou inferido) mapeando duas ou mais sequências derivadas do fragmento (por exemplo, uma ponta de extremidade pareada) para um genoma de referência. Para sequências de extremidade pareada derivadas de um fragmento CCF, por exemplo, sequências podem ser mapeadas para um genoma de referência, o comprimento da sequência genômica entre as sequências mapeadas pode ser determinado, e o total dos dois comprimentos legíveis e o comprimento da sequência genômica entre as leituras é igual ao comprimento do fragmento CCF.
[208] O comprimento de um modelo de fragmento CCF, por vezes, é determinado diretamente do comprimento de uma sequências derivada do fragmento (por exemplo, sequências de uma extremidade).
[209] Em algumas modalidades, um subconjunto de porções, em que uma quantidade significativa de sequências de fragmentos CCF com um comprimento menor do que um comprimento do fragmento selecionado, é selecionado e/ou identificado de acordo se a quantidade legível mapeadas dos fragmentos CCF com um comprimento menor do que um comprimento do primeiro fragmento selecionado é maior do que a quantidade legível mapeadas de fragmentos CCF tendo um comprimento menor do que um comprimento do segundo fragmento selecionado. Em certas modalidades, um subconjunto de porções, em que uma quantidade significativa de sequências de fragmentos CCF tendo um comprimento menor do que um comprimento do fragmento selecionado, é selecionado e/ou identificado de acordo com se a quantidade legível mapeadas de fragmentos CCF tendo um comprimento menor do que um comprimento do primeiro fragmento selecionado de uma porção é maior do que a quantidade baixa, média ou mediana de sequências mapeadas de fragmentos CCF tendo um comprimento menor do que um comprimento do segundo fragmento selecionado para porções analisadas. Em algumas modalidades, um subconjunto de porções, em que uma quantidade significativa de sequências de fragmentos de CCF tendo um comprimento menor do que um comprimento do fragmento selecionado, é selecionado e/ou identificado com base em uma proporção do comprimento do fragmento (FLR) determinada para cada porção. Uma "proporção do comprimento de fragmento" é também referida aqui como uma estatística da proporção fetal (FRS).
[210] Em certas modalidades, um FLR é determinado, em parte, de acordo com a quantidade de sequências mapeadas para uma porção de fragmentos de CCF tendo um comprimento menor do que um comprimento do fragmento selecionado. Em algumas modalidades, um valor de FLR frequentemente uma proporção de X para Y, onde X é a quantidade de sequências derivadas de fragmentos CCF tendo um comprimento menor do que um comprimento do primeiro fragmento selecionado, e Y é a quantidade de sequências derivadas de fragmentos CCF tendo um comprimento menor do que um comprimento do segundo fragmento selecionado. Um comprimento do primeiro fragmento selecionado frequentemente é selecionado independentemente do comprimento de um segundo fragmento selecionado, e vice- versa, e o comprimento do segundo fragmento selecionado é tipicamente maior do que o comprimento do primeiro fragmento selecionado. Um comprimento do primeiro fragmento pode ser selecionado de cerca de 200 bases ou menos a cerca de 30 bases ou menos. Em algumas modalidades, um comprimento do primeiro fragmento escolhido é de cerca de 200, 190, 180, 170, 160, 155, 150, 145, 140, 135, 130, 125, 120, 115, 110, 171, 100, 95, 90, 85, 80, 75, 70, 65, 60, 55 ou 50 bases. Em algumas modalidades, um comprimento do primeiro fragmento escolhido é de cerca de 170 a cerca de 130 bases, e, por vezes, é de cerca de 160 a cerca de 140 bases. Em algumas modalidades, um comprimento do segundo fragmento escolhido é de cerca de 2000 bases a cerca de 200 bases. Em certas modalidades um comprimento do segundo fragmento selecionado é de cerca de 1000, 950, 800, 850, 800, 750, 700, 650, 600, 550, 500, 450, 400, 350, 300, 250 bases. Em algumas modalidades o comprimento do primeiro fragmento selecionado é de cerca de 140 a cerca de 160 bases (por exemplo, cerca de 150 bases) e o comprimento do segundo fragmento escolhido é de cerca de 500 a cerca a de 700 bases (por exemplo, cerca de 600 bases). Em algumas modalidades o comprimento do primeiro fragmento selecionado é de cerca de 150 bases de e o comprimento do segundo fragmento selecionado é de cerca de 600 bases.
[211] Em algumas modalidades um FLR é uma média, média aritmética ou mediana de vários valores de FLR. Por exemplo, por vezes um FLR para uma dada porção é uma média, média aritmética ou mediana dos valores de FLR para (i) duas ou mais amostras de teste, (ii) dois ou mais sujeitos, ou (iii) duas ou mais amostras de teste e dois ou mais sujeitos. Em certas modalidades, uma média, média aritmética ou mediana de FLR é derivada dos valores de FLR para duas ou mais porções de um genoma, cromossomo, ou seu segmento. Em algumas modalidades, uma média, média aritmética ou mediana de FLR está associada com uma incerteza (por exemplo, desvio padrão, desvio absoluto mediano).
[212] Em algumas modalidades, um subconjunto de porções é selecionado e/ou identificado de acordo com um ou mais valores de FLR (por exemplo, uma comparação de um ou mais valores de FLR). Em certas modalidades um subconjunto de porções é selecionado e/ou identificado de acordo com um FLR e um limiar (por exemplo, uma comparação de um FLR e um limiar). Em certas modalidades, uma média, média aritmética ou mediana de FLR derivada de uma dada porção é comparada com uma média, média aritmética ou mediana de FLR derivada de duas ou mais porções de um genoma, cromossomo, ou seu segmento. Por exemplo, algumas vezes, uma média de um FLR para uma dada porção é comparada com um FLR mediano para uma dada porção. Em certas modalidades uma porção é selecionada e/ou identificada de acordo com uma média, média aritmética ou mediana de FLR determinada para uma porção e uma média, média aritmética ou mediana de FLR determinada para um conjunto de porções (por exemplo, porção de um genoma, cromossomo, ou seu segmento). Em algumas modalidades, um FLR médio para uma porção está abaixo de um certo limiar determinado de acordo com um FLR mediano e a porção é removida da consideração (por exemplo, em uma análise genética fetal). Em algumas modalidades, uma média, média aritmética ou mediana de FLR para uma porção está acima de um certo limiar determinado de acordo com uma média, média aritmética ou mediana de FLR para um genoma, cromossomo, ou seu segmento, e a porção é selecionada e/ou adicionada a um subconjunto de porções para consideração (por exemplo, quando a determinação da presença ou ausência de uma variação genética). Em algumas modalidades, um FLR para uma porção é igual a ou maior do que cerca de 0,15 a cerca de 0,30 (por exemplo, cerca de 0,16, 0,17, 0,18, 0,19, 0,20, 0,21, 0,21, 0,22, 0,23, 0,24, 0,25, 0,26, 0,27, 0,28, 0,29) e a porção é selecionada para consideração (por exemplo, adicionada ou incorporada em um subconjunto de porções para uma análise genética fetal). Em algumas modalidades, um FLR para uma porção é igual a ou menor do que cerca de 0,20 a cerca de 0,10 (por exemplo, cerca de 0,19, 0,18, 0,17, 0,16, 0,15, 0,14, 0,13, 0,12, 0,11) e a porção é removida da consideração (por exemplo, filtrada).
[213] Porções em um subconjunto, por vezes, são selecionadas e/ou identificadas de acordo com, em parte, se uma quantidade significativa de sequências de fragmentos CCF tendo um comprimento menor do que um comprimento do fragmento selecionado são mapeadas para uma porção (por exemplo, de acordo com um FLR). Em algumas modalidades, as porções em um subconjunto podem ser selecionadas e/ou identificadas de acordo com uma ou mais características ou critérios em adição à quantidade de sequências de sequências mapeadas de comprimentos de fragmento menores do que um comprimento do fragmento selecionado. Em algumas modalidades, um subconjunto de porções é selecionado e/ou identificado de acordo com se uma quantidade significativa de sequências de fragmentos CCF tendo um comprimento menor do que um comprimento do fragmento selecionado são mapeadas para uma porção (por exemplo, de acordo com um FLR) e uma ou mais outras características. Exemplos não limitativos de outras características incluem o número de éxons em, e/ou teor de CG, um genoma, cromossomo ou segmento do mesmo, e/ou uma ou mais das porções. Por conseguinte, por vezes, porções selecionadas e/ou identificadas de acordo com se uma quantidade significativa de sequências de fragmentos CCF tendo um comprimento menor do que um comprimento do fragmento selecionado são mapeadas para uma porção (por exemplo, de acordo com um FLR) para um subconjunto, são ainda selecionados ou removidos de acordo com o teor de GC da porção e/ou o número de éxons na porção. Em algumas modalidades, uma porção que não é selecionada ou removido da consideração (por exemplo, filtrada), se o teor de GC e/ou o número de éxons na porção não se correlacionam com um FLR para a porção.
[214] Em algumas modalidades um subconjunto de porções consiste de, consiste essencialmente ou compreende porções que satisfazem um ou mais critérios particulares aqui descritos (por exemplo, porções são caracterizadas por um FLR igual ou maior do que um certo valor). Em certas modalidades porções que não satisfaçam um critério estão incluídas em um subconjunto de porções que satisfazem o critério, por exemplo, para aumentar a precisão de uma análise genética fetal. Em certas modalidades, em um subconjunto de porções que "consiste essencialmente de" porções selecionadas de acordo com um critério (por exemplo, um FLR igual a ou maior do que um certo valor), de cerca de 90% ou mais (por exemplo, cerca de 91%, 91%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou mais) das porções satisfazem o critério e cerca de 10% ou menos (por exemplo, cerca de 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, cerca de 1% ou menos) das porções não satisfazem o critério.
[215] As porções podem ser selecionadas e/ou filtradas através de qualquer método adequado. Em algumas modalidades porções são selecionadas de acordo com a inspeção visual de dados, gráficos, diagramas e/ou tabelas. Em certas modalidades porções são selecionadas e/ou filtradas (por exemplo, em parte) por um sistema ou uma máquina que compreende um ou mais microprocessadores e memória. Em algumas modalidades porções são selecionadas e/ou filtradas (por exemplo, em parte) por um meio de armazenamento legível por computador não-transitório com um programa executável armazenada no mesmo, onde o programa instrui um microprocessador a executar a seleção e/ou filtragem.
[216] Um subconjunto de porções selecionado por métodos aqui descritos pode ser usado para uma análise genética fetal de diferentes maneiras. Em certas modalidades sequências derivadas de uma amostra são usadas em um processo de mapeamento usando um subconjunto pré-selecionado de porções aqui descrito, e não usando a totalidade ou a maioria das porções em um genoma de referência. Aquelas sequências que mapeiam o subconjunto pré-selecionado de porções frequentemente são usadas em etapas adicionais de uma análise genética fetal, e sequências que não mapeiam o subconjunto pré-selecionado de porções não são frequentemente usadas em etapas adicionais de uma análise genética fetal (por exemplo, sequências que não mapeiam são removidas ou filtradas).
[217] Em algumas modalidades sequências de sequências derivadas de uma amostra são mapeadas para a totalidade ou a maioria das porções de um genoma de referência e um subconjunto pré-selecionado de porções aqui descrito são posteriormente selecionados. Sequências de um subconjunto selecionado de porções frequentemente são usadas em etapas adicionais de uma análise genética fetal. Nas últimas modalidades, sequências de porções não selecionadas não são frequentemente usadas em etapas posteriores de uma análise genética fetal (por exemplo, sequências nas porções não- selecionadas são removidas ou filtradas).
Contagens
[218] Sequências que são mapeadas ou parcionadas com base em uma característica ou variável selecionada podem ser quantificadas para determinar o número de sequências que são mapeadas para uma ou mais porções (por exemplo, porção de um genoma de referência), em algumas modalidades. Em certas modalidades, a quantidade de sequências que são mapeadas para uma porção são ligações de contagens (por exemplo, umas contagens). Frequentemente, uma contagem está associada a uma porção. Em certas modalidades contagens para duas ou mais porções (por exemplo, um conjunto de porções) são matematicamente manipuladas (por exemplo, em média, adicionada, normalizada, o semelhante ou uma combinação destes). Em algumas modalidades uma contagem é determinada de uma parte ou totalidade das sequências mapeadas para (isto é, associada com a) uma porção. Em certas modalidades, uma contagem é determinada de um subconjunto pré-definido de sequências mapeadas. Subconjuntos pré-definidos de sequências mapeadas podem ser definidos ou selecionados usando qualquer recurso ou variável adequada. Em algumas modalidades, subconjuntos pré-definidos de sequências mapeadas podem incluir de 1 a n sequências, em que n representa um número igual à soma de todas as sequências geradas de um sujeito de teste ou amostra de do sujeito de referência.
[219] Em certas modalidades uma contagem é derivada de sequências que são processadas ou manipuladas por um método, operação ou processo matemático adequado conhecido na técnica. Uma contagem (por exemplo, contagens) pode ser determinada por um método, operação ou processo matemático adequado. Em certas modalidades uma contagem é derivada de sequências associadas com uma porção em que parte ou a totalidade das sequências são pesadas, removidas, filtradas, normalizadas, ajustadas, tiradas a média, derivadas como uma média, adicionadas ou subtraídas ou processadas por uma combinação dos mesmos. Em algumas modalidades, uma contagem é derivada de sequências bruta e/ou sequências filtradas. Em certas modalidades um valor de contagens é determinado por um processo matemático. Em certas modalidades um valor de contagens é uma média, média aritmética ou soma de sequências mapeadas para uma porção. Frequentemente, uma contagem é um número médio de contagens. Em algumas modalidades, uma contagem é associada com um valor de incerteza.
[220] Em algumas modalidades, as contagens podem ser manipuladas ou transformadas (por exemplo, normalizada, combinada, adicionada, filtrada, selecionada, tirada a média, derivada como uma média, semelhante, ou uma combinação dos mesmos). Em algumas modalidades, as contagens podem ser transformadas para produzir contagens normalizadas. As contagens podem ser processadas (por exemplo, normalizada) por um método conhecido na técnica e/ou como aqui descrito (por exemplo, normalização em porções, a normalização pelo teor de GC, e regressão dos mínimos quadrados lineares e não lineares, GC LOESS, LOWESS, PERUN, RM, GCRM, cQn e/ou suas combinações).
[221] Contagens (por exemplo, contagens bruta, filtrada e/ou normalizada) podem ser processadas e normalizadas para um ou mais níveis. Níveis e perfis são descritos em maior detalhe aqui adiante. Em certas modalidades as contagens podem ser processadas e/ou normalizadas para um nível de referência. Os níveis de referência são abordados mais adiante. Contagens processadas de acordo com um nível (por exemplo, contagens processada) podem ser associadas com um valor de incerteza (por exemplo, uma variação calculada, um erro, desvio padrão, pontuação Z, valor p, desvio absoluto médio, etc). Em algumas modalidades um valor de incerteza define um intervalo acima e abaixo de um nível. Um valor de desvio pode ser utilizado em lugar de um valor de incerteza, e exemplos não limitativos de medidas de desvio incluem desvio padrão, desvio absoluto médio, desvio absoluto mediano, pontuação padrão (por exemplo, pontuação Z, pontuação Z, pontuação normal, variável padronizada) e semelhante.
[222] As contagens são frequentemente obtidas de uma amostra de ácido nucleico de uma mulher grávida que carrega um feto. Contagens de sequências de ácido nucleico mapeadas para uma ou mais porções, frequentemente, são contagens representativas de ambos feto e mãe do feto (por exemplo, um sujeito feminino grávido). Em certas modalidades algumas das contagens mapeadas para uma porção são de um genoma fetal e algumas das contagens mapeadas para a mesma porção são de um genoma materno.
Processamento e Normalização de dados
[223] Sequências mapeadas que foram contadas são aqui referidas como dados não processados, uma vez que os dados representam contagens não manipuladas (por exemplo, contagens brutas). Em algumas modalidades, os dados legíveis de sequência em um conjunto de dados podem ser ainda processados (por exemplo, matematicamente e/ou estatisticamente manipulados) e/ou apresentados para facilitar fornecimento de um resultado. Em certas modalidades, os conjuntos de dados, incluindo os conjuntos de dados maiores, podem beneficiar do pré-processamento para facilitar posteriormente análise. Pré-processamento de conjuntos de dados por vezes envolve a remoção de porções redundantes e/ou não informativos ou porções de um genoma de referência (por exemplo, porções de um genoma de referência com dados não informativos, sequências mapeadas redundantes, porções com contagens medianas zero, sequências super- representadas ou sobre-representadas). Sem ser limitado pela teoria, o processamento e/ou o pré-processamento de dados pode (i) remover os dados ruidosos, (ii) remover os dados não informativos, (iii) remover dados redundantes, (iv) reduzir complexidade de conjuntos de dados maiores, e/ou (v) facilitar a transformação dos dados de uma forma em uma ou mais outras formas. Os termos "pré-tratamento" e "tratamento", quando usados com respeito aos dados ou conjuntos de dados são coletivamente aqui referidos como "processamento". Processamento pode tornar dados mais propícios para análise posterior, e pode gerar um resultado em algumas modalidades. Em algumas modalidades um ou mais ou todos os métodos de processamento (por exemplo, métodos de normalização, filtragem da porção, mapeamento, validação, o semelhante ou combinações dos mesmos) são executados por um processador, um microprocessador, um computador, em conjunto com a memória e/ou pela uma máquina controlada por microprocessador.
[224] O termo "dados ruidosos", tal como aqui usado, refere-se a (a) dados que têm uma variação significativa entre os pontos de dados quando analisados ou diagramados, (b) dados que têm um desvio padrão significativo (por exemplo, maior do que 3 desvios-padrão), (c) dados que têm um erro padrão significativo da média, semelhante, e combinações dos anteriores. Dados ruidosos ocorrem, algumas vezes, devido à quantidade e/ou qualidade do material (por exemplo, amostra de ácido nucleico) de partida, e, por vezes, ocorrem como parte dos processos para a preparação ou a replicação de DNA utilizado para gerar sequências. Em certas modalidades, o ruído resulta de certas sequências sendo super-representadas quando preparadas usando métodos baseados em PCR. Métodos aqui descritos podem reduzir ou eliminar a contribuição de dados ruidosos e, por conseguinte, reduzir o efeito de dados ruidosos sobre o resultado fornecido.
[225] Os termos "dados não informativos", "porções não informativas de um genoma de referência", e "porções não informativas" como usados aqui se referem a porções, ou dados derivados dos mesmos, tendo um valor numérico que é significativamente diferente de um valor limite pré- determinado ou que se enquadra fora da faixa de corte pré- determinado de valores. Os termos "limite" e "valor limite" aqui se referem a qualquer número que é calculado usando um conjunto de dados de qualificação e servem como um limite de diagnóstico de uma variação genética (por exemplo, uma variação do número de cópia, uma aneuploidia, uma aberração cromossômica, e semelhante). Em certas modalidades um limite é excedido pelos resultados obtidos por métodos descritos aqui e um sujeito é diagnosticado com uma variação genética (por exemplo, trissomia 21). Um valor limite ou faixa de valores de frequência é calculado matematicamente e/ou estatisticamente manipulando dados legíveis de sequência (por exemplo, de uma referência e/ou sujeito), em algumas modalidades, e em certas modalidades, dados legíveis de sequência manipulados para gerar um valor de limite ou faixa de valores são dados legíveis de sequência (por exemplo, de uma referência e/ou assunto). Em algumas modalidades, um valor de incerteza é determinado. Um valor de incerteza é geralmente uma medida da variância ou erro e pode ser qualquer medida adequada de variância ou erro. Em algumas modalidades um valor de incerteza é um desvio padrão, erro padrão, variância calculada, valor p, ou desvio médio absoluto (MAD). Em algumas modalidades um valor de incerteza pode ser calculado de acordo com uma fórmula no Exemplo 4.
[226] Qualquer processo adequado pode ser usado para os conjuntos de dados de processamento aqui descritos. Exemplos não limitativos de procedimentos adequados para uso para o processamento de conjuntos de dados incluem filtragem, normalização, ponderação, monitoramento de alturas do pico, monitoramento das áreas de pico, monitoramento dos limites do pico, determinação das proporções de área, processamento matemático dos dados, processamento estatístico dos dados, aplicação de algoritmos estatísticos, análises com variáveis fixas, análise com as variáveis otimizadas, dados de plotagem para identificar padrões ou tendências para processamento adicional, o semelhante e combinações dos anteriores. Em algumas modalidades, os conjuntos de dados são processados com base em diversas características (por exemplo, teor de GC, sequências mapeadas redundantes, regiões de centrômero, regiões de telômeros, o semelhante e combinações destes) e/ou variáveis (por exemplo, gênero fetal, idade materna, ploidia materna, contribuição percentual de ácido nucleico fetal, o semelhante ou suas combinações). Em certas modalidades, os conjuntos de dados de processamento como aqui descritos podem reduzir a complexidade e/ou dimensionalidade de grandes conjuntos de dados e/ou complexos. Um exemplo não limitativo de um conjunto de dados complexo inclui dados legíveis de sequência gerados a partir de um ou mais sujeitos de teste e uma pluralidade de sujeitos de referência de diferentes idades e origens étnicas. Em algumas modalidades, os conjuntos de dados podem incluir de milhares a milhões de sequências para cada sujeito de teste e/ou de referência.
[227] O processamento de dados pode ser realizado em qualquer número de etapas, em certas modalidades. Por exemplo, os dados podem ser processados usando apenas um único procedimento de processamento em algumas modalidades, e em certas modalidades dados podem ser processados usando 1 ou mais, 5 ou mais, 10 ou mais, ou 20 ou mais etapas de processamento (por exemplo, 1 ou mais etapas de processamento, 2 ou mais etapas de processamento, 3 ou mais etapas de processamento, 4 ou mais etapas de processamento, 5 ou mais etapas de processamento, 6 ou mais etapas de processamento, 7 ou mais etapas de processamento, 8 ou mais etapas de processamento, 9 ou mais etapas de processamento, 10 ou mais etapas de processamento, 11 ou mais etapas de processamento, 12 ou mais etapas de processamento, 13 ou mais etapas de processamento, 14 ou mais etapas de processamento, 15 ou mais etapas de processamento, 16 ou mais etapas de processamento, 17 ou mais etapas de processamento, 18 ou mais etapas de processamento, 19 ou mais etapas de processamento, ou 20 ou mais etapas de processamento). Em algumas modalidades, as etapas de processamento podem ser a mesma etapa repetida duas ou mais vezes (por exemplo, filtragem de duas ou mais vezes, normalizar duas ou mais vezes), e em certas modalidades, as etapas de processamento podem ser duas ou mais etapas de processamento diferentes (por exemplo, filtragem, normalização; monitoramento da altura dos picos e arestas; filtragem, normalização, normalização a uma manipulação estatística, de referência para determinar os valores de p, e semelhante), realizadas simultaneamente ou sequencialmente. Em algumas modalidades, qualquer número adequado e/ou a combinação das etapas de processamento iguais ou diferentes podem ser usados para processar dados legíveis de sequência para facilitar o fornecimento de um resultado. Em certas modalidades, os conjuntos de dados de processamento pelos critérios aqui descritos podem reduzir a complexidade e/ou dimensionalidade de um conjunto de dados.
[228] Em algumas modalidades, uma ou mais etapas de processamento podem compreender uma ou mais etapas de filtragem. O termo "filtragem", como aqui usado, refere-se a remoção de porções ou porções de um genoma de referência a partir de consideração. As porções de um genoma de referência podem ser selecionadas para a remoção de acordo com qualquer critério adequado, incluindo, mas não se limitando aos dados redundantes (por exemplo, sequências mapeadas redundantes ou sobrepostas), dados não informativos (por exemplo, porções de um genoma de referência com contagens mediana zero), porções de um genoma de referência com sequências super-representadas ou sub-representadas, dados ruidosos, semelhante, ou combinações dos anteriores. Um processo de filtragem envolve frequentemente a remoção de uma ou mais porções de um genoma de referência a partir de consideração e subtração das contagens em uma ou mais porções de um genoma de referência selecionadas para a remoção das contagens contadas ou somadas para as porções de um genoma de referência, cromossomo ou cromossomos ou genoma sob consideração. Em algumas modalidades, as porções de um genoma de referência podem ser eliminadas sucessivamente (por exemplo, uma de cada vez para permitir a avaliação do efeito de remoção de cada porção individual), e em certas modalidades todas as porções de um genoma de referência marcadas para remoção podem ser removidas ao mesmo tempo. Em algumas modalidades, as porções de um genoma de referência caracterizadas por uma variação acima ou abaixo de um determinado nível são removidas, o que por vezes é referido aqui como filtrar porções "ruidosas" de um genoma de referência. Em certas modalidades, um processo de filtragem compreende a obtenção de pontos de dados de um conjunto de dados que desviam o nível de perfil médio de uma porção, um cromossomo, ou um segmento de um cromossomo por um múltiplo pré-determinado da variância do perfil, e em certas modalidades, um processo de filtragem compreende a remoção de pontos de dados de um conjunto de dados que não desviam do nível de perfil médio de uma porção, um cromossomo ou segmento de um cromossomo por um múltiplo pré-determinado do perfil de variância. Em algumas modalidades, um processo de filtragem é usado para reduzir o número de porções candidatas de um genoma de referência analisado quanto à presença ou ausência de uma variação genética. A redução do número de porções candidatas de um genoma de referência analisado quanto à presença ou ausência de uma variação genética (por exemplo, micro-deleção, micro-duplicação), frequentemente, reduz a complexidade e/ou dimensionalidade de um conjunto de dados, e, por vezes, aumenta a velocidade de procura e/ou identificação de variações genéticas e/ou aberrações genéticas por duas ou mais ordens de magnitude.
[229] Em algumas modalidades uma ou mais etapas de processamento pode compreender uma ou mais etapas de normalização. A normalização pode ser realizada por um método adequado aqui descrito ou conhecido na técnica. Em certas modalidades normalização compreende ajustar os valores medidos em diferentes escalas para uma escala comum ficticiamente. Em certas modalidades normalização compreende um ajuste matemático sofisticado para trazer distribuições de probabilidade de valores ajustados em alinhamento. Em algumas modalidades normalização compreende distribuições de alinhamento em uma distribuição normal. Em certas modalidades normalização compreende ajustes matemáticos que permitem a comparação dos correspondentes valores normalizados para os diferentes conjuntos de dados de uma forma que elimina os efeitos de certas influências brutas (por exemplo, erros e anomalias). Em certas modalidades normalização compreende dimensionamento. A normalização, por vezes, compreende a divisão de uma ou mais conjuntos de dados por uma variável ou fórmula pré-determinada. Exemplos de métodos de normalização incluem normalização em porções, normalização de teor de GC, regressão dos mínimos quadrados lineares e não lineares, LOESS, GC LOESS, LOWESS (gráfico de dispersão localmente pesado), PERUN, mascaramento repetido (RM), GC-normalização e mascaramento repetido (GCRM), normalização de quantis condicional (cQn) e/ou suas combinações. Em algumas modalidades, a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia) utiliza um método de normalização (por exemplo, normalização em porções, normalização de teor de GC, regressão dos mínimos quadrados lineares e não lineares, LOESS, GC LOESS, LOWESS (gráfico de dispersão localmente pesado), PERUN, mascaramento repetido (RM), GC-normalização e mascaramento repetido (GCRM), cQn, um método de normalização conhecido na técnica e/ou uma combinação dos mesmos). Em algumas modalidades contagens são normalizadas.
[230] Por exemplo, LOESS é um método de modelagem de regressão conhecido na técnica que combina vários modelos de regressão em uma meta-modelo baseada no vizinho mais próximo k. LOESS é por vezes referido como uma regressão polinomial localmente pesada. GC LOESS, em algumas modalidades, aplica- se um modelo LOESS à relacionamentos entre as contagens do fragmento (por exemplo, sequências, contagens) e composição de GC para porções de um genoma de referência. Plotar uma curva suave através de um conjunto de pontos de dados usando LOESS é às vezes ligação de curva LOESS, particularmente quando cada valor suavizado é dado por uma regressão de mínimos quadrados quadráticos ponderados sobre a extensão de valores do critério variável de diagrama de dispersão do eixo x. Para cada ponto de um conjunto de dados, o método LOESS ajusta um polinômio de baixo grau para um subconjunto dos dados, com valores variáveis explanatórios próximos do ponto cuja resposta está sendo avaliada. O polinômio é ajustado usando mínimos quadrados ponderados, fornecendo mais peso para pontos próximos do ponto cuja resposta está sendo estimada e menos peso para pontos mais distantes. O valor da função de regressão para um ponto é então obtido por meio da avaliação do polinômio local usando os valores variáveis explanatórios que aquele ponto de dados. O ajuste LOESS é por vezes considerado completo após os valores da função de regressão terem sido computados para cada um dos pontos de dados. Muitos dos detalhes desse método, tais como o grau do modelo polinomial e os pesos, são flexíveis.
[231] Qualquer número adequado de normalizações pode ser usado. Em algumas modalidades, os conjuntos de dados podem ser normalizados 1 ou mais, 5 ou mais, 10 ou mais ou mesmo 20 ou mais vezes. Os conjuntos de dados podem ser normalizados para valores (por exemplo, valor normalizado) representativos de qualquer característica ou variável adequada (por exemplo, dados de amostra, dados de referência, ou ambos). Exemplos não-limitativos de tipos de normalizações de dados que podem ser usados incluem normalizar dados de contagens brutas para uma ou mais porções de teste ou de referência selecionadas para o número total de contagens mapeadas para o cromossomo ou o genoma inteiro em que a porção ou seções selecionadas são mapeadas; normalizar dados de contagens brutas para uma ou porções para umas contagens de referência média para uma ou mais porções ou o cromossomo no qual uma porção ou segmento selecionado é mapeado; normalizar dados de contagens bruto para dados previamente normalizados ou seus derivados; e normalizar dados anteriormente normalizados para uma ou mais outras variáveis de normalização pré-determinadas. Normalizar um conjunto de dados, por vezes, tem o efeito de isolamento de erro estatístico, dependendo da característica ou propriedade selecionada como a variável de normalização pré-determinada. Normalizar um conjunto de dados, por vezes, também permite a comparação de características de dados de dados com diferentes escalas, trazendo os dados a uma escala comum (por exemplo, variável de normalização pré- determinada). Em algumas modalidades, uma ou mais normalizações para um valor estatisticamente derivado podem ser utilizadas para minimizar as diferenças de dados e diminuírem a importância de dados remotos. Normalizar porções ou porções de um genoma de referência, no que diz respeito a um valor de normalização, por vezes, é referida como "normalização em porções".
[232] Em certas modalidades, uma etapa de processamento compreendendo normalização inclui normalizar a uma janela estática, e em algumas modalidades, uma etapa de processamento compreendendo normalização inclui a normalização para uma janela móvel ou deslizante. O termo "janela", tal como aqui usado refere-se a uma ou mais porções escolhidas para análise e, por vezes, usada como uma referência para comparação (por exemplo, usada para a normalização e/ou outra manipulação matemática ou estatística). O termo "normalizar para uma janela estática" tal como é aqui usado refere-se a um processo de normalização, usando uma ou mais porções selecionadas para efeitos de comparação entre um sujeito de teste e conjunto de dados do sujeito de referência. Em algumas modalidades as porções selecionadas são utilizadas para gerar um perfil. Uma janela estática geralmente inclui um conjunto pré- determinado de porções que não mudam durante as manipulações e/ou análises. Os termos "normalizar uma janela móvel" e "normalizar uma janela deslizante", tais como aqui usados, referem-se a normalizações realizadas para porções localizadas na região do genoma (por exemplo, imediações genéticas imediatas, porções ou seções adjacentes e semelhante) de uma porção de teste selecionada, onde uma ou mais porções de teste selecionadas são normalizados em porções imediatamente em torno da porção de teste selecionada. Em certas modalidades, as porções selecionadas são utilizadas para gerar um perfil. Uma normalização de janela móvel ou deslizante inclui, frequentemente, mover ou deslizar repetidamente uma porção de teste adjacente, e normalizar a porção de teste recentemente selecionada para porções imediatamente circundantes ou adjacentes à porção de teste recentemente selecionada, onde as janelas adjacentes têm uma ou mais porções em comum. Em certas modalidades, uma pluralidade de porções de teste selecionadas e/ou cromossomos podem ser analisadas por um processo de janela deslizante.
[233] Em algumas modalidades, normalizar uma janela deslizante ou móvel pode gerar um ou mais valores, onde cada valor representa a normalização de um conjunto diferente de seleções de porções de referência a partir de diferentes regiões de um genoma (por exemplo, cromossomo). Em certas modalidades, um ou mais valores gerados são somas cumulativas (por exemplo, uma estimativa numérica integral do perfil de contagens normalizados sobre a porção selecionada, domínio (por exemplo, uma parte do cromossomo), ou cromossomo). Os valores gerados pelo processo de janela deslizante ou móvel podem ser usados para gerar um perfil e facilitam chegar a um resultado. Em algumas modalidades, somas cumulativas de uma ou mais porções podem ser apresentadas como uma função da posição genômica. Análise da janela deslizante ou móvel, por vezes, é usada para analisar um genoma pela presença ou ausência de micro-deleções e/ou micro-inserções. Em certas modalidades, apresentação de somas cumulativas de uma ou mais porções é utilizada para identificar a presença ou ausência de regiões de variação genética (por exemplo, micro- deleções, micro-duplicações). Em algumas modalidades, a análise da janela móvel ou deslizante é usada para identificar regiões do genoma que contenham micro-deleções e em certas modalidades, análise da janela deslizante ou móvel é usada para identificar regiões do genoma que contenham micro-duplicações.
[234] Uma metodologia de normalização particularmente útil para reduzir o erro associado com indicadores de ácido nucleico é aqui referida como de Remoção de Erro Parametrizado e Normalização Imparcial (PERUN) aqui descrito e, por exemplo, no pedido de patente US n. 13/ 669.136 e pedido de patente internacional n. PCT/US12/ 59123 (W02013/052913) todo o conteúdo do qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos. Metodologia de PERUN pode ser aplicada a uma variedade de indicadores de ácido nucleico (por exemplo, sequências de ácido nucleico) para o propósito de reduzir os efeitos de erro que confundem previsões com base em tais indicadores.
[235] Por exemplo, a metodologia de PERUN pode ser aplicada a sequências de ácido nucleico de uma amostra e reduz os efeitos de erro que podem prejudicar determinações do nível de seção genômica. Tal uma aplicação é útil para o uso de sequências de ácido nucleico para determinar a presença ou ausência de uma variação genética em um sujeito manifestado como um nível variável de uma sequência de nucleotídeo (por exemplo, uma porção, um nível de seção genômica). Exemplos não limitativos de variações nas porções são aneuploidias cromossômicas (por exemplo, trissomia 21, trissomia 18, trissomia 13) e presença ou ausência de um cromossomo sexual (por exemplo, XX em mulheres versus XY nos homens). Uma trissomia de um autossomo (por exemplo, um cromossomo diferente do cromossomo sexual) pode ser referido como um autossomo afetado. Outros exemplos não limitativos de variações nos níveis de seção genômica incluem micro- deleções, micro-inserções, duplicações e mosaicismo.
[236] Em certas aplicações, a metodologia de PERUN pode reduzir a tendência sistemática e/ou experimental pela normalização de indicadores de ácido nucleico para grupos genômicos particulares, este último dos quais são referidos como porções. Porções incluem um conjunto adequado de indicadores de ácido nucleico, um exemplo não limitativo dos quais inclui um comprimento de nucleotídeos contíguos, que é aqui referido como uma seção genômica ou porção de um genoma de referência. Porções podem incluir outros indicadores de ácido nucleico como aqui descrito. Em tais aplicações, a metodologia de PERUN geralmente normaliza indicadores de ácido nucleico nas porções particulares através de um número de amostras em três dimensões.
[237] Em certas aplicações, metodologia de PERUN pode reduzir a tendência experimental e/ou sistemático, normalizando indicadores de ácido nucleico (por exemplo, sequências, contagens) mapeado para segmentos específicos (por exemplo, porções) de um genoma de referência. Em tais aplicações, a metodologia de PERUN geralmente normaliza contagens de sequências de ácido nucleico em porções particulares de uma genoma de referência através de um número de amostras em três dimensões. Uma descrição detalhada de PERUN e de suas aplicações é fornecida na seção de exemplos aqui, no pedido de patente internacional n. PCT/US12/59123 (W02013/052913) e na publicação do pedido de patente n. US20130085681, todo o conteúdo do qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
[238] Em certas modalidades, a metodologia de PERUN inclui calcular um nível de seção genômica para porções de um genoma de referência a partir de (a) contagens legíveis de sequências mapeadas para uma porção de um genoma de referência para uma amostra de teste, (b) a tendência experimental (por exemplo, a tendência de CG) para a amostra de teste, e (c) um ou mais parâmetros de ajuste (por exemplo, as estimativas de ajuste) para um relacionamento ajustado entre (i) a tendência experimental para uma porção de um genoma de referência para a qual sequências são mapeadas e (ii) contagens de sequências mapeadas para a porção. A tendência experimental para cada uma das porções de um genoma de referência pode ser determinado através várias amostras de acordo com uma relação ajustada para cada amostra entre (i) as contagens de sequências mapeadas para cada uma das porções de um genoma de referência, e (ii) uma característica de mapeamento para cada uma das porções de um genoma de referência. Esse relacionamento ajustado para cada amostra pode ser reunido de várias amostras em três dimensões. O conjunto pode ser encomendado de acordo com a tendência experimental em certas modalidades, embora a metodologia de PERUN possa ser praticada sem encomendar o conjunto de acordo com a tendência experimental. O relacionamento ajustado para cada amostra e O relacionamento ajustado para cada porção do genoma de referência podem ser ajustados independentemente para uma função linear ou função não linear por um método de ajuste adequado (por exemplo, um modelo de ajuste) conhecido na técnica. Exemplos não limitativos de um modelo adequado que pode ser usado para ajustar uma relacionamento incluem um modelo de regressão linear, modelo de regressão simples, modelo de regressão de mínimos quadrados ordinário, modelo de regressão múltipla, modelo de regressão múltipla geral, modelo de regressão polinomial, modelo linear geral, modelo linear generalizado, modelo de regressão de escolha discreta, modelo de regressão logística, modelo de logit multinomial, modelo de logit misturado, modelo de probit, modelo de probit multinomial, modelo de logit ordenado, modelo de probit ordenado, modelo de Poisson, modelo de regressão de resposta multivariada, modelo multinível, modelo de efeitos fixos, modelo de efeitos aleatórios, modelo misturado, modelo de regressão não-linear, modelo não- paramétrico, modelo semiparamétrico, modelo robusto, modelo quantis, modelo isotônico, modelo de componentes principais, modelo de ângulo mínimo, o modelo local, modelo segmentado, e modelos de erros nas variáveis.
[239] Em algumas modalidades, um relacionamento é um relacionamento geométrico e/ou gráfico. Os termos "relacionamento" e "relação", tais como aqui usados, são sinônimos. Em algumas modalidades um relacionamento é um relacionamento matemático. Em algumas modalidades, um relacionamento é plotado. Em algumas modalidades um relacionamento é um relacionamento linear. Em certas modalidades um relacionamento é um relacionamento não linear. Em certas modalidades um relacionamento é uma regressão (por exemplo, uma linha de regressão). Uma regressão pode ser uma regressão linear ou uma regressão não-linear. Um relacionamento pode ser expresso por uma equação matemática. Frequentemente, um relacionamento é definido, em parte, por uma ou mais constantes e/ou uma ou mais variáveis. O relacionamento pode ser gerado por um método conhecido na técnica. Um relacionamento em duas dimensões pode ser gerado por uma ou mais amostras, em certas modalidades, e uma variável comprobatória de erro, ou, possivelmente, comprobatória de erro, pode ser selecionada para uma ou mais dimensões. Um relacionamento pode ser gerado, por exemplo, usando software de gráficos conhecido na técnica que traçam um gráfico usando valores de duas ou mais variáveis fornecidas por um usuário. Um relacionamento pode ser ajustado usando um método conhecido na técnica (por exemplo, através da realização de uma regressão, uma análise de regressão, por exemplo, por um programa de regressão adequado, por exemplo, software). Certos relacionamentos podem ser ajustados por regressão linear e regressão linear pode gerar um valor de inclinação e o valor de intercepto. Certos relacionamentos às vezes não são lineares e podem ser ajustados através de uma função não linear, tal como uma função parabólica, hiperbólica ou exponencial (por exemplo, uma função quadrática), por exemplo.
[240] Na metodologia de PERUN, um ou mais dos relacionamentos ajustados podem ser lineares. Para uma análise do ácido nucleico circulante isento de células de mulheres grávidas, onde a tendência experimental é a tendência de GC e a característica de mapeamento é o teor de GC, um relacionamento ajustado para uma amostra entre (i) as contagens de sequências mapeadas para cada porção isenta de células, e (ii) o teor de GC para cada uma das porções de um genoma de referência, pode ser linear. Para esse último relacionamento ajustado, a inclinação pertence a tendência de GC e um coeficiente da tendência de GC pode ser determinado para cada amostra, quando os relacionados ajustados são reunidos através de várias amostras. Em tais modalidades, o relacionamento ajustado para várias amostras e uma porção entre (i) o coeficiente da tendência de GC para a porção, e (ii) contagens de sequências mapeadas para porção, também pode ser linear. Uma intercepção e inclinação podem ser obtidas a partir do último relacionamento ajustado. Em tais aplicações, a inclinação aborda a tendência específica da amostra com base no teor de GC e a intercepção aborda um padrão de atenuação específico da parte comum a todas as amostras. Metodologia de PERUN pode reduzir significativamente essa tendência específica da amostra e atenuação específica da porção no cálculo dos níveis de seção genômica para fornecer um resultado (por exemplo, presença ou ausência de variação genética, determinação do sexo fetal).
[241] Em algumas modalidades normalização por PERUN faz uso de ajuste para uma função linear e é descrito pela Equação A, Equação B ou uma derivação das mesmas. Equação A: M = LI + GS (A) Equação B: L = (M-GS)/I (B)
[242] Em algumas modalidades L é um nível ou perfil normalizado de PERUN. Em algumas modalidades L é o rendimento pretendido do procedimento de normalização de PERUN. Em certas modalidades L é específico da porção. Em algumas modalidades L é determinado de acordo com várias porções de um genoma de referência e representa um nível normalizado de PERUN de um genoma, cromossomo, ou porções do mesmo segmento. O nível L é frequentemente usado para análises posteriores (por exemplo, para determinar os valores Z, deleções/duplicações maternas, deleções/duplicações fetais, gênero fetal, aneuploidias sexuais, e desse modo por diante). O método de normalização de acordo com a Equação B é nomeado de Remoção de Erro Parametrizado e Normalização Imparcial (PERUN).
[243] Em algumas modalidades G é um coeficiente da tendência de CG medido usando um modelo linear, LOESS, ou qualquer abordagem equivalente. Em algumas modalidades G é uma inclinação. Em algumas modalidades o coeficiente da tendência de CG G é avaliado como a inclinação da regressão para contagens M (por exemplo, contagens brutas) para a porção i e o teor de GC da porção i determinado de um genoma de referência. Em algumas modalidades G representa informação secundária, extraída de M e determinada de acordo com um relacionamento. Em algumas modalidades G representa um relacionamento para um conjunto de contagens específicas de porção e um conjunto de valores de teor de GC específicos da porção para uma amostra (por exemplo, uma amostra de teste). Em algumas modalidades o teor de GC específico da porção é derivado de um genoma de referência. Em algumas modalidades o teor de GC específico da porção é derivado de teor de GC observado ou medido (por exemplo, medido da amostra). Um coeficiente da tendência de CG frequentemente é determinado para cada amostra em um grupo de amostras e geralmente determinado para uma amostra de teste. Um coeficiente da tendência de CG é frequentemente específico da amostra. Em algumas modalidades um coeficiente da tendência de CG é uma constante. Em certas modalidades um coeficiente da tendência de CG, uma vez derivado de uma amostra, não muda.
[244] Em algumas modalidades I é uma intercepção e S é uma inclinação derivada de um relacionamento linear. Em algumas modalidades o relacionamento do qual I e S são derivados é diferente do relacionamento do qual G é derivado. Em algumas modalidades o relacionamento do qual I e S são derivados é fixado para uma dada configuração experimental. Em algumas modalidades I e S são derivados de relacionamento linear de acordo com contagens (por exemplo, contagens brutas) e um coeficiente da tendência de CG de acordo com várias amostras. Em algumas modalidades I e S são derivados independentemente da amostra de teste. Em algumas modalidades I e S são derivados de várias amostras. I e S são frequentemente específicos de porção. Em algumas modalidades, I e S são determinados com o pressuposto de que L = 1 para todas as porções de um genoma de referência em amostras euplóides. Em algumas modalidades um relacionamento linear é determinado para as amostras euplóides e valores I e S específicos para uma porção selecionada (assumindo L = 1) são determinados. Em certas modalidades, o mesmo procedimento é aplicado a todas as porções de um genoma de referência em um genoma humano e um conjunto de interceptos I e inclinações S é determinado para cada porção.
[245] Em algumas modalidades é aplicada uma abordagem de validação cruzada. A validação cruzada, às vezes, é referida como estimativa de rotação. Em algumas modalidades é aplicada uma abordagem de validação cruzada para avaliar com precisão como um modelo preditivo (por exemplo, como PERUN) vai realizar na prática usando uma amostra de teste. Em algumas modalidades um ciclo de validação cruzada compreende a partição de uma amostra de dados em subconjuntos complementares, realizando uma análise de validação cruzada em um subconjunto (por exemplo, por vezes referido como um conjunto de treinamento), e validar a análise usando outro subconjunto (por exemplo, por vezes, ligação de um conjunto de validação ou conjunto de teste). Em certas modalidades, vários ciclos de validação cruzada são realizados usando diferentes partições e/ou diferentes subconjuntos. Exemplos não limitativos de abordagens de validação cruzada incluem deixando um fora, arestas de deslizamento, por K vezes, 2 vezes, sub-amostragem aleatória repetida, semelhante ou suas combinações. Em algumas modalidades uma validação cruzada seleciona aleatoriamente de um conjunto de trabalho que contém 90% de um conjunto de amostras que compreendem fetos euplóides conhecidos e usa aquele subconjunto para treinar um modelo. Em certas modalidades, a seleção aleatória é repetida 100 vezes, produzindo um conjunto de 100 inclinações e 100 interceptos para cada porção.
[246] Em algumas modalidades o valor de M é um valor medido derivado de uma amostra de teste. Em algumas modalidades M é contagem bruta medida para uma porção. Em algumas modalidades, em que os valores de I e S estão disponíveis para uma porção, medição M é determinada a partir de uma amostra de teste e é usada para determinar o nível normalizado de PERUN L para um genoma, cromossomo, segmento ou porção do mesmo de acordo com a Equação B.
[247] Desse modo, a aplicação da metodologia de PERUN às sequências através de várias amostras em paralelo pode reduzir significativamente o erro causado pela (i) tendência experimental específico da amostra (por exemplo, a tendência de CG) e (ii) atenuação específica da porção comum para amostras. Outros métodos em que cada um destas duas fontes de erro são endereçados separadamente ou em série frequentemente não são capazes de reduzir estes de forma tão eficaz como metodologia de PERUN. Sem ser limitado pela teoria, espera-se que a metodologia de PERUN reduza o erro de forma mais eficaz em parte porque os seus processos de aditivos geralmente não espalham muito tanto quanto geralmente processos multiplicativos usados em outras abordagens de normalização (por exemplo, GC-LOESS).
[248] Normalização adicional e técnicas estatísticas podem ser usadas em combinação com metodologia de PERUN. Um processo adicional pode ser aplicado antes, depois e/ou durante o emprego da metodologia de PERUN. Exemplos não limitativos de processos que podem ser usados em combinação com a metodologia de PERUN são descritos a seguir.
[249] Em algumas modalidades, uma normalização secundária ou ajuste de um nível de seção genômica para teor de GC pode ser usada em conjunto com a metodologia de PERUN. Um ajuste do teor de GC ou procedimento de normalização adequado pode ser usado (por exemplo, GC-LOESS, GCRM). Em certas modalidades, uma amostra particular pode ser selecionada e/ou identificada para a aplicação de um processo de normalização de GC adicional. Por exemplo, a aplicação da metodologia de PERUN pode determinar a tendência de CG para cada amostra, e uma amostra associada com uma tendência de GC acima de um certo limite pode ser selecionada para um processo de normalização de GC adicional. Em tais modalidades, um nível limite pré-determinado pode ser utilizado para selecionar tais amostras para normalização de GC adicional.
[250] Em certas modalidades, um processo de filtragem ou ponderação da porção pode ser usado em conjunto com a metodologia de PERUN. Um processo de filtragem ou ponderação adequado da porção pode ser utilizado, exemplos não limitativos que são aqui descritos, no pedido de patente internacional n. PCT/US12/59123 (W02013/052913) e publicação do pedido de patente US n. US20130085681, todo o conteúdo dos quais são aqui incorporados por referência, incluindo todos os textos, tabelas, equações e desenhos. Em algumas modalidades, uma técnica de normalização que reduz o erro associado com inserções, duplicações e/ou deleções maternas (por exemplo, variações no número de cópia fetal e/ou materna), é utilizada em conjunto com a metodologia de PERUN.
[251] Níveis de seção genômica calculados pela metodologia de PERUN podem ser usados diretamente para o fornecimento de um resultado. Em algumas modalidades, os níveis de seção genômica podem ser usados diretamente para fornecer um resultado para as amostras em que a fração fetal é de cerca de 2% a cerca de 6% ou maior (por exemplo, fração fetal de cerca de 4% ou maior). Níveis de seção genômica calculados pela metodologia de PERUN às vezes são processados posteriormente para o fornecimento de um resultado. Em algumas modalidades, níveis de seção genômica são padronizados. Em certas modalidades, a soma, média aritmética ou mediana dos níveis de seção genômica calculados para uma porção de teste (por exemplo, o cromossomo 21) pode ser dividida pela soma, média aritmética ou mediana dos níveis de seção genômica calculados para porções outras que a porção de teste (por exemplo, autossomos outros que cromossomo 21), para gerar um nível de seção genômica experimental. Um nível de seção genômica experimental ou uma seção de seção genômica bruta pode ser usado como parte de uma análise de normalização, tais como o cálculo de uma pontuação Z ou pontuação Z. Uma pontuação Z pode ser gerada para uma amostra, subtraindo um nível de seção genômica esperado de um nível de seção genômica experimental ou nível de seção genômica bruto e o valor resultante pode ser dividido por um desvio padrão para as amostras. Pontuações Z resultantes podem ser distribuídos para diferentes amostras e analisadas, ou podem estar relacionadas com as outras variáveis, tais como a fração fetal e outros, e analisadas, para fornecer um resultado, em certas modalidades.
[252] Como aqui observado, metodologia de PERUN não está limitada à normalização de acordo com a tendência de CG e o teor de CG por si, e pode ser usada para reduzir o erro associado com outras fontes de erro. Um exemplo não- limitativo de uma fonte da tendência do teor de não-GC é capacidade de mapeamento. Quando parâmetros de normalização outros que não teor e a tendência de GC são endereçadas, um ou mais dos relacionamentos ajustados podem ser não lineares (por exemplo, hiperbólica, exponencial). Onde a tendência experimental é determinado de um relacionamento não-linear, por exemplo, uma estimativa da curvatura da tendência experimental pode ser analisada em algumas modalidades.
[253] A metodologia de PERUN pode ser aplicada a uma variedade de indicadores de ácido nucleico. Exemplos não limitativos de indicadores de ácido nucleico são sequências de ácido nucleico e níveis de ácido nucleico a uma localização particular em um microarranjo. Exemplos não limitativos de sequências incluem aqueles obtidos de DNA isento de célula circulante, RNA isento de células circulante, DNA celular e RNA celular. A metodologia de PERUN pode ser aplicada a sequências mapeadas para sequências de referência adequadas, tais como DNA genômico de referência, RNA de referência celular (por exemplo, transcriptoma), e porções dos mesmos (por exemplo, parte(s) de um complemento genômico de DNA ou RNA transcriptoma, parte(s) de um cromossomo).
[254] Desse modo, em certas modalidades, o ácido nucleico celular (por exemplo, DNA ou RNA) pode servir como um indicador de ácido nucleico. Sequências de ácido nucleico celular mapeado para porções do genoma de referência podem ser normalizadas usando metodologia de PERUN. Ácido nucleico celular ligado a uma proteína particular são, por vezes, referidos como processos de imunoprecipitação da cromatina (ChIP). Ácido nucleico enriquecido com ChIP é um ácido nucleico em associação com a proteína celular, tal como DNA ou RNA, por exemplo. Sequências de ácido nucleico enriquecido com ChIP podem ser obtidas usando a tecnologia conhecida na especialidade. Sequências de ácido nucleico enriquecido com ChIP podem ser mapeadas para uma ou mais porções de um genoma de referência, e os resultados podem ser normalizados usando metodologia de PERUN para fornecer um resultado.
[255] Em certas modalidades, sequências de RNA celular podem servir como indicadores de ácido nucleico. Sequências de RNA celular podem ser mapeadas para porções de RNA de referência e normalizadas usando metodologia de PERUN para fornecer resultado. Sequências conhecidas de RNA celular, referidas como um transcriptoma, ou seu segmento, podem ser usadas como uma referência para a qual sequências de RNA de uma amostra podem ser mapeadas. Sequências de RNA da amostra podem ser obtidas usando tecnologia conhecida na técnica. Os resultados das sequências de RNA mapeado para uma referência podem ser normalizados usando metodologia de PERUN para fornecer um resultado.
[256] Em algumas modalidades, os níveis de ácido nucleico de microarranjo podem servir como indicadores de ácidos nucleicos. Os níveis de ácido nucleico através de amostras para um endereço particular, ou hibridização de ácido nucleico, em uma matriz podem ser analisados usando metodologia de PERUN, desse modo normalizando indicadores de ácido nucleico fornecidos pela análise de microarranjo. Desse modo, um endereço particular ou hibridização de ácido nucleico em um microarranjo é análogo a uma porção de sequências de ácido nucleico mapeado, e metodologia de PERUN pode ser utilizada para normalizar os dados de microarranjo para fornecer um melhor resultado.
[257] Em algumas modalidades, uma etapa de processamento compreende um coeficiente de ponderação. Os termos "pesado", "ponderação" ou "função de peso" ou derivados gramaticais ou equivalentes destes, como aqui usados, referem-se a uma manipulação matemática de uma porção ou a totalidade de um conjunto de dados, por vezes, usado para alterar a influência de certas características ou variáveis do conjunto de dados no que diz respeito a outras características ou variáveis do conjunto de dados (por exemplo, aumento ou diminuição da importância e/ou contribuição de dados contidos em uma ou mais porções ou porções de um genoma de referência, com base na qualidade e utilidade dos dados na porção ou porções de um genoma de referência selecionado). A função de ponderação pode ser usada para aumentar a influência de dados com uma variância de medição relativamente pequena, e/ou para diminuir a influência de dados com uma variância de medição relativamente grande, em algumas modalidades. Por exemplo, porções de um genoma de referência com dados de sequência de baixa qualidade ou sub-representada podem ser "ter peso diminuído" para minimizar a influência de um conjunto de dados, enquanto que porções selecionadas de um genoma de referência podem ser "ter peso aumentado" para aumentar a influência em um conjunto de dados. Um exemplo não-limitativo de uma função de ponderação é [1/(desvio padrão) 2]. Uma etapa de ponderação, por vezes, é realizada de um modo substancialmente semelhante a uma etapa de normalização. Em algumas modalidades, um conjunto de dados é dividido por uma variável pré-determinada (por exemplo, variável de ponderação). Uma variável pré-determinada (por exemplo, a função alvo minimizada, Phi) é frequentemente selecionada para ponderar diferentes partes de um conjunto de dados de diferentemente (por exemplo, aumentar a influência de certos tipos de dados, enquanto diminui a influência de outros tipos de dados).
[258] Em certas modalidades, uma etapa de processamento pode compreender uma ou mais manipulações matemáticas e/ou estatísticas. Qualquer manipulação matemática e/ou estatístico adequada, sozinha ou em combinação, pode ser usada para analisar e/ou manipular um conjunto de dados aqui descrito. Qualquer número de manipulações matemáticas e/ou estatísticas adequado pode ser usado. Em algumas modalidades, um conjunto de dados pode ser matematicamente e/ou estatisticamente manipulado 1 ou mais, 5 ou mais, ou 10 ou mais 20 ou mais vezes. Exemplos não limitativos de manipulações matemáticas e estatísticas que podem ser usadas incluem adição, subtração, multiplicação, divisão, funções algébricas, estimadores de mínimos quadrados, ajuste de curvas, equações diferenciais, polinômios racionais, polinômios de casal, polinômios ortogonais, pontuações Z, valores de p, valores de chi, valores de phi, análise de níveis do pico, determinação de locais da margem de pico, cálculo de proporções da área do pico, análise de nível médio cromossômico, cálculo do desvio médio absoluto, soma dos resíduos quadrados, média, desvio padrão, erro padrão, o semelhante ou suas combinações. A manipulação matemática e/ou estatística pode ser realizada sobre a totalidade ou uma porção dos dados legíveis das sequências, ou seus produtos processados. Exemplos não limitativos de variáveis ou características do conjunto de dados que podem ser manipulados estatisticamente incluem contagens brutas, contagens filtradas, contagens normalizadas, alturas do pico, larguras de pico, áreas de pico, margens de pico, tolerâncias laterais, valores de p, níveis medianos, níveis médios, distribuição das contagens dentro de uma região genômica, representação relativa de espécies de ácido nucleico, semelhante ou suas combinações.
[259] Em algumas modalidades, uma etapa de processamento pode compreender o uso de um ou mais algoritmos estatísticos. Qualquer algoritmo estatístico adequado, sozinho ou em combinação, pode ser usado para analisar e/ou manipular um conjunto de dados aqui descrito. Qualquer número adequado de algoritmos estatísticos pode ser usado. Em algumas modalidades, um conjunto de dados podem ser analisados usando 1 ou mais, 5 ou mais, 10 ou mais, ou 20 ou mais algoritmos estatísticos. Exemplos de algoritmos estatísticos adequados para uso com os métodos aqui descritos incluem árvores de decisão, contagens nula, comparações múltiplas, teste abrangente, problema de Behrens-Fisher, bootstrapping, método de Fisher para a combinação de testes independentes de significado, hipótese nula, erro do tipo I, erro do tipo II, teste exato, teste Z de uma amostra, teste Z de duas amostras Z, teste t de uma amostra, teste t pareado, teste t combinado de duas amostras tendo variâncias iguais, teste t não combinado de duas amostras tendo variâncias desiguais, teste Z de uma proporção, teste z de duas proporções combinadas, teste z de duas proporções não combinadas, um teste de chi-quadrado de uma amostra, teste F de duas amostras para igualdade de variâncias, intervalo de confiança, intervalo de credibilidade, significado, meta- análise, regressão linear simples, regressão linear robusta, o semelhante ou combinações dos anteriores. Exemplos não- limitativos de variáveis ou características do conjunto de dados que podem ser analisados por algoritmos estatísticos incluem contagens brutas, contagens filtradas, contagens normalizadas, alturas do pico, larguras do pico, margens do pico, tolerâncias laterais, valores de p, níveis medianos, níveis médios, distribuição das contagens dentro uma região genômica, representação relativa das espécies de ácido nucleico, semelhante ou suas combinações.
[260] Em certas modalidades, um conjunto de dados pode ser analisado através do uso de múltiplos algoritmos estatísticos (por exemplo, 2 ou mais) (por exemplo, regressão dos mínimos quadrados, análise do componente principal, análise do discriminante linear, análise do discriminante quadrático, ensacamento, redes neurais, modelos de máquina de vetor de suporte, florestas aleatórias, modelos de árvore de classificação, K vizinhos mais próximos, regressão logística e/ou perda de suavização) e/ou manipulações matemáticas e/ou estatísticas (por exemplo, aqui referidas como manipulações). O uso de várias manipulações podem gerar um espaço N-dimensional que pode ser usado para fornecer um resultado, em algumas modalidades. Em certas modalidades, a análise de um conjunto de dados através do uso de várias manipulações pode reduzir a complexidade e/ou dimensionalidade do conjunto de dados. Por exemplo, o uso de várias manipulações sobre um conjunto de dados de referência pode gerar um espaço N-dimensional (por exemplo, gráfico de probabilidade) que pode ser usado para representar a presença ou a ausência de uma variação genética, dependendo do estado genético das amostras de referência (por exemplo, positivas ou negativas para uma variação genética selecionada). Análise de amostras de ensaio usando um conjunto substancialmente semelhante de manipulações pode ser usada para gerar um espaço N-dimensional para cada uma das amostras de teste. A complexidade e/ou dimensionalidade de um conjunto de dados do sujeito do teste, por vezes, é reduzida a um único valor ou ponto N-dimensional que pode ser prontamente comparado com o espaço N-dimensional gerado a partir dos dados de referência. Dados da amostra de teste que se enquadram dentro do espaço N-dimensional povoada pelos dados do sujeito de referência são indicativos de um estado genético substancialmente semelhante àquele dos sujeitos de referência. Dados de amostra de teste que caem fora do espaço N-dimensional povoado pelos dados de referência são indicativos de um estado genético substancialmente diferente daquele do sujeito de referência. Em algumas modalidades, as referências são euplóides ou de outro modo não tem uma variação genética ou condição médica.
[261] Depois de conjuntos de dados terem sido contados, opcionalmente filtrados e normalizados, os conjuntos de dados processados podem ser adicionalmente manipulados por um ou mais procedimentos de filtragem e/ou de normalização, em algumas modalidades. Um conjunto de dados que foi ainda manipulado por um ou mais procedimentos de filtragem e/ou de normalização pode ser usado para gerar um perfil, em certas modalidades. Um ou mais procedimentos de filtragem e/ou normalização, por vezes, pode reduzir a complexidade e/ou dimensionalidade do conjunto de dados, em algumas modalidades. Um resultado pode ser fornecido com base em um conjunto de dados de complexidade e/ou dimensionalidade reduzida.
[262] Em algumas modalidades porções podem ser filtradas de acordo com uma medida de erro (por exemplo, o desvio padrão, erro padrão, variância calculada, valor de p, erro médio absoluto (MAE), desvio mediano absoluto e/ou desvio médio absoluto (MAD). Em certas modalidades uma medida de erro refere-se a contar variabilidade. Em algumas modalidades porções são filtradas de acordo com a variabilidade das contagens. Em certas modalidades variabilidade das contagens é uma medida de erro determinada para as contagens mapeadas para uma porção (ou seja, a porção) de um genoma de referência para várias amostras (por exemplo, várias amostras obtidas de vários sujeitos, por exemplo, 50 ou mais, 100 ou mais, 500 ou mais 1000 ou mais, 5000 ou mais ou 10.000 ou mais sujeitos). Em algumas modalidades porções com uma variabilidade das contagens acima de uma faixa superior pré-determinada, são filtradas (por exemplo, excluídas da consideração). Em algumas modalidades uma faixa superior pré-determinada é um valor MAD igual ou superior a cerca de 50, cerca de 52, cerca de 54, cerca de 56, cerca de 58, cerca de 60, cerca de 62, cerca de 64, cerca de 66, cerca de 68, cerca de 70, cerca de 72, cerca de 74 ou igual ou superior a cerca de 76. Em algumas modalidades porções com uma variabilidade das contagens abaixo de uma faixa inferior pré-determinada são filtradas (por exemplo, excluídas da consideração). Em algumas modalidades uma faixa inferior pré-determinada é um valor MAD igual a ou menor do que cerca de 40, cerca de 35, cerca de 30, cerca de 25, cerca de 20, cerca de 15, cerca de 10, about5, cerca de 1, ou igual ou menor do que cerca de 0. Em algumas modalidades porções com uma variabilidade das contagens fora de uma faixa pré-determinada são filtradas (por exemplo, excluídas da consideração). Em algumas modalidades uma faixa pré-determinada é um valor MAD maior do que zero e menor do que cerca de 76, menor do que cerca de 74, menor do que cerca de 73, menor do que cerca de 72, menor do que cerca de 71, menor do que cerca de 70, menor do que cerca de 69, menor do que cerca de 68, menor do que cerca de 67, menor do que cerca de 66, menor do que cerca de 65, menor do que cerca de 64, menor do que cerca de 62, menor do que cerca de 60, menor do que cerca de 58, menor do que cerca de 56, menor do que cerca de 54, menor do que cerca de 52 ou menor do que cerca de 50. Em algumas modalidades uma faixa pré-determinada é um valor MAD maior do que zero e menor do que cerca de 67,7. Em algumas modalidades porções com uma variabilidade das contagens dentro de uma faixa pré- determinada são selecionadas (por exemplo, usadas para determinar a presença ou ausência de uma variação genética).
[263] Em algumas modalidades a variabilidade das contagens de porções representa uma distribuição (por exemplo, uma distribuição normal). Em algumas modalidades porções são selecionadas dentro de um quantil de distribuição. Em algumas modalidades porções com um quantil igual ou menor do que cerca de 99,9%, 99,8%, 99,7%, 99,6%, 99.5 %, 99,4%, 99,3%, 99,2%, 99,1%, 99,0%, 98,9%, 98,8%, 99.6 %, 98,6%, 98,5%, 98,4%, 98,3%, 98,2%, 98,1%, 98,0%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 85%, 80%, ou igual ou menor do que um quantil de cerca de 75% para a distribuição são selecionadas. Em algumas modalidades porções com um quantil de 99% da distribuição da variabilidade das contagens são selecionadas. Em algumas modalidades porções com um MAD > 0 e um MAD < 67,725 com um quantil de 99% e são selecionadas, resultando na identificação de um conjunto de porções estáveis de um genoma de referência.
[264] Exemplos não-limitativos de filtragem da porção em relação à PERUN são fornecidos aqui e no pedido de patente internacional n° PCT/US12/59123 (W02013/052913) todo o conteúdo do qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos. Porções podem ser filtradas com base em, ou baseadas em parte em, uma medida de erro. Uma medida de erro compreendendo valores absolutos de desvio, tal como um fator R, pode ser usada para a remoção da porção ou ponderação em certas modalidades. Um fator R, em algumas modalidades, é definido como a soma de desvios absolutos dos valores de contagens previstos das medições reais divididos pelos valores das contagens previstos das medições reais (por exemplo, Equação B aqui). Enquanto uma medida de erro compreendendo valores absolutos de desvio pode ser usada, uma medida adequada de erro pode ser alternativamente empregada. Em certas modalidades, uma medida de erro não compreendendo valores absolutos de desvio, tal como uma dispersão baseada em quadrados, pode ser usada. Em algumas modalidades, as porções são filtradas ou pesadas de acordo com uma medida da mapeabilidade (por exemplo, uma pontuação da mapeabilidade). Uma porção, por vezes, é filtrada ou pesada de acordo com um número relativamente baixo de sequências mapeadas para a porção (por exemplo, 0, 1, 2, 3, 4, 5 sequências mapeadas para a porção). As porções podem ser filtradas ou pesadas de acordo com o tipo de análise que está sendo efetuada. Por exemplo, para análise de aneuploidia do cromossomo 13, 18 e/ou 21, cromossomos sexuais podem ser filtrados, e apenas autossomos, ou um subconjunto de autossomos, podem ser analisados. Para a determinação do sexo fetal, autossomos podem ser filtrados, e apenas cromossomos sexuais (X e Y), ou um dos cromossomos sexuais (X ou Y), podem ser analisados.
[265] Em modalidades particulares, o seguinte processo de filtragem pode ser empregado. O mesmo conjunto de porções (por exemplo, porções de um genoma de referência) em um dado cromossomo (por exemplo, cromossomo 21) são selecionados e o número de sequências em amostras afetadas e não afetadas são comparados. A diferença refere-se a trissomia 21 e amostras euplóides e envolve um conjunto de porções que cobrem a maioria do cromossomo 21. O conjunto de porções é o mesmo entre as amostras euplóides e T21. A distinção entre um conjunto de porções e uma única seção não é crucial, já que uma porção pode ser definida. A mesma região genômica é comparada em pacientes diferentes. Esse processo pode ser usado para uma análise da trissomia, tal como para T13 ou T18, além de, ou em vez de, T21.
[266] Após os conjuntos de dados terem sido contados, opcionalmente filtrados e normalizados, os conjuntos de dados processados podem ser manipulados ponderando, em algumas modalidades. Uma ou mais porções podem ser selecionadas para ponderação para reduzir a influência de dados (por exemplo, dados ruidosos, dados não informativos) contidos nas porções selecionadas, em certas modalidades, e em algumas modalidades, uma ou mais porções podem ser selecionadas para ponderação para melhorar ou aumentar a influência de dados (por exemplo, dados com pequena variação medida) contidos nas porções selecionadas. Em algumas modalidades, um conjunto de dados é pesado usando uma única função de ponderação que diminui a influência dos dados com grandes variações e aumenta a influência dos dados com pequenas variações. Uma função da ponderação, por vezes, é usada para reduzir a influência dos dados com grandes variações e aumentar a influência dos dados com pequenas variações (por exemplo, [1/(desvio padrão)2]). Em algumas modalidades, um gráfico do perfil dos dados processados posteriormente manipulados por ponderação é gerado para facilitar a classificação e/ou fornecimento de um resultado. Um resultado pode ser fornecido com base em um gráfico do perfil dos dados ponderados.
[267] Filtragem ou ponderação de porções pode ser realizada em um ou mais pontos adequados em uma análise. Por exemplo, porções podem ser filtradas ou ponderadas antes ou após sequências terem sido mapeadas para porções de um genoma de referência. Porções podem ser filtradas ou ponderadas antes ou após uma tendência experimental para porções do genoma individual ser determinado em algumas modalidades. Em certas modalidades, porções podem ser filtradas ou ponderadas antes ou após níveis da secção genômica serem calculados.
[268] Após conjuntos de dados terem sido contados, opcionalmente filtrados, normalizados, e opcionalmente ponderados, os conjuntos de dados processados podem ser manipulados por uma ou mais manipulações matemáticas e/ou estatísticas (por exemplo, funções estatísticas ou algoritmo estatístico), em algumas modalidades. Em certas modalidades, os conjuntos de dados processados podem ser adicionalmente manipulados calculando pontuações Z para uma ou mais porções selecionadas, cromossomos, ou porções de cromossomos. Em algumas modalidades, os conjuntos de dados processados podem ser adicionalmente manipulados calculando os valores de P. Uma modalidade de uma equação para calcular a pontuação Z e um valor de p é apresentada na Equação 1 (Exemplo 2). Em certas modalidades, manipulações matemáticas e/ou estatísticas incluem um ou mais hipóteses relativos à ploidia e/ou fração fetal. Em algumas modalidades, um mapa do perfil dos dados processados ainda manipulado por uma ou mais manipulações estatísticas e/ou matemáticas é gerado para facilitar a classificação e/ou fornecer um resultado. Um resultado pode ser fornecido com base em um gráfico do perfil de dados estatisticamente e/ou matematicamente manipulados. Um resultado fornecido com base no gráfico do perfil dos dados estatisticamente e/ou matematicamente manipulados frequentemente inclui um ou mais hipóteses relativos à ploidia e/ou fração fetal.
[269] Em certas modalidades, várias manipulações são realizadas em conjuntos de dados processados para gerar um espaço N-dimensional e/ou ponto N-dimensional, após os conjuntos de dados terem sido contados, opcionalmente filtrados e normalizados. Um resultado pode ser fornecido com base em um gráfico do perfil de conjuntos de dados analisados em N-dimensões.
[270] Em algumas modalidades, conjuntos de dados são processados usando uma ou mais análises do nível do pico, análises da largura do pico, análises do local da margem do pico, tolerâncias laterais do pico, semelhante, derivações dos mesmos, ou combinações dos anteriores, como parte de ou após conjuntos de dados terem sido processados e/ou manipulados. Em algumas modalidades, um gráfico do perfil dos dados processados usando uma ou mais análises do nível do pico, análises da largura do pico, análises do local da margem do pico, tolerâncias laterais do pico, semelhante, derivações dos mesmos, ou combinações dos anteriores é gerado para facilitar a classificação e/ou fornecer um resultado. Um resultado pode ser fornecido com base em um gráfico do perfil dos dados que foram processados usando uma ou mais análises do nível do pico, análises da largura do pico, análises do local da margem do pico, tolerâncias laterais do pico, semelhante, derivações dos mesmos, ou combinações dos anteriores.
[271] Em algumas modalidades, o uso de uma ou mais amostras de referência que são substancialmente isentas de uma variação genética em questão podem ser usados para gerarem um perfil das contagens mediana de referências contagens, o que pode resultar em um valor pré-determinado representativo da ausência da variação genética, e frequentemente, desvia de um valor pré-determinado nas áreas que correspondem ao local genômico em que a variação genética está localizada no sujeito de teste, se o sujeito do teste possuía a variação genética. Nos sujeitos de teste em risco de, ou sofrendo de uma condição médica associada com uma variação genética, o valor numérico para a porção ou seções selecionadas é esperado variar significativamente do valor pré-determinado dos locais genômicos não afetados. Em certas modalidades, o uso de uma ou mais amostras de referência conhecidas por carregar a variação genética em questão pode ser usado para gerar um perfil das contagens mediana de referência, o que pode resultar em um valor pré-determinado representativo da presença da variação genética, e frequentemente, desvia de um valor pré-determinado nas áreas correspondentes ao local genômico no qual um sujeito de teste não carrega a variação genética. Nos sujeitos de teste não em risco de, ou sofrendo de uma condição médica associada com uma variação genética, o valor em numérico para a porção ou seções selecionadas é esperado variar significativamente do valor pré-determinado dos locais genômicos afetados.
[272] Em algumas modalidades, análise e processamento de dados podem incluir o uso de uma ou mais hipóteses. Um número ou tipo adequado de hipóteses podem ser usados para analisar ou processar um conjunto de dados. Exemplos não- limitativos de hipóteses que podem ser usadas para o processamento e/ou análise de dados incluem ploidia materna, contribuição fetal, prevalência de certas sequências em uma população de referência, origem étnica, prevalência de uma condição médica selecionada em membros da família relacionados, paralelismo entre os perfis das contagens brutas de diferentes pacientes e/ou execuções após normalização de GC e mascaramento repetido (por exemplo, GCRM), compatibilidades idênticas representam artefatos de PCR (por exemplo, posição de base idêntica), hipóteses inerentes a um ensaio de quantificação fetal (por exemplo, FQA), hipóteses sobre gêmeos (por exemplo, se 2 gêmeos e apenas um é afetado a fração fetal eficaz é de apenas 50% do total da fração fetal medida (semelhante para trigêmeos, quadrigêmeos e semelhante)), DNA isento de células fetais (por exemplo, cfDNA) uniformemente cobre todo o genoma, semelhante e suas combinações.
[273] Nos casos em que a qualidade e/ou profundidade das sequências mapeadas não permitem uma predição do resultado da presença ou ausência de uma variação genética em um nível de confiança desejado (por exemplo, um nível de confiança de 95% ou maior), com base nos perfis das contagens normalizadas, um ou mais algoritmos matemáticos de manipulação e/ou algoritmos de previsão estatística adicionais, podem ser utilizados para gerar valores numéricos adicionais úteis para a análise de dados e/ou fornecimento de um resultado. O termo "perfil de contagem normalizada" como aqui usado refere-se a um perfil de gerado usando contagens normalizadas. Exemplos de métodos que podem ser usados para gerar contagens normalizadas e perfis das contagens normalizadas são aqui descritos. Como se observa, sequências mapeadas que foram contadas podem ser normalizadas em relação as contagens de amostra de teste ou contagens da amostra de referência. Em algumas modalidades, um perfil de contagem normalizada pode ser apresentado como um gráfico.
Perfis
[274] Em algumas modalidades, uma etapa de processamento pode compreender gerar um ou mais perfis (por exemplo, gráfico do perfil) de vários aspectos de um conjunto de dados ou derivação dos mesmos (por exemplo, o produto de uma ou mais etapas de processamento de dados matemáticos e/ou estatísticos conhecidas na técnica e/ou descritas aqui). O termo "perfil", como aqui usado, refere-se a um produto de uma manipulação matemática e/ou estatística de dados que pode facilitar a identificação de padrões e/ou correlações em grandes quantidades de dados. Um "perfil" geralmente inclui valores resultantes de uma ou mais manipulações de dados ou conjuntos de dados, com base em um ou mais critérios. Um perfil frequentemente inclui vários pontos de dados. Qualquer número adequado de pontos de dados pode ser incluído em um perfil dependendo da natureza e/ou complexidade de um conjunto de dados. Em certas modalidades, os perfis podem incluir 2 ou mais pontos de dados, 3 ou mais pontos de dados, 5 ou mais pontos de dados, 10 ou mais pontos de dados, 24 ou mais pontos de dados, 25 ou mais pontos de dados, 50 ou mais pontos de dados, 100 ou mais pontos de dados, 500 ou mais pontos de dados, 1000 ou mais pontos de dados, 5000 ou mais pontos de dados, 10.000 ou mais pontos de dados, ou 100.000 ou mais pontos de dados.
[275] Em algumas modalidades, um perfil é representativo da totalidade do conjunto de dados, e em certas modalidades, um perfil é representativo de uma parte ou um subconjunto de um conjunto de dados. Isto é, um perfil, por vezes, inclui ou é gerado de pontos de dados representativos de dados que não foram filtrados para remover quaisquer dados, e, por vezes, inclui um perfil ou é gerado a partir de pontos de dados representativos de dados que foram filtrados para remover os dados indesejados. Em algumas modalidades, um ponto de dados em um perfil representa os resultados da manipulação de dados para uma porção. Em certas modalidades, um ponto de dados em um perfil inclui resultados da manipulação de dados para grupos de porções. Em algumas modalidades, grupos de porções podem ser adjacentes um ao outro, e em certas modalidades, grupos de porções podem ser de diferentes partes de um cromossomo ou genoma.
[276] Pontos de dados em um perfil derivado de um conjunto de dados podem ser representativos de qualquer categorização de dados adequada. Exemplos não-limitativos de categorias em que os dados podem ser agrupados para gerar pontos de dados do perfil incluem: porções com base no tamanho, porções com base em características da sequência (por exemplo, teor de GC, teor de AT, posição em um cromossomo (por exemplo, braço curto, braço longo, centrômero, telômeros), e semelhante), níveis de expressão, cromossomo, semelhante ou combinações dos mesmos. Em algumas modalidades, um perfil pode ser gerado a partir de pontos de dados obtidos de outro perfil (por exemplo, perfil de dados normalizados renormalizados para um valor diferente de normalização para gerar um perfil de dados renormalizados). Em certas modalidades, um perfil gerado a partir de pontos de dados obtidos de um outro perfil reduz o número de pontos de dados e/ou complexidade do conjunto de dados. A redução do número de pontos de dados e/ou complexidade do conjunto de dados frequentemente facilita a interpretação de dados e/ou facilita o fornecimento de um resultado.
[277] Um perfil (por exemplo, um perfil genômico, um perfil de cromossomo, um perfil de um segmento de um cromossomo) frequentemente é uma coleção de contagens normalizadas ou não normalizada para duas ou mais porções. Um perfil geralmente inclui pelo menos um nível (por exemplo, um nível de seção genômica), e, frequentemente compreende dois ou mais níveis (por exemplo, um perfil tem frequentemente vários níveis). Um nível geralmente é para um conjunto de porções tendo cerca das mesmas contagens ou contagens normalizadas. Níveis são descritos em maior detalhe aqui. Em certas modalidades, um perfil compreende uma ou mais porções, cujas porções podem ser ponderadas, removidas, filtradas, normalizadas, ajustadas, tiradas a média, derivadas como uma média, adicionadas, subtraídas, processadas ou transformadas por qualquer combinação das mesmas. Um perfil frequentemente compreende contagens normalizadas mapeadas para porções que definem dois ou mais níveis, onde as contagens são ainda normalizadas de acordo com um dos níveis por um método adequado. Frequentemente contagens de um perfil (por exemplo, um perfil de nível) estão associadas com um valor de incerteza.
[278] Um perfil que compreende um ou mais níveis, por vezes, é preenchido (por exemplo, espaço de preenchimento). Preenchimento (por exemplo, espaço de preenchimento) refere- se a um processo de identificação e ajuste dos níveis de um perfil que são devidos a micro-deleções maternas ou duplicações maternas (por exemplo, variações no número de cópia). Em algumas modalidades níveis são preenchidos que são devidos a micro-duplicações fetais ou micro-deleções fetais. Micro-duplicações ou micro-deleções em um perfil podem, em algumas modalidades, aumentar artificialmente ou diminuir o nível geral de um perfil (por exemplo, um perfil de um cromossomo) levando a determinações de falsos positivos ou falsos negativos de uma aneuploidia de cromossomo (por exemplo, uma trissomia). Em algumas modalidades níveis em um perfil que são devidos a micro-duplicações e/ou deleções são identificados e ajustados (por exemplo, preenchidos e/ou removidos) por um processo por vezes referido como o preenchimento ou espaço de preenchimento. Em certas modalidades um perfil compreende um ou mais primeiros níveis que são significativamente diferentes de um segundo nível de dentro do perfil, cada dos um ou mais primeiros níveis compreende uma variação do número materno, variação do número de cópia fetal, ou uma variação do número de cópia materna e variação do número de cópia fetal e um ou mais dos primeiros níveis são ajustados.
[279] Um perfil que compreende um ou mais níveis pode incluir um primeiro nível e um segundo nível. Em algumas modalidades um primeiro nível é diferente (por exemplo, significativamente diferente) de um segundo nível. Em algumas modalidades um primeiro nível compreende um primeiro conjunto de porções, um segundo nível compreende um segundo conjunto de porções e o primeiro conjunto de porções não é um subconjunto do segundo conjunto de porções. Em certas modalidades, um primeiro conjunto de porções é diferente de um segundo conjunto de porções a partir do qual um primeiro e um segundo níveis são determinados. Em algumas modalidades um perfil pode ter vários primeiros níveis que são diferentes (por exemplo, significativamente diferentes, por exemplo, têm um valor significativamente diferente) de um segundo nível dentro do perfil. Em algumas modalidades um perfil compreende um ou mais primeiros níveis que são significativamente diferentes de um segundo nível dentro do perfil e um ou mais dos primeiros níveis são ajustados. Em algumas modalidades um perfil compreende um ou mais primeiros níveis que são significativamente diferentes de um segundo nível dentro do perfil, cada dos um ou mais primeiros níveis compreende uma variação do número de cópia maternal, variação do número de cópia fetal, ou variação do número de cópia materna e uma variação do número de cópia fetal, e um ou mais dos primeiros níveis são ajustados. Em algumas modalidades um primeiro nível dentro de um perfil é removido do perfil ou ajustado (por exemplo, preenchido). Um perfil pode compreender múltiplos níveis que incluem um ou mais primeiros níveis significativamente diferentes de um ou mais segundos níveis e, frequentemente, a maior parte dos níveis em um perfil são segundos níveis, em que segundo níveis são aproximadamente iguais um ao outro. Em algumas modalidades mais do que 50%, mais do que 60%, mais do que 70%, mais do que 80%, mais do que 90% ou mais do que 95% dos níveis em um perfil são segundo níveis.
[280] Um perfil às vezes é apresentado como um gráfico. Por exemplo, um ou mais níveis representando contagens (por exemplo, contagens normalizadas) de porções podem ser plotados e visualizados. Exemplos não-limitantes de gráficos de perfil que podem ser gerados incluem contagem bruta (por exemplo, o perfil de contagem bruta ou perfil bruto), contagem normalizada, porção ponderada, pontuação z, valor de p, proporção da área versus ploidia ajustada, nível médio versus proporção entre a fração ajustada e medida, componentes principais, semelhante, ou suas combinações. Gráficos do perfil permitem a visualização dos dados manipulados, em algumas modalidades. Em certas modalidades, um gráfico do perfil pode ser usado para fornecer um resultado (por exemplo, proporção da área versus ploidia ajustada, nível médio versus proporção entre a fração fetal ajustada e medida, componentes principais). Os termos "gráfico do perfil de contagem bruta" ou "gráfico do perfil bruto", como aqui usado, referem-se a um gráfico das contagens em cada porção de uma região normalizada para contagens totais em uma região (por exemplo, genoma, porção, cromossomo, porções do cromossomo de um genoma de referência ou um segmento de um cromossomo). Em algumas modalidades, um perfil pode ser gerado usando um processo de janela estática, e, em certas modalidades, um perfil pode ser gerado usando um processo de janela deslizante.
[281] Um perfil gerado por um sujeito de teste, por vezes, é comparado com um perfil gerado para um ou mais sujeitos de referência, a fim de facilitar a interpretação de manipulações matemáticas e/ou estatísticas de um conjunto de dados e/ou para fornecer um resultado. Em algumas modalidades, um perfil é gerado com base em uma ou mais hipóteses de partida (por exemplo, contribuição materna de ácido nucleico (por exemplo, fração materna), contribuição fetal de ácido nucleico (por exemplo, fração fetal), ploidia de amostra de referência, o semelhante ou suas combinações). Em certas modalidades, um perfil de teste frequentemente gira em torno de um valor pré-determinado representativo da ausência de uma variação genética, e frequentemente, desvia de um valor pré-determinado em áreas que correspondem à localização genômica em que a variação genética está localizada no sujeito de teste, se o sujeito de teste possuía a variação genética. Nos sujeitos de teste em risco de, ou sofrendo de uma condição médica associada com uma variação genética, o valor numérico de uma porção selecionada é esperado variar significativamente do valor pré-determinado para locais genômicos não-afetados. Dependendo das hipóteses iniciais (por exemplo, ploidia fixa ou ploidia otimizada, fração fetal fixa ou fração fetal otimizada ou combinações das mesmas) o limite pré-determinado ou valor de corte ou faixa limite de valores indicadores da presença ou ausência de uma variação genética pode variar enquanto ainda fornece um resultado útil para determinar a presença ou ausência de uma variação genética. Em algumas modalidades, um perfil é indicativo de e/ou representativo de um fenótipo.
[282] Por meio de exemplo não limitativo, os perfis de contagens de amostra e/ou de referência normalizados podem ser obtidos a partir dos dados legíveis das sequências bruta pelo (a) cálculo das contagens medianas de referência de cromossomos selecionados, porções ou seus segmentos a partir de um conjunto de referências conhecidas que não carregam uma variação genética, (b) remoção de porções não informativas a partir das contagens brutas da amostra de referência (por exemplo, filtragem); (c) normalizar as contagens de referência para todas as porções restantes de um genoma de referência para o número residual total de contagens (por exemplo, soma das contagens após remoção de porções não-informativas de um genoma de referência) para o cromossomo selecionado da amostra de referência ou localização genômica selecionada, gerando desse modo um perfil do sujeito de referência normalizada; (d) a remoção das porções correspondentes da amostra do sujeito de teste; e (e), normalizar as contagens do sujeito de teste restante para um ou mais locais genômicos selecionados para a soma das contagens medianas de referência residuais para o cromossomo ou cromossomos que contêm os locais genômicos selecionados, gerando desse modo um perfil do sujeito de teste normalizado. Em certas modalidades, uma etapa de normalização adicional com respeito a todo o genoma, reduzida pelas porções filtradas em (b), pode ser incluída entre (c) e (d).
[283] Um perfil do conjunto de dados pode ser gerado por uma ou mais manipulações de dados legíveis das sequências mapeadas contadas. Algumas modalidades incluem o seguinte. Sequências são mapeadas e o número de contagens (isto é, marcações de sequências) para o mapeamento genômico de cada uma das porções são determinadas (por exemplo, contadas). Um perfil de contagem bruta é gerado a partir das sequências mapeadas que são contadas. Um resultado é fornecido comparando um perfil de contagem bruta de um sujeito de teste a um perfil de contagem mediana de referência para cromossomos, segmentos ou porções ou seus segmentos de um conjunto de sujeitos de referência conhecidos não possuem uma variação genética, em certas modalidades.
[284] Em algumas modalidades, os dados legíveis de sequência são opcionalmente filtrados para remover os dados ruidosos ou porções não-informativas. Após filtragem, as contagens restantes são somadas tipicamente para gerar um conjunto de dados filtrados. Um perfil de contagens filtrada é gerado a partir de um conjunto de dados filtrado, em certas modalidades.
[285] Após os dados legíveis de sequência terem sido contados e opcionalmente filtrados, conjuntos de dados podem ser normalizados para gerar níveis ou perfis. Um conjunto de dados pode ser normalizado através da normalização de uma ou mais porções selecionadas para um valor de referência de normalização adequada. Em algumas modalidades, um valor de referência de normalização é representativo das contagens totais para o cromossomo ou cromossomos a partir dos quais porções são selecionadas. Em certas modalidades, um valor de referência de normalização é representativo de uma ou mais porções correspondentes, porções de cromossomo ou cromossomos de um conjunto de dados de referência preparados a partir de um conjunto de sujeitos de referência conhecidos não possui uma variação genética. Em algumas modalidades, um valor de referência de normalização é representativo de uma ou mais porções correspondentes, porções de cromossomo ou cromossomos de um conjunto de dados do sujeito de teste preparado a partir de um sujeito de teste sendo analisado pela presença ou ausência de uma variação genética. Em certas modalidades, o processo de normalização é realizado usando uma abordagem de janela estática, e em algumas modalidades o processo de normalização é realizado usando uma abordagem de janela em movimento ou deslizante. Em certas modalidades, um perfil compreendendo contagens normalizadas é gerado para facilitar a classificação e/ou fornecer um resultado. Um resultado pode ser fornecido com base em um gráfico de um perfil que compreende contagens normalizadas (por exemplo, usando um gráfico de tal um perfil).
Níveis
[286] Em algumas modalidades, um valor (por exemplo, um número, um valor quantitativo) é atribuído a um nível. Um nível pode ser determinado por um método adequado, o processo operacional ou matemático (por exemplo, um nível processado). Um nível, frequentemente é, ou é derivado de, contagens (por exemplo, contagens normalizadas) para um conjunto de porções. Em algumas modalidades um nível de uma porção é substancialmente igual ao número total de contagens mapeadas para uma porção (por exemplo, contagens, contagens normalizadas). Frequentemente, um nível é determinado de contagens que são processadas, transformadas ou manipuladas por um método adequado, processo operacional ou matemático conhecido na técnica. Em algumas modalidades um nível é derivado de contagens que são processadas e exemplos não- limitativos de contagens processadas incluem contagens ponderadas, removidas, filtradas, normalizadas, ajustadas, tirada a média, derivadas como uma média (por exemplo, nível médio), adicionadas, subtraídas, ou transformadas ou combinação das mesmas. Em algumas modalidades um nível compreende contagens que são normalizadas (por exemplo, contagens normalizadas de porções). Um nível pode separar contagens normalizadas por um processo adequado, exemplos não-limitativos dos quais incluem normalização em porções, normalização pelo teor de GC, regressão dos mínimos quadrados linear ou não-linear, GC LOESS, LOWESS, PERUN, RM, GCRM, cQn, o semelhante e/ou suas combinações. Um nível pode compreender contagens normalizadas ou quantidades relativas de contagens. Em algumas modalidades um nível é para contagens ou contagens normalizadas de duas ou mais porções que são calculadas e o nível é referido como um nível médio. Em algumas modalidades um nível é para um conjunto de porções com uma contagem média ou média de contagens normalizadas que é referida como um nível médio. Em algumas modalidades um nível é derivado de porções que compreendem contagens brutas e/ou filtradas. Em algumas modalidades, um nível baseia-se em contagens que são brutas. Em algumas modalidades um nível está associado com um valor de incerteza (por exemplo, um desvio padrão, um MAD). Em algumas modalidades um nível é representado por uma pontuação Z ou valor de p.
[287] Um nível para uma ou mais porções é sinônimo de um "nível de seção genômica" aqui. O termo "nível", tal como aqui usado, por vezes, é sinônimo do termo "elevação". A determinação do significado do termo "nível" pode ser determinada a partir do contexto em que é usado. Por exemplo, o termo "nível", quando usado no contexto de seções genômicas, perfis, leituras e/ou contagens, frequentemente, significa uma elevação. O termo "nível", quando usado no contexto de uma substância ou composição (por exemplo, nível de ARN, nível de plexo) frequentemente refere-se a uma quantidade. O termo "nível", quando usado no contexto de incerteza (por exemplo, nível de erro, nível de confiança, nível de desvio, nível de incerteza) frequentemente refere- se a uma quantidade.
[288] Contagens normalizadas ou não normalizadas para dois ou mais níveis (por exemplo, dois ou mais níveis de um perfil) podem por vezes ser matematicamente manipuladas (por exemplo, adicionadas, multiplicadas, tiradas a média, normalizadas, o semelhante ou sua combinação) de acordo com os níveis. Por exemplo, as contagens normalizadas ou não normalizadas para dois ou mais níveis podem ser normalizadas de acordo com um, alguns ou todos os níveis de um perfil. Em algumas modalidades contagens normalizadas ou não normalizadas de todos os níveis são de um perfil normalizado de acordo com um nível no perfil. Em algumas modalidades contagens normalizadas ou não normalizadas de um primeiro nível em um perfil são normalizadas de acordo com as contagens normalizadas ou não normalizadas de um segundo nível no perfil.
[289] Exemplos não-limitativos de um nível (por exemplo, um primeiro nível, um segundo nível) são um nível para um conjunto de porções compreendendo contagens processadas, um nível para um conjunto de porções compreendendo uma média, mediana ou média aritmética de contagens, um nível para um conjunto de porções compreendendo contagens normalizadas, o semelhante ou qualquer combinação destes. Em algumas modalidades, um primeiro nível e um segundo nível em um perfil são derivados de contagens de porções mapeadas para o mesmo cromossomo. Em algumas modalidades, um primeiro nível e um segundo nível em um perfil são derivados de contagens de porções mapeadas para diferentes cromossomos.
[290] Em algumas modalidades um nível é determinado a partir das contagens normalizadas ou não normalizadas mapeadas para uma ou mais porções. Em algumas modalidades, o nível é determinado a partir das contagens normalizadas ou não normalizadas para duas ou mais porções, onde as contagens normalizadas para cada porção são, frequentemente, as mesmas. Pode haver variação nas contagens (por exemplo, contagens normalizadas) em um conjunto de porções para um nível. Em um conjunto de porções para um nível pode haver uma ou mais porções tendo contagens que são significativamente diferentes do que em outras porções do conjunto (por exemplo, picos e/ou depressões). Qualquer número adequado de contagens normalizadas ou não normalizadas associado com qualquer número adequado de porções pode definir um nível.
[291] Em algumas modalidades um ou mais níveis podem ser determinados a partir das contagens normalizadas ou não normalizadas de todas ou algumas das porções de um genoma. Frequentemente, um nível pode ser determinado a partir de todas ou algumas das contagens normalizadas ou não normalizadas de um cromossomo, ou seu segmento. Em algumas modalidades, duas ou mais contagens derivadas de duas ou mais porções (por exemplo, um conjunto de porções) determinam um nível. Em algumas modalidades duas ou mais contagens (por exemplo, contagens de duas ou mais porções) determinam um nível. Em algumas modalidades, as contagens de 2 a cerca de 100.000 porções determinam um nível. Em algumas modalidades, contagens de 2 a cerca de 50000, 2 a cerca de 40000, 2 a cerca de 30000, 2 a cerca de 20000, 2 a cerca de 10000, 2 a cerca de 5000, cerca de 2 a 2500, 2 a cerca 1250, 2 a cerca de 1000, 2 a cerca de 500, 2 a cerca de 250, 2 a cerca de 100 ou 2 a cerca de 60 porções determinam um nível. Em algumas modalidades contagens de cerca de 10 a cerca de 50 porções determinam um nível. Em algumas modalidades contagens de cerca de 20 a cerca de 40 ou mais porções determinam um nível. Em algumas modalidades, um nível compreende contagens de cerca de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,27, 28, 29, 30, 31, 32, 33,34,35, 36, 37, 38, 39, 40, 45, 50, 55, 60 ou mais porções. Em algumas modalidades, um nível corresponde a um conjunto de porções (por exemplo, um conjunto de porções de um genoma de referência, um conjunto de porções de um cromossomo ou um conjunto de porções de um segmento de um cromossomo).
[292] Em algumas modalidades, um nível é determinado para contagens normalizadas ou não normalizadas de porções que são contíguas. Em algumas modalidades porções (por exemplo, um conjunto de porções), que são contíguas representam segmentos vizinhos de um genoma ou segmentos vizinhos de um cromossomo ou gene. Por exemplo, duas ou mais porções contíguas, quando alinhadas fundindo as porções de extremidade a extremidade, podem representar um conjunto de sequência de uma sequência de DNA maior do que cada uma das porções. Por exemplo, duas ou mais porções contíguas podem representar um genoma intacto, cromossomo, gene, íntron, éxon ou seu segmento. Em algumas modalidades um nível é determinado a partir de uma coleção (por exemplo, um conjunto) de porções contíguas e/ou porções não-contíguos.
Diferentes níveis
[293] Em algumas modalidades, um perfil de contagens normalizadas compreende um nível (por exemplo, um primeiro nível) significativamente diferente do outro nível (por exemplo, um segundo nível) dentro do perfil. Um primeiro nível pode ser maior ou menor do que um segundo nível. Em algumas modalidades, um primeiro nível é para um conjunto de partes compreendendo uma ou mais sequências compreendendo uma variação do número de cópia (por exemplo, uma variação do número de cópia materna , variação do número de cópia fetal, ou uma variação do número de cópia materna e uma variação do número de cópia fetal) e o segundo nível é para um conjunto de porções compreendendo sequências tendo substancialmente nenhuma variação do número de cópia. Em algumas modalidades, significativamente diferente refere-se a uma diferença observável. Em algumas modalidades significativamente diferente refere-se a estatisticamente diferente ou uma diferença estatisticamente significativa. Uma diferença estatisticamente significativa é, por vezes, uma avaliação estatística de uma diferença observada. Uma diferença estatisticamente significativa pode ser avaliada através de um método adequado na técnica. Qualquer limite ou faixa adequada pode ser utilizado para determinar que dois níveis sejam significativamente diferentes. Em certas modalidades, dois níveis (por exemplo, níveis médios) que diferem em cerca de 0,01 por cento ou mais (por exemplo, 0,01 por cento de um ou ambos dos valores do nível) são significativamente diferentes. Em algumas modalidades, dois níveis (por exemplo, níveis médios) que diferem em cerca de 0,1 por cento ou mais são significativamente diferentes. Em certas modalidades, dois níveis (por exemplo, níveis médios) que diferem em cerca de 0,5 por cento ou mais são significativamente diferentes. Em algumas modalidades, dois níveis (por exemplo, níveis médios) que diferem em cerca de 0,5, 0,75, 1, 1,5, 2, 2,5, 3, 3,5, 4, 4,5, 5, 5,5, 6, 6,5, 7, 7,5, 8, 8,5, 9, 9,5 ou mais do que cerca de 10% são significativamente diferentes. Em algumas modalidades, dois níveis (por exemplo, níveis médios) são significativamente diferentes e não existe sobreposição em qualquer nível e/ou nenhuma sobreposição de uma faixa definida por um valor de incerteza calculado para um ou ambos níveis. Em certas modalidades, o valor de incerteza é um desvio padrão expresso como sigma. Em algumas modalidades, dois níveis (por exemplo, níveis médios) são significativamente diferentes e eles diferem em cerca de 1 ou mais vezes o valor de incerteza (por exemplo, 1 sigma). Em algumas modalidades, dois níveis (por exemplo, níveis médios) são significativamente diferentes e eles diferente em cerca de 2 ou mais vezes o valor de incerteza (por exemplo 2 sigmas), cerca de 3 ou mais, cerca de 4 ou mais, cerca de 5 ou mais, cerca de 6 ou mais, cerca de 7 ou mais, cerca de 8 ou mais, cerca de 9 ou mais, ou cerca de 10 ou mais vezes o valor de incerteza. Em algumas modalidades, dois níveis (por exemplo, níveis médios) são significativamente diferentes quando eles diferem em cerca de 1,1, 1,2, 1,3, 1,4, 1,5, 1,6, 1,7, 1,8, 1.9, 2,0, 2,1, 2,2, 2,3, 2,4, 2,5, 2,6, 2,7, 2,8, 2,9, 3,0, 3.1, 3,2, 3,3, 3,4, 3,5, 3,6, 3,7, 3,8, 3,9, ou 4,0 vezes o valor de incerteza ou mais. Em algumas modalidades, o nível de confiança aumenta conforme a diferença entre os dois níveis aumenta. Em certas modalidades o nível de confiança diminui conforme a diferença entre os dois níveis diminui e/ou conforme o valor de incerteza aumenta. Por exemplo, algumas vezes o nível de confiança aumenta com a proporção da diferença entre níveis e o desvio padrão (por exemplo, MADs)
[294] Um ou mais algoritmos de previsão podem ser usados para determinar a significância ou dar sentido a dados de detecção coletados em condições variáveis que podem ser ponderados independentemente de ou dependentemente um do outro. O termo "variável" tal como aqui usado refere-se a um fator, a quantidade, ou a função de um algoritmo que tem um valor ou um conjunto de valores.
[295] Em algumas modalidades, um primeiro conjunto de porções, frequentemente, inclui porções que são diferentes (por exemplo, não-sobrepostas com) de um segundo conjunto de porções. Por exemplo, por vezes, um primeiro nível de contagens normalizadas é significativamente diferente de um segundo nível de contagens normalizadas em um perfil, e o primeiro nível é para um primeiro conjunto de porções, o segundo nível é para um segundo conjunto de porções e as porções não se sobrepõem ao primeiro conjunto e segundo de porções. Em certas modalidades, um primeiro conjunto de porções não é um subconjunto de um segundo conjunto de porções a partir do qual um primeiro nível e segundo nível são determinados, respectivamente. Em algumas modalidades um primeiro conjunto de porções é diferente e/ou distinto de um segundo conjunto de porções a partir do qual um primeiro nível e segundo nível são determinados, respectivamente.
[296] Em algumas modalidades um primeiro conjunto de porções é um subconjunto de um segundo conjunto de porções em um perfil. Por exemplo, por vezes, um segundo nível de contagens normalizadas para um segundo conjunto de porções em um perfil compreende contagens normalizadas de um primeiro conjunto de porções para um primeiro nível no perfil e o primeiro conjunto de porções é um subconjunto do segundo conjunto de porções no perfil. Em algumas modalidades, um nível médio, mediano ou média aritmética é derivado de um segundo nível onde o segundo nível compreende um primeiro nível. Em algumas modalidades, um segundo nível compreende um segundo conjunto de porções representando um cromossomo inteiro e um primeiro nível compreende um primeiro conjunto de porções em que o primeiro conjunto é um subconjunto do segundo conjunto de porções e o primeiro nível representa uma variação do número de cópia materna, variação do número de cópia fetal, ou uma variação do número de cópia materna e uma variação do número de cópia fetal que est á presente no cromossomo.
[297] Em algumas modalidades, um valor de um segundo nível está mais próximo do valor da média, média aritmética ou mediana de um perfil de contagem de um cromossomo, ou seu segmento, do que o primeiro nível. Em algumas modalidades, um segundo nível é um nível médio de um cromossomo, uma porção de um cromossomo ou seu segmento. Em algumas modalidades, um primeiro nível é significativamente diferente de um nível predominante (por exemplo, um segundo nível), representando um cromossomo, ou seu segmento. Um perfil pode incluir vários primeiros níveis que diferem significativamente de um segundo nível, e cada primeiro nível independentemente pode ser maior ou menor do que o segundo nível. Em algumas modalidades, um primeiro nível e um segundo nível são derivados do mesmo cromossomo e o primeiro nível é maior ou menor do que o segundo nível, e o segundo nível é o nível predominante do cromossomo. Em algumas modalidades, um primeiro nível e um segundo nível são derivados do mesmo cromossomo, um primeiro nível é indicativo de uma variação do número de cópia (por exemplo, uma variação do número de cópia materna e/ou fetal, deleção, inserção, duplicação) e um segundo nível é um nível significativo ou nível predominante de porções de um cromossomo, ou seu segmento.
[298] Em certas modalidades, uma sequência em um segundo conjunto de porções para um segundo nível substancialmente não inclui uma variação genética (por exemplo, uma variação do número de cópia, uma variação do número de cópia materna e/ou fetal). Frequentemente, um segundo conjunto de porções para um segundo nível inclui alguma variabilidade (por exemplo, variabilidade em nível, variabilidade nas contagens para porções). Em algumas modalidades, uma ou mais porções de um conjunto de porções para um nível associado com substancialmente nenhuma variação do número de cópia inclui uma ou mais sequências tendo uma variação do número de cópia presente em um genoma materno e/ou fetal. Por exemplo, por vezes, um conjunto de porções inclui uma variação do número de cópia que está presente em um pequeno segmento de um cromossomo (por exemplo, menos do que 10 porções) e o conjunto de porções é para um nível associado com substancialmente nenhuma variação do número de cópia. Desse modo, um conjunto de porções que inclui substancialmente nenhuma variação do número de cópia pode ainda incluir uma variação do número de cópia que está presente em menos do que cerca de 10, 9, 8, 7, 6, 5, 4, 3, 2 ou 1 porções de um nível.
[299] Em algumas modalidades um primeiro nível é para um primeiro conjunto de porções e um segundo nível é para um segundo conjunto de porções e o primeiro conjunto de porções e segundo conjunto de porções são contíguos (por exemplo, adjacentes em relação à sequência de ácido nucleico de um cromossomo ou seu segmento). Em algumas modalidades o primeiro conjunto de porções e segundo conjunto de porções não são contíguos.
[300] Sequências relativamente curta de uma mistura de ácido nucleico materno e fetal podem ser utilizadas para fornecerem contagens que podem ser transformadas em um nível e/ou um perfil. Contagens, níveis e perfis podem ser representados na forma eletrônica ou tangível e podem ser visualizados. Contagens mapeadas para porções (por exemplo, representadas como níveis e/ou perfis) podem fornecer uma representação visual de um genoma, cromossomo, ou uma porção ou um segmento de um cromossomo materno e/ou fetal que está presente no feto e/ou mulher grávida.
Nível de Referência e Valor de Referência Normalizado
[301] Em algumas modalidades um perfil compreende um nível de referência (por exemplo, um nível usado como uma referência). Frequentemente, um perfil de contagens normalizadas fornece um nível de referência a partir do qual níveis esperados e faixas esperadas são determinadas (ver discussão abaixo sobre níveis e faixas esperadas). Um nível de referência frequentemente é para contagens normalizadas de porções compreendendo sequências mapeadas de ambos uma mãe e um feto. Um nível de referência é frequentemente a soma das contagens normalizadas de sequências mapeadas de um feto e uma mãe (por exemplo, uma mulher grávida). Em algumas modalidades um nível de referência é para porções que compreendem sequências mapeadas de uma mãe euplóide e/ou um feto euplóide. Em algumas modalidades um nível de referência é para porções compreendendo sequências mapeadas tendo uma variação genética materna e/ou fetal (por exemplo, uma aneuploidia (por exemplo, uma trissomia), uma variação do número de cópia, uma micro-duplicação, uma micro-deleção, uma inserção). Em algumas modalidades um nível de referência é para porções que incluem substancialmente nenhuma variação genética materna e/ou fetal (por exemplo, uma aneuploidia (por exemplo, uma trissomia), uma variação do número de cópia, uma micro-duplicação, uma micro-deleção, uma inserção). Em algumas modalidades um segundo nível é usado como um nível de referência. Em certas modalidades um perfil compreende um primeiro nível de contagens normalizadas e um segundo nível de contagens normalizadas, o primeiro nível é significativamente diferente do segundo nível e o segundo nível é o nível de referência. Em certas modalidades um perfil compreende um primeiro nível de contagens normalizadas para um primeiro conjunto de porções, um segundo nível de contagens normalizadas para um segundo conjunto de porções, o primeiro conjunto de porções inclui sequências mapeadas tendo uma variação do número de cópia materna e/ou fetal, o segundo conjunto de porções compreende sequências mapeadas tendo substancialmente nenhuma variação do número de cópia materna e/ou variação do número de cópia fetal, e o segundo nível é um nível de referência.
[302] Em algumas modalidades contagens mapeadas para porções de um ou mais níveis de um perfil são normalizadas de acordo com as contagens de um nível de referência. Em algumas modalidades, normalizar contagens de um nível de acordo com as contagens de um nível de referência compreende dividir as contagens de um nível pelas contagens de um nível de referência ou um múltiplo ou sua fração. As contagens normalizadas de acordo com contagens de um nível de referência, frequentemente, foram normalizadas de acordo com um outro processo (por exemplo, PERUN) e as contagens de um nível de referência, frequentemente, também foram normalizadas (por exemplo, por PERUN). Em algumas modalidades as contagens de um nível são normalizadas de acordo com as contagens de um nível de referência e as contagens do nível de referência podem se adaptar a um valor adequado ou antes ou após normalizar. O processo de ajustar as contagens de um nível de referência pode compreender qualquer constante adequada (isto é, número) e qualquer manipulação matemática adequada pode ser usada para as contagens de um nível de referência.
[303] O valor de referência normalizado (NRV) é frequentemente determinado de acordo com as contagens normalizadas de um nível de referência. Determinar um NRV pode compreender qualquer processo de normalização adequada (por exemplo, manipulação matemática) aplicado às contagens de um nível de referência, quando o mesmo processo de normalização é usado para normalizar as contagens de outros níveis dentro do mesmo perfil. Determinar um NRV compreende frequentemente dividir um nível de referência por eles mesmo. Determinar um NRV compreende frequentemente dividir um nível de referência por um múltiplo de si. Determinar um NRV compreende frequentemente dividir um nível de referência pela soma ou diferença do nível de referência e uma constante (por exemplo, um número qualquer).
[304] Um NRV é por vezes referido como um valor nulo. Um NRV pode ser qualquer valor adequado. Em algumas modalidades, um NRV é qualquer valor diferente de zero. Em algumas modalidades um NRV é um número inteiro. Em algumas modalidades um NRV é um número inteiro positivo. Em algumas modalidades, um NRV é igual a 1, 10, 100 ou 1000. Frequentemente, um NRV é igual a 1. Em algumas modalidades um NRV é igual a zero. As contagens de um nível de referência podem ser normalizadas para qualquer NRV adequado. Em algumas modalidades, as contagens de um nível de referência são normalizadas para um NRV de zero. Frequentemente, as contagens de um nível de referência são normalizadas para um NRV de 1.
Níveis esperados
[305] Um nível esperado é, por vezes, um nível pré- definido (por exemplo, um nível teórico, nível previsto). Um "nível esperado" é por vezes aqui referido como um "valor de nível pré-determinado". Em algumas modalidades, um nível esperado é um valor previsto para um nível de contagens normalizadas para um conjunto de porções que incluem a variação do número de cópia. Em certas modalidades, um nível esperado é determinado por um conjunto de porções que inclui praticamente nenhuma variação do número de cópia. Um nível esperado pode ser determinado em relação à ploidia do cromossomo (por exemplo, 0, 1, 2 (isto é, diplóide), 3 ou 4 cromossomos) ou um microploidia (deleção homozigótica ou heterozigótica, duplicação, inserção ou ausência da mesma). Frequentemente, um nível esperado é determinado para uma microploidia materna (por exemplo, uma variação do número de cópia materna e/ou fetal).
[306] Um nível esperado para uma variação genética ou uma variação do número de cópia pode ser determinado por qualquer modo adequado. Frequentemente, um nível esperado é determinado por uma manipulação matemática adequada de um nível (por exemplo, contagens mapeadas para um conjunto de porções para um nível). Em algumas modalidades um nível esperado é determinado através do uso de uma constante por vezes referida como uma constante do nível esperado. Um nível esperado para a variação do número de cópia é por vezes calculado multiplicando um nível de referência, contagens normalizadas de um nível de referência ou um NRV por uma constante do nível esperado, adicionando uma constante do nível esperado, subtraindo uma constante do nível esperado, dividindo por uma constante do nível esperado, ou por uma combinação dos mesmos. Frequentemente, um nível esperado (por exemplo, um nível esperado de uma variação do número de cópia materna e/ou fetal) determinado para o mesmo sujeito, amostra ou grupo de teste é determinado de acordo com o mesmo nível de referência ou NRV.
[307] Frequentemente, um nível esperado é determinado multiplicando um nível de referência, contagens normalizadas de um nível de referência ou um NRV por uma constante do nível esperado onde o nível de referência, contagens normalizadas de um nível de referência ou NRV não é igual a zero. Em algumas modalidades um nível esperado é determinado pela adição de uma constante do nível esperado ao nível de referência, contagens normalizadas de um nível de referência ou um NRV que é igual a zero. Em algumas modalidades, o nível esperado, contagens normalizadas de um nível de referência, NRV e constante do nível esperado são ajustáveis. O processo de ajuste pode compreender qualquer constante adequada (isto é, número) e qualquer manipulação matemática adequada, onde o mesmo processo de ajuste é aplicado a todos os valores sob consideração.
Constante do nível esperado
[308] Uma constante do nível esperado pode ser determinada por um método adequado. Em algumas modalidades uma constante do nível esperado é determinada arbitrariamente. Frequentemente, uma constante do nível esperado é determinada empiricamente. Em algumas modalidades uma constante do nível esperado é determinada de acordo com uma manipulação matemática. Em algumas modalidades uma constante do nível esperado é determinada de acordo com uma referência (por exemplo, um genoma de referência, uma amostra de referência, dados do teste de referência). Em algumas modalidades, uma constante do nível esperado é pré- determinada para um nível representativo da presença ou ausência de uma variação genética ou variação do número de cópia (por exemplo, uma duplicação, inserção ou deleção). Em algumas modalidades, uma constante do nível esperado é pré- determinada para um nível representativo da presença ou ausência de uma variação do número de cópia materna, variação do número de cópia fetal ou uma variação do número de cópia materna e uma variação do número de cópia fetal. Uma constante do nível esperado para a variação do número de cópia pode ser qualquer constante ou um conjunto de constantes adequado.
[309] Em algumas modalidades, a constante do nível esperado para uma duplicação homozigótica (por exemplo, uma duplicação homozigótica) pode ser de cerca de 1,6 a cerca de 2,4, de cerca de 1,7 a cerca de 2,3, de cerca de 1,8 a cerca de 2,2, ou de cerca de 1,9 a cerca de 2,1. Em algumas modalidades a constante do nível esperado para uma duplicação homozigótica é de cerca de 1,6, 1,7, 1,8, 1,9, 2,0, 2,1, 2,2, 2,3 ou cerca de 2,4. Frequentemente, a constante do nível esperado para uma duplicação homozigótica é de cerca de 1,90, 1,92, 1,94, 1,96, 1,98, 2,0, 2,02, 2,04, 2,06, 2,08 ou cerca de 2,10. Frequentemente, a constante do nível esperado para uma duplicação homozigótica é cerca de 2.
[310] Em algumas modalidades, a constante do nível esperado para uma duplicação heterozigótica (por exemplo, uma duplicação homozigótica) é de cerca de 1,2 a cerca de 1,8, de cerca de 1,3 a cerca de 1,7, ou de cerca de 1,4 a cerca de 1,6. Em algumas modalidades a constante do nível esperado para uma duplicação heterozigótica é de cerca de 1,2, 1,3, 1,4, 1,5, 1,6, 1,7 ou cerca de 1,8. Frequentemente, a constante do nível esperado para uma duplicação heterozigótica é de cerca de 1,40, 1,42, 1,44, 1,46, 1,48, 310.5, 1,52, 1,54, 1,56, 1,58 ou cerca de 1,60. Em algumas modalidades, a constante do nível esperado para uma duplicação heterozigótica é cerca de 1,5.
[311] Em algumas modalidades, a constante do nível esperado para a ausência de uma variação do número de cópia (por exemplo, a ausência de uma variação do número de cópia materna e/ou variação do número de cópia fetal) é de cerca de 1,3 a cerca de 0,7, de cerca de 1,2 a cerca de 0,8, ou de cerca de 1,1 a cerca de 0,9. Em algumas modalidades a constante do nível esperado para a ausência de uma variação do número de cópia é de cerca de 1,3, 1,2, 1,1, 1,0, 0,9, 0,8 ou cerca de 0,7. Frequentemente a constante do nível esperado para a ausência de uma variação do número de cópia é de cerca de 1,09, 1,08, 1,06, 1,04, 1,02, 1,0, 0,98, 0,96, 0,94, ou cerca de 0,92. Em algumas modalidades, a constante do nível esperado para a ausência de uma variação do número de cópia é cerca de 1.
[312] Em algumas modalidades, a constante do nível esperado para uma deleção heterozigótica (por exemplo, uma deleção heterozigótica materna, fetal ou materna e fetal) é de cerca de 0,2 a cerca de 0,8, de cerca de 0,3 a cerca de 0,7, ou de cerca de 0,4 a cerca de 0,6. Em algumas modalidades a constante do nível esperado para uma deleção heterozigótica é de cerca de 0,2, 0,3, 0,4, 0,5, 0,6, 0,7 ou cerca de 0,8. Frequentemente a constante do nível esperado para uma deleção heterozigótica é de cerca de 0,40, 0,42, 0,44, 0,46, 0,48, 0,5, 0,52, 0,54, 0,56, 0,58 ou cerca de 0,60. Em algumas modalidades, a constante do nível esperado para uma deleção heterozigótica é cerca de 0,5.
[313] Em algumas modalidades, a constante do nível esperado para uma deleção homozigótica (por exemplo, uma deleção homozigótica) pode ser de cerca de -0,4 a cerca de 0,4, de cerca de -0,3 a cerca de 0,3, de cerca de -0,2 a cerca de 0,2, ou de cerca de -0,1 a cerca de 0,1. Em algumas modalidades a constante do nível esperado para uma deleção homozigótica é de cerca de -0,4, -0,3, -0,2, -0,1, 0,0, 0,1, 0,2, 0,3 ou cerca de 0,4. Frequentemente, a constante do nível esperado para uma deleção homozigótica é de cerca de -0,1, -0,08, -0,06, -0,04, -0,02, 0,0, 0,02, 0,04, 0,06, 0,08 ou cerca de 0,10. Frequentemente, a constante do nível esperado para uma deleção homozigótica é cerca de 0.
Faixa do nível esperado
[314] Em algumas modalidades, a presença ou ausência de uma variação genética ou variação do número de cópia (por exemplo, uma variação do número de cópia materna, variação do número de cópia fetal, ou uma variação do número de cópia materno e uma variação do número de cópia fetal) é determinada por um nível que se situa dentro ou fora de uma faixa do nível esperado. Uma faixa do nível esperado é frequentemente determinada de acordo com um nível esperado. Em algumas modalidades uma faixa do nível esperado é determinada para um nível que compreende substancialmente qualquer variação genética ou substancialmente nenhuma variação do número de cópia. Um método adequado pode ser usado para determinar uma faixa do nível esperado.
[315] Em algumas modalidades, uma faixa do nível esperado é definida de acordo com um valor de incerteza adequado calculado para um nível. Exemplos não-limitativos de um valor de incerteza são um desvio padrão, erro padrão, variância calculada, valor de p, e desvio médio absoluto (MAD). Em algumas modalidades, uma faixa do nível esperado para uma variação genética ou uma variação do número de cópia é determinada, em parte, através do cálculo do valor de incerteza para um nível (por exemplo, um primeiro nível, um segundo nível, um primeiro nível e um segundo nível). Em algumas modalidades uma faixa de nível esperado é definida de acordo com um valor de incerteza calculado para um perfil (por exemplo, um perfil de contagens normalizadas para um cromossomo ou seu segmento). Em algumas modalidades, um valor de incerteza é calculado para um nível que compreende substancialmente nenhuma variação genética ou substancialmente nenhuma variação do número de cópia. Em algumas modalidades, um valor incerteza é calculada para um primeiro nível, um segundo nível ou um primeiro nível e um segundo nível. Em algumas modalidades um valor de incerteza é determinado por um primeiro nível, um segundo nível ou um segundo nível compreende um primeiro nível.
[316] Uma faixa do nível esperado é por vezes calculada, em parte, pela multiplicação, adição, subtração, ou divisão de um valor de incerteza por uma constante (por exemplo, uma constante pré-determinada) n. Um procedimento matemático adequado ou combinação de processos pode ser usado. A constante n (por exemplo, constante pré-determinada n) é por vezes referida como um intervalo de confiança. Um intervalo de confiança selecionado é determinado de acordo com a constante n que é selecionada. A constante n (por exemplo, a constante n pré-determinada, o intervalo de confiança) pode ser determinada por uma maneira adequada. A constante n pode ser um número ou a fração de um número maior do que zero. A constante n pode ser um número inteiro. Frequentemente a constante n é um número menor do que 10. Em algumas modalidades a constante n é um número menor do que cerca de 10, menor do que cerca de 9, menor do que cerca de 8, menor do que cerca de 7, menor do que cerca de 6, a menor do que cerca de 5, menor do que cerca de 4, menor do que cerca de 3, ou menor do que cerca de 2. Em algumas modalidades a constante n é cerca de 10, 9,5, 9, 8,5, 8, 7,5, 7, 6,5, 6, 5,5, 5, 4,5, 4, 3,5, 3, 2,5, 2 ou 1. A constante n pode ser determinada empiricamente a partir dos dados derivados dos sujeitos (uma mulher grávida e/ou um feto) com uma disposição genética conhecida.
[317] Frequentemente, um valor de incerteza e constante n definem uma faixa (por exemplo, um corte de incerteza). Por exemplo, por vezes um valor de incerteza é um desvio padrão (por exemplo, +/- 5) e é multiplicado por uma constante n (por exemplo, um intervalo de confiança), definindo desse modo uma faixa de corte ou incerteza (por exemplo, 5n a -5n).
[318] Em algumas modalidades, uma faixa do nível esperado de variação genética (por exemplo, uma variação do número de cópia materna, variação do número de cópia fetal, ou uma variação do número de cópia materna e uma variação do número de cópia fetal) é a soma de um nível esperado mais uma constante n vezes a incerteza (por exemplo, n x Sigma (por exemplo, 6 Sigma)). Em algumas modalidades a faixa do nível esperado para uma variação genética ou variação do número de cópia designada por k pode ser definida pela seguinte fórmula: Fórmula R: (Faixa de nível esperado}k = (nível esperado}k + no onde o é um valor de incerteza, n é uma constante (por exemplo, uma constante pré-determinada) e a faixa do nível esperado e nível esperado são para a variação genética k (por exemplo, k = uma deleção heterozigótica, por exemplo, k = a ausência de uma genética variação). Por exemplo, para um nível esperado igual a 1 (por exemplo, ausência de uma variação do número cópia), um valor de incerteza (por exemplo, o) igual a +/-0,05, e n = 3, a faixa do nível esperado é definida como 1,15 a 0,85. Em algumas modalidades, a faixa do nível esperado para uma duplicação heterozigótica é determinada como 1,35 a 1,65 quando o nível esperado para uma duplicação heterozigótica é 1,5, n = 3, e o valor de incerteza o é +/- 0,05. Em algumas modalidades a faixa do nível esperado para uma deleção heterozigótica é determinada como 0,65 a 0,35, quando o nível esperado para uma duplicação heterozigótica é 0,5, n = 3, e o valor de incerteza o é -/+ 0,05. Em algumas modalidades a faixa do nível esperado para uma duplicação homozigótica é determinada como 2,15 a 1,85 quando o nível esperado para uma duplicação heterozigótica é de 2,0, n = 3 e o valor de incerteza o é +/- 0,05. Em algumas modalidades a faixa do nível esperado para uma deleção homozigótica é determinada como 0,15 a -0,15 quando o nível esperado para uma duplicação heterozigótica é 0,0, n = 3 e o valor de incerteza u é +/- 0,05.
[319] Em algumas modalidades uma faixa do nível esperado para uma variação do número de cópia homozigótica (por exemplo, uma variação do número de cópia homozigótica materna, fetal ou materno e fetal) é determinada, em parte, de acordo com uma faixa do nível esperado para variação do número de cópia heterozigótica correspondente. Por exemplo, às vezes uma faixa do nível esperado para uma duplicação homozigótica compreende todos os valores maiores do que um limite superior de uma faixa do nível esperado para uma duplicação heterozigótica. Em algumas modalidades uma faixa do nível esperado para uma duplicação homozigótica compreende todos os valores maiores do que ou iguais a um limite superior de uma faixa do nível esperado para uma duplicação heterozigótica. Em algumas modalidades uma faixa do nível esperado para uma duplicação homozigótica compreende todos os valores maiores do que um limite superior de uma faixa do nível esperado para uma duplicação heterozigótica e menos do que o limite superior definido pela fórmula R em que u é um valor de incerteza e é um valor positivo, n é uma constante e k é uma duplicação homozigótica. Em algumas modalidades uma faixa do nível esperado para uma duplicação homozigótica compreende todos os valores maiores do que ou igual a um limite superior de uma faixa do nível esperado para uma duplicação heterozigótica e menos do que ou igual ao limite superior definido pela fórmula R em que u é um valor de incerteza, u é um valor positivo, n é uma constante e k é uma duplicação homozigótica.
[320] Em algumas modalidades, uma faixa do nível esperado para uma deleção homozigótica compreende todos os valores menores do que de um limite inferior de um faixa do nível esperado para uma deleção heterozigótica. Em algumas modalidades uma faixa do nível esperado para uma deleção homozigótica compreende todos os valores menores do que ou iguais a um limite inferior de uma faixa do nível esperado para uma deleção heterozigótica. Em algumas modalidades uma faixa do nível esperado para uma deleção homozigótica compreende todos os valores menores do que um limite inferior de uma faixa do nível esperado para uma deleção heterozigótica e maiores do que o limite inferior definido pela fórmula R em que a é um valor de incerteza, a é um valor negativo, n é uma constante e k é uma deleção homozigótica. Em algumas modalidades uma faixa do nível esperado para uma deleção homozigótica compreende todos os valores menores do que ou iguais a um limite inferior de uma faixa do nível esperado para uma deleção heterozigótica e maiores do que ou iguais ao limite inferior definido pela fórmula R em que a é um valor de incerteza valor, a é um valor negativo, n é uma constante e k é uma deleção homozigótica.
[321] Um valor de incerteza pode ser usado para determinar um valor limite. Em algumas modalidades, uma faixa (por exemplo, uma faixa limite) é obtida pelo cálculo do valor de incerteza determinado a partir de contagens brutas, filtradas e/ou normalizadas. Uma faixa pode ser determinada multiplicando o valor por um nível de incerteza (por exemplo, contagens normalizadas de um nível) por uma constante pré- determinada (por exemplo, 1, 2, 3, 4, 5, 6, etc.), que representa o múltiplo de incerteza (por exemplo, número de desvios padrão) escolhido como limite de corte (por exemplo, multiplicar por 3 para 3 desvios padrão), por meio de que é gerado uma faixa, em algumas modalidades. Uma faixa pode ser determinada através da adição e/ou subtração de um valor (por exemplo, um valor pré-determinado, um valor de incerteza, um valor de incerteza multiplicado por uma constante pré-determinada) e/ou a partir de um nível em que uma faixa é gerada, em algumas modalidades. Por exemplo, para um nível igual a 1, um desvio padrão de +/-0,2, onde uma constante pré-determinada é 3, a faixa pode ser calculada como (1 + 3(0,2)) a (1 + 3(-0,2)) ou 1,6 a 0,4. Uma faixa, por vezes, pode definir uma faixa esperada ou faixa do nível esperado para a variação do número de cópia. Em certas modalidades, algumas ou a totalidade das porções que excedem um valor limite, estando fora de uma faixa ou estando dentro de uma faixa de valores, são removidas como parte de, antes de, ou após um processo de normalização. Em algumas modalidades, algumas ou a totalidade das porções que excedem um valor limite calculado, estando fora de uma faixa ou estando dentro de uma faixa, são ponderadas ou ajustadas como parte de, ou antes do processo de normalização ou classificação. Exemplos de ponderação são aqui descritos. Os termos "dados redundantes", e "sequências mapeadas redundantes" como usados aqui se referem às sequências derivadas da amostra que são identificadas como tendo sido já atribuídas a um local genômico (por exemplo, posição base) e/ou contadas por uma porção.
[322] Em algumas modalidades um valor de incerteza é determinado de acordo com a fórmula que se segue:
Figure img0001
Onde Z representa o desvio padronizado entre dois níveis, L é o nível médio (ou mediano) e sigma é o desvio padrão (ou MAD). O índice O indica um segmento de um perfil (por exemplo, um segundo nível, um cromossomo, um NRV, um "nível euplóide", um nível de ausência de uma variação do número de cópia), e A indica um outro segmento de um perfil (por exemplo, um primeiro nível, um nível que representa uma variação do número de cópia, um nível que representa uma aneuploidia (por exemplo, uma trissomia). A variável No representa o número total de porções no segmento do perfil indicado pelo índice O. NA representa o número total de porções no segmento do perfil indicado pelo índice A.
Categorizando uma variação do número de cópia
[323] Um nível (por exemplo, um primeiro nível) que difere significativamente de outro nível (por exemplo, um segundo nível) pode frequentemente ser categorizado como uma variação do número de cópia (por exemplo, uma variação do número de cópia materna e/ou fetal, uma variação do número de cópia fetal, uma deleção, duplicação, inserção) de acordo com um faixa do nível esperado. Em algumas modalidades, a presença de uma variação do número de cópia é categorizada quando um primeiro nível é significativamente diferente de um segundo nível e o primeiro nível está dentro da faixa do nível esperado para uma variação do número de cópia. Por exemplo, uma variação do número de cópia (por exemplo, uma variação do número de cópias materna e/ou fetal, uma variação do número de cópia fetal) pode ser categorizada em que um primeiro nível é significativamente diferente de um segundo nível e o primeiro nível está dentro da faixa do nível esperado para uma variação do número de cópia. Em algumas modalidades uma duplicação heterozigótica (por exemplo, uma duplicação heterozigótica materna ou fetal ou materna e fetal) ou deleção heterozigótica (por exemplo, uma deleção heterozigótica materna ou fetal ou materna e fetal) é categorizada quando um primeiro nível é significativamente diferente de um segundo nível e o primeiro nível está dentro da faixa do nível esperado para uma duplicação heterozigótica ou deleção heterozigótica, respectivamente. Em algumas modalidades uma duplicação homozigótica ou deleção homozigótica é categorizada quando um primeiro nível é significativamente diferente de um segundo nível e o primeiro nível está dentro da faixa do nível esperado para uma duplicação homozigótica ou deleção homozigótica, respectivamente.
Ajustes do nível
[324] Em algumas modalidades, um ou mais níveis são ajustados. Um processo para ajustar um nível frequentemente é referido como preenchimento. Em algumas modalidades, vários níveis em um perfil (por exemplo, um perfil de um genoma, um perfil de cromossomo, um perfil de uma porção ou segmento de um cromossomo) são ajustados. Em algumas modalidades, cerca de 1 a cerca de 10.000 ou mais níveis em um perfil são ajustados. Em algumas modalidades cerca de 1 a cerca de 1000, cerca de 1 a 900, 1 a cerca de 800, 1 a cerca de 700, 1 a cerca de 600, 1 a cerca de 500, 1 a cerca de 400, 1 a cerca de 300, 1 a cerca de 200, 1 a cerca de 100, 1 a cerca de 50, 1 a cerca de 25, 1 e cerca de 20, 1 e cerca de 15, 1 e cerca de 10, ou cerca de 1 a 5 em um níveis em um perfil são ajustados. Em algumas modalidades um nível é ajustado. Em algumas modalidades, um nível (por exemplo, um primeiro nível de um perfil de contagem normalizado) que difere de forma significativa de um segundo nível é ajustado. Em algumas modalidades um nível categorizado como uma variação do número de cópia é ajustado. Em algumas modalidades um nível (por exemplo, um primeiro nível de um perfil de contagem normalizado), que difere de forma significativa de um segundo nível, é categorizado como uma variação do número de cópia (por exemplo, um número de variação de cópia, por exemplo, uma variação do número de cópia materna) e é ajustado. Em algumas modalidades, um nível (por exemplo, um primeiro nível) está dentro de uma faixa do nível esperado para uma variação do número de cópia materna, variação do número de cópia fetal, ou uma variação do número de cópia materna e uma variação do número de cópia fetal e o nível é ajustado. Em algumas modalidades, um ou mais níveis (por exemplo, em níveis em um perfil) não são ajustados. Em algumas modalidades, um nível (por exemplo, um primeiro nível) está fora de uma faixa do nível esperado para uma variação do número de cópia e o nível não é ajustado. Frequentemente, um nível dentro de uma faixa do nível esperado para a ausência de uma variação do número de cópia não é ajustado. Qualquer número adequado de ajustes pode ser feito a um ou mais níveis em um perfil. Em algumas modalidades, um ou mais níveis são ajustados. Em algumas modalidades 2 ou mais, 3 ou mais, 5 ou mais, 6 ou mais, 7 ou mais, 8 ou mais, 9 ou mais vezes, e 10 ou mais níveis são ajustados.
[325] Em algumas modalidades, um valor de um primeiro nível é ajustado de acordo com um valor de um segundo nível. Em algumas modalidades um primeiro nível, identificado como representativo de uma variação do número de cópia, é ajustado para o valor de um segundo nível, em que o segundo nível é frequentemente associado com nenhuma variação do número de cópia. Em certas modalidades, um valor de um primeiro nível, identificado como representativo de um número de variação de cópia, é ajustado de modo que o valor do primeiro nível é aproximadamente igual a um valor de um segundo nível.
[326] Um ajuste pode compreender uma operação matemática adequada. Em algumas modalidades um ajuste compreende uma ou mais operações matemáticas. Em algumas modalidades um nível é ajustado normalizando, filtrando, tirando a média, multiplicando, dividindo, adicionando ou subtraindo ou combinação dos mesmos. Em algumas modalidades um nível é ajustado por um valor pré-determinado ou uma constante. Em algumas modalidades um nível é ajustado modificando o valor do nível para o valor de outro nível. Por exemplo, um primeiro nível pode ser ajustado através da modificação do seu valor com o valor de um segundo nível. Um valor em tais casos pode ser um valor processado (por exemplo, valor médio, normalizado e semelhante).
[327] Em algumas modalidades um nível é categorizado como uma variação do número de cópia (por exemplo, uma variação do número de cópia materna) e é ajustado de acordo com um valor pré-determinado aqui referido como um valor de ajuste pré-determinado (PAV). Frequentemente, um PAV é determinado por uma variação do número de cópia particular. Frequentemente, um PAV determinado por uma variação do número de cópia (por exemplo, duplicação homozigótica, deleção homozigótica, duplicação heterozigótica, deleção heterozigótica) é usado para ajustar um nível categorizado como uma variação específica do número de cópia (por exemplo, duplicação homozigótica, deleção homozigótica, duplicação heterozigótica, deleção heterozigótica). Em certas modalidades, um nível é categorizado como uma variação do número de cópia e, em seguida, é ajustado de acordo com um PAV específico para o tipo de variação do número de cópia categorizada. Em algumas modalidades um nível (por exemplo, um primeiro nível) é categorizado como uma variação do número de cópia materna, variação do número de cópia fetal, ou uma variação do número de cópia materna e uma variação do número de cópia fetal e é ajustado pela adição ou subtração de um PAV do nível. Frequentemente, um nível (por exemplo, um primeiro nível) é categorizado como uma variação do número de cópia materna e é ajustado pela adição de um PAV ao nível. Por exemplo, um nível categorizado como uma duplicação (por exemplo, uma duplicação homozigótica materna, fetal ou materno e fetal) pode ser ajustado pela adição de um PAV determinado para uma duplicação específica (por exemplo, uma duplicação homozigótica) fornecendo desse modo um nível ajustado. Frequentemente, um PAV determinado por uma duplicação do número de cópias é um valor negativo. Em algumas modalidades ao fornecer um ajuste a um nível representativo de uma duplicação através do uso de um PAV determinado para uma duplicação resulta em uma redução do valor do nível. Em algumas modalidades, um nível (por exemplo, um primeiro nível) que difere de forma significativa de um segundo nível é categorizado como uma deleção do número de cópia (por exemplo, uma deleção homozigótica, deleção heterozigótica, duplicação homozigótica, duplicação homozigótica) e o primeiro nível é ajustado pela adição de um PAV determinado para uma deleção do número de cópia. Frequentemente, um PAV determinado para uma deleção do número de cópia é um valor positivo. Em algumas modalidades ao fornecer um ajuste a um nível representativo de uma deleção usando um PAV determinado para uma deleção resulta em um aumento do valor do nível.
[328] Um PAV pode ser qualquer valor adequado. Frequentemente, um PAV é determinado de acordo com e é específico para uma variação do número de cópia (por exemplo, uma variação do número de cópia categorizada). Em certas modalidades um PAV é determinado de acordo com um nível esperado para uma variação do número de cópia (por exemplo, uma variação do número de cópia categorizada) e/ou um fator de PAV. Um PAV, por vezes, é determinado multiplicando o nível esperado por um fator de PAV. Por exemplo, um PAV para uma variação do número de cópia pode ser determinado multiplicando o nível esperado determinado para uma variação do número de cópia (por exemplo, uma deleção heterozigótica) por um fator de PAV determinado para a mesma variação do número de cópia (por exemplo, uma deleção heterozigótica). Por exemplo, o PAV pode ser determinado pela fórmula que se segue: PAVk = (nível esperado}k x (fator de PAV}k para a variação do número de cópia k (por exemplo, k = uma deleção heterozigótica)
[329] Um fator de PAV pode ser de qualquer valor adequado. Em algumas modalidades um fator de PAV para uma duplicação homozigótica está entre cerca de -0,6 e cerca de -0,4. Em algumas modalidades um fator de PAV para uma duplicação homozigótica é cerca de -0,60, -0,59, -0,58, - 0,57, -0,56, -0,55, -0,54, -0,53, -0,52, -0,51, -0,50, - 0,49, -0,48, -0,47, -0,46, -0,45, -0,44, -0,43, -0,42, -0,41 e -0,40. Frequentemente um fator de PAV para uma duplicação homozigótica é cerca de -0,5.
[330] Por exemplo, para um NRV de cerca de 1 e um nível esperado de uma duplicação homozigótica igual a cerca de 2, o PAV para a duplicação homozigótica é determinado como cerca de -1 de acordo com a fórmula acima. Nesse caso, um primeiro nível categorizado como uma duplicação homozigótica é ajustado através da adição de cerca de -1 para o valor do primeiro nível, por exemplo.
[331] Em algumas modalidades um fator de PAV para uma duplicação heterozigótica está entre cerca de -0,4 e cerca de -0,2. Em algumas modalidades um fator de PAV para uma duplicação heterozigótica é cerca de -0,40, -0,39, -0,38, - 0,37, -0,36, -0,35, -0,34, -0,33, -0,32, -0,31, -0,30, - 0,29, -0,28, -0,27, -0,26, -0,25, -0,24, -0,23, -0,22, -0,21 e -0,20. Frequentemente, um fator de PAV para uma duplicação heterozigótica é cerca de -0,33.
[332] Por exemplo, para um NRV de cerca de 1 e um nível esperado de uma duplicação heterozigótica igual a cerca de 1,5, o PAV para a duplicação homozigótica é determinado como cerca de -0,495 acordo com a fórmula acima. Nesse caso, um primeiro nível categorizado como uma duplicação heterozigótica é ajustado por adição de cerca de -0,495 ao valor do primeiro nível, por exemplo.
[333] Em algumas modalidades um fator de PAV para uma deleção heterozigótica está entre cerca de 0,4 e cerca de 0,2. Em algumas modalidades um fator de PAV para uma deleção heterozigótica é cerca de 0,40, 0,39, 0,38, 0,37, 0,36, 0,35, 0,34, 0,33, 0,32, 0,31, 0,30, 0,29, 0,28, 0,27, 0,26, 0,25, 0,24, 0,23, 0,22, 0,21 e 0,20. Frequentemente, um fator de PAV para uma deleção heterozigótica é cerca de 0,33.
[334] Por exemplo, para um NRV de cerca de 1 e um nível esperado de uma deleção heterozigótica igual a cerca de 0,5, o PAV para a deleção heterozigótica é determinado como cerca de 0,495 de acordo com a fórmula acima. Nesse caso, um primeiro nível categorizado como uma deleção heterozigótica é ajustado pela adição de cerca de 0,495 ao valor do primeiro nível, por exemplo.
[335] Em algumas modalidades de um fator de PAV para uma deleção homozigótica está entre cerca de 0,6 e cerca de 0,4. Em algumas modalidades um fator de PAV para uma deleção homozigótica é de cerca de 0,60, 0,59, 0,58, 0,57, 0,56, 0,55, 0,54, 0,53, 0,52, 0,51, 0,50, 0,49, 0,48, 0,47, 0,46, 0,45, 0,44, 0,43, 0,42, 0,41 e 0,40. Frequentemente, um fator de PAV para uma deleção homozigótica é de cerca de 0,5.
[336] Por exemplo, para um NRV de cerca de 1 e um nível esperado de uma deleção homozigótica igual a cerca de 0, o PAV para a deleção homozigótica é determinado como cerca de 1 de acordo com a fórmula acima. Nesse caso, um primeiro nível categorizado como uma deleção homozigótica é ajustado pela adição de cerca de 1 ao valor do primeiro nível, por exemplo.
[337] Em certas modalidades, um PAV é cerca de igual a ou igual a um nível esperado para uma variação do número de cópia (por exemplo, o nível esperado de uma variação do número de cópia).
[338] Em algumas modalidades, as contagens de um nível são normalizadas antes de fazer um ajuste. Em certas modalidades, as contagens de alguns ou de todos os níveis em um perfil são normalizadas antes de fazer um ajuste. Por exemplo, as contagens de um nível podem ser normalizadas de acordo com as contagens de um nível de referência ou um NRV. Em certas modalidades, as contagens de um nível (por exemplo, um segundo nível) são normalizadas de acordo com as contagens de um nível de referência ou um NRV e as contagens de todos os outros níveis (por exemplo, um primeiro nível) em um perfil são normalizadas em relação às contagens do mesmo nível de referência ou NRV antes de fazer um ajuste.
[339] Em algumas modalidades, um nível de um perfil resulta de um ou mais ajustes. Em certas modalidades, um nível de um perfil é determinado depois de um ou mais níveis no perfil serem ajustados. Em algumas modalidades, um nível de um perfil é recalculado depois de um ou mais ajustes serem feitos.
[340] Em algumas modalidades, uma variação do número de cópia (por exemplo, uma variação do número de cópia materna, variação do número de cópia fetal, ou uma variação do número de cópias materna e uma variação do número de cópia fetal) é determinada (por exemplo, determinada direta ou indiretamente) a partir de um ajuste. Por exemplo, um nível em um perfil que foi ajustado (por exemplo, um primeiro nível ajustado) pode ser identificado como uma variação do número de cópia materna. Em algumas modalidades, a amplitude do ajuste indica o tipo de variação do número de cópia (por exemplo, deleção heterozigótica, duplicação homozigótica, e semelhante). Em certas modalidades, um nível ajustado em um perfil pode ser identificado como um representativo de uma variação do número de cópia de acordo com o valor de um PAV para a variação do número de cópia. Por exemplo, para um dado perfil, PAV é cerca de -1 para uma duplicação homozigótica, cerca de -0,5 para uma duplicação heterozigótica, cerca de 0,5 para uma deleção heterozigótica e cerca de 1 para uma deleção homozigótica. No exemplo precedente, um nível ajustado de cerca de -1 pode ser identificado como uma duplicação homozigótica, por exemplo. Em algumas modalidades, uma ou mais variações do número de cópia podem ser determinadas a partir de um perfil ou um nível que compreende um ou mais ajustes.
[341] Em certas modalidades, os níveis ajustados em um perfil são comparados. Em algumas modalidades anomalias e erros são identificados por comparação dos níveis ajustados. Por exemplo, frequentemente um ou mais níveis ajustados em um perfil são comparados e um determinado nível pode ser identificado como uma anomalia ou erro. Em algumas modalidades uma anomalia ou erro é identificado dentro de uma ou mais porções que compõem um nível. Uma anomalia ou erro pode ser identificado com o mesmo nível (por exemplo, em um perfil) ou em um ou mais níveis que representam porções que são adjacentes, contíguas, conjugadas ou encostadas. Em algumas modalidades um ou mais níveis ajustados são os níveis de porções que são adjacentes, contíguas, conjugadas ou encostadas onde um ou mais níveis ajustados são comparados e uma anomalia ou erro é identificado. Uma anomalia ou erro pode ser um pico ou declive em um perfil ou nível onde uma causa do pico ou declive é conhecida ou desconhecida. Em certas modalidades níveis ajustados são comparados e uma anomalia ou erro é identificado em que a anomalia ou erro é devido a um erro estocástico, sistemático, aleatório ou do usuário. Em algumas modalidades níveis ajustados são comparados e uma anomalia ou erro é removido de um perfil. Em certas modalidades, os níveis ajustados são comparados e uma anomalia ou erro é ajustado.
Determinação do teor de ácido nucleico fetal
[342] A quantidade de ácido nucleico do feto (por exemplo, concentração, quantidade relativa, quantidade absoluta, número de cópia e semelhante) em ácido nucleico é determinada em algumas modalidades. Em certas modalidades, a quantidade de ácido nucleico fetal em uma amostra é referida como "fração fetal". Em algumas modalidades "fração fetal" refere-se à fração de ácido nucleico no ácido nucleico fetal isento de célula circulante em uma amostra (por exemplo, uma amostra de sangue, uma amostra de soro, uma amostra de plasma), obtido a partir de uma mulher grávida. Em algumas modalidades, um método em que uma variação genética é determinada também pode compreender determinar a fração fetal. Em algumas modalidades, a presença ou ausência de uma variação genética é determinada de acordo com uma fração fetal (por exemplo, uma fração fetal para a determinação de uma amostra). Determinação da fração fetal pode ser realizada de um modo adequado, exemplos não limitativos dos quais incluem os métodos descritos abaixo.
[343] Fração fetal pode ser determinada, em algumas modalidades, usando métodos aqui descritos para a determinação do comprimento do fragmento. Os fragmentos de ácido nucleico isentos de células fetais são geralmente mais curtos do que os fragmentos de ácido nucleico maternalmente derivados (ver, por exemplo, Chan et al., (2004) Clin. Chem. 50:88-92; Lo et al., (2010) Med Sci Transl. 2:61ra91). Desse modo, fração fetal pode ser determinada, em algumas modalidades, por meio da contagem de fragmentos sob um limite do comprimento particular e comparando as contagens à quantidade de ácido nucleico total na amostra. Métodos para contar fragmentos de ácido nucleico de um comprimento particular são descritos abaixo em mais detalhe.
[344] Em certas modalidades, a quantidade de ácido nucleico fetal é determinada de acordo com marcadores específicos para um feto homem (por exemplo, marcadores de STR de cromossomo Y (por exemplo, marcadores DYS 19, DYS 385, DYS 392); marcador de RhD em mulheres negativas em RhD), as proporções alélicas de sequências polimórficas de acordo com um ou mais marcadores específicos para ácido nucleico fetal e ácido nucleico não materno (por exemplo, biomarcadores epigenéticos diferenciais (por exemplo, metilação; descrito em maior detalhe abaixo) entre mãe e o feto, ou marcadores de RNA fetal no plasma do sangue materno (ver por exemplo, Lo, 2005, Journal of Histochemistry and Cytochemistry 53 (3): 293-296)).
[345] Determinação do teor de ácido nucleico fetal (por exemplo, fração fetal), por vezes, é realizada usando um ensaio quantificador fetal (FQA), tal como descrito, por exemplo, na publicação de pedido de patente US n. 2010/0105049, que é aqui incorporado por referência. Esse tipo de ensaio permite a detecção e quantificação de ácido nucleico fetal em uma amostra materna com base no padrão de metilação do ácido nucleico na amostra. Em certas modalidades, a quantidade de ácido nucleico fetal de uma amostra materna pode ser determinada em relação à quantidade total de ácido nucleico presente, fornecendo, desse modo, a percentagem de ácido nucleico na amostra fetal. Em certas modalidades, o número de cópia de ácido nucleico fetal pode ser determinado em uma amostra materna. Em certas modalidades, a quantidade de ácido nucleico fetal pode ser determinada em uma maneira específica da sequência (ou específica da porção) e às vezes com sensibilidade suficiente para permitir a análise da dosagem cromossômica precisa (por exemplo, para detectar a presença ou ausência de uma aneuploidia fetal).
[346] Um ensaio quantificador fetal (FQA) pode ser realizado em conjunto com qualquer um dos métodos descritos aqui. Tal um ensaio pode ser realizado por qualquer método conhecido na técnica e/ou descrito na publicação do pedido de patente US n. 2010/0105049, tal como, por exemplo, por um método que possa distinguir entre DNA materno e fetal com base no estado de metilação diferencial, e quantificar (isto é, determinar a quantidade de) o DNA fetal. Os métodos para a diferenciação de ácido nucleico com base no estado de metilação incluem, mas não estão limitados a, captura sensível à metilação, por exemplo, usando um fragmento de MBD2-Fc em que o domínio de ligação de metila de MBD2 é fundido com o fragmento Fc de um anticorpo (MBD-FC) (Gebhard et al., (2006) Câncer Res 66 (12): 6118-28.); anticorpos específicos de metilação; métodos de conversão de bissulfito, por exemplo, MSP (PCR sensível à metilação), COBRA, extensão do iniciador de um nucleotídeo sensível à metilação ou tecnologia Sequenom MassCLEAVE™ (Ms-SnuPE); e o uso de enzimas de restrição sensíveis à metilação (por exemplo, a digestão de DNA materno em uma amostra materna usando uma ou mais enzimas de restrição sensíveis à metilação desse modo enriquecendo o DNA fetal). Enzimas sensíveis ao metil também podem ser usadas para diferenciar ácido nucleico com base no estado de metilação, o que, por exemplo, pode, preferivelmente ou substancialmente clivar ou digerir a sua sequência de reconhecimento de DNA, se esse último é não metilado. Desse modo, uma amostra de DNA não metilada será cortada em fragmentos menores do que uma amostra de DNA metilado e uma amostra de DNA hipermetilada não irá ser clivada. Exceto onde explicitamente estabelecido, qualquer método para a diferenciação de ácido nucleico com base no estado de metilação pode ser usado com as composições e os métodos da tecnologia aqui. A quantidade de DNA fetal pode ser determinada, por exemplo, através da introdução de um ou mais competidores em concentrações conhecidas durante uma reação de amplificação. Determinação da quantidade de DNA fetal também pode ser feita, por exemplo, por RT-PCR, extensão do iniciador, sequenciamento e/ou contagem. Em certos casos, a quantidade de ácido nucleico pode ser determinada usando tecnologia de BEAMing conforme descrito na Publicação do Pedido de Patente US n. 2007/0065823. Em certas modalidades, a eficiência de restrição pode ser determinada e a taxa de eficiência é usada para determinar ainda a quantidade de DNA fetal.
[347] Em certas modalidades, um ensaio quantificador fetal (FQA) pode ser usado para determinar a concentração de DNA fetal em uma amostra materna, por exemplo, pelo seguinte método: a) determinar a quantidade total de DNA presente em uma amostra materna; b) digerir seletivamente o DNA materno em uma amostra materna usando uma ou mais enzimas de restrição sensíveis à metilação desse modo enriquecendo o DNA fetal; c) determinar a quantidade de DNA fetal da etapa b); e d) comparar a quantidade de DNA fetal da etapa c) com a quantidade total de DNA da etapa a), determinando desse modo a concentração de DNA fetal na amostra materna. Em certas modalidades, o número de cópia absoluta de ácido nucleico fetal em uma amostra materna pode ser determinado, por exemplo, usando espectrometria de massa e/ou um sistema que utiliza uma abordagem de PCR competitiva para as medições do número de cópia absoluta. Veja, por exemplo, Ding e Cantor (2003) PNAS EUA 100: 3059-3064, e publicação do pedido de patente US No. 2004/0081993, ambos os quais são aqui incorporados por referência.
[348] Em certas modalidades, fração fetal pode ser determinada com base nas proporções alélicas de sequências polimórficas (por exemplo, polimorfismos de um nucleotídeo (SNP)), tal como, por exemplo, usando um método descrito na publicação do pedido de patente US No. 2011/0224087, que é aqui incorporado por referência. Em tal método, as sequências de nucleotídeo são obtidas para uma amostra materna e fração fetal é determinada por comparação do número total de sequências de nucleotídeo que mapeiam um primeiro alelo e o número total de sequências de nucleotídeos que mapeiam um segundo alelo em um sítio polimórfico informativo (por exemplo, o SNP) em um genoma de referência. Em certas modalidades, alelos fetais são identificados, por exemplo, pela sua contribuição menor relativa à mistura de ácido nucleico fetal e materno na amostra quando comparados com a maior contribuição à mistura pelos ácidos nucleicos maternos. Desse modo, a abundância relativa de ácido nucleico fetal em uma amostra materna pode ser determinada como um parâmetro do número total de sequências mapeadas para uma sequência de ácido nucleico alvo em um genoma de referência para cada um dos dois alelos de um sítio polimórfico.
[349] A quantidade de ácido nucleico fetal em ácido nucleico extracelular pode ser quantificada e usada em conjunto com um método aqui fornecido. Desse modo, em certas modalidades, os métodos da tecnologia aqui descrita compreendem uma etapa adicional de determinar a quantidade de ácido nucleico fetal. A quantidade de ácido nucleico fetal pode ser determinada em uma amostra de ácido nucleico de um sujeito, antes ou após o processamento para preparar o ácido nucleico da amostra. Em certas modalidades, a quantidade de ácido nucleico fetal é determinada em uma amostra após a amostra de ácido nucleico ser processada e preparada, em que a quantidade é utilizada para uma avaliação adicional. Em algumas modalidades, um resultado compreende ajustar a fração de ácido nucleico fetal no ácido nucleico da amostra (por exemplo, ajustando as contagens, removendo amostras, fazendo uma ligação ou não fazendo uma ligação).
[350] A etapa de determinação pode ser realizada antes, durante, em qualquer ponto em um método descrito aqui, ou após certos métodos (por exemplo, detecção de aneuploidia, determinação do gênero fetal) aqui descritos. Por exemplo, para alcançar um método de determinação do gênero fetal ou de aneuploidia com uma dada sensibilidade ou especificidade, um método de quantificação de ácido nucleico fetal pode ser realizado antes, durante ou depois do método de determinação do gênero o fetal ou de aneuploidia para identificar as amostras com mais do que cerca de 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25% ou mais de ácido nucleico fetal. Em algumas modalidades, as amostras determinadas como tendo certa quantidade limite de ácido nucleico fetal (por exemplo, cerca de 15% ou mais de ácido nucleico fetal; cerca de 4% ou mais de ácido nucleico fetal) são ainda analisadas pela determinação do gênero fetal ou de aneuploidia, ou a presença ou ausência de aneuploidia ou variação genética, por exemplo. Em certas modalidades, as determinações de, por exemplo, gênero fetal ou a presença ou ausência de aneuploidia são selecionadas (por exemplo, selecionada e comunicada a um paciente) apenas para as amostras que têm certa quantidade limite de ácido nucleico fetal (por exemplo, cerca de 15% ou mais de ácido nucleico fetal; cerca de 4% ou mais de ácido nucleico fetal).
[351] Em algumas modalidades, a determinação da fração fetal ou determinação da quantidade de ácido nucleico ácido não é requerida ou necessária para identificar a presença ou ausência de um cromossomo com aneuploidia. Em algumas modalidades, a identificação da presença ou ausência de um cromossomo com aneuploidia não exige a diferenciação da sequência de DNA fetal versus materna. Em certas modalidades isso é porque a contribuição resumida de ambas sequências materna e fetal em um cromossomo particular, a porção do cromossomo ou seu segmento é analisado. Em algumas modalidades, a identificação da presença ou ausência de um cromossomo com aneuploidia não se baseia em uma informação da sequência priori que permitiria distinguir DNA fetal do DNA materno.
Determinação da fração fetal com base no nível
[352] Em algumas modalidades, uma fração fetal é determinada de acordo com um nível categorizado como representativo de uma variação do número de cópia materna e/ou fetal. Por exemplo, determinar a fração fetal frequentemente compreende avaliar um nível esperado para uma variação do número de cópia materna e/ou fetal usada para a determinação da fração fetal. Em algumas modalidades uma fração fetal é determinada por um nível (por exemplo, um primeiro nível) categorizado como representativo de uma variação do número de cópia de acordo com um faixa do nível esperado determinado para o mesmo tipo de variação do número de cópia. Frequentemente, uma fração fetal é determinada de acordo com um nível observado que está dentro de uma faixa nível esperado e é, desse modo, categorizada como uma variação do número de cópia materna e/ou fetal. Em algumas modalidades uma fração fetal é determinada quando um nível observado (por exemplo, um primeiro nível) categorizado como uma variação do número de cópia materna e/ou fetal é diferente do nível esperado determinado para a mesma variação do número de cópia materna e/ou fetal.
[353] Em algumas modalidades um nível (por exemplo, um primeiro nível, um nível observado), é significativamente diferente de um segundo nível, o primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, e uma fração fetal é determinada de acordo com o primeiro nível. Em algumas modalidades um primeiro nível é um nível observado e/ou obtido experimentalmente que é significativamente diferente de um segundo nível em um perfil e uma fração fetal é determinada de acordo com o primeiro nível. Em algumas modalidades o primeiro nível é uma média aritmética, média ou nível somados e uma fração fetal é determinada de acordo com o primeiro nível. Em certas modalidades um primeiro nível e um segundo nível são observados e/ou níveis experimentalmente obtidos e uma fração fetal é determinada de acordo com o primeiro nível. Em alguns casos, um primeiro nível compreende as contagens normalizadas para um primeiro conjunto de porções e um segundo nível compreende contagens normalizadas para um segundo conjunto de porções e uma fração fetal é determinada de acordo com o primeiro nível. Em algumas modalidades um primeiro conjunto de porções de um primeiro nível inclui uma variação do número de cópia (por exemplo, o primeiro nível é representativo de uma variação do número de cópia), e uma fração fetal é determinada de acordo com o primeiro nível. Em algumas modalidades o primeiro conjunto de porções de um primeiro nível inclui uma variação do número de cópia materna homozigótica ou heterozigótica e uma fração fetal é determinada de acordo com o primeiro nível. Em algumas modalidades um perfil compreende um primeiro nível para um primeiro conjunto de porções e um segundo nível para um segundo conjunto de porções, o segundo conjunto de porções inclui substancialmente qualquer variação do número de cópia (por exemplo, uma variação do número de cópia materna, variação do número de cópia fetal, ou uma variação do número de cópia materna e uma variação do número de cópia fetal) e uma fração fetal é determinada de acordo com o primeiro nível.
[354] Em algumas modalidades um nível (por exemplo, um primeiro nível, um nível observado), é significativamente diferente de um segundo nível, o primeiro nível é categorizado como de uma variação do número de cópia materna e/ou fetal, e uma fração fetal é determinada de acordo com o primeiro nível e/ou um nível esperado da variação do número de cópia. Em algumas modalidades um primeiro nível é categorizado como para uma variação do número de cópia de acordo com um nível esperado para uma variação do número de cópia e uma fração fetal é determinada de acordo com uma diferença entre o primeiro nível e o nível esperado. Em certas modalidades um nível (por exemplo, um primeiro nível, um nível observado) é categorizado como uma variação do número de cópia materna e/ou fetal, e uma fração fetal é determinada como dobro da diferença entre o primeiro nível e nível esperado da variação do número de cópia. Em algumas modalidades um nível (por exemplo, um primeiro nível, um nível observado) é categorizado como uma variação do número de cópia materna e/ou fetal, o primeiro nível é subtraído do nível esperado fornecendo desse modo uma diferença, e uma fração fetal é determinada como o dobro da diferença. Em algumas modalidades um nível (por exemplo, um primeiro nível, um nível observado) é categorizado como uma variação do número de cópia materna e/ou fetal, o nível esperado é subtraído de um primeiro nível que forneça desse modo uma diferença, e a fração fetal é determinada como dobro da diferença.
[355] Frequentemente, uma fração fetal é fornecida como uma percentagem. Por exemplo, uma fração fetal pode ser dividida por 100 fornecendo desse modo um valor de percentagem. Por exemplo, para um primeiro nível representativo de uma duplicação homozigótica materna e tendo um nível de 155 e um nível esperado para uma duplicação homozigótica materna tendo um nível de 150, uma fração fetal pode ser determinada como 10% (por exemplo, (fração fetal = 2 X (155 - 150)).
[356] Em algumas modalidades uma fração fetal é determinada a partir de dois ou mais níveis dentro de um perfil que são categorizados como variações do número de cópia. Por exemplo, por vezes, dois ou mais níveis (por exemplo, dois ou mais primeiros níveis) em um perfil são identificados como significativamente diferentes de um nível de referência (por exemplo, um segundo nível, um nível que não inclui substancialmente variação do número de cópia), os dois ou mais níveis são categorizados como representativos de uma variação do número de cópia materna e/ou fetal e uma fração fetal é determinada de cada dos dois ou mais níveis. Em algumas modalidades uma fração fetal é determinada de cerca de 3 ou mais, cerca de 4 ou mais, cerca de 5 ou mais, cerca de 6 ou mais, cerca de 7 ou mais, cerca de 8 ou mais, ou cerca de 9 ou mais determinações da fração fetal dentro de um perfil. Em algumas modalidades uma fração fetal é determinada a partir de cerca de 10 ou mais, cerca de 20 ou mais, cerca de 30 ou mais, cerca de 40 ou mais, cerca de 50 ou mais, cerca de 60 ou mais, cerca de 70 ou mais, cerca de 80 ou mais, ou cerca de 90 ou mais determinações da fração fetal dentro de um perfil. Em algumas modalidades uma fração fetal é determinada a partir de cerca de 100 ou mais, cerca de 200 ou mais, cerca de 300 ou mais, cerca de 400 ou mais, cerca de 500 ou mais, cerca de 600 ou mais, cerca de 700 ou mais, cerca de 800 ou mais, cerca de 900 ou mais, ou cerca de 1000 ou mais determinações da fração fetal dentro de um perfil. Em algumas modalidades uma fração fetal é determinada a partir de cerca de 10 a cerca de 1000, cerca de 20 a cerca de 900, cerca de 30 a cerca de 700, cerca de 40 a cerca de 600, cerca de 50 a cerca de 500, cerca de 50 a cerca de 400, cerca de 50 a cerca de 300, cerca de 50 a cerca de 200, ou cerca de 50 a cerca de 100 determinações da fração fetal dentro de um perfil.
[357] Em algumas modalidades uma fração fetal é determinada como a média aritmética ou média de determinações de múltiplas frações fetais dentro de um perfil. Em certas modalidades, uma fração fetal determinada a partir de determinações de múltiplas frações fetais é uma média (por exemplo, uma média aritmética, uma média, uma média padrão, mediana, ou o semelhante) de determinações de múltiplas frações fetais. Frequentemente, uma fração fetal determinada a partir de determinações de múltiplas frações fetais é um valor médio determinado por um método adequado conhecido na técnica ou aqui descrito. Em algumas modalidades um valor médio de uma determinação da fração fetal é uma média ponderada. Em algumas modalidades um valor médio de uma determinação da fração fetal é uma média não-ponderada. Uma determinação da fração fetal média, mediana ou média aritmética (isto é, um valor da determinação da fração fetal média, mediana ou média aritmética) gerada a partir de determinações de múltiplas frações fetais está por vezes associada a um valor de incerteza (por exemplo, um desvio, desvio padrão, MAD, ou o semelhante). Antes de determinar um valor da fração fetal média, mediana ou média aritmética a partir de determinações múltiplas, uma ou mais determinações desviantes são removidos em algumas modalidades (descritas em mais detalhe aqui).
[358] Algumas determinações da fração fetal dentro de um perfil, por vezes, não são incluídas na determinação total de uma fração fetal (por exemplo, determinação da fração fetal média ou média aritmética). Em algumas modalidades uma determinação da fração fetal é derivada a partir de um primeiro nível (por exemplo, um primeiro nível que é significativamente diferente de um segundo nível) em um perfil e o primeiro nível não é indicativo de uma variação genética. Por exemplo, alguns primeiros níveis (por exemplo, picos ou depressões) em um perfil são gerados a partir de anomalias ou causas desconhecidas. Tais valores frequentemente geram determinações da fração fetal que diferem significativamente de outras determinações da fração fetal obtidas a partir de verdadeiros variações do número de cópia. Em algumas modalidades determinações da fração fetal que diferem significativamente das outras determinações da fração fetal em um perfil são identificadas e removidas de uma determinação da fração fetal. Por exemplo, algumas determinações da fração fetal obtidas a partir de picos e depressões anômalas são identificadas por comparação com outras determinações da fração fetal dentro de um perfil e são excluídas da determinação total da fração fetal.
[359] Em algumas modalidades, uma determinação da fração fetal independente que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética é uma diferença identificada, reconhecida e/ou observável. Em certas modalidades, o termo "difere significativamente" pode significar estatisticamente diferente e/ou uma diferença estatisticamente significativa. Uma determinação da fração fetal "independente" pode ser uma fração fetal determinada (por exemplo, em algumas modalidades uma única determinação) de um nível específico categorizado como uma variação do número de cópia. Qualquer limite ou faixa adequada pode ser utilizado para determinar que uma determinação da fração fetal difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética. Em certas modalidades uma determinação da fração fetal difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética e a determinação pode ser expressa como um desvio em percentagem do valor da média ou média aritmética. Em certas modalidades uma determinação da fração fetal que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética difere em cerca de 10 por cento ou mais. Em algumas modalidades uma determinação da fração fetal que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética difere em cerca de 15 por cento ou mais. Em algumas modalidades uma determinação da fração fetal que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética difere em cerca de 15% a cerca de 100% ou mais.
[360] Em certas modalidades uma determinação da fração fetal difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética de acordo com um múltiplo de um valor de incerteza associado com a determinação da fração fetal média ou média aritmética. Frequentemente um valor de incerteza e constante n (por exemplo, um intervalo de confiança) define uma faixa (por exemplo, um corte de incerteza). Por exemplo, às vezes, um valor de incerteza é um desvio padrão para determinações da fração fetal (por exemplo, +/- 5) e é multiplicado por uma constante n (por exemplo, um intervalo de confiança), definindo desse modo uma faixa ou corte de incerteza (por exemplo, 5n a -5n, por vezes referidos como 5 Sigma). Em algumas modalidades uma determinação da fração fetal independente está fora de uma faixa definida por um corte de incerteza e é considerada significativamente diferente da determinação da fração fetal média, mediana ou média aritmética. Por exemplo, para um valor médio de 10 e um corte de incerteza de 3, uma fração fetal independente maior do que 13 ou menor do que 7 é significativamente diferente. Em algumas modalidades uma determinação da fração fetal que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética difere por mais de n vezes o valor de incerteza (por exemplo, n x sigma) em que n é aproximadamente igual ou maior do que 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10. Em algumas modalidades uma determinação da fração fetal que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética difere por mais de n vezes o valor de incerteza (por exemplo, sigma n x) em que n é aproximadamente igual ou maior que 1,1, 1,2, 1,3, 1,4, 1,5, 1,6, 1,7, 1,8, 1,9, 2,0, 2,1, 2,2, 2,3, 2,4, 2,5, 2,6, 2,7, 2,8, 2,9, 3,0, 3,1' 3,2, 3,3, 3,4, 3,5, 3,6, 3,7, 3,8, 3,9, ou 4,0.
[361] Em algumas modalidades, um nível é representativo de um microploidia fetal e/ou materna. Em algumas modalidades um nível (por exemplo, um primeiro nível, um nível observado), é significativamente diferente de um segundo nível, o primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, e o primeiro nível e/ou no segundo nível é representativo de uma microploidia fetal e/ou uma microploidia materna. Em certas modalidades um primeiro nível é representativo de uma microploidia fetal, em algumas modalidades um primeiro nível é representativo de uma microploidia materna. Frequentemente um primeiro nível é representativo de uma microploidia fetal e uma microploidia materna. Em algumas modalidades um nível (por exemplo, um primeiro nível, um nível observado) é significativamente diferente de um segundo nível, o primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, o primeiro nível é representativo de uma microploidia materna e/ou e uma fração fetal é uma fração determinada de acordo com a microploidia fetal e/ou materna. Em alguns casos, um primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, o primeiro nível é representativo de uma microploidia fetal e uma fração fetal é determinada de acordo com a microploidia fetal. Em algumas modalidades um primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, o primeiro nível é representativo de uma microploidia materna e uma fração fetal é determinada de acordo com a microploidia materna. Em algumas modalidades um primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, o primeiro nível é representativo de uma microploidia materna e fetal e uma fração fetal é determinada de acordo com a microploidia materna e fetal.
[362] Em algumas modalidades, a determinação de uma fração fetal compreende determinar uma microploidia fetal e/ou materna. Em algumas modalidades um nível (por exemplo, um primeiro nível, um nível observado) é significativamente diferente de um segundo nível, o primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, uma microploidia materna e/ou fetal é determinada de acordo com o primeiro nível e/ou segundo nível e uma fração fetal é determinada. Em algumas modalidades um primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, uma microploidia fetal é determinada de acordo com o primeiro nível e/ou segundo nível e uma fração fetal é determinada de acordo com a microploidia fetal. Em certas modalidades um primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, uma microploidia materna é determinada de acordo com o primeiro nível e/ou segundo nível e uma fração fetal é determinada de acordo com a microploidia materna. Em algumas modalidades um primeiro nível é categorizado como uma variação do número de cópia materna e/ou fetal, uma microploidia materna fetal é determinada de acordo com o primeiro nível e/ou segundo nível e uma fração fetal é determinada de acordo com a microploidia materna e fetal.
[363] Uma fração fetal frequentemente é determinada quando a microploidia da mãe é diferente (por exemplo, não a mesma como) da microploidia do feto para um dado nível ou para um nível categorizado como uma variação do número de cópias. Em algumas modalidades uma fração fetal é determinada quando a mãe é homozigota para uma duplicação (por exemplo, uma microploidia de 2) e o feto é heterozigoto para a mesma duplicação (por exemplo, uma microploidia de 1,5). Em algumas modalidades uma fração fetal é determinada quando a mãe é heterozigota para uma duplicação (por exemplo, uma microploidia de 1,5) e para o feto é homozigoto para a mesma duplicação (por exemplo, uma microploidia de 2) ou a duplicação está ausente no feto (por exemplo, uma microploidia de 1). Em algumas modalidades uma fração fetal é determinada quando a mãe é homozigota para uma deleção (por exemplo, uma microploidia de 0) e o feto é heterozigoto para a mesma deleção (por exemplo, uma microploidia de 0,5). Em algumas modalidades uma fração fetal é determinada quando a mãe é heterozigota para uma deleção (por exemplo, uma microploidia de 0,5) e o feto é homozigoto para a mesma deleção (por exemplo, uma microploidia de 0), ou a deleção está ausente no feto (por exemplo, uma microploidia de 1).
[364] Em certas modalidades, uma fração fetal não pode ser determinada, quando a microploidia da mãe é a mesma (por exemplo, identificada como a mesma) tal como a microploidia do feto para um dado nível identificado como uma variação do número de cópia. Por exemplo, para um dado nível em que ambos a mãe e o feto carregam o mesmo número de cópias de uma variação do número de cópia, uma fração fetal não é determinada, em algumas modalidades. Por exemplo, uma fração fetal não pode ser determinada para um nível categorizado como uma variação do número de cópia quando ambos a mãe e o feto são homozigotos para a mesma deleção ou homozigotos para a mesma duplicação. Em certas modalidades, uma fração fetal não pode ser determinada para um nível categorizado como uma variação do número de cópia quando ambas a mãe e o feto são heterozigotos para a mesma deleção ou heterozigotos para a mesma duplicação. Em modalidades onde várias determinações da fração fetal são feitas para uma amostra, determinações que se desviam significativamente de um valor médio, mediano ou média aritmética podem resultar de uma variação do número de cópia para os quais ploidia materna é igual a ploidia fetal, e tais determinações podem ser removidas da consideração.
[365] Em algumas modalidades a microploidia de uma variação do número de cópia materna e variação do número de cópia fetal é desconhecida. Em algumas modalidades, nos casos em que não há nenhuma determinação de microploidia materna e/ou fetal para uma variação do número de cópia, uma fração fetal é gerada e comparada com uma determinação da fração fetal média, mediana ou média aritmética. A determinação da fração fetal para uma variação do número de cópia que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética é, por vezes, porque o microploidia da mãe e do feto são as mesmas para a variação do número de cópia. A determinação da fração fetal que difere significativamente de uma determinação da fração fetal média, mediana ou média aritmética é frequentemente excluída de uma determinação total da fração fetal independentemente da fonte ou causa da diferença. Em algumas modalidades, a microploidia da mãe e/ou do feto é determinada e/ou verificada por meio de um método conhecido na técnica (por exemplo, por meio de métodos de sequenciamento alvo).
Métodos adicionais de determinação da fração fetal
[366] Fração fetal (por exemplo, para uma amostra) pode ser determinada, em algumas modalidades, de acordo com estimativas da fração de específico da porção. Sem ser limitado por teoria, foi determinado aqui que a quantidade de sequências de fragmentos de CCF fetal (por exemplo, fragmentos de um comprimento particular, ou faixa de comprimentos) mapas com frequências que variam para porções (por exemplo, dentro de uma mesma amostra, por exemplo, dentro da mesma execução de sequenciamento). Além disso, sem ser limitado pela teoria, foi aqui determinado que certas porções, quando comparadas entre várias amostras, tendem a ter uma representação semelhante de sequências a partir de fragmentos de CCF fetal (por exemplo, fragmentos com um comprimento particular, ou faixa de comprimentos), e que a representação se correlaciona com fração fetais de específico da porção (por exemplo, a quantidade relativa, percentagem ou a proporção de fragmentos de CCF originários de um feto).
[367] Em algumas modalidades estimativas da fração fetal de porção específica são determinadas com base, em parte, nos parâmetros de porção específica e sua relação com a fração fetal. Parâmetros de porção específica podem ser qualquer parâmetro adequado que é o reflexo da (por exemplo, se correlaciona com) quantidade ou proporção de sequências de comprimentos de fragmento de CCF de um tamanho particular (por exemplo, faixa de tamanho) em uma porção. Um parâmetro de porção específica pode ser uma média, média aritmética ou mediana de parâmetros de porção específica determinados para várias amostras. Qualquer parâmetro de porção específica adequada pode ser usado. Exemplos não-limitativos de parâmetros de porção específica incluem FLR (por exemplo, FRS), uma quantidade de sequências tendo um comprimento menor do que um comprimento do fragmento selecionado, cobertura genômica (ou seja, cobertura), mapeabilidade, contagens (por exemplo, contagens de sequências mapeadas para a porção, por exemplo, contagens normalizadas, contagens normalizadas PERUN), Sensibilidade à DNasel, estado de metilação, acetilação, distribuição de histona, teor de guanina- citosina (GC), estrutura da cromatina, o semelhante ou combinações dos mesmos. Um parâmetro de porção específica pode ser qualquer parâmetro adequado que se correlaciona com FLR e/ou FRS em uma maneira de porção específica. Em algumas modalidades, alguns ou todos os parâmetros de porção específica são uma representação direta ou indireta de um FLR para uma porção. Em algumas modalidades parâmetro de porção específica não é teor de guanina-citosina (GC).
[368] Em algumas modalidades um parâmetro de porção específica é qualquer valor adequado representando, correlacionado com ou proporcional a uma quantidade de sequências de fragmentos de CCF, onde as sequências mapeadas para uma porção têm um comprimento menor do que um comprimento do fragmento selecionado. Em certas modalidades, um parâmetro de porção específica é uma representação da quantidade de sequências derivadas de fragmentos relativamente curtos de CCF (por exemplo, cerca de 200 pares de bases ou menos) que mapeiam uma porção. Fragmentos de CCF tendo um comprimento menor do que um comprimento do fragmento selecionado frequentemente são fragmentos de CCF relativamente curtos, e por vezes um comprimento do fragmento selecionado é cerca de 200 pares de bases ou menos (por exemplo, fragmentos de CCF que são cerca de 190, 180, 170, 160, 150, 140, 130, 120, 110, 100, 90, ou 80 bases em comprimento). O comprimento de um fragmento de CCF ou uma sequência derivada de um fragmento de CCF pode ser determinado (por exemplo, deduzido ou inferido) por qualquer método adequado (por exemplo, um método de sequenciamento, um método de hibridização). Em algumas modalidades o comprimento de um fragmento de CCF é determinado (por exemplo, deduzido ou inferido) por uma sequência obtida de um método de sequenciamento de extremidade pareada. Em certas modalidades, o comprimento de um molde de fragmento de CCF é determinado diretamente do comprimento de uma sequência derivada do fragmento de CCF (por exemplo, sequência de uma extremidade).
[369] Os parâmetros de porção específica podem ser ponderados ou ajustados por um ou mais fatores de ponderação. Em algumas modalidades parâmetros de porção específica ponderados ou ajustados podem fornecer estimativas de fração fetal de porção específica para uma amostra (por exemplo, uma amostra de teste). Em algumas modalidades, ponderação ou ajuste geralmente converte as contagens de uma porção (por exemplo, sequências mapeadas para uma porção) ou outro parâmetro de porção específica em uma estimativa da fração fetal de porção específica, e uma tal conversão, por vezes, é considerada uma transformação.
[370] Em algumas modalidades um fator de ponderação é um coeficiente ou constante que, em parte, descreve e/ou define uma relação entre uma fração fetal (por exemplo, uma fração fetal determinada a partir várias amostras) e um parâmetro de porção específica para várias amostras (por exemplo, um conjunto de treinamento). Em algumas modalidades um fator de ponderação é determinado de acordo com uma relação para várias determinações da fração fetal e vários parâmetros de porção específica. Uma relação pode ser definida por um ou mais fatores de ponderação e um ou mais fatores de ponderação podem ser determinados a partir de uma relação. Em algumas modalidades de um fator de ponderação (por exemplo, um ou mais fatores de ponderação) é determinado a partir de uma relação ajustada para uma porção de acordo com (i) uma fração de ácido nucleico fetal determinada para cada uma das várias amostras, e (ii) um parâmetro de porção específica para várias amostras.
[371] Um fator de ponderação pode ser qualquer coeficiente, coeficiente estimado ou constante adequada derivada a partir de uma relação adequada (por exemplo, uma relação matemática, uma relação algébrica, uma relação ajustada, uma regressão, uma análise de regressão, um modelo de regressão adequados). Um fator de ponderação pode ser determinado de acordo com, derivado de, ou estimado a partir de uma relação adequada. Em algumas modalidades fatores de ponderação são coeficientes estimados de uma relação ajustada. Ajuste da uma relação para várias amostras é por vezes aqui referido como treinando um modelo. Qualquer modelo e/ou método de ajuste adequado de um relacionamento (por exemplo, treinamento de um modelo para um conjunto de treinamento) pode ser usado. Exemplos não-limitativos de um modelo adequado que podem ser usados incluem um modelo de regressão, modelo de regressão linear, modelo de regressão simples, modelo de regressão dos mínimos quadrados ordinários, modelo de regressão múltipla, modelo de regressão múltipla geral, modelo de regressão polinomial, modelo linear geral, modelo linear generalizado, modelo de regressão de escolha discreta, modelo de regressão logística, modelo de logit multinomial, modelo de logit misto, modelo de probit, modelo de probit multinomial, modelo de logit ordenado, modelo de probit ordenado, modelo de Poisson, modelo de regressão de resposta multivariada, modelo multinível, modelo de efeitos fixos, modelo de efeitos aleatórios, modelo misto, modelo de regressão não-linear, modelo não paramétrico, modelo semiparamétrico, modelo robusto, modelo quantis, modelo isotônico, modelo de componentes principais, modelo de ângulo mínimo, modelo local, modelo segmentado, e modelo de erros-em-variáveis. Em algumas modalidades uma relação ajustada não é um modelo de regressão. Em algumas modalidades relações ajustadas é escolhida a partir de um modelo de árvore de decisão, modelo de máquina de vetor-suporte e modelo de rede neural. O resultado de treinamento de um modelo (por exemplo, um modelo de regressão, uma relação) é frequentemente uma relação que pode ser descrita matematicamente, onde a relação compreende um ou mais coeficientes (por exemplo, fatores de ponderação). Por exemplo, para um modelo de mínimos quadrados linear, um modelo de regressão múltipla geral pode ser treinado usando valores da fração fetal e um parâmetro de porção específica (por exemplo, uma cobertura, por exemplo, ver Exemplo 7) resultando em uma relação descrita pela equação (30), onde o fator de ponderação 13 é ainda definido nas equações (31), (32) e (33). Modelos multivariados mais complexos podem determinar um, dois, três ou mais fatores de ponderação. Em algumas modalidades um modelo é treinado de acordo com a fração fetal e dois ou mais parâmetros de porção específica (por exemplo, coeficientes) obtido a partir de várias amostras (por exemplo, relacionamentos ajustados para várias amostras, por exemplo, por uma matriz).
[372] Um fator de ponderação pode ser derivado a partir de uma relação adequada (por exemplo, uma relação matemática adequada, uma relação algébrica, uma relação ajustada, uma regressão, uma análise da regressão, um modelo de regressão) por um método adequado. Em algumas modalidades relações ajustadas são ajustadas por uma estimativa, exemplos não- limitativos dos quais incluem mínimos quadrados, mínimos quadrados ordinários, linear, parcial, total, generalizado, ponderado, não-linear, interativamente reponderado, regressão Ridge, desvios absolutos mínimos, Bayesian, Bayesian multivariado, de posto reduzido, LASSO, Critérios de Seleção de ponto ponderado (WRSC), Critérios de seleção de ponto (RSC), um avaliador de rede elástica (por exemplo, uma regressão de rede elástica) e suas combinações.
[373] Um fator de ponderação pode ter qualquer valor adequado. Em algumas modalidades de um fator de ponderação está entre cerca de -1 x 10-2 e cerca de 1 x 10-2, entre cerca de -1 x 10-3 e cerca de 1 x 10-3, entre cerca de -5 x 10-4 e cerca de 5 x 10-4, ou entre cerca de -1 x 10-4 e cerca de 1 x 10-4. Em algumas modalidades, a distribuição de fatores de ponderação para várias amostras é substancialmente simétrica. Uma distribuição de fatores de ponderação para várias amostras, por vezes, é uma distribuição normal. Uma distribuição de fatores de ponderação para várias amostras, por vezes, não é uma distribuição normal. Em algumas modalidades a largura de uma distribuição dos fatores de ponderação é dependente da quantidade de sequências de fragmentos de ácido nucleico fetal de CCF. Em algumas modalidades porções compreendendo maior teor de ácido nucleico fetal geram coeficientes maiores (por exemplo, positivos ou negativos, por exemplo, ver a Figura 31). Um fator de ponderação pode ser zero ou um fator de ponderação pode ser maior do que zero. Em algumas modalidades cerca de 70% ou mais, cerca de 75% ou mais, cerca de 80% ou mais, cerca de 85% ou mais, cerca de 90% ou mais, cerca de 95% ou mais, ou cerca de 98% ou mais dos fatores de ponderação para uma porção são maiores do que zero.
[374] Um fator de ponderação pode ser determinado por ou associado a qualquer porção adequada de um genoma. Um fator de ponderação pode ser determinado por ou associado a qualquer porção adequada de qualquer cromossomo adequado. Em algumas modalidades um fator de ponderação é determinado por ou associado com algumas ou todas as porções em um genoma. Em algumas modalidades um fator de ponderação é determinado por ou associado com as porções de alguns ou todos os cromossomos de um genoma. Um fator de ponderação é por vezes, determinado por ou associado com porções de cromossomos selecionados. Um fator de ponderação pode ser determinado por ou associado com as porções de um ou mais autossomos. Um fator de ponderação pode ser determinado por ou associado com as porções de uma pluralidade de porções que incluem porções de autossomos ou seu subconjunto. Em algumas modalidades de um fator de ponderação é determinado por ou associado com as porções de um cromossomo do sexo (por exemplo, ChrX e/ou ChrY). Um fator de ponderação pode ser determinado por ou associado com as porções de um ou mais autossomos e um ou mais cromossomos sexuais. Em certas modalidades um fator de ponderação é determinado por ou associado com as porções de uma pluralidade de porções em todos os autossomos e cromossomos X e Y. Um fator de ponderação pode ser determinado por ou associado com as porções de uma pluralidade de porções que não incluem porções em um cromossomo X e/ou Y. Em certas modalidades um fator de ponderação é determinado por ou associado com porções de um cromossomo em que o cromossomo compreende uma aneuploidia (por exemplo, uma aneuploidia de cromossomo inteiro). Em certas modalidades um fator de ponderação é determinado por ou associado apenas com porções de um cromossomo em que o cromossomo não é aneuploidia (por exemplo, um cromossomo euplóide). Um fator de ponderação pode ser determinado por ou associado com porções em uma pluralidade de porções que não inclui porções em cromossomos 13, 18 e/ou 21.
[375] Em algumas modalidades um fator de ponderação é determinado por uma porção de acordo com uma ou mais amostras (por exemplo, um conjunto de treinamento de amostras). Os fatores de ponderação são frequentemente específico para a porção. Em algumas modalidades um ou mais fatores de ponde ração são atribuídos independentemente a uma porção. Em algumas modalidades um fator de ponderação é determinado de acordo com uma relação de uma determinação da fração fetal (por exemplo, uma determinação da fração fetal específica da amostra) para várias amostras e um parâmetro de porção específica determinado de acordo com várias amostras. Os fatores de ponderação são frequentemente determinados a partir de várias amostras, por exemplo, de cerca de 20 a cerca de 100.000 ou mais, de cerca de 100 a cerca de 100.000 ou mais, de cerca de 500 a cerca de 100.000 ou mais, de cerca de 1000 a cerca de 100.000 ou mais, ou de cerca de 10.000 a cerca de 100.000 ou mais amostras. Os fatores de ponderação podem ser determinados a partir de amostras que são euplóides (por exemplo, amostras de sujeitos que compreendem um feto euplóide, por exemplo, as amostras onde nenhum cromossomo aneuplóide está presente). Em algumas modalidades fatores de ponderação são obtidos a partir de amostras compreendendo um cromossomo aneuplóide (por exemplo, amostras de sujeitos que compreendem um feto euplóide). Em algumas modalidades fatores de ponderação são determinados de várias amostras de sujeitos que têm um feto euplóide e dos sujeitos com um feto com trissomia. Os fatores de ponderação podem ser derivados de várias amostras em que as amostras são de sujeitos com um feto masculino e/ou um feto feminino.
[376] Uma fração fetal é frequentemente determinada por uma ou mais amostras de um conjunto de treinamento a partir do qual um fator de ponderação é derivado. Uma fração fetal a partir do qual um fator de ponderação é determinado, por vezes, uma determinação da fração fetal específica da amostra. Uma fração fetal a partir do qual um fator de ponderação é determinado pode ser determinada por qualquer método adequado aqui descrito ou conhecido na técnica. Em algumas modalidades uma determinação do teor de ácido nucleico do feto (por exemplo, fração fetal) é realizada usando um ensaio quantificador fetal adequado (FQA) aqui descrito ou conhecido na técnica, exemplos não-limitativos dos quais incluem determinações da fração fetal de acordo com marcadores específicos para um feto masculino, com base em proporções alélicas de sequências polimórficas, de acordo com um ou mais marcadores específicos para ácido nucleico fetal e ácido nucleico não materno, pelo uso de discriminação de DNA à base de metilação (por exemplo, A. Nygren, et al., (2010) Clinical Chemistry 56 (10):1627-1635), por um método de espectrometria de massa e/ou um sistema que utiliza uma abordagem de PCR competitiva, por um método descrito na publicação do pedido de patente US No. 2010/0105049, que é aqui incorporado por referência, o semelhante ou combinações dos mesmos. Frequentemente, uma fração fetal é determinada, em parte, de acordo com um nível (por exemplo, um ou mais níveis de seção genômica, um nível de um perfil) de um cromossomo Y. Em algumas modalidades uma fração fetal é determinada de acordo com um ensaio adequado de um cromossomo Y (por exemplo, através da comparação da quantidade de locus específico do feto (tal como o locus SRY no cromossomo Y em gravidez de homem) com aquele de um locus em qualquer autos soma que é comum a ambos a mãe e o feto através do uso do PCR quantitativo em tempo real (por exemplo, Lo YM, et al., (1998) Am J Hum Genet 62: 768-775)).
[377] Os parâmetros específicos da porção (por exemplo, para uma amostra de teste) podem ser ponderados ou ajustados por um ou mais fatores de ponderação (por exemplo, fatores de ponderação derivados a partir de um conjunto de treinamento). Por exemplo, um fator de ponderação pode ser derivado para uma porção de acordo com uma relação de um parâmetro de porção específica e determinação da fração fetal para um conjunto de treinamento de várias amostras. Um parâmetro de porção específica de uma amostra de teste pode ser ajustado e/ou ponderado de acordo com o fator de ponderação derivado do conjunto de treinamento. Em algumas modalidades um parâmetro de porção específica a partir do qual um fator de ponderação é derivado, é o mesmo que o parâmetro de porção específica (por exemplo, de uma amostra de teste) que é ajustado ou ponderado (por exemplo, ambos os parâmetros são um FLR). Em certa modalidade, um parâmetro de porção específica, a partir do qual um fator de ponderação é derivado, é diferente do parâmetro de porção específica (por exemplo, de uma amostra de teste) que é ajustada ou ponderada. Por exemplo, um fator de ponderação pode ser determinado a partir de uma relação entre a cobertura (isto é, um parâmetro de porção específica) e fração fetal para um conjunto de treinamento de amostras, e um FLR (isto é, outro parâmetro de porção específica) para uma porção de uma amostra de teste pode ser ajustado de acordo com o fator de ponderação derivado da cobertura. Sem ser limitado pela teoria, um parâmetro de porção específica (por exemplo, para uma amostra de teste), por vezes, pode ser ajustado e/ou ponderado por um fator de ponderação derivado de um parâmetro de porção específica diferente (por exemplo, de um conjunto de treinamento), devido a uma relação e/ou correlação entre cada parâmetro específico da porção e um FLR específico da porção.
[378] Uma estimativa da fração fetal específica da porção pode ser determinada para uma amostra (por exemplo, uma amostra de teste) ponderando um parâmetro específico da porção por um determinado fator de ponderação para essa porção. Ponderação pode compreender o ajuste, a conversão e/ou a transformação de um parâmetro específico da porção de acordo com um fator de ponderação através da aplicação de qualquer manipulação matemática adequada, exemplos não - limitativos dos quais incluem multiplicação, divisão, adição, subtração, integração, computação simbólica, computação algébrica, algoritmo, função trigonométrica ou geométrica, transformação (por exemplo, uma transformada de Fourier), o semelhante ou suas combinações. Ponderação pode compreender o ajuste, a conversão e/ou a transformação de um parâmetro específico da porção de acordo com um fator de ponderação de um modelo matemático adequado (por exemplo, o modelo apresentado no Exemplo 7).
[379] Em algumas modalidades uma fração fetal é determinada para uma amostra de acordo com uma ou mais estimativas de fração fetal específica da porção. Em algumas modalidades uma fração fetal é determinada (por exemplo, estimada) de uma amostra (por exemplo, uma amostra de teste) de acordo com a ponderação ou ajuste de um parâmetro específico da porção para uma ou mais porções. Em certas modalidades uma fração do ácido nucleico fetal de uma amostra de teste é estimada com base nas contagens ajustadas ou um subconjunto ajustado de contagens. Em certas modalidades uma fração de ácido nucleico fetal de uma amostra de teste é estimada com base em um FLR ajustado, um FRS ajustado, cobertura ajustada, e/ou mapeabilidade ajustada para uma porção. Em algumas modalidades cerca de 1 a cerca de 500.000, cerca de 100 a cerca de 300.000, cerca de 500 a cerca de 200.000, cerca de 1000 a cerca de 200.000, cerca de 1500 a cerca de 200.000, ou cerca de 1500 a cerca de 50.000 parâmetros específicos da porção são ponderados ou ajustados.
[380] Uma fração fetal (por exemplo, para uma amostra de teste) pode ser determinada de acordo com várias estimativas da fração fetal específica da porção (por exemplo, para a mesma amostra de teste) por qualquer método adequado. Em algumas modalidades um método para aumentar a precisão da estimativa de uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida compreende a determinação de uma ou mais estimativas da fração fetal específica da porção onde a estimativa da fração fetal para a amostra é determinada de acordo com uma ou mais estimativas de fração fetal específica da porção. Em algumas modalidades estimar ou determinar uma fração de ácido nucleico fetal de uma amostra (por exemplo, uma amostra de teste) compreende somar uma ou mais estimativas da fração fetal específica da porção. Soma pode compreender determinar uma média aritmética, média, mediana, AUC, ou o valor integral de acordo com as estimativas da fração fetal específica da porção.
[381] Em algumas modalidades um método para aumentar a precisão da estimativa de uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida, compreende a obtenção de contagens de sequências mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico inseto de célula circulante de uma amostra de teste de uma mulher grávida, onde, pelo menos, um subconjunto das contagens obtidas são derivadas de uma região do genoma que contribui com um maior número de contagens derivadas de ácido nucleico fetal em relação às contagens totais da região do que contagens de ácido nucleico fetal em relação ao número total de contagens de outra região do genoma. Em algumas modalidades uma estimativa da fração de ácido nucleico fetal é determinada de acordo com um subconjunto das porções, onde o subconjunto das porções é selecionado de acordo com as porções que são mapeadas para um maior número de contagens derivadas de ácido nucleico fetal do que contagens de ácido nucleico fetal de outra porção. Em algumas modalidades o subconjunto das porções é selecionado de acordo com as porções para as quais são mapeadas um maior número de contagens derivadas de ácido nucleico fetal, em relação ao ácido nucleico não fetal, do que as contagens de ácido nucleico fetal, em relação ao ácido nucleico não-fetal, de outra porção. As contagens mapeadas para todas ou um subconjunto das porções podem ser ponderadas fornecendo, desse modo, as contagens ponderadas. As contagens ponderadas podem ser usadas para estimar a fração de ácido nucleico fetal, e as contagens podem ser ponderadas de acordo com as porções para quais são mapeadas um maior número de contagens derivadas de ácido nucleico fetal do que contagens de ácido nucleico fetal de outra porção. Em algumas modalidades as contagens são ponderadas de acordo com as porções para as quais são mapeadas um maior número de contagens derivadas de ácido nucleico fetal, em relação ao ácido nucleico não-fetal, do que as contagens de ácido nucleico fetal, em relação ao ácido nucleico não-fetal, de outra porção.
[382] Uma fração fetal pode ser determinada para uma amostra (por exemplo, uma amostra de teste) de acordo com várias estimativas da fração fetal específica da porção para a amostra, onde as estimativas específicas da porção são de porções de qualquer região adequada ou segmento de um genoma. As estimativas da fração fetal específica da porção podem ser determinadas por uma ou mais porções de um cromossomo adequado (por exemplo, um ou mais cromossomos selecionados, um ou mais autossomos, um cromossomo sexual (por exemplo, ChrX e/ou ChrY), um cromossomo aneuplóide, um cromossomo euplóide, o semelhante ou suas combinações).
[383] Os parâmetros específicos de porção, fatores de ponderação, estimativas da fração fetal específica da porção (por exemplo, ponderação), e/ou determinações da fração fetal podem ser determinados por um sistema, máquina, aparelho, meio de armazenamento legível por computador não- transitório (por exemplo, com um programa executável armazenado nele), o semelhante ou sua combinação. Em certas modalidades parâmetros específicos da porção, fatores de ponderação, estimativas da fração fetal específica da porção (por exemplo, ponderação), e/ou determinações da fração fetal são determinados (por exemplo, em parte) por um sistema ou uma máquina que compreende um ou mais microprocessadores e memória. Em algumas modalidades parâmetros específicos da porção, fatores de ponderação, estimativas da fração fetal específica da porção (por exemplo, ponderação), e/ou determinações da fração fetal são determinados (por exemplo, em parte) por um meio de armazenamento legível por computador não transitório com um programa executável armazenado no mesmo, onde o programa instrui um microprocessador para executar a determinação.
Ploidia fetal
[384] A determinação da ploidia fetal, em algumas modalidades, é usada, em parte, para realizar uma determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia no cromossomo, uma trissomia). Um ploidia fetal pode ser determinado, em parte, a partir de uma medida da fração fetal determinada através de um método adequado de determinação fração fetal, incluindo os métodos aqui descritos. Um ploidia fetal e/ou a presença de uma variação genética (por exemplo, uma aneuploidia) pode ser determinada de acordo com uma fração fetal. Em algumas modalidades a ploidia fetal é determinada de acordo com uma determinação da fração fetal e a equação (8), (20), (21) ou uma variação ou derivação das mesmas (Exemplo 2). Em algumas modalidades, ploidia fetal é determinada através de um método descrito abaixo. Em algumas modalidades cada método descrito a seguir requer uma contagem de referência calculada Fi (por vezes representada como fi) determinada por uma porção (ou seja, uma porção, i) de um genoma de várias amostras em que a ploidia do feto para a porção i do genoma é euplóide. Em algumas modalidades um valor de incerteza (por exemplo, um desvio padrão, o) é determinado para a contagem de referência fi. Em algumas modalidades uma contagem de referência fi, um valor de incerteza, uma contagem da amostra de teste e/ou uma fração fetal medida (F) são usados para determinar ploidia fetal de acordo com um método descrito abaixo. Em algumas modalidades uma contagem de referência (por exemplo, uma contagem de referência média, mediana ou média aritmética) é normalizada por um método descrito aqui (por exemplo, normalização em porções, normalização pelo teor de GC, regressão por mínimos quadrados linear e não-linear, LOESS, GC LOESS, LOWESS, PERUN, RM, GCRM e/ou suas combinações). Em algumas modalidades uma contagem de referência de um segmento de um genoma que é euplóide é igual a 1 quando a contagem de referência é normalizada por PERUN. Em algumas modalidades, ambas a contagem de referência (por exemplo, para um feto conhecido por ser euplóide) e contagens de uma amostra de teste de uma porção ou segmento de um genoma são normalizadas por PERUN e a contagem de referência é igual a 1. Do mesmo modo, em algumas modalidades, uma contagem de referência de uma porção ou segmento de um genoma que é euplóide é igual a 1 quando as contagens são normalizadas (isto é, divididas por) uma mediana da contagem de referência. Por exemplo, em algumas modalidades ambas a contagem de referência (por exemplo, para um feto que é euplóide) e as contagens de uma amostra de teste para uma porção ou segmento de um genoma são normalizadas por uma contagem de referência mediana, a contagem de referência normalizada é igual a 1 e a contagem da amostra de teste é normalizada (por exemplo, dividida por) pela contagem de referência mediana. Em algumas modalidades, ambas a contagem de referência (por exemplo, para um feto que é euplóide) e as contagens de uma amostra de teste para uma porção ou segmento de um genoma são normalizadas por GCRM, GC, RM ou um método adequado. Em algumas modalidades uma contagem de referência é uma contagem de referência média, mediana ou média aritmética. Uma contagem de referência é geralmente uma contagem normalizada para uma porção (por exemplo, um nível da seção genômica normalizado). Em algumas modalidades uma contagem de referência e as contagens para uma amostra de teste são as contagens brutas. Uma contagem de referência, em algumas modalidades, é determinada de um perfil de contagem média, mediana ou média aritmética. Em algumas modalidades, a contagem de referência é um nível de seção genômica calculado. Em algumas modalidades uma contagem de referência de uma amostra de referência e uma contagem de uma amostra de teste (por exemplo, uma amostra do paciente, por exemplo, Yi) são normalizadas pelo mesmo método ou processo.
[385] Em algumas modalidades uma medição da fração fetal (F) é determinada. Esse valor da fração fetal pode então ser usado para determinar a ploidia fetal de acordo com a equação (8), uma derivação ou uma variação da mesma. Em algumas modalidades, um valor negativo é retornado se o feto é euplóide e um valor positivo é retornado se o feto não é euplóide. Em algumas modalidades um valor negativo indica que o feto é euplóide para o segmento do genoma considerado. Em certas modalidades, um valor que não seja negativo indica que o feto compreende uma aneuploidia (por exemplo, uma duplicação). Em certas modalidades, um valor que não seja negativo indica que o feto compreende uma trissomia. Em certas modalidades, qualquer valor positivo indica que o feto compreende uma aneuploidia (por exemplo, uma trissomia, uma duplicação).
[386] Em algumas modalidades uma soma dos resíduos quadrados é determinada. Por exemplo, uma equação representa a soma dos residuais quadrados derivados da equação (8) é ilustrada na equação (18). Em algumas modalidades uma soma de quadrados residuais é determinada da equação (8) para um valor de ploidia X definido para um valor de 1 (ver a equação (9)) e para um valor de ploidia definido para um valor de 3/2 (ver a equação (13)). Em algumas modalidades a soma dos resíduos quadrados (equações (9) e (13)) são determinados por um segmento de um cromossomo ou genoma (por exemplo, para todas as porções de um genoma de referência i em um segmento do genoma). Por exemplo, a soma dos residuais quadrados (por exemplo, equações (9) e (13)) pode ser determinada para os cromossomos 21, 13, 18 ou uma porção dos mesmos. Em algumas modalidades, para determinar um estado de ploidia de um feto, o resultado da equação (13) é subtraído da equação (9) para se chegar a um valor, phi (por exemplo, ver a equação (14)). Em certas modalidades, o sinal (isto é, positivo ou negativo) do valor phi determina a presença ou ausência de uma aneuploidia fetal. Em certas modalidades, um valor de phi (por exemplo, da equação (14)) que é negativo indica a ausência de uma aneuploidia (por exemplo, o feto é euplóide para porções de um genoma de referência i) e um valor de phi que não é negativo indica a presença de uma aneuploidia (por exemplo, uma trissomia).
[387] Em algumas modalidades a contagem de referência fi, o valor de incerteza para contagem de referência a e/ou a fração fetal medida (F) são usados nas equações (9) e (13) para determinar a soma dos residuais quadrados para a soma de todas as porções de um genoma de referência i. Em algumas modalidades a contagem de referência, o valor de incerteza para contagem de referência a e/ou a fração fetal medida (F) são usados nas equações (9) e (13) para determinar ploidia fetal. Em algumas modalidades as contagens (por exemplo, contagens normalizadas, por exemplo, nível de seção genômica calculado) representadas por yi para a porção i, para uma amostra de teste são usadas para determinar o estado de ploidia um feto para porção i. Por exemplo, em certas modalidades, o estado de ploidia para um segmento de um genoma é determinado de acordo com uma contagem de referência fi, um valor de incerteza (por exemplo, da contagem de referência), uma fração fetal (F) determinada para uma amostra de teste e as contagens yi determinadas para a amostra de teste em que o estado de ploidia é determinado de acordo com a equação (14) ou uma derivação ou variação destas. Em algumas modalidades as contagens yi e/ou contagens de referência são normalizadas por um método aqui descrito (por exemplo, normalização em porções, normalização pelo teor de GC, regressão dos mínimos quadrados linear e não- linear, LOESS, GC LOESS, LOWESS, PERUN, RM, GCRM e suas combinações). Em algumas modalidades um estado de ploidia fetal (por exemplo, euplóide, aneuplóide, trissomia) para uma porção ou segmento de um genoma ou cromossomo é determinado pelo exemplo não-limitativo descrito acima e na secção de Exemplos.
[388] Em algumas modalidades uma fração fetal é determinada de uma amostra de teste, contagens y são determinadas para uma amostra de teste e ambas são usadas para determinar uma ploidia de um feto a partir de uma amostra de teste. Em certas modalidades do método aqui descrito, o valor da ploidia fetal representado por X não é fixo ou assumido. Em certas modalidades do método descrito aqui, fração fetal F é fixa. Em algumas modalidades, uma ploidia (por exemplo, um valor de ploidia) é determinada por uma porção ou segmento de um genoma de acordo com a equação (20) ou (21) (Exemplo 2). Em algumas modalidades desse método, um valor de ploidia é determinado, em que o valor é próximo de 1, 3/2, 5/4 ou. Em algumas modalidades um valor de ploidia de cerca de 1 indica um feto euplóide, um valor de cerca de 3/2 indica uma trissomia fetal e, no caso dos gêmeos, um valor de cerca de 5/4 indica que um feto compreende uma trissomia e o outro é euplóide para a porção ou segmento do genoma considerado. Informações adicionais relativas à determinação da presença ou ausência de uma aneuploidia fetal de uma determinação de ploidia fetal são discutidas em outra seção abaixo.
[389] Em algumas modalidades, fração fetal é determinada, fixada como seu valor determinado e ploidia fetal é determinada de uma regressão. Qualquer regressão adequada pode ser utilizada, exemplos não-limitativos dos quais incluem uma regressão linear, regressão não-linear (por exemplo, uma regressão polinomial), e semelhante. Em algumas modalidades, uma regressão linear é utilizada de acordo com a equação (8), (20), (21) e/ou uma derivação ou variação das mesmas. Em algumas modalidades, a regressão linear é utilizada de acordo com uma soma dos resíduos quadrados derivados da equação (8), (20), (21) e/ou uma derivação ou variação da mesma. Em algumas modalidades, ploidia fetal é determinada de acordo com a equação (8), (20), (21) e/ou uma derivação ou variação da mesma e uma regressão não é usada. Em algumas modalidades, ploidia fetal é determinada de acordo com uma soma de quadrados resíduos derivados da equação (8), (20), (21) e/ou uma derivação ou variação da mesma para várias porções de um genoma de referência i e uma regressão não é usada. Uma derivação de uma equação é qualquer variação da equação obtida a partir de uma prova matemática de uma equação.
[390] Em algumas modalidades uma contagem de referência fi (descrita anteriormente aqui), um valor de incerteza a e/ou uma fração fetal medida (F) são usados nas equações (20) e (21) para determinar uma ploidia fetal. Em algumas modalidades uma contagem de referência fi, um valor de incerteza a e/ou uma fração fetal medida (F) são usados nas equações (20) ou (21) para determinar uma ploidia fetal X para porção i ou para uma soma de várias porções de um genoma de referência i (por exemplo, para a soma de todas as porções de um genoma de referência i para um cromossomo ou seu segmento). Em algumas modalidades as contagens (por exemplo, contagens normalizadas, nível da seção genômica calculado), representada por yi para a porção i, para uma amostra de teste são usadas para determinar a ploidia de um feto para um segmento de um genoma representado por várias porções de um genoma de referência i. Por exemplo, em certas modalidades, a ploidia X para um segmento de um genoma é determinada de acordo com uma contagem de referência fi, um valor de incerteza, uma fração fetal (F) determinada para uma amostra de teste e as contagens yi determinadas para a amostra de teste em que a ploidia é determinada de acordo com a equação (20), (21) ou uma derivação ou a variação da mesma. Em algumas modalidades as contagens yi e/ou contagens de referência são normalizadas por um método aqui descrito (por exemplo, normalização em porções, normalização pelo teor de GC, regressão dos mínimos quadrados lineares e não- lineares, LOESS, GC LOESS, LOWESS, PERUN, RM, GCRM e suas combinações). Em algumas modalidades as contagens yi e/ou contagens de referência são normalizadas e/ou processadas pelo mesmo método (por exemplo, normalização em porções, normalização pelo teor de GC, regressão dos mínimos quadrados lineares e não-lineares, LOESS, GC LOESS, LOWESS, PERUN, RM, GCRM, um método aqui descrito, ou combinações dos mesmos). Em algumas modalidades contagens yi e fi são contagens mapeadas para a mesma porção ou segmento de um cromossomo ou genoma.
[391] O valor de incerteza o pode ser uma medida adequada de erro, exemplos não-limitativos dos quais incluem o desvio padrão, o erro padrão, variância calculada, valor de p, e/ou desvio médio absoluto (MAD). O valor de incerteza pode ser determinado para qualquer medição adequada, exemplos não-limitativos dos quais incluem pontuações de Z, valores de Z, valores de t, valores de p, erro de validação cruzada, nível de seção genômica, níveis de seção genômica calculados, níveis, contagens, semelhante, ou suas combinações. Em algumas modalidades o é definido como um valor de 1. Em algumas modalidades o não é definido para um valor de 1. Em algumas modalidades o valor de o é estimado e, por vezes, é medido e/ou calculado.
[392] Em algumas modalidades Mi é a ploidia da mãe (isto é, ploidia materna) para uma porção do genoma i. Em algumas modalidades Mi é determinado para o mesmo paciente (por exemplo, a mesma amostra de teste) a partir do qual Yi é determinado. Em algumas modalidades a ploidia materna Mi é conhecida ou determinada de acordo com um método aqui descrito. Em algumas modalidades a ploidia materna é determinada antes ou depois de preenchimento (por exemplo, depois de fazer os ajustes do nível). Em certas modalidades Mi é estimado ou determinado a partir de um perfil de visualização. Em algumas modalidades a ploidia materna Mi é não conhecida. Em algumas modalidades a ploidia materna Mi é assumida. Por exemplo, em algumas modalidades, assume-se ou sabe-se que a mãe não tem deleções e/ou duplicações no segmento do genoma a ser avaliado. Em algumas modalidades, assume-se ou sabe-se que ploidia materna é 1. Em algumas modalidades a ploidia materno é definida para um valor de 1 após preenchimento (por exemplo, depois de fazer ajustes do nível). Em algumas modalidades a ploidia materna é ignorado e é definida para um valor de 1. Em algumas modalidades equação (21) é derivada da equação (20) com o pressuposto de que a mãe não tem deleções e/ou duplicações no segmento do genoma sendo avaliado.
[393] Em algumas modalidades um método para a determinação da ploidia fetal está de acordo com as sequências de ácido nucleico para uma amostra de teste obtida de uma mulher grávida. Em algumas modalidades as sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra (por exemplo, uma amostra de teste). Em algumas modalidades, um método para a determinação da ploidia fetal compreende a obtenção de contagens de sequências mapeadas para porções de um genoma de referência. Em algumas modalidades as sequências são mapeadas para um subconjunto de porções do genoma de referência. Em certas modalidades determinar a ploidia fetal compreende a determinação de uma fração fetal. Em algumas modalidades determinar a podia fetal compreende calcular ou determinar níveis de seção genômica. Em certas modalidades determinar a ploidia fetal compreende a determinação de uma fração fetal e calcular ou determinar níveis de seção genômica. Uma fração fetal e os níveis de seção genômica calculados podem ser determinados a partir da mesma amostra de teste (por exemplo, a mesma parte da amostra de teste). Em algumas modalidades a fração fetal e os níveis de seção genômica calculados são determinados a partir das mesmas sequências obtidas da mesma amostra de teste (por exemplo, a mesma parte da amostra de teste). Em certas modalidades, a fração fetal e os níveis de seção genômica calculados são determinados das mesmas sequências obtidas a partir da mesma execução de sequenciamento e/ou a partir da mesma célula de fluxo. Em algumas modalidades a fração fetal e os níveis de seção genômica calculados são determinados a partir do mesmo equipamento e/ou máquina (por exemplo, um aparelho de sequenciamento, célula de fluxo, ou semelhante).
[394] Em algumas modalidades um método para a determinação da ploidia fetal é determinado de acordo com a determinação da fração fetal e contagens normalizadas (por exemplo, níveis de seção genômica calculados), onde a determinação da fração fetal e as contagens normalizadas (por exemplo, níveis de seção genômica calculados) são determinadas a partir de diferentes partes de uma amostra de teste (por exemplo, alíquotas diferentes, ou, por exemplo, diferentes amostras de teste retiradas em cerca do mesmo tempo do mesmo sujeito ou paciente). Por exemplo, por vezes, uma fração fetal é determinada a partir de uma primeira parte de uma amostra de teste e as contagens normalizadas e/ou níveis de seção genômica são determinados a partir de uma segunda parte da amostra de teste. Em algumas modalidades a fração fetal e os níveis de seção genômica calculados são determinados a partir de amostras de teste diferentes (por exemplo, diferentes partes de uma amostra de teste) colhidas do mesmo sujeito (por exemplo, paciente). Em algumas modalidades a fração fetal e os níveis de seção genômica calculados são determinados a partir de sequências obtidas em diferentes momentos. Em algumas modalidades, a determinação da fração fetal e as contagens normalizadas (por exemplo, níveis de seção genômica calculados) são determinadas a partir de um equipamento diferente e/ou de diferentes máquinas (por exemplo, um aparelho de sequenciamento, célula de fluxo, ou semelhante).
Resultado
[395] Métodos aqui descritos podem fornecer uma determinação da presença ou ausência de uma variação genética (por exemplo, aneuploidia fetal) para uma amostra fornecendo, desse modo, um resultado (por exemplo, desse modo fornecendo um resultado determinante da presença ou ausência de uma variação genética (por exemplo, aneuploidia fetal)). Uma variação genética, frequentemente, inclui um ganho, uma perda e/ou alteração (por exemplo, duplicação, deleção, fusão, inserção, mutação, reorganização, substituição ou metilação aberrante) de informação genética (por exemplo, cromossomos, segmentos de cromossomos, regiões polimórficas, regiões translocadas, sequência de nucleotídeo alterada, o semelhante ou combinações das mesmas) que resulta em uma mudança detectável no genoma ou informação genética de um sujeito de teste em relação a uma referência. Presença ou ausência de uma variação genética pode ser determinada através da transformação, análise e/ou a manipulação de sequências que tenham sido mapeadas para porções (por exemplo, contagens, contagens de porções genômicas de um genoma de referência). Determinar um resultado, em algumas modalidades, compreende a análise do ácido nucleico de uma mulher grávida. Em certas modalidades, um resultado é determinado de acordo com as contagens (por exemplo, contagens normalizadas) obtidas de uma mulher grávida, onde as contagens são de ácido nucleico obtido da mulher grávida.
[396] Métodos descritos aqui, por vezes, determinam a presença ou ausência de uma aneuploidia fetal (por exemplo, aneuploidia total do cromossomo, aneuploidia parcial do cromossomo ou aberração cromossômica segmental (por exemplo, mosaicismo, deleção e/ou inserção)) para uma amostra de teste de uma mulher grávida tendo um feto. Em certas modalidades métodos aqui descritos detectam euplodia ou a falta de euploidia (não-euploidia) para uma amostra de uma mulher grávida tendo um feto. Métodos descritos aqui, por vezes, detectam trissomia para um ou mais cromossomos (por exemplo, cromossomo 13, cromossomo 18, cromossomo 21 ou combinação de ambos) ou segmento dos mesmos.
[397] Em algumas modalidades, a presença ou ausência de uma variação genética (por exemplo, uma aneuploidia fetal) é determinada por um método aqui descrito, por um método conhecido na técnica ou por uma combinação dos mesmos. Presença ou ausência de uma variação genética geralmente é determinada das contagens de sequências mapeadas para porções de um genoma de referência. Contagens de sequências usadas para determinar a presença ou ausência de uma variação genética, por vezes, são contagens brutas e/ou contagens filtradas, e frequentemente, são contagens normalizadas. Um processo ou processos de normalização adequados podem ser usados para gerar contagens normalizadas, exemplos não- limitativos dos quais incluem normalização em porções, a normalização pelo teor de GC, regressão dos mínimos quadrados linear e não-linear, LOESS, GC LOESS, LOWESS, PERUN, RM, GCRM e suas combinações. Contagens normalizadas, por vezes, são expressas como um ou mais níveis ou em níveis em um perfil para um conjunto ou conjuntos particulares de porções. Contagens normalizadas, por vezes, são ajustadas ou preenchidas antes de se determinar a presença ou ausência de uma variação genética.
[398] Em algumas modalidades um resultado é determinado de acordo com um ou mais níveis. Em algumas modalidades, a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia do cromossomo) é determinada de acordo com um ou mais níveis ajustados. Em algumas modalidades uma determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia do cromossomo) é determinada de acordo com um perfil que compreende de 1 a cerca de 10.000 níveis ajustados. Frequentemente, a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia do cromossomo) é determinada de acordo com um perfil que compreende cerca de 1 a cerca de 1000, 1 a cerca de 900, 1 a cerca de 800, 1 a cerca de 700, 1 a cerca de 600, 1 a cerca de 500, 1 a cerca de 400, 1 a cerca de 300, 1 a cerca de 200, 1 a cerca de 100, 1 a cerca de 50, 1 a cerca de 25, 1 e cerca de 20, cerca de 1 a cerca de 10, ou 1 a cerca de 5 ajustes. Em algumas modalidades uma determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia do cromossomo) é determinada de acordo com um perfil que compreende cerca de 1 ajuste (por exemplo, um nível ajustado). Em algumas modalidades um resultado é determinado de acordo com um ou mais perfis (por exemplo, um perfil de um cromossomo ou seu segmento) que compreende um ou mais, dois ou mais, 3 ou mais, 5 ou mais, 6 ou mais, 7 ou mais, 8 ou mais, 9 ou mais vezes, ou 10 ou mais ajustes. Em algumas modalidades, a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia do cromossomo) é determinada de acordo com um perfil onde alguns níveis em um perfil não são ajustados. Em algumas modalidades, a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia do cromossomo) é determinada de acordo com um perfil em que os ajustes não são feitos.
[399] Em algumas modalidades, um ajuste de um nível (por exemplo, um primeiro nível) em um perfil reduz uma falsa determinação ou falso resultado. Em algumas modalidades, um ajuste de um nível (por exemplo, um primeiro nível) em um perfil reduz a frequência e/ou a probabilidade (por exemplo, a probabilidade estatística, probabilidade) de uma falsa determinação ou falso resultado. Uma falsa determinação ou resultado pode ser uma determinação ou resultado que não é preciso. Uma falsa determinação ou resultado pode ser uma determinação ou resultado que não é um reflexo da composição genética real ou verdadeira ou a predisposição genética real ou verdadeira (por exemplo, a presença ou ausência de uma variação genética) de um sujeito (por exemplo, uma mulher grávida, um feto e/ou uma combinação dos mesmos). Em algumas modalidades uma falsa determinação ou resultado é uma determinação de falso negativo. Em algumas modalidades uma determinação negativa ou resultado negativo é a ausência de uma variação genética (por exemplo, aneuploidia, variação do número de cópias). Em algumas modalidades uma falsa determinação ou falso resultado é uma determinação de falso positivo ou falso positivo. Em algumas modalidades uma determinação positiva ou resultado positivo é a presença de uma variação genética (por exemplo, aneuploidia, variação do número de cópias). Em algumas modalidades, uma determinação ou resultado é usado em diagnóstico. Em algumas modalidades, uma determinação ou resultado é para um feto.
[400] Presença ou ausência de uma variação genética (por exemplo aneuploidia fetal), por vezes, é determinada comparando as contagens de um conjunto de porções para uma referência. Contagens medidas para uma amostra de teste e que estão em uma região de teste (por exemplo, um conjunto de porções de interesse) são referidas como "contagens de teste" aqui. Contagens de teste são, por vezes, contagens processadas, contagens somadas ou médias, uma representação, contagens normalizadas, ou um ou mais níveis ou níveis como aqui descritos. Em certas modalidades contagens de teste são calculadas e somadas (por exemplo, uma média aritmética, média, mediana, modo ou soma é calculada) para um conjunto de porções, e as contagens médias ou somadas são comparadas com um limite ou faixa. Contagens de teste, por vezes, são expressas como uma representação, que pode ser expressa como uma proporção ou percentagem de contagens para um primeiro conjunto de porções para contagens por um segundo conjunto de porções. Em certas modalidades um primeiro conjunto de porções é para um ou mais cromossomos de teste (por exemplo, cromossomo 13, cromossomo 18, cromossomo 21, ou combinação dos mesmos) e, por vezes, um segundo conjunto de porções é para um genoma ou uma parte de um genoma (por exemplo, autossomos, ou autossomos e cromossomos sexuais). Em algumas modalidades, um primeiro conjunto de porções é para um ou mais cromossomos sexuais (por exemplo, cromossomo X, cromossomo Y, ou combinação dos mesmos) e, por vezes, um segundo conjunto de porções é para um ou mais autossomos. Em algumas modalidades, um primeiro conjunto de porções é para uma ou mais primeiras regiões de cromossomos de teste (por exemplo, cromossomo X, cromossomo Y, ou combinação dos mesmos) e, por vezes, um segundo conjunto de porções é para um ou mais segundas regiões de um cromossomo de teste (por exemplo, cromossomo X, cromossomo Y, ou uma sua combinação), ou a totalidade do cromossomo do teste. Em certas modalidades uma representação é comparada a um limite ou faixa. Em certas modalidades contagens de teste são expressas como um ou mais níveis ou de níveis para contagens normalizadas ao longo de um conjunto de porções, e um ou mais níveis ou níveis são comparados com um limite ou faixa. Contagens de teste (por exemplo, contagens médias ou somadas, representação, contagens normalizadas, um ou mais níveis ou níveis) acima ou abaixo de um limite particular, em uma faixa particular ou fora de uma faixa particular, por vezes, são determinantes da presença de uma variação genética ou falta de euploidia (por exemplo, não-euploidia). Contagens de teste (por exemplo, contagens médias ou somadas, representação, contagens normalizadas, um ou mais níveis ou níveis) abaixo ou acima de um limite particular, em uma faixa particular ou fora de uma faixa particular, por vezes, são determinantes da ausência de uma variação genética ou euploidia.
[401] Presença ou ausência de uma variação genética (por exemplo aneuploidia fetal), por vezes, é determinada por comparação das contagens, exemplos não-limitativos dos quais incluem contagens de teste, contagens de referência, contagens brutas, contagens filtradas, ou contagens médias ou somadas, as representações (por exemplo, representações do cromossomo), contagens normalizadas, um ou mais níveis ou níveis (por exemplo, para um conjunto de porções, por exemplo, perfis, níveis de seção genômica), pontuações de Z, o semelhante ou suas combinações. Em algumas modalidades contagens de teste são comparadas com uma referência (por exemplo, contagens de referência). Uma referência (por exemplo, uma contagem de referência) pode ser uma determinação adequada das contagens, exemplos não- limitativos dos quais incluem contagens brutas, contagens filtradas, contagens médias ou somadas, representações (por exemplo, representações do cromossomo), contagens normalizadas, um ou mais níveis ou níveis (por exemplo, para um conjunto de porções, por exemplo, perfis, níveis de seção genômica), pontuações de Z, o semelhante ou suas combinações. Contagens de referência frequentemente são contagens para uma região de teste euplóide ou de um segmento de um genoma ou cromossomo que é euplóide. Em algumas modalidades contagens de referência e contagens de teste são obtidas da mesma amostra e/ou o mesmo sujeito. Em algumas modalidades contagens de referência são de diferentes amostras e/ou de sujeitos diferentes. Em algumas modalidades contagens de referência são determinadas de e/ou comparadas com um segmento correspondente do genoma a partir do qual as contagens de teste são derivadas e/ou determinadas. Um segmento correspondente refere-se a um segmento, porção ou conjunto de porções que mapeiam para o mesmo local de um genoma de referência. Em algumas modalidades contagens de referência são determinadas de e/ou comparadas a um segmento diferente do genoma a partir do qual as contagens de teste são derivadas e/ou determinadas.
[402] Em certas modalidades, as contagens de teste são, por vezes, para um primeiro conjunto de porções e uma referência inclui contagens para um segundo conjunto de porções diferentes do que o primeiro conjunto de porções. Contagens de referência são, por vezes, para uma amostra de ácido nucleico da mesma mulher grávida a partir do qual a amostra de teste é obtida. Em certas modalidades contagens de referência são para uma amostra de ácido nucleico de uma ou mais mulheres grávidas diferentes do que a mulher a partir do qual a amostra de teste foi obtida. Em algumas modalidades, um primeiro conjunto de porções é no cromossomo 13, cromossomo 18, cromossomo 21, um segmento do mesmo ou combinação dos anteriores, e o segundo conjunto de porções é em outro cromossomo ou cromossomos ou seu segmento. Em um exemplo não-limitativo, onde um primeiro conjunto de porções é no cromossomo 21 ou segmento do mesmo, um segundo conjunto de porções, frequentemente é, em outro cromossomo (por exemplo, cromossomo 1, cromossomo 13, cromossomo 14, cromossomo 18, cromossomo 19, segmento dos mesmos ou combinação dos anteriores). Uma referência frequentemente está localizada em um cromossomo ou segmento do mesmo que é tipicamente euplóide. Por exemplo, cromossomo 1 e cromossomo 19 são frequentemente euplóides em fetos devido a uma elevada taxa de mortalidade fetal precoce associada com aneuploidias dos cromossomo 1 e cromossomo 19. A medida do desvio entre as contagens de teste e as contagens de referência podem ser geradas.
[403] Em certas modalidades uma referência compreende contagens para o mesmo conjunto de porções como para as contagens de teste, onde as contagens para a referência são de uma ou mais amostras de referência (por exemplo, frequentemente várias amostras de referência de vários sujeitos de referência). Uma amostra de referência, frequentemente, é de uma ou mais mulheres grávidas diferentes do que a mulher a partir do qual uma amostra de teste é obtida. Uma medida de desvio (por exemplo, uma medida de incerteza, um valor de incerteza) entre as contagens de teste e as contagens de referência pode ser gerada. Em algumas modalidades uma medida do desvio é determinada das contagens de teste. Em algumas modalidades uma medida do desvio é determinada das contagens de referência. Em algumas modalidades uma medida do desvio é determinada de um perfil inteiro ou um subconjunto de porções dentro de um perfil.
[404] Uma medida adequada do desvio pode ser selecionada, exemplos não-limitativos dos quais incluem o desvio padrão, o desvio absoluto médio, o desvio absoluto mediano, desvio máximo absoluto, pontuação padrão (por exemplo, o valor de z, pontuação de z, pontuação normal, variável padronizada) e semelhante. Em algumas modalidades, as amostras de referência são euplóides para uma região de teste e o desvio entre as contagens de teste e as contagens de referência são avaliados. Em algumas modalidades uma determinação da presença ou ausência de uma variação genética está de acordo com o número de desvios (por exemplo, as medidas de desvios, MAD) entre as contagens de teste e as contagens de referência para um segmento ou porção de um genoma ou cromossomo. Em algumas modalidades a presença de uma variação genética é determinada quando o número de desvios entre as contagens de teste e as contagens de referência é maior do que cerca de 1, maior do que cerca de 1,5, maior do que cerca de 2, maior do que cerca de 2,5, maior do que cerca de 2,6, maior do que cerca de 2,7, maior do que cerca de 2,8, maior do que cerca de 2,9, maior do que cerca de 3, maior do que cerca de 3,1, maior do que cerca de 3,2, maior do que cerca de 3,3, maior do que cerca de 3,4, maior do que cerca de 3,5, maior do que cerca de 4, maior do que cerca de 5, ou maior do que a cerca de 6. Por exemplo, por vezes, uma contagem de teste difere da contagem de referência por mais de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a presença de uma variação genética é determinada. Em algumas modalidades uma contagem de teste obtida de uma mulher grávida é maior do que uma contagem de referência por mais de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a presença de uma aneuploidia do cromossomo fetal (por exemplo, uma trissomia fetal) é determinada. Um desvio de mais do que três entre contagens de teste e contagens de referência, frequentemente é indicativo de uma região de teste não-euplóide (por exemplo, a presença de uma variação genética). Contagens de teste significativamente acima das contagens de referência cujas contagens de referência são indicativas de euploidia, às vezes, são determinantes de uma trissomia. Em algumas modalidades uma contagem de teste obtida de uma mulher grávida é menor do que uma contagem de referência por mais de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a presença de uma aneuploidia do cromossomo fetal (por exemplo, uma monossomia fetal) é determinada. Contagens de teste significativamente abaixo das contagens de referência, cujas contagens de referência são indicativas de euploidia, às vezes, são determinantes de um monossomia.
[405] Em algumas modalidades a ausência de uma variação genética é determinada quando o número de desvios entre as contagens de teste e as contagens de referência é menor do que cerca de 3,5, menor do que cerca de 3,4, menor do que cerca de 3,3, menor do que cerca de 3,2, menor do que cerca de 3,1, menor do que cerca de 3,0, menor do que cerca de 2,9, menor do que cerca de 2,8, menor do que cerca de 2,7, menor do que cerca de 2,6, menor do que cerca de 2,5, menor do que cerca de 2,0, menor do que cerca de 1,5, ou menor do que cerca de 1,0. Por exemplo, às vezes, contagem de teste diferem de uma contagem de referência pelo menos de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a ausência de uma variação genética é determinada. Em algumas modalidades de uma contagem de teste obtida de uma mulher grávida que difere de uma contagem de referência em pelo menos de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a ausência de uma aneuploidia do cromossomo fetal (por exemplo, um euplóide fetal) é determinada. Em algumas modalidades (por exemplo, desvio de menos do que três entre contagens de teste e contagens de referência (por exemplo, 3-sigma para o desvio padrão), frequentemente, é indicativo de uma região de teste euplóide (por exemplo, ausência de uma variação genética). A medida do desvio entre as contagens de teste para uma amostra de teste e contagens de referência para um ou mais sujeitos de referência podem ser plotadas e visualizadas (por exemplo, gráfico de pontuação de z).
[406] Qualquer outra referência adequada pode ser tomada com contagens de teste para determinar a presença ou ausência de uma variação genética (ou determinação de euploidia ou não-euploidia) para uma região de teste de uma amostra de teste. Por exemplo, uma determinação da fração fetal pode ser tomada em contagens de teste para determinar a presença ou ausência de uma variação genética. Um processo adequado para a quantificação da fração fetal pode ser utilizado, exemplos não-limitativos dos quais incluem um processo de espectrometria de massa, processo de sequenciamento ou combinação dos mesmos.
[407] Em algumas modalidades, a presença ou ausência de uma aneuploidia do cromossomo fetal (por exemplo, uma trissomia) é determinada, em parte, a partir de uma determinação da ploidia fetal. Em algumas modalidades uma ploidia fetal é determinada por um método adequado aqui descrito. Em algumas modalidades uma determinação de ploidia fetal de cerca de 1,20 ou maior, 1,25 ou maior, 1,30 ou maior, cerca de 1,35 ou maior, de cerca de 1,4 ou maior, ou cerca de 1,45 ou maior indica a presença de uma aneuploidia do cromossomo fetal (por exemplo, a presença de uma trissomia fetal). Em algumas modalidades uma determinação da ploidia fetal de cerca de 1,20 a cerca de 2,0, cerca de 1,20 a cerca de 1,9, cerca de 1,20 a cerca de 1,85, cerca de 1,20 a cerca de 1,8, cerca de 1,25 a cerca de 2,0, cerca de 1,25 a cerca de 1,9, cerca de 1,25 a cerca de 1,85, cerca de 1,25 a cerca de 1,8, cerca de 1,3 a cerca de 2,0, cerca de 1,3 a cerca de 1,9, cerca de 1,3 a cerca de 1,85, cerca de 1,3 a cerca de 1,8, cerca de 1,35 a cerca de 2,0, cerca de 1,35 a cerca de 1,9, cerca de 1,35 a cerca de 1,8, cerca de 1,4 a cerca de 2,0, cerca de 1,4 a cerca de 1,85 ou cerca de 1,4 a cerca de 1,8 indica a presença de uma aneuploidia do cromossomo fetal (por exemplo, a presença de uma trissomia fetal). Em algumas modalidades da aneuploidia fetal é uma trissomia. Em algumas modalidades da aneuploidia fetal é uma trissomia do cromossomo 13, 18 e/ou 21.
[408] Em algumas modalidades uma ploidia fetal de menos do que cerca de 1,35, menos do que cerca de 1,30, menos do que cerca 1,25, menos do que cerca de 1,20 ou menos de cerca de 1,15 indica a ausência de uma aneuploidia fetal (por exemplo, a ausência de uma trissomia fetal, por exemplo, euplóide). Em algumas modalidades uma determinação de ploidia fetal de cerca de 0,7 a cerca de 1,35, cerca de 0,7 a cerca de 1,30, cerca de 0,7 a cerca de 1,25, cerca de 0,7 a cerca de 1,20, cerca de 0,7 a cerca de 1,15, cerca de 0,75 a cerca de 1,35, cerca de 0,75 a cerca de 1,30, cerca de 0,75 a cerca de 1,25, cerca de 0,75 a cerca de 1,20, cerca de 0,75 a cerca de 1,15, cerca de 0,8 a cerca de 1,35, cerca de 0,8 a cerca de 1,30, cerca de 0,8 a cerca de 1,25, cerca de 0,8 a cerca de 1,20, ou cerca de 0,8 a cerca de 1,15 indica a ausência de uma aneuploidia do cromossomo fetal (por exemplo, a ausência de uma trissomia fetal, por exemplo, euplóide).
[409] Em algumas modalidades uma ploidia fetal de menos do que cerca de 0,8, menos do que cerca de 0,75, menos do que cerca 0,70 ou menos do que cerca de 0,6 indica a presença de uma aneuploidia fetal (por exemplo, a presença de uma deleção do cromossomo). Em algumas modalidades uma determinação de ploidia fetal de cerca de 0 a cerca de 0,8, cerca de 0 a cerca de 0,75, cerca de 0 a cerca de 0,70, cerca de 0 a cerca de 0,65, cerca de 0 a cerca de 0,60, cerca de 0,1 a cerca de 0,8, cerca de 0,1 a cerca de 0,75, cerca de 0,1 a cerca de 0,70, cerca de 0,1 a cerca de 0,65, cerca de 0,1 a cerca de 0,60, cerca de 0,2 a cerca de 0,8, cerca de 0,2 a cerca de 0,75, cerca de 0,2 a cerca de 0,70, cerca de 0,2 a cerca de 0,65, cerca de 0,2 a cerca de 0,60, cerca de 0,25 a cerca de 0,8, cerca de 0,25 a cerca de 0,75, cerca de 0,25 a cerca de 0,70, cerca de 0,25 a cerca de 0,65, cerca de 0,25 a cerca de 0,60, cerca de 0,3 a cerca de 0,8, cerca de 0,3 a cerca de 0,75, cerca de 0,3 a cerca de 0,70, cerca de 0,3 a cerca de 0,65, cerca de 0,3 a cerca de 0,60 indica a presença de uma aneuploidia do cromossomo fetal (por exemplo, a presença de uma deleção do cromossomo). Em algumas modalidades aneuploidia fetal determinada é uma deleção do cromossomo inteiro.
[410] Em algumas modalidades uma determinação da presença ou ausência de uma aneuploidia fetal (por exemplo, de acordo com uma ou mais das faixas de uma determinação de ploidia cima) é determinada de acordo com a zona de ligação. Em certas modalidades uma ligação é feito (por exemplo, uma ligação determinando a presença ou ausência de uma variação genética, por exemplo, um resultado) quando um valor (por exemplo, um valor de ploidia, um valor da fração fetal, um grau de incerteza) ou coleção de valores está dentro de uma faixa pré-definida (por exemplo, uma zona, uma zona de ligação). Em algumas modalidades uma zona de ligação é definida de acordo com uma coleção de valores que são obtidos a partir da mesma amostra do paciente. Em certas modalidades uma zona de ligação é definida de acordo com uma coleção de valores que são derivados do mesmo cromossomo ou seu segmento. Em algumas modalidades uma zona de ligação com base na determinação de ploidia é definida de acordo com um nível de confiança (por exemplo, alto nível de confiança, por exemplo, baixo nível de incerteza) e/ou uma fração fetal. Em algumas modalidades uma zona de ligação é definida de acordo com uma determinação de ploidia e uma fração fetal de cerca de 2,0% ou mais, cerca de 2,5% ou mais, cerca de 3% ou mais, cerca de 3,25% ou mais, cerca de 3,5% ou mais, cerca de 3,75% ou mais, ou cerca de 4,0% ou mais. Por exemplo, em algumas modalidades uma ligação é feito em que um feto compreende uma trissomia 21, com base na determinação de ploidia de mais que 1,25 com uma determinação da fração fetal de 2% ou mais ou 4% ou mais para uma amostra obtida de uma mulher grávida tendo um feto. Em certas modalidades, por exemplo, uma ligação é feito em que um feto é euplóide com base na determinação de ploidia de menos de 1,25 com uma determinação da fração fetal de 2% ou mais ou 4% ou mais de uma amostra obtida de uma mulher grávida tendo um feto. Em algumas modalidades uma zona de ligação é definida por um nível de confiança de cerca de 99% ou mais, cerca de 99,1% ou mais, cerca de 99,2% ou mais, cerca de 99,3% ou mais, cerca de 99,4% ou mais, cerca de 99,5% ou superior, sobre 99,6% ou mais, cerca de 99,7% ou mais, cerca de 99,8% ou mais, ou cerca de 99,9% ou mais. Em algumas modalidades uma ligação é feito sem o uso de uma zona de ligação. Em algumas modalidades uma ligação é feita usando uma zona de ligação e dados adicionais ou informações. Em algumas modalidades uma ligação é feita com base em um valor de ploidia sem o uso de uma zona de ligação. Em algumas modalidades uma ligação é feita sem calcular um valor de ploidia. Em algumas modalidades uma ligação é feita com base na inspeção visual de um perfil (por exemplo, inspeção visual de níveis de seção genômica). Uma ligação pode ser feita por qualquer método adequado, baseado na sua totalidade, ou em parte, as determinações, valores e/ou dados obtidos pelos métodos aqui descritos, exemplos não-limitativos dos quais incluem uma determinação de ploidia fetal, uma determinação da fração fetal, ploidia materna, determinações de incerteza e/ou de confiança, níveis de porção, níveis, perfis, pontuações de Z, representações cromossômicas esperados, representações cromossômicas medidas, contagens (por exemplo, contagens normalizadas, contagens cruas), variações do número de cópia maternas ou fetais (por exemplo, variações do número de cópia categorizadas), níveis significativamente diferentes, níveis ajustadas (por exemplo, preenchimento), o semelhante ou suas combinações.
[411] Em algumas modalidades uma zona de ligação é onde uma ligação não é feita. Em algumas modalidades uma zona de ligação é definida por um valor ou um conjunto de valores que indicam baixa precisão, risco elevado, alto erro, baixo nível de confiança, elevado nível de incerteza, o semelhante ou sua combinação. Em algumas modalidades uma zona de ligação é definida, em parte, por uma fração fetal de cerca de 5% ou menos, cerca de 4% ou menos, cerca de 3% ou menos, cerca de 2,5% ou menos, cerca de 2,0% ou menos, sobre 1,5% ou menos, ou cerca de 1,0% ou menos.
[412] Em algumas modalidades, um método para determinar a presença ou ausência de uma variação genética (por exemplo, aneuploidia fetal) é realizado com uma precisão de, pelo menos, cerca de 90% a cerca de 100%. Por exemplo, a presença ou ausência de uma variação genética pode ser determinada com uma precisão de, pelo menos cerca de 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 99,1%, 99,2%, 99,3%, 99,4%, 99,5%, 99,6%, 99,7%, 99,8% ou 99,9%. Em algumas modalidades, a presença ou ausência de uma variação genética é determinada com uma precisão que é cerca da mesma ou maior do que a precisão usando outros métodos de determinação da variação genética (por exemplo, a análise de cariótipo). Em algumas modalidades, a presença ou ausência de uma variação genética é determinada com uma precisão tendo intervalo de confiança (CI) de cerca de 80% a cerca de 100%. Por exemplo, o intervalo de confiança (CI) pode ser de cerca de 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, ou 99%.
[413] Resultado às vezes pode ser determinado em termos de densidade de marcação da sequência. "Densidade de marcador da sequência" refere-se ao valor normalizado de marcadores de sequências ou marcações de sequência para uma seção genômica definida, onde a densidade de marcador da sequência é usada para comparar diferentes amostras e para posterior análise. O valor da densidade de marcador de sequência é frequentemente normalizado dentro de uma amostra. Em algumas modalidades, a normalização pode ser realizada por contagem do número de marcadores que estão dentro de cada seção genômica; a obtenção de um valor médio da contagem do marcador de sequência para cada cromossomo; obtenção de um valor médio de todos os valores autossômicos; e utilização desde valor como uma constante de normalização para contabilizar as diferenças no número total de marcadores de sequência obtidos para as diferentes amostras. A densidade do marcador de sequência às vezes é de cerca de 1 por um cromossomo dissômico. Densidades do marcador de sequência podem variar de acordo com artefatos de sequenciamento, mais notadamente a tendência G/C, que podem ser corrigidas através do uso de um padrão externo ou interno de referência (por exemplo, derivado de substancialmente todos os marcadores de sequência (sequências genômicas), que pode ser, por exemplo, um único cromossomo ou um valor calculado de todos os autossomos, em algumas modalidades). Desse modo, o desequilíbrio de dosagem de um cromossomo ou regiões cromossômicas pode ser inferido a partir da representação percentual do locus entre outros marcadores mapeáveis da espécie. Desequilíbrio de dosagem de um cromossomo ou regiões cromossômicas particulares, por conseguinte, pode ser determinado quantitativamente e ser normalizado. Os métodos para a normalização e quantificação da densidade de marcador de sequência são discutidos em maior detalhe abaixo.
[414] Em algumas modalidades, uma proporção de toda as sequências é a partir de um cromossomo sexual (por exemplo, cromossomo X, cromossomo Y) ou um cromossomo envolvido em uma aneuploidia (por exemplo, cromossomo 13, cromossomo 18, cromossomo 21), e outras sequências são de outros cromossomos. Ao levar em conta o tamanho relativo do cromossomo sexual ou cromossomo envolvido na aneuploidia (por exemplo, "cromossomo alvo": cromossomo 21) em comparação com outros cromossomos, pode-se obter uma frequência normalizada, dentro de uma faixa de referência, sequências específicas de cromossomo alvo, em algumas modalidades. Se o feto tem uma aneuploidia, por exemplo, em um cromossomo alvo, então a frequência normalizada das sequências derivadas de cromossomo alvo é estatisticamente maior do que a frequência normalizada de sequências derivadas de cromossomo não-alvo, permitindo desse modo a detecção da aneuploidia. O grau de alteração da frequência normalizada será dependente da concentração fracionada de ácidos nucleicos fetal na amostra analisada, em algumas modalidades.
[415] Uma variação genética, por vezes, está associada com a condição médica. Um resultado determinante de uma variação genética é, por vezes, um resultado determinante da presença ou ausência de uma condição (por exemplo, uma condição médica), doença, síndrome, ou anomalia, ou inclui a detecção de uma condição, doença, síndrome ou anormalidade (por exemplo, exemplos não-limitativos listados na Tabela 1). Em certas modalidades um diagnóstico compreende a avaliação de um resultado. Um resultado determinante da presença ou ausência de uma condição (por exemplo, uma condição médica), doença, síndrome ou anormalidade por métodos aqui descritos podem, por vezes, ser verificado independentemente por outros testes (por exemplo, por cariotipagem e/ou amniocentese). Análise e processamento dados podem fornecer um ou mais resultados. O termo "resultado", tal como aqui usado, pode se referir a um resultado de processamento de dados que facilita a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópia). Em certas modalidades, o termo "resultado", tal como aqui usado, refere-se a uma conclusão que prevê e/ou determina a presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópia). Em certas modalidades, o termo "resultado", tal como aqui usado, refere-se a uma conclusão que prevê e/ou determina um risco ou a probabilidade da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópia) em um sujeito (por exemplo, um feto). Um diagnóstico compreende, por vezes, o uso de um resultado. Por exemplo, um profissional de saúde pode analisar um resultado e fornecer uma base de diagnóstico em, ou com base em parte no resultado. Em algumas modalidades, a determinação, detecção ou diagnóstico de uma condição, síndrome ou anormalidade (por exemplo, listados na Tabela 1) compreendem o uso de um resultado determinante da presença ou ausência de uma variação genética. Em algumas modalidades, um resultado com base nas sequências mapeadas contadas ou transformações das mesmas é determinante da presença ou ausência de uma variação genética. Em certas modalidades, um resultado gerado usando um ou mais métodos (por exemplo, métodos de processamento de dados aqui descritos) é determinante da presença ou ausência de uma ou mais condições, síndromes ou anormalidades relacionadas na Tabela 1. Em certas modalidades um diagnóstico compreende uma determinação da presença ou ausência de uma condição, síndrome ou anormalidade. Frequentemente, o diagnóstico compreende a determinação de uma variação genética como a natureza e/ou causa de uma doença, síndrome ou anormalidade. Em certas modalidades um resultado não é um diagnóstico. Um resultado frequentemente compreende um ou mais valores numéricos gerados usando um método de processamento descrito aqui no contexto de uma ou mais considerações de probabilidade. Uma consideração de risco ou probabilidade pode incluir, mas não está limitado a: um valor de incerteza, uma medida da variabilidade, nível de confiança, sensibilidade, especificidade, desvio padrão, coeficiente de variação (CV) e/ou nível de confiança, pontuações de Z, valores de Chi, valores de Phi, valores de ploidia, fração fetal ajustada, proporções de área, nível médio, o semelhantes ou suas combinações. Uma consideração de probabilidade pode facilitar a determinação se um sujeito está em risco de ter, ou tem uma variação genética, e um resultado determinante de uma presença ou ausência de uma doença genética, frequentemente, inclui tal uma consideração.
[416] Um resultado às vezes é um fenótipo. Um resultado, por vezes, é um fenótipo associado com um nível de confiança (por exemplo, um valor de incerteza, por exemplo, um feto é positivo para trissomia 21, com um nível de confiança de 99%; uma mulher grávida está carregando um feto masculino com um nível de confiança de 95%; um sujeito de teste é negativo para um câncer associado com uma variação genética em um nível de confiança de 95%). Diferentes métodos de geração de valores de resultado por vezes podem produzir diferentes tipos de resultados. Em geral, existem quatro tipos de pontuações ou ligações possíveis que podem ser feitas com base em valores de resultado gerados usando métodos descritos aqui: verdadeiro positivo, falso positivo, verdadeiro negativo e falso negativo. Os termos "pontuação", "pontuações", "ligação" e "ligações" como aqui usados referem-se ao cálculo da probabilidade de que uma variação genética particular está presente ou ausente em um sujeito/amostra. O valor de uma pontuação pode ser usado para determinar, por exemplo, uma variação, diferença, ou a proporção das sequências mapeadas que pode corresponde a uma variação genética. Por exemplo, calculando uma pontuação positiva para uma variação genética selecionada ou porção de um conjunto de dados, com respeito a um genoma de referência pode levar a uma identificação da presença ou ausência de uma variação genética, a variação genética que, por vezes está associada com uma condição médica (por exemplo, câncer, pré-eclâmpsia, trissomia, monossomia, e semelhante). Em algumas modalidades, um resultado compreende um nível, um perfil e/ou uma gráfico (por exemplo, um gráfico do perfil). Nestas modalidades em que um resultado compreende um perfil, um perfil adequado ou combinação de perfis pode ser usado para um resultado. Exemplos não-limitativos de perfis que podem ser usados para um resultado incluem perfis de pontuação de Z, perfis de valor de p, perfis de valor de chi, perfis de valor de phi, semelhante, e suas combinações.
[417] Um resultado gerado para determinar a presença ou ausência de uma variação genética, por vezes, inclui um resultado nulo (por exemplo, um ponto de dados entre dois conjuntos, um valor numérico com um desvio padrão, que engloba os valores tanto para a presença e a ausência de uma variação genética, um conjunto de dados com um gráfico de perfil que não é semelhante aos gráficos de perfil para sujeitos tendo ou livres da variação genética sendo investigada). Em algumas modalidades, um resultado indicativo de um resultado nulo é ainda um resultado determinante, e a determinação pode incluir a necessidade de informação adicional e/ou uma repetição da geração de e/ou análise de dados para determinar a presença ou ausência de uma variação genética.
[418] Um resultado pode ser gerado após a realização de uma ou mais etapas de processamento aqui descritas, em algumas modalidades. Em certas modalidades, um resultado é gerado como um resultado de uma das etapas de processamento aqui descritas, e em algumas modalidades, um resultado pode ser gerado após cada manipulação estatística e/ou matemática de um conjunto de dados ser executada. Um resultado referente à determinação da presença ou ausência de uma variação genética pode ser expresso de uma forma adequada, cuja forma compreende, sem limitação, uma probabilidade (por exemplo, proporção de probabilidades, valor de p), provavelmente, valor em ou para fora de um conjunto, valor acima ou abaixo de um valor limite, valor dentro de uma faixa (por exemplo, uma faixa limite), o valor de uma medida da variância ou confiança, ou fator de risco, associada com a presença ou ausência de uma variação genética para um sujeito ou amostra. Em certas modalidades, a comparação entre amostras permite confirmação da identidade da amostra (por exemplo, permite a identificação de amostras e/ou amostras repetidas que foram misturadas (por exemplo, marcadas de forma errada, combinadas, e semelhante)).
[419] Em algumas modalidades, um resultado compreende um valor acima ou abaixo de um valor limite ou de corte pré- determinado (por exemplo, maior do que 1, menor do que 1), e um nível de confiança ou incerteza associado com o valor. Em certas modalidades um valor limite ou de corte pré- determinado é um nível esperado ou um faixa do nível esperado. Um resultado também pode descrever uma presunção usada no processamento de dados. Em certas modalidades, um resultado compreende um valor que está dentro ou fora de uma faixa pré-determinada de valores (por exemplo, uma faixa limite) e a incerteza associada ou nível de confiança para aquele valor estando dentro ou fora da faixa. Em algumas modalidades, um resultado compreende um valor que é igual a um valor pré-determinado (por exemplo, igual a 1, igual a zero), ou é igual a um valor dentro de uma faixa de valor pré-determinada, e sua incerteza associada ou nível de confiança para esse valor sendo igual ou dentro ou fora de uma faixa. Um resultado às vezes é representado graficamente como um gráfico (por exemplo, o gráfico do perfil).
[420] Como observado acima, um resultado pode ser caracterizado como verdadeiro positivo, verdadeiro negativo, falso positivo ou falso negativo. O termo "verdadeiro positivo", como aqui usado, refere-se a um sujeito corretamente diagnosticado como tendo uma variação genética. O termo "falso positivo" como aqui usado refere-se a um sujeito erroneamente identificado como tendo uma variação genética. O termo "verdadeiro negativo" como aqui usado refere-se a um sujeito corretamente identificado como não tendo uma variação genética. O termo "falso negativo" como aqui usado refere-se a um sujeito erroneamente identificado como não tendo uma variação genética. Duas medidas de desempenho para qualquer método indicado podem ser calculadas com base nas proporções destas ocorrências: (i) um valor de sensibilidade, que geralmente é a fração de positivos preditos que são corretamente identificados como sendo positivos; e (ii) um valor de especificidade, que geralmente é a fração de negativos preditos corretamente identificados como sendo negativo.
[421] Em certas modalidades, uma ou mais de sensibilidade, especificidade e/ou nível de confiança são expressos como uma percentagem. Em algumas modalidades, a percentagem, independentemente para cada variável, é maior do que cerca de 90% (por exemplo, cerca de 90, 91, 92, 93, 94, 95, 96, 97, 98 ou 99%, ou maior do que 99% (por exemplo, cerca de 99,5%, ou maior, cerca de 99,9% ou maior, cerca de 99,95% ou maior, cerca de 99,99% ou maior)). Coeficiente de variação (CV) em algumas modalidades é expresso como uma percentagem, e, por vezes, a percentagem é cerca de 10% ou menos (por exemplo, cerca de 10, 9, 8, 7, 6, 5, 4, 3, 2 ou 1%, ou menos de 1% (por exemplo, cerca de 0,5% ou menos, cerca de 0,1% ou menos, cerca de 0,05% ou menos, cerca de 0,01% ou menos)). Uma probabilidade (por exemplo, que um resultado particular não é devido ao acaso) em certas modalidades é expressa como uma pontuação de Z, um valor de p, ou os resultados do teste t. Em algumas modalidades, uma variância medida, intervalo de confiança, sensibilidade, especificidade e semelhante (por exemplo, referidos coletivamente como parâmetros de confiança) para um resultado podem ser gerados usando uma ou mais manipulações de processamento de dados aqui descritas. Exemplos específicos para gerar resultados e níveis de confiança associados são descritos na seção de Exemplos e no pedido de patente internacional n. PCT/US12/59123 (W02013/052913) todo o conteúdo do qual está incorporado aqui por referência, incluindo todos os textos, tabelas, equações e desenhos.
[422] O termo "sensibilidade" como aqui usado refere- se ao número de verdadeiros positivos dividido pelo número de verdadeiros positivos, mais o número de falsos negativos, em que a sensibilidade (sens) pode estar dentro da faixa de 0 < sens < 1. O termo "especificidade" como aqui usado refere-se ao número de verdadeiros negativos dividido pelo número de verdadeiros negativos mais o número de falsos positivos, em que a sensibilidade (spec) pode estar dentro da faixa de 0 < spec < 1. Em algumas modalidades um método que tem sensibilidade e especificidade igual a um, ou 100%, ou próximo de um (por exemplo, entre cerca de 90% a cerca de 99%), por vezes, é selecionado . Em algumas modalidades, um método que tem uma sensibilidade igual a 1, ou 100% é selecionado, e em certas modalidades, um método que tem uma sensibilidade de cerca de 1 é selecionado (por exemplo, uma sensibilidade de cerca de 90%, uma sensibilidade de cerca de 91%, uma sensibilidade de cerca de 92%, uma sensibilidade de cerca de 93%, uma sensibilidade de cerca de 94%, uma sensibilidade de cerca de 95%, uma sensibilidade de cerca de 96%, uma sensibilidade de cerca de 97%, uma sensibilidade de cerca de 98%, ou uma sensibilidade de cerca de 99%). Em algumas modalidades, um método que tem uma especificidade igual a 1, ou 100% é selecionado, e em certas modalidades, um método que tem uma especificidade próximo de 1 é selecionado (por exemplo, uma especificidade de cerca de 90%, uma especificidade de cerca de 91%, uma especificidade de cerca de 92%, uma especificidade de cerca de 93%, uma especificidade de cerca de 94%, uma especificidade de cerca de 95%, uma especificidade de cerca de 96%, uma especificidade de cerca de 97%, uma especificidade de cerca de 98%, ou uma especificidade de cerca de 99%).
[423] Idealmente, o número de falsos negativos igual a zero ou próximo de zero, de modo que nenhum sujeito é erroneamente identificado como não tendo pelo menos uma variação genética quando, de fato, eles tem pelo menos uma variação genética. Por outro lado, uma avaliação é feita frequentemente da capacidade de um algoritmo de predição para classificar negativos corretamente, uma medição complementar à sensibilidade. Idealmente, o número de falsos positivos iguais a zero ou próximo de zero, de modo que nenhum sujeito é erroneamente identificado como tendo pelo menos uma variação genética quando eles não têm a variação genética a ser avaliada.
[424] Em algumas modalidades, a presença ou ausência de uma variação genética (por exemplo, aneuploidia do cromossomo) é determinada para um feto. Em tais modalidades, a presença ou ausência de uma variação genética do feto (por exemplo, aneuploidia do cromossomo fetal) é determinada.
[425] Em certas modalidades, a presença ou ausência de uma variação genética (por exemplo, aneuploidia do cromossomo) é determinada para uma amostra. Em tais modalidades, a presença ou ausência de uma variação genética no ácido nucleico da amostra (por exemplo, aneuploidia do cromossomo) é determinada. Em algumas modalidades, uma variação detectada ou resíduos não detectados no ácido nucleico da amostra a partir de uma fonte, mas não na amostra de ácido nucleico de uma outra fonte. Exemplos não- limitativos de fontes incluem ácido nucleico placentário, ácido nucleico fetal, ácido nucleico materno, ácido nucleico de células de câncer, ácido nucleico de células não cancerosas, o semelhante e suas combinações. Nos exemplos não-limitativos, uma variação genética particular detectada ou não detectada (i) reside no ácido nucleico da placenta, mas não no ácido nucleico fetal e não no ácido nucleico materno; (ii) reside no ácido nucleico fetal mas não no ácido nucleico materno; ou (iii) reside no ácido nucleico materno, mas não no ácido nucleico fetal.
[426] Depois de um ou mais resultados terem sido gerados, um resultado frequentemente é usado para fornecer uma determinação da presença ou ausência de uma variação genética e/ou condição médica associada. Um resultado tipicamente é fornecido para um profissional de saúde (por exemplo, técnico ou gerente de laboratório; médico ou assistente). Frequentemente, um resultado é fornecido por um módulo de resultado. Em certas modalidades um resultado é fornecido por um módulo de gráfico. Em certas modalidades um resultado é fornecido em um periférico ou componente de uma máquina ou máquina. Por exemplo, às vezes, um resultado é fornecido por uma impressora ou monitor. Em algumas modalidades, um resultado determinante da presença ou ausência de uma variação genética é fornecida a um profissional da saúde sob a forma de um relatório, e em certas modalidades compreende um relatório uma apresentação de um valor do resultado e um parâmetro de confiança associado. Geralmente, um resultado pode ser exibido em um formato adequado que facilita a determinação da presença ou ausência de uma variação genética e/ou condição médica. Exemplos não-limitativos de formatos adequados para o uso para comunicação e/ou exibição de conjuntos de dados ou comunicação de um resultado incluem dados digitais, um gráfico, um gráfico 2D, um gráfico 3D, e gráfico 4D, uma imagem, uma imagem gráfica, um gráfico, um gráfico de barras, um gráfico de pizza, um diagrama, um fluxograma, um gráfico de dispersão, um mapa, um histograma, um gráfico de densidade, um gráfico da função, um diagrama do circuito, um diagrama de blocos, um mapa de bolha, um diagrama de constelação, um diagrama de contorno, um cartograma, gráfico de aranha, diagrama de Venn, nomograma, e semelhante, e uma combinação dos anteriores. Vários exemplos de representações de resultado são mostrados nos desenhos e são descritos nos Exemplos.
[427] Geração de um resultado pode ser visto como uma transformação de sequências de ácido nucleico em uma representação de ácido nucleico celular de um sujeito, em certas modalidades. Uma representação de ácido nucleico celular de um sujeito frequentemente reflete uma dosagem ou número de cópia de um cromossomo particular ou porção da mesma, e, desse modo, frequentemente, a representação é uma propriedade de ácido nucleico do sujeito. A conversão de uma multiplicidade de sequências relativamente pequenas para uma representação de um cromossomo relativamente grande, por exemplo, pode ser vista como uma transformação. Como ilustração, em um processo para a geração de uma representação do cromossomo 21, que é de cerca de 47 milhões de bases de comprimento, usando sequências de aproximadamente 36 pares de bases de comprimento, muitos milhares de sequências que são, pelo menos, 100.000 vezes menores do que o cromossomo são transformadas em uma representação de cromossomo significativamente maior. Geração de uma tal representação de um cromossomo tipicamente envolve várias manipulações de sequências (por exemplo, mapeamento, filtração e/ou normalização) para se chegar a uma representação do cromossomo relativamente grande, como aqui descrito. Várias manipulações são usadas, frequentemente, o que pode exigir o uso de um ou mais computadores, frequentemente vários computadores coordenados em paralelo.
[428] Quando fornece uma representação de um cromossomo para um cromossomo fetal usando uma amostra de uma mulher grávida, tal uma transformação é ainda mais aparente, uma vez que a maioria das sequências são frequentemente de ácido nucleico materno e uma minoria de sequências são frequentementes de ácido nucleico fetal. Sequências de ácido nucleico materno frequentemente dominam sequências de ácido nucleico fetal, e a maioria das sequências do ácido nucleico materno frequentemente mascara uma representação de um cromossomo fetal. Uma base tipicamente grande de sequências maternas pode obscurecer diferenças entre o ácido nucleico do cromossomo materno e fetal e a obtenção de uma representação de um cromossomo fetal contra uma base que envolve um processo que deconvolui a contribuição de sequências maternas, como aqui descrito.
[429] Em algumas modalidades, um resultado resulta de uma transformação de sequências de um sujeito (por exemplo, uma mulher grávida), em uma representação de uma estrutura existente (por exemplo, um genoma, um cromossomo ou seu segmento) presente em um sujeito (por exemplo, uma mãe e/ou feto). Em algumas modalidades, um resultado compreende uma transformação de sequências de um primeiro sujeito (por exemplo, uma mulher grávida), em uma representação compósito de estruturas (por exemplo, um genoma, um cromossomo ou seu segmento), e uma segunda transformação de representação compósita que produz uma representação de uma estrutura presente em um primeiro sujeito (por exemplo, uma mulher grávida) e/ou um segundo sujeito (por exemplo, um feto). Em algumas modalidades, um resultado compreende uma transformação de sequências de um primeiro sujeito (por exemplo, um sujeito feminino, uma mulher grávida), em uma representação das estruturas (por exemplo, um genoma, um cromossomo ou seu segmento) presentes em um segundo sujeito (por exemplo, um feto).
[430] Um método de transformação aqui, por vezes, compreende a determinação da presença ou ausência de um cromossomo trissômico (isto é, trissomia de cromossomo) em um feto (por exemplo, T21, T18 e/ou T13) de sequências de ácido nucleico em uma amostra obtida de um sujeito mulher grávida carregando o feto. Em algumas modalidades, um método de transformação aqui pode compreender a preparação de (por exemplo, a determinação, visualização, exibição, fornecimento) uma representação de um cromossomo (por exemplo, número de cópia do cromossomo, dosagem do cromossomo) para um feto de sequências de ácido nucleico em uma amostra obtida de um sujeito mulher grávida carregando o feto. Nas últimas modalidades, uma representação de um cromossomo de um feto é frequentemente para o cromossomo 13, cromossomo 18 e/ou cromossomo 21.
Uso dos resultados
[431] Um profissional da saúde, ou outro sujeito qualificado, que recebe um relatório compreendendo um ou mais resultados determinantes da presença ou ausência de uma variação genética pode usar os dados exibidos no relatório para fazer uma ligação sobre o estado do sujeito do teste ou paciente. O profissional de saúde pode fazer uma recomendação com base no resultado fornecido, em algumas modalidades. Um profissional da saúde ou sujeito qualificado pode fornecer um sujeito de teste ou paciente com uma ligação ou pontuação da presença ou ausência da variação genética com base no valor ou valores de resultado e parâmetros de confiança associados fornecidos em um relatório, em algumas modalidades. Em certas modalidades, uma pontuação ou ligação é feita manualmente por um profissional da saúde ou sujeito qualificado, por meio da observação visual do relatório fornecido. Em certas modalidades, uma pontuação ou ligação é feita por uma rotina automatizada, por vezes, incorporada em software, e revisada por um profissional da saúde ou sujeito qualificado para a exatidão antes de fornecer informações para um sujeito de teste ou paciente. O termo "receber um relatório" como aqui usado refere-se à obtenção, através de meios de comunicação, uma representação por escrito e/ou gráfica compreendendo um resultado, que após a revisão permite que um profissional da saúde ou sujeito qualificado faça uma determinação quanto à presença ou ausência de uma variação genética em um sujeito de teste ou paciente. O relatório pode ser gerado por um computador ou por entrada de dados humanos, e pode ser comunicado usando os meios eletrônicos (por exemplo, através da internet, de um computador, de fax, de um local de rede para outro local nos mesmos sítios físicos ou diferentes), ou por um outro método de enviar ou receber dados (por exemplo, serviços de correio eletrônico, serviço de correio e semelhante). Em algumas modalidades o resultado é transmitido para um profissional da saúde em um meio adequado, incluindo, sem limitação, verbal, documento ou forma de arquivo. O arquivo pode ser, por exemplo, mas não limitado a um arquivo auditivo, um arquivo legível por computador, um arquivo de papel, um arquivo de laboratório ou um arquivo de registro médico.
[432] O termo "fornecer um resultado" e seus equivalentes gramaticais destes, como aqui usados pode também se referir a um método para a obtenção de tal informação, incluindo, sem limitação, a obtenção de informações de um laboratório (por exemplo, um arquivo de laboratório). Um arquivo de laboratório pode ser gerado por um laboratório que efetuou um ou mais ensaios ou uma ou mais etapas de processamento de dados para determinar a presença ou a ausência da condição médica. O laboratório pode ser no mesmo local ou local diferente (por exemplo, em um outro país) como os funcionários identificando a presença ou ausência da condição médica a partir do arquivo de laboratório. Por exemplo, o arquivo de laboratório pode ser gerado em um local e transmitido para outro local no qual a informação nele será transmitida ao sujeito mulher grávida. O arquivo de laboratório pode estar em forma tangível ou em formato eletrônico (por exemplo, forma legível por computador), em certas modalidades.
[433] Em algumas modalidades, um resultado pode ser fornecido a um profissional de saúde, médico ou sujeito qualificado de um laboratório e o profissional de saúde, médico ou sujeito qualificado pode fazer um diagnóstico com base no resultado. Em algumas modalidades, um resultado pode ser fornecido a um profissional de saúde, médico ou sujeito qualificado de um laboratório e o profissional de saúde, médico ou sujeito qualificado pode fazer um diagnóstico com base, em parte, nos resultados juntamente com dados e/ou informações adicionais e outros resultados.
[434] O profissional da saúde ou sujeito qualificado pode fornecer uma recomendação adequada com base no resultado ou resultados fornecidos no relatório. Exemplos não- limitativos de recomendações que pode ser fornecidos com base no resultado relatório fornecido incluem cirurgia, radioterapia, quimioterapia, aconselhamento genético, soluções de tratamento após o nascimento (por exemplo, planejamento de vida, cuidados assistidos em longo prazo, medicamentos, tratamentos sintomáticos), interrupção da gravidez, transplante de órgãos, transfusão de sangue, o semelhante ou combinações dos anteriores. Em algumas modalidades, a recomendação é dependente do resultado baseado na classificação fornecida (por exemplo, síndrome de Down, síndrome de Turner, condições médicas associadas com variações genéticas em T13, condições médicas associadas com variações genéticas em T18).
[435] Os funcionários do laboratório (por exemplo, um gestor de laboratório) podem analisar valores (por exemplo, contagens de teste, contagens de referência, nível de desvio) subjacentes a uma determinação da presença ou ausência de uma variação genética (ou determinação de euplóide ou não- euplóide para uma região de teste). Para as ligações referentes a presença ou ausência de uma variação genética que estão próximas ou questionáveis, funcionários do laboratório podem re-solicitar o mesmo teste, e/ou solicitar um teste diferente (por exemplo, cariótipo e/ou amniocentese no caso de determinações de aneuploidia fetal), que faz uso do mesmo ácido nucleico ou diferente da amostra de um sujeito de teste.
Variações genéticas e condições médicas
[436] A presença ou ausência de uma variação genética pode ser determinada usando um método, aparelho ou máquina aqui descrito. Em certas modalidades, a presença ou ausência de uma ou mais variações genéticas é determinada de acordo com um resultado fornecido por métodos, máquinas e aparelhos aqui descritos. Uma variação genética é geralmente um fenótipo genético específico presente em certos indivíduos, e frequentemente uma variação genética está presente em uma subpopulação estatisticamente significativa de indivíduos. Em algumas modalidades, uma variação genética é uma anomalia do cromossomo (por exemplo, aneuploidia), anomalia do cromossomo parcial ou mosaicismo, cada uma das quais é descrita em maior detalhe aqui. Exemplos não-limitativos de variações genéticas incluem uma ou mais deleções (por exemplo, micro-deleções), duplicações (por exemplo, micro- duplicações), inserções, mutações, polimorfismos (por exemplo, polimorfismo de um nucleotídeo), fusões, repetições (por exemplo, repetições em tandem curtas), sítios de metilação distintos, padrões de metilação distintos, semelhante, e suas combinações. Uma inserção, repetição, deleção, duplicação, mutação ou polimorfismo pode ser de qualquer comprimento, e em algumas modalidades, é de cerca de 1 base ou par de bases (pb) a cerca de 250 megabases (Mb) de comprimento. Em algumas modalidades, uma inserção, repetição, deleção, duplicação, mutação ou polimorfismo é cerca de 1 base ou par de bases (pb) a cerca de 1000 quilobases (kb) de comprimento (por exemplo, cerca de 10 pb, 50 pb, 100 pb, 500 pb, 1kb, 5 kb, 1Okb, 50 kb, 100 kb, 500 kb, ou 1000 kb de comprimento).
[437] A variação genética é por vezes uma deleção. Em certas modalidades uma deleção é uma mutação (por exemplo, uma aberração genética) em que uma parte de um cromossomo ou de uma sequência de DNA que está faltando. Uma deleção é frequentemente a perda de material genético. Qualquer número de nucleotídeos pode ser deletado. Uma deleção pode compreender a deleção de um ou mais cromossomos inteiros, um segmento de um cromossomo, um alelo, um gene, um íntron, um éxon, qualquer região não codificante, qualquer região codificante, seu segmento ou uma combinação destes. A deleção pode compreender uma micro-deleção. Uma deleção pode compreender a deleção de uma única base.
[438] A variação genética é por vezes uma duplicação genética. Em certas modalidades uma duplicação é uma mutação (por exemplo, uma aberração genética) em que uma parte de um cromossomo ou de uma sequência de DNA é copiada e inserida de volta ao genoma. Em certas modalidades uma duplicação genética (isto é, duplicação) é a duplicação de uma região do DNA. Em algumas modalidades uma duplicação é uma sequência de ácido nucleico que é repetida, frequentemente em conjunto, dentro de um genoma ou cromossomo. Em algumas modalidades uma duplicação pode compreender uma cópia de um ou mais cromossomos inteiros, um segmento de um cromossomo, um alelo, um gene, um íntron, um éxon, qualquer região não-codificante, qualquer região codificante, seu segmento ou uma combinação destes. Uma duplicação pode compreender um micro-duplicação. Uma duplicação, por vezes, compreende uma ou mais cópias de um ácido nucleico duplicado. Uma duplicação, por vezes, é caracterizada como uma região genética repetida uma ou mais vezes (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 vezes repetidas). Duplicações podem variar de pequenas regiões (milhares de pares de bases) aos cromossomos inteiros, em alguns casos. Duplicações ocorrem frequentemente como resultado de um erro no processo de recombinação homóloga, ou devido a um evento de retrotransposons. Duplicações têm sido associadas com certos tipos de doenças proliferativas. Duplicações podem ser caracterizadas usando microarranjos de DNA genômico ou hibridização genética comparativa (CGH).
[439] A variação genética é, por vezes, uma inserção. Uma inserção é, por vezes, a adição de um ou mais pares de bases de nucleotídeos em uma sequência de ácido nucleico. Uma inserção é às vezes uma micro-inserção. Em certas modalidades uma inserção compreende a adição de um segmento de um cromossomo em um genoma, o cromossomo, ou seu segmento. Em certas modalidades uma inserção compreende a adição de um alelo, um gene, um íntron, um éxon, qualquer região não- codificante, qualquer região codificante, seu segmento ou uma combinação destes em um genoma ou seu segmento. Em certas modalidades uma inserção compreende a adição (isto é, inserção) de ácido nucleico de origem desconhecida em um genoma, cromossomo, ou seu segmento. Em certas modalidades uma inserção compreende a adição (isto é, inserção) de uma única base.
[440] Como usada aqui uma "variação do número de cópia" geralmente é uma classe ou tipo de variação genética ou aberração cromossômica. Uma variação do número de cópia pode ser uma deleção (por exemplo, micro-deleção), duplicação (por exemplo, um micro-duplicação) ou inserção (por exemplo, uma micro-inserção). Frequentemente, o prefixo "micro" como aqui usado, por vezes, é um segmento de ácido nucleico com menos que 5 Mb de comprimento. Uma variação do número de cópia pode incluir uma ou mais deleções (por exemplo, micro- deleção), duplicações e/ou inserções (por exemplo, um micro- duplicação, micro-inserção) de um segmento de um cromossomo. Em certas modalidades a duplicação compreende uma inserção. Em certas modalidades uma inserção é uma duplicação. Em certas modalidades uma inserção não é uma duplicação. Por exemplo, frequentemente uma duplicação de uma sequência em uma porção aumenta as contagens para uma porção na qual se encontra a duplicação. Frequentemente, uma duplicação de uma sequência em uma porção aumenta o nível. Em certas modalidades, uma duplicação presente em porções constituindo um primeiro nível aumenta o nível em relação a um segundo nível onde uma duplicação está ausente. Em certas modalidades uma inserção aumenta as contagens de uma porção e uma sequência representando a inserção está presente (isto é, duplicado) em outro local dentro da mesma porção. Em certas modalidades uma inserção não aumenta significativamente as contagens de uma porção ou o nível e a sequência que é inserida não é uma duplicação de uma sequência dentro da mesma porção. Em certas modalidades uma inserção não é detectada ou representada como uma duplicação e uma sequência duplicada representando a inserção não está presente na mesma porção.
[441] Em algumas modalidades uma variação do número de cópia é uma variação do número de cópia fetal. Frequentemente, uma variação do número de cópia fetal é uma variação do número de cópia no genoma de um feto. Em algumas modalidades uma variação do número de cópia é uma variação do número de cópia materna e/ou fetal. Em certas modalidades uma variação do número de cópia materna e/ou fetal é uma variação do número de cópia dentro do genoma de uma mulher grávida (por exemplo, um sujeito feminino tendo um feto), um sujeito feminino que deu à luz ou uma mulher capaz de ter um feto. Uma variação do número de cópia pode ser uma variação do número de cópia heterozigota em que a variação (por exemplo, uma duplicação ou deleção) está presente em um alelo de um genoma. Uma variação do número de cópia pode ser uma variação do número de cópia homozigota em que a variação está presente em ambos os alelos de um genoma. Em algumas modalidades uma variação do número de cópia é uma variação do número de cópia fetal heterozigota ou homozigota. Em algumas modalidades a variação do número de cópia é uma variação do número de cópia materna e/ou fetal heterozigota ou homozigota. Uma variação do número de cópia por vezes está presente em um genoma materno e um genoma fetal, um genoma materno e não um genoma fetal, ou um genoma fetal e não um genoma materno.
[442] "Ploidia" é uma referência para o número de cromossomos presentes em um feto ou mãe. Em certas modalidades "ploidia" é o mesmo que "ploidia do cromossomo". Nos seres humanos, por exemplo, cromossomos autossômicos estão frequentemente presentes em pares. Por exemplo, na ausência de uma variação genética, maioria dos seres humanos têm dois de cada cromossomo autossômico (por exemplo, cromossomos 1-22). A presença do complemento normal de 2 cromossomos autossômicos em um humano é frequentemente referida como euplóide. "Microploidia" é semelhante em significado para ploidia. "Microploidia" refere-se frequentemente a ploidia de um segmento de um cromossomo. O termo "microploidia", por vezes, é uma referência à presença ou ausência de uma variação do número de cópia (por exemplo, uma deleção, duplicação e/ou uma inserção) dentro de um cromossomo (por exemplo, uma exclusão, uma duplicação ou uma inserção homozigota ou heterozigota, o semelhante ou ausência destes). "Ploidia" e "microploidia", às vezes, são determinadas após a normalização de contagens de um nível em um perfil. Desse modo, um nível que representa um par de cromossomos autossômicos (por exemplo, um euplóide) é frequentemente normalizado para uma ploidia igual a 1. Semelhantemente, um nível dentro de um segmento de um cromossomo que representa a ausência de uma duplicação, deleção ou inserção, frequentemente é normalizado para um microploidia de 1. Ploidia e microploidia são frequentemente específicas da porção (por exemplo, específico da porção) e específicas da amostra. Ploidia é frequentemente definida como múltiplos inteiros de 1/2, com os valores de 1, 1/2, 0, 3/2, e 2 representando euplóide (por exemplo, 2 cromossomos), 1 cromossomo presente (por exemplo, uma deleção de cromossomo), nenhum cromossomo presente, 3 cromossomos (por exemplo, uma trissomia) e 4 cromossomos, respectivamente. Da mesma forma, microploidia é geralmente definida como múltiplos inteiros de 1/2, com os valores de 1, ^, 0, 3/2, e 2 representando euplóide (por exemplo, nenhuma variação do número de cópia), uma deleção heterozigota, deleção homozigota, duplicação heterozigota e duplicação homozigota, respectivamente. Alguns exemplos de valores de ploidia para um feto são fornecidos na Tabela 2.
[443] Em certas modalidades, a microploidia de um feto corresponde a microploidia da mãe do feto (ou seja, sujeito feminino grávida). Em certas modalidades a microploidia de um feto corresponde a microploidia da mãe do feto e ambos mãe e feto transportam a mesma variação do número de cópia heterozigota, variação do número de cópia homozigota ou ambos são euplóides. Em certas modalidades a microploidia de um feto é diferente da microploidia da mãe do feto. Por exemplo, às vezes a microploidia de um feto é heterozigota para uma variação do número de cópia, a mãe é homozigota para a variação do número de cópia e a microploidia do feto não corresponde (por exemplo, não é igual) a microploidia da mãe para a variação do número de cópia especificada.
[444] A microploidia é frequentemente associada a um nível esperado. Por exemplo, por vezes, um nível (por exemplo, um nível de um perfil, por vezes, um nível que inclui substancialmente qualquer variação do número de cópia) é normalizado para um valor de 1 (por exemplo, uma ploidia de 1, um microploidia de 1) e a microploidia de uma duplicação homozigota é 2, uma duplicação heterozigota é 1,5, uma deleção heterozigota é 0,5 e uma deleção homozigótica é zero.
[445] Uma variação genética para a qual a presença ou ausência é identificada para um sujeito está associada com uma condição médica em certas modalidades. Desse modo, a tecnologia aqui descrita pode ser usada para identificar a presença ou ausência de uma ou mais variações genéticas que são associadas com uma condição médica ou estado médico. Exemplos não-limitativos de condições médicas incluem os que estão associados com deficiência mental (por exemplo, Síndrome de Down), proliferação celular aberrante (por exemplo, câncer), a presença de um ácido nucleico no microrganismo (por exemplo, vírus, bactéria, fungo, levedura), e pré-eclâmpsia.
[446] Exemplos não-limitativos de variações genéticas, condições e estados médicos estão descritos a seguir.
Gênero fetal
[447] Em algumas modalidades, a previsão de um gênero fetal ou desordem relacionada com o gênero (por exemplo, aneuploidia do cromossomo sexual) pode ser determinada por um método, máquina ou aparelho aqui descrito. A determinação do gênero, em geral, baseia-se em um cromossomo sexual. Nos seres humanos, existem dois cromossomos sexuais, os cromossomos X e Y. O cromossomo Y contém um gene, SRY, o que ativa o desenvolvimento embrionário como um homem. Os cromossomos Y de humanos e outros mamíferos também contêm outros genes necessários para a produção normal do esperma. Indivíduos com XX são femininos e XY são masculinos e variações não-limitativas, frequentemente, referidas como aneuploidias do cromossomo sexual, incluem XO, XYY, XXX e XXY. Em certas modalidades, os homens têm dois cromossomos X e um cromossomo Y (XXY; Síndrome de Klinefelter), ou um cromossomo X e dois cromossomos Y (Síndrome XYY; Síndrome de Jacobs), e algumas mulheres têm três cromossomos X (XXX; Síndrome de Triplo X), ou um único cromossomo X em vez de dois (XO; Síndrome de Turner). Em certas modalidades, apenas uma porção de células em um indivíduo são afetadas por uma aneuploidia do cromossomo sexual que pode ser referida como um mosaicismo (por exemplo, mosaicismo de Turner). Outros casos incluem aqueles em que SRY é danificado (levando a uma mulher XY), ou copiado para o X (levando a um homem XX).
[448] Em algumas modalidades, um método no qual é determinado gênero fetal também pode compreender determinar fração fetal e/ou presença ou ausência de uma variação genética fetal (por exemplo, aneuploidia do cromossomo fetal). Determinação da presença ou ausência de uma variação genética fetal pode ser realizada de um modo adequado, exemplos não-limitativos dos quais incluem análise de cariótipo, amniocentese, análise do ácido nucleico isento de célula circulante, a análise do DNA fetal isento de células, análise da sequência de nucleotídeo, quantificação da sequência, abordagens alvos, abordagens baseadas em amplificação, abordagens baseadas em espectrometria de massa, abordagens baseadas em metilação diferencial, abordagens baseadas em digestão diferencial, abordagens baseadas em polimorfismos, abordagens baseadas em hibridização (por exemplo, usando sondas), e semelhante.
[449] Em certos casos, pode ser benéfico determinar o gênero de um feto no útero. Por exemplo, um paciente (por exemplo, a mulher grávida) com uma história familiar de uma ou mais desordens ligadas ao sexo pode desejar determinar o gênero do feto que ela está carregando para ajudar a avaliar o risco de o feto herdar tal uma desordem. Desordens ligadas ao sexo incluem, sem limitação, desordens ligadas ao X e ligadas ao Y. Desordens ligadas ao X incluem desordens dominantes ligadas ao X e recessivas ao X. Exemplos de desordens recessivas ligadas ao X incluem, sem limitação, doenças imunológicas (por exemplo, doença granulomatosa crônica (CYBB), síndrome de Wiskott-Aidrich, imunodeficiência combinada grave ligada ao X, gamaglobulinemia ligada ao X, síndrome de hiper-IgM do tipo 1, IPEX, doença linfoproliferativa ligada ao X, deficiência de properdina), doenças hematológicas (por exemplo, hemofilia A, hemofilia B, anemia sideroblástica ligada ao X), desordens endócrinas (por exemplo, síndrome da insensibilidade andrógena/doença de Kennedy, síndrome de Kallmann KAL1, hipoplasia adrenal congênita ligada ao X), doenças metabólicas (por exemplo, deficiência de ornitina transcarbamilase, síndrome oculocerebrorrenal, adrenoleucodistrofia, deficiência de glicose-6-fosfato desidrogenase, deficiência de piruvato desidrogenase, doença de Danon/doença de armazenamento de glicogênio tipo IIb, doença de Fabry, síndrome de Hunter, síndrome de Lesch-Nyhan, doença de Menkes/síndrome do corno ocipital), desordens do sistema nervoso (por exemplo, síndrome de Coffin-Lowry, síndrome de MASA, síndrome de retardo mental de alfa talassemia ligada ao cromossomo X, síndrome de retardo mental ligada ao X de sidério, cegueira da cor, albinismo ocular, doença de Norrie, coroideremia, doença de Charcot-Marie- Tooth (CMTX2-3), doença de Pelizaeus-Merzbacher, SMAX2), desordens do tecido relacionado e pele (por exemplo, disceratose congênita, displasia ectodérmica hipoidrótica (EDA), ictiose ligada ao X, distrofia corneana endotelial ligada ao X), doenças neuromusculares (por exemplo, distrofia muscular de Becker/Duchenne, miopatia centronuclear (MTM1), síndrome de Conradi-Hunermann, distrofia muscular de Emery-Dreifuss 1), desordens urológicas (por exemplo, síndrome de Alport, doença de Dent, diabetes insípida nefrogênica ligada ao X), desordens do osso/dente (por exemplo, amelogênese imperfeita AMELX), e outras desordens (por exemplo, síndrome de Barth, síndrome de Mcleod, síndrome de Smith-Fineman-Myers, síndrome de Simpson-Golabi-Behmel, síndrome de Mohr-Tranebjrerg, síndrome de Naso-digito-acústico). Exemplos de desordens dominantes ligadas ao X incluem, sem limitação, hipofosfatemia ligada ao X, hipoplasia dérmica focal, síndrome do X frágil, síndrome de Aicardi, Incontinência pigmentar, síndrome de Rett, síndrome CHILD, síndrome de Lujan-Fryns e síndrome de Orofaciodigital 1. Exemplos de desordens ligadas ao Y incluem, sem limitação, infertilidade masculina, retinite pigmentosa e azoospermia.
Anormalidades cromossômicas
[450] Em algumas modalidades, a presença ou ausência de uma anormalidade do cromossomo fetal pode ser determinada usando um método, máquina ou aparelho aqui descrito. Anomalias do cromossomo incluem, sem limitação, um ganho ou perda de um cromossomo inteiro ou uma região de um cromossomo que compreende um ou mais genes. Anormalidades do cromossomo incluem monossomias, trissomias, polissomias, perda de heterozigosidade, translocações, deleções e/ou duplicações de uma ou mais sequências de nucleotídeos (por exemplo, um ou mais genes), incluindo duplicações e deleções causadas por translocações desequilibradas. O termo "anormalidade do cromossomo", "aneuploidia" e/ou "aneuplóide", como aqui usados, refere-se a um desvio entre a estrutura do cromossomo do sujeito e um cromossomo homólogo normal. O termo "normal" refere-se ao cariótipo predominante ou padrão de bandas encontrado em indivíduos saudáveis de uma espécie em particular, por exemplo, um genoma euplóide (em seres humanos, 46,XX ou 46,XY). Como organismos diferentes têm complementos de cromossomo amplamente variados, o termo "aneuploidia" e "aneuplóide" não se refere a um número particular de cromossomos, mas sim à situação em que o teor do cromossomo dentro de uma dada célula ou células de um organismo é anormal. Em algumas modalidades, o termo "aneuploidia" e "aneuplóide" aqui refere-se a um desequilíbrio de material genético causado por uma perda ou ganho de um cromossomo inteiro, ou parte de um cromossomo. Uma "aneuploidia" pode se referir a uma ou mais deleções e/ou inserções de um segmento de um cromossomo. O termo "euplóide", em algumas modalidades, refere-se um complemento normal de cromossomos.
[451] O termo "monossomia" como aqui usado refere-se a falta de um cromossomo do complemento normal. Monossomia parcial pode ocorrer em translocações ou deleções desequilibradas, em que apenas um segmento do cromossomo está presente em uma única cópia. Monossomia de cromossomos sexuais (45, X) causa a síndrome de Turner, por exemplo. O termo "dissomia" refere-se à presença de duas cópias de um cromossomo. Para os organismos, tais como os seres humanos que possuem duas cópias de cada cromossomo (aqueles que são diplóide ou "euplóide"), dissomia é a condição normal. Para os organismos que normalmente têm três ou mais cópias de cada cromossomo (aqueles que são triplóide ou acima), é um dissomia é um estado do cromossomo aneuplóide. Em dissomia uniparental, ambas as cópias do cromossomo vêm do mesmo pai (sem qualquer contribuição do outro progenitor).
[452] O termo "trissomia", como aqui usado, refere-se à presença de três cópias, em vez de duas cópias, de um cromossomo particular. A presença de um cromossomo 21 extra, que se encontra na síndrome de Down humano, é referido como "Trissomia 21." Trissomia 18 e trissomia 13 são duas outras trissomias autossômicas humanas. Trissomia de cromossomos sexuais pode ser visto nas mulheres (por exemplo, 47, XXX em síndrome de Triplo X) ou homens (por exemplo, 47, XXY na síndrome de Klinefelter, ou 47, XYY na Síndrome de Jacobs). Em algumas modalidades, uma trissomia é uma duplicação da maioria ou a totalidade de um autossomo. Em certas modalidades uma trissomia é uma aneuploidia do cromossomo inteiro resultando em três casos (por exemplo, três cópias) de um tipo particular de cromossomo (por exemplo, em vez de dois casos (isto é, um par) de um tipo particular de um cromossomo para um euplóide).
[453] Os termos "tetrassomia" e "pentassomia" como aqui usados referem-se a presença de quatro ou cinco cópias de um cromossomo, respectivamente. Embora raramente visto com autossomos, tetrassomia e pentassomia do cromossomo sexual foram relatados em seres humanos, incluindo XXXX, XXXY, XXYY, XYYY, XXXXX, XXXXY, XXXYY, XXYYY e XYYYY.
[454] Anormalidades do cromossomo podem ser causadas por uma variedade de mecanismos. Mecanismos incluem, mas não estão limitados a (i) não disjunção ocorrendo como o resultado de pontos de verificação mitóticos enfraquecidos, (ii) pontos de verificação mitóticos inativos causando não disjunção em vários cromossomos, (iii) ligação merotelica ocorrendo quando um cinetócoro está ligado a ambos os polos do fuso mitótico, (iv) um fuso multipolar formando quando mais do que dois polos do fuso se formam, (v) um fuso monopolar formando quando somente uma único polo de fuso se forma, e (vi) um intermediário tetraplóide ocorrendo como um resultado final do mecanismo de fuso monopolar.
[455] Os termos "monossomia parcial" e "trissomia parcial" como aqui usados referem-se a um desequilíbrio de material genético causado pela perda ou ganho de parte de um cromossomo. Uma monossomia parcial ou trissomia parcial pode resultar de uma translocação desequilibrada, em que um indivíduo carrega um cromossomo derivado formado através da rompimento e fusão de dois cromossomos diferentes. Nessa situação, o indivíduo teria três cópias de parte de um cromossomo (duas cópias normais e o segmento que existe no cromossomo derivado) e apenas uma cópia de parte do outro cromossomo envolvido no cromossomo derivado.
[456] O termo "mosaicismo" como aqui usado refere-se a aneuploidia em algumas células, mas nem todas as células, de um organismo. Certas anormalidades cromossômicas podem existir como anormalidades do cromossomo em mosaico e não- mosaico. Por exemplo, certa trissomia 21 indivíduos têm síndrome de Down em mosaico e alguns têm síndrome de Down em não-mosaico. Diferentes mecanismos podem levar ao mosaicismo. Por exemplo, (i) um zigoto inicial pode ter três cromossomos 21, o que normalmente resultaria em trissomia 21 simples, mas durante o curso da divisão celular de uma ou mais linhagens de células perdeu um dos cromossomos 21; e (11) um zigoto inicial pode ter dois cromossomos 21, mas durante o curso da divisão celular um dos cromossomos 21 foi duplicado. Mosaicismo somático provavelmente ocorre através de mecanismos distintos daqueles tipicamente associadas a síndromes genéticas envolvendo aneuploidia completa ou mosaico. Mosaicismo somático tem sido identificado em certos tipos de cânceres e em neurônios, por exemplo. Em certos casos, a trissomia 12 foi identificada na leucemia linfocítica crônica (CLL) e trissomia 8 foi identificada na leucemia mielóide aguda (AML). Além disso, síndromes genéticas em que um indivíduo está predisposto ao rompimento dos cromossomos (síndromes de instabilidade do cromossomo) são frequentemente associadas com risco aumentado para vários tipos de câncer, destacando desse modo o papel de aneuploidia somática na carcinogênese. Métodos e protocolos aqui descritos podem identificar a presença ou ausência de anormalidades do cromossomo em mosaico e não-mosaico.
[457] Tabelas 1A e 1B apresentam uma lista não- limitativa de condições, síndromes e/ou anormalidades do cromossomo que podem ser identificadas potencialmente por métodos, máquinas e aparelhos aqui descritos. Tabela 1 B é da base de dados DECIPHER de 6 de outubro 2011 (por exemplo, versão 5.1, com base nas posições mapeadas para GRCh37; disponível no localizador uniforme de recurso (URL) dechipher.sanger.ac.uk). Tabela 1A
Figure img0002
Figure img0003
Figure img0004
Figure img0005
Figure img0006
Tabela 1B
Figure img0007
Figure img0008
Figure img0009
Figure img0010
Figure img0011
Figure img0012
Figure img0013
Figure img0014
Figure img0015
Figure img0016
[458] Condições de grau 1 têm, frequentemente, uma ou mais das seguintes características: anomalia patogênica; forte concordância entre os geneticistas; altamente penetrantes; ainda podem ter fenótipo variável, mas algumas características comuns; todos os casos na literatura têm um fenótipo clínico; nenhum caso de indivíduos saudáveis com a anomalia; não apresentara um relatório sobre as bases de dados DVG ou encontradas em população saudável; dados funcionais confirmando efeito de dosagem em um gene ou multigenes; genes candidatos fortes ou confirmados; implicações na gestão clínica definida; o risco de câncer conhecido com implicação para a vigilância; múltiplas fontes de informação (OMIM, GeneReviews, Orphanet, Unique, Wikipedia); e/ou disponíveis para uso em diagnóstico (aconselhamento reprodutivo).
[459] Condições de grau 2 têm, frequentemente, uma ou mais das seguintes características; provavelmente anomalia patogênica; altamente penetrantes; fenótipo variável com nenhuma característica consistente outra que DD; pequeno número de casos/relatos na literatura; todos os casos notificados têm um fenótipo clínico; nenhum dado funcional ou genes patogênicos confirmados; várias fontes de informação (OMIM, GeneReviews, Orphanet, Unique, Wikipedia); e/ou podem ser usados para propósitos de diagnóstico e aconselhamento reprodutivo.
[460] Condições de grau 3 têm, frequentemente, uma ou mais das seguintes características; suscetibilidade local; indivíduos saudáveis ou de pais não afetados de uma probanda descrita; presentes em populações de controle; não penetrantes; fenótipo leve e não específico; apresentam menos consistentes; não há dados funcionais ou genes patogênicos confirmados; mais fontes de dados limitadas; possibilidade de segundo diagnóstico continua a ser uma possibilidade para os casos que se afastam da maioria ou se novo achado clínico presente; e/ou cuidado ao usar para propósitos de diagnóstico e conselho guardado para o aconselhamento reprodutivo.
Pré-eclâmpsia
[461] Em algumas modalidades, a presença ou ausência de pré-eclâmpsia é determinada usando um método, máquina ou aparelho aqui descrito. A pré-eclâmpsia é uma condição na qual a hipertensão surge na gravidez (ou seja, a hipertensão induzida pela gravidez) e está associada com quantidades significativas de proteína na urina. Em certas modalidades, a pré-eclâmpsia também está associada com níveis elevados de ácido nucleico extracelular e/ou alterações nos padrões de metilação. Por exemplo, uma correlação positiva entre os níveis extracelulares de RASSF1A hipermetilado derivado de feto e a gravidade da pré-eclâmpsia tem sido observada. Em certos exemplos, a metilação do DNA aumentada é observada para o gene H19 em placentas com pré-eclâmpsia em comparação com controles normais.
[462] A pré-eclâmpsia é uma das principais causas de mortalidade neonatal/materna e fetal e morbidade em todo o mundo. Ácidos nucléicos isentos de célula circulante no plasma e soro são novos biomarcadores com aplicações clínicas promissoras em diferentes áreas médicas, incluindo diagnóstico pré-natal. Mudanças quantitativas de (cff)DNA isento de células no plasma materno como um indicador para a pré-eclâmpsia iminente foram relatadas em diferentes estudos, por exemplo, usando PCR em tempo real quantitativo para o SRY específico de homem ou DYS 14 local. Em casos de aparecimento precoce de pré-eclâmpsia, níveis elevados podem ser vistos no primeiro trimestre. Os níveis aumentados de cffDNA antes do início dos sintomas podem ser devidos a hipoxia/reoxigenação dentro do espaço interviloso levando ao estresse oxidativo do tecido e apoptose placentária aumentada e necrose. Além da evidência de aumento da excreção de cffDNA na circulação materna, também há evidências de depuração renal reduzida de cffDNA na pré-eclâmpsia. À medida que a quantidade de DNA fetal é atualmente determinada por quantificação de sequências específicas do cromossomo Y, abordagens alternativas, tais como a medição de DNA isento de células totais ou o uso de marcadores epigenéticos fetais independente do gênero, tal como metilação do DNA, oferecem uma alternativa. RNA isento de células de origem placentária é um outro biomarcador alternativo que pode ser usado para o rastreio e o diagnóstico de pré-eclâmpsia na prática clínica. RNA fetal está associada com partículas placentárias subcelulares que o protegem da degradação. Os níveis de RNA fetal, por vezes, são dez vezes maiores em mulheres grávidas com pré-eclâmpsia em comparação aos controles, e, portanto, é um biomarcador alternativo que pode ser usado para o rastreio e o diagnóstico de pré- eclâmpsia na prática clínica.
Patógenos
[463] Em algumas modalidades, a presença ou ausência de uma condição patogênica é determinada através de um método ou aparelho aqui descrito. Uma condição patogênica pode ser causada por uma infecção de um hospedeiro por um agente patogênico, incluindo, mas não se limitando a, uma bactéria, vírus ou fungo. Já que patógenos possuem tipicamente ácido nucleico (por exemplo, DNA genômico, RNA genômico, mRNA) que pode distinguir-se do ácido nucleico do hospedeiro, métodos, aparelhos e máquinas fornecidos aqui podem ser usados para determinar a presença ou ausência de um patógeno. Frequentemente, patógenos possuem ácido nucleico com características únicas de um patógeno em particular, tais como, por exemplo, estado epigenético e/ou uma ou mais variações na sequência, duplicações e/ou deleções. Desse modo, os métodos aqui fornecidos podem ser usados para identificar um patógeno particular ou variante de patógeno (por exemplo, cepa).
Cânceres
[464] Em algumas modalidades, a presença ou ausência de uma desordem de proliferação celular (por exemplo, um câncer) é determinada usando um método, máquina ou aparelho aqui descritos. Por exemplo, os níveis de ácido nucleico isento de células no soro podem ser elevados em pacientes com vários tipos de câncer em comparação com pacientes saudáveis. Os pacientes com doenças metastáticas, por exemplo, podem ter, por vezes, níveis séricos de DNA de aproximadamente duas vezes tão elevados quanto os não- metastáticos. Os pacientes com doenças metastáticas também podem ser identificados por meio de marcadores específicos de câncer e/ou certos polimorfismos de um único nucleotídeo ou repetições em tandem curtas, por exemplo. Exemplos não- limitativos de tipos de câncer que podem ser correlacionados positivamente com níveis elevados de DNA circulante incluem câncer de mama, câncer colorretal, câncer gastrointestinal, câncer hepatocelular, câncer de pulmão, melanoma, linfoma de não-Hodgkin, leucemia, mieloma múltiplo, câncer de bexiga, hepatoma, câncer do colo uterino, câncer de esôfago, câncer de pâncreas e câncer de próstata. Vários cânceres podem possuir, e, por vezes, podem liberar para a corrente sanguínea, ácidos nucleicos com as características que se distinguem entre si a partir de ácidos nucleicos de células saudáveis não cancerosas, tais como, por exemplo, estado epigenético e/ou variações, duplicações e/ou deleções de sequência. Tais características podem, por exemplo, ser específicas para um tipo particular de câncer. Desse modo, é ainda contemplado que o método aqui fornecido pode ser usado para identificar um tipo particular de câncer.
[465] O software pode ser usado para realizar uma ou mais etapas dos processos aqui descritos, incluindo mas não se limitando a; contar, processar dados, gerando um resultado, e/ou fornecendo uma ou mais recomendações com base em resultados gerados, como descrito em mais detalhe adiante.
Máquinas, Software e Interfaces
[466] Certos processos e métodos aqui descritos (por exemplo, quantificação, mapeamento, normalização, definição da faixa, ajuste, categorização, contagem e/ou determinação de sequências, contagens, os níveis (por exemplo, níveis) e/ou perfis) frequentemente não podem ser realizados sem um computador, microprocessador, software, módulo ou outra máquina. Métodos aqui descritos são tipicamente métodos implementados por computador, e uma ou mais porções de um método, por vezes, são realizadas por um ou mais processadores (por exemplo, os microprocessadores), computadores ou máquinas de microprocessador controlado. As modalidades relacionadas com os métodos descritos nesse documento são geralmente aplicáveis aos mesmos ou processos relacionados implementados por instruções em sistemas, máquinas, e produtos de programa de computador aqui descritos. As modalidades relacionadas com os métodos descritos nesse documento podem ser geralmente aplicáveis às mesmas ou processos relacionados implementados por um meio de armazenamento legível por computador não-transitório, com um programa executável nele armazenado, onde o programa instrui um microprocessador a executar o método, ou uma parte do mesmo. Em algumas modalidades, processos e métodos aqui descritos (por exemplo, quantificação, contagem e/ou determinação de sequências, contagens, níveis e/ou perfis) são realizados por métodos automatizados. Em algumas modalidades uma ou mais etapas e um método aqui descrito são realizados por um microprocessador e/ou computador, e/ou realizados em conjunto com a memória. Em algumas modalidades, um método automatizado é incorporado em software, módulos, microprocessadores, periféricos e/ou uma máquina que compreende semelhante, que determina sequências, contagens, mapeamento, marcadores de sequências mapeadas, níveis, perfis, normalizações, comparações, definição de faixa, categorização, ajustes, plotagem, resultados, transformações e identificações. Como utilizado aqui, software refere-se a instruções de programa legível por computador, que, quando executadas por um microprocessador, realizam operações de computador, como aqui descrito.
[467] Sequências, contagens, níveis e perfis obtidos a partir de um sujeito de teste (por exemplo, um paciente, uma mulher grávida) e/ou sujeito de referência podem ser ainda analisados e processados para determinar a presença ou ausência de uma variação genética. Sequências, contagens, níveis e perfis às vezes são referidos como "dados" ou "conjuntos de dados". Em algumas modalidades, os dados ou conjuntos de dados podem ser caracterizados por uma ou mais características ou variáveis (por exemplo, baseadas na sequência [por exemplo, teor de GC, sequência de nucleotídeo específica, o semelhante], função específica [por exemplo, genes expressos, genes do câncer, o semelhante], baseadas na localização [genoma específico, cromossomo específico, ou porção ou específicas da porção], o semelhante e suas combinações). Em certas modalidades, dados ou conjuntos de dados podem ser organizados em uma matriz que tem duas ou mais dimensões com base em uma ou mais características ou variáveis. Dados organizados em matrizes podem ser organizados usando quaisquer recursos ou variáveis adequadas. Um exemplo não-limitativo de dados em uma matriz que inclui dados é organizado por idade materna, ploidia materna e contribuição fetal. Em certas modalidades, os conjuntos de dados caracterizados por uma ou mais características ou variáveis por vezes são processadas após contagem.
[468] Máquinas, software e interfaces podem ser usados para realizar os métodos aqui descritos. Utilização de máquinas, software e interfaces, um usuário pode entrar, requisitar, consultar ou determinar opções para o uso de informações, programas ou processos particulares (por exemplo, mapeamento de sequências, processamento de dados mapeados e/ou fornecimento de um resultado), que podem envolver a execução de algoritmos estatísticos de análise, algoritmos de significância estatística, algoritmos estatísticos, etapas interativas, algoritmos de validação e representações gráficas, por exemplo. Em algumas modalidades, um conjunto de dados pode ser inserido por um usuário como informações de entrada, um usuário pode baixar um ou mais conjuntos de dados por um meio de hardware adequado (por exemplo, unidade flash), e/ou um usuário pode enviar um conjunto de dados de um sistema para outro para processamento subsequente e/ou fornecimento de um resultado (por exemplo, enviar dados legíveis de sequência de um sequenciador para um sistema de computador para mapeamento da sequência, enviar dados de sequências mapeadas para um sistema de computador para o processamento e fornecimento de um resultado e/ou relatório).
[469] Um sistema compreende, tipicamente, uma ou mais máquinas. Cada máquina compreende um ou mais de memória, um ou mais microprocessadores, e instruções. No caso de um sistema inclui duas ou mais máquinas, algumas ou todas as máquinas podem estar localizadas no mesmo local, algumas ou todas as máquinas podem estar localizadas em diferentes locais, todas as máquinas podem estar localizadas em uma local e/ou todas as máquinas podem estar localizadas em locais diferentes. Onde um sistema inclui duas ou mais máquinas, algumas ou todas as máquinas podem estar localizadas no mesmo local como um usuário, algumas ou todas as máquinas podem estar localizadas em um local diferente do que um usuário, todas as máquinas podem estar localizadas no mesmo local que o usuário, e/ou a totalidade da máquina pode estar localizada em uma ou em mais localizações diferentes do que o usuário.
[470] Um sistema compreende, por vezes, uma máquina de computação e um aparelho ou máquina de sequenciamento, em que o aparelho ou máquina de sequenciamento é configurado para receber o ácido nucleico físico e gerar sequências, e o aparelho de computação é configurado para processar as sequências do aparelho ou máquina de sequenciamento. A máquina de computação, por vezes, é configurada para determinar a presença ou ausência de uma variação genética (por exemplo, variação do número de cópia; aneuploidia do cromossomo fetal) das sequências.
[471] Um usuário pode, por exemplo, consultar um software que, em seguida, pode adquirir um conjunto de dados via acesso à internet, e em certas modalidades, um microprocessador programável pode ser solicitado para adquirir um conjunto de dados adequado com base em parâmetros fornecidos. Um microprocessador programável também pode solicitar um usuário a selecionar uma ou mais opções de dados selecionados pelo microprocessador com base em parâmetros dados. Um microprocessador programável pode solicitar um usuário a selecionar uma ou mais opções de dados selecionados pelo microprocessador com base em informações encontradas através da internet, outra informação interna ou externa, ou o semelhante. As opções podem ser escolhidas selecionando uma ou mais seleções de característica de dados, um ou mais algoritmos estatísticos, um ou mais algoritmos de análise estatística, um ou mais algoritmos de significância estatística, etapas interativas, um ou mais algoritmos de validação, e uma ou mais representações gráficas de métodos, máquinas, aparelhos, programas de computador ou um meio de armazenamento legível por computador não-transitório com um programa executável armazenado nele.
[472] Sistemas abordados aqui podem incluir componentes gerais de sistemas de computador, tais como, por exemplo, servidores de rede, sistemas de laptop, sistemas de desktop, sistemas portáteis, assistentes pessoais digitais, quiosques de computação e semelhante. Um sistema de computador pode compreender um ou mais meios de entrada, como um teclado, tela sensível ao toque, mouse, reconhecimento de voz ou outros meios para permitir que o usuário insira dados no sistema. Um sistema pode compreender ainda uma ou mais saídas, incluindo, mas não limitado a, uma tela de visualização (por exemplo, CRT ou LCD), alto-falante, máquina de fax, impressora (por exemplo, impressora a laser, jato de tinta, impacto, preto e branco ou a cores), ou outra saída útil para fornecer saída de informação visual, auditiva e/ou sob forma impressa (por exemplo, resultado e/ou relatório).
[473] Em um sistema, meios de entrada e saída podem ser ligados a uma unidade de processamento central, que pode compreender entre outros componentes, um microprocessador para executar instruções de programa e memória para armazenar o código de programa e dados. Em algumas modalidades, os processos podem ser implementados como um sistema de um usuário localizado em um sítio geográfico. Em certas modalidades, os processos podem ser implementados como um sistema de multiusuários. No caso da implementação de um multiusuários, várias unidades de processamento central podem ser conectadas por meio de uma rede. A rede pode ser local, abrangendo um único departamento em uma porção de um edifício, um prédio inteiro, abranger vários edifícios, abranger uma região, abranger todo um país ou ser mundial. A rede pode ser privada, sendo possuída e controlada por um fornecedor, ou ela pode ser implementada como um serviço baseado na internet onde o usuário acessa uma página da web para entrar e recuperar informações. Desse modo, em certas modalidades, um sistema inclui uma ou mais máquinas, que podem ser locais ou remotas em relação a um usuário. Mais do que uma máquina em um local ou vários locais podem ser acessadas por um usuário, e os dados podem ser mapeados e/ou processados em série e/ou em paralelo. Desse modo, uma configuração e controle adequados podem ser usados para o mapeamento e/ou processamento de dados usando várias máquinas, tal como na rede local, rede remota e/ou plataformas de computação em "nuvem".
[474] Um sistema pode incluir uma interface de comunicações em algumas modalidades. Uma interface de comunicação permite a transferência de software e dados entre um sistema de computador e um ou mais dispositivos externos. Exemplos não-limitativas de interfaces de comunicações incluem um modem, uma interface de rede (tal como um cartão Ethernet), uma porta de comunicação, um cartão PCMCIA, e semelhante. Software e dados transferidos através de uma interface de comunicações estão geralmente sob a forma de sinais, que podem ser eletrônicos, eletromagnéticos, óticos e/ou outros sinais que podem ser recebidos por uma interface de comunicações. Sinais frequentemente são fornecidos a uma interface de comunicações através de um canal. Um canal de frequência transporta sinais e pode ser implementado usando o fio ou cabo, fibra ótica, uma linha telefônica, um link de telefone celular, um link de RF e/ou outros canais de comunicação. Desse modo, em um exemplo, uma interface de comunicações pode ser usada para receber a informação do sinal que pode ser detectada por um módulo de detecção de sinal.
[475] Os dados podem ser introduzidos por um dispositivo e/ou método adequado, incluindo, mas não limitado a, dispositivos de entrada manuais ou dispositivos de entrada de dados diretos (DDEs). Exemplos não-limitativos de dispositivos manuais incluem teclados, teclados conceito, telas de toque sensível, canetas de luz, mouse, tracker balls, joysticks, tablets gráficos, scanners, câmeras digitais, digitalizadores de vídeo e dispositivos de reconhecimento de voz. Exemplos não-limitativos de DDes incluem leitores de código de barra, códigos com tira magnética, smart cards, reconhecimento de caracteres de tinta magnética, reconhecimento de caráter ótico, reconhecimento de marca ótica e documentos de reviravolta.
[476] Em algumas modalidades, a saída de um aparelho de sequenciamento ou máquina pode servir como dados que podem ser introduzidos através de um dispositivo de entrada. Em certas modalidades, as sequências mapeadas poderão servir como dados que podem ser introduzidos através de um dispositivo de entrada. Em certas modalidades, o tamanho do fragmento de ácido nucleico (por exemplo, comprimento) pode servir como dados que podem ser introduzidos através de um dispositivo de entrada. Em certas modalidades, a saída de um processo de captura de ácido nucleico (por exemplo, dados de origem da região genômica) pode servir como dados que podem ser introduzidos através de um dispositivo de entrada. Em certas modalidades, uma combinação do tamanho do fragmento de ácido nucleico (por exemplo, comprimento) e saída de um processo de captura de ácido nucleico (por exemplo, dados de origem da região genômica) podem servir como dados que podem ser introduzidos através de um dispositivo de entrada. Em certas modalidades, os dados simulados são gerados por um processo em silico e os dados simulados servem como dados que podem ser introduzidos através de um dispositivo de entrada. O termo "em silico" refere-se à pesquisa e experimentos realizados usando um computador. Processos em silico incluem, mas não estão limitados a, mapeamento de sequências e processamento de sequências mapeadas de acordo com os processos aqui descritos.
[477] Um sistema pode incluir software útil para a realização de um processo aqui descrito, e software pode incluir um ou mais módulos para a realização de tais processos (por exemplo, módulo de sequenciamento, módulo de processamento lógico, módulo de organização de exibição de dados). O termo "software" refere-se a instruções de programa legível por computador que, quando executadas por um computador, executam operações de computador. Instruções executáveis por um ou mais microprocessadores, por vezes, são fornecidas como código executável que, quando executado, pode fazer com que um ou mais microprocessadores implementem um método aqui descrito. Um módulo aqui descrito pode existir como software, e instruções (por exemplo, processos, rotinas, sub-rotinas) incorporadas no software podem ser implementadas ou executadas por um microprocessador. Por exemplo, um módulo (por exemplo, um módulo de software) pode ser uma parte de um programa que executa um processo ou tarefa particular. O termo "módulo" refere-se a uma unidade funcional de autocontida que pode ser usada em um sistema de software ou máquina maior. Um módulo pode compreender um conjunto de instruções para a realização de uma função do módulo. Um módulo pode transformar os dados e/ou informações. Os dados e/ou informações podem estar em uma forma adequada. Por exemplo, os dados e/ou informações podem ser digitais ou analógicas. Em certas modalidades, dados e/ou informações, por vezes, podem ser, pacotes, bytes, caracteres ou bits. Em algumas modalidades, dados e/ou informações podem ser quaisquer dados ou informações reunidas, juntadas ou usáveis. Exemplos não-limitativos de dados e/ou informações incluem um meio adequado, imagens, vídeo, som (por exemplo, frequências, audíveis ou não audíveis), números, constantes, um valor, objetos, tempo, funções, instruções, mapas, referências, sequências, sequências mapeadas, níveis, faixas, limites, sinais, exposições, representações ou transformações dos mesmos. Um módulo pode aceitar ou receber dados e/ou informações, transformar os dados e/ou informações em uma segunda forma, e fornecer ou transferir a segunda forma para uma máquina, periférico, componente ou outro módulo. Um módulo pode executar uma ou mais das seguintes funções não-limitantes: mapeamento de sequências, fornecendo de contagens, reunião de porções, fornecimento ou determinação de um nível, fornecimento de um perfil de contagem, normalização (por exemplo, normalização de sequências, normalização de contagens, e semelhante), fornecimento de um perfil de contagem ou níveis de contagens normalizadas, comparação de dois ou mais níveis, fornecimento de valores de incerteza, fornecimento ou determinação dos níveis esperados e faixas esperadas (por exemplo, faixas de nível esperado, faixas de limite e os níveis de limite), fornecimento de ajustes de níveis (por exemplo, ajuste de um primeiro nível, ajuste de um segundo nível, ajuste de um perfil de um cromossomo ou seu segmento, e/ou preenchimento), fornecimento de identificação (por exemplo, identificação de uma variação do número de cópias, variação genética ou aneuploidia), categorização, plotagem, e/ou determinação de um resultado, por exemplo. Um microprocessador pode, em certas modalidades, ser realizado as instruções em um módulo. Em algumas modalidades, um ou mais microprocessadores são obrigados a cumprir as instruções em um módulo ou grupo de módulos. Um módulo pode fornecer dados e/ou informações para outro módulo, máquina ou fonte e pode receber dados e/ou informações de outro módulo, máquina ou fonte.
[478] Um produto de programa de computador, por vezes, é incorporado em um meio legível por computador tangível, e, por vezes, é tangível incorporado em um meio legível por computador não-transitório. Um módulo, por vezes, é armazenado em um meio legível por computador (por exemplo, disco, rígido) ou na memória (por exemplo, memória de acesso aleatório). Um módulo e microprocessador capazes de executar as instruções de um módulo podem ser localizados em uma máquina ou de outra máquina. Um módulo e/ou o microprocessador que é capaz de implementar uma instrução para um módulo pode estar localizado no mesmo local que um usuário (por exemplo, rede local) ou em um local diferente de um usuário (por exemplo, rede remota, sistema de nuvem). Em modalidades em que um método é realizado em conjunto com dois ou mais módulos, os módulos podem estar localizados na mesma máquina, um ou mais módulos podem estar localizados em máquina diferente no mesmo local físico, e um ou mais módulos podem estar localizados em diferentes máquinas em locais físicos diferentes.
[479] Uma máquina, em algumas modalidades, compreende pelo menos um microprocessador para cumprir as instruções de um módulo. Contagens de sequências mapeadas para porções de um genoma de referência, por vezes, são acessadas por um microprocessador que executa instruções configuradas para realizar um método aqui descrito. As contagens que são acessadas por um microprocessador podem estar dentro de uma memória de sistema, e as contagens podem ser acessadas e colocadas na memória do sistema depois de terem sido obtidas. Em algumas modalidades, uma máquina inclui um microprocessador (por exemplo, um ou mais microprocessadores) em que o microprocessador pode executar e/ou implementar uma ou mais instruções (por exemplo, processos, rotinas e/ou sub-rotinas) de um módulo. Em algumas modalidades, uma máquina inclui vários microprocessadores, tais como microprocessadores coordenados e trabalhando em paralelo. Em algumas modalidades, uma máquina opera com um ou mais microprocessadores externos (por exemplo, uma rede interna ou externa, servidor, sistema de armazenagem e/ou rede de armazenamento (por exemplo, uma nuvem)). Em algumas modalidades, uma máquina compreende um módulo. Em certas modalidades uma máquina compreende um ou mais módulos. Uma máquina que compreende um módulo de frequência pode receber e transferir um ou mais dos dados e/ou informações para e de outros módulos. Em certas modalidades, uma máquina compreende periféricos e/ou componentes. Em certas modalidades de uma máquina pode compreender um ou mais periféricos ou componentes que podem transferir dados e/ou informações para e de outros módulos, periféricos e/ou componentes. Em certas modalidades uma máquina interage com um periférico e/ou componente que fornece os dados e/ou informações. Em certas modalidades periféricos e componentes ajudam uma máquina na execução de uma função ou interagem diretamente com um módulo. Exemplos não-limitativos de periféricos e/ou componentes incluem um periférico de computador adequado, I/O ou método ou dispositivo de armazenamento, incluindo, mas não limitado a scanners, impressoras, monitores (por exemplo, monitores, LED, LCT ou CRTs), câmeras, microfones, pads (por exemplo, ipads, tablets), telas sensíveis ao toque, telefones inteligentes, telefones celulares, dispositivos I/O USB, dispositivos de armazenamento em massa USB, teclados, um mouse de computador, canetas digitais, modems, discos rígidos, jump unidades, flash unidades, um microprocessador, um servidor, COS, DVDs, placas gráficas, dispositivos I/O especializados (por exemplo, sequenciadores, fotocélulas, tubos multiplicadores de foto, leitores óticos, sensores, etc.), uma ou mais células de fluxo, componentes de manipulação de fluido, controladores de interface de rede, ROM, RAM, métodos e dispositivos de transferência sem fio (Bluetooth, Wi-Fi, e semelhante,), a world wide web (www), a internet, um computador e/ou outro módulo.
[480] Software frequentemente é fornecido em um produto de programa contendo instruções do programa gravado em um meio legível por computador, incluindo, mas não limitado a, meios magnéticos, incluindo disquetes, discos rígidos, e fita magnética; e mídia ótica incluindo discos CD-ROM, discos DVD, discos magneto-óticos, flash unidades, RAM, discos flexíveis, semelhante, e outros tais meios em que as instruções do programa podem ser gravadas. Em aplicação on-line, um servidor e web site mantidos por uma organização podem ser configurados para fornecer downloads de software para usuários remotos, ou os usuários remotos podem acessar um sistema remoto mantido por uma organização para acessar remotamente o software. Software pode obter ou receber informações de entrada. Software pode incluir um módulo que especificamente obtém ou recebe dados (por exemplo, um módulo de recepção de dados que recebe dados legíveis de sequência e/ou dados legíveis mapeados) e pode incluir um módulo que processa especificamente os dados (por exemplo, um módulo de processamento que processa os dados recebidos (por exemplo, filtra, normaliza, fornece um resultado e/ou relatório). Os termos "obtenção" e "recebimento" de informações de entrada refere-se ao recebimento de dados (por exemplo, sequências, sequências mapeadas) pela comunicação do computador significa de um local ou sítio remoto, a entrada de dados humanos, ou qualquer outro método de recebimento de dados. A informação de entrada pode ser gerada no mesmo local em que é recebida, ou pode ser gerada em um local diferente e transmitida para o local de recebimento. Em algumas modalidades, a informação de entrada é modificada antes de ser processada (por exemplo, colocada em um formato passível de processamento (por exemplo, tabulada)). Em algumas modalidades, são fornecidos produtos de programa de computador, tais como, por exemplo, um produto de programa de computador que compreende um meio utilizável por computador tendo um código de programa legível por computador nele incorporado, o código de programa de legível por computador adaptado para ser executado para implementar um método compreendendo: (a) obtenção de sequências de amostra de ácido nucleico amostra de um sujeito teste; (b) mapeamento das sequências obtidas em (a) para um genoma conhecido, cujo genoma conhecido foi dividido em porções; (c) contagem das sequências mapeadas dentro das porções; (d) geração de um perfil de contagem normalizada de amostra através da normalização das contagens para as porções obtidas em (c); e (e) determinação da presença ou ausência de uma variação genética do perfil de contagem normalizada da em (d).
[481] O software pode incluir um ou mais algoritmos em certas modalidades. Um algoritmo pode ser usado para o processamento de dados e/ou fornecimento de um resultado ou relatório de acordo com uma sequência finita de instruções. Um algoritmo frequentemente é uma lista de instruções definidas para completar uma tarefa. A partir de um estado inicial, as instruções podem descrever um cálculo que prossegue através de uma série definida de estados sucessivos, eventualmente, que termina em um estado final definitivo. A transição de um estado para o outro não é necessariamente determinista (por exemplo, alguns algoritmos incorporam a aleatoriedade). Por meio de exemplo, e sem limitação, um algoritmo pode ser um algoritmo de busca, algoritmo de ordenação, algoritmo de ordenação, algoritmo numérico, algoritmo gráfico, algoritmo em string, algoritmo de modelagem, algoritmo geométrico computacional, algoritmo combinatório, algoritmo de aprendizado de máquina, algoritmo de criptografia, algoritmo de compressão de dados, algoritmo de parser e semelhante. Um algoritmo pode incluir um algoritmo ou dois ou mais algoritmos que trabalham em combinação. Um algoritmo pode ser de qualquer adequada de complexidade adequada e/ou complexidade parametrizada. Um algoritmo pode ser usado para o cálculo e/ou processamento de dados, e em algumas modalidades, pode ser usado em uma abordagem determinista ou probabilística/preditiva. Um algoritmo pode ser implementado em um ambiente de computação por utilização de uma linguagem de programação adequada, exemplos não-limitativos dos quais são C, C++, Java, Peri, Python, Fortran e semelhante. Em algumas modalidades, um algoritmo pode ser configurado ou modificado para incluir margem de erro, a análise estatística, a significância estatística, e/ou comparação a outras informações ou conjuntos de dados (por exemplo, aplicáveis quando se utiliza um algoritmo de rede neuronal ou de clustering).
[482] Em certas modalidades, vários algoritmos podem ser implementados para uso em software. Estes algoritmos podem ser formados com os dados brutos em algumas modalidades. Para cada nova amostra de dados brutos, os algoritmos treinados podem produzir um conjunto representativo de dados ou resultados processados. Um conjunto de dados processados, por vezes, é de complexidade reduzida em comparação com o conjunto de dados parente que foi processado. Com base em um conjunto processado, o desempenho de um algoritmo treinado pode ser avaliado com base na sensibilidade e especificidade, em algumas modalidades. Um algoritmo com a maior sensibilidade e/ou especificidade pode ser identificado e utilizado, em certas modalidades.
[483] Em certas modalidades, dados simulados (simulação) podem auxiliar processamento de dados, por exemplo, treinando um algoritmo ou testando um algoritmo. Em algumas modalidades, os dados simulados incluem várias amostragens hipotéticas de diferentes grupamentos de sequências. Dados simulados podem ser com base no que poderia ser esperado de uma população real ou podem ser enviesada para testar um algoritmo e/ou para atribuir uma classificação correta. Dados simulados é também referido aqui como dados "virtuais". As simulações podem ser realizadas por um programa de computador, em certas modalidades. Uma etapa possível para usar um conjunto de dados simulado é avaliar a confiança de resultados identificados, por exemplo, o quanto uma amostragem aleatória corresponde ou melhor representa os dados originais. Uma abordagem é calcular um valor de probabilidade (valor de p), que estima a probabilidade de uma amostra aleatória tendo melhor pontuação do que as amostras selecionadas. Em algumas modalidades, um modelo empírico pode ser avaliado, em que se assume que pelo menos uma amostra corresponde a uma amostra de referência (com ou sem variações resolvidas). Em algumas modalidades, outra distribuição, tal como uma distribuição de Poisson, por exemplo, pode ser usada para definir a distribuição de probabilidade.
[484] Um sistema pode incluir um ou mais microprocessadores em certas modalidades. Um microprocessador pode ser conectado a um barramento de comunicação. Um sistema de computador pode incluir uma memória principal, frequentemente, a memória de acesso aleatório (RAM), e também pode incluir uma memória secundária. Memória em algumas modalidades compreende um meio de armazenamento legível por computador não- transitório. Memória secundária pode incluir, por exemplo, uma unidade do disco rígido e/ou uma unidade de armazenamento removível, representação de uma unidade de disquete, unidade de fita magnética, uma unidade de disco ótico, cartão de memória e semelhante. Uma unidade de armazenamento removível frequentemente lê e/ou grava em uma unidade de armazenamento removível. Exemplos não-limitativos de unidades de armazenamento removíveis inclui um disquete, uma fita magnética, um disco ótico, e semelhante, que podem ser lidas por e gravadas por, por exemplo, uma unidade de armazenamento removível. Uma unidade de armazenamento removível pode incluir um meio de armazenamento utilizável por computador tendo armazenado nele software e/ou dados de computador.
[485] Um microprocessador pode executar software em um sistema. Em algumas modalidades, um microprocessador pode ser programado para executar automaticamente uma tarefa aqui descrita em que um usuário pode executar. Por conseguinte, um microprocessador, ou algoritmo conduzido por tal um microprocessador, pode exigir pouca ou nenhuma supervisão ou entrada de um usuário (por exemplo, o software pode ser programado para executar uma função automaticamente). Em algumas modalidades, a complexidade de um processo é tão grande que uma única pessoa ou grupo de pessoas não pode realizar o processo em um período de tempo curto o suficiente para a determinação da presença ou ausência de uma variação genética.
[486] Em algumas modalidades, a memória secundária pode incluir outros meios semelhantes para permitir que os programas de computador ou outras instruções possam ser carregados em um sistema de computador. Por exemplo, um sistema pode incluir uma unidade de armazenamento removível e um dispositivo de interface. Exemplos não-limitativos de tais sistemas incluem um cartucho de programa e interface de cartucho (tal como aquele encontrado em dispositivos de vídeo game), um chip de memória removível (tal como EPROM ou PROM) e soquete associado, e de outras unidades de armazenamento removíveis e interfaces que permitem que o software e os dados sejam transferidos da unidade de armazenamento removível para um sistema de computador.
[487] Uma entidade pode gerar contagens de sequências, mapear as sequências em porções, contar as sequências mapeadas, e utilizar as sequências mapeadas contadas em um método, sistema, máquina, aparelho ou o produto de programa de computador aqui descrito, em algumas modalidades. Contagens de sequências mapeadas em porções, por vezes, são transferidas por uma entidade para uma segunda entidade para o uso pela segunda entidade de um método, sistema, aparelho ou um produto de programa de computador descrito aqui, em certas modalidades.
[488] Em algumas modalidades, uma entidade gera sequências e uma segunda entidade mapeia aquelas sequências em porções em um genoma de referência em algumas modalidades. A segunda entidade, por vezes, conta as sequências mapeadas e utiliza as sequências mapeadas contadas mapeadas em um método, sistema, máquina ou produto de programa de computador aqui descrito. Em certas modalidades a segunda entidade transfere as sequências mapeadas em uma terceira entidade, e a terceira entidade conta as sequências mapeadas e utiliza as sequências mapeadas em um método, sistema, equipamento ou produto de programa de computador aqui descritas. Em certas modalidades a segunda entidade conta as sequências mapeadas e transfere as sequências mapeadas contadas para uma terceira entidade, e a terceira entidade utiliza as sequências mapeadas contadas em um método, sistema, equipamento ou produto de programa de computador aqui descrito. Em modalidades envolvendo uma terceira entidade, a terceira entidade, por vezes, é a mesma que a primeira entidade. Isto é, a primeira entidade, por vezes, transfere sequências para uma segunda entidade, em que a segunda entidade pode mapear as sequências em porções em um genoma de referência e/ou contar sequências mapeadas, e a segunda entidade pode transferir as sequências mapeadas e/ou contadas para uma terceira entidade. Uma terceira entidade, por vezes, pode utilizar as sequências mapeadas e/ou contadas em um método, sistema, equipamento ou produto de programa de computador aqui descrito, em que a terceira entidade, por vezes, é a mesma que a primeira entidade, e, por vezes, a terceira entidade é diferente da primeira ou segunda entidade.
[489] Em algumas modalidades, uma entidade obtém o sangue de uma mulher grávida, opcionalmente isola ácido nucleico do sangue (por exemplo, a partir do plasma ou soro), e transfere o sangue ou ácido nucleico para uma segunda entidade que gera sequências do ácido nucleico.
[490] Figura 24 ilustra um exemplo não-limitativo de um ambiente de computação 510 no qual vários sistemas, métodos, algoritmos e estruturas de dados aqui descritos podem ser implementados. O ambiente de computação 510 é apenas um exemplo de um ambiente de computação adequado e não se destina a sugerir qualquer limitação quanto ao escopo de utilização ou funcionalidade dos sistemas, métodos e estruturas de dados aqui descritos. Nem ambiente de computação 510 deve ser interpretado como tendo qualquer dependência ou exigência relativa a qualquer um ou a combinação dos componentes ilustrados em ambiente de computação 510. Um subconjunto de sistemas, métodos e estruturas de dados mostrado na figura 24 pode ser utilizado em certas modalidades. Sistemas, métodos e estruturas de dados aqui descritos são operacionais com numerosos outros ambientes ou configurações de sistema de computação de propósito especial ou propósito geral. Exemplos de ambientes ou configurações de sistemas computacionais conhecidos, que podem ser adequados incluem, mas não estão limitados a computadores pessoais, computadores servidores, clientes finos, clientes grossos, dispositivos manuais ou de laptop, sistemas de multiprocessador, sistemas baseados em microprocessadores, set top boxes, aparelhos eletrônicos programáveis, PCs em rede, minicomputadores, computadores mainframe, ambientes de computação distribuídos que incluem qualquer dos sistemas ou dispositivos acima, e semelhante.
[491] O ambiente operacional 510 da figura 24 inclui um dispositivo de computação de uso geral sob a forma de um computador 520, que inclui uma unidade de processamento 521, uma memória de sistema 522, e um barramento de sistema 523 operacionalmente acopla vários componentes do sistema incluindo a memória do sistema 522 à unidade de processamento 521. Pode haver somente uma ou pode haver mais do que uma unidade de processamento 521, de tal modo que o microprocessador de computador 520 inclui uma unidade de processamento central (CPU), ou uma pluralidade de unidades de processamento, normalmente referidas como um ambiente de processamento paralelo. O computador 520 pode ser um computador convencional, um computador distribuído, ou qualquer outro tipo de computador.
[492] O barramento do sistema 523 pode ser qualquer um de vários tipos de estruturas de barramento incluindo um barramento de memória ou um barramento de memória, um barramento periférico, e um barramento local usando qualquer uma de uma variedade de arquiteturas de barramento. A memória do sistema pode também ser referida como simplesmente a memória, e inclui memória só legível(ROM) 524 e memória de acesso aleatório (RAM). Um sistema básico de entrada/saída (BIOS) 526, contendo as rotinas básicas que ajudam a transferência de informação entre elementos dentro do computador 520, tal como durante a inicialização, é armazenado no ROM 524. O computador 520 pode ainda incluir uma interface da unidade de disco rígido 527 para leitura e gravação em um disco rígido, não mostrado, uma unidade de disco magnético 528 para leitura ou gravação em um disco magnético removível 529, e uma unidade de disco ótico 530 para ler ou gravar em um disco ótico removível 531, tal como um CD ROM ou outro meio ótico.
[493] A unidade de disco rígido 527, unidade de disco magnético 528, e unidade de disco ótico 530 estão conectados ao barramento do sistema 523 por uma interface da unidade de disco rígido 532, uma interface da unidade de disco magnético 533, e uma interface da unidade de disco ótico 534, respectivamente. As unidades e os seus meios legíveis por computador associados fornecem armazenamento não volátil de instruções legíveis por computador, estruturas de dados, módulos de programa e outros dados para o computador 520. Qualquer tipo de meios legíveis por computador que pode armazenar dados que podem ser acessados por um computador, como os cassetes magnéticos, cartões de memória flash, discos de vídeo digital, cartuchos Bernoulli, memórias de acesso aleatório (RAM), memórias somente legível(ROMs), e semelhante, podem ser usados no ambiente operacional.
[494] Um número de módulos de programa pode ser armazenado no disco rígido, disco magnético 529, disco ótico 531, ROM 524, ou RAM, incluindo um sistema operacional 535, um ou mais programas de aplicação 536, outros módulos de programa 537, e dados do programa 538. Um usuário pode introduzir comandos e informações para o computador pessoal 520 através de dispositivos de entrada, como um teclado 540 e um dispositivo apontador 542. Outros dispositivos de entrada (não mostrados) podem incluir um microfone, joystick, game pad, antena parabólica, scanner ou o semelhante. Estes e outros dispositivos de entrada são frequentemente conectados à unidade de processamento 521 através de uma interface de porta de série 546 que é acoplada ao barramento de sistema, mas podem ser conectados por outras interfaces, tais como uma porta paralela, porta de jogos ou um barramento serial universal (USB). Um monitor 547 ou outro tipo de dispositivo de visualização está também ligado ao barramento do sistema de 523 via uma interface, tal como um adaptador de vídeo 548. Em adição ao monitor, os computadores tipicamente incluem outros dispositivos de saída periféricos (não mostrados), tais como alto-falantes e impressoras.
[495] O computador 520 pode operar em um ambiente de rede usando conexões lógicas para um ou mais computadores remotos, tal como computador remoto 549. Estas conexões lógicas podem ser obtidas por um dispositivo de comunicação acoplado a ou uma parte do computador 520, ou em outras maneiras. O computador remoto 549 pode ser um outro computador, um servidor, um roteador, um PC de rede, um cliente, um dispositivo par ou outro nó de rede comum, e tipicamente inclui muitos ou todos os elementos descritos acima em relação ao computador 520, embora apenas um dispositivo de armazenamento de memória 550 tenha sido ilustrado na figura 24. As conexões lógicas apresentadas na figura 24 incluem uma rede de área local (LAN) 551 e uma rede de área ampla (WAN) 552. Tais ambientes de rede são comuns em redes de escritório, redes de computadores em toda a empresa, intranets e Internet, que são todos os tipos de redes.
[496] Quando usado em um ambiente de rede LAN, o computador 520 é conectado à rede local 551 através de uma interface de rede ou adaptador 553, que é um tipo de dispositivo de comunicações. Quando usado em um ambiente de rede WAN, o computador 520 inclui frequentemente um modem 554, um tipo de dispositivo de comunicações, ou qualquer outro tipo de dispositivo de comunicação para estabelecer a comunicação através da rede de área ampla 552. O modem 554, que pode ser interno ou externo, é conectado ao barramento do sistema 523 através da interface de porta serial 546. Em um ambiente de rede, os módulos do programa apresentado em relação ao computador pessoal 520, ou porções destes, podem ser armazenados no dispositivo de armazenamento de memória remoto. É observado que as conexões de rede mostradas são exemplos não-limitativos e outros dispositivos de comunicações para estabelecer uma ligação de comunicações entre os computadores poderão ser utilizados.
Módulos
[497] Um ou mais módulos podem ser usados em um método aqui descrito, exemplos não-limitativos dos quais incluem um módulo de processamento lógico, módulo de organização de exibição de dados, módulo de sequenciamento, módulo de mapeamento, módulo de contagem, módulo de filtragem, módulo de ponderação, módulo de normalização, módulo da tendência de GC, módulo de nível, módulo de comparação, módulo de ajuste da faixa, módulo de categorização, módulo de ajuste, módulo de plotagem, módulo de representação, módulo de relacionamento, módulo de resultado e/ou módulo de organização de exibição de dados, o semelhante ou uma combinação destes. Os módulos são, por vezes, controlados por um microprocessador. Em certas modalidades um módulo ou uma máquina que compreende um ou mais módulos, coletam, reúnem, recebem, obtém, acessam, recuperam, fornecem e/ou transferem dados e/ou informações para ou de outro módulo, máquina, componente, periférico ou operador de uma máquina. Em algumas modalidades, dados e/ou informações (por exemplo, sequências de sequenciamento) são fornecidos a um módulo de uma máquina que compreende um ou mais dos seguintes: uma ou mais células de fluxo, uma câmara, um detector (por exemplo, um fotodetector, uma fotocélula, um detector elétrico (por exemplo, uma detector de modulação em amplitude, um detector de modulação de fase e frequência, um detector de circuito fechado de bloqueio de fase), um contador, um sensor (por exemplo, um sensor de pressão, temperatura, volume, fluxo, peso), um dispositivo de manuseio de fluido, uma impressora, um monitor (por exemplo, um LED, LCT ou CRT), o semelhante ou combinações dos mesmos. Por exemplo, por vezes, um operador de uma máquina fornece uma constante, um valor limite, uma fórmula ou um valor pré-determinado para um módulo. Um módulo é frequentemente configurado para transferir dados e/ou informações para ou de outro módulo ou máquina. Um módulo pode receber dados e/ou informações de outro módulo, exemplos não-limitativos dos quais incluem um módulo de processamento lógico, módulo de sequenciamento, módulo de mapeamento, módulo de contagem, módulo de filtragem, módulo de ponderação, módulo de normalização, módulo da tendência de CG, módulo de nível, módulo de comparação, módulo de ajuste da faixa, módulo de categorização, módulo de plotagem, módulo de representação, módulo de relacionamento, módulo de resultado e/ou módulo de organização de exibição de dados, o semelhante ou combinação destes. Um módulo pode manipular e/ou transformar os dados e/ou informações. Os dados e/ou informações derivados de ou transformados por um módulo podem ser transferidos para uma outra máquina e/ou módulo adequado, exemplos não-limitativos dos quais incluem um módulo de processamento lógico, módulo de sequenciamento, módulo de mapeamento, módulo de contagem, módulo de filtragem, módulo de ponderação, módulo de normalização, módulo da tendência de CG, módulo de nível, módulo de comparação, módulo de ajuste da faixa, módulo de categorização, módulo de plotagem, módulo de representação, módulo de relacionamento, módulo de resultado e/ou módulo de organização de exibição de dados, o semelhante ou uma combinação destes. Uma máquina que compreende um módulo pode compreender pelo menos um microprocessador. Em algumas modalidades, dados e/ou informações são recebidos por e/ou fornecidos por uma máquina que compreende um módulo. Uma máquina que compreende um módulo pode incluir um microprocessador (por exemplo, um ou mais microprocessadores) cujo microprocessador pode executar e/ou implementar uma ou mais instruções (por exemplo, processos, rotinas e/ou sub-rotinas) de um módulo. Em algumas modalidades, um módulo opera com um ou mais microprocessadores externos (por exemplo, uma rede interna ou externa, servidor, sistema de armazenagem e/ou rede de armazenamento (por exemplo, uma nuvem)).
Módulo de processamento lógico
[498] Em certas modalidades um módulo de processamento lógico orquestra, controla, limita, organiza, ordena, distribui, divide, transforma e/ou regula dados e/ou informações ou a transferência de dados e/ou informações para e de um ou mais outros módulos, periféricos ou dispositivos.
Módulo de organização de exibição de dados
[499] Em certas modalidades um módulo de organização de exibição de dados processa e/ou transforma dados e/ou informações em um meio visual adequado e exemplos não- limitativos dos quais incluem imagens, vídeo e/ou texto (por exemplo, números, letras e símbolos). Em algumas modalidades um módulo de organização de exibição de dados processos, transforma e/ou transfere dados e/ou informações para apresentação em um monitor adequado (por exemplo, um monitor, LED, LCD, CRT, o semelhante ou combinações destes), uma impressora, um periférico ou dispositivo adequado. Em algumas modalidades um módulo de organização de exibição de dados processos, transforma e/ou transfere dados e/ou informações em uma representação visual de um genoma fetal ou materno, cromossomo ou parte dele.
Módulo de sequenciamento
[500] Em algumas modalidades, um módulo de sequência obtém, gera, une, reúne, manipula, transforma, processa, transforma e/ou transfere sequências. Um "módulo de recebimento de sequência", como aqui usado, é o mesmo que um "módulo de sequenciamento". Uma máquina que compreende um módulo de sequenciamento pode ser qualquer máquina que determina a sequência de um ácido nucleico usando uma tecnologia de sequenciamento conhecida na técnica. Em algumas modalidades um módulo de sequenciamento pode alinhar, reunir, fragmentar, complementar, complementar de forma reversa, verificar o erro, ou corrigir as sequências.
Módulo de mapeamento
[501] Sequências podem ser mapeadas por um módulo de mapeamento ou por uma máquina que compreende um módulo de mapeamento, cujo módulo de mapeamento mapeia geralmente sequências para um genoma de referência ou seu segmento. Um módulo de mapeamento pode mapear sequências sequenciadaspor um método adequado conhecido na técnica. Em algumas modalidades, um módulo de mapeamento ou uma máquina que compreende um módulo de mapeamento é necessário para fornecer sequências mapeadas.
Módulo de contagem
[502] Contagens podem ser fornecidas por um módulo de contagem ou por uma máquina que compreende um módulo de contagem. Em algumas modalidades um módulo de contagem conta sequências mapeadas para um genoma de referência. Em algumas modalidades um módulo de contagem gera, reúne, e/ou fornece contagens de acordo com um método de contagem conhecido na técnica. Em algumas modalidades, um módulo de contagem ou uma máquina que compreende um módulo de contagem é necessário para fornecer contagens.
Módulo de filtragem
[503] Porções de filtragem (por exemplo, porções de um genoma de referência) podem ser fornecidas por um módulo de filtragem (por exemplo, por uma máquina que compreende um módulo de filtragem). Em algumas modalidades, um módulo de filtragem é necessário para fornecer dados da porção filtrada (por exemplo, porções filtradas) e/ou para remover porções de consideração. Em certas modalidades um módulo de filtragem remove contagens mapeadas para uma porção de consideração. Em certas modalidades um módulo de filtragem remove contagens mapeadas para uma porção de uma determinação de um nível ou um perfil. Um módulo de filtragem pode filtrar os dados (por exemplo, contagens, contagens mapeadas em porções, porções, níveis de porção, contagens normalizadas, contagens brutas, e semelhante) por um ou mais métodos de filtragem conhecidos na técnica ou aqui descritos.
Módulo de ponderação
[504] Porções de ponderação (por exemplo, porções de um genoma de referência) podem ser fornecidas por um módulo de ponderação (por exemplo, por uma máquina que compreende um módulo de ponderação). Em algumas modalidades, um módulo de ponderação é necessário para ponderar seções genômicas e/ou fornecer os valores ponderados da porção. Um módulo de ponderação pode ponderar porções por um ou mais métodos de ponderação conhecidos na técnica ou aqui descritos.
Módulo de normalização
[505] Dados normalizados (por exemplo, contagens normalizadas) podem ser fornecidos por um módulo de normalização (por exemplo, por uma máquina que compreende um módulo de normalização). Em algumas modalidades, um módulo de normalização é necessário para fornecer dados normalizados (por exemplo, contagens normalizadas) obtidos das sequências sequenciadas. Um módulo de normalização pode normalizar dados (por exemplo, contagens, contagens filtradas, contagens brutas) com um ou mais métodos de normalização aqui descritos (por exemplo, PERUN, normalização híbrida, o semelhante ou combinações dos mesmos) ou conhecidos na técnica.
Módulo da tendência de GC
[506] Determinação da tendência de CG (por exemplo, determinando da tendência de CG para cada das porções de um genoma de referência (por exemplo, porções, porções de um genoma de referência)) pode ser fornecida por um módulo da tendência de CG (por exemplo, por uma máquina que compreende um módulo da tendência de CG). Em algumas modalidades, um módulo da tendência de CG é necessário para fornecer uma determinação da tendência de GC. Em algumas modalidades um módulo da tendência de CG fornece uma determinação da tendência de CG de um relacionamento ajustado (por exemplo, um relacionamento linear ajustado) entre as contagens de sequências mapeadas para cada das porções de um genoma de referência e teor de GC de cada porção. Um módulo da tendência de CG, por vezes, é parte de um módulo de normalização (por exemplo, PERUN módulo de normalização).
Módulo de nível
[507] Determinação dos níveis (por exemplo, níveis) e/ou o cálculo dos níveis de seção genômica para porções de um genoma de referência pode ser fornecida por um módulo de nível (por exemplo, por uma máquina que compreende um módulo de nível). Em algumas modalidades, um módulo de nível é necessário para fornecer um nível ou um nível de seção genômica calculado (por exemplo, de acordo com a Equação A, B, L, M, N, O e/ou Q). Em algumas modalidades um módulo de nível fornece um nível de um relacionamento ajustado (por exemplo, um relacionamento linear ajustado) entre uma tendência de CG e contagens de sequências mapeadas para cada das porções de um genoma de referência. Em algumas modalidades um módulo de nível calcula um nível de seção genômica como parte de PERUN. Em algumas modalidades, um módulo de nível fornece uma seção de nível genômico (ou seja, Li) de acordo com a equação Li = (mi - GiS)I-1 em que Gi é a tendência de CG, mi é a contagem medida mapeadas para cada porção de um genoma de referência, i é uma amostra, e I é a intercepção e S é o declive do relacionamento ajustado (por exemplo, uma relacionamento linear ajustado) entre uma tendência de GC e contagens de sequências mapeadas para cada das porções de um genoma de referência.
Módulo de comparação
[508] Um primeiro nível pode ser identificado como significativamente diferente de um segundo nível por um módulo de comparação ou uma máquina que compreende um módulo de comparação. Em algumas modalidades, um módulo de comparação ou uma máquina que compreende um módulo de comparação é obrigado a fornecer uma comparação entre dois níveis.
Módulo de ajuste de faixa
[509] Faixas esperadas (por exemplo, faixas de nível esperadas) para várias variações do número de cópia (por exemplo, duplicações, inserções e/ou deleções) ou faixas para a ausência de uma variação do número de cópia podem ser fornecidas por um módulo de ajuste de faixa ou uma máquina que compreende um módulo de ajuste de faixa. Em certas modalidades, os níveis esperados são fornecidos por um módulo de ajuste de faixa ou por uma máquina que compreende um módulo de ajuste de faixa. Em algumas modalidades, um módulo de ajuste de faixa ou por uma máquina que compreende um módulo de ajuste de faixa é necessário para fornecer os níveis e/ou faixas esperados.
Módulo de categorização
[510] Um número de variação de cópia (por exemplo, uma variação do número de cópia materna e/ou fetal, uma variação, do número de cópia, uma duplicação, inserção, deleção fetal) pode ser categorizado por um módulo de categorização ou por uma máquina que compreende um módulo de categorização. Em certas modalidades uma variação do número de cópia (por exemplo, uma variação do número de cópia materna e/ou fetal) é categorizada por um módulo de categorização. Em certas modalidades um nível (por exemplo, um primeiro nível) determinado como sendo significativamente diferente de outro nível (por exemplo, um segundo nível) é identificado como representante de uma variação do número de cópia por um módulo de categorização. Em certas modalidades, a ausência de uma variação do número de cópia é determinada por um módulo de categorização. Em algumas modalidades, uma determinação de uma variação do número de cópia pode ser determinada por uma máquina que compreende um módulo de categorização. Um módulo de categorização pode ser especializado para categorizar uma variação do número de cópia materna e/ou fetal, uma variação do número de cópia, duplicação, deleção ou inserção fetal ou a falta dela, ou combinação dos anteriores. Por exemplo, um módulo de categorização que identifica uma deleção materna pode ser diferente do que e/ou distinta de um módulo de categorização que identifica uma duplicação fetal. Em algumas modalidades, um módulo de categorização ou uma máquina que compreende um módulo de categorização é necessário para identificar uma variação do número de cópia ou um resultado determinante de uma variação do número de cópia.
Módulo de ajuste
[511] Em algumas modalidades, adaptações de um nível (por exemplo, ajustes em níveis de seção genômica, um nível de um perfil, um nível de uma variação do número de cópia, um nível de uma ou mais porções, o semelhante ou combinações dos mesmos) são feitas por um módulo de ajuste ou por uma máquina que compreende um módulo de ajuste. Em algumas modalidades, um módulo de ajuste ou uma máquina que compreende um módulo de ajuste é necessário para ajustar um nível. Um nível ajustado por métodos aqui descritos pode ser verificado independentemente e/ou ajustado por outros testes (por exemplo, por sequenciamento alvo de ácido nucleico materno ou fetal).
Módulo de plotagem
[512] Em algumas modalidades um módulo de plotagem processa e/ou transforma dados e/ou informações em um meio visual adequado, exemplos não-limitativos dos quais incluem um gráfico, tabela, quadro, o semelhante ou combinações destes. Em algumas modalidades um módulo de plotagem processa, transforma e/ou transfere dados e/ou informações para apresentação em um monitor adequado (por exemplo, um monitor, LED, LCD, CRT, o semelhante ou combinações destes), uma impressora, um periférico ou dispositivo adequado. Em certas modalidades um módulo de plotagem fornece uma exibição visual de uma contagem, um nível, e/ou um perfil. Em algumas modalidades um módulo de organização de exibição de dados, transforma dados e/ou informações em uma representação visual de um genoma fetal ou materno, cromossomo ou parte dele. Em algumas modalidades, um módulo de plotagem ou uma máquina que compreende um módulo de plotagem é necessário para plotar uma contagem, um nível ou um perfil.
Módulo de Relacionamento
[513] Em certas modalidades, um módulo de relacionamento processa e/ou transforma dados e/ou informações em um relacionamento. Em certas modalidades, um relacionamento é gerado por e/ou transferido de um módulo de relacionamento.
Módulo de resultado
[514] A presença ou ausência de uma variação genética (uma aneuploidia, uma aneuploidia fetal, uma variação do número de cópia) é, em algumas modalidades, identificada por um módulo de resultado ou por uma máquina que compreende um módulo de resultado. Em certas modalidades uma variação genética é identificada por um módulo de resultado. Frequentemente, a determinação da presença ou ausência de uma aneuploidia é identificada por um módulo de resultado. Em algumas modalidades, um resultado determinante de uma variação genética (uma aneuploidia, uma variação do número de cópia) pode ser identificado por um módulo de resultado ou por uma máquina que compreende um módulo de resultado. Um módulo de resultado pode ser especializado para determinar uma variação genética específica (por exemplo, uma trissomia, trissomia 21, trissomia 18). Por exemplo, um módulo de resultado que identifica uma trissomia 21 pode ser diferente do que e/ou distinto de um módulo de resultado que identifica uma trissomia 18. Em algumas modalidades, um módulo de resultado ou uma máquina que compreende um módulo de resultado é necessário para identificar uma variação genética ou um resultado determinante de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópia). Uma variação genética ou um resultado determinativo de uma variação genética identificada por métodos aqui descritos pode ser verificado por outros testes (por exemplo, por sequenciamento alvo de ácido nucleico materno e/ou fetal).
Transformações
[515] Como mencionado acima, os dados às vezes são transformados de uma forma para outra forma. Os termos "transformado", "transformação", e derivações gramaticais ou seus equivalentes, como usados aqui, referem-se a uma alteração de dados de um material de partida físico (por exemplo, sujeito de teste e/ou de ácido nucleico da amostra do sujeito de referência) em uma representação digital do material de partida físico (por exemplo, dados legíveis de sequência), e em algumas modalidades inclui ainda uma transformação em um ou mais valores numéricos ou representações gráficas da representação digital que pode ser utilizada para fornecer um resultado (por exemplo, a determinação da fração fetal ou estimativa de uma amostra de teste). Em certas modalidades, um ou mais valores numéricos e/ou representações gráficas ou de dados digitalmente representados podem ser usados para representar a aparência de genoma físico de um sujeito de teste (por exemplo, representam virtualmente ou representam visualmente a presença ou ausência de uma inserção, duplicação ou deleção genômica; representar a presença ou ausência de uma variação na quantidade física de uma sequência associada com condições médicas). Uma representação virtual, por vezes, é ainda transformada em um ou mais valores numéricos ou representações gráficas da representação digital do material de partida. Estes métodos podem transformar o material de partida físico em um valor numérico ou representação gráfica, ou uma representação da aparência física de um genoma do sujeito de teste.
[516] Em algumas modalidades, a transformação de um conjunto de dados facilita fornecer um resultado reduzindo a complexidade de dados e/ou dimensionalidade dos dados. Complexidade do conjunto de dados, por vezes, é reduzida durante o processo de transformação de um material de partida físico em uma representação virtual do material de partida (por exemplo, sequências representativas de material de partida físico). Uma característica ou variável adequada pode ser usada para reduzir a complexidade e/ou dimensionalidade do conjunto de dados. Exemplos não- limitativos de características que podem ser escolhidas para uso como uma característica alvo para processamento de dados incluem teor de GC, predição do gênero fetal, tamanho do fragmento (por exemplo, comprimento de fragmentos CCF, sequências ou uma representação adequada destas (por exemplo, FRS)), sequência de fragmento, identificação de aneuploidia cromossômica, identificação de genes ou proteínas particulares, identificação de câncer, doenças, genes /traços herdados, anormalidades cromossômicas, uma categoria biológica, uma categoria química, uma categoria bioquímica, uma categoria de genes ou proteínas, uma ontologia do gene, uma ontologia de proteínas, genes co- regulados, genes de sinalização celular, genes do ciclo celular, proteínas relacionadas com os genes anteriores, variantes genéticas, variantes de proteína, genes co- regulados, proteínas co-reguladas, sequência de aminoácidos, sequência de nucleotídeo, dados da estrutura da proteína e semelhante, e combinações dos anteriores. Exemplos não- limitativos de redução de complexidade e/ou dimensionalidade do conjunto de dados incluem; redução de uma pluralidade de sequências para gráficos de perfil, redução de uma pluralidade de sequências para valores numéricos (por exemplo, valores normalizados, pontuações de Z, valores de p); redução de vários métodos de análise para gráficos de probabilidade ou pontos únicos; análise de componentes principais de grandezas derivadas; e semelhante ou suas combinações.
Certo sistema, máquina e modalidades de produto de programa de computador
[517] É em certos aspectos fornecido um método implementado por computador para determinar a presença ou ausência de uma variação genética, que compreende (a) obtenção de contagens de sequências de nucleotídeo mapeadas para seções genômicas de um genoma de referência, cujas sequências são: (i) sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e (ii) sequências de fragmentos de ácido nucleico tendo comprimentos que são menores do que um comprimento do fragmento selecionado; (b) normalizar as contagens, gerando desse modo contagens normalizadas de sequências mapeadas para as seções genômicas; e (c) determinar a presença ou ausência de uma variação genética de acordo com as contagens normalizadas.
[518] É também fornecida em certos aspectos um sistema que compreende um ou mais microprocessadores e memória, cuja memória compreende instruções executáveis por um ou mais microprocessadores e cuja memória compreende contagens de sequências de nucleotídeo mapeadas para seções genômicas de um genoma de referência, cujas sequências são (i) de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e (ii) sequências de fragmentos de ácido nucleico tendo comprimentos que são menores do que um comprimento do fragmento selecionado; e que as instruções executáveis por um ou mais microprocessadores estão configuradas para (a) normalizar as contagens, gerando deste modo as contagens normalizadas de sequências mapeadas para as seções genômicas; e (b) determinar a presença ou ausência de uma variação genética de acordo com as contagens normalizadas.
[519] É também fornecida em certos aspectos uma máquina que compreende um ou mais microprocessadores e memória, cuja memória compreende instruções executáveis por um ou mais microprocessadores e cuja memória compreende contagens de sequências de nucleotídeo mapeadas para seções genômicas de um genoma de referência, cujas sequênciass são (i) sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e (ii) sequências de fragmentos de ácido nucleico tendo comprimentos que são menores do que um comprimento do fragmento selecionado; e que as instruções executáveis por um ou mais microprocessadores estão configuradas para (a) normalizar as contagens, gerando deste modo as contagens normalizadas de sequências mapeadas para as seções genômicas; e (b) determinar a presença ou ausência de uma variação genética de acordo com as contagens normalizadas.
[520] É fornecido também em certas modalidades um produto de programa de computador tangivelmente incorporado em um meio legível por computador, que compreende as instruções que, quando executadas por um ou mais microprocessadores, estão configuradas para (a) acessar contagens de sequências de nucleotídeo mapeadas para seções genômicas de um genoma de referência , cujas sequências são: (i) sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e (ii) sequências de fragmentos de ácido nucleico tendo comprimentos que são menores do que um comprimento do fragmento selecionado; e que as instruções executáveis por um ou mais microprocessadores estão configuradas para (a) normalizar as contagens, gerando deste modo as contagens normalizadas de sequências mapeadas para as seções genômicas; e (b) determinar a presença ou ausência de uma variação genética de acordo com as contagens normalizadas.
[521] É também aqui fornecido sistema compreendendo um ou mais microprocessadores e memória, cuja memória compreende instruções executáveis por um ou mais microprocessadores e que a memória compreende as sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e que instruções executáveis por um ou mais microprocessadores estão configuradas para (a) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas de fração específica da porção fetal de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada de várias amostras, e (ii)contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para várias amostras e (b) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas de fração específica da porção fetal.
[522] É também aqui fornecida uma máquina que compreende um ou mais microprocessadores e memória, cuja memória compreende instruções executáveis por um ou mais microprocessadores e que a memória compreende sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e que instruções executáveis por um ou mais microprocessadores estão configuradas para (a) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas de fração específica da porção fetal de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada de várias amostras, e (ii)contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para várias amostras e (b) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas de fração específica da porção fetal.
[523] É também aqui fornecido um meio de armazenamento legível por computador não-transitório com um programa executável armazenado no mesmo, onde o programa instrui um microprocessador para executar o seguinte: (a) acessar sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, (b) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas de fração específica da porção fetal de acordo com os fatores de ponderação, em que cada dos fatores de ponderação foi determinado de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada de várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para várias amostras e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas de fração específica da porção fetal
[524] Em certas modalidades, um sistema, máquina, e/ou produto de programa de computador compreende um módulo de contagem configurado para contar sequências mapeadas para seções genômicas de um genoma de referência ou sua porção (por exemplo, subconjunto de seções genômicas, conjunto selecionado de seções genômicas). Um módulo de contagem frequentemente é configurado para contar sequências de fragmentos de ácido nucleico tendo comprimentos que são menores do que um comprimento do fragmento selecionado. As contagens, por vezes, são filtradas, contagens normalizadas ou combinação dos anteriores. Em algumas modalidades, um módulo de contagem pode normalizar as contagens, por exemplo, usando qualquer processo de normalização adequada aqui descrito ou conhecido na técnica.
[525] Em algumas modalidades, um sistema, máquina, e/ou produto de programa de computador compreende um módulo de comparação de contagem. Um módulo de comparação de contagem frequentemente é configurado para comparar o número de contagens de sequências contadas por um módulo de contagem, tornando desse modo uma comparação de contagem. Um módulo de comparação de contagem frequentemente está configurado para acessar, receber, utilizar, armazenar, pesquisar e/ou alinhar contagens de sequências (por exemplo, de um módulo de contagem ou módulo de normalização). Um módulo de comparação de contagem frequentemente é configurado para fornecer uma comparação adequada entre as contagens, exemplos não-limitativos dos quais comparação incluem uma comparação simples (por exemplo, corresponde ou não corresponde entre contagens de sequências mapeadas para um primeiro conjunto de seções genômicas em comparação com um segundo conjunto de seções genômicas), comparação matemática (por exemplo, proporção, porcentagem), comparação estatística (por exemplo, várias comparações, vários testes, padronização (por exemplo, análises de pontuação de Z)), o semelhante e combinações destes. Um valor de comparação de contagem adequado pode ser fornecido por um módulo de comparação de contagem, exemplos não -limitativos dos quais incluem a presença ou ausência de uma correspondência entre as contagens, uma proporção, percentagem, pontuação de z, um valor acoplado com uma medida da variância ou incerteza (por exemplo, desvio padrão, desvio absoluto mediano, intervalo de confiança), o semelhante e suas combinações. Um módulo de comparação de contagem, por vezes, é configurado para transmitir um valor de comparação com outro módulo ou máquina, tal como um módulo de variação genética, máquina de exibição ou máquina impressora, por exemplo.
[526] Em certas modalidades, um sistema, máquina, e/ou produto de programa de computador compreende um módulo de variação genética. Um módulo de variação genética, por vezes, é configurado para fornecer uma determinação da presença ou ausência de uma variação genética de acordo com as contagens de sequências mapeadas para seções genômicas de um genoma de referência. Um módulo de variação genética, por vezes, é configurado para fornecer uma determinação da presença ou ausência de uma variação genética de acordo com uma comparação de contagens. Um módulo de variação genética, frequentemente, está configurado para acessar, receber, utilizar, armazenar, pesquisar e/ou alinhar uma ou mais comparações de um módulo de comparação de contagens e/ou contagens de um módulo de contagem. Um módulo de variação genética pode determinar a presença ou ausência de uma variação genética de uma ou mais comparações ou das contagens de uma maneira adequada. Um módulo de variação genética, por vezes, determina se existe uma diferença significativa entre as contagens para diferentes conjuntos de seções genômicas em um genoma de referência. A significância da diferença pode ser determinada através de um módulo de variação genética em uma maneira adequada (por exemplo, diferença percentual, análise da pontuação de Z). Um módulo de variação genética, por vezes, determina se uma determinação da contagem ou uma comparação de contagens está em uma categoria particular. Por exemplo, um módulo de variação genética pode categorizar uma comparação particular a um limite de uma proporção particular ou uma faixa de proporções associadas com a determinação euplóide, ou um limite de uma proporção particular ou faixa de proporções associadas com uma determinação aneuplóide. Em um outro exemplo não-limitativo, um módulo de variação genética pode categorizar uma determinação da contagem particular para a um limite de uma proporção particular ou uma faixa de proporções associadas om uma determinação euplóide, ou um limite de uma proporção particular ou uma faixa de proporções associadas uma determinação aneuplóide. Um módulo de variação genética pode fornecer um resultado em um formato adequado, o que por vezes é uma ligação pertencente a uma variação genética opcionalmente associada com uma medida da variância ou incerteza (por exemplo, desvio padrão, desvio absoluto mediano, precisão (por exemplo, dentro de um intervalo de confiança particular). Um módulo de variação genética, por vezes, é configurado para transmitir uma determinação da presença ou ausência de uma variação genética para outro módulo ou máquina, tal como uma máquina de exibição ou impressora, por exemplo.
[527] Uma máquina ou sistema compreendendo um módulo aqui descrito (por exemplo, um módulo de comparação de referência) pode compreender um ou mais microprocessadores. Em algumas modalidades, uma máquina ou sistema pode incluir vários microprocessadores, tais como microprocessadores coordenados e que trabalham em paralelo. Um microprocessador (por exemplo, um ou mais microprocessadores) em um sistema ou em uma máquina pode executar e/ou implementar uma ou mais instruções (por exemplo, processos, rotinas e/ou sub- rotinas) em um módulo aqui descrito. Um módulo descrito aqui, por vezes, está localizado na memória, ou associado com uma máquina ou sistema. Em algumas modalidades, um módulo aqui descrito opera com um ou mais microprocessadores externos (por exemplo, uma rede interna ou externa, servidor, sistema de armazenamento e/ou rede de armazenamento (por exemplo, uma nuvem)). Em algumas modalidades, um módulo aqui descrito é configurado para acessar, unir, reunir e/ou receber dados e/ou informações de um outro módulo, máquina ou sistema (por exemplo, componente, periférico). Em algumas modalidades, um módulo aqui descrito é configurado para fornecer e/ou transferir dados e/ou informações para outro módulo, máquina ou sistema (por exemplo, componente, periférico). Em algumas modalidades, um módulo aqui descrito é configurado para acessar, aceitar, receber e/ou unir dados e/ou informações de entrada de um operador de uma máquina ou sistema (isto é, usuário). Por exemplo, às vezes um usuário fornece uma constante, um valor limite, uma fórmula e/ou um valor pré- determinado para um módulo. Um módulo aqui descrito, por vezes, está configurado para transformar dados e/ou informações que ele acessa recebe, une e/ou reúne.
[528] Em certas modalidades, um sistema, máquina e/ou produto de programa de computador compreende (i) um módulo de sequenciamento configurado para obter e/ou acessar sequências de ácido nucleico e/ou sequências de nucleotídeo parciais; (ii) um módulo de mapeamento configurado para mapear sequências de ácido nucleico para porções de um genoma de referência; (iii) um módulo de contagem configurado para fornecer contagens de sequências de ácido nucleico mapeados para porções de um genoma de referência; (iv) um módulo de normalização configurado para fornecer contagens normalizadas; (v) um módulo de comparação configurado para fornecer uma identificação de uma primeira elevação que é significativamente diferente de uma segunda elevação; (vi) um módulo de ajuste de faixa configurado para fornecer uma ou mais faixas de nível esperado; (vii) um módulo de categorização configurado para identificar uma elevação representativa de uma variação do número de cópia; (viii) um módulo de ajuste configurado para ajustar um nível identificado como uma variação do número de cópia; (ix) um módulo de plotagem configurado para plotar e exibir um nível e/ou um perfil; (x) um módulo de resultado configurado para determinar a presença ou ausência de uma variação genética, ou determinar um resultado (por exemplo, resultado determinante da presença ou ausência de uma aneuploidia fetal); (xi) um módulo de organização de exibição de dados configurado para exibir uma determinação da variação genética; (xii) um módulo de processamento lógico configurado para executar uma ou mais sequências mapeadas, contar sequências mapeadas, normalizar contagens e gerar um resultado; (xiii) um módulo de comparação de contagem, (xiv) módulo de fração fetal configurado para fornecer uma determinação da fração fetal; (xv) um módulo de variação genética configurado para fornecer uma determinação da presença ou ausência de uma variação genética; ou (xvi) combinação de dois ou mais dos anteriores.
[529] Em algumas modalidades um módulo de sequenciamento e módulo de mapeamento estão configurados para transferir sequências do módulo de sequenciamento para o módulo de mapeamento. O módulo de contagem e módulo de mapeamento, por vezes, são configurados para transferir sequências mapeadas do módulo de mapeamento para o módulo de contagem. Em algumas modalidades, o módulo de normalização e/ou módulo de comparação são configurados para transferir contagens normalizadas para o módulo de comparação e/ou o módulo de ajuste de faixa. O módulo de comparação, o módulo de ajuste de faixa e/ou o módulo de categorização independentemente são configurados para transferir (i) uma identificação de uma primeira elevação que é significativamente diferente de uma segunda elevação e/ou (ii) um faixa do nível esperado do módulo de comparação e/ou módulo de ajuste de faixa para o módulo de categorização, em algumas modalidades. Em certas modalidades, o módulo de categorização e o módulo de ajuste estão configurados para transferir uma elevação categorizada como uma variação do número de cópia do módulo de categorização para o módulo de ajuste. Em algumas modalidades, o módulo de ajuste, e módulo de plotagem e o módulo de resultado estão configurados para transferir um ou mais níveis ajustados do módulo de ajuste para o módulo do plotagem ou módulo de resultado. O módulo de normalização às vezes é configurado para transferir contagem legível de sequência normalizada mapeadas para um ou mais do módulo de comparação, módulo de ajuste da faixa, módulo de categorização, módulo de ajuste, módulo de resultado ou módulo de plotagem.
Exemplos
[530] Os exemplos a seguir são fornecidos por meio de ilustração apenas e não por meio de limitação. Desse modo, os exemplos apresentados a seguir ilustram certas modalidades e não limitam a tecnologia. Aqueles versados na técnica reconhecerão facilmente uma variedade de parâmetros não-críticos que poderiam ser alterados ou modificados para se obter essencialmente os mesmos resultados ou semelhantes.
Exemplo 1: PERUN e métodos gerais para a detecção de condições associadas com variações genéticas
[531] Os métodos e teoria subjacente aqui descritos podem ser usados para detectar várias condições associadas com a variação genética e fornecer um resultado determinante, ou determinar a presença ou ausência de uma variação genética.
Remoção de porções não informativas de um genoma de referência
[532] Várias tentativas de remover porções não informativas de um genoma de referência indicaram que a seleção da porção tem o potencial para melhorar a classificação. Equação A: M = LI + GS
[533] Os vários termos na Equação A têm os seguintes significados: • M: contagens medidas, representando a informação primária poluída pela variação indesejada. • L: nível cromossômico - isso é a saída desejada do processo de processamento de dados. L indica aberrações fetais e/ou maternas de euplóide. Isso é a quantidade que é mascarada ambos por erros estocásticos e pelos a tendência sistemáticos. O nível cromossômico L é ambos específico da amostra e específico da porção. • G: coeficiente da tendência de GC medido usando modelo linear, LOESS, ou qualquer abordagem equivalente. G representa informação secundária, extraída de M e de um conjunto de valores do teor de GC específicos da porção, normalmente derivados do genoma de referência (mas podem ser derivados de teores de GC realmente observados também). G é específico da amostra e não varia ao longo da posição genômica. Ele encapsula uma porção da variação indesejada. • I: Intercepção do modelo linear. Esse parâmetro do modelo é fixo para uma dada configuração experimental, independente da amostra, específico da porção. • S: Declive do modelo linear. Esse parâmetro de modelo é fixo para uma dada configuração experimental, independente da amostra, e específico da porção.
[534] As quantidades M e G são medidas. Inicialmente, os valores específicos da porção I e S são desconhecidos. Para avaliar I e S desconhecidos, nós devemos supor que L = 1 para todas as porções de um genoma de referência em amostras euplóides. A suposição nem sempre é verdade, mas pode razoavelmente esperar que quaisquer amostras com deleções/duplicações irão ser oprimidas por amostras com níveis cromossômicos normais. Um modelo linear aplicado para as amostras euplóides extrai os valores de parâmetro I e S específicos para a porção selecionada (assumindo L = 1). O mesmo procedimento é aplicado a todas as porções de um genoma de referência no genoma humano, obtendo-se um conjunto de interceptos I e declives S para cada local genômico. A validação cruzada seleciona aleatoriamente um conjunto de trabalho que contém 90% de todos os euplóides LDTv2CE e usa esse subconjunto para treinar o modelo. A seleção aleatória é repetida 100 vezes, obtendo-se um conjunto de 100 declives e 100 interceptos para cada porção.
Extração de nível cromossômico de contagens medidas
[535] Assumindo que os valores do parâmetro de modelo I e S estão disponíveis para cada porção, medições M coletadas em uma nova amostra de teste são usadas para avaliar o nível cromossômico de acordo com a seguinte Equação B: L = (M-GS)/I (B) Como na Equação A, coeficiente da tendência de CG é avaliado como o coeficiente de regressão linear entre as contagens brutas medidas em porções M e o teor de GC do genoma de referência. O nível cromossômico L, em seguida, é usado para análises posteriores (valores de Z, deleções /duplicações maternas, micro-deleções/micro-duplicações maternas, gênero fetal, aneuploidias do sexo, e desse modo por diante). O procedimento encapsulado pela Eq. B é chamado de Remoção de Erro Parametrizado e Normalização Imparcial (PERUN).
Exemplo 2: Exemplos de fórmulas
[536] São fornecidos a seguir exemplos não-limitativos de fórmulas matemáticas e/ou estatísticas que podem ser usadas em métodos aqui descritos.
[537] Pontuações de z e valores de p calculados de pontuações de Z associados com desvios do nível esperado de 1 podem então ser avaliados à luz da estimativa para a incerteza no nível médio. Os valores de p são baseados em uma distribuição de t cuja ordem é determinada pelo número de porções de um genoma de referência em um pico. Dependendo do nível de confiança desejado, um corte pode suprimir ruído e permitir a detecção inequívoca do sinal real. Equação 1:
Figure img0017
Equação 1 pode ser usada para comparar diretamente nível do pico a partir de duas amostras diferentes, em que N e n referem-se aos números de porções de um genoma de referência em todo o cromossomo e dentro da aberração, respectivamente. A ordem do teste t que produzirá um valor de p medindo a semelhança entre duas amostras é determinada pelo número de porções de um genoma de referência no mais curto dos dois trechos desviantes.
[538] Equação 8 pode ser usada para incorporar fração fetal, ploidia materna, e contagens médias de referência em um esquema de classificação para a determinação da presença ou ausência de uma variação genética no que diz respeito a aneuploidia fetal. Equação 8:
Figure img0018
onde Yi representa as contagens medidas para uma porção na amostra de teste correspondente à porção no perfil de contagem mediana, F representa a fração fetal, X representa a ploidia fetal, e Mi representa ploidia materna atribuída a cada porção. Os possíveis valores para X usados na equação (8) são: 1 se o feto é euplóide; 3/2, se o feto é triplóide; e, 5/4, se há fetos gêmeos e um é afetado e um não é. 5/4 é utilizado no caso de gêmeos onde um feto é afetado e o outra não, porque o termo F na equação (8) representa o DNA total do feto, por conseguinte, todo o DNA fetal deve ser levado em conta. Em algumas modalidades, grandes deleções e/ou duplicações no genoma materno podem ser contabilizadas atribuindo ploidia materna, Mi para cada porção ou porção. Ploidia materna frequentemente é designada como um múltiplo de 1/2, e pode ser estimada usando normalização e porções, em algumas modalidades. Porque ploidia materna frequentemente é um múltiplo de 1/2, ploidia materna pode ser facilmente explicada, e, portanto, não será incluída em outras equações para simplificar derivações.
[539] Ao avaliar a equação (8) com X = 1, (por exemplo, suposição euplóide), a fração fetal é cancelada e a seguinte equação resulta da a soma dos resíduos quadrados. Equação 9:
Figure img0019
Para simplificar equação (9) e cálculos subsequentes, as equações a seguir são utilizadas. Equação 10:
Figure img0020
Equação 11:
Figure img0021
Equação 12:
Figure img0022
Ao avaliar a equação (8) com X = 3/2 (por exemplo, suposição triplóide), a equação a seguir resulta da soma dos resíduos quadrados. Equação 13:
Figure img0023
A diferença entre equações (9) e (13) forma o resultado funcional (por exemplo, phi) que pode ser usado para testar a hipótese do nulo (por exemplo, euplóide, X = 1) contra a hipótese alternativa (singleto de trissomia, X = 3/2): Equação 14:
Figure img0024
Equação 18:
Figure img0025
[541] Valor ideal de ploidia por vezes é dado pela Equação 20:
Figure img0026
O termo para ploidia materna, Mi, pode ser omitido para algumas derivações matemáticas. A expressão resultante para X corresponde ao caso especial relativamente simples e muitos vezes que ocorre frequentemente de quando a mãe não tem deleções ou duplicações no cromossomo ou cromossomos sendo avaliados. Equação 21:
Figure img0027
Xiff e Xify são fornecidos pelas equações (11) e (12), respectivamente. Em modalidades onde todos os erros experimentais são negligenciáveis, equação de solução (21) resulta em um valor de 1 para euplóides onde Xiff = Xify. Em certas modalidades onde todos os erros experimentais são negligenciáveis, equação de solução (21) resulta em um valor de 3/2 paratriplóides (ver equação (15) para relacionamentotriplóide entre Xiff e Xify. Tabela 2
Figure img0028
Exemplo 3: Seleção da porção usando FRS.
[542] Porções do genoma humano de referência designado HG19 foram primeiro pré-filtradas através de um método baseado em PERUN que remove porções com alta variabilidade, baixa mapeabilidade e se liga com uma grande percentagem de elementos repetitivos. Porções (como selecionado para LDTv2) com alta variabilidade, baixa mapeabilidade, e uma grande fração de sequências repetidas foram excluídas. Para cada porção de 50 kb (por exemplo, porção), uma proporção estatística fetal foi calculada para sequências finais pareadas de fragmentos CCF menos de 150 bases e de fragmentos CCF a menos de 600 bases. O FRS foi, então, tirado a média entre 264 amostras não-agrupadas processadas usando preparação da biblioteca de bioquímica TruSeq com o cleanup de grânulo automatizado. Porções com FRS > mediana (FRS) foram selecionados e são apresentados na Tabela 4 com referência a posições de início e fim específicas do cromossomo. Posições de início e fim específicas do cromossomo na tabela 4 referenciam posições de base de nucleotídeo em genoma de referência humano HG19.
[543] Todas as porções com FRS > mediana (FRS) foram plotadas concorrentemente com o número de posições de início de éxon único em cada respectiva porção. Uma correlação significativa foi mostrada para as regiões de genes que contêm uma super-representação de pequenos fragmentos (Figuras 1 - 9). Uma correlação significativamente mais forte foi mostrada com teor de GC (percentagem de bases de GC em uma porção de 50kb) e FRS (Tabela 3).
[544] Seleção da porção foi ainda restrita às porções (isto é, porções) do genoma onde o FRS > mediana (FRS) para a detecção de trissomia cromossômica. A aplicação dessa abordagem em um conjunto de dados preliminar de 264 amostras forneceu margens de classificação consistentes para ponderar de descartar 50% dos dados. Por outro lado, restringindo porções onde FRS < mediana (FRS), a margem de classificação foi drasticamente reduzida, o que sugere uma diluição de DNA fetal para análises (Figuras 10 - 11).
[545] Na figura 10 e Figura 11 existem duas linhas de regressão, uma para amostras não-T21 somente (linha traço- ponto) e outra para as amostras T21 (linha pontilhada). A linha de regressão para as amostras T21 baseadas em altas porções de FRS ficou acima da linha de regressão para amostras não-T21 com base em alto FRS (Figura 10). Por outro lado, essa regressão semelhante foi menor do que as amostras não-T21 quando se comparam as pontuações de Z calculadas em baixas porções de FRS (Figura 11). Isso sugere que o uso de altas porções de FRS pode melhorar a precisão das determinações do resultado, já que as pontuações de Z tendem a ser maiores para as amostras T21. Tabela 3
Figure img0029
Exemplo 4 Detecção de trissomia 21 usando uma combinação de separação baseada na sequência e análises baseadas no comprimento
[546] As amostras de plasma contendo o DNA isento de célula circulante obtidas de mulheres grávidas são testadas para trissomia 21, usando o método a seguir.
Separação baseada na sequência
[547] Uma biblioteca de captura customizada SURESELECT é obtida a partir da Agilent que inclui um conjunto de RNAs de captura biotinilados projetados customizados. Os RNAs de captura são projetados de acordo com as sequências de nucleotídeos específicos no cromossomo 21 (cromossomo teste) e específicos no cromossomo 14 (cromossomo de referência) e são identificados pela ferramenta de design baseado na web EARRAY da Agilent. 100 RNAs de captura independentes são projetados para cada um dos cromossomos 14 e 21. Sequências de nucleotídeo de cópia único na faixa de 40 a 60 pares de bases que são únicos no cromossomo 14 ou 21 e são ricos em AT são selecionados para o projeto de RNA customizado.
[548] Amostra de ácido nucleico, que é ácido nucleico de plasma circulante isento de células de uma mulher grávida no primeiro trimestre de gravidez, é dividida em dois tubos e incubada ou com RNA de captura 21 ou RNA de captura 14 do cromossomo durante 24 horas a 65°C, de acordo com as instruções do fabricante. Após a hibridização, os fragmentos capturados alvos e fragmentos de referência capturados (coletivamente referidos como fragmentos capturados) são selecionados, puxando para baixo os híbridos de RNA/fragmento biotinilado usando esferas magnéticas revestidas com estreptavidina (DYNAL DYNAMAG-2, Invitrogen, Carlsbad, CA), e purificados com o kit de purificação de PCR MinElute (Qiagen, Germantown, MD). RNA de captura é digerido e os fragmentos de DNA restantes são amplificados de acordo com as instruções do fabricante.
Análise baseada no comprimento
[549] As amostras que continham os fragmentos de ácidos nucleicos separados de acima são hibridizadas sob condições rigorosas de hibridização para as sondas de poli- inosina compreendendo inosina biotinilada, cujas sondas são mais longas do que os fragmentos de DNA para os quais elas hibridizam e 500 pares de bases de comprimento. Em algumas modalidades, a hibridização é realizada durante a noite a 65°C em 6 x SSC e 1% de SDS Em algumas modalidades, a hibridização é realizada durante a noite a 43°C em NaCl a 1,0 M, tampão fosfato de sódio a 50 mM (pH 7,4), EDTA a 1,0 mM, 2% (p/v) de dodecil sulfato de sódio, 0,1% (p/v) de gelatina, 50 μg/mL de RNAt e 30% (v/v) de formamida. Quatro lavagens de 30 minutos são realizadas a 55°C em 1,2X SSC (1X SSC é NaCl a 0,15 M mais citrato de sódio a 0,015 M), fosfato de sódio a 10 mM (pH 7,4), EDTA a 1,0 mM e 0,5% (p/v) de dodecil sulfato de sódio. Após a hibridização, as porções da sonda não hibridizada são digeridas usando exonuclease I (New England Biolabs, Ipswich, MA) e fosfodiesterase II (Worthington Biochemical Corp., Lakewood, NJ). Os duplexes de sonda-fragmento são desnaturados a 95°C durante dois minutos, e as sondas são separados longe dos fragmentos (isto é, puxadas para baixo) usando esferas magnéticas revestidas com estreptavidina (Dynal DYNAMAG-2, Invitrogen, Carlsbad, CA), e purificadas com o kit de purificação de PRC MinElute(Qiagen, Germantown, MD). Sondas de poli-inosina aparadas, isoladas e purificadas são medidas para a massa usando espectrometria de massa MALDI. Comprimento da sonda, e desse modo o comprimento do fragmento correspondente, é extrapolado dos picos de massa para cada espécie de comprimento da sonda por comparação com picos de massa para padrões de poli-inosina biotinilada de comprimento conhecido.
Determinação da trissomia 21
[550] A quantidade relativa de cada espécie de comprimento de fragmento é determinada com base na amplitude dos picos de massa para cada espécie de comprimento da sonda. Fragmentos de 150 pares de bases ou menos são quantificados para cromossomo 14 e cromossomo 21. As amostras com quantidades substancialmente iguais de fragmentos de cromossomo 14 e cromossomo 21 são determinadas como euplóide para o cromossomo 21. As amostras com uma quantidade significativamente maior de fragmentos do cromossomo 21 versus cromossomo 14 (por exemplo, a elevação de 2% nos fragmentos de cromossomo 21 versus cromossomo 14) são determinadas como triplóide para cromossomo 21.
Exemplo 5: Detecção de trissomia usando a filtragem do comprimento de fragmento e representação do cromossomo
[551] Nesse exemplo, as amostras maternais que contêm o ácido nucleico isento de células foram classificadas como carregando um feto euplóide ou um feto tendo uma aneuploidia (isto é, trissomia 13, trissomia 18, trissomia 21) com base nas contagens legíveis da sequência de nucleotídeos de um subconjunto de fragmentos tendo certos parâmetros de comprimento. As amostras foram obtidas a partir do Hospital de mulheres e crianças (WI study; Palomaki et al. (2011) Genet Med 13 (11):913-20). Sequências de nucleotídeo (sequências de base 36) para cada amostra foram obtidas usando uma plataforma de sequenciamento de extremidade pareada Illumina (Illumina, Inc., San Diego, CA). Sequências de nucleotídeo de extremidade pareada foram alinhadas para um genoma de referência (build 37 (hg19)) usando o programa de alinhamento BOWTIE 2 beta 3 e o comprimento do fragmento foi determinado com base nos alinhamentos das sequências de extremidade pareada.
[552] Certas sequências de nucleotídeo foram filtradas de acordo com os seguintes parâmetros de comprimento de fragmento de ácido nucleico e: 1) os fragmentos tendo comprimentos maiores que ou igual a 120 bases; 2)fragmentos tendo comprimentos maiores do que ou iguais a 130 bases; 3) fragmentos tendo comprimentos maiores do que ou iguais a 140 bases; 4) fragmentos tendo comprimentos maiores do que ou iguais a 150 bases; 5) fragmentos tendo comprimentos maiores do que ou iguais a 160 bases; ou 6) fragmentos tendo comprimentos maiores do que ou iguais a 170 bases. Desse modo, sequências de extremidade pareada correspondentes aos fragmentos iguais ou maiores do que um dado limite de comprimento (por exemplo, 120 bases, 130 bases, 140 bases, 150 bases, 160 bases, 170 bases) foram filtrados e sequências de extremidade pareada correspondendo aos fragmentos mais curtos do que um dado limite de comprimento foram retidos para análise.
[553] Representações cromossômicas para cromossomo 13, cromossomo 18 e cromossomo 21 foram calculadas para conjuntos de dados apresentados na Figura 23 usando 1) sequências não filtradas e 2) sequências filtradas por comprimento em um limite de 150 fragmentos de base. Representação do cromossomo para cada cromossomo 13, 18 e 21 foram calculadas de acordo com o seguinte: Representação de cromossomo 13 (Chr 13) = ∑ contagens legíveis de sequência Chr 13 (não filtradas)/ ∑ todas as contagens legíveis de sequência autossômica (não filtradas) Representação de cromossomo 13 (Chr 13) = ∑ contagens legíveis de sequência Chr 13 (filtradas)/ ∑ todas as contagens legíveis de sequência autossômica (filtradas) Representação de cromossomo 18 (Chr 18) = ∑ contagens legíveis de sequência Chr 18 (não filtradas)/ ∑ todas as contagens legíveis de sequência autossômica (não filtradas) Representação de cromossomo 18 (Chr 18) = ∑ contagens legíveis de sequência Chr 18 (filtradas)/ ∑ todas as contagens legíveis de sequência autossômica (filtradas) Representação de cromossomo 21 (Chr 21) = ∑ contagens legíveis de sequência Chr 21 (não filtradas)/ ∑ todas as contagens legíveis de sequência autossômica (não filtradas) Representação de cromossomo 21 (Chr 21) = ∑ contagens legíveis de sequência Chr 21 (filtradas)/ ∑ todas as contagens legíveis de sequência autossômica (filtradas) As figuras 14, 16 e 18 mostram representações de cromossomo para os cromossomos 13, 18 e 21, respectivamente, usando sequências não filtradas. As figuras 15, 17 e 19 mostram representações de cromossomo para os cromossomos 13, 18 e 21, respectivamente, usando sequências filtradas por comprimento. Para conjuntos de dados filtrados, a representação do cromossomo aumentou para as amostras de trissomia, devido em parte a um aumento nos dados de sequência fetal contribuídos. Embora esse aumento na representação do cromossomo possa aumentar o poder de detectar anormalidades cromossômicas, a variância da representação do cromossomo para amostras com não-trissomia aumentou devido a uma redução aproximada de 63-82% nas contagens de sequências. Distribuições do exemplo de contagens legíveis em vários valores limite do comprimento do fragmento são ilustradas na figura 13 e apresentadas na Tabela 5 abaixo.
Figure img0030
[554] A área média sob a curva (AUC) para sequências de fragmentos de menos do que um certo comprimento foi determinada para ilustrar a redução total de sequências (ou seja, a cobertura de sequência) vista em média. Para um dado ensaio que gera cerca de 15 milhões de sequências (ou cobertura de 0,2X do genoma humano), a exclusão das sequências maiores do que 150 bases, por exemplo, é equivalente a cerca de cobertura de 0,035X.
[555] Para determinar um limite do tamanho do fragmento ideal para a representação do cromossomo, limite do tamanho do fragmento variou de 120 a 170 bases, em incrementos de 10 bases. Representação do cromossomo (ou seja, para os cromossomos 13, 18 e 21) foi calculada após normalização da contagem legível de sequência (ou seja, PERUN preenchido com LOESS) para cada conjunto de dados filtrados por comprimento (sequências de extremidade pareada) e para um conjunto de dados não filtrados (sequências de extremidade única; também referida como “todo”). Representações dos cromossomos 13, 18 e 21 são apresentadas nas Figuras 20, 21 e 22, respectivamente. Representação do cromossomo para os conjuntos de dados filtrados no limite de 150, 160 e 170 bases foi bastante consistente com o conjunto de dados não filtrado. As tabelas a seguir apresentam especificidade e sensibilidade observadas para a detecção de trissomia dos cromossomos 13, 18 e 21 nos respectivos valores de corte de pontuação de Z (ou seja, 3,95 para cromossomo 13, 3,95 para o cromossomo 18, e 3 para o cromossomo 21). Valores de pontuação de Z foram baseadas em valores de MAD da população e históricos específicos do conjunto de dados e medianos específicos da célula de fluxo. Adicionalmente, 10 vezes a validação cruzada de análises características de operação do receptor (ROC) foram conduzidas (ou seja, 10 vezes de validação cruzada estratificada, repetida 100 vezes) e a área média sob a curva (AUC; ou seja, uma medida de precisão) para cada análise (calculada pela soma de todos os valores de tempo de sensibilidade (1-especificidade) e implementados usando pacote de R ROCR) é apresentada nas Tabelas 6, 7 e 8 abaixo.
Figure img0031
Figure img0032
[556] Os dados mostram que ponderação de uma redução significativa da cobertura da sequência de amostras filtradas por comprimento, trissomias podem ser identificadas usando amostras filtradas em certos limites do comprimento do fragmento (por exemplo, 150 bases, 160 bases), com uma precisão, sensibilidade e especificidade semelhantes em comparação com amostras não filtradas.
Exemplo 6:
[557] Esse exemplo ilustra, em parte, um relacionamento entre a fração fetal e a proporção estatística fetal (FRS). Como mostrado nas Figuras 25A e 25B, um gráfico de pontuações de Z v. FRS mediana por amostra apresentou semelhante idade notável para um gráfico de pontuações de Z versus estimativas baseadas em FQA da fração fetal. Além disso, FRS mediano por amostras com trissomia 21 restritas a porções de alto FRS (Figura 25A, faixa tracejada acima) foi 0,188 e o FRS mediano por amostras com trissomia 21 para todas as porções (Figura 25B, linha pontilhada acima) foi de 0,172. Para amostras de Chr21 com não-trissomia, o FRS mediano de porções de alto FRS foi de 0,181 (Figura 25A, linha tracejada abaixo) e o FRS mediano para todas as porções foi de 0,166 (Figura 25B, linha tracejada abaixo). Isso sugeriu que a amostras com trissomia 21, de fato, tem uma representação da porção ligeiramente superior as amostras com não-trissomia 21, em particular de porções com uma maior propensão de contribuição fetal.
[558] Como mostrado na Figura 26, foi determinado que sequências de diferentes comprimentos de fragmento compreendam diferentes teores de GC. Os fragmentos menores, os quais são conhecidos por serem mais fetais na origem, mostraram maior teor de CC em comparação com fragmentos maiores. A diferença no teor de GC também foi relacionada à forma como FRS correlacionou com teor de GC e densidade do gene, já que porções com maiores FRS foram correlacionadas positivamente com o teor de GC por porção. Essas diferenças sutis de GC no comprimento do fragmento podem ser aproveitadas para fornecer informações da fração fetal. Por exemplo, diferença de GC, comprimento do fragmento e/ou dispersão do comprimento do fragmento em todo o genoma humano de referência pode ser utilizado para prever a origem materna ou fetal de fragmentos. Estes dados demonstraram que o teor de GC por sequência podem ser usados para estimar a contribuição do feto.
[559] PERUN é a correção aditiva específica da região para remover a tendência de GC em profundidade legível de cobertura. Esse procedimento de normalização envolveu uma estimativa treinada de dois parâmetros específicos de região, o declive, ou seja, o impacto da tendência de GC, e intercepto, ou seja, a cobertura do nível de base na ausência da tendência de GC. A distribuição de interceptos de PERUN dividiu em quantis de FRS sugeridos que aumentando FRS aumenta interceptos de PERUN (Figura 27). No geral, as regiões genômicas com os menores FRS tendem a ter os mais baixos interceptos, possivelmente devido à redução da contribuição fetal em relação a representação de cobertura total. Além disso, os esforços iniciais para a seleção da região incorporaram os erros de validação cruzada máxima, onde valores maiores indicaram um aumento na variabilidade de cobertura. A Figura 28 mostra uma distribuição dos erros de validação cruzada máxima dividindo em quantis. Os quantis extremos (alto e baixo) exibiram maior variabilidade na estabilidade da região. Como regiões genômicas de FRS extremo são potencialmente mais sensíveis à contribuição fetal, o aumento da variabilidade nos erros de validação cruzada máxima pode de fato ser devido à variabilidade do sinal fetal.
Exemplo 7: Fração Fetal baseada em Porção
[560] Esse exemplo demonstra um método para quantificar a quantidade de DNA fetal isento de célula circulante em uma amostra de sangue materno usando dados de cobertura de sequenciamento. A tecnologia engloba um método conhecido aqui como Fração Fetal Baseado em Porção (BFF) que utiliza mapas de cobertura de sequenciamento para quantificar a fração de DNA fetal em uma amostra de sangue materno. O método tira proveito de métodos de aprendizado em máquina para construir um modelo relacionando à cobertura de sequenciamento para fração fetal.
[561] A primeira etapa do método BFF foi a obtenção de dados de cobertura genômica. Dados de cobertura genômica foram obtidos de uma corrida de sequenciamento e alinhamento. Estes dados de cobertura então serviram como um indicador para a fração fetal. Variáveis preditoras de cobertura podem ser geradas por qualquer método adequado, incluindo, mas não limitado a porção genômica discreta, porção de tamanho variável, ou vistas baseadas em ponto de um mapa de cobertura nivelada.
[562] A segunda etapa do método BFF era treinar um modelo para estimar a fração fetal dos preditores de dados de cobertura (por exemplo, parâmetros). Nesse exemplo, um modelo de regressão múltipla geral foi treinado usando quadrados mínimos simples para estimar fração fetal diretamente do nível de sequenciamento proporcional conhecido de uma porção particular. Essa abordagem pode ser estendida a um modelo multivariado de regressão múltipla para prever porções que são conhecidos como sendo proporcionais à fração fetal (a partir do qual a fração fetal, por sua vez, pode ser derivada). Semelhantemente, se porções estão correlacionados, os modelos de resposta multivariada podem ser treinados para explicar respostas correlacionadas. O seguinte é um exemplo em sua forma mais simples: O modelo de regressão múltipla foi escolhido como equação 30 abaixo;
Figure img0033
onde Xbin é uma matriz m x p de contagens de porções, yff é um vetor m x 1 de número m de amostras de treinamento e número p de porções preditoras, ε é um vetor de ruído com a expectativa de E (ε) = 0, onde a covariância Cov(ε) = u2I onde I é a matriz identidade (isto é, os erros são homocedásticos), e rank(Xbin)< p. O vector yff correspondeu a uma porção com níveis conhecidos por ser proporcional à fetal fração.
[563] Sem perda de generalidade, assumimos que Xbin foi centrado por sua média. Desse modo β o vector de p x 1 de coeficientes de regressão, pode ser estimado a partir da solução das equações normais para β como;
Figure img0034
[564] A extensão para o modelo de resposta múltipla multivariada simplesmente estendeu o modelo anterior para ter várias variáveis de resposta, ou como uma matriz yff de tamanho m x n, onde n é um número de diferentes porções que têm níveis proporcionais à fração fetal. O modelo é, portanto;
Figure img0035
onde E é uma matriz de ruído com premissas paralelas ao modelo múltiplo. A matriz dos coeficientes B pode ser estimada através da solução para B em;
Figure img0036
onde B é uma matriz de p x n.
[565] Se ranque rank(Xbin)< p, então o problema pode ser decomposto em qualquer número de modelos de regressão adequados para explicar multicolinearilidade. Em adição a isso, estimadores de B de ranque reduzido também podem ser encontrados, de modo que o rank(B) <= min (n, p), o que representa a correlação potencial dentro da resposta multivariada. Os estimadores resultantes podem então ser tirados a média ou ponderados em conjunto por um método adequado.
[566] A abordagem de BFF não está limitada a esse método de regressão. Muitos métodos de aprendizado pela máquina podem ser usados, incluindo, mas não limitado a outros métodos de regressão múltipla, regressão de resposta multivariada, árvores de decisão, máquinas de vetor-suporte, e redes neurais, para melhorar a estimativa. Existem também métodos que podem relaxar as suposições e fornecer a estimativa dimensional alta para que todos as porções relevantes possam ser incorporadas no modelo. Exemplos não limitativos de tais estimadores são aqueles baseados em restrição tais como ranque reduzido, LASSO, critérios de seleção de ranque ponderado (WRSC), critérios de seleção de ranque (RSC) e estimatores de rede elástica que têm demonstrado melhorar o poder preditivo.
[567] Previsões da fração fetal também foram melhoradas através da medição e incorporação da tendência de cobertura genômica no canalizador. Estes a tendência podem vir de um certo número de fontes, incluindo, mas não limitado ao teor de GC, DNase1-hipersensibilidade, mapeabilidade, e estrutura da cromatina. Tais perfis podem ser quantificados em uma base por amostra e usados para ajustar os dados de cobertura genômica, ou adicionados como preditores ou restrições para o modelo de fração fetal.
[568] Por exemplo, a abordagem de regressão múltipla foi treinada em 6.000 amostras euplóides masculinas, usando o nível relativo de cobertura de cromossomo Y através de todos as porções como o verdadeiro valor da fração fetal (ChrFF). Para evitar circularidade com a detecção de trissomias comuns, o modelo foi treinado apenas em porção de cobertura autossômica, e não inclui os cromossomos 13, 18 ou 21. O modelo demonstrou forte desempenho em dados de testes, que consiste em 19.312 amostras independentes (Figura 29).
[569] O forte desempenho de BFF é conduzido pelas porções e regiões que tendem a atrair DNA fetal. Estas regiões tendem a ter maior variância de cobertura, e o modelo faz uso dessa variação. Uma abordagem de bootstrap foi usada para comparar os modelos formados exclusivamente em porção com representação da fração fetal alta ou baixa (com base em FRS). As porções com maior teor fetal foram revelados serem melhores preditores da fração fetal (Figura 30). Isso correspondeu com a constatação de que os modelos construídos em porção com maior representação fetal tendem a terem maiores coeficientes de regressão (Figura 31).
[570] Enquanto o exemplo do conjunto de treinamento incluiu apenas amostras masculinas, as previsões foram feitas em ambas as amostras de femininas e amostras com trissomia masculinas, para as quais a fração fetal pode ser estimada independentemente usando a representação cromossômica com trissomia. A estimativa da fração fetal de amostras masculinas e femininas não mostraram nenhuma diferença na distribuição total (Figura 32). Isso demonstra que BFF não é sistematicamente tendenciosa para estimar fração fetal sobre um gênero em comparação com o outro.
Exemplo 8: Exemplos de modalidades
[571] Os exemplos apresentados a seguir ilustram certas modalidades e não limitam a tecnologia.
[572] A1. O método para estimar uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida, compreendendo: (a) obter contagens de sequências mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida; (b) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas de fração fetal específica da porção de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado a partir de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada das várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras; e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas de fração fetal específica da porção.
[573] A2. O método, de acordo com a reivindicação A1, em que os fatores de ponderação são associados com porções em uma pluralidade de porções em todos autossomos e cromossomos X e Y.
[574] A2.1. O método, de acordo com a reivindicação A1, em que os fatores de ponderação são associados com porções em uma pluralidade de porções que não incluem porções no cromossomo Y.
[575] A3. O método, de acordo com a reivindicação A2.1, em que os fatores de ponderação são associados com porções em uma pluralidade de porções que não incluem porções nos cromossomos X e Y.
[576] A4. O método, de acordo com a reivindicação A2, em que os fatores de ponderação são associados com porções em uma pluralidade de porções que incluem porções nos autossomos ou seu subconjunto.
[577] A5. O método, de acordo com a reivindicação A3 ou A4, em que os fatores de ponderação são associados com porções em uma pluralidade de porções que não incluem porções nos cromossomos 13, 18 e 21.
[578] A6. O método, de acordo com qualquer uma das reivindicações A1 a A5, em que as contagens em (b)(i) ou (b)(ii) são contagens normalizadas.
[579] A7. O método, de acordo com a reivindicação A6, em que as contagens normalizadas reduziram a tendência de guanina-citosina (GC) em relação às contagens brutas.
[580] A8. O método, de acordo com a reivindicação A6 ou A7, em que as contagens normalizadas são um produto de uma normalização em porções, normalização por teor de GC, regressão linear dos mínimos quadrados, regressão por mínimos quadrados não linear, LOESS, GC LOESS, LOWESS, PERUN, normalização-GC e mascaramento repetido (GCRM), normalização de quantis condicional (cQn), ou uma combinação destes.
[581] A9. O método, de acordo com qualquer uma das reivindicações A1 a A8, em que a estimativa da fração de ácido nucleico fetal para a amostra de teste compreende a média ou soma das estimativas da fração fetal específica da porção.
[582] A10. O método, de acordo com qualquer uma das reivindicações A1 a A9, em que o parâmetro específico da porção é um parâmetro específico da porção ou é um dos dois ou mais parâmetros específicos da porção.
[583] A11. O método, de acordo com qualquer uma das reivindicações A1 a A10, em que o parâmetro específico da porção é escolhido da cobertura genômica, uma quantidade de sequências tendo um comprimento menor do que um comprimento do fragmento selecionado, mapeabilidade, sensibilidade à DNasel, estado de metilação, acetilação, distribuição de histona e a estrutura da cromatina.
[584] A12. O método, de acordo com qualquer uma das reivindicações A1 a A10, em que o parâmetro específico da porção é teor de guanina-citosina (GC).
[585] A13. O método, de acordo com qualquer uma das reivindicações A1 a A10, em que o parâmetro específico da porção não é o teor de guanina-citosina (GC).
[586] A14. O método, de acordo com a reivindicação A11, em que a quantidade de sequências tendo um comprimento menor do que um comprimento do fragmento selecionado é determinada de acordo com uma proporção de X para Y, em que X é a quantidade derivada de fragmentos isentos de célula circulante (CCF) tendo um comprimento menor do que um primeiro comprimento de fragmento selecionado, e Y é a quantidade de sequências derivadas de fragmentos CCF tendo um comprimento menor do que um segundo fragmento de comprimento selecionado.
[587] A15. O método, de acordo com a reivindicação A14, em que o comprimento do primeiro fragmento selecionado é cerca de 140 a cerca de 160 bases e o segundo comprimento do fragmento selecionado é cerca de 500 a cerca de 700 bases.
[588] A16. O método, de acordo com a reivindicação A15, em que o comprimento do primeiro fragmento selecionado é cerca de 150 bases de comprimento e o segundo fragmento selecionado é cerca de 600 bases.
[589] A17. O método, de acordo com qualquer uma das reivindicações A14 a A16, em que o fator de ponderação para cada porção está relacionado com a proporção média para a porção para as várias amostras.
[590] A18. O método, de acordo com qualquer uma das reivindicações A1 a A16, em que o fator de ponderação para cada porção é proporcional à quantidade média de sequências a partir de fragmentos de ácido nucleico fetal CCF mapeados para a porção para as várias amostras.
[591] A19. O método, de acordo com qualquer uma das reivindicações A1 a A18, em que as porções são escolhidas de porções genômicas discretas, porções genômicas tendo sequências contínuas de comprimento pré-determinado, porção de tamanho variável, vistas baseadas em ponto de um mapa de cobertura nivelada, e uma combinação dos mesmos.
[592] A20. O método, de acordo com qualquer uma das reivindicações A1 a A19, em que as várias amostras são de sujeitos tendo um feto euplóide.
[593] A21. O método, de acordo com qualquer uma das reivindicações A1 a A19, em que as várias amostras são de sujeitos tendo um feto com trissomia.
[594] A22. O método, de acordo com qualquer uma das reivindicações A1 a A19, em que as várias amostras são de sujeitos tendo um feto euplóide e de sujeitos tendo um feto com trissomia.
[595] A23. O método, de acordo com qualquer uma das reivindicações A1 a A22, em que as várias amostras são de sujeitos tendo um feto masculino.
[596] A24. O método, de acordo com a reivindicação A23, em que a fração de ácido nucleico fetal é determinada de acordo com um ensaio do cromossomo Y.
[597] A25. O método, de acordo com qualquer uma das reivindicações A1 a A24, em que as contagens em cerca de 1.500 porções a cerca de 200.000 porções são ajustadas.
[598] A25.1. O método, de acordo com a reivindicação A25, em que cada uma das porções são cerca de 10 quilobases contíguas a cerca de 75 quilobases contíguas do genoma de referência.
[599] A26. O método, de acordo com qualquer uma das reivindicações A1 a A25.1, em que cerca de 75% ou mais dos fatores de ponderação são maiores do que zero.
[600] A26.1. O método, de acordo com a reivindicação A26, em que cerca de 85% ou mais dos fatores de ponderação são maiores do que zero.
[601] A26.2. O método, de acordo com a reivindicação A26.1, em que cerca de 95% ou mais dos fatores de ponderação são maiores do que zero.
[602] A27. O método, de acordo com qualquer uma das reivindicações A1 a A26.2, em que a largura de uma distribuição dos fatores de ponderação é dependente da quantidade de sequências de fragmentos de ácido nucleico fetal CCF.
[603] A28. O método, de acordo com qualquer uma das reivindicações A1 a A27, em que a distribuição dos fatores de ponderação é substancialmente simétrica.
[604] A28.1. O método, de acordo com qualquer uma das reivindicações A1 a A27, em que a distribuição dos fatores de ponderação é substancialmente normal.
[605] A29. O método, de acordo com qualquer uma das reivindicações A1 a A28.1, os fatores de ponderação são coeficientes estimados a partir das relações ajustadas.
[606] A30. O método, de acordo com qualquer uma das reivindicações A1 a A29 que compreende estimar coeficientes a partir da relação para cada porção entre (i) a fração de ácido nucleico fetal para cada de várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras.
[607] A31. O método, de acordo com a reivindicação A29 ou A30, em que cada das relações ajustadas é um modelo de regressão e os fatores de ponderação são, ou são baseados em coeficientes de regressão a partir das relações ajustadas.
[608] A32. O método, de acordo com a reivindicação A31, em que o modelo de regressão é escolhido a partir de um modelo de regressão linear, modelo de regressão simples, modelode regressão dos mínimos quadrados ordinários, modelo de regressão múltipla, modelo de regressão múltipla geral, modelo de regressão polinomial, modelo linear geral, modelo linear generalizado, modelo de regressão de escolha discreta, modelo de regressão logística, o modelo logit multinomial, modelo logit misturado, modelo probit, modelo probit multinomial, modelo logit ordenado, modelo probit ordenado, modelo de Poisson, modelo de regressão de resposta multivariada, modelo de multinível, modelo de efeitos fixos, modelo de efeitos aleatórios, modelo misturado, modelo de regressão não-linear, modelo não- paramétrico, modelo semiparamétrico, modelo robusto, modelo quantis, modelo isotônico, modelo de componentes principais, modelo de ângulo menor, modelo local, modelo segmentado, e modelo de erros em variáveis.
[609] A33. O método, de acordo com a reivindicação A29 ou A30, em que cada das relações ajustadas não é um modelo de regressão.
[610] A34. O método, de acordo com a reivindicação A33, em que cada uma das relações ajustadas é escolhida a partir de um modelo de árvore de decisão, modelo de máquina de vetor de suporte e modelo de rede neural.
[611] A35. O método, de acordo com qualquer uma das reivindicações A1 a A34, em que as relações ajustadas são ajustadas por uma estimativa de mínimos quadrados, mínimos quadrados comuns, regressão linear, parcial, total, generalizada, pesada, não-linear, interativamente repesada, regressão de cumeeira, desvios menos absolutos, Bayesian, Bayesian multivariada, ranque reduzido, LASSO, estimador de rede elástica e combinação destes.
[612] A36. O método, de acordo com qualquer uma das reivindicações A1 a A35 em que compreende, antes de (a), determinar as sequências sequenciando o ácido nucleico isento de célula circulante de um sujeito de teste.
[613] A37. O método, de acordo com a reivindicação A36 em que compreende, antes de (a), o mapeamento das sequências para as porções do genoma de referência.
[614] A38. O método, de acordo com a reivindicação A36 ou A37 em que compreende, antes de (a), o isolamento do ácido nucleico isento de célula circulante da amostra de teste.
[615] A39. O método, de acordo com a reivindicação A38 em que compreende, antes de (a), o isolamento da amostra de teste do sujeito teste.
[616] A40. O método, de acordo com qualquer uma das reivindicações A1 a 39 em que compreende determinar a presença ou ausência de uma aneuploidia em cromossomo fetal para a amostra de teste com base na fração estimada do ácido nucleico fetal.
[617] A41. O Método, de acordo com a reivindicação A40 em que a aneuploidia do cromossomo fetal é uma trissomia.
[618] A42. O método, de acordo com a reivindicação A41 em que a trissomia é escolhida a partir de uma trissomia do cromossomo 21, cromossomo 18, cromossomo 13 ou uma combinação destes.
[619] A43. O método, de acordo com a reivindicação A41 ou A42 em que a presença ou ausência da trissomia é determinada com uma sensibilidade de 95% ou maior, ou uma especificidade de 95% ou maior, ou uma sensibilidade de 95% ou maior e uma especificidade de 95% ou maior.
[620] A44. Um sistema que compreende um ou mais microprocessadores e memória, em que a memória compreende instruções executáveis por um ou mais microprocessadores e que a memória compreende as sequência de nucleotídeos mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante a partir de uma amostra de teste de uma mulher grávida, e que instruções executáveis por um ou mais microprocessadores são configuradas para: (a) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas de fração fetal específica da porção de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado a partir de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada uma das várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras; e (b) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
[621] A45. Máquina que compreende um ou mais microprocessadores e memória, cuja memória compreende instruções executáveis por um ou mais microprocessadores e que a memória compreende as sequências de nucleotídeos mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante a partir de uma amostra de teste de uma mulher grávida, e que instruções executáveis por um ou mais microprocessadores são configuradas para: (a) ponderar, usando um microprocessador, (i) as contagens das sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas de fração fetal específica da porção de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado a partir de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada uma das várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras; e (b) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
[622] A46. Meio de armazenamento legível por computador não-transitório com um programa executável armazenado no mesmo, em que o programa instrui um microprocessador para executar o seguinte: (a) acessar sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida; (b) ponderar, usando um microprocessador, (i) as contagens de sequências mapeadas para cada porção, ou (ii) outro parâmetro específico da porção, a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associados independentemente com cada porção fornecendo, desse modo, estimativas de fração fetal específica da porção de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação foi determinado a partir de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada uma das várias amostras, e (ii) contagens de sequências mapeadas para cada porção, ou outro parâmetro específico da porção, para as várias amostras; e (c) estimar a fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
[623] B1. Método para estimar uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida, compreendendo: (a) obter contagens de sequências mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida; (b)(i) ajustar, usando um microprocessador, as contagens das sequências mapeadas para cada porção de acordo com um fator de ponderação atribuído independentemente para cada porção fornecendo, desse modo, as contagens ajustadas para as porções, ou (b)(ii) selecionar, usando um microprocessador, um subconjunto de porções fornecendo, desse modo, um subconjunto de contagens, em que o ajuste em (b)(i) ou a seleção ou em (b)(ii) está de acordo com as porções para as quais um aumento da quantidade de sequências de ácido nucleico fetal são mapeadas; e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas contagens ajustadas ou o subconjunto de contagens.
[624] B2. O método, de acordo com a reivindicação B1, em que as porções para as quais um aumento da quantidade de sequências de ácido nucleico fetal são mapeadas são determinadas de acordo com uma proporção de X para Y, em que X é a quantidade de sequências derivadas de fragmentos isentos de célula circulante (CCF) tendo um comprimento menor do que um comprimento do primeiro fragmento selecionado, e Y é a quantidade de sequências derivadas de fragmentos CCF tendo um comprimento menor do que um segundo fragmento de comprimento selecionado.
[625] B3. O método, de acordo com a reivindicação B2, em que a proporção é uma proporção média de várias amostras.
[626] B4. Método, de acordo com a reivindicação B3, em que o fator de ponderação é determinado, ou porções são selecionadas, de acordo com uma porção que tem uma proporção média maior do que a proporção média calculada para as porções.
[627] B5. O método, de acordo com qualquer uma das reivindicações B2 a B4 em que o comprimento do primeiro fragmento selecionado é cerca de 140 a cerca de 160 bases e o segundo comprimento do fragmento selecionado é cerca de 500 a cerca de 700 bases.
[628] B6. O método, de acordo com a reivindicação B5, em que o comprimento do primeiro fragmento selecionado é cerca de 150 bases e o segundo comprimento do fragmento selecionado é cerca de 600 bases.
[629] B7. Um sistema que compreende um ou mais microprocessadores e memória, cuja a memória compreende instruções executáveis por um ou mais microprocessadores e que a memória compreende sequências de nucleotídeos mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e que instruções executáveis por um ou mais microprocessadores são configuradas para: (a)(i) ajustar, usando um microprocessador, as contagens de sequências mapeadas para cada porção de acordo com um fator de ponderação atribuído independentemente para cada porção fornecendo, desse modo, contagens ajustadas para as porções, ou (a)(ii) selecionar, usando um microprocessador, um subconjunto de porções fornecendo, desse modo, um subconjunto de contagens, em que o ajuste em (b)(i) ou a seleção em (b)(ii) está de acordo com as porções para as quais um aumento da quantidade de sequências de ácido nucleico fetal são mapeadas; e (b) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas contagens ajustadas ou o subconjunto de contagens.
[630] B8. Uma máquina que compreende um ou mais microprocessadores e memória, cuja memória compreende instruções executáveis por um ou mais microprocessadores e que a memória compreende as sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e que instruções executáveis por um ou mais microprocessadores são configuradas para: (a)(i) ajustar, usando um microprocessador, as contagens das sequências mapeadas para cada porção de acordo com um fator de ponderação atribuído independentemente para cada porção fornecendo, desse modo, contagens ajustadas para as porções, ou (a)(ii) selecionar, usando um microprocessador, um subconjunto de porções fornecendo, desse modo, um subconjunto de contagens, em que o ajuste em (b)(i) ou a seleção em (b)(ii) está de acordo com as porções para as quais um aumento da quantidade de sequências de ácido nucleico fetal são mapeadas; e (b) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas contagens ajustadas ou o subconjunto de contagens.
[631] B9. Meio de armazenamento legível por computador não-transitório com um programa executável armazenado no mesmo, em que o programa instrui um microprocessador para executar o seguinte: (a) acessar sequências de nucleotídeo mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida; (b)(i) ajustar, usando um microprocessador, as contagens de sequências mapeadas para cada porção de acordo com um fator de ponderação atribuído independentemente para cada porção fornecendo, desse modo, contagens ajustadas para as porções, ou (b)(ii) selecionar, usando um microprocessador, um subconjunto de porções fornecendo, desse modo, um subconjunto de contagens, em que o ajuste em (b)(i) ou a seleção em (b) (ii) está de acordo com as porções para as quais um aumento da quantidade de sequências de ácido nucleico fetal são mapeadas; e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas contagens ajustadas ou o subconjunto de contagens.
[632] C1. Método para aumentar a precisão da estimativa de uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida, compreendendo: obter contagens de sequências mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida; em que pelo menos um subconjunto das contagens obtidas são derivadas de uma região do genoma que contribui com um maior número de contagens derivadas de ácido nucleico fetal em relação às contagens totais da região do que as contagens de ácido nucleico fetal em relação às contagens totais de outra região do genoma.
[633] C2. Método, de acordo com a reivindicação C1, compreendendo: ajustar, usando um microprocessador, as contagens das sequências mapeadas para cada porção de acordo com um fator de ponderação atribuído independentemente para cada porção fornecendo, desse modo, contagens ajustadas para as porções, ou selecionar, usando um microprocessador, um subconjunto de porções fornecendo, desse modo, um subconjunto de contagens; e estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas contagens ajustadas ou o subconjunto de contagens.
[634] C3. Método, de acordo com a reivindicação C1 ou C2, em que a região do genoma que contribui com um maior número de contagens derivadas de ácido nucleico fetal é determinada de acordo com uma proporção de X para Y, em que X é a quantidade de sequências derivadas de fragmentos isentos de célula circulante (CCF) tendo um comprimento menor do que um comprimento do primeiro fragmento selecionado, e Y é a quantidade de sequências derivadas de fragmentos CCF tendo um comprimento menor do que um segundo fragmento de comprimento selecionado.
[635] C4. Método, de acordo com a reivindicação C3, em que a proporção é uma proporção média para várias amostras.
[636] C5. Método, de acordo com a reivindicação C4, em que o fator de ponderação é determinado, ou porções são selecionadas, de acordo com uma porção que tem uma proporção média maior do que a proporção média calculada para as porções.
[637] C6. Método, de acordo com qualquer uma das reivindicações C3 a C5, em que o comprimento do primeiro fragmento selecionado é cerca de 140 a cerca de 160 bases e o segundo comprimento do fragmento selecionado é cerca de 500 a cerca de 700 bases.
[638] C7. Método, de acordo com a reivindicação C6, em que o comprimento do primeiro fragmento selecionado é cerca de 150 bases e o segundo comprimento do fragmento selecionado é cerca de 600 bases.
[639] A totalidade de cada patente, pedido de patente, publicação e documento referenciados aqui por esse meio é incorporada por referência. A citação de patentes, pedidos de patente, publicações e documentos acima não é uma admissão de que qualquer um dos anteriores é técnica anterior pertinente, nem constitui qualquer admissão aos conteúdos ou data destas publicações ou documentos.
[640] As modificações podem ser feitas no precedente sem se afastar dos aspectos básicos da tecnologia. Embora a tecnologia tenha sido descrita em detalhe com referência substancial a uma ou mais modalidades específicas, aqueles versados na técnica reconhecerão que alterações podem ser feitas às modalidades especificamente descritas nesse pedido, ainda estas modificações e melhorias estão dentro do escopo e espírito da tecnologia.
[641] A tecnologia ilustrativamente aqui descrita pode ser adequadamente praticada na ausência de qualquer elemento(s) não especificamente aqui revelado. Desse modo, por exemplo, em cada caso, aqui qualquer um dos termos "compreendendo", "consistindo essencialmente em" e "consistindo em" podem ser substituídos por qualquer um dos outros dois termos. Os termos e expressões que foram empregados são usados como termos de descrição e não de limitação, e o uso de tais termos e expressões não excluem quaisquer equivalentes das características mostradas e descritas ou seus segmentos, e várias modificações são possíveis dentro do escopo da tecnologia reivindicada. O termo "um" ou "uma" pode se referir a um ou uma pluralidade dos elementos que modificam (por exemplo, "um reagente" pode significar um ou mais reagentes) a menos que seja contextualmente claro qualquer um dos elementos ou mais do que um dos elementos seja descrito. O termo "cerca de" tal como aqui usado refere-se a um valor dentro de 10% do parâmetro subjacente (ou seja, mais ou menos 10%), e o uso do termo "cerca de", no início de uma série de valores modifica cada dos valores (ou seja, "cerca de 1, 2 e 3" refere-se a cerca de 1, cerca de 2 e cerca de 3). Por exemplo, um "peso de cerca de 100 gramas" pode incluir pesos entre 90 gramas e 110 gramas. Além disso, quando uma lista de valores é aqui descrita (por exemplo, cerca de 50%, 60%, 70%, 80%, 85% ou 86%) a lista inclui todos os valores intermédios e fracionais dos mesmos (por exemplo, 54%, 85,4%). Desse modo, deve ser entendido que, embora a presente tecnologia tenha sido especificamente divulgada pelas modalidades representativas e características opcionais, modificação e variação dos conceitos aqui revelados podem ser invocadas por aqueles versados na técnica, e tais modificações e variações são consideradas dentro do escopo dessa tecnologia.
[642] Certas modalidades da tecnologia são apresentadas na reivindicação(ões) que se segue(m).

Claims (13)

1. Método para estimar uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida caracterizado por compreender: (a) obter contagens de sequências mapeadas para porções de um genoma de referência, cujas sequências são sequências de ácido nucleico isentas de célula circulante de uma amostra de teste de uma mulher grávida, e porções são (i) definidas com base em um particionamento do genoma de referência, em que o genoma de referência é particionado de acordo com um ou mais fatores escolhidos entre tamanho, conteúdo GC, regiões contíguas, regiões contíguas de um tamanho definido arbitrariamente e uma combinação dos mesmos, e (ii) escolhidas a partir de porções genômicas discretas, porções genômicas tendo sequências contínuas de comprimento pré-determinado, porções de tamanho variável, vistas baseadas em ponto de um mapa de cobertura nivelada, e uma combinação dos mesmos; (b) converter, usando um microprocessador, as contagens das sequências mapeadas de cada porção a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção fornecendo, desse modo, estimativas de fração fetal específica da porção para a amostra teste de acordo com os fatores de ponderação, em que cada um dos fatores de ponderação é determinado, ou baseado em, coeficientes estimados determinados de uma relação ajustada para cada porção entre (i) uma fração de ácido nucleico fetal para cada uma das várias amostras em um conjunto de treinamento, e (ii) contagens de sequências mapeadas para cada porção para as várias amostras; e (c) estimar uma fração de ácido nucleico fetal para a amostra de teste com base nas estimativas da fração fetal específica da porção.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os fatores de ponderação são associados com porções em uma pluralidade de porções que incluem porções nos autossomos ou seu subconjunto.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que os fatores de ponderação são associados com porções em uma pluralidade de porções que não incluem porções nos cromossomos 13, 18 e 21.
4. Método, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado pelo fato de que as contagens em (a) ou (b)(ii) são contagens normalizadas e em que as contagens normalizadas reduziram a tendência de guanina-citosina (GC) em relação às contagens brutas.
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que a estimativa da fração de ácido nucleico fetal na amostra de teste compreende o cálculo da média ou soma das estimativas da fração fetal específica da porção.
6. Método, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que o fator de ponderação para cada porção é proporcional à quantidade média de sequências a partir de fragmentos de ácido nucleico fetal CCF mapeados para a porção para as várias amostras.
7. Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por compreender coeficientes de estimativa da relação ajustada para cada porção entre (i) a fração de ácido nucleico fetal para cada uma de várias amostras em um conjunto de treinamento, e (ii) contagens de sequências mapeadas para cada porção para as várias amostras.
8. Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que cada uma das relações ajustadas é um modelo de regressão e os fatores de ponderação são, ou são baseados em, coeficientes de regressão das relações ajustadas.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que o modelo de regressão é escolhido a partir de um modelo de regressão linear, modelo de regressão simples, modelo de regressão de mínimos quadrados ordinário, modelo de regressão múltipla, modelo de regressão múltipla geral, modelo de regressão polinomial, modelo linear geral, modelo linear generalizado, modelo de regressão de escolha discreta, modelo de regressão logística, modelo de logit multinomial, modelo de logit misturado, modelo de probit, modelo de probit multinomial, modelo de logit ordenado, modelo de probit ordenado, modelo de Poisson, modelo de regressão de resposta multivariada, modelo multinível, modelo de efeitos fixos, modelo de efeitos aleatórios, modelo misturado, modelo de regressão não-linear, modelo não- paramétrico, modelo semi-paramétrico, modelo robusto, modelo quantis, modelo isotônico, modelo de componentes principais, modelo de ângulo mínimo, o modelo local, modelo segmentado, e modelos de erros nas variáveis.
10. Método, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado pelo fato de que cada uma das relações ajustadas não é um modelo de regressão.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que que cada uma das relações ajustadas é escolhida a partir de um modelo de árvore de decisão, modelo de máquina de vetor de suporte e modelo de rede neural.
12. Método, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado pelo fato de que as relações ajustadas são ajustadas por uma estimativa escolhida a partir de mínimos quadrados, mínimos quadrados comuns, regressão linear, parcial, total, generalizada, pesada, não-linear, interativamente repesada, regressão de cumeeira, desvios menos absolutos, Bayesian, Bayesian multivariada, ranque reduzido, LASSO, estimador de rede elástica e uma combinação destes.
13. Método, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado pelo fato de que a conversão das contagens das sequências mapeadas de cada porção a uma fração específica da porção de ácido nucleico fetal de acordo com um fator de ponderação associado independentemente com cada porção em (b) compreende a aplicação de uma manipulação matemática escolhida a partir da multiplicação, divisão, adição, subtração, integração, computação simbólica, computação algébrica, algoritmo, função trigonométrica ou geométrica, transformação, e uma combinação destes.
BR112015032031-7A 2013-06-21 2014-06-20 Métodos e processos para avaliação não invasiva das variações genéticas BR112015032031B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361838048P 2013-06-21 2013-06-21
US61/838,048 2013-06-21
PCT/US2014/043497 WO2014205401A1 (en) 2013-06-21 2014-06-20 Methods and processes for non-invasive assessment of genetic variations

Publications (3)

Publication Number Publication Date
BR112015032031A2 BR112015032031A2 (pt) 2017-07-25
BR112015032031A8 BR112015032031A8 (pt) 2022-12-20
BR112015032031B1 true BR112015032031B1 (pt) 2023-05-16

Family

ID=51177203

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015032031-7A BR112015032031B1 (pt) 2013-06-21 2014-06-20 Métodos e processos para avaliação não invasiva das variações genéticas

Country Status (23)

Country Link
US (2) US10622094B2 (pt)
EP (2) EP3011051B1 (pt)
JP (2) JP6473744B2 (pt)
KR (4) KR20240014606A (pt)
CN (2) CN105473741B (pt)
AU (4) AU2014284180B2 (pt)
BR (1) BR112015032031B1 (pt)
CA (1) CA2915628C (pt)
CY (1) CY1121704T1 (pt)
DK (1) DK3011051T3 (pt)
ES (1) ES2721051T3 (pt)
HK (1) HK1223656A1 (pt)
HR (1) HRP20190600T1 (pt)
HU (1) HUE042654T2 (pt)
IL (3) IL283586B2 (pt)
LT (1) LT3011051T (pt)
MX (3) MX2015016911A (pt)
PL (1) PL3011051T3 (pt)
PT (1) PT3011051T (pt)
RS (1) RS58599B1 (pt)
SI (1) SI3011051T1 (pt)
TR (1) TR201904345T4 (pt)
WO (1) WO2014205401A1 (pt)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032569B2 (en) * 2009-08-26 2018-07-24 University Of Maryland, College Park Nanodevice arrays for electrical energy storage, capture and management and method for their formation
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
WO2012177792A2 (en) 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013109981A1 (en) 2012-01-20 2013-07-25 Sequenom, Inc. Diagnostic processes that factor experimental conditions
EP2846690B1 (en) 2012-05-10 2020-10-28 University Of Washington Through Its Center For Commercialization Sound-based spirometric device
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014165596A1 (en) 2013-04-03 2014-10-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014190286A2 (en) 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK3011051T3 (en) * 2013-06-21 2019-04-23 Sequenom Inc Method for non-invasive evaluation of genetic variations
ES2968644T3 (es) 2013-10-04 2024-05-13 Sequenom Inc Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
JP6680680B2 (ja) 2013-10-07 2020-04-15 セクエノム, インコーポレイテッド 染色体変化の非侵襲性評価のための方法およびプロセス
KR102429186B1 (ko) * 2013-10-21 2022-08-03 베리나타 헬스, 인코포레이티드 사본수 변동을 결정함에 있어서 검출의 감수성을 향상시키기 위한 방법
EP3736344A1 (en) 2014-03-13 2020-11-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8990191B1 (en) * 2014-03-25 2015-03-24 Linkedin Corporation Method and system to determine a category score of a social network member
US10490299B2 (en) * 2014-06-06 2019-11-26 Battelle Memorial Institute Identification of traits associated with DNA samples using epigenetic-based patterns detected via massively parallel sequencing
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3730629A1 (en) 2014-10-10 2020-10-28 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3018213A1 (en) * 2014-11-04 2016-05-11 Genesupport SA Method for determining the presence of a biological condition by determining total and relative amounts of two different nucleic acids
US11072814B2 (en) 2014-12-12 2021-07-27 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
WO2016154139A1 (en) * 2015-03-20 2016-09-29 University Of Washington Sound-based spirometric devices, systems, and methods using audio data transmitted over a voice communication channel
WO2016160932A1 (en) * 2015-03-30 2016-10-06 The Trustees Of The University Of Pennsylvania System and method for virtual radiation therapy quality assurance
EP3283657B1 (en) 2015-04-17 2023-06-21 The Translational Genomics Research Institute Quality assessment of circulating cell-free dna using multiplexed droplet digital pcr
DE102015118208B4 (de) * 2015-10-26 2022-11-10 Sick Ag Analysevorrichtung zum Analysieren einer Gasprobe sowie Verfahren zum Analysieren einer Gasprobe
WO2017087206A1 (en) * 2015-11-16 2017-05-26 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CN108475301A (zh) * 2015-12-04 2018-08-31 绿十字基因组公司 用于确定包含核酸的混合物的样品中的拷贝数变异的方法
CN105543380B (zh) * 2016-01-27 2019-03-15 北京诺禾致源科技股份有限公司 一种检测基因融合的方法及装置
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
EP3454058A4 (en) * 2016-03-14 2020-02-26 Shimadzu Corporation MASS SPECTROMETRY DATA ANALYSIS DEVICE AND PROGRAM FOR MASS SPECTROMETRY DATA ANALYSIS
US20170342477A1 (en) 2016-05-27 2017-11-30 Sequenom, Inc. Methods for Detecting Genetic Variations
CN107480470B (zh) * 2016-06-08 2020-08-11 广州华大基因医学检验所有限公司 基于贝叶斯与泊松分布检验的已知变异检出方法和装置
CA3030894A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
EP3491560A1 (en) 2016-07-27 2019-06-05 Sequenom, Inc. Genetic copy number alteration classifications
WO2018034745A1 (en) * 2016-08-18 2018-02-22 The Regents Of The University Of California Nanopore sequencing base calling
JP6622921B2 (ja) * 2016-09-02 2019-12-18 株式会社日立ハイテクノロジーズ 文字列辞書の構築方法、文字列辞書の検索方法、および、文字列辞書の処理システム
CN108241687B (zh) * 2016-12-26 2022-05-17 阿里巴巴集团控股有限公司 一种可视化图表信息的处理方法及装置
EP3571614A1 (en) 2017-01-20 2019-11-27 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
EP3571615B1 (en) 2017-01-20 2024-01-24 Sequenom, Inc. Methods for non-invasive assessment of genetic alterations
EP3571317A1 (en) 2017-01-20 2019-11-27 Sequenom, Inc. Sequencing adapter manufacture and use
WO2018140521A1 (en) 2017-01-24 2018-08-02 Sequenom, Inc. Methods and processes for assessment of genetic variations
EP3998350A1 (en) 2017-03-17 2022-05-18 Sequenom, Inc. Methods and processes for assessment of genetic mosaicism
CN107491656B (zh) * 2017-09-04 2020-01-14 北京航空航天大学 一种基于相对危险度决策树模型的妊娠结局影响因子评估方法
SG11202001747XA (en) * 2017-09-07 2020-03-30 Regeneron Pharma System and method for predicting relatedness in a human population
CN108229101B (zh) * 2017-12-29 2021-07-06 北京科迅生物技术有限公司 基于ngs的靶向测序数据模拟方法和装置
CN108108592B (zh) * 2017-12-29 2020-06-16 北京聚道科技有限公司 一种用于遗传变异致病性打分的机器学习模型的构建方法
WO2019195346A1 (en) 2018-04-02 2019-10-10 Progenity, Inc. Methods, systems, and compositions for counting nucleic acid molecules
CN110634535A (zh) * 2018-06-06 2019-12-31 中国石油化工股份有限公司 一种基于蒙特卡洛法的化工过程参数敏感性确定方法
CN108964102B (zh) * 2018-07-26 2022-03-25 华北电力大学(保定) 配电网中分布式储能的位置和容量优化配置方法
CA3117889A1 (en) 2018-11-15 2020-05-22 Quantum-Si Incorporated Methods and compositions for protein sequencing
KR102287096B1 (ko) * 2019-01-04 2021-08-09 테라젠지놈케어 주식회사 모체 시료 중 태아 분획을 결정하는 방법
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
EP3938534A4 (en) 2019-03-13 2023-03-29 Grail, LLC SYSTEMS AND METHODS FOR ENRICHMENT OF CANCER DERIVED FRAGMENTS USING FRAGMENT SIZE
WO2020206170A1 (en) 2019-04-02 2020-10-08 Progenity, Inc. Methods, systems, and compositions for counting nucleic acid molecules
KR20220013349A (ko) 2019-06-03 2022-02-04 일루미나, 인코포레이티드 검출 한계 기반 품질 제어 메트릭
US20210148921A1 (en) * 2019-10-28 2021-05-20 Quantum-Si Incorporated Methods of preparing an enriched sample for polypeptide sequencing
CA3159786A1 (en) 2019-10-31 2021-05-06 Sequenom, Inc. Application of mosaicism ratio in multifetal gestations and personalized risk assessment
CN111063430B (zh) * 2019-11-04 2024-01-26 珠海健康云科技有限公司 一种疾病预测方法及装置
WO2021174371A1 (en) * 2020-03-06 2021-09-10 Citiiq, A Division Of Blyth Group Inc. Normalization and aggregation device and method for generating city scores
CN113553568A (zh) * 2020-04-23 2021-10-26 京东数字科技控股有限公司 人机识别方法、滑块验证方法、装置、介质和设备
CN116157869A (zh) 2020-12-02 2023-05-23 伊鲁米纳软件公司 用于检测遗传改变的系统和方法
WO2022140579A1 (en) * 2020-12-24 2022-06-30 Progenity, Inc. Methods of preparing assays, systems, and compositions for determining fetal fraction
WO2023031641A1 (en) * 2021-09-03 2023-03-09 Inserm ( Institut National De La Sante Et De La Recherche Medicale) Methods and devices for non-invasive prenatal testing
AU2023220947A1 (en) 2022-02-16 2024-01-18 Illumina, Inc. Minimizing fetal fraction bias in maternal polygenic risk score estimation
CN114461535B (zh) * 2022-04-14 2022-07-12 山东建筑大学 面向并行变异算子的顽固变异体测试数据生成方法及系统

Family Cites Families (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US5720928A (en) 1988-09-15 1998-02-24 New York University Image processing and analysis of individual nucleic acid molecules
US5075212A (en) 1989-03-27 1991-12-24 University Of Patents, Inc. Methods of detecting picornaviruses in biological fluids and tissues
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5641628A (en) 1989-11-13 1997-06-24 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
SG48759A1 (en) 1990-01-12 2002-07-23 Abgenix Inc Generation of xenogenic antibodies
US5091652A (en) 1990-01-12 1992-02-25 The Regents Of The University Of California Laser excited confocal microscope fluorescence scanner and method
US5432054A (en) 1994-01-31 1995-07-11 Applied Imaging Method for separating rare cells from a population of cells
CA2157219C (en) 1994-08-31 2010-10-05 Munehiro Noda Process for purifying recombinant human serum albumin
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
CA2207952A1 (en) 1994-12-23 1996-07-04 David Thornley Automated dna sequencing
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5670325A (en) 1996-08-14 1997-09-23 Exact Laboratories, Inc. Method for the detection of clonal populations of transformed cells in a genomically heterogeneous cellular sample
EP1021554B1 (en) 1996-04-25 2007-03-21 Genicon Sciences Corporation Analyte assay using particulate labels
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US5928870A (en) 1997-06-16 1999-07-27 Exact Laboratories, Inc. Methods for the detection of loss of heterozygosity
US6100029A (en) 1996-08-14 2000-08-08 Exact Laboratories, Inc. Methods for the detection of chromosomal aberrations
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US6403311B1 (en) 1997-02-12 2002-06-11 Us Genomics Methods of analyzing polymers using ordered label strategies
GB9704444D0 (en) 1997-03-04 1997-04-23 Isis Innovation Non-invasive prenatal diagnosis
US6566101B1 (en) 1997-06-16 2003-05-20 Anthony P. Shuber Primer extension methods for detecting nucleic acids
US6570001B1 (en) 1997-06-20 2003-05-27 Institut Pasteur Polynucleotides and their use for detecting resistance to streptogramin A or to streptogramin B and related compounds
CA2339121A1 (en) 1998-07-30 2000-02-10 Shankar Balasubramanian Arrayed biomolecules and their use in sequencing
US6263286B1 (en) 1998-08-13 2001-07-17 U.S. Genomics, Inc. Methods of analyzing polymers using a spatial network of fluorophores and fluorescence resonance energy transfer
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US20050287592A1 (en) 2000-08-29 2005-12-29 Yeda Research And Development Co. Ltd. Template-dependent nucleic acid polymerization using oligonucleotide triphosphates building blocks
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
DE60027040T2 (de) 1999-10-29 2006-11-23 Stratagene California, La Jolla Zusammensetzungen und methoden zur verwendung von dna polymerasen
WO2001062952A1 (en) 2000-02-24 2001-08-30 Dna Sciences, Inc. Methods for determining single nucleotide variations
US6664056B2 (en) 2000-10-17 2003-12-16 The Chinese University Of Hong Kong Non-invasive prenatal monitoring
AU2002239284A1 (en) 2000-11-27 2002-06-03 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
DE10112515B4 (de) 2001-03-09 2004-02-12 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern mit hoher Sensitivität
JP2004523243A (ja) 2001-03-12 2004-08-05 カリフォルニア インスティチュート オブ テクノロジー 非同期性塩基伸長によってポリヌクレオチド配列を分析するための方法および装置
AU2002318386A1 (en) 2001-06-21 2003-01-08 Agilent Technologies, Inc. Methods for characterization of nucleic acid molecules
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
US20030157489A1 (en) 2002-01-11 2003-08-21 Michael Wall Recursive categorical sequence assembly
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
WO2003078593A2 (en) 2002-03-15 2003-09-25 Epigenomics Ag Discovery and diagnostic methods using 5-methylcytosine dna glycosylase
US20040110208A1 (en) 2002-03-26 2004-06-10 Selena Chan Methods and device for DNA sequencing using surface enhanced Raman scattering (SERS)
US7744816B2 (en) 2002-05-01 2010-06-29 Intel Corporation Methods and device for biomolecule characterization
US7005264B2 (en) 2002-05-20 2006-02-28 Intel Corporation Method and apparatus for nucleic acid sequencing and identification
US20050019784A1 (en) 2002-05-20 2005-01-27 Xing Su Method and apparatus for nucleic acid sequencing and identification
US6952651B2 (en) 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
CN102344960B (zh) 2002-09-06 2014-06-18 波士顿大学信托人 基因表达的定量
US7820378B2 (en) 2002-11-27 2010-10-26 Sequenom, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
JP5183063B2 (ja) 2003-07-05 2013-04-17 ザ ジョンズ ホプキンス ユニバーシティ 遺伝的変異の検出および列挙のための方法ならびに組成物
US7846738B2 (en) 2003-08-15 2010-12-07 President And Fellows Of Harvard College Study of polymer molecules and conformations with a nanopore
AU2004270220B2 (en) 2003-09-05 2009-03-05 The Chinese University Of Hong Kong Method for non-invasive prenatal diagnosis
EP1524321B2 (en) 2003-10-16 2014-07-23 Sequenom, Inc. Non-invasive detection of fetal genetic traits
US20050095599A1 (en) 2003-10-30 2005-05-05 Pittaro Richard J. Detection and identification of biopolymers using fluorescence quenching
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050147980A1 (en) 2003-12-30 2005-07-07 Intel Corporation Nucleic acid sequencing by Raman monitoring of uptake of nucleotides during molecular replication
US20100216151A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
US7279337B2 (en) 2004-03-10 2007-10-09 Agilent Technologies, Inc. Method and apparatus for sequencing polymers through tunneling conductance variation detection
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
US7972858B2 (en) 2004-08-13 2011-07-05 President And Fellows Of Harvard College Ultra high-throughput opti-nanopore DNA readout platform
ATE443161T1 (de) 2004-11-29 2009-10-15 Univ Regensburg Klinikum Mittel und verfahren für den nachweis von methylierter dna
JP5219516B2 (ja) 2005-03-18 2013-06-26 ザ チャイニーズ ユニバーシティー オブ ホンコン 染色体異数性の検出方法
WO2007065025A2 (en) 2005-11-29 2007-06-07 Wisconsin Alumni Research Foundation Method of dna analysis using micro/nanochannel
PT2385143T (pt) 2006-02-02 2016-10-18 Univ Leland Stanford Junior Rastreio genético fetal não-invasivo por análise digital
DK2351858T3 (da) 2006-02-28 2015-04-07 Univ Louisville Res Found Påvisning af føtale kromosomabnormiteter ved anvendelse af tandem-enkeltnukleotid-polymorfismer
CN101401101B (zh) 2006-03-10 2014-06-04 皇家飞利浦电子股份有限公司 用于通过谱分析鉴定dna模式的方法和系统
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US20090075252A1 (en) 2006-04-14 2009-03-19 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8679741B2 (en) 2006-05-31 2014-03-25 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
EP2029779A4 (en) 2006-06-14 2010-01-20 Living Microsystems Inc HIGHLY PARALLEL SNP GENOTYPING UTILIZATION FOR FETAL DIAGNOSIS
US8137912B2 (en) 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
AU2007260750A1 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US20080081330A1 (en) 2006-09-28 2008-04-03 Helicos Biosciences Corporation Method and devices for analyzing small RNA molecules
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP1944273A1 (en) 2007-01-15 2008-07-16 Rockwool International A/S Process and apparatus for making mineral fibers
US8003319B2 (en) 2007-02-02 2011-08-23 International Business Machines Corporation Systems and methods for controlling position of charged polymer inside nanopore
AU2008232616B2 (en) 2007-03-28 2014-08-07 Bionano Genomics, Inc. Methods of macromolecular analysis using nanochannel arrays
KR101521990B1 (ko) 2007-04-04 2015-05-20 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 나노포어 사용을 위한 조성물, 장치, 시스템 및 방법
GB0713143D0 (en) 2007-07-06 2007-08-15 Ucl Business Plc Nucleic acid detection method
CA2694007C (en) 2007-07-23 2019-02-26 The Chinese University Of Hong Kong Determining a nucleic acid sequence imbalance
US9218449B2 (en) 2007-07-23 2015-12-22 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
US9404150B2 (en) 2007-08-29 2016-08-02 Sequenom, Inc. Methods and compositions for universal size-specific PCR
JP2010539991A (ja) 2007-10-04 2010-12-24 ハルシオン モレキュラー 電子顕微鏡を用いた核酸ポリマーの配列決定
US7767400B2 (en) 2008-02-03 2010-08-03 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis
CA2717320A1 (en) 2008-03-11 2009-09-17 Sequenom, Inc. Nucleic acid-based tests for prenatal gender determination
CA2718137A1 (en) 2008-03-26 2009-10-01 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
JP5730762B2 (ja) 2008-06-30 2015-06-10 バイオナノ ジェノミックス、インク. 単一分子全ゲノム解析のための方法及び装置
EP2682460B1 (en) 2008-07-07 2017-04-26 Oxford Nanopore Technologies Limited Enzyme-pore constructs
JP2011527191A (ja) 2008-07-07 2011-10-27 オックスフォード ナノポア テクノロジーズ リミテッド 塩基検出細孔
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
EP3770255A1 (en) 2008-09-16 2021-01-27 Sequenom, Inc. Processes and compositions for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
PT2562268T (pt) 2008-09-20 2017-03-29 Univ Leland Stanford Junior Diagnóstico não invasivo de aneuploidia fetal por sequenciação
SG195652A1 (en) 2008-11-07 2013-12-30 Sequenta Inc Methods of monitoring conditions by sequence analysis
US20110301042A1 (en) 2008-11-11 2011-12-08 Helicos Biosciences Corporation Methods of sample encoding for multiplex analysis of samples by single molecule sequencing
CN102292454B (zh) 2008-11-18 2014-11-26 博纳基因技术有限公司 多核苷酸作图和测序
WO2010065470A2 (en) 2008-12-01 2010-06-10 Consumer Genetics, Inc. Compositions and methods for detecting background male dna during fetal sex determination
US9051602B2 (en) 2008-12-22 2015-06-09 Celula, Inc. Methods and genotyping panels for detecting alleles, genomes, and transcriptomes
US8455260B2 (en) 2009-03-27 2013-06-04 Massachusetts Institute Of Technology Tagged-fragment map assembly
EP3514244B1 (en) 2009-04-03 2021-07-07 Sequenom, Inc. Nucleic acid preparation methods
US8246799B2 (en) 2009-05-28 2012-08-21 Nabsys, Inc. Devices and methods for analyzing biomolecules and probes bound thereto
US20100330557A1 (en) 2009-06-30 2010-12-30 Zohar Yakhini Genomic coordinate system
US8825412B2 (en) 2010-05-18 2014-09-02 Natera, Inc. Methods for non-invasive prenatal ploidy calling
CN102666946B (zh) 2009-09-28 2017-09-05 生物纳米基因组公司 用于聚合物分析的纳米通道阵列和近场照射装置以及相关方法
JP2013507964A (ja) 2009-10-21 2013-03-07 バイオナノ ジェノミックス、インク. 単一分子全ゲノム解析のための方法及び関連装置
HRP20230134T1 (hr) 2009-11-05 2023-03-31 The Chinese University Of Hong Kong Analiza genoma fetusa iz biološkog uzorka majke
MX2012005217A (es) * 2009-11-06 2012-07-23 Univ Hong Kong Chinese Analisis genomico a base de tamaño.
US9926593B2 (en) 2009-12-22 2018-03-27 Sequenom, Inc. Processes and kits for identifying aneuploidy
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
EP2526415B1 (en) 2010-01-19 2017-05-03 Verinata Health, Inc Partition defined detection methods
ES2704701T3 (es) 2010-01-19 2019-03-19 Verinata Health Inc Nuevo protocolo de preparación de bibliotecas de secuenciación
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
US9260745B2 (en) 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
EP2513341B1 (en) 2010-01-19 2017-04-12 Verinata Health, Inc Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
US20110312503A1 (en) 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection
SG185544A1 (en) 2010-05-14 2012-12-28 Fluidigm Corp Nucleic acid isolation methods
EP2591433A4 (en) 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
EP2596127A2 (en) 2010-07-23 2013-05-29 Esoterix Genetic Laboratories, LLC Identification of differentially represented fetal or maternal genomic regions and uses thereof
ES2770342T3 (es) 2010-12-22 2020-07-01 Natera Inc Procedimientos para pruebas prenatales no invasivas de paternidad
CN103384725A (zh) 2010-12-23 2013-11-06 塞昆纳姆股份有限公司 胎儿遗传变异的检测
JP6105485B2 (ja) 2011-01-05 2017-04-05 ザ・チャイニーズ・ユニバーシティー・オブ・ホンコンThe Chinese University Of Hong Kong 胎児の性染色体遺伝子型の非侵襲的出生前同定
US20120190020A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Detection of genetic abnormalities
WO2012108920A1 (en) 2011-02-09 2012-08-16 Natera, Inc Methods for non-invasive prenatal ploidy calling
CA3160848A1 (en) 2011-02-24 2013-03-28 The Chinese University Of Hong Kong Molecular testing of multiple pregnancies
WO2012118745A1 (en) 2011-02-28 2012-09-07 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination
GB2484764B (en) 2011-04-14 2012-09-05 Verinata Health Inc Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
US9411937B2 (en) 2011-04-15 2016-08-09 Verinata Health, Inc. Detecting and classifying copy number variation
CN103080336B (zh) 2011-05-31 2014-06-04 北京贝瑞和康生物技术有限公司 检测胚胎或肿瘤染色体拷贝数的试剂盒、装置和方法
WO2012177792A2 (en) * 2011-06-24 2012-12-27 Sequenom, Inc. Methods and processes for non-invasive assessment of a genetic variation
SG191757A1 (en) 2011-06-29 2013-08-30 Bgi Health Service Co Ltd Noninvasive detection of fetal genetic abnormality
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
US10196681B2 (en) * 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK2764459T3 (da) 2011-10-06 2021-08-23 Sequenom Inc Fremgangsmåder og processer til ikke-invasiv bedømmelse af genetiske variationer
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2851537C (en) 2011-10-11 2020-12-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013109981A1 (en) 2012-01-20 2013-07-25 Sequenom, Inc. Diagnostic processes that factor experimental conditions
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
EP2852680B1 (en) 2012-05-21 2019-12-25 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
SG11201501662TA (en) 2012-09-04 2015-05-28 Guardant Health Inc Systems and methods to detect rare mutations and copy number variation
EP2904534B1 (en) 2012-10-04 2021-12-15 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014165596A1 (en) 2013-04-03 2014-10-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014190286A2 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
DK3011051T3 (en) * 2013-06-21 2019-04-23 Sequenom Inc Method for non-invasive evaluation of genetic variations
US10174375B2 (en) 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
ES2968644T3 (es) 2013-10-04 2024-05-13 Sequenom Inc Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
JP6680680B2 (ja) 2013-10-07 2020-04-15 セクエノム, インコーポレイテッド 染色体変化の非侵襲性評価のための方法およびプロセス
US20150347676A1 (en) 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Also Published As

Publication number Publication date
US20150005176A1 (en) 2015-01-01
HUE042654T2 (hu) 2019-07-29
IL303830A (en) 2023-08-01
IL242903B (en) 2021-06-30
IL283586B2 (en) 2023-11-01
MX2023000563A (es) 2023-02-13
JP2016533173A (ja) 2016-10-27
BR112015032031A8 (pt) 2022-12-20
AU2020203134A1 (en) 2020-06-04
KR102299305B1 (ko) 2021-09-06
PT3011051T (pt) 2019-03-27
RS58599B1 (sr) 2019-05-31
KR20240014606A (ko) 2024-02-01
EP3011051B1 (en) 2019-01-30
US20200294625A1 (en) 2020-09-17
AU2024201018A1 (en) 2024-03-07
CN105473741B (zh) 2022-04-19
CA2915628A1 (en) 2014-12-24
KR102447079B1 (ko) 2022-09-23
DK3011051T3 (en) 2019-04-23
AU2020203134B2 (en) 2021-09-23
BR112015032031A2 (pt) 2017-07-25
MX2015016911A (es) 2016-06-21
SI3011051T1 (sl) 2019-05-31
AU2014284180A1 (en) 2016-02-11
HK1223656A1 (zh) 2017-08-04
IL283586A (en) 2021-07-29
JP6473744B2 (ja) 2019-02-20
KR20160022374A (ko) 2016-02-29
JP2018196389A (ja) 2018-12-13
CA2915628C (en) 2020-04-21
ES2721051T3 (es) 2019-07-26
CN114724627A (zh) 2022-07-08
AU2021261830A1 (en) 2021-12-02
CY1121704T1 (el) 2020-07-31
EP3011051A1 (en) 2016-04-27
KR20220133309A (ko) 2022-10-04
KR20210110410A (ko) 2021-09-07
AU2021261830B2 (en) 2024-01-11
EP3540076A1 (en) 2019-09-18
LT3011051T (lt) 2019-05-10
WO2014205401A1 (en) 2014-12-24
TR201904345T4 (tr) 2019-04-22
PL3011051T3 (pl) 2019-07-31
IL283586B1 (en) 2023-07-01
US10622094B2 (en) 2020-04-14
HRP20190600T1 (hr) 2019-05-17
MX2020002831A (es) 2020-07-22
CN105473741A (zh) 2016-04-06
AU2014284180B2 (en) 2020-03-19

Similar Documents

Publication Publication Date Title
AU2020203134B2 (en) Methods and processes for non-invasive assessment of genetic variations
US11306354B2 (en) Methods and compositions for analyzing nucleic acid
ES2902401T3 (es) Métodos y procesos para la evaluación no invasiva de variaciones genéticas
US20150284783A1 (en) Methods and compositions for analyzing nucleic acid
BR122022001849B1 (pt) Método para estimar uma fração de ácido nucleico fetal em uma amostra de teste de uma mulher grávida

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B350 Update of information on the portal [chapter 15.35 patent gazette]
B06A Patent application procedure suspended [chapter 6.1 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: AS CLASSIFICACOES ANTERIORES ERAM: C12Q 1/68 , G06F 19/18 , G06F 19/22

Ipc: C12Q 1/68 (2006.01), G06F 1/00 (2006.01)

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 20/06/2014, OBSERVADAS AS CONDICOES LEGAIS