BR112016007401B1 - Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra - Google Patents

Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra Download PDF

Info

Publication number
BR112016007401B1
BR112016007401B1 BR112016007401-7A BR112016007401A BR112016007401B1 BR 112016007401 B1 BR112016007401 B1 BR 112016007401B1 BR 112016007401 A BR112016007401 A BR 112016007401A BR 112016007401 B1 BR112016007401 B1 BR 112016007401B1
Authority
BR
Brazil
Prior art keywords
sequence
nucleic acid
genome
density
densities
Prior art date
Application number
BR112016007401-7A
Other languages
English (en)
Other versions
BR112016007401A2 (pt
Inventor
Gregory HANNUM
Original Assignee
Sequenom, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sequenom, Inc. filed Critical Sequenom, Inc.
Publication of BR112016007401A2 publication Critical patent/BR112016007401A2/pt
Publication of BR112016007401B1 publication Critical patent/BR112016007401B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A50/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
    • Y02A50/30Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

MÉTODOS E PROCESSOS PARA AVALIAÇÃO NÃO INVASIVA DAS VARIAÇÕES GENÉTICAS. São aqui fornecidos métodos, processos, sistemas e máquinas para avaliação não invasiva de variações genéticas.

Description

PEDIDOS DE PATENTE RELACIONADOS
[001] Este pedido de patente reivindica o benefício do pedido provisório de patente dos EUA no 61/887.081 depositado em 04 de outubro de 2013, intitulado MÉTODOS E PROCESSOS PARA AVALIAÇÃO NÃO INVASIVA DE VARIAÇÕES GENÉTICAS, nomeando Gregory Hannum como inventor, e designada pelo registro de advogado no SEQ-6073-PV. Todo o conteúdo do pedido anterior é aqui incorporado por referência, incluindo todos os textos, tabelas e desenhos.
CAMPO
[002] A tecnologia aqui proporcionada refere-se em parte a métodos, processos e máquinas para a avaliação não- invasiva de variações genéticas.
FUNDAMENTOS
[003] A informação genética de organismos vivos (por exemplo, animais, plantas e microrganismos) e outras formas de replicar informação genética (por exemplo, vírus) está codificada no ácido desoxirribonucleico (DNA) ou ácido ribonucleico (RNA). A informação genética é uma sucessão de nucleotídeos ou nucleotídeos modificados que representam a estrutura primária de ácidos nucleicos químicos ou hipotéticos. Em humanos, o genoma completo contém cerca de 30.000 genes localizados em vinte e quatro (24) cromossomos (ver O Genoma Humano, T. Strachan, BIOS Scientific Publishers, 1992). Cada gene codifica para uma proteína específica que, após a expressão através da transcrição e tradução, preenche uma função bioquímica específica dentro de uma célula viva.
[004] Muitas condições médicas são causadas por uma ou mais variações genéticas. Certas variações genéticas causam condições médicas que incluem, por exemplo, hemofilia, talassemia, Distrofia Muscular de Duchenne (DMD), Doença de Huntington (DH), Doença de Alzheimer e Fibrose Quística (FQ) (Mutações do Genoma Humano, D.N. Cooper e M. Krawczak, BIOS Publishers, 1993). Tais doenças genéticas podem resultar de uma adição, substituição ou deleção de um único nucleotídeo no DNA de um gene particular. Certos defeitos de nascença são causados por uma anormalidade cromossômica, também referido como uma aneuploidia, tal como Trissomia 21 (Síndrome de Down), Trissomia 13 (Síndrome de Patau), Trissomia 18 (Síndrome de Edward), Trissomias 16 e 22, Monossomia X (Síndrome de Turner) e certas aneuploidias dos cromossomos sexuais, tal como Síndrome de Klinefelter (XXY), por exemplo. Outra variação genética é sexo fetal, o que muitas vezes pode ser determinada com base em cromossomos sexuais X e Y. Algumas variações genéticas podem predispor um indivíduo a, ou causar, qualquer de um número de doenças, tal como, por exemplo, diabetes, arteriosclerose, obesidade, várias doenças autoimunes e câncer (por exemplo, colo retal, da mama, do ovário, do pulmão).
[005] Identificar uma ou mais variações ou variâncias genéticas pode levar a um diagnóstico de, ou predisposição para a determinação de, uma condição médica particular. A identificação de uma variação genética pode resultar em facilitar uma decisão médica e/ou empregar um procedimento médico útil. Em certas formas de realização, a identificação de uma ou mais variações ou variâncias genéticas envolve a análise de DNA isento de células. DNA isento de células (CF-DNA) é composto de fragmentos de DNA que se originam a partir de morte celular e circulam no sangue periférico. Elevadas concentrações de CF-DNA podem ser indicativas de certas condições clínicas, tal como câncer, traumas, queimaduras, enfarte do miocárdio, acidente vascular cerebral, septicemia, infecção e outras doenças. Além disso, o DNA fetal isento de células (CFF- DNA) pode ser detectado no sangue materno e utilizado para vários diagnósticos pré-natais não invasivos.
SUMÁRIO DA INVENÇÃO
[006] É aqui proporcionado, em certos aspectos, um sistema compreendendo memória, e um ou mais microprocessadores, quais um ou mais microprocessadores são configurados para realizar, de acordo com as instruções na memória, um processo para reduzir tendências nas leituras de sequência para uma amostra, processo esse que compreende (a) gerar uma relação entre (i) estimativas de tendência de genoma local e (ii) frequências de tendências para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendências de amostra, onde as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência, (b) comparar a relação de tendência da amostra e uma relação tendência de referência, gerando, desse modo, uma comparação, onde a relação de tendências de referência é entre (i) as estimativas de tendência de genoma local e (ii) as frequências de tendência para uma referência e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), onde tendências nas leituras de sequência, para a amostra, são reduzidas.
[007] É aqui proporcionado, em certos aspectos, um sistema compreendendo memória, e um ou mais microprocessadores, quais um ou mais microprocessadores são configurados para realizar, de acordo com as instruções na memória, um processo para reduzir tendências nas leituras de sequência para uma amostra, processo esse que compreende (a) gerar uma relação entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de amostra de densidade de GC, onde as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência, (b) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que a relação de referência de densidade de GC é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência, e (c) normalizar as contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através da qual tendências nas leituras de sequência, para a amostra, são reduzidas.
[008] É também aqui proporcionado, em certos aspectos, um sistema compreendendo memória, e um ou mais microprocessadores, quais um ou mais microprocessadores são configurados para realizar, de acordo com as instruções na memória, um processo para determinar a presença ou ausência de uma aneuploidia para uma amostra, processo esse que compreende (a) filtração, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que as densidades de leitura compreendem leitura de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras, (b) ajuste do perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, quais componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas, (c) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação e (d) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[009] Certos aspectos da tecnologia são ainda descritos na seguinte descrição, exemplos, reivindicações e desenhos. BREVE DESCRIÇÃO DOS DESENHOS
[0010]Os desenhos ilustram formas de realização da tecnologia e não são limitantes. Para clareza e facilidade de ilustração, os desenhos não estão feitos à escala e, em alguns casos, vários aspectos podem ser mostrados exagerados ou ampliados para facilitar uma compreensão das formas de realização particulares.
[0011]A Figura 1 mostra uma forma de realização de uma densidade de GC fornecida por um Epanechnikov kernel (Largura de banda = 200 bp).
[0012]A Figura 2 mostra um gráfico de densidades de GC (eixo y) para o gene HTRA1 onde a densidade de GC está normalizada sobre o genoma inteiro. As posições genômicas são mostradas no eixo x.
[0013]A Figura 3 mostra uma distribuição das estimativas de tendência de genoma local (por exemplo, Densidade de GC, eixo-x), para um genoma de referência (linha cheia) e para as leituras de sequência obtidas a partir de uma amostra (linha tracejada). As frequências de tendências (por exemplo, densidade de frequência) são mostradas no eixo y. As estimativas de densidade de GC estão normalizadas sobre um genoma inteiro. Neste exemplo, a amostra tem mais leituras com elevado teor de GC do que seria esperado a partir da referência.
[0014]A Figura 4 mostra uma comparação de uma distribuição de estimativas de densidade de GC para um genoma de referência e estimativas de densidade de GC de leituras de sequência para uma amostra utilizando uma relação ajustada polinomial de 3a ordem ponderada. As estimativas de densidade de GC (eixo x) foram normalizadas sobre de um genoma inteiro. As frequências de densidade de GC são representadas no eixo y como uma relação log2 de frequências de densidade da referência dividido por aqueles da amostra.
[0015]A Figura 5A mostra uma distribuição de densidades de GC medianas (eixo x) para todas as porções de um genoma. A Figura 5B mostra valores de desvio absoluto medianos (MAD) (eixo x), determinados de acordo com as distribuições de densidade de GC para várias amostras. As frequências de densidade de GC são mostradas no eixo y. As porções foram filtradas de acordo com distribuições de densidade de GC mediana para várias amostras de referência (por exemplo, um conjunto de treinamento) e valores MAD determinados de acordo com distribuições de densidade de GC de várias amostras. Porções compreendendo densidades de GC fora de um limite estabelecido (por exemplo, quatro vezes o intervalo inter-quartil de MAD) foram removidas da consideração, de acordo com o processo de filtração.
[0016]A Figura 6A mostra um perfil de densidade de leitura de uma amostra para um genoma que compreende densidades de leitura medianas (eixo y, por exemplo, densidade/porção de leitura) e posições relativas de cada porção genômica (eixo x, índice de porção) dentro de um genoma. A Figura 6B mostra um primeiro componente principal (PC1) e a Figura 6C mostra um segundo componente principal (PC2) obtido a partir de uma análise de componentes principais dos perfis de densidade de leitura obtidos a partir de um conjunto de treinamento de 500 euploides.
[0017]As Figura 7A-C mostram um exemplo de um perfil de densidade de leitura de uma amostra para um genoma que compreende uma trissomia do cromossomo 21 (por exemplo, suportado com duas linhas verticais). As posições relativas de cada porção genômica são mostradas no eixo x. As densidades de leitura são fornecidas no eixo y. A Figura 7A mostra um perfil de densidade de leitura em bruto (por exemplo, não corrigido). A Figura 7B mostra o perfil de 7A compreendendo um primeiro ajuste compreendendo uma subtração do perfil mediano. A Figura 7C mostra o perfil de 7B compreendendo um segundo ajuste. O segundo ajuste compreende subtração de 8x perfis de componentes principais, ponderados com base na sua representação encontrada nesta amostra, (por exemplo, um modelo é construído). Por exemplo, um Perfil de amostra = A*PC1 + B*PC2 + C*PC3... e um perfil corrigido, por exemplo, como mostrado em 7C = Perfil de Amostra - A*PC1 + B*PC2 + C*PC3...
[0018]A Figura 8 mostra um QQ-plot de p-valores de teste de amostras de treinamento bootstrap para um teste T21. Um gráfico QQ, geralmente, compara duas distribuições. A Figura 8 mostra uma comparação de classificação de ChAI, (eixo y) a partir de amostras de teste a uma distribuição uniforme (isto é, distribuição esperada de p-valores, eixo x). Cada ponto representa classificação de valor de log-P de uma única amostra de teste. As amostras são classificadas e atribuídas um valor "esperado" (eixo x) com base na distribuição uniforme. A linha inferior tracejada representa a diagonal e a linha superior representa um limite de Bonferroni. As amostras que seguem uma distribuição uniforme são esperadas cair na diagonal inferior (linha inferior tracejada). Os valores de dados encontram-se bem fora das diagonais devido a correlações nas partes (por exemplo, tendências), indicando amostras com mais alta pontuação (valor-p baixo) do que o esperado. Os métodos aqui descritos (por exemplo, ChAI, por exemplo, ver Exemplo 1) podem corrigir para esta tendência observada.
[0019]A Figura 9A mostra um gráfico de densidade de leitura mostrando uma diferença de coeficientes PC2 para homens e mulheres em um conjunto de treinamento. A Figura 9B mostra um gráfico característico de operação de receptor (ROC) para chamadas de gênero com um coeficiente PC2. Chamadas de gênero realizadas por sequenciamento foram utilizadas para a referência de verdade.
[0020]As Figuras 10A-10B mostram uma forma de realização de um sistema.
[0021]A Figura 11 mostra uma forma de realização de um sistema.
[0022]A Figura 12 mostra uma forma de realização de um método aqui proporcionado. DESCRIÇÃO DETALHADA
[0023]O sequenciamento de próxima geração permite sequenciar ácidos nucleicos em uma escala de todo o genoma por métodos que são mais rápidos e mais baratos do que os métodos tradicionais de sequenciamento. Métodos, sistemas e produtos aqui proporcionados podem utilizar tecnologias de sequenciamento avançadas para localizar e identificar variações genéticas e/ou doenças e distúrbios associados. Métodos, sistemas e produtos aqui proporcionados podem, muitas vezes, proporcionar uma avaliação não invasiva de um genoma de indivíduos (por exemplo, um genoma fetal) utilizando uma amostra de sangue, ou parte da mesma, e são, muitas vezes, mais seguros, mais rápidos e/ou menos dispendiosos do que técnicas mais invasivas (por exemplo, amniocentese, biópsia). Em algumas formas de realização, são aqui proporcionados métodos que compreendem, em parte, a obtenção de leituras de sequência de ácidos nucleicos presentes em uma amostra, cujas leituras de sequência são, frequentemente, mapeadas para uma sequência de referência, contagens de processamento de leituras de sequência e determinação da presença ou ausência de uma variação genética. Os sistemas, métodos e produtos aqui proporcionados são úteis para a detecção e/ou identificação de variações genéticas e são úteis para o diagnóstico e tratamento de doenças, patologias e deficiências associadas com determinadas variações genéticas.
[0024] São também aqui proporcionados, em algumas formas de realização, métodos de manipulação de dados para reduzir e/ou remover tendências de sequenciamento introduzidas por vários aspectos de uma tecnologia de sequenciamento. As tendências de sequenciamento, muitas vezes, contribuem para uma distribuição não uniforme da leitura sobre um genoma, ou um seu segmento, e/ou variações na qualidade da leitura. As tendências de sequenciamento podem corromper dados de sequenciamento genômico, prejudicar a análise eficaz de dados, distorcer resultados e impede uma interpretação precisa de dados. Às vezes, tendências de sequenciamento podem ser reduzidas através do aumento da cobertura do sequenciamento; no entanto, esta abordagem, muitas vezes, infla os custos de sequenciamento, e tem eficácia muito limitada. Os métodos para manipulação de dados aqui descritos podem reduzir e/ou remover tendências de sequenciamento melhorando, assim, a qualidade dos dados de leitura de sequência, sem aumentar os custos de sequenciamento. Além disso, são aqui proporcionados sistemas, máquinas, aparelhos, produtos e módulos que, em algumas formas de realização, efetuam os métodos aqui descritos.
Amostras
[0025] São aqui proporcionados métodos e composições para a análise do ácido nucleico. Em algumas formas de realização, os fragmentos de ácidos nucleicos, em uma mistura de fragmentos de ácido nucleico, são analisados. Uma mistura de ácidos nucleicos pode compreender duas ou mais espécies de fragmentos de ácido nucleico tendo diferentes sequências de nucleotídeos, diferentes comprimentos de fragmentos, diferentes origens (por exemplo, origens genômicas, origem fetal vs. materna, origens de células ou tecidos, origens de amostra, origens de indivíduo e semelhantes), ou suas combinações.
[0026]O ácido nucleico, ou uma mistura de ácidos nucleicos, utilizado em métodos, sistemas, máquinas e/ou aparelhos aqui descritos é, muitas vezes, isolado a partir de uma amostra obtida de um indivíduo (por exemplo, um indivíduo de teste). Um indivíduo a partir da qual é obtido um espécime ou amostra é, por vezes, aqui referido como um indivíduo teste. Um indivíduo pode ser qualquer ser vivo ou organismo não-vivo, incluindo, mas não limitado a um humano, animal não humano, planta, bactéria, fungo, vírus ou protista. Qualquer animal humano ou não-humano pode ser selecionado, incluindo, mas não se limitando a mamíferos, répteis, aves, anfíbios, peixes, ungulados, ruminantes, bovinos (por exemplo, gado), equinos (por exemplo, cavalos), caprinos e ovinos (por exemplo, ovelha, cabra), suínos (por exemplo, porco), camelídeos (por exemplo, camelo, lama, alpaca), macacos (por exemplo, gorila, chimpanzé), ursídeos (por exemplo, urso), aves, cão, gato, camundongo, rato, peixes, golfinhos, baleias e tubarões. Um indivíduo pode ser um homem ou mulher (por exemplo, mulher, uma mulher grávida, uma fêmea grávida). Um indivíduo pode ter qualquer idade (por exemplo, um embrião, feto, criança, adulto).
[0027]O ácido nucleico pode ser isolado a partir de qualquer tipo de espécime ou amostra biológica adequada (por exemplo, uma amostra de teste). Uma amostra ou amostra de teste pode ser qualquer amostra que é isolada ou obtida a partir de um objeto ou parte do mesmo (por exemplo, um indivíduo humano, uma fêmea grávida, um feto). Uma amostra de teste é, muitas vezes, obtida a partir de um indivíduo de teste. Uma amostra de teste é, muitas vezes, obtida a partir de uma fêmea grávida (por exemplo, uma fêmea humana grávida). Exemplos não limitantes de amostras incluem fluido ou tecido de um indivíduo, incluindo, sem limitação, sangue ou um produto derivado do sangue (por exemplo, soro, plasma ou semelhantes), sangue do cordão umbilical, vilosidades coriônicas, fluido amniótico, fluido cerebrospinal, fluido espinal, fluido de lavagem (por exemplo, bronco-alveolar, gástrico, do peritoneu, dúctil, do ouvido, artroscópico), amostra de biópsia (por exemplo, a partir de embriões de pré-implantação), amostra de celocentese, células (células do sangue, células da placenta, células de embriões ou fetais, células fetais nucleadas e resíduos celulares fetais) ou suas partes (por exemplo, mitocondrial, núcleo, extratos ou semelhantes), lavagens do trato reprodutor feminino, urina, fezes, expectoração, saliva, muco nasal, fluido da próstata, lavagem, sémen, líquido linfático, biliar, lágrimas, suor, leite materno, fluido da mama, semelhantes ou combinações dos mesmos. Uma amostra de teste pode compreender sangue ou um produto derivado do sangue (por exemplo, plasma, soro, linfócitos, plaquetas, camada leuco-plaquetária). Uma amostra de teste compreende, por vezes, soro obtido a partir de uma fêmea grávida. Uma amostra de teste compreende, por vezes, plasma obtido a partir de uma fêmea grávida. Em algumas formas de realização, uma amostra biológica é um esfregaço cervical de um indivíduo. Em algumas formas de realização, uma amostra biológica pode ser sangue e, por vezes, plasma ou soro. O termo "sangue", conforme aqui utilizado, refere-se a uma amostra de sangue ou preparação de um indivíduo (por exemplo, um indivíduo de teste, por exemplo, uma mulher grávida ou uma mulher a ser testada para uma possível gravidez). O termo engloba sangue completo, um produto do sangue ou qualquer fração de sangue, tal como soro, plasma, camada leuco-plaquetária ou outros semelhantes, tal como convencionalmente definido. Sangue ou frações, frequentemente, compreendem nucleossomos (por exemplo, nucleossomos maternos e/ou fetais). Nucleossomos compreendem ácidos nucleicos e são, por vezes, isentos de células ou intracelular. O sangue também compreende camada leuco-plaquetária. As camadas leuco- plaquetárias são, por vezes, isoladas utilizando um gradiente de Ficoll. As camadas leuco-plaquetárias podem compreender células brancas do sangue (por exemplo, leucócitos, células T, células B, plaquetas e semelhantes). Em certas formas de realização, as camadas leuco- plaquetárias compreendem ácido nucleico materno e/ou fetal. O plasma sanguíneo refere-se à fração do sangue total resultante da centrifugação do sangue tratado com anticoagulantes. O soro de sangue refere-se à porção aquosa do fluido remanescente após uma amostra de sangue ter coagulado. As amostras de fluidos ou tecidos são, muitas vezes, recolhidas em conformidade com os protocolos padronizados que hospitais ou clínicas geralmente seguem. Para o sangue, uma quantidade apropriada de sangue periférico (por exemplo, entre 3-40 mililitros) é, frequentemente, recolhida e pode ser armazenada de acordo com os procedimentos padrão, antes ou após a preparação. Uma amostra de fluido ou de tecido a partir do qual o ácido nucleico é extraído pode ser acelular (por exemplo, isenta de células). Em algumas formas de realização, uma amostra de fluido ou tecido pode conter elementos celulares ou restos celulares. Em algumas formas de realização, células cancerosas ou células fetais podem ser incluídas na amostra.
[0028]Uma amostra é, frequentemente, heterogênea, pelo que se significa que mais do que um tipo de espécies de ácido nucleico está presente na amostra. Por exemplo, ácido nucleico heterogêneo pode incluir, mas não está limitado a, (i) ácido nucleico derivado de feto e derivado da parte materna, (ii) ácido nucleico de câncer e não-câncer, (iii) agentes patogênicos e hospedeiro de ácido nucleico, e, mais geralmente, (iv) ácido nucleico mutado e o do tipo selvagem. Uma amostra pode ser heterogênea porque mais do que um tipo de célula está presente, tal como uma célula fetal e uma célula materna, uma célula de câncer e de não- câncer ou uma célula patogênica e hospedeira. Em algumas formas de realização, uma minoria de espécies de ácido nucleico e uma maioria de espécies de ácido nucleico está presente.
[0029] Para aplicações de pré-natal de tecnologia aqui descrita, amostra de fluido ou de tecido pode ser recolhida de uma mulher com uma idade gestacional apropriado para o teste, ou a partir de uma fêmea que está sendo testada para uma possível gravidez. A idade gestacional adequada pode variar de acordo com o teste pré-natal a ser executado. Em certas formas de realização, um indivíduo fêmea grávida está, por vezes, no primeiro trimestre de gravidez, por vezes, no segundo trimestre de gravidez, ou, por vezes, no terceiro trimestre de gravidez. Em certas formas de realização, um fluido ou tecido é recolhido a partir de uma fêmea grávida entre cerca de 1 a cerca de 45 semanas de gestação fetal (por exemplo, em 1-4, 4-8, 8-12, 12-16, 1620, 20-24, 24-28, 28-32, 32-36, 36-40 ou 40-44 semanas de gestação do feto), e às vezes entre cerca de 5 a cerca de 28 semanas de gestação do feto (por exemplo, aos 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26 ou 27 semanas de gestação do feto). Em certas formas de realização, uma amostra de fluido ou tecido é recolhida a partir de uma fêmea grávida durante ou pouco depois (por exemplo, 0 a 72 horas depois) do parto (parto, por exemplo, vaginal ou não-vaginal (por exemplo, para parto cirúrgico)).
Aquisição de Amostras de Sangue e Extração de DNA
[0030]Os métodos aqui, muitas vezes, incluem separar, enriquecer e analisar DNA fetal encontrado no sangue materno como um meio não invasivo para detectar a presença ou ausência de uma variação genética materna e/ou do feto e/ou para monitorar o estado de um feto e/ou uma fêmea grávida durante e, por vezes, após a gravidez. Assim, os primeiros passos da prática de certos métodos aqui, muitas vezes, incluem a obtenção de uma amostra de sangue de uma mulher grávida e extração do DNA a partir de uma amostra.
Aquisição de Amostras de Sangue
[0031]Uma amostra de sangue pode ser obtida de uma mulher grávida em uma idade gestacional adequada para o teste utilizando um método da presente tecnologia. A idade gestacional adequada pode variar dependendo do distúrbio testado, conforme discutido abaixo. A coleta de sangue de uma mulher, muitas vezes, é realizada em conformidade com os protocolos padronizados que hospitais ou clínicas geralmente seguem. Uma quantidade apropriada de sangue periférico, por exemplo, tipicamente entre 5-50 mL, muitas vezes, é recolhida e pode ser armazenada de acordo com o procedimento padrão antes da preparação adicional. As amostras de sangue podem ser recolhidas, armazenadas ou transportadas de uma maneira que minimiza a degradação ou a qualidade do ácido nucleico presente na amostra. Preparação de Amostras de Sangue
[0032]Uma análise de DNA fetal encontrado no sangue materno pode ser realizada utilizando, por exemplo, sangue total, soro ou plasma. Os métodos para a preparação de soro ou plasma, a partir de sangue materno, são conhecidos. Por exemplo, o sangue de uma mulher grávida pode ser colocado em um tubo contendo EDTA ou um produto comercial especializado, tal como Vacutainer SST (Becton Dickinson, Franklin Lakes, NJ), para impedir a coagulação do sangue e o plasma pode ser obtido a partir do sangue total por meio de centrifugação. O soro pode ser obtido com ou sem a coagulação do sangue, após a centrifugação. Se a centrifugação é utilizada, então, é tipicamente, mas não exclusivamente, conduzida a uma velocidade apropriada, por exemplo, 1.500-3.000 vezes g. Plasma ou soro podem ser submetidos a passos de centrifugação adicional antes de serem transferidos a um novo tubo para extração de DNA.
[0033]Em adição à porção acelular do sangue completo, o DNA também pode ser recuperado a partir da fração celular, enriquecidas na porção da camada leuco-plaquetária, que pode ser obtida após centrifugação de uma amostra de sangue total da mulher e remoção do plasma. Extração do DNA
[0034]Existem vários métodos conhecidos para a extração de DNA a partir de uma amostra biológica, incluindo o sangue. Os métodos gerais de preparação de DNA (por exemplo, Descrito por Sambrook e Russell, Molecular Cloning: A Laboratory Manual, 3a ed, 2001) pode ser seguido; vários reagentes ou kits comercialmente disponíveis, tal como Kit de Ácido Nucleico Circulante QIAamp da Qiagen, Mini Kit de DNA QIAamp ou Mini Kit de DNA sanguíneo QIAamp (Qiagen, Hilden, Alemanha), Kit de isolamento de DNA sanguíneo GenomicPrep™ (Promega, Madison, Wis.), e Kit de Purificação de DNA sanguíneo Genômico GFX™ (Amersham, Piscataway, NJ), também podem ser utilizados para obter o DNA a partir de uma amostra de sangue de uma mulher grávida. Também podem ser utilizadas combinações de mais do que um desses métodos.
[0035]Em algumas formas de realização, a amostra pode primeiro ser enriquecida, ou relativamente enriquecida, para o ácido nucleico fetal por um ou mais métodos. Por exemplo, a discriminação do DNA materno e fetal pode ser realizada utilizando as composições e processos da presente tecnologia isoladamente ou em combinação com outros fatores exigentes. Exemplos destes fatores incluem, mas não estão limitados a, diferenças de um único nucleotídeo entre cromossomo X e Y, sequências específicas do cromossomo Y, polimorfismos localizados em outro local no genoma, diferenças de tamanho entre o DNA fetal e materno e diferenças no padrão de metilação entre tecidos materno e fetal.
[0036]Outros métodos para o enriquecimento de uma amostra para uma espécie particular de ácido nucleico são descritos no Pedido de Patente PCT Número PCT/US07/69991, depositado em 30 maio de 2007, Pedido de Patente PCT Número PCT/US2007/071.232, depositado em 15 de junho de 2007, Pedidos Provisórios dos EUA Números 60/968.876 e 60/968.878 (atribuído ao Requerente), (Pedido de Patente PCT Número PCT/EP05/012707, depositado em 28 de novembro de 2005) que são todos aqui incorporados por referência. Em certas formas de realização, o ácido nucleico materno é seletivamente (ou parcialmente, substancialmente, completamente ou quase completamente) removido da amostra.
[0037]Os termos "ácido nucleico" e "molécula de ácido nucleico" podem ser utilizados intermutavelmente ao longo da descrição. Os termos referem-se a ácidos nucleicos de qualquer composição, tal como de DNA (por exemplo, DNA complementar (cDNA), DNA genômico (DNAg) e semelhantes), de RNA (por exemplo, RNA mensageiro (RNAm), RNA inibitório curto (RNAsi), RNA ribossomal (RNAr), RNAt, microRNA, RNA altamente expresso pelo feto ou placenta, e semelhantes), e/ou de análogos de DNA ou RNA (por exemplo, contendo análogos de base, análogos de açúcar e/ou um esqueleto não- nativo e semelhantes), híbridos de RNA/DNA e ácidos nucleicos de poliamida (PNAs), todos os quais podem estar na forma simples ou de cadeia dupla, e, a menos que limitado de outra forma, podem abranger os análogos conhecidos de nucleotídeos naturais que possam funcionar de um modo semelhante como os nucleotídeos de ocorrência natural. Um ácido nucleico pode ser, ou pode ser a partir de, um plasmídeo, fago, sequência que se replica autonomamente (ARS), centrômero, cromossomo artificial, cromossomo, ou outro ácido nucleico capaz de se replicar ou de ser replicado in vitro ou em uma célula hospedeira, uma célula, um núcleo de célula ou citoplasma de uma célula em certas formas de realização. Um ácido nucleico molde, em algumas formas de realização, pode ser a partir de um único cromossomo (por exemplo, uma amostra de ácido nucleico pode ser a partir de um cromossomo de uma amostra obtida a partir de um organismo diploide). A menos que especificamente limitado, o termo engloba ácidos nucleicos contendo análogos conhecidos de nucleotídeos naturais que têm propriedades de ligação semelhantes ao ácido nucleico de referência e são metabolizados de um modo semelhante aos nucleotídeos que ocorrem naturalmente. A menos que indicado de outro modo, uma sequência de ácido nucleico particular abrange também, implicitamente, variantes do mesmo modificadas de forma conservadora (por exemplo, substituições de códons degenerados), alelos, ortólogos, polimorfismos de nucleotídeo único (SNPs), e sequências complementares, assim como a sequência indicada explicitamente. Especificamente, as substituições de códons degenerados podem ser alcançadas através da geração de sequências nas quais a terceira posição de um ou mais (ou todos) códons selecionados é substituída com resíduos de base mista e/ou desoxiinosina. O termo ácido nucleico é utilizado alternadamente com locus, gene, cDNA e RNAm codificado por um gene. O termo também pode incluir, como equivalentes, derivados, variantes e análogos de RNA ou DNA sintetizados a partir de análogos de nucleotídeos, ("sentido" ou "anti-sentido", cadeia "positiva" ou cadeia "negativa", quadro de leitura "para a frente" ou quadro de leitura "reverso") e polinucleotídeos de cadeia dupla. O termo "gene" significa o segmento de DNA envolvido na produção de uma cadeia de polipeptídeo; inclui regiões que precedem e seguem a região de codificação (líder e reboque) envolvidas na transcrição/tradução do produto do gene e a regulação da transcrição/tradução, bem como sequências intervenientes (introns) entre segmentos de codificação individuais (exons). Desoxirribonucleotídeos incluem desoxiadenosina, desoxicitidina, desoxiguanosina e desoxitimidina. Para RNA, a base de citosina é substituída por uracila. Um ácido nucleico molde pode ser preparado utilizando um ácido nucleico obtido a partir de um indivíduo como um modelo.
Isolamento e Processamento do Ácido Nucleico
[0038]O ácido nucleico pode ser derivado de uma ou mais fontes (por exemplo, células, soro, plasma, camada leuco- plaquetária, fluido linfático, pele, solo e semelhantes) através de métodos conhecidos na técnica. Os ácidos nucleicos são, frequentemente, isolados a partir de uma amostra de teste. Qualquer método adequado pode ser utilizado para isolar, extrair e/ou purificar DNA a partir de uma amostra biológica (por exemplo, a partir de sangue ou um produto derivado de sangue), exemplos não limitativos dos quais incluem os métodos de preparação de DNA (por exemplo, descritos por Sambrook e Russell, Molecular Cloning: A Laboratory manual 3a ed., 2001), diversos reagentes ou kits disponíveis comercialmente, tal como Kit de ácido nucleico circulante QIAamp da Qiagen, Mini Kit de DNA QIAamp ou Mini Kit de DNA sanguíneo QIAamp (Qiagen, Hilden, Alemanha), Kit de Isolamento de DNA sanguíneo GenomicPrep™ (Promega, Madison, Wis.), e Kit de Purificação de DNA sanguíneo genômico GFX™ (Amersham, Piscataway, NJ), semelhantes ou combinações dos mesmos.
[0039]Os procedimentos e reagentes de lise de células são conhecidos na técnica e podem, geralmente, ser realizados por meios químicos (por exemplo, detergentes, soluções hipotônicas, procedimentos enzimáticos e semelhantes, ou combinação dos mesmos), físicos (por exemplo, prensa francesa, sonicação e semelhantes) ou métodos de lise eletrolíticos. Qualquer procedimento de lise adequado pode ser utilizado. Por exemplo, métodos químicos, geralmente, empregam agentes de lise para romper as células e extrair os ácidos nucleicos das células, seguido de tratamento com sais caotrópicos. Os métodos físicos, tal como congelamento/descongelamento seguidos por moagem, uso de prensas de células e semelhantes, também são úteis. Os procedimentos de lise de elevado teor de sal são, também, comumente utilizados. Por exemplo, um procedimento de lise alcalina pode ser utilizado. O procedimento mais recente, tradicionalmente, incorpora a utilização de soluções de fenol-clorofórmio, e um procedimento alternativo isento de fenol-clorofórmio envolvendo três soluções pode ser utilizado. Nestes últimos processos, uma solução pode conter Tris a 15 mM, pH 8,0; EDTA a 10 mM e 100 µg/mL de RNAse A; uma segunda solução pode conter de NaOH a 0,2 N e SDS a 1%; e uma terceira solução pode conter KOAc a 3M, pH 5,5. Estes procedimentos podem ser encontrados em Current Protocols in Molecular Biology (Protocolos Atuais em Biologia Molecular), John Wiley & amp; Sons, Nova Iorque, 6.3.1-6.3.6 (1989), aqui incorporado na sua totalidade.
[0040]O ácido nucleico pode ser isolado, em um ponto de tempo diferente, em comparação com outro ácido nucleico, em que cada uma das amostras é a partir da mesma ou de uma fonte diferente. Um ácido nucleico pode ser a partir de uma biblioteca de ácido nucleico, tal como uma biblioteca de cDNA ou RNA, por exemplo. Um ácido nucleico pode ser um resultado da purificação de ácido nucleico ou isolamento e/ou amplificação de moléculas de ácido nucleico da amostra. O ácido nucleico fornecido para os processos aqui descritos pode conter o ácido nucleico a partir de uma amostra ou a partir de duas ou mais amostras (por exemplo, a partir 1 um ou mais, 2 ou mais, 3 ou mais, 4 ou mais, 5 ou mais, 6 ou mais, 7 ou mais, 8 ou mais, 9 ou mais, 10 ou mais, 11 ou mais, 12 ou mais, 13 ou mais, 14 ou mais, 15 ou mais, 16 ou mais, 17 ou mais, 18 ou mais, 19 ou mais, ou 20 ou mais amostras).
[0041]Os ácidos nucleicos podem incluir ácido nucleico extracelular, em certas formas de realização. O termo "ácido nucleico extracelular", conforme aqui utilizado, pode referir-se o ácido nucleico isolado de uma fonte sendo, substancialmente, isento de células e é, também, referido como ácido nucleico "isento de células" e/ou ácido nucleico "circulante isento de células". O ácido nucleico extracelular pode estar presente em, e obtido a partir de, o sangue (por exemplo, a partir do sangue de uma fêmea grávida). O ácido nucleico extracelular, muitas vezes, não inclui células detectáveis e pode conter elementos celulares ou restos celulares. Exemplos não limitativos de fontes acelulares de ácido nucleico extracelular são sangue, plasma sanguíneo, soro sanguíneo e urina. Tal como aqui utilizado, o termo "obter ácido nucleico da amostra em circulação isento de células" inclui a obtenção de uma amostra diretamente (por exemplo, recolha de uma amostra, por exemplo, uma amostra de teste) ou a obtenção de uma amostra a partir de outro que tenha recebido uma amostra. Sem se ser limitado pela teoria, o ácido nucleico extracelular pode ser um produto de apoptose celular e quebra de células, o que proporciona uma base para o ácido nucleico extracelular muitas vezes tendo uma série de comprimentos através de um espectro (por exemplo, uma "escada").
[0042]O ácido nucleico extracelular pode incluir espécies de ácidos nucleicos diferentes, e, portanto, é aqui referido como "heterogêneo", em certas formas de realização. Por exemplo, soro ou plasma sanguíneo de uma pessoa que tenha câncer pode incluir ácido nucleico a partir de células cancerosas e ácido nucleico a partir de células não-cancerosas. Em outro exemplo, soro ou plasma sanguíneo de uma fêmea grávida pode incluir ácido nucleico de ácido nucleico materno e fetal. Em alguns casos, o ácido nucleico fetal, por vezes, é de cerca de 5% a cerca de 50% do ácido nucleico total (por exemplo, cerca de 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48 ou 49% do ácido nucleico total é ácido nucleico fetal). Em algumas formas de realização, a maior parte do ácido nucleico fetal em ácido nucleico é de um comprimento de cerca de 500 pares de bases ou menos, cerca de 250 pares de bases ou menos, cerca de 200 pares de bases ou menos, cerca de 150 pares de bases ou menos, cerca de 100 pares de bases ou menos, cerca de 50 pares de bases ou menos, ou cerca de 25 pares de bases ou menos.
[0043]O ácido nucleico pode ser fornecido para a realização de métodos aqui descritos sem o processamento da (s) amostra(s) contendo o ácido nucleico, em certas formas de realização. Em algumas formas de realização, o ácido nucleico é fornecido para a realização dos métodos aqui descritos, após o processamento da (s) amostra (s) contendo o ácido nucleico. Por exemplo, um ácido nucleico pode ser extraído, isolado, purificado, parcialmente purificado ou amplificado a partir da (s) amostra (s). O termo "isolado", tal como aqui utilizado, refere-se ao ácido nucleico removido do seu ambiente original (por exemplo, o ambiente natural se for de ocorrência natural, ou uma célula hospedeira se expresso exogenamente), e, assim, é alterado por intervenção humana (por exemplo, "pela mão do homem") do seu ambiente original. O termo "ácido nucleico isolado", tal como aqui utilizado, pode referir-se a um ácido nucleico removido a partir de um indivíduo (por exemplo, um indivíduo humano). Um ácido nucleico isolado pode ser fornecido com menos componentes de ácido não-nucleicos (por exemplo, proteínas, lipídios) do que a quantidade de componentes presentes em uma amostra de origem. Uma composição compreendendo ácido nucleico isolado pode ser de cerca de 50% a mais de 99% isenta de componentes de ácido não-nucleico. Uma composição compreendendo ácido nucleico isolado pode ser de cerca de 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou mais do que 99% isenta de componentes de ácido não-nucleicos. O termo "purificado", tal como aqui utilizado, pode referir-se a um ácido nucleico contanto que contenha menor quantidade de componentes de ácido não- nucleico (por exemplo, proteínas, lipídios, carboidratos) do que a quantidade de componentes de ácidos não-nucleico presente antes de submeter o ácido nucleico a um procedimento de purificação. Uma composição compreendendo ácido nucleico purificado pode ser de cerca de 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou mais do que 99% isenta de outros componentes de ácido não-nucleico. O termo "purificado", tal como aqui utilizado, pode referir-se a um ácido nucleico contanto que contenha menos espécies de ácido nucleico do que na fonte da amostra a partir da qual o ácido nucleico é derivado. Uma composição compreendendo ácido nucleico purificado pode ser de cerca de 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou mais do que 99% isenta de outras espécies de ácidos nucleicos. Por exemplo, ácido nucleico fetal pode ser purificado a partir de uma mistura que compreende ácido nucleico materno e fetal. Em certos exemplos, nucleossomas, que compreendem pequenos fragmentos de ácido nucleico fetal, podem ser purificados a partir de uma mistura de complexos de nucleossomas maiores que compreendem fragmentos maiores de ácido nucleico materno.
[0044]Em algumas formas de realização os ácidos nucleicos são fragmentados ou clivados antes, durante ou depois, de um método aqui descrito. O ácido nucleico fragmentado ou clivado pode ter uma média ou comprimento médio nominal de cerca de 5 a cerca de 10.000 pares de bases, cerca de 100 a cerca de 1.000 pares de bases, cerca de 100 a cerca de 500 pares de bases, ou cerca de 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000 ou 9000 pares de bases. Os fragmentos podem ser gerados por um método adequado conhecido na técnica, e a média ou comprimento médio nominal de fragmentos de ácido nucleico pode ser controlado pela seleção de um procedimento de geração de fragmento adequado.
[0045]Os fragmentos de ácidos nucleicos podem conter as sequências nucleotídicas que se sobrepõem, e tais sequências que se sobrepõem podem facilitar a construção de uma sequência de nucleotídeos do ácido nucleico homólogo não fragmentado, ou um seu segmento. Por exemplo, um fragmento pode ter subsequências x e y e outro fragmento pode ter subsequências y e z, em que x, y e z são sequências de nucleotídeos que pode ser de 5 nucleotídeos de comprimento ou maior. Sobreposição de sequência y pode ser utilizada para facilitar a construção da sequência nucleotídica x-y-z em ácido nucleico de uma amostra, em certas formas de realização. O ácido nucleico pode ser parcialmente fragmentado (por exemplo, a partir de uma reação de clivagem específica incompleta ou terminado) ou totalmente fragmentado em certas formas de realização.
[0046]Em algumas formas de realização, o ácido nucleico é fragmentado ou clivado por um método adequado, exemplos não limitativos dos quais incluem métodos físicos (por exemplo, corte, por exemplo, ultrassons, prensa francesa, calor, irradiação UV, semelhantes), processos enzimáticos (por exemplo, agentes de clivagem enzimática (por exemplo, uma nuclease adequada, uma enzima de restrição adequada, uma enzima de restrição sensível à metilação adequada)), métodos químicos (por exemplo, alquilação, DMS, piperidina, hidrólise ácida, hidrólise alcalina, calor, semelhantes ou suas combinações), processos descritos na publicação de Pedido de Patente dos EUA No 2005/0112590, semelhantes ou combinações dos mesmos.
[0047] Tal como aqui utilizado, "fragmentação" ou "clivagem" refere-se a um procedimento ou condições em que uma molécula de ácido nucleico, tal como uma molécula de gene molde de ácido nucleico ou produto amplificado da mesma, pode ser separada em duas ou mais moléculas de ácido nucleico menores. Tal fragmentação ou clivagem pode ser específica de sequência, específica de base ou não específica, e pode ser realizada por qualquer um de uma variedade de métodos, reagentes ou condições, incluindo, por exemplo, fragmentação química, enzimático, física.
[0048] Tal como aqui utilizado, "fragmentos", "produtos de clivagem", "produtos clivados" ou suas variantes gramaticais destes, referem-se a moléculas de ácido nucleico resultantes de uma fragmentação ou clivagem de uma molécula de gene molde de ácido nucleico ou produto amplificado da mesma. Embora tais fragmentos ou produtos clivados possam referir-se a todas as moléculas de ácido nucleico resultantes a partir de uma reação de clivagem, tipicamente, tais fragmentos ou produtos clivados referem- se somente a moléculas de ácido nucleico resultantes a partir de uma fragmentação ou clivagem de uma molécula de gene molde de ácido nucleico ou segmento de um produto amplificado desta contendo a sequência de nucleotídeos correspondente de uma molécula de gene molde de ácido nucleico. O termo "amplificado", tal como aqui utilizado, refere-se à sujeição de um ácido nucleico alvo em uma amostra a um processo que linearmente ou exponencialmente gera ácidos nucleicos amplicon tendo a mesma, ou, substancialmente, a mesma, sequência de nucleotídeos tal como o ácido nucleico alvo, ou seu segmento. Em certas formas de realização, o termo "amplificado" refere-se a um método que compreende uma reação em cadeia da polimerase (PCR). Por exemplo, um produto amplificado pode conter um ou mais nucleotídeos a mais do que a região de nucleotídeos amplificada de uma sequência molde de ácido nucleico (por exemplo, um iniciador pode conter nucleotídeos "extra", tal como uma sequência de iniciação da transcrição, em adição aos nucleotídeos complementares a uma molécula de gene molde de ácido nucleico, resultando em um produto de amplificação contendo os nucleotídeos "extras" ou nucleotídeos que não correspondem à região de nucleotídeos amplificada da molécula de gene molde de ácido nucleico). Por conseguinte, os fragmentos podem incluir fragmentos resultantes de segmentos ou parte de moléculas de ácidos nucleicos amplificadas contendo, pelo menos em parte, informação de sequência de nucleotídeos a partir de, ou com base em, a molécula modelo de ácido nucleico representativo.
[0049] Tal como aqui utilizado, o termo "reações de clivagem complementares" refere-se a reações de clivagem que são realizadas no mesmo ácido nucleico utilizando diferentes reagentes de clivagem ou alterando a especificidade de clivagem do mesmo reagente de clivagem, tal que os padrões de clivagem alternativos do mesmo ácido nucleico ou proteína alvo ou de referência são gerados. Em certas formas de realização, o ácido nucleico pode ser tratado com um ou mais agentes de clivagem específicos (por exemplo, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ou mais agentes de clivagem específicos) em um ou mais reservatórios reacionais (por exemplo, o ácido nucleico é tratado com cada agente de clivagem específico em um reservatório separado). O termo "agente de clivagem específico", tal como aqui utilizado, refere-se a um agente, por vezes, um produto químico ou uma enzima, que pode clivar um ácido nucleico em um ou mais locais específicos.
[0050]O ácido nucleico também pode ser exposto a um processo que altera certos nucleotídeos no ácido nucleico, antes de fornecer ácido nucleico para um método aqui descrito. Um processo que modifica seletivamente o ácido nucleico com base no estado de metilação de nucleotídeos do mesmo pode ser aplicado ao ácido nucleico, por exemplo. Além disso, as condições tal como alta temperatura, radiação ultravioleta, raios X, podem induzir alterações na sequência de uma molécula de ácido nucleico. O ácido nucleico pode ser proporcionado em qualquer forma adequada útil para a realização de uma análise da sequência apropriada.
[0051]O ácido nucleico pode ser de cadeia simples ou dupla. O DNA de cadeia simples, por exemplo, pode ser gerado por desnaturação do DNA de cadeia dupla, por aquecimento ou por tratamento com uma base, por exemplo. Em certas formas de realização, o ácido nucleico se encontra em uma estrutura de laço D, formada por invasão de cadeia de uma molécula de DNA em cadeia dupla por um oligonucleotídeo ou uma molécula de DNA semelhante, tal como ácido nucleico peptídico (PNA). A formação do laço D pode ser facilitada pela adição de proteína RecA de E. Coli e/ou por alteração da concentração de sal, por exemplo, utilizando métodos conhecidos na técnica.
Determinação do Teor de Ácido Nucleico Fetal
[0052]A quantidade de ácido nucleico fetal (por exemplo, concentração, quantidade relativa, quantidade absoluta, número de cópias e semelhantes) em ácido nucleico é determinada em algumas formas de realização. Em certas formas de realização, a quantidade de ácido nucleico fetal em uma amostra é referida como "fração fetal". Em algumas formas de realização "fração fetal" refere-se à fração de ácido nucleico fetal no ácido nucleico isento de células circulantes em uma amostra (por exemplo, uma amostra de sangue, uma amostra de soro, uma amostra de plasma), obtido a partir de uma fêmea grávida. Em certas formas de realização, a quantidade de ácido nucleico fetal é determinada de acordo com marcadores específicos para um feto macho (por exemplo, marcadores STR de cromossomos Y (por exemplo, marcadores DYS 19, DYS 385, DYS 392); marcador RhD em fêmeas Rh-negativo), proporções alélicas das sequências polimórficas ou de acordo com um ou mais marcadores específicos para ácido nucleico fetal e ácido nucleico não materno (por exemplo, os biomarcadores epigenéticos diferenciais (por exemplo, metilação; descrito em maior detalhe abaixo) entre mãe e feto, ou marcadores de RNA fetal em plasma sanguíneo materno (ver, por exemplo, Lo de 2005, Journal of Histochemistry and Cytochemistry 53 (3):293-296)).
[0053]A determinação do teor de ácido nucleico fetal (por exemplo, fração fetal), por vezes, é realizada utilizando um teste quantificador fetal (FQA), tal como descrito, por exemplo, na Publicação do Pedido de Patente dos EUA No 2010/0105049, que é aqui incorporada por referência. Este tipo de teste permite a detecção e a quantificação de ácido nucleico fetal em uma amostra materna com base no padrão de metilação do ácido nucleico na amostra. Em certas formas de realização, a quantidade de ácido nucleico fetal a partir de uma amostra materna pode ser determinada em relação à quantidade total de ácidos nucleicos presentes, proporcionando, desse modo, a porcentagem de ácido nucleico na amostra fetal. Em certas formas de realização, o número de cópias de ácido nucleico fetal pode ser determinado em uma amostra materna. Em certas formas de realização, a quantidade de ácido nucleico fetal pode ser determinada em uma forma específica de sequência (ou porção específica) e, por vezes, com uma sensibilidade suficiente para permitir análise de dosagem cromossômica precisa (por exemplo, para detectar a presença ou ausência de uma aneuploidia fetal).
[0054]Um teste quantificador fetal (FQA) pode ser realizado em conjunto com qualquer um dos métodos aqui descritos. Tal teste pode ser realizado por qualquer método conhecido na técnica e/ou descritos na Publicação do Pedido de Patente dos EUA No 2010/0105049, tal como, por exemplo, por um método que possa distinguir entre DNA materno e fetal de com base no estado de metilação diferencial e quantificar (por exemplo, determinar a quantidade de) o DNA fetal. Os métodos para a diferenciação de ácido nucleico com base no estado de metilação incluem, mas não estão limitados a, captação sensível à metilação, por exemplo, utilizando um fragmento MBD2-Fc em que o domínio de ligação à metila de MBD2 está fundido com o fragmento Fc de um anticorpo (MBD- FC) (Gebhard et al (2006). Cancer Res. 66 (12):6118-28); anticorpos específicos de metilação; métodos de conversão de bissulfito, por exemplo, MSP (PCR sensível à metilação), COBRA, extensão de iniciador de nucleotídeo único sensível à metilação (Ms-SnuPE) ou tecnologia MassCLEAVE™ Sequenom; e a utilização de enzimas de restrição sensíveis à metilação (por exemplo, digestão do DNA materno em uma amostra materna utilizando uma ou mais enzimas de restrição sensíveis à metilação enriquecendo, assim, o DNA fetal). As enzimas sensíveis à metila também podem ser utilizadas para diferenciar ácido nucleico com base no estado de metilação, o que, por exemplo, pode, preferencialmente, ou substancialmente, clivar ou digerir a sua sequência de reconhecimento de DNA, se este último é não metilado.
[0055]Assim, uma amostra de DNA não metilado será cortada em fragmentos menores do que uma amostra de DNA metilado e uma amostra de DNA hipermetilado não será clivada. Exceto quando expressamente indicado, qualquer método para a diferenciação de ácido nucleico com base no estado de metilação pode ser utilizado com as composições e métodos da tecnologia aqui descrita. A quantidade de DNA fetal pode ser determinada, por exemplo, através da introdução de um ou mais competidores em concentrações conhecidas durante uma reação de amplificação. A determinação da quantidade de DNA fetal também pode ser feita, por exemplo, por RT-PCR, extensão de iniciador, sequenciamento e/ou contagem. Em certos casos, a quantidade de ácido nucleico pode ser determinada utilizando a tecnologia de transmissão, conforme descrito na Publicação do Pedido de Patente dos EUA No 2007/0065823. Em certas formas de realização, a eficiência de restrição pode ser determinada e a taxa de eficiência é utilizada para determinar ainda a quantidade de DNA fetal.
[0056]Em certas formas de realização, um teste quantificador fetal (FQA) pode ser utilizado para determinar a concentração de DNA fetal em uma amostra materna, por exemplo, pelo seguinte método: a) determinar a quantidade total de DNA presente em uma amostra materna; b) digerir seletivamente o DNA materno em uma amostra materna utilizando uma ou mais enzimas de restrição sensíveis à metilação enriquecendo, assim, o DNA fetal; c) determinar a quantidade de DNA fetal do passo b); e d) comparar a quantidade de DNA fetal do passo c) com a quantidade total de DNA do passo a), determinando, assim, a concentração de DNA fetal na amostra materna. Em certas formas de realização, pode ser determinado o número de cópias absolutas de ácido nucleico fetal em uma amostra materna, por exemplo, utilizando espectrometria de massa e/ou um sistema que utiliza uma abordagem de PCR competitiva para as medições do número de cópia absoluta. Ver, por exemplo, Ding e Cantor (2003) PNAS, EUA 100:3059-3064 e na Publicação do Pedido de Patente dos EUA No 2004/0081993, ambas as quais são aqui incorporadas por referência.
[0057]Em certas formas de realização, a fração fetal pode ser determinada com base em proporções alélicas das sequências polimórficas (por exemplo, polimorfismo de nucleotídeo único (SNP)), tal como, por exemplo, utilizando um método descrito na Publicação de Pedido de Patente dos EUA No 2011/0224087, que é, deste modo, incorporada por referência. Em tal método, as leituras de sequência de nucleotídeos são obtidas para uma amostra materna e a fração fetal é determinada por comparação do número total de leituras de sequência de nucleotídeos que mapeiam para um primeiro alelo e o número total de leituras de sequência de nucleotídeos que mapeiam para um segundo alelo em um local polimórfico informativo (por exemplo, SNP) em um genoma de referência. Em certas formas de realização, os alelos fetais são identificados, por exemplo, pela sua contribuição menor relativa para a mistura de ácidos nucleicos fetais e maternos na amostra quando comparada com a contribuição maior para a mistura de ácidos nucleicos maternos. Assim, a abundância relativa de ácido nucleico fetal em uma amostra materna pode ser determinada como um parâmetro do número total de leituras de sequência única mapeadas para uma sequência de ácido nucleico alvo em um genoma de referência para cada um dos dois alelos de um local polimórfico.
[0058]Em certas formas de realização, a fração fetal pode ser determinada com base em um ou mais níveis. A determinação da fração fetal de acordo com um nível é descrita, por exemplo, na Publicação de Pedido Internacional No WO 2014/055774, todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos. Em algumas formas de realização, uma fração fetal é determinada de acordo com um nível categorizado como representante de uma variação do número de cópias materno e/ou fetal. Por exemplo, a determinação da fração fetal pode compreende avaliar um nível esperado para uma variação do número de cópias materno e/ou fetal utilizada para a determinação da fração de fetal. Em algumas formas de realização, uma fração fetal é determinada para um nível (por exemplo, um primeiro nível) categorizado como um representante de uma variação do número de cópias de acordo com um intervalo de nível esperado determinado para o mesmo tipo de variação do número de cópias. Uma fração fetal pode ser determinada de acordo com um nível observado que cai dentro de uma faixa de nível esperado e é, assim, categorizada como uma variação do número de cópias materna e/ou fetal. Em algumas formas de realização, uma fração fetal é determinada quando um nível observado (por exemplo, um primeiro nível) categorizado como uma variação do número de cópias materno e/ou fetal é diferente do nível esperado determinado para a mesma variação do número de cópias materno e/ou fetal. A fração fetal pode ser fornecida como uma porcentagem. Por exemplo, uma fração fetal pode ser dividida por 100 proporcionando, dessa forma, um valor percentual. Por exemplo, para um primeiro nível representativo de uma duplicação homozigótica materna e tendo um nível de 155 e um nível esperado para uma duplicação homozigótica materna tendo um nível de 150, uma fração fetal pode ser determinada como 10% (por exemplo, (fração fetal = 2 x (155 - 150)).
[0059]A quantidade de ácido nucleico fetal em ácido nucleico extracelular pode ser quantificada e utilizada em conjunto com um método aqui proporcionado. Assim, em certas formas de realização, os métodos da tecnologia aqui descrita compreende um passo adicional de determinar a quantidade de ácido nucleico fetal. A quantidade de ácido nucleico fetal pode ser determinada em uma amostra de ácido nucleico a partir de um indivíduo, antes ou após o processamento para preparar o ácido nucleico da amostra. Em certas formas de realização, a quantidade de ácido nucleico fetal é determinada em uma amostra de ácido nucleico da amostra após ser processada e preparada, cujo valor é utilizado para posterior avaliação. Em algumas formas de realização, um resultado compreende o ajuste dessa fração de ácido nucleico fetal no ácido nucleico da amostra (por exemplo, ajustando as contagens, removendo amostras, fazendo uma chamada ou não a fazendo uma chamada). Em certas formas de realização, um método aqui proporcionado pode ser utilizado em conjunto com um método para a determinação da fração fetal. Por exemplo, métodos para a determinação da fração fetal, que incluem um processo de normalização, podem compreender um ou mais métodos de normalização aqui proporcionados (por exemplo, uma normalização de componente principal).
[0060]O passo de determinação pode ser realizado antes, durante, em qualquer ponto em um processo aqui descrito, ou após determinados métodos (por exemplo, detecção de aneuploidia, determinação do sexo fetal) aqui descritos. Por exemplo, para alcançar um método de determinação de sexo fetal ou aneuploidia com uma determinada sensibilidade ou especificidade, um método de quantificação de ácido nucleico fetal pode ser executado antes, durante ou após a determinação de sexo fetal ou aneuploidia para identificar amostras com mais do que cerca de 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25% ou mais de ácido nucleico fetal. Em algumas formas de realização, as amostras determinadas como tendo certa quantidade limite de ácido nucleico fetal (por exemplo, cerca de 15% ou mais de ácido nucleico fetal; cerca de 4% ou mais de ácido nucleico fetal) são ainda analisadas para determinação de sexo fetal ou aneuploidia, ou presença ou ausência de aneuploidia ou variação genética, por exemplo. Em certas formas de realização, as determinações de, por exemplo, o sexo fetal ou a presença ou ausência de aneuploidia são selecionadas (por exemplo, selecionadas e comunicadas a um paciente), apenas para as amostras que têm certa quantidade limite de ácido nucleico fetal (por exemplo, cerca de 15% ou mais de ácido nucleico fetal; cerca de 4% ou mais de ácido nucleico fetal).
[0061]Em algumas formas de realização, a determinação da fração fetal ou determinação da quantidade de ácido nucleico fetal não é requerida ou necessária para identificar a presença ou ausência de uma aneuploidia cromossômica. Em algumas formas de realização, a identificação da presença ou ausência de uma aneuploidia cromossômica não exige a diferenciação de sequência de DNA fetal contra materna. Em certas formas de realização, isto ocorre devido à contribuição somada de ambas as sequências fetais e maternas em um cromossomo particular, porção do cromossomo ou segmento do mesmo ser analisada. Em algumas formas de realização, identificação da presença ou ausência de uma aneuploidia cromossômica não depende de uma informação de sequência anterior que permitiria distinguir DNA fetal do DNA materno.
Enriquecendo ácidos nucleicos
[0062]Em algumas formas de realização, o ácido nucleico (por exemplo, ácido nucleico extracelular) é enriquecido, ou relativamente enriquecido, para uma subpopulação ou espécies de ácido nucleico. As subpopulações de ácido Nucleico podem incluir, por exemplo, ácido nucleico fetal, ácido nucleico materno, fragmentos compreendendo ácido nucleico de um comprimento particular ou intervalo de comprimento, ou o ácido nucleico de uma região específica do genoma (por exemplo, cromossomo único, um conjunto de cromossomos e/ou certas regiões cromossômicas). Tais amostras enriquecidas podem ser utilizadas em conjunto com um método aqui proporcionado. Assim, em certas formas de realização, os métodos da tecnologia compreendem um passo suplementar de enriquecimento para uma subpopulação de ácido nucleico em uma amostra, tal como, por exemplo, ácido nucleico fetal. Em certas formas de realização, um método para determinar a fração fetal descrita acima também pode ser utilizado para enriquecer para o ácido nucleico fetal. Em certas formas de realização, o ácido nucleico materno é seletivamente removido (parcialmente, substancialmente, completamente ou quase completamente) a partir da amostra. Em certas formas de realização, o enriquecimento para um ácido nucleico de espécies de baixo número de cópia particular (por exemplo, ácido nucleico fetal) pode melhorar a sensibilidade quantitativa. Os métodos para enriquecimento de uma amostra para uma espécie particular de ácido nucleico são descritos, por exemplo, na Patente dos EUA No 6.927.028, Publicação de Pedido de Patente Internacional No WO2007/140417, Publicação de Pedido de Patente Internacional No WO2007/147063, Publicação de Pedido de Patente Internacional No WO2009/032779, Publicação de Pedido de Patente Internacional No WO2009/032781, Publicação de Pedido de Patente Internacional No WO2010/033639, Publicação de Pedido de Patente Internacional No WO2011/034631, Publicação de Pedido de Patente Internacional No WO2006/056480 e Publicação de Pedido de Patente Internacional No WO2011/143659, todo o conteúdo de cada uma é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
[0063]Em algumas formas de realização, o ácido nucleico é enriquecido para certas espécies de fragmento alvo e/ou espécies de fragmentos de referência. Em certas formas de realização, o ácido nucleico é enriquecido para um comprimento de fragmento de ácido nucleico específico ou intervalo de comprimentos de fragmentos utilizando um ou mais métodos de separação baseados em comprimentos descritos abaixo. Em certas formas de realização, o ácido nucleico é enriquecido para fragmentos de uma região genômica selecionada (por exemplo, cromossomo) utilizando um ou mais métodos de separação baseados em sequência aqui descritos e/ou conhecidos na técnica. Determinados métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) em uma amostra são descritos em detalhe abaixo.
[0064]Alguns métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que podem ser utilizados com um método descrito na presente invenção incluem métodos que exploram as diferenças epigenéticas entre ácido nucleico materno e fetal. Por exemplo, o ácido nucleico fetal pode ser diferenciado e separado do ácido nucleico materno com base em diferenças de metilação. Os métodos de enriquecimento de ácido nucleico fetal à base de metilação são descritos na Publicação do Pedido de Patente dos EUA No 2010/0105049, que é aqui incorporada por referência. Tais métodos envolvem, por vezes, a ligação de um ácido nucleico da amostra a um agente de ligação específico de metilação (proteína de ligação a metil-CpG (MBD), anticorpos específicos de metilação e semelhantes) e separação do ácido nucleico ligado a partir do ácido nucleico não ligado com base no estado de metilação diferencial. Tais métodos podem também incluir a utilização de enzimas de restrição sensíveis à metilação (tal como descrito acima, por exemplo, Hhal e Hpall), que permite o enriquecimento de regiões de ácidos nucleicos fetal em uma amostra materna por digestão seletiva do ácido nucleico a partir da amostra materna com uma enzima que, seletivamente e completamente, ou substancialmente, digere o ácido nucleico materno para enriquecer a amostra para, pelo menos, uma região de ácido nucleico fetal.
[0065]Outro método para o enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que pode ser utilizado com um método aqui descrito é uma abordagem de sequência polimórfica reforçada com endonuclease de restrição, tal como um método descrito na Publicação do Pedido de Patente dos EUA No 2009/0317818, que é aqui incorporado por referência. Tais métodos incluem a clivagem de ácido nucleico que compreende um alelo não- alvo com uma endonuclease de restrição que reconhece o ácido nucleico que compreende o alelo não-alvo, mas não o alelo alvo; e amplificação do ácido nucleico não clivado, mas não de ácido nucleico clivado, em que a, o ácido nucleico amplificado clivado representa ácido nucleico alvo enriquecido (por exemplo, ácido nucleico fetal) em relação ao ácido nucleico não-alvo (por exemplo, ácido nucleico materno). Em certas formas de realização, o ácido nucleico pode ser selecionado de tal forma que compreende um alelo tendo um local polimórfico que é susceptível à digestão seletiva por um agente de clivagem, por exemplo.
[0066]Alguns métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que podem ser utilizados com um método aqui descrito incluem abordagens de degradação enzimática seletiva. Tais métodos envolvem a proteção de sequências alvo a partir da digestão de exonuclease facilitando, assim, a eliminação de uma amostra de sequências não desejadas (por exemplo, DNA materno). Por exemplo, em uma abordagem, o ácido nucleico da amostra é desnaturado para gerar o ácido nucleico em cadeia simples, o ácido nucleico em cadeia simples é colocado em contato com, pelo menos, um par de iniciadores específicos de alvo, sob condições de hibridização adequadas, iniciadores emparelhados são estendidos por polimerização de nucleotídeos gerando sequências alvo de cadeia dupla, e digerindo o ácido nucleico de cadeia simples utilizando uma nuclease que digere o ácido nucleico de cadeia simples (por exemplo, não alvo). Em certas formas de realização, o método pode ser repetido durante, pelo menos, um ciclo adicional. Em certas formas de realização, o mesmo par de iniciador específico do alvo é utilizado para prover cada um do primeiro e segundo ciclos de extensão, e, em certas formas de realização, diferentes pares de iniciadores específicos do alvo são utilizados para o primeiro e segundo ciclos.
[0067]Alguns métodos para enriquecimento de uma subpopulação de ácido nucleico (por exemplo, ácido nucleico fetal) que podem ser utilizados com um método aqui descrito incluem as abordagens de sequenciamento massivo de assinatura paralela (MPSS). MPSS, tipicamente, é um método em fase sólida que utiliza adaptador (por exemplo, marcador) de ligação, seguido de descodificação de adaptador, e leitura da sequência de ácido nucleico em pequenos incrementos. Os produtos de PCR marcados são, tipicamente, amplificados de tal forma que cada ácido nucleico gera um produto de PCR com um marcador individual. Os marcadores são, muitas vezes, utilizados para ligar os produtos de PCR a microesferas. Depois de vários ciclos de determinação da sequência à base de ligação, por exemplo, uma assinatura de sequência pode ser identificada a partir de cada esfera. Cada sequência de assinatura (MPSS tag - marcador de MPSS) em um conjunto de dados MPSS é analisada, em comparação com todas as outras assinaturas e todas as assinaturas idênticas são contadas.
[0068]Em certas formas de realização, certos métodos de enriquecimento (por exemplo, certos métodos de enriquecimento baseados em MPS e/ou MPSS) podem incluir abordagens baseadas em amplificação (por exemplo, PCR). Em certas formas de realização, métodos de amplificação específicos de loci podem ser utilizados (por exemplo, utilizando iniciadores de amplificação específicos de loci). Em certas formas de realização, uma abordagem de PCR de alelo SNP em multiplex pode ser utilizada. Em certas formas de realização, uma abordagem de PCR de alelo SNP em multiplex pode ser utilizada em combinação com o sequenciamento Uniplex. Por exemplo, tal abordagem pode envolver a utilização de PCR multiplex (por exemplo, sistema de MASSARRAY) e incorporação de sequências de sondas de captura para os amplicões, seguida de sequenciamento utilizando, por exemplo, o sistema Illumina MPSS. Em certas formas de realização, uma abordagem de PCR em multiplex de alelo de SNP pode ser utilizada em combinação com um sistema de sequenciamento de três iniciadores e indexados. Por exemplo, tal abordagem pode envolver a utilização de PCR multiplex (por exemplo, sistema MASSARRAY) com iniciadores possuindo uma primeira sonda de captura incorporada em determinados iniciadores de PCR forward específicos de loci e sequências adaptadoras incorporados nos iniciadores de PCR reverso específicos de loci, para gerar, desse modo, produtos de amplificação, seguido de uma PCR secundária para incorporar sequências de captura reversa e códigos de barras de índice molecular para o sequenciamento, utilizando, por exemplo, o sistema Illumina MPSS. Em certas formas de realização, uma abordagem de PCR em multiplex de alelo SNP pode ser utilizada em combinação com um sistema de sequenciamento de quatro iniciadores e indexados. Por exemplo, tal abordagem pode envolver a utilização de PCR multiplex (por exemplo, sistema de MASSARRAY) com iniciadores possuindo sequências adaptadoras incorporadas em ambos os iniciadores de PCR forward específicos de loci e reverso específico de loci, seguido por uma PCR secundária para incorporar tanto as sequências de captura para frente quanto reversas e códigos de barras de índice moleculares para o sequenciamento utilizando, por exemplo, o sistema Illumina MPSS. Em certas formas de realização, uma abordagem de microfluidos pode ser utilizada. Em certas formas de realização, uma abordagem de microfluidos baseada em matriz pode ser utilizada. Por exemplo, tal abordagem pode envolver a utilização de uma matriz de microfluidos (por exemplo, Fluidigm) para a amplificação em baixo plex e incorporação de sondas de captura e de índice, seguido por sequenciamento. Em certas formas de realização, uma abordagem microfluídica de emulsão pode ser utilizada, tal como, por exemplo, PCR digital gota.
[0069]Em certas formas de realização, métodos de amplificação universais podem ser utilizados (por exemplo, utilizando iniciadores de amplificação universais ou específicos de não-loci). Em certas formas de realização, métodos de amplificação universais podem ser utilizados em combinação com abordagens pulldown. Em certas formas de realização, um método pode incluir pulldown ultramer biotinilado (por exemplo, testes de pulldown biotinilados da Agilent ou IDT) a partir de uma biblioteca de sequenciamento amplificado universal. Por exemplo, tal abordagem pode envolver a preparação de uma biblioteca padrão, enriquecimento para regiões selecionadas por um teste de pulldown e um passo de amplificação universal secundário. Em certas formas de realização, as abordagens de pulldown podem ser utilizadas em combinação com os métodos baseados em ligação. Em certas formas de realização, um método pode incluir pulldown ultramer biotinilado com a sequência de ligação do adaptador específico (por exemplo, PCR HALOPLEX, halo Genomics). Por exemplo, tal abordagem pode envolver a utilização de sondas de seletor para capturar fragmentos digeridos por enzimas de restrição, seguido de ligação de produtos capturados a um adaptador e amplificação universal seguido por sequenciamento. Em certas formas de realização, as abordagens de pulldown podem ser utilizadas em combinação com métodos de extensão e à base de ligação. Em certas formas de realização, um método pode incluir extensão e ligação da sonda de inversão molecular (MIP). Por exemplo, tal abordagem pode envolver a utilização de sondas moleculares de inversão em combinação com adaptadores de sequência, seguido de amplificação universal e sequenciamento. Em certas formas de realização, o DNA complementar pode ser sintetizado e sequenciado sem amplificação.
[0070]Em certas formas de realização, as abordagens de extensão e ligação podem ser realizadas sem um componente suspenso. Em certas formas de realização, um método pode incluir hibridização de iniciador direto e inverso específico de loci, extensão e ligação. Tais métodos podem ainda incluir a amplificação universal ou síntese de DNA complementar sem amplificação, seguida de sequenciamento. Tais métodos podem reduzir ou excluir sequências de fundo durante a análise, em certas formas de realização.
[0071]Em certas formas de realização, as abordagens de pulldown podem ser utilizadas com um componente de amplificação opcional ou sem componente de amplificação. Em certas formas de realização, um método pode incluir um teste de pulldown modificado e ligação com incorporação completa de sondas de captura, sem amplificação universal. Por exemplo, tal abordagem pode envolver a utilização de sondas de seletores modificados para capturar fragmentos digeridos por enzimas de restrição, seguido de ligação de produtos capturados a um adaptador, amplificação opcional e sequenciamento. Em certas formas de realização, um método pode incluir um teste de pulldown biotinilado com extensão e ligação da sequência de adaptador em combinação com ligação de cadeia simples circular. Por exemplo, tal abordagem pode envolver a utilização de sondas de seletor para capturar as regiões de interesse (por exemplo, sequências alvo), extensão das sondas, ligação do adaptador, ligação de cadeia simples circular, amplificação opcional e sequenciamento. Em certas formas de realização, a análise do resultado de sequenciamento pode separar sequências alvo do fundo.
[0072]Em algumas formas de realização, o ácido nucleico é enriquecido para fragmentos de uma região genômica selecionada (por exemplo, cromossomo) utilizando um ou mais métodos de separação à base de sequências aqui descritas. A separação baseada na sequência geral baseia-se em sequências de nucleotídeos presentes nos fragmentos de interesse (por exemplo, fragmentos alvo e/ou de referência) e, substancialmente, não presentes em outros fragmentos da amostra ou presente em uma quantidade insubstancial dos outros fragmentos (por exemplo, 5% ou menos). Em algumas formas de realização, a separação baseada na sequência alvo pode gerar fragmentos separados e/ou fragmentos de referência separados. Os fragmentos alvo separados e/ou fragmentos de referência separados são, muitas vezes, isolados dos fragmentos remanescentes na amostra de ácido nucleico. Em certas formas de realização, os fragmentos alvo separados e os fragmentos de referência separados também são isolados longe uns dos outros (por exemplo, isolados em compartimentos de teste separados). Em certas formas de realização, os fragmentos alvo separados e os fragmentos de referência separados são isolados em conjunto (por exemplo, isolado no mesmo compartimento do teste). Em algumas formas de realização, os fragmentos não ligados podem ser diferencialmente removidos ou degradados ou digeridos.
[0073]Em algumas formas de realização, um processo de captura de ácido nucleico seletivo é utilizado para separar fragmentos alvo e/ou de referência para longe da amostra de ácido nucleico. Os sistemas de captura de ácido nucleico comercialmente disponíveis incluem, por exemplo, sistema de captura de sequência NimbleGen (Roche NimbleGen, Madison, WI); plataforma BEADARRAY Illumina (Illumina, San Diego, CA); plataforma GeneChip Affymetrix (Affymetrix, Santa Clara, CA); Sistema de Enriquecimento de alvo SureSelect da Agilent (Agilent Technologies, Santa Clara, CA); e plataformas relacionadas. Tais métodos envolvem, tipicamente, hibridização de um oligonucleotídeo de captura a um segmento ou a totalidade da sequência de nucleotídeos de um fragmento alvo ou de referência e pode incluir a utilização de uma fase sólida (por exemplo, matriz de fase sólida) e/ou uma plataforma baseada em solução. Os oligonucleotídeos de captura (por vezes referidos como "isca") podem ser selecionados ou concebidos de tal modo que hibridiza, preferencialmente, com fragmentos de ácido nucleico a partir de regiões do genoma ou loci selecionados (por exemplo, um dos cromossomos 21, 18, 13, X ou Y, ou um cromossomo de referência). Em certas formas de realização, um método baseado na hibridização (por exemplo, utilizando matrizes de oligonucleotídeos) pode ser utilizado para enriquecer para sequências de ácidos nucleicos a partir de certos cromossomos (por exemplo, um cromossomo potencialmente aneuploide, cromossomo de referência ou outro cromossomo de interesse) ou segmentos de interesse destes.
[0074]Em algumas formas de realização, o ácido nucleico é enriquecido para um determinado comprimento de fragmento de ácido nucleico, intervalo de comprimentos ou comprimentos sob ou sobre um determinado limite, ou de corte, utilizando um ou mais métodos de separação à base de comprimento. O comprimento do fragmento de ácido nucleico, tipicamente refere-se ao número de nucleotídeos no fragmento. O comprimento do fragmento de ácido nucleico é também, por vezes, referido como o tamanho do fragmento de ácido nucleico. Em algumas formas de realização, um método de separação baseado em comprimento é realizado sem medir comprimentos de fragmentos individuais. Em algumas formas de realização, um método de separação à base de comprimento é realizado em conjunto com um método para a determinação de comprimento de fragmentos individuais. Em algumas formas de realização, a separação baseada no comprimento refere-se a um procedimento de fracionamento de tamanho, onde a totalidade ou parte do grupo fracionado pode ser isolado (por exemplo, retido) e/ou analisado. Os procedimentos de fracionamento por tamanho são conhecidos na técnica (por exemplo, separação em uma matriz, separação por peneira molecular, separação por eletroforese em gel, separação por cromatografia em coluna (por exemplo, colunas de exclusão por tamanho), e abordagens baseadas em microfluidos). Em certas formas de realização, métodos de separação baseados em comprimentos podem incluir circularização do fragmento, tratamento químico (por exemplo, formaldeído, polietilenoglicol (PEG)), espectrometria de massa e/ou amplificação de ácidos nucleicos de tamanho específico, por exemplo.
[0075] Certos métodos de separação baseados em comprimentos que podem ser utilizados com os métodos aqui descritos empregam uma abordagem de marcação de sequência seletiva, por exemplo. O termo "marcação de sequência" refere-se à incorporação de uma sequência reconhecida e distinta a um ácido nucleico ou uma população de ácidos nucleicos. O termo "marcação de sequência", tal como aqui utilizado, tem um significado diferente do termo "marcador de sequência" descrito posteriormente neste documento. Em tais métodos de marcação de sequência, um ácido nucleico de espécie de tamanho de fragmento (por exemplo, fragmentos curtos) são submetidos a marcação de sequência seletiva em uma amostra que inclui ácidos nucleicos longos e curtos. Tais métodos envolvem, tipicamente, a realização de uma reação de amplificação de ácido nucleico utilizando um conjunto de iniciadores internos que incluem iniciadores internos e iniciadores exteriores. Em certas formas de realização, um ou ambos dos internos podem ser marcados para introduzir, assim, uma marcação para o produto de amplificação alvo. Os iniciadores externos, geralmente, não se ligam aos fragmentos curtos que transportam a sequência alvo (interno). Os iniciadores internos podem emparelhar com a fragmentos curtos e gerar um produto de amplificação que leva uma marcação e a sequência alvo. Tipicamente, a marcação dos fragmentos longos é inibida através de uma combinação de mecanismos, que inclui, por exemplo, extensão bloqueada dos iniciadores internos pelo recozimento anterior e extensão dos iniciadores externos. O enriquecimento para os fragmentos marcados pode ser conseguido por qualquer de uma variedade de métodos, incluindo, por exemplo, digestão de exonuclease de ácido nucleico em cadeia simples e amplificação dos fragmentos marcados utilizando os iniciadores de amplificação específicos para, pelo menos, um marcador.
[0076]Outro método de separação à base de comprimento que pode ser utilizado com os métodos aqui descritos envolve a sujeição de uma amostra de ácido nucleico à precipitação com polietilenoglicol (PEG). Exemplos de métodos incluem aqueles descritos na Publicações do Pedido de Patente Internacional Nos WO2007/140417 e WO2010/115016, todo o conteúdo de cada uma é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos. Este método implica, em geral, o contato de uma amostra de ácido nucleico com PEG na presença de um ou mais sais monovalentes, sob condições suficientes para, substancialmente, precipitar ácidos nucleicos grandes sem, substancialmente, precipitar ácidos nucleicos pequenos (por exemplo, menos de 300 nucleotídeos).
[0077]Outro método de enriquecimento à base de tamanho que pode ser utilizado com os métodos aqui descritos envolve a circularização por ligação, por exemplo, utilizando circligase. Os fragmentos de ácido nucleico curtos, tipicamente, podem ser circularizados com maior eficiência do que fragmentos longos. As sequências não- circularizadas podem ser separadas a partir de sequências circularizadas, e os fragmentos curtos enriquecidos podem ser utilizados para posterior análise.
Biblioteca de Ácido Nucleico
[0078]Em algumas formas de realização, uma biblioteca de ácido nucleico é uma pluralidade de moléculas de polinucleotídeos (por exemplo, uma amostra de ácidos nucleicos) que são preparadas, montadas e/ou modificadas para um processo específico, exemplos não limitativos dos quais incluem a imobilização sobre uma fase sólida (por exemplo, um suporte sólido, por exemplo, uma célula de fluxo, uma esfera), enriquecimento, amplificação, clonagem, detecção e/ou para sequenciamento de ácidos nucleicos. Em certas formas de realização, uma biblioteca de ácido nucleico é preparada antes ou durante um processo de sequenciamento. Uma biblioteca de ácido nucleico (por exemplo, biblioteca de sequenciamento) pode ser preparada por um método adequado conforme é conhecido na técnica. Uma biblioteca de ácido nucleico pode ser preparada por um processo de preparação de alvo ou não-alvo.
[0079]Em algumas formas de realização, uma biblioteca de ácidos nucleicos é modificada para compreender uma porção química (por exemplo, um grupo funcional) configurado para a imobilização dos ácidos nucleicos a um suporte sólido. Em algumas formas de realização, uma biblioteca de ácidos nucleicos pode ser modificada para compreender uma biomolécula (por exemplo, um grupo funcional) e/ou um membro de um par de ligação configurado para imobilização da biblioteca a um suporte sólido, exemplos não limitativos dos quais incluem globulina de ligação à tiroxina, proteínas de ligação à esteroides, anticorpos, antígenos, haptenos, enzimas, lectinas, ácidos nucleicos, repressores, proteína A, proteína G, avidina, estreptavidina, biotina, componente do complemento C1q, proteínas de ligação à ácidos nucleicos, receptores, carboidratos, oligonucleotídeos, polinucleotídeos, sequências de ácido nucleico complementares, semelhantes e suas combinações. Alguns exemplos de pares de ligação específicos incluem, sem limitação: uma porção de avidina e uma porção de biotina; um epítopo antigênico e um anticorpo ou um fragmento imunologicamente reativo do mesmo; um anticorpo e um hapteno; uma porção de digoxigenina e um anticorpo anti-digoxigenina; uma porção de fluoresceína e um anticorpo anti-fluoresceína; um operador e um repressor; uma nuclease e um nucleotídeo; uma lectina e um polissacarídeo; um esteroide e uma proteína de ligação a esteroide; um composto ativo e um receptor de substância ativa; um hormônio e um receptor hormonal; uma enzima e um substrato; uma imunoglobulina e proteína A; um oligonucleotídeo ou um polinucleotídeo e o seu complemento correspondente; semelhantes ou combinações dos mesmos.
[0080]Em algumas formas de realização, uma biblioteca de ácidos nucleicos pode ser modificada para compreender um ou mais polinucleotídeos de composição conhecida, exemplos não limitativos dos quais incluem um identificador (por exemplo, um marcador, um marcador de indexação), uma sequência de captura, um marcador, um adaptador, um local de enzima de restrição, um promotor, um intensificador, uma origem de replicação, uma haste em ansa, uma sequência complementar (por exemplo, um local de ligação do iniciador, um local de hibridização), um local de integração adequado (por exemplo, um transpóson, um local de integração viral), um nucleotídeo modificado, similares ou as suas combinações. Os polinucleotídeos de sequência conhecida podem ser adicionados em um ponto adequado, por exemplo, na extremidade 5', extremidade 3' ou dentro de uma sequência de ácido nucleico. Os polinucleotídeos de sequência conhecida podem ser as mesmas sequências ou diferentes. Em algumas formas de realização, um polinucleotídeo de sequência conhecida é configurado para hibridizar com um ou mais oligonucleotídeos imobilizados sobre uma superfície (por exemplo, uma superfície na célula de fluxo). Por exemplo, uma molécula de ácido nucleico compreendendo uma sequência 5' conhecida pode hibridizar com uma primeira pluralidade de oligonucleotídeos enquanto a sequência 3' conhecida pode hibridizar com uma segunda pluralidade de oligonucleotídeos. Em algumas formas de realização, uma biblioteca de ácido nucleico pode incluir marcadores específicos de cromossomo, sequências de captura, etiquetas e/ou adaptadores. Em algumas formas de realização, uma biblioteca de ácidos nucleicos compreende uma ou mais etiquetas detectáveis. Em algumas formas de realização uma ou mais etiquetas detectáveis podem ser incorporadas em uma biblioteca de ácido nucleico a uma extremidade 5', a uma extremidade 3' e/ou em qualquer posição de nucleotídeo em um ácido nucleico na biblioteca. Em algumas formas de realização, uma biblioteca de ácidos nucleicos compreende oligonucleotídeos hibridizados. Em certas formas de realização, oligonucleotídeos hibridizados são sondas com etiquetas. Em algumas formas de realização, uma biblioteca de ácidos nucleicos compreende a sondas de oligonucleotídeos hibridizadas antes da imobilização sobre uma fase sólida.
[0081]Em algumas formas de realização, um polinucleotídeo de sequência conhecida compreende uma sequência universal. Uma sequência universal é uma sequência de ácido nucleico específica que é integrada em duas ou mais moléculas de ácido nucleico ou dois ou mais subgrupos de moléculas de ácido nucleico, em que a sequência universal é a mesma para todas as moléculas ou subconjuntos de moléculas que é nela integrada. Uma sequência universal é, frequentemente, concebida para hibridizar com e/ou amplificar uma pluralidade de sequências diferentes utilizando um único iniciador universal, que é complementar a uma sequência universal. Em algumas formas de realização, duas (por exemplo, um par) ou mais sequências universais e/ou iniciadores universais são utilizados. Um iniciador universal compreende, frequentemente, uma sequência universal. Em algumas formas de realização, adaptadores (por exemplo, adaptadores universais) compreendem sequências universais. Em algumas formas de realização uma ou mais sequências universais são utilizadas para capturar, identificar e/ou detectar várias espécies ou subconjuntos de ácidos nucleicos.
[0082]Em certas formas de realização da preparação de uma biblioteca de ácido nucleico, (por exemplo, em certos sequenciamentos por procedimentos de síntese), os ácidos nucleicos são de tamanho selecionado e/ou fragmentados em comprimentos de várias centenas de pares de bases, ou menos (por exemplo, na preparação para a geração de biblioteca). Em algumas formas de realização, a preparação da biblioteca é realizada sem a fragmentação (por exemplo, quando se utiliza ccfDNA).
[0083]Em certas formas de realização, um método de preparação de biblioteca à base de ligação é utilizado (por exemplo, ILLUMINA TRUSEQ, Illumina, San Diego CA). Os métodos de preparação de bibliotecas baseados em ligação, muitas vezes, fazem uso de uma concepção de adaptador (por exemplo, um adaptador metilado), que pode incorporar uma sequência de índice no passo de ligação inicial e, muitas vezes, pode ser utilizado para preparar amostras para o sequenciamento de leitura simples, sequenciamento de extremidade emparelhada e sequenciamento multiplexado. Por exemplo, ácidos nucleicos (por exemplo, por vezes, ácidos nucleicos fragmentados ou ccfDNA) são reparados na extremidade por uma reação de preenchimento, uma reação de exonuclease ou uma combinação das mesmas. Em algumas formas de realização, o ácido nucleico de extremidade cega reparado resultante pode então ser estendido por um único nucleotídeo, que é complementar a uma única saliência de nucleotídeos na extremidade 3' de um adaptador/iniciador. Qualquer nucleotídeo pode ser utilizado para os nucleotídeos de extensão/saliência. Em algumas formas de realização, a preparação da biblioteca de ácido nucleico compreende a ligação de um oligonucleotídeo adaptador. Os oligonucleotídeos adaptadores são, frequentemente, complementares a âncoras de células de fluxo e, por vezes, são utilizados para imobilizar uma biblioteca de ácido nucleico a um suporte sólido, tal como a superfície interior de uma célula de fluxo, por exemplo. Em algumas formas de realização, um oligonucleotídeo adaptador compreende um identificador, um ou mais locais de hibridização de iniciadores de sequenciamento (por exemplo, as sequências complementares aos iniciadores universais de sequenciamento, iniciadores de sequenciamento de extremidade única, iniciadores de sequenciamento de extremidade emparelhada, iniciadores de sequenciamento multiplexados e semelhantes), ou suas combinações (por exemplo, adaptador/sequenciamento, adaptador/identificador, adaptador/identificador/sequenciamento).
[0084]Um identificador pode ser um marcador detectável adequado incorporado no, ou ligado, a um ácido nucleico (por exemplo, um polinucleotídeo) que permite a detecção e/ou identificação de ácidos nucleicos que compreendem o identificador. Em algumas formas de realização, um identificador é incorporado em, ou ligado a, um ácido nucleico durante um método de sequenciamento (por exemplo, por uma polimerase). Exemplos não limitantes de identificadores incluem marcadores de ácido nucleico, índices de ácido nucleico ou códigos de barras, uma etiqueta radioativa (por exemplo, um isótopo), etiqueta metálica, uma etiqueta fluorescente, uma etiqueta quimioluminescente, uma etiqueta fosforescente, um supressor de fluoróforo, um corante, uma proteína (por exemplo, uma enzima, um anticorpo ou parte deste, um ligante, um membro de um par de ligações), semelhantes ou combinações dos mesmos. Em algumas formas de realização, de um identificador (por exemplo, um índice de ácido nucleico ou código de barras) é uma sequência única, conhecida e/ou identificável de nucleotídeos ou análogos de nucleotídeos. Em algumas formas de realização, identificadores são seis ou mais nucleotídeos contíguos. Uma multiplicidade de fluoróforos estão disponíveis com uma variedade de diferentes espectros de excitação e emissão. Qualquer tipo e/ou o número apropriado de fluoróforos pode ser utilizado como um identificador. Em algumas formas de realização 1 ou mais, 2 ou mais, 3 ou mais, 4 ou mais, 5 ou mais, 6 ou mais, 7 ou mais, 8 ou mais, 9 ou mais, 10 ou mais, 20 ou mais, 30 ou mais ou 50 ou mais identificadores diferentes são utilizados em um método aqui descrito (por exemplo, uma detecção de ácido nucleico e/ou método de sequenciamento). Em algumas formas de realização, um ou dois tipos de identificadores (por exemplo, marcadores fluorescentes) são ligados a cada ácido nucleico em uma biblioteca. A detecção e/ou quantificação de um identificador pode ser realizada por um método adequado, máquina ou aparelho, exemplos não limitativos dos quais incluem citometria de fluxo, reação em cadeia de polimerase quantitativa (qPCR), eletroforese em gel, um luminômetro, um fluorímetro, um espectrofotômetro, uma análise de chip ou microarrays do gene adequada, transferência de Western, espectrometria de massa, cromatografia, análise de citometria de fluxo, microscopia de fluorescência, uma fluorescência adequada ou método de imagens digitais, microscopia de varrimento a laser confocal, citometria de varrimento a laser, cromatografia de afinidade, separação do de modo descontínuo manual, suspensão em campo elétrico, um método de sequenciamento de ácidos nucleicos adequado e/ou aparelho de sequenciamento de ácido nucleico, semelhantes e suas combinações.
[0085]Em algumas formas de realização, um método de preparação de biblioteca à base de transpóson é utilizada (por exemplo, EPICENTRE Nextera, Epicentre, Madison WI). Os métodos baseados em transpóson, normalmente, utilizam a transposição in vitro para simultaneamente fragmentar e marcar o DNA em uma reação de tubo único (muitas vezes permitindo a incorporação de marcadores específicos de plataforma e códigos de barras opcionais) e preparar bibliotecas prontas para sequenciador.
[0086]Em algumas formas de realização, uma biblioteca de ácidos nucleicos, ou suas partes, é amplificada (por exemplo, amplificado por um método baseado em PCR). Em algumas formas de realização, um método de sequenciamento compreende a amplificação de uma biblioteca de ácido nucleico. Uma biblioteca de ácido nucleico pode ser amplificada antes ou após a imobilização em um suporte sólido (por exemplo, um suporte sólido em uma célula de fluxo). A amplificação de ácidos nucleicos inclui o processo de amplificar ou aumentar o número de um molde de ácido nucleico, e/ou um seu complemento, que está presente (por exemplo, de uma biblioteca de ácido nucleico) através da produção de uma ou mais cópias do molde e/ou o seu complemento. A amplificação pode ser realizada por um método adequado. Uma biblioteca de ácido nucleico pode ser amplificada por um método de termociclização ou por um método de amplificação isotérmica. Em algumas formas de realização, um método de amplificação em círculo rolante é utilizado. Em algumas formas de realização, a amplificação ocorre sobre um suporte sólido (por exemplo, dentro de uma célula de fluxo), onde uma biblioteca de ácido nucleico, ou parte dele, está imobilizada. Em certos métodos de sequenciamento, uma biblioteca de ácido nucleico é adicionada a uma célula de fluxo e imobilizada por hibridização com âncoras sob condições adequadas. Este tipo de amplificação de ácido nucleico é, muitas vezes, referido como amplificação em fase sólida. Em algumas formas de realização da amplificação em fase sólida, todos, ou uma porção de, os produtos amplificados são sintetizados por uma extensão que se inicia a partir de um iniciador imobilizado. As reações de amplificação em fase sólida são análogas às amplificações de fase de solução padrão com exceção de que, pelo menos, um dos oligonucleotídeos de amplificação (por exemplo, iniciadores) é imobilizado sobre um suporte sólido.
[0087]Em algumas formas de realização, a amplificação em fase sólida compreende uma reação de amplificação de ácido nucleico que compreende apenas uma espécie de iniciador de oligonucleotídeo imobilizado em uma superfície. Em certas formas de realização, a amplificação em fase sólida compreende uma pluralidade de espécies de iniciadores oligonucleotídicos imobilizadas diferentes. Em algumas formas de realização, a amplificação em fase sólida pode compreender uma reação de amplificação de ácido nucleico compreendendo uma espécie de iniciador de oligonucleotídeo imobilizado em uma superfície sólida e uma segunda espécie de iniciador de oligonucleotídeos diferente em solução. Várias espécies diferentes de iniciadores imobilizados ou à base de solução podem ser utilizadas. Exemplos de reações de amplificação de ácidos nucleicos em fase sólida não-limitativas incluem amplificação interfacial, amplificação em ponte, emulsão de PCR, amplificação WildFire (por exemplo, publicação da patente dos EUA US20130012399), semelhantes ou combinações dos mesmos.
Sequenciamento
[0088]Em algumas formas de realização, os ácidos nucleicos (por exemplo, fragmentos de ácidos nucleicos, ácido nucleico da amostra, ácido nucleico isento de células) são sequenciados. Em certas formas de realização, uma sequência completa, ou, substancialmente, completa, é obtida e, por vezes, uma sequência parcial é obtida.
[0089]Em algumas formas de realização, alguns ou todos os ácidos nucleicos de uma amostra são enriquecidos e/ou amplificados (por exemplo, de forma não específica, por exemplo, por um método baseado em PCR) antes ou durante o sequenciamento. Em certas formas de realização, porções de ácido nucleico específicas, ou subconjuntos em uma amostra, são enriquecidos e/ou amplificados antes ou durante o sequenciamento. Em algumas formas de realização, uma porção, ou um subconjunto, de um conjunto pré-selecionado de ácidos nucleicos é sequenciado aleatoriamente. Em algumas formas de realização, os ácidos nucleicos de uma amostra não são enriquecidos e/ou amplificados antes ou durante o sequenciamento.
[0090] Tal como aqui utilizado, "leituras" (por exemplo, "uma leitura", "uma leitura de sequência") são sequências curtas de nucleotídeos produzidas por qualquer processo de sequenciamento aqui descrito ou conhecido na técnica. A leitura pode ser gerada a partir de uma extremidade de fragmentos de ácido nucleico ("leituras de extremidade única"), e, por vezes, são geradas a partir de ambas as extremidades de ácidos nucleicos (por exemplo, leitura de extremidade emparelhada, leitura de dupla extremidade).
[0091]O comprimento de uma leitura de sequência é, muitas vezes, associado com a tecnologia de sequenciamento em particular. Os métodos de alto rendimento, por exemplo, fornecem leituras de sequência que podem variar em tamanho a partir de dezenas a centenas de pares de bases (pb). O sequenciamento utilizando nanoporos, por exemplo, pode fornecer leituras de sequência que podem variar em tamanho a partir de dezenas a centenas a milhares de pares de bases. Em algumas formas de realização, as leituras de sequência são de um valor médio, mediana, média ou comprimento absoluto de cerca de 15 pb até cerca de 900 pb de comprimento. Em certas formas de realização leituras de sequência são de valor médio, mediana, média ou comprimento absoluto de cerca de 1000 pb ou mais.
[0092]Em algumas formas de realização o comprimento nominal, média, valor médio ou absoluto de leituras de extremidade única por vezes, é de cerca de 15 nucleotídeos contíguos até cerca de 50 ou mais nucleotídeos contíguos, cerca de 15 nucleotídeos contíguos a cerca de 40 ou mais nucleotídeos contíguos, e, por vezes, cerca de 15 nucleotídeos contíguos ou cerca de 36 ou mais nucleotídeos contíguos. Em certas formas de realização, o comprimento nominal, médio, valor médio ou absoluto de leituras de extremidade única é de cerca de 20 a cerca de 30 bases, ou cerca de 24 a cerca de 28 bases de comprimento. Em certas formas de realização da nominal, média, valor médio ou comprimento absoluto de leituras de extremidade única é de cerca de 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 21, 22, 23, 24, 25, 26, 27, 28 ou cerca de 29 bases ou mais de comprimento.
[0093]Em certas formas de realização, o comprimento nominal, médio, valor médio ou absoluto das leituras de extremidade emparelhada, por vezes, é de cerca de 10 nucleotídeos contíguos até cerca de 25 nucleotídeos contíguos ou mais (por exemplo, cerca de 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 ou 25 nucleotídeos de comprimento ou mais), cerca de 15 nucleotídeos contíguos até cerca de 20 nucleotídeos contíguos ou mais, e, por vezes, é de cerca de 17 nucleotídeos contíguos ou cerca de 18 nucleotídeos contíguos.
[0094]As leituras, geralmente, são representações das sequências de nucleotídeos em um ácido nucleico físico. Por exemplo, em uma leitura contendo uma representação ATGC de uma sequência, "A" representa um nucleotídeo de adenina, "T" representa um nucleotídeo de timina, "G" representa um nucleotídeo de guanina e "C" representa um nucleotídeo de citosina, em um ácido nucleico físico. Leituras de sequência obtidas a partir do sangue de uma fêmea grávida podem ser leituras a partir de uma mistura de ácido nucleico fetal e materno. Uma mistura de leituras relativamente curtas pode ser transformada por processos aqui descritos para a representação de um ácido nucleico genômico presente na fêmea grávida e/ou no feto. Uma mistura de leituras relativamente curtas pode ser transformada em uma representação de uma variação do número de cópia (por exemplo, uma variação do número de cópia materno e/ou fetal), variação genética ou uma aneuploidia, por exemplo. Leituras de uma mistura de ácido nucleico materno e fetal podem ser transformadas em uma representação de um cromossomo compósito ou um segmento, compreendendo características de um ou ambos os cromossomos materno e fetal. Em certas formas de realização, "a obtenção de" as leituras de sequência de ácido nucleico de uma amostra de um indivíduo e/ou "a obtenção de" leituras de sequência de ácido nucleico de uma amostra biológica a partir de uma ou mais pessoas, pode envolver sequenciar, diretamente, ácido nucleico de referência para obter a informação da sequência. Em algumas formas de realização, "a obtenção" pode envolver receber informação sobre a sequência obtida diretamente a partir de um ácido nucleico por outro.
[0095]Em algumas formas de realização, uma fração representativa de um genoma é sequenciada e é, por vezes, referida como "cobertura" ou "cobertura em réplica". Por exemplo, uma cobertura de 1 vez indica que cerca de 100% das sequências de nucleotídeos do genoma são representadas por leituras. Em algumas formas de realização "cobertura em réplica" é um termo relativo referindo-se a um prévio sequenciamento executado como uma referência. Por exemplo, uma segunda execução de sequenciamento pode ter 2 vezes menos cobertura do que a primeira execução de sequenciamento. Em algumas formas de realização, um genoma é sequenciado com redundância, em que uma determinada região do genoma pode ser coberta por duas ou mais leituras ou leituras de sobreposição (por exemplo, uma "cobertura em réplica" maior do que 1, por exemplo, uma cobertura de 2 vezes).
[0096]Em algumas formas de realização, uma amostra de ácidos nucleicos de um indivíduo é sequenciada. Em certas formas de realização, os ácidos nucleicos a partir de cada um de duas ou mais amostras são sequenciadas, em que as amostras são a partir de um indivíduo ou a partir de diferentes indivíduos. Em certas formas de realização, as amostras de ácidos nucleicos a partir de duas ou mais amostras biológicas são reunidas, onde cada amostra biológica é de um indivíduo, ou dois ou mais indivíduos, e o conjunto é sequenciado. Nas últimas formas de realização, uma amostra de ácido nucleico, a partir de cada amostra biológica, muitas vezes, é identificada por um ou mais identificadores únicos.
[0097]Em algumas formas de realização, um método de sequenciamento utiliza identificadores que permitem reações de multiplexação de sequência em um processo de sequenciamento. Quanto maior for o número de identificadores únicos, maior será o número de amostras e/ou cromossomos para a detecção, por exemplo, que podem ser multiplexados em um processo de sequenciamento. Um processo de sequenciamento pode ser realizado utilizando qualquer número adequado de identificadores únicos (por exemplo, 4, 8, 12, 24, 48, 96, ou mais).
[0098]Um processo de sequenciamento, por vezes, utiliza uma fase sólida, e, por vezes, a fase sólida compreende uma célula de fluxo na qual o ácido nucleico a partir de uma biblioteca pode ser ligado e reagentes podem ser vertidos e postos em contato com o ácido nucleico ligado. Uma célula de fluxo, por vezes, inclui vias de célula de fluxo, e a utilização de identificadores pode facilitar a análise de um número de amostras em cada pista. A célula de fluxo é, frequentemente, um suporte sólido que pode ser configurado para reter e/ou permitir a passagem ordenada de soluções de reagentes ao longo de analitos ligados. As células de fluxo, frequentemente, são planas, oticamente transparentes, geralmente na escala milimétrica ou submilimétrica e, muitas vezes, têm vias ou faixas em que a interação analito/reagente ocorre. Em algumas formas de realização o número de amostras analisadas em uma dada via de célula de fluxo é dependente do número de identificadores únicos utilizados durante a preparação da biblioteca e/ou concepção de sonda, a via célula de fluxo única. A multiplexagem utilizando 12 identificadores, por exemplo, permite a análise simultânea de 96 amostras (por exemplo, igual ao número de cavidades em uma placa de micropoços de 96 poços) em uma célula de fluxo de 8 vias. Da mesma forma, multiplexagem utilizando 48 identificadores, por exemplo, permite a análise simultânea de 384 amostras (por exemplo, igual ao número de cavidades em uma placa de 384 cavidades de micropoços) em uma célula de fluxo de 8 vias. Exemplos não limitativos de kits de sequenciamento multiplex disponíveis comercialmente incluem kit de oligonucleotídeo de preparação de amostra de multiplexagem Illumina e iniciadores de sequenciamento de multiplexagem e kit de controle PhiX (por exemplo, números de catálogo de Illumina PE-400-1001 e PE-400-1002, respectivamente).
[0099]Qualquer método adequado de sequenciamento de ácidos nucleicos pode ser utilizado, exemplos não limitativos dos quais incluem Maxim e Gilbert, métodos de terminação de cadeia, sequenciamento por síntese, sequenciamento por ligação, sequenciamento por espectrometria de massa, técnicas baseadas em microscopia, semelhantes ou combinações dos mesmos. Em algumas formas de realização, uma primeira tecnologia de geração, tal como, por exemplo, métodos de sequenciamento de Sanger, incluindo métodos de sequenciamento de Sanger automatizados, incluindo sequenciamento de Sanger microfluidico, pode ser utilizada em um método aqui proporcionado. Em algumas formas de realização tecnologias de sequenciamento, que incluem a utilização de tecnologias de imagens de ácidos nucleicos (por exemplo, microscopia eletrônica de transmissão (TEM) e microscopia de força atômica (AFM)), podem ser utilizadas. Em algumas formas de realização, um método de sequenciamento de alto rendimento é utilizado. Os métodos de sequenciamento de alto rendimento geralmente envolvem modelos de DNA amplificados por clonagem ou moléculas de DNA individuais que são sequenciadas de forma massiva em paralelo, às vezes dentro de uma célula de fluxo. As técnicas de sequenciamento de última geração (por exemplo, 2a e 3a geração) capazes de sequenciamento de DNA de uma forma massiva em paralelo podem ser utilizadas para os métodos aqui descritos e são coletivamente aqui referidas como "sequenciamento massivo em paralelo" (MPS). Em algumas formas de realização, métodos de sequenciamento MPS utilizam uma abordagem orientada, onde cromossomos específicos, genes ou regiões de interesse são sequências. Em certas formas de realização, uma abordagem não-alvo é utilizada onde a maioria ou todos os ácidos nucleicos em uma amostra são sequenciados, amplificados e/ou capturados aleatoriamente.
[00100] Em algumas formas de realização, uma abordagem de enriquecimento orientado, amplificação e/ou sequenciamento é utilizada. A abordagem orientada, muitas vezes isola, seleciona e/ou enriquece um subconjunto de ácidos nucleicos em uma amostra para processamento adicional através da utilização de oligonucleotídeos específicos de sequência. Em algumas formas de realização, uma biblioteca de oligonucleotídeos específicos de sequências é utilizada para objetivar (por exemplo, para hibridizar) um ou mais conjuntos de ácidos nucleicos em uma amostra. Os oligonucleotídeos e/ou iniciadores específicos de sequência são, muitas vezes, seletivos para sequências particulares (por exemplo, sequências de ácido nucleico únicas) presentes em um ou mais cromossomos, genes, exons, introns e/ou regiões reguladoras de interesse. Qualquer método adequado, ou a combinação de métodos, pode ser utilizado para o enriquecimento, amplificação e/ou sequenciamento de um ou mais subconjuntos de ácidos nucleicos alvo. Em algumas formas de realização, sequências alvo são isoladas e/ou enriquecidas por captura para uma fase sólida (por exemplo, uma célula de fluxo, uma esfera) utilizando uma ou mais âncoras específicas da sequência. Em algumas formas de realização, sequências alvo são enriquecidas e/ou amplificadas por um método à base de polimerase (por exemplo, um método baseado em PCR, por qualquer extensão à base de polimerase adequada), utilizando iniciadores específicos da sequência e/ou conjuntos de iniciadores. As âncoras de sequências específicas, muitas vezes, podem ser utilizadas como iniciadores específicos de sequência.
[00101] O sequenciamento por MPS, por vezes, utiliza de sequenciamento por síntese e certos processos de imagem. Uma tecnologia de sequenciamento de ácidos nucleicos que pode ser utilizada em um método aqui descrito é o sequenciamento por síntese e sequenciamento à base de terminador reversível (por exemplo, Analisador de genoma da Illumina; Genoma Analyzer II; HISEQ 2000; HISEQ 2500 (Illumina, San Diego CA)). Com esta tecnologia, milhões de fragmentos de ácido nucleico (por exemplo, DNA) podem ser sequenciados em paralelo. Em um exemplo deste tipo de tecnologia de sequenciamento, uma célula de fluxo é utilizada que contém uma lâmina opticamente transparente com 8 vias individuais nas superfícies das quais estão ligadas âncoras de oligonucleotídeos (por exemplo, iniciadores de adaptador). A célula de fluxo é, frequentemente, um suporte sólido que pode ser configurado para reter e/ou permitir a passagem ordenada de soluções de reagentes ao longo de analitos ligados. As células de fluxo, frequentemente, são planas, oticamente transparentes, geralmente na escala milimétrica ou submilimétrica e, muitas vezes, têm vias ou faixas em que a interação analito/reagente ocorre.
[00102] O sequenciamento por síntese, em algumas formas de realização, compreende a adição iterativa (por exemplo, por adição covalente) de um nucleotídeo a um iniciador ou cadeia de ácido nucleico preexistente de uma forma dirigida ao molde. Cada adição iterativa de um nucleotídeo é detectada e o processo é repetido várias vezes até se obter uma sequência de ácido nucleico de cadeia simples. O comprimento de uma sequência obtida depende, em parte, do número de passos de adição e detecção que são realizados. Em algumas formas de realização de sequenciamento por síntese, um, dois, três ou mais nucleotídeos do mesmo tipo (por exemplo, A, G, C ou T) são adicionados e detectados em um ciclo de adição de nucleotídeos. Os nucleotídeos podem ser adicionados por qualquer método adequado (por exemplo, enzimaticamente ou quimicamente). Por exemplo, em algumas formas de realização uma polimerase ou uma ligase adiciona um nucleotídeo de um iniciador ou de uma cadeia de ácido nucleico pré-existente de uma maneira direcionada ao molde. Em algumas formas de realização de sequenciamento por síntese, são utilizados diferentes tipos de nucleotídeos, análogos de nucleotídeos e/ou identificadores. Em algumas formas de realização terminadores reversíveis e/ou identificadores amovíveis (por exemplo, cliváveis) são utilizados. Em algumas formas de realização, nucleotídeos marcados fluorescentes e/ou análogos de nucleotídeos são utilizados. Em certas formas de realização, o sequenciamento por síntese compreende uma clivagem (por exemplo, clivagem e remoção de um identificador) e/ou um passo de lavagem. Em algumas formas de realização, a adição de um ou mais nucleotídeos é detectada por um método adequado aqui descrito ou conhecido na técnica, exemplos não limitativos dos quais incluem qualquer aparelho adequado de imagem, uma câmara adequada, uma câmara digital, um aparelho de imagem à base de CCD (dispositivo de acoplamento de carga) (por exemplo, uma câmera CCD), um aparelho à base de imagem por CMOS (óxido de Silício metálico complementar) (por exemplo, uma câmara CMOS), um fotodiodo (por exemplo, um tubo fotomultiplicador), microscopia eletrônica, um transistor de efeito de campo (por exemplo, um transistor de efeito de campo de DNA), um sensor de íons ISFET (por exemplo, um sensor CHEMFET), semelhantes ou combinações dos mesmos. Outros métodos de sequenciamento que podem ser utilizados para realizar os métodos aqui incluem PCR digital e sequenciamento por hibridização.
[00103] Outros métodos de sequenciamento que podem ser utilizados para realizar os métodos aqui descritos incluem PCR digital e sequenciamento por hibridização. A reação em cadeia da polimerase digital (PCR digital ou dPCR) pode ser utilizada para identificar e quantificar, diretamente, ácidos nucleicos em uma amostra. PCR digital pode ser realizada em uma emulsão, em algumas formas de realização. Por exemplo, ácidos nucleicos individuais são separados, por exemplo, em uma câmara de dispositivo de microfluidos, e cada ácido nucleico é amplificado por PCR individualmente. Os ácidos nucleicos podem ser separados de tal modo que não há mais do que um ácido nucleico por poço. Em algumas formas de realização, diferentes sondas podem ser utilizadas para distinguir diferentes alelos (por exemplo, alelos fetais e alelos maternos). Os alelos podem ser enumerados para determinar o número de cópia.
[00104] Em certas formas de realização, o sequenciamento por hibridização pode ser utilizado. O método envolve o contato de uma pluralidade de sequências de polinucleotídeos com uma pluralidade de sondas de polinucleotídeos, em que cada uma da pluralidade de sondas de polinucleotídeos pode ser, opcionalmente, presa a um substrato. O substrato pode ser uma superfície plana com uma série de sequências de nucleotídeos conhecidas, em algumas formas de realização. O padrão de hibridização com a matriz pode ser utilizado para determinar a sequências de polinucleotídeos presentes na amostra. Em algumas formas de realização, cada uma das sondas está presa a um cordão, por exemplo, um cordão magnético ou semelhante. A hibridização para os grânulos pode ser identificada e utilizada para identificar a pluralidade de sequências de polinucleotídeos na amostra.
[00105] Em algumas formas de realização, sequenciamento utilizando nanoporos pode ser utilizado em um método aqui descrito. O sequenciamento utilizando nanoporos é uma tecnologia de sequenciamento de uma única molécula em que uma única molécula de ácido nucleico (por exemplo, DNA) é sequenciada diretamente à medida que passa através de um nanoporo.
[00106] Uma plataforma de método, sistema ou tecnologia de MPS adequado para a realização de métodos aqui descritos pode ser utilizada para se obter leituras de sequências de ácidos nucleicos. Exemplos não limitantes de plataformas MPS incluem Illumina/Solex/HiSeq (por exemplo, Genome Analyzer da Illumina; Genome Analyzer II; HISEQ 2000; HISEQ), SOLiD, Roche/454, PACBIO e/ou SMRT, Sequenciamento de molécula única verdadeira Helicos, Ion Torrent e sequenciamento à base de semicondutores iônicos (por exemplo, tal como desenvolvida pela Life Technologies), Wildfire, 5500, tecnologias baseadas na Genetic Analyzer 5500xI W e/ou 5500xI W (por exemplo, tal como foi desenvolvido e vendido pela Life Technologies, publicação da patente dos EUA no US20130012399); sequenciamento Polony, pirossequenciamento, Sequenciamento de Assinatura Massiva Paralela (MPSS), sequenciamento de RNA em polimerase (RNAP), sistemas e métodos LaserGen, plataformas baseadas em nanoporos, matrizes de transistor de efeito de campo sensíveis a produto químico (CHEMFET), sequenciamento baseado em microscopia eletrônica (por exemplo, como desenvolvido pela ZS Genetics, Molecular halcyon), sequenciamento Nanoball, semelhantes ou combinações dos mesmos.
[00107] Em algumas formas de realização, o sequenciamento específico do cromossomo é realizado. Em algumas formas de realização, o sequenciamento específico do cromossomo é realizado utilizando DANSR (análise digital das regiões selecionadas). A análise digital de regiões selecionadas permite a quantificação simultânea de centenas de loci por catenação cfDNA-dependente de dois oligonucleotídeos específicos para um local por meio de um oligonucleotídeo "ponte" interveniente para formar um molde de PCR. Em algumas formas de realização, o sequenciamento específico do cromossomo é realizado através da geração de uma biblioteca enriquecida em sequências específicas do cromossomo. Em algumas formas de realização, as leituras de sequência são obtidas apenas para um conjunto selecionado de cromossomos. Em algumas formas de realização, as leituras de sequência são obtidas apenas para cromossomos 21, 18 e 13. Em algumas formas de realização, as leituras de sequência são obtidas para, e/ou mapeadas para, um genoma de referência inteiro ou um segmento de um genoma.
[00108] Em algumas formas de realização, as leituras de sequência são geradas, obtidas, recolhidas, reunidas, manipuladas, transformadas, processada, e/ou fornecidas por um módulo de sequência. Uma máquina compreendendo um módulo de sequência pode ser uma máquina adequada e/ou um aparelho que determina a sequência de um ácido nucleico utilizando uma tecnologia de sequenciamento conhecida na técnica. Em algumas formas de realização, um módulo sequência pode alinhar, montar, fragmentas, complementar, complementar de forma reversa e/ou analisar o erro (por exemplo, leituras de sequência de correção de erro).
[00109] Em algumas formas de realização, as leituras de sequência de nucleotídeos obtidas a partir de uma amostra são leituras de sequência de nucleotídeos parciais. Tal como aqui se utiliza, "leituras de sequência de nucleotídeos parciais" refere-se às leituras de sequência de qualquer comprimento com informação da sequência incompleta, também referido como sequência de ambiguidade. As leituras de sequência de nucleotídeos parciais podem ser isentas de informação sobre a identidade de nucleobases e/ou a posição ou ordem de nucleobases. As leituras de sequência de nucleotídeos parciais, geralmente, não incluem leituras de sequência em que a única informação da sequência incompleta (ou em que menos do que todas as bases são sequenciadas ou determinadas) é a partir de erros de sequenciamento inadvertidos ou não intencionais. Tais erros de sequenciamento podem ser inerentes a certos processos de sequenciamento e incluem, por exemplo, chamadas erradas para a identidade de nucleobases e com nucleobases faltando ou extra. Assim, para as leituras de sequência de nucleotídeos parciais aqui, algumas informações sobre a sequência são, muitas vezes, deliberadamente excluídas. Isto é, obtém-se, deliberadamente, informação sobre a sequência em relação a menos do que todas as nucleobases ou outra forma que pode ser caracterizada como ou sendo um erro de sequenciamento. Em algumas formas de realização, uma leitura de sequência de nucleotídeos parcial pode abranger uma parte de um fragmento de ácido nucleico. Em algumas formas de realização, uma leitura de sequência de nucleotídeos parcial pode se estender por todo o comprimento de um fragmento de ácido nucleico. As leituras de sequência de nucleotídeos parciais são descritas, por exemplo, na Publicação de Pedido de Patente Internacional no WO2013/052907, todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
Leituras de Mapeamento
[00110] Leituras de sequência podem ser mapeadas. Qualquer método de mapeamento adequado (por exemplo, processo, algoritmo, programa, software, módulo, semelhantes ou uma combinação dos mesmos) pode ser utilizado e certos aspectos de processos de mapeamento são descritos a seguir.
[00111] O mapeamento de leituras de sequência de nucleotídeos (por exemplo, informação sobre a sequência a partir de um fragmento genômico cuja posição física é desconhecida) pode ser realizado em diversas maneiras e, muitas vezes, compreende o alinhamento da leitura de sequência obtida com uma sequência correspondente em um genoma de referência. Em tais alinhamentos, leituras de sequência, geralmente, são alinhadas com uma sequência de referência e aquelas que se alinham são designadas como sendo "mapeadas", "uma leitura de sequência mapeada" ou "uma leitura mapeada".
[00112] Tal como aqui utilizados, os termos "alinhado", "alinhamento" ou "alinhar" referem-se a duas ou mais sequências de ácidos nucleicos que podem ser identificadas como uma correspondência (por exemplo, 100% de identidade) ou correspondência parcial. Alinhamentos podem ser feitos manualmente ou por um computador (por exemplo, um programa, programa, módulo ou algoritmo), exemplos não limitativos dos quais incluem o programa de computador de alinhamento local eficiente de dados de nucleotídeo (ELAND) distribuído como parte da linha de Análise Genômica Illumina. Alinhamento de uma leitura de sequência pode ser uma correspondência de sequência de 100%. Em alguns casos, um alinhamento é menos do que uma correspondência de sequência de 100% (por exemplo, correspondência não-perfeita, correspondência parcial, alinhamento parcial). Em algumas formas de realização, um alinhamento é de cerca de 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 79%, 78%, 77%, 76% ou 75% de correspondência. Em algumas formas de realização, um alinhamento compreende um desemparelhamento. Em algumas formas de realização, um alinhamento compreende 1, 2, 3, 4 ou 5 desemparelhamentos. Duas ou mais sequências podem ser alinhadas utilizando qualquer das cadeias. Em certas formas de realização, uma sequência de ácido nucleico está alinhada com o complemento inverso de outra sequência de ácido nucleico.
[00113] Vários métodos computacionais podem ser utilizados para mapear e/ou alinhar leituras de sequência a um genoma de referência. Exemplos de algoritmos de computador que podem ser utilizados para alinhar sequências não limitantes incluem, sem limitação, BLAST, BLITZ, FASTA, BOWTIE 1, BOWTIE 2, ELAND, MAQ, ProbeMatch, SOAP ou SEQMAP, ou variações dos mesmos ou combinações dos mesmos. Em algumas formas de realização, as leituras de sequência podem ser alinhadas com sequências de referência e/ou sequências em um genoma de referência. Em algumas formas de realização, as leituras de sequência podem ser encontradas e/ou alinhadas com sequências em bases de dados de ácidos nucleicos conhecidos na técnica, incluindo, por exemplo, GenBank, dbEST, dbSTS, EMBL (European Molecular Biology Laboratory - Laboratório de Biologia Molecular Europeu) e DDBJ (DNA Banco de Dados do Japão). As ferramentas BLAST, ou semelhantes, podem ser utilizados para pesquisar as sequências identificadas contra uma base de dados de sequência.
[00114] Em algumas formas de realização, leituras de sequência mapeadas e/ou informação associada com uma leitura de sequência mapeada são armazenadas em, e/ou acedido a partir de, um meio de armazenamento não transitório legível por computador em um formato legível por computador adequado. Um "formato legível por computador" é, por vezes, referido aqui como, genericamente, um formato. Em algumas formas de realização, leituras de sequência mapeada são armazenadas, e/ou acedidas, em um formato binário adequado, um formato de texto, semelhantes ou uma combinação dos mesmos. Um formato binário é, por vezes, um formato de BAM. Um formato de texto, às vezes, é um formato de alinhamento/mapeamento de sequência (SAM). Exemplos não limitativos de formatos binários e/ou de texto incluem BAM, SAM, SRF, FASTQ, Gzip, semelhantes ou suas combinações. Em algumas formas de realização, leituras de sequência mapeada são armazenadas em, e/ou são convertidos para, um formato que exige menos espaço de armazenamento (por exemplo, menos bytes) do que um formato tradicional (por exemplo, um formato de SAM, ou um formato de BAM). Em algumas formas de realização, leituras de sequência mapeada em um primeiro formato são comprimidas em um segundo formato requerendo menos espaço de armazenagem do que o primeiro formato. O termo "comprimido", tal como aqui utilizado, refere-se a um processo de compressão de dados, codificação na fonte, e/ou de redução de taxa de bits em que um arquivo de dados de leitura por computador é reduzido em tamanho. Em algumas formas de realização, leituras de sequência mapeada são comprimidas a partir de um formato de SAM em um formato binário. Alguns dados, às vezes, são perdidos após um arquivo ser compactado. Às vezes, nenhum dado é perdido em um processo de compressão. Em algumas formas de realização, de compactação de arquivos, alguns dados são substituídos por um índice e/ou uma referência a outro arquivo de dados com informações sobre uma leitura de sequência mapeada. Em algumas formas de realização, uma leitura de sequência mapeada é armazenada em um formato binário compreendendo, ou consistindo de, uma contagem de leitura, um identificador do cromossomo (por exemplo, que identifica um cromossomo ao qual uma leitura é mapeada) e um identificador de posição cromossômica (por exemplo, que identifica uma posição em um cromossomo ao qual uma leitura é mapeada). Em algumas formas de realização, um formato binário compreende uma matriz de 20 bytes, uma matriz de 16 bytes, uma matriz de 8 bytes, uma matriz de 4 bytes ou uma matriz de 2 bytes. Em algumas formas de realização, informações de leitura mapeadas são armazenadas em uma matriz em um formato de 10 bytes, formato de 9 bytes, formato de 8 bytes, formato de 7 bytes, formato de 6 bytes, formato de 5 bytes, formato de 4 bytes, formato de 3 bytes ou formato de 2 bytes. Por vezes, os dados de leituras mapeadas são armazenados em uma matriz de 4 bytes que compreende um formato de 5 bytes. Em algumas formas de realização, um formato binário compreende um formato de 5 bytes, compreendendo um ordinal cromossômico de 1 byte e uma posição cromossômica de 4 bytes. Em algumas formas de realização, leituras mapeadas são armazenadas em um formato binário compactado que é cerca de 100 vezes, cerca de 90 vezes, cerca de 80 vezes, cerca de 70 vezes, cerca de 60 vezes, cerca de 55 vezes, cerca de 50 vezes, cerca de 45 vezes, cerca de 40 vezes, ou cerca de 30 vezes menores do que um formato de alinhamento/mapeamento de sequência (SAM). Em algumas formas de realização, leituras mapeadas são armazenadas em um formato binário compresso que é cerca de 2 vezes menor a cerca de 50 vezes menor do que (por exemplo, cerca de 30, 25, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, ou cerca de 5 vezes menor do que) um formato de GZip.
[00115] Em algumas formas de realização, um sistema compreende um módulo de compressão (por exemplo, 4, Fig. 10A). Em algumas formas de realização, leitura de sequência mapeada da informação armazenada em um suporte de armazenamento não transitório legível por computador em um formato legível pelo computador é comprimido por um módulo de compressão. Um módulo de compressão, por vezes, converte leituras de sequência mapeada para e a partir de um formato adequado. Um módulo de compressão pode aceitar leituras de sequência mapeada em um primeiro formato (por exemplo, 1), convertê-las em formato comprimido (por exemplo, um formato binário, 5) e transferir a leitura comprimida para outro módulo (por exemplo, um módulo de densidade de tendências 6), em algumas formas de realização. Um módulo de compressão, frequentemente, fornece leitura de sequência em um formato binário 5 (por exemplo, um formato de BReads). Exemplos não-limitativos de um módulo de compressão incluem GZIP, BGZF, e BAM, semelhantes ou suas modificações.
[00116] O seguinte fornece um exemplo da conversão de um número inteiro para uma matriz de 4 bytes utilizando Java: public static final byte [] convertToByteArray (int value) { return new byte [] { (byte)(value >>> 24), (byte)(value >>> 16), (byte)(value >>> 8), (byte)value}; }
[00117] Em algumas formas de realização, uma leitura pode exclusivamente ou não exclusivamente mapear para um genoma de referência. A leitura é considerada como "mapeada exclusivamente" se alinha com uma única sequência no genoma de referência. Uma leitura é considerada como "não-mapeada exclusivamente" se alinha com duas ou mais sequências em um genoma de referência. Em algumas formas de realização, leituras mapeadas não exclusivamente são eliminadas de análises posteriores (por exemplo, quantificação). Um determinado grau de desemparelhamento pequeno (0-1) pode ser permitido para representar polimorfismos de um único nucleotídeo que podem existir entre o genoma de referência e as leituras a partir de amostras individuais a serem mapeadas, em certas formas de realização. Em algumas formas de realização, nenhum grau de desemparelhamento é permitido para uma leitura mapeada para uma sequência de referência.
[00118] Tal como aqui utilizado, o termo "genoma de referência" pode referir-se a qualquer genoma especial conhecido, sequenciado ou caracterizado, quer parcial ou completo, de qualquer organismo ou vírus que possa ser utilizado para fazer referência a sequências identificadas a partir de um indivíduo. Um genoma de referência, por vezes, refere-se a um segmento de um genoma de referência (por exemplo, um cromossomo, ou parte do mesmo, por exemplo, uma ou mais porções de um genoma de referência). Os genomas humanos, montagens de genoma humano e/ou genomas de quaisquer outros organismos podem ser utilizados como um genoma de referência. Um ou mais conjuntos de genomas humanos, o genoma humano, bem como genomas de outros organismos podem ser encontrados no National Center for Biotechnology Information em www.ncbi.nlm.nih.gov. Um "genoma" refere-se à informação genética de um organismo ou vírus, expressa em sequências de ácidos nucleicos. Tal como aqui utilizado, uma sequência de referência ou genoma de referência, muitas vezes, é montada ou parcialmente montado a partir de uma sequência genômica um único indivíduo ou múltiplos indivíduos. Em algumas formas de realização, um genoma de referência é uma sequência genômica montada, ou parcialmente montada, a partir de um ou mais indivíduos humanos. Em algumas formas de realização, um genoma de referência compreende sequências atribuídas a cromossomos. O termo "sequência de referência", tal como aqui utilizado, refere-se a uma ou mais sequências polinucleotídicas de uma ou mais amostras de referência. Em algumas formas de realização, leituras de sequências de referências compreendem sequências obtidas a partir de uma amostra de referência. Em algumas formas de realização, sequências de referência compreendem leituras de sequência, um conjunto de leituras, uma sequência de DNA de consenso (por exemplo, uma sequência contig), densidades de leitura e/ou perfis de densidade de leitura obtidos a partir de uma ou mais amostras de referência. Um perfil de densidade de leitura obtido a partir de uma amostra de referência é, por vezes, aqui referido como um perfil de referência. Um perfil de densidade de leitura obtido a partir de uma amostra de teste e/ou indivíduo de teste é, por vezes, aqui referido como um perfil de teste. Em algumas formas de realização, uma amostra de referência é obtida a partir de um objeto de referência, substancialmente, livre de uma variação genética (por exemplo, uma variação genética em questão). Em algumas formas de realização, uma amostra de referência é obtida a partir de um objeto de referência que compreende uma variação genética conhecida. O termo "referência", tal como aqui utilizado, pode referir-se a um genoma de referência, uma sequência de referência, amostra de referência e/ou um objeto de referência.
[00119] Em certas formas de realização, em que um ácido nucleico da amostra é de uma fêmea grávida, uma sequência de referência é, por vezes, não a partir do feto, da mãe do feto ou do pai do feto, e é aqui referida como uma "referência externa". Uma referência materna pode ser preparada e utilizada em algumas formas de realização. Quando uma referência a partir da fêmea grávida é preparada ("sequência de referência materna") com base em uma referência externa, leitura a partir de DNA da fêmea grávida que, substancialmente, não contém DNA fetal, frequentemente, são mapeadas para a sequência de referência externa e montada. Em certas formas de realização a referência externa é a partir de DNA de um indivíduo que tem, substancialmente, a mesma etnia como a fêmea grávida. Uma sequência de referência materna pode não cobrir completamente o DNA genômico materno (por exemplo, pode cobrir cerca de 50%, 60%, 70%, 80%, 90% ou mais do DNA genômico materna), e a referência materna pode não combinar perfeitamente com a sequência de DNA genômico materno (por exemplo, a sequência de referência materna pode incluir vários deseparelhamentos).
[00120] Em certas formas de realização, mapeabilidade é avaliada para uma região genômica (por exemplo, porções, porções genômicas). Mapeabilidade é a capacidade para alinhar de forma inequívoca uma leitura de sequência de nucleotídeos para uma porção de um genoma de referência, tipicamente até um número especificado de desemparelhamentos, incluindo, por exemplo, 0, 1, 2 ou mais emparelhamento. Em algumas formas de realização, a mapeabilidade é fornecida como uma pontuação ou valor em que a pontuação ou valor é gerado por um algoritmo de mapeamento ou software de mapeamento de computador adequado. Para uma dada região genômica, a mapeabilidade esperada pode ser estimada utilizando uma abordagem de janela deslizante de um comprimento de leitura pré-definido e tirando a média dos valores de mapeabilidade de nível de leitura resultante. As regiões genômicas contendo trechos de sequência de nucleotídeos únicos, por vezes, têm um alto valor de mapeabilidade.
[00121] Leituras de sequência podem ser mapeadas por um módulo de mapeamento ou por uma máquina que compreende um módulo de mapeamento, qual módulo de mapeamento geralmente mapeia leitura para um genoma de referência ou seu segmento. Um módulo de mapeamento pode mapear leitura de sequência através de um método adequado conhecido na técnica. Em algumas formas de realização, um módulo de mapeamento ou uma máquina que compreende um módulo de mapeamento é necessário para fornecer leitura de sequência mapeada.
Contagens
[00122] Leituras de sequência que são mapeadas podem ser quantificadas para determinar o número de leituras que são mapeadas para uma região ou parte de um genoma de referência. Em certas formas de realização, uma leitura que mapeia para um genoma de referência, ou uma região, porção ou segmento da mesma, é denominado uma contagem. Em algumas formas de realização, uma contagem compreende um valor. Em certas formas de realização, um valor de contagem é determinado por um processo matemático. A contagem pode ser determinada por um método, operação ou processo matemático adequado. Em certas formas de realização uma contagem é pesada, removida, filtrada, normalizada, ajustada, tirada média, adicionada ou subtraída ou processada por uma combinação dos mesmos. Em certas formas de realização, uma contagem é derivada de uma leitura de sequência que é processada ou manipulada por um método, operação ou processo matemático adequado aqui descrito ou conhecido na técnica. Por exemplo, uma contagem é, muitas vezes, normalizada e/ou ponderada de acordo com um ou mais desvios associados com uma leitura de sequência. Em algumas formas de realização, uma contagem é normalizada e/ou ponderada de acordo com tendências de GC associadas com uma leitura de sequência. Em algumas formas de realização, uma contagem é derivada a partir das leituras de sequência em bruto e/ou leitura de sequência filtrada. Em algumas formas de realização, uma ou mais contagens não são matematicamente manipuladas. O termo "contagem em bruto" e "contagens brutas", tal como aqui utilizado, refere-se a um ou mais números, que não foram manipulados matematicamente.
[00123] Em algumas formas de realização, uma contagem é determinada para alguns ou a totalidade das leituras de sequência mapeadas para um genoma de referência, ou uma região, porção ou segmento do mesmo. Em certas formas de realização, as contagens são determinadas a partir de um subconjunto pré-definido da leitura de sequência mapeada. Os subconjuntos pré-definidos (por exemplo, subconjuntos selecionados) de leituras de sequência mapeada podem ser definidos ou selecionados utilizando qualquer característica ou variável adequada. Em algumas formas de realização, subconjuntos pré-definidos de leitura de sequência mapeada podem incluir de 1 a n leituras de sequência, em que n representa um número igual à soma de todas as leituras de sequência geradas a partir de um indivíduo de teste ou amostra de indivíduo de referência.
[00124] As contagens são, frequentemente, derivadas a partir de leitura de sequência obtida de um indivíduo (por exemplo, um indivíduo de teste). As contagens são, por vezes, derivadas a partir das leituras de sequência obtidas a partir de uma amostra de ácido nucleico a partir de uma fêmea grávida que carrega um feto. Contagens de leitura de sequência de ácidos nucleicos, muitas vezes, são contagens representantes de ambos um feto e mãe de um feto (por exemplo, para um indivíduo fêmea grávida). Em certas formas de realização, em que um indivíduo é uma fêmea grávida, algumas contagens são derivadas de um genoma fetal e algumas contagens são derivadas de um genoma materno.
Densidade de Leitura
[00125] Contagens de leituras de sequência (por exemplo, as contagens ponderadas) são, muitas vezes, representadas como uma densidade de leitura. Uma densidade de leitura é, muitas vezes, determinada e/ou gerada por uma ou mais porções de um genoma. Em certas formas de realização, uma densidade de leitura é determinada e/ou gerada por um ou mais cromossomos. Em algumas formas de realização, uma densidade de leitura compreende uma medida quantitativa da contagem de leituras de sequência mapeada para uma parte de um genoma de referência. Uma densidade de leitura pode ser determinada por um processo adequado. Em algumas formas de realização, uma densidade de leitura é determinada por uma distribuição adequada e/ou uma função de distribuição adequada. Exemplos não limitantes de uma função de distribuição incluem uma função de probabilidade, função de distribuição de probabilidade, função densidade de probabilidade (PDF), uma função de densidade kernel (estimativa de densidade kernel), uma função de distribuição cumulativa, função massa de probabilidade, distribuição de probabilidade discreta, uma distribuição absolutamente contínua univariada, semelhantes, qualquer distribuição adequada, ou combinações das mesmas. Em certas formas de realização, uma PDF compreende uma função de densidade Kernel (estimativa de densidade Kernel). Exemplos não limitativos de uma função de densidade Kernel que podem ser utilizados para gerar uma estimativa de tendência de genoma local incluem uma função de densidade Kernel uniforme (Kernel uniforme), uma função de densidade Kernel gaussiano (Kernel gaussiano), uma função de densidade Kernel triangular (Kernel triangular), uma função de densidade de Kernel biponderada (Kernel biponderada), uma função de densidade de kernel tricube (kernel tricube), uma função de densidade de Kernel triponderada (kernel triponderada), funções de Kernel cosseno (Kernel cosseno), uma função de densidade Kernel Epanechnikov (Kernel Epanechnikov), uma função de densidade Kernel normal (normal Kernel), semelhantes ou uma sua combinação. Uma leitura de densidade é, frequentemente, uma estimativa da densidade derivada a partir de uma função de densidade de probabilidade adequada. A estimativa da densidade é a construção de uma estimativa, com base em dados observados, de uma função de densidade de probabilidade subjacente. Em algumas formas de realização, uma densidade de leitura compreende uma estimativa da densidade (por exemplo, uma estimativa da densidade de probabilidade, uma estimativa de densidade Kernel). Uma estimativa da densidade compreende, frequentemente, uma estimativa de densidade Kernel. Em algumas formas de realização uma densidade de leitura é uma estimativa de densidade Kernel, determinada de acordo com uma função de densidade Kernel. Uma densidade de leitura é, muitas vezes, gerada de acordo com um processo que compreende a geração de uma estimativa de densidade para cada de uma ou mais porções de um genoma, onde cada uma das porções compreende contagens de leitura de sequência. A densidade de leitura é, muitas vezes, gerada para contagens normalizadas e/ou ponderadas mapeadas para uma porção. Em algumas formas de realização, cada leitura mapeada para uma porção, muitas vezes, contribui para uma densidade de leitura, um valor (por exemplo, uma contagem) igual ao seu peso obtido a partir de um processo de normalização descrito aqui. Em algumas formas de realização, densidades de leitura para uma ou mais partes são ajustadas. As densidades de leitura podem ser ajustadas por um método adequado. Por exemplo, densidades de leitura para uma ou mais porções podem ser ponderadas e/ou normalizadas.
[00126] Em algumas formas de realização, um sistema compreende um módulo de distribuição 12. Um módulo de distribuição, frequentemente, gera e/ou proporciona densidades de leitura (por exemplo, 22, 24) para as porções (por exemplo, porções de filtrado) de um genoma. Um módulo de distribuição pode proporcionar densidades de leitura, distribuições de densidade de leitura 14 e/ou uma medida de incerteza associada (por exemplo, um MAD, um quantil) para um ou mais amostras de referência, um conjunto de formação (por exemplo, 3) e ou uma amostra/teste. Um módulo de distribuição pode aceitar, recuperar e/ou armazenar leituras de sequência (por exemplo, 1, 3, 5) e/ou contagens (por exemplo, contagens normalizadas 11, contagens ponderadas). Um módulo de distribuição, muitas vezes aceita (por exemplo, entradas do usuário e parâmetros do usuário para porções), recupera, gera e/ou armazena porções (por exemplo, porções não filtradas ou filtradas). Por vezes, um módulo de distribuição aceita e/ou recupera porções (por exemplo, porções filtradas e/ou porções selecionadas 20) a partir de um módulo de filtração 18. Em algumas formas de realização, um módulo de distribuição compreende instruções para um microprocessador (por exemplo, um algoritmo, um script), na forma de código e/ou código-fonte (por exemplo, uma coleção de scripts padrão ou personalizado) e/ou um ou mais pacotes de software (por exemplo, pacotes de software de estatística) que realizam as funções de um módulo de distribuição. Em algumas formas de realização, um módulo de distribuição compreende código (por exemplo, script) escrito em Java, S ou R que utiliza um pacote adequado (por exemplo, um pacote de S, um pacote de R). Um exemplo não- limitativo de um módulo de distribuição é fornecido no Exemplo 2.
[00127] Em algumas formas de realização, um perfil de densidade de leitura é determinado. Em algumas formas de realização, um perfil de densidade de leitura compreende, pelo menos, uma densidade de leitura, e, muitas vezes compreende duas ou mais densidades de leitura (por exemplo, um perfil de densidade de leitura compreende, frequentemente, várias densidades de leitura). Em algumas formas de realização, um perfil de densidade de leitura compreende um valor quantitativo adequado (por exemplo, uma média, mediana, uma pontuação Z, ou semelhante). Um perfil de densidade de leitura compreende, frequentemente, valores resultantes de uma ou mais densidades de leitura. Um perfil de densidade de leitura compreende, por vezes, valores obtidos por uma ou mais manipulações de densidades de leitura com base em um ou mais ajustamentos (por exemplo, normalizações). Em algumas formas de realização, um perfil de densidade de leitura compreende densidades de leitura não manipuladas. Em algumas formas de realização, um ou mais perfis de densidade de leitura são gerados a partir de vários aspectos de um conjunto de dados compreendendo densidades de leitura, ou uma derivação dos mesmos (por exemplo, o produto de um ou mais passos de processamento de dados matemáticos e/ou estatísticos conhecidos na técnica e/ou aqui descritos). Em certas formas de realização, um perfil de densidade de leitura compreende densidades de leitura normalizadas. Em algumas formas de realização, um perfil de densidade de leitura compreende densidades de leitura ajustadas. Em certas formas de realização, um perfil de densidade de leitura compreende densidades de leitura em bruto (por exemplo, não manipuladas, não corrigidas ou normalizadas), densidades de leitura normalizadas, densidades de leitura ponderadas, densidades de leitura de porções filtradas, pontuações Z de densidades de leitura, p-valores de densidades de leitura, valores integrais de densidades de leitura (por exemplo, área sob a curva), média, valor médio ou densidades médias de leitura, componentes principais, similares ou suas combinações. Muitas vezes, as densidades de leitura de um perfil de densidade de leitura e/ou um perfil de densidade de leitura está relacionado com uma medida de incerteza (por exemplo, um MAD). Em certas formas de realização, um perfil de densidade de leitura compreende uma distribuição de densidades de leitura medianas. Em algumas formas de realização, um perfil de densidade de leitura compreende uma relação de (por exemplo, uma relação ajustada, uma regressão, ou outros semelhantes) de uma pluralidade de densidades de leitura. Por exemplo, às vezes, um perfil de densidade de leitura compreende uma relação entre as densidades de leitura (por exemplo, ler o valor de densidades) e as localizações genômicas (por exemplo, porções, locais da porção). Em algumas formas de realização, um perfil de densidade de leitura é gerado utilizando um processo de janela estática, e em certas formas de realização, um perfil de densidade de leitura é gerado utilizando um processo de janela deslizante. O termo "perfil de leitura de densidade", tal como aqui utilizado, refere-se a um produto de uma manipulação matemática e/ou estatística de densidades de leitura que pode facilitar a identificação de padrões e/ou correlações em grandes quantidades de dados de leitura de sequência. Em algumas formas de realização, um perfil de densidade de leitura é, por vezes, impresso e/ou exibido (por exemplo, exibido como uma representação visual, por exemplo, uma plote ou um gráfico).
[00128] Um perfil de densidade de leitura compreende, frequentemente, múltiplos pontos de dados, em que cada ponto de dados representa um valor quantitativo de uma ou mais densidades de leitura. Qualquer número adequado de pontos de dados pode ser incluído em um perfil de densidade de leitura dependendo da natureza e/ou complexidade de um conjunto de dados. Em certas formas de realização, perfis de densidade de leitura podem incluir 2 ou mais pontos de dados, 3 ou mais pontos de dados, 5 ou mais pontos de dados, 10 ou mais pontos de dados, 24 ou mais pontos de dados, 25 ou mais pontos de dados, 50 ou mais pontos de dados, 100 ou mais pontos de dados, 500 ou mais pontos de dados, 1000 ou mais pontos de dados, 5000 ou mais pontos de dados, 10.000 ou mais pontos de dados, 100.000 ou mais pontos de dados, ou 1.000.000 ou mais de pontos de dados. Em algumas formas de realização, um ponto de dados é um valor quantitativo e/ou estimativa da contagem de leitura de sequência mapeada ou associada a uma ou mais porções. Em algumas formas de realização, um ponto de dados de um perfil de densidade de leitura compreende os resultados de uma manipulação de dados de contagens mapeadas para uma ou mais porções. Em certas formas de realização, um ponto de dados é, frequentemente, um valor quantitativo e/ou estimativa de uma densidade de uma ou mais leituras (por exemplo, uma densidade de leitura média). Um perfil de densidade de leitura compreende, frequentemente, múltiplas densidades de leitura associadas com, e/ou mapeadas para, várias porções de um genoma de referência. Em algumas formas de realização, um perfil de densidade de leitura compreende densidades de leitura a partir de 2 a cerca de 1.000.000 porções. Em algumas formas de realização, densidades de leitura a partir de 2 a cerca de 500.000, de 2 a cerca de 100.000, de 2 a cerca de 50.000, de 2 a cerca de 40.000, de 2 a cerca de 30.000, de 2 a cerca de 20.000, de 2 a cerca de 10.000, de 2 a cerca de 5.000, de 2 a cerca 2.500, 2 a cerca de 1.250, de 2 a cerca de 1.000, de 2 a cerca de 500, 2 a cerca de 250, 2 a cerca de 100 ou de 2 a cerca de 60 porções determinam um perfil de densidade de leitura. Em algumas formas de realização, densidades de leitura de cerca de 10 a cerca de 50 porções determinam um perfil de densidade de leitura.
[00129] Em algumas formas de realização, um perfil de densidade de leitura corresponde a um conjunto de porções (por exemplo, um conjunto de porções de um genoma de referência, um conjunto de porções de um cromossomo ou um subconjunto de partes de um segmento de um cromossomo). Em algumas formas de realização, um perfil de densidade de leitura compreende densidades e/ou contagens de leitura associadas com uma coleção (por exemplo, um conjunto, um subconjunto) de porções. Em algumas formas de realização, um perfil de densidade de leitura é determinado para densidades de leitura de porções que são contíguas. Em algumas formas de realização, porções contíguas compreendem lacunas compreendendo segmentos de uma sequência de referência e/ou leituras de sequência que não estão incluídas em um perfil de densidade (por exemplo, porções removidas por uma filtração). Às vezes, porções (por exemplo, um conjunto de partes), que são contíguos representam segmentos vizinhos de um genoma ou segmentos vizinhos de um cromossomo ou gene. Por exemplo, duas ou mais porções contíguas, quando alinhadas com a fusão das porções de extremidade a extremidade, podem representar um conjunto de sequência de uma sequência de DNA mais longa do que cada porção. Por exemplo, duas ou mais porções contíguas podem representar um genoma intacto, cromossomo, gene, intron, exon ou seu segmento. Às vezes um perfil de densidade de leitura é determinado a partir de uma coleção (por exemplo, um conjunto, um subconjunto) das porções contíguas e/ou em porções não-contíguos. Em alguns casos, um perfil de densidade de leitura compreende uma ou mais partes, que podem ser porções ponderadas, removidas, filtradas, normalizadas, ajustadas, em média, derivada como uma média, adicionadas, subtraídas, processadas ou transformadas por qualquer combinação dos mesmos.
[00130] Em algumas formas de realização, um perfil de densidade de leitura compreende densidades de leitura para porções de um genoma que compreende uma variação genética. Em algumas formas de realização, um perfil de densidade de leitura compreende densidades de leitura para porções de um genoma que não compreendem uma variação genética (por exemplo, porções de um genoma que são, substancialmente, isentos de uma variação genética). Em certas formas de realização, um perfil de densidade de leitura compreende densidades de leitura para porções de um genoma que compreende uma variação genética e densidades de leitura de porções de um genoma que são, substancialmente, isentas de uma variação genética.
[00131] Um perfil de densidade de leitura é, muitas vezes, determinado para uma amostra e/ou uma referência (por exemplo, uma amostra de referência). Um perfil de densidade de leitura, por vezes, é gerado por um genoma inteiro, um ou mais cromossomos, ou durante uma parte ou segmento de um genoma ou em um cromossomo. Em algumas formas de realização, um ou mais perfis de densidade de leitura são determinados para um genoma ou segmentos dos mesmos. Em algumas formas de realização, um perfil de densidade de leitura é representativo da totalidade de um conjunto de densidades de leitura de uma amostra, e em certas formas de realização, um perfil de densidade de leitura é representativo de uma parte ou subconjunto de densidades de leitura de uma amostra. Isto é, por vezes, um perfil de densidade de leitura compreende, ou é gerado a partir de densidades de leitura representativas de dados que não foram filtrados para remover quaisquer dados, e, por vezes, um perfil de densidade de leitura inclui, ou é gerado a partir de pontos de dados representativo de dados que foram filtrados para remover dados indesejados.
[00132] Em algumas formas de realização, um perfil de densidade de leitura é determinado para uma referência (por exemplo, uma amostra de referência, um conjunto de treino). Um perfil de densidade para uma leitura de referência é, por vezes, aqui referido como um perfil de referência. Em algumas formas de realização, um perfil de referência compreende uma densidade de leitura obtida partir de uma ou mais referências (por exemplo, sequências de referência, amostras de referência). Em algumas formas de realização, um perfil de referência compreende as densidades de leitura determinadas para uma ou mais (por exemplo, um conjunto de) amostras euploides conhecidas. Em algumas formas de realização, um perfil de referência compreende densidades de leitura de porções filtradas. Em algumas formas de realização, um perfil de referência compreende densidades de leitura ajustadas de acordo com os um ou mais componentes principais.
[00133] Em algumas formas de realização, um sistema compreende um módulo de geração de perfil (por exemplo, 26). Um módulo de geração de perfil, frequentemente, aceita, recupera e/ou armazena densidades de leitura (por exemplo, 22, 24). Um módulo de geração de perfil pode aceitar e/ou recuperar densidades de leitura (por exemplo, ajustadas, ponderadas, normalizadas, valor médio, média, mediana e/ou densidades de leitura integradas) de outro módulo adequado (por exemplo, um módulo de distribuição). Um módulo de geração de perfil pode aceitar e/ou recuperar densidades de leitura a partir de uma fonte adequada (por exemplo, um ou mais indivíduos de referência, um conjunto de treinamento, um ou mais indivíduos do teste, e assim por diante). Um módulo de geração de perfil de frequência gera e/ou fornece perfis de densidade de leitura (por exemplo, 32, 30, 28) para outro módulo apropriado (por exemplo, um módulo de estatísticas de APC 33, um módulo de pesagem de porção 42, um módulo de pontuação 46) e/ou a um usuário (por exemplo, através da representação gráfica, gráficos e/ou impressão). Um exemplo de um módulo de geração de perfil, ou parte dele, é fornecido no Exemplo 2. Porções
[00134] Em algumas formas de realização, as leituras e/ou contagens de sequência mapeada são agrupadas em conjunto de acordo com vários parâmetros e associadas a determinados segmentos e/ou regiões de um genoma de referência aqui denominado como "porções" ou "uma porção". Em algumas formas de realização, uma porção é um cromossomo inteiro, um segmento de um cromossomo, um segmento de um genoma de referência, um segmento abrangendo cromossomo múltiplo, segmentos de cromossomos e/ou suas combinações. Em algumas formas de realização, uma porção é predefinida com base em parâmetros específicos (por exemplo, comprimentos predeterminados, espaçamento predeterminado, um teor de GC predeterminado, ou qualquer outro parâmetro adequado). Em algumas formas de realização, uma porção é arbitrariamente definida com base no particionamento de um genoma (por exemplo, particionado por tamanho, teor de GC, regiões contíguas, regiões contíguas de um tamanho definido arbitrariamente e semelhantes). Em algumas formas de realização, uma porção é delineada com base em um ou mais parâmetros que incluem, por exemplo, o comprimento ou uma característica ou características particulares da sequência. Em algumas formas de realização, uma parte baseia-se em um determinado comprimento de sequência genômica. As porções podem ser, aproximadamente, do mesmo comprimento ou as porções podem ser de diferentes comprimentos. Em algumas formas de realização, as porções têm cerca de comprimento igual. Em algumas formas de realização, as porções de diferentes comprimentos são ajustadas ou ponderadas. Uma parte pode ser de qualquer comprimento adequado. Em algumas formas de realização, uma porção é de cerca de 10 quilobases (kb) até cerca de 100 kb, de cerca de 20 kb até cerca de 80 kb, cerca de 30 kb até cerca de 70 kb, cerca de 40 kb até cerca de 60 kb, e, por vezes, cerca de 50 kb. Em algumas formas de realização, uma porção é de cerca de 10 kb até cerca de 20 kb. Uma porção não está limitada aos funcionamentos contíguos da sequência. Assim, as porções podem ser constituídas por sequências contíguas e/ou não contíguas.
[00135] Em algumas formas de realização, uma porção compreende uma janela que compreende um número pré- selecionado de bases. Uma janela pode compreender qualquer número conveniente de bases determinadas por um comprimento de porção. Em algumas formas de realização, um genoma, ou seus segmentos, é dividido em uma pluralidade de janelas. As regiões que abrangem janelas de um genoma podem ou não se sobrepor. Em algumas formas de realização, as janelas estão posicionadas a distâncias iguais umas das outras. Em algumas formas de realização, as janelas estão posicionadas a diferentes distâncias umas das outras. Em certas formas de realização, um genoma, ou seu segmento, é dividido em uma pluralidade de janelas deslizantes, em que uma janela é deslizada de forma incremental através de um genoma, ou segmento do mesmo, onde cada janela em cada incremento representa uma porção. Uma janela pode ser deslizada através de um genoma em qualquer incremento adequado ou de acordo com qualquer padrão numérico ou sequência atemática definida. Em algumas formas de realização, as janelas são deslizadas através de um genoma, ou um seu segmento, de um incremento de cerca de 100.000 pb ou menos, cerca de 50.000 pb ou menos, cerca de 25.000 pb ou menos, cerca de 10.000 pb ou menos, cerca de 5.000 pb ou menos, sobre 1.000 pb ou menos, cerca de 500 pb ou menos, ou cerca de 100 pb ou menos. Por exemplo, uma janela pode compreender cerca de 100.000 pb e pode ser deslizada através de um genoma em incrementos de 50.000 pb.
[00136] Em algumas formas de realização, as porções podem ser segmentos de cromossomos particulares em um cromossomo de interesse, tal como, por exemplo, um cromossomo onde uma variação genética é avaliada (por exemplo, uma aneuploidia dos cromossomos 13, 18 e/ou 21, ou um cromossomo sexual). Uma porção não está limitada a um único cromossomo. Em algumas formas de realização, uma ou mais porções inclui a totalidade ou parte de um cromossomo ou a totalidade ou parte de dois ou mais cromossomos. Em algumas formas de realização, uma ou mais porções pode abranger um, dois, ou mais cromossomos inteiros. Além disso, porções podem abranger regiões articuladas ou desarticuladas de vários cromossomos. As porções podem ser genes, fragmentos de genes, sequências reguladoras, introns, exons e semelhantes.
[00137] Em algumas formas de realização, certas regiões de um genoma são filtradas antes do particionamento de um genoma, ou segmento do mesmo, em porções. Regiões de um genoma podem ser selecionadas para a exclusão de um processo de partição utilizando qualquer método adequado. Muitas regiões que compreendem regiões semelhantes (por exemplo, regiões idênticas ou homólogas ou sequências, por exemplo, regiões repetitivas) são removidas e/ou filtradas. Às vezes regiões não mapeáveis são excluídas. Em algumas formas de realização, apenas regiões específicas são retidas. Regiões removidas durante o particionamento podem estar dentro de um único cromossomo, ou podem se estender por vários cromossomos. Em algumas formas de realização, um genoma particionado é reduzido e otimizado para o alinhamento mais rápido, muitas vezes, permitindo foco em sequências exclusivamente identificáveis. Em algumas formas de realização, o particionamento de um genoma em regiões (por exemplo, regiões que transcendem cromossomos) podem ser baseadas no ganho de informações produzidas no contexto de classificação. Por exemplo, o teor de informação pode ser quantificado utilizando-se um perfil de valor-p, medindo a significância de locais genômicos específicos para distinguir entre grupos de indivíduos normais e anormais confirmados (por exemplo, indivíduos euploides e com trissomia, respectivamente). Em algumas formas de realização, o particionamento de um genoma em regiões (por exemplo, regiões que transcendem cromossomos) pode ser baseado em qualquer outro critério, tal como, por exemplo, a velocidade/conveniência, alinhando de leitura, teor de GC (por exemplo, elevado ou baixo teor de GC), uniformidade do teor de GC, outras medidas de teor de sequência (por exemplo, fração de nucleotídeos individuais, fração de pirimidinas ou purinas, fração de ácidos nucleicos naturais vs. não-naturais, fração de nucleotídeos metilados e teor de CpG), estado de metilação, temperatura de fusão duplex, receptividade ao sequenciamento ou PCR, medida de incerteza atribuída a porções individuais de um genoma de referência, e/ou uma pesquisa direcionada para as características particulares.
[00138] Um "segmento" de um genoma é, por vezes, uma região que compreende um ou mais cromossomos, ou uma parte de um cromossomo. Um "segmento" é, tipicamente, uma parte diferente de um genoma do que uma porção. Um "Segmento" de um genoma e/ou um cromossomo é, por vezes, em uma região diferente de um genoma ou cromossomo do que uma porção, por vezes, não partilha um polinucleotídeo com uma porção, e, por vezes, inclui um polinucleotídeo que está em uma porção. Um segmento de um genoma ou cromossomo contém, frequentemente, um maior número de nucleotídeos do que uma porção (por exemplo, um segmento, por vezes, inclui uma ou mais porções), e, por vezes, um segmento de um cromossomo contém um número de nucleotídeos menor do que uma porção (por exemplo, um segmento, por vezes, está dentro de uma porção).
Porções de Filtração
[00139] Em certas formas de realização, uma ou mais porções (por exemplo, porções de um genoma) são removidas a partir da consideração por um processo de filtração. Em certas formas de realização, uma ou mais porções são filtradas (por exemplo, submetidas a um processo de filtração) proporcionando, dessa forma, porções filtradas. Em algumas formas de realização, um processo de filtração remove certas porções e retém porções (por exemplo, um subconjunto de porções). Seguindo um processo de filtração, porções retidas são, muitas vezes, aqui referidas como porções filtradas. Em algumas formas de realização porções de um genoma de referência são filtradas. Em algumas formas de realização, porções de um genoma de referência que são removidas por um processo de filtração não são incluídas na determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia cromossômica). Em algumas formas de realização, porções de um cromossomo em um genoma de referência são filtrados. Em algumas formas de realização, porções associadas com densidades de leitura (por exemplo, em que uma densidade de leitura é para uma porção) são removidas por um processo de filtração e densidades de leitura associadas com porções removidas não são incluídas na determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia cromossômica). Em algumas formas de realização, um perfil de densidade de leitura compreende e/ou consiste de densidades de leitura de porções filtradas. As porções podem ser selecionadas, filtradas e/ou removidas a partir da consideração utilizando qualquer critério e/ou métodos adequados conhecidos na técnica ou aqui descritos. Exemplos de critérios utilizados para porções de filtração não limitativos incluem os dados redundantes (por exemplo, leituras mapeadas redundantes ou sobrepostas), dados não informativos (por exemplo, porções de um genoma de referência com zero contagens mapeadas), porções de um genoma de referência com sequências sobre-representadas ou sob-representadas, teor de GC, dados ruidosos, mapeabilidade, contagens, contagem de variabilidade, leitura de densidade, variabilidade da densidade de leitura, uma medida da incerteza, uma medida de repetibilidade, semelhante ou combinações dos anteriores. As porções são, por vezes, filtradas de acordo com uma distribuição de contagem e/ou uma distribuição de densidades de leitura. Em algumas formas de realização, porções são filtradas de acordo com uma distribuição e/ou contagem de densidades de leitura onde as contagens e/ou densidades de leitura são obtidas a partir de uma ou mais amostras de referência. Uma ou mais amostras de referência são, por vezes, aqui referidas como um conjunto de treinamento. Em algumas formas de realização, as porções são filtradas de acordo com uma distribuição e/ou contagem de densidades de leitura onde as contagens e/ou densidades de leitura são obtidas a partir de uma ou mais amostras de teste. Em algumas formas de realização, as porções são filtradas de acordo com uma medida de incerteza para uma distribuição de densidade de leitura. Em certas formas de realização, as porções que demonstram um grande desvio nas densidades de leitura são removidas por um processo de filtração. Por exemplo, uma distribuição de densidades de leitura (por exemplo, uma distribuição de média aritmética, mediana ou densidades de leitura, por exemplo, a Figura 5A) pode ser determinada, em que cada densidade de leitura nos mapas de distribuição é para a mesma porção. Uma medida de incerteza (por exemplo, um MAD) pode ser determinada por comparação de uma distribuição de densidades de leitura para várias amostras, onde cada uma das porções de um genoma está associada com medida de incerteza. De acordo com o exemplo anterior, as porções podem ser filtradas de acordo com uma medida de incerteza (por exemplo, um desvio padrão (DP), um MAD) associado com cada porção e um limite predeterminado. A Figura 5B mostra uma distribuição de valores MAD para porções, determinadas de acordo com as distribuições de densidade de leitura de várias amostras. Um limite predeterminado é indicado pelas linhas verticais tracejadas que delimitando um intervalo de valores de MAD aceitáveis . No exemplo da Figura 5B, porções compreendendo valores de MAD dentro do intervalo aceitável são retidos e porções compreendendo valores de MAD fora do intervalo aceitável são removidas da consideração por um processo de filtração. Em algumas formas de realização, de acordo com o exemplo precedente, porções compreendendo valores de densidades de leitura (por exemplo, densidades de leitura medianas, médias ou valor médio), fora de uma medida pré- determinada de incerteza, muitas vezes, são removidas a partir da consideração por um processo de filtração. Em algumas formas de realização, porções compreendendo valores de densidades de leitura (por exemplo, densidades de leitura medianas, médias ou valor médio) fora de um intervalo inter-quartil da distribuição são removidos da consideração por um processo de filtração. Em algumas formas de realização, porções compreendendo valores de densidades de leitura fora mais de 2 vezes, 3 vezes, 4 vezes ou 5 vezes de um intervalo inter-quartil de uma distribuição são removidos a partir da consideração por um processo de filtração. Em algumas formas de realização, porções compreendendo valores de densidades de leitura fora mais do que 2 sigma, 3 sigma, 4 sigma, 5 sigma, sigma 6, sigma 7 ou 8 sigma (por exemplo, onde sigma é um intervalo definido por um desvio padrão) são removidas a partir da consideração por um processo de filtração.
[00140] Em algumas formas de realização, um sistema compreende um módulo de filtração 18. Um módulo de filtração, muitas vezes aceita, recupera e/ou armazena porções (por exemplo, porções de tamanhos pré-determinados e/ou sobreposição, locais de porção dentro de um genoma de referência) e densidade de leitura associada com porções, frequentemente, a partir de outro módulo apropriado (por exemplo, um módulo de distribuição 12). Em algumas formas de realização, porções selecionadas (por exemplo, 20, por exemplo, porções filtradas) são fornecidas por um módulo de filtração. Em algumas formas de realização, um módulo de filtração é necessário para fornecer porções filtradas e/ou para remover porções da consideração. Em certas formas de realização, um módulo de filtração remove densidades de leitura da consideração onde densidades de leitura estão associadas com porções removidas. Um módulo de filtração fornece, frequentemente, porções selecionadas (por exemplo, porções filtradas) para outro módulo apropriado (por exemplo, um módulo de distribuição 21). Um exemplo não- limitativo de um módulo de filtração é fornecido no Exemplo 3.
Estimativas de Tendência
[00141] As tecnologias de sequenciamento podem ser vulneráveis a múltiplas fontes de tendências. Por vezes, tendência de sequenciamento é tendência local (por exemplo, uma tendência de genoma local). Tendência local, muitas vezes, manifesta-se ao nível de uma leitura de sequência. Uma tendência de genoma local pode ser qualquer tendência local adequada. Exemplos não limitantes de uma tendência local incluem tendência de sequência (por exemplo, tendências de GC, tendências AT e semelhantes), tendências correlacionadas com a sensibilidade à DNase I, entropia, tendência de sequência repetitiva, tendência de estrutura de cromatina, tendência de polimerase em taxa de erro, tendências de palíndromo, tendência de repetição invertida, tendência relacionada a PCR, semelhantes ou combinações dos mesmos. Em algumas formas de realização, a fonte de uma tendência local não é determinada ou conhecida.
[00142] Em algumas formas de realização, uma estimativa de tendência de genoma local é determinada. Uma estimativa de tendência de genoma local é, por vezes, aqui referida como uma estimativa de tendência de genoma local. Uma estimativa de tendência de genoma local pode ser determinada por um genoma de referência, um segmento ou uma parte do mesmo. Em certas formas de realização, uma estimativa de tendência de genoma local é determinada para um ou mais cromossomos em um genoma de referência. Em algumas formas de realização, uma estimativa de tendência de genoma local é determinada por uma ou mais leituras de sequência (por exemplo, algumas ou todas as leituras de sequência de uma amostra). Uma estimativa de tendência de genoma local é, muitas vezes, determinada por uma leitura de sequência de acordo com uma estimativa de tendência de genoma local para uma localização correspondente e/ou posição de referência (por exemplo, um genoma de referência, um cromossomo em um genoma de referência). Em algumas formas de realização, uma estimativa de tendência de genoma local compreende uma medida quantitativa de tendências de uma sequência (por exemplo, uma leitura de sequência, uma sequência de um genoma de referência). Uma estimativa de tendência de genoma local pode ser determinada por um método ou processo matemático adequado. Em algumas formas de realização, uma estimativa de tendência de genoma local é determinada por uma distribuição adequada e/ou uma função de distribuição adequada (por exemplo, uma PDF). Em algumas formas de realização, uma estimativa de tendências de genoma local compreende uma representação quantitativa de uma PDF. Em algumas formas de realização, uma estimativa de tendência de genoma local (por exemplo, uma estimativa de densidade de probabilidade (PDE), uma estimativa de densidade Kernel) é determinada por uma função de densidade de probabilidade (por exemplo, uma PDF, por exemplo, uma função de densidade Kernel) com um teor de tendência local. Em algumas formas de realização, uma estimativa da densidade compreende uma estimativa de densidade Kernel. Uma estimativa de tendência de genoma local é, por vezes, expressa como uma média, valor médio ou mediana de uma distribuição. Por vezes, uma estimativa de tendência de genoma local é expressa como uma soma ou uma parte integrante (por exemplo, uma área sob a curva (AUC) de uma distribuição apropriada).
[00143] Uma PDF (por exemplo, uma função de densidade Kernel, por exemplo, uma função de densidade Kernel Epanechnikov) compreende, muitas vezes, uma variável de largura de banda (por exemplo, uma largura de banda). Uma variável de largura de banda, muitas vezes, define o tamanho e/ou comprimento de uma janela a partir da qual uma estimativa de densidade de probabilidade (PDE) é derivada quando se utiliza uma PDF. Uma janela a partir da qual uma PDE é derivada, muitas vezes, compreende um comprimento definido de polinucleotídeos. Em algumas formas de realização, uma janela a partir da qual uma PDE é derivada é uma porção. Uma porção (por exemplo, um tamanho da porção, uma porção de comprimento) é, muitas vezes, determinada de acordo com uma largura de banda variável. Uma largura de banda variável determina a duração ou tamanho da janela utilizada para determinar uma estimativa de tendência de genoma local, um comprimento de um segmento de polinucleotídeo (por exemplo, um segmento contíguo de bases de nucleotídeos) a partir do qual uma estimativa de tendência de genoma local é determinada. A PDE (por exemplo, densidade de leitura, estimativa de tendência de genoma local (por exemplo, uma densidade de GC)) pode ser determinada utilizando qualquer largura de banda adequada, exemplos não limitativos dos quais incluem uma largura de banda de cerca de 5 bases a cerca de 100.000 bases, cerca de 5 bases de cerca de 50.000 bases, cerca de 5 bases a cerca de 25.000 bases, cerca de 5 bases a cerca de 10.000 bases, cerca de 5 bases a cerca de 5.000 bases, cerca de 5 bases a cerca de 2.500 bases, cerca de 5 bases a cerca de 1.000 bases, cerca de 5 bases a cerca de 500 bases, cerca de 5 bases a cerca de 250 bases, cerca de 20 bases a cerca de 250 bases, ou semelhantes. Em algumas formas de realização uma estimativa de tendência de genoma local (por exemplo, uma densidade de GC) é determinada utilizando uma largura de banda de cerca de 400 bases ou menos, cerca de 350 bases ou menos, cerca de 300 bases ou menos, cerca de 250 bases ou menos, cerca de 225 bases ou menos, cerca de 200 bases ou menos, cerca de 175 bases ou menos, cerca de 150 bases ou menos, cerca de 125 bases ou menos, cerca de 100 bases ou menos, cerca de 75 bases ou menos, cerca de 50 bases ou menos, ou cerca de 25 bases ou menos. Em certas formas de realização uma estimativa de tendência de genoma local (por exemplo, uma densidade de GC) é determinada utilizando uma largura de banda determinada de acordo com uma média, valor médio, mediana, ou comprimento máximo de leitura das leituras de sequência obtidas para um dado indivíduo e/ou amostra. Por vezes, uma estimativa de tendência de genoma local (por exemplo, uma densidade de GC) é determinada utilizando uma largura de banda aproximadamente igual a uma média, valor médio, mediana ou comprimento máximo de leitura das leituras de sequência obtidas para um dado indivíduo e/ou amostra. Em algumas formas de realização, uma estimativa de tendência de genoma local (por exemplo, uma densidade de GC) é determinada utilizando uma largura de banda de cerca de 250, 240, 230, 220, 210, 200, 190, 180, 160, 150, 140, 130, 120, 110, 100, 90, 80, 70, 60, 50, 40, 30, 20 ou cerca de 10 bases.
[00144] Uma estimativa de tendência de genoma local pode ser determinada em uma resolução de base única, embora as estimativas de tendência de genoma local (por exemplo, teor de GC local) possam ser determinadas em uma resolução mais baixa. Em algumas formas de realização, uma estimativa de tendência de genoma local é determinada para um teor de tendências local. Uma estimativa de tendência de genoma local (por exemplo, tal como determinado utilizando uma PDF), frequentemente, é determinada utilizando uma janela. Em algumas formas de realização, uma estimativa de tendência de genoma local compreende a utilização de uma janela que compreende um número pré-selecionado de bases. Por vezes, uma janela compreende um segmento de bases contíguas. Por vezes, uma janela compreende uma ou mais porções de bases não-contíguas. Por vezes, uma janela compreende uma ou mais porções (por exemplo, porções de um genoma). Um tamanho de janela ou o comprimento é, muitas vezes, determinado por uma largura de banda e de acordo com uma PDF. Em algumas formas de realização, uma janela é de cerca de 10 ou mais, 8 ou mais, 7 ou mais, 6 ou mais, 5 ou mais, 4 ou mais, 3 ou mais, ou cerca de 2 ou mais vezes o comprimento de uma largura de banda. A janela é, por vezes, duas vezes o comprimento de uma largura de banda selecionada quando uma PDF (por exemplo, uma função de densidade Kernel) é utilizada para determinar uma estimativa da densidade. Uma janela pode compreender qualquer número conveniente de bases. Em algumas formas de realização, uma janela compreende cerca de 5 bases a cerca de 100.000 bases, cerca de 5 bases a cerca de 50.000 bases, cerca de 5 bases a cerca de 25.000 bases, cerca de 5 bases a cerca de 10.000 bases, cerca de 5 bases a cerca de 5.000 bases, cerca de 5 bases de cerca de 2.500 bases, cerca de 5 bases a cerca de 1.000 bases, cerca de 5 bases a cerca de 500 bases, cerca de 5 bases a cerca de 250 bases, ou cerca de 20 bases a cerca de 250 bases. Em algumas formas de realização, um genoma, ou seus segmentos, é dividido em uma pluralidade de janelas. As regiões abrangendo janelas de um genoma podem ou não se sobrepor. Em algumas formas de realização, as janelas estão posicionadas a distâncias iguais umas das outras. Em algumas formas de realização, as janelas estão posicionadas a diferentes distâncias umas das outras. Em certas formas de realização, um genoma, ou seu segmento, é dividido em uma pluralidade de janelas deslizantes, em que uma janela é deslizada incrementalmente através de um genoma, ou segmento do mesmo, onde cada janela em cada incremento compreende uma estimativa de tendência de genoma local (por exemplo, um local de densidade de GC). A janela pode ser deslizada através de um genoma em qualquer incremento apropriado, de acordo com qualquer padrão numérico, ou de acordo com qualquer sequência atemática definida. Em algumas formas de realização, para uma determinação da estimativa de tendência de genoma local, um indicador é deslizado através de um genoma, ou um seu segmento, de um incremento de cerca de 10.000 pb ou mais cerca de 5.000 pb ou mais, cerca de 2.500 pb ou mais, cerca de 1.000 pb ou mais, cerca de 750 pb ou mais, cerca de 500 pb ou mais, cerca de 400 bases ou mais, cerca de 250 pb ou mais, cerca de 100 pb ou mais, cerca de 50 pb ou mais, ou cerca de 25 pb ou mais. Em algumas formas de realização, uma determinação da estimativa de tendências de genoma local, um indicador é deslizado através de um genoma, ou um seu segmento, de um incremento de cerca de 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, ou cerca de 1 pb. Por exemplo, para uma determinação estimativa de tendência de genoma local, uma janela pode compreender cerca de 400 pb (por exemplo, uma largura de banda de 200 pb) e pode ser deslizada através de um genoma em incrementos de 1 pb. Em algumas formas de realização, uma estimativa de tendência de genoma local é determinada para cada base em um genoma, ou segmento do mesmo, utilizando uma função de densidade Kernel e uma largura de banda de cerca de 200 pb.
[00145] Em algumas formas de realização uma estimativa de tendência de genoma local é um teor de GC local e/ou uma representação do teor de GC local. O termo "local", tal como aqui utilizado, (por exemplo, como utilizado para descrever uma tendência local, estimativa de tendência local, teor de tendência local, tendência de genoma local, teor de GC local, e semelhantes) refere-se a um segmento de polinucleotídeo de 10000 pb ou menos. Em algumas formas de realização, o termo "local" refere-se a um segmento de polinucleotídeo de 5.000 pb ou menos, 4.000 pb ou menos, 3.000 pb ou menos, 2.000 pb ou menos, de 1.000 pb ou menos, de 500 pb ou menos, de 250 pb ou menos, 200 pb ou menos, 175 pb ou menos, de 150 pb ou menos, de 100 pb ou menos, de 75 pb ou menos, ou 50 pb ou menos. Um teor de GC local é, frequentemente, uma representação (por exemplo, uma representação matemática, quantitativa) de teor de GC para um segmento local de um genoma, leitura de sequência, montagem de leitura de sequência (por exemplo, um contig, um perfil, e semelhantes). Por exemplo, um teor de GC local pode ser uma estimativa de tendência de GC local ou uma densidade de GC.
[00146] Uma ou mais densidades de GC são, muitas vezes, determinadas por polinucleotídeos de referência, ou uma amostra (por exemplo, uma amostra de teste). Em algumas formas de realização uma densidade de GC é uma representação (por exemplo, uma representação matemática, quantitativa) de teor de GC local (por exemplo, para um segmento de polinucleotídeo de 5000 pb ou menos). Em algumas formas de realização, uma densidade de GC é uma estimativa de tendência de genoma local. Uma densidade de GC pode ser determinada utilizando um processo adequado aqui descrito e/ou conhecidos na técnica. Uma densidade de GC pode ser determinada utilizando uma PDF adequada (por exemplo, uma função de densidade Kernel (por exemplo, uma função de densidade Kernel Epanechnikov, por exemplo, ver a Figura 1)). Em algumas formas de realização, uma densidade de GC é uma PDE (por exemplo, uma estimativa de densidade Kernel). Em certas formas de realização, uma densidade de GC é definida pela presença ou ausência de um ou mais nucleotídeos de guanina (G) e/ou citosina (C). Inversamente, em algumas formas de realização, uma densidade de GC pode ser definida pela presença ou ausência de um ou mais nucleotídeos de adenina (A) e/ou timidina (T). As densidades de GC para teor de GC local, em algumas formas de realização, são normalizados de acordo com densidades de GC determinadas por um genoma completo, ou segmento do mesmo (por exemplo, autossomas, um conjunto de cromossomos, cromossomo único, um gene, por exemplo, ver a Figura 2). Uma ou mais densidades de GC podem ser determinadas para os polinucleotídeos de uma amostra (por exemplo, uma amostra de teste), ou uma amostra de referência. A densidade de GC, muitas vezes, é determinada por um genoma de referência. Em algumas formas de realização uma densidade de GC é determinada por uma leitura de sequência de acordo com um genoma de referência. Uma densidade de GC de uma leitura é, muitas vezes, determinada de acordo com uma densidade de GC para uma determinada localização correspondente e/ou a posição de um genoma de referência para a qual uma leitura é mapeada. Em algumas formas de realização, uma densidade de GC determinada para um local em um genoma de referência é atribuída e/ou fornecida para uma leitura, em que a leitura, ou um seu segmento, mapeia para o mesmo local no genoma de referência. Qualquer método adequado pode ser utilizado para determinar uma localização de uma leitura mapeada em um genoma de referência com a finalidade de gerar uma densidade de GC para uma leitura. Em algumas formas de realização, uma posição mediana de uma leitura mapeada determina uma localização no genoma de uma referência a partir da qual uma densidade de GC para a leitura é determinada. Por exemplo, onde a posição mediana de uma leitura mapeia para o cromossomo 12 no número de base X de um genoma de referência, a densidade de GC da leitura é, frequentemente, fornecida como a densidade de GC determinada por uma estimativa de densidade Kernel para uma posição localizada no cromossomo 12 no ou próximo número da base x do genoma de referência. Em algumas formas de realização, uma densidade de GC é determinada para algumas ou todas as posições de base de uma leitura de acordo com um genoma de referência. Por vezes, uma densidade de GC de uma leitura compreende uma média, soma, mediana ou integral de duas ou mais densidades de GC determinadas para uma pluralidade de posições de base em um genoma de referência.
[00147] Em algumas formas de realização, uma estimativa de tendência de genoma local (por exemplo, uma densidade de GC) é quantificada e/ou é fornecido um valor. A estimativa de tendência de genoma local (por exemplo, uma densidade de GC), às vezes, é expressa em média, valor médio e/ou mediana. Uma estimativa de tendência de genoma local (por exemplo, uma densidade de GC) é, por vezes, expressa como uma altura máxima de pico de uma PDE. Por vezes, uma estimativa de tendência de genoma local (por exemplo, uma densidade de GC) é expressa como uma soma ou uma parte integrante (por exemplo, uma área sob a curva (AUC)) de uma PDE adequada. Em algumas formas de realização, uma densidade de GC compreende um peso Kernel. Em certas formas de realização uma densidade de GC de uma leitura compreende um valor aproximadamente igual a uma média, valor médio, soma, mediana, altura máxima do pico ou integral de um peso kernel.
Frequências de Tendência
[00148] As frequências de tendências são, por vezes, determinadas de acordo com uma ou mais estimativas de tendência de genoma local (por exemplo, densidades de GC). Uma frequência de tendências é, por vezes, uma contagem de soma ou o número de ocorrências de uma estimativa de tendência de genoma local para uma amostra, de referência (por exemplo, um genoma de referência, uma sequência de referência, um cromossomo em um genoma de referência) ou parte deste. A frequência de tendências é, por vezes, uma contagem ou soma do número de ocorrências de uma estimativa de tendência de genoma local (por exemplo, cada estimativa de frequência de genoma local) para uma amostra, referência ou parte dela. Em algumas formas de realização, uma frequência de tendência é uma frequência de densidade de GC. Uma frequência de densidade de GC é, muitas vezes, determinada de acordo com uma ou mais densidades de GC. Por exemplo, uma frequência de densidade de GC pode representar o número de vezes que uma densidade de GC de valor x é representada ao longo de um genoma completo, ou um seu segmento. Uma frequência de tendências é, muitas vezes, uma distribuição das estimativas de tendência de genoma local, onde o número de ocorrências de cada estimativa de tendência de genoma local é representado como uma frequência de tendências (por exemplo, ver a Figura 3). Frequências de tendências são, por vezes, matematicamente manipuladas e/ou normalizadas. As frequências de tendências podem ser matematicamente manipuladas e/ou normalizadas por um método adequado. Em algumas formas de realização, as frequências de tendências são normalizadas de acordo com uma representação (por exemplo, uma fração, em porcentagem) de cada estimativa de tendência de genoma local para uma amostra, referência ou parte da mesma (por exemplo, autossomas, um subconjunto de cromossomos, um único cromossomo ou leitura dos mesmos). As frequências de tendências podem ser determinadas por algumas ou todas as estimativas de tendência de genoma local de uma amostra ou referência. Em algumas formas de realização, frequências de tendências pode ser determinada para as estimativas de tendência de genoma local para algumas ou todas as leituras de sequência de uma amostra de teste.
[00149] Em algumas formas de realização, um sistema compreende um módulo de densidade de tendências 6. Um módulo densidade de tendências pode aceitar, recuperar e/ou armazenar leituras de sequência mapeadas 5 e sequências de referência 2 em qualquer formato adequado e gerar estimativas de tendência de genoma local, distribuições de tendências de genoma local, frequências de tendência, densidades de GC, distribuições de densidade de GC e/ou frequências de densidade de GC (coletivamente representados pela caixa 7). Em algumas formas de realização, um módulo de densidade de tendências transfere dados e/ou informações (por exemplo, 7) para outro módulo apropriado (por exemplo, um módulo de relação 8).
Relações
[00150] Em algumas formas de realização, uma ou mais relações são geradas entre as estimativas de tendência de genoma local e frequências de tendências. O termo "relação", como utilizado na presente invenção, refere-se a uma relação matemática e/ou gráfica entre duas ou mais variáveis ou valores. Uma relação pode ser gerada por um processo matemático e/ou gráfico adequado. Exemplos não- limitativos de uma relação incluem uma representação matemática e/ou gráfica de uma função, uma correlação, uma distribuição, uma equação linear ou não linear, uma linha, uma regressão, uma regressão ajustada, semelhantes ou uma sua combinação. Às vezes, uma relação compreende uma relação ajustada. Em algumas formas de realização, uma relação ajustada compreende uma regressão ajustada. Às vezes, uma relação compreende duas ou mais variáveis ou valores que são ponderados. Em algumas formas de realização, uma relação compreende uma regressão ajustada, onde uma ou mais variáveis ou valores da relação são ponderadas. Às vezes, uma regressão é ajustada de forma ponderada. Às vezes, uma regressão é ajustada sem ponderação. Em certas formas de realização, a geração de uma relação compreende uma representação gráfica ou um gráfico.
[00151] Em algumas formas de realização, uma relação adequada é determinada entre as estimativas de tendência de genoma local e frequências de tendências. Em algumas formas de realização, a geração de uma relação entre (i) as estimativas de tendência de genoma local e (ii) as frequências de tendências para uma amostra fornece uma relação de tendência de amostra. Em algumas formas de realização, a geração de uma relação entre (i) as estimativas de tendência de genoma local e (ii) as frequências de tendências para uma referência fornece uma relação de tendências de referência. Em certas formas de realização, uma relação é gerada entre as densidades de GC e frequências de densidade de GC. Em algumas formas de realização, a geração de uma relação entre (i) as densidades de GC e (ii) densidade de frequências de GC para uma amostra fornece uma relação de densidade de GC de amostra. Em algumas formas de realização, a geração de uma relação entre (i) as densidades de GC e (ii) frequências de densidade de GC para uma referência fornece uma relação de densidade de GC de referência. Em algumas realizações, onde as estimativas de tendência de genoma local são densidades de GC, uma relação de tendência da amostra é uma relação de densidade de GC da amostra e uma relação de tendências de referência é uma relação de densidade de GC de referência. As densidades de GC de uma relação de densidade de GC de referência e/ou uma relação de densidade de GC de amostra são representações, frequentemente, (por exemplo, representação matemática ou quantitativa) de teor de GC local. Em algumas formas de realização, uma relação entre as estimativas de tendência de genoma local e as frequências de tendências compreende uma distribuição. Em algumas formas de realização, uma relação entre as estimativas de tendência de genoma local e as frequências diagonais compreende uma relação ajustada (por exemplo, uma regressão ajustada). Em algumas formas de realização, uma relação entre as estimativas de tendência de genoma local e as frequências de tendências compreende uma regressão linear ou não-linear ajustada (por exemplo, uma regressão polinomial). Em certas formas de realização, uma relação entre as estimativas de tendência de genoma local e as frequências de tendências compreende uma relação ponderada em que as estimativas de tendência de genoma local e/ou frequências de tendências são ponderadas por um processo adequado. Em algumas formas de realização, uma relação ponderada ajustada (por exemplo, uma ponderação ajustada) pode ser obtida por um processo que compreende uma regressão quantil, distribuições parametrizadas ou uma distribuição empírica com interpolação. Em certas formas de realização, uma relação entre as estimativas de tendência de genoma local e frequências de tendências para uma amostra de teste, uma referência ou parte do mesmo, compreende uma regressão polinomial onde as estimativas de tendência de genoma local são ponderadas. Em algumas formas de realização, um modelo ponderado ajustado compreende valores de ponderação de uma distribuição. Valores de uma distribuição podem ser ponderados por um processo adequado. Em algumas formas de realização, os valores localizados perto de caudas de uma distribuição são fornecidos menos peso do que os valores mais próximos da mediana da distribuição. Por exemplo, para uma distribuição entre as estimativas de tendência de genoma local (por exemplo, densidades de GC) e frequências de tendência (por exemplo, frequências de densidade de GC), um peso é determinado de acordo com a frequência de tendência para uma determinada estimativa de tendência de genoma local, onde é fornecido maior peso para estimativas de tendência de genoma local compreendendo frequências de tendências mais perto da média de uma distribuição do que as estimativas de tendência de genoma local de tendências que compreendem frequências mais distantes da média.
[00152] Em algumas formas de realização, um sistema compreende um módulo relação 8. Um módulo de relação pode gerar relações, bem como funções, coeficientes, constantes e variáveis que definem uma relação. Um módulo de relação pode aceitar, armazenar e/ou recuperar os dados e/ou informações (por exemplo, 7) a partir de um módulo adequado (por exemplo, um módulo de densidade de tendências 6) e gerar uma relação. Um módulo de relação, muitas vezes, gera e compara distribuições de estimativas de tendência de genoma local. Um módulo de relação pode comparar conjuntos de dados e, às vezes, gerar regressões e/ou relações ajustadas. Em algumas formas de realização, um módulo relação compara uma ou mais distribuições (por exemplo, distribuições de estimativas de tendência de genoma local de amostras e/ou referências) e fornece fatores de ponderação e/ou atribuições de ponderação 9 para contagem de leitura de sequência a outro módulo apropriado (por exemplo, um módulo de correção de tendências). Por vezes, um módulo de relação proporciona contagens de leitura normalizadas de sequência diretamente a um módulo de distribuição 21, onde as contagens são normalizadas de acordo com uma relação e/ou uma comparação.
Geração de uma Comparação e sua Utilização
[00153] Em algumas formas de realização, um processo para a redução de tendências locais nas leituras de sequência compreende normalizar as contagens de leitura de sequência. Contagens de leitura de sequência, muitas vezes, são normalizados de acordo com uma comparação de uma amostra de teste para uma referência. Por exemplo, às vezes contagens de leituras de sequência são normalizadas por comparação de estimativas de tendência de genoma local das leituras de sequência de uma amostra de teste para as estimativas de tendência de genoma local de referência (por exemplo, um genoma de referência, ou parte dele). Em algumas formas de realização, contagens de leituras de sequência são normalizadas pela comparação de frequências de tendências das estimativas de tendência de genoma local de uma amostra de teste com as frequências de tendência das estimativas de tendência de genoma local de referência. Em algumas formas de realização, contagens de leituras de sequência são normalizadas por comparação de uma relação de tendência da amostra com uma relação de tendências de referência, gerando, desse modo, uma comparação.
[00154] Contagens de leitura de sequência, muitas vezes, são normalizadas de acordo com uma comparação de duas ou mais relações. Em certas formas de realização, duas ou mais relações são comparadas proporcionando, dessa forma, uma comparação que é utilizada para reduzir a tendência local nas leituras de sequência (por exemplo, contagens de normalização). Duas ou mais relações podem ser comparadas por um método adequado. Em algumas formas de realização, uma comparação compreende a adição, subtração, multiplicação e/ou divisão de uma primeira relação com uma segunda relação. Em certas formas de realização, a comparação de duas ou mais relações compreende a utilização de uma regressão linear e/ou uma regressão não-linear adequada. Em certas formas de realização, a comparação de duas ou mais relações compreende uma regressão polinomial adequada (por exemplo, uma regressão polinomial de 3a ordem). Em algumas formas de realização, uma comparação compreende a adição, subtração, multiplicação e/ou divisão de uma primeira regressão a partir de uma segunda regressão. Em algumas formas de realização, duas ou mais relações são comparadas por um processo que compreende uma estrutura inferencial de regressão múltipla. Em algumas formas de realização, duas ou mais relações são comparadas por um processo que compreende uma análise multivariada adequada. Em algumas formas de realização, duas ou mais relações são comparadas por um processo que compreende uma função de base (por exemplo, uma função de mistura, por exemplo, bases de polinômios, bases de Fourier, ou semelhantes), spline, uma função de base radial e/ou ondas.
[00155] Em certas formas de realização, uma distribuição de estimativas de tendência de genoma local compreendendo as frequências de tendências para uma amostra de teste e um de referência é comparada por um processo que compreende uma regressão polinomial onde as estimativas de tendência de genoma local são ponderadas. Em algumas formas de realização, uma regressão polinomial é gerada entre (i) proporções, cada uma das quais proporções compreende frequências de tendência das estimativas de tendência de genoma local de referência e tendências de frequências de estimativas de tendência de genoma local de uma amostra e (ii) as estimativas de tendência de genoma local. Em algumas formas de realização, uma regressão polinomial é gerada entre (i) uma relação de frequências diagonais de estimativas de tendência de genoma local de uma referência às frequências de tendências de estimativas de tendência de genoma local de uma amostra e (ii) estimativas de tendência do genoma local. Em algumas formas de realização, uma comparação de uma distribuição de estimativas de tendências de genoma local para leituras de uma amostra de teste e uma referência compreende a determinação de uma proporção logarítmica (por exemplo, uma proporção de log2) de frequências de tendências de estimativas de tendências de genoma local para a referência e a amostra. Em algumas formas de realização, uma comparação de uma distribuição de estimativas de tendência de genoma local compreende a divisão de uma proporção logarítmica (por exemplo, uma relação logarítmica2) de frequências de tendências de estimativas de tendências de genoma local para a referência por uma proporção logarítmica (por exemplo, uma relação logarítmica2) de frequências de tendências de estimativas de tendências de genoma local para a amostra (por exemplo, ver Exemplo 1 e Fig. 4).
[00156] As contagens de normalização de acordo com uma comparação, tipicamente, ajustam algumas contagens e outras não. As contagens de normalização, por vezes, ajustam todas as contagens e às vezes não ajusta quaisquer contagens de leitura de sequência. A contagem para uma leitura de sequência, por vezes, é normalizada por um processo que compreende a determinação de um fator de ponderação e, por vezes, o processo não inclui gerar diretamente e utilizar um fator de ponderação. Normalizar contagens de acordo com uma comparação, por vezes, compreende determinar um fator de ponderação para cada contagem de uma leitura de sequência. Um fator de ponderação é, frequentemente, específico para uma leitura de sequência e é aplicado a uma contagem de uma leitura de sequência específica. Um fator de ponderação é, muitas vezes, determinado de acordo com uma comparação de duas ou mais relações de tendências (por exemplo, uma relação de tendência da amostra em comparação com uma relação de tendências de referência). Uma contagem normalizada é, muitas vezes, determinada pelo ajuste do valor de contagem de acordo com um fator de ponderação. Ajustar uma contagem de acordo com um fator de ponderação, por vezes, inclui a adição, subtração, multiplicação e/ou divisão de uma contagem para leitura de uma sequência por um fator de ponderação. Um fator de ponderação e/ou uma contagem normalizada é determinada, por vezes, a partir de uma regressão (por exemplo, uma regressão linear). Uma contagem normalizada é, por vezes, obtida diretamente a partir de uma regressão linear (por exemplo, uma regressão linear ajustada) resultante a partir de uma comparação entre as frequências de tendências de estimativas de tendência de genoma local de referência (por exemplo, um genoma de referência, um cromossomo em um genoma de referência) e uma amostra de teste. Em algumas formas de realização, para cada contagem de uma leitura de uma amostra é fornecido um valor de contagem normalizado de acordo com uma comparação de (i) frequências de tendências de uma estimativa de tendência de genoma local de leituras em comparação com (ii) frequências de tendências de uma estimativa de tendência de genoma local de referência. Em certas formas de realização, a contagem de leitura de sequência obtida para uma amostra é normalizada e a tendência nas leituras de sequência é reduzida.
[00157] Por vezes, um sistema compreende um módulo de correção de tendências 10. Em algumas formas de realização, as funções de um módulo de correção de tendências são realizadas por um módulo de modelagem de relação 8. Um módulo de correção de tendências pode aceitar, recuperar e/ou armazenar leitura de sequência mapeada e fatores de ponderação (por exemplo, 9) a partir de um módulo adequado (por exemplo, um módulo de relação 8, um módulo de compressão 4). Em algumas formas de realização, um módulo de correção de tendências fornece uma contagem para leituras mapeadas. Em algumas formas de realização, um módulo de correção de tendências aplica atribuições de ponderação e/ou fatores de correção de tendências para contagens de leitura de sequência proporcionando, dessa forma, contagens normalizadas e/ou ajustadas. Um módulo de correção de tendências proporciona, muitas vezes, contagens normalizadas para outro módulo apropriado (por exemplo, um módulo de distribuição 21).
[00158] Em certas formas de realização, contagens de normalização compreendem a fatoração de uma ou mais características, além de densidade de GC, e normalizar as contagens da leitura de sequência. Em certas formas de realização, contagens de normalização compreendem a fatoração de uma ou mais estimativas diferentes de tendências de genoma local, e as contagens de normalização da leitura de sequência. Em certas formas de realização, contagens de leituras de sequência são ponderadas de acordo com um coeficiente determinado de acordo com uma ou mais características (por exemplo, uma ou mais tendências). Em algumas formas de realização, as contagens são normalizadas de acordo com uma ou mais pesos combinados. Às vezes, a fatoração de uma ou mais características e/ou contagem de normalização de acordo com uma ou mais pesos combinados é por um processo compreendendo a utilização de um modelo multivariado. Qualquer modelo multivariado adequado pode ser utilizado para normalizar as contagens. Exemplos não limitativos de um modelo multivariado incluem uma regressão linear multivariável, regressão quantil multivariada, uma interpolação multivariada de dados empíricos, um modelo não-linear multivariado, semelhantes ou uma combinação destes.
[00159] Em algumas formas de realização, um sistema de correção compreende um módulo multivariado 13. Um módulo de correção multivariado pode executar funções de um módulo de densidade de tendências 6, módulo de relações 8 e/ou um módulo de correção de tendências 10, várias vezes, ajustando assim as contagens para múltiplas tendências. Em algumas formas de realização, um módulo de correção multivariada compreende um ou mais módulos de densidade de tendências 6, módulos de relacionamento 8 e/ou módulos de correção de tendências 10. Por vezes, um módulo de correção multivariada fornece contagens normalizadas 11 para outro módulo adequado (por exemplo, um módulo de distribuição 21).
Porções Ponderadas
[00160] Em algumas formas de realização, as porções são ponderadas. Em algumas formas de realização, uma ou mais porções são ponderadas proporcionando, dessa forma, porções ponderadas. A ponderação das porções, por vezes, remove dependências de porções. As porções podem ser ponderadas por um processo adequado. Em algumas formas de realização, uma ou mais porções são ponderadas por uma função Eigen (por exemplo, uma função própria). Em algumas formas de realização, uma função de Eigen compreende a substituição de porções por porções eigen ortogonais. Em algumas formas de realização, um sistema compreende um módulo de ponderação de porção 42. Em algumas formas de realização, um módulo de ponderação aceita, recupera e/ou armazena de densidades de leitura, perfis de densidade de leitura e/ou ajusta perfis de densidade de leitura. Em algumas formas de realização, porções ponderadas são fornecidas por um módulo de pesagem de porção. Em algumas formas de realização, um módulo de ponderação é necessário para ponderar porções. Um módulo de ponderação pode ponderar porções por um ou mais métodos de ponderação conhecidos na técnica ou aqui descritos. Um módulo de ponderação, frequentemente, fornece porções ponderadas para outro módulo apropriado (por exemplo, um módulo de pontuação 46, um módulo de estatísticas de APC 33, um módulo de geração de perfil 26 e semelhantes).
Análise do Componente Principal
[00161] Em algumas formas de realização, um perfil de densidade de leitura (por exemplo, um perfil de densidade de leitura de uma amostra de teste (por exemplo, a Figura 7A) é ajustado de acordo com uma análise de componentes principais (ACP)). Um perfil de densidade de leitura de uma ou mais amostras de referência e/ou uma leitura de perfil de densidade de um indivíduo de teste pode ser ajustada de acordo com uma ACP. Um perfil de densidade de leitura para um genoma parte de um genoma, um cromossomo, ou um segmento de um cromossomo pode ser ajustado de acordo com uma ACP. A remoção de tendências de um perfil de densidade de leitura por um processo relacionado com ACP é, por vezes, aqui referido como o ajuste de um perfil. A APC pode ser realizada por um método de APC adequado, ou uma variação da mesma. Exemplos não limitativos de um método de APC incluem uma análise de correlação canônica (ACC), uma transformação de Karhunen- Loève (KLT), uma transformada de Hotelling, uma decomposição ortogonal adequada (POD), uma decomposição de valor singular (SVD) de X, uma decomposição autovalor (EVD) de XTX, uma análise fatorial, um teorema de Eckart-Young, um teorema de Schmidt-Mirsky, funções empíricas ortogonais (EOF), uma decomposição empírica da função de Eigen, uma análise de componentes empírica, modos quase-harmônicos, a decomposição espectral, uma análise modal empírica, semelhantes, variações ou combinações dos mesmos. A APC, muitas vezes, identifica um ou mais desvios em um perfil de densidade de leitura. Uma tendência identificada por uma APC é, por vezes, aqui referida como um componente principal. Em algumas formas de realização, um ou mais desvios podem ser removidos por ajuste de um perfil de densidade de leitura de acordo com um ou mais de componentes principais utilizando um método apropriado. Um perfil de densidade de leitura pode ser ajustado por adição, subtração, multiplicação e/ou divisão de um ou mais dos componentes principais de um perfil de densidade de leitura. Em algumas formas de realização, um ou mais desvios podem ser removidos a partir de um perfil de densidade de leitura subtraindo um ou mais componentes principais a partir de um perfil de densidade de leitura. Embora tendências de um perfil de densidade de leitura sejam, muitas vezes, identificadas e/ou quantificadas por uma APC de um perfil, os componentes principais são, frequentemente, subtraídos a partir de um perfil a nível de densidades de leitura. Tendências ou características de um perfil de densidade de leitura que são identificados e/ou quantificados por uma APC de um perfil incluem, mas não estão limitadas a, sexo fetal, tendências de sequência (por exemplo, tendências de guanina e citosina (GC)), fração fetal, tendências correlacionadas com a sensibilidade à DNase I, entropia, tendência de sequência repetitiva, tendência de estrutura de cromatina, tendência em taxa de erro de polimerase, tendências de palíndromo, tendência de repetição invertida, tendência de amplificação por PCR, e variação escondida do número de cópia.
[00162] A APC, muitas vezes, identifica um ou mais componentes principais. Em algumas formas de realização, uma ACP identifica um 1o, 2o, 3o, 4o, 5o, 6o, 7o, 8o, 9o e 10o ou mais componentes principais. Em certas formas de realização, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 ou mais componentes principais são utilizados para ajustar um perfil. Em certas formas de realização, 5 componentes principais são utilizados para ajustar a um perfil. Muitas vezes, os componentes principais são utilizados para ajustar um perfil na ordem de sua aparição em uma ACP. Por exemplo, quando três componentes principais são subtraídos de um perfil de densidade de leitura, um 1o, 2o e 3o componentes principais são utilizados. Às vezes, uma tendência identificada por um componente principal compreende uma característica de um perfil que não é utilizada para ajustar um perfil. Por exemplo, uma APC pode identificar uma variação genética (por exemplo, uma aneuploidia, deleção, translocação, inserção) e/ou a diferença de gênero (por exemplo, como pode ser visto na Figura 6C) como um componente principal. Assim, em algumas formas de realização, um ou mais componentes principais não são utilizados para ajustar um perfil. Por exemplo, às vezes um 1o, 2o e 4o componentes principais são utilizados para ajustar um perfil onde um 3o componente principal não é utilizado para ajustar um perfil. Um componente principal pode ser obtido a partir de uma APC utilizando qualquer amostra ou referência adequados. Em algumas formas de realização, os componentes principais são obtidos a partir de uma amostra de teste (por exemplo, um indivíduo de teste). Em algumas formas de realização, os componentes principais são obtidos a partir de uma ou mais referências (por exemplo, amostras de referência, sequências de referência, um conjunto de referência). Como mostrado, por exemplo, na Figura 6, uma APC é realizada em um perfil de densidade de leitura mediano obtido a partir de um conjunto de treino (Fig. 6A) que compreende várias amostras que resultaram na identificação de um 1o componente principal (Fig. 6B) e um segundo componente principal (Fig. 6C). Em algumas formas de realização, os componentes principais são obtidos a partir de um conjunto de indivíduos que se sabe serem desprovidos de uma variação genética em questão. Em algumas formas de realização, os componentes principais são obtidos a partir de um conjunto de euploides conhecidos. Os componentes principais são, muitas vezes, identificados de acordo com uma ACP realizada utilizando um ou mais perfis de densidade de leituras de uma referência (por exemplo, um conjunto de treinamento). Um ou mais componentes principais obtidos a partir de uma referência são, frequentemente, subtraídos a partir de um perfil de densidade de leitura de um objeto de teste (por exemplo, Fig. 7B) proporcionando desse modo um perfil ajustado (por exemplo, a Figura 7C).
[00163] Em algumas formas de realização, um sistema composto por um módulo de estatísticas de APC 33. Um módulo de estatísticas de APC pode aceitar e/ou recuperar os perfis de densidade de leitura a partir de outro módulo apropriado (por exemplo, um módulo de geração de perfil 26). A ACP é, muitas vezes, realizada por um módulo de estatísticas de ACP. Um módulo de estatísticas de ACP, muitas vezes, aceita, recupera e/ou armazena perfis de densidade de leitura e processam perfis de densidade de leitura a partir de um conjunto de referência 32, conjunto de treinamento 30 e/ou a partir de um ou mais indivíduos de teste 28. O módulo de estatísticas de APC pode gerar e/ou fornecer componentes principais e/ou ajustar perfis de densidade de leitura de acordo com um ou mais componentes principais. Os perfis de densidade de leitura ajustados (por exemplo, 40, 38) são, muitas vezes, fornecidos por um módulo de estatísticas de ACP. Um módulo de estatísticas de APC pode fornecer e/ou de transferir perfis de densidade de leitura ajustados (por exemplo, 38, 40) para outro módulo apropriado (por exemplo, um módulo de pesagem de porção 42, um módulo de pontuação 46). Em algumas formas de realização, um módulo de estatísticas de APC pode fornecer uma chamada de gênero 36. Uma chamada de gênero é, por vezes, uma determinação do sexo fetal determinado de acordo com uma ACP e/ou de acordo com um ou mais componentes principais. Em algumas formas de realização, um módulo de estatísticas de ACP compreende algumas, totalidade ou uma modificação do código de R mostrado abaixo. Um código de R para computar os componentes principais geralmente começa com a limpeza dos dados (por exemplo, subtraindo a mediana, porções de filtração, e aparando valores extremos): #Clean the data outliers for ACP dclean <- (dat-m) [mask,] for(j in 1: ncol(dclean)) { q <- quantile(dclean [,j],c(.25,.75)) qmin <- q [1]-4*(q [2]-q [1]) qmax <- q [2]+4*(q [2]-q [1]) dclean [dclean [,j] < qmin,j] <- qmin dclean [dclean [,j] > qmax,j] <- qmax }
[00164] Em seguida, os componentes principais são calculados: #Compute principal components pc <- prcomp(dclean)$x
[00165] Finalmente, cada perfil ajustado por ACP da amostra pode ser calculado com: #Compute residuals mm <- model.matrix(~pc [,1:numpc]) for(j in 1:ncol(dclean)) dclean [,j] <- dclean [,j] - predict(Im(dclean [,j]~mm))
Comparando Perfis
[00166] Em algumas formas de realização, a determinação de um resultado compreende uma comparação. Em certas formas de realização, um perfil de densidade de leitura, ou uma porção do mesmo, é utilizado para fornecer um resultado. Em certas formas de realização, um perfil de densidade de leitura para um genoma, parte de um genoma, um cromossomo, ou um segmento de um cromossomo é utilizado para proporcionar um resultado. Em algumas formas de realização, a determinação de um resultado (por exemplo, a determinação da presença ou ausência de uma variação genética) compreende uma comparação de dois ou mais perfis de densidade de leitura. A comparação dos perfis de densidade de leitura, muitas vezes, compreende comparar perfis de densidade de leitura gerados por um segmento selecionado de um genoma. Por exemplo, um perfil de teste é, geralmente, comparado com um perfil de referência, onde os perfis de teste e de referência foram determinados para um segmento de um genoma (por exemplo, um genoma de referência) que é, substancialmente, o mesmo segmento. A comparação dos perfis de densidade de leitura, por vezes, compreende comparar dois ou mais subconjuntos de porções de um perfil de densidade de leitura. Um subconjunto de porções de um perfil de densidade de leitura pode representar um segmento de um genoma (por exemplo, um cromossomo, ou seu segmento). Um perfil de densidade de leitura pode compreender qualquer quantidade de subconjuntos de porções. Às vezes, um perfil de densidade de leitura compreende dois ou mais, três ou mais, quatro ou mais, ou cinco ou mais subconjuntos. Em certas formas de realização, um perfil de densidade de leitura compreende dois subconjuntos de porções em que cada porção representa segmentos de um genoma de referência que são adjacentes. Em algumas formas de realização, um perfil de teste pode ser comparado com um perfil de referência, quando tanto o perfil de teste quanto perfil de referência compreende um primeiro subconjunto de porções e um segundo subconjunto das porções onde o primeiro e segundo subconjunto representam diferentes segmentos de um genoma. Alguns subconjuntos de porções de um perfil de densidade de leitura podem compreender variações genéticas e outros subconjuntos de porções são, por vezes, substancialmente, isentos de variações genéticas. Às vezes, todos os subconjuntos de porções de um perfil (por exemplo, um perfil de teste) são, substancialmente, isentos de uma variação genética. Às vezes, todos os subconjuntos de porções de um perfil (por exemplo, um perfil de teste) compreendem uma variação genética. Em algumas formas de realização, um perfil de teste pode compreender um primeiro subconjunto e porções que compreendem uma variação genética e um segundo subconjunto de porções que são, substancialmente, isentas de uma variação genética.
[00167] Em algumas formas de realização, os métodos aqui descritos compreendem a pré-formação de uma comparação (por exemplo, comparando-se um perfil de teste a um perfil de referência). Dois ou mais conjuntos de dados, duas ou mais relações e/ou dois ou mais perfis podem ser comparadas por um método adequado. Exemplos não limitativos de métodos estatísticos adequados para comparar os conjuntos de dados, relações e/ou perfis incluem abordagem Behrens-Fisher, bootstrapping, o método de Fisher para a combinação de testes independentes de significância, testes de Neyman- Pearson, análise de dados de confirmação, análise de dados exploratória, teste exato, F-teste, Z-teste, teste T, cálculo e/ou comparar uma medida de incerteza, uma hipótese nula, counternulls e semelhantes, um teste do qui-quadrado, teste omnibus, cálculo e/ou comparação do nível de significância (por exemplo, a significância estatística), uma meta-análise, uma análise multivariada, uma regressão, regressão linear simples, regressão linear robusta, similares ou combinações dos anteriores. Em certas formas de realização, a comparação de dois ou mais conjuntos de dados, relações e/ou perfis compreende determinar e/ou comparar uma medida da incerteza. Uma "medida de incerteza", tal como aqui utilizado, refere-se a uma medida de significância (por exemplo, a significância estatística), uma medida de erro, uma medida da variância, uma medida de confiança, semelhantes ou uma sua combinação. Uma medida de incerteza pode ser um valor (por exemplo, um limite) ou um intervalo de valores (por exemplo, um intervalo, um intervalo de confiança, um intervalo de confiança de Bayesian, um intervalo limite). Exemplos não- limitativos de uma medida de incerteza incluem p-valores, uma medida adequada de desvio (por exemplo, o desvio padrão, sigma, desvio absoluto, desvio absoluto médio semelhantes), uma medida apropriada de erro (por exemplo, erro padrão, erro quadrado médio, raiz do erro quadrado médio, etc.), uma medida adequada de variância, uma pontuação de padrão adequada (por exemplo, desvios-padrão, percentuais cumulativos, equivalentes percentuais, Pontuações Z, T-scores, R-scores, nove padrão (stanine), percentual em stanine, semelhantes), semelhantes ou combinações dos mesmos. Em algumas formas de realização, a determinação do nível de significância compreende determinar uma medida de incerteza (por exemplo, um valor- p). Em certas formas de realização, dois ou mais conjuntos de dados, relações e/ou perfis podem ser analisados e/ou comparados utilizando múltiplos (por exemplo, dois ou mais) métodos estatísticos (por exemplo, regressão de mínimos quadrados, análise de componentes principais, análise discriminante linear, análise quadrática discriminante, bagging, redes neurais, modelos de máquinas de vetor de suporte, floresta aleatória, modelos de árvore de classificação, K-vizinhos mais próximos, regressão logística e/ou suavização de perda) e/ou quaisquer manipulações matemáticas e/ou estatísticas adequada (por exemplo, aqui referido como manipulações).
[00168] Em certas formas de realização, a comparação de duas ou mais perfis de densidade de leitura compreende a determinação e/ou comparação de uma medida da incerteza de dois ou mais perfis de densidade de leitura. Os perfis de densidade de leitura e/ou medidas de incerteza associadas, às vezes, são comparados para facilitar a interpretação das manipulações matemáticas e/ou estatísticas de um conjunto de dados e/ou para fornecer um resultado. Um perfil de densidade de leitura gerado por um indivíduo de teste, por vezes, é comparado com um perfil de densidade de leitura gerado por uma ou mais referências (por exemplo, amostras de referência, participantes de referência, e semelhantes). Em algumas formas de realização, um resultado é fornecido por comparação de um perfil de densidade de leitura a partir de um indivíduo de teste para um perfil de densidade de leitura a partir de uma referência de um cromossomo, porções ou segmentos dos mesmos, em que um perfil de densidade de leitura de referência é obtido a partir de um conjunto de indivíduos de referência conhecidos que não possuem uma variação genética (por exemplo, uma referência). Em algumas formas de realização, um resultado é fornecido por comparação de um perfil de densidade de leitura a partir de um indivíduo de teste para um perfil de densidade de leitura a partir de uma referência de um cromossomo, porções ou segmentos dos mesmos, em que um perfil de densidade de leitura de referência é obtido a partir de um conjunto de indivíduos de referência conhecidos que possuem uma variação genética específica (por exemplo, uma aneuploidia cromossômica, uma trissomia).
[00169] Em certas formas de realização, um perfil de densidade de leitura de um indivíduo de teste é comparado com um valor representativo predeterminado da ausência de uma variação genética, e, por vezes, se desvia de um valor predeterminado em uma ou mais localizações genômicas (por exemplo, porções) correspondentes a um local genômico em que uma variação genética está localizada. Por exemplo, em indivíduos de teste (por exemplo, indivíduos em risco de, ou sofrendo de uma condição médica associada com uma variação genética) são esperados perfis de densidade de leitura que diferem significativamente dos perfis de densidade de leitura de uma referência (por exemplo, uma sequência de referência, indivíduo de referência, conjunto de referência) para partes selecionadas ao indivíduo de teste compreendendo uma variação genética em questão. Os perfis de densidade de leitura de um indivíduo de teste são, muitas vezes, substancialmente, o mesmo que perfis de densidade de leitura de uma referência (por exemplo, uma sequência de referência, indivíduo de referência, conjunto de referência) para partes selecionadas, quando um indivíduo de teste não compõe uma variação genética em questão. Perfis de densidade de leitura são, frequentemente, comparados com um limite predeterminado e/ou intervalo de limite (por exemplo, ver a Figura 8). O termo "limite", tal como aqui utilizado, refere-se a qualquer número que é calculado utilizando um conjunto de dados de qualificação e serve como um limite de diagnóstico de uma variação genética (por exemplo, uma variação de número de cópias, uma aneuploidia, uma aberração cromossômica, e semelhantes). Em certas formas de realização, um limite for excedido por resultados obtidos por métodos aqui descritos e um indivíduo é diagnosticado como tendo uma variação genética (por exemplo, uma trissomia). Em algumas formas de realização, um valor limite ou intervalo de valores é calculado, muitas vezes, por manipular matematicamente e/ou estatisticamente dados de leitura de sequência (por exemplo, a partir de uma referência e/ou indivíduo). Um limite ou intervalo limite predeterminado de valores indicativos da presença ou ausência de uma variação genética pode variar embora ainda forneça um resultado útil para determinar a presença ou ausência de uma variação genética. Em certas formas de realização, um perfil de densidade de leitura compreendendo densidades de leitura normalizados e/ou contagens normalizadas é gerado para facilitar a classificação e/ou fornecer um resultado. Um resultado pode ser fornecido com base em uma representação gráfica de um perfil de densidade de leitura compreendendo contagens normalizadas (por exemplo, utilizando uma representação gráfica de um tal perfil de densidade de leitura).
[00170] Em algumas formas de realização, um sistema compreende um módulo de pontuação 46. Um módulo de pontuação pode aceitar, recuperar e/ou armazenar perfis de densidade de leitura (por exemplo, perfis de densidade de leitura ajustados, normalizados) a partir de outro módulo apropriado (por exemplo, um módulo de geração de perfil 26, um módulo de estatísticas de APC 33, um módulo de pesagem de porção 42 e semelhantes). Um módulo de pontuação pode aceitar, recuperar, armazenar e/ou comparar dois ou mais perfis de densidade de leitura (por exemplo, perfis de testes, perfis de referência, conjuntos de formação, indivíduos de teste). Um módulo de pontuação, muitas vezes, pode fornecer uma pontuação (por exemplo, um gráfico, estatísticas de perfil, uma comparação (por exemplo, uma diferença entre dois ou mais perfis), uma pontuação Z, uma medida da incerteza, uma zona de chamada, uma chamada de amostra 50 (por exemplo, a determinação da presença ou ausência de uma variação genética) e/ou um resultado). Um módulo de pontuação pode fornecer um marcador para um usuário final e/ou para outro módulo apropriado (por exemplo, um monitor, impressora, e semelhantes). Em algumas formas de realização, um módulo de pontuação compreende alguma, a totalidade ou uma modificação do código de R mostrado abaixo, que compreende uma função de R para calcular estatísticas qui-quadrado para um teste específico (por exemplo, contagens de chr21 alta).
[00171] Os três parâmetros são: x = dados de leitura de amostra (amostra da porção x) m = valores medianos para porções y = vetor de teste (Ex. False para todas as partes, exceto True para chr21) getChisqP <- function(x,m,y) { ahigh <- apply(x [!y,],2,function(x)sum((x>m [!y]))) alow <- sum((!y))-ahigh bhigh <- apply(x [y,],2,function(x)sum((x>m [y]))) soprar <- sum(y)-bhigh p <- sapply(1:length(ahigh),function(i){ p <- chisq.test(matrix(c(ahigh [i],alow [i],bhigh [i],blow [i]),2))$p.value/2 if(ahigh [i]/alow [i] > bhigh [i]/blow [i])p <- max(p,1-p) else p <- min(p,1-p);p}) return(p)
Condições Experimentais
[00172] Em certas formas de realização, um processo de normalização de componente principal pode ajustar para desvios associados com as condições experimentais. O processamento de dados, tendo em conta as condições experimentais, é descrito, por exemplo, na Publicação de Pedido de Patente Internacional No WO2013/109981, todo o conteúdo da qual é aqui incorporada por referência, incluindo todos os textos, tabelas, equações e desenhos.
[00173] Em certos casos, as amostras podem ser afetadas por condições experimentais comuns. As amostras processadas, substancialmente, ao mesmo tempo ou utilizando, substancialmente, as mesmas condições e/ou reagentes, por vezes, apresentam condições experimentais semelhantes (por exemplo, condição experimental comum) variabilidade induzida de dados (por exemplo, tendências) quando comparado com outras amostras processadas em um tempo diferente e/ou ao mesmo tempo utilizando diferentes condições e/ou reagentes. Há, muitas vezes, considerações de ordem prática que limitam o número de amostras que podem ser preparadas, tratadas e/ou analisadas em um dado momento durante o procedimento experimental. Em certas formas de realização, o intervalo de tempo para o processamento de uma amostra a partir de matéria-prima para a geração de um resultado, por vezes, é dias, semanas ou mesmo meses. Devido ao tempo entre o isolamento e análise final, experimentos de alto rendimento que analisam um grande número de amostras, por vezes, geram efeitos de lote ou variabilidade dos dados induzida pela condição experimental. A variabilidade dos dados induzida pela condição experimental, muitas vezes, inclui qualquer variabilidade dos dados que é um resultado do isolamento, armazenamento, preparação e/ou análise da amostra. Exemplos não limitativos de variabilidade dos dados induzida por condição incluem variabilidade com base no fluxo de células e/ou variabilidade baseada em placa que inclui: a representação sobre ou sob as sequências; dados ruidosos; pontos de dados espúrios ou fora da linha, efeitos de reagentes, efeitos de pessoal, efeitos de condições de laboratório e semelhantes. Variabilidade induzida por condições experimentais, por vezes, ocorre em subpopulações de amostras em um conjunto de dados (por exemplo, efeito de lote). Um lote é, frequentemente, amostras processadas utilizando, substancialmente, os mesmos reagentes, amostras processadas na mesma placa de preparação amostra (por exemplo, placa de micropoços utilizada para a preparação da amostra; isolamento de ácido nucleico, por exemplo), as amostras preparadas para análise na mesma placa de teste (por exemplo, microplaca utilizada para organizar amostras antes do carregamento para uma célula de fluxo), amostras processadas, substancialmente, ao mesmo tempo, amostras processadas pelo mesmo pessoal, e/ou amostras processadas em, substancialmente, as mesmas condições experimentais (por exemplo, temperatura, níveis de CO2, níveis de ozônio, semelhantes ou suas combinações). Efeitos de lote de condição experimental, por vezes, afetam amostras analisadas na mesma célula de fluxo, preparados na mesma placa de micropoços ou placa de reagente e/ou preparada para análise (por exemplo, preparando uma biblioteca de ácido nucleico para sequenciamento) na mesma placa de micropoços ou reagente de placa. Fontes adicionais de variabilidade podem incluir a qualidade do ácido nucleico isolado, a quantidade de ácido nucleico isolado, o tempo de armazenamento após isolamento do ácido nucleico, o tempo de armazenamento, temperatura de armazenamento, semelhantes e suas combinações. Variabilidade de pontos de dados em um lote (por exemplo, subpopulação de amostras em um conjunto de dados que são processados no mesmo tempo e/ou utilizando os mesmos reagentes e/ou condições experimentais), por vezes, é maior do que a variabilidade de pontos de dados observados entre os lotes. Esta variabilidade dos dados, por vezes, inclui dados espúrios ou fora da linha cuja magnitude pode afetar a interpretação de alguns ou todos os outros dados em um conjunto de dados. Uma porção, ou a totalidade, de um conjunto de dados pode ser ajustada para as condições experimentais utilizando os passos de processamento de dados aqui descritos e conhecidos na técnica; normalização para o desvio absoluto médio calculado para todas as amostras analisadas em uma célula de fluxo, ou processado em uma microplaca, por exemplo. O processamento de dados, tendo em conta as condições experimentais é descrito, por exemplo, na Publicação de Pedido de Patente Internacional No WO2013/109981, todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
Detecção de Aneuploidia Utilizando Comparações
[00174] Em algumas formas de realização, um processo de normalização de componente principal é utilizado em conjunto com um método para determinar a presença ou ausência de uma aneuploidia de acordo com a comparação. A detecção de aneuploidia utilizando comparações é descrito, por exemplo, na Publicação de Pedido de Patente Internacional No WO 2014/116598, todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
[00175] Nesta seção, a comparação dos índices ou proporções ou valores da proporção, a avaliação da ploidia e valor de avaliação da ploidia, coletivamente, são referidos como uma "comparação". Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica em um indivíduo é determinada de acordo com uma ou mais comparações. Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica em um indivíduo é determinada de acordo com uma ou mais comparações de três autossomas selecionados (por exemplo, onde um ou mais dos três autossomas selecionados é um cromossomo de teste). Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com uma ou mais comparações geradas por um conjunto de cromossomos distintos, uma região euploide, uma região aneuploide ou uma região euploide e uma região aneuploide. Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica (por exemplo, uma aneuploidia cromossômica em um feto) é determinada de acordo com uma comparação obtida de um indivíduo e uma região euploide e/ou uma região aneuploide (por exemplo, uma região euploide e uma região aneuploide determinada por um conjunto de referência). Em certas formas de realização, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com uma relação entre uma comparação obtida de um indivíduo e uma região euploide e/ou uma região aneuploide. Por exemplo, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com se uma comparação de uma região euploide ou região aneuploide, ou quão longe um valor de avaliação de ploidia é a partir de uma região euploide ou região aneuploide, em algumas formas de realização. Em algumas formas de realização, uma relação é uma proximidade ou uma distância (por exemplo, uma diferença matemática e/ou uma distância gráfica, por exemplo, uma distância entre um ponto e uma região). Uma relação pode ser determinada por um método adequado conhecido na técnica ou aqui descrito, exemplos não limitativos dos quais incluem a distribuição de probabilidade, função densidade de probabilidade, função de distribuição cumulativa, função de probabilidade, comparação de modelo Bayesiano, fator de Bayes, critério de informação de desvio, qui testes quadrados, distância euclidiana, análise espacial, distância de Mahalanobis, distância de Manhattan, distância de Chebyshev, distância de Minkowski, divergência de Bregman, distância de Bhattacharyya, Hellinger distância, espaço métrico, distância de Canberra, casco convexo (regra de contorno, por exemplo, par-ímpar), semelhantes ou combinações dos mesmos.
[00176] Em algumas formas de realização, a ausência de uma aneuploidia cromossômica é determinada de acordo com uma comparação e uma região euploide. Em algumas formas de realização, a ausência de uma aneuploidia cromossômica é determinada de acordo com uma relação entre uma comparação e uma região euploide. Em algumas formas de realização, uma comparação que cai dentro de, ou perto de uma região euploide é uma determinação de um cromossomo euploide (por exemplo, uma ausência de uma aneuploidia cromossômica). Em algumas formas de realização, uma comparação que está em, ou perto de, uma região euploide indica que cada cromossomo, a partir da qual foi determinada a comparação, é euploide. Por exemplo, por vezes, uma comparação gerada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC cai dentro de uma região euploide (por exemplo, uma região euploide determinada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC) e uma ausência de uma aneuploidia cromossômica é determinada. Em algumas formas de realização, da ausência de uma aneuploidia cromossômica, tal como determinado de acordo com uma comparação, indica que cada cromossomo (por exemplo, cada cromossomo a partir do qual o valor de avaliação de ploidia foi derivado) é euploide (por exemplo, euploide em uma mãe e/ou feto).
[00177] Em algumas formas de realização, uma comparação que cai fora de uma região aneuploide é uma determinação de um ou mais cromossomos euploides. Em algumas formas de realização, uma comparação que está fora de uma região euploide indica que um ou mais cromossomos, a partir dos quais foi determinada a comparação, são euploide. Por exemplo, por vezes, uma comparação gerada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC cai fora de uma região euploide (por exemplo, uma região euploide determinada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC) e uma ausência de uma aneuploidia cromossômica é determinada. Em algumas formas de realização, uma comparação que está fora de uma região euploide indica que dois dos três cromossomos utilizados para a comparação ou avaliação, e a partir dos quais a comparação foi determinada, são euploides.
[00178] Em algumas formas de realização uma comparação cai dentro de uma região aneuploide e um ou mais cromossomos, a partir dos quais foi determinada a comparação, são euploide. Por exemplo, às vezes uma comparação gerada de acordo com contagens mapeadas para ChrA, ChrB e ChrC cai dentro de uma região aneuploide (por exemplo, uma região aneuploide determinada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC) e uma ausência de uma aneuploidia cromossômica é determinado para dois dos três cromossomos.
[00179] Em algumas formas de realização, a presença de uma aneuploidia cromossômica é determinada de acordo com uma comparação e uma região euploide. Em certas formas de realização, a presença de uma aneuploidia cromossômica é determinada de acordo com uma relação entre uma comparação e uma região euploide. Em algumas formas de realização, uma comparação que cai fora da região euploide é uma determinação de uma aneuploidia cromossômica (por exemplo, a presença de uma aneuploidia cromossômica). Em algumas formas de realização, uma comparação que cai fora da região euploide indica que um ou mais cromossomos, a partir dos quais foi determinada a comparação, são aneuploides. Por exemplo, por vezes, uma comparação gerada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC cai fora de uma região euploide (por exemplo, uma região euploide determinada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC) e a presença de uma aneuploidia cromossômica é determinada.
[00180] Em algumas formas de realização, uma comparação que cai dentro de, ou perto de uma região é uma aneuploidia determinação de uma aneuploidia cromossômica (por exemplo, uma presença de uma aneuploidia cromossômica). Em algumas formas de realização, uma comparação que está em, ou perto de, uma região aneuploide indica que um ou mais cromossomos, a partir dos quais foi determinado o valor de avaliação de ploidia, são aneuploides. Em algumas formas de realização, uma comparação que está em, ou perto de, uma região aneuploide indica que 1, 2, 3, 4, e/ou 5 cromossomos, a partir dos quais foi determinada a comparação, são aneuploides. Em algumas formas de realização, uma comparação que está em, ou perto de, uma região aneuploide indica que um dos três cromossomos, a partir dos quais foi determinada a comparação, são aneuploides. Por exemplo, às vezes uma comparação gerada de acordo com contagens mapeadas para ChrA, ChrB e ChrC cai dentro de uma região aneuploide (por exemplo, uma região aneuploide determinada de acordo com as contagens mapeadas para ChrA, ChrB e ChrC) e um dos cromossomos é um cromossomo aneuploidia.
[00181] Em algumas formas de realização, uma comparação que cai perto de uma região aneuploide é uma determinação de uma aneuploidia cromossômica (por exemplo, uma presença de uma aneuploidia cromossômica). Em algumas formas de realização, uma comparação que está perto de uma região aneuploide indica que um ou mais cromossomos, a partir dos quais foi determinada a comparação, são aneuploides. Em algumas formas de realização, um lote de referência compreende uma região euploide definidos e três regiões aneuploides definidos (por exemplo, aneuploides para Chr13, Chr18 ou Chr21) e uma determinação da presença de uma aneuploidia é feita de acordo com uma comparação que cai mais próximo de uma das regiões aneuploides. Por exemplo, uma comparação que está mais perto de uma região para aneuploidia Chr21 do que a outra região (por exemplo, uma região de aneuploidia Chr13 ou Chr18, ou uma região euploide) pode indicar a presença de uma aneuploidia para Chr21.
[00182] Em algumas formas de realização uma comparação gerada de acordo com as contagens mapeadas para Chr13, Chr18 e Chr21 cai dentro de uma região aneuploide (por exemplo, uma região aneuploide determinada de acordo com as contagens mapeadas para Chr13, Chr18 e Chr21) e um dos cromossomos é um cromossomo aneuploide. Em algumas formas de realização, uma comparação gerada de acordo com contagens mapeadas para Chr13, Chr18 e Chr21 cai dentro de uma região aneuploide (por exemplo, uma região aneuploide determinada de acordo com as contagens mapeadas para Chr13, Chr18 e Chr21), Chr18 e Chr21 estão determinados a ser euploides e Chr13 está determinado a ser aneuploide. Em algumas formas de realização, uma comparação gerada de acordo com contagens mapeadas para Chr13, Chr18 e Chr21 cai dentro de uma região aneuploide (por exemplo, uma região aneuploide determinada de acordo com as contagens mapeadas para Chr13, Chr18 e Chr21), Chr13 e Chr21 estão determinados a ser euploides e Chr18 está determinado a ser aneuploide. Em algumas formas de realização, uma comparação gerada de acordo com contagens mapeadas para Chr13, Chr18 e Chr21 cai dentro de uma região aneuploide (por exemplo, uma região aneuploide determinada de acordo com as contagens mapeadas para Chr13, Chr18 e Chr21), Chr18 e Chr13 estão determinados a ser euploides e Chr21 está determinado a ser aneuploide.
[00183] Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com um primeiro e uma segunda comparação de comparação, onde ambas as comparações são geradas a partir das leituras de sequência mapeadas para o mesmo conjunto de dois ou mais cromossomos. Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica em um indivíduo é determinada de acordo com uma relação (por exemplo, uma distância) entre uma primeira comparação gerada por um indivíduo e uma segunda comparação gerada por um segundo indivíduo. Em algumas formas de realização, uma segunda comparação é um conjunto de comparações (por exemplo, uma região) gerado por um ou mais indivíduos. Em algumas formas de realização, da presença ou ausência de uma aneuploidia cromossômica em um indivíduo é determinada de acordo com uma relação (por exemplo, uma distância) entre uma primeira comparação gerada para um indivíduo e um conjunto de referência de comparações gerado para um ou mais indivíduos. Em algumas formas de realização, uma primeira comparação é uma comparação para um indivíduo e uma segunda comparação é uma comparação ou um conjunto de comparações que representam um ou mais fetos euploides. Em algumas formas de realização, uma segunda comparação é um valor ou um conjunto de valores (por exemplo, uma região) previstos para um feto euploide. Em algumas formas de realização, uma segunda comparação é um valor ou um conjunto de valores gerados para um indivíduo (por exemplo, um indivíduo fêmea grávida) onde um feto é conhecido por ser euploide para um ou mais dos cromossomos a partir dos quais a comparação foi gerada. Em algumas formas de realização, a distância é determinada de acordo com um valor de incerteza (por exemplo, um desvio padrão ou MAD). Em algumas formas de realização, a distância entre uma primeira e uma segunda comparação (por exemplo, uma segunda comparação representativa de um ou mais indivíduos euploides) é 1, 2, 3, 4, 5, 6 ou mais vezes uma incerteza associada e a primeira comparação é determinada para ser aneuploide. Em algumas formas de realização, a distância entre uma primeira e uma segunda comparação (por exemplo, uma segunda comparação representativa de um ou mais indivíduos euploides) é 3 ou mais vezes uma incerteza associada e a primeira comparação é determinada para representar um cromossomo aneuploide.
[00184] Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com uma comparação gerada de acordo com as contagens mapeadas para um ou mais cromossomos específicos e uma região euploide, uma região aneuploide, ou uma região euploide e uma região aneuploide. Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com uma comparação gerada de acordo com as leituras de sequência mapeadas para um ou mais cromossomos específicos e leituras de sequência mapeada para outros cromossomos não são necessários para a determinação. Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com uma comparação gerada de acordo com as leituras de sequência mapeadas para 2, 3, 4, 5 ou 6 cromossomos distintos e contagens mapeadas para outros cromossomos não são obtidas ou necessárias para a determinação. Em algumas formas de realização, a presença ou ausência de uma aneuploidia cromossômica é determinada de acordo com uma comparação gerada de acordo com três cromossomos distintas ou segmentos dos mesmos e a determinação não se baseia em um cromossomo diferente de um dos três cromossomos diferentes. Por exemplo, onde ChrA, ChrB e ChrC representam três cromossomos distintos ou segmentos do mesmo, a presença ou ausência de uma aneuploidia cromossômica é, por vezes, determinada de acordo com uma comparação gerada de acordo com ChrA, ChrB e ChrC e a determinação não se baseia em um outro cromossomo diferente de ChrA, ChrB ou ChrC. Em algumas formas de realização, ChrA, ChrB e ChrC representam Chr13, Chr21 e Chr18 respectivamente.
Cariótipo de Cromossomos Sexuais
[00185] Em algumas formas de realização, um processo de normalização de componente principal é utilizado em conjunto com um método para determinar um cariótipo de cromossomo sexual. Os métodos para determinar o cariótipo de cromossomo sexual são descritos, por exemplo, na Publicação de Pedido de Patente Internacional No WO 2013/192562, todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
[00186] Em algumas formas de realização, as contagens de leitura de sequência que mapeiam para um ou mais cromossomos sexuais (por exemplo, cromossomo X, cromossomo Y) são normalizadas. Em algumas formas de realização, a normalização compreende um componente principal de normalização. Em algumas formas de realização, a normalização envolve a determinação de um desvio experimental para porções de um genoma de referência. Em algumas formas de realização, a tendência experimental pode ser determinada por várias amostras de uma primeira relação ajustada (por exemplo, relação linear equipado, equipado relação não linear) para cada amostra entre as contagens de leituras de sequência mapeadas para cada uma das porções de um genoma de referência e um o recurso de mapeamento (por exemplo, teor de GC) para cada uma das porções. A inclinação de uma relação ajustada (por exemplo, relação linear), geralmente, é determinada por regressão linear. Em algumas formas de realização, cada tendência experimental é representada por um coeficiente de tendência experimental. O coeficiente de tendência experimental é a inclinação de uma relação linear entre, por exemplo, (i) as contagens de leituras de sequência mapeadas para cada uma das porções de um genoma de referência, e (ii) uma característica de mapeamento para cada uma das porções. Em algumas formas de realização, a tendência experimental pode compreender uma estimativa da curvatura de tendência experimental.
[00187] Em algumas formas de realização, um método compreende ainda calcular um nível de seção genômica (por exemplo, uma elevação, um nível) para cada uma das porções genômicas a partir de uma segunda relação ajustada (por exemplo, relação linear ajustada, relação não-linear ajustada) entre a tendência experimental e as contagens de leituras de sequência mapeadas para cada uma das porções e a inclinação da relação pode ser determinada por regressão linear. Por exemplo, se a primeira relação ajustada é linear e a segunda relação é linear ajustada, o nível de seção genômica Li; pode ser determinado para cada uma das porções do genoma de referência de acordo com a Equação A:
Figure img0001
onde Gi é a tendência experimental, I é a interseção da segunda relação ajustada, S é a inclinação da segunda relação, mi são as contagens medidas mapeadas para cada porção do genoma de referência e i é uma amostra.
[00188] Em algumas formas de realização, um processo de normalização secundário é aplicado a um ou mais níveis de seção genômica calculados. Em algumas formas de realização, a normalização secundária compreende normalização de GC e, por vezes, compreende a utilização da metodologia PERUN. Em algumas formas de realização, a normalização secundária compreende um componente principal de normalização.
Determinação de Ploidia Fetal
[00189] Em algumas formas de realização, um processo de normalização de componente principal é utilizado em conjunto com um método para a determinação de ploidia fetal. Os métodos para a determinação de ploidia fetal são descritos, por exemplo, na Publicação de Pedido de Patente dos EUA No US 2013/0288244, todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
[00190] Um ploidia fetal pode ser determinado, em parte, a partir de uma medida de fração fetal e a determinação de ploidia fetal é utilizada para fazer uma determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia cromossômica, uma trissomia). Um ploidia fetal pode ser determinada, em parte, a partir de uma medida de fração fetal determinada por qualquer método adequado de determinação de fração fetal incluindo os métodos aqui descritos. Em algumas formas de realização, o método requer uma contagem de referência calculada Fi, (por vezes representados como fi) determinada por uma porção (ou seja, uma caixa, i) de um genoma para várias amostras onde a ploidia fetal para a porção i do genoma é conhecida por ser euploide. Em algumas formas de realização, um valor de incerteza (por exemplo, um desvio padrão, o) é determinado para a contagem de referência fi. Em algumas formas de realização, uma contagem de referência fi, um valor de incerteza, uma contagem de amostra de teste e/ou uma fração fetal medida (F) são utilizados para determinar a ploidia fetal. Em algumas formas de realização, uma contagem de referência (por exemplo, uma contagem de referência média, de valor médio ou mediana) é normalizada por uma normalização de componente principal e/ou outra normalização, tal como, por exemplo, a normalização bin-wise, a normalização pelo teor de GC, regressão de quadrados mínimos linear e não-linear, LOESS, GC LOESS, LOWESS, PERUN, RM, GCRM e/ou suas combinações. Em algumas formas de realização, uma contagem de referência de um segmento de um genoma conhecido por ser euploide é igual a 1 quando a contagem de referência é normalizada por normalização de componente principal. Em algumas formas de realização, tanto a contagem de referência (por exemplo, para um feto conhecido por ser euploide) e as contagens de uma amostra de teste para uma parte ou segmento de um genoma são normalizados por normalização de componente principal e a contagem de referência é igual a 1. Em algumas formas de realização, uma contagem de referência de um segmento de um genoma conhecido por ser euploide é igual a 1 quando a contagem de referência é normalizada por PERUN. Em algumas formas de realização, ambas as contagens de referência (por exemplo, para um feto conhecido por ser euploide) e as contagens de uma amostra de teste para uma parte ou segmento de um genoma são normalizadas por PERUN e a contagem de referência é igual a 1. De igual modo, em algumas formas de realização, uma contagem de referência de uma porção ou segmento de um genoma conhecido por ser euploide é igual a 1 quando as contagens são normalizadas por (isto é, dividido por) uma mediana da contagem de referência. Por exemplo, em algumas formas de realização ambas contagens de referência (por exemplo, para um feto conhecido por ser euploide) e as contagens de uma amostra de teste para uma parte ou segmento de um genoma são normalizados por uma contagem de referência média, a contagem de referência normalizada é igual para 1 e a contagem de amostra de teste é normalizada (por exemplo, dividida por) a contagem de referência mediana. Em algumas formas de realização, ambas contagens de referência (por exemplo, para um feto conhecido por ser euploide) e as contagens de uma amostra de teste para uma parte ou segmento de um genoma são normalizadas por normalização de componente principal, GCRM, GC, RM ou um método adequado. Em algumas formas de realização, uma contagem de referência é uma contagem de referência média, de valor médio ou mediana. Uma contagem de referência é, muitas vezes, uma contagem normalizada para um bin (por exemplo, um nível de seção genômica normalizada). Em algumas formas de realização, uma contagem de referência e as contagens para uma amostra de teste são as contagens em bruto. Uma contagem de referência, em algumas formas de realização, é determinada a partir de uma média, valor médio ou mediana do perfil de contagem. Em algumas formas de realização, uma contagem de referência é um nível de seção genômica calculado. Em algumas formas de realização, uma contagem de referência de uma amostra de referência e uma contagem de uma amostra de teste (por exemplo, uma amostra de paciente, por exemplo, yi) estão normalizadas pelo mesmo método ou processo.
Processamento e Normalização de Dados Adicionais
[00191] As leituras de sequência mapeadas que foram contadas são aqui referidas como dados não processados, uma vez que os dados representam as contagens não manipuladas (por exemplo, contagens brutas). Em algumas formas de realização, dados de leitura de sequência em um conjunto de dados podem ser processados ainda mais (por exemplo, manipulados matematicamente e/ou estatisticamente) e/ou apresentados para facilitar o fornecimento de um resultado. Em certas formas de realização, os conjuntos de dados, incluindo os conjuntos de dados maiores, podem beneficiar de pré-processamento para facilitar ainda mais a análise. Pré-processamento dos conjuntos de dados, por vezes, envolve a remoção de porções ou porções de um genoma de referência redundantes e/ou não informativos (por exemplo, porções de um genoma de referência com os dados não informativos, leituras mapeadas redundantes, porções com zero contagens medianas, sobre representada ou sob sequências representadas). Sem se ser limitado pela teoria, processamento de dados e/ou pré-processamento pode (i) remover os dados ruidosos, (ii) remover os dados não informativos, (iii) remover dados redundantes, (iv) reduzir a complexidade dos conjuntos de dados maiores, e/ou (v) facilitar a transformação dos dados de uma forma para uma ou mais outras formas. Os termos "pré-tratamento" e "tratamento", quando utilizados com respeito aos dados ou conjuntos de dados são coletivamente referidos aqui como "transformação". Processamento pode processar dados mais passíveis de uma análise mais aprofundada, e pode gerar um resultado em algumas formas de realização. Em algumas formas de realização, um ou mais ou todos os métodos de processamento (por exemplo, métodos de normalização, a porção de filtração, mapeamento, validação, semelhantes ou combinações dos mesmos) são executadas por um processador, um microprocessador, um computador, em conjunto com a memória e/ou por um aparelho de microprocessador controlado.
[00192] O termo "dados ruidosos", tal como aqui utilizado, refere-se a (a) dados que têm uma variação significativa entre os pontos de dados quando analisado ou plotados, (b) dados que têm um desvio padrão significativo (por exemplo, maior do que 3 desvios padrão), (c) dados que têm um erro padrão da média significativa, semelhantes, e combinações dos anteriores. Os dados ruidosos, por vezes, ocorrem devido à quantidade e/ou qualidade do material de partida (por exemplo, amostra de ácido nucleico), e, por vezes, ocorre como parte dos processos para preparação ou replicação de DNA utilizado para gerar leitura de sequência. Em certas formas de realização, os ruídos resultam de certas sequências sobre representadas quando preparadas utilizando métodos baseados em PCR. Os métodos aqui descritos podem reduzir ou eliminar a contribuição de dados ruidosos, e, por conseguinte, reduzir o efeito de dados ruidosos sobre o resultado fornecido.
[00193] Os termos "dados não informativo", "porções não informativas de um genoma de referência", e "porções não informativas", tal como aqui utilizados referem-se a partes, ou dados derivados dos mesmos, tendo um valor numérico que é, significativamente, diferente de um valor de limite predeterminado, ou cai fora de um intervalo de corte pré-determinado de valores. Os termos "limite" e "valor limite" referem-se aqui a qualquer número que é calculado utilizando um conjunto de dados de qualificação e serve como um limite de diagnóstico de uma variação genética (por exemplo, uma variação do número de cópias, uma aneuploidia, uma microduplicação, uma microdeleção, uma aberração cromossômica, e semelhantes). Em certas formas de realização, um limite for excedido por resultados obtidos por métodos aqui descritos e um indivíduo é diagnosticada com uma variação genética (por exemplo, trissomia 21). Um valor limite ou intervalo de valores é, muitas vezes, calculado por manipulação matematicamente e/ou estatisticamente de dados de leitura de sequência (por exemplo, a partir de uma referência e/ou indivíduo), em algumas formas de realização, e em certas formas de realização, os dados de leitura de sequência manipulados para gerar um valor de limite ou intervalo de valores são dados de leitura de sequência (por exemplo, a partir de uma referência e/ou indivíduo). Em algumas formas de realização, um valor de incerteza é determinado. Um valor incerteza é, geralmente, uma medida da variância ou erro e pode ser qualquer medida adequada de variância ou de erro. Em algumas formas de realização, um valor de incerteza é um desvio padrão, erro padrão, variância calculada, valor-p, ou desvio médio absoluto (MAD). Em algumas formas de realização, um valor de incerteza pode ser calculado de acordo com uma fórmula descrita aqui.
[00194] Qualquer processo adequado pode ser utilizado para os conjuntos de dados de processamento aqui descritos. Os exemplos de procedimentos adequados para uso não-limitante para o processamento de conjuntos de dados incluem filtração, normalização, ponderação, monitoramento de alturas de pico, monitoramento de áreas de pico, acompanhamento de bordas de pico, determinação das proporções de áreas, processamento matemático dos dados, tratamento estatístico dos dados, aplicação de algoritmos estatísticos, análise com variáveis fixas, análise com variáveis otimizadas, plotagem de dados para identificar padrões ou tendências para processamento adicional, semelhantes e combinações dos anteriores. Em algumas formas de realização, os conjuntos de dados são processados com base em diversas características (por exemplo, teor de GC, leituras mapeadas redundantes, regiões de centrômero, regiões de telômeros, semelhantes e combinações destes) e/ou variáveis (por exemplo, sexo fetal, idade materna, ploidia materna, contribuição percentual de ácido nucleico fetal, semelhantes ou combinações dos mesmos). Em certas formas de realização, os conjuntos de dados de processamento, como aqui descritos, podem reduzir a complexidade e/ou dimensionalidade de grandes e/ou complexos conjuntos de dados. Um exemplo não limitativo de um conjunto de dados complexo inclui leitura de sequência os dados gerados a partir de um ou mais indivíduos de teste e uma pluralidade de temas de referência de diferentes idades e origens étnicas. Em algumas formas de realização, os conjuntos de dados podem incluir a partir de milhares a milhões de leitura de sequência para cada teste e/ou objeto de referência.
[00195] O processamento de dados pode ser realizado em qualquer número de etapas, em certas formas de realização. Por exemplo, os dados podem ser processados utilizando apenas um procedimento de um único tratamento em algumas formas de realização, e em certas formas de realização os dados podem ser processados utilizando 1 ou mais, 5 ou mais, 10 ou mais, ou 20 ou mais passos de processamento (por exemplo, 1 ou mais etapas de processamento, 2 ou mais etapas de processamento, 3 ou mais etapas de processamento, 4 ou mais etapas de processamento, 5 ou mais etapas de processamento, 6 ou mais etapas de processamento, 7 ou mais etapas de processamento, 8 ou mais etapas de processamento, 9 ou mais etapas de processamento, 10 ou mais passos de processamento, 11 um ou mais passos de processamento, 12 ou mais passos de processamento, 13 ou mais passos de processamento, 14 ou mais passos de processamento, 15 ou mais passos de processamento, 16 ou mais passos de processamento, 17 ou mais passos de processamento, 18 ou mais etapas de processamento, 19 ou mais etapas de processamento, ou 20 ou mais etapas de processamento). Em algumas formas de realização, os passos de processamento podem ser os mesmos passos repetidos duas ou mais vezes (por exemplo, filtração de duas ou mais vezes, normalização de duas ou mais vezes), e em certas formas de realização, os passos de processamento podem ser dois ou mais diferentes passos de processamento (por exemplo, filtração, normalização; normalização, monitoramento da altura e bordas dos picos; filtração, normalização, normalização de uma referência, manipulação estatística para determinar os p-valores, e outros semelhantes), realizada em simultâneo ou sequencialmente. Em algumas formas de realização, qualquer número apropriado e/ou a combinação dos mesmos ou diferentes etapas de processamento pode ser utilizada para processar dados de leitura de sequência para facilitar o fornecimento de um resultado. Em certas formas de realização, os conjuntos de processamento de dados por os critérios aqui descritos podem reduzir a complexidade e/ou dimensionalidade de um conjunto de dados.
[00196] Em algumas formas de realização, uma ou mais etapas de processamento podem compreender uma ou mais etapas de filtração. O termo "filtração", tal como aqui utilizado, refere-se à remoção de porções ou porções de um genoma de referência a partir da consideração. As porções de um genoma de referência podem ser selecionadas para a remoção de acordo com quaisquer critérios adequados, incluindo, mas não se limitando a dados redundantes (por exemplo, leituras mapeadas redundantes ou sobrepostas), dados não informativos (por exemplo, as porções de um genoma de referência com zero contagem mediana), porções de um genoma de referência com sequências sobre representadas ou sob-representadas, dados ruidosos, semelhantes, ou combinações dos anteriores. Um processo de filtração, muitas vezes, envolve a remoção de uma ou mais porções de um genoma de referência a partir de consideração e subtração das contagens em uma ou mais porções de um genoma de referência selecionadas para a remoção a partir das contagens contadas ou somadas para as porções de um genoma de referência, cromossomo ou cromossomos, ou genoma sob consideração. Em algumas formas de realização, as porções de um genoma de referência podem ser removidas sucessivamente (por exemplo, um de cada vez para permitir a avaliação do efeito de remoção de cada porção individual), e em certas formas de realização todas as porções de um genoma de referência marcado para remoção podem ser removidas ao mesmo tempo. Em algumas formas de realização, as porções de um genoma de referência caracterizado por uma variação acima ou abaixo de um determinado nível são removidas, o que, por vezes, é referido aqui como porções "ruidosas" de filtração de um genoma de referência. Em certas formas de realização, um processo de filtração compreende a obtenção de pontos de dados a partir de um conjunto de dados que se desviem do nível perfil médio de uma porção, um cromossomo, ou um segmento de um cromossomo por um múltiplo predeterminado do perfil da variância, e em certas formas de realização, um processo de filtração compreende a remoção de pontos de dados a partir de um conjunto de dados que não se desviam do nível do perfil médio de uma parte, um cromossomo ou segmento de um cromossomo por um múltiplo predeterminado do perfil de variância. Em algumas formas de realização, um processo de filtração é utilizado para reduzir o número de porções de um genoma de candidatos de referência analisado quanto à presença ou ausência de uma variação genética. A redução do número de porções de candidatos de um genoma de referência analisado quanto à presença ou ausência de uma variação genética (por exemplo, micro-supressão, micro-duplicação), muitas vezes, reduz a complexidade e/ou dimensionalidade de um conjunto de dados, e, por vezes, aumenta a velocidade de procura e/ou identificação de variações genéticas e/ou aberrações genéticas por duas ou mais ordens de grandeza.
[00197] Em algumas formas de realização uma ou mais etapas de processamento podem compreender um ou mais passos de normalização. A normalização pode ser realizada por um método adequado aqui descrito ou conhecido na técnica. Em certas formas de realização, normalização compreende ajustar os valores medidos em escalas diferentes a uma escala comum ficticiamente. Em certas formas de realização, normalização compreende um ajuste matemático sofisticado para trazer distribuições de probabilidade de valores ajustados em alinhamento. Em algumas formas de realização, a normalização compreende distribuições de alinhamento a uma distribuição normal. Em certas formas de realização, normalização compreende ajustes matemáticos que permitem a comparação dos valores normalizados correspondentes para diferentes conjuntos de dados, de uma forma que elimina os efeitos de certas influências brutas (por exemplo, erros e anomalias). Em certas formas de realização, normalização compreende dimensionamento. A normalização compreende, por vezes, a divisão de um ou mais conjuntos de dados por uma variável pré-determinada ou fórmula. A normalização compreende, por vezes, a subtração de um ou mais conjuntos de dados por uma variável pré-determinada ou fórmula. Os exemplos de métodos de normalização incluem a normalização em porções, a normalização de teor de GC, normalização de contagem média (contagem bin mediana, contagem de porção média), regressão de mínimos quadrados linear e não-linear, LOESS, GC LOESS, LOWESS (suavização de dispersão ponderada localmente), PERUN, ChAI, normalização de componente principal, mascaramento de repetição (RM), normalização de GC e mascaramento de repetição (GCRM), cQn e/ou as suas combinações. Em algumas formas de realização, a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, um microduplicação, um microdeleção) utiliza um método de normalização (por exemplo, a normalização em porções, a normalização pelo teor de GC, contagem média (contagem bin mediana, contagem de porção média) normalização, regressão de mínimos quadrados linear e não-linear, LOESS, GC LOESS, LOWESS (ponderada localmente suavização de dispersão), PERUN, ChAI, normalização de componente principal, mascaramento de repetição (RM), normalização de GC e mascaramento de repetição (GCRM), cQn, um método de normalização conhecido na técnica e/ou uma combinação dos mesmos). Em algumas formas de realização, a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, um microduplicação, um microdeleção) utiliza um ou mais de normalização LOESS, contagem média (contagem bin média, contagem de porção média), e normalização de componente principal. Em algumas formas de realização, a determinação da presença ou ausência de uma variação genética utiliza LOESS seguido por normalização de contagem média (contagem bin mediana, contagem de porção média). Em algumas formas de realização, a determinação da presença ou ausência de uma variação genética utiliza LOESS seguido por normalização de contagem média (contagem bin mediana, contagem de porção média) seguido por normalização de componente principal.
[00198] Qualquer número adequado de normalizações pode ser utilizado. Em algumas formas de realização, os conjuntos de dados podem ser normalizados 1 ou mais, 5 ou mais, 10 ou mais ou mesmo 20 ou mais vezes. Os conjuntos de dados podem ser normalizados para os valores (por exemplo, valor normalizando) representativos de qualquer característica ou variável adequada (por exemplo, dados de exemplo, dados de referência, ou ambos). Os exemplos não limitativos de tipos de normalizações de dados que podem ser utilizados incluem dados de contagem em bruto normalização para uma ou mais partes selecionadas de teste ou de referência para o número total de contagens mapeadas para o cromossomo ou a totalidade do genoma em que a porção ou seções selecionadas são mapeados; normalização de dados de contagem em bruto para uma ou mais porções selecionadas para uma contagem de referência mediana para uma ou mais porções ou cromossomo no qual uma parte ou segmento selecionado é mapeado; normalização de dados de contagem em bruto de dados previamente normalizados ou seus derivados; e normalização dos dados previamente normalizados para um ou mais outras variáveis de normalização predeterminadas. A normalização de um conjunto de dados, por vezes, tem o efeito de isolamento de erro estatístico, dependendo da função ou propriedade selecionada como a variável de normalização predeterminado. A normalização de um conjunto de dados, por vezes, também permite a comparação de características de dados de dados com diferentes escalas, trazendo os dados a uma escala comum (por exemplo, variável de normalização pré-determinada). Em algumas formas de realização, um ou mais normalizações para um valor estatisticamente derivado pode ser utilizada para minimizar a diferença de dados e diminui a importância dos dados periféricos. Normalizar porções ou porções de um genoma de referência, com respeito a um valor de normalização é, por vezes, referido como "normalização em porções".
[00199] Em certas formas de realização, uma etapa de processamento inclui a normalização compreendendo normalizar uma janela estática, e em algumas formas de realização, uma etapa de processamento compreendendo normalização inclui a normalização de uma janela móvel ou deslizante. O termo "janela", tal como aqui utilizado, refere-se a uma ou mais porções escolhidas para análise, e, por vezes, utilizadas como uma referência para comparação (por exemplo, utilizado para normalização e/ou outra manipulação matemática ou estatística). O termo "normalizar a uma janela estática," tal como é aqui utilizado, refere- se a um processo de normalização, utilizando uma ou mais porções selecionadas para efeitos de comparação entre um indivíduo de teste e conjunto de dados de indivíduos de referência. Em algumas formas de realização, porções escolhidas são utilizadas para gerar um perfil. Uma janela estática, geralmente, inclui um conjunto predeterminado de porções que não mudam durante as manipulações e/ou análise. Os termos "normalizar a uma janela móvel" e "normalizar a uma janela deslizante" tal como aqui utilizado referem-se a normalizações realizadas para porções localizadas na região genômica (por exemplo, parte circundante genética imediatamente adjacente ou seções, e semelhantes) de uma porção de teste selecionada, em que uma ou mais porções de teste selecionadas são normalizadas para porções imediatamente em torno da porção de teste selecionada. Em certas formas de realização, as porções escolhidas são utilizadas para gerar um perfil. Um deslizamento ou movimento normalização janela inclui, muitas vezes, repetidamente mover ou correr para uma porção de teste adjacente, e normalizar a porção de teste recém-selecionado para porções imediatamente circundantes ou adjacentes à toma de teste recém-selecionado, onde as janelas adjacentes têm uma ou mais porções em comum. Em certas formas de realização, uma pluralidade de partes e/ou cromossomos de teste selecionados podem ser analisados por um processo de janela deslizante.
[00200] Em algumas formas de realização, normalizar a uma janela deslizante ou em movimento pode gerar um ou mais valores, onde cada valor representa a normalização para um conjunto diferente de porções de referência selecionados a partir de diferentes regiões de um genoma (por exemplo, de cromossomos). Em certas formas de realização, o um ou mais valores gerados são somas cumulativas (por exemplo, uma estimativa numérica do integral do perfil de contagem normalizada através da porção selecionada, de domínio (por exemplo, parte do cromossomo), ou de cromossomos). Os valores gerados pelo processo de janela deslizante ou em movimento pode ser utilizado para gerar um perfil e que permita chegar a um resultado. Em algumas formas de realização, somas cumulativas de uma ou mais porções pode ser apresentado como uma função da posição genômica. Movendo ou deslizamento análise janela, por vezes, é utilizado para analisar um genoma para a presença ou ausência de micro- deleções e/ou micro-inserções. Em certas formas de realização, a apresentação de somas cumulativas de uma ou mais porções é utilizada para identificar a presença ou ausência de regiões de variação genética (por exemplo, micro-deleções, micro-duplicações). Em algumas formas de realização, a análise de janela móvel ou deslizante é utilizada para identificar regiões genômicas contendo micro-deleções e, em certas formas de realização, a análise de janela móvel ou deslizante é utilizada para identificar regiões do genoma que contenham micro-duplicações.
[00201] Descrita em maior detalhe daqui em diante são determinados exemplos de processos de normalização que podem ser utilizados, tal como LOESS, PERUN, ChAI e métodos de normalização do componente principal, por exemplo.
[00202] Em algumas formas de realização, um passo de processamento compreende um coeficiente de ponderação. Os termos "ponderado", "ponderações" ou "função de peso" ou derivados gramaticais ou os seus equivalentes, tal como aqui utilizados, referem-se a uma manipulação matemática de uma porção ou a totalidade de um conjunto de dados, por vezes, utilizados para alterar a influência de determinadas características do conjunto de dados ou variáveis no que diz respeito a outros conjunto de dados de características ou variáveis (por exemplo, aumentar ou diminuir a importância e/ou contribuição de dados contidos em uma ou mais porções ou porções de um genoma de referência, com base na qualidade ou utilidade dos dados na porção selecionada ou porções de uma referência genoma). A função de ponderação pode ser utilizada para aumentar a influência de dados com uma parte relativamente pequena variância de medição, e/ou para diminuir a influência de dados com uma relativamente grande variância de medição, em algumas formas de realização. Por exemplo, porções de um genoma de referência com dados de sequências sub-representados ou de baixa qualidade podem ser "ponderados para baixo" para minimizar a influência de um conjunto de dados, enquanto que porções selecionadas de um genoma de referência podem ser "ponderadas para cima" para aumentar a influência em um conjunto de dados. Um exemplo não limitativo de uma função de ponderação é [1/(desvio padrão)2]. Uma etapa de ponderação, por vezes, é realizada de um modo, substancialmente, semelhante a um passo de normalização. Em algumas formas de realização, um conjunto de dados é dividido por uma variável pré-determinada (por exemplo, variável de ponderação). Uma variável pré-determinada (por exemplo, a função alvo minimizada, Phi), frequentemente, é selecionada para ponderar diferentes partes de um conjunto de dados de forma diferente (por exemplo, aumentar a influência de certos tipos de dados, enquanto diminui a influência de outros tipos de dados).
[00203] Em certas formas de realização, uma etapa de processamento pode compreender uma ou mais manipulações matemáticas e/ou estatísticas. Qualquer manipulação matemática e/ou estatística adequada, sozinha ou em combinação, pode ser utilizada para analisar e/ou manipular um conjunto de dados aqui descrito. Qualquer número adequado de manipulações matemáticas e/ou estatísticas podem ser utilizadas. Em algumas formas de realização, um conjunto de dados pode ser matematicamente e/ou estatisticamente manipulado 1 ou mais, 5 ou mais, 10 ou mais, ou 20 ou mais vezes. Exemplos não limitativos de manipulações matemáticas e estatísticas que podem ser utilizadas incluem adição, subtração, multiplicação, divisão, funções algébricas, estimadores de mínimos quadrados, ajuste de curvas, equações diferenciais, polinômios racionais, polinômios de casal, polinômios ortogonais, pontuações z, p-valores, valores de qui, valores de phi, análise dos níveis de pico, a determinação de locais de pico de ponta, cálculo das proporções de área do pico, análise de nível cromossômico mediano, cálculo do desvio médio absoluto, soma de resíduos quadrados, média, desvio padrão, erro padrão, semelhantes ou combinações dos mesmos. Uma manipulação matemática e/ou estatística pode ser realizada sobre a totalidade ou uma parte dos dados de leitura de sequência, ou produtos transformados a partir deles. Exemplos não limitativos de variáveis do conjunto de dados ou recursos que podem ser estatisticamente manipulados incluem contagens brutas, contagens filtradas, contagens normalizadas, alturas de pico, larguras de pico, áreas de pico, bordas de pico, tolerâncias laterais, p- valores, níveis medianos, níveis médios, quantidade de distribuição dentro de uma região genômica, representação relativa das espécies de ácido nucleico, semelhantes ou suas combinações.
[00204] Em algumas formas de realização, um passo de processamento pode compreender a utilização de um ou mais algoritmos estatísticos. Qualquer algoritmo estatístico adequado, sozinho ou em combinação, pode ser utilizado para analisar e/ou manipular um conjunto de dados aqui descrito. Qualquer número adequado de algoritmos estatísticos pode ser utilizado. Em algumas formas de realização, um conjunto de dados podem ser analisados utilizando um ou mais, 5 ou mais, 10 ou mais, ou 20 ou mais algoritmos estatísticos. Exemplos de algoritmos estatísticos adequados para uso com os métodos aqui descritos incluem árvores de decisão, counternulls, comparações múltiplas, teste abrangente, problema de Behrens-Fisher, bootstrapping, método de Fisher para a combinação de testes independentes de significância, hipótese nula, erro tipo I, erro II tipo, teste exato, teste Z de uma amostra, teste Z de duas amostras, t-teste de uma amostra, teste t pareado, t-teste de duas amostras reunidas tendo variâncias iguais, t-teste de duas amostras unpooled tendo variações diferentes, Z-teste de uma proporção, z-test de duas proporções reunidas, z-test unpooled de duas proporções, teste qui-quadrado de uma amostra, teste F de duas amostras para igualdade de variâncias, intervalo de confiança, intervalo de credibilidade, significância, meta-análise, regressão linear simples, regressão linear robusta, similares ou combinações dos anteriores. Exemplos de variáveis do conjunto de dados ou recursos que podem ser analisados utilizando algoritmos estatísticos incluem contagens brutas, contagens filtradas, contagens normalizadas, alturas de pico, larguras de pico, bordas de pico, tolerâncias laterais, p-valores, níveis medianos, níveis médios, distribuição de contagem dentro de uma região genômica, representação relativa das espécies de ácido nucleico, semelhantes ou as suas combinações.
[00205] Em certas formas de realização, um conjunto de dados pode ser analisado através da utilização de múltiplos (por exemplo, 2 ou mais) algoritmos estatísticos (por exemplo, regressão de mínimos quadrados, análise de componente principal, análise discriminante linear, análise discriminante quadrática, bagging, redes neurais, modelos de máquinas de suporte vetorial, floresta aleatória, modelos de árvore de classificação, K-vizinhos mais próximos, regressão logística e/ou suavização de perda) e/ou manipulações matemáticos e/ou estatísticas (por exemplo, aqui referidas como manipulações). A utilização de múltiplas manipulações pode gerar um espaço dimensional N que pode ser utilizado para proporcionar um resultado, em algumas formas de realização. Em certas formas de realização, a análise de um conjunto de dados através da utilização de várias manipulações pode reduzir a complexidade e/ou dimensionalidade do conjunto de dados. Por exemplo, a utilização de múltiplas manipulações sobre um conjunto de dados de referência pode gerar um espaço dimensional N (por exemplo, gráfico de probabilidade) que pode ser utilizado para representar a presença ou a ausência de uma variação genética, dependendo do estado genético das amostras de referência (por exemplo, positivas ou negativas para uma variação genética selecionada). Análise de amostras de teste, utilizando um conjunto, substancialmente, semelhante de manipulações pode ser utilizada para gerar um ponto dimensional N para cada uma das amostras de teste. A complexidade e/ou dimensionalidade de um conjunto de dados de teste, por vezes, indivíduo é reduzida para um valor único ou um ponto n-dimensional que pode ser prontamente comparado com o espaço n-dimensional gerado a partir dos dados de referência. Os dados de amostra de teste que se inserem no espaço n-dimensional povoado pelos dados de indivíduos de referência são indicativos de um estado genético, substancialmente, semelhante à dos indivíduos de referência. Os dados de amostra de teste que caem fora do espaço n-dimensional povoado pelos dados de indivíduos de referência são indicativos de um estado genético, substancialmente, diferente daquele dos indivíduos de referência. Em algumas formas de realização, as referências são euploide ou, de outro modo, não possuem uma variação genética ou condição médica.
[00206] Depois de conjuntos de dados foram contados, opcionalmente, filtrados e normalizados, os conjuntos de dados processados podem ser adicionalmente manipulados por um ou mais procedimentos de filtração e/ou de normalização, em algumas formas de realização. Um conjunto de dados que foi ainda manipulado por um ou mais procedimentos de filtração e/ou de normalização pode ser utilizado para gerar um perfil, em certas formas de realização. O um ou mais procedimentos de filtração e/ou de normalização, por vezes, pode reduzir o conjunto de dados complexidade e/ou dimensionalidade, em algumas formas de realização. Um resultado pode ser fornecido com base em um conjunto de dados de redução da complexidade e/ou dimensionalidade.
[00207] Em algumas formas de realização, porções podem ser filtradas de acordo com uma medida de erro (por exemplo, o desvio padrão, erro padrão, variância calculada, valor-p, erro médio absoluto (MAE), desvio absoluto médio e/ou desvio médio absoluto (MAD). Em certas formas de realização, uma medida do erro refere-se a contagem de variabilidade. Em algumas formas de realização, porções são filtradas de acordo com a contagem de variabilidade. Em certas formas de realização, Quantidade de variabilidade é uma medida de erro determinada para a contagem de mapeados para uma porção (ou seja, a porção) de um genoma de referência para múltiplas amostras (por exemplo, múltiplas amostras obtidas a partir de vários indivíduos, por exemplo, 50 ou mais, 100 ou mais, 500 ou superior a 1000 ou mais, ou mais de 5000 ou 10.000 ou mais motivos). Em algumas formas de realização, porções com uma variabilidade de contagem acima de um intervalo superior pré-determinado são filtradas (por exemplo, excluídas da consideração). Em algumas formas de realização, um intervalo superior pré- determinado, é um valor MAD igual a ou maior do que cerca de 50, cerca de 52, cerca de 54, cerca de 56, cerca de 58, cerca de 60, cerca de 62, cerca de 64, cerca de 66, cerca de 68, cerca de 70, cerca de 72, cerca de 74 ou igual ou superior a cerca de 76. Em algumas formas de realização, porções com uma variabilidade de contagem abaixo de um intervalo inferior pré-determinado são filtradas (por exemplo, excluídas da consideração). Em algumas formas de realização, um intervalo inferior pré-determinado é um valor MAD igual ou inferior a cerca de 40, cerca de 35, cerca de 30, cerca de 25, cerca de 20, cerca de 15, cerca de 10, cerca de 5, cerca de 1, ou igual ou menor de cerca de 0. Em algumas formas de realização, com porções uma variabilidade de contagem de fora de um intervalo pré- determinada são filtrados (por exemplo, excluído de consideração). Em algumas formas de realização, um intervalo pré-determinado é um valor MAD maior do que zero e menor do que cerca de 76, menos do que cerca de 74, menos do que cerca de 73, menos do que cerca de 72, menos do que cerca de 71, menos do que cerca de 70, menos de cerca de 69, menos do que cerca de 68, menos do que cerca de 67, menos do que cerca de 66, menos do que cerca de 65, menos do que cerca de 64, menos do que cerca de 62, menos do que cerca de 60, menos do que cerca de 58, menos do que cerca de 56, menos do que cerca de 54, menos do que cerca de 52 ou inferior a cerca de 50. Em algumas formas de realização, um intervalo pré-determinado é um valor MAD maior que zero e menor do que cerca de 67,7. Em algumas formas de realização, porções com uma variabilidade de contagem dentro de um intervalo pré-determinado são selecionadas (por exemplo, utilizadas para determinar a presença ou ausência de uma variação genética).
[00208] Em algumas formas de realização, a variabilidade de contagem de porções representa uma distribuição (por exemplo, uma distribuição normal). Em algumas formas de realização, porções são selecionadas dentro de um quantil da distribuição. Em algumas formas de realização, porções com um quantil, igual ou inferior a cerca de 99,9%, 99,8%, 99,7%, 99,6%, 99,5%, 99,4%, 99,3%, 99,2%, 99,1%, 99,0%, 98,9%, 98,8%, 98,7%, 98,6%, 98,5%, 98,4%, 98,3%, 98,2%, 98,1%, 98,0%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 85%, 80%, ou igual ou menor do que um quantil de cerca de 75% para a distribuição são selecionados. Em algumas formas de realização, são selecionadas porções em um quantil de 99% da distribuição de variabilidade de contagem. Em algumas formas de realização, porções com um MAD>0 e MAD<67,725 estão dentro do quantil 99% e são selecionadas, resultando na identificação de um conjunto de porções estáveis de um genoma de referência.
[00209] Exemplos da porção de filtração com respeito à PERUN não limitativos, por exemplo, é aqui proporcionado e no pedido de patente internacional no PCT/US12/59123 (WO2013/052913), todo o conteúdo do qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos. Porções podem ser filtradas com base em, ou baseadas em parte em, uma medida de erro. Uma medida de erro compreendendo valores absolutos de desvio, tal como um fator-R, pode ser utilizada para a remoção de parte ou ponderação em certas formas de realização. Um fator-R, em algumas formas de realização, é definido como a soma dos desvios absolutos dos valores de contagem previstos a partir das medições reais divididos pelos valores de contagem previstos a partir das medições reais. Embora possa ser utilizada uma medida de erro compreendendo valores absolutos de desvio, uma medida apropriada de erro pode ser alternativamente empregue. Em certas formas de realização, uma medida de erro não compreendendo valores absolutos de desvio, como uma dispersão com base em quadrados, pode ser utilizada. Em algumas formas de realização, as porções são filtradas ou ponderadas de acordo com uma medida de mapeabilidade (por exemplo, uma pontuação de mapeabilidade). Uma porção, por vezes, é filtrada ou ponderada de acordo com um número relativamente baixo de leituras de sequência mapeadas para a porção (por exemplo, 0, 1, 2, 3, 4, 5 leituras mapeadas para a porção). As porções podem ser filtradas ou ponderadas de acordo com o tipo de análise que está sendo realizada. Por exemplo, para a análise de aneuploidia do cromossomo 13, 18 e/ou 21, cromossomos sexuais podem ser filtrados, e apenas autossomas, ou um subconjunto de autossomas, podem ser analisados.
[00210] Em formas de realização particulares, o seguinte processo de filtração pode ser empregue. O mesmo conjunto de partes (por exemplo, porções de um genoma de referência) dentro de um determinado cromossomo (por exemplo, cromossomo 21) é selecionado e o número de leituras em amostras afetadas e não afetados são comparados. A diferença refere-se à trissomia 21 e as amostras euploides e envolve um conjunto de partes que cobrem a maior parte do cromossomo 21. O conjunto de porções é o mesmo entre as amostras euploides e T21. A distinção entre um conjunto de porções e uma única seção não é crucial, dado que uma porção pode ser definida. A mesma região genômica é comparada em pacientes diferentes. Este processo pode ser utilizado para uma análise de trissomia, tal como para, T13 ou T18, além de, ou em vez de, T21.
[00211] Depois de conjuntos de dados serem contados, opcionalmente, filtrados e normalizados, os conjuntos de dados processados podem ser manipulados por ponderação, em algumas formas de realização. Uma ou mais porções pode ser selecionado para ponderação para reduzir a influência de dados (por exemplo, dados ruidosos, dados não informativos) contidos nas porções escolhidas, em certas formas de realização, e em algumas formas de realização, uma ou mais porções pode ser selecionado para ponderação para melhorar ou aumentar a influência dos dados (por exemplo, de dados com variação pequena medida) contidos nas partes selecionadas. Em algumas formas de realização, um conjunto de dados é ponderado utilizando uma única função de ponderação que diminui a influência de dados com grandes variações e aumenta a influência de dados com pequenas variações. Uma função de ponderação, por vezes, é utilizada para reduzir a influência de dados com grandes desvios e aumentar a influência de dados com pequenas variações (por exemplo, [1/(desvio padrão)2]). Em algumas formas de realização, um gráfico de perfil de dados processados posteriormente manipulados por ponderação é gerado para facilitar a classificação e/ou fornecer um resultado. Um resultado pode ser fornecido com base em um perfil gráfico de dados ponderados.
[00212] A filtração ou ponderação de porções pode ser realizada em um ou mais pontos adequados na análise. Por exemplo, as porções podem ser filtradas ou ponderadas antes ou depois das leituras de sequência serem mapeadas para porções de um genoma de referência. As porções podem ser filtradas ou ponderadas antes ou depois de uma tendência experimental para porções de genoma individual ser determinada, em algumas formas de realização. Em certas formas de realização, as porções podem ser filtradas ou ponderadas antes ou após níveis de seção genômicos erem calculados.
[00213] Depois de conjuntos de dados serem contados, opcionalmente filtrados, normalizados e, opcionalmente, ponderados, os conjuntos de dados processados podem ser manipulados por uma ou mais manipulações matemáticas e/ou estatísticas (por exemplo, funções estatísticas ou algoritmo estatístico), em algumas formas de realização. Em certas formas de realização, os conjuntos de dados processados podem ser adicionalmente manipulados por cálculo de pontuações Z para uma ou mais porções selecionadas, cromossomos, ou porções de cromossomos. Em algumas formas de realização, os conjuntos de dados processados podem ser adicionalmente manipulados, calculando p-valores. Em certas formas de realização, manipulações matemáticas e/ou estatísticas incluem um ou mais pressupostos relativos à ploidia e/ou fração fetal. Em algumas formas de realização, um gráfico de perfil de dados processados além de manipulados por uma ou mais manipulações estatísticas e/ou matemáticas é gerado para facilitar a classificação e/ou fornecer um resultado. Um resultado pode ser fornecido com base em um gráfico de perfil de dados estatisticamente e/ou matematicamente manipulados. Um resultado fornecido com base em um gráfico de perfil de dados estatisticamente e/ou matematicamente manipulados, frequentemente, inclui um ou mais pressupostos relativos à fração de ploidia e/ou fetal.
[00214] Em certas formas de realização, várias manipulações são realizadas em dados processados para gerar define um espaço n-dimensional e/ou ponto n-dimensional, após os conjuntos de dados serem contados, opcionalmente, filtrados e normalizados. Um resultado pode ser fornecido com base em um gráfico de perfil de conjuntos de dados analisados em n-dimensões.
[00215] Em algumas formas de realização, os conjuntos de dados são processados utilizando um ou mais análise do nível de pico, análise largura do pico, a análise de pico de localização de borda, tolerâncias laterais de pico, semelhante, as derivações dos mesmos, ou combinações dos anteriores, como parte de, ou após os conjuntos de dados serem processados e/ou manipulados. Em algumas formas de realização, um gráfico de perfil de dados processados utilizando um ou mais de análise do nível de pico, análise largura do pico, análise de pico de localização de borda, tolerâncias laterais de pico, semelhante, derivações dos mesmos, ou combinações dos anteriores, é gerado para facilitar a classificação e/ou proporcionar um resultado. Um resultado pode ser fornecido com base em um gráfico de perfil de dados que foi processado utilizando um ou mais de análise de nível de pico, análise largura do pico, a análise de pico localização borda, tolerâncias laterais pico, semelhante, derivações dos mesmos, ou combinações dos anteriores.
[00216] Em algumas formas de realização, a utilização de uma ou mais amostras de referência que são, substancialmente, isentas de uma variação genética em questão pode ser utilizada para gerar um perfil de referência de contagem média, o que pode resultar em um valor representativo predeterminado da ausência da variação genética, e, muitas vezes, se desvia de um valor pré- determinado nas zonas correspondentes para o local genômico em que a variação genética está localizada no indivíduo de teste, se o indivíduo de teste possuía a variação genética. Em indivíduos de teste em risco de, ou sofrendo de, uma condição médica associada com uma variação genética, é esperado que o valor numérico para a porção ou seções selecionadas varie significativamente do valor pré- determinado para locais genômicos não afetados. Em certas formas de realização, a utilização de uma ou mais amostras de referência conhecidas para transportar a variação genética em questão pode ser utilizada para gerar um perfil de referência de contagem média, o que pode resultar em um valor predeterminado representativo da presença da variação genética, e, muitas vezes, se desvia de um valor pré- determinado nas zonas correspondentes para o local genômico no qual um indivíduo de teste não transporta a variação genética. Em indivíduos de teste não em risco de, ou que sofrem de uma condição médica associada a uma variação genética, é esperado que o valor numérico para a parte ou partes selecionadas varie significativamente em relação ao valor pré-determinado para localizações genômicas afetados.
[00217] Em algumas formas de realização, análise e processamento de dados pode incluir a utilização de uma ou mais hipóteses. Um número adequado ou tipo de hipóteses pode ser utilizado para analisar ou processar um conjunto de dados. Exemplos de hipóteses que podem ser utilizadas para o processamento e/ou análise de dados incluem ploidia materna, contribuição fetal, prevalência de certas sequências em uma população de referência, etnia, prevalência de uma condição médica selecionada em membros da família relacionada, paralelismo entre perfis de contagem em bruto a partir de diferentes pacientes e/ou corridas após normalização de GC e mascaramento de repetição (por exemplo, GCRM), correspondências idênticas representam artefatos de PCR (por exemplo, posição de base idêntica), suposições inerentes a um teste quantificador fetal (por exemplo, FQA), pressupostos relativos aos gêmeos (por exemplo, se 2 gêmeos e apenas 1 é afetado a fração fetal eficaz é apenas 50% do total medido da fração fetal (da mesma forma para trigêmeos, quadrigêmeos e afins)), DNA livre de células fetais (por exemplo, cfDNA) cobre uniformemente o genoma inteiro, análogos e combinações dos mesmos.
[00218] Nos casos em que a qualidade e/ou a profundidade da leitura de sequência mapeada não permite uma predição resultado da presença ou ausência de uma variação genética a um nível de confiança desejado (por exemplo, 95% ou um nível de confiança mais alto), com base na contagem normalizada perfis, um ou mais algoritmos de manipulação matemática adicionais e/ou algoritmos de previsão estatística, pode ser utilizada para gerar valores numéricos adicionais úteis para a análise de dados e/ou fornecer um resultado. O termo "perfil de contagem normalizada", tal como aqui utilizado, refere-se a um perfil gerado utilizando contagens normalizadas. Exemplos de métodos que podem ser utilizados para gerar contagens normalizadas de contagem e perfis normalizados são aqui descritos. Como observado, a leitura de sequência mapeada que foram contadas pode ser normalizada em relação a testar contagens de amostra ou contagens de amostra de referência. Em algumas formas de realização, um perfil de contagem normalizado pode ser apresentado como um gráfico.
Normalização LOESS
[00219] LOESS é um método de modelagem de regressão, conhecido na técnica, que combina modelos de regressão múltipla em uma meta modelo baseado no vizinho k mais próximo. LOESS é, por vezes, referido como uma regressão polinomial ponderada localmente. GC LOESS, em algumas formas de realização, aplica-se um modelo LOESS para a relação entre a contagem de fragmento (por exemplo, leitura de sequência, contagens) e composição de GC para porções de um genoma de referência. Traçar o gráfico de uma curva suave através de um conjunto de pontos de dados utilizando LOESS é, às vezes, chamado de uma curva LOESS, particularmente quando cada valor alisado é dado por uma regressão dos mínimos quadrados quadrática ponderada sobre o intervalo de valores da variável de critério do diagrama de dispersão do eixo Y. Para cada ponto em um conjunto de dados, o método LOESS encaixa um polinômio de baixo grau para um subconjunto dos dados, com valores variáveis explanatórios perto do ponto cuja resposta está a ser avaliada. O polinômio é montado utilizando mínimos quadrados ponderados, dando mais peso para pontos perto do ponto cuja resposta está a ser estimado e menos peso para pontos mais distantes. O valor da função de regressão para um ponto, em seguida, é obtido pelo cálculo do polinômio local utilizando os valores de variáveis explanatórias que por ponto de dados. O ajuste LOESS é, por vezes, considerado completo depois de os valores da função de regressão foram calculadas para cada um dos pontos de dados. Muitos dos detalhes deste método, tal como o grau de o modelo polinomial e os pesos, são flexíveis.
Normalização PERUN
[00220] Uma metodologia para a redução da normalização de erro associada com indicadores de ácido nucleico é aqui referida como erro de remoção parametrizado e normalização imparcial (PERUN) descrita aqui e na Publicação de Pedido de Patente Internacional No WO2013/052913 todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos. A metodologia PERUN pode ser aplicada a uma variedade de indicadores de ácidos nucleicos (por exemplo, sequência de ácido nucleico leituras) para o propósito de reduzir os efeitos de erro que confundem previsões com base em tais indicadores.
[00221] Em certas formas de realização, a metodologia PERUN inclui o cálculo de um nível de seção genômico para porções de um genoma de referência a partir de (a) leitura de sequência as contagens mapeadas para uma parte de um genoma de referência por uma amostra de teste, (b) tendência experimental (por exemplo, tendências de GC) para a amostra de teste, e (c) um ou mais parâmetros de ajuste (por exemplo, as estimativas de ajuste) para uma relação montado entre (i) de tendência experimental para uma parte de um genoma de referência para a qual leituras de sequência são mapeados e (ii) contagens de leituras de sequência mapeadas para a porção. A tendência experimental para cada uma das porções de um genoma de referência pode ser determinada através de múltiplas amostras de acordo com uma relação ajustada para cada amostra entre (i) as contagens de leituras de sequência mapeadas para cada uma das porções de um genoma de referência, e (ii) um o recurso de mapeamento para cada uma das porções de um genoma de referência. Esta relação ajustada para cada amostra pode ser montada de várias amostras em três dimensões. O conjunto pode ser ordenado de acordo com a tendência experimental em certas formas de realização, embora a metodologia PERUN possa ser praticada sem ordenar o conjunto de acordo com a tendência experimental. A relação ajustada para cada amostra e a relação ajustada para cada porção do genoma de referência pode ser montada de forma independente a uma função linear ou uma função não linear por um processo de encaixe adequado conhecido na técnica.
Normalização de Regressão Híbrida
[00222] Em algumas formas de realização, é utilizado um método de normalização híbrida. Em algumas formas de realização, de um método de normalização híbrida reduz tendências (por exemplo, tendências de GC). Uma normalização híbrida, em algumas formas de realização, compreende (i) uma análise de uma relação de duas variáveis (por exemplo, contagens e teor de GC) e (ii) seleção e aplicação de um método de normalização de acordo com a análise. Um híbrido normalização, em certas formas de realização, compreende (i) uma regressão (por exemplo, uma análise de regressão) e (ii) seleção e aplicação de um método de normalização de acordo com a regressão. Em algumas formas de realização, contagens obtidas para uma primeira amostra (por exemplo, um primeiro conjunto de amostras) são normalizadas por um método diferente das contagens obtidas a partir de outra amostra (por exemplo, um segundo conjunto de amostras). Em algumas formas de realização, contagens obtidas para uma primeira amostra (por exemplo, um primeiro conjunto de amostras) são normalizadas por um primeiro método de normalização e contagens obtidas a partir de uma segunda amostra (por exemplo, um segundo conjunto de amostras) são normalizados por um segundo método de normalização. Por exemplo, em certas formas de realização, um primeiro método de normalização compreende a utilização de uma regressão linear e um segundo método de normalização compreende a utilização de uma regressão não linear (por exemplo, uma LOESS, GC-LOESS, regressão LOWESS, suavização LOESS).
[00223] Em algumas formas de realização, um método de normalização híbrida é utilizado para normalizar as leituras sequência mapeado para porções de um genoma ou cromossomo (por exemplo, contagens, contagens mapeadas, leitura mapeada). Em certas formas de realização, contagens brutas são normalizadas e em algumas formas de realização é ajustada, ponderadas, filtradas ou contagens previamente normalizadas são normalizadas por um método de normalização híbrida. Em certas formas de realização, os níveis de seção genômicas ou pontuações Z são normalizados. Em algumas formas de realização, contagens mapeadas para partes selecionadas de um genoma ou cromossomo são normalizados por uma abordagem de híbrido normalização. Contagens podem referir-se a uma medida adequada de leituras de sequência mapeada para porções de um genoma, exemplos não limitativos dos quais incluem contagens em bruto (por exemplo, contagens não transformados), contagens normalizadas (por exemplo, normalizado pela PERUN, chai, normalização de componente principal, ou um método adequado), os níveis de parte (por exemplo, os níveis médios, os níveis médios, os níveis medianos, ou semelhantes), Pontuações Z, semelhantes ou suas combinações. As contagens podem ser contagens cruas ou contagens transformadas a partir de uma ou mais amostras (por exemplo, uma amostra de teste, uma amostra de uma fêmea grávida). Em algumas formas de realização, contagens são obtidas a partir de uma ou mais amostras obtidas a partir de um ou mais indivíduos.
[00224] Em algumas formas de realização, um método de normalização (por exemplo, o tipo de método de normalização) é selecionado de acordo com uma regressão (por exemplo, uma análise de regressão) e/ou um coeficiente de correlação. A análise de regressão refere-se a uma técnica estatística para estimar uma relação entre as variáveis (por exemplo, contagens e teor de GC). Em algumas formas de realização, uma regressão é gerada de acordo com as contagens e uma medida do teor de GC para cada porção de várias porções de um genoma de referência. Uma medida adequada do teor de GC pode ser utilizada, exemplos não limitativos dos quais incluem uma medida da guanina, citosina, adenina, timina, purina (GC), ou teor de pirimidina (AT ou ATU), temperatura de fusão (Tm) (por exemplo, temperatura de desnaturação, temperatura de recozimento, temperatura de hibridização), uma medida de energia livre, semelhantes ou combinações dos mesmos. Uma medida do teor de guanina (G), citosina (c), adenina (A), timina (T), purina (GC) ou pirimidina (AT ou ATU) pode ser expressa como uma proporção ou uma porcentagem. Em algumas formas de realização, qualquer proporção ou a porcentagem apropriada é utilizada, exemplos não limitativos dos quais incluem GC/AT, CG/nucleotídeos totais, GC/A, GC/T, AT/nucleotídeo total, AT/GC, AT/G, AT/C, G/A, C/A, G/T, G/A, G/AT, C/T, semelhantes ou combinações dos mesmos. Em algumas formas de realização, uma medida do teor de GC é uma proporção ou a porcentagem de GC para o teor de nucleotídeos total. Em algumas formas de realização, uma medida do teor de GC é uma proporção ou a porcentagem de GC para o teor de nucleotídeos total para as leituras de sequência mapeadas para uma porção do genoma de referência. Em certas formas de realização, o teor de GC é determinado de acordo com, e/ou a partir de, as leituras de sequência mapeadas para cada porção de um genoma de referência e as leituras de sequência são obtidas a partir de uma amostra (por exemplo, uma amostra obtida de uma mulher grávida). Em algumas formas de realização, uma medida do teor de GC não é determinada de acordo com, e/ou a partir de, a leitura de sequência. Em certas formas de realização, uma medida de teor de GC é determinada para um ou mais amostras obtidas a partir de um ou mais indivíduos.
[00225] Em algumas formas de realização, a geração uma regressão compreende gerar uma análise de regressão ou uma análise de correlação. Uma regressão adequada pode ser utilizada, exemplos não limitativos dos quais incluem uma análise de regressão, (por exemplo, uma análise de regressão linear), uma excelência de análise ajustada, uma análise de correlação de Pearson, uma correlação de classificação, uma fração da variância inexplicada, análise da eficiência do modelo de Nash-Sutcliffe, validação do modelo de regressão, redução proporcional de perda, desvio quadrático médio, semelhantes ou uma combinação destes. Em algumas formas de realização, de uma regressão linear é gerada. Em certas formas de realização, a geração de uma regressão compreende a geração de uma regressão linear. Em certas formas de realização, a geração de uma regressão compreende a geração de uma regressão não linear (por exemplo, uma regressão LOESS, uma regressão LOWESS).
[00226] Em algumas formas de realização uma regressão determina a presença ou a ausência de correlação (por exemplo, uma correlação linear), por exemplo, entre a contagem e uma medida do teor de GC. Em algumas formas de realização, de uma regressão (por exemplo, uma regressão linear) e é gerado um coeficiente de correlação é determinada. Em algumas formas de realização, de um coeficiente de correlação adequado é determinada, exemplos não limitativos dos quais incluem um coeficiente de determinação, um valor R2, um coeficiente de correlação de Pearson, ou semelhantes.
[00227] Em algumas formas de realização, a qualidade do ajuste é determinada por uma regressão (por exemplo, uma análise de regressão, uma regressão linear). Excelência de ajuste, por vezes, é determinada por análise visual ou matemática. Uma avaliação inclui, por vezes, determinar se a qualidade do ajuste é maior para uma regressão não linear ou de uma regressão linear. Em algumas formas de realização, de um coeficiente de correlação é uma medida de qualidade de ajuste. Em algumas formas de realização, de uma avaliação de uma qualidade de ajuste para uma regressão é determinada de acordo com um coeficiente de correlação e/ou um valor de corte o coeficiente de correlação. Em algumas formas de realização, uma avaliação de uma qualidade de ajuste compreende a comparação de um coeficiente de correlação com um valor de corte o coeficiente de correlação. Em algumas formas de realização, uma avaliação de uma qualidade de ajuste para uma regressão é indicativa de uma regressão linear. Por exemplo, em certas formas de realização, uma qualidade do ajuste é maior para uma regressão linear do que para uma de regressão não-linear e a avaliação da qualidade do ajuste é indicativa de uma regressão linear. Em algumas formas de realização, uma avaliação é indicativa de uma regressão linear e uma regressão linear é utilizada para normalizar as contagens. Em algumas formas de realização, de uma avaliação de uma qualidade de ajuste para uma regressão é indicativo de uma regressão não linear. Por exemplo, em certas formas de realização, uma qualidade do ajuste é maior para uma regressão não-linear do que para uma regressão linear e a avaliação da qualidade do ajuste é indicativa de uma regressão não linear. Em algumas formas de realização, uma avaliação é indicativa de uma regressão não-linear e uma regressão não linear é utilizada para normalizar as contagens.
[00228] Em algumas formas de realização, uma avaliação de uma qualidade do ajuste é indicativa de uma regressão linear, quando o coeficiente de correlação for igual ou maior do que um corte de coeficiente de correlação. Em algumas formas de realização, de uma avaliação de uma qualidade do ajuste é indicativa de uma regressão não-linear, quando o coeficiente de correlação é inferior a um coeficiente de correlação de corte. Em algumas formas de realização, um corte de coeficiente de correlação de p é determinado. Em algumas formas de realização, de um coeficiente de correlação de corte é cerca de 0,5 ou maior, cerca de 0,55 ou superior, de cerca de 0,6 ou maior, cerca de 0,65 ou superior, de cerca de 0,7 ou maior, cerca de 0,75 ou superior, de cerca de 0,8 ou maior, ou cerca de 0,85 ou superior.
[00229] Por exemplo, em certas formas de realização, um método de normalização compreendendo uma regressão linear, é utilizado quando um coeficiente de correlação for igual ou maior do que cerca de 0,6. Em certas formas de realização, a contagem de uma amostra (por exemplo, contagens por parte de um genoma de referência, contagens por porção) é normalizada de acordo com uma regressão linear, quando o coeficiente de correlação for igual ou maior do que um coeficiente de correlação de corte de 0,6, caso contrário as contagens são normalizadas de acordo com uma regressão não linear (por exemplo, quando o coeficiente é inferior a um coeficiente de correlação de corte de 0,6). Em algumas formas de realização, de um processo de normalização compreende a geração de uma regressão linear ou regressão não-linear para o (i) as contagens e (ii) o teor de GC, para cada porção de várias porções de um genoma de referência. Em certas formas de realização, um método de normalização compreendendo uma regressão não linear (por exemplo, um LOWESS, um LOESS) é utilizado quando um coeficiente de correlação é inferior a um coeficiente de correlação de corte de 0,6. Em algumas formas de realização, de um método de normalização compreendendo uma regressão não linear (por exemplo, um LOWESS) é utilizado quando um coeficiente de correlação (por exemplo, um coeficiente de correlação) é menos de um coeficiente de correlação de corte de cerca de 0,7, menos do que cerca de 0,65, menos do que cerca de 0,6, inferior a cerca de 0,55 ou menos do que cerca de 0,5. Por exemplo, em algumas formas de realização, um método de normalização compreendendo uma regressão não linear (por exemplo, um LOWESS, um LOESS) é utilizado quando um coeficiente de correlação é inferior a um coeficiente de correlação de corte de cerca de 0,6.
[00230] Em algumas formas de realização, um tipo específico de regressão é selecionado (por exemplo, uma regressão linear ou não-linear) e, após a regressão ser gerada, as contagens são normalizadas subtraindo a regressão a partir das contagens. Em algumas formas de realização, subtrair uma regressão a partir das contagens fornece contagens normalizadas com tendências reduzidas (por exemplo, tendências de GC). Em algumas formas de realização, de uma regressão linear é subtraído a partir das contagens. Em algumas formas de realização, uma regressão não linear (por exemplo, um LOESS, GC-LOESS, regressão LOWESS) é subtraída a partir das contagens. Qualquer método adequado pode ser utilizado para subtrair uma regressão linear a partir das contagens. Por exemplo, se as contagens x são derivados a partir da porção i (por exemplo, uma porção i) compreendendo um teor de GC de 0,5 e uma regressão linear determina contagens y em um teor de GC de 0,5, em seguida, x-y = contagens normalizadas para porção i. Em algumas formas de realização, contagens são normalizadas, antes e/ou depois de subtrair uma regressão. Em algumas formas de realização, as contagens normalizadas por uma abordagem de híbrido normalização são utilizados para gerar níveis de seção genômica, núcleos z, níveis e/ou perfis de um genoma ou um seu segmento. Em certas formas de realização, as contagens normalizadas por uma abordagem de híbrido normalização são analisadas através de métodos aqui descritos para determinar a presença ou ausência de uma variação genética (por exemplo, em um feto).
[00231] Em algumas formas de realização de um método de normalização híbrida compreende a filtração de ponderação ou uma ou mais porções antes ou após a normalização. Um método adequado de porções de filtração, incluindo os métodos de porções de filtração (por exemplo, porções de um genoma de referência) aqui descritos podem ser utilizados. Em algumas formas de realização, as porções (por exemplo, porções de um genoma de referência) são filtradas antes da aplicação de um método de normalização híbrida. Em algumas formas de realização, apenas as contagens de leituras de sequência mapeadas para porções selecionadas (por exemplo, as porções selecionadas de acordo com a contagem de variabilidade) são normalizadas por uma normalização híbrida. Em algumas formas de realização, contagens de leituras de sequência mapeadas para porções filtradas de um genoma de referência (por exemplo, porções filtradas de acordo com a contagem de variabilidade) são removidos antes de utilizar um método de normalização híbrida. Em algumas formas de realização, um método de normalização híbrida compreende selecionar ou filtrar porções (por exemplo, porções de um genoma de referência) de acordo com um método adequado (por exemplo, um método aqui descrito). Em algumas formas de realização, um método de normalização híbrida compreende selecionar ou filtrar porções (por exemplo, porções de um genoma de referência) de acordo com um valor de incerteza para contagens mapeadas para cada uma das porções para múltiplas amostras de teste. Em algumas formas de realização, um método de normalização híbrida compreende seleção ou filtração de porções (por exemplo, porções de um genoma de referência) de acordo com a contagem variabilidade. Em algumas formas de realização, de um método de normalização híbrido compreende selecionar ou filtrar porções (por exemplo, porções de um genoma de referência) de acordo com teor de GC, elementos repetitivos, sequências repetitivas, introns, exons, semelhantes ou uma sua combinação.
[00232] Por exemplo, em algumas formas de realização, múltiplas amostras a partir de vários indivíduos do sexo feminino grávidas são analisadas e um subconjunto de partes (por exemplo, porções de um genoma de referência) é selecionado de acordo com a contagem de variabilidade. Em certas formas de realização, de uma regressão linear é utilizada para determinar um coeficiente de correlação de (i) e as contagens (ii) o teor de GC, para cada uma das porções selecionadas de uma amostra obtida de um indivíduo fêmea grávida. Em algumas formas de realização, um coeficiente de correlação é determinado que é maior do que um valor de corte de correlação pré- determinado (por exemplo, de cerca de 0,6), uma avaliação da qualidade do ajuste é indicativa de uma regressão linear e as contagens são normalizadas por subtração da regressão linear a partir das contagens. Em certas formas de realização, um coeficiente de correlação é determinado que é menor do que um valor de corte de correlação pré- determinado (por exemplo, de cerca de 0,6), uma avaliação da qualidade do ajuste é indicativa de uma regressão não linear, uma regressão LOESS é gerada e as contagens são normalizadas subtraindo a regressão LOESS a partir das contagens. Perfis
[00233] Em algumas formas de realização, um passo de processamento pode compreender a geração de um ou mais perfis (por exemplo, gráfico perfil) a partir de vários aspectos de um conjunto de dados ou derivação dos mesmos (por exemplo, o produto de um ou mais passos matemáticos e/ou estatísticos de processamento de dados conhecidos na técnica e/ou descrito aqui). O termo "perfil", tal como aqui utilizado, refere-se a um produto de uma manipulação matemática e/ou estatística de dados que pode facilitar a identificação de padrões e/ou correlações em grandes quantidades de dados. Um "perfil" geralmente inclui valores resultantes de um ou mais manipulações de dados ou conjuntos de dados, com base em um ou mais critérios. Um perfil, muitas vezes, inclui vários pontos de dados. Qualquer número adequado de pontos de dados pode ser incluído em um perfil em função da natureza e/ou a complexidade de um conjunto de dados. Em certas formas de realização, os perfis podem incluir 2 ou mais pontos de dados, 3 ou mais pontos de dados, 5 ou mais pontos de dados, 10 ou mais pontos de dados, 24 ou mais pontos de dados, 25 ou mais pontos de dados, 50 ou mais pontos de dados, 100 ou mais pontos de dados, 500 ou mais pontos de dados, 1000 ou mais pontos de dados, 5000 ou mais pontos de dados, 10.000 ou mais pontos de dados, ou 100.000 ou mais pontos de dados.
[00234] Em algumas formas de realização, um perfil é representativo da totalidade do conjunto de dados, e em certas formas de realização, um perfil é representativo de uma parte ou um subconjunto de um conjunto de dados. Isto é, um perfil, por vezes, inclui ou é gerado a partir de pontos de dados representativo de dados que não foi filtrada para remover quaisquer dados, e, por vezes, inclui um perfil ou é gerado a partir de pontos de dados representativo de dados que foi filtrada para remover os dados indesejados. Em algumas formas de realização, um ponto de dados de um perfil representa os resultados de manipulação de dados para uma porção. Em certas formas de realização, um ponto de dados de um perfil inclui resultados de manipulação de dados para os grupos de porções. Em algumas formas de realização, grupos de porções podem ser adjacentes um ao outro, e em certas formas de realização, grupos de porções pode ser a partir de diferentes partes de um cromossomo ou genoma.
[00235] Os pontos de dados em um perfil derivado a partir de um conjunto de dados podem ser representativos de qualquer categorização de dados adequada. Exemplos de categorias em que os dados podem ser agrupados para gerar pontos de dados de perfil incluem não limitativo: porções com base no tamanho, porções com base em características de sequência (por exemplo, o teor de GC, AT conteúdo, posição em um cromossomo (por exemplo, braço curto, braço longo, centrômero, telômero), e semelhantes), níveis de expressão, cromossomo, semelhantes ou combinações dos mesmos. Em algumas formas de realização, um perfil pode ser gerado a partir de pontos de dados obtidos a partir de outro perfil (por exemplo, o perfil de dados normalizado para um valor renormalizado normalizando diferente para gerar um perfil de dados renormalizado). Em certas formas de realização, um perfil gerado a partir de pontos de dados obtidos a partir de outro perfil reduz o número de pontos de dados e/ou complexidade do conjunto de dados. A redução do número de pontos de dados e/ou complexidade do conjunto de dados, muitas vezes, facilita a interpretação de dados e/ou facilita o fornecimento de um resultado.
[00236] Um perfil (por exemplo, um perfil genômico, um perfil de cromossomo, um perfil de um segmento de um cromossomo), frequentemente, é uma coleção de contagens normalizadas ou não normalizados para duas ou mais porções. Um perfil, muitas vezes, inclui, pelo menos, um nível (por exemplo, um nível de seção genômico), e, muitas vezes, compreende dois ou mais níveis (por exemplo, um perfil tem, frequentemente, vários níveis). Um nível, geralmente, é para um conjunto de porções tendo cerca de as mesmas contagens ou contagens normalizadas. Os níveis encontram-se descritos em maior detalhe aqui. Em certas formas de realização, um perfil compreende uma ou mais partes, que podem ser porções ponderadas, removidos, filtrada, normalizada, ajustada, em média, derivada como uma média, adicionadas, subtraídas, processada ou transformada por qualquer combinação dos mesmos. Um perfil compreende, muitas vezes, contagens normalizadas mapeadas para porções que definem dois ou mais níveis, onde as contagens são mais normalizadas de acordo com um dos níveis por um método adequado. Muitas vezes, contagens de um perfil (por exemplo, um nível de perfil) estão associadas com um valor de incerteza.
[00237] Um perfil que compreende um ou mais níveis, por vezes, é preenchido (por exemplo, espaço de preenchimento). Enchimento (por exemplo, preenchimento de espaço) refere-se a um processo de identificação e ajuste dos níveis de um perfil que ocorrem devido à micro-deleções maternas ou duplicações maternas (por exemplo, as variações no número de cópias). Em algumas formas de realização, níveis são enchidos que são devidos a micro-duplicações fetais ou micro-deleções fetais. Micro-duplicações ou deleções de um perfil podem, em algumas formas de realização, artificialmente aumentar ou diminuir o nível geral de um perfil (por exemplo, um perfil de um cromossomo) levando a falsas determinações positivas, ou falsos negativos de uma aneuploidia cromossômica (por exemplo, uma trissomia). Em algumas formas de realização, os níveis em um perfil que é devido à micro-duplicações e/ou deleções são identificados e ajustados (por exemplo, acolchoada e/ou removido) (por exemplo, acolchoada e/ou removido) por um processo, por vezes, referido como o estofamento ou enchimento de furo. Dentro de certas formas de realização, um perfil compreende um ou mais primeiros níveis que são significativamente diferentes de um segundo nível dentro do perfil, cada um dos um ou mais primeiros níveis compreendem uma variação de número de cópias materna, variação do número de cópias fetal, ou uma variação do número de cópias materna e uma variação do número de cópias fetal e um ou mais dos primeiros níveis são ajustados.
[00238] Um perfil que compreende um ou mais níveis pode incluir um primeiro nível e um segundo nível. Em algumas formas de realização, um primeiro nível é diferente (por exemplo, significativamente diferente) de um segundo nível. Em algumas formas de realização, um primeiro nível compreende um primeiro conjunto de partes, um segundo nível compreende um segundo conjunto de porções e o primeiro conjunto de porções não é um subconjunto do segundo conjunto de porções. Em certas formas de realização, um primeiro conjunto de porções é diferente de um segundo conjunto de porções a partir do qual um primeiro e um segundo nível são determinados. Em algumas formas de realização, um perfil pode ter vários primeiros níveis que são diferentes (por exemplo, significativamente diferente, por exemplo, têm um valor significativamente diferente) de um segundo nível de dentro do perfil. Em algumas formas de realização, um perfil compreende um ou mais primeiros níveis que são significativamente diferentes de um segundo nível de dentro do perfil e um ou mais dos primeiros níveis são ajustados. Em algumas formas de realização, um perfil compreende um ou mais primeiros níveis que são significativamente diferentes de um segundo nível de dentro do perfil, cada um dos um ou mais primeiros níveis compreendem uma cópia variação materna número, fetal de variação do número de cópias, ou uma variação do número de cópias materna e uma variação do número de cópias fetal e um ou mais dos primeiros níveis são ajustados. Em algumas formas de realização, de um primeiro nível dentro de um perfil é removido a partir do perfil ou ajustado (por exemplo, acolchoado). Um perfil pode compreender múltiplos níveis que incluem um ou mais primeiros níveis significativamente diferentes de um ou mais níveis de segundo e, muitas vezes, a maioria dos níveis em um perfil são segundos níveis, em que os segundos níveis são aproximadamente iguais um ao outro. Em algumas formas de realização, mais do que 50%, mais do que 60%, mais do que 70%, mais do que 80%, mais do que 90% ou mais do que 95% dos níveis em um perfil são segundos níveis.
[00239] Um perfil é, por vezes, apresentado como um gráfico. Por exemplo, um ou mais níveis que representam contagens (por exemplo, contagens normalizadas) de porções podem ser traçados e visualizadas. Exemplos de gráficos de perfis que podem ser gerados incluem contagem em bruto (por exemplo, perfil de contagem em bruto ou perfil em bruto), contagem normalizada, ponderadas em parte, pontuação z, valor-p, razão de área contra ploidia ajustada, nível médio versus razão entre fração fetal ajustada e medida, componentes principais, semelhantes, ou suas combinações. Gráficos de perfil permitem a visualização dos dados manipulados, em algumas formas de realização. Em certas formas de realização, um gráfico de perfil pode ser utilizado para proporcionar um resultado (por exemplo, relação de área de ploidia contra equipada, nível médio em relação à taxa entre a fração fetal equipada e medida, componentes principais). Os termos "gráfico de perfil de contagem em bruto" ou "gráfico de perfil em bruto", tal como aqui utilizados, referem-se a um gráfico de contagem em cada porção de uma região normalizada para contagens totais em uma região (por exemplo, genoma, porção, cromossomo, porções do cromossomo de uma referência do genoma ou um segmento de um cromossomo). Em algumas formas de realização, um perfil pode ser gerado utilizando um processo estático janela, e em certas formas de realização, um perfil pode ser gerado utilizando um processo de janela deslizante.
[00240] Um perfil gerado por um indivíduo de teste, por vezes, é comparado com um perfil gerado para um ou mais indivíduos de referência, a fim de facilitar a interpretação de manipulações matemáticas e/ou estatísticas de um conjunto de dados e/ou para fornecer um resultado. Em algumas formas de realização, um perfil é gerado com base em um ou mais pontos de partida (por exemplo, a contribuição de ácido nucleico da mãe (por exemplo, fração materna), contribuição de ácido nucleico fetal (por exemplo, fração fetal), ploidia de amostra de referência, semelhantes ou combinações destes). Em certas formas de realização, um perfil de teste, muitas vezes, gira em torno de um predeterminado valor representativo da ausência de uma variação genética, e, muitas vezes, se desvia de um valor pré-determinado nas zonas correspondentes para o local genômico em que a variação genética está localizado no indivíduo de teste, se o indivíduo de teste possuía a variação genética. Em indivíduos de teste em risco de, ou sofrendo de uma condição médica associado com uma variação genética, é esperado que o valor numérico para uma porção selecionada a variar significativamente do valor pré- determinado para locais genômicos não afetados. Dependendo de pressupostos de partida (por exemplo, ploidia fixa ou ploidia otimizada, fração fetal fixa ou fração fetal otimizada ou suas combinações), o limite predeterminado ou valor de corte ou intervalo de limite de valores indicativos da presença ou ausência de uma variação genética pode variar e ainda fornecer um resultado útil para determinar a presença ou ausência de uma variação genética. Em algumas formas de realização, um perfil é indicativo de e/ou representativo de um fenótipo.
[00241] A título de exemplo não limitativo, perfis de contagem de amostra e/ou de referência normalizados podem ser obtidos a partir de dados de leitura de sequência em bruto por (a) cálculo da mediana de referência contagens de cromossomos selecionados, porções ou segmentos dos mesmos a partir de um conjunto de referências conhecidas não para transportar uma variação genética, (b) remoção de porções não informativas a partir da amostra de referência (por exemplo, contagens de matérias, filtração); (c) normalização das contagens de referência para todas as porções restantes de um genoma de referência para o número total residual de contagem (por exemplo, soma dos restantes contagens após a remoção de porções não informativos de um genoma de referência) para a amostra de referência cromossomo selecionado ou localização genômica selecionada, gerando, desse modo, um perfil de indivíduos de referência normalizado; (d) remoção das porções correspondentes da amostra de teste indivíduo; e (e) normalização das contagens de indivíduos de teste restantes para um ou mais locais genômicos selecionados para a contagem da soma da mediana de referência residual para o cromossomo ou cromossomos que contêm os locais genômicos selecionados, gerando, assim, um perfil de indivíduo de teste normalizado. Em certas formas de realização, um passo de normalização adicional, no que diz respeito a todo o genoma, reduzido por porções filtradas em (b), pode ser incluído entre (c) e (d).
[00242] Um perfil de conjunto de dados pode ser gerado por uma ou mais manipulações de dados de leitura de sequência mapeados contados. Algumas formas de realização incluem o seguinte. Leitura de sequência são mapeados e o número de marcadores de sequência mapeado para cada porção genômica são determinados (por exemplo, contados). Um perfil de contagem em bruto é gerado a partir das leituras de sequência mapeada que são contadas. Um resultado é fornecido por comparação de um perfil de contagem em bruto a partir de um teste de indivíduos a um perfil de contagem média de referência para cromossomos, segmentos ou porções dos mesmos a partir de um conjunto de indivíduos de referência conhecidos não possuem uma variação genética, em certas formas de realização.
[00243] Em algumas formas de realização, dados de leitura de sequência são, opcionalmente, filtrados para remover os dados ruidosos ou porções não informativas. Após filtração, as contagens restantes são tipicamente somadas para gerar um conjunto de dados filtrados. Um perfil de contagem filtrado é gerado a partir de um conjunto de dados filtrado, em certas formas de realização.
[00244] Depois que os dados de leitura de sequência terem sido contados e opcionalmente filtrados, conjuntos de dados podem ser normalizados para gerar níveis ou perfis. Um conjunto de dados pode ser normalizado através da normalização de uma ou mais porções selecionadas a um valor de referência de normalização adequada. Em algumas formas de realização, um valor de referência de normalização é representativo das contagens totais para o cromossomo ou cromossomos a partir dos quais porções são selecionadas. Em certas formas de realização, um valor de referência de normalização é representativo de uma ou mais porções correspondentes, porções de cromossomos ou cromossomos de um conjunto de dados de referência preparados a partir de um conjunto de indivíduos de referência conhecidos não possuem uma variação genética. Em algumas formas de realização, um valor de referência de normalização é representativo de uma ou mais porções correspondentes, porções de cromossomos ou cromossomos de um conjunto de dados de teste preparados a partir de indivíduos um indivíduo de teste a ser analisada quanto à presença ou ausência de uma variação genética. Em certas formas de realização, o processo de normalização é realizado utilizando uma abordagem de janela estática, e em algumas formas de realização o processo de normalização é realizada utilizando uma abordagem em movimento ou deslizamento janela. Em certas formas de realização, que compreende um perfil de contagens normalizadas é gerado para facilitar a classificação e/ou fornecer um resultado. Um resultado pode ser fornecido com base em um gráfico de um perfil que inclui contagens normalizadas (por exemplo, utilizando um gráfico de tal perfil).
Níveis
[00245] Em algumas formas de realização, um valor (por exemplo, um número, um valor quantitativo) é atribuído a um nível. Um nível pode ser determinado por um método apropriado, a operação ou processo de matemática (por exemplo, um nível processado). Um nível, muitas vezes, é, ou é derivado de contagens (por exemplo, contagens normalizadas) para um conjunto de porções. Em algumas formas de realização, de um nível de uma porção é, substancialmente, igual ao número total de contagens mapeadas para uma parte (por exemplo, contagens, contagens normalizadas). Muitas vezes, um nível é determinado a partir das contagens que são processadas, transformadas ou manipuladas por um método apropriado, a operação ou processo matemático conhecido na técnica. Em algumas formas de realização, de um nível é derivado a partir das contagens que são processados e exemplos de contagens processados não-limitativos incluem ponderadas, removido, filtrada, normalizada, ajustada, em média, derivados como meio (por exemplo, o nível médio), adicionadas, subtraídas, as contagens transformadas ou uma combinação destes. Em algumas formas de realização, compreende um nível de contagens que são normalizados (por exemplo, contagens normalizadas de porções). Um nível pode ser para contagens normalizadas por um processo adequado, exemplos não limitativos dos quais incluem a normalização em porções, a normalização pelo teor de GC, a normalização contagem média, regressão de mínimos quadrados linear e não-linear, LOESS (por exemplo, GC LOESS), LOWESS, PERUN, ChAI, normalização de componente principal, RM, GCRM, cQn, semelhantes e/ou suas combinações. Um nível pode incluir contagens normalizadas ou quantidades relativas de contagem. Em algumas formas de realização, um nível é de contagens ou contagens normalizadas de duas ou mais porções que são calculados e o nível é referido como um nível médio. Em algumas formas de realização, um nível é para um conjunto de partes que têm uma contagem de média ou média de contagens normalizadas que é referida como um nível médio. Em algumas formas de realização, de um nível é derivado de porções que compreendem contagens em bruto e/ou filtrado. Em algumas formas de realização, um nível baseia- se em contagens que são matérias-primas. Em algumas formas de realização, de um nível está associado com um valor de incerteza (por exemplo, um desvio padrão, um MAD). Em algumas formas de realização, um nível é representado por uma Pontuação Z ou valor-p. Um nível para uma ou mais porções é sinônimo de um "nível de seção genômica" aqui.
[00246] Um nível para uma ou mais porções é sinônimo de um "nível de seção genômica" aqui. O termo "nível", tal como aqui utilizado, por vezes, é sinônimo do termo "elevação". A determinação do significado do termo "nível" pode ser determinada a partir do contexto em que é utilizada. Por exemplo, o termo "nível", quando utilizado no contexto de seções genômicas, perfis, leituras e/ou contagem, muitas vezes, significa uma elevação. O termo "nível", quando utilizado no contexto de uma substância ou composição (por exemplo, nível de RNA, nível de plexagem) geralmente refere-se a uma quantidade. O termo "nível", quando utilizado no contexto de incerteza (por exemplo, nível de erro, o nível de confiança, do nível de desvio, de nível incerteza), muitas vezes, refere-se a um montante.
[00247] As contagens normalizadas ou não normalizadas para os níveis de dois ou mais (por exemplo, dois ou mais níveis de um perfil), por vezes, podem ser matematicamente manipuladas (por exemplo, adicionadas, multiplicadas, em média, normalizadas, semelhantes ou uma sua combinação) de acordo com os níveis. Por exemplo, as contagens normalizadas ou não normalizados para dois ou mais níveis podem ser normalizados de acordo com um, alguns ou todos os níveis de um perfil. Em algumas formas de realização, contagens normalizadas ou não normalizadas de todos os níveis de um perfil são normalizadas de acordo com um nível no perfil. Em algumas formas de realização, contagens normalizadas ou não normalizadas de um nível de punho em um perfil são normalizadas de acordo com contagens normalizadas ou não normalizadas de um segundo nível no perfil.
[00248] Exemplos não-limitativos de um nível (por exemplo, um primeiro nível, um segundo nível) são um nível para um conjunto de partes compreendendo contagens processadas, um nível para um conjunto de partes compreendendo uma média, mediana ou média de contagens, um nível de um conjunto de partes compreendendo contagens normalizadas, semelhantes ou qualquer combinação dos mesmos. Em algumas formas de realização, um primeiro e um segundo nível do nível em um perfil são derivados a partir das contagens de porções mapeadas para o mesmo cromossomo. Em algumas formas de realização, um primeiro e um segundo nível do nível em um perfil são derivados a partir das contagens de porções mapeadas para cromossomos diferentes.
[00249] Em algumas formas de realização, um nível é determinado a partir das contagens normalizadas ou não normalizados mapeadas para uma ou mais porções. Em algumas formas de realização, um nível é determinado a partir das contagens normalizadas ou não normalizadas mapeadas para duas ou mais porções, onde as contagens normalizadas para cada porção estão, muitas vezes, sobre o mesmo. Não pode haver variação na contagem (por exemplo, contagens normalizadas) de um conjunto de porções de um nível. Em um conjunto de porções para um nível, pode haver uma ou mais porções que têm contagens que são significativamente diferentes do que em outras porções do aparelho (por exemplo, picos e/ou depressões). Qualquer número adequado de contagens normalizadas ou não normalizados associados com qualquer número adequado de porções pode definir um nível.
[00250] Em algumas formas de realização, um ou mais níveis podem ser determinados a partir das contagens normalizadas ou não normalizadas de todas ou algumas das porções de um genoma. Muitas vezes, um nível pode ser determinado a partir de todas ou algumas das contagens normalizadas ou não normalizadas de um cromossomo, ou seu segmento. Em algumas formas de realização, duas ou mais contagens de derivados de duas ou mais porções (por exemplo, um conjunto de partes) determinar um nível. Em algumas formas de realização, de dois ou mais números (por exemplo, contagens a partir de duas ou mais porções) determinar um nível. Em algumas formas de realização, a contagem de 2 a cerca de 100.000 partes determinar um nível. Em algumas formas de realização, contagens de 2 a cerca de 50.000, de 2 a cerca de 40.000, de 2 a cerca de 30.000, de 2 a cerca de 20.000, de 2 a cerca de 10.000, de 2 a cerca de 5.000, de 2 a cerca de 2.500, de 2 a cerca de 1.250, de 2 a cerca de 1.000, 2 a cerca de 500, 2 a cerca de 250, 2 a cerca de 100 ou de 2 a cerca de 60 porções determinam um nível. Em algumas formas de realização, contagens de cerca de 10 a cerca de 50 porções determinam um nível. Em algumas formas de realização, as contagens a partir de cerca de 20 a cerca de 40 ou mais porções determinam um nível. Em algumas formas de realização, um nível compreende as contagens a partir de cerca de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 45, 50, 55, 60 ou mais porções. Em algumas formas de realização, um nível corresponde a um conjunto de porções (por exemplo, um conjunto de porções de um genoma de referência, um conjunto de porções de um cromossomo ou de um conjunto de porções de um segmento de um cromossomo).
[00251] Em algumas formas de realização, um nível é determinado por contagens normalizadas ou não normalizadas de porções que são contíguas. Em algumas formas de realização, porções (por exemplo, um conjunto de partes), que são contíguos representam segmentos vizinhos de um genoma ou segmentos vizinhos de um cromossomo ou gene. Por exemplo, duas ou mais porções contíguas, quando alinhado com a fusão das porções de extremidade a extremidade, pode representar um conjunto de sequência de uma sequência de DNA de mais do que cada porção. Por exemplo, duas ou mais porções contíguas pode representar de um genoma intacto, cromossomo, gene, intron, exon ou seu segmento. Em algumas formas de realização, um nível é determinado a partir de uma coleção (por exemplo, um conjunto) de porções contíguas e/ou em porções não-contíguas.
Resultado
[00252] Os métodos aqui descritos podem proporcionar uma determinação da presença ou ausência de uma variação genética (por exemplo, aneuploidia fetal) para uma amostra, proporcionando deste modo um resultado (por exemplo, proporcionando deste modo um resultado determinante da presença ou ausência de uma variação genética (por exemplo, aneuploidia fetal)). Uma variação genética, muitas vezes, inclui um ganho, uma perda e/ou alteração (por exemplo, a duplicação, deleção, fusão, inserção, mutação, reorganização, substituição ou metilação aberrante) de informação genética (por exemplo, cromossomos, segmentos de cromossomos, regiões polimórficas, regiões translocadas, sequência de nucleotídeos alterada, semelhantes ou combinações das mesmas) que resulta em uma mudança detectável no genoma ou informação genética de um indivíduo de teste em relação a uma referência. Presença ou ausência de uma variação genética pode ser determinada através da transformação, análise e/ou manipulação de leituras de sequência que tenham sido mapeados para porções (por exemplo, contagens, as contagens de porções genômicas de um genoma de referência). Determinar um resultado, em algumas formas de realização, compreende a análise do ácido nucleico a partir de uma fêmea grávida. Em certas formas de realização, um resultado é determinado de acordo com a contagem (por exemplo, contagens normalizadas, densidades de leitura, perfis de densidade de leitura) obtidos a partir de uma fêmea grávida, onde são as contagens a partir de ácido nucleico obtida a partir da mulher grávida.
[00253] Os métodos aqui descritos, por vezes, determinam a presença ou ausência de uma aneuploidia fetal (por exemplo, aneuploidia cromossômica inteiro, aneuploidia cromossômica parcial ou aberração cromossômica segmentar (por exemplo, mosaicismo, deleção e/ou inserção)) para uma amostra de teste a partir de uma fêmea grávida que carrega um feto. Em certas formas de realização, aqui descritos métodos detectar euplidia ou falta de euplidia (não- euplidia) para uma amostra de uma fêmea grávida que carrega um feto. Métodos descritos aqui, por vezes, detectar trissomia para um ou mais cromossomos (por exemplo, cromossomo 13, cromossomo 18, cromossomo 21 ou combinação dos mesmos) ou seu segmento.
[00254] Em algumas formas de realização, a presença ou ausência de uma variação genética (por exemplo, uma aneuploidia fetal) é determinada por um método aqui descrito, por um método conhecido na técnica ou por uma combinação dos mesmos. Presença ou ausência de uma variação genética geralmente é determinada a partir das contagens de leituras de sequência mapeadas para porções de um genoma de referência.
[00255] As densidades de leitura a partir de uma referência, por vezes, são para uma amostra de ácido nucleico a partir da mesma fêmea grávida a partir do qual é obtida uma amostra de teste. Em certas formas de realização, densidades de leitura a partir de uma referência são para uma amostra de ácido nucleico a partir de um ou mais fêmeas grávidas diferentes do que a fêmea a partir do qual foi obtida uma amostra de teste. Em algumas formas de realização, densidades de leitura e/ou perfis de densidade de leitura a partir de um primeiro conjunto de porções formarem um indivíduo de teste são comparados para densidades de leitura e/ou perfis de densidade de leitura de um segundo conjunto de partes, em que o segundo conjunto de porções é diferente do que o primeiro conjunto de porções. Em algumas formas de realização, densidades de leitura e/ou perfis de densidade de leitura a partir de um primeiro conjunto de porções formarem um indivíduo de teste são comparados para densidades de leitura e/ou perfis de densidade de leitura de um segundo conjunto de partes, em que o segundo conjunto de porção é a partir do indivíduo teste ou de um indivíduo de referência que não é indivíduo de teste. Em um exemplo não limitativo, em que um primeiro conjunto de porções é no cromossomo 21 ou segmento do mesmo, um segundo conjunto de porções, muitas vezes, é em outro cromossomo (por exemplo, cromossomo 1, cromossomo 13, cromossomo 14, cromossomo 18, cromossomo 19, segmento da mesma ou combinação dos anteriores). Uma referência, frequentemente, está localizada em um cromossomo ou segmento do mesmo que é, tipicamente, euploide. Por exemplo, cromossomo 1 e cromossomo 19 são, muitas vezes, euploide em fetos, devido a uma elevada taxa de mortalidade fetal precoce associada a aneuploidia do cromossomo 1 e cromossomo 19. Uma medida de incerteza entre as densidades de leitura e/ou perfis de leituras de densidade a partir de um indivíduo de teste e um de referência podem ser gerados e/ou comparação. Presença ou ausência de uma variação genética (por exemplo, aneuploidia fetal), por vezes, é determinada comparando as densidades sem leituras e/ou perfis de densidade de leitura de um teste de um indivíduo para referência.
[00256] Em certas formas de realização, uma referência compreende densidades de leitura e/ou um perfil de leitura para o mesmo conjunto de porções como para um indivíduo de teste, em que as densidades de leitura para a referência são a partir de amostras de um ou mais de referência (por exemplo, amostras de referência, muitas vezes, múltiplas de referência múltipla indivíduos). Uma amostra de referência, muitas vezes, é a partir de um ou mais fêmeas grávidas diferentes do que uma fêmea a partir do qual é obtida uma amostra de teste.
[00257] Uma medida de incerteza para densidades de leitura e/ou os perfis de leitura de um indivíduo de teste e/ou referência pode ser gerada. Em algumas formas de realização, uma medida da incerteza é determinada para densidades de leitura e/ou os perfis de leitura de um indivíduo de teste. Em algumas formas de realização, uma medida da incerteza é determinada para densidades de leitura e/ou leitura dos perfis de um indivíduo de referência. Em algumas formas de realização, uma medida da incerteza é determinada a partir de um perfil de densidade de leitura inteira ou um subconjunto de partes dentro de um perfil de densidade de leitura.
[00258] Em algumas formas de realização, as amostras de referência são euploides para um segmento selecionado de um genoma, e uma medida de incerteza entre um perfil de teste e um perfil de referência é avaliada para o segmento selecionado. Em algumas formas de realização, de uma determinação da presença ou ausência de uma variação genética é de acordo com o número de desvios (por exemplo, as medidas de desvios, MAD) entre um perfil de teste e um perfil de referência de um segmento selecionado de um genoma (por exemplo, um cromossomo, ou um seu segmento). Em algumas formas de realização, a presença de uma variação genética é determinada quando o número de desvios entre um perfil de teste e um perfil de referência é maior do que cerca de 1, superior a cerca de 1,5, maior do que cerca de 2, maior do que cerca de 2,5, maior do que cerca 2,6, maior do que cerca de 2,7, maior do que cerca de 2,8, maior do que cerca de 2,9, maior do que cerca de 3, maior do que cerca de 3,1, maior do que cerca de 3,2, maior do que cerca de 3,3, maior do que cerca de 3,4, maior do que cerca de 3,5, maior do que cerca de 4, maior do que cerca de 5, ou maior do que cerca de 6. Por exemplo, por vezes, um perfil de teste e um perfil de referência diferem por mais de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a presença de uma variação genética é determinada. Em algumas formas de realização, um perfil de teste obtido a partir de uma fêmea grávida é maior do que um perfil de referência em mais de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a presença de uma aneuploidia cromossômica fetal (por exemplo, uma trissomia fetal) é determinada. Um desvio de mais do que três entre um perfil de teste e um perfil de referência de frequência é indicativa de um indivíduo de teste não-euploide (por exemplo, a presença de uma variação genética) para um segmento selecionado de um genoma. Um perfil de teste significativamente maior do que um perfil de referência de um segmento selecionado de um genoma, cuja referência é euploide para o segmento selecionado, às vezes é determinativo de uma trissomia. Em algumas formas de realização, de um perfil de densidade de leitura obtida a partir de uma grávida feminina é menos do que um perfil de referência para um segmento selecionado, por mais de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a presença de uma aneuploidia fetal cromossomo (por exemplo, um monossomia fetal) é determinada. Os perfis de teste significativamente abaixo de um perfil de referência, qual perfil de referência é indicativo de euploidia, às vezes são determinantes de uma monossomia.
[00259] Em algumas formas de realização, a ausência de uma variação genética é determinada quando o número de desvios entre um perfil de teste e o perfil de referência de um segmento selecionado de um genoma é inferior a cerca de 3,5, menos do que cerca de 3,4, menos do que cerca de 3,3, menos do que cerca de 3,2, menos do que cerca de 3,1 menos do que cerca de 3,0, menos do que cerca de 2,9, menos do que cerca de 2,8, menos do que cerca de 2,7, menos do que cerca de 2,6, menos do que cerca de 2,5, menos do que cerca de 2,0, menos do que cerca de 1,5, ou menos do que cerca de 1,0. Por exemplo, por vezes, um perfil de teste difere de um contorno de referência pelo menos de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a ausência de uma variação genética é determinada. Em algumas formas de realização, de um perfil de teste obtida a partir de uma fêmea grávida que difere de um contorno de referência pelo menos de 3 medidas de desvio (por exemplo, 3 Sigma, 3 MAD) e a ausência de uma aneuploidia fetal cromossomo (por exemplo, um euploide fetal) é determinada. Em algumas formas de realização, (por exemplo, desvio de menos do que três entre os perfis de teste e perfis de referência (por exemplo, 3-sigma para o desvio padrão), muitas vezes, é indicativo de um segmento de um genoma que é euploide (por exemplo, ausência de uma variação genética). Uma medida de desvio entre perfis de teste para uma amostra de teste e perfis de referência para um ou mais indivíduos de referência podem ser plotados e visualizados (por exemplo, gráfico de pontuação z).
[00260] Qualquer outra referência adequada pode ser tomada com perfis de teste para determinar a presença ou ausência de uma variação genética (ou da determinação da euploide ou não-euploide) para uma região de teste (por exemplo, um segmento de um genoma que é testada) de uma amostra de teste. Em algumas formas de realização, de uma determinação de fração fetal pode ser decomposta em contagens de leituras de sequência (por exemplo, densidades de leitura) para determinar a presença ou ausência de uma variação genética. Por exemplo, densidades de leitura e/ou perfis de densidade de leituras podem ser normalizados de acordo com a fração do feto antes de uma comparação e/ou determinação de um resultado. Um processo adequado para a quantificação fração fetal pode ser utilizado, exemplos não limitativos dos quais incluem um processo espectrométrico de massa, processo de sequenciamento ou combinação dos mesmos.
[00261] Em algumas formas de realização, uma determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia fetal) é determinada de acordo com uma zona de ligação. Em certas formas de realização, é feita uma chamada (por exemplo, uma chamada a determinação da presença ou ausência de uma variação genética, por exemplo, um resultado) quando um valor (por exemplo, um perfil de densidade de leitura e/ou uma medida de incerteza) ou a recolha de valores cai dentro de um intervalo pré-definido (por exemplo, uma zona, uma zona de chamada). Em algumas formas de realização, de uma zona de ligação é definido de acordo com um conjunto de valores (por exemplo, os perfis de leitura e/ou medidas de incerteza densidade) que são obtidos a partir da mesma amostra do doente. Em certas formas de realização, uma zona de chamada é definida de acordo com uma série de valores que são derivados a partir do mesmo cromossomo ou seu segmento. Em algumas formas de realização, uma zona de chamada com base em uma determinação da variação genética é definida de acordo com uma medida de incerteza (por exemplo, elevado nível de confiança, por exemplo, medida de baixa incerteza) e/ou uma fração fetal.
[00262] Em algumas formas de realização, uma zona de ligação é definida de acordo com uma determinação de uma variação genética e uma fração fetal de cerca de 2,0% ou mias, cerca de 2,5% ou mais, cerca de 3% ou mais, cerca de 3,25% ou mais, cerca de 3,5% ou mais, cerca de 3,75% ou mais, ou cerca de 4,0% ou mais. Por exemplo, em algumas formas de realização, uma chamada é feita que um feto que é aneuploide compreende uma trissomia 21 com base na comparação de um perfil de teste e um perfil de referência, onde uma amostra de teste, a partir do qual o perfil de teste foi derivado, compreende uma determinação de fração fetal de 2% ou mais ou 4% ou mais, para uma amostra de teste obtida a partir de uma fêmea grávida que carrega um feto. Por exemplo, em algumas formas de realização, uma chamada é feita de que um feto é euploide com base em uma comparação entre o perfil de teste e um perfil de referência, onde uma amostra de teste, a partir do qual o perfil de teste foi derivado, compreende uma determinação de fração fetal de 2% ou maior ou 4% ou superior para uma amostra de teste obtida a partir de uma fêmea grávida que carrega um feto. Em algumas formas de realização, uma zona de ligação é definida por um nível de confiança de cerca de 99% ou mais, cerca de 99,1% ou mais, cerca de 99,2% ou mais, cerca de 99,3% ou mais, cerca de 99,4% ou mais, cerca de 99,5% ou mais, cerca de 99,6% ou mais, cerca de 99,7% ou mais, cerca de 99,8% ou mais ou cerca de 99,9% ou mais. Em algumas formas de realização, uma chamada é feita sem a utilização de uma zona de ligação. Em algumas formas de realização, de uma chamada é feita utilizando uma zona de chamada e dados adicionais ou informações. Em algumas formas de realização, uma chamada é feita com base na comparação, sem a utilização de uma zona de ligação. Em algumas formas de realização, de uma chamada é feita com base na inspeção visual de um perfil (por exemplo, inspeção visual de densidades de leitura).
[00263] Em algumas formas de realização, uma zona de chamada é quando uma chamada não é feita. Em algumas formas de realização, uma zona de chamada é definida por um valor ou conjunto de valores que indicam baixa precisão, de alto risco, alta de erro, baixo nível de confiança, elevado grau de incerteza, similares ou uma combinação destes. Em algumas formas de realização, uma zona de chamada é definida, em parte, por uma fração fetal de cerca de 5% ou menos, cerca de 4% ou menos, cerca de 3% ou menos, cerca de 2,5% ou menos, cerca de 2,0% ou menos, sobre 1,5% ou menos, ou cerca de 1,0% ou menos.
[00264] Uma variação genética, por vezes, está associada com a condição médica. Um resultado determinante de uma variação genética é, por vezes, um resultado determinante da presença ou ausência de uma condição (por exemplo, uma condição médica), doença, síndrome, ou anomalia, ou inclui, a detecção de uma condição, doença, síndrome ou anormalidade (por exemplo, exemplos não- limitativos listados na Tabela 1). Em certas formas de realização, de um diagnóstico compreende a avaliação de um resultado. Um resultado determinante da presença ou ausência de uma condição (por exemplo, uma condição médica), doença, síndrome ou anormalidade por métodos aqui descritos podem, por vezes, ser verificado de forma independente por testes complementares (por exemplo, por cariotipagem e/ou amniocentese). A análise e processamento de dados pode fornecer um ou mais resultados. O termo "resultado", tal como aqui utilizado, pode referir-se a um resultado de processamento de dados, que facilita a determinação da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópias). Em certas formas de realização, o termo "resultado", tal como aqui utilizado, refere-se a uma conclusão de que prevê e/ou determina a presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópias). Em certas formas de realização, o termo "resultado", tal como aqui utilizado, refere-se a uma conclusão de que prevê e/ou determina um risco ou a probabilidade da presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópias) em um indivíduo (por exemplo, um feto). Um diagnóstico compreende, por vezes, a utilização de um resultado. Por exemplo, um profissional de saúde pode analisar um resultado e fornecer um diagnóstico com base sobre, ou com base em parte em, o resultado. Em algumas formas de realização, a determinação, a detecção ou diagnóstico de uma condição, síndrome ou anormalidade (por exemplo, listados na Tabela 1) compreende a utilização de um resultado determinante da presença ou ausência de uma variação genética. Em algumas formas de realização, um resultado com base nas leituras de sequência contadas mapeadas ou transformações das mesmas é determinante da presença ou ausência de uma variação genética. Em certas formas de realização, um resultado gerado utilizando um ou mais métodos (por exemplo, os métodos de processamento de dados) aqui descritos é determinante da presença ou ausência de uma ou mais condições, síndromes ou anormalidades listadas na Tabela 1. Em certas formas de realização, um diagnóstico compreende uma determinação de uma presença ou ausência de uma condição, ou síndrome de anormalidade. Muitas vezes, o diagnóstico compreende a determinação de uma variação genética como a natureza e/ou causa de uma condição, ou síndrome de anormalidade. Em certas formas de realização, de um resultado não é um diagnóstico. Um resultado, muitas vezes, compreende um ou mais valores numéricos gerados utilizando um método de tratamento aqui descrito no contexto de um ou mais considerações de probabilidade. Uma consideração de risco ou probabilidade pode incluir, mas não está limitado a: a medida de incerteza, um nível de confiança, sensibilidade, a especificidade, o desvio padrão, o coeficiente de variação (CV) e/ou nível de confiança, pontuações Z, os valores de qui, valores Phi, valores de ploidia, fração equipada fetal, as proporções de área, de nível médio, semelhantes ou suas combinações. Uma consideração de probabilidade pode facilitar a determinação se um indivíduo está em risco de ter, ou que tenha uma variação genética, e um resultado de um determinante da presença ou ausência de uma doença genética, muitas vezes, inclui tal consideração.
[00265] Um resultado, às vezes, é um fenótipo. Um resultado, por vezes, é um fenótipo com um nível associado de confiança (por exemplo, uma medida de incerteza, por exemplo, um feto é positivo para trissomia 21, com um nível de confiança de 99%, um indivíduo de teste é negativo para um câncer associado com uma variação genética a um nível de confiança de 95%). Diferentes métodos de valores de resultados gerando, por vezes, podem produzir diferentes tipos de resultados. Em geral, existem quatro tipos de pontuações possíveis ou chamadas que podem ser feitas com base em valores de resultados gerados utilizando métodos descritos aqui: verdadeiro positivo, falso positivo, verdadeiro negativo e falso negativo. Os termos "pontuação", "pontuações", "chamada" e "chamadas", tal como aqui utilizados, referem-se a calcular a probabilidade de que uma variação genética particular esteja presente ou ausente em um indivíduo/amostra. O valor de uma contagem pode ser utilizado para determinar, por exemplo, uma variação, diferença, ou a razão da leitura de sequência mapeada que pode corresponder a uma variação genética. Por exemplo, calculando uma pontuação positiva para uma variação genética selecionada ou porção de um conjunto de dados, no que diz respeito a um genoma de referência pode levar a uma identificação da presença ou ausência de uma variação genética, que a variação genética, por vezes, está associada com uma condição médica (por exemplo, câncer, pré-eclâmpsia, trissomia, monossomia e semelhantes). Em algumas formas de realização, compreende um resultado uma densidade de leitura, um perfil de densidade de leitura e/ou um gráfico (por exemplo, um mapa do perfil). Nestas formas de realização em que um resultado compreende um perfil, um perfil adequado ou combinação de perfis podem ser utilizados para um resultado. Exemplos não limitativos de perfis que podem ser utilizados para um resultado incluem perfis Pontuação z, perfis de valor-p, perfis de valor de qui, perfis de valor-phi, semelhantes e combinações dos mesmos.
[00266] Um resultado gerado para determinar a presença ou ausência de uma variação genética, por vezes, inclui um resultado nulo (por exemplo, um ponto de dados entre dois conjuntos, um valor numérico com um desvio padrão, que engloba os valores tanto para a presença e a ausência de uma variação genética, um conjunto de dados com um gráfico perfil que não é semelhante ao perfil de parcelas para indivíduos com ou livres da variação genética sendo investigado). Em algumas formas de realização, um resultado indicativo de um resultado nulo é ainda um resultado decisivo, e a determinação pode incluir a necessidade de informação adicional e/ou uma repetição da geração e/ou análise de dados para determinar a presença ou ausência de uma variação genética.
[00267] Um resultado pode ser gerado após a realização de uma ou mais etapas de processamento aqui descritas, em algumas formas de realização. Em certas formas de realização, um resultado é gerado como um resultado de uma das etapas de processamento aqui descritas, e em algumas formas de realização, um resultado pode ser gerado após cada manipulação estatística e/ou matemática de um conjunto de dados ser realizada. Um resultado referente à determinação da presença ou ausência de uma variação genética pode ser expresso de uma forma adequada, a qual forma compreende, sem limitação, uma probabilidade (por exemplo, razão de probabilidades, valor- p), provavelmente, valor no ou para fora de um cluster, valor acima ou abaixo de um valor limite, valor dentro de um intervalo (por exemplo, um intervalo de limite), o valor de uma medida da variância ou de confiança, ou fator de risco, associada com a presença ou ausência de uma variação genética para um indivíduo ou amostra. Em certas formas de realização, a comparação entre amostras permite a confirmação da identidade da amostra (por exemplo, permite a identificação de amostras e/ou amostras repetidas que foram misturadas (por exemplo, erro de rótulo, combinadas e outros semelhantes)).
[00268] Em algumas formas de realização, um resultado compreende um valor acima ou abaixo de um limite predeterminado ou valor de corte e/ou uma medida de incerteza ou um nível de confiança associada com o valor. Em certas formas de realização, de um limite ou valor de corte predeterminado é um nível esperado ou um intervalo de nível esperado. Um resultado também pode descrever um pressuposto utilizado no processamento de dados. Em certas formas de realização, um resultado compreende um valor que cai dentro ou fora de um intervalo predeterminada de valores (por exemplo, um intervalo de limite) e do grau de incerteza associada ou confiança para que o valor estar dentro ou fora do intervalo. Em algumas formas de realização, um resultado compreende um valor que é igual a um valor predeterminado (por exemplo, igual a um, igual à zero), ou é igual a um valor dentro de um intervalo de valores predeterminado, e o seu nível de incerteza ou de confiança associados para esse valor sendo iguais ou dentro ou fora de um intervalo. Um resultado, às vezes, é representado graficamente como um gráfico (por exemplo, o gráfico de perfil).
[00269] Como mencionado acima, um resultado pode ser caracterizado como um verdadeiro positivo, verdadeiro negativo, falso positivo ou falso negativo. O termo "positivos verdadeiros", tal como aqui utilizado, refere-se a um indivíduo corretamente diagnosticado como tendo uma variação genética. O termo "falso positivo", como aqui utilizado, refere-se a um indivíduo erroneamente identificado como tendo uma variação genética. O termo "verdadeiro negativo", como aqui utilizado, refere-se a um indivíduo corretamente identificado como não tendo uma variação genética. O termo "falso negativo", como aqui utilizado, refere-se a um indivíduo erroneamente identificado como não tendo uma variação genética. Duas medidas de desempenho para qualquer método dado podem ser calculadas com base nas razões destas ocorrências: (i) um valor de sensibilidade, que geralmente é a fração de positivos previu que estejam corretamente identificados como sendo positivos; e (ii) um valor de especificidade, que geralmente é a fração de negativos preditos corretamente identificados como sendo negativo.
[00270] Em certas formas de realização, um ou mais de sensibilidade, especificidade e/ou nível de confiança são expressos como uma porcentagem. Em algumas formas de realização, a porcentagem, de forma independente para cada variável, é maior do que cerca de 90% (por exemplo, cerca de 90, 91, 92, 93, 94, 95, 96, 97, 98 ou 99%, ou maior do que 99% (por exemplo, cerca de 99,5%, ou mais, cerca de 99,9% ou mais, cerca de 99,95% ou mais, cerca de 99,99% ou mais)). Coeficiente de variação (CV), em algumas formas de realização, é expresso como uma porcentagem, e, por vezes, a porcentagem é cerca de 10% ou menos (por exemplo, cerca de 10, 9, 8, 7, 6, 5, 4, 3, 2 ou 1%, ou menos do que 1% (por exemplo, cerca de 0,5% ou menos, cerca de 0,1% ou menos, cerca de 0,05% ou menos, cerca de 0,01% ou menos)). Uma probabilidade (por exemplo, que um resultado particular não é devido ao acaso), em certas formas de realização, é expresso como uma Pontuação Z, um valor-p, ou os resultados de um teste-t. Em algumas formas de realização, uma variação medida, intervalo de confiança, sensibilidade, especificidade e semelhantes (por exemplo, referidos coletivamente como parâmetros de confiança) para um resultado pode ser gerado utilizando um ou mais manipulações de processamento de dados aqui descritas. Exemplos específicos de gerar resultados e os níveis de confiança associados são descritos na seção de Exemplos e no pedido de patente internacional no PCT/US12/59123 (WO2013/052913), todo o conteúdo do qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos.
[00271] O termo "sensibilidade", tal como aqui utilizado, refere-se ao número de verdadeiros positivos divididos pelo número de verdadeiros positivos mais o número de falsos negativos, em que a sensibilidade (SENS) pode estar dentro do intervalo de 0 < sens < 1. O termo "especificidade", tal como aqui utilizado, refere-se ao número de verdadeiros negativos divididos pelo número de verdadeiros negativos mais o número de falsos positivos, em que a sensibilidade (SPEC) pode estar dentro do intervalo de 0 < spec <1. Em algumas formas de realização, de um método que tem sensibilidade e especificidade igual a um, ou 100%, ou perto de um (por exemplo, entre cerca de 90% a cerca de 99%), por vezes, é selecionada. Em algumas formas de realização, um método que tem uma sensibilidade igual a 1, ou 100% é selecionado, e em certas formas de realização, um método que tem uma sensibilidade de cerca de 1 é selecionado (por exemplo, uma sensibilidade de cerca de 90%, uma sensibilidade de cerca de 91%, uma sensibilidade de cerca de 92%, uma sensibilidade de cerca de 93%, uma sensibilidade de cerca de 94%, uma sensibilidade de cerca de 95%, uma sensibilidade de cerca de 96%, uma sensibilidade de cerca de 97%, uma sensibilidade de cerca de 98%, ou um sensibilidade de cerca de 99%). Em algumas formas de realização, um método que tenha uma especificidade igual a 1, ou 100% é selecionado, e em certas formas de realização, um método que tem uma especificidade próximo 1 é selecionado (por exemplo, uma especificidade de cerca de 90%, uma especificidade de cerca de 91%, uma especificidade de cerca de 92%, uma especificidade de cerca de 93%, uma especificidade de cerca de 94%, uma especificidade de cerca de 95%, uma especificidade de cerca de 96%, uma especificidade de cerca de 97%, uma especificidade de cerca de 98%, ou um especificidade de cerca de 99%).
[00272] Em algumas formas de realização, a presença ou ausência de uma variação genética (por exemplo, cromossomo aneuploidia) é determinada para um feto. Em tais formas de realização, a presença ou ausência de uma variação genética do feto (por exemplo, cromossomo aneuploidia fetal) é determinada.
[00273] Em certas formas de realização, a presença ou ausência de uma variação genética (por exemplo, cromossomo aneuploidia) é determinada para uma amostra. Em tais formas de realização, a presença ou ausência de uma variação genética no ácido nucleico da amostra (por exemplo, cromossomo aneuploidia) é determinada. Em algumas formas de realização, uma variação detectada ou não detectada reside no ácido nucleico da amostra a partir de uma fonte, mas não na amostra de ácido nucleico a partir de outra fonte. Exemplos não limitantes de fontes incluem o ácido nucleico placentário, ácido nucleico fetal, ácido nucleico materno, o ácido nucleico de células de câncer, o ácido nucleico da célula não cancerosa, semelhantes e suas combinações. Nos exemplos não limitativos, uma variação genética particular detectada ou não detectada (i) reside no ácido nucleico da placenta, mas não em ácido nucleico fetal e não no ácido nucleico materno; (ii) reside no ácido nucleico fetal, mas não no ácido nucleico materno; ou (iii) reside no ácido nucleico materno, mas não no ácido nucleico fetal.
[00274] A presença ou ausência de uma variação genética e/ou condição médica associada (por exemplo, um resultado) é, muitas vezes, fornecida por um módulo de resultado. A presença ou ausência de uma variação genética (por exemplo, uma aneuploidia, uma aneuploidia fetal, uma variação do número de cópias) é, em algumas formas de realização, identificada por um módulo de resultado ou de uma máquina que compreende um módulo de resultado. Um módulo de resultado pode ser especializado para determinar uma variação genética específica (por exemplo, uma trissomia, trissomia 21, trissomia 18). Por exemplo, um módulo de resultado que identifica uma trissomia 21 pode ser diferente ou distinto de um módulo de resultado que identifica uma trissomia 18. Em algumas formas de realização, um módulo de resultado ou de uma máquina que compreende um módulo de resultado é necessário para identificar uma variação e/genética ou um determinante resultado de uma variação genética (por exemplo, uma aneuploidia, uma variação do número de cópias). Em certas formas de realização, um resultado é transferido a partir de um módulo de resultado de um módulo de visualização, em que um resultado é fornecido pelo módulo de exibição.
[00275] Uma variação genética ou um resultado determinante de uma variação genética identificada por métodos aqui descritos podem ser verificadas por testes adicionais (por exemplo, por sequenciamento de alvo de ácido nucleico materno e/ou fetal). Um resultado normalmente é fornecido para um profissional de saúde (por exemplo, técnico de laboratório ou gerente; médico ou assistente). Em certas formas de realização, um resultado é fornecido em um meio visual adequado (por exemplo, um periférico ou componente de uma máquina, por exemplo, uma impressora ou monitor). Em algumas formas de realização, um resultado determinante da presença ou ausência de uma variação genética é fornecido para um profissional de saúde, sob a forma de um relatório, e em certas formas de realização o relatório compreende um visor de um valor de resultado e um parâmetro de confiança associado. Geralmente, um resultado pode ser exibido em um formato adequado que facilita a determinação da presença ou ausência de uma variação genética e/ou condição médica. Exemplos de formatos apropriados para uso de comunicação e/ou exibir conjuntos de dados ou relatar um resultado não limitativos incluem dados digitais, um gráfico, um gráfico 2D, um gráfico 3D e gráfico 4D, uma imagem (por exemplo, um jpg, bitmap (por exemplo, bmp), pdf, tiff, gif, raw, png, semelhantes ou formato adequado), um pictograma, um gráfico, uma tabela, um gráfico de barras, um gráfico de pizza, um diagrama, um fluxograma, um gráfico de dispersão, um mapa, um histograma, um gráfico de densidade, um gráfico da função, um diagrama do circuito, um diagrama de blocos, um diagrama de constelação, um diagrama de contorno, uma cartograma, gráfico de aranha, diagrama de Venn, nomograma e semelhantes, e combinação dos anteriores. Vários exemplos de representações de resultados são mostrados nos desenhos e são descritos nos Exemplos.
[00276] A geração de um resultado pode ser vista como uma transformação dos dados de leitura de sequência ácido nucleico, ou semelhante, para uma representação de ácido nucleico celular de um indivíduo, em certas formas de realização. Por exemplo, a análise de sequência de ácido nucleico que leitura a partir de um indivíduo e a geração de um perfil de cromossomo e/ou o resultado pode ser visto como uma transformação relativamente pequena fragmentos da leitura de sequência para uma representação de estrutura relativamente grande cromossomo. Em algumas formas de realização, um resultado resulta de uma transformação de leitura de sequência a partir de um indivíduo (por exemplo, uma fêmea grávida), em uma representação de uma estrutura existente (por exemplo, um genoma, um cromossomo ou seu segmento) presente no indivíduo (por exemplo, um materno e/ou ácido nucleico fetal). Em algumas formas de realização, um resultado compreende uma transformação de leitura de sequência a partir de um primeiro indivíduo (por exemplo, uma fêmea grávida), em uma representação compósito de estruturas (por exemplo, um genoma, um cromossomo ou seu segmento), e uma segunda transformação de compósito representação que produz uma representação de uma estrutura presente em um primeiro indivíduo (por exemplo, uma fêmea grávida) e/ou um segundo indivíduo (por exemplo, um feto).
Resultado Pertencente a Cromossomos Sexuais
[00277] Em algumas formas de realização, um resultado refere-se a uma variação genética de um cromossomo sexual. As variações genéticas de cromossomos sexuais são descritas, por exemplo, na Publicação de Pedido de Patente Internacional No WO 2013/192562, todo o conteúdo da qual é aqui incorporado por referência, incluindo todos os textos, tabelas, equações e desenhos. Em algumas formas de realização, um resultado é uma determinação de cariótipo de cromossomo sexual, detecção de uma aneuploidia cromossômica sexual e/ou determinação do sexo fetal. Algumas condições de aneuploidia de cromossomo sexual (SCA) incluem, mas não estão limitados a, síndrome de Turner [45,X], Trissomia X [47,XXX], síndrome de Klinefelter [47,XXY] e síndrome [47,XYY] (por vezes referida como síndrome de Jacobs).
[00278] As avaliações das variações dos cromossomos sexuais, em algumas formas de realização, são baseadas em uma segregação de transformações de contagem de leituras de sequência de cromossomos X e cromossomo Y. As transformações de contagem de leitura de sequência podem incluir, por exemplo, representações do cromossomo X e representações do cromossomo Y e/ou Pontuações Z baseadas em tais representações. Um gráfico bidimensional de transformações de contagem de leituras de sequência de nucleotídeos (por exemplo, as pontuações Z com base em contagens de leitura normalizadas por PERUN ou contagens de leitura normalizadas por componentes principais) para cromossomo X contra o cromossomo Y para um grupo de amostras com vários cariótipos (por exemplo, XX, XY, XXX, X, XXY, XYY) gera um campo planar de pontos do gráfico que podem ser esculpidos em regiões, cada um específico para um cariótipo particular. Determinação de um cariótipo de cromossomo sexual, por exemplo, para uma dada amostra pode ser conseguida por meio da determinação em que a região de campo plana do ponto do gráfico para que a amostra caia.
[00279] Certos métodos aqui descritos podem ser úteis para a geração de gráficos possuindo regiões bem definidas (por exemplo, com fronteiras nítidas, de alta resolução) para determinadas variações no cariótipo. Métodos que podem ajudar a gerar gráficos de alta resolução incluem transformações de contagem de leituras de sequência, seleção de porções informativas (ou seja, contentores) para cromossomo X e cromossomo Y, estabelecimento de não-envio (ou seja, zonas de "nenhuma chamada"), e normalização adicional de níveis do cromossomo X e cromossomo Y. A normalização das leituras de sequência e nova normalização de níveis são aqui descritos e pode incluir Normalização por PERUN e/ou normalização de componente principal, por exemplo, das leituras de sequência mapeadas ao cromossomo X e/ou cromossomo Y e/ou níveis (por exemplo, representações do cromossomo) para cromossomo X e/ou Y. Seleção de porções informativas para cromossomo X e cromossomo Y é descrita, por exemplo, na Publicação de Pedido de Patente Internacional No WO 2013/192562, e pode incluir, por exemplo, a avaliação dos parâmetros de filtração, tal como parâmetros de validação transversal, mapeabilidade, receptibilidade e/ou a separação do sexo masculino contra feminino.
Utilização dos Resultados
[00280] Um profissional de saúde ou outra pessoa qualificada, que recebe um relatório que compreende um ou mais resultados determinantes da presença ou ausência de uma variação genética pode utilizar os dados exibidos no relatório para fazer uma chamada sobre o estado do indivíduo de teste ou paciente. O profissional de saúde pode fazer uma recomendação com base no resultado fornecido, em algumas formas de realização. Um profissional de saúde a ou qualificado pode fornecer um indivíduo de teste ou paciente com uma chamada ou marcar com relação à presença ou ausência da variação genética com base no valor de resultado ou valores e parâmetros de confiança associados fornecidos em um relatório, em algumas formas de realização. Em certas formas de realização, uma pontuação ou chamada é feita manualmente por um médico profissional individual ou qualificado, por meio da observação visual do relatório previsto. Em certas formas de realização, uma pontuação ou chamada é feita por uma rotina automatizada, às vezes incorporado em software, e revisto por um médico profissional individual ou qualificados para a exatidão antes de fornecer informações para um indivíduo de teste ou paciente. O termo "receber um relatório" como aqui utilizado refere-se à obtenção, por um meio de comunicação, uma representação escrita e/ou gráfica compreendendo um resultado, que após análise permite uma saúde indivíduo qualificado profissional ou outra para fazer uma determinação quanto à presença ou ausência de uma variação genética em um indivíduo de teste ou ao paciente. O relatório pode ser gerado por um computador ou por entrada de dados humanos, e pode ser comunicada utilizando os meios eletrônicos (por exemplo, através da internet, através de um computador, através de fax, a partir de uma localização de rede para outra localização no mesmo ou em diferentes locais físicos), ou por outro método de envio ou recepção de dados (por exemplo, serviço de correio, serviço de correio e semelhantes). Em algumas formas de realização, o resultado é transmitido para um profissional em um meio adequado, incluindo os cuidados de saúde, sem limitação, no documento, ou forma verbal, arquivo. O arquivo pode ser, por exemplo, mas não limitado a, um arquivo auditivo, um arquivo de leitura por computador, um arquivo de papel, um arquivo de laboratório ou um arquivo de registros médicos.
[00281] O termo "proporcionar um resultado" e seus equivalentes gramaticais, tal como aqui utilizado, pode também referir-se a um método para a obtenção de tal informação, incluindo, sem limitação, a obtenção de informações a partir de um laboratório (por exemplo, um arquivo de laboratório). Um arquivo de laboratório pode ser gerado por um laboratório que efetuou um ou mais testes ou uma ou mais etapas de processamento de dados para determinar a presença ou a ausência da condição médica. O laboratório pode ser no mesmo local ou localização diferente (por exemplo, em outro país) como o pessoal de identificação da presença ou ausência da condição médica a partir do arquivo de laboratório. Por exemplo, o arquivo de laboratório pode ser gerado em um local e transmitido para outra posição em que a informação aí vai ser transmitida ao indivíduo fêmea grávida. O arquivo de laboratório pode ser em forma tangível ou em formato eletrônico (por exemplo, suporte informático), em certas formas de realização.
[00282] Em algumas formas de realização, um resultado pode ser fornecido a um profissional de saúde, médico ou pessoa qualificada a partir de um laboratório e o profissional de saúde, médico ou indivíduo qualificado pode fazer um diagnóstico com base no resultado. Em algumas formas de realização, um resultado pode ser fornecido a um profissional de saúde, médico ou pessoa qualificada a partir de um laboratório e do profissional de saúde, médico ou indivíduo qualificado pode fazer um diagnóstico baseado, em parte, sobre os resultados juntamente com os dados adicionais e/ou informações e outros resultados.
[00283] O profissional de saúde ou indivíduo qualificado pode fornecer uma recomendação apropriada com base no resultado ou resultados fornecidos no relatório. Exemplos de recomendações que podem ser fornecidas com base no relatório de resultados fornecidos não limitando inclui, cirurgia, radioterapia, quimioterapia, aconselhamento genético, soluções de tratamento depois do nascimento (por exemplo, planejamento de vida, cuidados assistidos em longo prazo, medicamentos, tratamentos sintomáticos), rescisão da gravidez, transplante de órgãos, transfusão de sangue, similares ou combinações dos anteriores. Em algumas formas de realização, a recomendação é dependente do resultado de com base na classificação fornecida (por exemplo, síndrome de Down, síndrome de Turner, condições médicas associadas com variações genéticas em T13, condições médicas associadas com variações genéticas em T18).
[00284] A equipe de laboratório (por exemplo, um gestor de laboratório) pode analisar valores (por exemplo, perfis de teste, perfis de referência, nível de desvio) subjacentes a uma determinação da presença ou ausência de uma variação genética (ou da determinação de euploide ou não-euploide para uma região de teste). Para chamadas relativas à presença ou ausência de uma variação genética que estão perto ou questionáveis, o pessoal de laboratório pode solicitar novamente o mesmo teste, e/ou pedir um teste diferente (por exemplo, cariótipo e/ou amniocentese no caso de determinações aneuploidias fetais), que utiliza o mesmo ou diferente ácido nucleico da amostra a partir de um indivíduo de teste.
Variações Genéticas e Condições Médicas
[00285] A presença ou ausência de uma variação genética pode ser determinada utilizando um método, aparelho ou equipamento aqui descritos. Em certas formas de realização, a presença ou ausência de uma ou mais variações genéticas é determinada de acordo com um resultado previsto através de métodos, máquinas e dispositivos aqui descritos. Uma variação genética é geralmente um fenótipo genético particular presente em certos indivíduos, e, muitas vezes, uma variação genética está presente em uma subpopulação estatisticamente significativa de indivíduos. Em algumas formas de realização, uma variação genética é uma anormalidade do cromossomo (por exemplo, aneuploidia, a duplicação de um ou mais cromossomos, a perda de um ou mais cromossomos), anormalidade do cromossomo parcial ou mosaicismo (por exemplo, perda ou ganho de um ou mais segmentos de um cromossomo), translocações, inversões, cada uma das quais é descrita em maior detalhe aqui. Exemplos não limitativos de variações genéticas incluem uma ou mais deleções (por exemplo, micro-deleções), duplicações (por exemplo, micro-duplicações), inserções, mutações, polimorfismos (por exemplo, polimorfismos de nucleotídeo único), fusões, repetições (por exemplo, repetições em tandem curtas), locais de metilação distintos, padrões de metilação distintos, semelhantes e suas combinações. Uma inserção, repetição, deleção, duplicação, mutação ou polimorfismo pode ser de qualquer comprimento, e em algumas formas de realização, é de cerca de uma base ou par de bases (pb) a cerca de 250 megabases (Mb) de comprimento. Em algumas formas de realização, uma inserção, repetição, deleção, duplicação, mutação ou polimorfismo é de cerca de uma base ou par de bases (pb) a cerca de 50.000 quilobases (kb) de comprimento (por exemplo, cerca de 10 pb, 50 pb, 100 pb, 500 pb, 1 kb, 5 kb, 10kb, 50 kb, 100 kb, 500 kb, 1000 kb, 5000 KB ou 10.000 kb de comprimento).
[00286] Uma variação genética é, por vezes, uma deleção. Em certas formas de realização, uma deleção é uma mutação (por exemplo, uma aberração genética) em que uma parte de um cromossomo ou de uma sequência de DNA está em falta. Uma deleção é, muitas vezes, a perda de material genético. Qualquer número de nucleotídeos pode ser excluído. Uma eliminação pode compreender a deleção de um ou mais cromossomos inteiros, um segmento de um cromossomo, um alelo, um gene, um intron, um exon, qualquer região não codificante, qualquer região de codificação, um seu segmento ou uma sua combinação. A eliminação pode compreender uma microdeleção. A eliminação pode incluir a exclusão de uma única base.
[00287] Uma variação genética é, por vezes, uma duplicação genética. Em certas formas de realização, uma duplicação é uma mutação (por exemplo, uma aberração genética) em que uma parte de um cromossomo ou de uma sequência de DNA é copiada e inserida de volta ao genoma. Em certas formas de realização, uma duplicação genética (por exemplo, a duplicação) é a duplicação de uma região de DNA. Em algumas formas de realização, uma duplicação é uma sequência de ácido nucleico que é repetido, muitas vezes, em conjunto, dentro de um genoma ou cromossomo. Em algumas formas de realização, uma duplicação pode compreender uma cópia de um ou mais cromossomos inteiros, um segmento de um cromossomo, um alelo, um gene, um intron, um exon, qualquer região não codificante, qualquer região de codificação, seu segmento ou uma sua combinação. Uma duplicação pode compreender um micro-duplicação. A duplicação compreende, por vezes, uma ou mais cópias de um ácido nucleico duplicado. Uma duplicação, por vezes, é caracterizada como uma região genética repetida uma ou mais vezes (por exemplo, repetida 1, 2, 3, 4, 5, 6, 7, 8, 9 ou 10 vezes). Duplicações podem variar de pequenas regiões (em milhares de pares de bases) para cromossomos completos, em alguns casos. Duplicações ocorrem, frequentemente, como resultado de um erro no processo de recombinação homóloga, ou devido a um evento de retrotransposões. Duplicações têm sido associadas a certos tipos de doenças proliferativas. As duplicações podem ser caracterizadas utilizando micro arranjos genômicos ou hibridização genética comparativa (CGH).
[00288] Uma variação genética é, por vezes, uma inserção. Uma inserção é, por vezes, a adição de um ou mais pares de bases de nucleotídeos em uma sequência de ácido nucleico. Uma inserção é, por vezes, um microinsertion. Em certas formas de realização, de uma inserção compreende a adição de um segmento de um cromossomo em um genoma, cromossomo, ou seu segmento. Em certas formas de realização, de uma inserção compreende a adição de um alelo, um gene, um intron, um exon, qualquer região não codificante, qualquer região de codificação, do mesmo segmento ou uma sua combinação em um genoma ou seu segmento. Em certas formas de realização, de uma inserção compreende a adição (por exemplo, inserção) de ácido nucleico de origem desconhecida em um genoma, cromossomo, ou seu segmento. Em certas formas de realização, de uma inserção compreende a adição (por exemplo, inserção) de uma única base.
[00289] Tal como é aqui utilizado, uma "variação do número de cópia", geralmente, é uma classe ou tipo de variação genética ou aberração cromossômica. Uma variação do número de cópias pode ser uma deleção (por exemplo, micro-supressão), duplicação (por exemplo, um micro- duplicação) ou inserção (por exemplo, um micro-inserção). Muitas vezes, o prefixo "micro" tal como aqui utilizado, por vezes, é um segmento de ácido nucleico inferior a 5 Mb de comprimento. Uma variação do número de cópias pode incluir uma ou mais deleções (por exemplo, micro- supressão), duplicações e/ou inserções (por exemplo, um micro-duplicação, micro-inserção) de um segmento de um cromossomo. Em certas formas de realização, uma duplicação compreende uma inserção. Em certas formas de realização, uma inserção é uma duplicação. Em certas formas de realização, de uma inserção não é uma duplicação.
[00290] Em algumas realizações, a variação do número de cópia é uma variação do número de cópia fetal. Muitas vezes, uma variação do número de cópias fetal é uma variação de número de cópias no genoma de um feto. Em algumas formas de realização, uma variação do número de cópias é uma variação do número de cópias materno e/ou fetal. Em certas formas de realização, uma variação do número de cópias materno e/ou do feto é uma variação de número de cópias no genoma de uma fêmea grávida (por exemplo, um indivíduo do sexo feminino tendo um feto), um indivíduo do sexo feminino que deu à luz ou uma capaz fêmea de rolamento de um feto. Uma variação do número de cópias pode ser uma variação do número de cópias heterozigótica em que a variação (por exemplo, uma duplicação ou deleção) está presente em um alelo de um genoma. Uma variação do número de cópias pode ser uma variação do número de cópias homozigóticas em que a variação está presente em ambos os alelos de um genoma. Em algumas formas de realização, a variação do número de cópia é uma variação de número de cópias fetal de heterozigotos ou homozigotos. Em algumas formas de realização, a variação do número de cópia é uma variação do número de cópia maternal e/ou fetal heterozigoto ou homozigoto. Uma variação do número de cópias, por vezes, está presente em um genoma materno e fetal de um genoma, um genoma materno e não um genoma fetal, ou um genoma fetal e não um genoma materno.
[00291] "Ploidia" é uma referência ao número de cromossomos presentes em um feto ou na mãe. Em certas formas de realização, "Ploidia" é o mesmo que "ploidia do cromossomo". Nos seres humanos, por exemplo, cromossomos autossômicos estão, frequentemente, presentes em pares. Por exemplo, na ausência de uma variação genética, a maioria dos seres humanos tem dois de cada cromossomo autossômico (por exemplo, cromossomos 1-22). A presença do complemento normal de 2 cromossomos autossômicos em um ser humano é, muitas vezes, referida como euploide ou diploide. "Microploidia" é similar em sentido a ploidia. "Microploidia", muitas vezes, refere-se à ploidia de um segmento de um cromossomo. O termo "microploidia", por vezes, é uma referência à presença ou ausência de uma variação do número de cópia (por exemplo, uma supressão, duplicações e/ou uma inserção) dentro de um cromossomo (por exemplo, uma deleção homozigótica ou heterozigótica, a duplicação, ou inserção, o como ou ausência dela).
[00292] Em certas formas de realização, a microploidia de um feto corresponde a microploidia da mãe do feto (por exemplo, o indivíduo fêmea grávida). Em certas formas de realização, a microploidia de um feto corresponde a microploidia da mãe do feto e a mãe e ambos, mãe e feto, carregam a mesma variação do número de cópia de heterozigotos, variação do número de cópia de homozigotos ou ambos são euploides. Em certas formas de realização, a microploidia de um feto é diferente da microploidia da mãe do feto. Por exemplo, às vezes a microploidia de um feto é para uma variação do número de cópias de heterozigoto, a mãe é para uma variação do número de cópias de homozigoto e a microploidia do feto não corresponde (por exemplo, não é igual) a microploidia da mãe para a especificada variação de número de cópias.
[00293] Uma variação genética para a qual a presença ou ausência é identificada para um indivíduo, está associada a uma condição médica, em certas formas de realização. Assim, a tecnologia aqui descrita pode ser utilizada para identificar a presença ou ausência de uma ou mais variações genéticas que estão associados com uma condição médica ou estado médico. Exemplos não limitativos de condições médicas incluem os que estão associados com deficiência mental (por exemplo, Síndrome de Down), aberrante de células-proliferação (por exemplo, câncer), a presença de um ácido nucleico do microrganismo (por exemplo, vírus, bactéria, fungo, levedura), e pré- eclâmpsia.
[00294] Exemplos de variações genéticas não limitativas, condições médicas e estados são descritos a seguir. Sexo fetal
[00295] Em algumas formas de realização, a previsão de um sexo fetal ou distúrbio relacionado com o sexo (por exemplo, aneuploidia do cromossomo sexual) pode ser determinado por um método, aparelho e/ou equipamento aqui descritos. A determinação do sexo, em geral, baseia-se em um cromossomo sexual. Nos seres humanos, existem dois cromossomos sexuais, os cromossomos X e Y. O cromossomo Y contém um gene, SRY, que desencadeia o desenvolvimento embrionário como um macho. Os cromossomos Y de seres humanos e outros mamíferos também conter outros genes necessários para a produção normal do esperma. Indivíduos com XX são do sexo feminino e XY são variações do sexo masculino e não limitativo, muitas vezes, referida como aneuploidias dos cromossomos sexuais, incluem X0, XYY, XXX e XXY. Em certas formas de realização, os machos têm dois cromossomos X e um cromossomo Y (XXY; Síndrome de Klinefelter), ou um cromossomo X e dois cromossomos Y (síndrome de XYY, síndrome Jacobs), e algumas fêmeas têm três cromossomos X (XXX; Trissomia X) ou um único cromossomo X em vez de dois (X0; Síndrome de Turner). Em certas formas de realização, apenas uma porção de células de um indivíduo são afetadas por uma aneuploidia cromossômica sexual, que pode ser referido como um mosaicismo (por exemplo, Turner mosaicismo). Outros casos incluem aqueles onde SRY está danificado (levando a uma fêmea XY), ou copiado para o X (levando a um macho XX).
[00296] Em certos casos, pode ser benéfico determinar o sexo de um feto in utero. Por exemplo, um paciente (por exemplo, a fêmea grávida) com uma história familiar de um ou mais distúrbios ligados ao sexo pode desejar determinar o sexo do feto que ela carrega para ajudar a avaliar o risco de o feto herdar tal distúrbio. Os distúrbios ligados ao sexo incluem, sem limitação, distúrbios ligados ao X e ligados ao Y. Os distúrbios ligados ao X incluem distúrbios dominantes ligados ao X recessivo e ligado ao X. Exemplos de distúrbios ligado ao X recessivo incluem, sem limitação, doenças imunológicas (por exemplo, doença crônica granulomatosa (CYBB), síndrome de Wiskott-Aldrich, imunodeficiência combinada severa ligada ao X, agamaglobulinemia ligada ao X, síndrome de hiper-IgM tipo 1, IPEX, doença linfoproliferativa ligada ao X, deficiência de properdina), doenças hematológicas (por exemplo, hemofilia A, hemofilia B, anemia sideroblástica ligada ao X), distúrbios endócrinos (por exemplo, síndrome de insensibilidade andrógena/doença de Kennedy, síndrome KAL1 Kallmann, hipoplasia adrenal congênita ligada ao X), doenças metabólicas (por exemplo, deficiência de transcarbamilase, ornitina, síndrome de oculocerebrorrenal, adrenoleucodistrofia, deficiência de glicose-6-fosfato desidrogenase, deficiência de piruvato desidrogenase, doença de Danon/doença de armazenamento de glicogênio tipo IIb, doença de Fabry, síndrome de Hunter, síndrome de Lesch-Nyhan, doença de Menkes/síndrome do corno occipital), distúrbios do sistema nervoso (por exemplo, síndrome de Lowry Coffin, síndrome de MASA, síndrome de atraso mental de talassemia alfa ligada ao X, síndrome de retardo mental de Siderius ligada ao X, cegueira de cor, albinismo ocular, doença de Norrie, choroideremia, doença de Charcot-Marie- Tooth (CMTX2-3), doença de Pelizaeus-Merzbacher, SMAX2), distúrbios relacionados a pele e tecidos (por exemplo, disqueratose congênita, displasia hipoidrótica ectodérmica (EDA), ictiose ligada ao X, distrofia corneana endotelial ligada ao X), distúrbios neuromusculares (por exemplo, distrofia muscular de Becker/Duchenne, miopatia centronuclear (MTM1), síndrome de Conradi-Hijnermann, Emery-Dreifuss, distrofia muscular 1), distúrbios urológicos (por exemplo, síndrome de Alport, doença de Dent, diabetes insípida nefrogênica ligada ao X), doenças ósseas/dente (por exemplo, AMELX Amelogênese imperfeita), e outros distúrbios (por exemplo, síndrome de Barth, síndrome de McLeod, síndrome de Smith-Fineman-Myers, síndrome de Simpson-Golabi-Behmel, síndrome de Mohr-Tranebjaerg, síndrome de Nasodigitoacustica). Exemplos de doenças dominantes ligadas ao X incluem, sem limitação, hipofosfatemia ligada ao X, hipoplasia dérmica focal, síndrome do X Frágil, síndrome de Aicardi, incontinência pigmentar, síndrome de Rett, síndrome de CHILD, síndrome de Lujan-Fryns e síndrome de Orofaciodigitais 1. Exemplos de distúrbios ligados ao Y incluem, sem limitação, infertilidade masculina, retinite pigmentosa e azoospermia.
Anormalidades Cromossômicas
[00297] Em algumas formas de realização, a presença ou ausência de uma anomalia de cromossomo fetal pode ser determinada utilizando um método, aparelho e/ou equipamento aqui descritos. As anormalidades cromossômicas incluem, sem limitação, um ganho ou perda de um cromossomo inteiro ou uma região de um cromossomo que compreende um ou mais genes. As anormalidades cromossômicas incluem monossomias, trissomias, polissomias, perda de heterozigosidade, translocações, deleções e/ou duplicação de uma ou mais sequências de nucleotídeos (por exemplo, um ou mais genes), incluindo deleções e duplicações causadas por translocações desequilibradas. O termo "anomalia cromossômica" ou "aneuploidia", tal como aqui utilizado, refere-se a um desvio entre a estrutura do cromossomo de indivíduo e um cromossomo homólogo normal. O termo "normal" refere-se ao cariótipo predominante ou padrão de bandas encontradas em indivíduos saudáveis de uma espécie em particular, por exemplo, um genoma euploide (por exemplo, diploide em seres humanos, por exemplo, 46, XX ou 46, XY). Uma vez que diferentes organismos têm complementos cromossômicos amplamente variados, o termo "aneuploidia" não se refere a um determinado número de cromossomos, mas sim para a situação em que o teor cromossomo dentro de uma dada célula ou células de um organismo é anormal. Em algumas formas de realização, o termo "aneuploidia" aqui refere-se a um desequilíbrio de material genético causado por uma perda ou ganho de um cromossomo inteiro, ou parte de um cromossomo. A "Aneuploidia" pode referir-se a uma ou mais deleções e/ou inserções de um segmento de um cromossomo. O termo "euploide", em algumas formas de realização, refere-se um complemento normal de cromossomos.
[00298] O termo "monossomia", tal como aqui utilizado, refere-se à falta de um cromossomo do complemento normal. A monossomia parcial pode ocorrer em translocações ou deleções desequilibradas, em que apenas um segmento do cromossomo está presente em uma única cópia. Monossomia dos cromossomos sexuais (45, X) causa a síndrome de Turner, por exemplo. O termo "dissomia" refere-se à presença de duas cópias de um cromossomo. Para os organismos, tal como os seres humanos que possuem duas cópias de cada cromossomo (aqueles que são diploides ou "euploides"), dissomia é a condição normal. Para os organismos que normalmente têm três ou mais cópias de cada cromossomo (aqueles que são triplóides ou acima), dissomia é um estado de cromossomo aneuploide. Em dissomia uniparental, ambas as cópias do cromossomo vêm do mesmo pai (sem qualquer contribuição do outro progenitor).
[00299] O termo "trissomia", tal como aqui utilizado, refere-se à presença de três cópias, em vez de duas cópias, de um cromossomo particular. A presença de um cromossomo 21 extra, que é encontrado na síndrome de Down em humanos, é referida como "Trissomia 21". A Trissomia 18 e trissomia 13 são duas outras trissomias autossômicas humanas. Trissomia de cromossomos sexuais pode ser visto nas fêmeas (por exemplo, 47, XXX em Síndrome de X Triplo) ou machos (por exemplo, 47, XXY na síndrome de Klinefelter, ou 47, XYY na Síndrome de Jacobs). Em algumas formas de realização, uma trissomia é uma duplicação de todos ou mais de um autossoma. Em certas formas de realização, uma trissomia é uma aneuploidia cromossômica inteira resultando em três casos (por exemplo, três cópias) de um tipo específico de cromossomos (por exemplo, em vez de dois casos (por exemplo, um par) de um tipo particular de cromossomo para um euploide).
[00300] Os termos "tetrassomia" e "pentasomia", tal como aqui utilizados referem-se à presença de quatro ou cinco cópias de um cromossomo, respectivamente. Embora raramente visto com autossomos, tetrassomia e pentasomia de cromossomo sexual foram relatados em seres humanos, incluindo XXXX, XXXY, XXYY, XYYY, XXXXX, XXXXY, XXXYY, XXYYY e XYYYY.
[00301] As anormalidades cromossômicas podem ser causadas por uma variedade de mecanismos. Mecanismos incluem, mas não estão limitados a (i) não disjunção ocorre como o resultado de um ponto de verificação mitótico enfraquecido, (ii) os pontos de verificação mitóticos inativos cautilizando não disjunção em vários cromossomos, (iii) fixação merotelic que ocorre quando um cinetócoro está ligado a ambos mitótico pólos do fuso, (iv) um fuso multipolar formando quando mais do que dois pólos do fuso formam, (v) um fuso monopolar formando quando somente uma única formas polares de fusos, e (vi) um intermediário tetraplóides que ocorre como um resultado final do mecanismo de veio monopolar.
[00302] Os termos "monossomia parcial" e "trissomia parcial", tal como aqui utilizados, referem-se a um desequilíbrio de material genético causado pela perda ou ganho de parte de um cromossomo. Um monossomia parcial ou trissomia parcial pode resultar de uma translocação desequilibrada, em que um indivíduo realiza um cromossomo derivado formado através da quebra e da fusão de dois cromossomos diferentes. Nesta situação, o indivíduo terá três cópias de parte de um cromossomo (duas cópias normais e o segmento que existe no derivado de cromossomo) e apenas uma cópia de uma parte do cromossomo outro envolvido no cromossomo derivado.
[00303] O termo "mosaicismo", tal como aqui utilizado, refere-se à aneuploidia em algumas células, mas nem todas as células, de um organismo. Certas anormalidades cromossômicas podem existir como mosaico e anormalidades cromossômicas não-mosaico. Por exemplo, certos indivíduos com trissomia 21 têm síndrome de Down mosaico e alguns têm síndrome de Down não-mosaico. Diferentes mecanismos podem levar a mosaicismo. Por exemplo, (i) um zigoto inicial pode ter três 21os cromossomos, que normalmente resultariam na trissomia 21 simples, mas durante o curso da divisão celular uma ou mais linhas de células perderam um dos 21os cromossomos; e (ii) um zigoto inicial pode ter dois 21o cromossomos, mas durante o curso da divisão celular um dos 21os cromossomos foram duplicados. O mosaicismo somático, provavelmente, ocorre através de mecanismos distintos daqueles normalmente associados a síndromes genéticas envolvendo aneuploidia completa ou mosaico. O mosaicismo somático tem sido identificado em certos tipos de câncers e em neurónios, por exemplo. Em certos casos, a trissomia 12, foi identificada na leucemia linfocítica crônica (CLL) e trissomia 8 foi identificado na leucemia mielóide aguda (LMA). Além disso, síndromes genéticas em que um indivíduo está predisposto à ruptura dos cromossomos (síndromes de instabilidade cromossômica) são, frequentemente, associadas com risco aumentado para vários tipos de câncer, reforçando o papel de aneuploidia somática na carcinogênese. Métodos e protocolos aqui descritos podem identificar a presença ou ausência de não-mosaico e anomalias cromossômicas mosaico.
[00304] As Tabelas 1A e 1B apresentam uma lista não limitante de condições, síndromes cromossômicas e/ou alterações que podem ser potencialmente identificadas através de métodos, aparelhos e/ou um aparelho aqui descrito. A Tabela 1B é a partir do banco de dados de DECIPHER a partir de 6 de outubro de 2011 (por exemplo, versão 5.1, com base nas posições mapeadas para GRCh37; disponível no Uniform Resource Locator (URL) dechipher.sanger.ac.uk). Tabela 1A
Figure img0002
Figure img0003
Figure img0004
Figure img0005
Figure img0006
Figure img0007
Figure img0008
Figure img0009
[00305] As condições de grau 1, frequentemente, têm uma ou mais das seguintes características; anomalia patogênica; forte concordância entre os geneticistas; altamente penetrante; ainda pode ter fenótipo variável, mas algumas características comuns; todos os casos na literatura têm um fenótipo clínico; há casos de indivíduos saudáveis com a anomalia; não informado nos bancos de dados DVG ou encontrados na população saudável; confirmação de dados funcionais de um único gene ou efeito de dosagem de multi-gene; genes confirmados ou fortes candidatos; implicações de gestão clínica definida; risco de câncer conhecido com implicação para a vigilância; múltiplas fontes de informação (OMIM, revisões de Gene, Orphanet, Unique, Wikipedia); e/ou disponíveis para uso em diagnóstico (aconselhamento reprodutivo).
[00306] As condições de grau 2, frequentemente, têm uma ou mais das seguintes características; anomalia patogênica provável; altamente penetrante; fenótipo variável com nenhuma outra características consistentes diferente de DD; pequeno número de casos/relatos na literatura; todos os casos relatados têm um fenótipo clínico; há dados funcionais ou genes patogênicos confirmados; múltiplas fontes de informação (OMIM, revisões de Gene, Orphanet, Unique, Wikipedia); e/ou podem ser utilizados para fins de diagnóstico e aconselhamento reprodutivo.
[00307] As condições de grau 3, frequentemente, têm uma ou mais das seguintes características; lócus de susceptibilidade; pessoas saudáveis ou de pais não afetados de uma probanda descrita; presente em populações de controle; não penetrante; fenótipo leve e não específico; características menos consistente; há dados funcionais ou genes patogênicos confirmados; fontes mais limitadas de dados; possibilidade de segundo diagnóstico continua a ser uma possibilidade para os casos que se afastam da maioria ou se novo achado clínico presente; e/ou cuidado ao utilizar para fins de diagnóstico e conselhos cautelosos para o aconselhamento reprodutivo.
Pré-eclâmpsia
[00308] Em algumas formas de realização, a presença ou ausência de pré-eclâmpsia é determinada utilizando um método, aparelho ou equipamento aqui descritos. A pré- eclâmpsia é uma condição na qual a hipertensão surge durante a gravidez (por exemplo, a hipertensão induzida pela gravidez) e está associado a quantidades significativas de proteína na urina. Em certas formas de realização, a pré-eclâmpsia também está associada com níveis elevados de ácido e/ou alterações nucleico extracelular nos padrões de metilação. Por exemplo, tem sido observada uma correlação positiva entre os níveis de RASSF1A hipermetilado derivados de fetais extracelulares e a gravidade da pré-eclâmpsia. Em certos exemplos, o aumento da metilação do DNA é observado para o gene H19 em placentas pré-eclâmpsia em comparação com controles normais.
[00309] A pré-eclâmpsia é uma das principais causas de mortalidade neonatal/materna e fetal e morbidade em todo o mundo. Ácidos nucleicos circulantes isentos de células em plasma e soro são novos biomarcadores com aplicações clínicas promissoras em diferentes áreas médicas, incluindo o diagnóstico pré-natal. As alterações quantitativas do DNA fetal (CFF) livre de células no plasma materno como um indicador para a iminente pré-eclâmpsia foram relatados em diferentes estudos, por exemplo, utilizando PCR em tempo real quantitativo para o SRY específicas do sexo masculino ou DYS 14 loci. Em casos de aparecimento precoce de pré- eclâmpsia, níveis elevados podem ser vistos no primeiro trimestre. Os níveis aumentados de cffDNA antes do início dos sintomas pode ser devido a hipoxia/reoxigenação dentro do espaço interviloso levando a um estresse oxidativo e aumento da apoptose de tecidos da placenta e necrose. Além da evidência de um maior derramamento de cffDNA para a circulação materna, também há evidências de depuração renal reduzida de cffDNA na pré-eclampsia. À medida que a quantidade de DNA fetal é atualmente determinada através da quantificação de sequências específicas do cromossomo Y, abordagens alternativas, tal como a medição de DNA isento de células totais ou a utilização de marcadores epigenéticos fetais independente do gênero, tal como a metilação do DNA, oferecem uma alternativa. RNA isento de células de origem placentária é outro biomarcador alternativo que pode ser utilizado para o rastreio e o diagnóstico pré-eclampsia na prática clínica. RNA fetal está associado a partículas subcelulares da placenta que o protegem da degradação. Os níveis de RNA fetal, por vezes, são dez vezes mais elevados em fêmeas grávidas com pré- eclâmpsia em comparação com os controles, e, portanto, é um biomarcador alternativo que pode ser utilizado para o rastreio e o diagnóstico de pré-eclampsia na prática clínica.
Patógenos
[00310] Em algumas formas de realização, a presença ou a ausência de uma condição patogênica é determinada por um método, aparelho ou equipamento aqui descritos. Uma condição patogênica pode ser causada por infecção de um hospedeiro por um agente patogênico, incluindo, mas não limitado a, uma bactéria, vírus ou fungo. Desde patogênicos possuem tipicamente ácido nucleico (por exemplo, DNA genômico, RNA genômico, mRNA) que pode distinguir-se do ácido nucleico hospedeiro, métodos, aparelhos e máquinas aqui fornecido pode ser utilizado para determinar a presença ou ausência de um agente patogênico. Muitas vezes, patogênicos possuem ácido nucleico com características únicas de um patogênico em particular, tal como, por exemplo, estado epigenético e/ou uma ou mais variações na sequência, duplicações e/ou deleções. Assim, os métodos aqui proporcionados podem ser utilizados para identificar um determinado agente patogênico ou agente patogênico variante (por exemplo, estirpe).
Cânceres
[00311] Em algumas formas de realização, a presença ou ausência de um distúrbio da proliferação celular (por exemplo, um câncer) é determinada utilizando um método, aparelho ou equipamento aqui descritos. Por exemplo, os níveis de ácido nucleico isento de células no soro podem ser elevados em pacientes com vários tipos de câncer, em comparação com pacientes saudáveis. Os pacientes com doenças metastáticas, por exemplo, podem ter, por vezes, níveis séricos de DNA de, aproximadamente, duas vezes tão elevados quanto os não-metastáticos. Os pacientes com doenças metastáticas podem também ser identificados através de marcadores específicos de câncer e/ou de certos polimorfismos de um único nucleotídeo ou repetições em tandem curtas, por exemplo. Exemplos de tipos de câncer que podem ser positivamente correlacionados com níveis elevados de DNA de circulação incluem câncer da mama, câncer colo retal, câncer gastrointestinal, câncer hepatocelular, câncer do pulmão, melanoma, linfoma não-Hodgkin, leucemia, mieloma múltiplo, câncer da bexiga, hepatoma não limitativos, câncer cervical, câncer de esôfago, câncer de pâncreas, e câncer da próstata. Vários tipos de câncer podem possuir, e às vezes liberar para a corrente sanguínea, ácidos nucleicos com características que são distinguíveis de ácidos nucleicos a partir de células saudáveis não-cancerosas, tal como, por exemplo, estado epigenético e/ou variações da sequência, duplicações e/ou deleções. Tais características podem, por exemplo, ser específicas para um tipo particular de câncer. Deste modo, é ainda contemplado que um método aqui proporcionado pode ser utilizado para identificar um tipo particular de câncer.
[00312] O software pode ser utilizado para realizar uma ou mais etapas dos processos aqui descritos, incluindo, mas não se limitando a; contagem, processamento de dados, geração de um resultado, e/ou fornecimento de uma ou mais recomendações com base nos resultados gerados, tal como descrito em maior detalhe daqui em diante.
Máquinas, Software e Interfaces
[00313] Certos processos e métodos aqui descritos, muitas vezes, não podem ser realizados sem um computador, processador, software, módulo ou outro aparelho. Os métodos aqui descritos são, tipicamente, métodos de programas de computador, e uma ou mais porções de um método, por vezes, são realizadas por um ou mais processadores (por exemplo, microprocessadores), computadores, ou aparelhos controlados por microprocessador. Em algumas formas de realização, um ou mais ou todos os métodos de processamento conhecidos ou aqui descritos (por exemplo, mapeamento, compressão de dados, determinações de estimativa de tendências de genoma local, determinações de relacionamento, comparações de relacionamento, contagem de normalização, densidade de leitura e/ou gerações de perfil de densidade de leitura, ACP, ajustes de perfil, filtração da porção, ponderação da porção, comparações de perfil, pontuação de perfil, determinação de um resultado, semelhantes ou combinações dos mesmos) são executadas por um processador, um microprocessador, um computador, em conjunto com a memória e/ou por um dispositivo controlado por microprocessador. Formas de realização referentes a métodos descritos neste documento são, geralmente, aplicáveis aos mesmos ou processos relacionados implementados por instruções em sistemas, aparelhos e produtos de programas de computador aqui descritos. Em algumas formas de realização, processos e métodos aqui descritos (por exemplo, quantificação, contagem e/ou determinação de leitura de sequência, contagens, níveis e/ou perfis) são realizados por métodos automatizados. Em algumas formas de realização, uma ou mais etapas, e um método aqui descrito, são realizados por um processador e/ou computador, e/ou realizados em conjunto com a memória. Em algumas formas de realização, um método automatizado é incorporado em software, módulos, processadores, periféricos e/ou uma máquina compreendendo semelhantes, que determinam leitura de sequência, contagens, mapeamento, marcadores de sequências mapeadas, níveis, perfis, normalizações, comparações, definição do intervalo, categorização, ajustes de plotagem, resultados, transformações e identificações. Tal como aqui utilizado, software refere-se a instruções de programas legíveis por computador que, quando executadas por um processador, executam operações de computador, tal como aqui descrito.
[00314] Leitura de sequência, contagens, densidades de leitura, e perfis de densidade de leitura derivados de um indivíduo de teste (por exemplo, um paciente, uma fêmea grávida) e/ou a partir de um indivíduo de referência podem ser ainda analisados e processados para determinar a presença ou ausência de uma variação genética. Leitura de sequência, contagens, níveis e/ou perfis, por vezes, são referidos como "dados" ou "conjuntos de dados". Em algumas formas de realização, dados ou conjuntos de dados podem ser caracterizados por uma ou mais características ou variáveis (por exemplo, sequência de base [por exemplo, teor de GC, a sequência de nucleotídeos específicos, semelhantes], função específica [por exemplo, genes expressos, genes do câncer, do gênero], com base na localização [genoma específico, cromossomo específico, porção ou porção específica], análogos e combinações dos mesmos). Em certas formas de realização, dados ou conjuntos de dados podem ser organizados em uma matriz que tem duas ou mais dimensões com base em uma ou mais características ou variáveis. Dados organizados em matrizes podem ser organizados utilizando quaisquer recursos ou variáveis adequadas. Um exemplo não limitativo de dados em uma matriz que inclui dados é organizado por idade materna, ploidia materna e fetal contribuição. Em certas formas de realização, os conjuntos de dados, caracterizada por uma ou mais características ou variáveis, por vezes, são processadas após a contagem.
[00315] Aparelhos (vários aparelhos, também aqui referido no plural como aparelhos), software e interfaces podem ser utilizados para realizar os métodos aqui descritos. Utilizando aparelhos, software e interfaces, um usuário pode inserir, solicitar, consultar ou determinar as opções para a utilização de informações particular, programas ou processos (por exemplo, mapeamento de leituras de sequência, processamento de dados mapeados e/ou fornecimento de um resultado), que pode envolver a implementação de análise estatística algoritmos, algoritmos estatísticos de significância, algoritmos variância estatística, comparações, passos iterativos, algoritmos de validação e representações gráficas, por exemplo. Em algumas formas de realização, um conjunto de dados pode ser inserido por um usuário como informações de entrada, um usuário pode baixar um ou mais conjuntos de dados por uma mídia hardware adequado (por exemplo, unidade flash), e/ou um usuário pode enviar um conjunto de dados de um sistema para outro para posterior processamento e/ou fornecer um resultado (por exemplo, enviar leitura de sequência dados de um sequenciador para um sistema de computador para mapeamento leitura de sequência, enviar dados de sequências mapeadas para um sistema de computador para processamento e produzindo um resultado e/ou relatório).
[00316] Um sistema, tipicamente, compreende um ou mais aparelhos. Em algumas formas de realização, um aparelho é uma máquina. Em algumas formas de realização, um aparelho compreende uma máquina. Um aparelho pode compreender um ou mais de memória, um ou mais processadores, e/ou instruções. No caso de um sistema que inclui dois ou mais aparelhos, alguns ou todos os aparelhos poderão estar localizados no mesmo local, alguns ou todos os aparelhos podem estar localizados em diferentes locais, todos os aparelhos poderão estar localizados em um local e/ou todos os aparelhos podem estar localizados em diferentes locais. No caso de um sistema que inclui dois ou mais aparelhos, alguns ou todos os aparelhos poderão estar localizados no mesmo local como um usuário, alguns ou todos os aparelhos podem ser localizado em um local diferente do que um usuário, todos os aparelhos poderão estar localizados no mesmo local que o usuário, e/ou todos os aparelhos podem ser localizados em um ou mais locais diferentes do que o usuário. Aparelhos de um sistema aqui descrito podem interagir com um ou mais servidores remotos de computação e/ou computadores (por exemplo, uma nuvem, um serviço de computação nuvem) por um método adequado. O termo "nuvem", tal como aqui utilizado, refere-se, em parte, a dois ou mais computadores (por exemplo, muitas vezes, uma pluralidade de computadores), ligados através de uma rede de comunicação em tempo real (por exemplo, uma internet), que pode desempenhar uma função central (por exemplo, um método aqui descrito) em que partes da função são partilhadas por uma pluralidade de computadores em rede. Uma "nuvem", muitas vezes, pode executar um ou mais programas (por exemplo, programas de software, módulos) em uma pluralidade de computadores conectados ao mesmo tempo. Em algumas formas de realização, um sistema e/ou um aparelho aqui descrito compreende uma nuvem (por exemplo, um servidor de nuvem, um computador de nuvem, um serviço de computação nuvem). Um ou mais funções de um sistema e/ou um aparelho aqui descrito podem ser realizadas por uma nuvem. Os dados e/ou a informação pode ser transferida para, e/ou a partir de um aparelho e uma nuvem utilizando um método apropriado. O termo "computador", tal como aqui utilizado, refere-se a um dispositivo elétrico, feito pelo homem que compreende um microprocessador que pode executar operações aritméticas e lógicas. Um computador compreende, por vezes, instruções, software (por exemplo, módulos), memória, um monitor, um ou mais periféricos e/ou um meio de armazenamento. Em algumas formas de realização, de uma máquina compreende um computador. Em algumas formas de realização, de uma máquina é um computador. Um computador, muitas vezes, faz a interface e/ou está conectado a outros computadores (por exemplo, uma internet, uma rede, uma nuvem).
[00317] Um sistema, por vezes, compreende um aparelho de computação ou um aparelho de sequenciamento, ou um aparelho de computação e um aparelho de sequenciamento (por exemplo, máquina de sequenciamento e/ou máquina de computação). Um aparelho de sequenciamento, geralmente, é configurado para receber o ácido nucleico físico e gerar sinais correspondentes às bases de nucleotídeo do ácido nucleico. Um aparelho de sequenciamento é, muitas vezes, "carregado", com uma amostra compreendendo ácido nucleico e o ácido nucleico da amostra carregada no aparelho de sequenciamento, geralmente, é submetida a um processo de sequenciamento de ácidos nucleicos. O termo "carregamento de um aparelho de sequência", tal como aqui utilizado, refere-se ao contato de uma porção de um aparelho de sequenciamento (por exemplo, uma célula de fluxo) com uma amostra de ácido nucleico, que parte do aparelho de sequenciamento é configurada para receber uma amostra para a realização de um ácido nucleico processo de sequenciamento. Em algumas formas de realização, um aparelho de sequenciamento é carregado com uma variante de um ácido nucleico da amostra. Uma variante, por vezes, é produzida por um processo que modifica o ácido nucleico da amostra a uma forma adequada para o sequenciamento do ácido nucleico (por exemplo, por ligação (por exemplo, adição de adaptadores às extremidades de amostra de ácido nucleico por ligadura), amplificação, digestão de restrição, semelhante ou combinações dos mesmos). Um aparelho de sequenciamento é, muitas vezes, configurado, em parte, para executar um método de sequenciamento de DNA adequada que gera sinais (por exemplo, sinais eletrônicos, os sinais de detector, imagens, semelhantes, ou suas combinações) correspondentes às bases de nucleotídeo do ácido nucleico carregado.
[00318] Um ou mais sinais que correspondem a cada uma das bases de uma sequência de DNA são, muitas vezes, processados e/ou transformados em chamadas de bases (por exemplo, uma base de nucleotídeos específicos, por exemplo, guanina, citosina, timina, uracila, adenina e semelhantes) por um processo adequado. Um conjunto de chamadas de base derivado de um ácido nucleico carregado com frequência é processado e/ou montados em uma ou mais leitura de sequência. Em formas de realização em que vários ácidos nucleicos de amostra são sequenciados de uma só vez (ou seja, a multiplexação), um processo de desmultiplexagem adequado pode ser utilizado para leitura particular associada com o ácido nucleico da amostra a partir da qual se originou. Leituras de sequência podem ser alinhadas por um processo adequado para um genoma de referência e as leituras alinhadas com porções do genoma de referência podem ser contadas, como aqui descrito.
[00319] Um aparelho de sequenciamento, por vezes, está associado com e/ou compreende um ou mais aparelhos de computação em um sistema. O um ou mais de aparelho de computação, por vezes, são configurados para realizar um ou mais dos seguintes processos: geração de chamadas de bases de sinais de aparelhos de sequenciamento, montagem de leituras (por exemplo, geração de leituras), desmultiplexagem de leitura, alinhamento de leitura a um genoma de referência, contagem de leitura alinhada com porções genômicas no genoma de referência, e semelhantes. O um ou mais aparelhos de computação, por vezes, são configurados para realizar um ou mais dos seguintes processos adicionais: normalizar contagens de leitura (por exemplo, reduzir ou remover tendência), gerar uma ou mais determinações (por exemplo, determinar a fração fetal, ploidia fetal, sexo fetal, contagem de cromossomo fetal, resultado, presença ou ausência de uma variação genética (por exemplo, presença ou ausência de uma aneuploidia cromossômica fetal (por exemplo, cromossomo 13, 18 e/ou 21, trissomia)), e semelhantes.
[00320] Em algumas formas de realização, um aparelho de computação está associado com um aparelho de sequenciamento, e em certas formas de realização, o aparelho de computação executa a maioria ou a totalidade dos seguintes processos: gera chamadas de base a partir de sinais do aparelho de sequenciamento, monta leitura, DEmultiplex leitura, alinha leitura e conta leitura alinhada com porções genômicas de um genoma de referência, normaliza contagens de leitura e gera um ou mais resultados (por exemplo, fração fetal, presença ou ausência de uma variação genética específica). Nas últimas formas de realização, na qual um aparelho de computação está associado com um aparelho de sequenciamento, o aparelho de computação, frequentemente, inclui um ou mais processadores (por exemplo, microprocessadores) e instruções de memória tendo que são realizadas por um ou mais processadores para executar os processos. Em algumas formas de realização, o um aparelho de computação pode ter um dispositivo de sequenciamento de único ou múltiplos núcleos locais para o aparelho de computação (por exemplo, localizado no mesmo local (por exemplo, o mesmo endereço, no mesmo edifício, mesmo andar, mesmo quarto ou semelhante)). Em algumas formas de realização, o um aparelho de computação é integrado com o aparelho de sequenciamento.
[00321] Em algumas formas de realização, aparelhos de computação múltiplos em um sistema estão associados com um aparelho de sequenciamento, e um subconjunto do total dos processos executados pelo sistema podem ser atribuídos a, ou divididos entre aparelhos de contagem particular no sistema. Subconjuntos do número total de processos podem ser divididos entre os dois ou mais aparelhos de computação, ou grupos dos mesmos, em qualquer combinação adequada. Em certas formas de realização, a geração de base chama a partir de sinais do aparelho de sequenciamento, montagem leitura e de desmultiplexagem leituras são executadas por um primeiro aparelho de computação ou agrupamento, alinhamento e contagem de leitura mapeada para porções de um genoma de referência são realizadas por um dispositivo de computação segundo ou grupo do mesmo, e normalizando as contagens de leituras e fornecendo um ou mais resultados são realizados por um dispositivo de computação terceiro ou um grupo destes. Em sistemas que compreendem dois ou mais aparelhos de computação ou grupos dos mesmos, cada aparelho de computador particular pode incluir memória, um ou mais processadores ou por uma combinação dos mesmos. Um sistema de aparelhos de computação múltipla, por vezes, inclui um ou mais servidores adequados locais para um aparelho de sequenciamento, e às vezes inclui um ou mais servidores adequados não é local para o aparelho de sequenciamento (por exemplo, servidores de Web, servidores on-line, servidores de aplicações, servidores de arquivos remoto, servidores de nuvem (por exemplo, ambiente de nuvem, computação em nuvem)).
[00322] Aparelhos em diferentes configurações de sistema podem gerar diferentes tipos de dados de saída. Por exemplo, um aparelho de sequenciamento pode gerar sinais de base e os dados de saída do sinal de base podem ser transferidos para um aparelho de computação que converte os dados de sinal de base para as chamadas de base. Em algumas formas de realização, as chamadas de base são dados de saída a partir de um aparelho de computação e são transferidas para um outro aparelho de computação para gerar leitura de sequência. Em certas formas de realização, as chamadas de base não são dados de saída a partir de um determinado aparelho, e em vez disso, são utilizados no mesmo aparelho que recebeu os sinais de base do aparelho de sequenciamento para gerar leitura de sequência. Em algumas formas de realização, um aparelho recebe sinais de base do aparelho de sequenciamento, geram chamadas de bases, leitura de sequência e leitura de sequência desmultiplexada, e saídas de leitura de sequência desmultiplexada para uma amostra que pode ser transferida para outro aparelho ou agrupamento que alinha a leitura de sequência a um genoma de referência. Em algumas formas de realização, um aparelho ou um grupo do mesmo pode gerar leitura de sequência alinhada mapeada para porções de um genoma de referência (arquivos, por exemplo, SAM ou BAM), e estes dados de saída podem ser transferidos para um segundo aparelho de computação ou agrupamento que normaliza as leituras de sequência (por exemplo, normaliza as contagens da leitura de sequência) e gera um resultado (por exemplo, fração fetal e/ou presença ou ausência de uma trissomia fetal). Os dados de saída de um aparelho podem ser transferidos para um segundo aparelho de qualquer modo adequado. Por exemplo, os dados de saída a partir de um aparelho, por vezes, são colocados em um dispositivo de armazenamento físico e o dispositivo de armazenamento é transportado e ligado a um segundo aparelho para o qual os dados de saída são transferidos. Os dados de saída, por vezes, são armazenados por um aparelho em uma base de dados, e um segundo aparelho acessa os dados de saída a partir da mesma base de dados.
[00323] Um sistema compreende, por vezes, uma máquina de redução de tendências. A máquina de redução de tendências compreende, por vezes, um ou mais computadores. Em algumas formas de realização, uma máquina de redução de tendências mapeia leituras de sequência e/ou comprime leituras (por exemplo, leitura de sequência mapeada). Uma máquina de redução de tendências, por vezes, comprime leitura de sequência em um formato comprimido adequado (por exemplo, um formato de BReads). Em algumas formas de realização, uma máquina de redução de tendências gera densidades de leitura, perfis de densidade, perfis e/ou resultados de densidade de leitura ajustados. Um ou mais funções de uma máquina de redução de oscilação podem ser realizadas por uma rede e/ou uma nuvem (por exemplo, rede de computação da nuvem). Uma máquina de redução de tendências pode fazer interface com vários servidores (por exemplo, servidores de nuvem) microprocessadores que compreendem meios de memória e armazenamento, módulos, dados e/ou informações (por exemplo, referências, sequência de referência, leitura, densidades de leitura de referência, perfis de densidade de referência, e semelhantes) e/ou software. Uma máquina de redução de tendências pode transferir dados e/ou informações de uma nuvem, onde são realizadas uma ou mais funções de uma máquina de redução de tendências. Os dados e/ou informações processadas podem ser transferidos para uma máquina de redução de tendências a partir de uma nuvem.
[00324] Um sistema compreende, por vezes, uma máquina de sequenciamento e uma máquina de redução de tendências, onde uma máquina de sequenciamento gera leituras de sequência a partir do ácido nucleico da amostra, por vezes, mapeia leitura de sequência, e fornece e/ou transferências não mapeada ou leitura de sequência mapeada a uma máquina de redução de tendências. Uma máquina de sequenciamento pode fornecer ou transferência leitura a uma máquina de redução de tendências por qualquer método adequado. Uma máquina de sequenciamento e máquina de redução de tendências às vezes são ligados entre si por uma interface de hardware adequado. Em algumas formas de realização, uma máquina de sequenciamento e máquina de redução de tendências estão ligados a uma rede e/ou uma nuvem. Em algumas formas de realização, uma máquina de sequenciamento e máquina de redução de tendências são ligados entre si por uma rede e/ou uma nuvem. Alguns ou todos os métodos e/ou funções de um aparelho de sequenciamento e/ou uma máquina de redução de tendências podem ser realizados por uma nuvem. Uma máquina de sequenciamento pode transferir leituras através da utilização de um meio legível por computador transitório e/ou não transitório para uma máquina de redução de tendências. Por exemplo, as leituras de sequência podem ser transferidas por meio de sinais digitais ou analógicos transmitidos por cabos de fios e/ou sinais sem fio. Em algumas formas de realização, leituras de sequência são transferidas a partir de uma máquina de sequenciamento para uma máquina de redução de tendências utilizando meio de armazenamento legível por computador não transitório.
[00325] Uma máquina de redução de tendências pode compreender um ou mais módulos aqui descritos que pode realizar alguma, ou todas, as funções de uma máquina de redução de tendências. Em algumas formas de realização, uma máquina de redução de tendências compreende um módulo de compressão e realiza a função de um módulo de compressão. Em algumas formas de realização, uma máquina de redução de tendências compreende um ou mais de um módulo de tendências densidade, módulo de relação, o módulo de correção de tendências e/ou um módulo de correção multivariada. Uma máquina de correção de tendências pode utilizar um ou mais módulos de remoção de tendências (por exemplo, tendências de GC) a partir de leituras e/ou fornecer contagens de leitura normalizados de amostra. Em algumas formas de realização, uma máquina de correção de tendências compreende um ou mais de um módulo de distribuição, um módulo de filtração e/ou um módulo de geração de perfil. Uma máquina de correção de tendências, muitas vezes, pode processar leitura de sequência a partir de um conjunto de treinamento ou referência, bem como leitura de sequência a partir de uma amostra de teste. Em algumas formas de realização, uma máquina de correção de tendências compreende um ou mais de um módulo de estatísticas de APC e/ou uma porção do módulo de ponderação. Uma máquina de correção de tendências, muitas vezes, utiliza leituras mapeadas e vários módulos e fornece densidades de leitura, perfis de densidade e/ou perfis de densidade de leitura ajustados a um módulo de pontuação, um usuário final, um computador periférico (por exemplo, um monitor, uma impressora), ou a uma máquina geradora de resultado. Em algumas formas de realização, uma máquina de redução de tendências fornece um resultado. Às vezes, uma máquina de redução de tendências não fornece um resultado. Em algumas formas de realização, uma máquina de redução de tendências compreende uma máquina geradora de resultado. Às vezes, uma máquina de redução de tendências transfere leituras normalizadas, densidades de leitura, perfis de densidade e/ou perfis de densidade de leitura ajustados a uma máquina geradora de resultado. Uma máquina de redução de tendências pode transferir dados e/ou informações (por exemplo, perfis de densidade de leitura) para uma máquina geradora de resultado por qualquer método adequado. Em algumas formas de realização, um sistema composto por uma ou mais de uma máquina de sequenciamento, uma máquina de redução de tendências e/ou uma máquina geradora de resultado. Uma máquina geradora de resultado pode receber contagens de leitura normalizadas, densidades de leitura, perfis de densidade e/ou perfis de densidade de leitura ajustados de uma máquina de correção de tendências. Uma máquina geradora de resultado, frequentemente, fornece uma chamada ou um resultado (por exemplo, a determinação da presença ou ausência de uma variação genética). Uma máquina geradora de resultados, muitas vezes, fornece uma chamada ou um resultado a um usuário final e/ou periférico de computador (por exemplo, um monitor, uma impressora). Uma máquina geradora de resultado compreende, por vezes, uma ou mais de um módulo de filtração, módulo de distribuição, um módulo de geração de perfil, módulo de estatísticas de APC, módulo de ponderação de porção, módulo de pontuação e/ou um ou mais outros módulos adequados.
[00326] Em algumas formas de realização, um usuário interage com um aparelho (por exemplo, um aparelho de computação, um aparelho de sequenciamento). Em algumas formas de realização, o usuário pode colocar uma consulta a um sistema, um computador ou módulo que, em seguida, possa adquirir um conjunto de dados através do acesso à internet (por exemplo, uma nuvem), e em certas formas de realização, um processador programável pode ser solicitado para adquirir um conjunto de dados adequado com base em determinados parâmetros. Um processador programável também pode solicitar um usuário para selecionar um ou mais opções de conjuntos de dados selecionadas pelo processador de dados baseado em parâmetros definidos. Um processador programável pode solicitar que um usuário selecione uma ou mais dados opções selecionadas pelo processador estabelecido com base em informações encontradas através da internet, outra informação interna ou externa, ou algo semelhante. As opções podem ser escolhidas para a seleção de uma ou mais seleções de características de dados, um ou mais algoritmos estatísticos, um ou mais algoritmos de análise estatística, um ou mais algoritmos de significância estatística, passos iterativos, um ou mais algoritmos de validação, e uma ou mais representações gráficas dos métodos, aparelhos ou programas de computador.
[00327] Os sistemas aqui abordados podem incluir componentes gerais de sistemas de computador, tal como, por exemplo, servidores de rede, sistemas de laptop, sistemas de desktop, sistemas portáteis, assistentes pessoais digitais, quiosques de computação e afins. Um sistema de computador pode compreender um ou mais meios de entrada, tal como um teclado, uma tela de toque, mouse, reconhecimento de voz ou outros meios para permitir ao usuário introduzir dados no sistema. Um sistema pode ainda compreender uma ou mais saídas, incluindo, mas não limitado a, uma tela de visualização (por exemplo, CRT ou LCD), alto-falante, máquina de fax, impressora (por exemplo, laser, jato de tinta, de impacto, impressora a preto e branco ou a cores), ou outra saída útil para fornecer saída visual, auditiva e/ou cópia impressa da informação (por exemplo, os resultados e/ou relatório). Em algumas formas de realização, de um módulo de visualização processos, transforma e/ou transferências de dados e/ou informações em um meio visual adequado para a apresentação em um monitor adequado (por exemplo, um monitor, LED, LCD, CRT, similares ou suas combinações), uma impressora, um periférico ou dispositivo adequado. Em certas formas de realização, de um módulo de visualização fornece uma exibição visual de uma relação, perfil ou resultado. Os exemplos não-limitativos de uma forma e/ou apresentação visual apropriada incluem um gráfico, trama, gráfico, semelhantes ou combinações dos mesmos. Em algumas formas de realização, de um módulo de visualização processos, transforma os dados e/ou informações em uma representação visual de um genoma fetal e/ou materno, ou um seu segmento (por exemplo, um cromossomo, ou parte do mesmo). Em algumas formas de realização, um módulo de visualização ou uma máquina que compreende um módulo de visualização é necessário para fornecer uma exibição visual apropriada.
[00328] Em um sistema, meios de entrada e de saída podem ser ligados a uma unidade de processamento central que pode compreender entre outros componentes, um microprocessador para executar instruções de programa e memória para armazenar o código de programa e dados. Em algumas formas de realização, os processos podem ser implementados como um sistema de usuário único localizado em um único local geográfico. Em certas formas de realização, os processos podem ser implementados como um sistema de múltiplos usuários. No caso de uma aplicação de múltiplos usuários, múltiplas unidades de processamento central podem ser ligadas por meio de uma rede. A rede pode ser local, abrangendo um único departamento em uma porção de um edifício, um prédio inteiro, se estender por vários edifícios, abrangem uma região, abrangem todo um país ou ser mundial. A rede pode ser privada, sendo possuída e controlada por um fornecedor, ou pode ser implementada como um serviço baseado na Internet onde o usuário acessa uma página da web para entrar e recuperar informações. Por conseguinte, em determinadas formas de realização, um sistema inclui uma ou mais máquinas, que podem ser locais ou remotos em relação a um usuário. Mais do que uma máquina em um local ou vários locais podem ser acessados por um usuário, e os dados podem ser mapeados e/ou transformados em série e/ou em paralelo. Assim, uma configuração e controle adequado podem ser utilizados para o mapeamento e/ou processamento de dados utilizando várias máquinas, tal como na rede local, rede remota e/ou "em nuvem" plataformas de computação.
[00329] Um sistema pode incluir uma interface de comunicações em algumas formas de realização. Uma interface de comunicação permite a transferência de software e dados entre um sistema de computador e um ou mais dispositivos externos. Exemplos não limitantes de interfaces de comunicação incluem um modem, uma interface de rede (tal como um cartão Ethernet), uma porta de comunicação, uma porta e cartão de PCMCIA, e semelhantes. Software e os dados transferidos por meio de uma interface de comunicações são geralmente sob a forma de sinais, que podem ser eletrônicos, eletromagnéticos, óticos e/ou outros sinais que podem ser recebidos por uma interface de comunicações. Sinais, muitas vezes, são fornecidos a uma interface de comunicações através de um canal. Um canal, muitas vezes, carrega sinais e pode ser implementado utilizando o fio ou cabo, fibra ótica, uma linha de telefone, uma ligação de telefone celular, um link de RF e/ou outros canais de comunicação. Assim, em um exemplo, uma interface de comunicações pode ser utilizada para receber a informação do sinal que pode ser detectado por um módulo de detecção de sinal.
[00330] Os dados podem ser introduzidos por um dispositivo e/ou método adequado, incluindo, mas não limitado a, dispositivos de entrada manuais ou dispositivos de entrada de dados diretos (DDEs). Exemplos não limitantes de dispositivos manuais incluem teclados, conceitos de teclado, tela sensível ao toque, canetas de luz, mouse, Tracker balls (dispositivo receptor que contém uma bola que pode ser girada para se mover o cursor), joysticks, tablets gráficos, scanners, câmeras digitais, digitalizadores de vídeo e dispositivos de reconhecimento de voz. Exemplos não limitantes de DDEs incluem leitores de códigos de barras, códigos de bandas magnéticas, smart cards, reconhecimento de caracteres de tinta magnética, reconhecimento ótico de caracteres, reconhecimento de marca ótica e documentos de resposta.
[00331] Em algumas formas de realização, a saída de um aparelho de sequenciamento pode servir como dados que podem ser introduzidos através de um dispositivo de entrada. Em certas formas de realização, as leituras de sequência mapeadas podem servir como dados que podem ser introduzidos através de um dispositivo de entrada. Em certas formas de realização, os dados simulados são gerados por um processo em silício e os dados simulados servem como dados que podem ser introduzidos através de um dispositivo de entrada. O termo "in silico" refere-se à pesquisa e experimentos realizados utilizando um computador. Os processos in silico incluem, mas não estão limitados a, mapeamento de leituras de sequência e processamento de leituras de sequência mapeadas de acordo com os processos aqui descritos.
[00332] Um sistema pode incluir software útil para a realização de um processo aqui descrito, e o software pode incluir um ou mais módulos para a realização de tais processos (por exemplo, sequenciamento módulo, módulo de correção de tendências, o módulo de visualização). O termo "software" refere-se ao computador instruções de programa legível que, quando executado por um computador, executam operações de computador. Instruções executáveis por um ou mais processadores, por vezes, são fornecidos como código executável que, quando executado, pode fazer com que um ou mais processadores para executar um método aqui descrito. Um módulo aqui descrito pode existir como software e instruções (por exemplo, processos, rotinas, sub-rotinas) incorporadas no software podem ser implementadas ou executadas por um processador. Por exemplo, um módulo (por exemplo, um módulo de software) pode ser uma parte de um programa que executa um processo ou tarefa particular. O termo "módulo" refere-se a uma unidade funcional autocontida que pode ser utilizada em um aparelho maior ou sistema de software. Um módulo pode compreender um conjunto de instruções para a realização de uma função do módulo por um ou mais microprocessadores. Instruções de um módulo podem ser implementadas em um ambiente de computação através da utilização de uma linguagem de programação adequada, o software adequado, e/ou código escrito em uma linguagem adequada (por exemplo, uma linguagem de programação de computador conhecida na técnica) e/ou sistema operativo, exemplos não-limitativos dos quais incluem UNIX, Linux, Oracle, Windows, Ubuntu, ActionScript, C, C++, C#, Haskell, Java, JavaScript, Objective-C, Perl, Python, Ruby, Smalltalk, SQL, Visual Basic, COBOL, Fortran, UML, HTML (por exemplo, com PHP), PGP, G, R, S, semelhantes ou combinações dos mesmos. Em algumas formas de realização, um módulo aqui descrito compreende código (por exemplo, roteiro) escrito em S ou R que utiliza um pacote adequado (por exemplo, um pacote de S, um pacote de R). R, código de fonte R, programas de I, pacotes R e documentação R estão disponíveis para download a partir de um site CRAN ou espelho de CRAN (A Comprehensive R Archive Network (CRAN) [online], [recuperados em 2013/04/24], recuperado a partir da Internet <URL:*>http: //cran.us.r-project.org/<>). CRAN é uma rede de servidores FTP e web em todo o mundo que armazena versões de código idênticas, atualizadas, e documentação para R.
[00333] Um módulo pode transformar os dados e/ou informações. Os dados e/ou a informação pode ser em uma forma adequada. Por exemplo, os dados e/ou a informação pode ser digital ou analógico. Em certas formas de realização, dados e/ou a informação pode ser pacotes, bytes, caracteres ou bits. Em algumas formas de realização, dados e/ou a informação podem ser qualquer dado reunido, montado ou utilizável ou informações. Exemplos não limitantes de dados e/ou informações incluem uma mídia adequada, arquivos, imagens, vídeo, som (por exemplo, frequências, audíveis ou não-audíveis), números, constantes, valores, indivíduos, tempo, texto, funções, instruções, código de computador, mapas, referências, sequências, leitura, leitura mapeada, densidade de leituras, perfis de densidade de leitura, escalas, limites, displays, representações, resultados, transformações, semelhantes ou suas combinações. Um módulo pode aceitar ou receber dados e/ou informações, transformar os dados e/ou informação para uma segunda forma, e fornecer ou transferir a segunda forma para uma máquina, periférico, componente ou outro módulo. Um módulo pode executar uma ou mais das seguintes funções não-limitadoras: mapeamento de leituras de sequência, comprimir um arquivo (por exemplo, dados de leituras mapeadas), filtrar porções, selecionar porções, realizar uma APC, fornecer componentes principais, ajustar densidades de leitura e/ou perfis de densidade de leitura, ponderação de porções, pontuação, proporcionar contagens, montar porções, normalizar contagens, fornecer estimativas de tendências de genoma local, proporcionar frequências de tendências, fornecer densidades de leitura, fornecer perfis de densidade de leitura, fornecer uma zona de chamada e/ou uma zona de não chamada, fornecer uma medida de incerteza, fornecer ou determinar intervalos esperados (por exemplo, faixas de limite e níveis de limite), traçar gráficos, e/ou determinar um resultado, por exemplo. Um processador pode, em certas formas de realização, realizar as instruções de um módulo. Em algumas formas de realização, um ou mais processadores são obrigados a cumprir as instruções em um módulo ou grupo de módulos. Um módulo pode fornecer dados e/ou informação para outro módulo, o aparelho ou fonte e pode receber dados e/ou informações a partir de um outro módulo, o aparelho ou fonte.
[00334] Um meio de armazenamento não transitório legível por computador compreende, por vezes, um programa executável armazenado no mesmo e, por vezes, o programa instrui um microprocessador para executar uma função (por exemplo, um método aqui descrito). Um produto de programa de computador, por vezes, é incorporado em um meio legível por computador tangível, e às vezes é tangível incorporado em um meio legível por computador não transitório. Um módulo vezes é armazenado em um meio legível por computador (por exemplo, disco, rígido) ou na memória (por exemplo, memória de acesso aleatório). Um módulo processador e capaz de implementar as instruções a partir de um módulo pode ser localizado em uma máquina ou em aparelhos diferentes. Um módulo e/ou o processador capaz de implementar uma instrução para um módulo pode ser localizado no mesmo local que um usuário (por exemplo, rede local) ou em um local diferente de um usuário (por exemplo, rede remota, sistema de nuvem). Em formas de realização em que um método é realizado em conjunto com dois ou mais módulos, os módulos podem ser localizados no mesmo aparelho, um ou mais módulos pode estar localizado em aparelhos diferentes, no mesmo local físico, e um ou mais módulos podem estar localizados em aparelhos diferentes em diferentes locais físicos.
[00335] Uma máquina, de algumas formas de realização, compreende, pelo menos, um processador para executar as instruções de um módulo. Contagens de leituras de sequência mapeadas para porções de um genoma de referência, por vezes, são acedidos por um processador que executa instruções configurados para realizar um método aqui descrito. As contagens que são acedidas por um processador pode estar dentro de uma memória de sistema, e as contagens podem ser acedidos e colocada na memória do sistema depois de terem sido obtidos. Em algumas formas de realização, uma máquina inclui um processador (por exemplo, um ou mais processadores) qual processador pode executar e/ou implementar uma ou mais instruções (por exemplo, processos, rotinas e/ou sub-rotinas) a partir de um módulo. Em algumas formas de realização, uma máquina inclui múltiplos processadores, tal como processadores de coordenadas e que trabalham em paralelo. Em algumas formas de realização, uma máquina opera com um ou mais processadores externos (por exemplo, uma rede interna ou externa, servidor, dispositivo de armazenamento e/ou rede de armazenamento (por exemplo, uma nuvem)). Em algumas formas de realização, uma máquina compreende um módulo. Em certas formas de realização, de uma máquina compreende um ou mais módulos. Uma máquina que compreende um módulo de frequência pode receber e transferir um ou mais dos dados e/ou informação para e de outros módulos. Em certas formas de realização, uma máquina compreende periférica e/ou componentes. Em certas formas de realização, de uma máquina pode compreender um ou mais periféricos ou componentes que podem transferir dados e/ou informação para e de outros módulos, periféricos e/ou componentes. Em certas formas de realização, uma máquina interage com um periférico e/ou componente que fornece os dados e/ou informações. Em certas formas de realização, acessórios e componentes para ajudam uma máquina na realização de uma função ou interagir diretamente com um módulo. Exemplos de periféricos e/ou componentes não-limitativos incluem um periférico de computador adequado, I/O ou método de armazenamento ou dispositivo, incluindo, mas não limitado a scanners, impressoras, monitores (por exemplo, monitores, LED, LCT ou CRTs), câmeras, microfones, pads (por exemplo, ipads, tablets), telas de toque, telefones inteligentes, telefones celulares, dispositivos I/O USB, dispositivos de armazenamento em massa USB, teclados, um mouse de computador, canetas digitais, modems, discos rígidos, jump drives, pen drive, uma processador, um servidor, CDs, DVDs, cartões gráficos, dispositivos I/O especializados (por exemplo, sequenciadores, fotocélulas, tubos de multiplicadores, leitores óticos, sensores, etc.), uma ou mais células de fluxo, componentes de manuseio de fluido, controladores de interface de rede, ROM, RAM, métodos e dispositivos de transferência sem fio (Bluetooth, Wi-Fi e semelhantes,), a World Wide Web (www), a Internet, um computador e/ou outro módulo.
[00336] Software, frequentemente, é fornecido em um produto de programa contendo instruções de programa gravados em um meio legível por computador (por exemplo, um meio legível por computador não transitório), incluindo, mas não se limitando a meios de comunicação, incluindo disquetes magnéticos, discos rígidos e fita magnética; e mídia ótica incluindo discos CD-ROM, DVD, discos magneto- óticos, drives de estado sólido, pen drives, RAM, ROM, BUS, disquetes, artigos semelhantes, e outros tais meios em que podem ser gravadas as instruções do programa. Na aplicação on-line, um site de servidor e web mantido por uma organização pode ser configurado para fornecer downloads de software para usuários remotos ou usuários remotos podem acessar um sistema remoto mantido por uma organização para acessar remotamente o software. Software poderá obter ou receber informações de entrada. Software pode incluir um módulo que especificamente obtém ou recebe dados (por exemplo, um módulo de recepção de dados que recebe dados de leitura de sequência e/ou dados de leitura mapeada) e pode incluir um módulo que processa especificamente os dados (por exemplo, um módulo de processamento que processa os dados recebidos (por exemplo, filtros, normaliza, fornece um resultado e/ou relatório). Os termos "obter" e "receber" informações de entrada refere-se a recepção de dados (por exemplo, leitura de sequência, leituras mapeadas) pela comunicação computador significa a partir de um local ou remoto local, a entrada de dados humanos, ou qualquer outro método de recepção de dados. A informação de entrada pode ser gerada no mesmo local que é recebida, ou pode ser gerada em um local diferente e transmitida para o local de recepção. Em algumas formas de realização, a informação de entrada é modificada antes de ser processada (por exemplo, colocada em um formato passível de processamento (por exemplo, tabulada)).
[00337] O software pode incluir um ou mais algoritmos, em certas formas de realização. Um algoritmo pode ser utilizado para o processamento de dados e/ou o fornecimento de um resultado ou um relatório de acordo com uma sequência finita de instruções. Um algoritmo, muitas vezes, é uma lista de instruções definidas para completar uma tarefa. A partir de um estado inicial, as instruções podem descrever um cálculo que prossegue através de uma série definida de estados sucessivos, eventualmente, que termina em um estado de conclusão final. A transição de um estado para o outro não é, necessariamente, determinista (por exemplo, alguns algoritmos incorporam a aleatoriedade). A título de exemplo, e sem limitação, um algoritmo pode ser um algoritmo de busca, algoritmo de classificação, algoritmo de fusão, algoritmo numérico, algoritmo gráfico, algoritmo de cadeia, algoritmo de modelagem, algoritmo geométrico computacional, algoritmo combinatório, algoritmo de aprendizagem de máquina, algoritmo de criptografia, algoritmo de compressão de dados, algoritmo de análise e semelhantes. Um algoritmo pode incluir um algoritmo ou dois ou mais algoritmos que trabalham em combinação. Um algoritmo pode ser de qualquer classe de complexidade adequado e/ou complexidade parametrizada. Um algoritmo pode ser utilizado para cálculo e/ou de processamento de dados, e em algumas formas de realização, pode ser utilizado em uma abordagem determinística ou probabilística/preditivo. Um algoritmo pode ser implementado em um ambiente de computação através da utilização de uma linguagem de programação adequada, exemplos não limitativos das quais são C, C++, Java, Perl, R, S, Python, Fortran e semelhantes. Em algumas formas de realização, um algoritmo pode ser configurado ou modificado para incluir margem de erros, análise estatística, a significância estatística, uma medida da incerteza e/ou comparações com informações ou dados outros conjuntos (por exemplo, aplicável quando se utiliza uma rede neural ou algoritmo de agrupamento).
[00338] Em certas formas de realização, vários algoritmos podem ser aplicados para uso em software. Estes algoritmos podem ser formados com os dados brutos em algumas formas de realização. Para cada nova amostra de dados brutos, os algoritmos treinados podem produzir um conjunto de dados processados representativos definir ou resultado. Um banco de dados processados definidos, por vezes, é de complexidade reduzida em comparação com o conjunto de dados pai que foi processado. Com base em um conjunto processado, o desempenho de um algoritmo treinado pode ser avaliado com base na sensibilidade e especificidade, em algumas formas de realização. Um algoritmo com a maior sensibilidade e/ou especificidade podem ser identificadas e utilizadas, em certas formas de realização.
[00339] Em certas formas de realização, dados simulados (ou simulação) podem auxiliar de processamento de dados, por exemplo, através da formação de um algoritmo ou teste de um algoritmo. Em algumas formas de realização, os dados simulados hipotéticos incluem várias amostras de diferentes agrupamentos de leituras de sequência. Os dados simulados podem ser baseados no que poderia ser esperado de uma população real ou pode ser inclinado para testar um algoritmo e/ou para atribuir uma classificação correta. Os dados simulados são também referidos aqui como dados “virtuais”. As simulações podem ser realizadas por um programa de computador, em certas formas de realização. Um possível passo para utilizar um conjunto de dados simulado é avaliar a confiança de um resultado identificado, por exemplo, o quão bem uma amostragem aleatória se assemelha, ou melhor, representa os dados originais. Uma abordagem é para calcular um valor-probabilidade (valor-p), que estima a probabilidade de uma amostra aleatória com melhor pontuação do que as amostras selecionadas. Em algumas formas de realização, um modelo empírico pode ser avaliado, em que se assume que, pelo menos, uma amostra corresponde a uma amostra de referência (com ou sem variações resolvidas). Em algumas formas de realização, outra distribuição, tal como uma distribuição de Poisson, por exemplo, pode ser utilizada para definir a distribuição de probabilidade.
[00340] Um sistema pode incluir um ou mais processadores, em certas formas de realização. Um processador pode ser ligado a uma linha de alimentação das comunicações. Um sistema de computador pode incluir uma memória principal, muitas vezes, a memória de acesso aleatório (RAM), e também pode incluir uma memória secundária. Memória, em algumas formas de realização, compreende um meio de armazenamento não transitório de leitura por computador. A memória secundária pode incluir, por exemplo, dirigir um disco rígido e/ou uma unidade de armazenamento removível, o que representa uma unidade de disquetes, uma unidade de fita magnética, uma unidade de disco ótico, cartão de memória e assim por diante. A unidade de armazenamento removível, muitas vezes, leitura e/ou grava em uma unidade de armazenamento removível. Exemplos não limitativos de unidades de armazenamento removível inclui um disquete, uma fita magnética, um disco ótico e semelhantes, que pode ser lido por e escrita para, por exemplo, uma unidade de armazenamento removível. Uma unidade de armazenamento removível pode incluir um meio de armazenamento de computador utilizável tendo armazenado nele software e/ou dados de computador.
[00341] Um processador pode executar software em um sistema. Em algumas formas de realização, um processador pode ser programado para executar, automaticamente, uma tarefa aqui descrita que um usuário poderia realizar. Por conseguinte, um processador, ou algoritmo realizado por tal processador, pode exigir pouca ou nenhuma supervisão ou de entrada de um usuário (por exemplo, o software pode ser programado para executar uma função automaticamente). Em algumas formas de realização, a complexidade de um processo é tão grande que uma única pessoa ou grupo de pessoas não foi possível realizar o processo em um período de tempo curto o suficiente para a determinação da presença ou ausência de uma variação genética.
[00342] Em algumas formas de realização, a memória secundária pode incluir outros meios semelhantes para permitir que os programas de computador ou outras instruções sejam carregadas em um sistema de computador. Por exemplo, um sistema pode incluir uma unidade de armazenamento removível e um dispositivo de interface. Exemplos não limitativos de tais sistemas incluem um cartucho de programa e uma interface de cartucho (como o encontrado em dispositivos de jogos de vídeo), um chip de memória removível (tal como uma EPROM ou PROM) e abertura associada, e outras unidades de armazenamento removível e interfaces que permitir que o software e os dados sejam transferidos da unidade de armazenamento removível para um sistema de computador.
[00343] Uma entidade pode gerar contagens de leitura de sequência, mapear as leituras de sequência para porções, contar as leituras mapeadas, e utilizar as leituras mapeadas contadas em um produto método, sistema, equipamento ou programa de computador aqui descrito, em algumas formas de realização. Contagens de leituras de sequência mapeadas para porções, por vezes, são transferidas por uma entidade a uma segunda entidade para a utilização pela segunda entidade de um produto método, sistema, equipamento ou programa de computador aqui descritos, em certas formas de realização.
[00344] Em algumas formas de realização, uma entidade gera leituras de sequência e uma segunda entidade mapeia as leituras de sequência para porções de um genoma de referência em algumas formas de realização. A segunda entidade, por vezes, conta a leitura mapeada e utiliza as leituras mapeadas contadas em um método, sistema, programa de computador ou máquina, aqui descrito. Em certas formas de realização, a segunda entidade transfere a leitura mapeada para uma terceira entidade, e a terceira entidade conta a leitura mapeada e utiliza a leitura mapeada em um produto método, sistema, equipamento ou programa de computador aqui descritos. Em certas formas de realização, a segunda entidade conta a leitura mapeada e transfere as leituras mapeadas contadas para uma terceira entidade, e a terceira entidade utiliza as leituras mapeadas contadas em um produto método, sistema, equipamento ou programa de computador aqui descritos. Em formas de realização envolvendo uma terceira entidade, a entidade terceira, às vezes, é a mesma que a primeira entidade. Isto é, a primeira entidade, por vezes, transfere leitura de sequência a uma segunda entidade, em que a segunda entidade pode mapear leitura de sequência para porções em um genoma de referência e/ou a contagem de leitura mapeada, e a segunda entidade podem transferir as leituras mapeadas e/ou contadas para uma terceira entidade. Uma terceira entidade, por vezes, pode utilizar as leituras mapeadas e/ou contadas em um produto método, sistema, equipamento ou programa de computador aqui descrito, em que a terceira entidade, por vezes, é a mesma que a primeira entidade, e, por vezes, a terceira entidade é diferente do primeiro ou segunda entidade.
[00345] Em algumas formas de realização, uma entidade obtém sangue de uma fêmea grávida, opcionalmente isola o ácido nucleico a partir de sangue (por exemplo, a partir do plasma ou soro), e transfere o sangue ou ácido nucleico para uma segunda entidade que gera leituras de sequência a partir do ácido nucleico.
[00346] A Figura 11 ilustra um exemplo não limitativo de um ambiente de computação 510, em que vários sistemas, métodos, algoritmos e estruturas de dados aqui descritos podem ser implementados. O ambiente de computação 510 é apenas um exemplo de um ambiente de computação apropriado e não se destina a sugerir qualquer limitação quanto ao âmbito de utilização ou a funcionalidade dos sistemas, métodos e estruturas de dados aqui descritas. Nem deve o ambiente de computação 510 ser interpretado como tendo qualquer dependência ou exigência relativa a qualquer uma ou a combinação de componentes ilustrados no ambiente 510. Um subconjunto de sistemas, métodos e estruturas de dados mostradas na FIG. 11 podem ser utilizados em certas formas de realização. Sistemas, métodos e estruturas de dados aqui descritas são operacionais com numerosos outros ambientes de sistemas de computação de uso geral ou propósito especiais ou configurações. Exemplos conhecidos de sistemas de computação, ambientes e/ou configurações que podem ser adequados incluem, mas não estão limitados a, computadores pessoais, computadores de servidores, thin clients, thick clientes, dispositivos de mão ou portáteis, sistemas com múltiplos processadores, sistemas baseados em microprocessador, decodificadores, aparelhos eletrônicos programáveis, PCs em rede, minicomputadores, computadores em mainframe, ambientes de computação distribuída que incluem qualquer um dos sistemas acima ou dispositivos, e assim por diante.
[00347] O ambiente operacional 510 da Figura 11 inclui um dispositivo de computação de propósito geral sob a forma de um computador 520, que inclui uma unidade de processamento 521, uma memória de sistema 522, e um sistema de bus 523 que, operativamente, acopla vários componentes de sistema incluindo a memória de sistema 522 para a unidade de processamento 521. Pode haver apenas um ou pode haver mais do que uma unidade de processamento 521, de tal modo que o processador do computador 520 inclui uma unidade de processamento central (CPU), ou uma pluralidade de unidades de processamento, normalmente referida como um ambiente de processamento paralelo. O computador 520 pode ser um computador convencional, um computador distribuído, ou qualquer outro tipo de computador.
[00348] O sistema de bus 523 pode ser qualquer um dos vários tipos de estruturas de bus, incluindo um bus de memória ou controlador de memória, um bus periférico, e um bus local utilizando qualquer um de uma variedade de arquiteturas de bus. A memória do sistema pode também ser referido como simplesmente a memória, e inclui memória só de leitura (ROM) 524 e memória de acesso aleatório (RAM). Um sistema básico de entrada/saída (BIOS) 526, contendo as rotinas básicas que ajudam a transferência de informação entre elementos dentro do computador 520, tal como durante a inicialização, é armazenado na ROM 524. O computador 520 pode ainda incluir uma unidade de disco rígido interface de 527 para leitura e gravação para um disco rígido, não mostrado, uma unidade de disco magnético 528 para ler ou escrever para um disco magnético removível 529, e uma unidade de disco ótico 530 para ler ou escrever para um disco ótico removível 531, tal como um CD-ROM ou outra mídia ótica.
[00349] A unidade de disco rígido 527, unidade de disco magnético 528 e unidade de disco ótico 530 são conectados ao sistema de bus 523 por uma interface de unidade de disco rígido 532, uma interface de unidade de disco magnético 533, e uma interface de unidade de disco ótico 534, respectivamente. As unidades e os seus meios legíveis por computador associados fornecem armazenamento não volátil de instruções legíveis por computador, estruturas de dados, módulos de programação e outros dados para o computador 520. Qualquer tipo de meios legíveis por computador que pode armazenar dados que é acessível por um computador, tal como cassetes magnéticas, cartas de memória flash, discos de vídeo digital, cartuchos de Bernoulli, memórias de acesso aleatório (RAMs), memórias só de leitura (ROMs), e semelhantes, podem ser utilizados no ambiente operacional.
[00350] Um número de módulos de programas pode ser armazenado no disco rígido, disco magnético 529, disco ótico 531, ROM 524 ou RAM, incluindo um sistema operativo 535, uma ou mais programas de aplicação 536, outros módulos de programas 537, e dados de programa 538. Um usuário pode introduzir comandos e informação no computador pessoal 520 através de dispositivos de entrada, tal como um teclado 540 e dispositivo apontador 542. Outros dispositivos de entrada (não mostrados) podem incluir um microfone, joystick, game pad, antena parabólica, scanner ou similares. Estes e outros dispositivos de entrada são, frequentemente, ligados à unidade de processamento 521 através de uma interface de porta série 546 que é acoplada ao bus de sistema, mas podem ser ligados por outras interfaces, tal como uma porta paralela, porta de jogos ou um bus de série universal (USB). Um monitor 547 ou outro tipo de dispositivo de visualização é igualmente ligado ao bus de sistema 523 através de uma interface, tal como um adaptador vídeo 548. Em adição ao monitor, os computadores tipicamente incluem outros dispositivos de saída periféricos (não mostrados), tal como altifalantes e impressoras.
[00351] O computador 520 pode funcionar em um ambiente em rede utilizando ligações lógicas a um ou mais computadores remotos, tal como um computador remoto 549. Estas ligações lógicas podem ser alcançadas por um dispositivo de comunicação acoplado a, ou uma parte de, o computador 520, ou outras maneiras. O computador remoto 549 pode ser outro computador, um servidor, um router, um PC de rede, um cliente, um dispositivo par ou outro nó de rede comum, e tipicamente inclui muitos ou todos os elementos descritos acima relativamente ao computador 520, embora apenas um dispositivo de armazenamento de memória 550 tenha sido ilustrado na fig. 11. As ligações lógicas representadas na Figura 11 incluem uma rede de área local (LAN) 551 e uma rede de área ampla (WAN) 552. Tais ambientes de rede são comuns em redes de escritório, redes de computadores em toda a empresa, intranets e na Internet, que todos são tipos de redes.
[00352] Quando utilizado em um ambiente de trabalho em rede LAN, o computador 520 é ligado à rede local 551 através de uma interface de rede ou adaptador 553, que é um tipo de dispositivo de comunicações. Quando utilizado em um ambiente de rede WAN, o computador 520 inclui, frequentemente, um modem 554, um tipo de dispositivo de comunicações, ou qualquer outro tipo de dispositivo de comunicação para estabelecer a comunicação através da rede de área ampla 552. O modem 554, que pode ser interno ou externo, é ligado ao bus de sistema 523 através da interface de porta série 546. Em um ambiente de rede, os módulos de programa descrito em relação ao computador pessoal 520, ou porções dos mesmos, podem ser armazenados no dispositivo de armazenamento de memória remoto. É apreciado que a rede conexões mostrada podem ser utilizados exemplos não-limitantes e outros dispositivos de comunicação para estabelecer uma ligação de comunicações entre os computadores.
[00353] Em algumas formas de realização, um sistema compreende um ou mais microprocessadores e memória, que a memória compreende instruções executáveis por um ou mais microprocessadores e ainda instruções executáveis por um ou mais microprocessadores estão configuradas para (a) gerar uma relação entre (i) estimativas de tendências de genoma local e (ii) as frequências de tendências para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendência da amostra, onde as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência, (b) comparar a relação de tendência da amostra e uma relação tendência de referência, gerando, desse modo, uma comparação, onde a relação tendências de referência é entre (i) as estimativas de tendência de genoma local, e (ii) as frequências de tendência para uma referência e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através da qual tendências nas leituras de sequência para a amostra são reduzidas.
[00354] Em algumas formas de realização, um sistema compreende um ou mais microprocessadores e memória, que a memória compreende instruções executáveis por um ou mais microprocessadores e ainda instruções executáveis por um ou mais microprocessadores estão configuradas para (a) gerar uma relação entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação amostra densidade de GC, onde as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência, (b) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de referência de densidade de GC é entre (i) as densidades de GC e (ii) o frequências de densidade de GC para uma referência e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através do qual tendências nas leituras de sequência para a amostra são reduzidas.
[00355] Em algumas formas de realização, um sistema compreende um ou mais microprocessadores e memória, que a memória compreende instruções executáveis por um ou mais microprocessadores e ainda instruções executáveis por um ou mais microprocessadores estão configurados para (a) de filtro, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que as densidades de leitura são determinadas utilizando leitura de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida mapeado para uma referência do genoma e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras, (b) ajustar, utilizando um microprocessador, o perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras conhecidas euploides por uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas, (c) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação e (d) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00356] Em algumas formas de realização, aqui apresentado, é um meio de armazenamento não transitório de leitura por computador, compreendendo um programa executável armazenada no mesmo. Em algumas formas de realização, um meio de armazenamento não transitório de leitura por computador, compreendendo um programa executável armazenada no mesmo compreende um produto de programa de computador. Em algumas formas de realização, um meio de armazenamento não transitório de leitura por computador, compreendendo um programa executável armazenado nele se refere ao software. Um produto de programa de computador é, frequentemente, o software. Em algumas formas de realização, aqui apresentado é um meio de armazenamento não transitório de leitura por computador, compreendendo um programa executável armazenada no mesmo, onde o programa instrui um microprocessador para executar o seguinte: (a) gerar uma relação entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de amostra de densidade de GC, onde as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência, (b) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de referência de densidade de GC é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência, e (c) normalizar a contagem as leituras de sequência para a amostra de acordo com a comparação determinada em (b), através do qual tendências nas leituras de sequência para a amostra são reduzidas.
[00357] É também aqui apresentado, em algumas formas de realização, é um meio de armazenamento legível por computador não transitória compreendendo um programa executável armazenada no mesmo, onde o programa instrui um microprocessador para executar o seguinte: (a) filtrar, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que as densidades de leitura compreendem leitura de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras, (b) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, assim proporcionando um perfil da amostra de teste compreendendo densidades de leitura é ajustada, (c) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação e (d) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
Módulos
[00358] Um ou mais módulos podem ser utilizados em um método aqui descrito, exemplos não limitativos dos quais incluem um módulo de compressão, módulo de sequenciamento, módulo de mapeamento, módulo de filtração, módulo de densidade de tendências, módulo de relação, o módulo de correção de tendências, o módulo de correção multivariada, módulo de distribuição, módulo de geração de perfil, módulo de estatísticas de ACP, módulo de ponderação de porção, módulo de pontuação, módulo de resultado, o módulo de tela, similares ou uma combinação destes. Em algumas formas de realização, de um módulo é um meio legível por computador não transitório que compreende um conjunto de instruções (por exemplo, um produto de programa de computador, por exemplo, software, um programa), onde o conjunto de instruções direciona um ou mais microprocessadores a desempenhar uma função. Em algumas formas de realização, um módulo compreende instruções sob a forma de código de computador adequado (por exemplo, o código de fonte). Um código de fonte compreende, por vezes, um programa. O código de computador compreende, por vezes, um ou mais arquivos (por exemplo, arquivos de texto). O código de computador pode ser armazenado em um meio de armazenamento não transitório adequado (por exemplo, na memória, por exemplo, no disco rígido de um computador). Os arquivos de código de computador, muitas vezes, são organizados em uma árvore de diretório (por exemplo, uma árvore de origem). O código de computador de um módulo pode ser escrito em linguagem de programação de exemplos adequados não limitativos dos quais incluem a linguagem de programação C, basic, R, R++, S, Java, HTML, etc., ou suas combinações. Em algumas formas de realização, um adequado programa principal atua como um intérprete de código de computador. Em algumas formas de realização, compreende um módulo e/ou tem acesso à memória. Os módulos são, por vezes, controlados por um microprocessador. Em certas formas de realização, um módulo ou de uma máquina que compreende um ou mais módulos, reúne, monta, recebe, obtêm, acessos, recupera, fornece e/ou dados e/ou informações de transferências de ou para outro módulo, máquina, componente, periférico ou operador de uma máquina. Em algumas formas de realização, dados e/ou informações (por exemplo, leitura de sequência, conta, etc.) são fornecidos a um módulo de uma máquina que compreende um ou mais dos seguintes: uma ou mais células de fluxo, uma câmara, um detector (por exemplo, uma foto detector, uma fotocélula, um detector elétrico (por exemplo, um detector de modulação de amplitude, um detector de modulação de frequência e de fase, um detector de anel de bloqueio de fase), um contador, um sensor (por exemplo, um sensor de pressão, temperatura, volume, fluxo, em peso), um dispositivo de fluido de tratamento, uma impressora, um visor (por exemplo, LED, LCT ou CRT), semelhantes ou combinações dos mesmos. Por vezes, um operador de uma máquina fornece um, um valor constante de limite, uma fórmula ou um valor predeterminado para um módulo. Um módulo é, muitas vezes, configurado para transferir dados e/ou informação para, ou a partir de, outro módulo ou máquina. Um módulo pode receber dados e/ou informações a partir de um outro módulo, exemplos não limitativos dos quais incluem um módulo de compressão, sequenciamento módulo, módulo de mapeamento, filtração módulo, módulo de densidade de tendências, módulo de relação, módulo de correção de tendências, módulo de correção multivariada, módulo de distribuição, módulo de geração de perfil, módulo de estatísticas de ACP, módulo de ponderação de porção, módulo de pontuação, módulo de resultado, módulo de tela, similares ou combinação dos mesmos. Um módulo pode manipular e/ou transformar os dados e/ou informações. Os dados e/ou informações derivadas ou transformadas por um módulo podem ser transferidos para outra máquina e/ou módulo apropriado, exemplos não limitativos dos quais incluem um módulo de compressão, módulo de sequenciamento, módulo de mapeamento, módulo de filtração, módulo de densidade de tendências, módulo relacionamento, módulo de correção de tendências, módulo de correção multivariada, módulo de distribuição, módulo de geração de perfil, módulo de estatísticas de ACP, módulo de ponderação de porção, módulo de pontuação, módulo de resultado, módulo de tela, similares ou uma combinação destes. Uma máquina que compreende um módulo pode compreender, pelo menos, um processador. Em algumas formas de realização, dados e/ou informações são recebidas por e/ou fornecidos por uma máquina que compreende um módulo. Uma máquina que compreende um módulo pode incluir um processador (por exemplo, um ou mais processadores) qual processador pode executar e/ou implementar uma ou mais instruções (por exemplo, processos, rotinas e/ou sub- rotinas) de um módulo. Em algumas formas de realização, um módulo opera com um ou mais processadores externos (por exemplo, uma rede, servidor, dispositivo de armazenamento interno ou externo e/ou rede de armazenamento (por exemplo, uma nuvem)). Em algumas formas de realização, de um sistema, (por exemplo, uma forma de realização de um sistema mostrado na Figura 10) compreender um ou mais de um módulo de compressão, módulo de sequenciamento, módulo de mapeamento, módulo de filtração, módulo de densidade de tendências, módulo de relação, módulo de correção de tendências, módulo de correção multivariada, módulo de distribuição, módulo de geração de perfil, módulo de estatísticas de ACP, módulo de ponderação de porção, módulo de pontuação, módulo de resultado, módulo de tela, similares ou uma combinação destes.
Transformações
[00359] Como notado acima, os dados, por vezes, são transformados a partir de uma forma para outra forma. Os termos "transformado", "transformação", e derivações gramaticais ou os seus equivalentes, tal como aqui utilizados, referem-se a uma alteração de dados a partir de um material de partida física (por exemplo, indivíduo de teste e/ou indivíduo de amostra de referência de ácido nucleico) em uma representação digital de o material de partida física (por exemplo, leitura de sequência dados), e em algumas formas de realização inclui ainda uma transformação em um ou mais valores numéricos ou representações gráficas da representação digital que pode ser utilizada para proporcionar um resultado. Em certas formas de realização, o um ou mais valores numéricos, representações gráficas e/ou dados digitalmente representados podem ser utilizados para representar o aparecimento de genoma físico de um indivíduo de teste (por exemplo, praticamente representar e/ou representar visualmente a presença ou ausência de uma inserção genômica, duplicação ou deleção; representar a presença ou ausência de uma variação na quantidade física de uma sequência associada com condições médicas). Uma representação virtual, por vezes, é ainda transformada em um ou mais valores numéricos ou representações gráficas da representação digital do material de partida. Estes métodos podem transformar o material de partida físico em um valor numérico ou representação gráfica, ou uma representação da aparência física do genoma de um indivíduo de teste.
[00360] Em algumas formas de realização, métodos e sistemas aqui transformam uma mistura de uma multiplicidade de fragmentos de polinucleotídeos encontrado no sangue de uma fêmea grávida em uma ou mais representações de estruturas microscópicas e/ou submicroscópicas específicas (por exemplo, um cromossomo, ou seu segmento) presente nas células fetais, maternas ou placentárias. Estes fragmentos de polinucleotídeos, geralmente, originam de diferentes células e tecidos (por exemplo, materno, placenta, feto, por exemplo, músculo, coração, fígado, linfócitos, tumor), cromossomos diferentes, e diferentes elementos genéticos e/ou locais (por exemplo, regiões centroméricas, elementos repetitivos, Regiões ricas em GC, regiões hipervariáveis, genes diferentes, diferentes elementos reguladores, introns, exons e semelhantes). Em algumas formas de realização, um sistema aqui descrito transforma fragmentos de polinucleotídeos, por utilização de uma máquina de sequenciamento, em leitura de sequência. Em algumas formas de realização, um sistema aqui descrito transforma leitura de sequência, cujas leituras de sequência compreendem tendências, para contagens de sequência normalizadas, densidades de leitura e/ou perfis. Leituras de sequência são, frequentemente, transformadas em contagens de sequência normalizadas, densidades de leitura e/ou perfis em que tendências são, significativamente, reduzidas, muitas vezes, através da utilização de uma máquina de redução de tendências e/ou um ou mais processos adequados e/ou módulos (por exemplo, um módulo de mapeamento, módulo de tendências de densidade, módulo de relação, módulo de correção de tendências, e/ou módulo de correção multivariada). As leituras de sequência normalizadas e densidades de leitura e/ou perfis de leituras de densidade gerados a partir de leituras de sequência normalizados tendo tendências reduzidas é útil para gerar um resultado mais confiante. Leitura de sequências, muitas vezes, são alteradas por uma transformação que muda parâmetros de leitura de sequência específicos e reduz tendências, proporcionando, dessa forma, sequência normalizada leitura que às vezes são transformadas em perfis e resultados.
[00361] Em algumas formas de realização, a transformação de um conjunto de dados facilita a proporcionar um resultado de reduzir a complexidade de dados e/ou dimensionalidade de dados. A complexidade do conjunto de dados, por vezes, é reduzida durante o processo de transformação de um material de partida física em uma representação virtual do material de partida (por exemplo, leitura de sequências representativas de material de partida física). Uma característica ou variável adequada pode ser utilizada para reduzir a complexidade de dados definido e/ou dimensionalidade. Os exemplos de recursos que podem ser escolhidos para uso como uma característica alvo para o processamento de dados não limitativos incluem teor de GC, previsão do sexo fetal, identificação de aneuploidia cromossômica, identificação de determinados genes ou proteínas, identificação de câncer, doenças, genes/traços herdados, anomalias cromossômicas, uma categoria biológica, uma categoria química, uma categoria bioquímica, uma categoria de genes ou proteínas, uma ontologia do gene, uma ontologia de proteínas, genes co-regulados, genes de sinalização celular, genes de ciclo celular, proteínas pertencentes aos genes precedentes, variantes genéticas, variantes de proteínas, genes co-regulados, proteínas co- reguladas, sequências de aminoácidos, sequência de nucleotídeos, dados de estrutura da proteína e semelhantes, e combinações dos anteriores. Os exemplos de redução de complexidade e/ou dimensionalidade de conjunto de dados não limitantes incluem; redução de uma pluralidade de leituras de sequência para gráficos de perfil, redução de uma pluralidade de leituras de sequência para valores numéricos (por exemplo, valores normalizados, Z-contagens e valores p); redução de múltiplos métodos de análise para gráficos de probabilidade ou pontos únicos; análise de componentes principais de grandezas derivadas; e semelhantes, ou suas combinações.
EXEMPLOS
[00362] Os exemplos seguintes são fornecidos a título de ilustração apenas e não como forma de limitação. Assim, os exemplos apresentados a seguir ilustram determinadas formas de realização e não limitam a tecnologia. Os técnicos no assunto reconhecerão, facilmente, uma variedade de parâmetros não críticos que poderiam ser alterados ou modificados para produzir, essencialmente, os mesmos ou semelhantes resultados.
Exemplo 1: ChAI
[00363] ChAI é um sistema exemplar para a determinação da presença ou ausência de uma aneuploidia cromossômica em um feto a partir das leituras de sequência obtidas a partir de um indivíduo de teste (por exemplo, uma fêmea grávida). Um exemplo de um diagrama de fluxo do sistema para ChAI é mostrado na Figura 10A e 10B. Leitura de sequências foram obtidas a partir de um indivíduo de teste fêmea grávida e um ou mais indivíduos de referência, por vezes, aqui referido como um conjunto de treinamento. Os indivíduos do sexo feminino grávidas do conjunto de treinamento tiveram fetos que estavam euploides como confirmado por outros métodos de teste.
[00364] Leitura de sequências foram comprimidas primeiro de um formato SAM ou BAM a um formato de leitura binária (formato BReads) que permitiu ChAI a executar muito mais rapidamente. O formato de BReads armazena a localização genômica de cada leitura, incluindo uma posição cromossômica do par de bases e determinada de acordo com um genoma de referência e descarta outras informações. Um arquivo de BReads começa com uma contagem das leituras contidas. Isto melhora os tempos de carga, eliminando a necessidade de memória de retribuições. O valor foi armazenado no disco como um conjunto de quatro bytes. As leituras foram então armazenadas utilizando um formato de 5 bytes, um para o cromossomo ordinal (índice zero de 1-22, X, Y, H), e quatro para a posição cromossômica. Os arquivos BReads foram carregados pela primeira leitura, a contagem de leitura de sequência a partir dos quatro primeiros bytes. Cada sequência é então lida carregado cinco bytes de cada vez, com o primeiro byte indicando um cromossomo ordinal e os próximos quatro a conversão para a posição de número inteiro. A amostragem aleatória de leituras pode ser realizada rapidamente utilizando disco pular comandos para índices de leitura específicos.
[00365] Como um exemplo, a utilização do disco de diferentes formatos é comparada com a utilização do disco de formato BReads na Tabela 1 para 17.673.732 leituras mapeadas. Tabela 1: utilização de disco para diferentes formatos com base em uma amostra com 17.673.732 leituras
Figure img0010
[00366] O formato de BReads foi de, aproximadamente, 50x menor do que o arquivo SAM original e utilizado cerca de 12% menos espaço do que um formato de GZip. BReads também tinha a vantagem de armazenar o número de leituras na cabeça para alocação de memória de uma só vez, e podem ser rapidamente amostrados uma vez que as leituras não têm que ser lidas em ordem. Estas características não eram possíveis com os outros formatos.
Modelagem de Tendências de GC
[00367] Os modelos de tendências de GC foram então aprendidos para cada amostra. Foram utilizadas amostras que foram designadas para a formação, em parte, para criar um filtro porção e aprender outras tendências do genoma que não são bem explicadas por tendências de GC sozinho. Finalmente, as estatísticas de formação foram utilizadas para filtrar e marcar as amostras de teste.
[00368] ChAI modelou as tendências de GC utilizando estimativas de densidade de teor de GC local. As densidades de GC foram estimadas a partir de um genoma de referência utilizando uma função de núcleo, tal como o kernel Epanechnikov (Fig. 1). Outras funções Kernel também são apropriadas, incluindo uma Gaussian ou uma kernel triponderada. A largura de banda foi selecionada como 200 pb, no entanto, o parâmetro de largura de banda é flexível.
[00369] Utilizando um kernel, densidades de GC foram estimadas em resolução de pares de bases no genoma de uma referência (por exemplo, como mostrado na Figura 2). Utilizando as estimativas de densidade de GC de referência, o teor de GC local de cada leitura a partir de uma amostra foi determinado. A distribuição de densidade de GC estimativas para a amostra foi, em seguida, comparada com a distribuição através de todo o genoma de referência para determinar tendências de GC (Fig. 3). Leitura e valores de referência, que mapeiam para Regiões ricas em AT (densidade de GC = 0) foram descartados. A diferença entre a densidade de distribuição de GC de uma amostra e uma referência foi modelada utilizando um polinômio, ajuste em uma relação logarítmica entre a densidade da distribuição de referência dividida pela densidade de distribuição da amostra (fig. 4). O modelo foi encaixado de uma forma ponderada, com cada peso tomado como valor de distribuição densidade da amostra para um valor de densidade de GC dado. Isso garantiu que as caudas da distribuição não conduziram, excessivamente, o ajuste. Outros modelos de montagem, tal como um modelo de regressão quantil ou distribuições parametrizadas pode ser utilizada como é apropriado para a distribuição de tendências.
[00370] Utilizando o modelo de ajuste de GC, cada contagem de uma leitura de sequência para uma amostra foi pesada para se ajustar à sua sub- ou super-representação em comparação com a referência. Ao incorporar esses pesos para a estimativa da leitura densidade, o algoritmo ChAI foi capaz de corrigir as tendências de GC.
Correção de Tendências Multidimensionais
[00371] As tendências de GC foram apenas uma das várias tendências que afetam os padrões de leitura em um genoma. As tendências adicionais foram, por vezes, modeladas e corrigidas para utilizar um modelo multivariado generalizado para estimar pesos de leitura. Esta correção foi realizada como se segue: 1. N valores de tendências foram estimados para uma amostra de teste e um genoma de referência em cada um de um subconjunto de posições genômicas. 2. Densidade dos valores de tendências foi modelada utilizando um kernel de suavização n dimensional ou uma função paramétrica apropriado. 3. A razão logarítmica foi determinada para um conjunto de valores de densidade tomados a partir das densidades de referência e de teste. 4. A relação logarítmica de densidade foi modelada utilizando os pontos escolhidos com um modelo multivariado (por exemplo, polinomial de 3a ordem ponderada para cada dimensão). 5. O modelo foi utilizado para estimar a razão da frequência de uma determinada leitura em comparação com a referência, e o peso apropriado foi atribuído. Filtração da Porção
[00372] As amostras foram marcadas para anormalidades cromossômicas com base na representação das leituras de sequência (por exemplo, conta) sobre o genoma. Esta representação foi determinada utilizando uma função densidade, semelhante ao utilizado para a estimativa GC local. O leitor de densidade kernel geralmente tem uma largura de banda muito maior, com o padrão sendo 50.000 pb. Cada contagem de uma leitura contribui para a densidade de um valor igual ao seu peso, a partir do modelo GC- tendências. A densidade de leitura pode ser avaliada em um ou todos os pares de bases, mas para o desempenho computacional foram utilizados apenas determinados locais. Estas posições foram denominadas "porções". As porções podem estar localizadas onde quer que seja mais importante para estimar a densidade de leitura. Para a classificação das parcelas aneuploidias cromossômicas, foram, inicialmente, (por exemplo, antes de filtrar) espaçadas uniformemente em todo o genoma. Cada porção composta por uma janela 50000 pb e, antes da filtração, sobrepôs-se à porção seguinte adjacente por meio de 25000 pb.
[00373] Algumas porções incluem regiões genômicas mal mapeadas que levaram a perturbações extremas de leitura densidade de amostra para amostra. ChAI identificou e removeu essas porções por um processo de filtração utilizando um conjunto de treinamento. As porções que mostraram grandes desvios na mediana (por exemplo, Fig. 5A) e/ou valores MAD (por exemplo, Fig. 5B) foram removidas da consideração. O limite destes desvios foi tomado como um valor fora da população de formação quartis por mais de quatro vezes a gama inter-quartil (Fig. 5). Este limite pode ser afinado para maximizar o desempenho de teste para um conjunto específico de parâmetros ChAI.
Treinamento e Pontuação
[00374] Utilizando apenas leitura que mapeia para porções filtradas, perfil de densidade de leitura de genoma de cada amostra foi calculado. As amostras que faziam parte do conjunto de treinamento foram então utilizadas para estimar estatísticas da formação que foram utilizados para marcar o conjunto de teste. Estas estatísticas consistiram em medianas de porções, de componentes principais, e distribuições nulas para a estatística de teste de pontuação. As porções medianas e componentes principais foram utilizadas para modelar as tendências de leitura de todo genoma que podem estar presentes em qualquer número de técnicas biológicas e artefatos (Fig. 6A-C). Para minimizar o impacto dos valores das porções extremas sobre o resto da amostra, cada valor que estava fora da 4xIQR entre as outras porções em uma amostra foi reduzida para 4xIQR.
[00375] As amostras de teste foram corrigidas para tendências ocultas pela primeira, subtraindo os valores medianos formados a partir dos valores da parcela de teste. Os componentes dos valores das amostras que se correlacionam com os melhores componentes principais formados foram também removidos. Isso foi feito modelando os valores da parcela por meio de regressão linear múltipla, com base nos principais termos de componentes (Fig. 7). Os valores previstos pelo modelo foram subtraídos dos valores de amostra, deixando apenas os resíduos imparciais. O número de componentes principais utilizados é opcional, com o padrão sendo oito.
[00376] Após as correções, as amostras foram pontuadas com um teste de Fisher exato. Este teste comparou o número de porções cujos valores eram mais ou menos do que a mediana treinada na região cromossômica de interesse. Estas contagens foram avaliadas contra o resto das porções do genoma. A estatística de pontuação foi tomada como o valor-p de log10 negativo. Outras estatísticas de pontuação podem ser utilizadas neste passo, tal como um teste de sinais de Wilcoxon ou um teste de F.
[00377] Devido às correlações residuais entre porções, a estatística de teste foi inflada, tanto no treinamento e amostras de teste. Esta inflação foi estimada a partir próprio esforço do conjunto de treinamento (Figura 8).
[00378] As pontuações para amostras de teste foram corrigidas utilizando esta distribuição nula como um fundo empírica. Pontuações que são muito maiores do que aqueles na distribuição empírica foram corrigidas utilizando uma extrapolação de Pareto da cauda da distribuição nula. Chamando o Sexo
[00379] O sexo foi determinado a partir de perfil de componentes principais de uma amostra. Em um conjunto de dados de treinamento, o segundo componente principal (por exemplo, PC2) foi altamente correlacionado com o sexo. Utilizando um coeficiente de regressão deste componente como uma estatística de teste, foi um teste altamente preciso do gênero (Figura 9A-9B).
Removendo Dependências de Porção
[00380] Um passo adicional foi tomado durante uma corrida ChAI para melhorar o poder preditivo da abordagem. Isto envolveu redução da quantidade de estrutura de correlação na matriz porção de amostra, o que melhor suporta a suposição teste de independência variável e reduziu a frequência das pontuações significativas nas permutações nulas. A abordagem envolveu a substituição das porções com porções eigen-ortogonais que contêm quase toda a mesma informação, mas sem estrutura de correlação.
[00381] O primeiro passo foi a aprender uma transformação de matriz Meig para um conjunto de porções de treinamento M: 1. decomposição SVD: M = U * D * VT 2. Escolher o número de porções de eigen independentes N: (por exemplo, de modo que a fração cumulativa dos elementos da diagonal N de D seja superior a 95%) 3. Computar a pseudoinversão: Meig = pinv(U [...,1:N]*D [1:N,1:N])
[00382] A multiplicação da esquerda de qualquer subconjunto da matriz M por sua Meig correspondente resultou em uma representação livre de correlação reduzida dimensão desse subconjunto. Desta forma, Meig foi derivado em um conjunto de dados de treino e aplicadas a amostras de teste, sem qualquer modificação adicional.
[00383] Meig também foi utilizado para transformar a variável de teste. A variável de teste foi representada como um vetor que consiste em apenas zeros, com aqueles em locais de desvios esperados (por exemplo, Cr 21 porções). Este vetor foi transformado com Meig através de multiplicação de esquerda para corresponder adequadamente os dados de porção transformados.
[00384] Esta abordagem só pode criar tantas porções eigen independentes quanto amostras no conjunto de treinamento. Por exemplo, em um conjunto de formação de 50.000 porções e 1.000 amostras, os dados transformados contêm, no máximo, 1.000 porções. Este era provavelmente uma sobre-correção, reduzindo o número de porções drasticamente. A abordagem pode ser realizada, mais frouxamente, pela computação separada de transformações de Meig em subconjuntos menores dos dados das porções e aplicá-los separadamente. Isto foi particularmente útil para a remoção de estrutura de correlação local a partir de porções vizinhas. Outras abordagens podem também ser utilizadas para reduzir a porção de estrutura de correlação. Por exemplo, muitos métodos de agrupamento podem ser utilizados para agrupar pedaços e substituí-los com um conjunto menor de porções de agregados (por exemplo, com base em médias de grupo ou centroids).
Exemplo 2: Módulo de Geração de Distribuição/Perfil
[00385] Um script foi escrito em java para gerar perfis de densidade de leituras de dados de leitura de sequência (por exemplo, BReads). O código a seguir foi projetado para coletar dados de leitura para cada leitura de sequência e atualizar um perfil de densidade para as janelas de densidade de leitura apropriadas (por exemplo, densidades de leitura individuais para uma parte), ponderados pela distância de uma leitura a partir da mediana ou ponto médio de uma porção, e de acordo com a correção de tendências de GC de uma amostra (ver Exemplo 4). O script abaixo pode ligar ou utilizar usos ponderado e/ou contagens normalizados gerados a partir de um módulo de correção módulo de relação ou preconceito (Exemplo 4). Em algumas formas de realização, um módulo de distribuição pode compreender parte ou a totalidade, ou uma variação do script Java mostrado abaixo. Em algumas formas de realização, um módulo de geração de perfil pode compreender parte ou a totalidade, ou uma variação do script Java mostrado abaixo: package utilities.genome; import java.util.Iterator; import utilities.data.VectorUtil; import utilities.text.DataFormatter; public class ChromDensScaleRunnable implements Runnable{ private GenomeScaleBoolean mask; private GenomeScaleFloat density; private final String modelPath; private final String brPath; private final int bandwidth; private final GenomeFloat gcdens; private final int stepSize; private final int sampleSize; private final int shift; private final String report; public ChromDensScaleRunnable(String modelPath, String brPath, int bandwidth, GenomeFloat gcdens, int stepSize, GenomeScaleBoolean mask, String report, int sampleSize, int shift) { this.modelPath = modelPath; this.brPath = brPath; this.bandwidth = bandwidth; this.gcdens = gcdens; this.stepSize = stepSize; this.mask = mask; this.report = report; this.sampleSize = sampleSize; this.shift = shift; } public void run() { double [] mdat = (gcdens==null) ? null : VectorUtil.loadDoubleFromFile(modelPath, 6); //Build density density = new GenomeScaleFloat(stepSize); double correction = 0; try { Iterator<GenomicPosition> readIterator = (sampleSize==-1) ? GenomeIO.scanBReads(brPath) : new BReadsSampler(brPath, sampleSize,true); while (readIterator.hasNext()) { GenomicPosition gp = readIterator.next().shift(shift); int pos = gp.pos; int start = Math.max(0, pos-bandwidth); int end = Math.min(pos+bandwidth, GenomeUtil.chromosomeSize(gp.chr)-1); int cindex = gp.chr.ordinal(); double weight; if (gcdens!=null) float gc = gcdens.values [cindex] [pos-1]; if (gc==0) continue; weight = modelWeight(mdat, gc); }else weight = 1; int [] [] gpoints = density.getScalePoints(cindex, start, end, mask); if (gpoints [0].length==0 || Double.isNaN(weight)) continue; if (weight>2) weight = 2; if (weight<.5) weight = .5; correction += weight; for (int i=0;i<gpoints [0].length;i++) density.values [cindex] [gpoints [0] [i]] += kernel((gpoints [1] [i]-pos)/(double)bandwidth) * weight; } }catch (Exception e) { System.out.println("THROW!"); e.printStackTrace(); System.exit(0); } //System.out.println(GenomeIO.countReadsFromBReads(brP ath)); //System.out.println(correction); //Normalize intensity for (int i=0;i<density.values.length;i++) for (int j=0;j<density.values [i].length;j++) { float blah = density.values [i] [j]; density.values [i] [j] /= correction; if (Double.isNaN(density.values [i] [j]) || Double.isInfinite(density.values [i] [j])) { System.out.println("NA val2: "+modelPath+", "+density.values [i] [j]+", "+blah+", "+correction); System.exit(0); } } if (report!=null) System.out.println(report); } public GenomeScaleFloat density() { return density; } private static double kernel(double x) { return .75 * (1.0 - x*x); } public static double modelWeight(double [] mdat, double gcdens) { if (mdat [5]==1) gcdens = Math.log(gcdens); double x2 = gcdens * gcdens; return Math.pow(2, mdat [0] + mdat [1] * gcdens + mdat [2] * x2 + mdat [3] * x2 * gcdens); } }
Exemplo 3: Módulo de Filtração
[00386] Um script foi escrito em R para filtrar partes de um perfil de densidade de leitura. Este código examina um perfil de densidade de leitura em todas as amostras e identifica porções que são retidas e/ou porções que estão fora de uso (por exemplo, removido a partir da análise), com base em um intervalo inter-quartil. Em algumas formas de realização, de um módulo de filtração compreende alguns ou a totalidade, ou uma variação do script R mostrado abaixo: rcodepath <- "I:/ghannum/Projects/Binless/RCode" mdistpath <- "I:/ghannum/Projects/Binless/Reference/MarkerDistribution_ LDTv2_200_50000_50000.txt" outpath <- "I:/ghannum/Projects/Binless/Reference/LDTv2_200_50000_500 00_MarkerMask.txt" args <- commandArgs(trailingOnly = TRUE) rcodepath <- args [1] mdistpath <- args [2] outpath <- args [3] source(paste(rcodepath,"/src/utilities/scanmatrix.R",sep="" )) dat <- scanMatrix(mdistpath,rownames=FALSE,colnames=TRUE) m <- apply(dat,1,median) v <- apply(dat,1,mad) qm <- quantile(m,c(.25,.75)) qv <- quantile(v,c(.25,.75)) scalem <- qm [2]-qm [1] scalev <- qv [2]-qv [1] ok <- m > qm [1]-4*scalem & m < qm [2]+4*scalem & v > qv [1]- 4*scalev & v < qv [2]+4*scalev write.table(matrix(as.integer(ok),1),row.names=F,col.names= F,quote=F,file=outpath,sep="")
Exemplo 4: Módulo de Densidade de Tendências, Módulo de relação, Módulo de Correção de Tendências & Módulo de plotagem
[00387] Um script foi escrito em R para gerar densidades de tendências, gerando e comparando uma relação e para corrigir tendências na leitura de sequência. Este código, geralmente, direciona um microprocessador a analisar uma ou mais amostras e construir um modelo de tendências (por exemplo, uma relação e/ou uma comparação de relações) com base em estimativas de tendência de genoma local (por exemplo, densidades de GC) para cada amostra e uma referência. O script abaixo direciona um ou mais processadores, em parte, para gerar uma relação entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para as leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de densidade de GC da amostra, (b) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de referência de densidade de GC é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência e, com um modificação adequada do script, (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), onde tendências nas leituras de sequência para a amostra são reduzidas. Em algumas formas de realização, um módulo de densidade de tendências, um módulo de relação, um módulo de correção de tendências e/ou um módulo de plotagem compreende, alguns, a totalidade ou uma modificação de parte ou da totalidade do script mostrado abaixo. gcpath <- "I:/ghannum/Projects/Binless/Reference/BiasMaps/DnaseDensi ty_200_dist.txt" inpath <- "I:/ghannum/Projects/Binless/Models/LDTv2_DNase- 200" outpath <- "I:/ghannum/Projects/Binless/Models/LDTv2_DNase- 200" makePlots <- TRUE logTransform <- TRUE args <- commandArgs(trailingOnly = TRUE) gcpath <- args [1] inpath <- args [2] outpath <- args [3] makePlots <- args [4] logTransform <- as.logical(args [5]) paths <- dir(inpath) paths <- paths [grep("_BiasDistr.txt$",paths)] gcref <- scan(gcpath,0) gcref <- gcref [gcref!=0] if (logTransform) gcref <- log(gcref) from <- quantile(gcref,.005) to <- quantile(gcref,.995) x <- seq(from,to,length.out=100); d1y <- predict(smooth.spline(density(gcref,from=from,to=to)),x)$y if (!logTransform) d1y <- sapply(d1y,function(x){max(x,0)}) print(paste("Processing",length(paths),"models.")) for (f in paths) { distr <- scan(paste(inpath,"/",f,sep=""),0) distr <- distr [distr!=0] if (logTransform) distr <- log(distr) d2y <- predict(smooth.spline(density(distr,from=from,to=to)),x)$y if (!logTransform) d2y <- sapply(d2y,function(x){max(x,0)}) pp <- log2(d1y / d2y) pp [pp > 2] <- 2; pp [pp < -2] <- -2 ok <- !is.na(pp) mod <- lm(pp [ok]~x+I(xA2)+I(xA3), data=list(x=x [ok]), w=d2y [ok]) w <- 2Apredict(mod,list(x=distr)) fname <- substr(f,1,nchar(f)-14) out <- c(mod$coefficients,mean(w)) out [out==Inf] <- "Infinity" out [out==-Inf] <- "-Infinity" write.table(matrix(c(out,as.integer(logTransform)),nco l=1),file=paste(outpath,"/",fname,"_BiasMod.txt",sep=""),r ow.names=F,col.names=F,quote=F) if (makePlots) png(units="in",height=4,width=4,res=300,file=paste(out path,"/",fname,"_BiasMod.png",sep="")) if (logTransform) { plot(x [ok],pp [ok],ylim=c(-4,4),xlab="Bias Density",ylab="Log2 Ratio (Reference / Sample)") }else plot(x [ok],pp [ok],ylim=c(-4,4),xlab="Log-Bias Density",ylab="Log2 Ratio (Reference / Sample)") abline(h=0,lty=2) lines(x [ok],predict(mod),col=3) dev.off() } } ##Demo transformation #load("I:/ghannum/Projects/Binless/2012_11_13_cewi_PERUN_19 FCs_AltGCbias_chrFractions.RData") # #d <- dir("I:/ghannum/Projects/Binless/GCDistribution/LDTv2/") #d <- d [grep("_GCDistr.txt",d)] #v <- as.numeric(df.cewi.GCbiasTable [,"gcBiasRobust"]) [1:length( d)] # #a <- scan(paste("I:/ghannum/Projects/Binless/GCDistribution/LDT v2/",d [which.min(v)],sep=""),0); a <- sort(a) #b <- scan(paste("I:/ghannum/Projects/Binless/GCDistribution/LDT v2/",d [which.max(v)],sep=""),0); d <- sort(d) # #r <- scan("I:/ghannum/Projects/Binless/Reference/GCDensity_200_ density.txt",0) # #plot(density(r),ylim=c(0,1e10),xlab="GC Density"); lines(density(a),col=3); lines(density(b),col=2) # #a <- a [a!=0] #b <- b [b!=0] #r <- r [r!=0] # #plot(density(r),ylim=c(0,1e10),xlab="GC Density"); lines(density(a),col=3); lines(density(b),col=2) # #modA <- as.numeric(scan(paste("I:/ghannum/Projects/Binless/GCDistr ibution/LDTv2/",substr(d [which.min(v)],1,nchar(d [which.min (v)])-12),"_GCMod.txt",sep=""),"")) #modB <- as.numeric(scan(paste("I:/ghannum/Projects/Binless/GCDistr ibution/LDTv2/",substr(d [which.max(v)],1,nchar(d [which.max (v)])-12),"_GCMod.txt",sep=""),"")) # #wa <- sapply(a,function(x){2Asum(c(1,x,xA2,xA3)*modA [1:4])}) #wb <- sapply(b,function(x){2Asum(c(1,x,xA2,xA3)*modB [1:4])}) # #wa <- wa/(length(wa)*modA [5]) #wb <- wb/(length(wb)*modB [5]) # #plot(density(r),ylim=c(0,1e10),xlab="GC Density"); lines(density(a,weights=wa),col=3); lines(density(b,weights=wb),col=2)
Exemplo 5: Exemplos de formas de realização
[00388] Os exemplos apresentados a seguir ilustram determinadas formas de realização e não limitam a tecnologia.
[00389] A1. Um sistema que compreende a memória e um ou mais microprocessadores, em que um ou mais microprocessadores são configurados para realizar, de acordo com as instruções na memória, um processo para reduzir tendências nas leituras de sequência para uma amostra, processo esse que compreende: (a) gerar uma relação entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para as leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de densidade de GC de amostra, em que, as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (b) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através de quais tendências nas leituras de sequência para a amostra são reduzidas.
[00390] A1.1. Um sistema que compreende um aparelho de sequenciamento e um ou mais aparelhos de computação, em que o aparelho de sequenciamento é configurado para produzir sinais correspondentes às bases de nucleotídeo de um ácido nucleico carregado no aparelho de sequenciamento, que o ácido nucleico está circulando ácido nucleico isento de células a partir do sangue de uma fêmea grávida tendo um feto, ou que o ácido nucleico carregado no aparelho de sequenciamento é uma variante modificada do ácido nucleico isento de células circulantes; e qual um ou mais aparelhos de computação incluem memória e um ou mais processadores, que a memória compreende instruções executáveis por um ou mais processadores e que as instruções executáveis por um ou mais processadores são configurados para: produzir leitura de sequência a partir dos sinais e mapear as leituras de sequência a um genoma de referência; (d) gerar uma relação entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para as leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de densidade de GC da amostra; (e) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (f) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), segundo o qual tendências nas leituras de sequência para a amostra são reduzidas.
[00391] A1.2. O sistema de acordo com a forma de realização A1 ou A1.1, em que a normalização em (c) compreende o fornecimento de contagens normalizados.
[00392] A2. O sistema de acordo com qualquer uma das formas de realização A1 para A1.2, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00393] A2.1. O sistema de acordo com qualquer uma das formas de realização A1 a A2, em que cada uma das densidades de GC para a relação de densidade de GC de referência e a relação de densidade de GC da amostra é uma representação do teor de GC local.
[00394] A2.2. O sistema de A2.1 forma de realização, em que o teor de GC para local é um segmento de polinucleotídeo de 5000 pb ou menos.
[00395] A3. O sistema de acordo com qualquer uma das formas de realização A1 para A2.2, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00396] A4. O sistema de forma de realização A3, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre uma base a cerca de 10 bases de cada vez na análise de janela deslizante.
[00397] A5. O sistema de forma de realização A3, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre uma base de cada vez na análise de janela deslizante.
[00398] A6. O sistema de acordo com qualquer uma das formas de realização A1 a A5, em que (b) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de densidade de GC de amostra e frequência de relação de densidade de GC de referência para cada uma das densidades de GC e (ii) as densidades de GC.
[00399] A7. O sistema de acordo com a forma de realização A6, em que a relação ajustada em (a) é obtida a partir de um ajuste ponderado.
[00400] A8. O sistema de acordo com qualquer uma das formas de realização de A1 a A7, em que cada uma das leituras de sequência para a amostra é representada em um formato binário e/ou um formato de texto.
[00401] A9. O sistema de acordo com a forma de realização A8, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica a qual a leitura está mapeada.
[00402] A10. O sistema de acordo com a forma de realização A9, em que o formato binário está em um formato de 5 bytes, compreendendo um cromossomo ordinal 1-byte e uma posição cromossômica de 4 bytes.
[00403] A11. O sistema de acordo com qualquer uma das formas de realização A8 a A10, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00404] A12. O sistema de acordo com qualquer uma das formas de realização A1 a A11, em que a normalização em (c) compreende fatorar uma ou mais características diferentes da densidade de GC, e normalizar a leitura de sequência.
[00405] A13. O sistema de acordo com a forma de realização A12, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00406] A14. O sistema de A13, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00407] A14.1. O sistema de acordo com qualquer uma das formas de realização A12 até A14, em que as contagens das leituras de sequência são normalizados de acordo com a normalização em (c) e a fatoração de uma ou mais características.
[00408] A15. O sistema de acordo com qualquer uma das formas de realização A1 para A14.1, que compreende, depois (c), gerando uma densidade de leitura para uma ou mais porções de um genoma, ou um seu segmento, de acordo com um processo que compreende a geração de uma estimativa de densidade de probabilidade para cada das uma ou mais porções, compreendendo as contagens das leituras de sequência normalizados em (c).
[00409] A16. O sistema de acordo com a forma de realização A15, em que a estimativa de densidade de probabilidade é uma estimativa de densidade Kernel.
[00410] A17. O sistema de acordo com a forma de realização A15 ou A16, que compreende a geração de um perfil de densidade de leitura para o genoma ou o segmento do mesmo.
[00411] A18. O sistema de acordo com a forma de realização A17, em que o perfil de densidade de leitura compreende as densidades de leitura para a uma ou mais porções do genoma, ou o seu segmento.
[00412] A19. O sistema de acordo com qualquer uma das formas de realização A15 a A18 que compreende ajustar cada uma das densidades de leitura para a uma ou mais porções.
[00413] A20. O sistema de acordo com qualquer uma das formas de realização A15 e A19, em que o um ou mais porções são filtrados, assim, proporcionando porções filtradas.
[00414] A21. O sistema de acordo com qualquer uma das formas de realização A15 e A20, em que o um ou mais porções são ponderados proporcionando, dessa forma, porções ponderadas.
[00415] A22. O sistema de acordo com a forma de realização A21, em que o um ou mais porções são ponderados por uma função eigen.
[00416] A23. O sistema de acordo com qualquer uma das formas de realização de A1 a A22, que compreende, antes de (a), obtendo-se as leituras de sequência.
[00417] A24. O sistema de acordo com a forma de realização A23, em que as leituras de sequência são geradas por sequenciamento massivo paralelo (MPS).
[00418] A25. O sistema de acordo com qualquer uma das formas de realização de A1 a A24, que compreende a obtenção de leituras sequência mapeado para um genoma de referência inteiro ou um segmento de um genoma.
[00419] A26. O sistema de acordo com a forma de realização A25, em que o segmento do genoma compreende um cromossomo ou um seu segmento.
[00420] A27. O sistema de acordo com a forma de realização A25 ou A26, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizados antes de (a).
[00421] A28. O sistema de acordo com a forma de realização A27, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizados pelo teor de GC, a normalização bin-wise, GC LOESS, PERUN, GCRM, ou combinações dos mesmos.
[00422] A29. O sistema de acordo com qualquer uma das formas de realização A27 ou A28, em que as contagens das leituras de sequência mapeadas para o genoma de referência são as contagens em bruto.
[00423] A30. O sistema de acordo com qualquer uma das formas de realização A15 a A29, em que cada porção do genoma de referência compreende cerca de um comprimento igual de nucleotídeos contíguos.
[00424] A31. O sistema de acordo com qualquer uma das formas de realização A15 ou A30, em que cada porção do genoma de referência compreende cerca de 50 kb.
[00425] A32. O sistema de acordo com qualquer uma das formas de realização A15 e A31, em que cada porção do genoma de referência compreende cerca de 100 kb.
[00426] A33. O sistema de acordo com qualquer uma das formas de realização A15 e A32, em que cada porção do genoma de referência compreende um segmento de nucleotídeos contíguos em comum com uma porção adjacente do genoma de referência.
[00427] A34. O sistema de acordo com qualquer uma das formas de realização A1 a A33, em que a amostra de teste é obtida a partir de uma fêmea grávida.
[00428] A35. O sistema de acordo com qualquer uma das formas de realização A1 a A34, em que a amostra de teste compreende de sangue de uma fêmea grávida.
[00429] A36. O sistema de acordo com qualquer uma das formas de realização A1 a A35, em que a amostra de teste compreende de plasma a partir de uma fêmea grávida.
[00430] A37. O sistema de acordo com qualquer uma das formas de realização A1 a A36, em que a amostra de teste compreende soro de uma mulher grávida.
[00431] A38. O sistema de acordo com qualquer uma das formas de realização de A1 a A37, em que os ácidos nucleicos são isolados a partir da amostra teste.
[00432] A39. O sistema de acordo com qualquer uma das formas de realização A8 a A38, que compreende comprimir as leituras de sequência mapeadas para um genoma de referência em (a) a partir de um formato de alinhamento de sequências para um formato binário.
[00433] A40. O sistema de acordo com a forma de realização A39, em que a compressão é realizada por um módulo de compressão.
[00434] A41. O sistema de acordo com qualquer uma das formas de realização A1 a A40, em que as densidades de GC e as frequências de densidade de GC para as leituras de sequência da amostra de teste e para a referência são fornecidas por um módulo de densidade de tendências.
[00435] A42. O sistema de acordo com qualquer uma das formas de realização A1 a A41, em que a comparação em (b) é gerada por um módulo de relação.
[00436] A43. O sistema de acordo com qualquer uma das formas de realização de A1 a A42, em que a normalização em (c) é realizada por um módulo de correção de tendências.
[00437] A44. O sistema de acordo com qualquer uma das formas de realização A15 e A43, em que as densidades de leitura são fornecidas por um módulo de distribuição.
[00438] A45. O sistema de acordo com qualquer uma das formas de realização A20 a A44, em que as porções filtradas são fornecidas por um módulo de filtração.
[00439] A46. O sistema de acordo com qualquer uma das formas de realização A21 a A45, em que as densidades de leitura ajustadas são fornecidas por um módulo de ajuste de densidade de leitura.
[00440] A46.1. O sistema de acordo com qualquer uma das formas de realização A21 a A46, em que as porções ponderadas são fornecidas por um módulo de pesagem de porção.
[00441] A47. O sistema de acordo com a forma de realização A46.1, que compreende um ou mais do módulo de compressão, o módulo de densidade de tendências, o módulo de relação, o módulo de correção de tendências, o módulo de distribuição, o módulo de filtração, o módulo de ajuste da densidade de leitura e o módulo de pesagem de porção.
[00442] A48. O sistema de acordo com qualquer uma das formas de realização A1 a A47, em que a memória do sistema compreende leituras de sequência de ácido nucleico isento de células circulantes a partir da amostra de teste que são mapeados para o genoma de referência.
[00443] B1. Um sistema que compreende a memória e um ou mais microprocessadores, que um ou mais microprocessadores são configurados para realizar, de acordo com as instruções na memória, um processo para determinar a presença ou ausência de uma aneuploidia para uma amostra, processo esse que compreende: (g) de filtração, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (h) ajuste do perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas; (i) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (j) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00444] B1.1. Um sistema que compreende um aparelho de sequenciamento e um ou mais aparelhos de computação, em que o aparelho de sequenciamento é configurado para produzir sinais correspondentes às bases de nucleotídeo de um ácido nucleico carregado no aparelho de sequenciamento, que o ácido nucleico está circulando ácido nucleico isento de células a partir do sangue de uma fêmea grávida que carrega um feto, ou que o ácido nucleico carregado no aparelho de sequenciamento é uma variante modificada do ácido nucleico isento de células circulantes; e que um ou mais aparelhos de computação incluem memória e um ou mais processadores, que a memória compreende instruções executáveis por um ou mais processadores e ainda instruções executáveis por um ou mais processadores são configurados para: produzir leitura de sequência a partir dos sinais e mapear as leituras de sequência a um genoma de referência; (a) filtrar, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e (b) distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (c) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas; (d) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (D) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00445] B2. O sistema de acordo com a forma de realização B1 ou B1.1, em que a comparação compreende determinar um nível de significância.
[00446] B3. O sistema de acordo com qualquer uma das formas de realização B1 a B2, em que a determinação do nível de significado compreende a determinação de um valor- p.
[00447] B4. O sistema de acordo com qualquer uma das formas de realização B1 a B3, em que o perfil de referência compreende um perfil de densidade de leitura obtida a partir de um conjunto de amostras euploides conhecidas.
[00448] B5. O sistema de acordo com qualquer uma das formas de realização B1 a B4, em que o perfil de referência compreende as densidades de leitura de porções filtradas.
[00449] B6. O sistema de acordo com qualquer uma das formas de realização B1 a B5, em que o perfil de referência compreende as densidades de leitura é ajustada de acordo com os um ou mais componentes principais.
[00450] B7. O sistema de acordo com qualquer uma das formas de realização B2 a B6, em que o nível de significância indica uma diferença estatisticamente significativa entre o perfil da amostra de teste e o perfil de referência, e a presença de um cromossomo aneuploide é determinada.
[00451] B8. O sistema de acordo com qualquer uma das formas de realização B1 a B7, em que as várias amostras compreendem um conjunto de amostras euploides conhecidas.
[00452] B9. O sistema de acordo com qualquer uma das formas de realização B1 a B8, em que as densidades de leitura de porções para as várias amostras são densidades de leitura medianas.
[00453] B10. O sistema de acordo com qualquer uma das formas de realização B1 a B9, em que as densidades de leitura de porções filtradas para a amostra de teste com as densidades de leitura medianas.
[00454] B11. O sistema de acordo com qualquer uma das formas de realização B4 a B10, em que o perfil de densidade de leitura para o perfil de referência compreende as densidades de leitura medianas.
[00455] B12. O sistema de acordo com qualquer uma das formas de realização B4 a B11, em que as densidades de leitura para o perfil da amostra de teste, as amostras múltiplas e o perfil de referência são determinados de acordo com um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00456] B13. O sistema de acordo com qualquer uma das formas de realização B10 a B12, em que o perfil da amostra de teste é determinado de acordo com as densidades de leitura medianas para a amostra de teste.
[00457] B14. O sistema de acordo com qualquer uma das formas de realização B11 a B13, em que o perfil de referência é determinado de acordo com as distribuições de densidade medianas de leitura para a referência.
[00458] B15. O sistema de acordo com qualquer uma das formas de realização B1 a B14, que compreende porções de filtração de um genoma de referência de acordo com uma medida de incerteza para a distribuição de densidade de leitura.
[00459] B16. O sistema de acordo com a forma de realização B15, em que a medida da incerteza é uma MAD.
[00460] B17. O sistema de acordo com qualquer uma das formas de realização B1 a B16, em que as contagens de leituras de sequência mapeadas para porções filtradas para a amostra de teste são normalizadas por um processo executado antes de (a) compreendendo: (1) a geração de uma relação entre (i) as estimativas de tendência de genoma local e (ii) frequências de tendências para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendência de amostra, em que, as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (11) comparação da relação de tendência da amostra e uma relação de tendências de referência, gerando, desse modo, uma comparação, em que, a relação tendências de referência é entre (i) as estimativas de tendência de genoma local, e (ii) as frequências de tendência para uma referência; e (111) normalização das contagens das leituras de sequência para a amostra de acordo com o determinado em comparação (II), em que tendências nas leituras de sequência para a amostra são reduzidas.
[00461] B18. O sistema de acordo com a forma de realização B17, em que a normalização em (III) compreende o fornecimento de contagens normalizadas.
[00462] B19. O sistema de acordo com a forma de realização B17 ou B18, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00463] B20. O sistema de acordo com qualquer uma das formas de realização B17 a B19, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00464] B21. O sistema de acordo com a forma de realização B20, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre uma base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00465] B22. O sistema de acordo com a forma de realização B20, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre uma base de cada vez na análise de janela deslizante.
[00466] B23. O sistema de acordo com qualquer uma das formas de realização B17 a B22, em que (ii) compreende a geração de uma relação ajustada entre (i) proporções, cada uma das quais proporções compreende uma frequência de relação de tendência da amostra e uma frequência de relação de tendências de referência para cada uma das estimativas de tendência de genoma local e (ii) estimativas de tendência de genoma local.
[00467] B24. O sistema de acordo com a forma de realização B23, em que a relação ajustada em (I) é obtido a partir de um ajuste ponderado.
[00468] B25. O sistema de acordo com qualquer uma das formas de realização B17 a B24, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00469] B26. O sistema de acordo com a forma de realização de B25, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00470] B27. O sistema de acordo com a forma de realização B26, em que o formato binário está em um formato de 5 bytes, compreendendo um cromossomo ordinal 1 byte e uma posição cromossômica de 4 bytes.
[00471] B28. O sistema de acordo com qualquer uma das formas de realização B25 a B27, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00472] B29. O sistema de acordo com qualquer uma das formas de realização B17 a B28, em que a normalização em (iii) compreende a fatoração um ou mais características diferentes de tendências, e normalização das contagens de leitura de sequência.
[00473] B30. O sistema de acordo com a forma de realização B29, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00474] B31. O sistema de B30, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00475] B32. O sistema de acordo com qualquer uma das formas de realização B29 a B31, em que as contagens das leituras de sequência são normalizadas de acordo com a normalização em (III) e a fatoração de uma ou mais características.
[00476] B33. O sistema de acordo com qualquer uma das formas de realização B17 a B32, que compreende, depois de (III), gerando uma densidade de leitura para uma ou mais porções de um genoma, ou um seu segmento, de acordo com um processo que compreende a geração de uma estimativa da densidade de probabilidade para cada um dos uma ou mais porções, compreendendo as contagens das leituras de sequência normalizada em (III).
[00477] B34. O sistema de acordo com a forma de realização B33, em que a estimativa de densidade de probabilidade é uma estimativa de densidade Kernel.
[00478] B35. O sistema de acordo com a forma de realização B33 ou B34, que compreende a geração de um perfil de densidade de leitura para o genoma ou o segmento do mesmo.
[00479] B36. O sistema de acordo com a forma de realização B35, em que o perfil de densidade de leitura compreende as densidades de leitura para a uma ou mais porções do genoma, ou o seu segmento.
[00480] B37. O sistema de acordo com qualquer uma das formas de realização B33 a B36 compreende ajustar cada uma das densidades de leitura para a uma ou mais porções.
[00481] B38. O sistema de acordo com qualquer uma das formas de realização B33 a B37, em que o um ou mais porções são filtrados, assim, proporcionando porções filtradas.
[00482] B39. O sistema de acordo com qualquer uma das formas de realização B33 a B38, em que o um ou mais porções são ponderados proporcionando, dessa forma, porções ponderadas.
[00483] B40. O sistema de acordo com a forma de realização B39, em que o um ou mais porções são ponderados por uma função eigen.
[00484] B41. O sistema de acordo com qualquer uma das formas de realização B17 a B40, caracterizado por as estimativas de tendência de genoma local são densidades de GC locais e as frequências de tendências são frequências de tendências de GC.
[00485] B42. O sistema de acordo com qualquer uma das formas de realização B1 até B16, em que as contagens de leituras de sequência mapeadas para porções filtradas para a amostra de teste são normalizadas por um processo executado antes de (a) compreendendo: (112) a geração de uma relação ajustada entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para as leituras de sequência na amostra de teste, gerando, desse modo, uma relação de densidade de GC de amostra, em que as leituras de sequência são mapeadas para o genoma de referência; (113) comparação da relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (114) contagem da normalização das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através das quais tendências nas leituras de sequência para a amostra são reduzidas.
[00486] B43. O sistema de acordo com a forma de realização de B42, em que a normalização em (3) compreende o fornecimento de contagens normalizadas.
[00487] B44. O sistema de acordo com a forma de realização B42 ou B43, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00488] B44.1. O sistema de acordo com qualquer uma das formas de realização B42 a B44, em que cada uma das densidades de GC para a relação de densidade de GC de referência e a relação de densidade de GC da amostra é uma representação do teor de GC local.
[00489] B44.2. O sistema de B44.1 forma de realização, em que o teor de GC para local é um segmento de polinucleotídeo de 5000 pb ou menos.
[00490] B45. O sistema de acordo com qualquer uma das formas de realização B42 para B44.2, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00491] B46. O sistema de acordo com a forma de realização B45, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre 1 base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00492] B47. O sistema de acordo com a forma de realização B46, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre 1 base de cada vez na análise de janela deslizante.
[00493] B48. O sistema de acordo com qualquer uma das formas de realização B42 a B47, em que (2) compreende gerar uma relação montado entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de densidade de GC de amostra e frequência de relação de densidade de GC de referência para cada uma das densidades de GC e (ii) as densidades de GC.
[00494] B49. O sistema de acordo com a forma de realização B48, em que a relação ajustada em (1) é obtido a partir de um ajuste ponderado.
[00495] B50. O sistema de acordo com qualquer uma das formas de realização B42 a B49, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00496] B51. O sistema de acordo com a forma de realização B50, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00497] B52. O sistema de acordo com a forma de realização B51, em que o formato binário está em um formato de 5-bytes, compreendendo um cromossomo ordinal 1-byte e uma posição cromossômica de 4-bytes.
[00498] B53. O sistema de acordo com qualquer uma das formas de realização B50 a B52, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00499] B54. O sistema de acordo com qualquer uma das formas de realização B42 a B53, em que a normalização em (c) compreende fatorar uma ou mais características diferentes da densidade de GC, e normalizar a leitura de sequência.
[00500] B55. O sistema de acordo com a forma de realização B54, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00501] B56. O sistema de acordo com a forma de realização B55, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00502] B57. O sistema de acordo com qualquer uma das formas de realização B42 a B56, em que as porções filtradas para a amostra de teste são ponderados.
[00503] B58. O sistema de acordo com a forma de realização B57, em que as porções filtradas para a amostra de teste são ponderados por um processo que compreende uma função eigen.
[00504] B59. O sistema de acordo com qualquer uma das formas de realização B1 a B58, que compreende, antes de (a), obtendo-se as leituras de sequência.
[00505] B60. O sistema de acordo com a forma de realização B59, em que as leituras de sequência são geradas por sequenciamento massivo paralelo (MPS).
[00506] B61. O sistema de acordo com qualquer uma das formas de realização B1 a B60, que compreende a obtenção de leituras sequência mapeado para um genoma de referência inteiro ou um segmento de um genoma.
[00507] B62. O sistema de acordo com a forma de realização B61, em que o segmento do genoma compreende um cromossomo ou um seu segmento.
[00508] B63. O sistema de acordo com a forma de realização B61 ou B62, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizadas antes de (1).
[00509] B64. O sistema de acordo com a forma de realização B63, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizados pelo teor de GC, a normalização bin-wise, GC LOESS, PERUN, GCRM, ou combinações dos mesmos.
[00510] B65. O sistema de acordo com a forma de realização B61 ou B62, no qual as contagens das leituras de sequência mapeadas para o genoma de referência são contagens brutas.
[00511] B66. O sistema de acordo com qualquer uma das formas de realização B1 a B65, em que cada porção do genoma de referência compreende cerca de um comprimento igual de nucleotídeos contíguos.
[00512] B67. O sistema de acordo com qualquer uma das formas de realização B1 a B66, em que cada porção do genoma de referência compreende cerca de 50 kb.
[00513] B68. O sistema de acordo com qualquer uma das formas de realização B1 a B67, em que cada porção do genoma de referência compreende cerca de 100 kb.
[00514] B69. O sistema de acordo com qualquer uma das formas de realização B1 a B68, em que cada porção do genoma de referência compreende um segmento de nucleotídeos contíguos em comum com uma porção adjacente do genoma de referência.
[00515] B70. O sistema de acordo com qualquer uma das formas de realização B1 a B69, em que a amostra de teste compreende de sangue de uma fêmea grávida.
[00516] B71. O sistema de acordo com qualquer uma das formas de realização B1 a B70, em que a amostra de teste compreende de plasma a partir de uma fêmea grávida.
[00517] B72. O sistema de acordo com qualquer uma das formas de realização B1 a B71, em que a amostra de teste compreende soro de uma mulher grávida.
[00518] B73. O sistema de acordo com qualquer uma das formas de realização B1 até B72, em que os ácidos nucleicos são isolados a partir da amostra teste.
[00519] B74. O sistema de acordo com qualquer uma das formas de realização B50 a B73, que compreende comprimir as leituras de sequência mapeadas para o genoma de referência em (1) a partir de um formato de alinhamento de sequências para um formato binário.
[00520] B75. O sistema de acordo com a forma de realização B74, em que a compressão é realizada por um módulo de compressão.
[00521] B76. O sistema de acordo com qualquer uma das formas de realização B42 a B75, em que as densidades de GC e as frequências de densidade de GC para as leituras de sequência da amostra de teste e para a referência são fornecidas por um módulo de densidade de tendências.
[00522] B77. O sistema de acordo com qualquer uma das formas de realização B42 a B76, caracterizado por a comparação em (2) é gerado por um módulo de relação.
[00523] B78. O sistema de acordo com qualquer uma das formas de realização B44 a B77, em que a normalização em (3) é realizado por um módulo de correção de tendências.
[00524] B79. O sistema de acordo com qualquer uma das formas de realização B1 a B78, em que as densidades de leitura são fornecidas por um módulo de distribuição.
[00525] B80. O sistema de acordo com qualquer uma das formas de realização B1 até B79, em que as porções filtradas são fornecidas por um módulo de filtração.
[00526] B81. O sistema de acordo com qualquer uma das formas de realização B57 a B80, em que as porções filtradas para a amostra de teste são ponderadas por um módulo de pesagem de porção.
[00527] B81.1. O sistema de acordo com qualquer uma das formas de realização B57 a B81, em que as densidades de leitura são ajustadas através de um módulo de leitura de ajuste da densidade.
[00528] B82. O sistema de formas de realização 881.1, em que um aparelho compreende um ou mais do módulo de compressão, o módulo de densidade de tendências, o módulo de relação, o módulo de correção de tendências, o módulo de distribuição, o módulo de filtração, o módulo de leitura de densidade e a porção de ajustamento módulo de ponderação.
[00529] B83. O sistema de acordo com qualquer uma das formas de realização B1 a B82, em que o perfil da amostra de teste compreende um perfil de um cromossomo ou um seu segmento.
[00530] B84. O sistema de acordo com qualquer uma das formas de realização B1 a B83, em que o perfil de referência compreende um perfil de um cromossomo ou um seu segmento.
[00531] B85. O sistema de acordo com qualquer uma das formas de realização B1 a B84, caracterizado por a determinação em (d) é fornecido com uma especificidade igual ou maior do que 90% e uma sensibilidade igual ou superior a 90%.
[00532] B86. O sistema de acordo com qualquer uma das formas de realização B1 a B85, em que o aneuploidia é uma trissomia.
[00533] B87. O sistema de acordo com a forma de realização B86, em que a trissomia é a trissomia 21, trissomia 18 ou trissomia 13.
[00534] B88. O sistema de acordo com qualquer uma das formas de realização B17 a B87, em que a memória do sistema compreende leituras de sequência de ácido nucleico isento de células circulantes a partir da amostra de teste que são mapeados para o genoma de referência.
[00535] C1. O sistema de acordo com qualquer uma das formas de realização A1 a A48 e B1 a B88, que é incorporada em uma ou mais máquinas.
[00536] C2. O sistema de acordo com a forma de realização C1, que é incorporada em uma máquina.
[00537] C3. O sistema de acordo com a forma de realização C1 ou C2, que compreende uma máquina configurada para sequência de ácido nucleico e gerar a leitura de sequência.
[00538] D1. Um método para reduzir tendências nas leituras de sequência para uma amostra compreendendo: (a) gerar, utilizando um microprocessador, uma relação entre (i) guanina e citosina e densidades (GC) (ii) frequências de densidade de GC para as leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de densidade de GC de amostra, em que, a leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (b) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através do quais tendências nas leituras de sequência para a amostra são reduzidas.
[00539] D1.1 Um método para reduzir tendências nas leituras de sequência para uma amostra compreendendo: carregar um aparelho de sequenciamento com ácido nucleico isento de células circulantes a partir do sangue de uma fêmea grávida que carrega um feto, ou o carregamento do aparelho de sequenciamento com uma variante modificada do ácido nucleico, em que o aparelho de sequenciamento produz sinais correspondentes ao bases de nucleotídeo do ácido nucleico; geração de leituras de sequência a partir dos sinais do ácido nucleico por, depois, opcionalmente, a transferência dos sinais para um sistema compreendendo um ou mais aparelhos de computação, em que o um ou mais aparelho de computação do sistema compreende memória e um ou mais processadores, e em que um aparelho de computação, ou combinação de aparelhos de computação, no sistema é configurado para: mapear as leituras de sequência a um genoma de referência; (d) gerar uma relação entre (i) densidades (GC) de guanina e citosina e (ii) frequências de densidade de GC para as leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de densidade de GC de amostra, em que, a leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (e) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (f) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), segundo o qual tendências nas leituras de sequência para a amostra são reduzidas.
[00540] D1.2 O método de acordo com a forma de realização D1 ou D1.1, em que a normalização em (c) compreende o fornecimento de contagens normalizados.
[00541] D2. O método de acordo com qualquer uma das formas de realização D1 a D1.2, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00542] D2.1. O método de acordo com qualquer uma das formas de realização de D1 a D2, em que cada uma das densidades de GC para a relação de densidade de GC de referência e a relação de densidade de GC da amostra é uma representação do teor de GC local.
[00543] D2.2. O método de D2.1 forma de realização, em que o teor de GC para local é um segmento de polinucleotídeo de 5000 pb ou menos.
[00544] D3. O método de acordo com qualquer uma das formas de realização de D1 a D2.2, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00545] D4. O método de acordo com a forma de realização D3, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre uma base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00546] D5. O método de acordo com a forma de realização D3, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre uma base de cada vez na análise de janela deslizante.
[00547] D6. O método de acordo com qualquer uma das formas de realização de D1 a D5, em que (b) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de densidade de GC de amostra e frequência de relação de densidade de GC de referência para cada uma das densidades de GC e (ii) as densidades de GC.
[00548] D7. O método de acordo com a forma de realização D6, em que a relação ajustada em (a) é obtido a partir de um ajuste ponderado.
[00549] D8. O método de acordo com qualquer uma das formas de realização de D1 a D7, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00550] D9. O método de acordo com a forma de realização D8, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00551] D10. O método de acordo com a forma de realização D9, em que o formato binário está em um formato de 5-bytes, compreendendo um cromossomo ordinal 1-byte e uma posição cromossômica de 4-bytes.
[00552] D11. O método de acordo com qualquer uma das formas de realização D8 a D10, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00553] D12. O método de acordo com qualquer uma das formas de realização de D1 a D11, em que a normalização em (c) compreende fatorar uma ou mais características diferentes da densidade de GC, e as contagens de normalização da leitura de sequência.
[00554] D13. O método de D12 forma de realização, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00555] D14. O método de D13, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00556] D14.1. O método de acordo com qualquer uma das formas de realização D12 a D14, em que as contagens de leituras de sequência são normalizadas de acordo com a normalização em (c) e a fatoração de uma ou mais características.
[00557] D15. O método de acordo com qualquer uma das formas de realização de D1 a D14.1, compreendendo, após (c), a geração de uma densidade de leitura para uma ou mais porções de um genoma, ou um seu segmento, de acordo com um processo que compreende a geração de uma estimativa de densidade de probabilidade para cada das uma ou mais porções, compreendendo as contagens das leituras de sequência normalizados em (c).
[00558] D16. O método de D15 forma de realização, em que a estimativa de densidade de probabilidade é uma estimativa de densidade Kernel.
[00559] D17. O método de acordo com a forma de realização D15 ou D16, compreendendo a geração de um perfil de densidade de leitura para o genoma ou o segmento do mesmo.
[00560] D18. O método de D17 forma de realização, em que o perfil de densidade de leitura compreende as densidades de leitura para a uma ou mais porções do genoma, ou o seu segmento.
[00561] D19. O método de acordo com qualquer uma das formas de realização D15 a D18 compreende ajustar cada uma das densidades de leitura para a uma ou mais porções.
[00562] D20. O método de acordo com qualquer uma das formas de realização D15 a D19, em que o um ou mais porções são filtrados, assim, proporcionando porções filtradas.
[00563] D21. O método de acordo com qualquer uma das formas de realização D15 a D20, em que o um ou mais porções são ponderados proporcionando, dessa forma, porções ponderadas.
[00564] D22. O método de D21 forma de realização, em que o um ou mais porções são ponderados por uma função eigen.
[00565] D23. O método de acordo com qualquer uma das formas de realização de D1 a D22, que compreende, antes de (a), obtendo-se as leituras de sequência.
[00566] D24. O método de D23 forma de realização, em que as leituras de sequência são geradas por sequenciamento massivo paralelo (MPS).
[00567] D25. O método de acordo com qualquer uma das formas de realização de D1 a D24, compreendendo a sequência de obtenção de leituras mapeadas para um genoma de referência inteiro ou um segmento de um genoma.
[00568] D26. O método de D25 forma de realização, em que o segmento do genoma compreende um cromossomo ou um seu segmento.
[00569] D27. O método de acordo com a forma de realização D25 ou D26, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizadas antes de (a).
[00570] D28. O método de D27 forma de realização, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizados pelo teor de GC, a normalização bin-wise, GC LOESS, PERUN, GCRM, ou combinações dos mesmos.
[00571] D29. O método de acordo com qualquer uma das formas de realização D27 ou D28, em que as contagens das leituras de sequência mapeadas para o genoma de referência são as contagens em bruto.
[00572] D30. O método de acordo com qualquer uma das formas de realização D15 a D29, em que cada porção do genoma de referência compreende cerca de um comprimento igual de nucleotídeos contíguos.
[00573] D31. O método de acordo com qualquer uma das formas de realização D15 ou D30, em que cada porção do genoma de referência compreende cerca de 50 kb.
[00574] D32. O método de acordo com qualquer uma das formas de realização D15 a D31, em que cada porção do genoma de referência compreende cerca de 100 kb.
[00575] D33. O método de acordo com qualquer uma das formas de realização D15 a D32, em que cada porção do genoma de referência compreende um segmento de nucleotídeos contíguos em comum com uma porção adjacente do genoma de referência.
[00576] D34. O método de acordo com qualquer uma das formas de realização de D1 a D33, em que a amostra de teste é obtida a partir de uma fêmea grávida.
[00577] D35. O método de acordo com qualquer uma das formas de realização de D1 a D34, em que a amostra de teste compreende de sangue de uma fêmea grávida.
[00578] D36. O método de acordo com qualquer uma das formas de realização de D1 a D35, em que a amostra de teste compreende de plasma a partir de uma fêmea grávida.
[00579] D37. O método de acordo com qualquer uma das formas de realização de D1 a D36, em que a amostra de teste compreende soro de uma mulher grávida.
[00580] D38. O método de acordo com qualquer uma das formas de realização de D1 a D37, em que os ácidos nucleicos são isolados a partir da amostra teste.
[00581] D39. O método de acordo com qualquer uma das formas de realização D8 a D38, compreendendo a sequência de comprimir leitura mapeada para um genoma de referência em (a) a partir de um formato de alinhamento de sequências para um formato binário.
[00582] D40. O método de D39 forma de realização, em que a compressão é realizada por um módulo de compressão.
[00583] D41. O método de acordo com qualquer uma das formas de realização de D1 a D40, em que as densidades de GC e as frequências de densidade de GC para as leituras de sequência da amostra de teste e para a referência são fornecidas por um módulo de densidade de tendências.
[00584] D42. O método de acordo com qualquer uma das formas de realização de D1 a D41, em que a comparação em (b) é gerada por um módulo de relação.
[00585] D43. O método de acordo com qualquer uma das formas de realização de D1 a D42, em que a normalização em (c) é realizada por um módulo de correção de tendências.
[00586] D44. O método de acordo com qualquer uma das formas de realização D15 a D43, em que as densidades de leitura são fornecidas por um módulo de distribuição.
[00587] D45. O método de acordo com qualquer uma das formas de realização D20 a D44, em que as porções filtradas são fornecidas por um módulo de filtração.
[00588] D46. O método de acordo com qualquer uma das formas de realização D21 a D45, em que as porções ponderadas são fornecidas por um módulo de pesagem de porção.
[00589] D46.1. O método de acordo com qualquer uma das formas de realização D21 a D46, em que densidades de leitura são ajustadas por um módulo de ajuste de densidade de leitura.
[00590] D47. O método de D46.1 forma de realização, que compreende um ou mais do módulo de compressão, o módulo de densidade de tendências, o módulo de relação, o módulo de correção de tendências, o módulo de distribuição, o módulo de filtração, o módulo de leitura de densidade e ajustando o módulo de pesagem de porção.
[00591] E0. Um método para determinar a presença ou ausência de uma aneuploidia para uma amostra compreendendo: (g) filtração, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (h) ajuste do perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas; (i) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (j) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00592] E0.1. Um método para determinar a presença ou ausência de uma aneuploidia para uma amostra compreendendo: (k) filtração, de acordo com uma distribuição de densidade de leitura, porções de um cromossomo de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (l) ajuste do perfil de densidade de leitura de um cromossomo para a amostra de teste de acordo com um ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de cromossomo amostra de teste compreendendo ajustada densidade de leituras; (m) comparar o perfil cromossomo amostra de teste a um perfil de referência, proporcionando, dessa forma, uma comparação; e (n) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00593] E1. Um método para determinar a presença ou ausência de uma aneuploidia para uma amostra compreendendo: (o) filtração, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (p) ajustar, utilizando um microprocessador, o perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste que compreende densidades de leitura ajustada; (q) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (r) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00594] E1.1. Um método para determinar a presença ou ausência de uma aneuploidia para uma amostra compreendendo: carregar um aparelho de sequenciamento com ácido nucleico isento de células circulantes a partir do sangue de uma fêmea grávida que carrega um feto, ou o carregamento do aparelho de sequenciamento com uma variante modificada do ácido nucleico, em que o aparelho de sequenciamento produz sinais correspondentes ao bases de nucleotídeo do ácido nucleico; geração das leituras de sequência a partir dos sinais do ácido nucleico por, após transferir opcionalmente os sinais para, um sistema compreendendo um ou mais aparelhos de computação, em que o um ou mais aparelho de computação do sistema compreende memória e um ou mais processadores, e em que um aparelho de computação, ou combinação de aparelhos de computação, em que o sistema é configurado para: mapear as leituras de sequência a um genoma de referência; (s) filtrar, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (t) ajustar, utilizando um microprocessador, o perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste que compreende densidades de leitura ajustada; (u) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (v) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00595] E1.2. Um método para reduzir tendências nas leituras de sequência para uma amostra compreendendo: carregar um aparelho de sequenciamento com ácido nucleico isento de células circulantes a partir do sangue de uma fêmea grávida que carrega um feto, ou o carregamento do aparelho de sequenciamento com uma variante modificada do ácido nucleico, em que o aparelho de sequenciamento produz sinais correspondentes ao bases de nucleotídeo do ácido nucleico; geração das leituras de sequência a partir dos sinais do ácido nucleico por, após transferir opcionalmente os sinais para, um sistema compreendendo um ou mais aparelhos de computação, em que o um ou mais aparelho de computação do sistema compreende memória e um ou mais processadores, e em que um aparelho de computação, ou combinação de aparelhos de computação, em que o sistema é configurado para: mapear as leituras de sequência a um genoma de referência; (w) filtrar, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (x) ajustar, utilizando um microprocessador, o perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste que compreende densidades de leitura ajustada; (y) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (z) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00596] E1.3. O método de acordo com qualquer uma das formas de realização de E0 a E1.2, em que o perfil de densidade de leitura é ajustado em (b) com 1 a 10 componentes principais.
[00597] E1.4. O método de acordo com qualquer uma das formas de realização de E0 a E1.3, em que o perfil de densidade de leitura é ajustado em (b) por 5 componentes principais.
[00598] E1.5. O método de acordo com qualquer uma das formas de realização de E0 a E1.4, em que o um ou mais componentes principais para ajustar uma ou mais características de um perfil de densidade de leitura, que são selecionados a partir de características de sexo fetal, tendências de sequência, fração fetal, tendências correlacionada com sensibilidade à DNaseI, entropia, tendência de sequência repetitiva, tendência de estrutura de cromatina, tendências de taxa de erro de polimerase, tendências de palíndromo, tendência de repetição invertida, tendência de amplificação por PCR, e variação escondida do número de cópia.
[00599] E1.6. O método de acordo com a forma de realização E1,5 qual tendências sequência compreende guanina e citosina tendências (GC).
[00600] E2. O método de acordo com qualquer uma das formas de realização de E0 de E1.6, em que a comparação compreende determinar um nível de significância.
[00601] E3. O método de acordo com qualquer uma das formas de realização de E0 com E2, em que a determinação do nível de significância compreende determinar um valor-p.
[00602] E4. O método de acordo com qualquer uma das formas de realização de E0 para E3, em que o perfil de referência compreende um perfil de densidade de leitura obtida a partir de um conjunto de amostras euploides conhecidas.
[00603] E5. O método de acordo com qualquer uma das formas de realização de E0 de E4, em que o perfil de referência compreende as densidades de leitura de porções filtradas.
[00604] E6. O método de acordo com qualquer uma das formas de realização de E0 a E5, em que o perfil de referência compreende as densidades de leitura é ajustada de acordo com os um ou mais componentes principais.
[00605] E7. O método de acordo com qualquer uma das formas de realização E2 para E6, em que o nível de significância indica uma diferença estatisticamente significativa entre o perfil da amostra de teste e o perfil de referência, e a presença de um cromossomo aneuploide é determinada.
[00606] E8. O método de acordo com qualquer uma das formas de realização E1 a E7, em que as várias amostras compreendem um conjunto de amostras euploides conhecidas.
[00607] E9. O método de acordo com qualquer uma das formas de realização de E0 a E8, em que as densidades de leitura de porções para as várias amostras são densidades de leitura medianas.
[00608] E10. O método de acordo com qualquer uma das formas de realização de E0 a E9, em que as densidades de leitura de porções filtradas para a amostra de teste com as densidades de leitura medianas.
[00609] E1 1. O método de acordo com qualquer uma das formas de realização E4 para E10, em que o perfil de densidade de leitura para o perfil de referência compreende as densidades de leitura medianas.
[00610] E12. O método de acordo com qualquer uma das formas de realização E4 a E11, em que as densidades de leitura para o perfil da amostra de teste, as amostras múltiplas e o perfil de referência são determinados de acordo com um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00611] E13. O método de acordo com qualquer uma das formas de realização E10 a E12, em que o perfil da amostra de teste é determinado de acordo com as densidades de leitura medianas para a amostra de teste.
[00612] E14. O método de acordo com qualquer uma das formas de realização E11 a E13, em que o perfil de referência é determinado de acordo com as distribuições de densidade medianas de leitura para a referência.
[00613] E15. O método de acordo com qualquer uma das formas de realização de E0 de E14, que compreende porções de filtração de um genoma de referência de acordo com uma medida de incerteza para a distribuição de densidade de leitura.
[00614] E16. O método de acordo com a forma de realização E15, em que a medida da incerteza é um MAD.
[00615] E16.1. O método de acordo com qualquer uma das formas de realização de E0 para E16, em que o perfil da amostra de teste é representativo de dosagem cromossômica para a amostra de teste.
[00616] E16.2. O método de acordo com a forma de realização E16.1, compreendendo a comparação de dosagem cromossômica de um perfil de amostra de teste ao cromossomo de dosagem para um perfil de referência, gerando, desse modo, uma comparação de dosagem cromossômica.
[00617] E16.3. O método a forma de realização E16.2, em que a determinação da presença ou ausência de uma aneuploidia cromossômica para a amostra de teste é de acordo com a comparação de dosagem cromossômica.
[00618] E16.4. O método de acordo com qualquer uma das formas de realização de E0 a E16.3, em que a determinação da presença ou ausência de uma aneuploidia cromossômica para a amostra de teste compreende identificar a presença ou ausência de uma cópia de um cromossomo, duas cópias de um cromossomo, três cópias de um cromossomo, quatro cópias de um cromossomo, cinco cópias de um cromossomo, uma deleção de um ou mais segmentos de um cromossomo ou uma inserção de um ou mais segmentos de cromossomo.
[00619] E17. O método de acordo com qualquer uma das formas de realização de E0 a E16.4, em que a contagem das leituras de sequência mapeadas para porções filtradas para a amostra de teste é normalizada por um processo executado antes de (a) compreendendo: (1) a geração de uma relação entre (i) as estimativas de tendência de genoma local e (ii) frequências de tendências para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendência de amostra, em que, a leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (11) comparação da relação de tendência da amostra e uma relação de tendências de referência, gerando, desse modo, uma comparação, em que, a relação tendências de referência é entre (i) as estimativas de tendência de genoma local, e (ii) as frequências de tendência para uma referência; e (111) normalização das contagens das leituras de sequência para a amostra de acordo com o determinado em comparação (II), em que tendências nas leituras de sequência para a amostra são reduzidas.
[00620] E18. O método de acordo com a forma de realização E17, em que a normalização em (III) compreende o fornecimento de contagens normalizadas.
[00621] E19. O método de acordo com a forma de realização E17 ou E18, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00622] E19.1. O método de acordo com qualquer uma das formas de realização E17 a E19, em que cada uma das estimativas de tendência de genoma local para a relação de tendências de referência e a relação de tendências é uma amostra representação do teor de tendência local.
[00623] E19.2. O método de acordo com a forma de realização E19.1, em que o teor de tendência local é para um segmento de polinucleotídeo de 5000 pb ou menos.
[00624] E20. O método de acordo com qualquer uma das formas de realização E17 a E19.2, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00625] E21. O método de acordo com a forma de realização E20, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre 1 base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00626] E22. O método de acordo com a forma de realização E20, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre uma base de cada vez na análise de janela deslizante.
[00627] E23. O método de acordo com qualquer uma das formas de realização E17 a E22, em que (ii) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de tendência da amostra e uma frequência de relação de tendências de referência para cada uma das estimativas de tendência de genoma local e (ii) estimativas de tendência de genoma local.
[00628] E24. O método de acordo com a forma de realização E23, em que a relação ajustada em (I) é obtido a partir de um ajuste ponderado.
[00629] E25. O método de acordo com qualquer uma das formas de realização E17 a E24, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00630] E26. O método de acordo com a forma de realização E25, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00631] E27. O método de acordo com a forma de realização E26, em que o formato binário está em um formato de 5-bytes, compreendendo um cromossomo ordinal 1-byte e uma posição cromossômica de 4-bytes.
[00632] E28. O método de acordo com qualquer uma das formas de realização E25 a E27, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00633] E29. O método de acordo com qualquer uma das formas de realização E17 a E28, em que a normalização em (iii) compreende a fatoração um ou mais características diferentes de tendências, e as contagens de normalização das leituras de sequência.
[00634] E30. O método de acordo com a forma de realização E29, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00635] E31. O método de E30, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00636] E32. O método de acordo com qualquer uma das formas de realização E29 a E31, em que as contagens das leituras de sequência são normalizadas de acordo com a normalização em (III) e a fatoração de uma ou mais características.
[00637] E33. O método de acordo com qualquer uma das formas de realização E17 a E32, que compreende, depois de (III), gerando uma densidade de leitura para uma ou mais porções de um genoma, ou um seu segmento, de acordo com um processo que compreende a geração de uma estimativa da densidade de probabilidade para cada um dos uma ou mais porções que compreendem uma ou mais das contagens de leitura de sequência normalizada em (III).
[00638] E34. O método de acordo com a forma de realização E33, em que a estimativa de densidade de probabilidade é uma estimativa de densidade Kernel.
[00639] E35. O método de acordo com a forma de realização E33 ou E34, que compreende a geração de um perfil de densidade de leitura para o genoma ou o segmento do mesmo.
[00640] E36. O método de acordo com a forma de realização E35, em que o perfil de densidade de leitura compreende as densidades de leitura para a uma ou mais porções do genoma, ou o seu segmento.
[00641] E37. O método de acordo com qualquer uma das formas de realização E33 a E36 compreende ajustar cada uma das densidades de leitura para a uma ou mais porções.
[00642] E38. O método de acordo com qualquer uma das formas de realização E33 a E37, em que as uma ou mais porções são filtrados, assim, proporcionando porções filtradas.
[00643] E39. O método de acordo com qualquer uma das formas de realização E33 a E38, em que as uma ou mais porções são ponderados proporcionando, dessa forma, porções ponderadas.
[00644] E40. O método de acordo com a forma de realização E39, em que as uma ou mais porções são ponderados por uma função eigen.
[00645] E41. O método de acordo com qualquer uma das formas de realização E17 a E40, em que as estimativas de tendência de genoma local são densidades de GC locais e as frequências de tendências são frequências de tendências de GC.
[00646] E42. O método de acordo com qualquer uma das formas de realização de E0 a E16, em que a contagem das leituras de sequência mapeadas para porções filtradas para a amostra de teste é normalizada por um processo executado antes de (a) compreendendo: (112) gerar uma relação montada entre (i) densidades de (GC) de guanina e citosina e (II) frequências de densidade de GC para a sequência de operações de leitura na amostra de teste, gerando, desse modo, uma relação de amostra de CG densidade, em que as leituras de sequência são mapeadas para o genoma de referência; (113) comparação da relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (114) Conta de normalizar as leituras de sequência para a amostra de acordo com a comparação determinada em (b), através de quais tendências nas leituras de sequência para a amostra são reduzidas.
[00647] E43. O método de acordo com a forma de realização E42, em que a normalização em (3) compreende o fornecimento de contagens normalizadas.
[00648] E44. O método de acordo com a forma de realização E42 ou E43, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00649] E45. O método de acordo com qualquer uma das formas de realização E42 a E44, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00650] E46. O método de acordo com a forma de realização E45, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre 1 base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00651] E47. O método de acordo com a forma de realização E46, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre 1 base de cada vez na análise de janela deslizante.
[00652] E48. O método de acordo com qualquer uma das formas de realização E42 a E47, em que (2) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de densidade de GC de amostra e frequência de relação de densidade de GC de referência para cada uma das densidades de GC e (ii) as densidades de GC.
[00653] E49. O método de acordo com a forma de realização E48, em que a relação ajustada em (1) é obtido a partir de um ajuste ponderado.
[00654] E50. O método de acordo com qualquer uma das formas de realização E42 a E49, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00655] E51. O método de acordo com a forma de realização E50, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00656] E52. O método de acordo com a forma de realização E51, em que o formato binário está em um formato de 5-bytes, compreendendo um cromossomo ordinal 1-byte e uma posição cromossômica de 4-bytes.
[00657] E53. O método de acordo com qualquer uma das formas de realização E50 a E52, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00658] E54. O método de acordo com qualquer uma das formas de realização E42 a E53, em que a normalização em (c) compreende fatorar uma ou mais características diferentes da densidade de GC, e normalizar a leitura de sequência.
[00659] E55. O método de acordo com a forma de realização E54, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00660] E56. O método de acordo com a forma de realização E55, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00661] E57. O método de acordo com qualquer uma das formas de realização E42 a E56, em que as porções filtradas para a amostra de teste são ponderadas.
[00662] E58. O método de acordo com a forma de realização E57, em que as porções filtradas para a amostra de teste são ponderados por um processo que compreende uma função eigen.
[00663] E59. O método de acordo com qualquer uma das formas de realização de E0 a E58, que compreende, antes de (a), obtendo-se as leituras de sequência.
[00664] E60. O método de acordo com a forma de realização E59, em que as leituras de sequência são geradas pelo sequenciamento massivo paralelo (MPS).
[00665] E61. O método de acordo com qualquer uma das formas de realização de E0 a E60, que compreende a obtenção de leituras sequência mapeado para um genoma de referência inteiro ou um segmento de um genoma.
[00666] E62. O método de acordo com a forma de realização E61, em que o segmento do genoma compreende um cromossomo ou um seu segmento.
[00667] E63. O método de acordo com a forma de realização E61 ou E62, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizadas antes de (1).
[00668] E64. O método de acordo com a forma de realização E63, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizados pelo teor de GC, a normalização bin-wise, GC LOESS, PERUN, GCRM, ou combinações dos mesmos.
[00669] E65. O método de acordo com a forma de realização E61 ou E62, em que as contagens das leituras de sequência mapeadas para o genoma de referência são as contagens em bruto.
[00670] E66. O método de acordo com qualquer uma das formas de realização de E0 a E65, em que cada porção do genoma de referência compreende cerca de um comprimento igual de nucleotídeos contíguos.
[00671] E67. O método de acordo com qualquer uma das formas de realização de E0 a E66, em que cada porção do genoma de referência compreende cerca de 50 kb.
[00672] E68. O método de acordo com qualquer uma das formas de realização de E0 a E67, em que cada porção do genoma de referência compreende cerca de 100 kb.
[00673] E69. O método de acordo com qualquer uma das formas de realização de E0 a E68, em que cada porção do genoma de referência compreende um segmento de nucleotídeos contíguos em comum com uma porção adjacente do genoma de referência.
[00674] E70. O método de acordo com qualquer uma das formas de realização de E0 para E69, em que a amostra de teste compreende de sangue de uma fêmea grávida.
[00675] E71. O método de acordo com qualquer uma das formas de realização de E0 para E70, em que a amostra de teste compreende de plasma a partir de uma fêmea grávida.
[00676] E72. O método de acordo com qualquer uma das formas de realização de E0 para E71, em que a amostra de teste compreende soro de uma mulher grávida.
[00677] E73. O método de acordo com qualquer uma das formas de realização de E0 para E72, em que os ácidos nucleicos são isolados a partir da amostra teste.
[00678] E74. O método de acordo com qualquer uma das formas de realização E50 a E73, que compreende comprimir as leituras de sequência mapeadas para o genoma de referência em (1) a partir de um formato de alinhamento de sequências para um formato binário.
[00679] E75. O método de acordo com a forma de realização E74, em que a compressão é realizada por um módulo de compressão.
[00680] E76. O método de acordo com qualquer uma das formas de realização E42 a E75, em que as densidades de GC e as frequências de densidade de GC para as leituras de sequência da amostra de teste e para a referência são fornecidas por um módulo de densidade de tendências.
[00681] E77. O método de acordo com qualquer uma das formas de realização E42 a E76, em que a comparação em (2) é gerado por um módulo de relação.
[00682] E78. O método de acordo com qualquer uma das formas de realização E44 a E77, em que a normalização em (3) é realizado por um módulo de correção de tendências.
[00683] E79. O método de acordo com qualquer uma das formas de realização de E0 para E78, em que as densidades de leitura são fornecidas por um módulo de distribuição.
[00684] E80. O método de acordo com qualquer uma das formas de realização de E0 para E79, em que as porções filtradas são fornecidas por um módulo de filtração.
[00685] E81. O método de acordo com qualquer uma das formas de realização E57 a E80, em que as porções filtradas para a amostra de teste são ponderadas por um módulo de pesagem de porção.
[00686] E81.1. O método de acordo com qualquer uma das formas de realização E57 a E81, em que as densidades de leitura são ajustadas por um módulo de ajuste de densidade de leitura.
[00687] E82. O método de E81.1 formas de realização, em que um aparelho compreende um ou mais do módulo de compressão, o módulo de densidade de tendências, o módulo de relação, o módulo de correção de tendências, o módulo de distribuição, o módulo de filtração, o módulo de ajuste da densidade de leitura e a porção módulo de ponderação.
[00688] E83. O método de acordo com qualquer uma das formas de realização de E0 para E82, em que o perfil da amostra de teste compreende um perfil de um cromossomo ou um seu segmento.
[00689] E84. O método de acordo com qualquer uma das formas de realização de E0 para E83, em que o perfil de referência compreende um perfil de um cromossomo ou um seu segmento.
[00690] E85. O método de acordo com qualquer uma das formas de realização de E0 para E84, em que a determinação em (d) é fornecido com uma especificidade igual ou maior do que 90% e uma sensibilidade igual ou superior a 90%.
[00691] E86. O método de acordo com qualquer uma das formas de realização de E0 a E85, em que a aneuploidia é uma trissomia.
[00692] E87. O método de acordo com a forma de realização E86, em que a trissomia é, trissomia 21, trissomia 18, ou trissomia 13.
[00693] F1. Um meio de armazenamento não transitório de leitura por computador, compreendendo um programa executável armazenada no mesmo, em que o programa instrui um microprocessador para executar o seguinte: (a) gerar uma relação entre (i) densidades de guanina e citosina (GC) e (ii) frequências de densidade de GC para as leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de densidade de GC de amostra, em que: a leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (b) comparar a relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através de quais tendências nas leituras de sequência para a amostra são reduzidas.
[00694] F1.1. O meio de armazenamento de forma de realização F1, em que a normalização em (c) compreende o fornecimento de contagens de leitura normalizadas.
[00695] F2. O meio de armazenamento de forma de realização de F1 ou F1.1, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00696] F2.1. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 a F2, em que cada uma das densidades de GC para a relação de densidade de GC de referência e a relação de densidade é uma amostra GC representação do teor de GC local.
[00697] F2.2. O meio de armazenamento de forma de realização F2.1, em que o teor de GC para o local é um segmento de polinucleotídeo de 5000 pb ou menos.
[00698] F3. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 para F2.2, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00699] F4. O meio de armazenamento de forma de realização F3, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre 1 base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00700] F5. O meio de armazenamento de forma de realização F3, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre uma base de cada vez na análise de janela deslizante.
[00701] F6. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 a F5, em que (b) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de densidade de GC de amostra e frequência de relação de densidade de GC de referência para cada uma das densidades de GCs e (ii) as densidades de GC.
[00702] F7. O meio de armazenamento de forma de realização F6, em que a relação ajustada em (a) é obtido a partir de um ajuste ponderado.
[00703] F8. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 a F7, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00704] F9. O meio de armazenamento de forma de realização F8, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00705] F10. O meio de armazenamento de F9 forma de realização, em que o formato binário está em um formato de 5-bytes, compreendendo um ordinal cromossômico de 1-byte e uma posição cromossômica de 4-bytes.
[00706] F11. O meio de armazenamento de acordo com qualquer uma das formas de realização F8 a F10, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00707] F12. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 para F11, em que a normalização em (c) compreende fatorar uma ou mais características diferentes da densidade de GC, e normalizar a leitura de sequência.
[00708] F13. O meio de armazenamento de forma de realização F12, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00709] F14. O meio de armazenamento de F13, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00710] F14.1. O meio de armazenamento de acordo com qualquer uma das formas de realização de F12 a F14, em que as contagens das leituras de sequência são normalizadas de acordo com a normalização em (c) e a fatoração de uma ou mais características.
[00711] F15. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 para F14.1, em que o programa instrui um microprocessador para, depois (c), gerar uma densidade de leitura para uma ou mais porções de um genoma, ou um seu segmento, de acordo com um processo que compreende gerar uma estimativa de densidade de probabilidade para cada um dos um ou mais porções, compreendendo as contagens das leituras de sequência normalizados em (c).
[00712] F16. O meio de armazenamento de forma de realização F15, em que a estimativa de densidade de probabilidade é uma estimativa de densidade Kernel.
[00713] F17. O meio de armazenamento de forma de realização F15 ou F16, em que o programa instrui um microprocessador para gerar um perfil de densidade de leitura para o genoma ou o seu segmento.
[00714] F18. O meio de armazenamento de forma de realização F17, em que o perfil de densidade de leitura compreende as densidades de leitura para a uma ou mais porções do genoma, ou o seu segmento.
[00715] F19. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 a F18, em que o programa de instruções ao microprocessador para ajustar cada uma das densidades de leitura para a uma ou mais porções.
[00716] F20. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 a F19, em que o um ou mais porções são filtrados, assim, proporcionando porções filtradas.
[00717] F21. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 a F20, em que o programa de instruções ao microprocessador para ponderar as uma ou mais porções proporcionando, dessa forma, porções ponderadas.
[00718] F22. O meio de armazenamento de forma de realização F21, em que o um ou mais porções são ponderados por uma função eigen.
[00719] F23. O meio de armazenamento de acordo com qualquer uma das formas de realização de F1 a F22, em que o programa de instruções ao microprocessador, antes de (a), para se obter a leitura de sequência.
[00720] F24. O meio de armazenamento de forma de realização F23, em que as leituras de sequência são geradas por sequenciamento massivo paralelo (MPS).
[00721] F25. O meio de armazenamento de forma de realização F23 ou F24, em que as leituras de sequência obtidas são leituras de sequência mapeada para um genoma de referência inteiro ou um segmento de um genoma.
[00722] F26. O meio de armazenamento de F25 forma de realização, em que o segmento do genoma compreende um cromossomo ou um seu segmento.
[00723] F27. O meio de armazenamento de forma de realização F25 ou F26, em que as contagens das leituras de sequência mapeadas para o genoma de referência são contagens de leitura normalizadas de sequência.
[00724] F28. O meio de armazenamento de forma de realização F27, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizados pelo teor de GC, a normalização bin-wise, GC LOESS, PERUN, GCRM, ou combinações dos mesmos.
[00725] F29. O meio de armazenamento de formas de realização F25 ou F26, em que as contagens das leituras de sequência mapeadas para o genoma de referência são contagens brutas.
[00726] F30. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 a F29, em que cada porção do genoma de referência compreende cerca de um comprimento igual de nucleotídeos contíguos.
[00727] F31. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 ou F30, em que cada porção do genoma de referência compreende cerca de 50 kb.
[00728] F32. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 a F31, em que cada porção do genoma de referência compreende cerca de 100 kb.
[00729] F33. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 a F32, em que cada porção do genoma de referência compreende um segmento de nucleotídeos contíguos em comum com uma porção adjacente do genoma de referência.
[00730] F34. O meio qualquer uma das formas de amostra de teste é obtida a
[00731] F35. O meio qualquer uma das formas de amostra de teste compreende
[00732] F36. O meio qualquer uma das formas de amostra de teste compreende grávida.
[00733] F37. O meio qualquer uma das formas de amostra de teste compreende
[00734] F38. O meio qualquer uma das formas de amostra de teste compreende
[00735] F39. O meio de armazenamento de acordo com realização F1 a F33, em que a partir de uma fêmea grávida. de armazenamento de acordo com realização F1 a F34, em que a de sangue de uma fêmea grávida. de armazenamento de acordo com realização F1 a F35, em que a de plasma a partir de uma fêmea de armazenamento de acordo com realização F1 a F36, em que a soro de uma mulher grávida. de armazenamento de acordo com realização F1 a F37, em que a ácidos nucleicos isolados. de armazenamento de acordo com qualquer uma das formas de realização F8 para F38, em que o programa de instruções ao microprocessador para comprimir as leituras de sequência mapeadas para um genoma de referência em (a) a partir de um formato de alinhamento de sequências para um formato binário.
[00736] F40. O meio de armazenamento de acordo com a forma de realização F39, em que a compressão é realizada por um módulo de compressão.
[00737] F41. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 a F40, em que as densidades de GC e as frequências de densidade de GC para as leituras de sequência da amostra de teste e para a referência são fornecidas por um módulo de densidade de tendências.
[00738] F42. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 a F4, em que a comparação em (b) é gerada por um módulo de relação.
[00739] F43. O meio de armazenamento de acordo com qualquer uma das formas de realização F1 a F42, em que a normalização em (c) é realizada por um módulo de correção de tendências.
[00740] F44. O meio de armazenamento de acordo com qualquer uma das formas de realização F15 a F43, em que as densidades de leitura são fornecidas por um módulo de distribuição.
[00741] F45. O meio de armazenamento de acordo com qualquer uma das formas de realização F20 a F44, em que as porções filtradas são fornecidas por um módulo de filtração.
[00742] F46. O meio de armazenamento de acordo com qualquer uma das formas de realização F21 a F45, em que as porções ponderadas são fornecidas por um módulo de pesagem de porção.
[00743] F46.1. O meio de armazenamento de acordo com qualquer uma das formas de realização F21 a F45, em que as densidades de leitura ajustadas são fornecidas por um módulo de ajuste de densidade de leitura.
[00744] F47. O meio de armazenamento de forma de realização F46, que compreende um ou mais do módulo de compressão, o módulo de densidade de tendências, o módulo de relação, o módulo de correção de tendências, o módulo de distribuição, o módulo de filtração, o módulo de ajuste da densidade de leitura e o módulo de pesagem de porção.
[00745] G1. Um meio de armazenamento não transitório de leitura por computador, compreendendo um programa executável armazenado no mesmo, em que o programa instrui um microprocessador para executar o seguinte: (d) filtrar, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que: as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (e) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas; (f) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (g) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00746] G2. O meio de armazenamento de forma de realização G1, em que a comparação compreende determinar um nível de significância.
[00747] G3. O meio de armazenamento de acordo com a forma de realização G2, em que a determinação do nível de significância compreende determinar um valor-p.
[00748] G4. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G3, em que o perfil de referência compreende um perfil de densidade de leitura obtida a partir de um conjunto de amostras euploides conhecidas.
[00749] G5. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G4, em que o perfil de referência compreende as densidades de leitura de porções filtradas.
[00750] G6. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 até G5, em que o perfil de referência compreende as densidades de leitura é ajustada de acordo com os um ou mais componentes principais.
[00751] G7. O meio de armazenamento de acordo com qualquer uma das formas de realização G2 a G6, em que o nível de significância indica uma diferença estatisticamente significativa entre o perfil da amostra de teste e o perfil de referência, e a presença de um cromossomo aneuploide é determinada.
[00752] G8. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G7, em que as várias amostras compreendem um conjunto de amostras euploides conhecidas.
[00753] G9. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G8, em que as densidades de leitura de porções para as várias amostras são densidades de leitura medianas.
[00754] G10. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G9, em que as densidades de leitura de porções filtradas para a amostra de teste com as densidades de leitura medianas.
[00755] G11. O meio de armazenamento de acordo com qualquer uma das formas de realização G4 para G10, em que o perfil de densidade de leitura para o perfil de referência compreende as densidades de leitura medianas.
[00756] G12. O meio de armazenamento de acordo com qualquer uma das formas de realização G4 para G11, em que as densidades de leitura para o perfil da amostra de teste, as amostras múltiplas e o perfil de referência são determinados de acordo com um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00757] G13. O meio de armazenamento de acordo com qualquer uma das formas de realização G10 a G12, em que o perfil da amostra de teste é determinado de acordo com as densidades de leitura medianas para a amostra de teste.
[00758] G14. O meio de armazenamento de acordo com qualquer uma das formas de realização G11 a G13, em que o perfil de referência é determinado de acordo com as distribuições de densidade medianas de leitura para a referência.
[00759] G15. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G14, em que o programa de instruções ao microprocessador para filtrar porções de um genoma de referência de acordo com uma medida de incerteza para a distribuição de densidade de leitura.
[00760] G15.1. O meio de armazenamento de G14.1 forma de realização, em que a medida da incerteza é uma MAD.
[00761] G16. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 para G15.1, em que o programa de instruções ao microprocessador para ponderar as contagens de leituras de sequência mapeadas para porções filtradas para a amostra de teste por um processo executado antes de (a) compreendendo: (1) geração de uma relação ajustada entre (i) densidades de (GC) de guanina e citosina e (II) frequências de densidade de GC para as leituras de sequência da amostra de teste, gerando, desse modo, uma relação de amostra de densidade de GC, em que as leituras de sequência são mapeadas para o genoma de referência; (2) comparação da relação de densidade de GC de amostra e uma relação de densidade de GC de referência, gerando, desse modo, uma comparação, em que, a relação de densidade de GC de referência é entre (i) as densidades de GC e (ii) as frequências de densidade de GC para uma referência; e (3) normalizar as contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), segundo o qual tendências nas leituras de sequência para a amostra são reduzidas.
[00762] G16.1. O meio de armazenamento de acordo com a forma de realização G16, em que a normalização em (3) compreende o fornecimento de contagens normalizados.
[00763] G17. O meio de armazenamento de acordo com a forma de realização G16 ou G16.1, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00764] G17.1. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 a G17, em que cada uma das densidades de GC para a relação de densidade de GC de referência e a relação de densidade de GC da amostra é uma representação do teor de GC local.
[00765] G17.2. O meio de armazenamento de forma de realização G17.1, em que o teor de GC para local é um segmento de polinucleotídeo de 5000 pb ou menos.
[00766] G18. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 para G17.2, em que cada uma das densidades de GC é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00767] G19. O meio de armazenamento de G18 forma de realização, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre 1 base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00768] G20. O meio de armazenamento de G19 forma de realização, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre uma base de cada vez na análise de janela deslizante.
[00769] G21. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 a G20, em que (2) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de densidade de GC de amostra e frequência de relação de densidade de GC de referência para cada uma das densidades de GCs e (ii) as densidades de GC.
[00770] G22. O meio de armazenamento de acordo com a forma de realização G21, em que a relação ajustada em (1) é obtida a partir de um ajuste ponderado.
[00771] G23. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 a G22, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00772] G24. O meio de armazenamento de acordo com a forma de realização G23, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00773] G25. O meio de armazenamento de acordo com a forma de realização G24, em que o formato binário está em um formato de 5-bytes, compreendendo um ordinal cromossômico de 1-byte e uma posição cromossômica de 4- bytes.
[00774] G26. O meio de armazenamento de acordo com qualquer uma das formas de realização G23 a G25, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00775] G27. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 a G26, em que a normalização em (c) compreende fatorar uma ou mais características diferentes da densidade de GC, e as contagens de normalização das leituras de sequência.
[00776] G28. O meio de armazenamento de acordo com a forma de realização G27, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00777] G29. O meio de armazenamento de acordo com a forma de realização G28, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00778] G29.1. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 a G29, em que o programa de instruções ao microprocessador para ponderar as porções filtradas para a amostra de teste.
[00779] G29.2. O meio de armazenamento de acordo com a forma de realização G29.1, em que as porções filtradas para a amostra de teste são ponderados por um processo que compreende uma função eigen.
[00780] G30. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 para G29.2, em que o programa de instruções ao microprocessador, antes de (a), para se obter a leitura de sequência.
[00781] G31. O meio de armazenamento de acordo com a forma de realização G30, em que as leituras de sequência são geradas por sequenciamento massivo paralelo (MPS).
[00782] G32. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G31, que compreende a obtenção de leituras sequência mapeado para um genoma de referência inteiro ou um segmento de um genoma.
[00783] G33. O meio de armazenamento de acordo com a forma de realização G32, em que o segmento do genoma compreende um cromossomo ou um seu segmento.
[00784] G34. O meio de armazenamento de acordo com a forma de realização G32 ou G33, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizadas antes de (1).
[00785] G35. O meio de armazenamento de acordo com a forma de realização G34, em que as contagens das leituras de sequência mapeadas para o genoma de referência são normalizados pelo teor de GC, a normalização bin-wise, GC LOESS, PERUN, GCRM, ou combinações dos mesmos.
[00786] G36. O meio de armazenamento de acordo com a forma de realização G32 ou G33, em que as contagens das leituras de sequência mapeadas para o genoma de referência são contagens brutas.
[00787] G37. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G36, em que cada porção do genoma de referência compreende cerca de um comprimento igual de nucleotídeos contíguos.
[00788] G38. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G37, em que cada porção do genoma de referência compreende cerca de 50 kb.
[00789] G39. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G38, em que cada porção do genoma de referência compreende cerca de 100 kb.
[00790] G40. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G39, em que cada porção do genoma de referência compreende um segmento de nucleotídeos contíguos em comum com uma porção adjacente do genoma de referência.
[00791] G41. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G40, em que a amostra de teste compreende de sangue de uma fêmea grávida.
[00792] G42. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G41, em que a amostra de teste compreende de plasma a partir de uma fêmea grávida.
[00793] G43. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G42, em que a amostra de teste compreende soro de uma mulher grávida.
[00794] G44 O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G43, em que os ácidos nucleicos são isolados a partir da amostra teste.
[00795] G45. O meio de armazenamento de acordo com qualquer uma das formas de realização G23 a G44, em que o programa instrui um microprocessador para comprimir as leituras de sequência mapeadas para o genoma de referência em (1) a partir de um formato de alinhamento de sequências para um formato binário.
[00796] G46. O meio de armazenamento de acordo com a forma de realização G45, em que a compressão é realizada por um módulo de compressão.
[00797] G47. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 a G46, em que as densidades de GC e as frequências de densidade de GC para as leituras de sequência da amostra de teste e para a referência são fornecidas por um módulo de densidade de tendências.
[00798] G48. O meio de armazenamento de acordo com qualquer uma das formas de realização G16 a G47, em que a comparação em (2) é gerado por um módulo de relação.
[00799] G49. O meio de armazenamento de acordo com qualquer uma das formas de realização G17 a G48, em que a normalização em (3) é realizado por um módulo de correção de tendências.
[00800] G50. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G49, em que as densidades de leitura são fornecidas por um módulo de distribuição.
[00801] G51. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G50, em que as porções filtradas são fornecidas por um módulo de filtração.
[00802] G51.1. O meio de armazenamento de acordo com qualquer uma das formas de realização G29.1 a G51, em que as porções filtradas para a amostra de teste são ponderados por um módulo de pesagem de porção.
[00803] G51.1. O meio de armazenamento de acordo com qualquer uma das formas de realização G29.1 a G51, em que as densidades de leitura ajustadas são fornecidas por um módulo de ajuste de densidade de leitura.
[00804] G52. O meio de armazenamento de acordo com a forma de realização G51.1, em que um aparelho compreende um ou mais do módulo de compressão, o módulo de densidade de tendências, o módulo de relação, o módulo de correção de tendências, o módulo de distribuição, o módulo de filtração, o módulo de ajuste da densidade de leitura e o módulo de ponderação de porção.
[00805] G53. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G52, em que o perfil da amostra de teste compreende um perfil de um cromossomo ou um seu segmento.
[00806] G54. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G53, em que o perfil de referência compreende um perfil de um cromossomo ou um seu segmento.
[00807] G55. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G54, em que a determinação em (d) é fornecido com uma especificidade igual ou maior do que 90% e uma sensibilidade igual ou superior a 90%.
[00808] G56. O meio de armazenamento de acordo com qualquer uma das formas de realização G1 a G55, em que a aneuploidia é uma trissomia.
[00809] G57. O meio de armazenamento de acordo com a forma de realização G56, em que a trissomia é a trissomia 21, trissomia 18 ou trissomia 13.
[00810] H1. Um sistema que compreende a memória e um ou mais microprocessadores, que um ou mais microprocessadores são configurados para realizar, de acordo com as instruções na memória, um processo para reduzir tendências nas leituras de sequência para uma amostra, processo esse que compreende: (a) gerar uma relação entre (i) as estimativas de tendência de genoma local e (ii) frequências de tendências para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendência de amostra, em que, a leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (b) comparar a relação de tendência da amostra e uma relação de tendências de referência, gerando, desse modo, uma comparação, em que, a relação tendências de referência é entre (i) as estimativas de tendência de genoma local, e (ii) as frequências de tendência para uma referência; e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através de quais tendências nas leituras de sequência para a amostra são reduzidas.
[00811] H1.1. Um sistema que compreende um aparelho de sequenciamento e um ou mais aparelhos de computação, em que o aparelho de sequenciamento é configurado para produzir sinais correspondentes às bases de nucleotídeo de um ácido nucleico carregado no aparelho de sequenciamento, que o ácido nucleico é ácido nucleico isento de células circulantes a partir do sangue de uma fêmea grávida tendo um feto, ou que o ácido nucleico carregado no aparelho de sequenciamento é uma variante modificada do ácido nucleico isento de células circulantes; e que um ou mais aparelhos de computação incluem memória e um ou mais processadores, que a memória compreende instruções executáveis por um ou mais processadores e ainda instruções executáveis por um ou mais processadores são configurados para: produzir leitura de sequência a partir dos sinais e mapear a leitura de sequência; (a) gerar uma relação entre (i) as estimativas de tendência de genoma local, e (ii) frequências de tendências para as leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendência da amostra; (b) comparar a relação de tendência da amostra e uma relação de tendências de referência, gerando, desse modo, uma comparação, em que, a relação tendências de referência é entre (i) as estimativas de tendência de genoma local, e (ii) as frequências de tendência para uma referência; e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), segundo o qual tendências nas leituras de sequência para a amostra são reduzidas.
[00812] H1.2. O sistema de acordo com a forma de realização H1 ou H1.1, em que a normalização em (c) compreende o fornecimento de contagens normalizados.
[00813] H2. O sistema de acordo com qualquer uma das formas de realização H1 a H1.2, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00814] H2.1. O sistema de acordo com qualquer uma das formas de realização H1 a H2, em que cada uma das estimativas de tendência de genoma local para a relação de tendências de referência e a relação de tendência de amostra é uma representação do teor de tendência local.
[00815] H2.2. O sistema de acordo com a forma de realização H2.1, em que o teor de tendência local é para um segmento de polinucleotídeo de 5000 pb ou menos.
[00816] H3. O sistema de acordo com qualquer uma das formas de realização H1 a H2.2, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00817] H4. O sistema de acordo com a forma de realização H3, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre uma base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00818] H5. O sistema de acordo com a forma de realização H3, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre 1 base de cada vez na análise de janela deslizante.
[00819] H6. O sistema de acordo com qualquer uma das formas de realização H1 a H5, em que (b) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das quais proporções compreende uma frequência de relação de tendência da amostra e uma frequência de relação de tendências de referência para cada uma das estimativas de tendência de genoma local e (ii) estimativas de tendência de genoma local.
[00820] H7. O sistema de acordo com a forma de realização H6, em que a relação ajustada em (a) é obtida a partir de um ajuste ponderado.
[00821] H8. O sistema de acordo com qualquer uma das formas de realização H1 a H7, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00822] H9. O sistema de acordo com a forma de realização H8, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica ao qual a leitura está mapeada.
[00823] H10. O sistema de acordo com a forma de realização H9, em que o formato binário está em um formato de 5-bytes, compreendendo um cromossomo ordinal 1-byte e uma posição cromossômica de 4-bytes.
[00824] H11. O sistema de acordo com qualquer uma das formas de realização H8 em H10, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00825] H12. O sistema de acordo com qualquer uma das formas de realização H1 a H11, em que a normalização em (c) compreende a fatoração de uma ou mais características diferentes das tendências, e as contagens de normalização da leitura de sequência.
[00826] H13. O sistema de acordo com a forma de realização H12, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00827] H14. O sistema de H13, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00828] H14.1. O sistema de acordo com qualquer uma das formas de realização H12 a H14, em que as contagens das leituras de sequência são normalizadas de acordo com a normalização em (c) e a fatoração de uma ou mais características.
[00829] H15. O sistema de acordo com qualquer uma das formas de realização H1 a H 14.1, compreendendo, após (c), gerar uma densidade de leitura para uma ou mais porções de um genoma, ou um seu segmento, de acordo com um processo de que compreende a geração de uma estimativa de densidade de probabilidade para cada um dos um ou mais porções, compreendendo as contagens das leituras de sequência normalizadas em (c).
[00830] H16. O sistema de acordo com a forma de realização H15, em que a estimativa de densidade de probabilidade é uma estimativa de densidade Kernel.
[00831] H17. O sistema de acordo com a forma de realização H15 ou H16, compreendendo a geração de um perfil de densidade de leitura para o genoma ou o segmento do mesmo.
[00832] H18. O sistema de acordo com a forma de realização H17, em que o perfil de densidade de leitura compreende as densidades de leitura para a uma ou mais porções do genoma, ou o seu segmento.
[00833] H19. O sistema de acordo com qualquer uma das formas de realização H15 a H18 compreende o ajustamento cada uma das densidades de leitura para a uma ou mais porções.
[00834] H20. O sistema de acordo com qualquer uma das formas de realização H15 a H19, em que o um ou mais porções são filtrados, assim, proporcionando porções filtradas.
[00835] H21. O sistema de acordo com qualquer uma das formas de realização H15 a H20, em que o um ou mais porções são ponderados proporcionando, dessa forma, porções ponderadas.
[00836] H22. O sistema de acordo com a forma de realização de H21, em que o um ou mais porções são ponderados por uma função eigen.
[00837] H23. O sistema de acordo com qualquer uma das formas de realização H1 a H22, caracterizado por as estimativas de tendência de genoma local compreendem densidades de GC locais e as frequências de tendências compreendem frequências de tendências de GC.
[00838] H24. O sistema de acordo com qualquer uma das formas de realização H1 a H23 compreendendo: (a) filtração, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (b) ajuste do perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas; (c) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (d) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00839] H25. O sistema de acordo com a forma de realização de H24, em que a comparação compreende determinar um nível de significância.
[00840] H26. O sistema de acordo com a forma de realização H25, em que a determinação do nível de significância compreende determinar um valor-p.
[00841] H27. O sistema de acordo com qualquer uma das formas de realização de H24 a H26, em que o perfil de referência compreende um perfil de densidade de leitura obtida a partir de um conjunto de amostras euploides conhecidas.
[00842] H28. O sistema de acordo com qualquer uma das formas de realização de H24 a H27, em que o perfil de referência compreende as densidades de leitura de porções filtradas.
[00843] H29. O sistema de acordo com qualquer uma das formas de realização de H24 a H28, em que o perfil de referência compreende as densidades de leitura é ajustada de acordo com os um ou mais componentes principais.
[00844] H30. O sistema de acordo com qualquer uma das formas de realização H25 a H29, em que o nível de significância indica uma diferença estatisticamente significativa entre o perfil da amostra de teste e o perfil de referência, e a presença de um cromossomo aneuploide é determinada.
[00845] H31. O sistema de acordo com qualquer uma das formas de realização de H24 a H30, em que as várias amostras compreendem um conjunto de amostras euploides conhecidas.
[00846] H32. O sistema de acordo com qualquer uma das formas de realização de H24 a H31, em que as densidades de leitura de porções para as várias amostras são densidades de leitura medianas.
[00847] H33. O sistema de acordo com qualquer uma das formas de realização de H24 a H32, em que as densidades de leitura de porções filtradas para a amostra de teste com as densidades de leitura medianas.
[00848] H34. O sistema de acordo com qualquer uma das formas de realização H27 a H33, em que o perfil de densidade de leitura para o perfil de referência compreende as densidades de leitura medianas.
[00849] H35. O sistema de acordo com qualquer uma das formas de realização H27 a H34, em que as densidades de leitura para o perfil da amostra de teste, as amostras múltiplas e o perfil de referência são determinados de acordo com um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00850] H36. O sistema de acordo com qualquer uma das formas de realização H33 a H35, em que o perfil da amostra de teste é determinado de acordo com as densidades de leitura medianas para a amostra de teste.
[00851] H37. O sistema de acordo com qualquer uma das formas de realização H34 a H36, em que o perfil de referência é determinado de acordo com as distribuições de densidade medianas de leitura para a referência.
[00852] H38. O sistema de acordo com qualquer uma das formas de realização de H24 a H37, compreendendo porções de filtração de um genoma de referência de acordo com uma medida de incerteza para a distribuição de densidade de leitura.
[00853] H39. O sistema de acordo com a forma de realização H38, em que a medida da incerteza é uma MAD.
[00854] H40. O sistema de acordo com qualquer uma das formas de realização H1 a H39, em que a memória do sistema compreende leituras de sequência de ácido nucleico isento de células circulantes a partir da amostra de teste que são mapeados para o genoma de referência.
[00855] I1. Um método para reduzir tendências nas leituras de sequência para uma amostra compreendendo: (e) gerar, utilizando um microprocessador, uma relação entre (i) as estimativas de tendência de genoma local e (ii) frequências de tendências para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendência de amostra, em que, as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (f) comparar a relação de tendência da amostra e uma relação de tendências de referência, gerando, desse modo, uma comparação, em que, a relação tendências de referência é entre (i) as estimativas de tendência de genoma local, e (ii) as frequências de tendência para uma referência; e (g) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), através de quais tendências nas leituras de sequência para a amostra são reduzidas.
[00856] I1.1. Um método para reduzir tendências nas leituras de sequência para uma amostra compreendendo: carregar um aparelho de sequenciamento com ácido nucleico isento de células circulantes a partir do sangue de uma fêmea grávida que carrega um feto, ou o carregamento do aparelho de sequenciamento com uma variante modificada do ácido nucleico, em que o aparelho de sequenciamento produz sinais correspondentes ao bases de nucleotídeo do ácido nucleico; geração das leituras de sequência a partir dos sinais do ácido nucleico por, após transferir opcionalmente os sinais para, um sistema compreendendo um ou mais aparelhos de computação, em que o um ou mais aparelho de computação do sistema compreende memória e um ou mais processadores, e em que um aparelho de computação, ou combinação de aparelhos de computação, em que o sistema é configurado para: mapear as leituras de sequência a um genoma de referência; (a) gerar, utilizando um microprocessador, uma relação entre (i) as estimativas de tendência de genoma local e (11) frequências de tendências para leituras de sequência de uma amostra de teste, gerando, desse modo, uma relação de tendência de amostra, em que, as leituras de sequência são de ácido nucleico isento de células circulantes a partir da amostra de teste, e as leituras de sequência são mapeadas para um genoma de referência; (b) comparar a relação de tendência da amostra e uma relação de tendências de referência, gerando, desse modo, uma comparação, em que, a relação tendências de referência é entre (i) as estimativas de tendência de genoma local, e (ii) as frequências de tendência para uma referência; e (c) normalizar contagens das leituras de sequência para a amostra de acordo com a comparação determinada em (b), segundo o qual tendências nas leituras de sequência para a amostra são reduzidas.
[00857] I1.2. O método de acordo com a forma de realização I1 ou I1.1, em que a normalização em (c) compreende o fornecimento de contagens normalizados.
[00858] I2. O método de acordo com a forma de realização I1, I1.1 ou I1.2, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00859] I2.1. O método de acordo com qualquer uma das formas de realização I1 a I2, em que cada uma das estimativas de tendência de genoma local para a relação de tendências de referência e a relação de tendência de amostra é uma representação do teor de tendência local.
[00860] I2.2. O método de acordo com a forma de realização I2.1, em que o teor de tendência local é para um segmento de polinucleotídeo de 5000 pb ou menos.
[00861] I3. O método de acordo com qualquer uma das formas de realização I1 a I2.2, em que cada uma das estimativas de tendência de genoma local é determinada por um processo compreendendo a utilização de uma análise de janela deslizante.
[00862] I4. O método de acordo com a forma de realização I3, em que a janela é de cerca de 5 nucleotídeos contíguos e cerca de 5000 nucleotídeos contíguos e a janela é deslizada sobre uma base para cerca de 10 bases de cada vez na análise de janela deslizante.
[00863] I5. O método de acordo com a forma de realização I3, em que a janela é de cerca de 200 nucleotídeos contíguos e a janela é deslizada sobre 1 base de cada vez na análise de janela deslizante.
[00864] I6. O método de acordo com qualquer uma das formas de realização I1 a I5, em que (b) compreende a geração de uma relação ajustada entre (i) as proporções, cada uma das proporções compreende uma frequência de relação de tendência da amostra e uma frequência de relação de tendências de referência para cada um dos locais do genoma estimativas de tendência e (ii) estimativas de tendência de genoma local.
[00865] I7. O método de acordo com a forma de realização I6, em que a relação ajustada em (a) é obtida a partir de um ajuste ponderado.
[00866] I8. O método de acordo com qualquer uma das formas de realização I1 a I7, em que cada uma das leituras de sequência para a amostra é representada em um formato binário.
[00867] I9. O método de acordo com a forma de realização I8, em que o formato binário para cada uma das leituras de sequência compreende um cromossomo a que a leitura é mapeada e uma posição cromossômica a que a leitura é mapeada.
[00868] I10. O método de acordo com a forma de realização I9, em que o formato binário está em um formato de 5-bytes, compreendendo um ordinal cromossômico de 1-byte e uma posição cromossômica de 4-bytes.
[00869] I11. O método de acordo com qualquer uma das formas de realização I8 a I10, em que o formato binário é 50 vezes menor do que um formato de alinhamento/mapeamento de sequências (SAM) e/ou cerca de 13% menor do que um formato GZip.
[00870] I12. O método de acordo com qualquer uma das formas de realização I1 a I11, em que a normalização em (c) compreende a fatoração um ou mais características diferentes de tendências, e as contagens de normalização das leituras de sequência.
[00871] I13. O método de acordo com a forma de realização I12, em que a fatoração de uma ou mais características é por um processo compreendendo a utilização de um modelo multivariado.
[00872] I14. O método de acordo com a forma de realização I13, em que o processo compreendendo a utilização do modelo multivariado é realizado por um módulo multivariado.
[00873] I14.1. O método de acordo com qualquer uma das formas de realização I12 a I14, em que as contagens das leituras de sequência são normalizadas de acordo com a normalização em (c) e a fatoração de uma ou mais características.
[00874] I15. O método de acordo com qualquer uma das formas de realização I1 a I14.1, compreendendo, após (c), a geração de uma densidade de leitura para uma ou mais porções de um genoma, ou um seu segmento, de acordo com um processo que compreende a geração de uma estimativa de densidade de probabilidade para cada das uma ou mais porções, compreendendo as contagens das leituras de sequência normalizados em (c).
[00875] I16. O método de acordo com a forma de realização I15, em que a estimativa de densidade de probabilidade é uma estimativa de densidade Kernel.
[00876] I17. O processo da variante 115 ou 116, que compreende a geração de um perfil de densidade de leitura para o genoma ou o seu segmento.
[00877] I18. O método de acordo com a forma de realização I17, em que o perfil de densidade de leitura compreende as densidades de leitura para a uma ou mais porções do genoma, ou o seu segmento.
[00878] I19. O método de acordo com qualquer uma das formas de realização I15 a I18 compreende ajustar cada uma das densidades de leitura para a uma ou mais porções.
[00879] I20. O método de acordo com qualquer uma das formas de realização I15 a I19, em que as uma ou mais porções são filtrados, assim, proporcionando porções filtradas.
[00880] I21. O método de acordo com qualquer uma das formas de realização I15 a I20, em que o um ou mais porções são ponderados proporcionando, dessa forma, porções ponderadas.
[00881] I22. O método de acordo com a forma de realização I21, em que as uma ou mais porções são ponderados por uma função eigen.
[00882] I23. O método de acordo com qualquer uma das formas de realização I1 a I22, em que as estimativas de tendência de genoma local compreendem densidades de GC locais e as frequências de tendências compreendem frequências de tendência de GC.
[00883] I23.1. O método de acordo com qualquer uma das formas de realização I1 a I23 compreendendo: (a) filtração, de acordo com uma distribuição de densidade de leitura, porções de um cromossomo de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (b) ajuste do perfil de densidade de leitura de um cromossomo para a amostra de teste de acordo com um ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de cromossomo amostra de teste compreendendo ajustada densidade de leituras; (c) comparação do perfil de cromossomo da amostra de teste a um perfil de referência, proporcionando, dessa forma, uma comparação; e (d) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00884] I24. O método de acordo com qualquer uma das formas de realização I1 a I23 compreendendo: (e) filtração, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para uma amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (f) ajuste do perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas; (g) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (h) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
[00885] I24.1. O método de acordo com a forma de realização I23.1 ou I24, em que o perfil de densidade de leitura é ajustado em (b) com 1 a 10 componentes principais.
[00886] I24.2. O método de acordo com a forma de realização I23.1, I24 ou I24.1, em que o perfil de densidade de leitura é ajustado em (b) por 5 componentes principais.
[00887] I24.3. O método de acordo com qualquer uma das formas de realização de I23.1 a I24.2, em que o um ou mais componentes principais para ajustar uma ou mais características de um perfil de densidade de leitura, que são selecionados a partir de características de sexo fetal, tendências de sequência, fração fetal, tendências correlacionada com sensibilidade à DNaseI, entropia, tendência de sequência repetitiva, tendência de estrutura de cromatina, tendências de taxa de erro de polimerase, tendências de palíndromo, tendência de repetição invertida, tendência de amplificação por PCR e variação escondida do número de cópia.
[00888] I24.4. O método de acordo com a forma de realização I24.3, em que as tendências de sequência compreendem tendências de guanina e citosina (GC).
[00889] I25. O método de acordo com qualquer uma das formas de realização de I23.1 a I24.4, em que a comparação compreende determinar um nível de significância.
[00890] 126. O método de acordo com a forma de realização I25, em que a determinação do nível de significância compreende determinar um valor-p.
[00891] 127. O método de acordo com qualquer uma das formas de realização I23.1 a I26, em que o perfil de referência compreende um perfil de densidade de leitura obtida a partir de um conjunto de amostras euploides conhecidas.
[00892] I28. O método de acordo com qualquer uma das formas de realização I23.1 a I27, em que o perfil de referência compreende as densidades de leitura de porções filtradas.
[00893] I29. O método de acordo com qualquer uma das formas de realização I23.1 a I28, em que o perfil de referência compreende as densidades de leitura é ajustada de acordo com os um ou mais componentes principais.
[00894] I30. O método de acordo com qualquer uma das formas de realização a I25 I29, em que o nível de significância indica uma diferença estatisticamente significativa entre o perfil da amostra de teste e o perfil de referência, e a presença de uma aneuploidia cromossômica é determinada.
[00895] I31. O método de acordo com qualquer uma das formas de realização I23.1 a I30, em que as várias amostras compreendem um conjunto de amostras euploides conhecidas.
[00896] I32. O método de acordo com qualquer uma das formas de realização I23.1 a I31, em que as densidades de leitura de porções para as várias amostras são densidades de leitura medianas.
[00897] I33. O método de acordo com qualquer uma das formas de realização I23.1 a I32, em que as densidades de leitura de porções filtradas para a amostra de teste com as densidades de leitura medianas.
[00898] I34. O método de acordo com qualquer uma das formas de realização I27 a I33, em que o perfil de densidade de leitura para o perfil de referência compreende as densidades de leitura medianas.
[00899] I35. O método de acordo com qualquer uma das formas de realização I27 a I34, em que as densidades de leitura para o perfil da amostra de teste, as amostras múltiplas e o perfil de referência são determinados de acordo com um processo compreendendo a utilização de uma estimativa de densidade Kernel.
[00900] I36. O método de acordo com qualquer uma das formas de realização I33 a I35, em que o perfil da amostra de teste é determinado de acordo com a mediana para densidades de leitura da amostra de teste.
[00901] I37. O método de acordo com qualquer uma das formas de realização de I34 a I36, em que o perfil de referência é determinado de acordo com as distribuições de densidade média de leitura para a referência.
[00902] 138. O método de acordo com qualquer uma das formas de realização I23.1 a I37, compreendendo porções de filtração de um genoma de referência de acordo com uma medida de incerteza para a distribuição de densidade de leitura.
[00903] I39. O método de I38 forma de realização, em que a medida da incerteza é um MAD.
[00904] I40. O método de acordo com qualquer uma das formas de realização I23.1 a I39, em que o perfil da amostra de teste é representativo de dosagem cromossômica para a amostra de teste.
[00905] I41. O método de acordo com a forma de realização I40, compreendendo a comparação de dosagem cromossômica de um perfil de amostra de teste ao cromossomo de dosagem para um perfil de referência, gerando, desse modo, uma comparação de dosagem cromossômica.
[00906] I42. O método de acordo com a forma de realização I41, que compreende a determinação da presença ou ausência de uma aneuploidia cromossômica para a amostra de teste é de acordo com a comparação de dosagem cromossômica.
[00907] I43. O método de acordo com a forma de realização I42, em que a determinação da presença ou ausência de uma aneuploidia cromossômica para a amostra de teste compreende identificar a presença ou ausência de uma cópia de um cromossomo, duas cópias de um cromossomo, três cópias de um cromossomo, quatro cópias de um cromossomo, cinco cópias de um cromossomo, uma deleção de um ou mais segmentos de um cromossomo ou uma inserção de um ou mais segmentos de cromossomo.
[00908] J1. Um método para determinar a presença ou ausência de uma aneuploidia, compreendendo: (a) obtenção das contagens das leituras de sequência de nucleotídeos parciais mapeados para porções genômicas de um genoma de referência, cujas leituras de sequência de nucleotídeos parciais são leituras de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, em que, pelo menos, algumas das leituras de sequência de nucleotídeos parciais incluem: i) lacunas de várias nucleobases entre nucleobases identificadas ou ii) uma ou mais classes de nucleobases, em que cada classe de nucleobases compreende um subconjunto de nucleobases presente no ácido nucleico da amostra, ou uma combinação de (i) e (ii), (b) filtração, de acordo com uma distribuição de densidade de leitura, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para a amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de nucleotídeos parciais a partir da amostra de teste, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; (c) ajuste do perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas; (d) comparar o perfil da amostra de teste para um perfil de referência, proporcionando, dessa forma, uma comparação; e (e) determinar a presença ou ausência de uma aneuploidia para a amostra de teste de acordo com a comparação. (f)
[00909] J2. Um método para determinar a fração fetal com base na variação do número de cópias, que compreende: (a) a obtenção de contagens de leituras de sequência de ácidos nucleicos mapeadas para porções genômicas de um genoma de referência, em que leituras de sequência são leituras de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida; (b) normalizar as contagens mapeadas para as porções genômicas do genoma de referência, proporcionando, dessa forma contagens normalizadas para as porções genômicas; em que a normalização compreende: (i) filtração, de acordo com uma distribuição de densidade de leitura, porções do genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para a amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de nucleotídeos a partir da amostra de teste, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; e (ii) ajuste do perfil de densidade de leitura para a amostra de teste de acordo com uma ou mais componentes principais, em que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas (c) identificação de um primeiro nível de contagens normalizadas significativamente diferentes de um segundo nível de contagens normalizadas, em que o primeiro nível é para um primeiro conjunto de porções genômicas, e que o segundo nível é para um segundo conjunto de porções genômicas; (d) atribuição de uma variação do número de cópias para o primeiro nível, proporcionando, dessa forma, uma classificação; e (e) determinação de uma fração fetal do ácido nucleico isento de células circulantes de acordo com a classificação, segundo o qual a fração fetal é gerada a partir da leitura de sequência de ácido nucleico.
[00910] J3. Um método para a determinação da fração de ácido nucleico fetal na ácido nucleico isento de células circulantes a partir do sangue de uma fêmea grávida, compreendendo: (a) obtenção de contagens de leitura de sequência de ácidos nucleicos mapeada para porções genômicas de um genoma de referência, em que as leituras de sequência são leituras de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida que carrega um feto do sexo masculino; (b) gerar uma representação de cromossomo X experimental, em que a representação de cromossomo X experimental é uma relação de (i) contagens de leituras de sequência mapeadas para as porções genômicas do genoma de referência no cromossomo X, e (ii) contagens de leituras de sequência mapeadas para porções genômicas do genoma de referência no genoma ou segmento do mesmo; e (c) a partir da representação de cromossomo X experimental, determinar a fração de ácido nucleico fetal no sangue da mulher grávida de acordo com a representação do cromossomo X experimental e uma representação de cromossomo X esperada, em que a representação de cromossomo X esperada é uma relação de (i) o número das porções genômicas do genoma de referência no cromossomo X, e (ii) o número de porções genômicas do genoma de referência no genoma ou segmento da mesma, em que as contagens em (b) são normalizados por um processo compreendendo: (1) filtração, de acordo com uma distribuição de densidade de leitura, porções do genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para a amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de nucleotídeos a partir da amostra de teste, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; e (2) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas.
[00911] J4. Um método para a determinação de ploidia fetal de acordo com a sequência de ácido nucleico leitura, compreendendo: (a) determinação de uma fração de ácido nucleico fetal em uma amostra de teste, que compreende amostra de teste de ácido nucleico isento de células circulantes a partir de uma fêmea grávida; (b) obter contagens de leituras de sequência mapeadas para porções de um genoma de referência, quais leituras de sequência são a partir do ácido nucleico na amostra; (c) calcular um nível de seção genômico de cada uma das porções do genoma de referência, proporcionando desse modo níveis de seção genômicas calculados; e (d) determinar a ploidia fetal de acordo com uma relação entre (i) os níveis de seção genômicas calculados para um subconjunto de porções do genoma de referência e (ii) a fração de ácido nucleico fetal determinada em (a), em que as contagens em (b) são normalizados por um processo compreendendo: (1) filtração, de acordo com uma distribuição de densidade de leitura, porções do genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para a amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de nucleotídeos a partir da amostra de teste, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; e (2) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas.
[00912] J5. Um método para determinar a presença ou ausência de uma aneuploidia fetal, que compreende: (a) obtenção de contagens de leituras de sequência de nucleotídeos mapeadas para fazer referência a porções do genoma, em que as leituras de sequência de nucleotídeos são leituras de ácido nucleico isentos de células circulantes a partir de uma amostra de teste de uma fêmea grávida; (b) normalizar as contagens para uma primeira porção do genoma por um processo que compreende a subtração da contagem esperada a partir das contagens para a primeira porção do genoma, gerando, desse modo, um valor de subtração, e dividindo o valor de subtração de uma estimativa da variabilidade das contagens, ou normalização, utilizando um microprocessador, um derivado de as contagens para a primeira porção do genoma, obtendo-se assim uma contagem de amostra normalizada, qual contagem esperada, ou derivado da contagem esperada, é obtida para um grupo que compreende amostras, referências, ou amostras e referências, expostos a uma ou mais condições comuns experimentais; e (c) determinar a presença ou ausência de uma aneuploidia fetal com base na contagem de amostra normalizada, em que a normalização das contagens em (b) compreende ainda: (1) filtração, de acordo com uma distribuição de densidade de leitura, porções do genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para a amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de nucleotídeos a partir da amostra de teste, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; e (2) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas.
[00913] J6. Um método para a determinação do sexo no cromossomo cariótipo um feto, compreendendo: (a) obtenção de contagens de leituras de sequência de nucleotídeos mapeados para porções de um genoma de referência, cujas leituras de sequência são leituras de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida; (b) determinar um desvio experimental para cada uma das porções do genoma de referência para várias amostras a partir de uma relação ajustada para cada amostra entre (i) as contagens das leituras de sequência mapeadas para cada uma das porções do genoma de referência, e (ii) uma funcionalidade de mapeamento para cada uma das partes; (c) calcular um nível de seção genômico de cada uma das porções do genoma de referência a partir de uma relação justa entre a tendência experimental e as contagens das leituras de sequência mapeadas para cada uma das porções do genoma de referência, proporcionando desse modo níveis de seção genômicas calculados; e (d) determinação do cariótipo de cromossomo sexual para o feto de acordo com os níveis de seção genômicas calculados, em que a determinação de uma tendência experimental em (b) compreende ainda: (1) de filtração, de acordo com uma distribuição de densidade de leitura, porções do genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para a amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de nucleotídeos a partir da amostra de teste, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; e (2) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais componentes principais, os quais são componentes principais obtidos a partir de um conjunto de amostras euploides conhecidas por uma análise de componentes principais, proporcionando, dessa forma, um perfil da amostra de teste compreendendo densidades de leitura ajustado.
[00914] J7. Um método para determinar a presença ou ausência de uma aneuploidia, compreendendo: (a) obtenção de contagens de leituras de sequência mapeada para cromossomos 13, 18 e 21, ou segmentos da mesma, em um genoma de referência, que leituras de sequência são leituras de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida; (b) determinar três proporções ou valores da relação, cada uma das quais três proporções é uma relação de (i) contagens mapeadas para cada um dos cromossomos 13, 18 e 21, ou seus segmentos, para (ii) contagens mapeadas para cada um dos outros cromossomos 13, 18 e 21, ou segmentos do mesmo; (c) comparar as proporções ou três valores de relação, gerando, desse modo, uma comparação; e (d) determinar a presença ou ausência de uma aneuploidia cromossômica com base na comparação gerada em (c), com a condição de que a comparação gerada em (c), e a determinação, em (d) não são baseadas em segmentos do genoma com exceção nos cromossomos 13, 18 e 21; pelo que a determinação da presença ou ausência do cromossomo aneuploide é gerada a partir da leitura de sequência, em que as contagens de leituras de sequência mapeadas para cromossomos 13, 18, e 21 ou segmentos do mesmo são normalizados por um processo compreendendo: (1) filtração, de acordo com uma distribuição de densidade de leitura, porções do genoma de referência, proporcionando, dessa forma, um perfil de densidade de leitura para a amostra de teste compreendendo densidades de leitura de porções filtradas, em que, as densidades de leitura compreendem leituras de sequência de nucleotídeos a partir da amostra de teste, e a distribuição da densidade de leitura é determinada para densidades de leitura de porções para várias amostras; e (2) ajustar o perfil de densidade de leitura para a amostra de teste de acordo com um ou mais dos componentes principais, que os componentes principais são obtidos a partir de um conjunto de amostras euploides conhecidas através de uma análise de componentes principais, proporcionando, dessa forma, um perfil de amostra de teste compreendendo densidades de leitura ajustadas.
[00915] A totalidade de cada patente, pedido de patente, publicação e documento referenciado aqui por este meio é incorporada por referência. A citação de patentes acima referidas, aplicações de patentes, publicações e documentos não é uma admissão de que qualquer um dos precedentes é técnica anterior pertinente, nem constitui qualquer admissão quanto ao conteúdo ou à data destas publicações ou documentos.
[00916] As modificações podem ser feitas ao que precede sem nos afastarmos dos aspectos básicos da tecnologia. Embora a tecnologia tenha sido descrita em detalhe considerável, com referência a uma ou a várias formas de realização, os vulgares técnicos no assunto reconhecerão que podem ser feitas alterações às formas de realização especificamente reveladas no presente pedido, no entanto estas modificações e melhorias estão dentro do âmbito e o espírito da tecnologia.
[00917] A tecnologia aqui descrita de forma ilustrativa pode ser praticada adequadamente na ausência de qualquer (quaisquer) elemento (s) não especificamente aqui divulgado (s). Assim, por exemplo, em cada caso aqui qualquer dos termos "compreendendo", "consistindo essencialmente em" e "que consiste em" pode ser substituído por qualquer um dos outros dois termos. Os termos e expressões que foram empregues são utilizados como termos de descrição e não de limitação, e a utilização de tais termos e expressões não excluir quaisquer equivalentes das características mostradas e descritas ou seus segmentos, e são possíveis várias modificações dentro do âmbito da tecnologia reivindicada. O termo "um" ou "uma" podem referir-se a um ou uma pluralidade dos elementos que modifica (por exemplo, "um reagente" pode significar um ou mais reagentes) a menos que seja contextualmente claro qualquer um dos elementos ou mais do que um dos elementos seja descrito. O termo "cerca de", tal como aqui utilizado, refere-se a um valor dentro de 10% do parâmetro subjacente (por exemplo, mais ou menos 10%), e a utilização do termo "cerca de", no início de uma série de valores modifica cada um dos valores (por exemplo, "cerca de 1, 2 e 3" refere-se à cerca de 1, cerca de 2 e cerca de 3). Por exemplo, um peso de "cerca de 100 gramas" pode incluir pesos entre 90 gramas e 110 gramas. Além disso, quando uma lista de valores é aqui descrita (por exemplo, cerca de 50%, 60%, 70%, 80%, 85% ou 86%) do perfil inclui todos os valores intermediários e fracionários dos mesmos (por exemplo, 54%, 85,4%). Assim, deve ser entendido que, embora a presente tecnologia tenha sido especificamente divulgada pelas formas de realização e características representativas opcionais, modificação e variação dos conceitos aqui revelados podem ser invocadas por aqueles técnicos no assunto, e tais modificações e variações são consideradas dentro do âmbito da presente tecnologia.
[00918] Certas formas de realização da tecnologia são apresentadas no (s) pedido (s) que se seguem.

Claims (15)

1. Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra CARACTERIZADO por compreender as etapas de: (a) filtrar, de acordo com uma distribuição de densidade de sequência, porções de um genoma de referência, proporcionando, dessa forma, um perfil de densidade de sequência para uma amostra de teste compreendendo densidades de sequência de porções filtradas, em que: (i) as densidades de sequência compreendem medidas quantitativas de contagens de leituras de sequência mapeadas para as porções do genoma de referência, em que as leituras de sequência são leituras de ácido nucleico isento de células circulantes a partir de uma amostra de teste de uma fêmea grávida, e (ii) a distribuição de densidade de sequência é uma distribuição de densidades de sequência regular, média e/ou mediana e é determinada para densidades de sequência de porções para várias amostras; (b) ajustar o perfil de densidade de sequência para a amostra de teste 1) subtraindo um valor mediano treinado das densidades de sequência da amostra de teste e 2) removendo componentes das densidades de sequência da amostra de teste que se correlacionam com um ou mais componentes principais do perfil, cujos componentes principais (i) são obtidos a partir de um conjunto de treinamento de amostras euploides conhecidas através de uma análise de componentes principais, e (ii) representam um ou mais desvios em um perfil de densidade de sequência, proporcionando, dessa forma, um perfil de densidade de sequência ajustado compreendendo densidades de sequência ajustadas, em que uma pluralidade de desvios é removida do perfil de densidade de sequência ajustado; (c) comparar o perfil de densidade de sequência ajustado com um perfil de referência compreendendo densidades de sequência obtidas de uma ou mais amostras de referência, proporcionando, dessa forma, uma comparação; e (d) determinar a presença ou ausência de uma aneuploidia cromossômica para a amostra de teste de acordo com a comparação.
2. Método, de acordo com a reivindicação 1, CARACTERIZADO pelo fato do perfil de densidade de sequência ser ajustado em (b) por 2 a 10 componentes principais.
3. Método, de acordo com qualquer uma das reivindicações 1 ou 2, CARACTERIZADO pelo fato de que comparar em (c) compreende determinar um nível de significância, em que o nível de significância indica uma diferença estatisticamente significativa entre o perfil de densidade de sequência ajustado e o perfil de referência, e a presença de uma aneuploidia cromossômica ser determinada.
4. Método, de acordo com a reivindicação 3, CARACTERIZADO pelo fato de que determinar o nível de significância compreende determinar um valor-p.
5. Método, de acordo com qualquer uma das reivindicações 1 a 4, CARACTERIZADO pelo fato do perfil de referência em (c) compreender: (i) densidades de sequência determinadas para uma ou mais amostras euploides conhecidas; (ii) densidades de sequência de porções filtradas; e/ou (iii) densidades de sequências ajustadas de acordo com um ou mais componentes principais.
6. Método, de acordo com qualquer uma das reivindicações 1 a 5, CARACTERIZADO por: (i) as densidades de sequência das porções para as várias amostras em (a)(ii) serem densidades de sequência medianas; (ii) as densidades de sequência das porções filtradas para a amostra de teste serem densidades de sequência medianas; e/ou (iii) as densidades de sequência para o perfil de referência em (c) serem densidades de sequência medianas.
7. Método, de acordo com a reivindicação 6, CARACTERIZADO pelo fato das densidades de sequência para o perfil de densidade de sequência para a amostra de teste, das densidades de sequência das porções para as várias amostras na etapa (a)(ii) e das densidades de sequência para o perfil de referência em (c) serem determinados de acordo com um processo compreendendo a utilização de uma estimativa de densidade Kernel.
8. Método, de acordo com a reivindicação 6 ou 7, CARACTERIZADO pelo fato do perfil de densidade de sequência para a amostra de teste ser determinado de acordo com as densidades de sequência medianas para a amostra de teste; e do perfil de referência em (c) ser determinado de acordo com as densidades de sequência medianas para uma ou mais amostras de referência.
9. Método, de acordo com qualquer uma das reivindicações 1 a 8, CARACTERIZADO pelo fato das porções de um genoma de referência serem filtradas em (a) de acordo com uma medida de incerteza para a distribuição de densidade de sequência.
10. Método, de acordo com a reivindicação 9, CARACTERIZADO pelo fato da medida de incerteza ser um MAD.
11. Método, de acordo com qualquer uma das reivindicações 1 a 10, CARACTERIZADO pelo fato do perfil de densidade de sequência para a amostra de teste e do perfil de referência em (c) compreenderem pontuações-z de densidades de sequência.
12. Método, de acordo com qualquer uma das reivindicações 1 a 11, CARACTERIZADO pelo fato do perfil de densidade de sequência para a amostra de teste ser representativo de dosagem cromossômica para a amostra de teste, e do método compreender comparar dosagem cromossômica para o perfil de densidade de sequência para a amostra de teste para dosagem cromossômica para o perfil de referência em (c), gerando, assim, uma comparação de dosagem cromossômica, em que a determinação da presença ou ausência de uma aneuploidia cromossômica para a amostra de teste ser de acordo com a comparação de dosagem cromossômica.
13. Método, de acordo com qualquer uma das reivindicações 1 a 12, CARACTERIZADO pelo fato da determinação da presença ou ausência de uma aneuploidia cromossômica para a amostra de teste compreender identificar a presença ou ausência de uma cópia de um cromossomo, duas cópias de um cromossomo, três cópias de um cromossomo, quatro cópias de um cromossomo, cinco cópias de um cromossomo, uma deleção de um ou mais segmentos de um cromossomo ou uma inserção de um ou mais segmentos de cromossomo.
14. Método, de acordo com qualquer uma das reivindicações 1 a 13, CARACTERIZADO por compreender, antes de (a), obter as leituras de sequências.
15. Método, de acordo com qualquer uma das reivindicações 1 a 14, CARACTERIZADO por compreender, antes de (b), ajustar o perfil de densidade de sequência para a amostra de teste por uma normalização GC LOESS.
BR112016007401-7A 2013-10-04 2014-10-02 Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra BR112016007401B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361887081P 2013-10-04 2013-10-04
US61/887,081 2013-10-04
PCT/US2014/058885 WO2015051163A2 (en) 2013-10-04 2014-10-02 Methods and processes for non-invasive assessment of genetic variations

Publications (2)

Publication Number Publication Date
BR112016007401A2 BR112016007401A2 (pt) 2017-08-01
BR112016007401B1 true BR112016007401B1 (pt) 2023-04-11

Family

ID=51842830

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112016007401-7A BR112016007401B1 (pt) 2013-10-04 2014-10-02 Método para determinar a presença ou ausência de uma aneuploidia cromossômica em uma amostra

Country Status (15)

Country Link
US (2) US10964409B2 (pt)
EP (2) EP4258269A3 (pt)
JP (4) JP6525434B2 (pt)
KR (4) KR102384620B1 (pt)
CN (2) CN110176273B (pt)
AU (3) AU2014329493B2 (pt)
BR (1) BR112016007401B1 (pt)
CA (2) CA2925528C (pt)
DK (1) DK3053071T3 (pt)
ES (1) ES2968644T3 (pt)
FI (1) FI3053071T3 (pt)
IL (5) IL304949A (pt)
MY (1) MY181069A (pt)
PL (1) PL3053071T3 (pt)
WO (1) WO2015051163A2 (pt)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
EP2764458B1 (en) 2011-10-06 2021-04-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
PL2805280T3 (pl) 2012-01-20 2022-11-21 Sequenom, Inc. Procesy diagnostyczne będące czynnikiem warunków doświadczalnych
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014165596A1 (en) 2013-04-03 2014-10-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA3189752A1 (en) 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR20220133309A (ko) 2013-06-21 2022-10-04 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
PL3053071T3 (pl) 2013-10-04 2024-03-18 Sequenom, Inc. Metody i procesy nieinwazyjnej oceny zmienności genetycznych
AU2014332241B2 (en) 2013-10-07 2021-04-29 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
WO2015138774A1 (en) 2014-03-13 2015-09-17 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2015267190B2 (en) 2014-05-30 2020-10-01 Sequenom, Inc. Chromosome representation determinations
US10490299B2 (en) 2014-06-06 2019-11-26 Battelle Memorial Institute Identification of traits associated with DNA samples using epigenetic-based patterns detected via massively parallel sequencing
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP6971845B2 (ja) 2014-10-10 2021-11-24 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲的評価のための方法および処理
US9544321B2 (en) * 2015-01-30 2017-01-10 Securonix, Inc. Anomaly detection using adaptive behavioral profiles
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US20180129778A1 (en) * 2015-05-28 2018-05-10 Genepeeks, Inc. Systems and methods for providing improved prediction of carrier status for spinal muscular atrophy
WO2017027040A1 (en) * 2015-08-13 2017-02-16 Halliburton Energy Services, Inc. Calibration of optical computing devices using traceable filters
US11174518B2 (en) 2015-10-05 2021-11-16 Cedars-Sinai Medical Center Method of classifying and diagnosing cancer
US9848301B2 (en) * 2015-11-20 2017-12-19 At&T Intellectual Property I, L.P. Facilitation of mobile device geolocation
NZ745249A (en) 2016-02-12 2021-07-30 Regeneron Pharma Methods and systems for detection of abnormal karyotypes
WO2017205826A1 (en) 2016-05-27 2017-11-30 Sequenom, Inc. Methods for detecting genetic variations
EP3488239A1 (en) * 2016-07-22 2019-05-29 Verily Life Sciences LLC Quantitative massively parallel proteomics
US11200963B2 (en) 2016-07-27 2021-12-14 Sequenom, Inc. Genetic copy number alteration classifications
CA3030894A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
US9998876B2 (en) 2016-07-27 2018-06-12 At&T Intellectual Property I, L.P. Inferring user equipment location data based on sector transition
NZ751798A (en) * 2016-09-22 2022-02-25 Illumina Inc Somatic copy number variation detection
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106650312B (zh) * 2016-12-29 2022-05-17 浙江安诺优达生物科技有限公司 一种用于循环肿瘤dna拷贝数变异检测的装置
CN106845154B (zh) * 2016-12-29 2022-04-08 浙江安诺优达生物科技有限公司 一种用于ffpe样本拷贝数变异检测的装置
WO2018136881A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Sequencing adapter manufacture and use
EP3571614A1 (en) 2017-01-20 2019-11-27 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
US11929145B2 (en) 2017-01-20 2024-03-12 Sequenom, Inc Methods for non-invasive assessment of genetic alterations
US11694768B2 (en) 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
PT3596233T (pt) 2017-03-17 2022-08-22 Sequenom Inc Métodos e processos para avaliação de mosaicismo genético
JP6979280B2 (ja) * 2017-04-11 2021-12-08 株式会社日本バイオデータ トランスクリプトームデータの解析方法
US20200216910A1 (en) * 2017-08-09 2020-07-09 Enrich Bioscience Inc. Method and system for analysis of dna methylation and use of same to detect cancer
KR20190034985A (ko) 2017-09-25 2019-04-03 삼성전자주식회사 인공 신경망의 양자화 방법 및 장치
US11532391B2 (en) * 2017-10-05 2022-12-20 Koninklijke Philips N.V. System and a method for improving reliability of medical imaging devices
US10146914B1 (en) * 2018-03-01 2018-12-04 Recursion Pharmaceuticals, Inc. Systems and methods for evaluating whether perturbations discriminate an on target effect
EP3795692A4 (en) * 2018-05-07 2021-07-21 GeneMind Biosciences Company Limited METHOD, DEVICE AND SYSTEM FOR DETECTION OF CHROMOSOMAL ANEUPLOIDY
US20210301342A1 (en) 2018-09-07 2021-09-30 Sequenom, Inc. Methods, and systems to detect transplant rejection
CN110265087A (zh) * 2018-10-05 2019-09-20 中国医药大学附设医院 染色体异常检测模型、其检测系统及染色体异常检测方法
CN109471053B (zh) * 2018-10-18 2020-01-31 电子科技大学 一种基于双约束的介电特性迭代成像方法
WO2020172164A1 (en) 2019-02-19 2020-08-27 Sequenom, Inc. Compositions, methods, and systems to detect hematopoietic stem cell transplantation status
CA3128973A1 (en) 2019-03-04 2020-09-10 Bhaskar Bhattacharyya Data compression and communication using machine learning
US11551102B2 (en) * 2019-04-15 2023-01-10 International Business Machines Corporation Bias detection for unstructured text
CN114258572A (zh) * 2019-06-21 2022-03-29 酷博尔外科器械有限公司 用于确定基因组倍性的系统和方法
US11752700B2 (en) * 2019-10-01 2023-09-12 Massachusetts Institute Of Technology Systems and methods for formulating material in a data-driven manner
JP2022553829A (ja) 2019-10-31 2022-12-26 セクエノム, インコーポレイテッド 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用
CN111008356B (zh) * 2019-11-13 2023-06-16 成都理工大学 一种基于WTSVD算法扣除背景的γ能谱集分析方法
CN111145831B (zh) * 2019-12-31 2023-11-24 广州市妇女儿童医疗中心 构建遗传亚型预测模型的方法、装置和计算机设备
JP2023516299A (ja) 2020-02-28 2023-04-19 ラボラトリー コーポレイション オブ アメリカ ホールディングス 父子判定のための組成物、方法、およびシステム
CN112582022B (zh) * 2020-07-21 2021-11-23 序康医疗科技(苏州)有限公司 用于无创胚胎移植优先级评级的系统和方法
US20220139498A1 (en) * 2020-11-04 2022-05-05 Basf Corporation Apparatuses, systems, and methods for extracting meaning from dna sequence data using natural language processing (nlp)
CN112749429B (zh) * 2020-12-01 2023-09-01 重庆大学 一种基于多元插值的海上风电固定式基础结构设计方法
CN112464149A (zh) * 2020-12-15 2021-03-09 北京百奥智汇科技有限公司 数据的概率密度分布的确定方法、装置、设备和介质
WO2023244983A1 (en) * 2022-06-13 2023-12-21 Freenome Holdings, Inc. Sequence process validation methods and compositions
CN114841294B (zh) * 2022-07-04 2022-10-28 杭州德适生物科技有限公司 一种检测染色体结构异常的分类器模型训练方法及装置
WO2024161278A1 (en) * 2023-01-30 2024-08-08 Identigen Limited A system and method for element traceability
WO2024186778A1 (en) 2023-03-03 2024-09-12 Laboratory Corporation Of America Holdings Methods and systems for positive cfdna screening on genetic variations using mosaicism ratio

Family Cites Families (159)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US5720928A (en) 1988-09-15 1998-02-24 New York University Image processing and analysis of individual nucleic acid molecules
US5075212A (en) 1989-03-27 1991-12-24 University Of Patents, Inc. Methods of detecting picornaviruses in biological fluids and tissues
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5641628A (en) 1989-11-13 1997-06-24 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
WO1991010741A1 (en) 1990-01-12 1991-07-25 Cell Genesys, Inc. Generation of xenogeneic antibodies
US5091652A (en) 1990-01-12 1992-02-25 The Regents Of The University Of California Laser excited confocal microscope fluorescence scanner and method
US5432054A (en) 1994-01-31 1995-07-11 Applied Imaging Method for separating rare cells from a population of cells
CA2157219C (en) 1994-08-31 2010-10-05 Munehiro Noda Process for purifying recombinant human serum albumin
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
DE69520290T2 (de) 1994-12-23 2001-10-31 Imperial College Of Science, Technology & Medicine Automatisches sequenzierungs verfahren
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5670325A (en) 1996-08-14 1997-09-23 Exact Laboratories, Inc. Method for the detection of clonal populations of transformed cells in a genomically heterogeneous cellular sample
BR9710836A (pt) 1996-04-25 2000-10-24 Spectrametrix Inc Ensaio de analitos usando marcas em partìculas
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US5928870A (en) 1997-06-16 1999-07-27 Exact Laboratories, Inc. Methods for the detection of loss of heterozygosity
US6100029A (en) 1996-08-14 2000-08-08 Exact Laboratories, Inc. Methods for the detection of chromosomal aberrations
US6403311B1 (en) 1997-02-12 2002-06-11 Us Genomics Methods of analyzing polymers using ordered label strategies
GB9704444D0 (en) 1997-03-04 1997-04-23 Isis Innovation Non-invasive prenatal diagnosis
US6566101B1 (en) 1997-06-16 2003-05-20 Anthony P. Shuber Primer extension methods for detecting nucleic acids
US6570001B1 (en) 1997-06-20 2003-05-27 Institut Pasteur Polynucleotides and their use for detecting resistance to streptogramin A or to streptogramin B and related compounds
WO2000006770A1 (en) 1998-07-30 2000-02-10 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6263286B1 (en) 1998-08-13 2001-07-17 U.S. Genomics, Inc. Methods of analyzing polymers using a spatial network of fluorophores and fluorescence resonance energy transfer
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
US20050287592A1 (en) 2000-08-29 2005-12-29 Yeda Research And Development Co. Ltd. Template-dependent nucleic acid polymerization using oligonucleotide triphosphates building blocks
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
EP1226255B1 (en) 1999-10-29 2006-03-29 Stratagene California Compositions and methods utilizing dna polymerases
WO2001062952A1 (en) 2000-02-24 2001-08-30 Dna Sciences, Inc. Methods for determining single nucleotide variations
US6664056B2 (en) 2000-10-17 2003-12-16 The Chinese University Of Hong Kong Non-invasive prenatal monitoring
US6936433B2 (en) 2000-11-27 2005-08-30 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
DE10112515B4 (de) 2001-03-09 2004-02-12 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern mit hoher Sensitivität
WO2002072892A1 (en) 2001-03-12 2002-09-19 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences by asynchronous base extension
AU2002318386A1 (en) 2001-06-21 2003-01-08 Agilent Technologies, Inc. Methods for characterization of nucleic acid molecules
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
US20030157489A1 (en) 2002-01-11 2003-08-21 Michael Wall Recursive categorical sequence assembly
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
ATE349555T1 (de) 2002-03-15 2007-01-15 Epigenomics Ag Entdeckungs- und diagnoseverfahren mit 5- methylcytosin-dna-glycosylase
US20040110208A1 (en) 2002-03-26 2004-06-10 Selena Chan Methods and device for DNA sequencing using surface enhanced Raman scattering (SERS)
US7744816B2 (en) 2002-05-01 2010-06-29 Intel Corporation Methods and device for biomolecule characterization
US7005264B2 (en) 2002-05-20 2006-02-28 Intel Corporation Method and apparatus for nucleic acid sequencing and identification
US20050019784A1 (en) 2002-05-20 2005-01-27 Xing Su Method and apparatus for nucleic acid sequencing and identification
US6952651B2 (en) 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
EP1546385B1 (en) 2002-09-06 2013-04-17 Trustees Of Boston University Quantification of gene expression
EP1613723B1 (en) 2002-11-27 2013-05-15 Sequenom, Inc. Fragmentation-based methods for sequence variation detection and discovery
WO2005010145A2 (en) 2003-07-05 2005-02-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
WO2005017025A2 (en) 2003-08-15 2005-02-24 The President And Fellows Of Harvard College Study of polymer molecules and conformations with a nanopore
EP2354253A3 (en) 2003-09-05 2011-11-16 Trustees of Boston University Method for non-invasive prenatal diagnosis
EP1524321B2 (en) 2003-10-16 2014-07-23 Sequenom, Inc. Non-invasive detection of fetal genetic traits
US20050095599A1 (en) 2003-10-30 2005-05-05 Pittaro Richard J. Detection and identification of biopolymers using fluorescence quenching
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050147980A1 (en) 2003-12-30 2005-07-07 Intel Corporation Nucleic acid sequencing by Raman monitoring of uptake of nucleotides during molecular replication
US20100216151A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
US20100216153A1 (en) * 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US7279337B2 (en) 2004-03-10 2007-10-09 Agilent Technologies, Inc. Method and apparatus for sequencing polymers through tunneling conductance variation detection
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
JP5190263B2 (ja) 2004-08-13 2013-04-24 プレジデント アンド フェローズ オブ ハーバード カレッジ 超高スループットの光学−ナノ細孔dna読み取りプラットフォーム
ATE443161T1 (de) 2004-11-29 2009-10-15 Univ Regensburg Klinikum Mittel und verfahren für den nachweis von methylierter dna
AU2006224971B2 (en) * 2005-03-18 2009-07-02 Boston University A method for the detection of chromosomal aneuploidies
US7960105B2 (en) 2005-11-29 2011-06-14 National Institutes Of Health Method of DNA analysis using micro/nanochannel
ES2429408T5 (es) 2006-02-02 2020-01-16 Univ Leland Stanford Junior Examen genético fetal no invasivo mediante análisis digital
SI2351858T1 (sl) 2006-02-28 2015-06-30 University Of Louisville Research Foundation Med Center Three, Zaznavanje fetalnih kromosomskih nenormalnosti z uporabo tandema polimorfizmov posameznih nukleotidov
US8189892B2 (en) 2006-03-10 2012-05-29 Koninklijke Philips Electronics N.V. Methods and systems for identification of DNA patterns through spectral analysis
US20090075252A1 (en) 2006-04-14 2009-03-19 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
EP2029777B1 (en) 2006-05-31 2017-03-08 Sequenom, Inc. Methods and compositions for the extraction of nucleic acid from a sample
US8137912B2 (en) 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
WO2007147074A2 (en) 2006-06-14 2007-12-21 Living Microsystems, Inc. Use of highly parallel snp genotyping for fetal diagnosis
WO2007147063A2 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US20080081330A1 (en) 2006-09-28 2008-04-03 Helicos Biosciences Corporation Method and devices for analyzing small RNA molecules
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP1944273A1 (en) 2007-01-15 2008-07-16 Rockwool International A/S Process and apparatus for making mineral fibers
US8003319B2 (en) 2007-02-02 2011-08-23 International Business Machines Corporation Systems and methods for controlling position of charged polymer inside nanopore
CA2682275C (en) 2007-03-28 2017-05-09 Bionanomatrix, Inc. Methods of macromolecular analysis using nanochannel arrays
JP5646987B2 (ja) 2007-04-04 2014-12-24 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ナノポアを使用するための組成物、デバイス、システム、及び方法
WO2008157264A2 (en) * 2007-06-15 2008-12-24 Sequenom, Inc. Combined methods for the detection of chromosomal aneuploidy
GB0713143D0 (en) 2007-07-06 2007-08-15 Ucl Business Plc Nucleic acid detection method
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
KR101829565B1 (ko) 2007-07-23 2018-03-29 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
EP2195452B1 (en) 2007-08-29 2012-03-14 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
US20100331195A1 (en) 2007-10-04 2010-12-30 William Andregg Sequencing Nucleic Acid Polymers with Electron Microscopy
US7767400B2 (en) 2008-02-03 2010-08-03 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis
WO2009114543A2 (en) 2008-03-11 2009-09-17 Sequenom, Inc. Nucleic acid-based tests for prenatal gender determination
AU2009228312B2 (en) 2008-03-26 2015-05-21 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
KR20110025993A (ko) 2008-06-30 2011-03-14 바이오나노매트릭스, 인크. 단일-분자 전체 게놈 분석용 장치 및 방법
US9447152B2 (en) 2008-07-07 2016-09-20 Oxford Nanopore Technologies Limited Base-detecting pore
CN103695530B (zh) 2008-07-07 2016-05-25 牛津纳米孔技术有限公司 酶-孔构建体
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
EP3103871B1 (en) 2008-09-16 2020-07-29 Sequenom, Inc. Processes for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for fetal nucleic acid quantification
EP3378951B1 (en) 2008-09-20 2020-05-13 The Board of Trustees of the Leland Stanford Junior University Noninvasive diagnosis of aneuploidy by sequencing
CA2739459A1 (en) * 2008-10-31 2010-05-06 Abbott Laboratories Genomic classification of colorectal cancer based on patterns of gene copy number alterations
GB2467704B (en) 2008-11-07 2011-08-24 Mlc Dx Inc A method for determining a profile of recombined DNA sequences in T-cells and/or B-cells
WO2010056728A1 (en) 2008-11-11 2010-05-20 Helicos Biosciences Corporation Nucleic acid encoding for multiplex analysis
US9181578B2 (en) 2008-11-18 2015-11-10 Bionano Genomics, Inc. Polynucleotide mapping and sequencing
WO2010065470A2 (en) 2008-12-01 2010-06-10 Consumer Genetics, Inc. Compositions and methods for detecting background male dna during fetal sex determination
JP2012513217A (ja) 2008-12-22 2012-06-14 セルラ・インコーポレイテッド 対立遺伝子、ゲノムおよびトランスクリプトームを検出する方法および遺伝子型決定パネル
US8455260B2 (en) 2009-03-27 2013-06-04 Massachusetts Institute Of Technology Tagged-fragment map assembly
CA2757493C (en) 2009-04-03 2018-11-13 Sequenom, Inc. Nucleic acid preparation compositions and methods
EP3546596B1 (en) * 2009-05-26 2022-05-11 Quest Diagnostics Investments Incorporated Use of a kit for detecting gene dysregulations
US8246799B2 (en) 2009-05-28 2012-08-21 Nabsys, Inc. Devices and methods for analyzing biomolecules and probes bound thereto
US20100330557A1 (en) 2009-06-30 2010-12-30 Zohar Yakhini Genomic coordinate system
US8563242B2 (en) * 2009-08-11 2013-10-22 The Chinese University Of Hong Kong Method for detecting chromosomal aneuploidy
CN102666946B (zh) 2009-09-28 2017-09-05 生物纳米基因组公司 用于聚合物分析的纳米通道阵列和近场照射装置以及相关方法
CA2778338A1 (en) 2009-10-21 2011-04-28 Bionano Genomics, Inc. Methods and related devices for single molecule whole genome analysis
MX355132B (es) 2009-11-05 2018-04-06 Sequenom Inc Analisis genomico fetal de muestra biologica materna.
CA2785020C (en) 2009-12-22 2020-08-25 Sequenom, Inc. Processes and kits for identifying aneuploidy
EP2366031B1 (en) 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
US9323888B2 (en) * 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US10662474B2 (en) 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
EP2526415B1 (en) 2010-01-19 2017-05-03 Verinata Health, Inc Partition defined detection methods
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
US20110312503A1 (en) 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection
SG185544A1 (en) 2010-05-14 2012-12-28 Fluidigm Corp Nucleic acid isolation methods
EP2854058A3 (en) 2010-05-18 2015-10-28 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
EP2591433A4 (en) 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
WO2012012703A2 (en) 2010-07-23 2012-01-26 Esoterix Genetic Laboratories, Llc Identification of differentially represented fetal or maternal genomic regions and uses thereof
CA2821906C (en) 2010-12-22 2020-08-25 Natera, Inc. Methods for non-invasive prenatal paternity testing
EP2655666A2 (en) 2010-12-23 2013-10-30 Sequenom, Inc. Fetal genetic variation detection
US20120190020A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Detection of genetic abnormalities
JP6153874B2 (ja) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
WO2012118745A1 (en) 2011-02-28 2012-09-07 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination
CN102985561B (zh) * 2011-04-14 2015-04-01 维里纳塔健康公司 用于确定并且验证常见的和罕见的染色体非整倍性的归一化染色体
GB2484764B (en) 2011-04-14 2012-09-05 Verinata Health Inc Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
ES2605372T3 (es) 2011-05-31 2017-03-14 Berry Genomics Co., Ltd. Un dispositivo para detectar el número de copias de cromosomas fetales o cromosomas de células tumorales
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
ES2512448T3 (es) 2011-06-29 2014-10-24 Bgi Diagnosis Co., Ltd. Detección no invasiva de anormalidades genéticas fetales
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
JP6161607B2 (ja) * 2011-07-26 2017-07-12 ベリナタ ヘルス インコーポレイテッド サンプルにおける異なる異数性の有無を決定する方法
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2764458B1 (en) 2011-10-06 2021-04-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2764459B1 (en) 2011-10-06 2021-06-30 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013055817A1 (en) 2011-10-11 2013-04-18 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
PL2805280T3 (pl) 2012-01-20 2022-11-21 Sequenom, Inc. Procesy diagnostyczne będące czynnikiem warunków doświadczalnych
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
CA2866324C (en) 2012-03-13 2019-01-15 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
ES2902401T3 (es) 2012-05-21 2022-03-28 Sequenom Inc Métodos y procesos para la evaluación no invasiva de variaciones genéticas
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) * 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014055790A2 (en) 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014165596A1 (en) 2013-04-03 2014-10-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA3189752A1 (en) * 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR20220133309A (ko) 2013-06-21 2022-10-04 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
US10174375B2 (en) 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
PL3053071T3 (pl) 2013-10-04 2024-03-18 Sequenom, Inc. Metody i procesy nieinwazyjnej oceny zmienności genetycznych
AU2014332241B2 (en) 2013-10-07 2021-04-29 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
AU2015267190B2 (en) 2014-05-30 2020-10-01 Sequenom, Inc. Chromosome representation determinations
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Also Published As

Publication number Publication date
CN110176273A (zh) 2019-08-27
EP4258269A2 (en) 2023-10-11
JP2019054812A (ja) 2019-04-11
IL278195A (en) 2020-11-30
IL295860A (en) 2022-10-01
JP2021058194A (ja) 2021-04-15
IL295860B2 (en) 2024-01-01
MY181069A (en) 2020-12-17
EP4258269A3 (en) 2024-01-10
US20150100244A1 (en) 2015-04-09
KR102384620B1 (ko) 2022-04-11
IL289974B (en) 2022-09-01
JP2023002631A (ja) 2023-01-10
AU2023201148A1 (en) 2023-03-30
AU2014329493B2 (en) 2020-09-03
KR20230044325A (ko) 2023-04-03
US20210158898A1 (en) 2021-05-27
AU2014329493A1 (en) 2016-05-19
IL289974A (en) 2022-03-01
CA2925528C (en) 2023-09-05
AU2020244389B2 (en) 2022-12-01
DK3053071T3 (da) 2024-01-22
AU2020244389A1 (en) 2020-10-29
EP3053071B1 (en) 2023-10-18
JP6525434B2 (ja) 2019-06-05
KR102700888B1 (ko) 2024-08-29
CN105814574B (zh) 2019-04-26
EP3053071A2 (en) 2016-08-10
BR112016007401A2 (pt) 2017-08-01
WO2015051163A2 (en) 2015-04-09
KR20220003142A (ko) 2022-01-07
KR20160065208A (ko) 2016-06-08
JP2017500620A (ja) 2017-01-05
JP6854272B2 (ja) 2021-04-07
IL295860B1 (en) 2023-09-01
KR102514024B1 (ko) 2023-03-23
IL278195B (en) 2022-02-01
JP7159270B2 (ja) 2022-10-24
KR20240134392A (ko) 2024-09-09
FI3053071T3 (fi) 2024-01-18
IL244748B (en) 2020-11-30
CN105814574A (zh) 2016-07-27
CN110176273B (zh) 2024-01-12
ES2968644T3 (es) 2024-05-13
IL244748A0 (en) 2016-04-21
CA2925528A1 (en) 2015-04-09
PL3053071T3 (pl) 2024-03-18
CA3205430A1 (en) 2015-04-09
US10964409B2 (en) 2021-03-30
IL304949A (en) 2023-10-01

Similar Documents

Publication Publication Date Title
AU2020244389B2 (en) Methods and processes for non-invasive assessment of genetic variations
US20220415435A1 (en) Methods and processes for non-invasive assessment of genetic variations
EP3175000B1 (en) Methods and processes for non-invasive assessment of genetic variations
US20180327844A1 (en) Methods and processes for non-invasive assessment of genetic variations
US20240141422A1 (en) Methods and systems for variant calling using unique k-mers

Legal Events

Date Code Title Description
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G06F 19/18

Ipc: G16B 20/00 (2006.01), G16B 20/10 (2006.01), G16B 2

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 02/10/2014, OBSERVADAS AS CONDICOES LEGAIS