BR112020022257A2 - conjunto de polímeros biológicos habilitado por aprendizagem de máquina - Google Patents

conjunto de polímeros biológicos habilitado por aprendizagem de máquina Download PDF

Info

Publication number
BR112020022257A2
BR112020022257A2 BR112020022257-7A BR112020022257A BR112020022257A2 BR 112020022257 A2 BR112020022257 A2 BR 112020022257A2 BR 112020022257 A BR112020022257 A BR 112020022257A BR 112020022257 A2 BR112020022257 A2 BR 112020022257A2
Authority
BR
Brazil
Prior art keywords
nucleotide
locations
learning model
fact
location
Prior art date
Application number
BR112020022257-7A
Other languages
English (en)
Inventor
Minh Duc Cao
Original Assignee
Quantum-Si Incorporated
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantum-Si Incorporated filed Critical Quantum-Si Incorporated
Publication of BR112020022257A2 publication Critical patent/BR112020022257A2/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Addition Polymer Or Copolymer, Post-Treatments, Or Chemical Modifications (AREA)

Abstract

A presente invenção refere-se a técnicas de aprendizagem de máquina para a geração de conjuntos de polímeros biológicos de macromoléculas. Por exemplo, o sistema pode usar técnicas de aprendizagem de máquina para gerar um conjunto de genoma do DNA de um organismo, uma sequência de genes de uma porção do DNA de um organismo, ou uma sequência de aminoácidos de uma proteína. O sistema pode acessar sequências de polímeros biológicas geradas por um dispositivo de sequenciamento e um conjunto gerado a partir das sequências. O sistema pode gerar a entrada para um modelo de aprendizagem de máquina ao usar as sequências e o conjunto. O sistema pode prover a entrada ao modelo de aprendizagem de máquina para obter uma saída correspondente. O sistema pode usar a saída correspondente para identificar polímeros biológicos em locais no conjunto, e então atualizar o conjunto para indicar os polímeros biológicos identificados nos locais no conjunto para obter um conjunto atualizado.

Description

Relatório Descritivo da Patente de Invenção para "CON- JUNTO DE POLÍMEROS BIOLÓGICOS HABILITADO POR APREN- DIZAGEM DE MÁQUINA".
[001] O presente pedido de patente reivindica o benefício sob o 35 U.S.C. § 119 para o Pedido de Patente Provisório U.S. nº. de série 62/671.260, intitulado "MODELO DE APRENDIZAGEM PROFUNDA
PARA MELHORAR A VELOCIDADE E PRECISÃO DE CONJUNTO DE GENOMAS", depositado em 14 de maio de 2018, e o Pedido de Patente Provisório U.S. nº de série. 62/671.884, intitulado "MODELO DE APRENDIZAGEM PROFUNDA PARA MELHORAR A VELOCIDA- DE E A PRECISÃO DE CONJUNTO DE GENOMAS", depositado em 15 de maio de 2018, cada um dos quais é incorporado a título referên- cia no presente documento em sua totalidade.
FUNDAMENTOS
[002] A presente invenção refere-se à geração de um conjunto de polímeros biológicos (por exemplo, um conjunto de genomas, uma se- quência de nucleotídeos, ou uma sequência de proteínas) de uma ma- cromolécula (por exemplo, um ácido nucleico ou uma proteína). Os dispositivos de sequenciamento podem gerar dados de sequencia- mento que podem ser usados na geração de um conjunto. Como um exemplo, os dados de sequenciamento podem incluir sequências de nucleotídeos do DNA de uma amostra biológica que podem ser usa- das para montar um genoma (completo ou em parte). Como um outro exemplo, os dados de sequenciamento podem incluir sequências de aminoácidos que podem ser usadas para montar uma sequência de proteína (completa ou em parte).
SUMÁRIO
[003] De acordo com um aspecto, é provido um método de gera- ção de um conjunto de polímeros biológicos de uma macromolécula. O método compreende: o uso de pelo menos um processador de hardware de computador para executar; o acesso a uma pluralidade de sequências de polímeros biológicos e um conjunto que indica os polímeros biológicos presentes nos respectivos locais do conjunto; a geração, ao usar a pluralidade de sequências de polímeros biológicos e o conjunto, de uma primeira entrada a ser provida a um modelo de aprendizagem profunda treinada; a provisão da primeira entrada ao modelo de aprendizagem profunda treinada para obter uma primeira saída correspondente que indica, para cada local de uma primeira plu- ralidade de locais do conjunto, uma ou mais possibilidades de que ca- da um de um ou mais respectivos polímeros biológicos está presente no local; a identificação de polímeros biológicos na primeira pluralida- de de locais do conjunto ao usar a primeira saída do modelo de apren- dizagem profunda treinada; e a atualização do conjunto para indicar os polímeros biológicos identificados na primeira pluralidade de locais do conjunto para obter um conjunto atualizado.
[004] De acordo com uma modalidade, a macromolécula com- preende uma proteína, a pluralidade de sequências de polímeros bio- lógicos compreende uma pluralidade de sequências de aminoácidos, e o conjunto indica os aminoácidos nos respectivos locais do conjunto.
[005] De acordo com uma modalidade, a macromolécula com- preende um ácido nucleico, a pluralidade de sequências de polímeros biológicos compreende uma pluralidade de sequências de nucleotí- deos, e o conjunto indica os nucleotídeos nos respectivos locais do conjunto.
[006] De acordo com uma modalidade, o conjunto indica um pri- meiro nucleotídeo em um primeiro local da primeira pluralidade de lo- cais do conjunto; a identificação dos polímeros biológicos na primeira pluralidade de locais do conjunto compreende a identificação de um segundo nucleotídeo no primeiro local do conjunto; e a atualização do conjunto compreende a atualização do conjunto para indicar o segun-
do nucleotídeo no primeiro local do conjunto.
[007] De acordo com uma modalidade, o método também com- preende, depois de ter atualizado o conjunto para obter o conjunto atualizado: o alinhamento da pluralidade de sequências de nucleotí- deos ao conjunto atualizado; a geração, ao usar a pluralidade de se- quências de nucleotídeos e o conjunto atualizado, de uma segunda entrada a ser provida ao modelo de aprendizagem profunda treinada; a provisão da segunda entrada ao modelo de aprendizagem profunda treinada para obter uma segunda saída correspondente que indica, para cada local de um segunda pluralidade locais do conjunto, uma ou mais possibilidades de que cada um de um ou mais respectivos nucle- otídeos está presente no local; a identificação de nucleotídeos na se- gunda pluralidade de locais do conjunto com base na segunda saída do modelo de aprendizagem profunda treinada; e a atualização do conjunto atualizado para indicar os nucleotídeos identificados na se- gunda pluralidade de locais do conjunto para obter um segundo con- junto atualizado.
[008] De acordo com uma modalidade, o método também com- preende o alinhamento da pluralidade de sequências de nucleotídeos ao conjunto. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 5 sequências de nucleotídeos. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 9 sequências de nucleotídeos. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 10 sequências de nucleotídeos.
[009] De acordo com uma modalidade, a geração da primeira en- trada ao modelo de aprendizagem profunda treinada compreende: a seleção da primeira pluralidade de locais do conjunto; e a geração da primeira entrada com base na primeira pluralidade selecionada de lo-
cais do conjunto. De acordo com uma modalidade, a seleção da pri- meira pluralidade de locais do conjunto compreende: a determinação das possibilidades de que o conjunto indica incorretamente os nucleo- tídeos na primeira pluralidade de locais do conjunto; e a seleção da primeira pluralidade de locais do conjunto ao usar as possibilidades determinadas.
[0010] De acordo com uma modalidade, a geração da primeira en- trada a ser provida ao modelo de aprendizagem profunda treinada compreende a comparação das respectivas sequências da pluralidade de sequências de nucleotídeos ao conjunto. De acordo com uma mo- dalidade, a geração da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada para identificar um nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto com- preende: para cada um de múltiplos nucleotídeos em cada um de um ou mais locais do conjunto em uma vizinhança do primeiro local do conjunto: a determinação de uma contagem que indica um número da pluralidade de sequências de nucleotídeos que indicam que o nucleo- tídeo está no local; a determinação de um valor de referência com ba- se no fato se o conjunto indica o nucleotídeo no local; a determinação de um valor de erro que indica uma diferença entre a contagem e o valor de referência; e a inclusão do valor de referência e do valor de erro na primeira entrada.
[0011] De acordo com uma modalidade, a determinação do valor de referência com base no fato se o conjunto indica o nucleotídeo no local compreende: a determinação do valor de referência como um primeiro valor quando o conjunto indica o nucleotídeo no local; e a de- terminação do valor de referência como um segundo valor quando o conjunto não indica o nucleotídeo no local. De acordo com uma moda- lidade, o primeiro valor é um número da pluralidade de sequências de nucleotídeos; e o segundo valor é 0.
[0012] De acordo com uma modalidade, a geração da primeira en- trada a ser provida ao modelo de aprendizagem profunda treinada compreende o arranjo dos valores em uma estrutura de dados que tem colunas, em que: uma primeira coluna contém os valores de referência e os valores de erro determinados para os múltiplos nucleotídeos no primeiro local do conjunto; e uma segunda coluna contém os valores de referência e os valores de erro determinados para os múltiplos nu- cleotídeos em um segundo local de um ou mais locais do conjunto na vizinhança do primeiro local do conjunto. De acordo com uma modali- dade, um ou mais locais do conjunto na vizinhança do primeiro local do conjunto compreendem pelo menos dois locais do conjunto separa- dos do primeiro local do conjunto.
[0013] De acordo com uma modalidade, uma ou mais possibilida- des de que cada um de um ou mais respectivos polímeros biológicos está presente no local do conjunto compreende, para cada um de múl- tiplos nucleotídeos, uma possibilidade de que o nucleotídeo está pre- sente no local do conjunto; e a identificação de polímeros biológicos na primeira pluralidade de locais do conjunto compreende a identificação de um nucleotídeo em um primeiro local da primeira pluralidade de lo- cais do conjunto para ser um primeiro dos múltiplos nucleotídeos ao determinar que uma possibilidade de que o primeiro nucleotídeo está presente no primeiro local é maior do que uma possibilidade de que um segundo nucleotídeo dos múltiplos nucleotídeos está presente no primeiro local do conjunto.
[0014] De acordo com uma modalidade, o método também com- preende a geração do conjunto a partir da pluralidade de sequências de nucleotídeos. De acordo com uma modalidade, a geração do con- junto a partir da pluralidade de sequências de nucleotídeos compreen- de a determinação de uma sequência de consenso a partir da plurali- dade de sequências de nucleotídeos como o conjunto. De acordo com uma modalidade, a geração do conjunto a partir da pluralidade de se- quências de nucleotídeos compreende a aplicação de um algoritmo de consenso de arranjo de sobreposição (OLC) à pluralidade de sequên- cias de nucleotídeos.
[0015] De acordo com uma modalidade, o método também com- preende: o acesso a dados de treinamento que incluem as sequências de polímeros biológicos obtidas a partir do sequenciamento de uma macromolécula de referência e um conjunto predeterminado da ma- cromolécula de referência; e o treinamento de um modelo de aprendi- zagem profunda ao usar os dados de treinamento para obter o modelo de aprendizagem profunda treinada. De acordo com uma modalidade, a macromolécula de referência é diferente da macromolécula. De acordo com uma modalidade, o modelo de aprendizagem profunda compreende uma rede neural convolucional (CNN).
[0016] De acordo com um outro aspecto, é provido um sistema para a geração de um conjunto de polímeros biológicos de uma ma- cromolécula. O sistema compreende: pelo menos um processador de hardware de computador; e pelo menos um meio de armazenamento que pode ser lido por computador não transitório que armazena instru- ções que, quando executadas por pelo menos um processador de hardware de computador, fazem com que pelo menos um processador de hardware de computador execute: o acesso a uma pluralidade de sequências de polímeros biológicos e um conjunto que indica os polí- meros biológicos presentes nos respectivos locais do conjunto; a gera- ção, ao usar a pluralidade de sequências de polímeros biológicos e o conjunto, de uma primeira entrada a ser provida a um modelo de aprendizagem profunda treinada; a provisão da primeira entrada ao modelo de aprendizagem profunda treinada para obter uma primeira saída correspondente que indica, para cada local de uma primeira plu- ralidade locais do conjunto, uma ou mais possibilidades de que cada um de um ou mais respectivos polímeros biológicos está presente no local; a identificação de polímeros biológicos na primeira pluralidade de locais do conjunto ao usar a primeira saída do modelo de aprendi- zagem profunda treinada; e a atualização do conjunto para indicar os polímeros biológicos identificados na primeira pluralidade de locais do conjunto para obter um conjunto atualizado.
[0017] De acordo com uma modalidade, a macromolécula com- preende uma proteína, a pluralidade de sequências de polímeros bio- lógicos compreende uma pluralidade de sequências de aminoácidos, e o conjunto indica os aminoácidos nos respectivos locais do conjunto.
[0018] De acordo com uma modalidade, a macromolécula com- preende um ácido nucleico, a pluralidade de sequências de polímeros biológicos compreende uma pluralidade de sequências de nucleotí- deos, e o conjunto indica os nucleotídeos nos respectivos locais do conjunto.
[0019] De acordo com uma modalidade, o conjunto indica um pri- meiro nucleotídeo em um primeiro local da primeira pluralidade de lo- cais do conjunto; a identificação dos polímeros biológicos na primeira pluralidade de locais do conjunto compreende a identificação de um segundo nucleotídeo no primeiro local do conjunto; e a atualização do conjunto compreende a atualização do conjunto para indicar o segun- do nucleotídeo no primeiro local do conjunto.
[0020] De acordo com uma modalidade, as instruções também fa- zem com que pelo menos um processador de hardware de computa- dor execute, depois de ter atualizado o conjunto para obter o conjunto atualizado: o alinhamento da pluralidade de sequências de nucleotí- deos ao conjunto atualizado; a geração, ao usar a pluralidade de se- quências de nucleotídeos e o conjunto atualizado, de uma segunda entrada a ser provida ao modelo de aprendizagem profunda treinada; a provisão da segunda entrada ao modelo de aprendizagem profunda treinada para obter uma segunda saída correspondente que indica, para cada local de um segunda pluralidade locais do conjunto, uma ou mais possibilidades de que cada um de um ou mais respectivos nucle- otídeos está presente no local; a identificação de nucleotídeos na se- gunda pluralidade das locais do conjunto com base na segunda saída do modelo de aprendizagem profunda treinada; e a atualização do conjunto atualizado para indicar os nucleotídeos identificados na se- gunda pluralidade de locais do conjunto para obter um segundo con- junto atualizado.
[0021] De acordo com uma modalidade, as instruções também fa- zem com que pelo menos um processador de hardware de computa- dor execute o alinhamento da pluralidade de sequências de nucleotí- deo ao conjunto. De acordo com uma modalidade, a pluralidade de sequências de nucleotídeos compreende pelo menos 5 sequências de nucleotídeos. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 9 sequências de nucleotídeos. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 10 sequências de nucleotídeos.
[0022] De acordo com uma modalidade, a geração da primeira en- trada ao modelo de aprendizagem profunda treinada compreende: a seleção da primeira pluralidade de locais do conjunto; e a geração da primeira entrada com base na primeira pluralidade selecionada de lo- cais do conjunto. De acordo com uma modalidade, a seleção da pri- meira pluralidade de locais no conjunto compreende: a determinação de possibilidades de que o conjunto indica incorretamente os nucleotí- deos na primeira pluralidade de locais do conjunto; e a seleção da pri- meira pluralidade de locais do conjunto ao usar as possibilidades de- terminadas.
[0023] De acordo com uma modalidade, a geração da primeira en-
trada a ser provida ao modelo de aprendizagem profunda treinada compreende a comparação das respectivas sequências da pluralidade de sequências de nucleotídeos ao conjunto.
De acordo com uma mo- dalidade, a geração da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada para identificar um nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto com- preende: para cada um de múltiplos nucleotídeos em cada um de um ou mais local do conjunto em uma vizinhança do primeiro local do con- junto: a determinação de uma contagem que indica um número da plu- ralidade das sequências de nucleotídeos que indicam que o nucleotí- deo está no local; a determinação de um valor de referência com base no fato se o conjunto indica o nucleotídeo no local; a determinação de um valor de erro que indica uma diferença entre a contagem e o valor de referência; e a inclusão do valor de referência e do valor de erro na primeira entrada.
De acordo com uma modalidade, a determinação do valor de referência com base no fato se o conjunto indica o nucleotí- deo no local compreende: a determinação do valor de referência como um primeiro valor quando o conjunto indica o nucleotídeo no local; e a determinação do valor de referência como um segundo valor quando o conjunto não indica o nucleotídeo no local.
De acordo com uma moda- lidade, o primeiro valor é um número da pluralidade de sequências de nucleotídeos; e o segundo valor é 0. De acordo com uma modalidade, a geração da primeira entrada a ser provida ao modelo de aprendiza- gem profunda treinada compreende o arranjo dos valores em uma es- trutura de dados que tem colunas, em que: uma primeira coluna con- tém os valores de referência e os valores de erro determinados para os múltiplos nucleotídeos no primeiro local do conjunto; e uma segun- da coluna contém os valores de referência e os valores de erro deter- minados para os múltiplos nucleotídeos em um segundo local de um ou mais locais do conjunto na vizinhança do primeiro local do conjunto.
De acordo com uma modalidade, um ou mais locais do conjunto na vizinhança do primeiro local do conjunto compreendem pelo menos dois locais do conjunto separados do primeiro local do conjunto.
[0024] De acordo com uma modalidade, uma ou mais possibilida- des de que cada um de um ou mais respectivos polímeros biológicos está presente no local do conjunto compreende, para cada um de múl- tiplos nucleotídeos, uma possibilidade de que o nucleotídeo está pre- sente no local do conjunto; e a identificação de polímeros biológicos na primeira pluralidade de locais do conjunto compreende a identificação de um nucleotídeo em um primeiro local da primeira pluralidade de lo- cais do conjunto como um primeiro dos múltiplos nucleotídeos ao de- terminar que uma possibilidade de que o primeiro nucleotídeo está presente no primeiro local é maior do que uma possibilidade de que um segundo dos múltiplos nucleotídeos está presente no primeiro local do conjunto.
[0025] De acordo com uma modalidade, as instruções também fa- zem com que pelo menos um processador de hardware de computa- dor execute a geração do conjunto da pluralidade de sequências de nucleotídeos. De acordo com uma modalidade, a geração do conjunto de pluralidade de sequências de nucleotídeos compreende a determi- nação de uma sequência de consenso a partir da pluralidade de se- quências de nucleotídeos como o conjunto. De acordo com uma mo- dalidade, a geração do conjunto da pluralidade de sequências de nu- cleotídeos compreende a aplicação de um algoritmo de consenso de arranjo de sobreposição (OLC) à pluralidade de sequências de nucleo- tídeos.
[0026] De acordo com uma modalidade, as instruções também fa- zem com que pelo menos um processador de hardware de computa- dor execute: o acesso aos dados de treinamento que incluem as se- quências de polímeros biológicos obtidas a partir do sequenciamento de uma macromolécula de referência e um conjunto predeterminado de macromoléculas de referência; e o treinamento de um modelo de aprendizagem profunda ao usar os dados de treinamento para obter o modelo de aprendizagem profunda treinada. De acordo com uma mo- dalidade, a macromolécula de referência é diferente da macromolécu- la. De acordo com uma modalidade, o modelo de aprendizagem pro- funda compreende uma rede neural convolucional (CNN).
[0027] De acordo com um outro aspecto, é provido um meio de armazenamento que pode ser lido por computador não transitório. O meio de armazenamento que pode ser lido por computador não transi- tório armazena instruções que, quando executadas pelo menos por um processador de hardware de computador, fazem com que pelo menos um processador de hardware de computador execute um método de geração de um conjunto de polímeros biológicos de uma macromolé- cula. O método compreende: o acesso a uma pluralidade de sequên- cias de polímeros biológicos e um conjunto que indica os polímeros biológicos presentes nos respectivos locais do conjunto; a geração, ao usar a pluralidade de sequências de polímeros biológicos e o conjunto, de uma primeira entrada a ser provida a um modelo de aprendizagem profunda treinada; a provisão da primeira entrada ao modelo de aprendizagem profunda treinada para obter uma primeira saída cor- respondente que indica, para cada local de uma primeira pluralidade de locais do conjunto, uma ou mais possibilidades de que cada um de um ou mais respectivos polímeros biológicos está presente no local; a identificação de polímeros biológicos na primeira pluralidade de locais do conjunto ao usar a primeira saída do modelo de aprendizagem pro- funda treinada; e a atualização do conjunto para indicar os polímeros biológicos identificados na primeira pluralidade de locais do conjunto para obter um conjunto atualizado.
[0028] De acordo com uma modalidade, a macromolécula com-
preende uma proteína, a pluralidade de sequências de polímeros bio- lógicos compreende uma pluralidade de sequências de aminoácidos, e o conjunto indica os aminoácidos nos respectivos locais do conjunto.
[0029] De acordo com uma modalidade, a macromolécula com- preende um ácido nucleico, a pluralidade de sequências de polímeros biológicos compreende uma pluralidade de sequências de nucleotí- deos, e o conjunto indica os nucleotídeos nos respectivos locais do conjunto.
[0030] De acordo com uma modalidade, o conjunto indica um pri- meiro nucleotídeo em um primeiro local da primeira pluralidade de lo- cais do conjunto; a identificação dos polímeros biológicos na primeira pluralidade de locais do conjunto compreende a identificação de um segundo nucleotídeo no primeiro local do conjunto; e a atualização do conjunto compreende a atualização do conjunto para indicar o segun- do nucleotídeo no primeiro local do conjunto.
[0031] De acordo com uma modalidade, o método também com- preende, depois de ter atualizado o conjunto para obter o conjunto atualizado: o alinhamento da pluralidade de sequências de nucleotí- deos ao conjunto atualizado; a geração, ao usar a pluralidade de se- quências de nucleotídeos e o conjunto atualizado, de uma segunda entrada a ser provida ao modelo de aprendizagem profunda treinada; a provisão da segunda entrada ao modelo de aprendizagem profunda treinada para obter uma segunda saída correspondente que indica, para cada local de um segunda pluralidade locais do conjunto, uma ou mais possibilidades de que cada um de um ou mais respectivos nucle- otídeos está presente no local; a identificação dos nucleotídeos no se- gunda pluralidade das locais do conjunto com base na segunda saída do modelo de aprendizagem profunda treinada; e a atualização do conjunto atualizado para indicar os nucleotídeos identificados na se- gunda pluralidade de locais do conjunto para obter um segundo con-
junto atualizado.
[0032] De acordo com uma modalidade, o método também com- preende o alinhamento da pluralidade de sequências de nucleotídeos ao conjunto. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 5 sequências de nucleotídeos. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 9 sequências de nucleotídeos. De acordo com uma modalidade, a pluralidade de se- quências de nucleotídeos compreende pelo menos 10 sequências de nucleotídeos.
[0033] De acordo com uma modalidade, a geração da primeira en- trada ao modelo de aprendizagem profunda treinada compreende: a seleção da primeira pluralidade de locais do conjunto; e a geração da primeira entrada com base na primeira pluralidade selecionada de lo- cais do conjunto. De acordo com uma modalidade, a seleção da pri- meira pluralidade de locais no conjunto compreende: a determinação das possibilidades de que o conjunto indica incorretamente os nucleo- tídeos na primeira pluralidade de locais do conjunto; e a seleção da primeira pluralidade de locais do conjunto ao usar as possibilidades determinadas.
[0034] De acordo com uma modalidade, a geração da primeira en- trada a ser provida ao modelo de aprendizagem profunda treinada compreende a comparação dos respectivos da pluralidade de sequên- cias de nucleotídeos ao conjunto. De acordo com uma modalidade, a geração da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada para identificar um nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto compreende: para cada um de múltiplos nucleotídeos em cada um de um ou mais locais do conjunto em uma vizinhança do primeiro local do conjunto: a determi- nação de uma contagem que indica um número da pluralidade de se-
quências de nucleotídeos que indicam que o nucleotídeo está no local; a determinação de um valor de referência com base no fato se o con- junto indica o nucleotídeo no local; a determinação de um valor de erro que indica uma diferença entre a contagem e o valor de referência; e a inclusão do valor de referência e do valor de erro na primeira entrada. De acordo com uma modalidade, a determinação do valor de referên- cia com base no fato se o conjunto indica o nucleotídeo no local com- preende: a determinação do valor de referência como um primeiro va- lor quando o conjunto indica o nucleotídeo no local; e a determinação do valor de referência como um segundo valor quando o conjunto não indica o nucleotídeo no local. De acordo com uma modalidade, o pri- meiro valor é um número da pluralidade de sequências de nucleotí- deos; e o segundo valor é 0. De acordo com uma modalidade, a gera- ção da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada compreende o arranjo dos valores em uma estrutura de dados que tem colunas, em que: uma primeira coluna contém os valores de referência e os valores de erro determinados para os múlti- plos nucleotídeos no primeiro local do conjunto; e uma segunda coluna contém os valores de referência e os valores de erro determinados pa- ra os múltiplos nucleotídeos em um segundo local de um ou mais lo- cais do conjunto na vizinhança do primeiro local do conjunto. De acor- do com uma modalidade, um ou mais locais do conjunto na vizinhança do primeiro local do conjunto compreendem pelo menos dois locais do conjunto separados do primeiro local do conjunto.
[0035] De acordo com uma modalidade, uma ou mais possibilida- des de que cada um de um ou mais respectivos polímeros biológicos está presente no local do conjunto compreende, para cada um de múl- tiplos nucleotídeos, uma possibilidade de que o nucleotídeo está pre- sente no local do conjunto; e a identificação de polímeros biológicos na primeira pluralidade de locais do conjunto compreende a identificação de um nucleotídeo em um primeiro local da primeira pluralidade de lo- cais do conjunto como um primeiro dos múltiplos nucleotídeos ao de- terminar que uma possibilidade de que o primeiro nucleotídeo está presente no primeiro local é maior do que uma possibilidade de que um segundo dos múltiplos nucleotídeos está presente no primeiro local do conjunto.
[0036] De acordo com uma modalidade, o método também com- preende a geração do conjunto da pluralidade de sequências de nu- cleotídeos. De acordo com uma modalidade, a geração do conjunto de pluralidade de sequências de nucleotídeos compreende a determina- ção de uma sequência de consenso a partir da pluralidade de sequên- cias de nucleotídeos como o conjunto. De acordo com uma modalida- de, gerar o conjunto da pluralidade de sequências de nucleotídeos compreende a aplicação de um algoritmo de consenso de arranjo de sobreposição (OLC) à pluralidade de sequências de nucleotídeos.
[0037] De acordo com uma modalidade, o método também com- preende: o acesso aos dados de treinamento que incluem as sequên- cias de polímeros biológicos obtidas a partir do sequenciamento de uma macromolécula de referência e um conjunto predeterminado da macromolécula de referência; e o treinamento de um modelo de aprendizagem profunda ao usar os dados do treinamento para obter o modelo de aprendizagem profunda treinada. De acordo com uma mo- dalidade, a macromolécula de referência é diferente da macromolécu- la. De acordo com uma modalidade, o modelo de aprendizagem pro- funda compreende uma rede neural convolucional (CNN).
BREVE DESCRIÇÃO DOS DESENHOS
[0038] Vários aspectos e modalidades do pedido de patente serão descritos com referência às figuras a seguir. Deve ser apreciado que as figuras não estão desenhadas necessariamente em escala. Os itens que aparecem em múltiplas figuras são indicados pelo mesmo número de referência em todas as figuras em que aparecem.
[0039] As FIGURAS 1A-C mostram sistemas em que os aspectos da tecnologia descrita no presente documento podem ser implementa- dos, de acordo com algumas modalidades da tecnologia descrita no presente documento.
[0040] As FIGURAS 2A-D mostram as modalidades de um sistema do conjunto, de acordo com algumas modalidades da tecnologia des- crita no presente documento.
[0041] A FIGURA 3A é um processo exemplificador 300 para o treinamento de um modelo de aprendizagem de máquina para a gera- ção de um conjunto de polímeros biológicos, de acordo com algumas modalidades da tecnologia descrita no presente documento.
[0042] A FIGURA 3B é um processo exemplificador 310 para o uso do modelo de aprendizagem de máquina obtido pelo processo da FIGURA 3A para a geração de um conjunto de polímeros biológicos, de acordo com algumas modalidades da tecnologia descrita no pre- sente documento.
[0043] As FIGURAS 4A-C ilustram um exemplo da geração da en- trada para um modelo de aprendizagem de máquina, de acordo com algumas modalidades da tecnologia descrita no presente documento.
[0044] A FIGURA 5 ilustra um exemplo da atualização de um con- junto de polímeros biológicos, de acordo com algumas modalidades da tecnologia descrita no presente documento.
[0045] A FIGURA 6 ilustra a estrutura de um modelo de rede neu- ral convolucional (CNN) ilustrativa usado na geração de um conjunto de polímeros biológicos, de acordo com algumas modalidades da tec- nologia descrita no presente documento.
[0046] A FIGURA 7 mostra o desempenho de técnicas do conjun- to, implementado de acordo com algumas modalidades da tecnologia descrita no presente documento, em relação às técnicas convencio-
nais.
[0047] A FIGURA 8 é um diagrama de blocos de um dispositivo de computação ilustrativo 800 que pode ser usado na execução de algu- mas modalidades da tecnologia descrita no presente documento.
DESCRIÇÃO DETALHADA
[0048] Uma macromolécula pode ser uma proteína ou um frag- mento de proteína, uma molécula de DNA (de qualquer tipo de DNA) ou fragmento, ou uma molécula de RNA (de qualquer tipo de RNA) ou fragmento. Um polímero biológico pode ser um aminoácido (por exem- plo, quando uma macromolécula é uma proteína ou um fragmento da mesma), ou um nucleotídeo (por exemplo, quando uma macromolécu- la é o DNA, o RNA, ou um fragmento dos mesmos).
[0049] Os autores da presente invenção desenvolveram um siste- ma que utiliza técnicas de aprendizagem de máquina na geração de conjuntos de polímeros biológicos de macromoléculas. Por exemplo, o sistema desenvolvido pelos autores da presente invenção pode ser configurado para empregar técnicas de aprendizagem de máquina pa- ra a geração de um conjunto de genomas do DNA de um organismo. Como um outro exemplo, o sistema desenvolvido pelos autores da presente invenção pode ser configurado para empregar técnicas de aprendizagem de máquina para a geração de uma sequência de ami- noácidos de uma proteína.
[0050] Em algumas modalidades, o sistema pode acessar uma ou mais sequências de polímeros biológicos (por exemplo, geradas por um dispositivo de sequenciamento) e um conjunto inicial gerado a par- tir das sequências. O conjunto pode indicar a presença de polímeros biológicos (por exemplo, nucleotídeos, aminoácidos) nos respectivos locais do conjunto. O sistema pode corrigir erros em indicações de po- límeros biológicos do conjunto inicial mediante: (1) a geração da en- trada a ser provida a um modelo de aprendizagem de máquina ao usar as sequências e o conjunto inicial; (2) a provisão da entrada a um mo- delo de aprendizagem de máquina treinada para obter uma saída cor- respondente; e (3) a atualização do conjunto inicial ao usar a saída obtida a partir do modelo de aprendizagem de máquina para obter um conjunto atualizado. O conjunto atualizado pode ter menos erros em indicações de polímeros biológicos do que o conjunto inicial.
[0051] Em algumas modalidades, um conjunto pode compreender múltiplos locais e indicações de polímeros biológicos (por exemplo, nucleotídeos ou aminoácidos) nos respectivos locais. Como um exem- plo, um conjunto pode ser um conjunto de genomas que indica nucleo- tídeos em locais no genoma de um organismo. Como um outro exem- plo, um conjunto pode ser uma sequência de genes que indica uma sequência de nucleotídeos de uma porção do DNA de um organismo. Como um outro exemplo, um conjunto pode ser uma sequência de aminoácidos de uma proteína (também indicada como uma "sequência de proteínas"). Um polímero biológico pode ser um nucleotídeo, um aminoácido, ou qualquer outro tipo de polímero biológico. Uma se- quência de polímeros biológicos também pode ser indicada no presen- te documento como uma "sequência" ou uma "leitura".
[0052] Algumas técnicas de conjunto de polímeros biológicos con- vencionais podem utilizar a tecnologia de sequenciamento para gerar as sequências de polímeros biológicos de uma macromolécula (por exemplo, DNA, RNA, ou uma proteína), e geram um conjunto de ma- cromoléculas ao usar as sequências geradas. Por exemplo, um dispo- sitivo de sequenciamento pode gerar sequências de nucleotídeos a partir das amostras de um DNA de um organismo, em que as em se- quências podem por sua vez ser usadas na geração de um conjunto de genomas do DNA do organismo. Como um outro exemplo, um dis- positivo de sequenciamento pode gerar sequências de aminoácidos de uma amostra da proteína, em que as sequências podem por sua vez ser usadas para montar uma sequência de aminoácidos mais longa para a proteína. Um dispositivo de computação pode aplicar um algo- ritmo do conjunto às sequências geradas por um dispositivo de se- quenciamento para gerar o conjunto. Por exemplo, o dispositivo de computação pode aplicar o algoritmo do conjunto de consenso de ar- ranjo de sobreposição (OLC) às sequências de nucleotídeos de uma amostra do DNA para gerar o conjunto de genomas de um organismo ou uma porção do mesmo.
[0053] Um tipo de tecnologia de sequenciamento usado na gera- ção de sequências de nucleotídeos a partir de uma amostra de ácido nucleico é o sequenciamento de segunda geração (também conhecido como "sequenciamento de leitura curta") que gera sequências de nu- cleotídeos de menos de 1.000 nucleotídeos (isto é, "leituras curtas"). A tecnologia de sequenciamento avançou agora para o sequenciamento de terceira geração (também conhecido como "sequenciamento de leitura longa") que gera sequências de nucleotídeos de 1.000 ou mais nucleotídeos (isto é, "leitura longa"), e provê porções maiores de um conjunto do que o sequenciamento de segunda geração. No entanto, os autores da presente invenção reconheceram que o sequenciamento de terceira geração é menos preciso do que o sequenciamento de se- gunda e, como resultado, os conjuntos gerados a partir de longas leitu- ras são menos precisos do que aqueles gerados a partir de leituras curtas. Os autores da presente invenção também reconheceram que as técnicas convencionais de correção de erros para melhorar a preci- são do conjunto são computacionalmente caras e demoradas. Por conseguinte, os autores da presente invenção desenvolveram técnicas de aprendizagem de máquina para corrigir erros nos conjuntos que: (1) melhoram a precisão dos conjuntos gerados a partir de sequenciamen- tos de terceira geração; e (2) são mais eficientes do que as técnicas convencionais de correção de erros.
[0054] Algumas modalidades descritas no presente documento são focadas em todas as questões descritas acima que os autores da presente invenção reconheceram com a geração de conjuntos. No en- tanto, deve ser apreciado que nem toda modalidade descrita no pre- sente documento é focada em todas essas questões. Também deve ser apreciado que as modalidades da tecnologia descrita no presente documento podem ser usadas para finalidades além de focar nas questões discutidas acima do conjunto de polímeros biológicos. Como um exemplo, as modalidades da tecnologia descrita no presente do- cumento podem ser usadas para melhorar a precisão das sequências de proteína geradas a partir de sequências de aminoácidos. Como um outro exemplo, as modalidades da tecnologia descrita no presente do- cumento podem ser usadas para melhorar a precisão dos conjuntos gerados a partir de leituras curtas.
[0055] Em algumas modalidades, o sistema pode ser configurado para: (1) acessar um conjunto (por exemplo, gerado a partir de uma pluralidade de sequências de polímeros biológicos) indicando os polí- meros biológicos presentes nos respectivos locais do conjunto; (2) ge- rar, ao usar a pluralidade de sequências de polímeros biológicos e o conjunto, uma primeira entrada a ser provida a um modelo de aprendi- zagem profunda treinada; (3) prover a primeira entrada ao modelo de aprendizagem profunda treinada para obter uma primeira saída cor- respondente que indica, para cada local de uma primeira pluralidade de locais de conjunto, uma ou mais possibilidades (por exemplo, pro- babilidades) de que cada um de um ou mais respectivos polímeros biológicos está presente no local do conjunto; (4) identificar polímeros biológicos na primeira pluralidade de locais do conjunto ao usar a pri- meira saída do modelo de aprendizagem profunda treinada; e (5) atua- lizar o conjunto para indicar os polímeros biológicos identificados na primeira pluralidade de locais do conjunto para obter um conjunto atua-
lizado. Em algumas modalidades, o sistema pode ser configurado para alinhar a pluralidade de sequências de polímeros biológicos ao conjun- to.
[0056] Em algumas modalidades, a macromolécula pode ser uma proteína, a pluralidade da sequência de polímero biológico pode ser uma pluralidade de sequências de aminoácidos, e o conjunto indica os aminoácidos nos respectivos locais do conjunto. Em algumas modali- dades, a macromolécula pode ser um ácido nucleico (por exemplo, DNA, RNA), a pluralidade de sequências biológicas pode consistir em sequências de nucleotídeos, e o conjunto indica os nucleotídeos nos respectivos locais do conjunto.
[0057] Em algumas modalidades, o conjunto indica um primeiro nucleotídeo (por exemplo, adenina) em um primeiro local da pluralida- de de locais do conjunto. A identificação de polímeros biológicos na primeira pluralidade de locais do conjunto compreende a identificação de um segundo nucleotídeo (por exemplo, timina) no primeiro local do conjunto que é diferente do primeiro nucleotídeo; e a atualização do conjunto compreende a atualização do conjunto para indicar o segun- do nucleotídeo (por exemplo, timina) no primeiro local do conjunto.
[0058] Em algumas modalidades, o sistema pode ser configurado para executar múltiplas iterações de atualizações. O sistema pode ser configurado para, depois de ter atualizado o conjunto para obter o con- junto atualizado: (1) alinhar a pluralidade de sequências de nucleotí- deos ao conjunto atualizado; (2) gerar, ao usar a pluralidade de se- quências de nucleotídeos e o conjunto atualizado, uma segunda en- trada a ser provida ao modelo de aprendizagem profunda treinada; (3) prover a segunda entrada ao modelo de aprendizagem profunda trei- nada para obter uma segunda saída correspondente que indica, para cada local de um segunda pluralidade de locais do conjunto, uma ou mais possibilidades (por exemplo, probabilidades) de que cada um de um ou mais respectivos nucleotídeos está presente no local do conjun- to; (4) identificar os nucleotídeos na segunda pluralidade de locais do conjunto com base na segunda saída do modelo de aprendizagem profunda treinada; e (5) atualizar o conjunto atualizado para indicar os nucleotídeos identificados no segunda pluralidade de locais do conjun- to para obter um segundo conjunto atualizado.
[0059] Em algumas modalidades, o sistema pode ser configurado para gerar a primeira entrada ao modelo de aprendizagem profunda treinada mediante: (1) a seleção da primeira pluralidade de locais do conjunto; e (2) a geração da primeira entrada com base na primeira pluralidade selecionado de locais do conjunto. Em algumas modalida- des, o sistema pode ser configurado para selecionar a primeira plurali- dade de locais do conjunto ao: (1) determinar as possibilidades de que o conjunto indica incorretamente os nucleotídeos na primeira plurali- dade de locais do conjunto; e (2) selecionar a primeira pluralidade de locais do conjunto ao usar as possibilidades determinadas.
[0060] Em algumas modalidades, o sistema pode ser configurado para gerar a primeira entrada a ser provida ao modelo de aprendiza- gem profunda treinada ao comparar as respectivas sequências da plu- ralidade de sequências de nucleotídeos ao conjunto (por exemplo, pa- ra determinar os valores de uma ou mais características). Em algumas modalidades, o sistema pode ser configurado para gerar a primeira entrada para identificar um nucleotídeo em um primeiro local da pri- meira pluralidade de locais do conjunto mediante, para cada um de múltiplos nucleotídeos em cada local de um ou mais locais do conjunto em uma vizinhança do primeiro local do conjunto: (1) a determinação de uma contagem que indica um número da pluralidade das sequên- cias de nucleotídeos que indicam que o nucleotídeo está no local do conjunto; (2) a determinação de um valor de referência com base no fato se o conjunto indica o nucleotídeo no local do conjunto; (3) a de-
terminação de um valor de erro que indica uma diferença entre a con- tagem e o valor de referência; e (4) a inclusão do valor de referência e do valor de erro na primeira entrada. Em algumas modalidades, o sis- tema pode ser configurado para determinar o valor de referência com base no fato se o conjunto indica o nucleotídeo no local do conjunto mediante:(1) a determinação do valor de referência como um primeiro valor (por exemplo, um número da pluralidade de sequências de nu- cleotídeos) quando o conjunto indica o nucleotídeo no local do conjun- to; e (2) a determinação do valor de referência como um segundo valor (por exemplo, 0) quando o conjunto não indica o nucleotídeo no local do conjunto. Em algumas modalidades, o sistema pode ser configura- do para usar uma vizinhança de 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 45 ou 50 locais.
[0061] Em algumas modalidades, o sistema pode ser configurado para gerar a primeira entrada para identificar um nucleotídeo em um primeiro local do conjunto mediante o arranjo de valores em uma es- trutura de dados que tem fileiras/colunas, em que: (1) uma primeira fileira/coluna contém os valores de referência e os valores de erro de- terminados para múltiplos nucleotídeos no primeiro local do conjunto; e (2) uma segundo fileira/coluna contém os valores de referência e os valores de erro determinados para múltiplos nucleotídeos em uma se- gundo local em uma vizinhança do primeiro local do conjunto.
[0062] Em algumas modalidades, uma ou mais possibilidades de que cada um de um ou mais respectivos polímeros biológicos está presente no local do conjunto compreende, para cada um de múltiplos nucleotídeos, uma possibilidade (por exemplo, probabilidade) de que o nucleotídeo está presente no local do conjunto. O sistema pode ser configurado para identificar polímeros biológicos na primeira pluralida- de de locais do conjunto no conjunto mediante a identificação de um nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto como um primeiro dos múltiplos nucleotídeos. O sistema po- de identificar o nucleotídeo no primeiro local do conjunto como um primeiro nucleotídeo ao determinar que uma possibilidade de que o primeiro nucleotídeo está presente no primeiro local do conjunto é maior do que uma possibilidade de que um segundo nucleotídeo de múltiplos nucleotídeos está presente no primeiro local do conjunto.
[0063] Em algumas modalidades, o sistema pode ser configurado para gerar o conjunto (por exemplo, um conjunto inicial) a partir da plu- ralidade de sequências de nucleotídeos. Em algumas modalidades, o sistema pode ser configurado para gerar o conjunto mediante a deter- minação de uma sequência de consenso a partir da pluralidade de se- quências de nucleotídeos (por exemplo, ao tomar voto da maioria) co- mo o conjunto. Em algumas modalidades, o sistema pode ser configu- rado para gerar o conjunto a partir da pluralidade de sequências de nucleotídeos mediante a aplicação de um algoritmo de consenso de arranjo de sobreposição (OLC) à pluralidade de sequências de nucleo- tídeos. Em algumas modalidades, o sistema pode ser configurado pa- ra: (1) acessar os dados de treinamento que incluem as sequências de polímeros biológicos obtidas a partir do sequenciamento de uma ma- cromolécula de referência e um conjunto biológico predeterminado do polímero da macromolécula de referência; e (2) treinar um modelo de aprendizagem profunda (por exemplo, uma rede neural convolucional ou uma rede neural recorrente) ao usar os dados do treinamento para obter o modelo de aprendizagem profunda treinada. Em algumas mo- dalidades, uma macromolécula de referência usada para treinar o mo- delo de aprendizagem profunda pode ser diferente da macromolécula para a qual o conjunto está sendo gerado.
[0064] Deve ser apreciado que as técnicas apresentadas acima e discutidas em mais detalhes a seguir podem ser implementadas em qualquer uma de numerosas maneiras, uma vez que as técnicas não são limitadas a nenhuma maneira particular de implementação. Os exemplos dos detalhes de implementação são fornecidos no presente documento unicamente para finalidades de ilustração. Além disso, as técnicas divulgadas no presente documento podem ser usadas indivi- dualmente ou em qualquer combinação apropriada, uma vez que os aspectos da tecnologia descrita no presente documento não são limi- tados ao uso de nenhuma técnica particular ou à combinação das téc- nicas.
[0065] A FIGURA 1A mostra um sistema 100 em que os aspectos da tecnologia descrita no presente documento podem ser implementa- dos. O sistema 100 inclui um ou mais dispositivos de sequenciamento 102, um sistema do conjunto 104, um sistema de treinamento de mo- delo 106, e um armazenamento de dados 108A, cada um dos quais é conectado a uma rede 111.
[0066] Em algumas modalidades, o(s) dispositivo(s) de sequenci- amento 102 pode ser configurado para gerar dados de sequenciamen- to mediante o sequenciamento de um ou mais espécimes de amostra 110 de uma macromolécula. Por exemplo, o(s) espécime(s) de amos- tra 110 pode(m) consistir em uma amostra biológica que contêm áci- dos nucleicos (por exemplo, DNA e/ou RNA), ou uma proteína (por exemplo, um peptídeo). Os dados de sequenciamento podem incluir sequências de polímeros biológicos do(s) espécime(s) de amostra
110. Uma sequência de polímeros biológicos pode ser representada como uma sequência de símbolos alfanuméricos que indicam uma or- dem e uma posição dos polímeros biológicos presentes na amostra de macromolécula. Em algumas modalidades, as sequências de políme- ros biológicos podem ser sequências de nucleotídeos geradas a partir do sequenciamento da amostra biológica. Como um exemplo, uma se- quência de nucleotídeos pode usar: (1) "A" para representar a adeni- na; (2) "C" para representar a citosina; (3) "G" para representar a gua-
nina; (4) "T" para representar a timina; (5) "U" para representar a uraci- la; e (6) "-" para indicar que nenhum nucleotídeo está presente em um local na sequência. Em algumas modalidades, as sequências de polí- meros biológicos podem ser sequências de aminoácidos geradas a partir do sequenciamento de uma amostra da proteína (por exemplo, um peptídeo). Como um exemplo, uma sequência de aminoácidos po- de ser uma sequência alfanumérica ao usar caracteres alfanuméricos diferentes para representar os respectivos aminoácidos diferentes que podem estar presentes em uma proteína.
[0067] Em algumas modalidades, o(s) dispositivo(s) de sequenci- amento 102 pode(m) ser configurado(s) para gerar sequências de nu- cleotídeos a partir do sequenciamento de uma amostra de ácido nu- cleico (por exemplo, amostra de DNA). Em algumas modalidades, o(s) dispositivo(s) de sequenciamento 102 pode(m) ser configurado(s) para o sequenciamento a amostra de ácido nucleico por meio de síntese. O(s) dispositivo(s) de sequenciamento 102 pode ser configurado para identificar nucleotídeos quando os nucleotídeos são incorporados em um cordão recentemente sintetizado de um ácido nucleico que é com- plementar ao ácido nucleico que está sendo sequenciado. Durante o sequenciamento, uma enzima de polimerização (por exemplo, polime- rase de DNA) pode acoplar (por exemplo, se prender) a um local de formação de iniciador (indicado como um "iniciador") de uma molécula de ácido nucleico alvo e incorporar nucleotídeos ao iniciador através da ação da enzima de polimerização. O(s) dispositivo(s) de sequenci- amento 102 pode(m) ser configurado(s) para detectar cada nucleotí- deo que está sendo incorporado. Em algumas modalidades, os nucleo- tídeos podem ser associados com as respectivas moléculas lumines- centes (por exemplo, fluoróforos) que emitem luz em resposta à exci- tação. Uma molécula luminescente pode ser excitada quando um nu- cleotídeo respectivo com o qual a molécula luminescente está associ-
ada está sendo incorporado. O(s) dispositivo(s) de sequenciamento 102 pode incluir um ou mais sensores para detectar as emissões de luz. Cada tipo de nucleotídeo pode ser associado com um tipo respec- tivo de molécula luminescente. O(s) dispositivo(s) de sequenciamento 102 pode identificar um nucleotídeo que está sendo incorporado medi- ante a identificação de um tipo de molécula luminescente com base nas emissões de luz detectadas. Por exemplo, o(s) dispositivo(s) de sequenciamento 102 pode(m) usar a intensidade da emissão da luz, o tempo de vida, os comprimentos de onda ou outras propriedades para a diferenciação entre moléculas luminescentes diferentes. Em algumas modalidades, o(s) dispositivo(s) de sequenciamento 102 pode(m) ser configurado(s) para detectar os sinais elétricos gerados durante a in- corporação do nucleotídeo para identificar um nucleotídeo que está sendo incorporado. O(s) dispositivo(s) de sequenciamento 102 po- de(m) incluir um sensor(es) para detectar sinais elétricos, e usa os mesmos para identificar os nucleotídeos que estão sendo incorpora- dos.
[0068] Em algumas modalidades, o(s) dispositivo(s) de sequenci- amento 102 pode(m) ser configurado(s) para o sequenciamento de um ácido nucleico ao usar técnicas diferentes daquelas descritas no pre- sente documento. Algumas modalidades não são limitadas a nenhuma técnica particular de sequenciamento de ácido nucleico descrita no presente documento.
[0069] Em algumas modalidades, o(s) dispositivo(s) de sequenci- amento 102 pode(m) ser configurado(s) para gerar sequências de aminoácidos a partir do sequenciamento de uma amostra de proteína (por exemplo, peptídeo). Em algumas modalidades, o(s) dispositivo(s) de sequenciamento 102 pode(m) ser configurado(s) para o sequenci- amento da amostra da proteína ao usar reagentes que se ligam seleti- vamente aos respectivos aminoácidos. Um reagente pode se ligar se-
letivamente a um ou mais tipos de aminoácidos em relação a outros tipos de aminoácidos. Em algumas modalidades, os reagentes podem ser associados com as respectivas moléculas luminescentes. As mo- léculas luminescentes podem ser excitadas em resposta a uma intera- ção entre um reagente com o qual a molécula luminescente é associa- da e um aminoácido. Em algumas modalidades, o(s) dispositivo(s) de sequenciamento 102 pode(m) ser configurado(s) para identificar ami- noácidos mediante a detecção de emissões de luz de moléculas lumi- nescentes. O(s) dispositivo(s) de sequenciamento 102 pode(m) incluir um ou mais sensores para detectar as emissões de luz. Em algumas modalidades, cada tipo de aminoácido pode ser associado com um tipo respectivo de molécula luminescente. O(s) dispositivo(s) de se- quenciamento 102 pode(m) identificar um aminoácido mediante a iden- tificação de um tipo de molécula luminescente com base nas emissões de luz detectadas. Como um exemplo, o(s) dispositivo(s) de sequenci- amento 102 pode(m) usar a intensidade da emissão de luz, o tempo de vida, os comprimentos de onda ou as outras propriedades para a diferenciação entre moléculas luminescentes diferentes. Em algumas modalidades, o(s) dispositivo(s) de sequenciamento 102 pode(m) ser configurado(s) para detectar os sinais elétricos gerados durante as in- terações de ligação entre os reagentes e aminoácidos. O(s) dispositi- vo(s) de sequenciamento 102 pode(m) incluir um sensor(es) para de- tectar sinais elétricos, e usa(m) os sinais para identificar os aminoáci- dos envolvidos nas respectivas interações de ligação.
[0070] Em algumas modalidades, o(s) dispositivo(s) de sequenci- amento 102 pode(m) ser configurado(s) para o sequenciamento de uma proteína ao usar as técnicas diferentes daquelas descritas no presente documento. Algumas modalidades não são limitadas a ne- nhuma técnica particular de sequenciamento de proteína descrita no presente documento.
[0071] Tal como ilustrado na modalidade da FIGURA 1A, o(s) dis- positivo(s) de sequenciamento 102 pode(m) ser configurado(s) para transmitir os dados de sequenciamento gerados pelo(s) dispositivo(s) 102 ao armazenamento de dados 108A para o armazenamento. Os dados de sequenciamento podem incluir as sequências geradas a par- tir do sequenciamento de amostras de macromoléculas. Os dados de sequenciamento podem ser usados por um ou mais outros sistemas. Como um exemplo, os dados de sequenciamento podem ser usados pelo sistema do conjunto 104 para gerar um conjunto de uma macro- molécula. Como um outro exemplo, os dados de sequenciamento po- dem ser usados pelo sistema de treinamento de modelo 106 como da- dos de treinamento para treinar um modelo de aprendizagem de má- quina para o uso pelo sistema do conjunto 104. Os usos exemplifica- dores de dados de sequenciamento são descritos no presente docu- mento.
[0072] Em algumas modalidades, o sistema do conjunto 104 pode ser um dispositivo de computação configurado para gerar um conjunto 112 ao usar os dados de sequenciamento gerados pelo(s) dispositi- vo(s) de sequenciamento 102. O sistema do conjunto 104 inclui um modelo de aprendizagem de máquina 104A que o sistema do conjunto 104 usa para gerar um conjunto. Em algumas modalidades, o modelo de aprendizagem de máquina 104A pode ser um modelo de aprendi- zagem de máquina treinado obtido do sistema de treinamento de mo- delo 106. Os exemplos dos modelos da aprendizagem de máquina que podem ser usados pelo sistema do conjunto 104 são descritos no presente documento.
[0073] Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para gerar o conjunto 112 ao atualizar um conjunto inicial. O conjunto inicial pode ser obtido da aplicação de um algoritmo do conjunto convencional aos dados de sequenciamento. Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para gerar o conjunto inicial. O sistema do conjunto 104 pode ser configura- do para gerar o conjunto inicial mediante a aplicação de um algoritmo do conjunto aos dados de sequenciamento obtidos do(s) dispositivo(s) de sequenciamento 102. Como um exemplo, o sistema do conjunto 104 pode aplicar o conjunto de consenso de arranjo de sobreposição (OLC) ou o conjunto De Bruijn Graph (DBG) aos dados de sequencia- mento (por exemplo, sequências de nucleotídeos) do armazenamento de dados 108A para gerar o conjunto inicial. Em algumas modalida- des, o sistema do conjunto 104 pode ser configurado para obter um conjunto inicial gerado por um sistema separado do sistema do conjun- to 104. Como um exemplo, o sistema do conjunto 104 pode receber um conjunto inicial gerado por um dispositivo de computação separado do sistema do conjunto 104 que aplicou um algoritmo do conjunto aos dados de sequenciamento gerados pelo(s) dispositivo(s) de sequenci- amento 102.
[0074] Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para atualizar ou refinar um conjunto (por exemplo, um conjunto inicial obtido a partir da aplicação de um algoritmo do conjun- to) ao usar o modelo de treinamento de máquina treinada 104A. O sis- tema do conjunto 104 pode ser configurado para atualizar o conjunto mediante a correção de um ou mais erros no conjunto e/ou confirmar as indicações de polímeros biológicos no conjunto. Em algumas moda- lidades, o sistema do conjunto 104 pode ser configurado para atualizar o conjunto mediante: (1) a geração de uma entrada ao modelo de aprendizagem de máquina 104A ao usar os dados de sequenciamento dados e um conjunto; (2) a provisão da entrada gerada ao modelo de aprendizagem de máquina 104A para obter uma saída corresponden- te; e (3) a atualização do conjunto ao usar a saída obtida do modelo de aprendizagem de máquina 104A. Em algumas modalidades, a saída do modelo de aprendizagem de máquina 104A pode indicar, para cada um de múltiplos locais no conjunto, uma ou mais possibilidades de que cada um de um ou mais respectivos polímeros biológicos (por exem- plo, nucleotídeos ou aminoácidos) está presente no local no conjunto. Como um exemplo, a saída pode indicar, para cada um dos locais, possibilidades de que os respectivos nucleotídeos estão presentes no local. Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para: (1) identificar polímeros biológicos (por exemplo, nu- cleotídeos ou aminoácidos) em locais do conjunto ao usar a saída ob- tida do modelo de aprendizagem de máquina 104A; e (2) atualizar o conjunto para indicar os polímeros biológicos identificados nos locais para obter o conjunto atualizado. As técnicas exemplificadoras para atualizar um conjunto que usa um modelo de aprendizagem de máqui- na são descritas no presente documento.
[0075] Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para identificar os locais em um conjunto que devem ser atualizados (por exemplo, corrigidos ou confirmados). O sistema do conjunto 104 pode ser configurado para gerar a entrada ao modelo de aprendizagem de máquina 104A ao usar os locais selecionados. Em algumas modalidades, o sistema do conjunto 104 pode ser confi- gurado para identificar os locais que devem ser atualizadas mediante: (1) a determinação de possibilidades de que as indicações de políme- ros biológicos nos respectivos locais do conjunto estão incorretas; e (2) a seleção dos locais que devem ser corrigidos com base nas pos- sibilidades determinadas. Em algumas modalidades, o sistema do con- junto 104 pode ser configurado para determinar os valores numéricos que indicam as possibilidades de que os polímeros biológicos indica- dos nos respectivos locais estão incorretos, e selecionar os locais aa ser atualizados com base nos valores das possibilidades. Como um exemplo, o sistema do conjunto 104 pode selecionar os locais que têm uma possibilidade de estar incorretos que é maior do que um valor li- mite.
[0076] Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para gerar entradas ao modelo de aprendizagem de máquina 104A mediante a determinação de valores de características para os locais em um conjunto. O sistema do conjunto 104 pode ser configurado para determinar os valores de características ao usar o conjunto e as sequências a partir das quais o conjunto foi gerado. As características exemplificadoras são descritas no presente documento. Em algumas modalidades, o sistema do conjunto 104 pode ser confi- gurado para gerar entradas ao modelo de aprendizagem de máquina 104A para cada um de múltiplos locais. Para cada local, o sistema do conjunto 104 pode ser configurado para determinar os valores de ca- racterísticas, e fornece os valores de características como entrada ao modelo de aprendizagem de máquina 104A para obter uma saída cor- respondente. O sistema do conjunto 104 pode ser configurado para usar a saída que corresponde à entrada provida para um local para corrigir um polímero biológico indicado no local, ou confirmar que o polímero biológico indicado no local está correto. Em algumas modali- dades, os múltiplos locais podem ser todos os locais em um conjunto. Em algumas modalidades, os múltiplos locais podem ser um subcon- junto de locais no conjunto.
[0077] Nas modalidades em que um subconjunto de locais é atua- lizado, o sistema do conjunto 104 pode ser configurado para selecio- nar o subconjunto de locais. O sistema do conjunto 104 pode ser con- figurado para selecionar o subconjunto dos locais em um número de maneiras incluindo: (1) a determinação das possibilidades de que o conjunto indica incorretamente os polímeros biológicos em múltiplos locais; e (2) a seleção do subconjunto de múltiplos locais ao usar as possibilidades. Por exemplo, o sistema do conjunto 104 pode:(1) iden-
tificar os locais que têm uma possibilidade de que excedem uma pos- sibilidade limite; e (2) selecionar os locais identificados como sendo o subconjunto de locais.
[0078] Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para gerar uma entrada para um local a ser corrigido ao usar os valores de características determinados em um ou mais locais em uma vizinhança do local. Para um local selecionado, o mo- delo de aprendizagem de máquina 104A pode utilizar a informação do contexto dos locais circunvizinhos no conjunto para gerar uma saída para o local selecionado. Em algumas modalidades, uma vizinhança de um local pode incluir: (1) o local selecionado; e (2) um conjunto de locais que circundam o local selecionado. Como um exemplo, a vizi- nhança pode ser uma janela de locais centradas no local selecionado para o qual o modelo de aprendizagem de máquina 104A deve gerar uma saída. O sistema do conjunto 104 pode usar uma janela de 5 lo- cais, 10 locais, 15 locais, 20 locais, 25 locais, 30 locais, 35 locais, lo- cais, 45 locais e/ou 50 locais.
[0079] Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para executar múltiplas iterações de atualização para gerar o conjunto final 112. Como um exemplo, o sistema do conjunto 104 pode: (1) executar uma primeira iteração em um conjunto inicial para obter um primeiro conjunto atualizado; e (2) executar uma segun- da iteração no primeiro conjunto atualizado para obter um segundo conjunto atualizado. Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para executar atualizações de modo iterati- vo. O sistema do conjunto 104 pode ser configurado para executar ite- rações de atualização até que uma condição seja satisfeita. As condi- ções exemplificadoras são descritas no presente documento.
[0080] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser um dispositivo de computação configurado para acessar os dados armazenados no armazenamento de dados 108A, e usa os dados acessados para treinar um modelo de aprendizagem de máquina para o uso na geração de um conjunto. Em algumas modali- dades, o sistema de treinamento de modelo 106 pode ser configurado para treinar um modelo de aprendizagem de máquina separado para sistemas de conjunto diferentes. Um modelo de aprendizagem de má- quina treinado para um respectivo sistema do conjunto pode ser adap- tado às características singulares do sistema do conjunto. Como um exemplo, o sistema de treinamento de modelo 106 pode ser configura- do para: (1) treinar um primeiro modelo de aprendizagem de máquina para um primeiro sistema do conjunto; e (2) treinar um segundo mode- lo de aprendizagem de máquina para um segundo sistema do conjun- to. Um modelo separado da aprendizagem de máquina para cada um dos sistemas de conjunto pode ser adaptado aos perfis de erro singu- lares dos respectivos sistemas de conjunto. Por exemplo, sistemas de conjunto diferentes podem empregar algoritmos de conjunto diferentes para gerar um conjunto inicial, e o modelo de aprendizagem de máqui- na treinado para cada sistema do conjunto pode ser adaptado a um perfil de erro do algoritmo do conjunto.
[0081] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para prover um único modelo de aprendizagem de máquina treinado a múltiplos sistemas de conjunto. Como um exemplo, o sistema de treinamento de modelo 106 pode agregar os conjuntos de múltiplos sistemas de conjunto, e treinar um único modelo de aprendizagem de máquina. O único modelo de aprendizagem de máquina pode ser normalizado para que múltiplos sistemas de conjunto para mitigar as variações de modelo resultantes da variação nas técnicas de conjunto empregadas pelos sistemas de conjunto. Em algumas modalidades, o sistema de treinamento de mo- delo 106 pode ser configurado para prover um único modelo de apren-
dizagem de máquina treinado para múltiplos dispositivos de sequenci- amento. Como um exemplo, o sistema de treinamento de modelo 106 pode agregar os dados de sequenciamento de múltiplos dispositivos de sequenciamento, e treinar um único modelo de aprendizagem de máquina. O único modelo de aprendizagem de máquina pode ser normalizado para múltiplos dispositivos de sequenciamento para miti- gar as variações de modelo resultantes da variação do dispositivo.
[0082] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para treinar um modelo de aprendi- zagem de máquina ao usar os dados de treinamento que incluem: (1) sequências de polímeros biológicos obtidas do sequenciamento de uma ou mais macromoléculas de referência (por exemplo, DNA, RNA, proteína); e (2) um ou mais conjuntos predeterminados de macromolé- cula(s) de referência. Em algumas modalidades, o sistema de treina- mento de modelo 106 pode ser configurado para usar indicações de polímeros biológicos nos conjuntos predeterminados como etiquetas para o treinamento do modelo de aprendizagem de máquina. As eti- quetas podem representar indicações corretas ou desejadas nos locais do conjunto. Como um exemplo, os dados do treinamento podem in- cluir sequências de nucleotídeos a partir do sequenciamento de amos- tras de DNA de um organismo, e um conjunto de genomas predeter- minado do organismo. Neste exemplo, o sistema de treinamento de modelo 106 pode usar as indicações dos nucleotídeos no conjunto de genomas predeterminado como etiquetas para aplicar um algoritmo de aprendizagem supervisionado aos dados do treinamento.
[0083] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para acessar os dados de treina- mento de bancos de dados externos. Como um exemplo, o sistema de treinamento de modelo 106 pode acessar: (1) os dados de sequenci- amento do banco de dados Pacific Biosciences RS II (Pacbio), e/ou do banco de dados Oxford Nanopore MiniION (ONT); e (2) os conjuntos de genomas predeterminados do National Center for Biotechnology Information (NCBI) de genomas de referência. Como um outro exem- plo, o sistema de treinamento de modelo 106 pode acessar os dados de sequenciamento de proteína e os conjuntos de proteoma associa- dos do banco de dados UnitProt e/ou do banco de dados Human Pro- teome Project (HPP).
[0084] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para treinar o modelo de aprendiza- gem de máquina mediante a aplicação de um algoritmo de treinamento de aprendizagem supervisionado ao usar dados de treinamento eti- quetados. Como um exemplo, o sistema de treinamento de modelo 504 pode treinar um modelo de aprendizagem profunda (por exemplo, uma rede neural) ao usar a descida de gradiente estocástica. Como um outro exemplo, o sistema de treinamento de modelo 106 pode trei- nar uma máquina de vetor de suporte (SVM) para identificar os limites da decisão da SVM mediante a otimização de uma função do custo. Como um exemplo, o sistema de treinamento de modelo 106 pode: (1) gerar entradas ao modelo de aprendizagem de máquina ao usa os da- dos de sequenciamento e um conjunto gerado a partir da aplicação de um algoritmo do conjunto aos dados de sequenciamento; (2) etiquetar as entradas ao usar um conjunto predeterminado da macromolécula (por exemplo, de um banco de dados público); e (3) aplicar um algo- ritmo de treinamento supervisionado às entradas geradas e às etique- tas correspondentes.
[0085] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para treinar o modelo de aprendiza- gem de máquina mediante a aplicação de um algoritmo de aprendiza- gem não supervisionado aos dados de treinamento. Como um exem- plo, o sistema de treinamento de modelo 106 pode identificar aglome-
rados de um modelo de aglomeração mediante a execução de aglo- meração de meios k. Em algumas modalidades, o sistema de treina- mento de modelo 106 pode ser configurado para: (1) gerar entradas ao modelo de aprendizagem de máquina ao usar os dados de sequenci- amento e um conjunto gerado a partir da aplicação de um algoritmo do conjunto aos dados de sequenciamento; e (2) aplicar um algoritmo de aprendizagem não supervisionado às entradas geradas. Como um exemplo, o sistema de treinamento de modelo 106 pode treinar um modelo de aglomeração onde cada conjunto de modelo representa um respectivo nucleotídeo, e a classificação do aglomerado pode indicar um nucleotídeo em um local em um conjunto de genomas ou uma se- quência de genes. Como um outro exemplo, o sistema de treinamento de modelo 106 pode treinar um modelo de aglomeração onde cada conjunto de modelo representa um respectivo aminoácido, e a classifi- cação de aglomerado pode indicar um aminoácido em um local em uma sequência de proteínas.
[0086] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para treinar o modelo de aprendiza- gem de máquina mediante a aplicação de um algoritmo de aprendiza- gem semisupervisionado aos dados de treinamento. Em algumas mo- dalidades, o sistema de treinamento de modelo 106 pode ser configu- rado para aplicar um algoritmo de aprendizagem semisupervisionado aos dados de treinamento mediante: (1) a etiquetagem de um conjunto de dados de treinamento não etiquetados mediante a aplicação de um algoritmo de aprendizagem não supervisionado (por exemplo, aglome- rado) aos dados de treinamento; e (2) a aplicação de um algoritmo de aprendizagem supervisionado aos dados de treinamento etiquetados. Como um exemplo, o sistema de treinamento de modelo 106 pode: (1) gerar entradas ao modelo de aprendizagem de máquina ao usar os dados de sequenciamento e um conjunto gerado a partir da aplicação de um algoritmo do conjunto aos dados de sequenciamento; (2) aplicar um algoritmo de aprendizagem não supervisionado às entradas gera- das para etiquetar as entradas; e (3) aplicar um algoritmo de aprendi- zagem supervisionado aos dados de treinamento etiquetados.
[0087] Em algumas modalidades, o modelo de aprendizagem de máquina pode incluir um modelo de aprendizagem profunda (por exemplo, uma rede neural). Em algumas modalidades, o modelo de aprendizagem profunda pode incluir uma rede neural convolucional (CNN). Em algumas modalidades, o modelo de aprendizagem profun- da pode incluir uma rede neural recorrente (RNN), um perceptron de múltiplas camadas, um autocodificador e/ou um modelo de rede neural equipado com CTC. Em algumas modalidades, o modelo de aprendi- zagem de máquina pode incluir um modelo de aglomeração. Como um exemplo, o modelo de aglomeração pode incluir múltiplos conjuntos, em que cada um dos conjuntos é associado com um polímero biológi- co (por exemplo, nucleotídeos, ou aminoácidos).
[0088] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para treinar um modelo de aprendi- zagem de máquina separado para cada um dos múltiplos dispositivos de sequenciamento. Um modelo de aprendizagem de máquina treina- do para um dispositivo de sequenciamento respectivo pode ser adap- tado às características singulares do dispositivo de sequenciamento. Como um exemplo, o sistema de treinamento de modelo 106 pode: (1) treinar um primeiro modelo de aprendizagem de máquina para um primeiro dispositivo de sequenciamento; e (2) treinar um segundo mo- delo de aprendizagem de máquina para um segundo dispositivo de sequenciamento. Um modelo de aprendizagem de máquina treinado para um dispositivo de sequenciamento respectivo pode ser otimizado para o uso com os dados de sequenciamento gerados pelo dispositivo de sequenciamento. Por exemplo, o modelo de aprendizagem de má-
quina pode ser otimizado para uma tecnologia de sequenciamento par- ticular (por exemplo, sequenciamento de terceira geração) usada pelo dispositivo de sequenciamento.
[0089] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para atualizar periodicamente um modelo previamente treinado de aprendizagem de máquina. Em algu- mas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para atualizar um modelo de treinamento de máquina ao usar novos dados de treinamento. Em algumas modalidades, o siste- ma de treinamento de modelo 106 pode ser configurado para atualizar o modelo de aprendizagem de máquina ao treinar um novo modelo de aprendizagem de máquina ao usar uma combinação de dados de trei- namento obtida previamente e os novos dados de treinamento.
[0090] Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser configurado para atualizar um modelo de apren- dizagem de máquina em resposta a qualquer um de tipos diferentes de eventos. Por exemplo, em algumas modalidades, o sistema de treina- mento de modelo 106 pode ser configurado para atualizar o modelo de aprendizagem de máquina em resposta a um comando do usuário. Como um exemplo, o sistema de treinamento de modelo 106 pode prover uma interface de usuário através da qual o usuário pode co- mandar o desempenho de um processo de treinamento. Em algumas modalidades, o sistema de treinamento de modelo 106 pode ser confi- gurado para atualizar automaticamente o modelo de aprendizagem de máquina (isto é, não em resposta a um comando do usuário), por exemplo, em resposta a um comando de software. Como um outro exemplo, em algumas modalidades, o sistema de treinamento de mo- delo 106 pode ser configurado para atualizar o modelo de aprendiza- gem de máquina em resposta à detecção de uma ou mais condições. Por exemplo, o sistema de treinamento de modelo 106 pode atualizar o modelo de aprendizagem de máquina em resposta à detecção da expiração de um período de tempo. Como um outro exemplo, o siste- ma de treinamento de modelo 106 pode atualizar o modelo de apren- dizagem de máquina em resposta ao recebimento de uma quantidade limite (por exemplo, o número de sequências e/ou conjuntos) de novos dados de treinamento.
[0091] Embora na modalidade exemplificadora ilustrada na FIGU- RA 1A o sistema de treinamento de modelo 106 seja separado do sis- tema do conjunto 104, em algumas modalidades, o sistema de treina- mento de modelo 106 pode fazer parte do sistema do conjunto 104. Embora na modalidade exemplificadora ilustrada na FIGURA 1A o sis- tema do conjunto 104 seja separado do(s) dispositivo(s) de sequenci- amento 102, em algumas modalidades, o sistema do conjunto 104 po- de ser um componente de um dispositivo de sequenciamento. Em al- gumas modalidades, cada um dentre o dispositivo de sequenciamento 102, o sistema de treinamento de modelo 106 e o sistema do conjunto 104 podem ser componentes de um único sistema.
[0092] Em algumas modalidades, o armazenamento de dados 108A pode ser um sistema para armazenar dados. Em algumas moda- lidades, o armazenamento de dados 108A pode incluir um ou mais banco de dados hospedados por uma ou por mais dispositivos de computação (por exemplo, servidores). Em algumas modalidades, o armazenamento de dados 108A pode incluir um ou mais dispositivos de armazenamento físico. Como um exemplo, o(s) dispositivo(s) de armazenamento físico pode(m) incluir um ou mais drives de estado sólido, drives de disco rígido, drive de flash e/ou derives ópticos. Em algumas modalidades, o armazenamento de dados 108A pode incluir um ou mais arquivos que que armazenam dados. Como um exemplo, o armazenamento de dados 108A pode incluir um ou mais arquivos de texto que armazenam dados. Como um outro exemplo, o armazena-
mento de dados 108A pode incluir um ou mais arquivos XML. Em al- gumas modalidades, o armazenamento de dados 108A pode ser o ar- mazenamento (por exemplo, um disco rígido) de um dispositivo de computação. Em algumas modalidades, o armazenamento de dados 108A pode ser um sistema de armazenamento em nuvem.
[0093] Em algumas modalidades, a rede 111 pode ser uma rede sem fio, uma rede fiada, ou qualquer combinação apropriada das mesmas. Como um exemplo, a rede 111 pode ser uma rede de área ampla (WAN), tal como a Internet. Em algumas modalidades, a rede 111 pode ser uma rede de áreo local (LAN). A rede de áreo local pode ser formada por conexões fiadas e/ou sem fio entre o(s) dispositivo(s) de sequenciamento 102, o sistema do conjunto 104, o sistema de trei- namento de modelo 106, e o armazenamento de dados 108A. Algu- mas modalidades não são limitadas a nenhum tipo particular de rede descrito no presente documento.
[0094] A FIGURA 1B mostra um exemplo do sistema 100 quando configurado para gerar um conjunto de genes. Um conjunto de genes pode ser um conjunto de genomas, ou uma sequência de genes. Por exemplo, conjunto emitido 112 pode ser um conjunto de genes. O(s) dispositivo(s) de sequenciamento 102 pode(m) ser configurado(s) para o sequenciamento de uma amostra de ácido nucleico 110 para gerar sequências de nucleotídeos. Como um exemplo, o(s) dispositivo(s) de sequenciamento 102 pode(m) sequenciar uma amostra do DNA de um organismo para gerar as sequências de nucleotídeos. As sequências de nucleotídeos geradas pelo(s) dispositivo(s) de sequenciamento 102 podem ser armazenadas no armazenamento de dados 108B. O siste- ma do conjunto 104 pode ser configurado para usar o modelo de aprendizagem de máquina 104A para gerar o conjunto de genes. Co- mo um exemplo, o sistema do conjunto 104 pode: (1) obter um conjun- to de genes inicial mediante a aplicação de uma técnica de conjunto
(por exemplo, OLC) às sequências de nucleotídeos geradas pelo(s) dispositivo(s) de sequenciamento 102; e (2) atualizar o conjunto de genes inicial ao usar o modelo de aprendizagem de máquina 104A pa- ra obter o conjunto de genes 112.
[0095] A FIGURA 1C mostra um exemplo do sistema 100 quando configurado para gerar uma sequência de proteínas. Por exemplo, o conjunto emitido 112 pode ser uma sequência de proteínas. O(s) dis- positivo(s) de sequenciamento 102 pode(m) ser configurado(s) para o sequenciamento de uma amostra de proteína 110 para gerar sequên- cias de aminoácidos. Como um exemplo, o(s) dispositivo(s) de se- quenciamento 102 pode(m) sequenciar os peptídeos de uma proteína para gerar as sequências de aminoácidos. As sequências de aminoá- cidos geradas pelo(s) dispositivo(s) de sequenciamento 102 podem ser armazenadas no armazenamento de dados 108C. O sistema do conjunto 104 pode ser configurado para usar o modelo de aprendiza- gem de máquina 104A para gerar a sequência de proteínas. Como um exemplo, o sistema de sequenciamento de proteína 104 pode: (1) ob- ter uma sequência de proteínas mediante a aplicação de um algoritmo do conjunto às sequências de aminoácidos geradas pelo(s) dispositi- vo(s) de sequenciamento 102; e (2) atualizar a sequência de proteínas ao usar o modelo de aprendizagem de máquina 104A para obter a se- quência de proteínas.
[0096] A FIGURA 2A mostra um sistema do conjunto 200 para ge- rar um conjunto, de acordo com algumas modalidades da tecnologia descrita no presente documento. O sistema do conjunto 200 pode ser o sistema do conjunto 104 descrito acima com referência às FIGURAS 1A-C. O sistema do conjunto 200 pode ser um dispositivo de computa- ção configurado para gerar um conjunto 204 ao usar os dados de se- quenciamento 202. O sistema do conjunto 200 inclui múltiplos compo- nentes incluindo um gerador de características 200A e um modelo de aprendizagem de máquina 200B. O sistema do conjunto 200C pode incluir opcionalmente um montador 200C.
[0097] Em algumas modalidades, o gerador de características 200A pode ser configurado para determinar os valores de uma ou mais características que podem ser providas como entrada a um modelo de aprendizagem de máquina. O gerador de características 200A pode ser configurado para determinar os valores de características de: (1) dados de sequência 202; e (2) um conjunto (por exemplo, obtido a par- tir da aplicação de um algoritmo do conjunto aos dados de sequência 202). Os dados de sequência 202 podem incluir múltiplas sequências que são usadas pelo algoritmo do conjunto para gerar o conjunto. Em algumas modalidades, o gerador de características 200A pode ser configurado para determinar os valores das características mediante a comparação de cada uma das sequências ao conjunto. Em algumas modalidades, o gerador de características 200A pode ser configurado para alinhar as sequências com uma porção do conjunto. Por exemplo, o gerador de características 200A pode alinhar as sequências com um conjunto de locais no conjunto onde as indicações de polímeros bioló- gicas no conjunto de locais no conjunto foram determinadas a partir das sequências alinhadas. O gerador de características 200A pode ser configurado para determinar os valores das características mediante a comparação das sequências alinhadas aos polímeros biológicos (por exemplo, nucleotídeos, aminoácidos) indicados no conjunto de locais no conjunto. As técnicas exemplificadoras para determinar os valores de características são descritas a seguir com referência às FIGURAS 4A-C.
[0098] Tal como ilustrado na modalidade da FIGURA 2A, o gera- dor de características 200A pode ser configurado para gerar a entrada a ser provida ao modelo de aprendizagem de máquina 200B. Em al- gumas modalidades, o gerador de características 200A pode ser con-
figurado para gerar uma entrada para cada um de múltiplos locais em um conjunto. Em algumas modalidades, o gerador de características 200A pode ser configurado para selecionar os locais, e gerar a entrada ao usar os locais selecionados. Em algumas modalidades, o gerador de características 200A pode ser configurado para selecionar os locais ao determinar as possibilidades de que o conjunto indica incorreta- mente polímeros biológicos nos locais, e ao selecionar os locais ao usar as possibilidades determinadas. Em algumas modalidades, o ge- rador de características 200A pode ser configurado para determinar uma possibilidade de que o conjunto indica incorretamente um políme- ro biológico em um local com base em um número de sequências ali- nhadas com o local que especificam um polímero biológico diferente no local do que um polímero biológico indicado no conjunto. O gerador de características 200A pode ser configurado para gerar uma entrada para o local quando é determinado que a possibilidade excede uma possibilidade limite.
[0099] Em algumas modalidades, o gerador de características 200A pode ser configurado para gerar uma entrada a ser provida ao modelo de aprendizagem de máquina 200B para um local alvo em um conjunto ao usar: (1) um polímero biológico identificado no local alvo; e (2) polímeros biológicos identificados em um ou em mais outros locais em uma vizinhança do local alvo. Em algumas modalidades, o gerador de características 200A pode ser configurado para determinar os valo- res de características no local alvo e em outro(s) local(is) que fica(m) na vizinhança do local alvo. Os valores de características no(s) ou- tro(s) local(is) na vizinhança podem fornecer a informação contextual ao modelo de aprendizagem de máquina 200A para gerar uma saída para o local alvo. Em algumas modalidades, um tamanho da vizinhan- ça pode ser um parâmetro configurável. Por exemplo, o tamanho da vizinhança pode ser especificado por uma entrada do usuário em um aplicativo de software.
[00100] Em algumas modalidades, o gerador de características 200A pode ser configurado para gerar uma entrada como uma janela incluindo os valores de características determinados em locais em uma vizinhança do local alvo. A vizinhança do local alvo pode incluir o local alvo e um ou mais outros locais em uma janela do local alvo. Em algumas modalidades, o tamanho da janela pode ser de 2 locais, 3 lo- cais, 5 locais, 10 locais, 15 locais, 20 locais, 25 locais, 30 locais, 35 locais, 40 locais, 45 locais ou 50 locais. Em algumas modalidades, o gerador de características 200A pode ser configurado para usar locais de um tamanho de vizinhança de 60 locais, 70 locais, 80 locais, 90 locais, ou 100 locais. Em algumas modalidades, a janela pode ser cen- trada no local alvo.
[00101] Em algumas modalidades, o modelo de aprendizagem de máquina 200B pode ser o modelo de aprendizagem de máquina 104A descrito acima com referência às FIGURAS 1A-C. Tal como ilustrado na modalidade da FIGURA 1A, o modelo de aprendizagem de máqui- na 200B pode ser configurado para receber a entrada do gerador de características 200A.O modelo de aprendizagem de máquina 200B pode ser configurado para gerar uma saída que corresponde a uma respectiva entrada provida pelo gerador de características 200A. O modelo de aprendizagem de máquina 200B pode ser configurado para gerar uma saída que é usada pelo sistema do conjunto 200 para iden- tificar polímeros biológicos (por exemplo, nucleotídeos ou aminoáci- dos) em locais no conjunto. Em algumas modalidades, o modelo de aprendizagem de máquina 200B pode ser configurado para emitir, pa- ra um local, as possibilidades de que cada um de múltiplos polímeros biológicos está presente no local. Como um exemplo, o modelo de aprendizagem de máquina 200B pode emitir, para cada um de múlti- plos nucleotídeos, uma possibilidade de que o nucleotídeo está pre-
sente no local. Como um outro exemplo, o modelo de aprendizagem de máquina 200B pode emitir, para cada um de múltiplos aminoácidos, uma possibilidade de que o aminoácido está presente no local. Em al- gumas modalidades, o sistema do conjunto 200 pode ser configurado para identificar um polímero biológico em um local no conjunto como um polímero biológico que tem a possibilidade maior de estar presente no local dos polímeros biológicos tal como indicado pela saída do mo- delo de aprendizagem de máquina 200B. Como um exemplo, o siste- ma do conjunto 200 pode selecionar, entre múltiplos nucleotídeos, aquele que tem a possibilidade maior de estar presente no local. Como um outro exemplo, o sistema do conjunto 200 pode selecionar, entre múltiplos aminoácidos, aquele que tem a possibilidade maior de estar presente no local.
[00102] Em algumas modalidades, o sistema do conjunto 200 pode ser configurado para usar a saída obtida do modelo de aprendizagem de máquina 200B para gerar o conjunto de saída 204. O sistema do conjunto 200 pode ser configurado para atualizar o conjunto ao usar os polímeros biológicos identificados em locais no conjunto de saída obti- dos a partir do modelo de aprendizagem de máquina 200B. O sistema do conjunto 200 pode ser configurado para atualizar o conjunto para indicar os polímeros biológicos identificados nos locais no conjunto pa- ra obter o conjunto de saída 204. Como um exemplo, um conjunto po- de indicar a adenina em um primeiro local no conjunto e a guanina em um segundo local no conjunto. Neste exemplo, o sistema do conjunto 200 pode: (1) identificar um nucleotídeo no primeiro local como timina, e um nucleotídeo no segundo local como guanina ao usar uma saída obtida do modelo de aprendizagem de máquina 200B; e (2) atualizar o primeiro local no conjunto para indicar a timina, e deixar o nucleotídeo indicado no segundo local inalterado para gerar o conjunto de saída
204. Tal como ilustrado pelo exemplo acima, o sistema do conjunto
200 pode modificar indicações de polímeros biológicos no(s) local(is) no conjunto ao usar a saída obtida a partir do modelo de aprendiza- gem de máquina 200B enquanto deixa inalteradas as indicações de polímeros biológicos no(s) outro(s) local(is). Por exemplo, o sistema do conjunto 200 pode determinar que um polímero biológico identificado em um local no conjunto combina com um polímero biológico indicado no conjunto e deixar inalterada a indicação no local no conjunto atuali- zado.
[00103] Tal como mostrado na modalidade da FIGURA 1A, o mon- tador 200C pode ser configurado para prover um conjunto ao gerador de características 200A. Em algumas modalidades, o montador 200C pode ser configurado para gerar um conjunto a ser provido ao gerador de características 200A mediante a aplicação de um algoritmo do con- junto aos dados da sequência 202 (por exemplo, recebido do sequen- ciamento de uma amostra de macromolécula). Como um exemplo, o montador 200C pode ser configurado para aplicar um algoritmo do conjunto às sequências de nucleotídeos incluídas nos dados da se- quência 202 para gerar o conjunto. O conjunto pode então ser provido ao gerador de características 200A para gerar a entrada a ser provida ao modelo de aprendizagem de máquina 200B para obter a saída para identificar os polímeros biológicos em locais no conjunto. O conjunto gerado pelo montador 200C pode ser atualizado pelo sistema do con- junto 200 ao usar a saída obtida a partir do modelo de aprendizagem de máquina 200B para gerar o conjunto de saída 204.
[00104] Em algumas modalidades, o montador 200C pode ser con- figurado para aplicar um algoritmo de consenso de arranjo de sobre- posição (OLC) às sequências de nucleotídeos incluídas nos dados da sequência 202 para gerar um conjunto. Um dispositivo de sequencia- mento pode sequenciar múltiplas cópias de uma amostra biológica in- cluindo ácido(s) nucleico(s). Como resultado, os dados da sequência
202 podem incluir, para cada porção (por exemplo, conjunto de locais) de um conjunto, múltiplas sequências que se alinham à porção do con- junto. Um número médio de sequências que cobrem um local no con- junto pode ser indicado como "cobertura" das sequências. O montador 200C pode ser configurado para aplicar o algoritmo de OLC às se- quências mediante: (1) a geração de um gráfico de sobreposição ba- seado em regiões de sobreposição das sequências; (2) o uso do gráfi- co de sobreposição para gerar um sequenciamento (também indicado como "contigs") que se alinham com as respectivas porções de um conjunto; e (3) para cada conjunto de sequências que se alinham a uma porção do conjunto, a tomada de um consenso das sequências no conjunto para gerar a porção do conjunto.
[00105] Em algumas modalidades, o montador 200C pode ser con- figurado para identificar as sequências que têm regiões de sobreposi- ção mediante a comparação de pares de sequências para determinar se elas incluem uma ou mais subsequências idênticas de polímeros biológicos (por exemplo, nucleotídeos). Em algumas modalidades, o montador 200C pode ser configurado para: (1) identificar pares de se- quências que compartilham de subsequência(s) idêntica(s) de pelo menos um número limite (por exemplo, 3, 4, 5, 6, 8, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500) de nucleotídeos como se- quências sobrepostas; (2) determinar o comprimento (isto é, número de nucleotídeos) de cada região de sobreposição; e (3) gerar um gráfi- co de sobreposição baseado nas sequências sobrepostas e nos com- primentos identificados das regiões de sobreposição. O gráfico de so- breposição pode incluir sequências como vértices e bordas que conec- tam com os respectivos pares de sequências que se sobrepõem. Os comprimentos determinados podem ser usados como etiquetas das bordas no gráfico de sobreposição.
[00106] Em algumas modalidades, o montador 200C pode ser con-
figurado para gerar uma disposição de conjuntos de sequências ali- nhados com as respectivas porções de um conjunto ao concatenar as sequências que usam em conjunto um gráfico de sobreposição. O montador 200C pode ser configurado para encontrar passagens atra- vés do gráfico de sobreposição para concatenar as sequências. Como um exemplo, o montador 200C pode concatenar um conjunto de ca- racteres alfanuméricos que representam nucleotídeos para obter as sequências concatenadas. Em algumas modalidades, o montador 200C pode aplicar um algoritmo ávido ao gráfico de sobreposição para identificar as sequências concatenadas. Como um exemplo, o monta- dor 200C pode aplicar um algoritmo ávido para identificar uma super- cadeia comum mais curta como sequências concatenadas.
[00107] Em algumas modalidades, o montador 200C pode ser con- figurado para usar as sequências da disposição para gerar o conjunto. Em algumas modalidades, o montador 200C pode identificar múltiplos conjuntos de sequências da disposição, onde cada conjunto alinha com uma porção do conjunto. O montador 200C pode ser configurado para gerar a porção do conjunto ao tomar um consenso das sequên- cias da disposição que alinham com a porção do conjunto. Em algu- mas modalidades, o montador 200C pode ser configurado para tomar um consenso ao determinar um polímero biológico (por exemplo, um nucleotídeo) em um local na porção do conjunto como um polímero biológico que a maior parte das sequências alinhadas à porção do conjunto indica que está no local. Como um exemplo, o montador 200C pode gerar um gráfico de sobreposição das sequências de nu- cleotídeos, e identificar quatro sequências de nucleotídeos "TAGA", "TAGA", "TAGT", "TAGA" e "TAGC" que correspondem a um conjunto de quatro locais em um conjunto. Neste exemplo, o montador 200C pode determinar um consenso entre as quatro sequências de nucleotí- deos como "TAGA" uma vez que todas as quatro das sequências de nucleotídeos indicam os primeiros três locais como "TAG", e a maior parte das sequências de nucleotídeos indica o quarto local como "A."
[00108] Em algumas modalidades, o sistema do conjunto 200 pode ser configurado para executar uma etapa de consenso do algoritmo de OLC ao usar técnicas de aprendizagem de máquina. Quando o mon- tador 200C tiver gerado uma disposição a ser usada para a geração de um conjunto, o sistema pode ser configurado para usar a disposi- ção e o conjunto de consenso obtido da disposição para gerar a entra- da ao modelo de aprendizagem de máquina. Em algumas modalida- des, o sistema do conjunto 200 pode ser configurado para atualizar o conjunto de consenso ao usar as técnicas descritas no presente do- cumento para obter o conjunto de saída 204.
[00109] Em algumas modalidades, o montador 200C pode ser con- figurado para aplicar um algoritmo aos dados da sequência 202 descri- tos em "Assembly Algorithms for Next-Generation Sequencing Data," publicado em Genomics, volume 95, edição 6, junho de 2010, o qual é incorporado no presente documento a título de referência. Em algumas modalidades, o montador 200C pode ser configurado para aplicar um algoritmo do conjunto que não um algoritmo de OLC aos dados da se- quência 202 para gerar um conjunto. Em algumas modalidades, o montador 200C pode ser configurado para aplicar o conjunto de gráfi- co de Bruijn (DBG) aos dados da sequência 202. Algumas modalida- des não são limitadas a um tipo particular de algoritmo do conjunto. Em algumas modalidades, o montador 200C pode incluir um aplicativo de software configurada para gerar um conjunto ao usar os dados da sequência 202. Como um exemplo, o sistema pode incluir o montador HGAP, Falcon, Canu, Hinge, Miniasm, ou Flye. Como um outro exem- plo, o sistema pode incluir o aplicativo de conjunto SPAdes, Ray, ABySS, ALLPATHS-LG, ou Trinity. Algumas modalidades não são limi- tadas a um montador particular.
[00110] Tal como indicado pelas linhas tracejadas na FIGURA 2A, em algumas modalidades o montador 200C pode não ser incluído no sistema do conjunto. O sistema do conjunto 200 pode ser configurado para receber um conjunto de um sistema separado e para atualizar o conjunto recebido para gerar o conjunto de saída 204. Como um exemplo, um dispositivo de computação separado pode aplicar um al- goritmo do conjunto (por exemplo, OLC) aos dados da sequência 202 para gerar um conjunto, e transmitir o conjunto gerado ao sistema do conjunto 200.
[00111] A FIGURA 2B mostra uma modalidade do sistema do con- junto 200 descrito acima com referência à FIGURA 2A em que o sis- tema do conjunto 200 é configurado para executar múltiplas iterações de atualizações a um conjunto, tal como indicado pela seta de feed- back do modelo de aprendizagem de máquina 200B ao gerador de ca- racterísticas 200A. Em algumas modalidades, o sistema do conjunto 200 pode ser configurado para determinar valores de uma ou mais ca- racterísticas que podem ser providas como entrada ao modelo de aprendizagem de máquina 200B depois de ter obtido um primeiro con- junto atualizado. O gerador de características 200A pode ser configu- rado para determinar valores de características de:(1) dados da se- quência 202; e (2) o primeiro conjunto atualizado obtido a partir da atualização de um conjunto inicial obtido da aplicação de um algoritmo do conjunto aos dados da sequência 202. O gerador de características 200A pode ser configurado para prover os valores de características determinados como entrada ao modelo de aprendizagem de máquina 200B para obter uma saída. O sistema do conjunto 200 pode ser con- figurado para usar a saída do modelo de aprendizagem de máquina 200B para: (1) identificar os polímeros biológicos nos respectivos lo- cais no primeiro conjunto atualizado; e (2) atualizar o primeiro conjunto atualizado para indicar os polímeros biológicos identificados nos res-
pectivos locais para obter um segundo conjunto atualizado. O segundo conjunto atualizado pode ser o conjunto 204 emitido pelo sistema do conjunto 200.
[00112] Em algumas modalidades, o sistema do conjunto 200 pode ser configurado para executar iterações de atualização até que uma condição seja satisfeita. Em algumas modalidades, o sistema do con- junto 104 pode ser configurado para executar iterações de atualização até que o sistema determine que um número limite de iterações foi executado. Em algumas modalidades, o número limite das iterações pode ser ajustado por uma entrada do usuário (por exemplo, um co- mando de software, ou pelo valor rígido de codificação). Em algumas modalidades, o sistema do conjunto 104 pode ser configurado para determinar um número limite de iterações. Como um exemplo, o sis- tema do conjunto 200 pode determinar um número limite de iterações de atualização com base em um tipo de técnica de conjunto que foi usada para obter um conjunto inicial. Em algumas modalidades, o sis- tema do conjunto 200 pode ser configurado para atualizar de modo iterativo o conjunto até que um critério de parada específico seja satis- feito. Como um exemplo, o sistema do conjunto 200 pode: (1) determi- nar um número de diferenças entre um conjunto atual obtido a partir da última iteração atualizada e um conjunto precedente; e (2) determinar a parada iterativa da atualização do conjunto quando o número de di- ferenças for menor do que um número limite das diferenças e/ou quando uma porcentagem das diferenças for menor do que uma por- centagem limite.
[00113] A FIGURA 2C mostra uma modalidade do sistema do con- junto 200 descrito acima com referência à FIGURA 2A em que o sis- tema do conjunto 200 é configurado para corrigir múltiplos locais de um conjunto em paralelo, tal como indicado pelas múltiplas setas do gerador de características 200A no modelo de aprendizagem de má-
quina 200B. Tal como descrito com referência à FIGURA 2A, em al- gumas modalidades, o gerador de características 200A pode ser con- figurado para gerar a entrada a ser provida ao modelo de aprendiza- gem de máquina 200B para cada um de múltiplos locais. Na modali- dade da FIGURA 2C, o sistema do conjunto 200 pode ser configurado para atualizar múltiplos locais de um conjunto em paralelo. O sistema do conjunto 200 pode ser configurado para: (1) atualizar um primeiro local no conjunto; e (2) antes de completar uma atualização do primei- ro local no conjunto, começar a atualizar uma segundo local no conjun- to. Em algumas modalidades, o sistema do conjunto 200 pode ser con- figurado para atualizar múltiplos locais em paralelo mediante a gera- ção e/ou provisão de múltiplas entradas geradas para os respectivos múltiplos locais ao modelo de aprendizagem de máquina 200B em pa- ralelo. Como um exemplo, o gerador de características 200A pode: (1) gerar e/ou prover uma primeira entrada para um primeiro local ao mo- delo de aprendizagem de máquina 200B; e (2) antes de obter uma sa- ída do modelo de aprendizagem de máquina 200B que corresponde à primeira entrada, gerar e/ou prover uma segunda entrada para um se- gundo local ao modelo de aprendizagem de máquina 200B.
[00114] Em algumas modalidades, o sistema do conjunto 200 da FIGURA 2C pode ser um dispositivo de computação que inclui múlti- plos processadores configurados para atualizar múltiplos locais de um conjunto em paralelo. Em algumas modalidades, o sistema do conjun- to 200 pode ser configurado para usar um aplicativo de múltiplas ca- deias onde cada cadeia doa aplicativo é configurada para atualizar um respectivo local em um conjunto em paralelo com uma ou mais outras cadeias.
[00115] A FIGURA 2D mostra uma modalidade do sistema do con- junto 200 descrito acima com referência à FIGURA 2A em que o sis- tema do conjunto 200 é configurado para: (1) executar múltiplas itera-
ções de atualização, tal como indicado pela seta do modelo de apren- dizagem de máquina 200B no gerador de características 200A; e (2) corrigir múltiplos locais de um conjunto em paralelo, tal como indicado pelas múltiplas setas do gerador de características 200A no modelo de aprendizagem de máquina 200B. Em algumas modalidades, o sistema do conjunto 200 pode ser configurado para executar múltiplas itera- ções de atualização tal como descrito acima com referência à FIGURA 2B e, durante cada ciclo de atualização, atualizar múltiplos locais em um conjunto em paralelo tal como descrito acima com referência à FI- GURA 2C.
[00116] A FIGURA 3A ilustra um processo exemplificador 300 para treinar um modelo de aprendizagem de máquina para gerar um con- junto de polímeros biológicos, de acordo com algumas modalidades da tecnologia descrita no presente documento. O processo 300 pode ser executado por qualquer(quaisquer) dispositivo(s) de computação apropriado(s). Como um exemplo, o processo 300 pode ser executado pelo sistema de treinamento de modelo 106 descrito com referência às FIGURAS 1A-C. O processo 300 pode ser executado para treinar os modelos de aprendizagem de máquina descritos no presente docu- mento. Como um exemplo, o processo 300 pode ser executado para treinar um modelo de aprendizagem profunda tal como a rede neural convolucional (CNN) 600 descrita com referência à FIGURA 6.
[00117] Em algumas modalidades, o modelo de aprendizagem de máquina pode ser um modelo de aprendizagem profunda. Em algumas modalidades, o modelo de aprendizagem profunda pode ser uma rede neural. Como um exemplo, o modelo de aprendizagem de máquina pode ser uma rede neural convolucional (CNN) que gera uma saída para ser usada na identificação de polímeros biológicos (por exemplo, nucleotídeos, aminoácidos) em locais em um conjunto. Como um outro exemplo, o modelo de aprendizagem de máquina pode ser uma rede neural provida com CTC. Em algumas modalidades, as porções do modelo de aprendizagem profunda podem ser treinadas separada- mente. Como um exemplo, o modelo de aprendizagem profunda pode ter uma primeira porção que codifica os dados de entrada em valores de uma ou mais características, e uma segunda porção que recebe os valores de características como entrada para gerar uma saída que identifica um ou mais polímeros biológicos.
[00118] Em algumas modalidades, o modelo de aprendizagem de máquina pode ser um modelo de aglomeração. Em algumas modali- dades, cada aglomerado do modelo pode ser associado com um polí- mero biológico. Como um exemplo ilustrativo, o modelo de aglomera- ção pode incluir 5 conjuntos, onde cada aglomerado é associado com um respectivo nucleotídeo. Por exemplo, o primeiro aglomerado pode ser associado com a adenina; o segundo aglomerado pode ser asso- ciado com a citosina; o terceiro aglomerado pode ser associado com a guanina; o quarto aglomerado pode ser associado com a timina; e o quinto aglomerado pode indicar que nenhum nucleotídeo está presen- te (por exemplo, em um local em um conjunto). Os números exemplifi- cadores dos conjuntos e dos polímeros biológicos associados são descritos no presente documento para finalidades ilustrativas.
[00119] O processo 300 começa no bloco 302, onde o sistema que executa o processo 300 acessa os dados de sequenciamento do se- quenciamento de uma ou mais macromoléculas de referência (por exemplo, DNA, RNA, ou proteínas). Em algumas modalidades, o sis- tema pode ser configurado para acessar os dados de sequenciamento do sequenciamento de macromoléculas de referência de um banco de dados. Como um exemplo, o sistema pode acessar os dados de se- quenciamento obtidos a partir do sequenciamento de bactérias do banco de dados de ONG. Os dados de sequenciamento podem ser obtidos a partir do sequenciamento de uma ou mais amostras de uma macromolécula. Como um exemplo, os dados de sequenciamento po- dem ser obtidos a partir das amostras biológicas de Saccharomyces cerevisiae, que é uma espécie de levedura. Como um outro exemplo, os dados de sequenciamento podem ser obtidos a partir do sequenci- amento de amostras de peptídeos de uma proteína. Em algumas mo- dalidades, os dados de sequenciamento podem incluir as sequências de nucleotídeos obtidas a partir do sequenciamento de amostras bio- lógicas incluindo um ácido nucleico (por exemplo, DNA, RNA). Em al- gumas modalidades, os dados de sequenciamento podem incluir as sequências de aminoácidos obtidas a partir do sequenciamento de amostras de proteína (por exemplo, peptídeos da proteína).
[00120] Em algumas modalidades, o sistema pode ser configurado para acessar os dados de sequenciamento de uma tecnologia de se- quenciamento alvo de maneira tal que o modelo de aprendizagem de máquina pode ser treinado para melhorar a precisão dos conjuntos gerados a partir dos dados de sequenciamento gerados pela tecnolo- gia de sequenciamento alvo. O modelo de aprendizagem de máquina pode ser treinado para um perfil de erro da tecnologia de sequencia- mento alvo de maneira tal que o modelo de aprendizagem de máquina pode ser otimizado para corrigir os erros característicos da tecnologia de sequenciamento alvo. Em algumas modalidades, o sistema pode ser configurado para acessar os dados obtidos a partir do sequencia- mento de terceira geração. Em algumas modalidades, o sequencia- mento de terceira geração pode ser um sequenciamento em tempo real de uma só molécula. Como um exemplo, o sistema pode acessar os dados obtidos de um sistema que arranja em sequência as amos- tras de ácido nucleico mediante a detecção de emissões de luz por moléculas luminescentes associadas com os nucleotídeos. Como um outro exemplo, o sistema pode acessar os dados obtidos a partir de um sistema que arranja em sequências os peptídeos mediante a de-
tecção de emissões de luz por moléculas luminescentes associadas com os reagentes que interagem seletivamente com os aminoácidos. Em algumas modalidades, o sistema pode ser configurado para aces- sar os dados obtidos a partir do sequenciamento de segunda geração. Como um exemplo, o sistema pode acessar os dados de sequencia- mento obtidos a partir do sequenciamento de Sanger, do sequencia- mento de Maxam-Gilbert, do sequenciamento de espingarda, do piro- sequenciamento, da síntese combinatória e âncora de sonda, ou do sequenciamento por ligação. Em algumas modalidades, o sistema po- de ser configurado para acessar os dados obtidos a partir do sequen- ciamento de peptídeo de novo. Como um exemplo, o sistema pode acessar as sequências de aminoácidos obtidas a partir da espectrome- tria de massa em tandem. Algumas modalidades não são limitadas a uma tecnologia de sequenciamento particular.
[00121] A seguir, o processo 300 prossegue para o bloco 304, onde o sistema acessa os conjuntos gerados a partir de pelo menos uma porção dos dados de sequenciamento obtidos no bloco 302. Em algu- mas modalidades, o sistema pode ser configurado para acessar os conjuntos obtidos da aplicação de um algoritmo do conjunto (por exemplo, conjunto de OLC, conjunto de DBG) aos dados de sequenci- amento. Em algumas modalidades, o sistema pode ser configurado para acessar os conjuntos mediante a aplicação de um algoritmo do conjunto aos dados de sequenciamento. Em algumas modalidades, o sistema pode ser configurado para acessar os conjuntos predetermi- nados gerados a partir de uma aplicação de um ou mais algoritmos de conjunto aos dados de sequenciamento. Como um exemplo, os con- juntos podem ter sido previamente executados por um dispositivo de computação separado e armazenados em um banco de dados. Por exemplo, um banco de dados a partir do qual os dados de sequencia- mento foram obtidos também pode armazenar os conjuntos gerados a partir de uma aplicação de um ou mais algoritmos de conjunto aos da- dos de sequenciamento.
[00122] Em algumas modalidades, o sistema pode ser configurado para acessar os conjuntos gerados a partir de uma tecnologia de con- junto alvo, de maneira tal que o modelo de aprendizagem de máquina pode ser treinado para corrigir os erros que são característicos à tec- nologia de conjunto alvo. O modelo de aprendizagem de máquina po- de ser treinado para um perfil de erro da tecnologia de conjunto alvo de maneira tal que o modelo de aprendizagem de máquina pode ser otimizado para corrigir os erros característicos da tecnologia de con- junto alvo. Em algumas modalidades, o sistema pode ser configurado para acessar os conjuntos gerados por uma aplicação particular do algoritmo do conjunto e/ou software. Como um exemplo, o sistema po- de acessar os conjuntos gerados pelo montador Canu, Miniasm, ou Flye. Em algumas modalidades, o sistema pode ser configurado para acessar os conjuntos gerados a partir de uma classe de montadores. Como um exemplo, o sistema pode acessar os conjuntos gerados a partir de montadores de algoritmos ávidos, ou de montadores de mé- todo de gráfico. Algumas modalidades não são limitadas a uma tecno- logia de conjunto particular.
[00123] A seguir, o processo 300 prossegue para o bloco 306, onde o sistema acessa um ou mais conjuntos predeterminados de macro- molécula(s) de referência. Em algumas modalidades, os conjuntos predeterminados de macromolécula(s) de referência podem represen- tar os conjuntos verdadeiros ou corretos para a(s) respectiva(s) ma- cromolécula(s). Desse modo, o sistema pode ser configurado para usar os conjuntos predeterminados de macromolécula(s) de referência para etiquetar os dados de treinamento. Como um exemplo, o sistema pode acessar um genoma de referência do DNA de um organismo do banco de dados NCBI. Neste exemplo, o sistema pode usar o genoma de referência para determinar as etiquetas para o uso na execução da aprendizagem supervisionada para treinar um modelo de aprendiza- gem de máquina para identificar nucleotídeos em um conjunto de ge- nomas. Como um outro exemplo, o sistema pode acessar uma se- quência de proteínas de referência de uma proteína a partir do banco de dados UnitProt, e usar a sequência de proteínas de referência para determinar as etiquetas para o uso na execução da aprendizagem su- pervisionada para treinar um modelo de aprendizagem de máquina para identificar os aminoácidos em uma sequência de proteínas.
[00124] A seguir, o processo 300 prossegue para o bloco 308 onde o sistema treina um modelo de aprendizagem de máquina ao usar os dados acessados nos blocos 302 a 308. Em algumas modalidades, o sistema pode ser configurado para: (1) gerar as entradas para o mode- lo de aprendizagem de máquina ao usar os dados de sequenciamento acessados no bloco 302 e os conjuntos acessados no bloco 304; (2) etiquetar as entradas geradas ao usar os conjuntos predeterminados acessados no bloco 306; e (3) aplicar um algoritmo de aprendizagem supervisionado aos dados de treinamento etiquetados. Em algumas modalidades, o sistema pode ser configurado para gerar entradas para o modelo de aprendizagem de máquina mediante a geração de valo- res de uma ou mais características ao usar os dados de sequencia- mento. Em algumas modalidades, o sistema pode ser configurado pa- ra determinar os valores de características para cada local em um con- junto. Como um exemplo, o sistema pode determinar os valores das características para um local mediante: (1) a determinação de conta- gens para os respectivos nucleotídeos, onde cada contagem indica um número de sequências de nucleotídeos que indicam que o nucleotídeo está presente no local; e (2) a determinação dos valores de caracterís- ticas ao usar as contagens. As técnicas exemplificadoras para a gera- ção de entradas e a etiquetagem de entradas são descritas no presen-
te documento com referência às FIGURAS 4A-C.
[00125] Em algumas modalidades, o sistema pode ser configurado para treinar um modelo de aprendizagem profunda ao usar os dados de treinamento etiquetados. Em algumas modalidades, o sistema pode ser configurado para treinar um modelo de árvore de decisões ao usar os dados de treinamento etiquetados. Em algumas modalidades, o sis- tema pode ser configurado para treinar uma máquina de vetor de su- porte (SVM) ao usar os dados de treinamento etiquetados. Em algu- mas modalidades, o sistema pode ser configurado para treinar um classificador de Naïve Bayes (NBC) ao usar os dados de treinamento etiquetados.
[00126] Em algumas modalidades, o sistema pode ser configurado para treinar o modelo de aprendizagem de máquina ao usar a descida de gradiente estocástica. O sistema pode fazer mudanças nos parâ- metros do modelo de aprendizagem de máquina iterativa para otimizar uma função objetiva para obter um modelo de aprendizagem de má- quina treinado. Por exemplo, o sistema pode usar a descida de gradi- ente estocástica para treinar filtros de uma rede convolucional e/ou pesos de uma rede neural.
[00127] Em algumas modalidades, o sistema pode ser configurado para executar o treinamento supervisionado ao usar os dados de trei- namento etiquetados. Em algumas modalidades, o sistema pode ser configurado para treinar o modelo de aprendizagem de máquina medi- ante: (1) a provisão de entradas geradas ao modelo de aprendizagem de máquina para obter as saídas correspondentes; (2) a identificação dos polímeros biológicos que estão presentes em locais no conjunto ao usar as saídas; e (2) o treinamento do modelo de aprendizagem de máquina com base em uma diferença entre os polímeros biológicos identificados e os polímeros biológicos indicados nas locais nos con- juntos de referência. Um polímero biológico indicado em um local em um conjunto de referência pode ser uma etiqueta para uma respectiva entrada. A diferença pode fornecer uma medida de quão bom é o de- sempenho do modelo de aprendizagem de máquina na reprodução da etiqueta quando configurado com seu conjunto atual de parâmetros. Como um exemplo, os parâmetros do modelo de aprendizagem de máquina podem ser atualizados ao usar a descida de gradiente esto- cástica e/ou qualquer outra técnica de otimização iterativa apropriada para treinar o modelo. Como um exemplo, o sistema pode ser configu- rado para atualizar um ou mais parâmetros de modelo com base na diferença determinada.
[00128] Em algumas modalidades, o sistema pode aplicar um algo- ritmo de treinamento não supervisionado a um conjunto de dados de treinamento não etiquetado. Embora a modalidade da FIGURA 3A in- clua o acesso a conjuntos predeterminados de macromoléculas de re- ferência no bloco 306, em algumas modalidades, o sistema pode ser configurado para executar o treinamento sem acessar os conjuntos predeterminados. Nestas modalidades, o sistema pode ser configura- do para aplicar o algoritmo de treinamento não supervisionado aos da- dos de treinamento para treinar o modelo de aprendizagem de máqui- na. O sistema pode ser configurado para treinar o modelo mediante: (1) a geração de entradas ao modelo ao usar os dados e os conjuntos de sequenciamento gerados a partir dos dados de sequenciamento; e (2) aplicar o algoritmo de treinamento não supervisionado às entradas geradas. Em algumas modalidades, o modelo de aprendizagem de máquina pode ser um modelo de aglomeração e o sistema pode ser configurado para identificar os aglomerados do modelo de aglomera- ção mediante a aplicação de um algoritmo de aprendizagem não su- pervisionado aos dados de treinamento. Cada conjunto pode ser asso- ciado com um polímero biológico (por exemplo, nucleotídeo ou amino- ácido). Como um exemplo, o sistema pode executar a aglomeração de meio k para identificar os aglomerados (por exemplo, centroides do aglomerado) ao usar os dados de treinamento.
[00129] Em algumas modalidades, o sistema pode ser configurado para aplicar um algoritmo de aprendizagem semisupervisionado aos dados de treinamento. O sistema pode: (1) etiquetar um conjunto de dados de treinamento não etiquetado mediante a aplicação de um al- goritmo de aprendizagem não supervisionado (por exemplo, aglome- ração) aos dados de treinamento; e (2) aplicar um algoritmo de apren- dizagem supervisionado aos dados de treinamento etiquetados. Como um exemplo, o sistema pode aplicar a aglomeração de meio k às en- tradas geradas dos dados de sequenciamento e conjuntos obtidos a partir dos dados de sequenciamento para aglomerar as entradas. O sistema pode então etiquetar cada entrada com uma classificação ba- seada na filiação do aglomerado. O sistema pode então treinar o mo- delo de aprendizagem de máquina mediante a aplicação de um algo- ritmo de descida de gradiente estocástica e/ou qualquer outra técnica de otimização iterativa aos dados etiquetados.
[00130] Depois do treinamento do modelo de aprendizagem de má- quina no bloco 308, o processo 300 termina. Em algumas modalida- des, o sistema pode ser configurado para armazenar o modelo de aprendizagem de máquina treinado. O sistema pode armazenar o(s) valor(es) de um ou mais parâmetros treinados do modelo de aprendi- zagem de máquina. Como um exemplo, o modelo de aprendizagem de máquina pode incluir uma ou mais redes neurais e o sistema pode ar- mazenar valores de pesos treinados da(s) rede(s) neural(is). Como um outro exemplo, o modelo de aprendizagem de máquina inclui uma rede neural convolucional e o sistema pode armazenar um ou mais filtros treinados da rede neural convolucional. Em algumas modalidades, o sistema pode ser configurado para armazenar o modelo de aprendiza- gem de máquina treinada (por exemplo, no sistema do conjunto 104)
para ser usado na geração de um conjunto (por exemplo, um conjunto de genomas, uma sequência de proteínas, ou uma porção dos mes- mos).
[00131] Em algumas modalidades, o sistema pode ser configurado para obter dados novos para atualizar o modelo de aprendizagem de máquina ao usar novos dados de treinamento. Em algumas modalida- des, o sistema pode ser configurado para atualizar o modelo de aprendizagem de máquina mediante o treinamento de um novo mode- lo de aprendizagem de máquina ao usar os novos dados de treina- mento. Como um exemplo, o sistema pode treinar um novo modelo de aprendizagem de máquina ao usar os novos dados de treinamento. Em algumas modalidades, o sistema pode ser configurado para atuali- zar o modelo de aprendizagem de máquina ao treinar novamente o modelo de aprendizagem de máquina ao usar os novos dados de trei- namento para atualizar um ou mais parâmetros do modelo de aprendi- zagem de máquina. Como um exemplo, a(s) saída(s) gerada(s) pelo modelo e os dados de entrada correspondentes podem ser usados como dados de treinamento junto com os dados treinando previamente obtidos. Em algumas modalidades, o sistema pode ser configurado para atualizar de modo iterativo o modelo de aprendizagem de máqui- na treinado ao usar os dados e as saídas que identificam aminoácidos (por exemplo, obtidos da execução do processo 310 descrito a seguir com referência à FIGURA 3B). Como um exemplo, o sistema pode ser configurado para fornecer dados de entrada a um primeiro modelo de aprendizagem de máquina treinado (por exemplo, um modelo de pro- fessor), e obter uma saída que identifica um ou mais aminoácidos. O sistema pode então treinar novamente o modelo de aprendizagem de máquina ao usar os dados de entrada e a saída correspondente para obter um segundo modelo de aprendizagem de máquina treinado (por exemplo, um modelo de estudante).
[00132] Em algumas modalidades, o sistema pode ser configurado para treinar um modelo de aprendizagem de máquina separado para cada uma de múltiplas tecnologias de sequenciamento. Um modelo de aprendizagem de máquina pode ser treinado para uma respectiva tec- nologia de sequenciamento ao usar os dados obtidos a partir da tecno- logia de sequenciamento. O modelo de aprendizagem de máquina po- de ser ajustado para um perfil de erro da tecnologia de sequenciamen- to. Em algumas modalidades, o sistema pode ser configurado para treinar um modelo de aprendizagem de máquina separado para cada uma de múltiplas tecnologias de conjunto. Um modelo de aprendiza- gem de máquina pode ser treinado para uma respectiva tecnologia de conjunto ao usar os conjuntos obtidos a partir da tecnologia de conjun- to. O modelo de aprendizagem de máquina pode ser ajustado para um perfil de erro da tecnologia de conjunto.
[00133] Em algumas modalidades, o sistema pode ser configurado para treinar um modelo de aprendizagem de máquina generalizado que deve ser usado para múltiplas tecnologias de sequenciamento. O modelo de aprendizagem de máquina generalizado pode ser treinado ao usar os dados agregados de múltiplas tecnologias de sequencia- mento. Em algumas modalidades, o sistema pode ser configurado pa- ra treinar um modelo de aprendizagem de máquina generalizado que deve ser usado para múltiplas tecnologias de conjunto. O modelo de aprendizagem de máquina generalizado pode ser treinado ao usar os conjuntos gerados ao utilizar múltiplas tecnologias de conjunto.
[00134] A FIGURA 3B ilustra um processo exemplificador 310 para usar um modelo de aprendizagem de máquina treinado obtido a partir do processo 300 para gerar um conjunto (por exemplo, conjunto de genomas, sequência de genes, sequência de proteínas, ou uma por- ção dos mesmos), de acordo com algumas modalidades da tecnologia descrita no presente documento. O processo 310 pode ser executado por qualquer dispositivo de computação apropriado. Como um exem- plo, o processo 310 pode ser executado pelo sistema do conjunto 104 descrito acima com referência às FIGURAS 1A-C.
[00135] O processo 310 começa no bloco 312 onde o sistema exe- cuta um algoritmo do conjunto (por exemplo, conjunto OLC, ou conjun- to DBG) nos dados de sequenciamento para gerar um conjunto. Como um exemplo, o sistema pode aplicar um algoritmo do conjunto às se- quências de nucleotídeos geradas a partir do sequenciamento de uma amostra de DNA. Como um outro exemplo, o sistema pode aplicar um algoritmo do conjunto às sequências de aminoácidos geradas a partir do sequenciamento de uma amostra de peptídeo de uma proteína. O sistema pode aplicar um algoritmo do conjunto tal como descrito acima com referência ao montador 200C das FIGURAS 2A-D. Em algumas modalidades, o sistema pode incluir um aplicativo de conjunto. O sis- tema pode ser configurado para gerar o conjunto por meio da execu- ção do aplicativo de conjunto. Os exemplos de aplicativos de conjunto são descritos no presente documento.
[00136] Tal como ilustrado pelas linhas tracejadas em torno do blo- co 312, em algumas modalidades, o sistema pode não executar um algoritmo do conjunto. O sistema pode obter um conjunto gerado por um sistema separado (por exemplo, um dispositivo de computação se- parado), e executar as etapas dos blocos 314 a 322 para atualizar o conjunto obtido.
[00137] A seguir, o processo 310 prossegue para o bloco 312 onde o sistema acessa os dados de sequenciamento em um conjunto. Em algumas modalidades, o sistema pode ser configurado para acessar um conjunto gerado pelo sistema (por exemplo, no bloco 312). Em al- gumas modalidades, o sistema pode ser configurado para acessar um conjunto gerado por um sistema separado. Como um exemplo, o sis- tema pode receber um conjunto gerado por um aplicativo de software que é executado em um dispositivo de computação separado do sis- tema. Em algumas modalidades, o sistema pode ser configurado para acessar os dados de sequenciamento gerados a partir de uma tecno- logia de conjunto alvo (por exemplo, algoritmo e/ou aplicativo de sof- tware) que o modelo de aprendizagem de máquina treinado no pro- cesso 300 foi otimizado para atualizar (por exemplo, para corrigir er- ros). Como um exemplo, o modelo de aprendizagem de máquina pode ser treinado nos conjuntos gerados a partir do aplicativo de conjunto Canu, e o sistema pode acessar um conjunto gerado pelo aplicativo de conjunto Canu.
[00138] Em algumas modalidades, o sistema pode ser configurado para acessar dados de sequenciamento que incluem as sequências de polímeros biológicos que foram usadas para gerar o conjunto acessa- do. Como um exemplo, os dados de sequenciamento acessados po- dem incluir as sequências de nucleotídeos em que um algoritmo do conjunto foi aplicado para gerar um conjunto de genomas ou uma se- quência de genes. Como um outro exemplo, os dados de sequencia- mento acessados podem incluir as sequências de aminoácidos em que um algoritmo do conjunto foi aplicado para gerar uma sequência de proteínas. Em algumas modalidades, o sistema pode ser configura- do para acessar os dados de sequenciamento gerados a partir de uma tecnologia de sequenciamento alvo que o modelo de aprendizagem de máquina treinado no processo 300 foi otimizado para atualizar. Como um exemplo, o modelo de aprendizagem de máquina pode ser treina- do no sequenciamento dos dados gerados a partir do sequenciamento de terceira, e o sistema pode acessar os dados de sequenciamento gerados a partir do sequenciamento de terceira geração.
[00139] A seguir, o processo 310 prossegue para o bloco 316 onde o sistema gera a entrada a ser provida ao modelo de aprendizagem de máquina ao usar os dados de sequenciamento e o conjunto. Em algu-
mas modalidades, o sistema pode ser configurado para gerar entradas para os respectivos locais no conjunto. O sistema pode ser configura- do para gerar as entradas para um conjunto de locais no conjunto me- diante: (1) o alinhamento de sequências dos dados de sequenciamen- to ao conjunto de locais no conjunto; e (2) a comparação dos políme- ros biológicos das sequências alinhadas aos polímeros biológicos indi- cados nos locais no conjunto para determinar os valores de uma ou mais características. Em algumas modalidades, o sistema pode ser configurado para alinhar as sequências a um conjunto de locais no conjunto mediante a identificação das sequências de dados de se- quenciamento que indicam os polímeros biológicos no conjunto de lo- cais no conjunto. Como um exemplo, o conjunto pode incluir locais que são posicionados de 1 a 10.000, e o sistema pode determinar que ca- da uma das sequências de nucleotídeos "TAGGTC", "TAGTTC", "TAGGCC", "TAGGTC" alinha com os locais indexados como 5 a 10 do conjunto. Neste exemplo, o sistema pode comparar cada uma das sequências de nucleotídeos aos polímeros biológicos indicados nas locais indexados como 5 a 10 no conjunto para determinar os valores da(s) característica(s). Os exemplos das características, e a geração dos valores das características, são descritos com referência às FI- GURAS 4A-C.
[00140] Em algumas modalidades, o sistema pode ser configurado para gerar entradas para os respectivos locais no conjunto. O sistema pode ser configurado para gerar uma entrada para que um local forne- ça como entrada ao modelo de aprendizagem de máquina para obter a saída que pode ser usada para identificar um polímero biológico (por exemplo, nucleotídeo, aminoácido) que está presente no local no con- junto. Em algumas modalidades, o sistema pode ser configurado para gerar uma entrada para um local no conjunto com base em uma indi- cação de polímero biológico no local, e as indicações de polímeros biológicos em um ou mais outros locais que estão em uma vizinhança do local. A entrada pode fornecer um modelo de aprendizagem de máquina com a informação contextual em torno de um local no conjun- to que o modelo usa para gerar uma saída correspondente. O sistema pode ser configurado para gerar uma entrada para um local com base em indicações de polímeros biológicos nos locais em uma vizinhança do local mediante a determinação dos valores de característica(s) no local e em outro(s) local(is) na vizinhança do local. Como um exemplo, o sistema pode: (1) selecionar um local; (2) identificar uma vizinhança dos locais centrados no local selecionado; e (3) gerar a entrada como valores da(s) característica(s) em cada um dos locais selecionados e na vizinhança dos locais.
[00141] Em algumas modalidades, o sistema pode ser configurado para usar uma vizinhança de um tamanho do conjunto. Os tamanhos da vizinhança exemplificadores são descritos no presente documento. Em algumas modalidades, o número de locais em uma vizinhança usada pelo sistema pode ser um parâmetro configurável. Por exemplo, o sistema pode receber uma entrada do usuário (por exemplo, em um aplicativo de software) especificando um tamanho da vizinhança para ser usado. Em algumas modalidades, o sistema pode ser configurado para determinar um tamanho da vizinhança. Como um exemplo, o sis- tema pode determinar um tamanho da vizinhança com base em uma tecnologia de sequenciamento pela qual os dados de sequenciamento foram gerados e/ou uma tecnologia de conjunto pela qual o conjunto foi gerado.
[00142] Em algumas modalidades, o sistema pode ser configurado para gerar a entrada a ser provida ao modelo de aprendizagem de máquina mediante: (1) a seleção de locais no conjunto; e (2) a geração das respectivas entradas para os locais selecionados. Em algumas modalidades, o sistema pode ser configurado para selecionar as locais no conjunto mediante a determinação das possibilidades de que o con- junto indica incorretamente polímeros biológicos em locais no conjun- to, e a seleção dos locais para os quais é gerada uma entrada ao usar as possibilidades determinadas. Como um exemplo, o sistema pode determinar se uma possibilidade de que o conjunto indica incorreta- mente um polímero biológico em um local excede uma possibilidade limite, e gerar uma entrada para o local se a possibilidade exceder a possibilidade limite. Em algumas modalidades, o sistema pode ser configurado para determinar a possibilidade de que um local indica in- corretamente um polímero biológico com base em um número de se- quências alinhadas que indicam que o polímero biológico está presen- te no local. O sistema pode determinar a possibilidade como uma dife- rença entre o número das sequências que indicam que o polímero bio- lógico está no local e o número total de sequências. Como um exem- plo, o conjunto pode indicar a timina em um local no conjunto com ba- se em um consenso de um conjunto de 9 sequências de nucleotídeos onde 4 das sequências de nucleotídeos indicam que a timina está pre- sente no local, 2 das sequências de nucleotídeos indicam que a gua- nina está presente no local, e 3 das sequências de nucleotídeos indi- cam que a adenina está presente no local. Neste exemplo, o sistema pode determinar uma possibilidade de que o conjunto indica incorre- tamente o polímero biológico no local no conjunto como a diferença entre o número de sequências de nucleotídeos que indicam a timina (4) e o número total de sequências de nucleotídeos (9) para obter um valor igual a 5. O sistema pode determinar que 5 é maior do que uma diferença limite (por exemplo, 1, 2, 3, 4) e, como resultado, gera uma entrada para o local.
[00143] Em algumas modalidades, o sistema pode ser configurado para usar uma diferença limite de 1, 2, 3, 4, 5, 6, 7, 8, 9, ou 10. Algu- mas modalidades não são limitadas a uma diferença particular limite.
Em algumas modalidades, a diferença limite pode ser um parâmetro configurável. A possibilidade limite usada pelo sistema pode afetar o número de locais para os quais o sistema gera uma entrada a ser pro- vida ao modelo. Como um exemplo, o sistema pode receber um valor limite como uma entrada do usuário a um aplicativo de software. Em algumas modalidades, o sistema pode usar uma possibilidade limite estipulada. Como um exemplo, o valor da possibilidade limite pode ser codificado. Em algumas modalidades, o sistema pode ser configurado para determinar automaticamente a possibilidade limite. Como um exemplo, o sistema pode determinar a possibilidade limite com base em uma tecnologia de conjunto em que o conjunto foi gerado e/ou uma tecnologia de sequenciamento a partir da qual os dados de sequenci- amento foram gerados.
[00144] Em algumas modalidades, o sistema pode ser configurado para gerar uma entrada para um local como uma matriz 2-D. Em al- gumas modalidades, cada fileira/coluna da matriz pode especificar os valores de características determinados em um respectivo local no conjunto. Em algumas modalidades, o sistema pode ser configurado para gerar a entrada como uma imagem, onde os pixels da imagem contêm os valores de características. Como um exemplo, cada filei- ra/coluna da imagem pode especificar os valores de características determinados em um respectivo local no conjunto.
[00145] A seguir, o processo 310 prossegue para o bloco 318 onde o sistema provê a entrada gerada no bloco 316 ao modelo de aprendi- zagem de máquina para obter uma saída correspondente. Em algu- mas modalidades, o sistema pode ser configurado para prover as en- tradas geradas para os respectivos locais no conjunto como entradas separadas ao modelo de aprendizagem de máquina. Como um exem- plo, o sistema pode prover um conjunto de valores de características determinados em um local alvo e em locais em uma vizinhança do lo-
cal como entrada ao modelo de aprendizagem de máquina para obter uma saída correspondente para o local alvo. Em algumas modalida- des, o sistema pode ser configurado para prover as entradas geradas para múltiplos locais em paralelo (por exemplo, tal como descrito aci- ma com referência às FIGURAS 2C-D). Como um exemplo, o sistema pode: (1) prover uma primeira entrada gerada para um primeiro local ao modelo; e (2) antes de obter uma primeira saída que corresponde à primeira entrada, prover uma segunda entrada gerada para um segun- do local ao modelo. Em algumas modalidades, o sistema pode ser configurado para prover as entradas geradas para múltiplos locais se- quencialmente. Por exemplo, o sistema pode: (1) prover uma primeira entrada gerada para um primeiro local ao modelo para obter uma pri- meira saída correspondente; e (2) depois de ter obtido a primeira saí- da, prover uma segunda entrada para uma segundo local para obter uma segunda saída correspondente.
[00146] Em algumas modalidades, a saída que corresponde à en- trada provida ao modelo de aprendizagem de máquina pode indicar, para cada um de múltiplos locais em um conjunto, uma possibilidade de que cada um de um ou mais polímeros biológicos está presente no local. Como um exemplo, a saída pode indicar, para cada um de múlti- plos locais em um conjunto de genomas, uma possibilidade (por exemplo, uma possibilidade) de que cada um de um ou mais nucleotí- deos (por exemplo, adenina, guanina, timina, citosina) está presente no local. Como um outro exemplo, a saída pode indicar, para cada um de múltiplos locais em uma sequência de proteínas, uma possibilidade de que cada um de um ou mais aminoácidos está presente no local. Em algumas modalidades, uma saída pode indicar uma possibilidade de que nenhum polímero biológico está presente em um local no con- junto. Como um exemplo, o sistema pode indicar uma possibilidade "-" de que um caractere está no local no conjunto.
[00147] Em algumas modalidades, o modelo pode prover as saídas que correspondem aos respectivos locais no conjunto. O sistema pode prover uma entrada gerada para um local alvo no conjunto, e obter uma saída correspondente que indica as possibilidades de que cada um de um ou mais polímeros biológicos está presente no local alvo. Como um exemplo, o sistema pode prover uma entrada gerada para um local em um conjunto de genomas e obter uma saída correspon- dente que indica as possibilidades de que cada um de um conjunto de 4 nucleotídeos possíveis (por exemplo, adenina, guanina, timina, cito- sina) está presente no local. Por exemplo, a possibilidade pode ser os valores da possibilidade de cada nucleotídeo estarem presentes no local.
[00148] A seguir, o processo 310 prossegue para o bloco 320 onde o sistema identifica os polímeros biológicos em locais no conjunto ao usar a saída obtida a partir do modelo. Em algumas modalidades, o sistema pode ser configurado para identificar os polímeros biológicos em locais no conjunto mediante a identificação, para cada uma das locais, de um polímero biológico que está presente no local ao usar uma saída obtida para o local em resposta a uma entrada correspon- dente provida ao modelo. A saída do modelo pode incluir múltiplos conjuntos de valores de saída que correspondem aos respectivos lo- cais. Cada conjunto de valores de saída pode especificar as possibili- dades de que cada um de um ou mais polímeros biológicos está pre- sente em um respectivo local no conjunto. O sistema pode identificar um polímero biológico no respectivo local como o polímero biológico que tem a possibilidade maior de estar presente no local. Como um exemplo, um conjunto de valores da saída para um primeiro local no conjunto pode indicar o conjunto de possibilidades para o local a se- guir: adenina (A) 0,1, citosina (C) 0,6, guanina (G) 0,1, timina (T) 0,15, e espaço em branco (-) 0,05. Neste exemplo, o sistema pode identifi-
car que a citosina (C) está no local no conjunto. Em algumas modali- dades, uma saída do modelo que corresponde a uma entrada gerada para um local pode ser uma classificação que especifica um polímero biológico no local. Como um exemplo, a saída do modelo pode ser uma classificação de adenina (A), citosina (C), guanina (G), timina (T), ou espaço em branco (-).
[00149] A seguir, o processo 310 prossegue para o bloco 322, onde o sistema atualiza o conjunto para obter um conjunto atualizado. O sis- tema pode ser configurado para atualizar o conjunto com base nos po- límeros biológicos identificados no bloco 320. Em algumas modalida- des, o sistema pode ser configurado para atualizar o conjunto ao atua- lizar as indicações de polímeros biológicos em locais no conjunto. Em alguns exemplos, um polímero biológico identificado como estando presente em um local no bloco 320 pode ser diferente de uma indica- ção de polímero biológico no conjunto. Nestes exemplos, o sistema pode modificar a indicação de polímero biológico no local no conjunto. Como um exemplo, o sistema pode: (1) identificar, ao usar a saída do modelo, que a timina "T" está presente em um primeiro local no con- junto que tem uma indicação de adenina "A"; e (2) mudar o primeiro local no conjunto para indicar de uma indicação precedente de adeni- na "A" à timina "T". Em alguns exemplos, um polímero biológico identi- ficado como estando presente em um local pode ser o mesmo que a indicação de polímero biológico no local no conjunto. Nestes casos, o sistema pode não mudar a indicação de polímero biológico no local no conjunto. Como um exemplo, o sistema pode: (1) identificar, ao usar a saída do modelo, que a timina "T" está presente em um primeiro local no conjunto que tem uma indicação de timina "T"; e (2) deixar a indica- ção no primeiro local inalterada.
[00150] Em algumas modalidades, o sistema pode ser configurado para atualizar múltiplos locais no conjunto em paralelo. Como um exemplo, o sistema pode: (1) começar a atualizar um primeiro local no conjunto; e (2) antes de terminar uma atualização no primeiro local, começar a atualizar um segundo local no conjunto. Em algumas moda- lidades, o sistema pode ser configurado para atualizar sequencialmen- te os locais no conjunto. Como um exemplo, o sistema pode: (1) atua- lizar um primeiro local no conjunto; e (2) depois de ter completado a atualização no primeiro local no conjunto, atualizar o segundo local no conjunto.
[00151] Em algumas modalidades, depois de ter atualizado o con- junto no bloco 322 para obter um primeiro conjunto atualizado, o pro- cesso 310 pode retornar ao bloco 316 tal como indicado pela linha tra- cejada do bloco 322 ao bloco 316. Em algumas modalidades, o siste- ma pode ser configurado para gerar a entrada ao modelo de aprendi- zagem de máquina ao usar o primeiro conjunto atualizado e os dados de sequenciamento. Como um exemplo, o sistema pode gerar a entra- da de sequenciamento ao modelo ao usar um conjunto de sequências de nucleotídeos dos dados de sequenciamento e o primeiro conjunto atualizado. O sistema pode alinhar as sequências de nucleotídeos aos respectivos locais do primeiro conjunto atualizado para gerar a entrada ao modelo de aprendizagem de máquina tal como descrito acima. O sistema pode então executar ações nos blocos 316 a 322 para obter um segundo conjunto atualizado. Em algumas modalidades, o sistema do conjunto pode ser configurado para executar iterações até que uma condição seja satisfeita.
[00152] Em algumas modalidades, o sistema pode ser configurado para executar iterações de atualização até que o sistema determine que um número limite de iterações foi executado. Em algumas modali- dades, o número limite das iterações pode ser ajustado por uma en- trada do usuário (por exemplo, um comando de software, ou valor de codificação rígida). Em algumas modalidades, o sistema pode ser con-
figurado para determinar um número limite de iterações. Como um exemplo, o sistema pode determinar um número limite de iterações de atualização com base em um tipo de técnica de conjunto que foi usada para obter um conjunto inicial. Em algumas modalidades, o sistema pode ser configurado para executar iterações de atualização até que o sistema detecte que o conjunto convergiu. Como um exemplo, o sis- tema do conjunto pode: (1) determinar um número de diferenças entre um conjunto atual obtido da última iteração e um conjunto precedente; e (2) determinar a parada da execução de iterações de atualização quando o número das diferenças é menor do que um número limite ou porcentagem das diferenças.
[00153] Em algumas modalidades, o sistema pode ser configurado para executar uma única atualização para o conjunto, e o processo 310 pode terminar no bloco 322 depois de ter sido executada a única atualização para o conjunto. O conjunto atualizado pode ser emitido pelo sistema como um conjunto de saída. Como um exemplo, o siste- ma pode emitir um conjunto de genomas no qual os erros no conjunto foram corrigidos de maneira tal que o conjunto de saída é mais preciso do que o conjunto inicial acessado no bloco 314. Como um outro exemplo, o sistema pode emitir uma sequência de proteínas na qual os erros foram corrigidos de maneira tal que a sequência de proteínas de saída é mais precisa do que uma sequência de proteínas inicial acessada no bloco 314.
[00154] Em algumas modalidades, o sistema pode ser configurado para executar um primeiro número de iterações de atualização para uma primeira porção de um conjunto e um segundo número de itera- ções de atualização para uma segunda porção do conjunto. Como um exemplo, o sistema pode atualizar os locais indexados como 1 - 100 de um conjunto de genoma múltiplas vezes (por exemplo, ao executar múltiplas iterações de ações nos blocos 316 a 322), e os locais de atualização indexados como 101 a 200 do conjunto de genomas uma vez (por exemplo, ao executar as ações nos blocos 316 a 322 uma vez). O sistema pode ser configurado para determinar as porções do conjunto para atualização múltiplas vezes com base em um número de locais nas porções que podem indicar incorretamente os polímeros biológicos. Como um exemplo, o sistema pode: (1) determinar um nú- mero de locais em uma janela de locais (por exemplo, 25, 50, 75, 100, ou 1.000 locais) que têm uma possibilidade de ter indicações incorre- tas de polímeros biológicos que excede uma possibilidade limite; e (2) determinar a execução de um ciclo de atualização na janela de locais quando o número excede um número limite de locais.
[00155] As FIGURAS 4A-C mostram um exemplo de geração de entrada a ser provida a um modelo de aprendizagem de máquina, de acordo com algumas modalidades da tecnologia descrita no presente documento.
[00156] A FIGURA 4A mostra uma disposição 400 que inclui as se- quências de nucleotídeos 401 (etiquetadas como "Empilhamento" na FIGURA 4A), um conjunto 402 de polímeros biológicos gerados a par- tir das sequências de nucleotídeos 401, e as etiquetas 404 de políme- ros biológicos para os respectivos locais no conjunto. Como um exem- plo, os dados mostrados na FIGURA 4A podem ser dados de treina- mento obtidos da execução do processo 300 para treinar um modelo de aprendizagem de máquina onde: (1) os dados de sequenciamento 401 e o conjunto 402 são obtidos nos blocos 302 e 304; (2) e as eti- quetas 404 são obtidas no bloco 306. Como um outro exemplo, os da- dos de sequenciamento 401 e o conjunto 402 podem ser obtidos nos blocos 312 e/ou 314 do processo 310 para gerar um conjunto ao usar um modelo de aprendizagem de máquina treinada.
[00157] Tal como mostrado na modalidade da FIGURA 4A, os da- dos de sequenciamento 401 incluem as sequências de nucleotídeos geradas a partir do sequenciamento do DNA. Cada fileira de dados de sequenciamento 401 é uma sequência de nucleotídeos. Tal como mostrado no exemplo da FIGURA 4A, as sequências de nucleotídeos são representadas como sequências de caracteres alfanuméricos on- de "A" representa a adenina, "C" representa a citosina, "G" representa a guanina, "T" representa a timina e "-" indica que nenhum nucleotídeo está presente no local. Os caracteres alfanuméricos exemplificadores descritos no presente documento são para finalidades ilustrativas, uma vez que algumas modalidades não são limitadas a um conjunto parti- cular de caracteres alfanuméricos para representar os respectivos nu- cleotídeos ou a ausência dos mesmos.
[00158] Na modalidade da FIGURA 4A, o conjunto 402 é gerado a partir das sequências de nucleotídeos 401. Em algumas modalidades, o conjunto 402 pode ser obtido a partir da aplicação de um algoritmo do conjunto (por exemplo, o conjunto OLC) aos dados de sequencia- mento 401. Na modalidade da FIGURA 4A, o conjunto 402 é obtido a partir da tomada de um consenso das sequências de nucleotídeos. O consenso é determinado por um voto da maioria das sequências de nucleotídeos para cada local no conjunto 402 em que o sistema identi- fica o polímero biológico indicado no local pelo número maior de se- quências de nucleotídeos. O sistema pode ser configurado, para cada um de múltiplos nucleotídeos para: (1) determinar o número das se- quências de nucleotídeos que votam para o nucleotídeo (por exemplo, indicando que o nucleotídeo está presente no local); e (2) identificar o nucleotídeo que tem o número maior de votos a ser indicados no local. Como um exemplo, para o local da coluna destacada 406: (1) 4 das sequências indicam a adenina, 3 das sequências indicam a citosina e 2 das sequências indicam a guanina; e (2) o local no conjunto 402 in- dica a adenina. Como um outro exemplo, para o primeiro local no con- junto 402, todas as sequências de nucleotídeos indicam a citosina, e desse modo o conjunto 402 indica a citosina no primeiro local .
[00159] Na modalidade da FIGURA 4A, as etiquetas 404 podem indicar os polímeros biológicos desejados para os locais no conjunto
402. Em algumas modalidades, o sistema pode ser configurado para determinar as etiquetas de um genoma de referência. Por exemplo, o sistema pode obter as sequências de nucleotídeos a partir do sequen- ciamento uma amostra do DNA de um organismo, obter o conjunto 402 a partir da aplicação de um algoritmo do conjunto às sequências de nucleotídeos, e obter as etiquetas 404 de um genoma de referência conhecido do organismo (por exemplo, do banco de dados NCBI). As etiquetas 404 podem representar uma indicação biológica verdadeira ou correta do polímero para cada local a ser usado para o treinamento supervisionado e/ou determinar uma precisão de um conjunto gerado.
[00160] A FIGURA 4B mostra uma disposição 410 dos valores de- terminados a partir dos dados 400 mostrados na FIGURA 4A. A dispo- sição 410 ilustra uma etapa intermediária na geração de uma entrada a um modelo de aprendizagem de máquina para o local da coluna 406 no conjunto 402. A disposição 410 inclui um conjunto de fileiras etique- tadas "Empilhamento" que representa as sequências de nucleotídeos da FIGURA 4A. Para cada local no conjunto, o sistema determina uma contagem para cada um dos múltiplos nucleotídeos, onde a contagem indica um número de sequências de nucleotídeos que indica que o nu- cleotídeo está no local no conjunto. Cada entrada na seção de "Empi- lhamento" da disposição 410 contém uma contagem para um nucleotí- deo. Como um exemplo, a coluna 412 na FIGURA 4B tem uma conta- gem de 4 para a adenina, de 3 para a citosina, de 2 para a guanina, de 0 para a timina, e de 0 para nenhum nucleotídeo. Como um outro exemplo, a primeira coluna da disposição 410 tem uma contagem de 0 para a adenina, de 9 para a citosina, de 0 para a guanina, de 0 para a timina, e de 0 para nenhum nucleotídeo.
[00161] A disposição 410 também inclui um conjunto de fileiras, eti- quetado como "Conjunto" na FIGURA 4B, o qual representa o conjunto 402 da FIGURA 4B. Para cada local no conjunto 402, a disposição 410 inclui uma coluna dos valores determinados do nucleotídeo indicado no local. Para cada local, o sistema pode atribuir um valor de referên- cia a cada um dos múltiplos nucleotídeos, onde o valor de referência indica se o nucleotídeo está indicado no local no conjunto. Como um exemplo, na coluna etiquetada como 412 da FIGURA 4B, a seção do conjunto: (1) tem um valor de 9 para a adenina porque esse é o nucle- otídeo indicado no local correspondente no conjunto 402; e (2) tem um valor de 0 para cada um dos outros nucleotídeos porque eles não são indicados no local correspondente no conjunto 402. Como um outro exemplo, a primeira coluna da disposição 410 da seção do conjun- to:(1) tem um valor de 9 para a citosina porque esse é o nucleotídeo indicado no local correspondente no conjunto 402; e (2) tem um valor de 0 para cada um dos outros nucleotídeos porque eles não são indi- cados no local correspondente no conjunto 402. Tal como ilustrado no exemplo da FIGURA 4B, em algumas modalidades, o valor de referên- cia atribuído a um nucleotídeo em um local do conjunto quando o nu- cleotídeo é indicado no local do conjunto é igual ao número das se- quências de nucleotídeos alinhadas (por exemplo, 9 no exemplo da FIGURA 4A).
[00162] A FIGURA 4C mostra uma disposição 420 dos valores de características gerada ao usar os valores na disposição 410 da FIGU- RA 4B. Em algumas modalidades, a disposição 420 pode ser provida como a entrada a um modelo de aprendizagem de máquina para obter uma saída correspondente. No exemplo da FIGURA 4C, a disposição 420 é a entrada a ser provida a um modelo para o local no conjunto que corresponde à coluna 422. A disposição 420 inclui os valores de características determinados em um local alvo que corresponde à co-
luna 422, e os valores de características determinados para 24 locais em uma vizinhança do local alvo. A disposição 420 inclui os valores de características para 12 locais à esquerda do local alvo, e 12 locais à direita do local alvo.
[00163] Na seção de Empilhamento da disposição 420, cada coluna especifica um valor de erro para cada um de múltiplos nucleotídeos. O valor de erro para um nucleotídeo na coluna indica uma diferença en- tre: (1) o número das sequências de nucleotídeos que indicam que o nucleotídeo está no local no conjunto 402 que corresponde à coluna, e (2) o valor de referência atribuído ao nucleotídeo na seção do conjunto da disposição 420. Como um exemplo, para a coluna 422 da FIGURA 4C, os valores são determinados tal como segue: (1) a adenina é 4 – 9 = -5; (2) a citosina é 3 - 0 = 3; (3) a guanina é 2 - 0 = 2; (4) a timina é 0 - 0 = 0; (5) os espaços em branco são 0 - 0 = 0. A seção do conjunto da disposição 420 pode ser a mesma que a seção do conjunto da dis- posição 410 da FIGURA 4B.
[00164] Em algumas modalidades, os valores de Empilhamento na disposição 420 podem indicar uma possibilidade de que o conjunto 402 identifica incorretamente um nucleotídeo em um local. O sistema pode selecionar os locais para os quais é gerada uma entrada a um modelo de aprendizagem de máquina ao usar os valores. Tal como ilustrado na FIGURA 4C, os valores de Empilhamento diferentes de zero são destacados. Em algumas modalidades, o sistema pode ser configurado para determinar a geração de uma entrada a ser provida ao modelo de aprendizagem de máquina para um local quando um valor de Empilhamento no local excede um valor limite. Por exemplo, o sistema pode determinar a geração de uma entrada para o local no conjunto 402 que corresponde à coluna 422 ao determinar que uma diferença de 5 determinada para a adenina excede uma diferença limi- te de 4. As diferenças limites exemplificadoras são descritas no pre-
sente documento.
[00165] Em algumas modalidades, a disposição 420 pode ser pro- vida como a entrada ao modelo de aprendizagem de máquina para atualizar um local no conjunto (por exemplo, o local que corresponde à coluna 422). O sistema pode usar uma saída correspondente obtida a partir do modelo de aprendizagem de máquina para identificar um nu- cleotídeo que está presente no local no conjunto, e para atualizar por conseguinte o conjunto. Em algumas modalidades, a disposição 420 pode ser uma das múltiplas entradas providas ao modelo de aprendi- zagem de máquina como a parte do treinamento do modelo. O sistema pode usar as saídas correspondentes obtidas a partir do modelo de aprendizagem de máquina e as etiquetas 404 para determinar os ajus- tes em um ou mais parâmetros do modelo de aprendizagem de má- quina. Como um exemplo, o modelo de aprendizagem de máquina po- de ser uma rede neural, e o sistema pode usar a diferença entre os nucleotídeos das saídas identificados de aprendizagem de máquina do modelo e as etiquetas para determinar um ou mais ajustes aos pesos da rede neural.
[00166] Embora a modalidade exemplificadora da FIGURA 4A mos- tre os dados relacionados a ácidos nucleicos, em algumas modalida- des, os dados podem ser relacionados a uma proteína. Por exemplo, as sequências 401 podem ser sequências de aminoácidos, o conjunto 402 pode ser uma sequência de proteínas, e as etiquetas 404 podem ser aminoácidos de referência para cada um dos locais na sequência de proteínas. O sistema pode determinar os valores mostrados nas FIGURAS 4B-C com base nas sequências de aminoácidos, na se- quência de proteínas, e/ou nas etiquetas.
[00167] A FIGURA 5 ilustra um processo de atualização de um con- junto, de acordo com algumas modalidades da tecnologia descrita no presente documento. A FIGURA 5 mostra a geração da entrada dos dados do conjunto 500 a ser provida a um modelo de aprendizagem de máquina 502 para gerar um conjunto atualizado 508. Os dados do conjunto 500 podem ser, por exemplo, na forma dos dados descritos acima com referência à FIGURA 4C. O processo ilustrado de atualiza- ção pode ser executado pelo sistema do conjunto 104 descrito acima com referência às FIGURAS 1A-C.
[00168] Tal como mostrado na modalidade da FIGURA 5, o sistema seleciona os locais 504A e 506A no conjunto a ser atualizado. Como um exemplo, o sistema pode selecionar os locais 504A, 506A median- te: (1) a determinação das possibilidades de que o conjunto indica in- corretamente um polímero biológico (por exemplo, nucleotídeo, ami- noácido) em locais no conjunto; e (2) a determinação de que cada uma das possibilidades nos locais 504A, 506A excede uma possibilidade limite para selecionar as locais 504A, 506A. Quando o sistema seleci- ona os locais 504A, 506A, o sistema pode determinar a geração das entradas correspondentes a serem providas ao modelo de aprendiza- gem de máquina 502.
[00169] Tal como mostrado na modalidade da FIGURA 5, o sistema gera uma primeira entrada 504B que corresponde ao local 504A e uma segunda entrada 506B que corresponde ao local 506A. O sistema po- de gerar cada uma das entradas 504B, 506B tal como descrito acima com referência às FIGURAS 4A-C. Por exemplo, o sistema pode gerar cada uma das entradas 504B, 506B mediante: (1) a seleção de uma vizinhança de locais centrada no local; (2) a determinação dos valores de uma ou mais características em cada um dos locais na vizinhança; e (3) o uso dos valores de características como entrada para o local. Em algumas modalidades, o sistema pode ser configurado para arma- zenar os valores de características em uma estrutura de dados. Como um exemplo, o sistema pode armazenar os valores em uma disposição bidimensional, ou imagem, tal como ilustrado na FIGURA 4C.
[00170] Tal como mostrado na modalidade da FIGURA 5, o sistema provê cada uma das entradas geradas 504B, 506B como entrada ao modelo de aprendizagem de máquina 502 para obter as saídas cor- respondentes. A saída 504C corresponde à entrada 504B gerada para o local 504A, e a saída 506C corresponde à entrada 506B gerada do local 506A. Em algumas modalidades, o sistema pode ser configurado para prover sequencialmente as entradas 504B, 506B ao modelo de aprendizagem de máquina 502. Como um exemplo, o sistema pode: (1) prover a entrada 504B ao modelo de aprendizagem de máquina 502 para obter uma saída correspondente 504C; e (2) depois de ter obtido a saída 504C, prover a entrada 506B ao modelo de aprendiza- gem de máquina 502 para obter uma saída correspondente 506C. Em algumas modalidades, o sistema pode ser configurado para prover as entradas 504B, 506B ao modelo de aprendizagem de máquina 502 em paralelo. Como um exemplo, o sistema pode: (1) prover a entrada 504B ao modelo de aprendizagem de máquina 502; e (2) antes de ob- ter a saída 504C que corresponde à entrada 504B, prover a entrada 506B ao modelo de aprendizagem de máquina 502.
[00171] Tal como mostrado na modalidade da FIGURA 5, cada uma das saídas 504C, 506C indica as possibilidades de que cada um de um ou mais nucleotídeos está presente em um local no conjunto. Na modalidade da FIGURA 5, as possibilidades são probabilidades. Como um exemplo, a saída 504C especifica: (1) para cada um de quatro nu- cleotídeos diferentes, uma probabilidade de que o nucleotídeo está presente no local 504A; e (2) uma probabilidade de que nenhum nu- cleotídeo está presente no local 504A (representado pelo caractere "- "). Na saída 504C, a adenina tem uma probabilidade de 0,2, a citosina tem uma probabilidade de 0,5, a guanina tem uma probabilidade de 0,1, a timina tem uma probabilidade de 0,1, e há uma probabilidade de 0,1 de que nenhum nucleotídeo está no local 504A. Como um outro exemplo, a saída 506C especifica: (1) para cada um de quatro nucleo- tídeos diferentes, uma probabilidade de que o nucleotídeo está pre- sente no local 506A; e (2) uma probabilidade de que nenhum nucleotí- deo está presente no local 506A (representado pelo caractere "-"). Neste exemplo, a adenina tem uma probabilidade de 0,6, a citosina tem uma probabilidade de 0,1, a guanina tem uma probabilidade de 0,2, a timina tem uma probabilidade de 0,05, e há uma probabilidade de 0,05 de que nenhum nucleotídeo está no local 504A.
[00172] Tal como mostrado na modalidade da FIGURA 5, o sistema usa a saída obtida a partir do modelo de aprendizagem de máquina 502 para atualizar os locais no conjunto para obter um conjunto atuali- zado 508. Em algumas modalidades, o sistema pode ser configurado para atualizar o conjunto mediante: (1) a identificação de um nucleotí- deo que estava presente nos locais ao usar a saída obtida a partir do modelo de aprendizagem de máquina; e (2) a atualização dos locais no conjunto para indicar os nucleotídeos identificados para obter o conjunto atualizado 508. Tal como mostrado no exemplo da FIGURA 5, o sistema atualiza o local 504A no conjunto inicial mediante: (1) a determinação que a citosina tem a possibilidade maior de estar pre- sente no local ao usar a saída 504C; e (2) o ajuste do local correspon- dente 506A no conjunto atualizado 508 para indicar citosina "C" no lo- cal. Como um outro exemplo, o sistema atualiza o local 506A no con- junto inicial mediante: (1) a determinação que a adenina tem a possibi- lidade maior de estar presente no local ao usar a saída 506C; e (2) o ajuste do local correspondente 508B no conjunto atualizado 508 para indicar adenina "A". Em alguns exemplos, o sistema pode: (1) determi- nar que o nucleotídeo identificado em um local ao usar a saída obtida a partir do modelo de aprendizagem de máquina 502 já pode estar in- dicado no local; e (2) manter a indicação no local inalterada no conjun- to atualizado 508.
[00173] Embora o conjunto atualizado 508 seja mostrado separado do conjunto inicial, em algumas modalidades, o conjunto atualizado 508 pode ser uma versão atualizada de um conjunto inicial. Por exem- plo, o sistema pode armazenar um conjunto inicial na memória, e atua- lizar os valores do conjunto inicial na memória para obter o conjunto atualizado 508. Em algumas modalidades, o sistema pode gerar o con- junto atualizado 508 como um conjunto separado de um conjunto inici- al. Por exemplo, o sistema pode armazenar um conjunto inicial em um primeiro local de memória, e armazenar o conjunto atualizado 508 como um conjunto separado em um segundo local de memória.
[00174] Em algumas modalidades, o sistema pode ser configurado para executar sequencialmente atualizações em locais em um conjun- to inicial. Como um exemplo, o sistema pode: (1) atualizar o local 508A no conjunto atualizado 508 ao usar a saída 504C; e (2) depois de ter completado a atualização no local 508A, atualizar o local 508B no con- junto atualizado 508 ao usar a saída 506C. Em algumas modalidades, o sistema pode ser configurado para executar atualizações em locais em um conjunto inicial em paralelo. Como um exemplo, o sistema po- de: (1) começar a atualizar o local 508A ao usar a saída 504C; e (2) antes de terminar uma atualização no local 508A, começar a atualizar o local 508B ao usar a saída 506C.
[00175] Em algumas modalidades, o sistema pode ser configurado para executar um processo para gerar as entradas para os respectivos locais em um conjunto, prover as entradas ao modelo de aprendiza- gem de máquina 502, e atualizar os locais no conjunto ao usar as saí- das do modelo de aprendizagem de máquina em paralelo. Como um exemplo, o sistema pode: (1) começar a geração de uma entrada para o local 504A do conjunto inicial; e (2) antes de completar uma atualiza- ção ao local no local 504A, começar a geração de uma entrada para o local 506A do conjunto inicial. Ao colocar em paralelo as atualizações do conjunto, o sistema torna o processo de geração de um conjunto mais eficiente (por exemplo, ao requerer menos tempo). O sistema pode colocar em paralelos os processos ao usar múltiplos processado- res e/ou ao usar múltiplas cadeias de aplicação.
[00176] Embora a modalidade da FIGURA 5 ilustre a atualização de uma porção de um conjunto de genomas, algumas modalidades po- dem executar o processo ilustrado para atualizar uma sequência de proteínas ou uma porção da mesma. Por exemplo, o conjunto inicial pode ser uma sequência de proteínas. O sistema pode então gerar entradas para locais na sequência de proteínas para prover ao modelo de aprendizagem de máquina 502. O sistema pode obter a saída que indica as possibilidades (por exemplo, probabilidades) de que cada um de múltiplos aminoácidos está presente no local. O sistema pode en- tão atualizar a sequência inicial de proteínas para obter uma sequên- cia de proteínas atualizada.
[00177] A FIGURA 6 ilustra um exemplo de um modelo de rede neural convolucional 600 para gerar um conjunto, de acordo com al- gumas modalidades da tecnologia descrita no presente documento. Em algumas modalidades, o modelo de rede neural convolucional 600 pode ser treinado ao executar o processo 300 descrito acima com re- ferência à FIGURA 3A. Em algumas modalidades, o modelo de rede neural convolucional treinado 600 obtido a partir do processo 300 pode ser usado para executar o processo 310 para a geração de um conjun- to tal como descrito acima com referência à FIGURA 3B.
[00178] Em algumas modalidades, o modelo 600 é configurado pa- ra receber a entrada gerada a partir dos dados de sequenciamento, e um conjunto gerado a partir dos dados de sequenciamento. Como um exemplo, o modelo 600 pode ser um modelo de aprendizagem de má- quina usado pelo sistema do conjunto 104 descrito acima com referên- cia às FIGURAS 1A-C. Os dados de sequenciamento podem incluir sequências de polímeros biológicos (por exemplo, sequências de nu- cleotídeos ou sequências de aminoácidos). Em algumas modalidades, o sistema pode ser configurado para determinar valores de uma ou mais características, e prover os valores determinados como entrada ao modelo 600. Como um exemplo, o sistema pode determinar os va- lores de características em uma vizinhança de locais em um conjunto e fornecer os valores determinados na vizinhança dos locais como en- trada ao modelo 600. As entradas exemplificadoras e as técnicas para a geração de entradas são descritas no presente documento.
[00179] Na modalidade exemplificadora da FIGURA 6, o modelo 600 inclui uma primeira camada convolucional 602 que recebe a en- trada provida ao modelo 600. Na primeira camada 602, o sistema con- volve a entrada provida ao modelo 600 com 64 filtros de 3 x 5 repre- sentados como uma matriz de 3 x 5 x 64. Por exemplo, o sistema pode convolver uma matriz de entrada de 10 x 25 (por exemplo, tal como ilustrado na FIGURA 4C) com cada canal da matriz de 3 x 5 x 64 para obter uma saída. A primeira camada 602 inclui uma função ReLu como uma função de ativação que o sistema aplica à saída da convolução. Em algumas modalidades, a primeira camada 602 também pode incluir uma camada de aglomeração para reduzir o tamanho da saída da convolução.
[00180] Na modalidade exemplificadora da FIGURA 6, o modelo inclui uma segunda camada convolucional 604 que recebe a saída da primeira camada 602. Na segunda camada 604, o sistema convolves a entrada com um conjunto de 128 filtros de 3 x 5 representados como uma matriz de 3 x 5 x 128. O sistema pode convolver a saída da pri- meira camada convolucional 602 com o conjunto de filtros de 3 x 5 x
128. A segunda camada convolucional 604 inclui uma função ReLU como uma função de ativação que o sistema aplica à saída da convo- lução. Em algumas modalidades, a segunda camada 604 também po-
de incluir uma camada de aglomeração para reduzir o tamanho da sa- ída da convolução. A saída da segunda camada convolucional 604 é passada então a uma terceira camada convolucional 606. Na terceira camada 606, o sistema convolve a entrada com um conjunto de 256 filtros de 3 x 5 representados como uma matriz de 3 x 5 x 256. O sis- tema aplica então uma função de ativação ReLu à saída da convolu- ção. Em algumas modalidades, a terceira camada 606 também pode incluir uma camada de aglomeração para reduzir o tamanho da saída da convolução.
[00181] Na modalidade exemplificadora da FIGURA 6, o modelo 600 inclui uma camada densa 608 que tem 5 camadas totalmente co- nectadas, cada uma das quais recebe 256 valores de entrada. O sis- tema pode condensar uma saída obtida da terceira camada convoluci- onal 606 para prover como entrada à camada densa 608. A camada densa 608 pode emitir múltiplos valores, onde cada valor indica uma possibilidade de que um respectivo polímero biológico (por exemplo, nucleotídeo ou aminoácido) está presente em um local para o qual uma entrada foi provida ao modelo 600. Como um exemplo, a camada densa pode emitir cinco valores, onde cada valor indica uma possibili- dade de que um nucleotídeo (por exemplo, adenina, citosina, guanina, timina, e/ou nenhum nucleotídeo) está presente no local. O sistema pode aplicar uma função softmax à saída da camada densa 608 para obter um conjunto de valores da possibilidade de que somam 1. Tal como mostrado na modalidade exemplificadora da FIGURA 6, o siste- ma aplica uma função softmax à saída da camada densa 608 para ob- ter uma saída 610 de 5 possibilidades que indicam as possibilidades de que os respectivos nucleotídeos estão presentes em um local em um conjunto. A saída 610 pode ser usada para atualizar um conjunto (por exemplo, tal como descrito acima com referência à FIGURA 5).
[00182] A FIGURA 7 ilustra os resultados do desempenho das téc-
nicas de acordo com algumas modalidades da tecnologia descrita no presente documento. Cada um dos gráficos mostra as melhorias na precisão providas pelas técnicas em relação às técnicas convencio- nais. Na FIGURA 7, Canu e Miniasm são duas técnicas de conjunto convencionais. Miniasm+Racon representa Miniasm com a aplicação da correção de erro e Rracon. Canu+Quorum é uma implementação das técnicas descritas no presente documento para corrigir um conjun- to gerado a partir de Canu. Miniasm+Quorum é uma implementação das técnicas descritas no presente documento para corrigir um conjun- to gerado a partir de Miniasm.
[00183] Tal como ilustrado na FIGURA 7, Miniasm+Quorum tem significativamente menos taxas de erro do que Miniasm+Racon para cada uma das amostras de dados. Como um exemplo, para E. coli dos dados de 30X Pacbio, cada iteração de Miniasm+Quorum (representa- da por pontos conectados) tem taxas de erro de menos de 100 er- ros/100 kilobases, ao passo que Miniasm+Racon tem uma taxa de erro mínima de cerca de 200 erros/100 kilo-bases. Como um outro exem- plo, para E. coli dos dados de 30X Ontário, cada iteração de Mini- asm+Quorum tem taxas de erro de cerca de 400 erros/100 kilo-bases, ao passo que Miniasm+Racon tem taxas de erro de cerca de 500 er- ror/100 kilo-bases.
[00184] Tal como ilustrado na FIGURA 7, Canu+Quorum propicia uma precisão melhorada em relação aos resultados de Canu apenas. Embora Canu inclua técnicas de correção de erro convencionais in- corporadas, as técnicas descritas no presente documento propiciam uma precisão melhorada da geração do conjunto. Como um exemplo, para E. coli dos dados de 30X Ontário, Canu tem uma taxa de erro de mais de 500 erros/100 kilo-bases, ao passo que cada iteração de Ca- nu+Quorum tem uma taxa de erro de menos de 350 erros/100 kilo- bases.
[00185] Tal como ilustrado na FIGURA 7, as técnicas descritas no presente documento podem prover uma precisão melhorada dos con- juntos sem adicionar quantidades substancialmente grandes de tempo de computação para executar a correção de erros. Como um exemplo, Miniasm+Quorum propicia uma precisão melhor do que Mini- asm+Racon substancialmente no mesmo número de horas da CPU. Como um outro exemplo, Canu+Quorum propicia uma precisão melhor do que Canu apenas sem aumentar substancialmente o número de horas da CPU para corrigir o conjunto.
[00186] Em algumas modalidades, os sistemas e as técnicas des- critos no presente documento podem ser executados ao usar um ou mais dispositivos de computação. As modalidades, no entanto, não são limitadas à operação com qualquer tipo particular de dispositivo de computação. A fim de ilustrar ainda mais, a FIGURA 8 é um diagrama de blocos de um dispositivo de computação ilustrativo 800. O dispositi- vo computando 800 pode incluir um ou mais processadores 802 e um ou mais meios de armazenamento que podem ser lidos por computa- dor não transitórios tangíveis (por exemplo, a memória 804). A memó- ria 804 pode armazenar, em um meio que pode ser gravável em com- putador-não transitório tangível, as instruções de programa de compu- tador que, quando executadas, implementam qualquer uma das funci- onalidades descritas acima. O(s) processador(es) 802 pode(m) ser acoplado(s) à memória 804 e pode(m) executar tais instruções de pro- grama de computador para fazer com que a funcionalidade seja reali- zada e executada.
[00187] O dispositivo de computação 800 também pode incluir uma interface de entrada/saída (I/O) de rede através da qual o dispositivo de computação pode se comunicar com outros dispositivos de compu- tação (por exemplo, por uma rede), e também pode incluir uma ou mais interfaces de I/O do usuário 808, através das quais o dispositivo de computação pode prover a saída e receber a entrada de um usuá- rio. As interfaces de I/O do usuário podem incluir dispositivos tais co- mo um teclado, um mouse, um microfone, um dispositivo de exibição (por exemplo, um monitor ou uma tela de toque), alto-falantes, uma câmera, e/ou vários outros tipos de dispositivos de I/O.
[00188] As modalidades descritas acima podem ser implementadas em qualquer uma de numerosas maneiras. Como um exemplo, as mo- dalidades podem ser implementadas ao usar hardware, software ou uma combinação destes. Quando implementado em software, o código do software pode ser executado em qualquer processador apropriado (por exemplo, um microprocessador) ou coleção de processadores, quer sejam providos em um único dispositivo de computação ou distri- buídos entre múltiplos dispositivos de computação. Deve ser apreciado que qualquer componente ou coleção de componentes que executam as funções descritas acima podem ser genericamente considerados como um ou mais controladores que controlam as funções discutidas acima. Um ou mais controladores podem ser implementados de nume- rosas maneiras, tal como com um hardware dedicado, ou com um hardware de finalidades gerais (por exemplo, um ou mais processado- res) que é programado ao usar o microcódigo ou o software para exe- cutar as funções recitadas acima.
[00189] A este respeito, deve ser apreciado que uma implementa- ção das modalidades descritas no presente documento compreende pelo menos um meio de armazenamento que pode ser lido por compu- tador (por exemplo, RAM, ROM, EEPROM, memória flash ou uma ou- tra tecnologia de memória, CD-ROM, discos versáteis digitais (DVD) ou outros armazenamentos em disco óptico, cassetes magnéticos, fita magnética, armazenamento em disco magnético ou outros dispositivos de armazenamento magnético, ou um outro meio de armazenamento que pode ser lido por computador não transitório tangível) codificado com um programa de computador (isto é, uma pluralidade de instru- ções executáveis) que, quando executado em um ou mais processa- dores, executa as funções discutidas acima de uma ou mais modali- dades. O meio que pode ser lido por computador pode ser transportá- vel de maneira tal que o programa armazenado no mesmo pode ser carregado em qualquer dispositivo de computação para implementar aspectos das técnicas discutidas no presente documento. Além disso, deve ser apreciado que a referência a um programa de computador que, quando executado, executa qualquer uma das funções discutidas acima, não é limitado a um programa de aplicativo que roda em um computador hospedeiro. Ao invés disto, os termos programa de com- putador e software são usados no presente documento em um sentido genérico para se referir a qualquer tipo de código de computador (por exemplo, software de aplicativo, firmware, microcódigo, ou qualquer outra forma de instrução de computador) que pode ser empregado pa- ra programar um ou mais processadores para executar aspectos das técnicas discutidas no presente documento.
[00190] Várias características e aspectos da presente invenção po- dem ser usados sozinhos, em qualquer combinação de dois ou mais, ou em uma variedade de arranjos não especificamente discutidos nas modalidades descritas acima e, consequentemente, não são limitados em sua aplicação aos detalhes e ao arranjo dos componentes indica- dos na descrição acima ou ilustrado nos desenhos. Como um exem- plo, os aspectos descritos em uma modalidade podem ser combinados de qualquer maneira com os aspectos descritos em outras modalida- des.
[00191] Os termos "aproximadamente", "substancialmente" e "cerca de" podem ser usados para indicar dentro de ±20% de um valor alvo em algumas modalidades, dentro de ±10% de um valor alvo em algu- mas modalidades, dentro de ±5% de um valor alvo em algumas moda-
lidades, e dentro de ±2% de um valor alvo em algumas modalidades. Os termos "aproximadamente" e "cerca de" podem incluir o valor alvo.
[00192] Além disso, os conceitos divulgados no presente documen- to podem ser incorporados como um método, do qual foi provido um exemplo. Os atos executados como parte do método podem ser orde- nados de qualquer maneira apropriada. Por conseguinte, podem ser construídas modalidades nas quais os atos são executados em uma ordem diferente do que é ilustrado, o que pode incluir a execução de alguns atos simultaneamente, embora sejam mostrados como atos sequenciais nas modalidades ilustrativas.
[00193] O uso de termos ordinais tais como "primeiro", "segundo", "terceiro", etc., nas reivindicações para modificar um elemento da rei- vindicação não conota em si nenhuma prioridade, precedência ou or- dem de um elemento da reivindicação em relação a outro ou a ordem temporal em que os atos de um método são executados, mas são usados meramente como etiquetas para distinguir um elemento da rei- vindicação que tem um determinado nome de um outro elemento que tem um mesmo nome (mas para o uso do termo ordinal) para distinguir os elementos da reivindicação.
[00194] Além disso, a fraseologia e a terminologia usadas no pre- sente documento são para a finalidade de descrição e não devem ser consideradas como limitadoras. O uso de "inclui", "compreende", "tem", "contém", "envolve" e as suas variações no presente documento se presta a abranger os itens listados a seguir e seus equivalentes, bem como itens adicionais.

Claims (66)

REIVINDICAÇÕES
1. Método de geração de um conjunto de polímeros biológi- cos de uma macromolécula, caracterizado pelo fato de que compreen- de: o uso de pelo menos um processador de hardware de com- putador para executar: o acesso a uma pluralidade de sequências de polímeros biológicos e um conjunto que indica os polímeros biológicos presentes nos respectivos locais do conjunto; a geração, ao usar a pluralidade de sequências de políme- ros biológicos e o conjunto, de uma primeira entrada a ser provida a um modelo de aprendizagem profunda treinada; a provisão da primeira entrada ao modelo de aprendizagem profunda treinada para obter uma primeira saída correspondente que indica, para cada local de uma primeira pluralidade de locais do con- junto, um ou mais possibilidades de que cada um de um ou mais res- pectivos polímeros biológicos está presente no local; a identificação de polímeros biológicos na primeira plurali- dade de locais do conjunto ao usar a primeira saída do modelo de aprendizagem profunda treinada; e a atualização do conjunto para indicar os polímeros biológi- cos identificados na primeira pluralidade de locais do conjunto para obter um conjunto atualizado.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que a macromolécula compreende uma proteína, a plura- lidade de sequências de polímeros biológicos compreende uma plura- lidade de sequências de aminoácidos, e o conjunto indica os aminoá- cidos nos respectivos locais do conjunto.
3. Método de acordo com a reivindicação 1 ou qualquer ou- tra reivindicação 1, caracterizado pelo fato de que a macromolécula compreende um ácido nucleico, a pluralidade de sequências de polí- meros biológicos compreende uma pluralidade de sequências de nu- cleotídeos, e o conjunto indica os nucleotídeos nos respectivos locais do conjunto.
4. Método de acordo com a reivindicação 3 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que: o conjunto indica um primeiro nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto; a identificação dos polímeros biológicos na primeira plurali- dade de locais do conjunto compreende a identificação de um segundo nucleotídeo no primeiro local do conjunto; e a atualização do conjunto compreende a atualização do conjunto para indicar o segundo nucleotídeo no primeiro local do con- junto.
5. Método de acordo com a reivindicação 3 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que compre- ende adicionalmente, após a atualização do conjunto para obter o con- junto atualizado: o alinhamento da pluralidade de sequências de nucleotí- deos ao conjunto atualizado; a geração, ao usar a pluralidade de sequências de nucleo- tídeos e o conjunto atualizado, de uma segunda entrada a ser provida ao modelo de aprendizagem profunda treinada; a provisão da segunda entrada ao modelo de aprendiza- gem profunda treinada para obter uma segunda saída correspondente que indica, para cada local de uma segunda pluralidade de locais do conjunto, um ou mais possibilidades de que cada um de um ou mais respectivos nucleotídeos está presente no local; a identificação dos nucleotídeos na segunda pluralidade de locais do conjunto com base na segunda saída do modelo de aprendi-
zagem profunda treinada; e a atualização do conjunto atualizado para indicar os nucleo- tídeos identificados na segunda pluralidade de locais do conjunto para obter um segundo conjunto atualizado.
6. Método de acordo com a reivindicação 3 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que compre- ende adicionalmente o alinhamento da pluralidade de sequências de nucleotídeos ao conjunto.
7. Método de acordo com a reivindicação 6 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a plurali- dade de sequências de nucleotídeos compreende pelo menos 9 se- quências de nucleotídeos.
8. Método de acordo com a reivindicação 3 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a geração da primeira entrada ao modelo de aprendizagem profunda treinada compreende: a seleção da primeira pluralidade de locais do conjunto; e a geração da primeira entrada com base na primeira plura- lidade selecionada de locais do conjunto.
9. Método de acordo com a reivindicação 8 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a seleção da primeira pluralidade de locais no conjunto compreende: a determinação de possibilidades de que o conjunto indica incorretamente os nucleotídeos na primeira pluralidade de locais do conjunto; e a seleção da primeira pluralidade de locais do conjunto ao usar as possibilidades determinadas.
10. Método de acordo com a reivindicação 3 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada compreende a comparação das respectivas sequên- cias da pluralidade de sequências de nucleotídeos ao conjunto.
11. Método de acordo com a reivindicação 3 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada para identificar um nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto compreende: para cada um de múltiplos nucleotídeos em cada um de um ou mais locais do conjunto em uma vizinhança do primeiro local do conjunto: a determinação de uma contagem que indica um número de pluralidade de sequências de nucleotídeos que indicam que o nu- cleotídeo está no local; a determinação de um valor de referência com base no fato se o conjunto indica o nucleotídeo no local; a determinação de um valor de erro que indica uma dife- rença entre a contagem e o valor de referência; e a inclusão do valor de referência e do valor de erro na pri- meira entrada.
12. Método de acordo com a reivindicação 11 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a de- terminação do valor de referência com base no fato o conjunto indica o nucleotídeo no local compreende: a determinação do valor de referência como um primeiro valor quando o conjunto indica o nucleotídeo no local; e a determinação do valor de referência como um segundo valor quando o conjunto não indica o nucleotídeo no local.
13. Método de acordo com a reivindicação 12 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que: o primeiro valor é um número da pluralidade de sequências de nucleotídeos; e o segundo valor é 0.
14. Método de acordo com a reivindicação 11 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada compreende o arranjo dos valores em uma estrutura de dados que tem colunas, em que: uma primeira coluna contém os valores de referência e os valores de erro determinados para os múltiplos nucleotídeos no primei- ro local do conjunto; e uma segunda coluna contém os valores de referência e os valores de erro determinados para os múltiplos múltiplos nucleotídeos no segundo local o um ou mais locais do conjunto na vizinhança do primeiro local do conjunto.
15. Método de acordo com a reivindicação 11 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que um ou mais locais do conjunto na vizinhança do primeiro local do conjunto compreendem pelo menos dois locais do conjunto separados do pri- meiro local do conjunto.
16. Método de acordo com a reivindicação 3 ou qualquer outra reivindicação 3, caracterizado pelo fato de que uma ou mais possibilidades de que cada um de um ou mais respectivos polímeros biológico estão presentes no local do conjunto compreendem, para cada um de múltiplos nucleotídeos, uma possibilidade de que o nucle- otídeo está presente no local do conjunto; e a identificação de polímeros biológicos na primeira plurali- dade de locais do conjunto compreende a identificação de um nucleo- tídeo em um primeiro local da primeira pluralidade de locais do conjun- to como um primeiro dos múltiplos nucleotídeos ao determinar que uma possibilidade de que o primeiro nucleotídeo está presente no pri-
meiro local é maior do que uma possibilidade de que um segundo dos múltiplos nucleotídeos está presente no primeiro local do conjunto.
17. Método de acordo com a reivindicação 3 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que com- preende adicionalmente a geração do conjunto a partir da pluralidade de sequências de nucleotídeos.
18. Método de acordo com a reivindicação 17 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção do conjunto a partir da pluralidade de sequências de nucleotídeos compreende a determinação de uma sequência de consenso a partir da pluralidade de sequências de nucleotídeos ser o conjunto.
19. Método de acordo com a reivindicação 17 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção do conjunto a partir da pluralidade de sequências de nucleotídeos compreende a aplicação de um algoritmo de consenso de arranjo de sobreposição (OLC) à pluralidade de sequências de nucleotídeos.
20. Método de acordo com a reivindicação 1 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que com- preende adicionalmente: o acesso aos dados de treinamento que incluem as se- quências de polímeros biológicos obtidas dos sequenciamentos de uma macromolécula de referência e um conjunto predeterminado de macromoléculas de referência; e o treinamento de um modelo de aprendizagem profunda ao usar os dados do treinamento para obter o modelo de aprendizagem profunda treinada.
21. Método de acordo com a reivindicação 20 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a ma- cromolécula de referência é diferente da macromolécula.
22. Método de acordo com a reivindicação 1 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que o mo- delo de aprendizagem profunda compreende uma rede neural convo- lucional (CNN).
23. Sistema para a geração de um conjunto de polímeros biológicos de uma macromolécula, caracterizado pelo fato de que compreende: pelo menos um processador de hardware de computador; e pelo menos um meio de armazenamento que pode ser lido por computador não transitório que armazena instruções que, quando executadas por pelo menos um processador de hardware de compu- tador, fazem com que pelo menos um processador de hardware de computador execute: o acesso a uma pluralidade de sequências de polímeros biológicos e um conjunto que indica os polímeros biológicos presentes nos respectivos locais do conjunto; a geração, ao usar a pluralidade do sequências de políme- ros biológicos e o conjunto, de uma primeira entrada a ser provida a um modelo de aprendizagem profunda treinada; a provisão da primeira entrada ao modelo de aprendizagem profunda treinada para obter uma primeira saída correspondente que indica, para cada local de uma primeira pluralidade locais do conjunto, um ou mais possibilidades de que cada um de um ou mais respectivos polímeros biológicos está presente no local; a identificação de polímeros biológicos na primeira plurali- dade de locais do conjunto ao usar a primeira saída do modelo de aprendizagem profunda treinada; e a atualização do conjunto para indicar os polímeros biológi- cos identificados na primeira pluralidade de locais do conjunto para obter um conjunto atualizado.
24. Sistema de acordo com a reivindicação 23, caracteriza-
do pelo fato de que a macromolécula compreende uma proteína, a plu- ralidade de sequências de polímeros biológicos compreende uma plu- ralidade de sequências de aminoácidos, e o conjunto indica os amino- ácidos nos respectivos locais do conjunto.
25. Sistema de acordo com a reivindicação 23 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a ma- cromolécula compreende um ácido nucleico, a pluralidade de sequên- cias de polímeros biológicos compreende uma pluralidade de sequên- cias de nucleotídeos, e o conjunto indica nucleotídeos nos respectivos locais do conjunto.
26. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que: o conjunto indica um primeiro nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto; a identificação dos polímeros biológicos na primeira plurali- dade de locais do conjunto compreende a identificação de um segundo nucleotídeo no primeiro local do conjunto; e a atualização do conjunto compreende a atualização do conjunto para indicar o segundo nucleotídeo no primeiro local do con- junto.
27. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que as ins- truções também fazem com que pelo menos um processador de hardware de computador execute, depois de ter atualizado o conjunto para obter o conjunto atualizado: o alinhamento da pluralidade de sequências de nucleotí- deos ao conjunto atualizado; a geração, ao usar a pluralidade de sequências de nucleo- tídeos e o conjunto atualizado, de uma segunda entrada a ser provida ao modelo de aprendizagem profunda treinada;
a provisão da segunda entrada ao modelo de aprendiza- gem profunda treinada para obter uma segunda saída correspondente que indica, para cada local de uma segunda pluralidade locais do con- junto, um ou mais possibilidades de que cada um de um ou mais res- pectivos nucleotídeos está presente no local; a identificação dos nucleotídeos na segunda pluralidade das locais do conjunto com base na segunda saída do modelo de aprendizagem profunda treinada; e a atualização do conjunto atualizado para indicar os nucleo- tídeos identificados na segunda pluralidade de locais do conjunto para obter um segundo conjunto atualizado.
28. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que as ins- truções também fazem com que pelo menos um processador de hardware de computador execute o alinhamento da pluralidade de se- quências de nucleotídeo ao conjunto.
29. Sistema de acordo com a reivindicação 28 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a plura- lidade de sequências de nucleotídeos compreende pelo menos 9 se- quências de nucleotídeos.
30. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção da primeira entrada ao modelo de aprendizagem profunda treina- da compreende: a seleção da primeira pluralidade de locais do conjunto; e a geração da primeira entrada com base na primeira plura- lidade selecionada de locais do conjunto.
31. Sistema de acordo com a reivindicação 30 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a sele- ção da primeira pluralidade de locais no conjunto compreende:
a determinação de possibilidades de que o conjunto indica incorretamente nucleotídeos na primeira pluralidade de locais do con- junto; e a seleção da primeira pluralidade de locais do conjunto ao usar as possibilidades determinadas.
32. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada compreende a comparação das respectivas sequên- cias da pluralidade de sequências de nucleotídeos ao conjunto.
33. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada para identificar um nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto compreende: para cada um de múltiplos nucleotídeos em cada um de um ou mais locais do conjunto em uma vizinhança do primeiro local do conjunto: a determinação de uma contagem que indica um número de pluralidade das sequências de nucleotídeos que indicam que o nu- cleotídeo está no local; a determinação de um valor de referência com base no fato se o conjunto indica o nucleotídeo no local; a determinação de um valor de erro que indica uma dife- rença entre a contagem e o valor de referência; e a inclusão do valor de referência e do valor de erro na pri- meira entrada.
34. Sistema de acordo com a reivindicação 33 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a de- terminação do valor de referência com base no fato se o conjunto indi-
ca o nucleotídeo no local compreende: a determinação do valor de referência como um primeiro valor quando o conjunto indica o nucleotídeo no local; e a determinação do valor de referência como um segundo valor quando o conjunto não indica o nucleotídeo no local.
35. Sistema de acordo com a reivindicação 34 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que: o primeiro valor é um número da pluralidade de sequências de nucleotídeos; e o segundo valor é 0.
36. Sistema de acordo com a reivindicação 33 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção da primeira entrada a ser provida ao modelo de aprendizagem profunda treinada compreende o arranjo dos valores em uma estrutura de dados que tem colunas, em que: uma primeira coluna contém os valores de referência e os valores de erro determinados para os múltiplos nucleotídeos no primei- ro local do conjunto; e uma segunda coluna contém os valores de referência e os valores de erro determinados para os múltiplos nucleotídeos em um segundo local de um ou mais locais do conjunto na vizinhança do pri- meiro local do conjunto.
37. Sistema de acordo com a reivindicação 33 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que um ou mais locais do conjunto na vizinhança do primeiro local do conjunto compreendem pelo menos dois locais do conjunto separados do pri- meiro local do conjunto.
38. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que uma ou mais possibilidades de que cada um de um ou mais respectivos polí-
meros biológicos está presente no local do conjunto compreende, para cada um de múltiplos nucleotídeos, uma possibilidade de que o nucle- otídeo está presente no local do conjunto; e a identificação dos polímeros biológicos na primeira plurali- dade de locais do conjunto compreende a identificação de um nucleo- tídeo em um primeiro local da primeira pluralidade de locais do conjun- to como um primeiro de múltiplos nucleotídeos ao determinar que uma possibilidade de que o primeiro nucleotídeo está presente no primeiro local é maior do que uma possibilidade de que um segundo nucleotí- deo de múltiplos nucleotídeos está presente no primeiro local do con- junto.
39. Sistema de acordo com a reivindicação 25 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que as ins- truções também fazem com que pelo menos um processador de hardware de computador execute e geração do conjunto a partir da pluralidade de sequências de nucleotídeos.
40. Sistema de acordo com a reivindicação 39 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção do conjunto a partir da pluralidade de sequências de nucleotídeos compreende a determinação de uma sequência de consenso a partir da pluralidade de sequências de nucleotídeos como o conjunto.
41. Sistema de acordo com a reivindicação 39 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a gera- ção do conjunto a partir da pluralidade de sequências de nucleotídeos compreende a aplicação de um algoritmo de consenso de arranjo de sobreposição (OLC) à pluralidade de sequências de nucleotídeos.
42. Sistema de acordo com a reivindicação 23 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que as ins- truções também fazem com que pelo menos um processador de hardware de computador execute:
o acesso aos dados de treinamento que incluem as se- quências de polímeros biológicos obtidas a partir do sequenciamento de uma macromolécula de referência e um conjunto predeterminado de macromoléculas de referência; e o treinamento de um modelo de aprendizagem profunda ao usar os dados do treinamento para obter o modelo de aprendizagem profunda treinada.
43. Método de acordo com a reivindicação 42 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que a ma- cromolécula de referência é diferente da macromolécula.
44. Sistema de acordo com a reivindicação 23 ou qualquer outra reivindicação precedente, caracterizado pelo fato de que o mo- delo de aprendizagem profunda compreende uma rede neural convo- lucional (CNN).
45. Meio de armazenamento que pode ser lido por compu- tador não transitório, caracterizado pelo fato de que armazena instru- ções que, quando executadas pelo menos por um processador de hardware de computador, fazem com que pelo menos um processador de hardware de computador execute um método de geração de um conjunto de polímeros biológicos de uma macromolécula, em que o método compreende: o acesso a uma pluralidade de sequências de polímeros biológicos e um conjunto que indica os polímeros biológicos presentes nos respectivos locais do conjunto; a geração, ao usar a pluralidade de sequências de políme- ros biológicos e o conjunto, de uma primeira entrada a ser provida a um modelo de aprendizagem profunda treinada; a provisão da primeira entrada ao modelo de aprendizagem profunda treinada para obter uma primeira saída correspondente que indica, para cada local de uma primeira pluralidade de locais do con-
junto, uma ou mais possibilidades de que cada um de um ou mais res- pectivos polímeros biológicos está presente no local; a identificação dos polímeros biológicos na primeira plurali- dade de locais do conjunto ao usar a primeira saída do modelo de aprendizagem profunda treinada; e a atualização do conjunto para indicar os polímeros biológi- cos identificados na primeira pluralidade de locais do conjunto para obter um conjunto atualizado.
46. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 45, caracterizado pelo fato de que a macromolécula compreende uma proteína, a plura- lidade de sequências de polímeros biológicos compreende uma plura- lidade de sequências de aminoácidos, e o conjunto indica os aminoá- cidos nos respectivos locais do conjunto.
47. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 45 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a macro- molécula compreende um ácido nucleico, a pluralidade de sequências de polímeros biológicos compreende uma pluralidade de sequências de nucleotídeos, e o conjunto indica os nucleotídeos nos respectivos locais do conjunto.
48. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que: o conjunto indica um primeiro nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto; a identificação dos polímeros biológicos na primeira plurali- dade de locais do conjunto compreende a identificação de um segundo nucleotídeo no primeiro local do conjunto; e a atualização do conjunto compreende a atualização do conjunto para indicar o segundo nucleotídeo no primeiro local do con- junto.
49. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que o método também compreende, depois de ter atualizado o conjunto para obter o conjunto atualizado: o alinhamento da pluralidade de sequências de nucleotí- deos ao conjunto atualizado; a geração, ao usar a pluralidade do sequências de nucleo- tídeos e o conjunto atualizado, de uma segunda entrada a ser provida ao modelo de aprendizagem profunda treinada; a provisão da segunda entrada ao modelo de aprendiza- gem profunda treinada para obter uma segunda saída correspondente que indica, para cada local de uma segunda pluralidade de locais do conjunto, um ou mais possibilidades de que cada um de um ou mais respectivos nucleotídeos está presente no local; a identificação dos nucleotídeos na segunda pluralidade de locais do conjunto com base na segunda saída do modelo de aprendi- zagem profunda treinada; e a atualização do conjunto atualizado para indicar os nucleo- tídeos identificados na segunda pluralidade de locais do conjunto para obter um segundo conjunto atualizado.
50. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que o método também compreende o alinhamento da pluralidade de sequências de nucleotídeos ao conjunto.
51. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 50 ou qualquer ou-
tra reivindicação precedente, caracterizado pelo fato de que a plurali- dade de sequências de nucleotídeos compreende pelo menos 9 se- quências de nucleotídeos.
52. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a geração da primeira entrada ao modelo de aprendizagem profunda treinada compreende: a seleção da primeira pluralidade de locais do conjunto; e a geração da primeira entrada com base na primeira plura- lidade selecionado de locais do conjunto.
53. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 52 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a seleção da primeira pluralidade de locais no conjunto compreende: a determinação de possibilidades de que o conjunto indica incorretamente os nucleotídeos na primeira pluralidade de locais do conjunto; e a seleção da primeira pluralidade de locais do conjunto ao usar as possibilidades determinadas.
54. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a geração da primeira entrada a ser provida ao modelo de aprendizagem profun- da treinada compreende a comparação das respectivas sequências da pluralidade de sequências de nucleotídeos ao conjunto.
55. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a geração da primeira entrada a ser provida ao modelo de aprendizagem profun-
da treinada para identificar um nucleotídeo em um primeiro local da primeira pluralidade de locais do conjunto compreende: para cada um de múltiplos nucleotídeos em cada um de um ou mais locais do conjunto em uma vizinhança do primeiro local do conjunto: a determinação de uma contagem que indica um número de pluralidade de sequências de nucleotídeos que indicam que o nu- cleotídeo está no local; a determinação de um valor de referência com base no fato se o conjunto indica o nucleotídeo no local; a determinação de um valor de erro que indica uma dife- rença entre a contagem e o valor de referência; e a inclusão do valor de referência e do valor de erro na pri- meira entrada.
56. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 55 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a determi- nação do valor de referência com base no fato se o conjunto indica o nucleotídeo no local compreende: a determinação do valor de referência como um primeiro valor quando o conjunto indica o nucleotídeo no local; e a determinação do valor de referência como um segundo valor quando o conjunto não indica o nucleotídeo no local.
57. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 56 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que: o primeiro valor é um número da pluralidade de sequências de nucleotídeos; e o segundo valor é 0.
58. Meio de armazenamento que pode ser lido por compu-
tador não transitório de acordo com a reivindicação 55 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a geração da primeira entrada a ser provida ao modelo de aprendizagem profun- da treinada compreende o arranjo dos valores em uma estrutura de dados que tem colunas, em que: uma primeira coluna contém os valores de referência e os valores de erro determinados para os múltiplos nucleotídeos no primei- ro local do conjunto; e uma segunda coluna contém os valores de referência e os valores de erro determinados para os múltiplos nucleotídeos em um segundo local de um ou mais locais do conjunto na vizinhança do pri- meiro local do conjunto.
59. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 55 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que um ou mais locais do conjunto na vizinhança do primeiro local do conjunto compreende pelo menos dois locais do conjunto separados do primei- ro local do conjunto.
60. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que uma ou mais possibilidades de que cada um de um ou mais respectivos polí- meros biológicos está presente no local do conjunto compreendem, para cada um de múltiplos nucleotídeos, uma possibilidade de que o nucleotídeo está presente no local do conjunto; e a identificação dos polímeros biológicos na primeira plurali- dade de locais do conjunto compreende a identificação de um nucleo- tídeo em um primeiro local da primeira pluralidade de locais do conjun- to como um primeiro dos múltiplos nucleotídeos ao determinar que uma possibilidade de que o primeiro nucleotídeo está presente no pri-
meiro local é maior do que uma possibilidade de que um segundo dos múltiplos nucleotídeos está presente no primeiro local do conjunto.
61. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 47 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que o método também compreende a geração do conjunto a partir da pluralidade de sequências de nucleotídeos.
62. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 61 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a geração do conjunto a partir da pluralidade de sequências de nucleotídeos compreende a determinação de uma sequência de consenso a partir da pluralidade de sequências de nucleotídeos como o conjunto.
63. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 61 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a geração do conjunto a partir da pluralidade de sequências de nucleotídeos compreende a aplicação de um algoritmo de consenso de arranjo de sobreposição (OLC) à pluralidade de sequências de nucleotídeos.
64. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 45 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que o método também compreende: o acesso aos dados de treinamento incluindo as sequên- cias de polímeros biológicos obtidas a partir do sequenciamento de uma macromolécula de referência e um conjunto predeterminado da macromolécula de referência; e o treinamento de um modelo de aprendizagem profunda ao usar os dados de treinamento para obter o modelo de aprendizagem profunda treinada.
65. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 64 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que a macro- molécula de referência é diferente da macromolécula.
66. Meio de armazenamento que pode ser lido por compu- tador não transitório de acordo com a reivindicação 45 ou qualquer ou- tra reivindicação precedente, caracterizado pelo fato de que o modelo de aprendizagem profunda compreende uma rede neural convolucio- nal (CNN).
BR112020022257-7A 2018-05-14 2019-05-13 conjunto de polímeros biológicos habilitado por aprendizagem de máquina BR112020022257A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862671260P 2018-05-14 2018-05-14
US62/671,260 2018-05-14
US201862671884P 2018-05-15 2018-05-15
US62/671,884 2018-05-15
PCT/US2019/032065 WO2019222120A1 (en) 2018-05-14 2019-05-13 Machine learning enabled biological polymer assembly

Publications (1)

Publication Number Publication Date
BR112020022257A2 true BR112020022257A2 (pt) 2021-02-23

Family

ID=66669118

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020022257-7A BR112020022257A2 (pt) 2018-05-14 2019-05-13 conjunto de polímeros biológicos habilitado por aprendizagem de máquina

Country Status (10)

Country Link
US (1) US20190348152A1 (pt)
EP (1) EP3794596A1 (pt)
JP (1) JP2021523479A (pt)
KR (1) KR20210010488A (pt)
CN (1) CN112437961A (pt)
AU (1) AU2019270961A1 (pt)
BR (1) BR112020022257A2 (pt)
CA (1) CA3098876A1 (pt)
MX (1) MX2020012278A (pt)
WO (1) WO2019222120A1 (pt)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3624068A1 (en) * 2018-09-14 2020-03-18 Covestro Deutschland AG Method for improving prediction relating to the production of a polymer-ic produc
US11664090B2 (en) * 2020-06-11 2023-05-30 Life Technologies Corporation Basecaller with dilated convolutional neural network
EP4320148A1 (en) * 2021-04-09 2024-02-14 Abterra Biosciences, Inc. Method for antibody identification from protein mixtures

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2430441B1 (en) * 2009-04-29 2018-06-13 Complete Genomics, Inc. Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence
WO2012168815A2 (en) * 2011-06-06 2012-12-13 Koninklijke Philips Electronics N.V. Method for assembly of nucleic acid sequence data
EP3084002A4 (en) * 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
CA2894317C (en) * 2015-06-15 2023-08-15 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network

Also Published As

Publication number Publication date
CA3098876A1 (en) 2019-11-21
CN112437961A (zh) 2021-03-02
AU2019270961A1 (en) 2020-11-19
WO2019222120A1 (en) 2019-11-21
EP3794596A1 (en) 2021-03-24
MX2020012278A (es) 2021-01-29
JP2021523479A (ja) 2021-09-02
US20190348152A1 (en) 2019-11-14
KR20210010488A (ko) 2021-01-27

Similar Documents

Publication Publication Date Title
US11817180B2 (en) Systems and methods for analyzing nucleic acid sequences
US20200176082A1 (en) Analysis of nanopore signal using a machine-learning technique
BR112020022257A2 (pt) conjunto de polímeros biológicos habilitado por aprendizagem de máquina
US11861491B2 (en) Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
EP3834202A1 (en) Systems and methods for determining effects of therapies and genetic variation on polyadenylation site selection
Zaman et al. Codon based back propagation neural network approach to classify hypertension gene sequences
He et al. Hap-seq: an optimal algorithm for haplotype phasing with imputation using sequencing data
Bzikadze et al. UniAligner: a parameter-free framework for fast sequence alignment
CN107516020B (zh) 序列位点重要度的确定方法、装置、设备及存储介质
Weyn-Vanhentenryck et al. mCarts: genome-wide prediction of clustered sequence motifs as binding sites for RNA-binding proteins
Souaiaia et al. ComB: SNP calling and mapping analysis for color and nucleotide space platforms
US20150317433A1 (en) Using doublet information in genome mapping and assembly
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
Grassi et al. A functional strategy to characterize expression Quantitative Trait Loci
CN116612816B (zh) 一种全基因组核小体密度预测方法、系统及电子设备
Drusinsky et al. Deep-learning prediction of gene expression from personal genomes
US20230095961A1 (en) Graph reference genome and base-calling approach using imputed haplotypes
US20240112751A1 (en) Copy number variation (cnv) breakpoint detection
Ahsan Learning from watching evolution
Mordani Regular and phylogenetic hidden Markov models for identifying cell type specific regulatory regions
John et al. Tools for sequence assembly and annotation
CN107533588B (zh) 估计dna芯片探针-靶亲和性的方法和制造dna芯片的方法
Mitra et al. RoboCOP: Multivariate State Space Model Integrating Epigenomic Accessibility Data to Elucidate Genome-Wide Chromatin Occupancy
Kao Algorithms for next-generation high-throughput sequencing technologies
JP5863396B2 (ja) Dna配列解読システム、dna配列解読方法及びプログラム

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]
B08F Application dismissed because of non-payment of annual fees [chapter 8.6 patent gazette]

Free format text: REFERENTE A 5A ANUIDADE.

B08K Patent lapsed as no evidence of payment of the annual fee has been furnished to inpi [chapter 8.11 patent gazette]

Free format text: EM VIRTUDE DO ARQUIVAMENTO PUBLICADO NA RPI 2775 DE 12-03-2024 E CONSIDERANDO AUSENCIA DE MANIFESTACAO DENTRO DOS PRAZOS LEGAIS, INFORMO QUE CABE SER MANTIDO O ARQUIVAMENTO DO PEDIDO DE PATENTE, CONFORME O DISPOSTO NO ARTIGO 12, DA RESOLUCAO 113/2013.