BR112021008198A2 - método e aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, e, sistema de medição e análise de nanoporo. - Google Patents

método e aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, e, sistema de medição e análise de nanoporo. Download PDF

Info

Publication number
BR112021008198A2
BR112021008198A2 BR112021008198-4A BR112021008198A BR112021008198A2 BR 112021008198 A2 BR112021008198 A2 BR 112021008198A2 BR 112021008198 A BR112021008198 A BR 112021008198A BR 112021008198 A2 BR112021008198 A2 BR 112021008198A2
Authority
BR
Brazil
Prior art keywords
polymer
polymer unit
type
series
transitions
Prior art date
Application number
BR112021008198-4A
Other languages
English (en)
Inventor
Timothy Lee Massingham
Original Assignee
Oxford Nanopore Technologies Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oxford Nanopore Technologies Limited filed Critical Oxford Nanopore Technologies Limited
Publication of BR112021008198A2 publication Critical patent/BR112021008198A2/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/60Detection means characterised by use of a special device
    • C12Q2565/631Detection means characterised by use of a special device being a biochannel or pore

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Hematology (AREA)

Abstract

A presente invenção refere-se a um sinal derivado de um polímero que compreende uma série de unidades de polímero durante a translocação do polímero em relação a um nanoporo, com o uso de uma técnica de aprendizado de máquina. É produzida uma série de distribuições de peso, em que cada uma compreende pesos em relação às transições entre as marcações sobre um conjunto de marcações que representam os possíveis tipos de unidade de polímero no polímero. Uma estimativa da série de unidades de polímero a partir das distribuições de peso. O uso de pesos em relação às transições aumenta a precisão da técnica.

Description

1 / 92
MÉTODO E APARELHO DE ANÁLISE PARA ANALISAR UM SINAL DERIVADO A PARTIR DE UM POLÍMERO DURANTE A TRANSLOCAÇÃO DO POLÍMERO EM RELAÇÃO A UM NANOPORO, E, SISTEMA DE MEDIÇÃO E ANÁLISE DE NANOPORO
[001] A presente invenção se refere à análise de um sinal derivado de um polímero, por exemplo, mas sem limitação, a um polinucleotídeo, durante a translocação do polímero em relação a um nanoporo.
[002] Os sistemas de medição para estimar uma sequência alvo de unidades de polímero em um polímero com o uso de um nanoporo em que o polímero é translocado em relação ao nanoporo são conhecidos. Algumas propriedades do sistema dependem das unidades de polímero no nanoporo, e as medições dessa propriedade são feitas. A propriedade depende da identidade das unidades de polímero que se translocam em relação ao nanoporo e, portanto, o sinal ao longo do tempo permite que a sequência de unidades de polímero seja estimada. Cada unidade de polímero pode ser muito pequena em comparação com as dimensões do poro, permitindo que várias unidades de polímero afetem o sinal em um determinado período de tempo. Efeitos de longo alcance também podem estar presentes devido a interações do filamento de polímero com o nanoporo, propriedades intrafilamento como enrolamento ou empilhamento, ou interações entre as unidades de polímero e qualquer sistema usado para controlar sua translocação. O sinal forma uma leitura que deve ser decodificada para estimar as unidades de polímero subjacentes.
[003] Esses sistemas de medição de nanoporos podem fornecer sinais que representam leituras longas e contínuas de polinucleotídeos que variam de centenas a centenas de milhares (e potencialmente mais) de nucleotídeos. Este tipo de sistema de medição com o uso de um nanoporo tem uma promessa considerável, particularmente no campo do sequenciamento de um polinucleotídeo como DNA ou RNA, e tem sido objeto de
2 / 92 desenvolvimento muito recente.
[004] No entanto, a precisão da estimativa das unidades de polímero é limitada pelos sistemas de medição sendo extremamente sensíveis. Na prática, a estimativa com alta precisão requer técnicas de aprendizado de máquina e a presente invenção está preocupada em melhorar essa análise para aumentar a precisão da estimativa.
[005] As primeiras técnicas de análise usaram um Hidden Markov Model (HMM) que modela explicitamente os k-mers possíveis que compreendem grupos de unidades de polímero consecutivas. Mais recentemente, foram desenvolvidas técnicas que usam uma rede neural recorrente (RNN). O uso de uma RNN pode melhorar a precisão, permitindo que informações de longo alcance sejam levadas em consideração. As RNNs são particularmente úteis à medida que a velocidade da leitura aumenta com o resultado de que as suposições subjacentes às abordagens de modelagem de sinal explícita, como o HMM, são menos válidas. A título de exemplo, Teng et al, “Chiron: Translating nanopore raw signal directly into nucleotide sequence using deep learning”, Gigascience, 1 de maio de 2018; 7(5) [Referência 1] divulga um método de sequenciação de nucleotídeos de polímero usando uma RNN para o qual o sinal bruto é introduzido. A RNN produz uma série de distribuições de probabilidade posteriores que compreende probabilidades posteriores em relação a marcações que representam os quatro tipos possíveis de base e um espaço em branco. Estes são decodificados por um decodificador de classificação temporal conexionista para derivar uma estimativa da série de unidades de polímero, estimando as unidades de polímero mais prováveis a partir das probabilidades posteriores.
[006] De acordo com um primeiro aspecto da presente invenção, é fornecido um método de análise de um sinal derivado de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero
3 / 92 compreende uma série de unidades de polímero pertencentes a um conjunto de tipos possíveis de unidade de polímero, em que o método compreende: analisar o sinal com o uso de uma técnica de aprendizado de máquina que produz uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação às transições entre marcações ao longo de um conjunto de marcações incluindo marcações que representam os possíveis tipos de unidade de polímero; e derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso.
[007] O conjunto de marcações pode incluir marcações que representam espaços em branco e/ou permanentes. Em outras palavras, pode- se dizer que o conjunto representa os tipos possíveis de unidades de polímero.
[008] As transições podem ser entre uma marcação e outra. As transições podem ser entre marcações consecutivas.
[009] Assim, o método fornece pesos que se referem a marcadores que representam os tipos possíveis de unidade de polímero, em vez de representar um k-mer que compreende k unidades de polímero. No entanto, o método deriva pesos em relação às transições entre marcações, em vez de pesos em relação às próprias marcações. Tal método fornece vantagens sobre um método comparativo que deriva uma série de pesos em relação às marcações sobre um conjunto de marcações incluindo marcações que representam os possíveis tipos de unidade de polímero. Ao fornecer pesos em relação às transições entre as marcações sobre o conjunto de marcações, são fornecidas informações adicionais que permitem a estimativa da série de unidades de polímero de uma maneira que é mais precisa. Isso ocorre porque os pesos fornecem informações sobre os caminhos possíveis de marcações, enquanto os pesos em relação às marcações não.
[0010] Por exemplo, existem situações em que uma marcação para uma posição particular que é prevista por pesos em relação às marcações não está correta, enquanto uma consideração dos caminhos das marcações através
4 / 92 dessa posição pode prever uma marcação diferente que é correta. Desta forma, informações adicionais são inseridas na estimativa, melhorando assim a precisão.
[0011] A título de exemplo, esta técnica permite uma melhor estimativa de regiões de sequências repetitivas, por exemplo, homopolímeros, incluindo regiões onde sequências curtas de uma ou mais unidades de polímero são repetidas.
[0012] De preferência, pelo menos uma transição entre marcações não é permitida e outras transições são permitidas, as distribuições de peso, em que cada uma compreende pesos em relação às transições que são permitidas. Nesse caso, as distribuições de peso podem, cada uma, compreender pesos nulos em relação às transições que não são permitidas ou a etapa de derivar uma estimativa da série de unidades de polímero pode levar em consideração uma matriz de transição que representa se as transições entre as marcações são permitidas ou não.
[0013] Em um tipo de representação, o conjunto de marcações pode incluir uma primeira e uma segunda marcação em relação a cada tipo de unidade de polímero, em que a primeira marcação representa o início de uma instância do tipo de unidade de polímero, e a segunda marcação representa uma permanência na instância do tipo de unidade de polímero, em que as transições de cada primeira marcação para a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas, as transições de cada primeira marcação para a primeira marcação para o mesmo tipo de unidade de polímero são permitidas, transições de cada primeira marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas, as transições de cada primeira marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas, transições de cada segunda marcação para a primeira marcação para o mesmo tipo de unidade de polímero ou a primeira marcação para qualquer outro tipo de unidade de
5 / 92 polímero são permitidas, e as transições de cada segunda marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas, e as transições de cada segunda marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas.
[0014] Uma “permanência” representa uma situação em que o método determina que a marcação não muda, o que pode ser considerado como duas distribuições de peso correspondentes à mesma instância de uma unidade de polímero.
[0015] O conjunto de possíveis tipos de unidade de polímero pode incluir um tipo de unidade de polímero que sempre aparece em uma sequência conhecida de unidades de polímero, em que são permitidas as transições de acordo com a sequência conhecida e não são permitidas as transições contrárias à sequência conhecida.
[0016] As marcações de instâncias consecutivas de unidades de polímero do mesmo tipo na série de unidades de polímero podem ser representadas em uma forma codificada.
[0017] As marcações podem incluir várias marcações, por exemplo, duas marcações, em relação a cada tipo de unidade de polímero, em que as várias marcações em relação a cada tipo de unidade de polímero representam instâncias consecutivas do tipo de unidade de polímero na série de unidades de polímero.
[0018] As várias marcações para cada tipo de unidade de polímero podem ter uma ordem cíclica predeterminada, em que algumas transições entre as marcações são permitidas pela ordem cíclica predeterminada e outras transições entre não são permitidas pela ordem cíclica predeterminada, em que as distribuições de peso incluem pesos em relação às transições que são permitidos pela ordem cíclica predeterminada.
[0019] As instâncias consecutivas do mesmo tipo de unidade de polímero na série de unidades de polímero são representadas em uma forma
6 / 92 codificada de comprimento de execução.
[0020] As marcações podem incluir marcações em relação a diferentes extensões de cada tipo de unidade de polímero.
[0021] As marcações podem incluir uma marcação em relação a cada tipo de unidade de polímero e as distribuições de peso podem compreender pesos adicionais ao longo de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
[0022] Os pesos adicionais podem compreender uma distribuição categórica de pesos ao longo de um conjunto de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
[0023] Os pesos adicionais podem compreender parâmetros de uma distribuição parametrizada ao longo de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
[0024] Se os possíveis tipos de unidade de polímero incluem um tipo de unidade de polímero que tem formas não modificadas e modificadas, então o conjunto de marcações pode incluir uma marcação que representa o tipo de unidade de polímero que tem formas não modificadas e modificadas, e cada distribuição de peso pode compreender pesos adicionais para as formas não modificadas e modificadas de cada um dos referidos pelo menos um tipo de unidade de polímero que tem as formas não modificadas e modificadas. A forma não modificada de uma unidade de polímero pode ser descrita como uma unidade de polímero canônica e a forma modificada de uma unidade de polímero pode ser descrita como uma unidade de polímero não canônica. Uma unidade de polímero modificada (ou não canônica) normalmente afeta um sinal de forma diferente de uma unidade de polímero não modificada (canônica) correspondente.
7 / 92
[0025] Em algumas modalidades, um polímero que compreende uma ou mais unidades de polímero não canônica pode ser preparado e subsequentemente analisado conforme descrito em detalhes no Pedido de Patente Internacional nº PCT/GB2019/052456, depositado em 4 de setembro de 2019, ao qual é feita referência e que é incorporado neste documento por referência. Em um exemplo, uma proporção de unidades de polímero canônicas (por exemplo, aminoácidos) pode ser convertida em uma unidade de polímero não canônica correspondente (por exemplo, aminoácido) de uma maneira não determinística, por exemplo, por conversão química ou por conversão enzimática. Nesse caso, ao derivar uma estimativa da série de unidades de polímero (“ao chamar”), as bases não canônicas podem ser estimadas (“chamadas”) como sendo a base canônica correspondente. Desta forma, ao reconhecer uma unidade de polímero não canônica como uma unidade de polímero canônica na análise, a conversão inicial pode fornecer uma maneira de fornecer um sinal com mais informações, por exemplo, tendo como consequência que quaisquer erros presentes na análise do sinal serão não sistemáticos, conduzindo assim a uma melhoria na precisão da estimativa.
[0026] O conjunto de marcações pode incluir pelo menos uma marcação em relação a cada tipo de unidade de polímero e pelo menos uma marcação em relação a um espaço em branco na série de unidades de polímero.
[0027] A técnica de aprendizado de máquina pode ser uma rede neural que compreende pelo menos uma camada recorrente, que pode ser uma camada recorrente bidirecional.
[0028] A rede neural pode aplicar uma normalização global das distribuições de peso em todos os caminhos através da série de distribuições de peso.
[0029] A rede neural pode incluir várias camadas convolucionais dispostas antes das camadas recorrentes e que executam uma convolução de
8 / 92 seções em janela de sinal.
[0030] Os pesos podem representar probabilidades posteriores.
[0031] A etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso pode ser realizada com o uso de classificação temporal conexionista.
[0032] A etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso pode compreender derivar uma marcação em relação a cada distribuição de peso e comprimento de execução comprimindo as marcações derivadas.
[0033] A etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso pode compreender estimar o caminho mais provável de marcações através da série de distribuições de peso com base nas distribuições de peso, em que a estimativa da série de unidades de polímero é derivada do caminho das marcações estimado como mais provável.
[0034] Alternativamente, a etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso pode compreender estimar as marcações que são mais prováveis em relação a cada distribuição de peso, levando em consideração os caminhos forwards e backwards das marcações através da série de distribuições de peso, a estimativa da série de unidades de polímero derivada das marcações estimadas como mais prováveis.
[0035] De acordo com um segundo aspecto da presente invenção, é fornecido um método de análise de um sinal derivado de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de tipos possíveis de unidade de polímero, em que o método compreende: analisar o sinal usando uma técnica de aprendizado de máquina que produz uma série de distribuições de peso, em que cada distribuição de peso
9 / 92 compreende pesos em relação às marcações sobre um conjunto de marcações incluindo marcações que representam os possíveis tipos de unidade de polímero; e derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso, em que a etapa de derivar uma estimativa da série de unidades de polímero leva em consideração uma matriz de transição que representa se as transições entre as marcações são permitidas ou não, em que pelo menos uma transição entre marcações é representada como não permitida e outras transições sendo representadas como permitidas.
[0036] De acordo com um terceiro aspecto da presente invenção, é fornecido um método de análise de um sinal derivado de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de tipos possíveis de unidade de polímero, em que o método compreende: analisar o sinal usando uma técnica de aprendizado de máquina que produz uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação às marcações ao longo de um conjunto de marcações, incluindo marcações que representam os possíveis tipos de unidade de polímero, em que instâncias consecutivas do mesmo tipo de unidade de polímero na série de unidades de polímero são representadas em uma forma codificada de comprimento de execução; e derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso.
[0037] Quaisquer características do primeiro aspecto podem ser aplicadas em qualquer combinação ao segundo e terceiro aspectos da invenção.
[0038] Ainda de acordo com a presente invenção, o método pode ser implementado por um programa de computador executado em um aparelho de computador ou pode ser fornecido um aparelho de análise disposto para implementar um método semelhante a qualquer um dos aspectos da presente invenção.
10 / 92
[0039] Ainda de acordo com a presente invenção, pode ser fornecido um sistema de medição e análise de nanoporos que compreende tal aparelho de análise em combinação com um sistema de medição disposto para derivar um sinal de um polímero durante a translocação do polímero em relação a um nanoporo.
[0040] Para permitir uma melhor compreensão, as modalidades da presente invenção serão agora descritas por meio de exemplo não limitativo com referência aos desenhos anexos, nos quais: A Figura 1 é um diagrama esquemático de um sistema de medição e análise de nanoporos; A Figura 2 é um gráfico de um sinal típico ao longo do tempo; A Figura 3 é um diagrama de uma rede neural em um sistema de análise; A Figura 4 é um gráfico de parte do sinal que ilustra a operação de uma seção de janelamento da rede neural; A Figura 5 é um diagrama de uma camada recorrente de uma RNN; A Figura 6 é um diagrama de uma camada não recorrente; A Figura 7 é um diagrama de uma camada unidirecional; A Figura 8 é um diagrama de uma camada recorrente bidirecional que combina uma camada recorrente “forward” e “backward”; A Figura 9 é um diagrama de uma camada recorrente bidirecional alternativa que combina a camada recorrente “forward” e “backward” de uma forma alternada; A Figura 10 é uma tabela de uma distribuição de peso onde os pesos são em relação às transições entre marcações que representam quatro tipos de polinucleotídeo; A Figura 11 é uma tabela de uma distribuição de peso em que os pesos são em relação às transições entre as marcações que representam
11 / 92 quatro tipos de polinucleotídeo e um espaço em branco; A Figura 12 é uma tabela de uma distribuição de peso onde os pesos são em relação às transições entre as marcações que representam cinco tipos de polinucleotídeo, um dos quais é metilado-C, e um espaço em branco A Figura 13 é uma tabela de uma distribuição de peso onde os pesos são em relação às transições entre as marcações, incluindo duas marcações em relação a cada um dos quatro tipos de polinucleotídeo; A Figura 14 é uma tabela de uma distribuição de peso onde os pesos representam homopolímeros usando uma representação flip-flop; A Figura 15 é um gráfico de correntes residuais para quatro bases usando um modelo de 6-mer de sinal e localização aproximada em relação à cabeça de leitura e outros componentes do sistema; A Figura 16 é uma tabela de uma distribuição de peso onde os pesos representam homopolímeros com o uso de uma representação codificada de comprimento de execução; A Figura 17 é uma tabela de uma distribuição de peso onde os pesos representam homopolímeros com o uso de uma formulação diferente de uma representação codificada de comprimento de execução; A Figura 18 é uma tabela de pesos adicionais de uma distribuição de peso, que representa uma distribuição categórica ao longo de um conjunto de comprimentos possíveis para cada tipo possível de homopolímero; A Figura 19 é uma tabela de pesos adicionais de uma distribuição de peso, que representa uma distribuição parametrizada ao longo de comprimentos possíveis para cada tipo possível de homopolímero; A Figura 20 é um gráfico de duas distribuições representadas por diferentes valores de parâmetros de média e variância; A Figura 21 é uma tabela de possíveis distribuições que podem ser usadas para representar homopolímeros;
12 / 92
A Figura 22 é uma tabela de pesos adicionais de uma distribuição de peso, que representa uma distribuição categórica ao longo de um conjunto de comprimentos possíveis para cada par possível de unidade de polímero; A Figura 23 é uma tabela de pesos adicionais de uma distribuição de peso, que representa uma distribuição categórica ao longo de um conjunto de comprimentos possíveis para cada tripleto possível de unidade de polímero; A Figura 24 é uma tabela de uma distribuição de peso onde o conjunto de marcações é expandido para incluir uma marcação em relação a uma unidade de polímero modificada; A Figura 25 é uma tabela de pesos adicionais para formas não modificadas e modificadas de um tipo de unidade de polímero em uma representação fatorada de modificações; A Figura 26 é uma plotagem de um sinal e unidades de polímero estimados a partir do mesmo para uma representação de 5 bases; A Figura 27 é um diagrama de fluxo de um método executado por um decodificador da rede neural; e As Figuras 28 a 30 são definições de diferentes algoritmos de decodificação; A Figura 31 é uma definição de um outro algoritmo de decodificação; A Figura 32 é uma definição de um algoritmo para construir uma matriz de transição objetiva para uma representação flip-flop; A Figura 33 é uma definição de uma função objetivo para treinamento em todos os caminhos; A Figura 34 é uma definição de um algoritmo para construir uma matriz de transição objetiva para uma representação de múltiplas permanências;
13 / 92 A Figura 35 é uma definição de um algoritmo para construir uma matriz de transição objetiva para uma representação codificada de comprimento de execução; A Figura 36 é uma plotagem de um sinal e unidades de polímero estimados a partir do mesmo, ilustrando um exemplo de um homopolímero longo; A Figura 37 é uma definição de uma função objetivo para treinar o melhor caminho; A Figura 38 é uma tabela de functores; A Figura 39 é uma plotagem de um sinal e unidades de polímero estimados a partir do mesmo, ilustrando um exemplo onde uma representação flip-flop é treinada com o uso de aguçamento; e A Figura 40 é uma tabela que ilustra o alinhamento de uma série estimada de unidades de polímero a uma referência para representações que são treinadas sem e com aguçamento.
[0041] A Figura 1 ilustra um sistema de medição e análise de nanoporos 1 compreendendo um sistema de medição 2 e um sistema de análise 3. O sistema de medição 2 deriva um sinal de um polímero que compreende uma série de unidades de polímero durante a translocação do polímero em relação a um nanoporo. O sistema de análise 3 executa um método de análise do sinal para derivar uma estimativa da série de unidades de polímero.
[0042] Em geral, o polímero pode ser de qualquer tipo, por exemplo, um polinucleotídeo (ou ácido nucleico), um polipeptídeo como uma proteína ou um polissacarídeo. O polímero pode ser natural ou sintético. O polinucleotídeo pode compreender uma região de homopolímero. A região de homopolímero pode compreender entre 5 e 15 nucleotídeos.
[0043] No caso de um polinucleotídeo ou ácido nucleico, as unidades de polímero podem ser nucleotídeos. O ácido nucleico é tipicamente ácido
14 / 92 desoxirribonucleico (DNA), ácido ribonucleico (RNA), cDNA ou um ácido nucleico sintético conhecido na técnica, tal como ácido nucleico de peptídeo (PNA), ácido nucleico de glicerol (GNA), ácido nucleico de treose (TNA), ácido nucleico bloqueado (LNA) ou outros polímeros sintéticos com cadeias laterais de nucleotídeos. A estrutura principal do PNA é composta por unidades repetidas de N-(2-aminoetil)-glicina ligadas por ligações peptídicas. A estrutura principal do GNA é composta de unidades repetitivas de glicol ligadas por ligações fosfodiéster. A estrutura principal do TNA é composta de três açúcares repetidos ligados entre si por ligações fosfodiéster. O LNA é formado a partir de ribonucleotídeos, conforme discutido acima, tendo uma ponte extra conectando o oxigênio 2' e o carbono 4’ na porção química ribose. O ácido nucleico pode ser de filamento simples, de filamento duplo ou compreender regiões de filamento simples e filamento duplo. O ácido nucleico pode compreender um filamento de RNA hibridizado com um filamento de DNA. Normalmente cDNA, RNA, GNA, TNA ou LNA são de filamento simples.
[0044] As unidades de polímero podem ser qualquer tipo de nucleotídeo. O nucleotídeo pode ser natural ou artificial. Por exemplo, o método pode ser usado para verificar a sequência de um oligonucleotídeo fabricado. Um nucleotídeo normalmente contém uma nucleobase, um açúcar e pelo menos um grupo fosfato. A nucleobase e o açúcar formam um nucleosídeo. A nucleobase é tipicamente heterocíclica. Nucleobases adequadas incluem purinas e pirimidinas e mais especificamente adenina, guanina, timina, uracila e citosina. O açúcar é tipicamente um açúcar pentose. Os açúcares adequados incluem, mas não estão limitados a, ribose e desoxirribose. O nucleotídeo é tipicamente um ribonucleotídeo ou desoxirribonucleotídeo. O nucleotídeo normalmente contém um monofosfato, difosfato ou trifosfato.
[0045] O nucleotídeo pode ser uma base modificada, como uma base
15 / 92 danificada ou epigenética. Por exemplo, o nucleotídeo pode compreender um dímero de pirimidina. Esses dímeros estão normalmente associados a danos causados pela luz ultravioleta e são a principal causa de melanomas cutâneos. O nucleotídeo pode ser marcado ou modificado para atuar como um marcador com um sinal distinto. Esta técnica pode ser usada para identificar a ausência de uma base, por exemplo, uma unidade básica ou espaçador no polinucleotídeo. O método também pode ser aplicado a qualquer tipo de polímero.
[0046] No caso de um polipeptídeo, as unidades de polímero podem ser aminoácidos que ocorrem naturalmente ou são sintéticos.
[0047] No caso de um polissacarídeo, as unidades de polímero podem ser monossacarídeos.
[0048] Particularmente, quando o sistema de medição 2 compreende um nanoporo e o polímero compreende um polinucleotídeo, o polinucleotídeo pode ser longo, por exemplo, pelo menos 5 kB (quilobases), ou seja, pelo menos 5.000 nucleotídeos, ou pelo menos 30 kB (quilobases), ou seja, pelo menos 30.000 nucleotídeos, ou pelo menos 100 kB (quilobases), ou seja, pelo menos 100.000 nucleotídeos.
[0049] A natureza do sistema de medição 2 e o sinal resultante são os seguintes.
[0050] O sistema de medição 2 é um sistema de nanoporos que compreende um ou mais nanoporos. Em um tipo simples, o sistema de medição 2 tem apenas um único nanoporo, mas os sistemas de medição 2 mais práticos empregam muitos nanoporos, normalmente em uma matriz, para fornecer coleta paralelizada de informações.
[0051] O sinal pode ser gravado durante a translocação do polímero em relação ao nanoporo, normalmente através do nanoporo.
[0052] O nanoporo é um poro, normalmente com um tamanho da ordem dos nanômetros, que pode permitir a passagem de polímeros através do
16 / 92 mesmo.
[0053] O nanoporo pode ser um poro de proteína ou um poro de estado sólido. As dimensões do poro podem ser tais que apenas um polímero pode translocar o poro de cada vez.
[0054] Quando o nanoporo é um poro de proteína, ele pode ter as seguintes propriedades.
[0055] O poro biológico pode ser um poro de proteína transmembranar. Poros de proteína transmembranar para uso de acordo com a invenção podem ser derivados de poros β-barril ou poros de feixe de α-hélice. Poros β-barril compreendem um barril ou canal que é formado a partir de β- filamentos. Poros β-barril adequados incluem, mas não estão limitados a, β- toxinas, como α-hemolisina, toxina do antraz e leucocidinas, e proteínas/porinas da membrana externa de bactérias, como a porina de Mycobacterium smegmatis (Msp), por exemplo, MspA, MspB, MspC ou MspD, lisenina, porina de membrana externa F (OmpF), porina de membrana externa G (OmpG), fosfolipase A da membrana externa e Lipoproteína autotransportadora de Neisseria (NalP). Poros de feixe de α-hélice compreendem um barril ou canal que é formado a partir de α-hélices. Poros de feixe de α-hélice incluem, mas não estão limitados a, proteínas da membrana interna e α proteínas da membrana externa, como as toxinas WZA e ClyA. O poro transmembranar pode ser derivado de Msp ou de α- hemolisina (α-HL). O poro transmembranar pode ser derivado de lisenina. Poros adequados derivados de lisenina são divulgados no documento WO 2013/153359. Poros adequados derivados de MspA são divulgados no documento WO-2012/107778. O poro pode ser derivado de CsgG, como divulgado no documento WO-2016/034591. O poro pode ser um poro de origami de DNA.
[0056] O poro da proteína pode ser um poro de ocorrência natural ou pode ser um poro mutante. Poros típicos são descritos no documento WO-
17 / 92 2010/109197, Stoddart D et al., Proc Natl Acad Sci, 12;106(19):7702 a 7707, Stoddart D et al., Angew Chem Int Ed Engl. 2010;49(3): 556 a 559, Stoddart D et al., Nano Lett. 8 de setembro de 2010; 10(9):3633 a 3637, Butler TZ et al., Proc Natl Acad Sci 2008; 105(52): 20647 a 20652, e o documento WO- 2012/107778.
[0057] O poro da proteína pode ser um dos tipos de poro da proteína descritos no documento WO-2015/140535 e pode ter as sequências que são divulgadas no mesmo.
[0058] O poro da proteína pode ser inserido em uma camada anfifílica, como uma membrana biológica, por exemplo, uma bicamada lipídica. Uma camada anfifílica é uma camada formada por moléculas anfifílicas, como fosfolipídios, que possuem propriedades hidrofílicas e lipofílicas. A camada anfifílica pode ser uma monocamada ou uma camada dupla. A camada anfifílica pode ser um polímero de cobloco, como divulgado em Gonzalez-Perez et al., Langmuir, 2009, 25, 10447 a 10450 ou no documento WO2014/064444. Alternativamente, um poro de proteína pode ser inserido em uma abertura fornecida em uma camada de estado sólido, por exemplo, como divulgado no documento WO2012/005857.
[0059] Um aparelho adequado para fornecer uma matriz de nanoporos é divulgado no documento WO-2014/064443. Os nanoporos podem ser fornecidos através das respectivas cavidades, em que eletrodos são fornecidos em cada cavidade respectiva em conexão elétrica com um ASIC para medir o fluxo de corrente através de cada nanoporo. Um aparelho de medição de corrente adequado pode compreender o circuito de detecção de corrente conforme divulgado no documento WO-2016/181118.
[0060] O nanoporo pode compreender uma abertura formada em uma camada de estado sólido, que pode ser referida como um poro de estado sólido. A abertura pode ser uma cavidade, lacuna, canal, trincheira ou fenda fornecida na camada de estado sólido ao longo ou para a qual o analito pode
18 / 92 passar. Essa camada de estado sólido não é de origem biológica. Em outras palavras, uma camada de estado sólido não é derivada ou isolada de um ambiente biológico, como um organismo ou célula, ou uma versão fabricada sinteticamente de uma estrutura biologicamente disponível. As camadas de estado sólido podem ser formadas a partir de materiais orgânicos e inorgânicos, incluindo, mas sem limitação, materiais microeletrônicos, materiais isolantes como Si3N4, A1203 e SiO, polímeros orgânicos e inorgânicos como poliamida, plásticos como Teflon® ou elastômeros como dois componentes borracha de silicone com endurecimento por adição e vidros. A camada de estado sólido pode ser formada a partir de grafeno. Camadas de grafeno adequadas são divulgadas nos documentos WO- 2009/035647, WO-2011/046706 ou WO-2012/138357. Métodos adequados para preparar uma matriz de poros de estado sólido são divulgados no documento WO-2016/187519.
[0061] Esse poro de estado sólido é tipicamente uma abertura em uma camada de estado sólido. A abertura pode ser modificada, quimicamente ou de outra forma, para aumentar suas propriedades como um nanoporo. Um poro de estado sólido pode ser usado em combinação com componentes adicionais que fornecem uma medição alternativa ou adicional do polímero, como eletrodos de tunelamento (Ivanov AP et al., Nano Lett. 12 de janeiro de 2011; 11(1): 279 a 285), ou um dispositivo de transistor de efeito de campo (FET) (como divulgado, por exemplo, no documento WO-2005/124888). Os poros de estado sólido podem ser formados por processos conhecidos incluindo, por exemplo, aqueles descritos no documento WO-00/79257.
[0062] O nanoporo pode ser um híbrido de um poro de estado sólido com um poro de proteína.
[0063] O sistema de medição 2 toma uma série de medições de uma propriedade que depende das unidades de polímero que se translocam em relação ao poro podem ser medidas. A série de medições forma um sinal
19 / 92
[0064] A propriedade medida pode estar associada a uma interação entre o polímero e o poro. Tal interação pode ocorrer em uma região restrita do poro.
[0065] Em um tipo de sistema de medição 2, a propriedade que é medida pode ser a corrente de íons fluindo através de um nanoporo. Estas e outras propriedades elétricas podem ser medidas usando equipamento de gravação de canal único padrão como descrito em Stoddart D et al., Proc Natl Acad Sei, 12; 106 (19): 7702 a 7707, Lieberman KR et al, J Am Chem Soc. 2010; 132 (50): 17961 a 17972 e no documento WO-2000/28312. Alternativamente, as medições das propriedades elétricas podem ser feitas com o uso de um sistema multicanal, por exemplo, conforme descrito nos documentos WO-2009/077734, WO-2011/067559 ou WO-2014/064443.
[0066] As soluções iônicas podem ser fornecidas em ambos os lados da membrana ou da camada de estado sólido, cujas soluções iônicas podem estar presentes nos respectivos compartimentos. Uma amostra que contém o analito de polímero de interesse pode ser adicionada a um lado da membrana e movida em relação ao nanoporo, por exemplo, sob uma diferença de potencial ou gradiente químico. O sinal pode ser derivado durante o movimento do polímero em relação ao poro, por exemplo, obtido durante a translocação do polímero através do nanoporo. O polímero pode translocar parcialmente o nanoporo.
[0067] A fim de permitir que as medições sejam tomadas conforme o polímero se transloca através de um nanoporo, a taxa de translocação pode ser controlada por uma porção química de ligação do polímero. Normalmente, a porção química pode mover o polímero através do nanoporo com ou contra um campo aplicado. A porção química pode ser um motor molecular usando, por exemplo, no caso em que a porção química é uma enzima, atividade enzimática, ou como um freio molecular. Quando o polímero é um polinucleotídeo, existem vários métodos propostos para controlar a taxa de
20 / 92 translocação, incluindo o uso de enzimas de ligação de polinucleotídeo. As enzimas adequadas para controlar a taxa de translocação de polinucleotídeos incluem, mas não estão limitadas a, polimerases, helicases, exonucleases, proteínas de ligação de filamento simples e filamento duplo e topoisomerases, tais como girases. Para outros tipos de polímero, porções químicas que interagem com esse tipo de polímero podem ser usadas. A porção química que interage com o polímero pode ser divulgada no documento WO- 2010/086603, WO-2012/107778 e Lieberman KR et al, J Am Chem Soc. 2010;132(50):17961 a 17972), e para esquemas controlados por voltagem (Luan B et al., Phys Rev Lett. 2010; 104(23): 238103).
[0068] A porção química de ligação do polímero pode ser usada de várias maneiras para controlar o movimento do polímero. A porção química pode mover o polímero através do nanoporo com ou contra o campo aplicado. A porção química pode ser usada como um motor molecular usando, por exemplo, no caso em que a porção química é uma enzima, atividade enzimática ou como um freio molecular. A translocação do polímero pode ser controlada por uma catraca molecular que controla o movimento do polímero através do poro. A catraca molecular pode ser uma proteína de ligação a polímero. Para polinucleotídeos, a proteína de ligação ao polinucleotídeo é de preferência uma enzima de manuseio de polinucleotídeo. Uma enzima de manuseio de polinucleotídeo é um polipeptídeo que é capaz de interagir e modificar pelo menos uma propriedade de um polinucleotídeo. A enzima pode modificar o polinucleotídeo clivando-o para formar nucleotídeos individuais ou cadeias mais curtas de nucleotídeos, como di- ou trinucleotídeos. A enzima pode modificar o polinucleotídeo orientando-o ou movendo-o para uma posição específica. A enzima de manuseio de polinucleotídeo não precisa exibir atividade enzimática, desde que seja capaz de se ligar ao polinucleotídeo alvo e controlar seu movimento através do poro. Por exemplo, a enzima pode ser modificada para remover sua atividade
21 / 92 enzimática ou pode ser usada em condições que a impeçam de atuar como uma enzima. Essas condições são discutidas em mais detalhes abaixo.
[0069] As enzimas de manuseio de polinucleotídeos preferidas são polimerases, exonucleases, helicases e topoisomerases, tais como girases. A enzima de manipulação de polinucleotídeo pode ser, por exemplo, um dos tipos de enzima de manipulação de polinucleotídeo descrito no documento WO-2015/140535 ou no documento WO-2010/086603.
[0070] A translocação do polímero através do nanoporo pode ocorrer, cis para trans ou trans para cis, com ou contra um potencial aplicado. A translocação pode ocorrer sob um potencial aplicado que pode controlar a translocação.
[0071] As exonucleases que agem progressiva ou processivamente no DNA de filamento duplo podem ser usadas no lado cis do poro para alimentar a filamento simples restante sob um potencial aplicado ou no lado trans sob um potencial reverso. Da mesma forma, uma helicase que desenrola o DNA de filamento duplo também pode ser usada de maneira semelhante. Também existem possibilidades para aplicações de sequenciamento que requerem translocação de filamento contra um potencial aplicado, mas o DNA deve ser primeiro “capturado” pela enzima sob um potencial reverso ou nenhum potencial. Com o potencial então retornado após a ligação, o filamento passará de cis para trans através do poro e será mantida em uma conformação estendida pelo fluxo de corrente. As exonucleases de DNA de filamento simples ou polimerases dependentes de DNA de filamento simples podem atuar como motores moleculares para puxar o filamento simples recentemente translocado de volta através do poro de uma maneira gradual controlada, trans para cis, contra o potencial aplicado. Alternativamente, as polimerases dependentes de DNA de fita simples podem atuar como um freio molecular, desacelerando o movimento de um polinucleotídeo através do poro. Quaisquer frações, técnicas ou enzimas descritas no documento WO-
22 / 92 2012/107778 ou no documento WO-2012/033524 podem ser usadas para controlar o movimento do polímero.
[0072] No entanto, o sistema de medição 2 pode ser de tipos alternativos que compreendem um ou mais nanoporos.
[0073] Da mesma forma, as propriedades que são medidas podem ser de outros tipos que não a corrente de íons. Alguns exemplos de tipos alternativos de propriedade incluem, sem limitação: propriedades elétricas e propriedades ópticas. Um método óptico adequado envolvendo a medição de fluorescência é divulgado por J. Am. Chem. Soc. 2009, 131 1652 a 1653. Possíveis propriedades elétricas incluem: corrente iônica, impedância, uma propriedade de tunelamento, por exemplo, corrente de tunelamento (por exemplo, conforme divulgado em Ivanov AP et al., Nano Lett. 12 de janeiro de 2011; 11(1): 279 a 285), e uma tensão de FET (transistor de efeito de campo) (por exemplo, conforme divulgado no documento WO2005/124888). Uma ou mais propriedades ópticas podem ser usadas, opcionalmente combinadas com propriedades elétricas (Soni GV et al., Rev Sci Instrum. Janeiro de 2010; 81(1):014301). A propriedade pode ser uma corrente transmembranar, como fluxo de corrente iônica através de um nanoporo. A corrente de íons pode ser tipicamente a corrente de íons CC, embora em princípio uma alternativa seja usar o fluxo de corrente CA (isto é, a magnitude da corrente CA fluindo sob a aplicação de uma tensão CA).
[0074] Em alguns tipos de sistema de medição 2, o sinal pode ser caracterizado como compreendendo medições de uma série de eventos, onde cada evento fornece um grupo de medições. A Figura 2 ilustra um exemplo típico de tal sinal 10 no caso de medição de corrente. O grupo de medições de cada evento tem um nível semelhante, embora sujeito a alguma variação. Isso pode ser considerado como uma onda escalonada ruidosa com cada etapa correspondendo a um evento. Os eventos podem ter significado bioquímico, por exemplo, decorrentes de um determinado estado ou interação do sistema
23 / 92 de medição 2. Isso pode, em alguns casos, surgir da translocação do polímero através do nanoporo ocorrendo de uma maneira catraca. No entanto, este tipo de sinal não é produzido por todos os tipos de sistema de medição e os métodos descritos neste documento não dependem do tipo de sinal. Por exemplo, quando as taxas de translocação se aproximam da taxa de amostragem de medição, por exemplo, as medições são feitas em 1 vez, 2 vezes, 5 vezes ou 10 vezes a taxa de translocação de uma unidade de polímero, os eventos podem ser menos evidentes ou não presentes, em comparação com velocidades de sequenciamento ou taxas de amostragem mais rápidas.
[0075] Além disso, onde os eventos estão presentes, normalmente não há conhecimento a priori do número de medições no grupo, que varia de forma imprevisível. Esses fatores de variância e falta de conhecimento do número de medições podem dificultar a distinção de alguns dos grupos, por exemplo, onde o grupo é pequeno e/ou os níveis das medidas de dois grupos sucessivos são próximos um do outro.
[0076] O grupo de medições correspondente a cada evento normalmente tem um nível que é consistente ao longo da escala de tempo do evento, mas para a maioria dos tipos de sistema de medição 2 estará sujeito a variação em uma escala de tempo curta. Tal variação pode resultar do ruído de medição, por exemplo, proveniente dos circuitos elétricos e processamento de sinal, notadamente do amplificador no caso particular da eletrofisiologia. Esse ruído de medição é inevitável devido à pequena magnitude das propriedades que estão sendo medidas. Tal variação também pode resultar de variação inerente ou propagação no sistema físico ou biológico subjacente do sistema de medição 2, por exemplo, uma mudança na interação, que pode ser causada por uma mudança conformacional do polímero.
[0077] A maioria dos tipos do sistema de medição 2 experimentará tal variação inerente em maior ou menor extensão. Para qualquer tipo de sistema
24 / 92 de medição 2, ambas as fontes de variação podem contribuir ou uma dessas fontes de ruído pode ser dominante.
[0078] Com o aumento na taxa de sequenciamento, sendo a taxa na qual as unidades de polímero se translocam em relação ao nanoporo, os eventos podem se tornar menos pronunciados e, portanto, mais difíceis de identificar, ou podem desaparecer. Assim, os métodos de análise que dependem da detecção de tais eventos de detecção podem se tornar menos eficientes à medida que a taxa de sequenciamento aumenta.
[0079] No entanto, os métodos divulgados neste documento não dependem da detecção de tais eventos. Os métodos descritos abaixo são eficazes mesmo em taxas de sequenciamento relativamente altas, incluindo taxas de sequenciamento nas quais o polímero transloca a uma taxa de pelo menos 10 unidades de polímero por segundo, de preferência 100 unidades de polímero por segundo, mais preferencialmente 500 unidades de polímero por segundo ou mais preferencialmente 1000 unidades de polímero por segundo.
[0080] A taxa de amostragem é a taxa de medições no sinal. Normalmente, a taxa de amostragem é maior do que a taxa de sequenciamento. Por exemplo, a taxa de amostragem pode estar em uma faixa de 100 Hz a 30 kHz, mas isso não é limitativo. Na prática, a taxa de amostragem pode depender da natureza do sistema de medição 2.
[0081] Em alguns casos, o método pode usar várias séries de medições que são medições de séries de unidades de polímero que estão relacionadas. Por exemplo, as várias séries de medições podem ser séries de medições de polímeros separados com sequências relacionadas ou podem ser séries de medições de diferentes regiões do mesmo polímero com sequências relacionadas.
[0082] No caso de polinucleotídeos, as várias séries de unidades de polímero pode ser relacionada por ser complementar, de modo que uma série de unidades de polímero é referida como um modelo e a outra série de
25 / 92 unidades de polímero que é complementar a ela é referida como um complemento. Neste caso, as medições do molde e do complemento podem ser feitas com o uso de qualquer técnica adequada, por exemplo, sendo tomadas sequencialmente usando uma proteína de ligação de polinucleotídeo ou via preparação de amostra de polinucleotídeo. Os métodos adequados incluem aqueles descritos no documento WO-2010/086622 ou WO- 2013/014451.
[0083] Qualquer um dos métodos divulgados neste documento relativos a uma única série de unidades de polímero pode ser aplicado a várias séries de medições, como um modelo e complemento, por exemplo, usando os métodos descritos no documento WO-2010/086622 ou WO-2013/014451.
[0084] A série de medições forma um sinal bruto que é analisado pelo sistema de análise 3. O sinal bruto pode ser pré-processado no sistema de medição 2 antes do fornecimento ao sistema de análise 2 ou como um estágio inicial no sistema de análise 3, por exemplo filtrado para reduzir o ruído. Nesses casos, a análise abaixo é realizada no sinal pré-processado.
[0085] O sistema de análise 3 pode estar fisicamente associado ao sistema de medição 2 e também pode fornecer sinais de controle para o sistema de medição 2. Nesse caso, o sistema de medição e análise de nanoporos 1 que compreende o sistema de medição 2 e o sistema de análise 3 pode ser arranjado como divulgado em qualquer um dos documentos WO- 2008/102210, WO-2009/07734, WO-2010/122293, WO-2011/067559 ou WO2014/04443.
[0086] Alternativamente, o sistema de análise 3 pode ser implementado em um aparelho separado, caso em que a série de medição é transferida do sistema de medição 2 para o sistema de análise 3 por qualquer meio adequado, tipicamente uma rede de dados. Por exemplo, uma implementação baseada em nuvem conveniente é para o sistema de análise 3 ser um servidor ao qual o sinal de entrada 11 é fornecido através da Internet.
26 / 92
[0087] O sistema de análise 3 pode ser implementado por um aparelho de computador que executa um programa de computador ou pode ser implementado por um dispositivo de hardware dedicado, ou qualquer combinação dos mesmos. Em ambos os casos, os dados usados pelo método são armazenados em uma memória no sistema de análise 3.
[0088] No caso de um aparelho de computador que executa um programa de computador, o aparelho de computador pode ser qualquer tipo de sistema de computador, mas é tipicamente de construção convencional. O programa de computador pode ser escrito em qualquer linguagem de programação adequada. O programa de computador pode ser armazenado em um meio de armazenamento legível por computador, que pode ser de qualquer tipo, por exemplo: um meio de gravação que pode ser inserido em uma unidade de disco do sistema de computação e que pode armazenar informações magneticamente, opticamente ou optomagneticamente; um meio de gravação fixo do sistema de computador, como uma unidade de disco rígido; ou uma memória de computador.
[0089] No caso em que o aparelho de computador é implementado por um dispositivo de hardware dedicado, qualquer tipo adequado de dispositivo pode ser usado, por exemplo, um FPGA (arranjo de portas programáveis em campo) ou um ASIC (circuito integrado de aplicação específica). Em uma modalidade preferida, partes do programa de computador podem ser implementadas usando hardware passível de paralelização de cálculos, como uma unidade de processamento gráfico (GPU).
[0090] Um método de uso do sistema de medição e análise de nanoporos 1 é realizado como segue.
[0091] Em primeiro lugar, um sinal 10 é derivado com o uso do sistema de medição 2. Por exemplo, o polímero é translocado em relação ao poro, por exemplo, através do poro, e o sinal é derivado durante a
27 / 92 translocação do polímero. O polímero pode ser translocado em relação ao poro, proporcionando condições que permitem a translocação do polímero, após o que a translocação pode ocorrer espontaneamente. Durante a translocação, o sinal 10 é derivado.
[0092] Em segundo lugar, o sistema de análise 3 executa um método de análise do sinal 10, como será descrito agora.
[0093] O sistema de análise 3 analisa o sinal usando uma rede neural
20. Os parâmetros da rede neural 20 assumem valores durante o treinamento que é descrito mais abaixo e, como tal, a rede neural recorrente não depende das medições tendo qualquer forma particular ou do sistema de medição 2 tendo qualquer propriedade particular. Por exemplo, a rede neural recorrente não depende de as medições serem dependentes de k-mers que compreendem k unidades de polímero consecutivas.
[0094] Um exemplo de uma rede neural adequada 20 é mostrado na Figura 3 e inclui uma unidade de janelamento 30, uma CNN (rede neural convolucional) 40, uma RNN (rede neural recorrente) 50 e um decodificador 80, que processa sucessivamente o sinal da seguinte forma.
[0095] A unidade de janelamento 30 janela o sinal 10 para derivar seções em janela sucessivas 31 do sinal 10, por exemplo, como ilustrado na Figura 4. As seções em janela 11 são fornecidas à CNN 40.
[0096] As seções em janela 31 têm um comprimento 32 e uma passada 33 entre seções em janela sucessivas 31, ambas as quais podem ser contadas no tempo ou em números de amostras do sinal 10. A passada 33 pode ser uma única amostra ou várias amostras. Se a passada 33 for uma única amostra, então, ignorando os efeitos de borda, haverá o mesmo número de seções em janela 31 como amostras no sinal 10. Se a passada 33 for maior do que uma única amostra, então a unidade de janelamento 30 realiza a subamostragem e há menos seções com janelas 31 do que amostras no sinal
10. Normalmente, a passada 33 é menor do que o comprimento 33, de modo
28 / 92 que as seções em janela 10 se sobreponham no sinal 10.
[0097] A título de exemplo, o comprimento 32 pode ser 4,75 ms e a passada pode ser 0,5 ms.
[0098] A título de exemplo adicional, o comprimento pode ser de 19 amostras e a passada pode ser de 2 amostras.
[0099] A CNN 40 compreende pelo menos uma camada convolucional. A pelo menos uma camada convolucional realiza uma convolução de cada seção em janela 11 para derivar um vetor de recursos 41 em relação a cada seção em janela 31. Isso é feito independentemente de quaisquer eventos que possam ser evidentes no sinal e, portanto, é igualmente aplicável aos sinais onde tais eventos são ou não evidentes, ou aos sinais onde os eventos são fornecidos durante o pré-processamento. Os vetores de recursos 41 são fornecidos à RNN 50.
[00100] A CNN 40 é treinada em conjunto com a RNN 50 conforme discutido abaixo.
[00101] A CNN 40 pode assumir qualquer forma.
[00102] Em um exemplo, a CNN 40 pode ser uma única camada convolucional, definida por uma transformação afins com pesos e polarizações , e uma função de ativação . Aqui representa uma janela de medições do sinal bruto 20 contendo o ao medições inclusivas, e é o vetor de recursos de saída.
[00103] A tangente hiperbólica é uma função de ativação adequada, mas muitas outras alternativas são conhecidas na técnica, incluindo, mas não se restringindo a: Unidade Linear Retificadora (ReLU), Unidade Linear Exponencial (ELU), unidade softplus e unidade sigmoidal. Várias camadas convolucionais também podem ser usadas.
[00104] Em outro exemplo, a CNN 40 pode assumir a mesma forma
29 / 92 que a CNN na Referência 1.
[00105] Uma rede convolucional reta, como descrito, tem a desvantagem de haver uma dependência da posição exata dos recursos detectados no sinal bruto e isso também implica uma dependência do espaçamento entre os recursos. A dependência pode ser aliviada usando a sequência de saída dos vetores de recursos gerados pela primeira convolução como entrada em uma segunda rede de “pooling” que atua nas estatísticas de ordem de sua entrada.
[00106] A título de exemplo, onde a rede de pooling é uma rede neural de camada única, as seguintes equações descrevem como a saída se relaciona com os vetores de entrada. Deixando ser um índice sobre recursos de entrada, então é a matriz de peso para o recurso , e deixar ser um functor que retorna algumas ou todas as estatísticas de ordem de sua entrada:
[00107] Um exemplo útil, mas computacionalmente eficiente, de tal camada é aquele que retorna um vetor de recursos, do mesmo tamanho que o número de recursos de entrada, cujos elementos são o valor máximo obtido para cada recurso respectivo. Deixando o functor retornar apenas a estatística do último pedido, sendo o valor máximo obtido em sua entrada, e deixando ser a matriz (coluna única) que consiste inteiramente em zeros diferentes de um valor unitário em seu elemento :
[00108] Visto que as matrizes são extremamente esparsas, por razões de eficiência de computação, as multiplicações da matriz podem ser realizadas implicitamente: aqui o efeito de Σf Uf xf é definir o elemento do vetor de recursos de saída para .
[00109] As convoluções e/ou agrupamento podem ser realizadas
30 / 92 apenas calculando sua saída para cada enésima posição (uma passada de n) e, assim, a subamostragem de sua saída. A subamostragem pode ser vantajosa de uma perspectiva computacional, visto que o resto da rede precisa processar menos blocos (computação mais rápida) para obter uma precisão semelhante.
[00110] Adicionar uma pilha de camadas de convolução resolve muitos dos problemas descritos acima: a detecção de recursos aprendida pela convolução pode funcionar como detectores de recursos específicos de nanoporos e estatísticas resumidas sem fazer quaisquer suposições adicionais sobre o sistema; a incerteza do recurso é transmitida ao resto da rede por pesos relativos de recursos diferentes e, portanto, o processamento adicional pode levar essas informações em consideração, levando a previsões e quantificações mais precisas da incerteza.
[00111] A RNN 50 produz uma série de distribuições de peso. A RNN 50 compreende pelo menos uma camada recorrente 52, a ou cada camada recorrente sendo seguida por uma camada de alimentação direta 53. A Figura 5 ilustra a RNN para o caso de uma única camada recorrente 52, ao passo que, em geral, pode haver qualquer número plural de camadas recorrentes 52 e subsequentes camadas de alimentação direta 53. Isso fornece uma escolha flexível de arquitetura de unidade. As camadas podem ter diferentes parâmetros, ter diferentes tamanhos ou mesmo ser compostas por diferentes tipos de unidades.
[00112] A ou cada camada recorrente 52 é de preferência bidirecional para permitir que a influência de cada vetor de característica de entrada se propague em ambas as direções através da RNN. Uma modalidade preferida alternativa compreende múltiplas camadas recorrentes unidirecionais, dispostas em direções alternadas, por exemplo, camadas dispostas em direções sucessivas de reverse, forwards, reverse, forwards, reverse. Essas arquiteturas bidirecionais permitem que a RNN 50 acumule e propague informações de uma maneira indisponível para HMMs. Uma vantagem
31 / 92 adicional das camadas recorrentes é que elas não requerem uma escala exata de sinal para modelar (ou vice-versa), por exemplo, por meio de um procedimento iterativo.
[00113] Para a subamostragem na camada de alimentação direta 53, transformações afins separadas são aplicadas aos vetores de saída para a camada forward e backwards em cada coluna, seguido pela soma; isso é equivalente a aplicar uma transformação afim ao vetor formado pela concatenação da entrada e da saída. Uma função de ativação é então aplicada elemento a elemento à matriz resultante.
[00114] As camadas recorrentes 52 podem usar vários tipos de unidade de rede neural, como será agora descrito. Os tipos de unidade se enquadram em duas categorias gerais, dependendo de serem ou não “recorrentes”. Enquanto as unidades não recorrentes tratam cada etapa da sequência independentemente, uma unidade recorrente é projetada para ser usada em uma sequência e passar um vetor de estado de uma etapa para a próxima.
[00115] A fim de mostrar em diagrama a diferença entre unidades não recorrentes e unidades recorrentes, a Figura 6 mostra uma camada não recorrente 60 de unidades não recorrentes 61 e as Figuras 7 a 9 mostram três camadas diferentes 62 a 64 das respectivas unidades não recorrentes 64 a 66. Em cada uma das Figuras 6 a 9, as setas mostram conexões ao longo das quais os vetores são passados, setas que são divididas sendo vetores duplicados e setas que são combinadas sendo vetores concatenados.
[00116] Na camada não recorrente 60 da Figura 6, as unidades não recorrentes 61 têm entradas e saídas separadas que não se dividem ou se concatenam.
[00117] A camada recorrente 62 da Figura 7 é uma camada recorrente unidirecional na qual os vetores de saída das unidades recorrentes 65 são divididos e passados unidirecionalmente para a próxima unidade recorrente 65 na camada recorrente.
32 / 92
[00118] Embora não seja uma unidade discreta por si só, cada uma das camadas recorrentes bidirecionais 63 e 64 das Figuras 8 e 9 tem uma estrutura semelhante a uma unidade de repetição feita a partir de unidades recorrentes 66 e 67 mais simples, respectivamente.
[00119] Na camada recorrente bidirecional 63 da Figura 8, a camada recorrente bidirecional 63 consiste em duas subcamadas 68 e 69 de unidades recorrentes 66, em que uma subcamada forwards 68 tem a mesma estrutura que a camada recorrente unidirecional 62 da Figura 7 e uma subcamada backwards 69 tem uma estrutura que é revertida da camada recorrente unidirecional 62 da Figura 7 como se o tempo fosse revertido, passando os vetores de estado de uma unidade 66 para a unidade anterior 66. Ambas as subcamadas forwards e backwards 68 e 69 recebem a mesma entrada e suas saídas das unidades correspondentes 66 são concatenadas para formar a saída da camada recorrente bidirecional 63. É notado que não há conexões entre qualquer unidade 66 dentro da subcamada forwards 68 e qualquer unidade dentro da subcamada backwards 69.
[00120] A camada recorrente bidirecional alternativa 64 da Figura 9 consiste de forma semelhante em duas subcamadas 70 e 71 de unidades recorrentes 67, em que uma subcamada forwards 68 tem a mesma estrutura que a camada recorrente unidirecional 62 da Figura 7 e uma subcamada backwards 69 tem uma estrutura que é revertida da camada recorrente unidirecional 62 da Figura 7 como se o tempo estivesse invertido. Mais uma vez, as subcamadas forwards e backwards 68 e 69 recebem as mesmas entradas. No entanto, em contraste com a camada recorrente bidirecional 63 da Figura 8, as saídas da subcamada forwards 68 são as entradas da subcamada backwards 69 e as saídas da subcamada forwards 69 formam a saída da camada recorrente bidirecional 64 (as subcamadas forwards e backwards 68 e 69 podem ser invertidas).
[00121] Uma generalização da camada recorrente bidirecional 64
33 / 92 mostrada na Figura 9 seria uma pilha de camadas recorrentes que consiste em várias subcamadas recorrentes “forwards” e “backward”, onde a saída de cada camada é a entrada para a próxima camada.
[00122] As camadas recorrentes bidirecionais 52 da RNN 50 podem assumir a forma de qualquer uma das camadas recorrentes bidirecionais 63 e 64 das Figuras 8 e 9. Em geral, as camadas recorrentes bidirecionais 34 da Figura 3 podem ser substituídas por uma camada não recorrente, por exemplo, a camada não recorrente 60 da Figura 6, ou por uma camada recorrente unidirecional, por exemplo, a camada recorrente 62 da Figura 7, mas o desempenho melhorado é alcançado pelo uso de camadas recorrentes bidirecionais 34.
[00123] As camadas de alimentação direta 53 serão agora descritas.
[00124] As camadas de alimentação direta 53 compreendem unidades de alimentação 54 que processam os respectivos vetores. As unidades de alimentação 54 são a unidade padrão em redes neurais clássicas, ou seja, uma transformação afim é aplicada ao vetor de entrada e, em seguida, uma função não linear é aplicada elemento a elemento. Todas as camadas de alimentação direta 53 usam a tangente hiperbólica para a função não linear, embora muitas outras possam ser usadas com pouca variação na precisão geral da rede.
[00125] Se o vetor de entrada na etapa é , e a matriz de peso e polarização para a transformação afim são e respectivamente, então o vetor de saída é:
[00126] As distribuições de peso da RNN 50 são normalizadas globalmente. Isso é discutido com mais detalhes abaixo.
[00127] As unidades não recorrentes 62 e as unidades recorrentes 65 a 67 tratam cada evento independentemente, mas pode ser substituído por unidades de Long Short-Term Memory com uma forma como será descrito agora.
34 / 92
[00128] As unidades de Long Short-Term Memory (LSTM) foram introduzidas em Hochreiter and Schmidhuber, Long short-term memory, Neural Computation, 9 (8): 1735 a 1780, 1997. Uma unidade de LSTM é uma unidade recorrente e, portanto, passa um vetor de estado de uma etapa da sequência para a próxima. A LSTM é baseada na notação de que a unidade é uma célula de memória: um estado oculto contendo o conteúdo da memória é passado de uma etapa para a próxima e operado por meio de uma série de portas que controlam como a memória é atualizada. Uma porta controla se cada elemento da memória é removido (esquecido), outra controla se ele é substituído por um novo valor e uma porta final que determina se a memória é lida e emitida. O que torna a célula de memória diferenciável é que as portas lógicas binárias liga/desliga da célula de memória do computador conceitual são substituídas por probabilidades nocionais produzidas por uma função sigmoidal e o conteúdo das células de memória representa um valor esperado.
[00129] Em primeiro lugar, a implementação padrão do LSTM é descrita e, em seguida, a modificação “peep-hole” que é realmente usada no método básico.
[00130] A LSTM padrão é a seguinte.
[00131] As probabilidades associadas às diferentes operações nas unidades de LSTM são definidas pelo seguinte conjunto de equações. Deixando ser vetor de entrada para a etapa , seja o vetor de saída e deixe a transformação afim indexada por que tem polimerização e matrizes de peso e para a entrada e saída anterior, respectivamente; é a transformação sigmoidal não linear.
[00132] Dados os vetores de atualização definidos acima e permitindo que o operado represente a multiplicação elemento a elemento (Hadamard),
35 / 92 as equações para atualizar o estado interno e determinar a nova saída são:
[00133] A modificação do peep-hole é como segue.
[00134] A modificação “peep-hole” (Gers e Schmidhuber, 2000) adiciona algumas conexões adicionais à arquitetura LSTM permitindo que as probabilidades de esquecimento, atualização e saída “espiem” (sejam informadas por) o estado oculto da célula de memória. As equações de atualização para a rede são as acima, mas, permitindo ser um vetor “peep” de comprimento igual ao estado oculto, as três equações para os vetores de probabilidade tornam-se:
[00135] As unidades não recorrentes 62 e as unidades recorrentes 65 a 67 podem, alternativamente, ser substituídas por Unidade Recorrente Fechada com a forma a seguir.
[00136] A Unidade Recorrente Fechada (GRU) demonstrou ser mais rápida de operar, mas inicialmente apresentou menor precisão. A arquitetura da GRU não é tão intuitiva quanto a LSTM, dispensando a separação entre o estado oculto e a saída e também combinando as ”portas de entrada” e “esquecer”.
[00137] Embora haja o mesmo número de colunas de saída e de eventos, não é correto supor que cada coluna seja identificada com um único evento na entrada da rede, uma vez que seu conteúdo é potencialmente informado por todo o conjunto de eventos de entrada por conta da presença
36 / 92 das camadas bidirecionais. Qualquer correspondência entre eventos de entrada e colunas de saída ocorre por meio de como eles são rotulados com símbolos no conjunto de treinamento.
[00138] Em outro exemplo, a RNN 50 pode assumir a mesma forma que a RNN na Referência 1.
[00139] A série de distribuições de peso 51 produzida pela RNN 50 será agora discutida.
[00140] Uma distribuição de peso 51 é produzida em relação a etapas de tempo sucessivas para formar uma série de distribuições de peso. O intervalo de tempo pode, em princípio, ser do mesmo comprimento que o período de amostra do sinal 10, mas é normalmente mais longo do que o período de amostra do sinal 10 devido à sobreamostragem na rede neural 20. No entanto, os intervalos de tempo são um comprimento regular, por exemplo correspondendo à passada 13 da unidade de janelamento 30, que contrastam com sistemas onde a chamada de evento é realizada e, portanto, os intervalos de tempo entre distribuições de peso sucessivas 51 correspondem ao comprimento de eventos detectados sucessivamente, que são variáveis.
[00141] Em geral, as distribuições de peso 51 são emitidas a uma taxa mais alta do que a taxa em que unidades de polímero sucessivas translocam em relação ao nanoporo, isto é, há mais distribuições de peso 51 do que unidades de polímero. O número plural de distribuições de peso 51 que correspondem a cada unidade de polímero na série é a priori desconhecido.
[00142] Cada distribuição de peso 51 compreende vários pesos. Os pesos representam probabilidades posteriores. Os pesos podem ser as probabilidades posteriores reais ou, mais geralmente, podem ser pesos que não são probabilidades reais, mas mesmo assim representam as probabilidades posteriores. Geralmente, quando os pesos não são probabilidades reais, as probabilidades posteriores podem, em princípio, ser determinadas a partir dos mesmos, levando em consideração a normalização
37 / 92 dos pesos.
[00143] A RNN 50 fornece pesos em relação às transições entre as marcações em um conjunto de marcações, incluindo marcações que representam os possíveis tipos de unidade de polímero. Assim, os pesos em relação às transições representam probabilidades posteriores para essas transições. Como há mais distribuições de peso 51 do que unidades de polímero, deve-se entender que em algumas representações uma transição de uma marcação para a mesma marcação é permitida e, portanto, as distribuições de peso 51 incluem um peso em relação a tal transição, ou seja, a palavra “transição” não significa que a marcação deva mudar, nem que uma unidade adicional de polímero deva ser emitida.
[00144] Abaixo, vários exemplos de uma saída de distribuição de peso 51 pela RNN 50 são dados. Cada um desses exemplos se refere ao caso em que as unidades de polímero são polinucleotídeos e os tipos de unidades de polímero são as quatro bases A, C, G e T. Como discutido acima, os presentes métodos são igualmente aplicáveis a um grande número de tipos de polinucleotídeos e/ou a unidades de polímero que não são nucleotídeos, de modo que esses exemplos podem ser generalizados em conformidade. Em cada um dos exemplos, as distribuições de peso 51 incluem pesos que representam transições entre marcações. Assim, os pesos são notados como wij, onde i é um índice para a marcação a partir da qual ocorre a transição e j é um índice para a marcação para a qual ocorre a transição. Assim, o peso wij é o peso para a transição da marcação i para a marcação j. Em cada um dos desenhos, as linhas correspondem às marcações i a partir dos quais ocorrem as transições e as colunas correspondem às marcações j das quais ocorre a transição.
[00145] Um exemplo de tal configuração é uma RNN configurada com um número de elementos de alimentação direta em sua camada de saída (final) que é igual ao número de pesos na distribuição de peso a ser produzida.
38 / 92 As Figuras 7 a 9 também fornecem exemplos que mostram diversas saídas de unidades de uma RNN; será apreciado que qualquer uma ou mais dessas configurações podem estar presentes dentro da RNN de modo que o número de saídas seja igual ao número de pesos na distribuição de peso a ser produzida.
[00146] As Figuras 10 e 11 mostram dois exemplos de uma distribuição de peso 51 que pode ser produzida pela RNN 50.
[00147] No exemplo da Figura 10, há uma única marcação em relação a cada uma das quatro bases mostradas como A, C, G e T. Todas as transições são permitidas, portanto, há um total de dezesseis pesos wij em relação às 16 transições de cada uma das marcações para cada uma das marcações.
[00148] O exemplo da Figura 10 não fornece uma boa representação de homopolímeros, que são uma sucessão de várias unidades de polímero do mesmo tipo dentro da série de unidades de polímero. Isso ocorre porque uma transição de uma marcação para a mesma marcação não distingue entre a mesma instância de determinado tipo de unidade de polímero e um outro caso de determinado tipo de unidade de polímero. Como resultado, uma série de transições de uma marcação para a mesma marcação representa uma série de qualquer número (um ou mais) de instâncias de uma unidade de polímero (ou seja, uma única unidade de polímero e um homopolímero do mesmo tipo de unidade de polímero de qualquer comprimento).
[00149] No entanto, a Figura 11 é um exemplo que melhora a representação de homopolímeros ao expandir a representação da Figura 10 de modo que o conjunto de marcações inclua (i) uma única marcação, em que cada uma representa uma diferente das quatro bases, e (ii) uma marcação que representa um espaço em branco na série de unidades de polímero. Todas as transições permitidas são mostradas no exemplo da Figura 11, portanto, há um total de 25 pesos wij em relação às 25 transições de cada uma das marcações para cada uma das marcações. Nesta representação, uma marcação
39 / 92 em branco representa uma separação entre duas instâncias de uma base (unidades de polímero) na série, mesmo que sejam do mesmo tipo.
[00150] Dito de outra forma, na sequência de unidades de polímero pode ser o caso de uma janela de medições de dados ser analisada, mas nessa janela de dados nenhuma transição entre as unidades de polímero está presente. Nesse caso, a transição pode ser representada como uma transição da marcação anterior para uma marcação “em branco”, o que representa que nenhuma nova instância de uma unidade de polímero foi transicionada na janela.
[00151] Em algumas modalidades, os espaços em branco podem ser tratados como obrigatórios, em que um espaço em branco deve estar presente na sequência determinada de unidades de polímero, a fim de tratar as unidades de polímero em ambos os lados do espaço em branco como sendo unidades de polímero separadas. Por exemplo, no caso da seguinte sequência gerada de marcações em que os espaços em branco são representados por um “-”: A A A - - A, isso seria resolvido para uma sequência real de unidades de polímero = A A. Cada uma das três primeiras ocorrências da marcação “A” é tratada como sendo instâncias da mesma unidade de polímero real “A”, enquanto a última marcação “A” é tratada como distinta porque é separada dos primeiros três “A”s por duas marcações em branco.
[00152] Em algumas modalidades, os espaços em branco podem ser tratados como opcionais, em que um espaço em branco representa um espaçador entre as unidades de polímero e a repetição de uma marcação. Por exemplo, no caso da seguinte sequência gerada de marcações em que os espaços em branco são representados por um “-”: A A A - - A, isso seria resolvido para uma sequência real de unidades de polímero = A A A A. Cada uma das três primeiras ocorrências da marcação “A” é tratada como unidades de polímero distintas e as marcações em branco atuam como um espaçador entre essas unidades e a marcação “A” final.
40 / 92
[00153] Esta representação na saída da RNN 50 usando pesos em relação às transições entre marcações contrasta com a Referência 1, em que uma RNN emite probabilidades posteriores (um exemplo específico de um peso) em relação às marcações sobre um conjunto de marcações que consiste em quatro marcações que representam cada de quatro tipos de polinucleotídeo (isto é, bases C, G, A e T) e um marcador representando um espaço em branco. A representação usando pesos em relação às transições entre marcações fornece vantagens sobre uma representação usando pesos em relação a marcações porque são fornecidas informações adicionais que melhoram a precisão da estimativa da série de unidades de polímero. Isso ocorre porque os pesos fornecem informações sobre os possíveis caminhos através da série de unidades de polímero, enquanto os pesos em relação às próprias marcações perdem informações sobre a relação com outras marcações para fins de análise adicional. Assim, informações adicionais são fornecidas para a etapa de estimativa das unidades de polímero, o que melhora a precisão da decodificação.
[00154] Além disso, a representação permite que as transições permitidas e não permitidas sejam representadas. Ou seja, as marcações podem representar os possíveis tipos de unidade de polímero de uma maneira em que uma ou mais das transições entre as marcações não são permitidas e outras transições são permitidas. Nesse caso, as distribuições de peso 51 que compreendem pesos em relação às transições que são permitidas. As distribuições de peso 51 podem compreender pesos nulos em relação às transições que não são permitidas.
[00155] Um peso nulo pode ser a ausência de um peso na distribuição de peso 51 de saída pela RNN 50. Nos exemplos mostrados nos desenhos, os pesos nulos são ilustrados pela ausência de um peso, mas as alternativas abaixo podem ser aplicadas em seu lugar.
[00156] Alternativamente, um peso nulo pode ser um peso que está
41 / 92 presente na distribuição de peso 51 emitida pela RNN 50, para facilidade de implementação da RNN 50, mas com um valor nominal. Tal valor nominal pode ser um valor com um valor zero ou uma magnitude insignificante de modo que afete a estimativa realizada pelo decodificador 80, conforme descrito abaixo. Alternativamente, tal valor nominal pode ser um valor que está presente na distribuição de peso 51 emitida pela RNN, mas ignorado pelo decodificador 80, por exemplo, usando uma matriz de transição conforme descrito abaixo.
[00157] Alguns exemplos disso são os seguintes.
[00158] Um primeiro exemplo onde ocorrem transições permitidas e não permitidas é onde o conjunto de tipos possíveis de unidade de polímero inclui um tipo de unidade de polímero que sempre aparece em uma sequência conhecida de unidades de polímero. Neste caso, as transições de acordo com a sequência conhecida são permitidas e as transições contrárias à sequência conhecida não são permitidas. Um exemplo disso para polinucleotídeos é que 5-metilcitosina em vertebrados ocorre apenas em citosinas que precedem uma guanina (“CpG”), e isso pode ser usado para restringir ainda mais as transições possíveis e, portanto, menos pesos da RNN 50 são necessários. Ou seja, a metilação CpG resulta em C metilado (que será representado aqui como CM) sendo sempre seguido por G, de modo que CM sempre ocorre na sequência conhecida CMG. A Figura 12 é um exemplo de uma distribuição de peso 51 usada para representar isso. A distribuição de peso 51 é adaptada daquela da Figura 11 para adicionar um marcador que representa C metilado às quatro marcações que representam os quatro tipos de polinucleotídeo (isto é, bases C, G, A e T) e uma marcação que representa um espaço em branco. Nesse caso, as transições de CM para A, C ou T não são permitidas, portanto, há pesos nulos para essas transições, ou seja, os pesos w61, w62 e w64 são nulos na distribuição de peso. Isso permite que a RNN forneça melhores informações sobre a base C metilada, o que melhora a precisão da estimativa
42 / 92 da base C metilada.
[00159] Opcionalmente, o peso de uma transição de CM para CM pode ser nulo. Isso pode ser no caso de uma permanência. Isso ocorre porque, embora possa ser identificado durante as medições, a dita transição não faz parte de uma sequência porque a metilação CpG resulta em C metilado sempre sendo seguido por G, ou seja, a sequência CMG. Um exemplo adicional disso é a representação flip-flop descrita abaixo, em que as transições do flip modificado ou flop modificado para guanina ou marcadores de flop modificado são permitidas reduzindo o número de pesos necessários da RNN 50 de 60 para 52 (comparar com 100 pesos necessários para todas as transições possíveis). Além da redução na quantidade de saídas de rede necessárias, restringir as transições àquelas possíveis impede que o método produza estimativas de tipos de unidade de polímero com modificações em contextos impossíveis que seriam erros na estimativa e chamadas de modificação de falso positivo.
[00160] Um segundo exemplo é uma representação em que o conjunto de marcações é modificado de modo que cada tipo de polímero seja representado por várias marcações em vez de uma única marcação. Por exemplo, o conjunto de marcações pode incluir uma primeira e uma segunda marcação em relação a cada tipo de unidade de polímero, onde a primeira marcação representa o início de uma instância do tipo de unidade de polímero e a segunda marcação representa uma permanência na instância do tipo de unidade de polímero. Como mencionado acima, uma “permanência” representa uma situação em que o método determina que a marcação associada a distribuições de peso sucessivas não muda, o que pode ser considerado como duas distribuições de peso correspondentes à mesma instância de uma unidade de polímero. Neste documento, este exemplo será referido como “múltipla permanência”. Isso melhora a representação porque uma permanência é representada por uma marcação diferente. Isso melhora a
43 / 92 precisão da estimativa da unidade de polímero.
[00161] Esta representação de múltipla permanência tem como consequência que algumas transições são permitidas e outras não. Por exemplo, uma primeira marcação, por exemplo “A” só pode fazer a transição para uma segunda marcação, por exemplo, AS em relação ao mesmo tipo de unidade de polímero ou para uma primeira marcação de um tipo diferente de unidade de polímero. Mais especificamente, as seguintes transições são permitidas e não permitidas: a) as transições de cada primeira marcação para a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas, e as transições de cada primeira marcação para a primeira marcação para o mesmo tipo de unidade de polímero são permitidas; b) as transições de cada primeira marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas; c) as transições de cada primeira marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas; d) as transições de cada segunda marcação para a primeira marcação para o mesmo tipo de unidade de polímero ou a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas; e) as transições de cada segunda marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas; e f) as transições de cada segunda marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas.
[00162] O esquema de representação de múltipla permanência ilustrativo acima pode ser considerado um esquema “obrigatório” de uma maneira semelhante ao esquema da Figura 11 em que os espaços em branco podem ser considerados obrigatórios ou opcionais conforme descrito acima. Como tal, será apreciado que um esquema semelhante ao acima pode ser
44 / 92 previsto para a representação múltipla permanência em que uma primeira marcação é permitida a transição para a mesma primeira marcação. Tal esquema pode ser considerado um esquema de representação “opcional” de múltipla permanência.
[00163] A Figura 13 ilustra um exemplo de uma distribuição de peso 51 que é adaptada daquela da Figura 10 para implementar este tipo de representação. Assim, na Figura 13, o conjunto de marcações inclui quatro primeiras marcações em relação aos quatro tipos de base mostrados como A, C, G e T, e quatro segundas marcações em relação aos quatro tipos de base mostrados como AS, CS, GS e TS. Aqui, o S sobrescrito (para “permanência”) é usado para distinguir as segundas marcações das primeiras marcações em relação ao mesmo tipo de base e representa uma permanência. Conforme mostrado na Figura 13, em vista das transições que são permitidas e não permitidas, os seguintes pesos estão presentes ou nulos: a) transições de cada primeira marcação (por exemplo, A) para a primeira marcação para qualquer outro tipo de unidade de polímero (por exemplo, C, G e T) são permitidas, e as transições de cada primeira marcação (por exemplo, A) para a primeira marcação para o mesmo tipo de unidades de polímero (por exemplo, A) são permitidas, então todos os pesos no quadrante superior esquerdo estão presentes; b) transições de cada primeira marcação (por exemplo, A) para a segunda marcação para o mesmo tipo de marcação de unidade de polímero (por exemplo, AS) são permitidas, então pesos no quadrante superior direito w15, w26, w37 e w48 estão presentes; c) as transições de cada primeira marcação (por exemplo, A) para a segunda marcação para qualquer outro tipo de unidade de polímero (por exemplo, CS, GS e TS) não são permitidos, portanto, pesos no quadrante superior direito diferente de w15, w26, w37 e w48 são nulos; d) transições de cada segunda marcação (por exemplo, AS)
45 / 92 para a primeira marcação para o mesmo tipo de unidade de polímero (por exemplo, A) ou a primeira marcação para qualquer outro tipo de unidade de polímero (por exemplo, C, G e T) são permitidas, portanto, todos os pesos no quadrante inferior esquerdo estão presentes; e) as transições de cada segunda marcação (por exemplo, AS) para a segunda marcação para o mesmo tipo de unidade de polímero (por exemplo, AS) são permitidas, então pesos no quadrante inferior direito w55, w66, w77 e w88 estão presentes; e f) transições de cada segunda marcação (por exemplo, AS) para a segunda marcação para qualquer outro tipo de unidade de polímero (por exemplo, CS, GS e TS) não são permitidas, então pesos no quadrante inferior direito diferente de w55, w66, w77 e w88 são nulos.
[00164] A representação de múltipla permanência pode ser combinada com a representação para C metilado apresentada acima, ou de fato com quaisquer representações semelhantes para um tipo de unidade de polímero que sempre aparece em uma sequência conhecida de unidades de polímero.
[00165] As representações de homopolímeros serão agora consideradas. Um homopolímero é uma sequência de instâncias consecutivas de unidades de polímero do mesmo tipo na série de unidades de polímero.
[00166] Os homopolímeros são adequadamente representados pela representação de múltipla permanência discutida acima porque uma transição da segunda marcação (por exemplo, AS) para a primeira marcação para o mesmo tipo de unidade de polímero (por exemplo, A) representa uma segunda instância do mesmo tipo de unidade de polímero. Por exemplo, uma série de marcações AASASAASAASASAASASASAS representa um homopolímero de comprimento de quatro unidades de polímero, em que o número de marcações consecutivos A ou AS é arbitrário e variando na prática. No entanto, a precisão da estimativa pode ser melhorada adaptando a representação de modo que as marcações representem homopolímeros em uma forma
46 / 92 codificada, por exemplo como segue.
[00167] Uma primeira representação de homopolímeros na forma codificada será referida como uma representação “flip-flop” e é a seguinte.
[00168] Um dos benefícios de ter a saída de um método de análise sendo fragmentos de comprimento fixo sobrepostos é que a quantidade de sobreposição pode ser usada para determinar se, e quantas, translocações de unidades de polímero ocorreram. Métodos de análise baseados em sobreposições falham em regiões de baixa complexidade de um polímero, como homopolímeros, onde a sobreposição pode ser ambígua (por exemplo, AAA -> AAA pode ser zero, uma, duas ou mais translocações do homopolímero A) e uma representação diferente é desejável. Em uma representação flip-flop, as marcações representam homopolímeros incluindo várias marcações para cada tipo de unidade de polímero, em que as várias marcações para cada tipo de unidade de polímero representam instâncias consecutivas do tipo de unidade de polímero na série de unidades de polímero. Normalmente, existem duas marcações para cada tipo de unidade de polímero, que podem ser chamadas de “flip” e “flop” para facilitar a referência.
[00169] Assim, em vez de decodificar para fragmentos de comprimento fixo, o método flip-flop de decodificação representa uma sequência de unidades de polímero como uma sequência de marcações “flip” e “flop” com a seguinte restrição: os homopolímeros devem começar na marcação “flip” e em seguida, alterne entre as marcações “flip” e “flop” até que terminem. A representação de flip-flop garante que nenhuma marcação seja igual às marcações vizinhas e, portanto, uma translocação de uma unidade com um homopolímero (uma mudança de flip para flop, ou vice- versa) é sempre distinguível de nenhuma translocação (um flip para flip ou flop para flop). A título de exemplo, a série de unidades de polímero CAATACCTTTAAAAAAAAGAAACTTTTAGCTC é representada como
47 / 92 CAAFTACCFTTFTAAFAAFAAFAAFGAAFACTTFTTFAGCTC onde a marcação flip para unidade de polímero X é representada por X e a correspondente marcação de flop é representada por XF. Sob a codificação flip-flop, uma translocação de um é sempre distinguível de nenhuma translocação; as translocações de um maior número de unidades de polímero podem ainda ser ambíguas. Assim, em termos das marcações representadas pelas sucessivas distribuições de peso 51, se as duas marcações para a base A são A (sendo flip) e AF (sendo flop), então uma série de marcações AAAAAAA FA FA FA FAAA representa um homopolímero de comprimento de três unidades de polímero, o número de marcações consecutivas A ou AF sendo arbitrário e variando na prática. Em princípio, pode haver mais de duas marcações para cada tipo de unidade de polímero, mas duas marcações são suficientes.
[00170] As várias marcações para cada tipo de unidade de polímero podem ter uma ordem cíclica predeterminada. Em um exemplo de duas marcações para cada tipo de unidade de polímero, flip e flop, a ordem cíclica predeterminada pode ser que a primeira unidade de polímero é sempre flip e depois disso alterna flip e flop. Assim, algumas transições entre marcações são permitidas pela ordem cíclica predeterminada e outras transições entre não são permitidas pela ordem cíclica predeterminada. Existem pesos nulos para as transições que não são permitidas pela ordem cíclica predeterminada nas distribuições de peso, ao passo que, claramente, existem pesos para as transições que são permitidas pela ordem cíclica predeterminada.
[00171] No exemplo acima, a ordem cíclica predeterminada é que a primeira unidade de polímero é sempre flip e, posteriormente, alternar flip e flop, as transições de um flip de qualquer tipo de unidade de polímero para o flop de qualquer outro tipo de polímero não são permitidas, e similarmente, as transições de um flop de qualquer tipo de unidade de polímero para o flop de qualquer outro tipo de polímero não são permitidas.
48 / 92
[00172] A Figura 14 ilustra um exemplo de uma distribuição de peso 51 para este tipo de representação flip-flop. Assim, na Figura 14, o conjunto de marcações inclui quatro primeiras marcações (flip) em relação aos quatro tipos de base mostrados como A, C, G e T, e quatro segundas marcações (flop) em relação aos quatro tipos de base mostrada como AF, CF, GF e TF. Conforme mostrado na Figura 14, em vista das transições que são permitidas e não permitidas, os seguintes pesos estão presentes ou nulos: a) transições de cada primeira marcação (flip, por exemplo, A) para a primeira marcação (flip) para todos os tipos de unidade de polímero (por exemplo, A, C, G e T) são permitidos, portanto, todos os pesos no quadrante superior esquerdo estão presentes; b) transições de cada primeira marcação (flip, por exemplo, A) para a segunda marcação para o mesmo tipo de unidade de polímero (flop, por exemplo, AF) são permitidos, então pesos no quadrante superior direito w15, w26, w37 e w48 estão presentes; c) transições de cada primeira marcação (flip, por exemplo, A) para a segunda marcação para qualquer outro tipo de unidade de polímero (por exemplo, CF, GF e TF) não são permitidos, então pesos no quadrante superior direito diferente de w15, w26, w37 e w48 são nulos; d) transições de cada segunda marcação (flop, por exemplo, AF) para a primeira marcação para todos os tipos de unidade de polímero (flip, por exemplo, A, C, G e T) são permitidos, portanto, todos os pesos no quadrante esquerdo inferior estão presentes; e) transições de cada segunda marcação (flop, por exemplo, AF) para a segunda marcação para o mesmo tipo de unidade de polímero (flop, por exemplo, AF) são permitidos, então os pesos no quadrante inferior direito w55, w66, w77 e w88 estão presentes; e f) transições de cada segunda marcação (flop, por exemplo, AF) para a segunda marcação para qualquer outro tipo de unidade de polímero
49 / 92 (flop, por exemplo, CF, GF e TF) não são permitidas, portanto, pesos no quadrante inferior direito diferente de w55, w66, w77 e w88 são nulos.
[00173] Dependendo da taxa na qual as medições são feitas em relação à velocidade de translocação da unidade de polímero, a translocação aparente de mais de uma unidade pode ser observada quando o polímero se transloca várias vezes entre as medições. Onde esta for uma ocorrência provável, marcações redundantes adicionais de cada unidade de polímero (“flap”, “flup”, “flep”, etc.) podem ser adicionadas para que a presença de unidades adicionais possa ser representada, por exemplo, uma sequência indo de flip para flap implica a presença de uma marcação de flop intermediário.
[00174] Uma segunda representação de homopolímeros na forma codificada será referida como uma representação codificada de comprimento de execução e é a seguinte.
[00175] A representação de flip-flop pode chamar por meio de homopolímeros longos, mas deve fazê-lo como um caminho de marcações alternados e fazer várias chamadas conectadas. Para homopolímeros mais longos, a planificação do sinal observado pode significar que não há mais um tempo claro quando o sinal muda devido à translocação do polímero em relação ao nanoporo e a posição de cada mudança no marcador se torna mais arbitrária. A Figura 15 mostra um exemplo desta perda de especificidade para um exemplo de região onde os pesos são divididos entre T-flip ou T-flop, apesar da evidência cumulativa de ambos ser alta.
[00176] Assim, em vez de representar um homopolímero como uma sequência de marcadores alternados, em vez disso, todo o homopolímero pode ser representado por uma marcação em relação ao tipo de unidade de polímero. Assim, em vez de treinar a RNN 50 para chamar a sequência canônica ou sua codificação flip-flop, a RNN 50 é treinada para chamar a codificação de comprimento de execução da série de unidades de polímero. Por exemplo, a codificação de comprimento de execução da sequência
50 / 92 canônica TAATTCAAACTTTTTTTCTGATAAGCTGGT é TA2T2CA3CT7CTGATA2GCTG2T onde o comprimento de execução segue a base e os comprimentos de um estão implícitos. A execução mais longa possível é sempre feita para que nenhuma execução fique adjacente a uma execução com a mesma base.
[00177] Em uma primeira formulação de representação codificada de comprimento de execução, as marcações incluem marcações para diferentes comprimentos de execução de cada tipo de unidade de polímero. A Figura 16 ilustra um exemplo de tal distribuição de peso. Neste exemplo, há um único marcador em relação às quatro bases mostradas como A, C, G e T e em relação aos homopolímeros de cada base mostrada como A2, A3, etc. Isso é complicado, pois há um grande número de marcações para acomodar todos os comprimentos possíveis de homopolímero e todas as transições são permitidas, exceto para uma transição de marcação em relação a um homopolímero de um tipo de base para um homopolímero do mesmo tipo de base, mas de um comprimento diferente, portanto, há um grande número de pesos wij em relação à maioria das transições entre marcações quase igual em número ao quadrado do número de rótulos (outros esquemas de transição possíveis poderiam, alternativamente, ser implementados).
[00178] Homopolímeros longos em genomas grandes ocorrem com mais frequência do que seria esperado ao acaso e, portanto, o número de marcações necessárias para representar todos os comprimentos de homopolímero que podem ser encontrados durante o sequenciamento de rotina é extremamente alto. Uma vez que os pesos produzidos pela rede parametrizam explicitamente as transições entre marcações de homopolímero, os dados de treinamento tornam-se um problema devido ao grande número de parâmetros que precisam ser treinados e porque eles são pouco acoplados. Embaralhar as marcações das marcações (por exemplo, A6→A3, T2→T7, G8→G1) resulta em um modelo equivalente que pode ser treinado para
51 / 92 desempenho idêntico, portanto, exemplos de treinamento de homopolímeros de comprimento 4 e 6 não informam o modelo sobre aqueles de comprimento 5.
[00179] Uma formulação alternativa e preferida de uma codificação de comprimento de execução é fatorar as distribuições de peso 51 em várias distribuições dependentes. Assim, as marcações incluem uma marcação em relação a cada tipo de unidade de polímero e as distribuições de peso 51 compreendem pesos adicionais ao longo de comprimentos possíveis do homopolímero comprimido de comprimento de execução para cada tipo de unidade de polímero, além dos pesos em relação às transições. Pesos de transição são emitidos pela RNN 50 para descrever uma distribuição sobre sequências comprimidas de comprimento de execução, que é a sequência codificada de comprimento de execução com todos os comprimentos descartados e um conjunto separado de distribuições condicionais para o comprimento de uma execução dada a unidade de polímero.
[00180] Nesta formulação preferida de uma codificação de comprimento de execução, a distribuição de peso 51 emitida pela RNN pode incluir pesos na forma mostrada na Figura 10 para representar as transições entre diferentes tipos de unidade de polímero. Como discutido acima, neste caso, uma série de transições de uma marcação para a mesma marcação representa uma série de qualquer número de instâncias de uma unidade de polímero (ou seja, uma única unidade de polímero ou um homopolímero do mesmo tipo de unidade de polímero de qualquer comprimento).
[00181] Como uma alternativa a isso, esta formulação preferida de uma codificação de comprimento de execução, a distribuição de peso 51 de saída pela RNN pode ser definida ao longo de um conjunto de marcações onde cada tipo de polímero é representado por primeiro e segundo marcações em vez de uma única marcação, por exemplo, as marcações A e AH em relação a um primeiro tipo de unidade de polímero. Assim, o sobrescrito H é usado para
52 / 92 distinguir as segundas marcações das primeiras marcações em relação ao mesmo tipo de unidade de polímero e efetivamente representa uma “retenção”.
[00182] Isso é semelhante à representação de múltipla permanência mostrada na Figura 13, exceto como segue. Conforme descrito acima, na representação de múltipla permanência, as transições de uma marcação do segundo tipo para uma marcação do primeiro tipo (por exemplo, de AS para A) são permitidas e representam a ocorrência de uma outra instância de uma unidade de polímero do mesmo tipo. Como resultado, um homopolímero é representado por uma série de marcações nos quais a marcação do primeiro tipo é repetida, como no exemplo acima que AASASAASAASASAASASASAS representa um homopolímero de comprimento de três unidades de polímero. Em contraste, na presente representação, as transições permitidas diferem de modo que as transições de uma marcação do segundo tipo para uma marcação do primeiro tipo (por exemplo, de AH para A) não são permitidas. Como resultado, uma única instância de um tipo de unidade de polímero e um homopolímero de qualquer comprimento do mesmo tipo de unidade de polímero são todos representados por uma série de marcações que compreende uma marcação do primeiro tipo e um número arbitrário de marcações do segundo tipo. Por exemplo, A AHAHAHAHAHAHAHAHAHAH pode representar uma única base A ou um homopolímero da base A. Especificamente, isto é conseguido da seguinte forma: a) as transições de cada primeira marcação para a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas, mas as transições de cada primeira marcação para a primeira marcação para o mesmo tipo de unidade de polímero não são permitidas; b) transições de cada primeira marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas, c) as transições de cada primeira marcação para a segunda
53 / 92 marcação para qualquer outro tipo de unidade de polímero não são permitidas; d) transições de cada segunda marcação para a primeira marcação para o mesmo tipo de unidade de polímero não são permitidas; e) transições de cada segunda marcação para a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas; f) as transições de cada segunda marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas; e g) as transições de cada segunda marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas.
[00183] A Figura 17 ilustra um exemplo de tal distribuição de peso 51 que é adaptada daquela da Figura 10 para implementar este tipo de representação. Assim, na Figura 17, o conjunto de marcações inclui quatro primeiras marcações em relação aos quatro tipos de base mostrados como A, C, G e T, e quatro segundas marcações em relação aos quatro tipos de base mostrados como AH, CH, GH e TH. Conforme mostrado na Figura 17, em vista das transições que são permitidas e não permitidas, os seguintes pesos estão presentes ou nulos: a) transições de cada primeira marcação (por exemplo, A) para a primeira marcação para qualquer outro tipo de unidade de polímero (por exemplo, C, G e T) são permitidas, mas as transições de cada primeira marcação (por exemplo, A) para a primeira marcação para o mesmo tipo de unidades de polímero (por exemplo, A) não são permitidas, portanto, os pesos nos dois quadrantes esquerdos estão presentes, exceto w11, w22, w33 e w44, que são nulos; b) transições de cada primeira marcação (por exemplo, A) para a segunda marcação (por exemplo, AH) para o mesmo tipo de marcação de unidade de polímero são permitidas, então pesos no quadrante superior direito w15, w26, w37 e w48 estão presentes;
54 / 92 c) as transições de cada primeira marcação (por exemplo, A) para a segunda marcação para qualquer outro tipo de unidade de polímero (por exemplo, CH, GH, TH) não são permitidos, portanto, pesos no quadrante superior direito diferente de w15, w26, w37 e w48 são nulos; d) transições de cada segunda marcação (por exemplo, AH) para a primeira marcação (por exemplo, A) para o mesmo tipo de unidade de polímero não são permitidas, portanto, os pesos no quadrante inferior esquerdo w51, w62, w73 e w84 são nulos; e) transições de cada segunda marcação (por exemplo, AH) para a primeira marcação para qualquer outro tipo de unidade de polímero (por exemplo, C, G e T) são permitidas, então pesos no quadrante inferior esquerdo diferente de w51, w62, w73 e w84 estão presentes; f) transições de cada segunda marcação (por exemplo, AH) para a segunda marcação para o mesmo tipo de unidade de polímero (por exemplo, AH) são permitidas, então pesos no quadrante inferior direito w55, w66, w77 e w88 estão presentes; e g) transições de cada segunda marcação (por exemplo, AH) para a segunda marcação para qualquer outro tipo de unidade de polímero (por exemplo, CH, GH, TH) não são permitidas, portanto, pesos no quadrante inferior direito diferente de w55, w66, w77 e w88 são nulos.
[00184] Assim, uma série de marcações para uma unidade de polímero de um determinado tipo sempre começa com uma única instância da primeira marcação e, em seguida, uma ou mais instâncias da segunda marcação. Por exemplo, qualquer uma das séries de marcações A, AAH, AAHAH, etc. (com qualquer número arbitrário de marcações AH) representa uma série de qualquer número de instâncias de uma unidade de polímero (ou seja, uma única unidade de polímero ou um homopolímero do mesmo tipo de unidade de polímero de qualquer comprimento).
[00185] Como mencionado acima, o exemplo da Figura 10 não fornece
55 / 92 uma boa representação de homopolímeros, e o mesmo é verdadeiro para o exemplo da Figura 17. No entanto, homopolímeros são representados pelos pesos adicionais ao longo dos comprimentos possíveis do homopolímero comprimido de comprimento de execução. Serão agora descritas várias possibilidades para tais pesos adicionais, cada um dos quais pode ser aplicado em combinação com os pesos na forma da Figura 10 ou na forma da Figura 17.
[00186] Uma primeira possibilidade para os pesos adicionais é que eles compreendem uma distribuição categórica de pesos sobre um conjunto de comprimentos possíveis do homopolímero para cada tipo possível de unidade de polímero. Os comprimentos possíveis são uma categoria e as saídas RNN 50 atribuem um peso a cada categoria. Em geral, cada categoria pode representar um único comprimento de homopolímero, ou algumas ou todas as categorias podem representar uma variedade de comprimentos de homopolímero. As categorias podem incluir uma representação de todos os homopolímeros maiores que um determinado comprimento. As categorias não precisam ser espaçadas uniformemente.
[00187] A Figura 18 mostra um exemplo de tais pesos adicionais de acordo com esta primeira possibilidade. Neste exemplo, há um peso lij para cada comprimento possível de cada uma das quatro bases A, C, G, T, em que as bases são indexadas pelo índice i, e os comprimentos são indexados pelo índice j. Neste exemplo, cada categoria corresponde a um único comprimento, mas, alternativamente, cada categoria pode corresponder a um intervalo de comprimentos para reduzir o número de categorias. Os outros pesos mostrados na Figura 18 fazem parte da distribuição de peso 51 juntamente com os pesos para as transições entre as marcações, que podem assumir a forma como descrito acima, por exemplo como mostrado em qualquer uma das Figuras 10 a 13.
[00188] Uma distribuição categórica requer menos parâmetros do que
56 / 92 especificar totalmente as transições entre todas as marcações de homopolímero e permite que o genoma compactado de comprimento de execução subjacente seja estimado, mas ainda tem o problema de pouco acoplamento que faz uso inadequado dos dados de treinamento e torna os homopolímeros longos difíceis de treinar.
[00189] Uma segunda possibilidade para os pesos adicionais é que eles compreendem parâmetros de uma distribuição parametrizada sobre comprimentos possíveis do homopolímero para cada tipo possível de unidade de polímero. Esses parâmetros podem ser usados para calcular a probabilidade de um homopolímero de uma determinada unidade de polímero ter um determinado comprimento.
[00190] A Figura 19 mostra um exemplo de tais pesos adicionais de acordo com esta segunda possibilidade. Neste exemplo, existem pesos pij para cada um dos quatro tipos de bases mostradas como A, C, G, T e indexadas pelo índice i. Os pesos indicam j parâmetros P1, P2, …, Pj da distribuição cujos parâmetros são indexados pelo índice j. Os parâmetros podem ser quaisquer parâmetros que representem uma distribuição. Em geral, j pode ter qualquer valor plural, dependendo da distribuição. Os outros pesos mostrados na Figura 19 fazem parte da distribuição de peso 51 juntamente com os pesos para as transições entre as marcações, que podem assumir a forma como descrito acima, por exemplo como mostrado em qualquer uma das Figuras 10 a 13.
[00191] A título de exemplo, a Figura 20 dá um exemplo de duas distribuições diferentes para o comprimento do homopolímero representado, respectivamente, por diferentes valores de dois parâmetros, média e variância.
[00192] Uma vantagem de usar uma distribuição parametrizada sobre o comprimento do homopolímero é que a distribuição pode ser interpretada como uma distribuição posterior do comprimento do homopolímero, permitindo que uma confiança seja colocada no comprimento estimado. Por
57 / 92 exemplo, na Figura 20, ambas as distribuições fornecem a mesma estimativa média posterior do comprimento do homopolímero, mas fornecem uma confiança diferente nele, a distribuição com a maior variância (esquerda) sendo menos confiável do que aquela com a menor variância (direita).
[00193] Uma vez que as previsões para diferentes comprimentos de homopolímero são todas via o mesmo conjunto de saídas de rede, elas são muito mais fortemente acopladas do que antes e permitem que a rede generalize a partir de exemplos de um homopolímero para aqueles de comprimentos semelhantes.
[00194] Muitas distribuições de probabilidade diferentes podem ser usadas em conjunto com a saída da rede. É vantajoso selecionar uma distribuição que seja capaz de representar qualquer comprimento de homopolímero que provavelmente ocorrerá e, portanto, a distribuição deve ter suporte sobre um conjunto grande ou mesmo semi-infinito de comprimentos potenciais. Também é desejável que existam valores dos parâmetros que representam alta confiança (baixa variância) e baixa confiança (alta variância) em um determinado comprimento de homopolímero. As distribuições binomiais ou geométricas negativas podem ser usadas e não podem distinguir entre os casos de alta e baixa confiança.
[00195] A variância de uma distribuição geométrica é uma função da média, a binomial negativa tem um grau de liberdade adicional e sua variância deve ser sempre maior que a média. Distribuições que satisfaçam esses dois critérios podem ser encontradas discretizando uma distribuição contínua que tem suporte sobre [0,∞]. Uma maneira de discretizar seria definir a probabilidade de um homopolímero ser de comprimento L para a integral da função de densidade de L para L+1, alternativamente L-0,5 para L+0,5 com tratamento apropriado de L=0.
[00196] De preferência, a distribuição que é discretizada tem uma função de densidade cumulativa explícita. Exemplos de tais densidades são,
58 / 92 mas não se limitam a distribuição Weibull, distribuição Log-Logística, distribuição Log-Normal, distribuição Gama. É vantajoso, mas não necessário, se houver expressões explícitas para a média, modo e variância da distribuição paramétrica usada ou sua contraparte discretizada.
[00197] A Figura 21 ilustra algumas distribuições discretas adequadas para representar comprimentos de homopolímero, todas tendo suporte em . é a função Gama, é a função gama incompleta, e é a distribuição cumulativa da distribuição normal padrão.
[00198] Em cada uma dentre a primeira e a segunda possibilidades, os pesos adicionais são definidos para cada tipo possível de unidade de polímero, isto é, o tipo possível de unidade de polímero do homopolímero. Embora isto seja eficaz, uma melhoria adicional pode ser fornecida por uma modificação em que os pesos adicionais (a) para possíveis pares do tipo da unidade de polímero dada e o tipo da unidade de polímero anterior, (b) para possíveis pares do tipo da unidade polimérica dada e o tipo da unidade de polímero seguinte, ou (c) para possíveis tripletos do tipo da unidade polimérica dada, o tipo da unidade de polímero precedente e o tipo da unidade de polímero seguinte.
[00199] Com esta modificação, os pesos assumem a mesma forma, por exemplo, uma distribuição categórica de pesos sobre um conjunto de comprimentos possíveis do homopolímero de acordo com a primeira possibilidade ou parâmetros de uma distribuição parametrizada sobre comprimentos possíveis do homopolímero de acordo com a segunda possibilidade, mas o número de pesos é aumentado. Para os casos (a) e (b), o número de pesos é aumentado em três vezes, de modo a definir distribuições para cada par possível em vez de cada tipo possível de unidade de polímero, por exemplo para 12 pares de bases {(A,C), (A,G), (A,T), (C,A), (C,T), (C,G), (G,A), (G,C), (G,T), (T,A), (T,C), (T,G)} em vez de para 4 tipos de base {A, C, G, T}. A título de exemplo, a Figura 22 mostra um exemplo de
59 / 92 tais pesos adicionais que compreendem parâmetros de uma distribuição parametrizada ao longo de comprimentos possíveis do homopolímero definido para cada par de tipos de unidade de polímero. Isso corresponde aos casos (a) e (b), os pares sendo no caso (a) a unidade de polímero dada e o tipo da unidade de polímero anterior, e no caso (b) sendo o tipo da unidade de polímero dada e o tipo da seguinte unidade de polímero. A forma dos próprios parâmetros é a mesma da Figura 19 e pode ser usada da mesma forma para calcular a probabilidade de um homopolímero de uma determinada unidade de polímero ter um determinado comprimento.
[00200] Da mesma forma, para o caso (c), o número de pesos é aumentado em nove vezes, de modo a definir distribuições para cada tripleto possível, por exemplo, para 36 tripletos de bases em vez de 4 tipos de base. A título de exemplo, a Figura 23 mostra um exemplo de tais pesos adicionais que compreendem parâmetros de uma distribuição parametrizada ao longo de comprimentos possíveis do homopolímero definido para cada tripleto de tipos de unidade de polímero. Isto corresponde ao caso (c), sendo o tripleto a unidade polimérica dada, o tipo da unidade de polímero anterior e o tipo da unidade de polímero seguinte. A forma dos próprios parâmetros é a mesma da Figura 19 e pode ser usada da mesma forma para calcular a probabilidade de um homopolímero de uma determinada unidade de polímero ter um determinado comprimento.
[00201] Esta modificação melhora a precisão com base na apreciação de que a capacidade de discriminar as bordas de homopolímeros longos pode variar na dependência das unidades de polímero precedentes e/ou seguintes. Por exemplo, uma transição de uma base T para um homopolímero de base A é muito mais fácil de discriminar do que uma transição de uma base C para um homopolímero de base A. Assim, o fornecimento de diferentes pesos adicionais que representam as distribuições para os vários pares ou os tripletos fornecem uma representação que pode estimar as unidades de
60 / 92 polímero com mais precisão.
[00202] Fatoração semelhante das distribuições de peso 51 em várias distribuições dependentes pode ser usada para representar outras propriedades do polímero. Um exemplo é a representação de um tipo de unidade de polímero que possui formas não modificadas e modificadas, por exemplo, um polinucleotídeo que pode incluir um tipo de base e um tipo modificado da mesma base.
[00203] Os filamentos naturais de DNA contêm bases modificadas, por exemplo, 5-metil citosina ou 6-metil adenina, e sua presença e localização são detectáveis com o uso de uma série de medições de nanoporos. O flip-flop e outras representações generalizam prontamente para serem capazes de chamar modificações, estendendo o conjunto de marcações das bases A, C, G e T para incluir uma marcação adicional para representar as bases modificadas, por exemplo CM para representar um modificado C.
[00204] A Figura 24 mostra um exemplo da distribuição de peso onde o conjunto de marcações é expandido para incluir adicionalmente uma marcação CM em relação a uma base modificada. Da mesma forma, uma marcação adicional CM pode ser adicionada ao conjunto de marcações em qualquer uma das distribuições de peso 51 mostradas nas Figuras 10, 12 a 14 ou 16.
[00205] Esta expansão do alfabeto de marcações também pode ser usada com métodos anteriores descritos na técnica, os quais assumem que o sinal em um determinado momento pode ser representado por um fragmento de bases de comprimento fixo, mas estes pouco escalam conforme o número de modificações consideradas aumenta conforme a rede deve ter uma saída para cada transição possível entre bases de comprimento fixo. Por exemplo, existem 1024 combinações possíveis (45) para fragmentos de comprimento 5 que consistem nas quatro bases canônicas, 3125 (= 55) se uma base modificada adicional for permitida e 7776 (= 65) se duas modificações forem
61 / 92 permitidas. Existem mais de uma centena de modificações conhecidas no RNA e, portanto, os modelos baseados em fragmentos requerem uma quantidade de processamento que aumenta rapidamente.
[00206] A forma não modificada de uma unidade de polímero pode ser descrita como uma unidade de polímero canônica e a forma modificada de uma unidade de polímero pode ser descrita como uma unidade de polímero não canônica. Uma unidade de polímero modificada (ou não canônica) normalmente afeta um sinal de forma diferente de uma unidade de polímero não modificada (canônica) correspondente.
[00207] O Pedido de Patente Internacional No. PCT/GB2019/052456, depositado em 4 de setembro de 2019, ao qual é feita referência e que é incorporado neste documento por referência, contém ensinamentos relacionados a bases canônicas e não canônicas que podem ser aplicadas a qualquer um dos presentes métodos divulgados neste documento.
[00208] O Pedido de Patente Internacional No. PCT/GB2019/052456 divulga exemplos de bases não canônicas que podem ser aplicadas em qualquer um dos presentes métodos.
[00209] O Pedido de Patente Internacional No. PCT/GB2019/052456 também divulga métodos de preparação e análise de um polímero que compreendem uma ou mais unidades de polímero não canônicas que podem ser usadas em combinação com qualquer um dos presentes métodos.
[00210] A título de exemplo não limitativo, um método divulgado no Pedido de Patente Internacional. No. PCT/GB2019/052456, que pode ser combinado com qualquer um dos presentes métodos, é converter uma proporção de unidades de polímero canônico (por exemplo, aminoácidos) em uma unidade de polímero não canônica correspondente (por exemplo, aminoácido) em uma forma não determinística, por exemplo, por conversão química ou por conversão enzimática. Nesse caso, ao derivar uma estimativa da série de unidades de polímero (“ao chamar”), as bases não canônicas
62 / 92 podem ser estimadas (“chamadas”) como sendo a base canônica correspondente. Isso inclui os métodos descritos com referência às Figuras 18b a 18k do Pedido de Patente Internacional. No. PCT/GB2019/052456.
[00211] Por causa da incorporação não determinística de unidades de polímero canônicas e não canônicas no polímero alvo, a sequência subjacente de unidades de polímero não é conhecida e irá variar de filamento para filamento. Embora cada filamento contenha unidades de polímero alternativas, ainda há uma sequência canônica associada, e é interessante chamá-la diretamente, em vez de tentar inferir o tipo e a localização de quaisquer alternativas. Em outras palavras, apesar de haver unidades de polímero adicionais no polímero alvo, a análise apenas atribui valores canônicos ao sinal de tal forma que a sequência determinada consiste em bases do grupo de A, C, G e T. Desta forma, ao reconhecer uma unidade de polímero não canônica como uma unidade de polímero canônica na análise, a conversão inicial pode fornecer uma maneira de fornecer um sinal com mais informações, por exemplo, tendo como consequência que quaisquer erros presentes na análise do sinal serão não sistemáticos, conduzindo assim a uma melhoria na precisão da estimativa.
[00212] Flip-flop e representações semelhantes são muito mais tratáveis, visto que o número de pesos de saída da RNN 50 necessário em cada ponto de tempo para parametrizar as escalas de peso de transição quadraticamente com o número de modificações, em vez de uma potência igual ao comprimento do fragmento (40 saídas para 4 bases canônicas, 60 para uma base modificada adicional, 84 para duas, etc.).
[00213] Quando a rede neural 10 usa uma representação flip-flop, o treinamento é realizado para maximizar a probabilidade da sequência correta, para cada leitura ela produz um campo aleatório condicional que deve ser posteriormente decodificado para produzir uma sequência estimada. O método de decodificação usado pode introduzir polarizações indesejadas na
63 / 92 chamada final que se revelam em métricas em massa, como o número total de bases chamadas lidas ou estatísticas resumidas de sua composição. Outras polarizações podem ser aparentes quando sequências estimadas de leituras de filamentos com a mesma sequência, ou contendo uma subsequência comum, são consideradas em conjunto.
[00214] Para reduzir esse problema, os termos de penalidade podem ser incorporados à rede neural treinada 10, ajustando sua saída para melhorar o desempenho nas métricas de interesse: por exemplo, subtraindo uma constante de todos os pesos correspondentes a não emitir uma nova unidade de polímero (flip-flip na mesma base, ou uma transição flop-flop) aumentará o número de unidades de polímero chamadas, enquanto a proporção de uma unidade de polímero particular pode ser aumentada adicionando uma constante a todas as transições que terminam em emitir uma nova unidade de polímero dessa identidade.
[00215] O valor dos termos de penalidade usados pode ser ajustado calculando as métricas de interesse para um conjunto representativo de leituras sobre uma grade de valores, alternativamente, métodos de otimização mais formais como o método simplex, ou muitos outros conhecidos na técnica, podem ser usados. Em vez de uma constante fixa, o termo de penalidade pode ser uma função de informações anteriores sobre a leitura.
[00216] Os termos de penalidade podem ser incorporados na rede neural 10 em qualquer camada, mas é preferível incorporá-los na camada final sempre que possível, afetando diretamente os pesos de transição emitidos, pois isso tem a vantagem de que o efeito na sequência estimada final pode ser intuído e assim orientar a forma da penalidade.
[00217] Para reter a interpretação da saída da rede neural 10 como um modelo probabilístico, é desejável, mas não essencial, que as penalidades sejam incorporadas antes que a “normalização global” seja realizada.
[00218] Frequentemente, determinar com precisão a sequência de
64 / 92 bases canônicas e a presença de qualquer modificação são de interesse e é indesejável para uma tentativa de estimar uma modificação para afetar adversamente a estimativa da sequência canônica subjacente. Um exemplo de como isso pode ocorrer é a divisão de peso entre citosina canônica e 5-metil citosina, de modo que outra base se torna a estimativa mais provável.
[00219] Para evitar o comportamento de divisão de peso, as distribuições de peso 51 emitidas pela RNN podem ser fatoradas em duas distribuições dependentes. Neste caso, a primeira distribuição é uma distribuição de peso 51 tomando qualquer uma das formas descritas acima, uma única marcação que representa o tipo de unidade de polímero que tem formas não modificadas e modificadas, e a segunda distribuição é uma distribuição condicional que compreende pesos adicionais para as formas não modificadas e modificadas. Esta representação pode ser expandida para qualquer número de formas modificadas e para formas modificadas de qualquer um dos tipos possíveis de unidade de polímero.
[00220] A Figura 25 mostra um exemplo dos pesos adicionais para representar uma forma não modificada da base C e uma forma modificada da mesma base CM. Neste caso, os pesos adicionais são um peso m1 em relação à forma não modificada da base C e um peso m2 para a forma modificada da base CM. Isto pode ser aplicado em vez da distribuição de peso 51 do tipo mostrado na Figura 24. Os pesos adicionais fazem parte da distribuição de peso 51 juntamente com os pesos para as transições entre marcações, que podem assumir a forma como descrito acima, por exemplo, como mostrado em qualquer uma das Figuras 10 a 14 ou 16.
[00221] Essa representação fatorada significa que a sequência canônica pode ser determinada como se as modificações não estivessem presentes e, em seguida, a localização de qualquer modificação pode ser determinada posteriormente. As distribuições condicionais para modificação podem elas próprias ser fatoradas, talvez refletindo a expectativa biológica anterior. Por
65 / 92 exemplo, uma distribuição pode representar se uma citosina está ou não modificada e outra pode representar que, dada a modificação presente, seja essa modificação 5-metil citosina ou 5-hidroximetil citosina.
[00222] Como exemplo, a Figura 26 mostra as bases previstas pela saída da RNN 50 ao empregar uma representação flip-flop de quatro bases que foi estendida desta maneira para detectar uma base modificada 5mC. Neste exemplo, a base modificada 5mC é estimada em três posições, em locais de acordo com as previsões externas.
[00223] Conforme mencionado acima, as distribuições de peso da RNN 50 são normalizadas globalmente. Essa normalização global pode ser sobre todos os caminhos de marcações através da série de distribuições de peso, de modo que a soma de todos os caminhos possíveis seja um. A normalização global pode ser sobre o espaço de saída de forma que os pesos podem ser considerados como probabilidades posteriores.
[00224] A normalização global é estritamente mais expressiva do que a normalização local e evita um problema conhecido na técnica como “problema de polarização de marcação”.
[00225] As vantagens de usar a normalização global sobre a normalização local são análogas àquelas que os Campos Aleatórios Condicionais (Lafferty et al., Conditional Random Fields: Probabilistic Models for Segmenting and Labelling Sequence Data, Proceedings of the International Conference on Machine Learning, junho de 2001) têm mais de modelos de Markov de Entropia Máxima (McCallum et al., Maximum Entropy Markov Models for Information Extraction and Segmentation, Proceedings of ICML 2000, 591 a 598. Stanford, Califórnia, 2000). O problema de polarização de marcação afeta modelos nos quais a matriz de transições permitidas entre marcações é esparsa, como extensões para sequências de polímero.
[00226] A normalização global alivia esse problema ao normalizar toda
66 / 92 a sequência, permitindo que as transições em momentos diferentes sejam negociadas entre si. A normalização global é particularmente vantajosa para evitar estimativas polarizadas de homopolímeros e outras sequências de baixa complexidade, pois essas sequências podem ter diferentes números de transições permitidas em comparação com outras sequências (pode ser mais ou menos, dependendo do modelo).
[00227] O decodificador 80 será agora considerado.
[00228] O decodificador 80 deriva uma estimativa da série de unidades de polímero a partir das distribuições de peso 51. Isso pode ser feito com o uso da classificação temporal conexionista, por exemplo, conforme divulgado em Graves et al., “Connectionist temporal classification labelling unsegmented sequence data with recurrent neural networks”, In Proceedings of the 23rd international conference on Machine learning, 369 a 376 (ACM, 2006).
[00229] O decodificador 80 executa três etapas, conforme mostrado na Figura 27, como segue.
[00230] Na etapa S1, uma estimativa de uma marcação é derivada em relação às respectivas distribuições de peso 51. Esta estimativa é discutida mais adiante.
[00231] Na etapa S2, os marcadores derivados na etapa S1 são compactados em comprimento de execução para derivar uma estimativa (que também pode ser denominada como decodificação) da série de unidades de polímero. Isso é necessário porque há mais distribuições de peso 51 do que unidades de polímero. A compressão de comprimento de execução produz as estimativas das unidades de polímero porque sequências consecutivas do mesmo marcador representam a mesma unidade de polímero na representação do polímero inerente na RNN 50, como descrito acima.
[00232] A etapa S2 também leva em consideração as representações em que várias marcações são usadas para representar um determinado tipo de
67 / 92 unidade de polímero. Por exemplo, na representação de múltipla permanência descrita acima, as segundas marcações são comprimidas na primeira marcação em relação ao mesmo tipo de unidade de polímero. Da mesma forma, na representação flip-flop descrita acima, instâncias consecutivas da primeira marcação (flip) são comprimidas em uma única unidade de polímero e instâncias consecutivas da primeira marcação (flop) são comprimidas em outra unidade de polímero única, e assim por diante, fornecendo assim uma estimativa de um homopolímero.
[00233] Por exemplo, no esquema da Figura 11, a decodificação de espaços em branco para distinguir entre instâncias das mesmas unidades de polímero pode ser realizada na etapa S2. Como discutido acima, os esquemas “opcionais” e “obrigatórios” podem ser considerados para os espaços em branco, de modo que a etapa S2 pode decodificar uma sequência de marcações: A A A - - A para A A A A, ou A A dependendo de qual dos dois esquemas é seguido.
[00234] No caso de um esquema flip-flop, a etapa S2 pode compreender o colapso de várias execuções da mesma marcação em uma única unidade de polímero correspondente. Por exemplo, uma sequência de marcadores CAAFTACCFTTF pode ser decodificada na etapa S2 para a série de unidades de polímero CAATACCTT.
[00235] No que diz respeito a um esquema de múltipla permanência, a etapa S2 pode compreender a decodificação por meio da identificação de sequências consecutivas da mesma marcação como diferentes unidades de polímero do mesmo tipo. Por exemplo, uma sequência de marcadores AASASTTSCAASAS pode ser descodificada no passo S2 para a série de unidades de polímero ATCA.
[00236] No que diz respeito a um esquema de codificação de comprimento de execução, a etapa S2 pode compreender a decodificação por colapso das execuções da mesma marcação (e eliminando espaços em branco,
68 / 92 se necessário no esquema). Por exemplo, uma sequência de marcações TA2T2CA3 pode, na etapa S2, representar a série de unidades de polímero TAATTCAAA.
[00237] A etapa S3 é realizada no caso em que as distribuições de peso 51 são fatoradas em distribuições dependentes, mas de outra forma omitidas. Neste caso, as etapas S1 e S2 são realizadas usando os pesos em relação às transições, e na etapa S3 os pesos adicionais são usados para estimar a qualidade da unidade de polímero assim representada. Por exemplo, na representação codificada de comprimento de execução descrita acima, os pesos adicionais são usados para estimar o comprimento do homopolímero. Da mesma forma, na representação fatorada de formas modificadas descritas acima, os pesos adicionais são usados para estimar se a unidade de polímero é da forma não modificada ou modificada.
[00238] A estimativa de marcações na etapa S1 será agora discutida. Como os pesos representam probabilidades posteriores das respectivas transições, os pesos podem ser usados para derivar probabilidades posteriores para qualquer caminho dado de marcações através das distribuições de peso 51, isto é, combinando as probabilidades posteriores representadas pelo peso para a série de transições correspondentes ao caminho em questão. Isso significa que os pesos permitem a probabilidade de diferentes caminhos serem considerados, o que melhora a precisão da estimativa. Portanto, a etapa S1 aplica uma técnica que se baseia na consideração de pesos combinados para transições em relação aos caminhos de marcações através das distribuições de peso 51.
[00239] Onde uma ou mais transições não são permitidas (como discutido acima), a estimativa realizada pelo decodificador na etapa S1 pode levar em consideração uma matriz de transição que representa se as transições entre as marcações são permitidas ou não.
[00240] São possíveis duas abordagens diferentes, que serão chamadas
69 / 92 de “melhor caminho” e “melhor marcação”.
[00241] Na abordagem do melhor caminho, o caminho mais provável de marcações através da série de distribuições de peso 51 com base nas distribuições de peso 51. Neste caso, as marcações derivadas na etapa S1 em relação às respectivas distribuições de peso 51 são as marcações desse caminho mais provável.
[00242] Como as distribuições de peso 51 são pesos sobre as transições, uma forma de decodificar para estimar uma sequência é encontrar o caminho que tem a soma máxima dos pesos. Tal caminho pode ser encontrado de maneira eficiente a partir dos pesos de transição, por exemplo, com o uso de um algoritmo de programa dinâmico. O algoritmo de Viterbi pode ser usado.
[00243] Por exemplo, a Figura 28 ilustra um algoritmo de melhor caminho em que a RNN 50 emite um peso de wijk para a transição da marcação j para a marcação k no bloco i. Os vetores ti armazenam as informações de traceback, que é a melhor marcação proveniente da marcação atual fornecida e é usada para determinar a pontuação S e o melhor caminho P.
[00244] Para codificação de comprimento de execução, o melhor caminho encontrado é para a sequência compactada de comprimento de execução e o comprimento de cada execução precisa ser determinado a partir da saída de distribuição condicional apropriada da RNN 50. Onde o melhor caminho mostra que uma nova unidade de polímero ocorreu, o comprimento da execução é estimado a partir da distribuição condicional correspondente a essa unidade de polímero. Formas apropriadas de fazer essa estimativa incluem encontrar a média (com arredondamento), modo ou mediana da distribuição condicional; dado um prior adequado, o comprimento com o fator de Bayes máximo também poderia ser usado. Quando uma rede emite distribuições condicionais que representam as possíveis modificações de base
70 / 92 que podem estar presentes, o processo para marcar o melhor caminho com sua presença prossegue de forma semelhante, embora a média posterior e a mediana não sejam estimadores sensíveis, visto que as modificações são categóricas em vez de ordinais.
[00245] Para codificação de comprimento de execução, uma correção de polarização de comprimento de execução pode ser aplicada. Como o modelo é treinado a partir de leituras reais, há alguma distribuição anterior de extensões aprendidas e incorporadas aos pesos do modelo. Para leituras derivadas de filamentos aleatórios ou filamentos reais (por exemplo, genômicas), há uma distorção notável na proporção de execuções de diferentes comprimentos que os dados de treinamento irão conter, por exemplo, execuções longas são extremamente raras. Isso tem implicações na capacidade do método de chamar execuções longas. Há ambiguidade na duração de uma execução, as chamadas curtas serão corrigidas com mais frequência do que as chamadas longas e, portanto, a precisão de leitura única maximizada tende a levar as chamadas execuções curtas. Como tal, há benefício em aplicar uma correção de polarização para comprimentos de execução curta.
[00246] Tendo encontrado o caminho mais provável, uma sequência de bases canônicas deve ser derivada. Para a representação flip-flop, as repetições adjacentes de uma marcação são mescladas, uma vez que desempenham o mesmo papel de espaçamento que as marcações em branco em outros modelos do tipo CTC e, em seguida, a identidade do flip ou flop de cada marcação é esfregada para deixar a base canônica. Para codificação de comprimento de execução, as marcações em branco são descartadas e cada execução é expandida para o número apropriado de bases.
[00247] A melhor abordagem de marcação será agora discutida, observando que a abordagem do melhor caminho pode estimar erroneamente algumas marcações específicas de forma imprecisa, onde a marcação correta
71 / 92 não está no caminho mais provável. As distribuições de peso 51 da RNN 50 definem efetivamente uma distribuição de probabilidade sobre todos os caminhos possíveis de marcações, maneiras consistentes de atribuir marcações a posições, e cada caminho corresponde a uma série de marcações e, portanto, unidades de polímero, embora esta correspondência não seja única (pode haver vários caminhos dando a mesma sequência). A melhor abordagem de marcação melhora a abordagem do melhor caminho, estimando a série de marcações (e, portanto, unidades de polímero) que são mais prováveis. Ou seja, em vez de encontrar o melhor caminho, a probabilidade posterior de que o caminho estava na marcação j após o passo de tempo i pode ser encontrada somando todos os caminhos que satisfazem essa condição. Isso pode levar em consideração os caminhos forwards e backwards das marcações através da série de distribuições de peso 51. Neste caso, as marcações derivadas na etapa S1 em relação às respectivas distribuições de peso 51 são as marcações assim derivadas como mais prováveis.
[00248] A programação dinâmica forwards e backwards no tempo permite que esse cálculo seja executado de maneira eficiente, usando uma recursão semelhante à do melhor caminho; onde o algoritmo do melhor caminho pode ser visto como uma forma de decodificação de Viterbi, o cálculo das probabilidades posteriores pode ser visto como uma forma dos algoritmos Forward e Backward. Da mesma forma, a probabilidade posterior de que houve uma mudança de marcação na etapa de tempo i pode ser calculada somando todos os caminhos que satisfazem essa transição; este cálculo também pode ser executado de maneira eficiente.
[00249] Embora as probabilidades posteriores sejam informativas sobre a marcação provável em cada posição, a decodificação que escolhe a marcação mais semelhante pode resultar em um caminho e sequência inconsistentes. Ao definir uma matriz de transição T de uma marcação para outro cujas entradas são um ou zero, dependendo se a transição é permitida, o
72 / 92 algoritmo de decodificação do melhor caminho pode ser aplicado a essas probabilidades posteriores para encontrar o caminho que maximiza a soma das posteriores probabilidades de suas marcações de todos os caminhos consistentes.
[00250] Como um exemplo disso, a Figura 29 ilustra tal algoritmo aplicado à probabilidade posterior pik de estar na marcação k na posição i. Os vetores para armazenar as informações de traceback, que é a melhor marcação proveniente de uma determinada marcação atual, e é usada para determinar a pontuação S e o melhor caminho P.
[00251] Alternativamente, o algoritmo do melhor caminho pode ser aplicado ao logaritmo das probabilidades posteriores para encontrar o caminho que maximiza a soma das probabilidades posteriores do logaritmo de suas marcações em todos os caminhos consistentes. Isso equivale a encontrar o caminho que maximiza o produto das probabilidades posteriores de suas marcações em todos os caminhos consistentes.
[00252] Como exemplo disso, a Figura 30 ilustra esse algoritmo de melhor caminho aplicado ao logaritmo da probabilidade posterior pik de estar na marcação k na posição i. Os vetores ti armazenam as informações de traceback, que é a melhor marcação proveniente de determinada marcação atual, e é usado para determinar a pontuação S e o melhor caminho P.
[00253] Alternativamente, uma vez que as distribuições de peso 51 são definidas sobre as transições, os algoritmos forwards e backwards podem ser usados para calcular probabilidades posteriores para a transição feita entre as posições em vez da marcação em cada posição.
[00254] Como exemplo disso, a Figura 31 ilustra o cálculo das probabilidades posteriores somando todos os caminhos. Visto que esses pesos são sobre transições, eles têm o mesmo formato da matriz de transição e seu logaritmo pode alimentar as equações definidas na Figura 28 em vez dos pesos de transição para encontrar um caminho consistente.
73 / 92
[00255] Uma das abordagens mais bem-sucedidas para gerar uma sequência de consenso a partir de uma série de sinais que cobrem a mesma região de um genoma é referida como “polimento” e foi descrita em várias publicações. Polir uma sequência de consenso é um processo iterativo em que as alterações candidatas a uma sequência de consenso de rascunho são pontuadas por quão bem todas as leituras as correspondem e as alterações de pontuação alta são mantidas, permitindo que os erros causados por uma leitura sejam corrigidos pelas outras; este procedimento é repetido até que não sejam encontradas mais alterações de pontuação elevada.
[00256] O que não é aparente é que o polimento também pode ser aplicado de forma benéfica a uma única leitura. Todas as abordagens para estimar as unidades de polímero descritas nas subseções anteriores visam encontrar um bom caminho, através das saídas da rede, da qual uma sequência de bases pode ser extraída, mas o objetivo de treinamento sem registro soma todos os caminhos para uma dada sequência em vez de identificar um único caminho como bom. Para ser consistente com o critério de treinamento, a saída da RNN 50 deve idealmente ser decodificada encontrando a sequência mais provável, somando todos os caminhos que resultam na mesma sequência, em vez do caminho mais provável. A soma de todos os caminhos para uma determinada sequência é o critério que o polimento usa para avaliar se uma mudança candidata é boa e, portanto, o polimento pode ser considerado uma heurística iterativa, uma variante da subida da encosta voraz, para encontrar a sequência mais provável.
[00257] Em casos de análise de várias séries de medições que são medições de séries de unidades de polímero que estão relacionadas, então o método é fundamentalmente o mesmo, mas as medições das várias séries de medições são tratadas como sendo dispostas em várias dimensões respectivas. Isso aumenta a dimensionalidade, mas a forma da rede neural 10 é a mesma que a descrita acima. Algumas outras considerações aplicáveis neste caso são
74 / 92 as seguintes.
[00258] Ao usar um termo de penalidade, como alternativa à penalidade por não emitir sendo constante para todas as transições, a penalidade pode assumir um valor diferente dependendo da transição ou estar totalmente ausente. Por exemplo, algumas transições resultam em nenhuma mudança no estado e podem ser gratuitas ou ter uma pequena penalidade, uma vez que não implicam em um estado perdido na outra leitura.
[00259] A penalidade, ou penalidades, usada não precisa ser a mesma para cada leitura e pode haver boas razões biofísicas pelas quais as duas leituras podem ter características diferentes. Por exemplo, uma leitura pode ser de uma molécula que era de filamento duplo acima do motor, enquanto a outra era de filamento simples; alternativamente, as duas leituras podem ser filamentos com motores diferentes; uma leitura pode ser DNA, enquanto a outra pode ser RNA; alternativamente, as duas leituras podem ser a primeira e a segunda partes do mesmo filamento de complemento reverse-forward e a hibridização entre as duas durante o sequenciamento altera a cinética.
[00260] A penalidade ou penalidades usadas podem depender do tempo. A penalidade ou penalidades usadas podem depender das estatísticas locais da leitura. Exemplos disso incluem: velocidade, presença de um estol ou ruído. A penalidade ou penalidades utilizadas podem depender do resultado de uma análise da leitura com o uso de outros modelos ou técnicas, prevendo a probabilidade de escorregar (bases ausentes), por exemplo.
[00261] Os modelos de transição de estado de uma representação flip- flop e uma representação RLE têm uma ordem de tempo e a reversão da ordem dos estados pode não ser uma sequência válida de estados. Ou seja, na representação RLE, uma base deve ser emitida antes de permanecer, e uma representação flip-flop requer que a primeira base de qualquer repetição seja um “flip”. Uma consequência disso é que, onde uma das leituras é de um filamento (ou parte do filamento) que é o complemento reverso, ou reverso,
75 / 92 do outro, não é suficiente reverter uma das leituras antes da análise e aplicar o mesmo procedimento para duas leituras diretas.
[00262] Embora um procedimento mais complexo possa ser usado para combinar leituras em duas direções diferentes, acompanhando o estado de ambas as leituras como um par, é vantajoso usar o modelo padrão em uma leitura e, na outra, aquele que foi treinado “backwards” - durante o treinamento, o sinal da leitura e a sequência alvo são invertidos (e possivelmente complementados). O uso de tal par de modelos garante que as leituras de forward e reverse passem pelos estados do modelo na mesma ordem e, portanto, possam ser combinadas como se fossem leituras de forward.
[00263] A rede neural 10 pode ser treinada usando técnicas convencionais, por exemplo como segue.
[00264] A rede neural 10 produz uma distribuição que representa pesos que representam probabilidades sobre caminhos de marcações (marcações consistentes de medidas com uma marcação) que é então decodificada em uma estimativa da sequência de unidades de polímero. A rede neural 10 é treinada com um critério que visa garantir que essa estimativa tenha uma baixa proporção de erros.
[00265] Um aspecto importante da definição de uma distribuição de probabilidade sobre caminhos com o uso de pesos de transição é que os pesos devem ser normalizados de forma que a soma de todos os caminhos seja 1. Dado um conjunto de pesos de transição, o fator de normalização pode ser calculado com o uso de programação dinâmica, aplicando o algoritmo forwards (ou algoritmo backwards) conforme usado no cálculo de probabilidades posteriores conforme discutido acima. Uma vez que é a soma de todos os caminhos possíveis que é normalizado para 1, em vez da saída da rede em cada ponto no tempo, esta técnica é chamada de normalização global e garante que a pontuação de cada caminho tenha interpretação como uma
76 / 92 (logaritmo de uma) probabilidade. Cada caminho, que tem marcações consistentes, corresponde a uma probabilidade e essas probabilidades formam uma distribuição por todos os caminhos.
[00266] Em contraste com a normalização global, a normalização da rede neural 10, de modo que a saída em cada ponto no tempo seja 1, é referida como normalização local. A pontuação de cada caminho pode ser calculada e tem a forma de uma probabilidade, mas não formam uma distribuição, visto que a massa total de probabilidade é menor que 1. A normalização local atribui probabilidade a todas as sequências de marcações, independentemente de formarem um caminho consistente.
[00267] O treinamento para marcações de sequência requer exemplos de treinamento, ou seja, pares de sinais de entrada e sua sequência de marcações correspondente, bem como uma função objetivo para otimizar os exemplos de treinamento. Uma vez que o verdadeiro registro entre as medições de nanoporos e a sequência de unidades de polímero é desconhecido, métodos de treinamento sem registro, como os descritos em Graves et al. (2006) são preferidos. Quando os métodos de treinamento registrados exigem que cada elemento da sequência de medições seja marcado, os métodos sem registro exigem apenas que a verdadeira sequência de unidades de polímero seja conhecida. A verdadeira sequência de unidades de polímero para uma leitura pode ser determinada medindo polímeros de sequência conhecida no dispositivo nanoporo ou comparando as leituras a uma sequência de referência ou conjunto de medições com sequência conhecida.
[00268] Exemplos de medições de sequência conhecida podem incluir pequenos genomas, onde é possível sequenciar o genoma completo em uma única leitura, como o fago lambda (50 quilobases). Também podem ser usados compilações de restrição e fragmentos identificados por seu comprimento. Outro exemplo envolve a adição de fragmentos conhecidos
77 / 92 sequencialmente a uma execução, que são, portanto, identificáveis pelo momento em que aparecem nos dados. Será evidente que qualquer método que pode atribuir sequência a leituras de sinal pode ser usado.
[00269] Ao treinar a rede neural 10, é benéfico ter medições que abrangem cada unidade de polímero em uma variedade de contextos e ao longo de uma variedade de experimentos, de modo que a rede tenha sido exposta a grande parte da gama completa de variação que encontrará sob condições normais de funcionamento. Idealmente, a rede neural 10 é treinada com o uso de leituras completas, ou seja, pares de sinal e sequência que cobrem polímeros de comprimento total, conforme lidos pelo nanoporo. No entanto, por considerações práticas (tempo de computação, memória), é típico operar sobre pedaços menores de sinal e sequência.
[00270] Unidades de redes neurais recorrentes, convolucionais e de atenção têm um conceito de ordem de tempo e o tamanho da janela de medidas apresentadas no treinamento limita o contexto que pode ser aprendido. Por conta da grande faixa de influência que cada unidade de polímero pode ter, é benéfico apresentar a rede neural 10 com uma grande janela de medições para treinar. O tamanho da janela usada é um equilíbrio entre apresentar uma sequência de medições suficientemente grande para que a rede neural 10 possa criar uma representação interna adequada da interação entre o poro, o filamento de polímero e os outros componentes do sistema, e a quantidade de poder computacional acessível. Idealmente, a totalidade de cada leitura seria usada, mas na prática, pedaços de medidas de tamanho fixo apresentam um bom compromisso. O tamanho dos pedaços adequados depende do nanoporo e da taxa de translocação do filamento, mas um tamanho de pedaço correspondente a cerca de 200 a cerca de 300 bases se mostrou adequado. Por exemplo, isso se mostrou adequado para um nanoporo CsgG.
[00271] Um exemplo de tamanho de conjunto de treinamento pode
78 / 92 compreender aproximadamente 1 milhão de conjuntos de aproximadamente 300 pedaços de base de sinal e sequência. Conjuntos de treinamento menores de apenas alguns milhares de pedaços podem ser suficientes, e conjuntos de treinamento maiores >1 milhão de pedaços podem fornecer mais diversidade para o treinamento.
[00272] Muitas técnicas de treinamento de uma rede neural, ou outro método de aprendizado de máquina, são conhecidas na técnica e podem ser aplicadas neste documento. Uma vez que a capacidade do método de generalizar para diferentes execuções experimentais e sequências de polímero se beneficia de um grande conjunto de dados de treinamento, muitas vezes é impraticável buscar maximizar a direção da função objetivo, pois é preferível realizar os cálculos em Unidades de Processamento Gráfico (GPUs), ou outro hardware especializado, têm limitação de memória. Em vez de maximizar diretamente a função objetivo sobre o conjunto completo de dados, é preferível maximizá-la aproximadamente usando Descida de Gradiente Estocástica (SGD), ou técnicas relacionadas, de forma iterativa usando subconjuntos (“minilotes”) do conjunto de treinamento completo. O tamanho do minilote preferido depende da memória disponível no dispositivo computacional usado e do número de medidas em cada elemento do minilote.
[00273] Muitas variantes de Descida de Gradiente Estocástica (SGD) são conhecidas na técnica, por exemplo: SGD, SGD com momentum, SGD com momentum de Nesterov, RMSprop, AdaMax, Adam. Uma modificação de Adam, “Adamski”, em que o momento para a iteração N aumenta por um fator de rampa de momento de 0 a um valor máximo : onde , é preferível. Adamski tem uma taxa de aprendizado, dois parâmetros de suavização (frequentemente chamados de decaimento1 e decaimento2 na técnica) e uma taxa de rampa de momentum. Muitas escolhas desses parâmetros são benéficas. A parametrização preferencial tem uma taxa de aprendizado inicial de 10-3, parâmetros de suavização de 0,9 e 0,999 e fator
79 / 92 de rampa de momento de 0,005. Parâmetros de suavização de 0,95 e 0,99 também se mostraram eficazes para refinar um modelo já treinado, assim como reduzir a taxa de aprendizado inicial para 10-4.
[00274] SGD e técnicas relacionadas procedem iterativamente, em que cada iteração consiste nas seguintes etapas:
1. Escolha um subconjunto dos dados de treinamento completos.
2. Calcular a função objetivo para este subconjunto
3. Calcular gradiente para todos os parâmetros de rede usando retropropagação
4. Atualizar os parâmetros de rede usando SGD ou variante
5. Ir para 1 (início da próxima iteração)
[00275] O tamanho da atualização na etapa 4 é escalado por um fator conhecido como taxa de aprendizado. Uma alta taxa de aprendizado significa que os parâmetros podem mudar rapidamente e, portanto, a maximização pode prosseguir mais rapidamente, mas o efeito de cada minilote pode ser grande, o que significa que as atualizações quando o modelo está próximo da convergência podem ser dominadas pela variabilidade de minilote para minilote. É preferível reduzir lentamente a taxa de aprendizado de iteração para iteração; esta redução pode ser dinâmica, ajustando-se à taxa de aprendizagem de acordo com a mudança e variabilidade da função objetivo de lote para lote, ou de acordo com algum cronograma predeterminado. De preferência, um decaimento hiperbólico é usado onde a taxa de aprendizado para o N-ésimo minilote é R / (1 + (N / K)) para alguma taxa de aprendizado inicial R e número de minilotes K.
[00276] Embora a soma tenha sido usada para combinar a pontuação de cada membro do minilote na pontuação do minilote, outros métodos de combinação são possíveis. A soma resulta em uma pontuação de minilote que é proporcional à média das pontuações de seus elementos constituintes,
80 / 92 combinações correspondentes a outras medidas de tendência central também têm propriedades favoráveis. Combinadores como a mediana, média aparada ou ponderada, ou o ajuste de um estimador M podem ser usados para alterar a sensibilidade do objetivo a elementos de minilote com valores discrepantes.
[00277] A contribuição de cada elemento do minilote para a pontuação total é a (logaritmo da) probabilidade posterior da sequência verdadeira somada em todos os caminhos consistentes. Para a representação flip-flop, as transições flip para flip ou flop para flop representam permanecer na mesma posição da sequência, enquanto todas as outras transições envolvem o movimento de uma posição. Os pesos dados que representam as transições entre as saídas de marcações da RNN 50 em cada ponto de tempo, eles podem ser convertidos em pesos de transição entre as posições de uma sequência conhecida.
[00278] A Figura 32 mostra como construir os elementos da matriz de transição objetiva mi para cada ponto de tempo i para uma sequência codificada por flip-flop de marcações S1, S2, …, SN. A função objetivo, descrita na Figura 33, usa essa matriz de transição objetiva para calcular a pontuação de cada elemento do minilote.
[00279] Uma vez que a matriz de transição para a função objetivo é extremamente esparsa, tendo apenas elementos diferentes de zero na diagonal (permanecer) e superdiagonal (mover na posição), a modalidade preferencial deste cálculo apenas ignora os elementos zero e reduz a complexidade aparente de cada etapa, em termos do comprimento da sequência verdadeira, de quadrática a linear.
[00280] A função objetivo para a representação múltipla permanência é estruturalmente semelhante ao objetivo flip-flop, mas os estados que representam ficar na mesma posição são diferentes. Uma transição de um estado de permanência ou não permanência para qualquer estado de não permanência implica uma mudança de posição; qualquer transição para o
81 / 92 estado de permanência não. Para a representação de múltipla permanência, as transições que representam permanecer em uma nova posição (transição de base para permanência) e permanecer em uma posição antiga (transição de permanência para permanência) são diferenciadas e o cálculo eficiente da função objetivo requer o uso de um conjunto duplicado de “continuar” posições para a sequência verdadeira: S1, R1, S2, R2 …, SN, RN.
[00281] A Figura 34 mostra como construir os elementos da matriz de transição objetiva para este exemplo. Para fins de formação da matriz de transição objetiva, as posições originais são enumeradas 1... N, enquanto as posições duplicadas correspondentes são enumeradas N+1 … 2N.
[00282] A função objetivo descrita na Figura 33 usa essa matriz de transição objetiva para calcular a pontuação de cada elemento do minilote. As matrizes de transição objetiva são esparsas e a modalidade preferencial do cálculo objetivo tira vantagem dessa esparsidade.
[00283] Cada pontuação pode ser multiplicada por um peso antes de ser utilizada na função objetivo, e esse peso pode representar o valor do elemento correspondente do minilote ao processo de treinamento. O peso pode, por exemplo, ser maior para elementos com uma composição de sequência incomum ou um que é conhecido por estar envolvido em erros de chamada de base, que podem ser encontrados durante o teste de rede previamente treinada. Um método para determinar um peso para um elemento do minilote é igualado ao inverso da frequência de seu homopolímero mais raro, as frequências determinadas a partir de todo o conjunto de dados de treinamento ou de outra referência externa.
[00284] O objetivo para a codificação de comprimento de execução é definido de forma semelhante ao do modelo de múltipla permanência, mas um fator adicional incorporado sempre que uma nova posição de sequência passa por uma transição para representar quão bem o comprimento da execução é previsto pela saída de distribuição condicional correspondente pela rede. A
82 / 92 forma da matriz de transição objetiva ao longo da sequência comprimida de comprimento de execução tem a mesma forma que para o objetivo de muitas permanências, a restrição de que nenhuma base pode seguir a mesma base estando implícita nas transições permitidas entre as posições, mas com um componente adicional do log de probabilidade que a rede atribui ao comprimento do homopolímero em cada posição dada a sua composição.
[00285] Quando o conteúdo de homopolímero dos dados de treinamento é conhecido por ser distorcido, pode ser indesejável em muitas aplicações para a rede aprender essa distorção, uma vez que pode não ser representativo de outros conjuntos de dados. Em vez de usar o log de probabilidade que a rede atribui ao comprimento do homopolímero em cada posição dada sua composição diretamente no objetivo de treinamento, ele pode primeiro ser combinado com outra distribuição; esta outra distribuição poderia ser obtida tabulando frequências de homopolímeros a partir dos dados de treinamento (“distribuição prévia de treinamento”). Ao treinar dessa maneira, a rede deve aprender a atribuir os logs de probabilidade que superem as expectativas da distribuição anterior do treinamento.
[00286] Para fins de chamada de base, a distribuição prévia dos dados de treinamento, ou qualquer outra expectativa de comprimentos de homopolímero, pode ser combinada com o log de probabilidade atribuído pela rede com o uso de métodos padrão, como o teorema de Bayes, para produzir um novo log de probabilidade informado por informações externas sobre o comprimento do homopolímero; alternativamente, o log de probabilidade da rede pode ser usado diretamente para uma chamada imparcial.
[00287] A Figura 35 mostra como construir os elementos da matriz de transição objetiva para este exemplo. Deixando o logaritmo da probabilidade que a rede atribui a uma sequência de comprimento Lj com a composição S j para a posição j da sequência no passo de tempo i das medições seja riSj:Lj. A função objetivo descrita na Figura 33 usa essa matriz de transição objetiva
83 / 92 para calcular a pontuação de cada elemento do minilote.
[00288] Embora as vantagens de treinar modelos de chamada de base sem registro sejam numerosas, há uma desconexão entre a maioria dos algoritmos de decodificação apresentados e o objetivo de treinamento usado. A função objetivo para o treinamento do modelo é maximizar a probabilidade da verdadeira sequência de bases, somando as probabilidades de todos os caminhos individuais que poderiam representá-lo, enquanto todas as rotinas de decodificação, exceto o polimento descrito acima, procuram encontrar um caminho com uma pontuação elevada. A Figura 36 mostra um dos problemas causados por essa desconexão. Em particular, a Figura 36 mostra o sinal (parte superior) e as probabilidades posteriores (parte inferior) de estar em uma marcação específica ao longo do tempo para um exemplo de uma representação de flip-flop, no caso em que há uma longa região de homopolímero entre os tempos 2410 e 2600, aproximadamente, onde os modelos permanecem no estado T-flop (linha tracejada vermelha) em vez de alternar com o estado T-flip (linha contínua vermelha). Tendo entrado em um homopolímero longo, as estimativas são feitas em torno do início e do final da região, mas os estados de flip e flop rapidamente se tornam menos distintos e as probabilidades posteriores uniformes. Existem vários caminhos através da região onde o registro das bases do flip e flop são ligeiramente diferentes e as probabilidades posteriores refletem uma média deste conjunto.
[00289] Uma alternativa possível é usar a pontuação do melhor caminho como um objetivo de treinamento, em vez de somar todos os caminhos, e este ainda seria um método sem registro, visto que nenhum registro é explicitamente definido e, ao contrário da marcação, o melhor registro pode mudar conforme o modelo. Embora o treinamento para o melhor caminho pareça intuitivo, essa abordagem falha drasticamente ao treinar um modelo do zero, visto que o modelo inicial ruim tem um melhor caminho inapropriado e o processo de treinamento o reforça.
84 / 92
[00290] O aguçamento é uma forma de focar o treinamento em um único caminho, sem ter que especificar esse registro com antecedência, mas considerando todas as outras possibilidades. Em primeiro lugar, considerar os algoritmos para calcular a pontuação da soma de todos os caminhos (Figura 33) e do melhor caminho (Figura 37). Ambos aplicam um functor, e respectivamente, para combinar os pesos de transição e o vetor anterior de forward. O objetivo do aguçamento é substituir este functor por um que ainda some todos os caminhos possíveis, mas dê peso maior àqueles que têm pontuação alta.
[00291] A Figura 38 mostra alguns functores que podem ser funções usadas para combinar o vetor de forward e as transições ou pesos de mapeamento juntos. O functor referido como “corte de todos os caminhos” na Figura 38 é o preferido, mas muitos outros podem ser usados e, de fato, combinados para criar novos functores.
[00292] Em vez de treinar com aguçamento habilitado desde o início, descobriu-se que é vantajoso começar a treinar usando uma função objetivo de todos os caminhos e, em seguida, aumentar o fator de aguçamento (a) de 1 para um valor mais alto, uma vez que um bom modelo foi encontrado, potencialmente repetindo com valores ainda mais altos de aguçamento. Esse processo de vários estágios também permite que os modelos treinem usando o objetivo do melhor caminho. Treinar primeiro para o objetivo de todos os caminhos encontra um bom modelo de modo que o melhor caminho seja bom e, então, esse caminho é reforçado por mais treinamento.
[00293] A Figura 39 mostra o efeito de aumentar o aguçamento de uma representação flip-flop na mesma região de exemplo mostrada na Figura 36. A Figura 39 mostra o sinal (parte superior) e as probabilidades posteriores (parte inferior) de estar em um estado particular ao longo do tempo para este exemplo, mas com treinamento com o uso de aguçamento. Existe uma longa região entre os tempos 2400 e 2620, aproximadamente, onde ocorre um
85 / 92 homopolímero e o modelo alterna entre o estado T-flop e o estado T-flip para chamar a sequência de bases. As chamadas individuais são mais distintas e podem ser vistas alternando entre T-flip e T-flop em toda a região do homopolímero.
[00294] A decodificação deste modelo resulta em uma estimativa superior das unidades de polímero em relação ao modelo não aguçado. Isso é ilustrado no exemplo mostrado na Figura 40, em que as estimativas da unidade de polímero (chamadas de base) de modelos não aguçados e aguçados são comparadas com a sequência de referência. Enquanto a chamada não aguçada chama apenas 8 bases T, a chamada aguçada concorda com as 27 bases T encontradas na referência.
[00295] Considerando que o uso do melhor caminho ou do aguçamento substitui a objeção de treinamento, eles também podem ser usados para aumentá-la e treinar a rede para evitar comportamentos indesejáveis que foram encontrados durante os testes. Um desses comportamentos indesejáveis pode ser uma tendência a subestimar os comprimentos dos homopolímeros, o que pode ocorrer quando os dados de treinamento são fortemente distorcidos para homopolímeros curtos e pode ser corrigido adicionando uma penalidade à objeção de treinamento. Uma dessas penalidades pode ser encontrada usando o melhor caminho para encontrar posições onde os homopolímeros são chamados e comparando seu comprimento real com uma estimativa baseada nos logs de probabilidade atribuídos pela rede naquela posição; a comparação pode ser realizada usando a soma das diferenças absolutas; a comparação pode ser realizada usando a soma da diferença quadrática; muitos outros métodos de comparação são conhecidos na técnica. A penalidade pode ser adicionada ao objetivo do treinamento; a penalidade pode ser adicionalmente ponderada por um fator predeterminado para alterar sua importância em relação ao objetivo do treinamento.
[00296] Em vez de ser predeterminado, o fator de ponderação do termo
86 / 92 de penalidade pode ser tratado como um multiplicador de Lagrange. O treinamento prossegue otimizando o objetivo do treinamento enquanto encontra um ponto estacionário para o multiplicador de Lagrange. Em, ou próximo a esses pontos, a penalidade é aproximadamente zero e a rede foi treinada sujeita à condição de penalidade mantida; para o exemplo em que a penalidade é a soma das diferenças absolutas entre o comprimento verdadeiro e o estimado, as chamadas de rede terão o comprimento correto em média.
[00297] Vários termos de penalidade podem ser usados para aumentar o objetivo do treinamento, um para cada comprimento de homopolímero, por exemplo; cada penalidade pode ser ponderada por um fator predeterminado ou tratada como um multiplicador de Lagrange.
[00298] A descrição acima considera o caso em que as distribuições de peso 51 representam transições entre um conjunto de marcações. Como alternativa, os métodos descritos neste documento podem ser adaptados a um caso em que as distribuições de peso 51 representam marcações dentro do conjunto de marcações.
[00299] Neste caso, em que as distribuições de peso 51 representam marcações dentro do conjunto de marcações, o decodificador 80 pode usar uma matriz de transição para representar se as transições entre marcações são permitidas ou não. A matriz de transição pode ter uma forma semelhante à matriz de pesos nas distribuições de peso 51, mas com elementos binários que indicam as transições como permitidas ou não permitidas. A matriz de transição pode representar pelo menos uma transição como não permitida e outras transições sendo representadas como permitidas. O decodificador 80 pode usar esta matriz de transição para derivar uma estimativa da série de unidades de polímero das distribuições de peso 51 que representam marcações, levando em consideração a probabilidade de diferentes caminhos através das marcações que são permitidas de acordo com a matriz de transição.
87 / 92
[00300] Também neste caso em que as distribuições de peso 51 representam marcações dentro do conjunto de marcações, instâncias consecutivas de unidades de polímero do mesmo tipo na série de unidades de polímero podem ser representadas em uma forma codificada como descrito acima, por exemplo, com o uso de uma representação flip-flop ou uma representação codificada de comprimento de execução.
[00301] Embora a descrição acima se refira a uma rede neural 10 que inclui uma RNN 50, as distribuições de peso tendo a forma e decodificação descritas acima podem igualmente ser aplicadas a qualquer outra forma de técnica de aprendizado de máquina, por exemplo, um HMM.
[00302] De acordo com o segundo aspecto da presente invenção, é fornecido um método conforme definido nas seguintes cláusulas.
[00303] Cláusula 1. Um método de análise de um sinal derivado de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de tipos possíveis de unidade de polímero, em que o método compreende: analisar o sinal usando uma técnica de aprendizado de máquina que produz uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação às marcações sobre um conjunto de marcações incluindo marcações que representam os possíveis tipos de unidade de polímero; e derivar uma estimativa da série de unidades de polímero a partir da distribuição de peso, em que a etapa de derivar uma estimativa da série de unidades de polímero leva em consideração uma matriz de transição que representa se as transições entre as marcações são permitidas ou não, em que pelo menos uma transição entre marcações é representada como não permitida e outras transições sendo representadas como permitidas.
[00304] Cláusula 2. Um método de acordo com a cláusula 1, em que pelo menos uma transição entre marcações não é permitida e outras transições são permitidas, em que as distribuições de peso, cada uma, compreendem
88 / 92 pesos em relação às marcações que são permitidas.
[00305] Cláusula 3. Um método de acordo com a cláusula 2, em que cada uma das distribuições de peso compreende pesos nulos em relação às marcações que não são permitidas.
[00306] Cláusula 4. Um método de acordo com a cláusula 2 ou 3, em que a etapa de derivar uma estimativa da série de unidades de polímero leva em consideração uma matriz de transição que representa se as transições entre as marcações são permitidas ou não.
[00307] Cláusula 5. Um método de acordo com qualquer uma das cláusulas 2 a 4, em que o conjunto de marcações inclui uma primeira e uma segunda marcação em relação a cada tipo de unidade de polímero, em que a primeira marcação representa o início de uma instância do tipo de unidade de polímero, e a segunda marcação representa uma permanência na instância do tipo de unidade de polímero, em que as transições de cada primeira marcação para a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas, as transições de cada primeira marcação para a primeira marcação para o mesmo tipo de unidade de polímero são permitidas, transições de cada primeira marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas, as transições de cada primeira marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas, transições de cada segunda marcação para a primeira marcação para o mesmo tipo de unidade de polímero ou a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas, e as transições de cada segunda marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas, e as transições de cada segunda marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas.
[00308] Cláusula 6. Um método de acordo com qualquer uma das cláusulas 2 a 5, em que o conjunto de possíveis tipos de unidade de polímero
89 / 92 inclui um tipo de unidade de polímero que sempre aparece em uma sequência conhecida de unidades de polímero, em que são permitidas as transições de acordo com a sequência conhecida e não são permitidas as transições contrárias à sequência conhecida.
[00309] Cláusula 7. Um método de acordo com qualquer uma das cláusulas 2 a 6, em que instâncias consecutivas de unidades de polímero do mesmo tipo na série de unidades de polímero são representadas em uma forma codificada.
[00310] Cláusula 8. Um método de acordo com a cláusula 7, em que as marcações incluem várias marcações em relação a cada tipo de unidade de polímero, em que as várias marcações em relação a cada tipo de unidade de polímero representam instâncias consecutivas do tipo de unidade de polímero na série de unidades de polímero.
[00311] Cláusula 9. Um método de acordo com a cláusula 8, em que as várias marcações para cada tipo de unidade de polímero têm uma ordem cíclica predeterminada, em que algumas transições entre as marcações são permitidas pela ordem cíclica predeterminada e outras transições entre não são permitidas pela ordem cíclica predeterminada, as distribuições de peso, em que cada uma inclui pesos em relação às marcações que são permitidas pela ordem cíclica predeterminada.
[00312] Cláusula 10. Um método de acordo com a cláusula 8 ou 9, em que as várias marcações para cada tipo de unidade de polímero são duas marcações para cada tipo de unidade de polímero.
[00313] Cláusula 11. Um método de acordo com a cláusula 7, em que instâncias consecutivas do mesmo tipo de unidade de polímero na série de unidades de polímero são representadas em uma forma codificada de comprimento de execução.
[00314] Cláusula 12. Um método de acordo com a cláusula 11, em que as marcações incluem várias marcações em relação a diferentes extensões de
90 / 92 cada tipo de unidade de polímero.
[00315] Cláusula 13. Um método de acordo com a cláusula 11, em que as marcações incluem uma marcação em relação a cada tipo de unidade de polímero e as distribuições de peso compreendem outros pesos ao longo de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
[00316] Cláusula 14. Um método de acordo com a cláusula 3, em que os pesos adicionais compreendem uma distribuição categórica de pesos ao longo de um conjunto de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
[00317] Cláusula 15. Um método de acordo com a cláusula 13, em que os pesos adicionais compreendem parâmetros de uma distribuição parametrizada ao longo de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
[00318] Cláusula 16. Um método de acordo com qualquer uma das cláusulas 2 a 15, em que os tipos possíveis de unidade de polímero incluem um tipo de unidade de polímero que tem formas não modificadas e modificadas.
[00319] Cláusula 17. Um método de acordo com a cláusula 16, em que o conjunto de marcações inclui uma marcação em relação ao tipo de unidade de polímero que tem formas não modificadas e modificadas.
[00320] Cláusula 18. Um método de acordo com a cláusula 17, em que cada distribuição de peso compreende pesos adicionais para as formas não modificadas e modificadas de cada tipo de unidade de polímero que tem as formas não modificadas e modificadas.
[00321] Cláusula 19. Um método de acordo com qualquer uma das cláusulas 2 a 18, em que o conjunto de marcações inclui pelo menos uma marcação que representa cada tipo de unidade de polímero.
[00322] Cláusula 20. Um método de acordo com qualquer uma das
91 / 92 cláusulas anteriores, em que o conjunto de marcações inclui ainda pelo menos uma marcação que representa um espaço em branco e/ou uma permanência na série de unidades de polímero.
[00323] Cláusula 21. Um método de acordo com qualquer uma das cláusulas anteriores, em que a técnica de aprendizado de máquina é uma rede neural que compreende pelo menos uma camada recorrente.
[00324] Cláusula 22. Um método de acordo com a cláusula 21, em que pelo menos uma camada recorrente é uma camada recorrente bidirecional.
[00325] Cláusula 23. Um método de acordo com a cláusula 21 ou 22, em que a rede neural aplica uma normalização global das distribuições de peso em todos os caminhos de marcações através da série de distribuições de peso.
[00326] Cláusula 24. Um método de acordo com qualquer uma das cláusulas 21 a 23, em que a rede neural inclui pelo menos uma camada convolucional disposta antes de pelo menos uma camada recorrente e que realiza uma convolução de seções em janela do sinal.
[00327] Cláusula 25. Um método de acordo com qualquer uma das cláusulas anteriores, em que os pesos representam probabilidades posteriores.
[00328] Cláusula 26. Um método de acordo com qualquer uma das cláusulas anteriores, em que a etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso é realizada com o uso da classificação temporal conexionista.
[00329] Cláusula 27. Um método de acordo com qualquer uma das cláusulas anteriores, em que a etapa de derivar uma estimativa de uma unidade de polímero a partir das distribuições de peso compreende derivar uma marcação em relação à respectiva distribuição de peso e compressão do comprimento de execução das marcações derivadas.
[00330] Cláusula 28. Um método de acordo com qualquer uma das cláusulas anteriores, em que a etapa de derivar uma estimativa da série de
92 / 92 unidades de polímero das distribuições de peso compreende estimar o caminho mais provável de marcações através da série de distribuições de peso com base nas distribuições de peso, e derivar a estimativa da série de unidades de polímero a partir do caminho das marcações estimadas como mais prováveis.
[00331] Cláusula 29. Um método de acordo com qualquer uma das cláusulas anteriores, em que a etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso compreende estimar as marcações que são mais prováveis em relação a cada distribuição de peso, levando em consideração os caminhos forwards e backwards das marcações através da série de distribuições de peso, e derivar a estimativa da série de unidades de polímero a partir das marcações estimadas como mais prováveis.
[00332] Cláusula 30. Um método de acordo com qualquer uma das cláusulas anteriores, em que o nanoporo é um poro de proteína.
[00333] Cláusula 31. Um método de acordo com qualquer uma das cláusulas anteriores, em que o polímero é um polinucleotídeo e as unidades de polímero são nucleotídeos.
[00334] Cláusula 32. Um método de acordo com qualquer uma das cláusulas anteriores, em que o sinal é derivado a partir de medições de uma ou mais das seguintes propriedades: corrente iônica, impedância, uma propriedade de tunelamento, uma voltagem de transistor de efeito de campo e uma propriedade óptica.
[00335] Cláusula 33. Um método de acordo com qualquer uma das cláusulas anteriores, em que o método é executado em um aparelho de computador.
[00336] Cláusula 34. Um método de acordo com qualquer uma das cláusulas anteriores, em que compreende adicionalmente derivar o sinal do polímero durante a translocação do polímero em relação a um nanoporo.

Claims (41)

1 / 10 REIVINDICAÇÕES
1. Método de análise de um sinal derivado de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de possíveis tipos de unidade de polímero, em que o método é caracterizado pelo fato de que compreende: analisar o sinal com o uso de uma técnica de aprendizado de máquina que produz uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação às transições entre as marcações ao longo de um conjunto de marcações, incluindo marcações que representam os possíveis tipos de unidade de polímero; e derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso.
2. Método de acordo com a reivindicação 1, caracterizado pelo fato de que pelo menos uma transição entre marcações não é permitida e outras transições são permitidas, em que as distribuições de peso, cada uma, compreendem pesos em relação às transições que são permitidas.
3. Método de acordo com a reivindicação 2, caracterizado pelo fato de que as distribuições de peso compreendem, cada uma, pesos nulos em relação às transições que não são permitidas.
4. Método de acordo com a reivindicação 2 ou 3, caracterizado pelo fato de que a etapa de derivar uma estimativa da série de unidades de polímero leva em consideração uma matriz de transição que representa se as transições entre as marcações são permitidas ou não.
5. Método de acordo com qualquer uma das reivindicações 2 a 4, caracterizado pelo fato de que o conjunto de marcações inclui uma primeira e uma segunda marcação em relação a cada tipo de unidade de polímero, em que a primeira marcação representa o início de uma instância do tipo de unidade de polímero
2 / 10 e a segunda marcação representa uma permanência na instância do tipo de unidade de polímero, em que transições de cada primeira marcação para a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas, transições de cada primeira marcação para a primeira marcação para o mesmo tipo de unidade de polímero são permitidas, transições de cada primeira marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas, transições de cada primeira marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas, transições de cada segunda marcação para a primeira marcação para o mesmo tipo de unidade de polímero ou a primeira marcação para qualquer outro tipo de unidade de polímero são permitidas, e transições de cada segunda marcação para a segunda marcação para o mesmo tipo de unidade de polímero são permitidas, e as transições de cada segunda marcação para a segunda marcação para qualquer outro tipo de unidade de polímero não são permitidas.
6. Método de acordo com qualquer uma das reivindicações 2 a 5, caracterizado pelo fato de que o conjunto de possíveis tipos de unidade de polímero inclui um tipo de unidade de polímero que sempre aparece em uma sequência conhecida de unidades de polímero, em que são permitidas as transições de acordo com a sequência conhecida e não são permitidas as transições contrárias à sequência conhecida.
7. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que instâncias consecutivas de unidades de polímero do mesmo tipo na série de unidades de polímero são representadas em uma forma codificada.
8. Método de acordo com a reivindicação 7, caracterizado pelo fato de que as marcações incluem várias marcações em relação a cada tipo de
3 / 10 unidade de polímero, em que as várias marcações em relação a cada tipo de unidade de polímero representam instâncias consecutivas do tipo de unidade de polímero na série de unidades de polímero.
9. Método de acordo com a reivindicação 8, caracterizado pelo fato de que as várias marcações para cada tipo de unidade de polímero têm uma ordem cíclica predeterminada, em que algumas transições entre as marcações são permitidas pela ordem cíclica predeterminada e outras transições entre não são permitidas pela ordem cíclica predeterminada, as distribuições de peso, em que cada uma inclui pesos em relação às transições que são permitidas pela ordem cíclica predeterminada.
10. Método de acordo com a reivindicação 8 ou 9, caracterizado pelo fato de que as várias marcações para cada tipo de unidade de polímero são duas marcações para cada tipo de unidade de polímero.
11. Método de acordo com a reivindicação 7, caracterizado pelo fato de que instâncias consecutivas do mesmo tipo de unidade de polímero na série de unidades de polímero são representadas em uma forma codificada de comprimento de execução.
12. Método de acordo com a reivindicação 11, caracterizado pelo fato de que as marcações incluem várias marcações em relação a diferentes extensões de cada tipo de unidade de polímero.
13. Método de acordo com a reivindicação 11, caracterizado pelo fato de que as marcações incluem uma marcação em relação a cada tipo de unidade de polímero, e as distribuições de peso compreendem pesos adicionais ao longo de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
14. Método de acordo com a reivindicação 13, caracterizado pelo fato de que os pesos adicionais compreendem uma distribuição
4 / 10 categórica de pesos ao longo de um conjunto de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
15. Método de acordo com a reivindicação 13, caracterizado pelo fato de que os pesos adicionais compreendem parâmetros de uma distribuição parametrizada ao longo de comprimentos possíveis de instâncias consecutivas do mesmo tipo de unidade de polímero para cada tipo de unidade de polímero.
16. Método de acordo com qualquer uma das reivindicações 13 a 15, caracterizado pelo fato de que as distribuições de peso compreendem pesos adicionais ao longo de possíveis comprimentos de instâncias consecutivas do mesmo tipo de unidade de polímero (a) para possíveis pares do tipo da unidade de polímero dada e o tipo da unidade de polímero anterior, (b) para possíveis pares do tipo da unidade de polímero dada e o tipo da unidade de polímero seguinte, ou (c) para possíveis tripletos do tipo da unidade de polímero dada, o tipo da unidade de polímero precedente e o tipo da unidade de polímero seguinte.
17. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que os tipos possíveis de unidade de polímero incluem um tipo de unidade de polímero que tem formas não modificadas e modificadas.
18. Método de acordo com a reivindicação 17, caracterizado pelo fato de que o conjunto de marcações inclui uma marcação em relação ao tipo de unidade de polímero que tem formas não modificadas e modificadas.
19. Método de acordo com a reivindicação 18, caracterizado pelo fato de que cada distribuição de peso compreende pesos adicionais para as formas não modificadas e modificadas de cada tipo de unidade de polímero que tem as formas não modificadas e modificadas.
20. Método de acordo com qualquer uma das reivindicações
5 / 10 anteriores, caracterizado pelo fato de que o conjunto de marcações inclui pelo menos uma marcação que representa cada tipo de unidade de polímero.
21. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o conjunto de marcações inclui ainda pelo menos uma marcação que representa um espaço em branco e/ou uma permanência na série de unidades de polímero.
22. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a técnica de aprendizado de máquina é uma rede neural que compreende pelo menos uma camada recorrente.
23. Método de acordo com a reivindicação 22, caracterizado pelo fato de que pelo menos uma camada recorrente é uma camada recorrente bidirecional.
24. Método de acordo com a reivindicação 22 ou 23, caracterizado pelo fato de que a rede neural aplica uma normalização global das distribuições de peso em todos os caminhos de marcações através da série de distribuições de peso.
25. Método de acordo com qualquer uma das reivindicações 22 a 24, caracterizado pelo fato de que a rede neural inclui pelo menos uma camada convolucional disposta antes da pelo menos uma camada recorrente e que realiza uma convolução de seções em janela do sinal.
26. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que os pesos representam probabilidades posteriores.
27. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso é realizada com o uso da classificação temporal conexionista.
28. Método de acordo com qualquer uma das reivindicações
6 / 10 anteriores, caracterizado pelo fato de que a etapa de derivar uma estimativa de uma unidade de polímero a partir das distribuições de peso compreende derivar uma marcação em relação à respectiva distribuição de peso e compressão do comprimento de execução das marcações derivadas.
29. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a etapa de derivar uma estimativa da série de unidades de polímero das distribuições de peso compreende estimar o caminho mais provável de marcações através da série de distribuições de peso com base nas distribuições de peso, e derivar a estimativa da série de unidades de polímero a partir do caminho das marcações estimadas como mais prováveis.
30. Método de acordo com qualquer uma das reivindicações 1 a 28, caracterizado pelo fato de que a etapa de derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso compreende estimar as marcações que são mais prováveis em relação a cada distribuição de peso, levando em consideração os caminhos forwards e backwards das marcações através da série de distribuições de peso, e derivar a estimativa da série de unidades de polímero a partir das marcações estimadas como mais prováveis.
31. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o nanoporo é um poro de proteína.
32. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o polímero é um polinucleotídeo e as unidades de polímero são nucleotídeos.
33. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que o sinal é derivado a partir de medições de uma ou mais das seguintes propriedades: corrente iônica, impedância, uma propriedade de tunelamento, uma voltagem de transistor de efeito de campo e uma propriedade óptica.
7 / 10
34. Método de acordo com qualquer uma das reivindicações anteriores, em que o método é caracterizado pelo fato de ser executado em aparelho de computador.
35. Método de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que compreende ainda derivar o sinal do polímero durante a translocação do polímero em relação a um nanoporo.
36. Aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de possíveis tipos de unidade de polímero, em que o aparelho de análise é caracterizado pelo fato de que compreende: uma unidade de aprendizado de máquina disposta para executar uma técnica de máquina no sinal e para emitir uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação às transições entre marcações sobre um conjunto de marcações incluindo marcações que representam os possíveis tipos de unidade de polímero; e uma unidade de estimativa disposta para derivar uma estimativa da série de unidades de polímero das distribuições de peso.
37. Sistema de medição e análise de nanoporo caracterizado pelo fato de que compreende: um dispositivo de medição disposto para derivar um sinal de um polímero durante a translocação do polímero em relação a um nanoporo; e um aparelho de análise, conforme definido na reivindicação
36.
38. Método de análise de um sinal derivado de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um
8 / 10 conjunto de possíveis tipos de unidade de polímero, em que o método é caracterizado pelo fato de que compreende: analisar o sinal com o uso de uma técnica de aprendizado de máquina que produz uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação as marcações ao longo de um conjunto de marcações, incluindo marcações que representam os possíveis tipos de unidade de polímero; e derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso, em que a etapa de derivar uma estimativa da série de unidades de polímero leva em consideração uma matriz de transição que representa se as transições entre as marcações são permitidas ou não, sendo que pelo menos uma transição entre as marcações é representada como não permitida e outras transições sendo representadas como permitidas.
39. Aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de possíveis tipos de unidade de polímero, em que o aparelho de análise é caracterizado pelo fato de que compreende: uma unidade de aprendizado de máquina disposta para executar uma técnica de máquina no sinal e para emitir uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação as marcações sobre um conjunto de marcações incluindo marcações que representam os possíveis tipos de unidade de polímero; e uma unidade de estimativa disposta para derivar uma estimativa da série de unidades de polímero das distribuições de peso, em que a unidade de estimativa está disposta para levar em consideração uma matriz de transição que representa se as transições entre as
9 / 10 marcações são permitidas ou não, sendo que pelo menos uma transição entre as marcações é representada como não permitida e outras transições sendo representadas como permitidas.
40. Método de análise de um sinal derivado de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de possíveis tipos de unidade de polímero, em que o método é caracterizado pelo fato de que compreende: analisar o sinal usando uma técnica de aprendizado de máquina que produz uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação as marcações sobre um conjunto de marcações, incluindo marcações que representam os possíveis tipos de unidade de polímero, em que ocorrências consecutivas do mesmo tipo de unidade de polímero na série de unidades de polímero são representadas em uma forma codificada de comprimento de execução; e derivar uma estimativa da série de unidades de polímero a partir das distribuições de peso.
41. Aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, em que o polímero compreende uma série de unidades de polímero pertencentes a um conjunto de possíveis tipos de unidade de polímero, em que o aparelho de análise é caracterizado pelo fato de que compreende: uma unidade de aprendizado de máquina disposta para realizar uma técnica de máquina no sinal e para emitir uma série de distribuições de peso, em que cada distribuição de peso compreende pesos em relação as marcações sobre um conjunto de marcações, incluindo marcações que representam os possíveis tipos de unidade de polímero, em que ocorrências consecutivas do mesmo tipo de unidade de polímero na série de unidades de
10 / 10 polímero são representadas em uma forma codificada de comprimento de execução; e uma unidade de estimativa disposta para derivar uma estimativa da série de unidades de polímero das distribuições de peso.
BR112021008198-4A 2018-11-28 2019-11-26 método e aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, e, sistema de medição e análise de nanoporo. BR112021008198A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1819378.9A GB201819378D0 (en) 2018-11-28 2018-11-28 Analysis of nanopore signal using a machine-learning technique
GB1819378.9 2018-11-28
PCT/GB2019/053334 WO2020109773A1 (en) 2018-11-28 2019-11-26 Analysis of nanopore signal using a machine-learning technique

Publications (1)

Publication Number Publication Date
BR112021008198A2 true BR112021008198A2 (pt) 2021-08-03

Family

ID=65024631

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021008198-4A BR112021008198A2 (pt) 2018-11-28 2019-11-26 método e aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, e, sistema de medição e análise de nanoporo.

Country Status (11)

Country Link
US (1) US20200176082A1 (pt)
EP (1) EP3887543A1 (pt)
JP (2) JP2022509589A (pt)
KR (1) KR20210095641A (pt)
CN (1) CN113166804A (pt)
AU (1) AU2019389841A1 (pt)
BR (1) BR112021008198A2 (pt)
CA (1) CA3118632A1 (pt)
GB (1) GB201819378D0 (pt)
SG (1) SG11202103410TA (pt)
WO (1) WO2020109773A1 (pt)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019133756A1 (en) 2017-12-29 2019-07-04 Clear Labs, Inc. Automated priming and library loading device
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
US10911471B1 (en) * 2019-11-27 2021-02-02 The Florida International University Board Of Trustees Systems and methods for network-based intrusion detection
IL295560A (en) 2020-02-20 2022-10-01 Illumina Inc An artificial intelligence-based many-to-many base reader
GB202103605D0 (en) 2021-03-16 2021-04-28 Oxford Nanopore Tech Ltd Alignment of target and reference sequences of polymer units
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
CN117337333A (zh) 2021-05-19 2024-01-02 牛津纳米孔科技公开有限公司 用于补体链测序的方法
CN117063240A (zh) 2021-12-24 2023-11-14 上海芯像生物科技有限公司 基于深度学习的核酸测序方法和系统
US20240118269A1 (en) * 2022-09-28 2024-04-11 Massachusetts Institute Of Technology High Throughput Stochastic Bio-Molecular Sensor
GB202215442D0 (en) 2022-10-19 2022-11-30 Oxford Nanopore Tech Plc Analysis of a polymer
WO2024094966A1 (en) 2022-11-01 2024-05-10 Oxford Nanopore Technologies Plc Biochemical analysis system and method of controlling a biochemical analysis system

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
US6627067B1 (en) 1999-06-22 2003-09-30 President And Fellows Of Harvard College Molecular and atomic scale evaluation of biopolymers
WO2005124888A1 (en) 2004-06-08 2005-12-29 President And Fellows Of Harvard College Suspended carbon nanotube field effect transistor
US20080113833A1 (en) 2006-11-15 2008-05-15 Francisco Fernandez Methods of playing soccer games
GB0713402D0 (en) 2007-07-11 2007-08-22 Cardiff & Vale Nhs Trust A method of diagnosing a condition using a neural network
EP3540436B1 (en) 2007-09-12 2023-11-01 President And Fellows Of Harvard College High-resolution molecular sensor
GB0724736D0 (en) 2007-12-19 2008-01-30 Oxford Nanolabs Ltd Formation of layers of amphiphilic molecules
AU2010209528B2 (en) 2009-01-30 2015-10-01 Oxford Nanopore Technologies Limited Adaptors for nucleic acid constructs in transmembrane sequencing
EP2391655B1 (en) 2009-01-30 2017-10-11 Oxford Nanopore Technologies Limited Hybridization linkers
GB0905140D0 (en) 2009-03-25 2009-05-06 Isis Innovation Method
AU2010240670B2 (en) 2009-04-20 2015-08-20 Oxford Nanopore Technologies Limited Lipid bilayer sensor array
CA2772789C (en) 2009-09-18 2018-10-30 President And Fellows Of Harvard College Bare single-layer graphene membrane having a nanopore enabling high-sensitivity molecular detection and analysis
WO2011067559A1 (en) 2009-12-01 2011-06-09 Oxford Nanopore Technologies Limited Biochemical analysis instrument
US8828211B2 (en) 2010-06-08 2014-09-09 President And Fellows Of Harvard College Nanopore device with graphene supported artificial lipid membrane
CN103392008B (zh) 2010-09-07 2017-10-20 加利福尼亚大学董事会 通过持续性酶以一个核苷酸的精度控制dna在纳米孔中的移动
WO2012107778A2 (en) 2011-02-11 2012-08-16 Oxford Nanopore Technologies Limited Mutant pores
CN103842519B (zh) 2011-04-04 2018-02-06 哈佛大学校长及研究员协会 通过局部电位测量进行的纳米孔感测
AU2012288629B2 (en) 2011-07-25 2017-02-02 Oxford Nanopore Technologies Limited Hairpin loop method for double strand polynucleotide sequencing using transmembrane pores
JP6457811B2 (ja) * 2011-09-23 2019-01-23 オックスフォード ナノポール テクノロジーズ リミテッド ポリマー単位を含むポリマーの解析
EP3736339B1 (en) * 2012-02-16 2022-07-27 Oxford Nanopore Technologies plc Analysis of measurements of a polymer
EP2836506B1 (en) 2012-04-10 2017-04-19 Oxford Nanopore Technologies Limited Mutant lysenin pores
US20140006308A1 (en) 2012-06-28 2014-01-02 Google Inc. Portion-by-portion feedback for electronic books
GB201313121D0 (en) 2013-07-23 2013-09-04 Oxford Nanopore Tech Ltd Array of volumes of polar medium
WO2014064444A1 (en) 2012-10-26 2014-05-01 Oxford Nanopore Technologies Limited Droplet interfaces
WO2015140535A1 (en) 2014-03-21 2015-09-24 Oxford Nanopore Technologies Limited Analysis of a polymer from multi-dimensional measurements
GB201408652D0 (en) * 2014-05-15 2014-07-02 Oxford Nanopore Tech Ltd Model adjustment during analysis of a polymer from nanopore measurements
KR20170042794A (ko) 2014-09-01 2017-04-19 브이아이비 브이지더블유 돌연변이체 csgg 포어
GB201508003D0 (en) 2015-05-11 2015-06-24 Oxford Nanopore Tech Ltd Apparatus and methods for measuring an electrical current
GB201508669D0 (en) 2015-05-20 2015-07-01 Oxford Nanopore Tech Ltd Methods and apparatus for forming apertures in a solid state membrane using dielectric breakdown
GB201707138D0 (en) * 2017-05-04 2017-06-21 Oxford Nanopore Tech Ltd Machine learning analysis of nanopore measurements

Also Published As

Publication number Publication date
SG11202103410TA (en) 2021-06-29
EP3887543A1 (en) 2021-10-06
JP2022509589A (ja) 2022-01-21
US20200176082A1 (en) 2020-06-04
CA3118632A1 (en) 2020-06-04
AU2019389841A1 (en) 2021-05-20
CN113166804A (zh) 2021-07-23
GB201819378D0 (en) 2019-01-09
WO2020109773A1 (en) 2020-06-04
JP2023126856A (ja) 2023-09-12
KR20210095641A (ko) 2021-08-02

Similar Documents

Publication Publication Date Title
BR112021008198A2 (pt) método e aparelho de análise para analisar um sinal derivado a partir de um polímero durante a translocação do polímero em relação a um nanoporo, e, sistema de medição e análise de nanoporo.
CN110546655B (zh) 纳米孔测量结果的机器学习分析
JP7512218B2 (ja) ポリマー単位を含むポリマーの解析
US20170096703A1 (en) Analysis of a polymer from multi-dimensional measurements
JP6226888B2 (ja) ポリマーの測定の解析
US20170091427A1 (en) Model adjustment during analysis of a polymer from nanopore measurements
de Lannoy et al. A sequencer coming of age: de novo genome assembly using MinION reads
BR112020022257A2 (pt) conjunto de polímeros biológicos habilitado por aprendizagem de máquina
WO2023094806A1 (en) Nanopore measurement signal analysis
US20210035656A1 (en) Systems and methods for joint event segmentation and basecalling in single molecule sequencing
US20220213541A1 (en) Method for determining a polymer sequence
Abbaszadegan An encoder-decoder based basecaller for nanopore dna sequencing
US20240120027A1 (en) Machine-learning model for refining structural variant calls
WO2024094966A1 (en) Biochemical analysis system and method of controlling a biochemical analysis system
Silvestre-Ryan Computational Methods for Higher Accuracy Nanopore Sequencing
Díaz Carral Deep LearningModel for DNA Reads through Nanopores
Shen Bayesian inference methods for next generation DNA sequencing

Legal Events

Date Code Title Description
B25D Requested change of name of applicant approved

Owner name: OXFORD NANOPORE TECHNOLOGIES PLC (GB)

B11A Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing
B11Y Definitive dismissal - extension of time limit for request of examination expired [chapter 11.1.1 patent gazette]